人工智能在教育考试评测中的应用探索论文

人工智能在教育考试评测中的应用探索

竺博,付瑞吉,盛志超,汪洋

(科大讯飞股份有限公司,安徽合肥,230001)

摘要: 本文围绕人工智能在教育考试评测中的技术进展,介绍人工智能技术在考试阅卷中辅助人工的应用成果,说明在各类考试中的填空题、作文题等题目中利用智能辅助评分所取得的效果,以及未来考试评卷中人工智能研究应用发展方向。

关键词: 人工智能;计算机评分;智能辅助评分

0 引言

近年来,随着核心算法的突破、海量数据的有效支撑以及服务计算能力的显著提升,以深度学习模型为基础的人工智能技术在感知智能、认知智能等多个领域均取得重大突破。智能语音技术正以输入法、翻译机等实用度高的系统帮助人们进行更便利的信息传递和交互沟通;能够媲美人眼分辨水平的人脸识别、指纹识别等生物特征识别技术也已被广泛实用于快速身份认证的多个领域;在由斯坦福大学发起的国际权威机器阅读理解评测SQuAD(Stanford Question Answering Dataset)1.0/2.0挑战赛上,科大讯飞所研发的人工智能阅读理解系统取得了全球首次超越人类推理问答平均水平的结果,这是认知智能的一次重要突破。可以说,人工智能正以爆发性的增长改变更多行业已有的生产模式,并为它们赋以新的发展和上升动能。

在教育考试评测领域,人工智能技术也正在全面深刻地影响着教育理念、教学模式和考试方式;建立在智能语音技术基础上的普通话机测机评、英语听说机测机评等已经实用;从2005年起,国家普通话等级考试全面采用口语智能评测技术,截至当前通过机器辅助学习的方式帮助累计3000万考生顺利完成普通话的评测和学习;在2012年,科大讯飞将英语智能口语评测技术首次在广东高考英语口语考试中验证成功并实用,目前已推广到全国20多个省市的中高考英语口语考试中,该系统依托智能语音识别、评测、语义理解等多项技术,实现了自动化考试和评分。进一步的,围绕《国务院关于深化考试招生制度改革的实施意见》针对考试招生工作明确提到提出的“改进评分方式,加强评卷管理,完善成绩报告”[1],人工智能技术在纸笔考试中的研究和应用探索也开始启动,探索将人工智能评分技术与评卷方式进行深度融合也成为当下的研究热点,如图1展示了评卷技术的主要演进变化阶段。可以看到,随着时间的推移和技术的不断进步完善,评卷技术越来越强的智能化趋势非常明显,人工智能技术的应用对于解决人工阅卷存在的工作量大,人员需求量多、组织工作繁琐、易受主观因素影响、难以有效监控等问题有很大帮助。实现对纸笔考试中主观性题目智能识别与辅助评分,也能够及时发现各类异常试卷,辅助人工进行阅卷质检,提升阅卷质量。目前已经各地中、高考、CET等多种类型的考试及模拟考试中已进行的人工智能技术的辅助评卷应用验证,均取得了良好的效果。[2]

本文的主要从纸笔考试中的填空题、中英文作文题的计算机智能辅助评分的技术应用情况出发,说明目前人工智能技术在教育考试评测中的相关技术探索及应用实践效果。

采用NG出口温度同SCV水浴温度的串级控制,串级控制方案如图1所示,主被控变量是NG出口温度TIC001,副被控对象为水浴温度TIC002,操纵变量为燃料气的流量。该方案将影响水浴温度的相关干扰因素如燃料气的流量、发热量、压力、风量和燃料气的配比等引入副回路,取得不错的效果[8]。

图1 评卷技术的演进变化

1 智能评测技术在填空题评测中的应用

1.1 关键技术原理和步骤

智能评测技术在填空题评测中的应用主要包括图片预处理、手写体字符识别、机器对比答案判别等几个关键步骤,下面将这几个关键步骤所用到的关键算法依次进行介绍。

(1)图片预处理:该步骤是整个计算机智能辅助评分的起点,其包括答题卡板式标定,通过人工辅助的方法,在计算机自动识别区分的基础上进行作答目标区域检测结果的修正,保证所有可能的作答范围都被选定进入图文识别目标的检测区域中;图像倾斜矫正,通过点线结合的水平和垂直方向的矫正算法,计算待计算图像与上一步中标准模板图部分关键信息目标区域的图像匹配度量值混淆矩阵,选取出最适宜标定旋转的目标图与模板图的对应位置,完成待识别图像与目标图像的滑动相似匹配计算,找到最优旋转变换仿射变换因子系数(相对原图的旋转方向和旋转角度),形成待识别图像的旋转变化指导值,从而完成图像的矫正;图像噪声点线去除,主要采用的是一种增强的线段分割检测算法进行直线和线段检测,该算法可以动态估算线段宽度能够更完整的去除图片中的线段干扰,最后根据直线和笔迹之间的关系进行线的滤除操作,这个过程可以很好的去除识别目标图像中的各种方向的长短线段干扰,提升最终识别结果;手写体印刷体分离,采用了类似图像目标检测任务中所用到的卷积神经网络模型,该模型具备基础的快速候选区域的卷积神经网络模型(Fast-Region Convolutional Neural Network,Faster-RCNN)[3],根据分类结果,给出印刷体和手写体的目标检测区分,在经过以上步骤后,检测出的手写体可以使用识别模型进行图文识别转换。

对于填空题的评判标准较为简洁清晰,每个题目的人机评判结果是否一致为评判依据,也就是人机判别一致率指标:计算机评分和现场评分之间的分差在一定范围内则视为评分一致;对于填空题,我们通常要求人机评判每题分差为0则被视为一致。

图2 人机结合的填空题智能评分流程

图3 基于深度学习的CRDNN-HMM文档识别处理统一框架图

图4 数学科目填空题的一个识别判别样例

*由于绝大多数样本报道分是由评分阈值以内的人工两评取平均分获得,所以将人工1评分或是人工2评分与报道分相比都能够获得很高的相关度和一致率。

(4)人机结合的填空题评分流程:在经过上述的关键步骤处理后,在业务操作过程中就可以得到对所有待评分样本的机评结果,当前在大多数各类考试评卷中,填空题型人工评卷主要采用人工双评模式,若双评评分不一致的数据再交由第三位评卷员进行仲裁判定,在实际操作中,客观存在一些由于考生书写规范或下笔较轻导致图像笔迹颜色淡等问题导致评卷员误判案例,而此类问题在计算机智能识别中又容易被准确识别出来,因此在填空题型的原有流程上增加智能评卷结果的一致性对比,不一致数据交由人工再确认,降低误判比例,达到进一步提升评分质量的目的。另外,在一些作业练习的应用场景下也可以将机评结果直接作为评判结果给用户反馈,如速算拍照的检查作业。

1.2 应用测试效果举例

(2)手写体图文识别:在上步中获得了各个待识别目标区域后,逐个这些区域可以送入识别引擎进行图像文字识别,其具体的处理过程是把图片整张送入识别引擎,经过滑窗特征提取后送入识别模型进行字符识别。这个模型的结构是一个复合型的基于深度化的卷积神经网络-循环迭代神经网络特征抽取的隐马尔科夫模型(Convolutional-Recurrent-DeepNeuralNetworkbased Hidden Markov Model,CRDNN-HMM)结构[4](如图3),其主要包括了三个主要模块,卷积神经网络模块(Convolutional Neural Network,CNN),该模块是对待识别的手写图片行进行滑窗分帧,在每一帧上使用CNN网络模型提取特征,这里的CNN网络模型的结构设计参照了对孤立字符识别效果最优的卷积和池化结构,这样所提取出的字符特征具有平移不变性,特别适用于自由手写识别,该特征序列再经过后面的循环迭代神经网络(Recurrent Neural Network,RNN)层后,使用RNN的上下文连续记忆特性能够完整的使用到文本片段的整句信息,在填空题的应用场景下,该模块效果不如连续长文本的识别显著,但也能通过简单的实现来提升识别效果,比如在填空题识别时采用单层,而在长文本图片输入时采用多层模型结构,最后经过多层RNN的特征变换再经过一个全连接的(Deep Neural Network, DNN)深度神经网络连接层做进一步非线性变换,输入到最终的隐马尔科夫模型(Hidden Markov Model,HMM)形成针对整张图片的特征状态序列,从而借助HMM的结构,通过动态规划算法得到最大后验概率的序列输出,也就是最优的识别结果。本文中的手写识别系统基于上亿有效人工书写样本,训练得到前述的神经网络模型,并且已经在2015年起的多项重要考试的模拟考试中获得验证,该系统对中学阶段的学生手写中文、英文字符识别正确率均超过97%,达到人工相当水平,使得评分、批改等相关功能可行。

本文所述系统在某省的一次全省范围的高考模拟测试中,进行了验证性的测试,其结果如表1所示:从中可以看到,目前机器评分的准确率已经较高,在与人工评分对比后,数学填空题与英文填空题整题多空的判别人机一致率均超过了95%,以小题计算的人机一致率也均超过了98%,这个结果是与一般考试中人人的一致率是相当的,机评结果可以作为在评分中作为质检和辅助手段被使用,其效果是可靠可信的。这里需要补充说明的是,优于学生书写质量的偏差,对于一些识别效果较差,结果语义可读性差的、识别结果可信度低的学生样例,机评系统做了直接抛出给人工进行评判的方式进行处理。

表1 某省高考模拟测试的填空题人机评分一致率对比

2 智能评测技术在作文类主观题评测中的应用

2.1 关键技术原理和步骤

面向英语作文、语文作文等主观题类型的计算机智能辅助评卷系统,其工作的关键步骤主要包括:试卷图片数据处理、专家定标评分、多维度计算机智能评分等几个主要部分。

(1)试卷图片数据处理:该过程完成所有扫描后作文图文数据的文字识别,完成成电子化,供后续计算机评分处理使用。将考生手写的作答内容进行准确的识别转写是整个自动阅卷评分技术关键所在,基于前述面向填空题的识别方案,在其基础上升级使用基于启发式的版面分析理解算法能够获得更优的版面理解效果,面向作文这种图文内容,主要包括行切分、涂抹块检测、插入行检测等工作。智能阅卷评分系统已经使用一套完善的基于神经网络的“端到端”(图片直接输入,文字识别直接输出)识别处理方案,其主要采用全连接的卷积神经网络模型(Fully Connected Convolutional Neural Networks,Fully-CNN)进行的版面分析理解,而文字识别部分则如本文前一章节所述的CRDNN-HMM模型进行字符识别。在实际的系统处理过程中,通过图像质量和识别文本内容的双重检查,筛选出识别准确率低,易对评分造成偏差影响的样本;同时,还会基于大数据的文本检索算法,实现目标文本相类似的样本,让机器自动发现特殊作答、乱写、套作、雷同、空白等高风险分问题样本并进行标记,提交给人工进行评分判别。

通过以上机评结果与人工评分结果对比可以看到,机评结果与人工评分最终的报道分相比,已经有很高的相关度,并且其评分可以视为第三人的人工评分,其可以被用于阅卷的评分质检等环节,起到良好的提升评卷效果作用。

(2)专家定标评分: 这个环节是进行定标集样本的选取,首先进行文本聚类分析,并考虑抽样考生地域覆盖、水平覆盖情况等因素聚类选出最具有代表性的样本组成定标数据集合,提供给专家评卷老师进行定标评分;智能评分系统通过深度学习算法参数化专家老师在这些定标试卷上的评分结果和特征的对应关系,也就是结合实际样本评判结果的人工专家对评分标准的理解和执行,让机器形成与专家老师定标标准相一致的评分标准。定标集的评分效果准确性影响是直接影响机评模型的学习效果的,通常定标评分过程都由有评分经验的专家组来完成。在多次的实际操作过程中,我们发现在大规模考试应用的场景中,为了能够让评分模型更好的学习到各档次不同水平学生作答样例,在预先评卷前的专家定标以外,还需要从正常海打的评分样本中选取部分优秀评卷员的评分样本补充进入定标集,来调整评分模型,增加其评分的鲁棒性和可靠性,让其具备更加适应于当次考试学生水平的样本覆盖。

(3)多维度计算机智能评分:作为自然语言处理中的经典问题,目前已经有较为成熟的算法进行文字片段的序列化处理,及后续的特征提取等工作。主要的处理步骤是首先对待处理文本进行数学参数向量化的特征表示转化,这里主要采用的是词向量模型[5]等方法,通过预先收集的海量中小学生作文文本,训练词向量的基础变换参数模型,这一步就是将文本进行向计算机能够处理的数字特征空间的转化的关键流程。通常每一篇文章中的每一句话及每一个词都具有自己的高维向量特征标识,将其进行前后拼接,便组成了一篇文章的语义向量矩阵,在此基础上就可以进行更为复杂的计算机算法处理[6],以上都和所要处理的文本片段内容相关。这里需要注意的是除了传统的词向量表征方法以外,2018年10月,大规模预训练语言模型[7](Pre-training of Deep Bidirectional Transformers for Language Understand-ing,BERT)的提出也是一项重要突破。该训练模型能高效抽取文本信息并应用于多项自然语言理解任务,该研究凭借训练模型刷新了11项相关领域比赛任务的历史最优性能记录。不少研究者认为这标志着自然语言理解领域研究进入新的阶段,该模型的特征也可作为一个优秀的基于大规模数据统计的特征,作为词向量特征的有益补充,提升整个系统的效果。

1994年,互联网第一次接入中国,24年间,网络已经将中国人的生活从线下移植到线上,人们在线上交流、购物、娱乐甚至理财与投资。人们自如地在线上与线下间切换,享受生活。当人们刚刚习惯网络互联的世界,互联网技术的发展已经悄然走进转型期,进入下半场的创新融合之中,一个全新的数字世界正在开启。

用于训练评分模型的机器学习算法简述如下:上述基础特征与每篇文章样本的词向量矩阵拼接在一起就形成了待评分作文样本的完整抽象数学表示,这个数学表示可以数字化表征作文,每一个维度都以数值表示,并由维度对应的权重来体现,作用越大权重越大,反之亦然,权重即回归模型,可以通过机器学习算法训练得到。

相比前述的填空题评价标准,作文题这类主观性强的作答题目其评价评分的指标主要包括(1)相关度:相关度是评分是否可信的重要指标,又叫相关系数,可以反应两种数据之间的一致程度,取值范围是-1~1,分值越高说明两组评分一致性越高,也就是对样本优劣排序越为一致;(2)平均分差:计算机评分和现场评分之间的分差的平均值,反映人机评分之间分差大小;(3)一致率:计算机评分和现场评分之间的分差在一定范围内视为评分一致(按照高考作文阅卷的习惯,取满分的一定比例作为分差的阈值,英语作文满分为25分,通常分差小于5分时评分一致,语文作文满分60分,通常分差小于7分时评分一致)这个标准也同样适用于人工两评结果间的比较,在人工双评阅卷中不一致的作文须第三人复评,以保证评分的准确性。一致率的比例也可反映出将来实施人机双评后复评率的高低。另外,如果将计算机视为一个评分员,也可以参考其在所有评分样本上的评分均值和方差分布等参数来进行评分效果的说明比较。

2.2 应用测试效果举例

具体来说,将这个数学表示矩阵通过多层的深度循环神经网络的迭代后,可以将长短时记忆网络模型(LongShortTermMemory,LSTM)单元层的输出拼接为当前文章的特征向量作为回归特征即完成了文章的深度网络内容特征提取。将定标集合样本进行同样的特征提取,并以专家评分作为目标即可进行岭回归等统计分析方法以获得每一维特征对应的权重,即当次考试的回归评分模型。整个系统的描述可以参看图5。

除了以上文本片段直接的特征空间向量化以后,还会对待处理的每篇文本提取其它维度的特征,这些特征与前面的词向量矩阵一道就组成了完整的待评分作文篇章的特征就矩阵,这些特征主要包括:字迹工整程度、词汇丰富度、句子通顺性、文采、论辩结构、离题检测、立意判别等。

图5 计算机智能辅助评分用于中英文作文智能阅卷评测处理流程图

在某次省级的高考模拟测试中,共有有效考生语文作文28473份;其中用于定标集合的为800份样本,除去各类异常后对27650份样本进行了有效的机评;共有有效的考生的英语作文28442份;其中用于定标集合的为800份样本,除去各类异常后对27561份样本进行了有效的机评。其主要指标如下所示:

赵锡田把铅笔在一八八团阵地上画了个圈,此刻,外面的炮声早已停息,他知道,肉搏战已经展开。坚守了三天三夜,一八八团早已被打残,绝对应付不了这场屠杀式的肉搏战。

表2 语文作文机评结果与人工评分的结果对比

(3)机器对比判别:这一步骤主要是基于标准答案对识别结果进行判别评分,这里需要注意的是,对于同一答案的多种表达样式均需要进行扩展和覆盖,这里需要一个动态的等价语义扩展调整判别,比如(1/2)和(0.5),(a+b)和(b+a),等这样的答案对均需要被判别为正确的。

图6 语文作文评分员和机评的评分均值方差分布散点图(橙色点为机评)

表3 英语机评结果与人工评分的结果对比

大峡谷村游客中心结构价值图显示,近70%游客认为乡村旅游地的公共服务设施如安全设施、特殊群体设施、停车场地、厕所等是游客中心最重要的属性之一,而实证研究发现,游客对于服务设施的感知价值仅为3.60左右,总体满意度较低。此外,较多游客反映大峡谷村覆盖范围广,道路建设不完善,景点连接也存在“最后一公里”的问题。目前,大峡谷村观光交通只限于景区巴士,游客须等候较长时间,缺乏人性化设计,不能满足自由行的需求。

图7 英语作文评分员和机评的评分均值方差分布散点图(橙色点为机评)

3 总结和展望

目前,基于人工智能的计算机自动评分系统在现有网评过程中所展示出来的自动化程度、智能化程度、算法先进性、结果准确性、快速高效性等优势已获得有效证明;其强大的数据处理能力,完备的辅助质检功能,能够在更大程度上保证评分的客观公正。在实际应用过程中,如何更好地将人工智能技术与现有网上评卷技术结合起来,实现技术与业务应用的深度融合,是值得进一步探索和实践的[8],整体系统如图8所示。

智能阅卷技术通过精准的图文识别技术,可以将原有图片化存储的学生作答试卷进一步进行文字电子归档,将全部考生作答信息都电子化的能力能够提供海量准确的分析数据为教考研究提供有力素材,提升考后数据分析的全面性灵活性。

绿色系数的计算方式为:优先顺序中相邻2个能源子系统的耗电量之差比上优先顺序中最前能源子系统与最后能源子系统的耗电量之差。

智能阅卷技术通过精准的图文识别以及海量文本检索技术,能够准确的从十万级考生样本中,筛选出与目标文本相似的作答片段,这项技术可以有效的提升对考生作答规范性检测的准确性;对于特殊作答、套作、雷同等样本能够快速提取并标注,这有利于辅助提升人工阅卷评分的准确性和公平性,智能阅卷技术对空白作答答卷、异常及特殊作答答卷的检出,提供了一种全新的质检校验评分合理性的评价手段。

ABB AbilityTM还重磅推出数字化传动装置,该解决方案集设备、软件和服务于一体,借助一站式集成门户,让多个传动装置参数显示在同一平台,有效提升设备运行效率、可预测性和安全性,可减少70%的计划外停机时间,延长30%的设备寿命,提升10%的能源效率。

智能阅卷技术通过对不同考试、不同试题评分标准的学习、调整以及通过对评分专家在定标集合上的评分结果的程序化学习和评分模型生成,使得经过评分专家验证的评分标准在更大范围内由具备专家评分水平的计算机智能评分系统标准化的执行和实施;一方面,具备专家评价水平的计算机智能评分系统可以被设置为类专家评分标准来使用,在全局上作为辅助质检工具,充分有效地保证人工评分质量;另一方面,在验证有效的前提和标准下,可作为某些考试或某些分数段的一评评分,逐步替代多评情况下的人工一评评分,起到节省人力、缓解评卷员短时间高强度的工作压力的作用,这种人机结合的智能阅卷方式能够有效优化配置人力投入成本,保证评分效果进一步提升。智能阅卷技术还可以用作阅卷员培训的参考标准,用以辅助短期内的人员强化培训、考核阅卷员是否达到上岗合格的标准的有效手段。

通过稳油降水措施在该区块的应用,对区块、单井进行分析,在积极治理低效无效井的同时,加大油水井措施力度,加强节能新工艺的推广应用,防止有效益井效益类别下滑及新低效井的产生,巩固了区块开发效益。共实施压裂、补孔、堵水、调参、调冲、间抽等各类调整共1109井次,与运行计划对比,实现水驱年控水16.1×104m3、年控液11.9×104m3、聚驱年控液 7.3×104t,节电 505.34×104kWh,节气19.2×104m3,年收益1.33亿元。

图8 人工智能评分系统深度融合网评系统实施流程示意图

随着人工智能技术的发展,在教育的自动评测领域会有越来越多的新产品、新服务出现,比如全学科、全题型、全学段的自动评测技术的研发和应用,这些应用必将提升教育评测的现有技术和水平,为广大师生、家长带来更多的价值和便利。

参考文献

[1]国务院关于深化考试招生制度改革的实施意见[EB/OL].(2014-09-03)[2018-12-10]. http://www.moe.edu.cn/jyb_xxgk/moe_1777/moe_1778/201409/t20140904_174543.html.

[2]何屹松,徐飞,刘惠等,新一代智能网上评卷系统的技术实现及在高考网评中的应用实例分析[J].中国考试 ,2019(1):57-65.

[3]Ren S, He K, Girshick R B, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

[4]Abdelhamid O, Mohamed A, Jiang H, et al. Convolutional neural networks for speech recognition[J].IEEE Transactions on Audio, Speech, and Language Processing, 2014, 22(10): 1533-1545.

[5]Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J].neural information processing systems,2013: 3111-3119.

[6]Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis ﹠ Machine Intelligence,2017, 39(4):640-651.

[7]Devlin J,Chang M,Lee K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[J].arXiv:Computation and Language,2018.

[8]何屹松,孙媛媛,汪张龙,等.人工智能评测技术在大规模中英文作文阅卷中的应用探索[J].中国考试,2018(6): 63-71.

The exploration of artificial intelligence and its application in educational examinationassessment evaluation

Zhu Bo,Fu Ruiji,Sheng Zhichao,Wang Yang
(IFLYTEK Co. Ltd.,Hefei Anhui,230001)

Abstract: This paper introduces the application and exploration of A.I. technology to assist scoring in examination. This paper explains the assisted manual assessment results of the gap filling,composition and other questions.The results are as follow: the performance of A.I. scoring in terms of stability and accuracy has reached the level of manual scoring,achieving the goal of partially replacing manual scoring.Finally,this paper makes a further look at the artificial assessment technology.

Keywords: Artificial Intelligence;Assessing Scoring;Human-machine Cooperation

标签:;  ;  ;  ;  

人工智能在教育考试评测中的应用探索论文
下载Doc文档

猜你喜欢