与时俱进 做好课程改革的“仆人”——2003年高考(上海)历史卷阅卷改革报告,本文主要内容关键词为:仆人论文,与时俱进论文,上海论文,课程改革论文,报告论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来,随着素质教育的深入和课程改革的发展,中学历史学科的许多大规模考试引进了以创新或颇具个性特征的实践能力为考查目标的大型开放式试题,(注:分值至少在10分以上,甚至20分以上.视角的选择、材料的运用、观点的确立、论述的逻辑、文字的表达等均有相当自由度的试题,如小论文、研究设计、调查报告、“读史一得”等)这种试题的生命力就在于“活”,鼓励考生表现自己的个性特长和学术倾向。然而,这种试题几乎不可能列出“要点”以实现“硬批”,只能列出评分的方面和规则。阅卷评分时,则更多地依赖评阅者的理解与认同。这使类似于语文学科作文评分的问题——试题越活,误判、错判率越高的评分信度问题就日益突出。它直接制约了命题,成为课程改革的“瓶颈”。(注:该问题原国家教委、教育部曾在“八五”“九五”科研课题中列专项攻关,但由于多种原因,其成果在实践上虽有收效,却很不理想)
2003年高等院校招生秋季考试(上海)首次对12915份历史答卷引入专家团体整体评分法和运用现代信息技术进行网上控制阅卷,试图较好地解决以上问题,为各界所关注。本文就这项改革的提出、实施和效果作较为详细的报告。
一、原因分析
过去,高等院校招生考试(上海)中学历史答卷采用的是手工操作的“一人阅卷、一人复卷,定组、要点阅卷法”,即将阅卷者分成若干组,每组两人,组内互相阅卷、复卷;遇到分歧时,两人协商解决,若解决不了,再交阅卷中心组裁定的方法。在此流程中,每包试卷至少在每位阅卷员手中周转一次;每份试卷的总分合成要经过由人工进行的——阅卷员小计和记录大题分,再合计和登录试卷总分;设专门的计算员复核小题、大题与试卷总分;阅卷检查组随机检查与更正;机房人员两次输入总分、然后由计算机复核、计算、登录总分。考生查分时,查分员需到库房找到试卷,再次根据阅卷记录计算总分,核对原计算的正误。试卷与考生质量统计分析时,需重新抽样、记分输入、计算推断。在短短的十余天中,要准确无误地进行以上工作,所有参与人员都是十分紧张的。但这样的阅卷方式却存在以下两类问题:
第一,阅卷方式的问题
从理论上看,“一人阅卷、一人复卷,定组、要点阅卷法”的优点是在“要点”面前人人平等,显得比较“硬”而一致,有较高的“标准”化程度。但用这种方法评阅主观性试题的答案,特别是评阅大型主观性试题的答案时,却忽视了答案的整体性与个性,如思维的逻辑性、独特性,文字表述的流畅性、特殊性。由此,鼓励了教学中程式化、“八股”化的不良倾向,甚至助长了不求甚解的机械学习。为此,命题者曾采用了许多补救措施,如制定针对上述问题的评分细则或奖励措施。然而,从实践上看,由于大规模考试的阅卷时间紧、“包干”制度、阅卷者的主观因素和其它众所周知的操作上的原因,使这些补救措施甚难实行。甚至在有些情况下,复核者的工作几乎等同于签名,这样,“两两”分组的组织方式不仅使不同组之间,而且使同组之间的偏差有更多的机会延续下去。
第二,手工操作的问题
1.阅卷后期,阅卷员有寻找尚未阅过的试卷之苦;
2.由于整个阅卷流程均为手工运作,多道分数合成、输入,出错概率较高;
3.阅卷检查组的抽样检查类似大海捞针,不用说有许多误判、漏判见不到,即使见到了,也只能见一处,改一处,在此以前的误判、漏判卷,很难再都找回来;
4.由于分数合成存在错误率,考生查分成为必要环节,占用了从阅卷到录取的原本非常有限的时间;
5.试卷与考生质量统计分析只能采用抽样法,存在总体推断的置信区间,影响了分析判断的精度。
以上问题严重地损害了考试的有效性、可靠性和社会认可度。
二、改革方案
第一,对于大型开放式试题,国外常用专家团体整体评分方法,即多位专家根据明确的、但又比较原则的标准,快速观察(或阅读),独立评分,而后去掉极端分数再求平均值或求全平均值的方法(以下简称新法)(注:可参考国家基础教育改革“促进教师发展与学生成长的评价”项目组译(美)Robert L.Lin & Norman E.Gronlund著.教学中的测验与评价.第八章、(美)W.James Popham著.促进教学的课堂评价.第七章,中国轻工业出版社2003年1月版)。最为常见的是体育比赛中,对那些既有规定动作,又有个人创新,且通过观察评分的项目均采用此法。另外,个性张扬比较突出的艺术类评比,更是一向采用此法。这种方法的最大特点是将以评委为代表的专业群体对个性与创新的认可程度作为评价尺度,同时,又兼顾了评委内部对同一对象评价之差异的平衡——以专业群体的“主观”取代了在实际上难以确定的“客观”,以群体平衡的“模糊”替换了在操作上可能误差更大的“精确”,从而提高了评分的有效性、可靠性和权威性。将这种方法用于中学历史学科大规模考试之大型开放式试题的评分是否有同样的效果和可行性?
第二,必须运用现代信息技术,实行网上控制阅卷,确保专家“独立评分”,同时解决手工操作带来的问题。
为此,我们以2002年全国秋季高考(上海)历史试卷第37题为实验试题,运用不同的评分方法进行了比较研究。结果,新法取得了预想的成功。(注:详见中国考试.2003年第10期,“大型开放式试题评分”课题组文.采用专家团体整体评分方法的实验报告)接着,根据专家鉴定建议,我们又在2003年全国春季高考(上海)语文学科上进行了中试,得到了各有关方面的肯定,并取得了大规模运作的经验。(注:春考没有历史科目.考语文人数约8500多人,为中试提供了相当好的条件)经过以上实验和试验程序,上海市教育考试院决定在2003年秋季高考(上海)历史答卷的阅卷工作中引入专家团体整体阅卷法和利用现代信息技术实行网上阅控制卷。
2003年高考(上海)历史试卷有四种题型,共36题。第一次推出了满分为30分,考生可根据试题材料自拟主题的小论文题。(注:详见2003年高考(上海)历史试卷与参考答案)根据以上要求,阅卷设计如下:
1.将36道试题按题型分成四个模块,1至27小题的选择题为第一模块,共60分;28至33小题的简释题为第二模块,共34分;第34至35小题的问答题为第三模块,共26分;第36小题小论文题为第四模块,共30分。答卷经高速扫描仪扫描后,第一模块由计算机自动阅卷,第二、三、四模块转换成电子文本后上局域网控制阅卷。由于第二、三模块都有评分要点,所以,采用两人评分法(简称两评),第三模块是大型开放式试题,按专家团体整体评分法阅卷,只有评分规则,并无要点,采用三人评分法(简称三评)。
2.第二、三、四模块阅卷者分成三大组:第二模块组19人,分成六个小组,每组三人,分别负责六道简释题的评分,大组长一人,只负责仲裁;第三模块组9人,分成两个小组,每组四人,分别负责两道问答题的评分,大组长一人,只负责仲裁;第四模块12人,11人为阅卷员,负责评分,大组长一人,只负责仲裁。
3.为确保每位阅卷员的独立评分,每位阅卷员专用一台独立编号的计算机,总控制台按以上分工将答卷随机分给每位阅卷员评分。每位阅卷员只能看到按以上分工并由计算机随机分配给自己的试题、自己的阅卷情况、即时统计的阅卷进度、每份卷的评分时间、平均所用时间、平均分、标准差等,看不到其他阅卷员的阅卷情况。大组长可看到本模块的试题和本组阅卷员的阅卷情况、需要仲裁的试题以及自己所仲裁的情况,看不到其他模块的阅卷情况。
4.对评分误差采用三道控制措施:
(1)试验评分。在正式评分前进行试评,根据实际情况调整和制定评分细则,并送阅卷检查组备案;
(2)标准比较。每题选择好、中、差三种不同情况的答卷制定标准评分卷,隐去分数,在阅卷过程中不定时发给阅卷员,衡量其阅卷的群体一致性。在36题的专家团体整体阅卷中,此措施对克服评分的趋中性有其特别的作用;(注:实际运作中,因36题的标准差始终处于较高状态,说明并未出现趋中倾向,故未投入)
(3)自我比较。由计算机在每位阅卷员已阅卷中按1%的比例随机抽取样本,隐去其原评分数,隔一段时间后,发回给该阅卷员再重新评阅,衡量其阅卷的稳定性。
5.对最终得分采用三道监控、调整程序:
(1)计算机自动监控与调整。当试题被评阅后,由计算机自动进行临界域值的比较:第二模块试题的临界域值为2分,即当两位阅卷员评分的差异小于2分时,计算机自动求平均数,做4舍5入处理后为最终得分,当两位阅卷员评分的差异等于或大于2分时,计算机自动发给本模块大组长仲裁;第三模块试题的临界域值为3分,即当两位阅卷员评分的差异小于3分时,计算机自动求平均数,做4舍5入处理后为最终得分,当两位阅卷员评分的差异等于或大于3分时,计算机自动发给本模块大组长仲裁;第四模块试题的临界域值为5分,即对三位阅卷员评分进行两两比较,当所有差异小于5分时,计算机自动求平均数,做4舍5入处理后为最终得分,当其中有一个比较值等于或大于5分时,计算机自动发给本模块大组长仲裁。
(2)大组长即时监控与调整。每个模块的大组长接到计算机发给他的需要仲裁的卷子后,依据评分要点或规则与细则进行复评,以此为最终得分。另外,大组长还可根据他所看到的本组每个阅卷员的情况,如即时统计的阅卷进度、每份卷的评分时间、平均所用时间、平均分、标准差、频数分布等,对每个阅卷员进行比较,发现问题,及时纠正。
(3)检查组即时监控与调整。检查组可以看到所有的答题卷面和已评分数及打分时间(精确到秒)。另外,还能看到如下即时统计:
①所有阅卷员的进度、已评题的平均分、标准差、频数分布图、平均每题所用时间等;
②所有小题的评分进度、已评题的平均分、标准差、频数分布图、平均每题所用时间等;
③各大组的评分进度、已阅卷的平均分、标准差、频数分布图、平均每题所用时间等;
④用数据与图像显示的总体评分进度。
检查人员可以通过以上数据的比较,发现哪一题、哪一位阅卷员、在哪一评分段“与众不同”,(注:由于是计算机随机发卷,理论上同一题不同阅卷员的评分结果在主要参数上应当基本相同)然后查找这位阅卷员在这一评分段的答卷,作具体评分检查。
发现问题,检查员不能直接重判,可启动“发回重判”程序,使该卷、该题回到阅卷流程,由阅卷员再判。
三、实施小结
阅卷结束后,上海市教育考试院召开了检查组、阅卷组、计算机总控室人员与有关专家参加的座谈会,对采用专家团体整体阅卷法和网上控制阅卷进行了小结,看法几乎是一致的——本次阅卷质量远高于往年:
1.由于利用了现代信息技术,使在大规模考试中大型开放式试题采用“专家团体整体评分法”有了保障,为命题扩展了空间——为考生在大规模的考试中表现自己的个性特长、学术倾向提供了舞台,提高了考试的效度,有力地支持了转变教与学之方式的改革;
2.由于采用了三道误差控制措施和三道监控、调整程序,大大提高了评分的信度——客观、公正和一致性。原来担心采用“专家团体整体评分法”可能会出现“趋中”倾向,实际并未产生,第36题的标准差在阅卷过程中一直处于5.50~6.00之间,最后停在5.77。
3.由于是计算机自动处理分数,使分数合成达到0错误的水平,考生查分已无必要。同时,对试卷与考生质量可以作全数据统计的评价,无需抽样,使分析判断的结论更为精确。
4.本次阅卷所用时间与以往基本持平,但由于省去了人工搬送、翻页、加分的程序,大大提高了阅卷的净效率,使绝大部分时间都直接用在阅卷上。换句话说,是将提高效率省下的时间再投到了提高质量上。
引入专家团体整体评分法和运用现代信息技术进行网上控制阅卷不仅是方法和技术改革,更重要的是“考试要为素质教育服务,要做好课程仆人”的理念改革。它大大提高了考试的效度、信度和社会认可度,其先进性是毋庸置疑的。
四、问题探讨
由于是初创,尚有许多方面可以作进一步的改进:
1.答卷问题
答卷的设计在题号和预留空间上与试卷是一一对应的,每个阅卷员只能看到规定的题号下的空间,有些考生在该题预留空间中答错后划去,并注明将正确答案写到别处,这应当视为合理的行为。但此时,该阅卷员就无法看见这一转移位置的答案,需由总控人员专门操作搜寻。建议在每份答卷的最后预留2~3个供考生重答的空白框,使其位置规范化,便于阅卷员根据考生在原预留空间中所作的说明找到其重答的内容。进而言之,今后应创造条件,让考生直接利用计算机考试,既避免了试卷与答卷分离的情况和将答卷再转换成电子文本的过程,又便于考生答题时改错,并免去阅卷员辨认字迹之苦。
2.阅卷问题
(1)试验评分程序可先独立进行,然后再融入正式评阅过程,如某阅卷员出现问题,计算机在将答卷发给大组长仲裁的同时,自动向其发出警示信号——黄牌;再犯同类错误,则亮出红牌,并自动将其转入试验评分,合格后,再自动转入正式批阅;
(2)增加每题的过程性评分记录,同题的阅卷员应使用不同的颜色与位置。确认后,由计算机小计。每个阅卷员只能看到自己的过程性评分记录,但组长与检查者能看到所有阅卷员的过程性评分记录,便于查找错误所在。今年34题阅卷速度很慢,查找错误也比较困难,就与没有这项功能有关;
(3)这次使用的电脑屏幕太落后,而且没有辐射屏蔽措施,连日长时间操作对阅卷者健康损伤太大,应重点解决,落实人文关怀。以上提到的让考生直接利用计算机考试也与解决此问题有关。
3.总控问题
服务器通道太窄,阅卷过程中多次出现“死机”现象,使已设的一些功能(如问题卷发回重评)难以随时启用。
4.检查问题
(1)缺考卷应在阅卷前剔除,以保证即时统计的准确性(注:本次12915份答卷中有660余份缺考卷);
(2)每题评分结束,应即时求出最终得分参与统计,以保证即时统计的精确性;
(3)可在频数分布图的基础上设卡方检验与分段比较,并使频数分布图像数据化,以增加比较、查找问题的清晰度和速度;
(4)应增加大组长、检查员与阅卷员之间的对话框与情感图标,以便及时、准确沟通;
(5)应增加各种搜索、集合功能,以便集中同类问题卷做复查、返工或其他特殊需求之用。如经仲裁过的试卷、其中评分差异特别大的试卷、雷同卷等。
5.组织问题
目前在局域网上阅卷尚需集中阅卷员到固定场所阅卷,费工、费时,如能设计相应的加密和保护措施,当使阅卷员在自己选定的场所阅卷成为可能。
总之,这是一个前途广阔的先进事物,应及时抓紧研究、开发、推广(注:除全国、省、市、区级考试可以使用外,学校以及其他大规模考试也可以使用,以利于教、学、考、阅四个环节分离,提高考试的效度、信度与社会认可度),使上海教育考试与现代测量、信息技术进行务实有效的整合,早日实现创一流的目标,为素质教育的深入和课程的改革做出应有的贡献。