基于项目反应理论的题库构建及其有效性检验^*——以“现代教育技术”公共课为例

王玥常淑娟^{[通讯作者]} 韩晓玲陆宏

（山东师范大学教育学部，山东济南 250014）

摘要：题库是考试实践中不可或缺的要素，如何构建具有良好试题内容和试题参数的题库一直是教育评价领域关注的焦点。文章以师范生的“现代教育技术”公共课为例，通过探讨基于项目反应理论的题库构建，论述了试题编制的原则、试题的等值设计、试题参数的估计方法以及如何利用信息函数进行题库质量的评价。最后，文章指出了题库构建中尚存的不足和未来研究方向。

关键词：项目反应理论；题库；“现代教育技术”公共课；IRT模型；试题编制

width=51.75,height=51.75

题库是指按照一定的教育测量理论在计算机系统中实现某个学科试题的集合，是严格遵循教育测量理论，在精确的数学模型基础上建立起来的教育测量工具^[1]。《国家中长期教育改革和发展规划纲要（2010-2020年）》明确提出，要“完善国家考试科目试题库”^[2]。在考试的实践化操作中，无论是计算机智能化组卷，还是计算机自适应测验，都离不开题库，题库对心理与教育测量的进一步科学化、现代化起到了极大的推动作用。

一国内外相关研究

20世纪60年代中期，英国首先使用“题库”（Item Bank）一词。20世纪末期，国外开始由专门的研究机构负责题库的建设，如美国教育考试服务中心（Educational Testing Service，ETS）、美国大学入学考试（American College Test，ACT）、英国剑桥评价（Cambridge Assessment，CA）等。在这些机构里，题库不仅是试题的管理平台，而且是命题过程的平台，涉及题目编辑、试测、计算试题参数、等值、参数检验、统计学检验等一系列过程^[3]。题库建设有的基于经典测量理论，有的基于项目反应理论。在使用项目反应理论的题库中，有的采用Logistic模型，有的采用Rasch模型。

20世纪90年代初，我国才开始逐步对题库建设依托的理论进行研讨，进入21世纪后题库建设发展相对较快，一些高校和考试机构开始逐步关注题库建设。梳理国内题库的相关研究成果，可分为以下三类：①简单介绍题库的构建过程，这方面文献往往面面俱到，浅尝辄止，缺少对读者的具体指导。②关注语言类题库建设，如徐良等^[4]通过分析校本试题与历年高考英语真题间的关系，提出建立校本英语题库的建议；穆惠峰^[5]构建了基于项目反应理论的计算机自适应英语语言测验题库。③重视提高题库使用效率的优化算法，如汪文义等^[6]提出了选题策略——KLED（Kullback-Leibler Expected Discrimination）和RHA（Randomization Halving Algorithm）法，并通过模拟证明这两种方法可以兼顾测验效率和题库使用率；程小扬等^[7]分析了在多级评分模型下，两类难度参数分布的题库结构对计算机自适应测验精度和项目曝光度的影响，但这些研究成果因包含复杂的数学模型和专业知识，对一般的教育领域实践者而言借鉴价值有限。

基于已有的研究成果，为了进一步推广题库的普及与应用，本研究探讨了基于项目反应理论的“现代教育技术”公共课题库的构建及其有效性验证，力求内容通俗、易懂，希望为教学一线的实践者提供参考。

在后圈地语境中，十分普遍的一种现象就是从树篱里抽取柴火。树篱生长的很快，马丁斯（Martins）认为如果生长环境好的话，树篱七年以内便可“抹去”“公田的所有痕迹”。[10]范妮在格兰特太太的灌木丛中和玛丽聊天时，提到相关的时间跨度是一样的：“我每次走进这片灌木丛，就觉得树又长了，林子更美了。三年之前，这儿只不过是地边上的一排不像样的树篱，谁也没把它放在眼里，谁也想不到它会成什么景色，现在却变成了一条散步林阴道，很难说它是可贵在提供了方便，还是可贵在美化了环境。也许再过三年，我们会忘记—差不多忘记它原来是什么样子。时间的作用与思想的变化有多么奇妙，多么奇妙啊！”[11]

二理论基础——项目反应理论

项目反应理论（Item Response Theory，IRT）创立于20世纪50年代初，又称潜在特质理论或项目特征曲线理论。该理论除指导题库建设功能外，还可应用于测验编制、项目功能差异的检测、自适应测验、测验等值等。

（1）考核内容

1 项目反应理论的基本假设

①单维性假设：假设在一套测验中只有一种能力被测量，即被试在测验上的表现只能由一个主要因素来解释。②局部独立性假设：被试在某道试题上的正答概率独立于其它试题的正答概率，即在全部试题上的联合正答概率是各个试题正答概率的乘积。

2 项目反应理论的参数模型

IRT使用概率函数预测被试在试题上回答正确的概率，被试的应答结果由被试能力水平与试题特性相互作用产生，本研究题库中的试题采用的是适用于二级评分的Logistic双参模型。

根据具体的工作情况可知星轮的循环次数N2。则可以计算出驱动轮的循环次数为N1=N2×i12。则内齿轮相对于行星轮的循环次数为：

3 项目反应理论的信息函数

①项目信息函数（Item Information Function，IIF）：IRT使用IIF作为建立、分析、与诊断测验的主要参考依据。②测验信息函数（Test Information Function，TIF）：是指测验在某个θ值上提供的信息量，该信息量是θ值上试题信息函数的总和，记作I（θ），通过I（θ）可以计算出能力估计值的标准SE（θ）与测验的信度r_xx。

三题库构建之试题编制

1 “现代教育技术”公共课的考核内容与方式

去年11月二十国集团峰会期间，法国总统萨科齐在和奥巴马的一次私下交谈中谈到了以色列总理内塔尼亚胡。萨科齐说：“我不想再见他了，他是个骗子。”奥巴马回应道：“你也许对他感到反胃，但与你相比，我不得不更经常与他打交道。”

“现代教育技术”公共课的目标是提升师范生的信息素养和现代教育技术能力。2017年，美国颁布的国家教育技术计划——《重塑技术在教育中的角色》^[8]中指出教育技术涉及学习、教学、领导力、评价和基础设施五个领域。2018年，我国《师范生信息化教学能力标准》^[9]中对师范生信息化教学能力标准的框架进行了划分，认为教育技术能力应包含基础技术素养、技术支持学习及技术支持教学三个部分，主要应考查学生教学设计能力、教学实施能力、技术应用能力以及学生的信息素养、信息责任。综上所述，同时结合师范生的实际需求，本研究认为该课程应在掌握教育技术相关理论与知识的基础上，培养学生的教学设计能力和综合运用教育技术进行教学的能力。

（2）考核方式

基于IRT的等值方法有均值—均值法、均值—标准差法、稳健的迭代加权均标—准差法、项目特征曲线法、测验特征曲线法以及Kim和最小卡方法。本研究采用了较为简单并适用于双参Logistic模型的均值—标准差法进行等值计算。

与传统纸笔测验的日渐式微形成鲜明对比的是，计算机自适应测验（Computerized Adaptive Testing，CAT）在教育测量领域异军突起。CAT采用的理论基础是项目反应理论，主要借助计算机技术施测。它不同于一般的计算机化考试（测验过程中试题为固定序列），计算机在测验过程中不仅被用来呈现题目、输入答案、自动评分、得出结果，而且可以根据被试对试题的不同作答结果自动挑选最适合被试的题目，最终对被试能力水平做出最准确的估计。此外，CAT中被试的成绩由正确率和试题难度共同决定，更能体现被试的能力水平。同时，由于提供的题目是最适合被试的题目，故CAT施测的题目数量也比传统纸笔测验少很多。可见，如何构建一个具有良好试题内容和试题参数的题库，正是本研究探讨的重点内容。

基于上述分析，本研究认为能够使用选择题的形式进行“现代教育技术”公共课基本理论知识的考核。

2 题库中试题类型的选择

本研究就如何减少被试对选择题答案的猜测，以及如何实现选择题对不同层次思维能力的考查，提出了以下有针对性的建议：

2.运用问题情境教学，提升学生的自主学习能力。教师可充分抓住教材中简单易懂的概念和定义，直观、具体的图片、资料及STSE问题等设置问题情境，调动学生热情参与，变“要我学”为“我要学”，使学生摆脱对教师的依赖。如教学“原子的构成”时，教师可设置问题让学生自主学习：（1）原子由几部分构成？分别是什么？（2）原子核由哪些粒子构成？这些粒子有哪些相同点和不同点？（3）原子核居于原子中心，它的体积如何？占据很大空间吗？（4）原子核和核外电子都带电，那么整个原子也带电吗？为什么？

此外，学者也一直质疑选择题是否能测出被试的高阶思维能力。高阶思维能力是指发生在较高认知水平层次上的认知能力，它来源于布卢姆的教育目标分类学。布卢姆等^[13]认为教学目标可以分为知识、理解、应用、分析、综合、评价六个层次，Hopson等^[14]将知识、理解、应用归属于低阶思维能力，而将分析、综合和评价归属于高阶思维能力。有研究表明，选择题可以测量除综合能力之外的知识、理解、应用、分析、评价能力，如Scully^[15]通过一定的编制策略，发现选择题可用于评价被试应用、分析层次的能力，且选择题有达到评价层次能力的潜力；另外，Palmer等^[16]在研究中证明了当选择题和主观题测试的认知水平相同时，测验结果显著相关。

采用企业提供的大豆制品配方，在上一步最优结果的基础上，分别加入0.225%柠檬酸+0.075%乳酸、0.200%柠檬酸+0.100%乳酸、0.150%柠檬酸+0.150%乳酸、0.100%柠檬酸+0.200%乳酸、0.075%柠檬酸+0.225%乳酸，灭菌保温后进行颜色检测，计算样品得分。以企业原始配方的大豆制品作为空白对照。

3 试题编写的原则

目前，CAT实施中的试题形式以选择题为主，其评分方式客观，标准唯一，方便对学生能力进行标准化的判断与分析。选择题的优点有：①适合于测量从机械水平到最复杂水平间各层次的教学目标；②学生作答选择题时书写量少，速度快，在一次测验中就可以测试多个知识点，测量的范围更全面；③评价标准唯一，测量结果也就更为可靠，信度更高。国外的一些大型考试，如美国注册会计师考试（American Institute of Certified Public Accountants，AICPA）、美国护士职业考试（National Council Licensure Examination，NCLEX），全部使用选择题形式进行考察。

(1)支模前，应根据构件尺寸进行模板设计，对模板支撑体系进行设计与验算，保证模板具有足够的强度和刚度。

（1）减少被试对选择题答案的猜测

其基本原则包括：①题干和选项的信息简练且不重复；②题干和选项不能提供逻辑线索；③避免选项的意义重合或相反。

（2）实现选择题对不同层次思维能力的考查

使用布鲁姆教育目标学提供的动词，可以使选择题更好地与不同层次思维能力目标相对应，有些词语如“描述”、“解释”等可以使用“选出最恰当的描述”、“选出最佳解释”等代替^[17]。

四题库构建之试题施测

本研究邀请山东师范大学“现代教育技术”公共课的资深教师共编写了256道试题，如果将这些试题同时施测于被试，由于作答试题过多，被试难免会产生疲倦感，从而影响测验结果。一个折中的方法是，将这些试题分成几套平行测验，通过测验的等值设计（等值设计是指等值数据采集方法，包括单组设计、等组设计、锚测验设计和共同被试组设计等），将试题参数放置于同一量表中。

病例讨论教学法培养了学生综合思维能力。教学中除知识和技能的传授外，还向学生提出问题，学生通过查找资料、讨论、情境再现等方式，不仅能消化教科书的重点、难点，还有利于学生对疾病的认识和对护理措施的理解，培养了学生的思维与创新能力。

1 施测对象

本研究的施测对象是山东师范大学2016级的1633名学生，这些被试学习了一学期的“现代教育技术”公共课后，在学期末参加考试。为了保证施测对象能力水平基本一致，每个专业中的学生按照学号随机分成4组，分别作答4套试卷。

2 试题的等值设计

（1）锚题的选择

Lee^[10]指出，因为选择题给出了选项，被试可以依据一些考试经验进行猜测，这就使测验结果不那么有效。但是，Ibbett^[11]等通过分析猜测对测验信度的影响，发现试题的编制中存在问题，导致题干或选项本身为被试提供了相应的作答线索。Bush^[12]的研究结果表明，如果能遵从试题编制的规则，就可以消除猜测对测验结果的影响。

本研究采用在实际应用中更为有效易行的锚测验设计，实现了试题参数的等值。锚测验设计是指给不同的被试群体施以不同的测验，每套测验中都包含部分相同的试题，这些相同的试题是连接各套测验之间的桥梁，被称为锚题。锚题的数量一般占每套测验总题量的20%～25%（本研究将题库中的248道题分成4套测验，每套测验中锚题的数量是20道，非锚题的数量是57道），锚题的选择对于等值过程非常重要，具体应该遵循以下原则：①锚题能代表测验的内容领域以及认知层次；②锚题具有测验统计特征的代表性。

（2）等值的方法

以往，本研究所在的师范类院校对于理论知识的考核一直使用纸笔测验的形式，这种测验形式存在以下弊端：一方面，每年都有数千名学生参加考试，监考、阅卷、成绩统计、试卷分析等工作量巨大，由于是手工操作，容易受到人为因素的影响而出现偏差，从而难以保证测验的公平和公正；另一方面，基于经典测量理论的传统纸笔测验在学习分析中不利于对学生的学习结果进行诊断和矫正，使得学生除了成绩，无法进一步获知自身的学习状况，教师也难以获得有效的反馈信息来改进教学效果。

五题库的有效性检验

1 假设检验

如前所述，IRT有两个基本假设，即单维性假设和局部独立性假设。在应用IRT前，首先需要验证实验数据是否符合这两个基本假设。

①单维性检验：本研究选择了验证性因子分析的方法，验证性因子分析中的拟合指数有：卡方（χ²）、自由度（df）、非范拟合指数（Non-Normed Fit Index，NNFI）、比较拟合指数（Comparative Fit Index，CFI）和近似误差均方根（RMSEA）。χ²/df≤5.0、CFI≥0.90、NNFI≥0.90、RMSEA≤0.08，则表明关于该模型可以接受。本研究分别对锚题和4套试卷进行了单维性的验证性因子分析，拟合结果如表1所示，可以看出锚题和4套试卷均满足单维性假设。

②局部独立性检验：验证局部独立性假设是通过分析残差相关（Residual Correlations）来实现的，如果残差相关小于0.20，则表明局部独立性成立。本研究使用协方差结构模型的统计分析软件LISREL来进行验证性因子分析，残差间的相关可以采用RS命令控制输出。结果显示，锚题以及4套试卷的输出结果中残差相关均远小于0.20，因此局部独立性假设成立。

表1 锚题和四套试卷验证性因子分析的拟合结果

χ2dfRMSEANNFICFI 锚题221.951790.0150.950.96 试卷13650.5428490.0270.910.92 试卷23408.9128490.0190.930.93 试卷33373.8928490.0230.90.91 试卷43424.2728490.020.90.91

2 拟合性检验

假设检验完成后，研究者使用项目反应理论分析软件BILOG进行数据与模型的拟合，并采用模型拟合指数AIC（Akaike Information Criterion）、BIC（Bayesian Information Criterion）和-2LL（-2Log-Likelihood）进行分析。这些拟合指数越小，表示模型与数据拟合程度越好。计算结果如表2所示，可以看出施测数据与双参Logistic模型拟合效果较好。将拟合的阈值设置为显著性水平＞0.001，删除显著性水平≤0.001的试题，最终锚题中删除3道试题，试卷1删除4道试题，试卷2删除3道试题，试卷3删除8道试题，试卷4删除10道试题，合计删除28道试题。

表2 测验数据与模型的拟合数据

-2LLAICBIC 单参双参三参单参双参三参单参双参三参试卷1149241473014763300032983329922304333030730821 试卷2149501474514769300532984129946303523043230832 试卷3142251419514225289902875828852292932935729750 试卷4140081374213783281722787427946284752847328844

3 试题参数的分布

随后，依据试题参数的估计结果以及前文描述的等值方法，完成试题参数的转换。转换后，9道试题的难度值＞4或＜-4，剩余的211道题的难度值介于4和-4之间，将这211道试题入库后，形成了区分度、难度分布如图1所示的题库。从图1可以看出，大多数试题的区分度集中在0.5～1的区间范围内，这表明大多数试题都具有良好的区分能力。由图1可知，题库中试题的难度值基本呈正态分布，其最大值为3.70，最小值为-3.99，平均值为-0.38，难度稍显偏易，符合“现代教育技术”公共课测试基础知识和基本原理的考核目标。

width=286.5,height=105

图1 题库中试题区分度和难度的分布

width=134.25,height=106.5

图2 测验信息量

4 测验信息函数

利用前文所述信息函数的公式，可以计算出题库中211道试题在能力值为[-4，4]区间范围内所提供的测验信息量（如图2所示）。测验信息量在θ=-0.48处达到最大值I（θ）=44.76，能力估计值的标准误SE（θ）=.15，测验信度r_xx高达98%。另外，测验信息量在θ属于[-3.67,2.50]的区间范围内≥20，最小标准误SE（θ）为0.22，意味着在此能力区间范围内测验信度r_xx≥0.95。

六结束语

本研究通过上述步骤，建立起了包含211道试题的“现代教育技术”公共课题库，这些试题呈现出了较好的统计学特性，使得研究人员在使用本题库实施CAT时，可以根据试题模型、试题参数与信息量等指标进行选题、能力参数估计以及设置测验结束的条件，从而保证了测验过程的科学、合理。当然，受制于时间、成本等因素的影响，题库也存在以下问题：①题库中试题的数量还比较少，按照CAT中被试平均作答30道试题计算，同时考虑到试题内容的平衡和试题曝光度的影响，“现代教育技术”公共课的题库中至少应包含350～400道试题。②本题库将应用于CAT之中，但囿于文章篇幅，未涉及利用蒙特卡洛模拟CAT以检验题库功能的过程，另外，题库的构建更需要通过真实CAT的施测，发现问题，达到动态更新的目的。③题库中试题的形式尚显单一，以后可以考虑添加“增强问题”题型，如图形类问题、热文本类问题、方程响应类问题、材料类问题等考核方式，从而更全面地考查被试的高阶思维能力。

但家规是清楚的，懂事起他就熟背“家规三字经”，其中一段就是“……父母亡，亲友痛，长子在，须扶棺，尽孝心，立纲伦……”假如他不回家奔丧，这殡就出不了。但也有一种情况可以例外，假如他战死了，二弟就可以继位，替他扶棺出殡。但仗打了三天三夜，他孔老一连皮毛都没擦破一块。

由图3可知，不同适应活化条件对酵母菌产气能力有较大影响，随活化基质中碳源和氮源含量的增加，酵母菌的产气量基本呈上升趋势。尽管有氧呼吸时CO2的产量远高于厌氧条件下，但厌氧条件活化所得酵母菌在随后的发酵试验中展现了远高于有氧条件活化菌株的产气能力，这可能是由于厌氧条件下，某些参与TCA循环的酶仍然保持活性，这些额外的代谢途径能够合成细胞功能所需的重要前体物质，并决定最终产气体积[22]。

参考文献

[1]余胜泉,何克抗.网络题库系统的设计与实现[J].中国远程教育,2000,(9):53-57.

[2]人民出版社.国家中长期教育改革和发展规划纲要(2010-2020年)[M].北京:人民出版社,2010:21.

[3]李光明.教育考试国家题库理论与实践[M].北京:高等教育出版社,2014:6-14.

[4]徐良,朱正才.高考英语(上海卷)题库命题背景下的校本测验建设——基于完形填空题的案例研究[J].外语电化教学,2018,(1):81-89.

[5]穆惠峰.国际学术英语能力评估系统的题库建设研究[J].外语电化教学,2017,(3):9-14、35.

[6]汪文义,丁树良,宋丽红.兼顾测验效率和题库使用率的CD-CAT选题策略[J].心理科学,2014,(1):212-216.

[7]程小扬,丁树良,巫华芳,等.多级评分模型下的题库结构对CAT的影响分析[J].心理学探新,2014,(5):452-456.

[8]Office of Educational Technology of U. S. Department of Education. Reimagining the role of technology in education: 2017 national education technology plan update[OL]. <https://tech.ed.gov/files/2017/01/NETP17.pdf>

[9]任友群,闫寒冰,李笑樱.《师范生信息化教学能力标准》解读[J].电化教育研究,2018,(10):5-14.

[10]Lee C J . The test taker's fallacy: How students guess answers on multiple-choice tests[J]. Journal of Behavioral Decision Making, 2019, 32(2):140-151.

[11]Ibbett N L, Wheldon B J. The incidence of clueing in multiple choice testbank questions in accounting: Some evidence from Australia[J]. e-Journal of Business Education and Scholarship Teaching, 2016,(1):20-35.

[12]Bush M. Reducing the need for guesswork in multiple-choice tests[J]. Assessment & Evaluation in Higher Education, 2015,(2):218-231.

[13]布卢姆,恩格哈特,弗斯特等编.罗黎辉,丁证霖,石伟平等译. 教育目标分类学，第一分册，认知领域[M].上海:华东师范大学出版社, 1986:6.

[14]Hopson M H, Simms R L, Knezek G A. Using a technology-enriched environment to improve higher-order thinking skills[J]. Journal of Research on Technology in Education, 2001,(2):109-119.

[15]Scully D. Constructing Multiple-choice items to measure higher-order thinking[J]. Practical Assessment Research & Evaluation, 2017,(4):1-13.

[16]Palmer E J, Devitt P G. Assessment of higher order cognitive skills in undergraduate education: Modified essay or multiple choice questions? Research paper[J]. BMC Medical Education, 2007:49.

[17](美)吉尔伯特·萨克斯,詹姆斯·牛顿著.王昌海,张树东,赵丽波等译.教育和心理的测量与评价原理(第四版)[M].南京:江苏教育出版社,2011:118.

The Development and Validity Check of the Item Bank Based on Item Response Theory——Taking the Public Course of “Modern Educational Technology” as an Example

WANG Yue CHANG Shu-juan^{[Corresponding Author]} HAN Xiao-ling LU Hong

(Faculty of Education, Shandong Normal University, Jinan, Shandong, China 250014)

Abstract: Item bank is an indispensable element in the practice of examination. How to develop an item bank with good item contents and item parameters has always been the focus in the field of educational evaluation. Taking the normal students’ public class of “Modern Educational Technology” as an example, this paper discussed the establishment of item bank based on item response theory, expounded the principles of developing items, the equating design of items, the estimating methods of item parameters, and the evaluation of the item bank quality using information function. Finally, the limitation and future research direction of item bank were pointed out.

Keywords: item response theory; item bank; the public course of modern educational technology; IRT models; development of items

【中图分类号】G40-057

【文献标识码】A

【论文编号】1009—8097（2019）10—0041—07

【DOI】10.3969/j.issn.1009-8097.2019.10.006

*基金项目：本文系全国教育科学“十三五”规划课题“计算机自适应测验中认知风格对试题应答时间的影响机制”（项目编号：BBA170069）的阶段性研究成果。

作者简介：王玥，山东师范大学，在读博士，研究方向计算机教育应用，邮箱为38804995@qq.com。

收稿日期：2019年4月2日

编辑：小西

标签：项目反应理论论文; 题库论文; “现代教育技术”公共课论文; IRT模型论文; 试题编制论文; 山东师范大学教育学部论文;

基于项目反应理论的题库构建及其有效性检验-以“现代教育技术”公共课为例论文

一国内外相关研究