应征公民计算机自适应化拼图测验的编制,本文主要内容关键词为:拼图论文,测验论文,自适应论文,公民论文,计算机论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 B841.7
1 前言
随着高科技武器的不断出现和战争形态的不断改变,未来战争对士兵的心理素质提出了更高的要求。作为人类能力结构的重要组成部分,空间能力一直受到各国军队人力资源管理部门的重视。虽然对于空间能力的界定在相关文献中还不够统一,但几乎所有以选拔为目的的心理测验都从未忽视过空间因素的存在与价值。一方面,空间能力测验,尤其是那些通过积木或折纸来完成的操作测验,其实测量的是一般能力因素,而且空间能力通常被看作是创造性思维在社会和数学思维方面的高阶能力因素(Shepard,1978);另一方面,空间能力又被认为是具体的、低水平的思维能力。因此,人们习惯于用空间能力来预测各种操作性和技术性职业,比如木工、汽车修理等。研究表明,很多职业的成功与否都与空间能力高度相关(Alley,2004),空间认知能力对于飞行职业更为重要(Stumpf et al.,1999)。飞行员在短暂的时间内综合处理大量的信息、做出准确判断的决策过程已成为现代战斗机飞行员飞行认知加工的主要特征,这一过程在很大程度上依赖于良好的空间表象能力(McDonald,1981)。Peterson等(1987)研究指出,空间能力和心理运动能力一样,对于与意愿相关的工作(will do)绩效预测力很小,但对与能力相关的工作(can do)绩效的预测性却是明确的,相关系数分别达到0.54和0.49。
正是由于空间能力在军事职业中的重要性,使其成为西方发达国家的军事人员选拔的重要内容。美军在1995年推行计算机自适应化武装部队职业能力倾向成套测验(Computerized Adaptive Testing Version of the Armed Services Vocational Aptitude Battery.CAT-ASVAB)时也保留了空间能力测试的内容。
计算机自适应性测验(Computerized Adaptive Testing,CAT)是基于项目反应理论(Item Response Theory,IRT)而发展起来的一种新的心理和教育测验方式。它通过应用计算机程序为每名被试建构一份与其能力水平最佳匹配的测验,从而减少测验误差和考试倦怠。另外,其优点还表现在可以显著减少测验时间,提高测验效率,有利于保密,能够提供及时判分和反馈、便于网络化施测等方面。尤其值得称道的是通过CAT可以构建新的能力倾向测验,甚至将一些需要动手的测试内容添加进来,开辟测量认知能力的新领域。目前国际上的一些著名考试系统,比如TOEFL,GRE等都有CAT化版本。
作为心理测量领域的重要力量之一,军队人力资源管理部门从CAT出现之初,就对其表现出了浓厚的兴趣(Martin等,1989)。因为军队常常需要在短时间内对大量的候选者的能力水平进行评估从而实现人和岗位的良好匹配,而CAT化测验正好满足了军方的测验要求。目前,在西方国家征兵心理检测中广泛使用的CAT-ASVAB也是CAT化能力倾向测验的先驱,它由美军陆、海、空军以及海军陆战队等多军兵种联合研制,历时达15年之久,创造了心理测量历史上的多个第一。比如,是第一个完全自适应化的多重能力倾向测验;是第一个可以呈现图形类测验题目的计算机自适应测验系统;第一个网络化自适应测验;第一次验证了计算机自适应多重能力倾向测验和传统的纸笔测验具有相同的效力等等。可以说CAT-ASVAB标志着许多技术上的重大突破。研究表明,CAT-ASVAB与传统的纸笔测验相比,具有更好的复本信度。其结构效度也与传统的纸笔测验相一致,在预测效度方面,甚至要优于传统的纸笔测验(Hetter & Sympson,1997)。
我国的征兵心理检测系统已经走过了6年历程,全国百分之九十以上的武装部已经配备了计算机检测系统,开展CAT测验的硬件设施已经基本具备。本研究的目的就是通过在我国征兵入伍心理检测系统中加入CAT化的空间能力测验,从而完善测量内容,并为实现应征青年心理检测系统的CAT化提供理论和经验支持。
2 研究对象和方法
2.1 研究对象
2006年征兵心理检测五个省市的55777名应征青年,均为健康男性,平均年龄18.61±1.22岁,城市人口占41.32%,农村人口占58.68%。
2.2 方法
在文献回顾的基础上,根据项目反应理论和空间能力测验的有关理论,参考明尼苏达纸板测验(Minnesota Paper Form Board,MPFB)和2005年版美军ASVAB中拼图测验的基本题型,编制双向细目表,由课题组人员和某大学三年级学生共同编制原始题目1200条,最后对照双向细目表,选择300题构建试题库。试题为横向排列的5个方框,第一个方框中为构图元素,后4个方框为被选答案,要求被试选出由构图元素正确连接形成的图形。如图1所示。
图1 图形试题举例
首先选取45题采用纸笔测验的形式进行预实验,探讨采用IRT理论编制CAT图形智力测验的可行性。然后,在预实验的基础上对试题进行修订并扩充试题数量,编制计算机辅助测验。选择三参数Logistic模型,采用铆题等值设计,分7份不同的试卷,每卷48题,在全国征兵心理检测的过程中进行施测。根据测试结果,对题目进行分析,选择高质量的题目构成CAT试题库。最后,编制CAT图形智力测验,并以WAIS智力测验积木分测验和三门功课的考试成绩为效标进行效度验证。
所有图形利用CoreDraw 12.0和Photoshop 7.0绘制,动画呈现用Macromedia Flash MX 6.0;计算机编程工具:Microsoft Visual Basic v 6.0 with SP5 Enterprise Version English;参数估计采用Bilog MG 3.0软件;使用的数据处理工具包括Excel XP和SPSS 13.0软件包。
3 研究结果
3.1 预试验
预试验采用了纸笔测验的形式,共45题,被试为2005年新人伍的士兵1450名,平均年龄19.32±1.30岁,均为健康男性,无精神及脑疾患史,受教育程度从小学到大专不等。
3.1.1 资料模型适合度检验 采用因子分析的方法,第一因子特征值为8.53,第二因子特征值为2.40,二者比值为3.55,说明该测验具有较好的单维型,可以应用IRT来进行指导编制和参数计算。图2是因子分析的碎石图。
图2 纸笔测验因子分析碎石图
3.1.2 项目参数和能力估计
选择三参数Logistic模型(3PL),利用Bilog MG 3.0软件包,顺利求出各项目参数和被试能力参数。统计结果见表1。
3.1.3 测验信息函数
在能力参数为-0.70处,可得到测验信息函数(Test Information Function,TIF)的最大值12.30。结果见图3。
图3 纸笔测验总信息函数分布图
从测验信息函数曲线来看,该测验对于能力分布在[-1.5,0]这一区间的被试有较好的测量效果。
3.1.4 测验对士兵绩效的预测性
所用效标为《中国士兵工作绩效评价问卷》,课题组前期研究表明该问卷有良好的信度(Luo,2004)。根据班长对被试《中国士兵工作绩效评价问卷》中41个条目的评价结果得出被试的绩效成绩,计算该成绩和拼图测验成绩之间的相关系数。为了比较CTT和IRT两种测量理论所得结果之间的差异,对CTT和士兵绩效之间的相关也一并列出,结果见表2。
预试验结果表明,拼图测验满足IRT的理论假设,测验成绩和士兵工作绩效之间有显著相关,可以用于士兵的心理选拔。但还需要编制难度更大的项目。
3.2 计算机辅助测验
根据纸笔测验结果,在征求专家意见的基础上,对双向细目表进行修订,主要增加了试题的难度。由课题组人员根据命题要求对所编试题进行筛选,结果共保留300题。为了满足征兵心理检测时间的限制,共组合了7套试卷,每卷48道。采用中心放射式铆题设计,即在7套试卷中,有15道题是共同的。在2006年征兵心理检测中,全部采用计算机随机呈现试卷,记录反应时间并判断正误,共回收有效试卷55777份。
3.2.1 参数估计结果
所有题目均选用3PL模型,用贝叶斯估计法,由Bilog MG软件进行估计。在参数估计中采取了EM算法,将7份试卷同时估计,一次求出所有246个题目的参数。题目和能力参数的统计情况见表3。
从表3可以看出,项目区分度参数平均为1.44,猜测度参数平均为0.20,都比较理想,但项目难度参数平均数只有-0.50,仍然偏简单。
3.2.2 参数不变性检验
为了验证能力参数的不变性,我们采取了将被试所作同一试卷上的题目进行分组,分别求取被试能力参数,然后将同一被试的成对估计值在直角坐标系上标点的方法。如果这些散点形成直线,就说明所选模型是恰当的(Qi等,2002)。同样,对于项目参数,我们也是将两个不同样组上获得的同一试卷项目的参数估计值描点,考察其是否呈线性关系。在此只选择试卷一作为样本说明。在检验能力参数的稳定性时,将试题随机分为2组,每组24题,分别估计能力参数。由于被试人数太多,很多散点直接重合,但基本可呈一条直线。对两组数据之间进行线性回归,标准化回归系数为0.75,基本保持在同一条直线上。
在检验项目参数时,将被试分为两组,分别估计a、b、c三个参数,然后检验两组参数是否呈线性分布,图4是难度参数b的散点图。
从总体结果看,项目区分度和难度参数的线性趋势比较明显,说明这两项指标的稳定性比较好,但猜测指数的线性分布不够理想。
图4 被试分组后同一套题目配对b参数散点图
3.2.3 模型资料拟合度检验 在模型资料拟合度检验时我们应用了项目残差分析。这种方法就是,选定一个项目反应理论模型,估出能力与项目参数,并在假定所选模型有效的情况下对各能力水平组的成绩作出预测,然后对预测成绩和实测成绩进行比较。我们采用美国Illinois大学编制的MODFIT软件来绘制估计的项目反应曲线(Item Response Curve,IRC),并与实测资料的IRC进行比较,这也是建立CAT题库时选择题目的主要依据之一。由于题目太多,这里分别列举一个预测性好和预测性差的题目作为示例,分别见图5和图6。
图中IRF曲线为实测资料的IRC,EMP曲线为估计IRC,所有试题均来自试卷一。
最后根据检验结果,共有20道题目的预测性比较差,其余226道题的预测性良好。
3.2.4 时间对测验结果的影响
IRT的一个重要假设就是测验不能为速度测验(No Speeding Test)。为了探索答对率和反应时之间的关系,我们将答题所用时间以5秒钟为单位分为14个区间,分别统计每个题目每个区间的答对频数,然后对数据进行拟合。从数据录入情况看,反应时和答对频数之间不可能是线性关系,我们选择了四种模型对数据进行拟合,分别是Quadratic模型、Inverse模型、Compound模型和Cubic模型。所有数据回归和曲线拟合以及模型评估均通过SPSS 13.0软件包处理完成。
以第一卷第一题为例,分别采取以上四种模型进行数据拟合并绘制拟合曲线,各模型的拟合指标见表4。
从四种模型的拟合情况来看,Cubic模型拟合最好,复相关系数值达到0.96,判定系数的修订值达到0.91。方差分析的F值和概率值都很理想。对于答对频数为何会在第65至70s之间出现反向增加,可能与猜测和答题策略有关。根据这一结果,最后将每一道题的答题时间限制在70s。
3.2.5 基于概化理论对结果的分析
为了进一步验证本测验的科学性,我们用一元概化理论(Univariate Generalizability Theory,UGT)对计算机辅助测验的数据进行了分析,所用软件为Brennan研制开发的GENOVA,分别研究了p×i设计随机测量模式的G研究变异分量和D研究变异分量,以第三卷为例,结果如下。
一元概化理论G研究各方差分量估计值如表5所示,被试效应、试题效应、交互效应与残差效应三者相比,由被试提供的方差分量最大,这说明,该测验能够有效的引起不同被试不同的反应,造成分数呈宽分布。一元概化理论D研究研究结果见表6,该结果进一步表明,无论是作为常模参照测验,或是标准参照测验,该测验的相对误差和绝对误差都较小,具有较高的测验精度;其中,概化系数和可靠性指标均大于0.90。此外,借助于概化研究,我们还可以考察当题目数量发生变化时,信度指标体系所发生的变动。我们设计了三种不同的题目数量,分别为45、40和35。显然,随着题目数量的逐步减少,概化系数和可靠性指标都略有下降,尤其是当题目数量降至35时,出现了较为明显的低落,这也为编制CAT测验时测验的终止策略提供了依据。
3.3 CAT测验
在计算机辅助测验的基础上选择题目参数和拟合曲线都比较理想的题目构建试题库,采取由张华华等人提出的a系数分层抽样的策略呈现试题。采取预定测验信息量(TIF≥10)和固定试题数目(n=35)两种方式终止测验,分别标为test1和test2。被试为某中学初中二年级学生52名,年龄15.00±1.10岁,均为健康男性,无家族性脑疾患史。将被试随机分为三组,分别标记为组1、组2、组3,各组以不同顺序参加test1、test2和WAIS测验。test1和test2由计算机集体施测,WAIS测验由一名主试统一进行个别测试。根据学校档案记录提取被试初二年级第一学期学校统一考试语文、数学、物理三门功课考试成绩。
3.3.1 两种测验测试结果分析
两种不同终止规则之间在测验题目数量上出现了明显差异,尤其是通过测验信息量来终止测验(test1)时,施测题目数最少的只有9个,而最多的达到82个,个体之间差异显著(SD=16.86)。但在平均测验成绩上并没有出现明显差异。两测验的描述性分析见表7。
从表7的时间结果来看,两种测验差异非常明显,test1的平均测验用时为1091.72s,而test2的平均测验用时为833.15s,都小于20min,但test2的最长用时为2857.30s,超过40min,这在征兵心理检测中是不可能满足的。Test2的测验信息函数介于4.97-11.58之间,平均数为8.61。而testl的终止规则要求测验信息函数大于等于10方可结束测验,因此测验结果更为精确。
如果不考虑效度因素,单纯从测验的可行性来看,test2更适合在征兵心理检测的实际中应用。
从表8可以看出,test1与WAIS智力测验积木分测验的相关系数最高,达0.60,并与数学和物理成绩之间的相关性都达到显著水平(p<0.05);test2也与WAIS智力测验和数学考试成绩有显著相关。但三个测验都和语文考试成绩没有表现出显著性相关。
4 讨论
CAT相对于纸笔测验有许多优越性,主要包括更高的测验效率、更高的安全性能、测验时间的个体化、被试的倦怠和受挫感减少、可以及时给被试以反馈以及可以应用新的或自己创造的测题形式等等(Howard,1990)。这些优点使得CAT日益成为现代大规模测试的主流。
Reckase列出了CAT测验的四大组成部分,包括题库建设、项目选择方法,能力估计方法和终止规则,除了这些基本部分,还有两项CAT测验经常涉及的新课题——内容的均衡性和曝光率控制方法(Reckase,1989)。
CAT题库要求有足够数量高质量的题目,而且难度范围也要够大。另外,还要考虑题库在各个领域内都有足够数量的题目以满足特殊测验的要求(Howard,1990)。题库的大小由测验的长度、被试量、项目曝光率和测验重复率的要求来决定(Bergstrom et al.,1999)。一般认为合适的题库大小应为纸笔测验题数的6到12倍(Stocking et al.,1993; Patsula et al.,1997;Yu,1992),但是由于项目的曝光率,项目的淘汰和题库的轮替等因素,题库的数目要远比这个大。由于许多CAT都是连续施测的,所以项目或题库的有效期就受到了限制。Luecht(1998)提出CAT题库的大小应达到3800到21000之间。本测验的题库只有200多个题目,远远不能满足大型题库建设标准。这也提示我们可能采取确定测验信息函数的终止规则在目前的情况下可能还不可行。
CAT中两个最常用的项目选择方法是最大信息法和欧文的贝叶斯估计法(Luecht,1998),被选中的是对当前被试能力估计值来说能提供最大信息的题目。我们在本研究中,首先是出于对曝光率的控制,采取了a参数分层抽样的方法,在这一原则下,采用了信息最大法,对于这一策略的效果,尚需后续研究来验证。
关于被试能力水平的估计,我们采用了贝叶斯后验期望估计(Expected a posteriori,EAP),它将先验分布分成许多积分点而不是将其作为连续分布来进行评估(Bock et al.,1981)。由于知道先验信息,所以在测题数量相同时,贝叶斯法的标准误要小于MLE。
对于CAT,人们提出了许多方法来决定何时终止测验并计算最后的能力估计值。在本研究中我们尝试了固定测验题目数量和确定TIF值两种方法。Bergstrom和Lunz等(1999)研究指出,确定TIF值的方法对题库的应用效果最好,但本研究却没有表现出这种效果,原因可能是题库高质量的题目还不充足。另外,采用确定TIF值的方法,对测验时间要求高,可能在目前的征兵心理检测工作实际中不便于推广。
由于本研究只涉及图形的拼凑和排列,只是测量空间表象加工能力,内容单一,所以不存在内容均衡方面的问题。
为了控制试题曝光率,人们提出了Sympson-Hetter法、随机法、0.10对数法、限制性最大信息法等,都各有利弊,不能一概而论。本研究也应用了目前比较流行的a参数分层抽样法(Chang等,1999)。这种方法要求测验编制者按题目的区分度将题库分为k个层。按照区分度将各层升序排列。依据层数将测验分成相应的阶段,每个阶段从对应的层中选取一定量的题目,开始用区分度最低的,最后用区分度最高的。在一层中,随机从难度与被试能力估计值最接近的两个项目中选择施测。层的数量取决于一些因素,比如题库中项目区分度的变异越大,需要的层数越多。但如果区分度非常相近,层数就应减少。而且距区分度等级间难度范围越大,所需要的层数也越多,最后,测验长度和题库大小也必须考虑。在大型题库中,分的层数应与测验和长度相近,这样就可以从每层中抽取一个题目来组成测验。这种方法在曝光率控制上效果比较突出,因为区分度低的或高的项目被选择的可能性相同(Hau等,2001)。本研究根据a参数的大小和测验长度,将a分为10层,每层大约20题,并要求同一被试同一测验过程中试题不能重复,既提高了题库中试题利用率,也有效地控制了曝光率。
我们所编制的CAT拼图测验测量了被试的视觉组织能力、空间想象能力以及知觉整体与部分的能力,概括起来就是空间表象加工能力。结果表明,该图形智力测验与士兵任务绩效评价表现出显著相关性(r=0.41,p<0.01),CAT拼图测验与WAIS智力测验积木分测验和文化课成绩也表现出显著性相关,说明该测验有较好的效度。研究结果也表明,该测验试题库还不够大,还需要补充大量高质量的题目,对于曝光率控制的效果等问题,还需要进行深入的研究.
收稿日期:2008-03-12