基于分部评分模型思路的多级评分认知诊断模型开发^*

高旭亮^1,2汪大勋¹ 王芳² 蔡艳¹涂冬波¹

(¹江西师范大学心理学院, 南昌 330022) (²贵州师范大学心理学院, 贵阳 550000)

摘要基于分部评分模型的思路, 本文提出了一般化的分部评分认知诊断模型(General Partial Credit Diagnostic Model, GPCDM), 与国际上已有的基于分部评分模型思路的多级评分模型GDM (von Davier, 2008)和PC-DINA (de la Torre, 2012)相比, GPCDM的Q矩阵定义更加灵活, 项目参数的约束条件更少。Monte Carlo实验研究表明, GPCDM模型的参数估计精度指标RMSE介于[0.015, 0.043], 表明估计精度尚可; TIMSS (2007)实证数据应用研究表明, 与GDM和PC-DINA模型相比, GPCDM与该数据的拟合度更好, 并且使用GPCDM分析该数据的诊断效果也更优。总之, 本研究提供了一种约束条件更少、功能更为强大的多级评分认知诊断模型。

关键词认知诊断; 多级评分认知诊断模型; GDM; PC-DINA

1 引言

目前, 教育评估和心理计量学的最新发展越来越强调形成性评估(Formative Assessments), 它可以提供更多的信息来改进学习和教学策略。认知诊断评估(Cognitively Diagnostic Assessments, CDA)旨在测量特定的知识结构和加工技能, 从而为教师和学生提供即时的诊断信息, 以便对课堂教学进行相应的规划或修改, 以促进个体的全面发展(de la Torre & Minchen, 2014; Leighton & Gierl, 2007)。特别地, 美国2001年通过了《不让一个孩子掉队法》法案(No Child Left Behind Act of 2001), 法案要求测验要给学生、家长和老师提供有价值的诊断性报告, 报告要包括关于学生在解决问题时所需的基础知识和认知处理技能等方面的掌握信息, 从而为学生提供量身定制的教育服务。美国政府2015年再次通过了每个学生成功(Every Student Succeeds Act)教育法案, 新法案继续强调测验要为学生及家长提供诊断性评价、形成性评价。我国在2010年通过的《国家中长期教育改革和发展规划纲要(2010−2020年)》强调要注重因材施教, 减轻学生负担, 改革教学评价制度, 建立科学的教育质量评价体系等。从国内外的教育政策可见, CDA在未来的教育评估领域将会发挥更大的作用。

当前, 研究者已经开发了大量的二级(0-1)评分认知诊断模型(Cognitive Diagnosis Model, CDM), 然而在实际教育和心理评估测验中存在大量多级评分的数据, 例如, 心理测验中经常使用李克特型(Likert-type)量表问卷, 在态度倾向性的问卷中, 使用“完全不同意”, “不同意”, “不确定”, “同意”和“完全同意”等5个选项来表示不同程度的态度倾向, 每个选项代表不同的得分。不仅如此, 与二级评分的题目相比, 多级评分题目可以提供更多的信息, 它只需要更少的题目就能达到和较多二级题目同样的测量精度(van der Ark, 2001)。

为了分析多级评分数据, 一个常用的方法是将多级评分数据转换为二级评分, 然后再使用二级评分的CDM来分析(Templin & Henson, 2006)。然而, 经过转换之后必然要损失很多有价值的信息, Ma和de la Torre (2016)以及Tu, Zheng, Cai, Gao和Wang (2017)的研究均发现, 与使用多级评分模型相比, 使用二级评分模型分析多级评分数据会在很大程度上降低测验的精度。

Mellenbergh (1995)根据模型将多级评分数据二级化的方式将IRT的多级评分模型分为3类: (1)累积概率(cumulative probability models)模型, 或者也被称作等级反应(graded-response models)模型, 它是基于全局或累积logit (global or cumulative logit)的一类模型; (2)连续比率(continuation ratio models)模型, 或者也被称作顺序(sequential)模型, 它是基于连续比率logit (continuation ratio logit)的一类模型; (3)相邻类别(adjacent category)模型, 或者也被称作分部评分(partial-credit)模型, 它是基于局部或相邻类别logit (local or adjacent category logit)的一类模型。这3类模型将多级评分数据二级化的方式是完全不同的, 假设题目满分是3分, 定义 width=42.95,height=16 , 累积概率模型(cumulative probability models)二分为 width=36,height=15 和, 而连续比率模型(continuation ratio models)则二分为和 width=48,height=15 , 相邻类别模型(adjacent category models)二分为和。因此, 这3类模型的建模思路是完全不同的, 各有特点, 累积概率模型侧重于分析某个等级以上(包括该等级)所有等级与该等级下(不包括该等级)所有等级之间的关系; 连续比率模型侧重于分析某个等级以上(包括该等级)与该等级的向下一个等级之间的关系; 而相邻类别模型侧重于分析两个相邻类别之间的关系。因此, 累积概率模型是从整体出发考虑模型的建构, 这类模型更适用于分析不强调具体解题步骤的诊断测验, 例如, 写作水平测验。而连续比率模型和相邻类别模型都是基于解题步骤(steps)来考虑模型的建构, 但连续比率模型更强调作答过程是连续步骤(consecutive steps), 即只有成功地完成前面的所有步骤, 才能成功地执行下一步, 它适合分析解题步骤之间具有严格顺序关系的题目; 而相邻类别模型是基于一个局部步骤(local step)来建模, 即被试在当前步骤的解答只和前一步有关, 这类模型更适合分析相邻步骤之间具有依赖关系的题目。Tutz (1997)认为相邻类别模型更适合分析评定量表(rating scales)类型的题目, 连续比率模型更适合分析解答过程包含一系列连续步骤的题目。

在CDA领域, 研究者已经开发了少量的多级评分CDMs (polytomous CDMs)。但是已有的多级评分CDMs主要是属于累积概率(cumulative probability)模型和连续比率(continuation ratio)模型。Hansen (2013)借鉴Samejima (1969)等级反应模型(Graded Response Model, GRM)的思想, 提出了多级评分的LCDM模型。涂冬波、蔡艳、戴海琦和丁树良(2010)基于等级反应模型(GRM)的建模思路提出了多级评分的DINA模型(polytomous DINA, P-DINA)。蔡艳、苗莹和涂冬波 (2016)在P-DINA模型的基础上加以改进, 提出了拓广的P-DINA (Generalized P-DINA, GP-DINA)模型。Ma和de la Torre (2016)在G-DINA模型的基础上提出了序列加工G-DINA模型(sequential G-DINA), 序列加工G-DINA模型是基于连续比率(continuation ratio)模型的一个特例。

然而, 目前对于相邻类别(adjacent category)或者分部评分(partial-credit)类的多级评分CDMs的研究还相对薄弱。已有的分部评分多级CDMs模型仅有von Davier (2008)提出的一般诊断模型(General Diagnostic Model, GDM)和de la Torre (2012)提出的分部评分DINA (Partial CreditDINA, PC-DINA)模型。但这两个模型具有以下缺陷:

3.2 化学防治措施苹果树发芽前喷3波美度石硫合剂，开花前喷0.5波美度石硫合剂或50%硫黄胶悬剂150倍液。

(1) 首先, 这两个模型的Q矩阵均定义在题目水平(item level), 即它们的一个潜在假设是同一题目中不同得分类别考察的属性是相同的, 但是, 这可能会导致部分诊断信息的丢失。因为, 不同得分类别所考察的属性可能是不同的, 如果将Q矩阵定义在类别水平(category level)可以提供更多的诊断信息, 从而提高诊断测验的估计精度。为了方便, 题目水平(item level)和类别水平(category level)的Q矩阵分别简称为Item-Q和Cat-Q。现以一个例子来说明两种Q矩阵的区别(见表1), 例如, width=55,height=15 这道数学题目考察了3个属性, A1表示减法; A2表示除法; A3表示开平方。Cat-Q第一步考察了A2属性, 第二步考察了A1属性, 第三步考察了A3属性。而Item-Q则假设每个得分类别考察的属性等于整个题目考察的属性, 即每一步都考察了A1, A2和A3这3个属性。

(2) 其次, 对于GDM模型而言, 它假设属性之间不存在交互效应, 即它只考虑了属性的主效应。而在实际的数据中, 属性之间常常存在交互效应, 即被试答对题目的概率不仅受到属性主效应的影响, 还受到属性之间交互效应的影响; (3)对于PC-DINA模型来说, 它是基于DINA模型而提出的, DINA模型假设属性没有主效应, 仅有所有属性间的交互效应, 它属于具有严格理论假设的简单模型, 因此, 它不具一般性认知诊断模型的优势。

然后根据公式(2)废气量M和许可排放浓度c计算得出许可排放量E；根据公式(3)装机容量CAP和年运行5000 h计算得出理论发电量D。最后根据许可排放量E和理论发电量D计算出理论排放绩效GPS。300、750和1000 MW机组的SO2理论排放绩效均为0.11 g/kWh，NOx理论排放绩效均为0.16 g/kWh；300 MW以上机组烟尘理论排放绩效均为0.016 g/kWh，300 MW以下机组两个阶段的烟尘理论排放绩效分别为0.032 g/kWh和0.016 g/kWh,详见图9和图10。

表1 两种不同类型的Q矩阵示例

基于此, 本研究重点关注基于分部评分模型的建模思路, 开发出新的功能更为强大的多级评分认知诊断模型, 以弥补当前国际上基于分部评分模型思路的多级评分CDMs (如GDM和PC-DINA)的不足。新开发的模型不仅将属性定义在得分类别水平(属性的定义更加精细), 而且它以G-DINA模型作为加工函数, 因此具有一般性认知诊断模型的优势。

2 基于分部评分模型思路的多级评分CDM开发

定义 width=15.75,height=17.25 表示在第 width=9,height=14.25 题的作答反应, width=15,height=17.25 表示第题的满分, 则 width=75,height=20.25 , 用 width=12,height=11.25 表示测验考察的属性个数, width=12,height=15 表示被试的属性掌握模式, width=104.25,height=17.25 , 如果属性模式为的被试掌握了第 width=9,height=12.75 个属性, 则 width=30,height=15 , 如果未掌握 width=32.25,height=15 。定义 width=57.75,height=15.75 表示属性模式为的被试在第 width=9,height=14.25 题恰得 width=9,height=9.75 分的概率。 width=12.75,height=15.75 表示第题得分类别考察的属性向量, width=75,height=18.75 , 如果 width=13,height=16 包含了第 width=9,height=12.75 个属性, 则 width=31,height=15.75 , 否则 width=32.25,height=15.75 。

基于局部logit (local logit) 函数的定义, 定义了以下一般化的分部评分认知诊断模型(General Partial Credit Diagnostic Model, GPCDM)表达式:

width=181.2,height=53.4 (1)

其中 width=23.25,height=15 表示链接函数, 即局部logit (local logit)函数, width=18.75,height=15.75 表示截距参数, width=50.25,height=18 表示属性考察向量 width=15,height=15.75 和属性掌握模式 width=12,height=15 的一组线性组合:

width=208.8,height=67 (2)

上述 width=15.75,height=15.75 表示第 width=9,height=14.25 题得分类别 width=9,height=9.75 考察的属性个数, width=21.75,height=17.25 表示的主效应, 即掌握属性对恰得分的贡献值, width=24.75,height=17.25 表示和 width=15,height=15 的二阶交互效应, 即同时掌握属性和 width=8.25,height=9.75 对得分的贡献值, width=41.25,height=20.25 表示 width=14.25,height=15 到 width=21.75,height=18 的K阶交互效应, 即掌握所有属性对得 width=9,height=9.75 分的贡献。

假设题目的满分是3分, 即有4个得分类别(0, 1, 2, 3), 此时, 可以得到每个得分类别的答对概率, 如下所示:

width=230.2,height=117.1 (3)

化解公式3的方程组, 可以得到如下公式:

width=224.5,height=162.5 (4)

通过公式4, 进一步可以概括出GPCDM模型的每个得分类别的一般化公式:

width=202.9,height=39.25 (5)

公式5满足 width=128.25,height=21.75 。

如果将Q矩阵定义在题目水平, 即使用Item-Q时, 并且假设属性没有主效应, 仅保留属性间的最高阶交互效应, 则公式(1)可以简化为:

width=189.8,height=36 (6)

从公式(6)可以看出, 此时, GPCDM等价于PC-DINA模型, 这两者的参数可以相互转换, width=44.25,height=17.25 , width=98.3,height=20.25 。

热泵是一种与制冷机组运行过程相逆的设备，将低温位的热量提升至高温位实现能级提高。总体上，按照所需外部输入能量可分为两大类，即输入机械能的机械压缩式热泵以及输入热能的吸收式热泵。故此，回收SAGD余热可采用吸收式热泵实现。吸收式热泵又称热压缩式热泵，通过吸收剂和被吸收剂（制冷工质）的配对，利用制冷工质在不同场所分别完成相变过程，实现热量由低温热源向高温热源的传递。吸收式最基本的部件包括吸收器、发生器、蒸发器及冷凝器，同时在研究和实践中通常配套溶液泵、膨胀阀和溶液交换器。其中，吸收器和发生器为吸收式热泵特有的区别于传统压缩式热泵的部件。

文章篇幅较长，通过大量场景描写和人物语言描写，采用对比的手法，将情节发展推向了一个又一个高潮。借助这个海难史上几乎全员生还的奇迹，站在整体的角度去定位中心话题，让学生以一种全新的视角去看经典，多元化、多角度构建阅读心理，通过对话深入理解课文，提升思维层次。明白正是因为在这场海难中，有着惊人的沉着冷静、果断智慧的哈尔威船长的领军作用，加之在灾难面前船员的各尽其职，乘客的积极配合，肇事船只的主动营救这些不可忽视的因素，才产生了这样的奇迹。在灾难面前每个人都履行自己的职责，勇于承担责任，本文无疑使我们在敬畏生命的同时，产生深深的思索。

综上, 已有的分部评分CDMs都将Q矩阵定义在题目水平, 而GPCDM的Q矩阵定义更加灵活, 它可以定义在题目水平和得分类别水平; 当Q矩阵定义在得分类别时, 即Q矩阵的定义更加精细, 有助于提供更多的诊断信息。在实际应用中, 使用者可以根据自身的需求灵活选择不同类型的Q矩阵。另外, GDM和PC-DINA的理论假设均比较严苛, 在应用中具有较大的限制。而GPCDM的约束条件更少, 因而, 理论上GPCDM在实际应用中更加灵活, 更具优势。

3 参数估计

GPCDM的参数采用EM算法来估计, 用 width=15.75,height=17.25 表示被试 width=6.75,height=12 在题目 width=9,height=14.25 的作答反应, 其中, width=42,height=12.75 和 width=45,height=14.25 , width=15,height=17.25 表示题目的满分值, width=14.25,height=15 表示被试的得分向量 width=75.7,height=17.25 。根据局部独立性假设, 可以得到边际对数似然函数:

width=129.75,height=33 (7)

这里, width=42.75,height=15 是属性模式在已知作答向量 width=14.25,height=15 的似然函数, width=27,height=15 是属性模式 width=12.75,height=15 的先验信息,可以通过下列公式计算:

width=177.8,height=36 (8)

width=33,height=17.25 表示被试 width=6.75,height=12 在第 width=9,height=14.25 题的得分, width=38.25,height=15.75 是一个指示性变量。EM算法在每次迭代中包括两个步骤: 期望步骤(Expectation Step, E-step)和最大化步骤(Maximization Step, M-step)。E步是计算属性模式为 width=12,height=15 的被试在第题上恰得 width=9,height=9.75 分的人数, 用 width=17.25,height=17.25 来表示,

width=120.7,height=30.75 (9)

这里 width=44.25,height=15 表示被试 width=6.75,height=12 在已知作答向量 width=14.25,height=15 时属性模式属于 width=12,height=15 的后验概率, 可以通过下列公式计算:

相应的特征方程为根为r1=0.92，r2,3=-0.21±0.30i,由引理3,原差分方程的解即所求概率为

width=140.3,height=36 (10)

对于题目 width=9,height=14.25 , M-step的目的是使目标函数极大化的条件下来估计项目参数, 目标函数见下列公式11:

width=143.3,height=33 (11)

本研究的参数估计程序使用R软件来编写, 在R软件中optim函数包含了几种常用的极值优化算法。optim函数在R里的表达式是optim (par, fn, method), par代表项目参数初值, fn代表目标函数, method可选择的优化算法, 因此, 使用optim函数计算极值时只需要输入par (项目参数初值), 初值可以从均匀分布中随机生成, fn (目标函数)和选择的优化算法即可。

EM算法每循环一次, 就验证是否达到收敛条件, 如果达到收敛条件, 则迭代停止, 否则, 重复E步和M步。最后, 通过EM算法得到项目参数后, 采用期望后验(Expected a Posteriori, EAP)方法来估计被试参数(属性掌握模式)。

4 实验1: Monte Carlo实验研究

实验1旨在检验: (1)GPCDM模型的参数估计精度及其性能; (2)当采用Cat-Q矩阵生成数据时, 如果采用Item-Q矩阵分析数据是否会降低参数估计的精度, Item-Q可以从Cat-Q得到, 例如, 表2中的第1题得分类别1和2考察的属性向量分别是(1, 0, 0, 0, 0)和(0, 1, 0, 0, 0), 而Item-Q中得分类别1和2考察的属性向量都是(1, 1, 0, 0, 0)。

自变量包括: (1)样本容量(500, 1000, 2000和4000)。(2)属性个数(5个和7个); 5属性和7属性的Cat-Q见表2和表3, 多级评分题目中每个得分类别最多考察2个属性, 并且Cat-Q中每个属性的测量次数都是相同的。另外, 为了提高诊断测验的效果, 5属性和7属性的Cat-Q分别包含了5个和7个二级评分的题目, 且这些测验包括了一个完整的可达矩阵(R阵)。(3)测验长度, 5属性时包括20和40题, 7属性时包括25和50题, 40题和50题的Cat-Q与20题和25题的Cat-Q是重复关系。为了减少随机误差, 每种条件下重复模拟实验100次。

1.2.3 饮食护理:护士应针对每位病人对食物的喜好不同,为病人提供色、香、味俱全的菜谱,增加病人对鱼类、虾类及肉类等食物的摄入,减少病人对生、冷及辛辣类等食物的摄入,增强机体抵抗力,加快病人康复。

表2 5属性的Cat-Q矩阵

表3 7属性的Cat-Q矩阵

4.1 参数的模拟

4.1.1 被试参数的模拟

样本容量包含4个水平,N= 500, 1000, 2000和4000。当属性个数是5个时, 所有可能的属性掌握模式是 width=33.75,height=15 种, 被试的属性模式从32种模式中随机生成, 同理, 当考察的属性个数等于7个时, 被试的属性模式从 width=38.25,height=15 种可能的模式中随机生成。

4.1.2 题目参数的模拟

将Seminar教学模式引入中医药研究生教学，通过中医、中药专业学术问题的交流讨论，有利于激发学生学习中医药相关课程的兴趣，扩大知识面，提高学习能动性和自觉性，锻炼其综合实践能力和创新能力。总之，Seminar教学模式对新时期中医药专业研究生的创新能力和综合素质培养具有积极意义。

题目参数的模拟方法参考了Ma和de la Torre (2016)的做法, width=116.95,height=21 从均匀分布 width=42,height=15 中随机生成, 而 width=99.2,height=21 width=19,height=19 从均匀分布 width=44.25,height=15 中随机生成, 这里 width=26.25,height=15 表示被试已经掌握了第 width=9,height=14.25 题得分类别 width=9,height=9.75 考察的所有属性, 而 width=27,height=15 表示被试未掌握得分类别考察的任意一个属性。当属性模式 width=12,height=15 掌握的属性个数介于和之间时, 即 width=80.25,height=17.25 , 此时, 属性模式相对应的概率从以和 width=26.25,height=15 所对应概率为两个边界值的均匀分布中随机生成。

对比基于不同类别Q矩阵的结果可以发现, 在同样的实验条件下, 与基于Cat-Q结果相比, 基于Item-Q导致更低的PMR值, 和更高的RMSE值。这两种Q矩阵之间的差异尤其在短测验(5属性时20题或7属性时25题)或被试人数较少(例如500人时)的条件下更加明显, 例如, 当属性个数等于7, 测验长度为20, 被试人数为500人时, 从表4可以看出, 使用Cat-Q时的PMR值大约是0.86, 而当使用Item-Q时的PMR值大约是0.82。而从表5可以发现, 在同样的条件下, 使用Cat-Q时的RMSE值大约是0.04, 而使用Item-Q时, 它的RMSE值则大约是0.1。这些结果都表明如果采用Item-Q来分析Cat-Q产生的数据确实会降低项目参数和被试参数的估计精度。这个结论启发实际使用者, 在编写多级评分的诊断题目时, 对于Q矩阵的标定, 应尽量构建基于得分类别的测验Q矩阵(即Cat-Q), 使用Cat-Q有利于提供更多的诊断信息, 从而提高诊断的精度。

4.1.3 作答数据的模拟

根据模拟得到的项目参数, 可以计算属性模式为 width=12,height=15 的被试在第 width=9,height=14.25 题恰得 width=9,height=9.75 分的概率 width=53.25,height=15.75 , 而每个得分类别对应的概率已知, 属性掌握模式为的被试在第题的作答从对应的分类分布中抽取。假设被试在某一题恰得 width=6.75,height=11.25 分( width=60.75,height=15 )对应的概率是 width=135,height=15 , 则被试在该题的得分从中抽取一个数, 而每个得分被抽取的概率分别是0.03, 0.08, 0.12, 0.14和0.63。

4.2 评价标准

这里 width=15.75,height=15 表示被试 width=6.75,height=12 在属性 width=9,height=12.75 的边际概率, 可以通过公式(14)计算得到; (3)根据第2步构建的列联表, 计算四格相关系数, 将四格相关系数当作每个属性的信度指标。

width=111,height=44.25 (12)

其中 width=54,height=17.25 表示第 width=8.25,height=9 次实验估计的 width=12,height=15 和真值是否完全相同, 如果相等则 width=68.2,height=17.25 , 否则 width=69,height=17.25 , width=12,height=12 和 width=35.25,height=12 分别表示人数和实验次数。

width=228.05,height=50.4 (13)

其中 width=72.75,height=20.25 和分别表示第 width=8.25,height=9 次实验估计的和真实的属性模式 width=12,height=15 在第 width=9,height=14.25 题得分为 width=9,height=9.75 的概率。PMR值越大, RMSE值越小表示估计误差越小, 表明参数估计算法越有效。

Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19, 716–723.

4.3 实验结果

表4和表5分别显示了各种实验条件下的测验PMR指标和RMSE指标。

需要强调的是, 作答数据是基于类别水平Q矩阵(Cat-Q)生成的。因此, 为了评估参数估计的精度, 主要关注Cat-Q的结果。从表4的结果可见, 属性个数等于5且使用Cat-Q时, 测验长度在20题时, 不同样本容量下的PMR值都在0.94以上, 而当测验长度增加到40题时, 不同样本容量下的PMR值均在0.99以上。当属性个数等于7且使用Cat-Q时, 在测验长度为25题时, 不同样本容量下的PMR值都在0.86以上, 而在测验长度为50题时, 不同样本容量下的PMR值都在0.98以上。

表4 各种实验条件下被试参数返真性PMR值

总体来看, 对于得0分和满分的被试, 拟合最优的GPCDM模型估计的结果是最合理的, 其次是GDM模型, 最后是PC-DINA模型。

计划经济模式下的党建工作单一孤立，而在市场经济模式下，只有为经济服务的党建工作才能适应市场经济条件下社会主义政党建设的要求。通过建设企业党组织机构、制度等，激发党员队伍的生机和活力，提高企业工作的效率和质量。同时，企业党组织在日常活动中需紧紧围绕增强企业的竞争力的目标，树立效率、竞争观念，将党的政策与企业的发展紧密相连。

表6显示了在属性个数为5, 样本容量为1000, 测验长度为20题时, Cat-Q和Item-Q条件下每一题的RMSE指标, 由于其他实验条件下的结果和表6有相似的趋势, 因此, 限于篇幅的原因, 只提供了一种条件下的结果。

从表6的结果可以发现, 由于后5题是二级评分的题目, 此时Cat-Q和Item-Q是等价的, 因此Cat-Q和Item-Q的RMSE值基本相当, 而在多级评分的前15题中, 基于Cat-Q得到的RMSE值始终要小于基于Item-Q的RMSE值, 基于Cat-Q的最大RMSE是0.036。另外, 还可以发现, 二级评分题目的RMSE要略低于多级评分的题目, 这是因为, 二级评分题目考察的属性个数要少于多级评分题目。这个结果充分表明, EM算法可以提供精确的参数估计精度, 和Item-Q相比, 使用Cat-Q有助于提供更多有价值的诊断信息, 从而提高诊断测验的精度。

从表4和表5基于Cat-Q的结果可以发现, 当属性个数等于5或7时, 基于Cat-Q的PMR在短测验(20题和25题)时, 分别达到了0.9和0.8以上, 而在长测验条件下(40和50题)时, 它们的PMR值都在0.95以上, 它们的RMSE值均在0.05以下。这充分说明本研究提出的模型参数估计算法可以提供稳健、精确的估计精度。

为了保证作答概率满足单调递增性, 即掌握的属性越多答对题目的概率越大, 约定如果属性模式 width=12,height=15 的被试掌握的题目 width=9,height=14.25 考察的属性个数多于 width=14.25,height=15 , 则对应的项目反应概率大于。

表5 各种实验条件下的项目参数返真性RMSE值

表6 当K= 5和N= 1000时20题的RMSE值

5 实验2: 实证数据研究

5.1 研究目的

为了进一步探讨和比较GPCDM在实证数据中的效果, 比较了三个基于分部评分模型思路的多级评分认知诊断模型, 即本文新开发的GPCDM以及国际上GDM和PC-DINA模型, 在国际数学与科学趋势研究(Trends in International Mathematics and Science Study, TIMSS) 2007四年级数学评估测验数据中的表现。TIMSS是由国际教育成就评价协会(International Association for the Evaluation of Educational Achievement)发起的一个国际大型教育评估项目, 该项目评估的对象是全球4年级和8年级的数学与科学学业成就。TIMSS从1995年开始第一次测试, 每4年举行一次。在2015年的TIMSS评估测验中, 来自世界各地的60多个国家参加了这次测试。

本文分析了TIMSS (2007)数据的一个子集, 其中包括823名学生对11个题目涉及8个属性的数据。11个题目中, 有3个多级评分题, 8个二级评分题目, 它的Q矩阵见表7。

而虚宁寺在周围老百姓中也有很不错的口碑，究其原因，主要是因为寺里始终不以任何方式向大众收取门票，也从未出现烧高香这样的现象，一心想在闲暇时候出来散心的人们，自然都很喜欢这种和谐、安适的地方。

5.2 评价标准

评价标准包括以下3个方面:

为了调节炉内压力使之维持一定值，钼板加热电阻炉通常要求炉膛压力保持在101 kPa左右。排气装置通常有水封排气和阀门排气，阀门排气简单，但容易吸入空气，安全性差，因此在实际使用中常采用用水封排气，如图4所示。

(1) 模型和测验数据整体拟合度: 通过模型拟合指标: −2倍对数似然(−2 log-likelihood values, −2LL), Akaike的信息准则(Akaike’s information criterion, AIC; Akaike, 1974), 和贝叶斯信息准则(Bayesian Information Criterion, BIC; Schwarz, 1978)等来比较3个模型的拟合度。

(2) 两类特殊被试的诊断属性边际概率(Marginal Probability): 两类特殊的被试是指测验得0分的被试和得满分(即14分)的被试, 一般来说, 得0分的被试意味着对所考察的属性基本没掌握, 而得满分的考生应该完全掌握了所考察的属性, 因此, 理论上, 得0分的被试估计得到的属性边际概率应该很低(接近于0), 而得满分的被试估计得到属性边际概率应该很高(接近于1)。属性边际概率的计算公式如下:

width=89.2,height=33.75 (14)

width=44.25,height=15 计算方法可参考公式(10)。

(3) 认知诊断信度分析: Templin和Bradshaw (2013)提出了一种计算CDM下属性信度(attribute reliability)的方法, 该方法可以分为以下几步: (1)首先, 使用选定的CDM估计每个被试的属性边际概率; (2)根据第一步估计得到的属性边际概率, 构建四格列联表, 其中的列联表的四个元素可以通过下列公式计算:

表7 实证数据的Q矩阵

width=184,height=128 (15)

评价标准包括被试参数和项目参数的返真性, 它们的返真性分别用模式判准率(Pattern Match Rate, PMR)和均方根误差指标(Root Mean Square Error, RMSE)来反映(Ma & de la Torre, 2016)。两个指标的计算公式如下:

5.3 研究结果

对于得满分(14分)的被试而言, 3个模型的平均属性边际概率从高到低顺序依次是: GPCDM、GDM和PC-DINA模型。PC-DINA模型只有在属性A2、A3和A7的属性边际概率达到了0.9以上, 而在其余属性的边际概率都在0.7以下, 平均属性边际概率只有0.749; GDM模型和GPCDM的平均属性边际概率分别是0.881和0.975, 但与GPCDM相比, GDM模型在属性A1、A6和A8的边际概率分别是0.786、0.671和0.671, 都明显低于GPCDM的0.984、0.998和0.998。

表8显示了3个模型的相对拟合指标, 结果显示, GDM和PC-DINA这2个模型相比而言, 在3个拟合指标中, GDM模型的拟合更优。而这3个模型相比而言, GPCDM在3个拟合指标的值都是最小的, 即与GDM和PC-DINA模型相比, GPCDM是相对拟合更好的模型。

表8 模型相对拟合指标

5.3.2 两类特殊被试的属性边际概率

表9显示了3个模型估计的两类特殊被试的属性边际概率, 对于得0分被试而言, 3个模型的平均属性边际概率从低到高顺序依次是: GPCDM、GDM和PC-DINA模型。对比3个模型的估计结果可以发现, PC-DINA模型估计的属性边际概率在8个属性上都要明显高于GDM和GPCDM, 其中属性A1的边际概率达到了0.548, 平均属性边际概率达到了0.375, PC-DINA模型会高估这些得0分被试的属性边际概率。GDM模型和GPCDM估计的属性边际概率都比较低, 两者的平均属性边际概率分别是0.093和0.001, 但就具体属性而言, GDM模型在属性A7的边际概率达到了0.278, 与GPCDM的结果相比, GDM模型高估了属性A7的边际概率。

5.3.1 模型拟合结果

实验结果见表1～3。结果表明，普萘洛尔可明显抑制离体蟾蜍心脏的各项功能（P＜0.01）。在此基础上给予异丙肾上腺素，后者的兴奋心脏作用被明显阻断。

表5的结果显示, 当使用Cat-Q时, 不管属性个数、测验长度和样本容量如何变化, 在所有条件下的测验RMSE值均在0.05以下。随着样本量的增加, RMSE也随之降低, 例如, 属性个数等于5和测验长度等于20时, 在样本容量为500的条件下, 基于Item-Q和Cat-Q的RMSE值分别是0.103和0.043, 同样的条件下, 当样本容量增加到4000时,基于Item-Q和Cat-Q的RMSE值分别降低到0.053和0.015。

5.3.3 属性信度分析

表10显示了3个模型拟合该实证数据时的属性信度, 表10的最后一列表示8个属性的平均信度。对于GDM模型而言, 属性A8的信度指标只有0.710, 是相对最低的, 而其余7个属性的信度指标都在0.8以上, 属性信度指标的最高的是A6属性, 达到了0.997。对于PC-DINA模型而言, 属性A5的信度指标是相对最低, 只有0.507, 而属性A3的信度指标最高, 但也只有0.827。而GPCDM的8个属性最低信度指标是0.841。

表9 两类特殊被试的属性边际概率

表10 每个模型下的属性信度

总体而言, PC-DINA模型的8个属性的信度指标都要明显低于GDM和GPCDM。而GDM和GPCDM相比而言, GPCDM在属性A1、A2、A4、A7和A8的信度指标也要高于GDM模型, 即GPCDM在5个属性的信度要优于GDM模型, GPCDM在剩余属性A3、A6和A7的信度指标和GDM非常接近。从平均属性信度指标来看, GPCDM的平均属性信度是最高的, 其次是GDM模型, 最后是PC-DINA, 即GPCDM分析该实证数据的效果更优。

6 研究结论与讨论展望

6.1 研究结论

本研究开发了一种更为灵活、功能更为强大, 且更有理论意义和应用价值的广义多级评分模型, 通过模拟研究验证了GPCDM的参数估计精度, 最后通过一个实证数据比较了GPCDM和已有基于分部评分思路的多级评分CDMs (GDM和PC-DINA)的应用效果, 研究结论主要有:

(1) Monte Carlo实验研究发现, 本研究开发的GPCDM的属性模式诊断正确率PMR在5属性时都在0.9以上, 项目参数的RMSE平均不到0.05, 这表明GPCDM模型具有较高的参数估计精度。

(2) 当使用Item-Q拟合Cat-Q生成的数据时, 题目和被试参数的估计精度都会降低。因此, 建议研究者在构建多级评分认知诊断的测验Q矩阵时, 应尽量构建基于得分类别的测验Q矩阵(即Cat-Q), 它能提供更多的诊断信息。

(3) 最后比较了GPCDM、GDM和PC-DINA模型在TIMSS (2007)数据的实际应用效果, 结果发现GPCDM的模型拟合度更优, 并且GPCDM分析该数据时的效果也更好。这表明新模型在实践应用中具有一定的优势。

6.2 讨论和展望

为使研究的结果不失一般性以及进一步拓展多级评分CDMs的相关研究, 未来至少还可以在以下几方面展开研究:

(1) 本研究假设属性之间是相互独立的, Q矩阵的标定完全正确, 另外, 本研究仅采用了EAP方法来估计被试参数, 并未对其他方法进行对比研究, 这些因素都可能会影响本研究的结论。

(2) 同一份测验中, 不同的题目可能拟合不同的CDM, 在二级评分的数据中, de la Torre (2011)应用Wald统计检验的方法为每个题目选择不同的CDM。而在多级评分数据中, 如何为每一题选择最适合的多级评分CDM也有待进一步研究。

(3) 多级评分的Q矩阵可以定义在得分类别水平, 这有助于提供更多诊断信息, 但是这也会增加Q矩阵标定的工作量。目前, 已经有学者开发了一系列辅助Q矩阵标定的算法, 但这些方法只局限于二级评分的模型。未来的研究可以继续探讨多级评分CDM中Q矩阵的标定算法。

(4) 本研究开发的模型假设考生的解题策略只有一种, 但在实际应用中, 同一道题目经常存在不同的解题策略。如果在诊断测验中考虑了被试解题策略的差异, 这也有助于提供更多有价值的信息, 从而提高诊断的精度(涂冬波, 蔡艳, 戴海琦, 丁树良, 2012)。因此, 开发多策略的多级评分CDM值得进一步研究。

要求师资力量比较雄厚，每个教学小组必须配备一位临床指导教师，这在当前师资力量相对不足的情况下比较困难。

(5) 已有的CD-CAT相关研究, 几乎都是基于二级评分的模型而展开, 事实上, 多级评分CD-CAT (Polytomous CD-CAT, PCD-CAT)在实际应用中具有更广阔的前景, 不仅是因为心理或教育评估测验中存在大量的多级评分数据, 更重要的是与二级评分的题目相比, 多级评分题目可以提供更多的信息, 即多级评分的CD-CAT有助于进一步提高测验的效率, 未来的研究可以针对PCD-CAT的相关算法展开研究。

参考文献

生1：垂线段法.如图8，过P作PQ⊥l于Q.求出直线PQ的方程：x-y+1=0；联立直线PQ，l的方程，求出交点Q的坐标(2,3),求出距离

Cai, Y., Miao, Y., & Tu, D. B. (2016). The polytomously scored cognitive diagnosis computerized adaptive testing. Journal of Psychological Science, 48(10), 1338–1346.

[蔡艳, 苗莹, 涂冬波. (2016). 多级评分的认知诊断计算机化适应测验. 心理学报,48(10), 1338–1346.]

de la Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76(2), 179–199.

de la Torre, J. (2012). Application of the DINA model framework to enhance assessment and learning. InSelf- directed learning oriented assessments in the Asia-Pacific (pp. 87–103). Springer, Dordrecht.

de la Torre, J., & Minchen, N. (2014). Cognitively diagnostic assessments and the cognitive diagnosis model framework. Psicología Educativa,20(2), 89–97.

Hansen, M. (2013). Hierarchical item response models for cognitive diagnosis. Unpublished doctoral dissertation. University of California at Los Angeles.

Leighton, J. P., & Gierl, M. J. (2007). Defining and evaluating models of cognition used in educational measurement to make inferences about examinees’ thinking processes. Educational Measurement: Issues and Practice, 27(2), 3–16.

Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses. British Journal of Mathematical and Statistical Psychology,69(3), 253–275.

Mellenbergh, G. J. (1995). Conceptual notes on models for discrete polytomous item responses. Applied Psychological Measurement, 19(1),91–100.

Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika Monograph,34(S1), 1–97.

Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics,6(2), 461–464.

Templin, J. L. & Bradshaw, L. (2013). Measuring the reliability of diagnostic classification model examinee estimates. Journal of Classification, 30(2), 251–275.

Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models. Psychological Methods, 11(3), 287–305.

Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2010). A polytomous cognitive diagnosis model: P-DINA model. Acta Psychologica Sinica, 42(10), 1011–1020.

[涂冬波, 蔡艳, 戴海琦, 丁树良. (2010). 一种多级评分的认知诊断模型: P-DINA 模型的开发. 心理学报,42(10), 1011–1020.]

Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2012). A new multiple-strategies cognitive diagnosis model: The MSCD method. Acta Psychologica Sinica, 44(11), 1547–1553.

[涂冬波, 蔡艳, 戴海琦, 丁树良. (2012). 一种多策略认知诊断方法: MSCD方法的开发. 心理学报,44(11), 1547–1553.]

Tu, D., Zheng, C., Cai, Y., Gao, X., & Wang, D. (2017). A polytomous model of cognitive diagnostic assessment for graded data. International Journal of Testing,18(3), 231−252.

Tutz, G. (1997). Sequential models for ordered responses. InHandbook of modern item response theory (pp. 139−152). Springer, New York, NY.

van Der Ark, L. A. (2001). Relationships and properties of polytomous item response theory models. Applied Psychological Measurement, 25(3), 273–282.

von Davier, M. (2008). A general diagnostic model applied to language testing data. British Journal of Mathematical and Statistical Psychology, 61(2), 287–307.

Development of a Generalized Cognitive Diagnosis Model for polytomous responses based on Partial Credit Model

GAO Xuliang^1,2; WANG Daxun¹; WANG Fang²; CAI Yan¹; TU Dongbo¹

(¹School of Psychology Jiangxi normal university, Nanchang 330022, China) (² School of Psychology Guizhou normal university, Guiyang 550000, China)

Abstract

Currently, a large number of cognitive diagnosis models (CDMs) have been proposed to satisfy the demands of the cognitively diagnostic assessment. However, most existing CDMs are only suitable for dichotomously scored items. In practice, there are lager polytomously-score items/data in educational and psychological tests. Therefore, it is very necessary to develop CDMs for polytomous data.

Under the item response theory (IRT) framework, the polytomous models can be divided into three categories: (i) the cumulative probability (or graded-response) models, (ii) continuation ratios (or sequential) models, and (iii) the adjacent-category (or partial-credit) models.

At present, several efforts have been made to develop polytomous partial-credit CDMs, including the general diagnostic model (GDM; von Davier, 2008) and the partial credit DINA (PC-DINA; de la Torre, 2012) model. However, the existing polytomous partial-credit CDMs need to be improved in the following aspects: (1) These CDMs do not consider the relationship between attributes and response categories by assuming that all response categories of an item measure the same attributes. This may result in loss of diagnostic information, because different response categories could measure different attributes; (2) More importantly, the PC-DINA is based on reduced DINA model. Therefore, the current polytomous CDMs are established under strong assumptions and do not have the advantages of general cognitive diagnosis model.

The current article proposes a general partial credit diagnostic model (GPCDM) for polytomous responses with less restrictive assumptions. Item parameters of the proposed models can be estimated using the marginal maximum likelihood estimation approach via Expectation Maximization (MMLE/EM) algorithm.

Study 1 aims to examine (1) whether the EM algorithm can accurately estimate the parameters of the proposed models, and (2) whether using item level Q-matrix (referred to as the Item-Q) to analyze data generated by category level Q-matrix (referred to as the Cat-Q) will reduce the accuracy of parameter estimation. Results showed that when using Cat-Q fitting data, the maximum RMSE was less than 0.05. When the number of attributes was equal to 5 or 7, the minimum pattern match rate (PMR) was 0.9 and 0.8, respectively. These results indicated that item and person parameters could be recovered accurately based on the proposed estimation algorithm. In addition, the results also showed that when Item-Q is used to fit the data generated by Cat-Q, the estimation accuracy of both the item and person parameters could be reduced. Therefore, it is suggested that when constructing the polytomously-scored items for cognitively diagnostic assessment, the item writer should try to identify the association between attributes and categories. In the process, more diagnostic information may be extracted, which in turn helps improve the diagnostic accuracy.

The purpose of Study 2 is to apply the proposed model to the TIMSS (2007) fourth-grade mathematics assessment test to demonstrate its application and feasibility and compare with the exiting GDM and PC-DINA model. The results showed that compared with GDM and PC-DINA models, the new model had a better model fit of test-level, higher attribute reliability and better diagnostic effect.

Key words cognitive diagnosis; polytomous CDMs; GDM model; PC-DINA model

收稿日期:2019–02–12

* 国家自然科学基金(31660278, 31760288, 31960186 )资助。

汪大勋为共同第一作者。

分类号B841

通信作者: 涂冬波, E-mail: tudongbo@aliyun.com。

DOI：10.3724/SP.J.1041.2019.01386

标签：认知诊断论文; 多级评分认知诊断模型论文; gdm论文; PC-DINA论文; 江西师范大学心理学院论文; 贵州师范大学心理学院论文;

基于分部评分模型思路的多级评分认知诊断模型开发论文