等级数据的测量不变性检验及影响因素的模拟_样本量论文

等级数据的测量不变性检验及影响因素模拟研究，本文主要内容关键词为：测量论文,因素论文,等级论文,数据论文,不变性论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 问题提出

测量不变性指的是使用量表测量被试的目标特质时，观测变量和潜在特质之间的关系在相比较的各个组之间，或在不同情境下等同(Drasgow,1984; Reise,Widaman,& Pugh,1993; Vandenberg,& Lance,2000；白新文，陈毅文，2004)。尤指来自异质群体的个体，如果他们在潜在特质上水平相同，其观测变量得分期望值也应该相等。

测量工具满足测量不变性要求是进行组间比较研究的前提条件。发展心理学中不同年龄组的对比研究，跨文化研究中不同文化背景下的比较研究，以及不同施测方式如通过互联网施测收集数据和传统的纸笔测验施测收集数据等都需要考察测验的测量不变性问题(蔡华俭等，2008)。结构方程模型的发展对测量不变性的检验提供了切实可行的方法，在许多研究领域，检验测量不变性多是采取结构方程模型视角下的多组分析中嵌套模型比较的方法(Bollen,1989; Byrne,Shavelson,& Muthén,1989; Vandenberg & Lance,2000)。

以往基于结构方程模型的关于测量工具不变性的检验方法多基于观测变量(测验题目原始得分)为连续的服从正态分布的情况，在此假设条件下，采用极大似然估计，在多组比较中通过定义嵌套模型来检验某些相等的限定条件是否成立。但是，在心理与教育的诸多研究中，通过心理量表或问卷获得的数据多为有序类别水平的数据，即等级数据。此时，虽然项目测量的是理论上为连续水平的潜在特质，但是观察到的反应则是离散的，如果将等级数据视作连续且服从正态分布的数据，采用极大似然估计方法来处理，就会带来参数估计的偏差，同时嵌套模型的卡方值的差异也不再服从卡方分布。

Muthén & Kaplan(1985)的研究表明如果等级数据的类别数目较少(如少于五个)，或者类别数据的分布极大地偏离正态分布时，采用极大似然估计，参数估计结果、拟合指标和相应标准误会产生偏差。等级数据类别数目的减少，表示了项目选项类别的减少，此时数据分布很容易偏离正态分布。针对偏离正态分布的等级数据进行验证性因素分析时，采用极大似然估计方法得到的卡方值会膨胀(Green,1997)，同时拟合指数NNFI，GFI和CFI将会低估(Hutchinson & Olmos,1998)。此时正确设定的模型也就会表现得与数据不拟合，进而导致研究者错误地放弃这些模型。随着类别数目的减少，偏离正态分布的严重程度增加，参数估计值和标准误的估计结果的有偏性将会进一步增加(Dolan,1994)。这些问题会使得研究结果的效度遭到损害(Shadish,Cook,& Campbell,2002)，而基于此上的测量不变性检验常用的嵌套模型比较方法，也受到影响。

针对等级数据分析面临的上述问题，潜在反应变量模型(latent response variable model)则通过引入潜在反应变量和阈值参数(Bollen,1989; Muthén,1993)，建立起观测等级变量与测量目标，即连续潜在特质之间的关系。Muthén(1993)提出的稳健的加权最小二乘估计方法(WLSMV)，解决了该模型建构的参数估计问题。在此基础上，Muthén等人提出了基于WLSMV估计方法的嵌套模型比较检验，即DIFFTEST方法(Asparouhov & Muthén,2006; Muthén,2007)。Asparouhov等人采用模拟研究的方法，考察了基于WLSMV估计条件下，嵌套模型卡方差异检验的一类错误概率，发现DIFFTEST检验方法下犯一类错误的概率达到可接受水平，且随着样本量增大有着减小的趋势。

考察某种测量不变性检验方法的优劣，既涉及组间测验等同情况下其一类错误概率大小，也关注组间测验不等同时其正确检验力的大小，以及哪些因素会影响检验力的表现。故本研究采用蒙特卡洛模拟研究方法考察等级数据情景下，测量不变性检验中WLSMV估计方法的参数复原能力，同时考察样本容量、组间样本量对比、阈值差异程度以及测验长度等不同水平组合情境下，DIFFYEST方法的检验效果。旨在考察等级数据情景下DIFTEST方法对测量不变性检验的适用性及影响因素。

2 方法介绍

2.1 潜在反应变量模型

加权最小二乘估计(WLS)是最常用的潜变量模型参数估计方法(Muthén,1984; Flora & Curran,2004)，拟合函数为：。分类变量的WLS需要很大的样本量以得到权重矩阵的精确估计(Muthén,du Toit,& Spisic,1997)，使得它的应用受到一定限制。Muthén(1993)提出了稳健的WLS估计方法(WLSMV)，避免了采用传统WLS估计方法所需要的大样本量的限制，减少了计算的工作量。既有研究表明，WLSMV与传统的WLS相比，表现较好，尤其在模型较复杂(如变量数目为15个)，或样本量较小时(1000)所估计的卡方和标准误都相对较小。故本研究中关于等级数据估计方法选择采用WLSMV。

2.2 针对等级数据的测量不变性检验：DIFFTEST

WLSMV方法解决了针对等级数据进行参数估计的问题，但是在进行测量不变性检验中，传统上根据模型卡方差值和自由度差值来进行嵌套模型比较的方法，此时却遇到困难。因为采用WLSMV估计时，模型对应的自由度是从样本数据中估计出来，且卡方差异值不服从卡方分布，故无法直接采用嵌套模型之间的卡方值比较(Muthén & Muthén,2007)。这种情况下Asparouhov & Muthén(2006)提供了一种专门用于采用WLSMV方法情况下，嵌套模型比较检验的方法，即DIFFTEST方法。

使用DIFFTEST检验方法，需要分别建立模型H1和H0，其中H0模型嵌套于H1模型，即H0模型是通过将H1模型中若干参数进行限定获得的。在进行测量不变性检验中，这种约束指向了考察的对象。比如考察阈值参数的测量不变性，则首先建立H1模型，其中允许阈值参数在组间自由估计，而接着建立的H0模型中则将阈值参数限定为组间相等。此时考察两个模型的DIFFTEST结果，如果经过校正的卡方差异值显著，则表示阈值参数组间存在差异，测量不变性遭到破坏。等级数据的测量不变性检验与连续数据的最大区别，在于所考察的参数发生了变化。在潜在反应变量模型中，所引入的阈值参数，代表了被试反应倾向的程度及其变化界限，有着明确的心理学含义，而这在传统的基于连续数据建模的框架分析中是没有的。故在本研究中，着重对于阈值参数的测量不变性进行考察。

3 模拟研究

3.1 模拟设计

DIFFFEST影响因素的考察，主要针对以下四个方面：(1)样本量：500，1000和2000；(2)参照组和考察组两组间的样本量对比比例分别设定为5∶5和8∶2。(3)组间阈值的差异，分别设定为0、.2、.4、.6，对应着测量不变性的四个水平。其中阈值差异为0的设计，用来考察DIFFTEST检验方法在不同条件组合下的一类错误率。(4)量表长度，分别设定为10道项目和20道项目，在每种量表长度中，均有5道项目的测量不变性遭到破坏。

其中，参照组和研究组所采用的模型在结构上相同，均是针对一个潜在因子的测量。观测指标均是0、1计分。两组模型设定的不同仅体现在指标阈值的设定存在差异。整个模拟研究包含了3×2×4×2＝48个独立的研究单元。每个单元将重复模拟数据500批。研究采用Mplus4.2生成和分析数据。为了研究和解释的方便，参照组的项目阈值全部为0，研究组中后五个项目阈值设定为.2、.4或.6，其他项目阈值全部为0。两组所有的项目载荷均设定为.8。分析步骤为，首先设定阈值在组间自由估计，建立模型H1。其次设定阈值在组间相等，建立模型H0。然后调用自编的批处理文件，处理H1、H0和DIFFTEST命令，最后生成的经过校正的卡方差异值对应的P值将单独放在一个文件里，以进行进一步的分析。

3.2 考察指标

首先，考察参数估计值的复原能力(recovery)，即考察根据样本数据的估计值与总体参数真值的吻合程度。本研究中关注的参数主要包括因子载荷、阈值，考察指标为误差均方(M.S.E)。以R表示重复模拟次数，则误差均方(mean square error,MSE)的计算公式如下：。误差均方越小，说明每批样本估计值均不会特别偏离总体真值，且估计值的均值越接近总体真值。由于研究中涉及参数较多，在结果的呈现中，对误差均方进行了整理，即分别列出各种组合条件下所有阈值和载荷的MSE的均值和标准差。

其次，考察DIFFTEST在各种条件组合下的一类错误率。

第三，考察DIFFTEST的检验力，该指标通过计算每个研究单元下DIFFTEST检验结果统计显著的个数，然后除以500次重复模拟中模型成功收敛的次数获得。

4 结果

4.1 不同条件组合下WLSMV参数估计复原情况

表1显示，项目载荷和阈值的误差均方的均值都比较小，且表现出随着样本量增大，误差均方的均值和标准差减小的趋势。各种条件下阈值的MSE均值和标准差均小于载荷的MSE均值和标准差，显示阈值的估计精度均高于载荷的估计精度；组间样本量相等情况下，载荷和阈值的MSE均值和标准差低于组间样本量差异悬殊情况下的值，表明组间样本量愈接近，则参数估计则愈精确；控制测量不变性遭受破坏项目个数情况下，随着测验长度的增加，载荷估计的MSE均值和误差均降低，而阈值的参数估计虽也有所降低，但是变化很小，显示阈值参数的估计结果基本不受测验题目个数的影响，同时随着测验题目的增加，可有效提高载荷的估计精度。总的来看，项目载荷误差均方的均值在.05以下，而阈值的误差均方的均值均在.02以下，说明稳健的加权最小二乘估计方法，适用于针对等级数据建构的潜在反应变量模型的参数估计。

4.2 不同条件组合下DIFFTEST犯第一类错误的概率

结合图1、图2所示，采用DIFFTEST对测量不变性进行检验时，样本量较小犯第一类错误的概率略高于.05。而随着样本量增大，犯第一类错误的概率逐渐接近于.05，这与Asparouhov & Muthén的研究结果一致。总体来讲，DIFFTEST对等级数据进行测量不变性检验时，犯一类错误的概率处于可接受水平。

图1 测验长度为10时一类错误概率

图2 测验长度为20时一类错误概率

在测验长度为10，即测量不变性遭受破坏的项目占测验总体比例为50％的情况下，在样本总量为500时，DIFFTEST犯一类错误的概率均高于.05的水平，而随着样本总量增加，则无论组间样本量接近还是相差较大时，DIFFTEST犯一类错误的概率均接近.05的水平；在测验长度为20，即测量不变性遭受破坏的项目占测验总体比例为25％的情况下，组间样本量接近情况下的DIFFTEST检验结果，犯一类错误的概率均接近.05的水平，比较稳定。组间样本量相差较大时，犯一类错误的概率均也随着样本总量增加而下降，在样本总量为2000时，接近.05的可接受水平。

4.3 不同条件组合下的DIFFTEST的检验力

图3、图4显示，随着总样本量增加，DIFFTEST的检验力显著增大；同时组间样本量相等情况下，DIFFTEST的检验力要高于组间差异较大情况下的表现；组间阈值差异愈大，则DIFFTEST的正确检验力愈高，在阈值差异为.6时，各种组合条件下的平均检验力达到.89的水平；控制测量不变性遭受破坏项目个数的情况下，检验力随着测量不变性遭受破坏的项目在测验中所占比例的减小而减小。

图3 测验长度为10时的正确检测率

图4 测验长度为20时的正确检测率

5 讨论

心理和教育研究中通过量表获取的等级数据，进行测量不变性检验时，需要考虑检验力的大小，同时也要关注模型参数估计的准确性。Muthén提出的WLSMV方法在针对此类数据的参数估计上表现出优良的性质，虽然多数情况下参数会出现高估的趋势，这与David B.Flora和Patrick J.Curran在2004年的研究结果是一致的，但根据均方误差(MSE)的结果，可以看出该方法的参数估计值未出现对于总体真值的较大偏离，即说明在等级数据的模型建构和参数估计中，潜在反应变量模型下的WLSMV估计方法的参的复原能力是非常好的，这首先保证了处理此类数据时，模型参数估计的准确性。

研究发现DIFFTEST的检验力随着总样本量的增大而提升，随着阈值组间差异的增加而增大。同时尤其值得注意的是关于组间样本比例研究结果，研究表明组间样本量接近情况下，DIFFTEST的检验力要高于组间样本量差异较大时的检验力。该结果表明在实际应用中，如果需要提高检验力，那么在增加总样本量的同时，努力使得两组样本量尽量接近，这要比只是增加某一组的样本量，更有利于测量不变性的考察。而一般这样做，所耗费的成本(如经费、人力)会低于不做细致区分，仅增加样本总量的方法所需成本。

从应用的角度来说，测量不变性的检验力至少需为.80。根据图3、图4结果，可以看出，在阈值组间差异较大时，如差值为.6的情况下，除了测验长度为20，样本总量为500情况下的检验力低于.80，其他条件下检验力均高于.80；随着阈值组间差异的减少，检验力则开始下降，在阈值差异为.2时，各种条件下的检验力均低于.80。这说明在测量不变性破坏程度较小的情况下，需要谨慎使用该方法。不过阈值差异为.2时，参数差异很微小，在不做严格要求的情况下，可以视作满足测量不变性的要求。一类错误率的考察显示其DIFFTEST方法的一类错误率接近.05的常用容忍水平，在各种组合条件下均未出现一类错误率特别膨胀的问题，说明DIFFFEST方法犯一类错误的概率处于可以接受的水平上。

本研究仅选取了0、1计分的等级数据，在代表性上有所欠缺，这也可能是造成DIFFTEST检验效果在小样本情况有所偏低的原因之一。同时，研究仅考察了测量单个特质的情况，未研究DIFFTEST针对多维量表进行测量不变性检验的表现情况，如潜在特质之间关系的组间测量不变性考察。研究由于研究侧重点的考虑，只是将五道题目作为一个整体进行了测量不变性检验效果的考察，在实际应用中，有时会需要更加准确地鉴别出具体哪道项目的测量不变性遭到了破坏。同时，本研究仅考察了阈值参数的测量不变性，这固然是因为该参数的特殊性，但在接下来的研究中，对载荷等其他参数也应予以考察。

6 结论

本研究主要结论如下：

(1)WLSMV估计方法下，参数估计值偏差程度很小，显示了良好的参数复原能力。

(2)DIFFTEST方法在针对等级数据的测量不变性检验中，一类错误率接近于常用的.05的容忍水平。

(3)DIFFTEST检验力随着样本量增大、阈值组间差异增加或组间样本比例接近而增加，随着测量不变性遭受破坏题目占测验比例减少而减小。在测量不变性破坏程度较大情况下，DIFFTEST方法基本达到应用要求，测量不变性遭受破坏程度较小情况下，则需要谨慎使用该检验方法。

标签：样本量论文; 参数估计论文; 参数检验论文; 样本均值论文; 概率计算论文; 阈值论文; 科普论文;

等级数据的测量不变性检验及影响因素的模拟_样本量论文

猜你喜欢