基于多层验证性因素分析的各种信度系数方法

田雪垠¹，郑蝉金²^*，郭少阳²，贺冠瑞³

(1.复旦大学心理学系，上海 200433；2.华东师范大学教育学部，上海 200062；3.江西师范大学心理学院，南昌 330022)

摘要：近年来，心理学研究的复现性受到广泛关注，许多实证研究难以重复验证，信度较低。大量研究使用多层技术，但只报告整体信度，导致研究可重复危机。基于各种信度系数和验证性因素分析的理论，以二层模型为例，总结多层信度计算方法，通过文献综述检索应用情况，并用MPLUS进行实例演示，最后讨论单层信度估计存在的偏差及分层估计的好处。总之，对多层数据进行分层信度估计是很有必要的，可消除因测量工具缺乏信度而导致的研究不可重复。

关键词：可重复危机；验证性因素分析；多层信度；MPLUS

1 引言

近年来，心理学研究的复现性受到广泛关注，许多实证研究难以重复验证，信度较低(Baker，2015；Open Science Collaboration，2015)。信度(reliability)是测量某种心理特质所得结果的一致性程度，反映随机误差因素所带来的方差变异。同时，信度也是衡量测验质量的重要指标，被定义为观察分数与真分数间相关的平方(lord & Novick，1968)，或表示成真分数与观察分数的方差之比(McDonald，1999)。信度越高，测量结果越可靠。

实际应用中，由于测验真分数难以得到，测验信度无法直接计算。故而，许多学者提出了不同信度系数来估计测验信度，例如克隆巴赫α 系数(α 系数；Cronbach，1951)，合成信度ω 系数(ω 系数；McDonald，1970)，最大信度H 系数(H 系数；Thomson，1940)等。其中，α 系数使用最广，在很长时间里，几乎被误认为信度本身。Guttman(1945)在数学上证明α 系数是测验真实信度估计的下界，只有当题目残差间不相关，且满足基本τ 等值的假设(即潜变量对所有题目的影响相同)，其信度估计值才可靠。据Cho(2016)报告，在《Journal of Applied Psychology》(JAP)与《Academy of Management Journal》(AMJ)这两个心理学和管理学领域影响力较大的期刊中，没有文献在使用信度系数时报告过基本τ 等值，因此无法判断这些文献中信度系数的使用是否正确。与α 系数不同，由结构方程模型(structural equation modeling，SEM)中验证性因素分析(confirmatory factor analysis，CFA)计算而来的ω 系数和H 系数不受该条件限制。

同时，注意到以往研究大多局限于单层模型，若测验存在一定数据结构，则不能反映测验的真实信度(Geldhof，Preacher，& Zyphur，2014)。目前越来越多研究使用多层数据，并运用多层线性模型(hierarchical linear modeling，HLM)进行分析，但这些研究往往只报告测验的整体信度，未对信度进行分层讨论，隐含了单层结构的假设。实际上，多层数据模型各层存在独立的信度，只报告单层信度显然是不合理的，这会给心理学变量的测量带来较大误差，导致研究的可重复危机。

已知单层结构数据在CFA下进行信度估计是较为精确的，将CFA扩展至多层模型，可对各层的协方差矩阵进行单独分析。因此，利用多层验证性因素分析(multilevel confirmatory factor analysis，MCFA)估计多层信度也是精确的。

基于MCFA，信度估计得到一系列发展。其中，Raykov和Du Toit(2005)提出多层信度的点估计和区间估计，考虑了组内和组间层次结构，但只提供整体信度估计，不能有效地分析多层信度。Cranford等(2006)也针对多层信度展开了讨论，提出多层信度估计理论，但不足以证明各层间有独立的真分数和误差方差。

在教育研究领域，普遍存在学生嵌套于班级，同时班级又嵌套于学校的模型。Rantanen(2013)指出在某些情况下，这些层次结构会更复杂，观测数据不一定相互嵌套，可能同时有多个层次结构。虽然该研究可解释组内和组间层次的变异程度，但仍未对信度进行分层讨论，不能反映测量工具的稳定性。

近几年研究中，复杂层次结构分析更易操作。Geldhof等(2014)基于MCFA对多层信度展开讨论，给出计算方法，并利用模拟数据进行验证，推动了多层信度的发展。

综上，文章主要从以下部分展开论述：(1)探讨CFA下单层信度估计；(2)简介多层信度概念，在MCFA下估计信度；(3)检索国内外核心期刊，分析多层信度的应用情况；(4)用MPLUS进行实例演示，探究多层信度估计的适用性。

2 基于验证性因素分析的单层信度估计

信度被定义为真分数与观测分数方差的比值，用公式表示为：

(1)

其中表示总分方差，表示真分数方差，表示误差方差。分母中总分方差可直接计算，但分子中真分数或误差方差不能直接得到，要借助其他方法估计，各种信度系数的区别就在于估计方法不同。

由于会展旅游业相关制度的不完善，也导致了成都市会展业和旅游业的融合不畅，由此导致会展旅游业的整体营销模式不成体系，发展滞后。目前成都市会展旅游业的营销模式主要还是以承办单位为主，很多会展虽然主办方为政府和行业协会，但是这些单位往往不会参与对展会的营销，而是由承办单位来进行营销宣传，但是其作用肯定是不如主办单位的影响力大。旅游管理部门很少关注会展旅游这一方面，在营销上也很少配合承办单位，常常出现会展旅游业中旅游业管理缺位的局面。承办单位在会展营销模式上也较为传统，缺乏创新。

CFA是SEM的重要组成部分，主要处理观测指标与潜变量间关系，被称为测量模型(侯杰泰，温忠麟，成子娟，2004)。下面以α 系数、ω 系数和H 系数这三种信度系数为例，讨论CFA下的信度估计。

(3)依据旅游发展实力和旅游区位熵可将安徽省16市划分为三个等级．黄山市、安庆市、合肥市、芜湖市旅游产业发展实力雄厚，为一级旅游增长极城市；池州市、六安市、宣城市、滁州市旅游业发展状况较好，旅游发展潜力较大，为二级旅游增长极城市；蚌埠市、淮南市、马鞍山市、铜陵市、亳州市、淮北市、阜阳市、宿州市基础设施有待完善，缺乏有竞争力的旅游品牌，是安徽省旅游业发展的滞后区域，为三级旅游增长极城市．

2.1 克隆巴赫α 系数

α 系数是信度的下限估计，只有满足特定条件，α 系数估计结果才是实际信度(温忠麟，叶宝娟，2011)。当模型是不含潜变量的完全饱和协方差结构时，可用CFA进行信度估计。

3、方向盘震抖、前轮摆头。出现方向盘震抖和前轮摇头现象，主要是前轮定位不当，主销后倾角过小所致。在没有仪器检测的情况下，应试着在钢板弹簧与前轴支座平面后端加塞楔形铁片，使前轴后转，再加大主销后倾角，试运行后即可恢复正常。

最后，统计分层计算信度的文章数量。应用研究必定会引用相应的理论文章，故以多层信度的核心理论文章为中心，对其参考文献、引证文献和相关文献进行扩展搜索。在此选取Raykov和Marcoulides(2006)及Geldhof等(2014)的研究，这两篇文章是多层研究的重要理论来源，介绍了SEM下的多层信度概念及如何计算多层信度。通过多个平台交叉检索，确定数量。

通过充分准备和组织，本专业在校学生参加国家级、自治区级各类技能竞赛屡创佳绩。5年来，有7人次在自治区级比赛中获奖，11人次在全国性比赛中获奖，其中2011年获团体第六名（41支参赛队），2012年获团体第三名（44支参赛队），成效显著，提高了学校知名度。

(2)

其中，平均协方差通过将矩阵∑(题目对称矩阵和协方差矩阵σ _ij )中所有元素相加，再除以元素个数得到。总分方差是所有题目方差与两倍协方差之和(即协方差矩阵所有元素和)，用公式表示为：

(3)

上式中1和1′，分别表示所有元素均为1的行向量和列向量，其行列数与矩阵∑相等。

2.2 合成信度ω 系数

ω 系数是在SEM基础上提出的，允许题目与其对应因子间具有异质相关性，即有不同的因子载荷，比α 系数更精确(吴瑞林，袁克海，2012；叶宝娟，温忠麟，2011)。

当测验为标准化的单维结构时，ω 系数可用以下公式估计：

(4)

其中，λ _i 指题目i 的因子载荷，θ _ii 指题目i 的方差；分子部分等价于1′ΛΛ′1，即题目真分数所有潜在模型协方差矩阵之和，分母部分表示真分数方差与所有残差方差之和。

计算合成信度ω 系数时，无法得知因素载荷、因子间协方差及题目残差方差的真实值。实际代入式中的参数均为SEM下的估计值其与具体模型及样本有关。

当测验满足基本τ 等价时，ω 系数和α 系数在数值上相等，即α 系数是ω 系数在一定条件下的特例。

2.3 最大信度H 系数

3.2.1 多层α 系数

H 系数法具有最佳加权合成分数(Bentler，2007；Raykov，2004)，公式可表示为：

ICC通常作为HLM的评判指标，应用于多层结构的检验(Heck & Thomas，2015)。当题目ICC较小，如小于0.05时，估计的残差方差几乎为0，可忽略组间差异对整体的影响，只计算整体信度(段锦云，王娟娟，朱月龙，2014)。当相应的组间真分数方差也接近0时，接近0的残差方差在组间变异中占很大比例，不可忽略组间层次的影响(Hox，van de Schoot，& Matthijsse，2012)。需要强调的是，组间信度与ICC是不同概念，组间信度反映了个体观察分数在组间层次的差异，ICC则反映了分组所带来的变异，通过公式也能看出两者的差异。

(5)

其中，表示单维下题目i 的完全标准化因子载荷。Hancock和Mueller(2001)将上式简化为：

(6)

H 系数提供题目最佳加权，且是平方项，具有一定优点。首先，ω 系数受到负因子载荷影响，但H 系数可使其有意义。其次，H 系数在计算总分时对题目进行最优加权，计算出的信度值最大。最后，ω 系数对所有题目进行等加权，受到质量差的题目影响，而H 系数对大信息量题赋予高权重，反之亦然。因此，H 系数可在一定程度上减少误差的干扰(叶宝娟，杨强，2011；Penev & Raykov，2006)。

3 多层信度

3.1 多层验证性因素分析

以二层模型为例，对多层信度估计展开讨论。把观察分数(y _ik ，下标i 和k 分别表示组内和组间层次)划分为组内真分数、组间真分数、组内误差和组间误差。各层具有不同真分数方差，故应对各层进行独立信度估计。

其中，组内信度是组内真分数方差与总方差的比值，计算公式为：

(7)

同理，组间信度用组间真分数方差在组间总方差中所占比例表示，公式如下：

(8)

此外，组内与组间方差的解释程度可用组内相关系数(intraclass correlation coefficient，ICC)描述，该系数表示组间方差占总变异的比值，公式如下：

(9)

2.2.9.3 发病条件。禾草离蠕孢在夏季湿热条件下侵染牧草；当气温升至20 ℃左右时，只发生叶斑，随着温度升高，叶斑越明显。当气温升至29 ℃以上且高湿时，表现严重叶枯并出现茎腐、茎基腐和根腐，造成病害流行。

3.2 多层信度的计算

随着对多层结构模型的探索，多层信度的理论越来越完善，其中Geldhof等(2014)对多层信度系数的估计进行了详细探讨。下面对不同信度系数在MCFA下的估计进行总结。

与ω 系数类似，H 系数是基于SEM计算测验总分的估计方法，但题目加权方式不同。

根据α 系数估计法及MCFA的要求，多层数据必须满足完全饱和的协方差模型。

从图5中可以看出，矿体品位大致可分为3段，即 1.0～5.5×10-6、5.5～8.5×10-6、9.5～11×10-6 3段，其中1.0～8.5×10-6提供了99%的资源量，故用1.0～8.5×10-6品位—吨位关系来代替矿床的吨位品位关系。

将等式(2)分别应用于组内和组间层次，得到独立的组内及组间α 系数。各层α 系数的分子是该层题数平方乘以该层平均协方差；分母是该层完全协方差矩阵中所有元素之和，可通过该层所有题目方差加上两倍的独立协方差得到。

在二层结构数据的信度估计中，各层计算公式分别表示为：

Level-1：

(10)

Level-2：

(11)

其中，σ _i 、σ _k 分别表示组内和组间层次所有题目的协方差矩阵，m 和n 表示组内和组间层次的题数。

在临床上，在排除其他原因的前提下，糖尿病患者出现与周围神经功能障碍有关的症状或体征，且以四肢远端感觉障碍为主要表现的病症，即为糖尿病周围神经病变[1]。该病症是糖尿病患者的严重并发症，其可诱发坏疽、溃疡、患肢感染等，严重时还可造成患者截肢，因此及早诊断和治疗意义重大[2]。本文选取我院收治的糖尿病患者50例，按照其有无周围神经病变分为观察组1和观察组2，同期选择健康体检者25例为对照组，即对高频超声在诊断糖尿病周围神经病变中的应用价值进行了探讨，现报道如下。

3.2.2 多层ω 系数

当各层均满足单维结构时，可用MCFA估计多层ω 系数。将等式(4)应用于各层，则各层的ω 系数分别是各层题目因子载荷及其残差方差的函数。该方法要求分别估计各层的残差方差，除非有充分理由说明没必要进行组间信度估计，否则不能将组间残差方差固定为0(Gottfredson，Panter，Daye，Allen，& Wightman，2009)。

在二层结构数据中，各层计算公式分别表示为：

Level-1：

(12)

Level-2：

(13)

其中，λ _i 、λ _k 分别表示组内和组间层次题目i 和k 的因子载荷，θ _i 和θ _k 表示题目i 和k 所对应的方差，m 和n 是组内和组间层次的题数。

3.2.3 多层H 系数

选取2012年10月～2016年10月我院接收的手术下肢手术患者90例作为研究对象，根据治疗方案不同将其分为研究组和对照组，各45例。其中，研究组男21例，女24例，年龄55～82岁，平均年龄（68±2.2）岁；对照组男23例，女22例，年龄57～80岁，平均年龄（67±1.7）岁。纳入标准：①下肢手术患者。②6月内无血栓病病史，术前双下肢彩色多普勒检查DVT阴性。排除标准：①抗凝治疗禁忌症者；②低分子肝素过敏者；③血小板减少症病史患者。

在多层数据结构下，估计ω 系数的方法同样适用于H 系数。

H 系数根据标准化因子载荷的平方(用表示)来估计信度，排除负因子载荷的干扰，并提供各题的最佳加权。但MCFA一般不提供标准化的因子载荷，要先用原始矩阵进行参数估计，公式如下：

(14)

在二层结构数据中，各层计算公式分别表示为：

Level-1：

(15)

Level-2：

(16)

其中，λ _i 、λ _k 分别表示组内和组间层次题目i 和k 的因子载荷，θ _i 和θ _k 表示题目i 和k 所对应的方差，m 和n 是组内和组间层次的题数。

4 多层信度的应用情况

为评估多层信度在心理学研究中的应用情况，借助“中国知网”、“Web of Science”和“Google Scholar”等平台对五本国内外核心期刊近五年(2014年1月至2018年4月)的文章进行检索。

4.1 检索期刊

选取期刊分别是《Journal of Applied Psychology》(JAP)、《Journal of Organizational Behavior》(JOB)、《心理学报》、《心理科学》和《心理发展与教育》。

Y o u n g是他给自己起的名字，他说他早把两个方块字组成的名字忘了。因为他们家在他出生前就移民美国了。所以他只知道他爹姓杨，江浙人士，别的一概不知，说也不想听。

其中，JAP和JOB是应用心理学核心外刊，具有较高影响力。“Web of Science”期刊引用报告显示，2017年JAP的影响因子为4.643，在应用心理学类中排第6，管理学类中排第23；JOB的影响因子为4.229，在应用心理学类位列第7，管理学类位列第30。《心理学报》、《心理科学》及《心理发展与教育》是国内心理学核心期刊，在中国知网“2017中国最具国际影响力学术期刊(人文社会科学)”排名前三。

在进行电力负荷预测时，会获取海量的历史负荷数据，其中，往往会由于机器或人为的原因，使数据中出现一些偏差的离群数据以及缺失数据，这些“坏数据”的存在往往会极大地影响预测的精度，因此我们首先进行检测并加以处理。

4.2 检索过程

首先，用“Web of Science”和“中国知网”检索近五年的文章。根据标题、关键词，通过“Google Scholar”对文献综述和概念论文进行排查，核对期刊官网，统计各期刊应用文章总数。

接着，利用关键词检索，统计使用多层技术的文章数量。外刊主要借助“Google Scholar”高级搜索功能。考虑到ICC是HLM的评判标准，使用“ICC”、“HLM”作为关键词，浏览标题、摘要，必要时查看原文，确定文章数量。中文期刊借助“Google Scholar”和“中国知网”检索。在“Google Scholar”高级搜索中用“多层”关键词查找，并用“ICC”关键词再次验证。同时，在“中国知网”中结合“跨层”、“多层”、“ICC”等关键词检索，综合多次结果进行统计。

在西北原始简陋的窑洞里，斯诺终于见到了苏维埃的掌权人物——毛泽东，在他看来，“毛泽东是一个令人极感兴趣而复杂的人，他很少提到自己或者个人在某些事件中的作用，他显然认为个人是不重要的。”[1]103很多时候，毛泽东交谈的主语都是 “我们”，而不是 “我”，你所听到的只是关于红军、苏维埃或党的故事，而这些事件对他们只有集体的意义。在毛泽东的众多诗词中，所表现的内容不是他个人的奋斗史或征战史，他不是着眼于描述个体英雄形象，而是致力于塑造红军英雄的群体形象。在他看来，长征的胜利，是整体的功劳，个体仅仅起到带头和示范的作用。

α 系数是测验所有题目平均协方差总分方差和题量(n )的函数，公式表示如下：

4.3 检索结果

对各期刊进行检索后，整理各部分结果如下表1。

表 1五本期刊多层信度的应用情况

由数据可见，各期刊应用研究文章总数分别为：JAP397篇，JOB251篇，《心理学报》552篇，《心理科学》728篇，《心理发展与教育》345篇。

其中，使用多层技术的情况如下：JAP142篇，占期刊总量的35.77%；JOB95篇，占期刊总数的37.85%；《心理学报》66篇，在期刊中占比11.96%；《心理科学》30篇，占期刊的4.12%；《心理发展与教育》24篇，在期刊中有6.96%的比例。中文期刊含较多实验研究，故文章比例较少。由此可见，多层技术的文章数量相对可观，说明其具有一定普遍性。

然而，在这五本期刊中，仅有4篇报告了多层信度：JAP中1篇研究团队绩效文章(Koopmann，Lanaj，Wang，Zhou，& Shi，2016)，以及JOB中3篇应用文章——研究心理契约模式对组织承诺恢复影响(Solinger，Hofmans，Bal，& Jansen，2016)；情绪智力和情感过程中的个体差异(Minbashian，Beckmann，& Wood，2017)；感知掌握气氛、感受信任和知识共享的关系(Nerstad et al.，2018)。其他文章均未分层报告信度。

因此，即使多层结构在技术层面得到推进，但很少有学者根据多层理念，对信度进行分层讨论。

5 实例

利用《An Introduction to Multilevel Modeling Techniques》(Heck & Thomas，2015)第八章数据在MPLUS中进行演示。该例是关于员工组织领导力的研究，被试覆盖36个区，是来自105个组织的650名员工。通过六个测量指标，两个潜在因子，构建二层双因子模型。

Heck和Thomas(2015)给出具体模型如图1所示，有两个潜在因子(决策风格DEC，评估程序EVAL)，每个因子指向三个观测指标，且因子间相关。决策风格包括管理者参与度(Shdec)，客户参与度(Invcli)，团队领导力(Team)。评估程序包括管理者评估(Evprog)，使用和系统评估(Sysas)，员工绩效标准(Evstan)。

由图11可知，模糊PID调平控制系统在2 s以内就能达到稳定，而且没有超调，而常规PID控制在将近4 s时才能达到稳定，且超调量将近40%，仿真结果表明模糊PID控策略在混合臂高空作业车工作斗调平控制系统性能上优于常规PID控制策略，该模糊PID调平控制系统满足要求，可用于实际需求。

COMP_V=V1+V2+V3+V4+V5+V6+2*(C1+C2+C3+C4+C5+C6+C7+C8+C9+C10+C11+C12+C13+C14+C15)；

图 1二层两因子模型

单层α 系数基于单层饱和协方差模型，将单位合成分数和α 系数作为模型参数。在MPLUS中测验合成分数的方差被定义为：

不论哪种信度系数估计法，在多层测量模型下各层均能解释足够的变异(即ICC>0.05)。因此，可在MPLUS中用MCFA对数据进行分析。下面针对不同系数估计法，进行整体信度估计和分层信度估计，比较异同。

其中，V1-V6表示各题方差，C1-C15表示各题间协方差，利用这些题目协方差和测验合成分数(COMP_V)可计算单层α 系数(即整体信度)，在MPLUS计算公式为：

ALPHA=(((C1+C2+C3+C4+C5+C6+C7+C8+C9+C10+C11+C12+C13+C14+C15)/15)*36)/COMP_V；

根据公式和代码得到单层α 系数为0.850，说明具有良好的整体信度。

将数据应用于二层模型，估计测验合成分数及组内、组间层次的α 系数，结果显示各层信度均可接受，且组间信度(α =0.933)比组内信度(α =0.825)更可靠。

接着，在单维CFA下，用因子载荷和残差方差来估计模型参数。MPLUS中ω 系数和H 系数的计算公式分别为：

对于上述的优化问题，应用Monge-Kantorovich duality理论可获得最优解，得到UAV与IoT设备分簇的联合运动策略，确定UAV覆盖簇，从而避免频繁换簇覆盖所引起的远距离移动等大运动状态变化问题，实现移动节能[21,22].

ω =(L1+L2+L3+L4+L5+L6)**2/(((L1+L2+L3+L4+L5+L6)**2)+(R1+R2+R3+R4+R5+R6))；

H=1/(1+(1/((L1**2/R1)+(L2**2/R2)+(L3**2/R3)+(L4**2/R4)+(L5**2/R5)+(L6**2/R6))))；

其中，L1-L6表示各题未标准化的因子载荷，R1-R6表示估计的残差方差。根据公式和代码计算得到单层ω 系数为0.854，单层H 系数为0.865，两者数值相近，均可接受。结果显示，相比单层α 系数，ω 系数和H 系数偏高。

将数据应用于MCFA，规定所有残差方差大于0，估计组内、组间层次的信度。结果显示，ω 系数及H 系数的组间信度(ω =0.938；H =0.978)也比组内信度(ω =0.830；H =0.838)更可靠。

相关代码请扫描附录二维码或发邮件获取。

6 讨论

综上所述，越来越多研究应用了多层数据，但大多关注的是跨层的理论模型。在此情况下，若只报告整体信度，未进行分层讨论，所用测量工具的可靠性就难以评估，可能会引入一些混淆变量，在一定程度上导致研究不可重复。例如，跨层的交互作用、中介调节等，通过量表收集得到的结果可能会受到质疑，因为此时测量工具不符合多层结构。因此，当数据具有多层结构时，应用HLM分析，报告分层的信度估计结果，以缓解可重复危机。

从理论角度考虑，第一，以二层模型为例，HLM考虑了两种变异，即组内和组间变异，能解释更多的残差方差，在一定程度上可改善参数检验的结果。例如，整体信度只含一组整体参数，而多层信度中至少包含两组参数。第二，多层信度提供更多信息。当实际数据为多层结构时，整体信度不足以提供充分信息，忽略了各层间的变异；而多层信度通过计算模型的ICC，对数据分层讨论，报告各层信度，提供更多可靠信息。

从文献检索结果来看，多层技术得到普及，越来越多研究使用多层数据，并用HLM分析。然而，检索的期刊中仅有4篇文章报告了相应的多层信度，其他文章均未对信度进行分层讨论。由此可见，虽然多层信度的概念被接受，其理论也被相继讨论，但真正报告多层信度的研究很少，这显然是不合理的。

从应用层面出发，多层技术的理论已相对成熟，但很少有人在实际研究中对多层数据进行分层信度报告。即使使用多层数据，且ICC符合HLM的判定标准，大部分研究仍尽量回避分层信度估计，只报告整体信度。这可能是测量模型的要求较严格，检验较难通过。例如，MCFA难以估计较小样本量，但多层回归却可以。因此，有些研究为得到预期结果，会放松对测量模型的检验，直接进行回归分析。此外，MCFA虽然不能同时拟合所有分测验，但可对测验进行信度估计，故基于MCFA的多层信度估计的可靠性远优于不报告信度或单层假设下的整体信度估计。Cho(2016)也提到在对合成分数进行多层分析时，借助MCFA分层估计信度是很有必要的。

从实例结果分析，第一，当数据是多层结构时，仅借助单层假设估计整体信度会造成较大偏差，应考虑分层分析。第二，单层ω 系数和H 系数的估计结果都比α 系数高，重复验证了α 系数在特定条件下是信度的下限估计。第三，最大信度H 系数与合成信度ω 系数的方法类似，只是加权方式不同，因而两种信度系数估计法所得结果相近。第四，实例计算中，不论是哪种信度系数，其单层信度都更接近组内信度，说明当组内变异较大(ICC较小，ICC _α =0.127，ICC _ω/H =0.253)时，整体信度估计更接近组内信度。

最后，文章讨论的前提是第一层满足单维且固定因子载荷的CFA模型，不考虑其他因子结构在不同水平上的变化。其次，研究的可重复危机包括很多方面，例如各种变量的控制和标准化等，在此探讨的是测量工具的质量保障，即保证信度的准确估计。因此，在多层数据中，对信度进行分层讨论只是在一定程度上缓解可重复危机，不能完全消除其存在的可能性。尽管有这些限制，文章总结了常见的几种信度系数方法，对多层信度的发展和应用程度进行综述，解释了单层信度估计可能存在的偏差及分层估计的好处，希望能对多层信度的推进提供一些帮助。

参考文献

段锦云，王娟娟，朱月龙.(2014).组织氛围研究：概念测量，理论基础及评价展望.心理科学进展，22 (12)，1964-1974.

侯杰泰，温忠麟，成子娟.(2004).结构方程模型及其应用 .北京：教育科学出版社.

温忠麟，叶宝娟.(2011).测验信度估计：从α系数到内部一致性信度.心理学报，43 (7)，821-829.

吴瑞林，袁克海.(2012).基于结构方程模型的合成信度及其使用问题研究.统计与信息论坛，27 (12)，14-20.

叶宝娟，温忠麟.(2011).单维测验合成信度三种区间估计的比较.心理学报，43 (4)，453-461.

叶宝娟，杨强.(2011).用验证性因子分析估计单维测验的信度.教育测量与评价：理论版，11 ，8-12.

Baker，M.(2015)Over half of psychology studies fail reproducibility test.Nature News.Retrieved July ，30 ，2018，from www.nature.com/news/over-half-of-psychology-studies-fail-reproducibilitytest-1.18248.

Bentler，P.M.(2007).Covariance structure models for maximal reliability of unit-weighted composites.In S.-Y.Lee(Ed.)，Handbook of Latent Variable and Related Models (pp.1-19).Netherlands：North-Holland.

Cho，E.(2016).Making reliability reliable：A systematic approach to reliability coefficients.Organizational Research Methods ，19 (4)，651-682.

Cronbach，L.J.(1951).Coefficient alpha and the internal structure of tests.psychometrika ，16 (3)，297-334.

Cranford，J.A.，Shrout，P.E.，Iida，M.，Rafaeli，E.，Yip，T.，& Bolger，N.(2006).A procedure for evaluating sensitivity to within-person change：Can mood measures in diary studies detect change reliably?Personality and Social Psychology Bulletin ，32 (7)，917-929.

Geldhof，G.J.，Preacher，K.J.，&Zyphur，M.J.(2014).Reliability estimation in a multilevel confirmatory factor analysis framework.Psychological Methods ，19 (1)，72-91.

Gottfredson，N.C.，Panter，A.T.，Daye，C.E.，Allen，W.F.，& Wightman，L.F.(2009).The effects of educational diversity in a national sample of law students：Fitting multilevel latent variable models in data with categorical indicators.Multivariate Behavioral Research ，44 (3)，305-331.

Guttman，L.(1945).A basis for analyzing test-retest reliability.Psychometrika ，10 (4)，255-282.

Hancock，G.R.，& Mueller，R.O.(2001).Rethinking construct reliability within latent variablesystems.InR.Cudeck，K.G.Jöreskog，& D.Sörbom(Eds.)，Structural equation modeling ：Present and future .A festschrift in honor of Karl J öreskog (pp.195-216).Lincolnwood，IL：Scientific Software International.

Heck，R.H.，& Thomas，S.L.(2015).An introduction to multilevel modeling techniques ：MLM and SEM approaches using Mplus .New York：Routledge.

Hox，J.J.，van de Schoot，R.，& Matthijsse，S.(2012).How few countries will do?Comparative survey analysis from a Bayesian perspective.Survey Research Methods ，6 (2)，87-93.

Koopmann，J.，Lanaj，K.，Wang，M.，Zhou，L.，& Shi，J.(2016).Nonlinear effects of team tenure on team psychological safety climate and climate strength：Implications for average team member performance.Journal of Applied Psychology ，101 (7)，940-957.

Lord，F.M.，& Novick，M.R.(1968).Statistical theories of mental test scores .Reading，MA：Addison-Wesley.

McDonald，R.P.(1970).The theoretical foundations of principal factor analysis，canonical factor analysis，and alpha factor analysis.British Journal of Mathematical and Statistical Psychology ，23 (1)，1-21.

McDonald，R.P.(1999).Test theory ：A unified treatment .Mahwah，NJ：Erlbaum.

Minbashian，A.，Beckmann，N.，& Wood，R.E.(2017).Emotional intelligence and individual differences in affective processes underlying task-contingent conscientiousness.Journal of Organizational Behavior.Retrieved July ，30 ，2018，from https：//doi.org/10.1002/job.2233.

Scherer，R.(2018).Perceived mastery climate，felt trust，and knowledge sharing.Journal of Organizational Behavior ，39 (4)，429-447.

Open Science Collaboration.(2015).Estimating the reproducibility of psychological science.Science ，349 (6251)，aac4716-1-aac4716-8.

Penev，S.，&Raykov，T.(2006).On the relationship between maximal reliability and maximal validity of linear composites.Multivariate Behavioral Research ，41 (2)，105-126.

Rantanen，P.(2013).The number of feedbacks needed for reliable evaluation.A multilevel analysis of the reliability，stability and generalisability of students’ evaluation of teaching.Assessment &Evaluation in Higher Education ，38 (2)，224-239.

Raykov，T.(2004).Estimation of maximal reliability：A note on a covariance structure modelling approach.British Journal of Mathematical and Statistical Psychology ，57 (1)，21-27.

Raykov，T.，& Du Toit，S.H.(2005).Estimation of reliability for multiple-component measuring instruments in hierarchical designs.Structural Equation Modeling ，12 (4)，536-550.

Raykov，T.，&Marcoulides，G.A.(2006).On multilevel model reliability estimation from the perspective of structural equation modeling.Structural Equation Modeling ，13 (1)，130-141.

Solinger，O.N.，Hofmans，J.，Bal，P.M.，& Jansen，P.G.(2016).Bouncing back from psychological contract breach：How commitment recovers over time.Journal of Organizational Behavior ，37 (4)，494-514.

Thomson，G.H.(1940).Weighting for battery reliability and prediction.British Journal of Psychology ，30 (4)，357-366.

Various Reliability Coefficient Methods Under Multilevel Confirmatory Factor Analysis

Tian Xueyin¹，Zheng Chanjin²，Guo Shaoyang²，He Guanrui³

(1.Department of Psychology，Fudan University，Shanghai 200433； 2.Faculty of Education，East China Normal University，Shanghai 200062； 3.School of Psychology，Jiangxi Normal University，Nanchang 330022)

Abstract ：In recent years，the reproducibility of psychological science has received extensive attention.Many empirical studies were difficult to replicate and therefore had low reliability.It is noted that more and more researchers used a multilevel data structure and hierarchical linear modeling(HLM)for analysis.However，most of them only displayed the overall reliability，resulting in the research reproducibility crisis.Based on the confirmatory factor analysis(CFA)，the article introduced estimation methods of different reliability coefficients.Taking a two-level model as an example，it also summarized the multilevel reliability estimation methods.In addition，to evaluate the application of multilevel reliability，the article investigated the researches in the past five years.Then，it illustrated how to use the software MPLUS to execute reliability estimation with an example.Finally，the article discussed the deviation of single-level reliability estimation and the benefits of hierarchical estimation.In summary，it is necessary to perform hierarchical reliability estimation in the multilevel data structure，which can eliminate the reproducibility crisis caused by unreliable measurement tools.

Key words ：reproducibility crisis；confirmatory factor analysis；multilevel reliability；MPLUS

*通讯作者：郑蝉金，E-mail：noblesavage@sina.com。

中图分类号： B841.2

文献标识码： A

文章编号： 1003-5184( 2019) 05-0461-07

标签：可重复危机论文; 验证性因素分析论文; 多层信度论文; MPLUS论文; 复旦大学心理学系论文; 华东师范大学教育学部论文; 江西师范大学心理学院论文;

基于多层验证性因素分析的各种信度系数方法论文

1 引言

2 基于验证性因素分析的单层信度估计

2.1 克隆巴赫α 系数

2.2 合成信度ω 系数

2.3 最大信度H 系数

3 多层信度

3.1 多层验证性因素分析

3.2 多层信度的计算

4 多层信度的应用情况

4.1 检索期刊

4.2 检索过程

4.3 检索结果

5 实例

6 讨论

Various Reliability Coefficient Methods Under Multilevel Confirmatory Factor Analysis

猜你喜欢