评价中心的概念效度与结构模型_评价中心论文

评价中心的构想效度和结构模型，本文主要内容关键词为：模型论文,评价论文,结构论文,中心论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

分类号　B849:C93

1　问题的提出

评价中心一直是西方国家流行的一种评价、选拔和培训管理人员尤其是中高层管理人员的综合性人事测评方法[1]。20世纪80年代以后，我国对这种人事测评方法也有了研究和应用。作为一种人事测评方法，其效度是研究者和实际工作者都极为关心的一个问题。

从心理测量学的角度来说，效度是根据测量分数或其他评估资料作出的综合评价，检验实际证据和理论原理在多大程度上支持了推论和行动的准确性及适宜性[2]。从这个定义出发，效度的检验包含了对测量工具的理论构想进行验证和利用实证证据验证测量工具的效度两个过程。

早期对评价中心的构想效度进行研究的学者，多采用多质多法（multitrait-multimethod matrix approach，简称MTMM）和探索性因素分析（Exploratory factor analysis，简称EFA）这两种方法[3]。

Sackett和Dreher[3]于1982所做的一个著名的研究就是以多质多法为手段，对采自三个不同企业的评价中心的评分数据进行了研究。结果表明，不同测评方法的同一维度之间没有相关，即会聚效度很差，同时还发现区分效度也差，而且同质异法间的相关低于异质同法间的相关。即，某人在某特定的测评方法中的某一特定的测评维度上得了高分，但他往往在其他测评方法中该特定测评维度上得不了高分。他们认为，被评价者在评价中心中的表现至少部分地是由测评方法所决定的，或者说，评价中心的评分主要是以测评方法为导向的(Situational-specific)。

但有些学者对他们的研究过程提出了不同的看法[4,5]。这些学者在研究中发现了中等程度的同质异法间相关，即在评价中心中发现了会聚效度，但同时也发现这些相关都明显低于异质同法间的相关，且光环效应、区分效度低的现象在这些研究中也存在。他们认为，被评价者在评价中心中的表现是由测评维度所决定的，或者说，评价中心的评分主要是以测评维度为导向的(Dimension-specific)。

Sackett与Harris[6]在1988年采用验证性因素分析（Confirmatory factor analysis，简称CFA）的方法，并在原有数据的基础上增加了两个企业评价中心的数据进行了重新论证分析。得到的结论仍然是评价中心的评分主要是测评情景（方法）导向。其他的一些学者[7-9]用不同的样本和统计方法进行的研究，所得结果也支持了Sackett和Dreher的观点。

目前，对于评价中心有效性的原因的争论仍然存在[10]。本研究将对采集于国内某企业的评价中心数据运用多质多法、验证性因素分析的方法进行处理，以探讨评价中心的构想效度，并进而对评价中心的结构模型进行研究。

2　研究方法

2.1　研究材料

某企业的评价中心包含无领导小组讨论、文件筐和人格测验。

其中无领导小组讨论由评价者从沟通能力、成就动机、灵活性、领导能力、决策能力、组织协调、敏感性7个测评维度对每一个被评价者在7点量表上进行评分；文件筐测验则由评价者从沟通、灵活性、领导能力、决策能力、组织协调、敏感性6个测评维度进行评分；人格测验则采用加州人格问卷(CPI)中的社交能力、进取能力、灵活性、支配性、心理感受性、社交风度、顺从成就、独立成就8个分量表。

3种不同测评方法都有不同的测评维度，但它们之间是互相对应的，基本一致的。其中3种测评方法共同具有的维度有4个。具体可见表1。

表1　3种不同的测评方法对应的测评维度

无领导小组讨论文件筐人格测验

沟通能力

社交能力，社交风度

成就动机　进取能力，顺从成就，独立成就

灵活性灵活性

　灵活性

领导能力

支配性

决策能力

组织协调

敏感性敏感性

　心理感受性

2.2　被试（被评价者）及施测

本研究的所有被试来自三个方面，对三种测试都参加的共有136人。其中，男88名，女48名。具体分布见表2。

表2　参加所有3种测试方法的被试的分布

被试类别性别

合计

男女

企业在职中层干部

　　7　47

后备干部培训班学员　14

　　0　14

应届毕业生　3441

合计8848 136

在施测过程中，对每一个被评价者的评分均由固定的评价小组成员完成。所有的评价组成员均受过严格的训练，以确保评分的准确性与客观性。评价组成员在对参加无领导小组讨论的被试进行评分前，可以互相讨论一下，但每个评分员均独自给分。对于文件筐的给分，评分组成员也是先在一起讨论一下，但独自给分。每个被评价者在无领导小组讨论和文件筐测验每个测评维度上的得分均以评价小组成员的平均分计。人格测验则严格按测验说明进行评分。

3　研究假设

本研究将采用多质多法和验证性因素分析两种方法对评价中心的构想效度进行研究，并进而提出评价中心的结构模型。由于采用任一种方法对评价中心的构想效度进行验证时都分别有自己的假设，下面结合本研究分别予以阐述。

3.1　多质多法的方法

多质多法是Campbell和Fiske[1]于1959年提出的一种分析测验的构想效度的方法，这种方法适用于多种特质在多种测评方法中进行评定时对构想效度的检验。对评价中心的构想效度进行验证时，测评维度被看成是特质，而测评方法（或称测评情景）则被看成是方法。

用多质多法可以决定会聚效度和区分效度。会聚效度是指同一种测评维度在不同测评方法之间的相关；区分效度是指同一测评方法内不同测评维度之间不相关的程度。会聚效度和区分效度是构想效度的两个重要指标[11]。表3呈现了一个本研究的3种测评方法（方法）4种测评维度（特质）的多质多法矩阵。

对于本研究而言，假设评价中心存在良好的构想效度，也即：(1)不同测评方法间的同一测评维度必须显著相关（会聚效度）；(2)这种会聚相关必须大于同一测评方法内的不同测评维度之间的相关（异质同法）及来自于不同测评方法的不同测评维度之间的相关。

表3　3种方法4种特质的一个多质多法矩阵

注：M指方法；T指特质。表中标1的区域是指同质异法相关；标2的三角形是指异质异法相关；标3的三角形是指异质同法相关。

3.2　验证性因素分析的方法

验证性因素分析是20世纪60年代后从探索性因素分析发展而来的[12]。它可以通过协方差结构模型(Covariance Structure Modeling,CSM)或称结构方程模型(Structure Equation Modeling,SEM)实现。对于数据的计算和模型的验证，现已编有多种计算机软件，其中著名的一种是K.G.Joreskog和D.Sorbom编制的LISREL。

在验证性因素分析方法出现之前，对评价中心的构想效度的验证，更多的是用多质多法。对于多质多法的批评意见，主要是认为这种方法以包含测量误差的可观测变量间的相关为基础，来对潜在的结构进行解释，而实际上测量误差每次是不一致的，从而会影响到相关系数，进而影响对潜在结构解释的准确性。验证性因素分析方法则可以解决这个问题，它对误差和相关的变量进行控制，进而得出一个更加令人满意的结果。因而，它很快被公认为一种适宜且通用的评估MTMM数据的方法[12]。在这种方法中，同一特质不同测评方法所决定的因素代表测评的构想效度，而同一测评方法不同测评特质所代表的因素则表明了测评方法的效应。每一个可观测变量均由特质因素、方法因素和测量误差三部分组成。其最大优点在于能对因素的负荷进行固定，并对提出的不同假设模型进行检验。

在本研究中，拟用前两种方法中同样的数据采用验证性因素分析的方法对此进行比较分析。为此，提出如下假设模型：

模型一：MULL模型

即虚无模型。

模型二：3法4质（法与法之间相关；质与质之间相关）

该模型的设想是所有4种测评维度都能在3种测评方法中的任一种中被测评出来。用验证性因素分析的术语来说，在评价中心的评分中，应该有4个特质即测评维度因素（每一个因素代表一种测评维度）、3个测评方法因素（每一个因素代表一种测评方法），还有误差方差因素。见表4。

表4中的因素矩阵不同于传统因素分析中的矩阵。在这种因素矩阵中并非所有的因素负荷都被估计出来，某些值小同时又不显著的负荷被固定在一个值(0)上。同时，被假设为非0的其他负荷则保持自由(?)。不同于传统的因素分析，验证性因素分析是在限定某些条件下进行运算，从而得出一个最符合实际情况的因素结构。

表4　验证性因素分析的假设

测评维度测评维度因素

测评方法因素

　误差

因素

　沟通

? 0 0 0 ? 0 0 ?

　灵活性

0 ? 0 0 ? 0 0 ?

　领导能力

0 0 ? 0 ? 0 0 ?

　敏感性　

　 0 0 0 ? ? 0 0 ?

　沟通　　 ? 0 0 0 0 ? 0 ?

　灵活性　　

0 ? 0 0 0 ? 0 ?

　领导能力　　 0 0 ? 0 0 ? 0 ?

　敏感性

0 0 0 ? 0 ? 0 ?

　社交能力

? 0 0 0 0 0 ? ?

　灵活性

0 ? 0 0 0 0 ? ?

　支配性

0 0 ? 0 0 0 ? ?

　心理感受性

0 0 0 ? 0 0 ? ?

自由负荷的位置表明了某一种特定的假设。例如，表4的每一行上只有三个负荷自由，一个是被测的能力，一个是所使用的方法（情景），最后一个是误差。每一种自由负荷的大小反映了问题的所在。如果在能力因素上的自由负荷小且不显著，而在方法因素上的自由负荷大且显著，那么，这种结果就是支持测评方法导向的。反过来，不同测评方法中的同一种能力的因素负荷的值大而且是显著的，那么，就可以认为不同测评方法之间能力的一致性可以得到确认。通过检测这些不同的假设模型，就可以得出评价中心的评分到底是指向测评维度的还是测评方法的。

模型三：3法0质（法与法之间相关）

我们可以在模型一中去掉测评维度因素的负荷，而仅留下测评方法的负荷和误差，从而形成三种测评方法的模型。这种模型与Sackett和Dreher于1982年的发现是一致的。

模型四：3法1质（法与法之间相关）

在这个模型中，假设存在一个通用的特质（测评维度），比如沟通维度。

模型五：4质0法（质与质之间相关）

从模型一中将所有测评方法的因素去掉，则可以有这样一个模型，即四种测评维度因素存在，而没有测评方法因素存在，当然，在该模型中还有误差因素存在。

4　研究结果

4.1　多质多法分析

对所获取的数据，运用多质多法进行分析，得到如下结果：

表5　测评维度和测评方法评分的比较

测评维度或测评方法

　平均的相关系数

测评维度（同质异法相关）

　沟通能力

0.050

　成就动机

0.046

　灵活性

　0.079

　领导能力

0.126

　决策能力

0.228

　组织协调

0.053

　敏感性

　0.188

　总平均数0.110

测评方法（异质同法相关）

　人格测验

0.102

　文件筐测验　0.506

　无领导小组讨论

　0.756

　总平均数0.455

异质异法相关　0.210

在该表中，各测评维度的相关系数是指不同测评方法之间同一测评维度的相关系数的平均数，其大小表明了会聚效度的大小，其值越大，会聚效度越大。测评方法的相关系数是指同一测评方法内不同测评维度之间的相关系数的平均数，其值大小表明了区分效度的大小，其值越大，区分效度越小。

可以发现，不同测评方法间的同一个测评维度的相关（同质异法）的平均值是0.110，小于同一个测评方法内的不同测评维度之间的相关（异质同法）的平均值0.455。另外，不同方法之间的不同维度之间的相关（异质异法）是0.210，大于同质异法的相关。这表明评价者在同一测评方法内对不同测评维度的评分比较一致。

4.2　验证性因素分析的结果

评价中心的评分相关矩阵呈现在一个12×12（有4种能力，每一种能力都被3种测评方法所测量）的一个相关矩阵里。使用LISREL8.0软件进行验证性因素分析，从而对我们在前述所提出的模型进行验证。

LISREL软件的一大特点是能使用被观测的（假设的）一个因素模型来产生一个被估计的相关矩阵。如果在现实的矩阵和被估计的相关矩阵之间的差异很小，那么假设的因素模型就被认为是可以接受的。一个模型是否可以被接受，在验证性因素分析中，通常可以采用以下几个指标[13]：

(1)RMSR(root mean square residual)，即平方根残差，其意义是预测与已观测方差和协方差之间的平均差异。其值在0（完全拟合）与1（完全不拟合）之间，其值越小表明拟合度越高，通常要求小于0.05。

(2)PFI(parsimonious fit index)，即省俭系数，其意义在于考虑被估计参数的数目与范围，其值在0（完全不拟合）与1（完全拟合）之间。

(3)χ[2](chi square)，即卡方，其意义是将一个特定的假设模型与虚无模型作比较，其值越大则该假设模型越不符合研究样本的数据。当然，χ[2]的大小与样本的大小有直接的关系。我们在统计上并不是单纯地看χ[2]的大小，而是与自由度结合起来考虑。即使用χ[2]/df的大小来作为检验指标。χ[2]/df的理论大小为1，χ[2]/df越接近于1，表示样本协方差矩阵S与被估计的协方差矩阵E的相似程度越高。实际研究中，χ[2]/df的值在2以内即可以被认为该假设模型的拟合度较好。

(4)GFI(goodness of fit)，即拟合度指数，该指标有时被称为绝对拟合指标，因为它将理论模型与饱合模型进行比较。其值通常在0与1之间，越接近于1，则表明该模型的拟合程度越好。

(5)AGFI(adjusted goodness of fit)，即调整拟和度指数，它表明能被假设模型解释的方差和协方差的相对量值。在理论上其值在0与1之间。一般认为，其值在0.90以上就可以接受了。

用得到的数据，采用LISREL8软件，对所提出的模型进行检验。结果见表6。

表6　不同模型的验证性因素分析结果

模型

χ[2]

　df　χ[2]/df

AGFI

GFI

PFI

RMSR

模型1　 326.24

　546.04

模型2　 40.51　　361.13　0.90　 0.95　 0.44　 0.063

模型358.35

　511.14 0.900.94

0.61

0.016

模型438.39

　361.07 0.910.96

0.44

0.036

模型5

224.63 484.68 0.610.76

0.47

0.140

根据前面所述各指标的含义及大小要求，可以逐一进行分析。对于模型1和模型5，其χ[2]/df值分别为6.04和4.68，均大于2，说明这两个模型不好。模型2和模型4的χ[2]/df值符合要求，但它们的PFI值均为0.44，是一个比较小的值，说明这两个模型也不是很好。模型3的χ[2]/df值为1.14，小于2；该模型的PFI值为0.61，是所有模型中最高的，也是最接近1的；其GFI和AGFI值0.94和0.90，均接近1；再看RMSR，模型3的值为0.016小于0.05，符合拟合良好模型的要求。综合来看，只有模型3（3法0质模型）最符合要求。即用验证性因素分析所得到的结果是，测评方法而不是测评维度影响了评价中心的评分。评价中心的评分模型是测评方法导向的(situationalspecific)而不是测评维度导向的(dimension-specific)。

这个结果表明，评价中心主要是通过多种测评方法影响测评结果的。根据验证性因素分析的结果，可以画出评价中心结构模型图（图1）。该图中，ξ是潜变量、λ是载荷、X是观察变量，δ是误差因素。

图1　评价中心的模型结构示意图

5　讨论

多质多法分析的结果表明同一测评方法内的不同测评维度之间的相关高于不同测评方法但同一测评维度间的相关，意味着会聚效度低于区分效度，说明构想效度不是很理想。该结果与西方学者[3,7,9]近年来采用同种方法所获得的研究结果一致，也证实了Thornton[14]对会聚效度和区分效度的研究进行总结所得到区分效度通常高于会聚效度的结论。可见，尽管评价中心的评分是按照维度进行的，但统计结果却表明影响评价中心评分的主要因素是测评方法，而不是测评维度。这就暗含评价者在评分时是按照被评价者在测评情景中的表现进行评分，而不是按照个人的稳定特征进行的。

通过验证性因素分析的方法，对不同假设模型进行了检验。结果发现，只有以测评方法为导向的模型是最适合的。这证明了评价中心的评分中的测评方法（情景）导向性，即影响评价中心测评结果的因素是测评方法（情景）。它证实了西方一些学者的研究[6-9]。可以认为，评价中心的测评结果所代表的主要是测评情景中的绩效水平，而不是各个测评维度上的绩效水平。

以测评方法为潜在变量的模型提示我们，在评价中心中对不同测评维度的区分是有一定的难度的，如果要使用不同测评维度来衡量一个人的不同方面必须谨慎；同时还说明，不同的测评方法对于不同的评价中心的结果来说是极为重要的，评价中心是以测评方法来保证其有效性的。

为什么会出现影响评价中心评分的主要因素是测评情景而不是测评维度这种情况呢？可以从下述几个方面进行探讨：

(1)光环效应

所谓光环效应，即评价者在对被评价者进行按维度评分时，可能会因被评价者在某一个维度上的表现出色而在其他维度上也同样得高分；或者反过来，被评价者在某一维度上表现欠佳，导致其他维度也得低分。可见，同一测评方法内不同测评维度的评分会由于光环效应而一致性很高，即导致区分效度不好。

评价者在评分时出现光环效应的原因有两个：评价中心中可观测行为的缺乏；信息加工能力的有限性。

(2)测评情景（方法）效应

不同的测评情景中表现测评维度所代表的行为的机会是不同的。这样，对被评价者的评定常常反映了他会获益于哪种测评情景而不一定是他的一般能力的指标。即在不同测评方法中，被评价者的绩效的不一致性。由于练习效应、动机变化、以及其他变量，使某些被评价者在各种测评方法中的表现并不稳定。Neidig和Neidig[4]也认为，导致测评情景内高相关的原因是被评价者可能会在某些测评情景中比在其他的测评情景中表现得更好。

因此，评价中心中测评情景的设计就显得极为重要。它会影响评价中心的效度。

(3)评定的过程

由于本研究中被评价者的行为被清晰地划分成一些独立的行为样本，评价者会被迫基于测评情景对被评价者的行为进行分类。这种非常强的组织结构性导致了因素分析得到的因素与测评情景相一致。会聚效度系数会由于评分过程中的不一致性而减少。

(4)测评维度的设计

同一测评维度在不同的测评情景中的不一致性，表面上名称相同的测评维度在不同测评情景中的内涵不同。不同测评维度在同一测评情景中的难以区分，同一测评情景中的测评维度间独立性较低，相关较高。这也会影响到评价中心的区分效度和会聚效度。

6　结论

本研究得到了如下的结论：

(1)通过传统的多质多法分析所获得的评价中心的会聚效度低于区分效度(0.110〈0.455)，表明测评方法内测评维度一致性的程度高于测评方法间同一测评维度的一致性程度。

(2)在已有的多质多法分析基础上，采用目前先进的统计方法——协方差结构模型进行验证性因素分析，并对不同的假设模型进行了检验，也同样表明影响评价中心测评结果的主要因素是测评方法（测评情景）而不是测评维度。根据验证性因素分析所得到的是一个以测评方法为潜变量的结构模型。

这表明，评价中心起作用的重要原因在于测评中具有多个测评方法，在利用评价中心提供的有关不同测评维度结果时需要慎重。如果要提高评价中心的测评效果，增加与未来工作相关的不同测评情景可能是一个更好的方法。

标签：评价中心论文; 人格特质理论论文; 能力模型论文; 区分效度论文; 结构效度论文; 维度理论论文; 负荷预测论文; 因素分析论文; 维度论文;

评价中心的概念效度与结构模型_评价中心论文

猜你喜欢