降低评价量表偏差：一种政治效能测量的实验_政治论文

降低评价尺度偏差：一项政治效能感测量的实验，本文主要内容关键词为：偏差论文,效能论文,尺度论文,测量论文,评价论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

［中图分类号］D669;C32 ［文献标识码］A ［文章编号］1009－4997(2012)03－0047－08

中国政治学的定量研究在传统上一直较为薄弱，不过最近十几年来，随着中国政治学研究领域的拓展和研究目标的多元化，定量研究获得了新的发展，尤其是调查研究的方法不断有学者采用，并且已经积累了一些实证数据和研究经验，这就为学者们从方法上检视定量研究的质量创造了条件。在调查研究中，抽样和测量是两个最基本的问题，目前已有的对方法的检视和完善大多集中在抽样问题上，而在测量问题的研究上却很滞后，尤其是结合实际调查项目进行专门的实验性研究还十分少见，本文正是采用实验方法对政治学调查中的测量问题进行讨论的一次尝试。

评价类题目是政治学调查中常见的测量类型，譬如询问受访者对政府绩效的满意度，或是让受访者评价自身对政府的影响力等。而凡是跟评价有关的题目，其背后就隐含着一个评价标准的问题，由于人们评价事物时参照的标尺不同，他们对问题的回答就会有差异。由这种差异造成的测量误差①就称为评价尺度偏差。由于人们对事物的评价标准是内隐的，这就需要在设计问题的时候通过提供具体的参照情境来将不同人的评价标准一致化，从而得到具有人际之间可比性的测量结果。

哈佛大学的Gary King教授曾将“虚拟情境锚定法”(Anchoring Vignettes)运用在政治效能感的测量中，对中国和墨西哥进行了跨国比较研究，结果发现，是否采用虚拟情境对受访者的评价标尺进行一致化的锚定，会得到完全相反的结论。未采用虚拟情境锚定时，有大于50％的墨西哥受访者的政治效能感处于最低级别，而中同受访者的这一比例还不到30％；在纳入了虚拟情境锚定后，大于40％的中国受访者处在效能感最低级别，而墨西哥受访者的这一比例下降到18％。他的这一研究提醒学者们关注评价尺度偏差的问题。

目前中国政治学定量研究中，还较少关注这个问题。本文依托北京大学中国国情研究中心2009年的全国公民意识调查，通过采用“虚拟情境锚定法”对政治效能感测量方法进行的实验，探讨消减受访者评价尺度不一致的问题。本文依托北京大学中国国情研究中心2009年全国公民意识调查，在其中加入了一组利用“虚拟情境锚定法”测量外部政治效能感的题目，用来跟传统的效能感测量方法进行比较。

一、政治效能感的测量及其在中国的应用

(一)政治效能感的测量及维度

政治效能感是一个实践性非常强的概念，因为从这一概念诞生之日起，学者们就试图采用比较科学的手段和方法测度其高低，以便确定其测量的准确性，这样导致的结果是对政治效能感测量的研究比政治效能感基本理论的研究还要丰富。

经典的政治效能感测量由五个条目组成：a.政府官员并不关心像我这样的人是怎么想的；b.公民投票是决定国家怎样处理事务的主要方式；c.投票是像我这样的人能够影响政府行为的唯一方式；d.像我这样的人，对政府的决定没有任何影响力；e.有时政治和政府的问题非常复杂，不是像我这样的人能够理解的。②

学者们通过对这五个条目进行信度、效度的检验之后，删掉了条目b，留下的其余四个条目被长期和广泛地使用，成为政治效能感测量的源头和蓝本。

在此蓝本的基础上，通过实证数据进行概念的结构探讨也成为效能感研究的关注点。政治效能感不是单一维度的概念，而是可以区分为两个彼此独立的结构要素，即内在政治效能感(如上述条目d和e)和外在政治效能感(如上述条目a和c)，内在政治效能感是指个人相信自己有能力影响政府或政治精英的感觉，可以包括政治事务的可变感、政治过程的可理解性以及影响手段的可取得性，也就是说个体自认为自己具备影响政治的能力，是面向自我的政治能力感觉；外在政治效能感则是指个人相信政府官员或者制度或者政治精英对于民众有所反应并予以重视的程度，也就是说，外在政治效能感是个体对于外在政治体系回应度的感觉，可以包括政体制度的外在政治效能感和政治领导人的外在效能感。内部效能感和外部效能感的维度划分逐渐被很多学者接受并应用。

经典的政治效能感测量采用里克特量表的形式直接让受访者评价自身的政治效能感，对于以上每个条目，都设计了从“非常同意”到“非常不同意”的程度选项。

(二)政治效能感在中国政治学调查中的应用情况

中国的政治学定量研究中，政治效能感是经常被测量到的概念。严洁(2006)将中国社会调查中所使用的政治效能感指标按照条目的来源概括为以下三类：第一类是完全采用西方的经典政治效能感测量题目，第二类将本土化测量题目和西方经典测量题目相结合，第三类是完全本土化的测量方式。③

第一类是完全采用西方的经典政治效能感测量题目，例如在美国杜克大学史天健教授主持的“1993—1994中国政治文化和政治参与研究”中，政治效能感的测量由以下条目组成：内部效能感：a.我觉得自己能够理解政府/政治上的事；b.我觉得自己非常了解我国面临的重大政治问题；c.我觉得自己能够理解单位/村里的事；d.我觉得自己很有能力参与政治；外部效能感：e.像我这样的人在单位/村里事务上没有发言权；f.像我这样的人，对政府的决定没有任何影响力；g.单位/村里的领导并不关心像我这样的人是怎么想的；h.政府官员并不关心像我这样的人是怎么想的。这组条目基本上保留了美国选举调查中的传统条目，但是设计者又将其分成了微观、宏观两个层次，在测量手段上更加细致化了。

在北京大学中国国情研究中心实施的“2005年澳门居民素质调查”中，由四个条目来测量人们的政治效能感：a.像我这样的人也可以影响政府决策；b.立法会议员制定法律法规时，会考虑像我这样的人的意见；c.现代社会的各种问题非常复杂，所以能让一般人讨论的只是那些比较简单的问题；d.大多数情况下，政府部门能够帮助像我这样的人解决问题；e.一种言论或意见可以不可以在社会上流行应该由政府决定。其中的条目a、b、d都是常用的西方经典测量题目。

还有2004年亚洲民主化调查中，也采用了“我觉得自己很有能力参与政治”、“政治太复杂不是我这样的人可以理解的”，这两个西方经典测量题目。

在2006中国综合社会调查的城市问卷中，涉及政治效能感的问题包括了“政治的事情太复杂，不是想我这样的人可以理解的”这道经典题目来测量效能感。

第二类，将本土化测量题目和西方经典测量题目相结合，例如在中国国情研究中心实施1996年“中国地方政府和政治经济的四县研究”，测量条目包括：a.大部分决定应根据专家的判断做出；b.现代社会的各种问题非常复杂，只有那些比较简单的问题才能让一般人讨论；c.只要领导人能力强，又得到人民的信任，那么老百姓就不必参与做决定；d.无论人们对有关问题了解得如何，每个人最好都能参与做决定。其中的条目b是传统的测量条目，其余的则是在保留传统意义的基础上进行了本土化的修改。

在北京大学中国国情研究中心实施的“2003年中国公民思想道德观念调查”中，研究者设计了六个条目来考察政治效能感的结构：a.像我这样的人也可以影响政府决策；b.地方人大代表制定法律法规时会考虑像我这样的人的意见；c.大多数情况下，政府部门能够帮助像我这样的人解决问题；d.大多数情况下，警察能够帮助像我这样的人解决问题；e.老百姓就是老百姓，当官的说什么就得听什么；f.人民政府为人民，人民就得服从政府。

第三类，完全本土化的测量方式，例如李连江在1999年乡村选举研究。“a.如果村委会干部不根据上级政策行事，你会采取下列行动吗？b.如果村党支部的干部不根据上级政策行事，你会采取下列行动吗？c.如果你认为乡镇政府没有根据中央政策和规定行事，你会采取下列行动吗？”所列举的行动包括抱怨、写信反映、当面反对、上访、投票等等。

对于以上这三类政治效能感测量指标的信度，严清(2008)在其文章中进行了评估，结果发现：西方传统测量政治效能感的条目具有比较高的内部一致性，本土化设计的测量政治效能感的条目结合西方传统条目时出现了信度水平较低的问题。④然而对于政治效能感测量的效度，目前的研究还没有涉及。总体来说，目前中国的政治效能感测量基本上还是采用西方测量指标较多，或直接或以其为蓝本，已经注意到测量维度的区分，同时本土化的改进正在进行。

二、情境效能感测量本土化实验介绍

目前中国的政治效能感测量虽然也进行了一些本土化尝试，不过还没有针对评价尺度偏差进行检验。“虚拟情境锚定法”方法是一种通过设计假设情景来调整受访人在调查中的自我评估偏差的方法。这种方法能够在一定程度上解决调查研究中的“人际不可比性”(Interpersonal Incomparability)；同时，这种方法在测量复杂且宏观的概念时具有优势。本研究希望通过实验方法对“虚拟情境锚定法”在中国政治学调查中的测量效应进行评估，即使用虚拟情境与直接提问两种情况下，受访人的回答有无显著差异；这种方法的应用能否以及在多大程度上降低了评价尺度偏差。本研究在北京大学中国国情研究中心2009年的“全国公民意识调查”问卷中，运用“虚拟情境锚定法”设计了一组测量政治效能感的题目，通过一个准实验研究，来检验传统政治效能感测量中的评价尺度偏差问题。

(一)“虚拟情境锚定法”的基本思路

“虚拟情境锚定法”(Anchoring Vignettes)的核心思路是通过设置虚拟情境为受访者提供统一的评价参照系，从而降低评价尺度不一致带来的测量误差。下面本文就将这种方法的操作步骤做以简要介绍：

第一步：让受访者对自我情况进行评估，得到评估结果R

第二步：让受访者对3个虚拟情境里的人物进行评估，分别得到评估结果A、B、C(注意，在设置虚拟情境时，有这样的前提：A＜B＜C，虚拟情境的个数不是固定的)

第三步：给受访者的最终答案编码后得到一个新变量Vig

当R＜A时，Vig＝1

当R＝A时，Vig＝2

当A＜R＜B时，Vig＝3

当R＝B时，Vig＝4

当B＜R＜C时，Vig＝5

当R＝C时，Vig＝6

当C＜R时，Vig＝7

受访者对各个情境的评价可以被看做是尺子的刻度，当使用这把带了刻度的尺子去测量受访者自评题目，就能把受访者的答案锚定出来了，而且这种评价尺度还是具有可比性的，因为虚拟情境所代表的值是固定的，也就是说尺子的刻度对所有人都是一样的。由于虚拟情境的设置都是很具体，因此可以尽可能减少因为测量对象过于抽象带来的理解偏差。同时，由于虚拟情境的设置，避免了受访者直接回答问题的心理压力和社会情境压力，因此可以更好地减少测量误差。

当然，任何方法的使用都是具有前提假设的，这个方法的前提假设有两个：一个是假定受访人自身在回答自评问题和评价虚拟情境问题的时候，其回答逻辑和方式都是一样；另一个假定是人们对虚拟情境的评价是一致的。

(二)情境效能感测量的本土化实验

前文对政治效能感的测量维度进行过说明，将其区分为内部政治效能感和外部政治效能感。这里我们需要指出的是，本项实验所要比较的传统方法和虚拟情境锚定方法在测量外部政治效能感上的差异。内部政治效能感实际上更类似于一个心理感受的概念，在这个心理感受上的主观性对于我们的研究是有必要的，也就是说，这种受访者个体的主观心理感受差异对于理论解释来说是一个关键的要素。而外部政治效能感涉及对政治体系回应性的评估，面对同一种政府回应状态，不同的人可能会因为评价尺度不一样而给出不同的答案，这就会影响测量结果的真实性。因此在外部效能感的测量上评价尺度偏差的影响更严重，这是我们实验之所以选择对测量外部政治效能感的方法改进的原因。

在具体的实验操作过程中，我们将2009年“全国公民意识调查”的受访者随机分成数量相等的两组，一组受访者既要回答运用传统方法设计的外部政治效能感测量题目(下文统一简称“传统效能感测量”)，又要回答使用了“虚拟情境锚定法”设计的外部能感测量题目(下文统一简称“情境效能感测量”)，但是这两组测量题目在问卷中的位置相距较远，并且情境效能感测量被安排在传统效能感测量之后，这样可避免问卷回答上的顺序效应。下面我们就将传统政治效能感测量和情境效能感测量的具体题目和赋值方式分别做以说明。

(1)传统效能感测量题目及赋值方式

以下是一组采用传统方法对政治效能感进行测量的题目，其特点是以经典效能感测量为蓝本，采用里克特量表的测量设置。这里需要特别说明的是，这套量表并非严格意义上的单一的里克特量表，因为从表面效度来看，它包含了对外部政治效能感(条目a、b)和内部政治效能感(条目e、d、e、f、g)两个维度的测量。所以它实际上是将对两个子概念的量表合并在一起的测量。

C8.下面我谈几个观点，请您就每个观点表示您的意见。说明您是非常同意、比较同意、不太同意，还是非常不同意某个观点。(出示答案卡5，逐项提问，“中立”不读出)

在具体对比实验结果的时候，我们采用的是将条目a和条目b得分加总的方式来作为样本在传统外部效能感测量上的最终得分，是一个值域为1到9的连续变量。需要说明的是，由于题目是采用否定的表述方式，因此分值越小代表效能感越高，这样的逆序可能会干扰理解和评价，因此在具体变量置备的过程中，我们已经将其进行了评价顺序的逆转，从而得到了1到9分的变量，其取值越高表示效能感越高。

(2)情境效能感测量题目和操作、赋值方式

接着我们又将那一半既要回答传统效能感题目，又要回答情境效能感题目的受访者随机分成两组，A组回答“饮用水”情境题目，B组回答“建筑工地”情境题目。之所要设置两组情境，我们是出于这样的考虑：尽管“虚拟情境锚定法”拥有降低评价不一致的优势，不过这个方法仍在不断改进中。⑤本研究将在Cary King改进的基础上，进一步对不同的假设情景设计进行实验和比较，想要探明情景设计中的“名义信息”⑥是否会影响受访者的回答，我们还在访员观察部分设置了检验变量。具体的情境题目如下：

A组题目：“饮用水”情境

H13.情境：李娟/李强住的村一直没有干净的饮用水，因为政府正在实施一个工业发展计划。村委会即将换届选举，虽然有一个候选人承诺能解决饮用水问题，但李娟/李强觉得支持这个候选人也没用，因为政府一定会赢的。

H14.情境：张娟/张强住的村一直没有干净的饮用水。这个村即将换届选举，张娟/张强和邻居们都很支持一个承诺解决饮用水问题的候选人。而且看来村里的许多人也觉得这个候选人很可能获胜。

H15.情境：王娟/王强住的村一直没有干净的饮用水。她/他和邻居们正在发起一个解决饮用水问题的签名请愿活动。她/他们计划在换届选举之前，向每个候选人提交一份请愿书。

H16.情境：赵娟/赵强住的村一直没有干净的饮用水。她/他也想改变现状，但她/他不能投票，同时地/他也觉得政府里不会有人关心这事，所以她/他只是保持沉默，希望这个问题将来能够得到解决。

B组题目：“建筑工地”情境

H13.情境：李娟/李强家附近有个建筑工地每天施工到深夜，严重影响了她们/他们一家人的正常生活。为解决这个问题，李娟/李强给政府官员写信反映，并且收到了政府官员的正式回复。

14.情境：张娟/张强家附近有个建筑工地每天施工到深夜，严重影响了她们/他们一家人的正常生活。为解决这个问题，张娟/张强找到了政府官员面谈，政府官员最后许诺会着手解决这个问题。

H15.情境：王娟/王强家附近有个建筑工地每天施工到深夜，严重影响了她们/他们一家人的正常生活。在一次市政听证会上，王娟/王强提出这个问题，在场的政府官员对这个问题进行了充分的讨论。

H16.情境：赵娟/赵强家附近有个建筑工地每天施工到深夜，严重影响了她们/他们一家人的正常生活。赵娟/赵强虽然想解决这个问题，但她/他觉得政府里不会有人关心这事，所以她/他只是保持沉默。

对以上每一个情境都共同提以下问题：

问题：请问您觉得，在让政府解决关系XX/XX切身利益的问题时，XX/XX有多大的影响力？是非常大，比较大，有一些，还是根本没有？(这里XX替换情境中的人物姓名)：

为了验证“名义信息”是否会影响受访者的回答，在访员观察部分设置了检验题目如下：

Z1.受访人所住村/居方圆五公里内是否有化工厂、冶炼厂、造纸厂以及其他类型的高污染企业？

Z2.受访人家附近是否有建筑工地？

需要说明的是，我们在每一个情境中都设置了女名“娟”和男名“强”，在具体的参访过程中请采访员根据受访人的性别进行匹配。这样设计可以尽可能拉近受访者与虚拟情境中人物的距离，从而获得更真实的回答。

这些情境本身是有效能感高低差异的，实验数据结果显示其顺序从高到低H15＞H14＞H13＞H16，不过在具体的实验过程中，我们打乱了这种顺序而是随机排列在问卷上。

最后，我们还设置了一道让受访者评估自身效能感的题目，回答A组和B组情境题目的受访者都需要回答这道题，具体题目如下：

H12.请问您觉得，在让政府解决关系赵娟/赵强切身利益的问题时，赵娟/赵强有多大的影响力？是非常大，比较大，有一些，还是根本没有？

而在赋值方式上，本文采用的是“虚拟情境锚定法”的基本变量编码赋值方式，如前文“虚拟情境锚定法”内容中所介绍的那样，在本研究中，我们有H15＞H14＞H13＞H16，接着我们通过比较H12的得分来生成最终的情境效能感测量变量Vig的得分，如图1所示：

最后我们得到一个情境效能感的取值范围在1到9之间的连续变量。

三、情境效能感测量本土化实验的结果

(一)两种测量方式的测量结果比较

根据我们的研究假设，虽然我们采用了两种不同的测量方法对公民的外部政治效能感进行了测量，但如果这两种方法都是有效的测量手段，那么它们得出的研究结论应该是一致的，这就如同无论我们是用杆秤还是用电子秤，对同一个物体称出来的重量应该是一样的。如果不一致，则说明两种测量方法其中之一，或者两者均出现了测量问题。下面我们就要对这两种测量方法针对同一个样本(842个有效回答了传统效能感测量题目和情境效能感测量题目的样本)所测量出来的结果进行比较。

前文对采用传统方法和采用“虚拟情境锚定法”测量外部政治效能感的两套题目及变量赋值方式进行了介绍，两种测量方法各自得到一个1～9分的连续变量。我们分别计算了两个变量的均值，传统效能感的均值为5.02，情境效能感的均值为5.62。采用了“虚拟情境锚定法”对外部政治效能感进行测量，得到的总体效能感水平要比原来的方法略高一些。

接着我们又对这两个变量进行了相关性检验，结果两者相互独立，并不存在相关关系。⑦接着我们又将这两个取值为1～9的两个变量三等分为低、中、高三类，分别代表了底、中、高三种效能感水平，从而更为直观地比较两种测量方法在分布上的差异，如图2所示：

图2 传统效能感测量和情境效能感测量的分布差异(N＝842)

从图2可以非常明显地看出传统效能感测量和情境效能感测量在数据结果上的差异。用传统效能感测量得出的结果是：中等效能感的比例最高(40.86％)，其次为高效能感(30.64％)，接着是低效能感(28.50％)；而使用“虚拟情境锚定法”测量得出的结果却显示，高效能感的比例占到了将近一半(46.91％)，接着依次是中等效能感(27.20％)和低效能感(25.89％)。

这个结果验证了我们的假设一：两种测量方法之一或者两者都存在着测量问题，下面我们将利用效度检验的方法对两种测量手段进行评估，从而进一步探析哪一种测量手段的测量误差更小，能够更准确地测量出真值。

(二)两种测量方式的建构效度检验

上文通过比较两种测量方法的数据结果发现，不同测量方法下，外部效能感的低、中、高水平分布不同。采用了“虚拟情境锚定法”测出的外部效能感水平要高于用传统方法测量出的结果。那么，到底哪一种测量方法测出的结果更真实呢？接下来我们将要纳入政治参与这个变量，来考察两种测量方法的建构效度。

通过前文对政治效能感的研究文献回顾，很多研究者都发现政治参与跟政治效能感有着高度相关的关系。在一些研究中，政治参与被作为自变量来解释政治效能感的高低，而在另一些研究中，政治参与又成为因变量，被政治效能感解释。社会科学中的因果一向是非常复杂的，研究目标、概念界定以及控制因素的不同都会影响到因果关系的方向。不过虽然不同学者对此有不同的看法，但是学者们达成的共识，就是无论从理论来说，还是从实际的研究来看，政治参与和政治效能感这两个变量之间都存在相关关系。于是我们就引入政治参与这个变量，来分别考察它与传统效能感测量以及情境效能感测量之间的相关关系，如果二者存在着显著的相关关系，则说明这个测量有很好的建构效度。

前文已经对传统效能感测量和情境效能感测量的变量取值及测量尺度进行了说明，在这一部分我们所采用的政治参与变量也不是一个单项目测量，而是一个有各种参与活动构成的复合测量。通过对符合测量的各个题目进行变量置备之后，我们得到的是一个政治参与的二分类变量，即其取值有“参与过”和“未参与过”两种情况。

接下来我们分别对两种效能感测量的变量与政治参与变量做相关分析，结果如表1所示：

相关性检验的结果显示，传统政治效能感与政治参与的确存在着显著的相关关系(Pearson Chi－Square＝11.4544，p＜.05)，也就是说，在传统效能感测量下，不同效能感水平的受访者在是否发生过政治参与行为上有显著的差异。不仅如此，这种相关关系的方向为负相关，其相关系数是－0.102，也同时通过了显著性检验(Kendall's tau－b＝－0.102p＜.05)。这就说明，随着效能感水平的升高，政治参与的比例反而在降低。这一结果违背了我们的理论假设，既往研究的成果表明，政治效能感与政治参与之间应该存在着正向的关系，也就是说，人们的政治效能感越高，就更倾向于去参与政治。

而我们又看到，情境效能感与政治参与的相关性并没有通过显著性检验(Pearson Chi－Square＝4.7132，p＞.05)，不过它却与政治参与有着正向的关系，虽然这种正相关的强度也没有通过显著性检验(Kendall's tau－b＝0.522 p＞.05)。这个检验结果说明，采用“虚拟情境锚定法”测量外部效能感时，效能感更高的人确实更多地进行了政治参与，但是没有把握说这种关系具有统计上的显著性，我们只能说，这种关系存在于对变量的描述层面上。

图3更为直观地为我们展示了两种政治效能感测量下的政治参与情况：

图3 传统效能感测量和情境效能感测量的在政治参与上的分布差异(N＝801)

我们看到，在传统效能感测量下，不同人群发生政治参与的情况从多到少依次为：低效能感人群＞中效能感人群＞高效能感人群。而在情境效能感测量下，不同人群发生政治参与情况从多到少依次为：高效能感人群＞低效能感人群＞中效能感人群。

通过引入政治参与作为效标来检验政治效能感测量的建构效度之后，我们发现两种测量方法各自都存在问题：传统政治效能感测量虽然跟政治参与的相关性显著，但是其相关关系的方向与理论相违背；情境政治效能感测量虽然不具备跟政治参与的统计显著性，但是其相关关系的方向却是符合一般的理论假设的。也就是说，传统政治效能感测量与政治参与的关系虽然显著，但这种关系却显著地与理论相违背，而情境政治效能感测量与政治参与的关系虽然不显著，但确实呈现一定的合理性。这里面显著性上的不同可能由很多因素造成，一次实验不可能解决所有的问题，下文继续对这样的检验结果进行分析和解释。

四、对实验结果的分析和讨论

(一)传统效能感测量带有的评价尺度偏差分析

为了进一步探析传统政治效能感测量的评价尺度偏差，我们需要仔细考量传统效能感测量题目的选项设置。传统政治效能感测量题目的选项设置采用的是里克特量表的五点量尺，数值为1(非常不同意)、2(不太同意)、3(中立)、4(比较同意)、5(非常同意)。这个量尺设置背后隐含的基本假设是，数字与数字之间的距离是相等的，在这一假设成立的前提下，不同的题目才可以加总得到一个量表的总分。

目前政治学调查中对很多变量的测量，不管是否采用复合测量的形式，其选项都采用了里克特量表的五点量尺法。尽管这样的做法非常普遍，但是人们却忽略了数字与数字之间的距离应该相等这一个基本前提假定。事实上，对于政治态度或政治评价类变量，这个假定一般都难以满足。因为实际上这个选项的设置是存在两个方向的，那就是从“中立”往左的“不同意”方向，以及从“中立”往右的“同意”方向。我们可以认为在同一个方向上，数字之间的距离是相等的，即从“非常不同意”到“不太同意”之间的距离和从“比较同意”到“非常同意”之间的距离相等，因为这是人们判断同质事物的程度差异。但是我们不能肯定地说，从“不太同意”到“中立”和从“比较同意”到“中立”之间的距离是相等的，因为这就涉及态度的改变，即质的变化。

另外，量度点的设计也是有讲究的，当采用偶数点量尺时，在度量上并不存在外显的中间点，这样就能够避免回答中立的意见，而能获得非常同意、同意与非常不同意和不同意两类明确的意见。这也是本次实验中，在传统政治效能感测量的题目设计时，中立选项并不读出的原因。因为如果采用奇数点量表，那么会得到高比例的中间选项。然而即便是我们并不设计出外显的中间点，从“比较同意”到“不太同意”的距离所代表的意义也和从“比较同意”到“非常同意”是很不相同的，因为这中间跨越了暗含的“中立”点，也就是说，态度还是发生了质变，因此数字之间的距离是相等的假定并不一定能得到满足。

而当我们把本来就可能存在着尺度距离不相等的多个题目直接加总在一起的时候，就在无形中造成了尺度距离的多重混乱，放大了这种不等距效应。除了评价量表本身设计上的不等距效应之外，受访者本身还存在着主观评价尺度不一致的偏差。这两种偏差结合在一起，就对测量质量产生了不容忽视的影响。

既往的研究因为都采用单一的测量指标，因此很难检验出这种评价尺度偏差的存在。而我们通过实践对照两种测量方法得到的结果上的差异，至少已经展示出了评价尺度偏差的存在，因为如果并不存在偏差的话，两者的结果理论是应该是相同的。

而通过我们对传统效能感测量进行建构效度检验，得出了与理论逻辑完全相悖的结论，也从测量结果真实性的角度证明了评价尺度偏差对测量质量的影响。

(二)情境效能感测量降低评价尺度偏差的优势

而在我们采用“虚拟情境锚定法”对外部政治效能感进行测量的题目中，每一个虚拟情境之后所放置问题的选项设置并不是以“中立”为零点向左右两个方向射出的，而是从“根本没有”到“有一些”到“比较大”再到“非常大”这样一个单一方向的射线，这首先就从源头避免了调转方向带来的不等距效应。而接着，我们又不是直接将这一组题目相加得到量表总分的，而是采用了如图1所示的方法，通过比照自评问题的回答，最终得到关于每个样本的效能感数值。这个合并的过程从始至终也是保持着方向上的一致性，而且并不是简单加和，因而并不存在不等距的放大效应。

除了量表设计本身能够克服评价尺度的不等距之外，整个虚拟情境设置的核心思想就是让受访者对客观状况进行判断，而不是让受访者表示赞同或不赞同的态度，这就减轻了受访者直接回答自身情况的心理压力，同时也避免了受访者主观评价尺度评价不一致给测量结果带来的偏差。

通过我们对情境效能感的建构效度检验，我们发现虽然情境效能感与政治参与之间的相关关系并不显著，但是它却很好地体现两个变量之间的内部关系，这是符合理论逻辑的。事实上，建构效度的检验并没有对相关系数的高低做出规定，并不存在一个不可接受的低相关，也不存在一个完美的高相关，正如德威利斯所指出的那样，“相关系数多高才算展现了建构效度，并没有什么具体的分界线”。⑧因此可以说，采用了“虚拟情境锚定法”的确得到更具有效度的测量结果，新方法的采用的确对降低评价尺度偏差起到了作用。

(三)通过对照这两种测量方法的优劣，本文对问题设计提出建议

评价尺度偏差是政治学调查中常见的测量偏差之一，由于这类偏差跟受访者的主观评价标准以及题目测量尺度两类因素相关，因此难以通过外部辅助变量加以识别和控制，所以对其控制的基本思路就要遵循测量指标设计上的具体化、标准化和高可比性原则。对于能采取具体方式提问的变量，就要避免抽象题目；对于能用事实性问题测量的变量，就要避免态度性测量。同时在测量问题选项的尺度设计上，要避免评价方向不一致，应该尽可能的理顺一致的量尺向度，规避尺度不等距问题。

在评价尺度标准化过程中，需要关注的难点在于受访者对评价尺度的理解要间可能保持一致，此外，还需要关注人群特征和指标本身的复杂程度。本文所纳入的准实验研究仅是测量方法上微调实验，相对于传统测量方法，它还存在测量稳定性和适用人群不广泛两方面的不足，这也是在进一步研究中需要继续探索的方向。

收稿日期：2012－06－15

注释：

①关于政治学调查中的测量误差的详细概念和来源参见本人博士论文《政治学调查中测量误差的识别、评价与控制》。

②Campbell,Angus,Gerald Gurin,Warren E.Miller.The Voter Decides[M].Evanston,IL:Row,Peterson,1954.

③具体的测量题目参见：严洁，《政治效能感的测量方式与信度水平评析》，载《北京大学学报(哲学社会科学版)》(博士后论坛专刊)，2008年6月，117－122页。

④严洁，《政治效能感的测量方式与信度水平评析》，载《北京大学学报(哲学社会科学版)》(博士后论坛专刊)，2008年6月，117－122页。

⑤如他对不同的问题顺序和提问时的比较方式进行了试验和比较，认为问题顺序有助于克服DIF(题目难度效应)，而提问方式仍然不应让受访人与假设人物进行直接比较。

⑥这类信息是一些被随意确定的名称，数字或议题，只是为了设计一个假设场景的需要，并没有十分确定的含义，名义信息的变化应该对受访人的回答不产生影v响，才能确保虚拟情境法的测量信度。这里“饮用水”和“建筑工地”就是“名义信息”。

⑦Pearson Chi-Square=1.167,Asymp.Sig.(2-sided)=.884.

⑧罗伯特．F.德威利斯，《量表编制——理论与应用》，重庆：重庆大学出版社，2010年4月，第52页。

标签：政治论文; 政治参与论文;

降低评价量表偏差：一种政治效能测量的实验_政治论文

猜你喜欢