问卷试验调查后次序级测量的等级修正方法,本文主要内容关键词为:次序论文,问卷论文,测量论文,等级论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、测量的三要素
在社会调查中,要获得社会现象特征的资料,必须对社会变量进行测量,通常的方法是向被调查者提出一组问题,根据回答者的回答采用定类、定序、定距、定比尺度来构成对某一社会现象的测度。问卷设计是测度社会现象的基础环节,问卷设计的好坏直接影响对概念的测度,对社会现象的描述和解释。问卷设计要求:一是问题与研究目的有关;二是答案应覆盖变量的全部变动范围。然而在社会调查中,许多社会变量都是通过定序尺度(次序级)的,如态度、价值观、行为等。这种方法是将总体中的全部元素按照它们在所要测量的质量特征上具体表现出来的级别高低顺序加以排列,并对它们各自的质量水平做出估计,这就是说每个元素都在上述的排列中占有一个相应的位置。如人口总体按文化程度分文盲、小学、初中、中等教育、大学五个等级。这就涉及到等级的划分,然而我们按各种方法所设计的等级是否合适测度某种社会现象的特征呢?也就是说测量的结果是否可靠?结果所包含的误差多大?因此,在正式调查之前,必须对设计出的问卷进行试验,以便对不合适的等级做出修正。
在对某种社会现象进行测量时,应注意整个测量过程由三个要素所组成;即测量对象、测量方式和测量者。这三要素对测量的结果的可靠性影响如何?让我们分析一下。首先,所要测量的特征对象本身就可能存在着相当的不确定性。另一方面,测量方式也不可能提供有关被测量特征的最精确的值。最后,当测量的前两个要素已足够精确时,测量者也可能造成较大的误差,如没有向被调查者说明目的,态度不端正等。因此我们知道测量过程的每个要素都能成为误差的来源,这个误差或者与稳定性有关,或者与正确性有关,或与准确性有关。由于通常无法将误差按其产生的原因加以区分,因而只能从总体上研究全部误差的稳定性、正确性和准确性。这里,资料的正确性和稳定性是可靠性研究的主要对象。因此,首先要检验测量的正确性——查明系统误差,以及稳定性,这就必须正确地选择测量等级或等级系统。
二、问卷试验后出现的问题和修正方法
问卷设计出来后,可能有这种情况:一开始所选用的测量方式就完全不能按照要求的水平对所研究的总体进行分类,换句话说,如果觉得某一部分等级,或某问题中的某一级不能系统地加以利用,那么以后的各项运算就会是无用的。这就可能使原始特征不具有表示最后结果指标的能力。因此首先必须消除或缩小等级划分的这种缺点,然后对其加以利用。如在问卷试验阶段后,在收回的问卷中,我们常会发现如下几种情况。
(一)回答的等级缺乏足够的分散
问卷试验后的整理中。有时某一问题的回答全都集中在某一项里,这就表示测量方法——该等级完全不适用。之所以产生这种倾向,或是由于舆论方面的压力,或是由于等级中某些级别(数码)与研究对象不相关的某个特征的分布无关。例如,你是否赞成“一对夫妻只生一个孩子”的政策,几乎所有被调查者的回答都是赞同的。显然,用“赞同”和“不赞同”两个等级是不可能了解人们的生育观,因为计划生育政策是我国的基平国策,人们在这样的压力下,不会表示其真实的想法。因此此问句重新设计为:如果政策允许,你想要几个孩子。等级分为1个、2个、3个、其它。这样的等级设计就能较好地了解人们的生育观。
(二)部分等级的利用
问卷试验后,在进行整理时经常可以看到在一个等级系统中实际起作用的只是其中的某个部分,它是位于该系统一端的、一个或宽或窄的等级区间。比如有一个包括正、负两极,从+3到-3的等级系统,并且要研究的问题明显地属于正向等级方面。那么在问卷中是否只需要设计正向的等级,而用不着负向的等级,或者是否能说这些负向等级不起作用呢?为了得到正确的等级划分,研究人员应当明确地知道,被调查者是怎样做出自己的回答的,即是用全部的七个等级,还是只使用到了四个正向等级。如果我们不进行问卷试验,那么测量误差便无法计算。
让我们举一个例子。要求19个被调查者根据7个性质对三个概念中的每一个表示看法。整个等级系统中共有21个等级,由-10到+10,中心点为0,调查结果共得了399(19×3×7)个回答,其分布如表1(图表略,下同)。
对于那些负向等级的利用由于在399次中总共只有11次(3+3+5),即2.8%,所以就提出这样一个问题:这个等级系统中的负向部分有没有用处?我们认为在显著性水平足够小的情况下(α=0.05或α=0.01),如果一个回答属于等级系统的尾端的概率P不超过5%,那么出现在这个尾端的实际回答便是一种偶然现象,等级系统的这一部分实际上“不起作用”。为此可以将置信区间的界限(此区间是按照属于等级系统尾端的回答的实际频率做出的)同数值5%做一比较,如数值5%大于这个区间的界限,那就认为尾端的这部分等级不起作用。计算置信区间的界限可利用如下的数理统计公式:
由此可知对于回答在性质方面的顺序问题,等级系统中的每项都可提出如下要求:每一项都应不少于5%的回答,否则就认为等级中的这一项不起作用。
(三)等级及等级系统间的非均衡的利用
在问卷试验后的整理中会有这种情况发生:尽管邻近的各项已经被特征的或高或低的实际程度所填满,但是某个变量(特征)值仍经常被调查者所忽视。如图1中表示回答在四个有序等级间的分布状况,显然,这些等级的排列次序安排得不合适,两个邻近项(1和3)已被填满了,这就表示它们“侵占”了本应属于项2的部分回答。这种情况只有在被调查者面临着等级分项过多的等级系统时才会出现。
为了弄清等级分布的上述异常情况,可以提出下列规则:如果置信概率足够大,即在足够宽的界限里,每一项所能容纳的数量与邻近各项所能容纳的平均值有太大的差别,就认为此项不符合均衡分布的要求,需重新设计等级及等级系统。相应的统计判断如下:
(四)灵敏度和稳定性之间的不协调
经常会碰到这种情况:如果非要被调查者肯定地回答是与不是,被调查者反而会作出不大肯定的回答,因此,在问卷调查重复试验两次的调查中,他们有时答是,有时答不是。这里涉及到测量的稳定性和灵敏度之间的关系问题。为了提高测量的稳定性,必须知道研究的等级中的各项有无显著区别,也就是要求被调查者明确地断定各个值:每一个回答都严格地与邻近回答分开。实际上这等于要求被调查者在每次调查中都明确地重复自己原先的回答,因为较小的误差总是与等级中各项之间具有较显著的区别相一致的。我们用等级的灵敏度来表述这个问题。灵敏度用等级中的项数来表示,而项数与被测量的数值的差数在数值上是相同的。也就是说等级中所包括的项数越多,其灵敏度就越高。但是灵敏度的提高不能简单地通过增加等级的分项数来实现。因为稳定性较低时,过高的灵敏度是多余的。但是当项数很少时,即在灵敏度较低的情况下,稳定性亦可能很低,那就应增加等级的项数。因此我们认为应该在灵敏度与稳定性之间找出应能使其误差达到小于0.5项。如果误差小于0.5项,那么在重复调查中,平均说来回答是一致的,若误差大于0.5项,那么在重复调查中,平均说来回答将相差1级或1级以上。在做两次重复调查时要注意:间隔一段时间,做两次有序的测量,间隔的时间不要过长,以免对象本身发生了变化,但也不应过短,以便于被调查者能根据记忆把第二次测量的数据与第一次测量的数据相比较,例如,在调查中要求每个被调查者对教师的职业性质作出8个回答,回答的分项为+3到-3。共进行二次调查。根据13个被调查者对4个职业性质(独立性、创造性、经验、教书育人)所作的回答进行的研究。见表2。
在表2中共有416个回答,即13×8×4。在第一次调查中,有226个回答属于项3;在第二次调查中,只有170个回答重复同一结果,而47个回答属于项2;有6个回答属于项1,有3个回答属于0。因此,在第一次调查中属于项3的那些回答在第二次调查的平均项数为:
由此可知,项“3”与“2”之间有本质上的区别,因为t检验判断认为2.7与2.47之间的区别是显著的。而项“2”与“1”之间没有本质的区别等等。将上述比较的结果用全部回答的等价组的框图来表示。
这里,所有的回答都属于三个互不相交的组,其中项3与项2有区别,而项2与项1则无区别。因而用仅分三项的等级便可代替原来包括七项的等级。这时,第三项仍与原来一样,是该等级中最高的回答,第二与第一项表示中间等级的回答。而第0、-1、-2、-3项则表示最低级的回答,给上述新的等级划分新的编号,分别为3、2、1。
这一分布的特点是,误差=0.43项,它小于0.5项,因而这个等级划分是稳定的。
这样就使新的等级划分比较合理,令人满意:既能很好地说明所要研究的问题,又能阐明各个被调查者的不同看法。