考试与前瞻：心理学的三种测试技术_心理学论文

审视与瞻望：心理学的三大测验技术，本文主要内容关键词为：三大论文,测验论文,心理学论文,技术论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：B84 文献标识码：A　文章编号：1001-4608(2002)03-0081-08

在心理学中，问卷测验技术对我们来说最为常见，因为从人格测验到临床心理测验，大都采用问卷技术。投射测验技术虽然在国外曾经盛极一时，但在国内却仍属鲜见。情境测验技术是继问卷测验、投射测验之后，伴随着评价中心技术(Assessment Center)而兴盛起来的新技术，国内现在亦有引进与探索。如此三大技术，孰优孰劣？尤其值得关注的是，三大技术在中国的应用，是何种现状与局面？本文试作一番评论与探讨。

一、引进西方心理测验的困惑

在大陆、香港和台湾，主要的著名的心理测验量表几乎都是从西方引进、修订的。这种情形在大陆尤甚。我们的人格评定、智力测验、心理卫生评估等方面的量表几乎全是国外引进修订的。“量表热”从20世纪80年代直到今日，并未“冷却”多少；研究者修订国外量表的热情高涨；培训班曾经遍及全国；像《韦氏智力测验》这样一些需要保密的重要测验工具甚至出现了盗版。杨中芳等人曾对社会心理学方面使用量表的情况做过一些调查，发现大陆几家心理学杂志的编辑部都曾提及、呈交的社会心理学论文中，几乎全都是使用问卷调查法来收集资料，其中大多数是使用西方引进的量表；并对台湾出版的《中华心理学刊》1976-1986年间发表的30篇社会心理学的实证研究报告作过统计，发现其中29篇使用问卷测验作为工具。平均每个研究使用了2.62个量表；所使用的量表中，25%未经任何修订直接翻译于西方量表；42%经过修订；4%是根据西方理论编制的量表；三者共计71%。[1](pp.212-214)

这种大量地引进、修订国外量表，过分地依赖于国外量表的现象，已经引起了批评与反省。概括有关研究，以下几点是值得深思的：

1.西方心理测验的文化背景难以完全适合于中国人：其量表的编制，是对西方人的心理研究的结果。也就是说，当西方人编制量表时，对变量的选择、解释，是基于西方人的特点。而中国人与西方人在人格等心理特质上有很大不同，所以，西方的心理测验很难完全适合于中国人。譬如人格测验，如果完全是基于对中国人的研究，可以断定，所选择的人格变量肯定不会是卡特尔的16种因素(16PF)，也不会是高夫的23种因素(CPI)。

2.中国人不适合于做西方人编制的心理测验：杨国枢提出由于中西方文化的不同，中国人在做心理测验时，有着不可忽视的与西方人不同的反应心向或方式。其一，社会赞许心向；不是按照自己的真实情况，而是按照社会的期望作答；其二，默认心向：不是按照自己的真实情况作答，答“是”或“赞成”的倾向比答“否”或“不赞成”的倾向要强；其三，“中庸”心向：中国人受“中庸之道”的影响，往往倾向于选择折衷的、中间的答案；其四，避免反应：能不回答则尽量不回答。所以，西方的量表用于中国人时，肯定存在不少问题。[2]中国被试在做测验时，所面临的是一种矛盾困境。此外，中国人习惯于向亲朋好友倾诉衷肠，而不习惯于对陌生人、外界、公众披露、评价自己；不真实回答的倾向较大。中国人有较强的“社会取向”，从众性很强，在问卷中倾向于选择多数人可能回答的答案而不是真正自己的答案。所有这些，无疑会严重影响到测验结果，难以真正解释中国人的心理和行为。

3.中国被试在接受心理测验时的“外国线索”效应。杨国枢和彭迈克发现，香港中英文双语训练的学生，在做英文问卷时，比做中文问卷更能与中国文化认同。他们称此为“民族自我肯定心向”。[3]但在后来的研究中，又发现中国被试有时显示“民族自我肯定心向”，有时又出现相反的“民族自我妥协心向”，即指在用英文回答问卷时，有时也有向西方价值观靠拢的现象。[4]在另一个研究中，Bond发现被试在做同一份问卷时，会视题目所牵涉两个文化价值体系的不同而采用不同的标准回答。表明被试对原量表所属国家的文化愈了解，回答时造成的偏差愈大。也就是说，中国被试对量表的“外国线索”颇为敏感，并会因此而改变其反应。[5]所以，一味照搬外国量表，其弊病很多。

4.中国被试接受外国量表的测验，其结果不乏莫名其妙之“谜”。例如，不少研究业已发现，中国人在测谎题上的得分特别高，有时比西方样本高一倍之多。难道说中国人要比西方人更会说谎？两大著名人格测验MMPI和EPQ用于中国人样本，都出现这种奇怪结果。路君约使用MMPI测量台湾样本，发现中国人的测谎分比西方人高很多；而MMPI全国协作组在大陆的测验结果也出现相同现象。[6](pp.449-457)陈永昌使用EPQ问卷测验香港成人样本，发现测谎分数很高。[7]龚耀先在全国取样的结果也出现同样情况。一开始研究者认为，或许中国人社会赞许倾向高，有可能为了获得社会赞许而说谎。但后来的研究发现，测谎题与其它人格及临床指标的相关也非常高，所以研究者认为，很可能对中国人来说测谎题并不能测到真正的测谎程度，而是另一项人格的或临床的指标。[8]有意思的是，林邦杰以及林一真与杜淑芬在对台湾的小学生测验时，竟然发现测谎题得分愈高者，自我概念愈好，焦虑程度愈低，老师的评价愈高。[9]在对自我概念的跨文化研究中，也曾出现同样的现象。Bond的研究就发现，中国人自我概念得分总是比西方人要低。[10]White & Chan也发现：中国人自我概念的总分低于美国人，即使在中国人文化价值上较受重视的一些特点上，仍然还是没有西方人高。[11]难道中国人的自我真的如此低吗？这只能说用西方人编制出的自我量表难以测出真正的中国人的自我，因为中国人的自我本身就与西方人迥异。

以上从四个方面对移植外国量表进行了反省并提出批评。既然外国的量表是为其本国人所编制，其变量是研究其本国人的结果，而中国人与西方人有着很大的不同，所以量表从内容上说是不能适合于中国人的；我们对这些量表仅作一些语言形式上的修订，用以评估中国人，所得到的结果充其量不过是与西方人作了一个比较而已，很难说可以透彻地解释中国人的心理与行为。既然外国的量表从回答的形式上来说也不适合于中国人，使用它所得到的结果，必然大有问题，且有诸多奇怪而难以解释的现象出现。引进外国的量表会有如此多的麻烦与困扰，不能不令我们深思。

二、系统歪曲假设诸说：对问卷测验的批评

不独移植西方量表在中国遭到非议，就连问卷测验技术本身，在西方也遭到批评。

美国心理学家凯利曾经有个著名的假设：“人是科学家”。因此他说：你要想知道人的心理吗？你可以直接去问他。凯利的论断道出了西方普遍流行的问卷测验的主要思路。无疑，问卷测验在欧美是心理评估的主要技术手段。问卷测验技术具有多种优势：(1)可以不受局限地用以评估人的各方面的心理现象与特质；(2)节约时间、人力、经费，可以在集中的时间内获取较多人的资料；(3)可以通过建立常模来进行比较，获取客观化、标准化的推论；等等。

但是，问卷技术仍有不少局限与缺点。对问卷技术比较尖锐的批评，当属Shweder和D'Andrade。他们提出“系统歪曲假设”，认为在人格自陈问卷测验中，对人的行为的评价是基于记忆的，所得到的结果往往是各种行为类别的语义的相关，并非真实行为本身。也就是说，所测到是一种观念而不是一种真实行为，认为人格问卷测到的特质只能作为人与人相互知觉评判的标准，而知觉评判的准确性是值得怀疑的，很可能这种知觉评判只是一个观念的东西，不是实际的东西。他们研究了人格问卷评价、观念联想评价与现场实际观察结果三者之间的一致性，发现人格问卷评价与观念联想评价之间普遍有.65-.90的高相关，二者与现场实际观察数据间的一致性均低。结果证实了他们的假设。[12]此说得到不少人的支持，自然也引起异议。我们虽然不认为所有的人格问卷测到的全是一种基于记忆的语义，而不是真实的行为本身；但是还是觉得Shweder和D'Andrade的批评不无道理：基于记忆的语义评价毕竟不是真实行为本身。很可能有时或有的人格问卷基于记忆的语义评价与真实行为本身是一致的，而有时或有的人格问卷基于记忆的语义评价与真实行为本身是不一致的。这至少提醒我们在使用问卷技术时必须小心谨慎。另一种批评是“好恶度倾向”说。在关于人物感知的研究中，Lamiell等发现被试在评定人是否具有某些形容词所含的性格特性时，往往就形容词所含的特性的“社会赞许”程度来评定，而不是按主试的要求，就所评价的人本身是否具有这些特性来评定。[13]显然，这是又一种令人头痛的现象。杨中芳(1996)认为，这是一种被试最不需要花心思费功夫，即可及时反应出来的回答准则；是被试常用的可以取代伤脑筋的“照实回答”的“挡箭牌”。值得注意的是，在其它关于人格问卷的因素分析的研究中，亦发现同样的倾向，往往因素分析抽出的第一个因素，就是“好恶度”的人格维度。在人格评估中，被试使用这样一种策略，即以一种最不需要花心思费功夫，即可及时反应出来的回答来搪塞，而并不是按主试的要求、按真实情况回答，如此“好恶度倾向”多么伤脑筋？

我们在实际应用中，也的确发现问卷技术还有其它不少局限。例如，笔者在80年代开展心理咨询时曾碰到这样一个例子：心理咨询中心第一天第一个来咨询的一位工人，在看到我们给他做的人格问卷时，大为惊讶道：“你这样问我就叫个性测验？这不等于是我告诉了你吗？”甩手而去。此事令我反省了多年。的确，问卷技术所获得的心理资料，完全是建构在被试“告诉”的基础上。如果被试不愿、不能、不好、不便、不好意思“告诉”，那可怎么办？可见：

1.问卷测验前提条件是被试能够真实地回答。在以下情境中它束手无策：无法真实、客观地回答问题的非“科学家”的病人，如精神病人等等；不想真实客观地回答问题的人：如“装好”倾向、“装病”倾向、随机作答等等。在一些著名的问卷测验中，如EPQ，其L量表无法区分说谎与老于世故；而CPI辨别作伪的变量有时居然将真实回答者也错判，形成“冤案”；笔者曾比较正常场合与应聘场合中使用人格问卷的情况，发现前者废卷率约6%，后者则高达13%左右。

2.普遍适合于西方文化，是否普遍适合于中国文化，这是个问题。如前所述，中国人倾向于选择折衷的、中间的、不明确的答案：中国人不习惯于对陌生人、对公众、对外界随便坦露自己的心理。又有，中国人受易经的影响极深，全息、整体、神机妙算的观念根深蒂固。在中医中，舌头、脉搏的变化能探测到全身的变化。中国人往往不太相信问卷直接发问得出的结果。中国人崇尚洞察秋毫、断于未萌之中、决于不言之时、甚至是神秘主义的神机妙算。所以算命、八卦预测等等，颇有市场。

3.无法评估敏感性的、被试不愿回答的问题。等等。

直接从国外引进或移植测验量表遭到种种批评。而问卷技术在中国文化中所遇到的问题，也是不能不深思的。

三、投射技术的盛衰

投射(projection)这一概念最早由弗洛伊德提出。在弗洛伊德看来，自我(ego)会将不能接受的冲动、欲望和观念转移到别人身上。像那些不能宽恕自己内心敌意的神经症和精神分裂症病人，就常常以迫害妄想的方式将自己的敌意转嫁于别人。可见这种投射作用是一种防御机制。在这里我们可以看到投射的基本特征：一个人真正的动机、欲望、以及其它心理活动，可以通过此人的其它心理过程或心理活动产品间接地表现、反映、亦即投射出来。荣格在他的自由联想测验中发展了这一概念，他认为词的联想中可以激活、投射出情结。H.A.Murray发展了著名的投射技术“主题统觉测验(TAT)”，其投射概念亦是从弗洛伊德的概念衍化而来，但不仅仅是一种防御机制。Murray认为人们在认知和解释模糊性刺激时的知觉整合受到需要、兴趣以及总的心理组织(psychological organization)的影响。L.K.Frank则是最早提出“投射方法”的人。他认为投射方法可以用以研究人格，这种方法就是使用一些刺激情境，使被试作出反应。使用这些刺激情境是要获得被试本身独特的人格组织投射在刺激情境的信息。

以罗夏墨迹测验为代表的投射技术在20世纪40-60年代盛极一时，达到鼎盛时期。罗夏墨迹测验几乎成了临床心理学的同义语，成了临床心理学不可或缺的工具，甚至到了精神病学家不懂罗夏墨迹测验，就不像精神病学家的地步。当时投射技术应用十分广泛。尤其是罗夏墨迹测验，被列为临床心理学训练中的重要课程，并有必须具备某种资历方可使用罗夏墨迹测验的不成文规定。心理学者亦以善用罗夏墨迹测验为傲，如此蔚为风气。罗夏基金会曾调查了1970年以前的有关罗夏墨迹测验文献，就有4000篇，专著29本。

20世纪70年代以来，由于行为主义的兴起，使投射技术的风势大减。另外还有一个使投射技术风势大减的原因，这就是整个临床心理学及精神医学界对疾病诊断的态度发生了很大的变化：由原来重视诊断的模式转向重视治疗的模式。原来将诊断当作治疗的基本依据，十分重视诊断；但后来发现各种疾病的过程并不稳定，症状也常发生变化，且彼此的分别又并不很明显，所以费神诊断却又难以把握正确性，倒不如在有大致印象后，就进行治疗。所以，对诊断的重视降低，也大大地影响到对投射技术的重视。但是必须看到，虽然不如以前那么重视，投射技术的应用仍然占有较高比例。例如，美国心理年鉴第9版(1985)收集了1978-1985以内的有关罗夏墨迹测验的文献79篇，在50个文献最多的测验中，罗夏墨迹测验仍名列第10。其它的投射技术也仍在应用与发展之中。Mahmood在英国关于“使用投射技术的频率、用的是何种投射技术、投射技术的复兴与未来”的调查表明，虽然多数人认为投射技术在近10-25年衰退了，但认为这项技术加以现代化，仍然会大有前途。所以说，投射技术70年代后处于“隐退”期，但仍有复兴的希望。[14]

投射技术的种类繁多，最有名的有：罗夏墨迹测验(Rorschach Inkblot Test)。由瑞士的精神病学家罗夏(Hermann Rorschach,1884-1922)最早编制。使用10张墨迹图，5张墨白图片，3张彩色图片，2张黑白加上红色。图片呈现给被试，问被试看到了什么？其记分解释程序十分复杂。经历了从罗夏、beck、Klopfer、Piotrowski、Rapaport-Schafer、到Exner综合记分系统的演变。主题统觉测验(Thematic Apperception Test,TAT)。由Murray与Morgan于1935编制。共有30张图片，外加空白图片1张。要求被试根据图片讲故事。班达完形测验(Bender Gestalt Test)。测验包括9个图形，分别印在卡片上，主试分别呈现，要求被试在一张白纸上将它们描绘下来。其评分也特别复杂，有多种评分系统。语句完成测验(Sentence Completion Test)。最早由Payne与Tendler发端，到后来有多种变式。如Sacks的Sacks Sentence Completion Test(SSCT)，有60题，分家庭、性、人际关系、自我概念4类。主试按异常程度记分，评价被试的适应状况。Rotter的Incomplete Sentence Blank，共40题，主试分7个等级计分。绘人测验(Draw A Person)。要求被试在一张白纸上画出一个人。按照人物画的大小、在纸中的位置、线条的精细轻重、各部分的比例、缺失程度等评分，评估被试的智力与人格。房—树—人测验(House-Tree-Person.H-T-P)。是另一形式的绘人测验。其构思是，认为房屋作为人居住的地方，可以引起对于家庭及亲人的联想；树的图画则可反映被试无意识；人则反映被试的自我形象以及与人相处的情形。画树测验(Draw A Tree)。要求被试画树。最不愉快概念测验(The Most Unpleasant Concept Test)。要求被试画出其所能想到的最不愉快的事情。职业统觉测验(The Vocational Apperception Test,VAT)。使用18个图版，评价与职业相关的个性结构。等等。

四、心理学三大测验技术之比较

投射技术是与问卷测验、情境测验技术齐名的三大技术之一。但关于投射技术的特征与性质的问题，曾经争论不休。仅仅将投射技术看作“主观的”评估，而将其它技术看作“客观的”评估，这种观点现在看来是过于简单了。其一，其它的客观测验中，有时也包含投射技术。比奈很早就在智力测验中使用了墨迹测题，虽然后来因为不便于团体测验而取消。著名的韦氏智力测验中的领悟力测验、词汇测验就被认为属于投射性质。其二，罗夏测验等投射测验也遵循测量学的原则，致力于建立客观化的评分标准，并有大量的信度、效度的研究报告。我认为，投射技术区别于其它几种评估技术的主要特征有两点：

1.间接性。问卷技术直接通过被试对问卷的反应评估其态度、个性等，情境测验也是直接通过对被试的客观观察评估其态度、行为、个性等。问卷测验中，被试的态度、个性等是直接与问卷内容有关的；在情境测验中，被试的态度、行为、个性也是直接可观察到的。投射技术却并非如此，它是通过被试的心理活动产品（如联想、回忆、绘画、故事、手工拼贴、笔迹、甚至梦、笑话、短文等），间接地评估其中表现、反映、投射出来的知觉、情绪、个性特征等。

2.推论性。投射技术评估的知觉、情绪、个性等，是隐含的、间接显现的，是分析者根据自己的临床经验、实证所作的推论。推论应当是有风险的。它或者可以经受实证的检验，或者可能是一种主观臆测。

因此，投射技术就是这样一种区别于问卷技术、情境测验技术的评估技术，它通过被试的心理活动产品（如联想、回忆、绘画、故事、手工拼贴、笔迹、甚至梦、笑话、短文等），根据临床经验、实证进行推论，间接地评估其中表现、反映、投射出来的被试的知觉、情绪、个性特征等。

投射技术与问卷技术相比，其优势在于：

1.可弥补问卷测验的局限，不依赖于被试是否真实回答，因为它是通过被试的活动产品的分析，揭示其中投射出来的心理反应。

2.不受文化背景的影响，因此在跨文化研究中被广泛采用。

3.可以洞察被试的潜意识，了解其并非主动、有意表达的内心深处的变化。

但其局限在于：像罗夏测验、主题统觉测验、绘人测验，通过被试对图画的反应或图画中的表现，揭示被试的心理活动，其所能揭示的心理活动是有限的。如罗夏测验、主题统觉测验所能评估到的人格特质，是很有限的；而绘人测验，对14岁以上的人的智力，便难以评估，对人格特质，更难以评估。

情境测验技术则是近年来颇受重视的评估技术。诸如无人领导小组讨论、管理游戏、公文包测验等，这些技术实际上已成为近些年来流行的评价中心技术的核心成份。评价中心(Assessment Center)起源于二次大战期间。当时德、英、美先后采用了模拟测验来选拔军事人员和特工人员。1956年，美国长途电话电报公司首次应用模拟测验大规模进行管理发展和职业培训方面的工作，其公司有100,000多人接受这种评价。随后，此种技术得到推广。美国现已有大量的企业组织使用了这种技术，像著名的通用电器公司、西尔斯公司、国际商用机器公司、福特公司、柯达公司等等，都先后应用了这一技术。如今各国都已普及。情境测验由于在人员选拔中的效度较高而颇受关注，但是它并不是没有任何局限，例如：

(1)所设计的特定情境只能评价到特定的心理特质。也就是说，情境测验所能测到的心理特质是有限的。比如说，无人领导小组讨论能评估到被试作为领导的心理特质，却很难评估到被试作为学者的心理特质。组织心理学的一种理论认为，不同的工作情境对领导特质的要求是不一样的，根据这种理论，很难从一种特定的情境评估到普遍的一般的领导特质。而要想设计出各种不同的情境，是非常困难的。

(2)所设计的特定情境的代表性是值得注意的。设计的特定情境与真实的情境是不是一致，能不能作为真实情境的代表，直接关系到评估的效度。无人领导小组讨论涉及什么话题，可能是一个重要的情境变量；管理游戏中的情境与实际工作情境有多大的相关，所评估到的特质能作多大的推论，都是应该谨慎对待的。

(3)情境测验要花费大量的人力、物力、财力、时间。这一点可以说是情境测验最大的局限。从情境测验的设计，到道具、场地、助手、时间的安排；从评分者的培训，到组织评分者经过讨论得出统一的评估结论，花费的人力、物力、财力和时间，比问卷技术、投射技术均要大得多。这一局限与以上两点局限联合发生作用，会使人不得不考虑，如果不是选拔一个重要的公司经理，而只是对一个平凡的人作出人格的或临床的诊断，是否值得使用该技术。

投射技术与情境测验技术相比，其优势在于不囿于特定的具体的情境，并且不必耗费大量的人力与财力。问卷技术与情境技术相比，其优势在于可以集中在一个时间段大规模取样，但是它的效度却没有情境测验高。总的说来，三大技术是各有千秋，亦各有局限。

五、心理学三大测验技术发展之瞻望

瞻望心理学三大测验技术的发展，以下几点是值得注意的：

其一，综合应用趋势。在实际应用中，对各种技术的综合运用是一种趋势。国外如今流行的评价中心技术就说明这一点。评价中心是一种多个评价者采用多种评价技术（特别是不同类型的工作情境模拟技术）进行的选拔人才、培训人员的过程。评价中心所采用的主要技术有：公文处理法（使用频度95%）；无领导小组讨论（使用频度85%）；模拟面谈（使用频度75%）；时间安排（使用频度45%）；案例分析（使用频度40%）；管理游戏（使用频度35%）；背景面谈（使用频度10%）；纸笔测验（使用频度5%）；智力测验（使用频度2%）；阅读测验（使用频度1%）；计算测验（使用频度1%）；人格测验（使用频度1%）；投射测验（使用频度1%）。其中纸笔测验包括：学校能力测验(SCAT)；临界思维测验(Critical Thinking)；当代事态测验(Contemporary Affairs Test)；爱德华爱好测验；等等。管理游戏有诸如小溪练习、建筑练习等。对不同的心理素质，有相应适合的最佳评价技术。例如，经营管理技巧：公文处理法；人际关系技巧：无领导小组讨论、商业游戏法；智力状况：纸笔测验；工作恒心：公文处理法、无领导小组讲座、商业游戏法；工作动机：投射测验、面试、模拟法；职业发展方向：投射测验、面试、人格测验；依赖他人程度：投射测验。所以说，既然各种技术的综合应用是一大趋势，那么各种技术都应予以很好的开发与发展。

其二，“经济”取向。在实际应用中，心理学应用的客户往往要求“短、平、快”的服务。做一个问卷测验，每个人要花一小时左右时间，客户往往认为太费时间；做一个情境测验，投入更多的人力、物力和财力，客户显然更要考虑是否值得。在这种情况下，投射技术可以扮演一个重要角色。因此，在国内外，笔迹分析等技术便很有市场。问题是非心理学背景、缺乏必要的心理学训练的笔迹学家凭其感觉对人心理特质所作的判断究竟有多大的效度，不能不查。心理学家需要开发像笔迹分析、自传分析、职业统觉之类的有满意效度的投射技术，这是心理学应用中“经济”取向使然，也是21世纪应用心理学发展的一种呼声。

其三，技术是方法的系统化与规范化操作体系。以此作为基点观之，不独心理学，且人类各方面的思维与行动、理论与应用，均不可没有方法技术。海德格尔言技术为“座架”，认为技术既然成为规范，则又必然束缚限制了人的思维与行动。这一批判是必须重视的。后现代一些学者怀疑、否定技术的观点，虽然有些过激，但也确能令人深思。科学技术是一把双刃剑。以上讨论的都是追求客观、要求量化的技术，不仅其各自有诸多局限，而且量化技术本身更有割裂曲解人类经验的局限，所以我们始终必须有一种全局的、统合的观点与视野，允许和鼓励各种技术的全面发展。

标签：心理学论文; 罗夏论文; 卡特尔人格特质理论论文; 人格结构理论论文; 投射效应论文; 人格测验论文; 心理投射论文; 问卷调查论文; 中国人论文;

考试与前瞻：心理学的三种测试技术_心理学论文

猜你喜欢