2007~2010年心理学专业综合考试多元泛化理论研究_心理学论文

2007－2010年心理学专业基础综合考试的多元概化理论研究，本文主要内容关键词为：理论研究论文,心理学论文,基础论文,考试论文,专业论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

全国硕士研究生入学心理学专业基础综合考试是为高等院校和科研院所招收心理学学科的硕士研究生而设置的具有选拔性质的统一入学考试科目（教育部考试中心，2006）。根据《心理学专业基础综合考试大纲》（以下简称《考试大纲》）的规定，心理学专业基础综合考试涵盖普通心理学、发展与教育心理学、实验心理学、心理统计与测量共四大类基础课程，设有单项选择题、多项选择题、简答题和综合题四种题型。对照《考试大纲》，心理学专业基础综合考试的试卷结构是否合理，考试结果的信度是否达到统计要求等，多元概化理论为这些问题的研究与论证提供了一个框架。

概化理论（GT）是一种把测量误差作为模型参数来处理的测量理论，它不仅保留了经典测量理论中控制误差的标准化技术，而且发展出了把误差控制与决策需要或测量结果的概括程度相结合的理论和方法（杨志明，张雷，2003）。根据测量目的的不同，研究者可以设计不同的概括全域，通过多个决策研究计算出不同概括全域上的多个信度指标。

在多元概化理论中，测量目标是由多个变量（variable）上的全域分数构成的，估计出来的每个变量的方差成分和相应的协方差成分可以看成是一种结构效度的证据（Nubbaum,1984），因为试卷的结构主要是依据“双向细目表”而定的，而“多元概化理论框架就是依据双向细目表来对考试进行分析的”（Brennan,2001a）。杨志明等人（2004）的研究显示，多元概化理论为提高考试的测量效果，降低测量误差开辟了新思路，特别是在研究综合考试这种涉及多个相关的学科因子的测验方面有独到之处。

本文旨在运用多元概化理论评估2007－2010年心理学专业基础综合考试的试卷结构和测量精度等，在对四次考试分别进行多元概化分析的基础上，获取“平均”或“趋势”的结果（Yin,2004），以评价心理学统一考试，并为今后修订《考试大纲》、改进命题方案、提高考试质量提供参考依据。

2 研究设计

2.1 研究样本

本研究采取分层等距抽样法，各年度考生抽取人数及考试数据的描述统计见表1。

2.2 测量的设计

2007－2010年心理学考试试卷结构见表2。

根据多元概化理论的研究设计，从测量学科能力的角度，可以将心理学专业基础综合能力看成是包含普通心理学、发展与教育心理学、实验心理学、心理统计与测量共四个学科因子的单面设计。另外，可以将心理学专业基础综合考试看成是包含单项选择题、多项选择题、简答题和综合题四种题型因子的设计。

3 研究结果

3.1 关于4个学科因子的分析

3.1.1 2007－2010年心理学考试各学科因子的描述统计

由表3可知，从2007年到2010年，普通心理学平均得分基本相同；发展与教育心理学在2008年和2010年的得分差距最大（约5.5分）；实验心理学、心理统计与测量的平均得分在不同年度间有较大差异，2009年平均得分最高。

3.1.2 G研究

运用mGENOVA软件可以得到考生（p）、试题（i）以及考生与试题之间交互效应（p×i）在4个学科因子上的方差和协方差分量的估计矩阵（Brennan,2001b），见表4。

在4个学科因子中，2007－2009年方差分量最大的均是普通心理学；发展与教育心理学的方差分量在2007年最小，此后逐年提高，而实验心理学的方差分量则呈逐年下降的趋势，心理统计与测量的方差分量则一直处于偏低的状态。这说明在心理学研究生入学考试中，普通心理学确实发挥了比较大的作用，发展与教育心理学的作用也日益提高；相对而言，实验心理学、心理统计与测量还应进一步加强。同时，根据协方差分量的估计值，各个学科因子与其它3个因子的协方差分量全部大于.20，这说明各个学科因子在预测考生能力水平的顺序方面，彼此的功能是一致的。不同学科因子间具有较好的相关性（介于.65－.85之间），且4年来相关系数比较稳定，这说明将不同学科因子进行合成来估计测验总分是可行的。另外，与考生方差相比，各个学科因子的试题方差都较大，这表明对于考生来说，试题在难度上具有一定变异性；各年度的考生与试题之间交互方差在4个学科因子上都远远大于考生方差，这表明各个学科因子的相对难度是因人而异的（Yin,2004）。

3.1.3 D研究：各个学科全域分估计及全域总分估计的精度问题

按照四个学科因子试题量所占比重来决定权系数，对4个学科因子全域分进行合成，可以得到全域总分的方差以及相应误差的方差分量估计，进而估计全域总分的概化系数，见表5所示。

2007－2009年均是心理测量与统计的相对误差最小，概化系数最高（.775～.830），这表明心理统计与测量的测量精度相对较高；但2010年心理统计与测量的概化系数有所降低（.594），说明其测量精度下降。与此相反，实验心理学的概化系数在2007－2009年偏低（.469～.624），特别是2008－2009年，其概化系数均低于.50，测量精度较差；但在2010年却有大幅提高（.747），这表明2010年实验心理学的测量精度较为理想。普通心理学的概化系数一直较为稳定（.675～.748），这表明普通心理学的测量精度相对较高。发展与教育心理学的概化系数一直介于.50～.60之间，其测量精度可勉强接受。从心理学开考以来，按照4个学科因子合成的全域总分的相对误差很小（小于.05），概化系数均接近.90，表明心理学专业基础综合考试的整体测量精度比较理想。

3.2 关于4种题型因子的分析

3.2.1 2007－2010年心理学考试各题型的描述统计

由表6可知，单项选择题在2008年和2010年的平均分较高，2007年最低；多项选择题在2009年平均分最高，2008年最低；简答题在2009年平均分最高，而2010年最低；综合题在2009年平均分最高，2008年最低。就连续4年的数据而言，各题型在平均分和标准差上没有明显的规律性。

3.2.2 G研究

运用mGENOVA软件可以得到考生、试题以及考生与试题之间交互效应在4种题型因子上的方差和协方差分量的估计矩阵，见表7。

三年来结果比较一致，方差分量最大的是综合题，然后是简答题、多选题，方差分量最小的为单选题。这说明在心理学考试中，综合题的作用最大，单选题的作用最小。同时，从协方差分量的估计值来看，四种题型因子得分顺序基本一致，即在预测考生能力水平上彼此的功能是一致的。另外，与考生方差相比，选择题的试题方差略大，而简答题与综合题的试题方差相对较小，这表明对于考生来说，选择题在试题难度上有一定变异性，而简答题和综合题的变异性不够。各年度的考生与试题之间交互方差在选择题（包括单选题和多选题）上远远大于考生方差（至少是5倍），而在简答题和综合题上则与考生方差相近，这表明选择题的相对难度是因人而异的，而简答题和综合题的相对难度则对考生来说是比较一致的。

3.2.3 D研究：各个题型因子全域分估计及全域总分估计的精度问题

按照4种题型试题量所占比重来决定权系数，对4种题型全域分进行合成，可以得到全域总分的方差以及相应误差的方差分量估计，进而估计全域总分的概化系数，见表8所示。

综合题的相对误差最大，单项选择题的相对误差最小；考虑到误差因素，测量精度（概化系数）最高的是单项选择题，四年来均在.90上下，简答题和综合题的概化系数次之，多项选择题的概化系数偏低；四年来全域总分的相对误差非常小（小于.03），概化系数均大于.92，这表明，从题型合成角度来看，整体测量精度非常理想。

3.2.4 改善多项选择题的D研究

改变各个因子的样本容量以观察测量精度的变化，通常是概化理论改善考试的主要方法。但是从操作上来看，心理学考试作为研究生统一考试的时间长度是固定的，为180分钟。在这个时限下，增加一个因子的样本容量，就需要按比例减少另一个因子的样本容量。心理学考试的单项选择题较多，且测量精度较高，可以减少单项选择题的数量，增加多项选择题的数量，以探讨样本容量的改变对多项选择题和全域总分的测量精度的影响。考虑到考生作答一道多项选择题的时间通常要比作答一道单项选择题的时间长，且多项选择题的分数要高于单项选择题的分数（单选题为2分，多选题为3分），因此，每减少3道单选题，应相应增加2道多选题。据此原则，D研究中分别探讨多选题增加2道、4道、6道、8道（单选题相应减少3道、6道、9道、12道）四种条件下心理学考试的测量精度问题。

由表9可知，随着多选题的样本容量的增加，其概化系数逐渐增加，与基准模式相比，当多选题增加到18题时，其概化系数增加量为.12～.145，此时概化系数基本可以接受（均大于.60）；由于单选题的样本容量递减，概化系数有所下降，但降幅很小，即使是降到53题（即减少12题），概化系数最多也只减少.02，此时概化系数仍然比较高；合成分数的概化系数变化不大。因此，增加多选题、减少单选题对合成全域总分的概化系数影响不大，但却可有效增加多选题的测量精度。

4 讨论与结论

本文运用多元概化理论探讨了心理学专业基础综合考试的试卷结构和测量精度问题，并从提高题型因子测量精度的角度探索了误差控制的改进方案。

4.1 从考试内容看心理学考试

从考试内容来看，各个学科因子的方差和协方差成分的估计是比较稳定的，这说明各个学科试题的命制是严格遵循《考试大纲》的。从D研究的结果来看，全域合成分数的概化系数很高，连续四年都在.90左右。对于四个学科因子来说，2007－2009年间心理统计与测量、普通心理学的概化系数较高，而发展与教育心理学、实验心理学的概化系数偏低；2010年则是实验心理学的概化系数最高，心理统计与测量的概化系数有明显下降。

笔者认为，实验心理学与统计测量两个学科因子测量精度的改变与2010年题型调整有关系。命题思路的转变出乎培训机构和考生的预料，能够有效的选拔出能力较强的考生，但对中低能力的考生区分性不大，零分卷非常多，这可能是导致2010年心理统计与测量的概化系数偏低的原因。

4.2 从题型设计看心理学考试

从题型来看，各题型的方差和协方差成分的估计是比较稳定的，不同年度的试卷在结构上可看成是“平行的”。从D研究的结果来看，按照题型来合成分数，全域合成分数的概化系数非常高，都在.92以上。对于四种题型而言，单选题题量大、评分客观，测量精度最高，但由于其为0、1计分形式，方差分量必然远远小于多级计分的简答题和综合题，即对考生的选拔作用没有主观题强，这与胡谊和顾春梅（2007）关于高考历史的概化研究、关丹丹和任子朝（2009）关于高考数学的概化研究结果相似；多项选择题也为0、1计分形式，方差分量小，且题量远少于单选题，其概化系数偏低；简答题和综合题的概化系数较高，基本上均在.70以上。增加因子的样本容量可以改善考试的测量精度，但必须要考虑考试的实际操作性（Powers & Brennan,2009）。在改善多选题测量精度的D研究中，研究者是以按比例减少单选题为代价的。D研究发现，减少单选题数量、增加多选题数量有益于大幅增加多选题的测量精度；与现行模式相比，当多选题增加到18题时，概化系数有两年超过.70，两年超过.60，基本达到可以接受的标准。虽然总题量逐渐减少，但合成分数的概化系数变化不大，仍然保持非常好的测量精度。

由于试卷结构的复杂性和大规模统一考试的局限性，本研究在使用多元概化理论分析试卷时受到了一些限制，也存在一定不足。一，由于试卷既有主观题，又有客观题，属于混合型（mixed-format）试卷，在按照学科因子进行多元概化分析时，没有对两种计分方式进行处理，也没有办法将题型作为一个侧面来分解方差，而题型可能是一个潜在的侧面；二，由于是国家统一考试，连续四年考试使用的是不同的试卷，没有共同题和共同人，无法对不同年度的分数进行等值处理，导致四年来的分数不具有直接的可比性；三，主观题没有采用双评，无法探讨评分误差，而且主观题评分的准确性会直接影响全卷的研究结果。

标签：心理学论文; 因子分析论文; 测量理论论文; 考试大纲论文;

2007~2010年心理学专业综合考试多元泛化理论研究_心理学论文

猜你喜欢