高校排名评价指标体系设计中的难点分析_大学论文

大学排行评价指标体系设计的难点分析,本文主要内容关键词为:指标体系论文,难点论文,评价论文,大学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

近年来,国内学者对大学排行的争论十分激烈,争议的焦点之一就是大学排行指标体系的科学性、合理性问题。大学排行指标体系的设计主要包括指标的选择和权重的设置两部分,任何一部分的变动都会影响排行结果。因此,大学排行指标体系的设计是大学排行的重点。大学排行是对大学办学质量和水平的综合评价,其中涉及的内容十分复杂,评价大学的哪些方面,这些方面的重要性如何,各人都有不同的看法,因此,大学排行指标体系的设计又是大学排行的一个难点。笔者结合当前大学排行评价指标设计的现状,对大学排行指标体系的设计难点进行简要分析。

一、不同类型大学之间的可比性问题

大学排行实质上是一种比较性评估。既然是比较,就不得不考虑评估对象的可比性,即比较对象是否同质。现实中的大学多种多样,如何对这些不同类型的大学进行比较就成了大学排行指标体系设计的一个难点。

为了解决不同类型大学的相互比较问题,广东管理科学研究院武书连教授提出“不同类型大学的科研人员平均具有相同创新能力”、“不同学科的科研人员平均具有相同创新能力”的假设,试图实现不同类型大学科研成果的直接可比。对此假设,学者们的观点各异。赞成者认为,“从生理学和心理学的角度看,没有什么证据表明理工科的科研者比文科的科研者有更高的创造力和科研水平,从本质上说,任何学者都可能在各自的领域达到一流的水平”[1]。有的学者还以布鲁姆的学习理论、袁隆平和袁亚湘的成长历程来论证该假设的科学性[2]。反对者则认为,如果该假设成立的话,那么一个学校的规模越大,其所谓的创新能力或分值就越大,这显然是一种浅薄的以规模论英雄的做法[3]。有学者通过统计发现,就不同类型大学科研人员的创新能力而言,若只是考察一般性的统计指标,其差距并不明显,然而在真正反映科研人员创新能力的一些指标,如在国外学术性刊物发表论文、国家级科研成果、鉴定成果以及专利授权等方面,则存在明显差别[4]。这两种看似对立的观点其实并不矛盾。从抽象的意义上来说,不同类型、不同学科的科研人员平均具有相同的创新能力的说法是成立的,但是具体到每个科研人员,这种说法就无法成立。武书连教授恰恰是混淆了这两个概念,以抽象意义上的“科研人员具有相同创新能力”作为假设,来评价具体的每个大学、每个学科的科研人员的科研水平,其结果自然难以让人信服。

解决上述难题的第二种途径是对大学进行分类,把同类大学放在一起进行比较。比如:《美国新闻与世界报道》“美国最好大学排名”将大学分为4类:全国性大学、全国性文理学院、地区性大学和地区性文理学院。全国性和地区性学校在评价指标和权重上略有不同,表现在:(1)“平均毕业率”的权重分配不同,前者占16%,后者占20%。(2)“新生保持率”的权重分配不同,前者占4%,后者占5%。(3)前者赋予“高中成绩在班级前10%的学生比例”6%的权重,后者不考察这项指标。(4)前者不考察“高中成绩在班级前25%的学生比例”这项指标,后者赋予这项指标6%的权重。(5)前者赋予“毕业率履行情况”5%的权重,后者不考察这项指标。加拿大《麦克林》把大学分为基础类大学、综合类大学和医学博士类大学,3类大学的排行评价指标也有所不同。基础类大学不考察“新研究生中留学生比例”、“低年级班级规模”和“高年级班级规模”3个指标,其他两类大学要考察;只有医学博士类大学考察“全日制学生人均图书量”和“全部藏书量”,其他两类大学不考察。

先分类再排行的做法的确可以解决上述难题,但其前提是大学的分类必须科学,并且要根据不同类型的大学设置不同的评价指标。中国网大在2000年尝试把大学分为重点大学和非重点大学,然后依据不同的评价指标体系进行分别排行。但是,由于分类的标准不科学,排行榜一发布就引起了轩然大波,因此网大在2001年不得不放弃了分类排行的做法。广东管理科学研究院在2002年将大学分为4类:研究型大学、教学研究型大学、教学型大学、专业型大学;2003年,又对大学进行了重新分类,分为研究型大学、研究教学型大学、教学研究型大学和教学型大学。但是,不管哪种类型的大学排行,其所用的评价指标体系都一样。这实际上仍是用相同的指标评价不同类型的大学,大学的分类只是一个形式而已。

解决上述难题的第三种途径是按学科(专业)进行排行,其典型代表是德国的CHE大学排名。德国高等教育发展中心认为,不存在最好的大学,大学的学科之间也有着各自的优点和不足,综合分数的计算可能会使学科的优势和不足相抵消,从而使学科间的差异和特点变得模糊不清。因此,CHE大学排名只对高校的学科进行排名,而不涉及大学的综合与整体实力,并且只对大学的学科进行分层,而没有明确的名次。CHE设计了一个包括9个组成部分的“指标模型”,9个部分包括大学及所在城市、学生、产出、国际化、教学、资源、研究、劳动力市场及就业能力、学生和教授的整体评价等[5]。每个组成部分都包含一些二级指标,总共有35个。这套指标既包括客观数据,也包括主观判断。

与分类排行相比,学科(专业)排行更加科学,因为大学的数量实在太多,将这么多的大学分为几个类别,每个类别中的大学仍然存在很大差异,所以分类排行仍然无法保证评价对象的同质性。但是,学科(专业)排行与综合排行毕竟是两种不同的类型。未来的大学综合排行或许可以从学科(专业)排行的经验中获得启示,将大学各学科(专业)的评价结果经过一定的技术处理,转化成对大学综合实力的评估值。

二、评价指标的权重设置

在大学排行中,除了单项排行外,其他排行都涉及多个指标问题。多个指标的综合需要构建合理的权重,以反映各指标所代表的评价内容在整体评价内容中的相对重要程度。权重设置是否合理,直接关系到大学排行结果的信度和效度。

确定指标权重的方法有专家评定法、比较平均法、特尔斐法、层次分析法、矩阵运算法、重要性程度排序求解法、模糊统计方法等。其中以专家评定法、特尔斐法、层次分析法用得较多。专家评定法较为简便,但精确性不是太好。层次分析法因其相对较完善、客观,能把专家的经验认识与理性分析相结合,是一种较好的方法。

我国大学排行指标的权重主要是通过特尔斐法来确定的,同时也结合了其他方法。比如:网大指标权重是通过特尔斐法和层次分析法确定的,先通过特尔斐法筛选出评价指标,然后运用层次分析法,将评价指标进行两两比较,确定判断矩阵,把判断矩阵的最大特征根对应的特征向量的分量作为相应的系数,进而综合出各指标的权重。广东管理科学研究院的排行指标体系分为三级:一级指标包括人才培养和科学研究,其权重是根据大学教学人员与科研人员的数量之比来确定的,分别为57.09%、42.91%。二级指标包括研究生培养、本科生培养、自然科学研究和社会科学研究,其中自然科学研究与社会科学研究的权重也是根据科研人员的数量之比来确定的。我国大学文科的科研人员占8.17%,理工科的科研人员占34.74%,因此自然科学研究与社会科学研究的权重分别占34.74%和8.17%。三级指标有24个,其权重是通过特尔斐法确定的。根据从业人数来确定权重,其理论假设就是“不同类型大学的科研人员平均具有相同创新能力”、“不同学科的科研人员平均具有相同创新能力”。正如前文所说,该假设是缺乏说服力的,以从业人数来确定权重更是缺乏科学依据。

特尔斐法主要依赖专家的判断,因此专家人选的确定就显得至关重要,包括专家的数量、学科结构分布、地域分布等。目前,我国大学排行在专家人选的确定上存在以下问题:(1)专家人数偏少,难以保证结果的科学性。(2)专家的学科结构分布不均衡。专家人选以两院院士和大学校长为主,这些专家大多是学工科和理科的,难以保证结果的公平性。(3)在地域上,专家群体的选择一般限于国内,因此在指标的权重上难免出现一些偏向。比如:我国的大学排行中,科研指标的权重比较大。上海交通大学“世界大学学术排名”反映科研的指标有5项,占总权重的90%;网大反映科研的指标有11项,占总权重的60%以上;中国校友会反映科研的指标有14项,占总权重的45%;广东管理科学研究院反映科研的指标有18项,占总权重的42.91%。而《美国新闻与世界报道》“美国最好大学排名”、《泰晤士报》英国大学排行、加拿大《麦克林》反映科研的指标只有1项,所占权重不超过25%。

除了权重设置的方法不够完善外,指标的权重缺乏弹性也是我国大学排行评价指标体系存在的另一大问题。无论是评价研究型大学还是教学型大学,不仅指标相同,而且权重也完全相同,这实际上是一种削足适履的做法。给不同类型的大学设置不同的指标权重,让不同类型的大学都能各展所长,办出特色,这正是国外大学排行比较通行的做法。在我国除了积极开展学科(专业)排行外,还应通过增强大学排行指标权重的弹性,使评价能更准确地反映不同类型大学的定位,无疑是一种省时省力的做法。

三、教学评价指标的设计

从国内外大学排行指标来看,衡量大学教学水平的指标可以分为教学投入指标和教学产出指标,教学投入指标又可分为人力资源投入和物资资源投入(见表1)。在人力资源投入中,“美国最好大学排名”、“英国大学排行”、加拿大《麦克林》和中国网大都把新生质量作为一个重要指标,并赋予10%-17%的权重。英国《泰晤士报》高等教育副刊“世界大学排名”、《美国新闻与世界报道》“全球大学百强排名”和加拿大《麦克林》还把大学的留学生(海外学生)比例作为评价指标,以考察大学的国际化程度。广东管理科学研究院和中国校友会则不考察新生情况。

各国的大学排行都十分看重师资水平对教学的影响。“美国最好大学排名”、《麦克林》、网大以教师中获得博士学位的比例来衡量教师的资格水平,网大和中国校友会还特别看重教师中杰出人士(两院院士、长江学者等)的比例。《美国新闻与世界报道》、《麦克林》、《泰晤士报》以生师比和班级规模衡量教师的努力程度,而在我国的大学排行中,只有网大设立了生师比这一指标,且权重比较低,只有2%。

在物资资源投入中,“美国最好大学排名”、“英国大学排行”只考察生均教育费用,《麦克林》考察生均教育费用和图书量,网大考察图书量和校舍建筑面积。在物资资源投入这个指标上,国内大学排行给予的权重明显比国外低,这可能是为了改变中国校长过于看重物资资源的倾向。

在教学产出的评价指标上,国内外大学排行存在很大差异。“美国最好大学排名”和《麦克林》主要以保持率、毕业率、校友捐赠作为评价指标;英国大学排行以获得第一学位或更高的第二学位的学生比例、毕业生去向、毕业率为指标,同时增加了学生满意度这个模糊评价指标;“世界大学排名”主要通过雇主评价来衡量大学的教学产出质量。而在国内,网大没有教学产出指标,广东管理科学研究院以大学培养的毕业生数量作为教学产出,不考察教学产出质量。只有中国校友会设立了毕业生质量评价指标,包括毕业生当选中央委员、候补委员人数,入围福布斯、胡润、新财富、南方周末中国富豪榜人数等,并给予很高的权重。

从总体上看,国内外大学排行在教学投入指标上的差异不大,只是权重的设置有所不同。但在教学产出的指标上却存在很明显的差异,特别是如何衡量教学产出质量,仍然是我国大学排行的一个薄弱点。那么,我国能否借鉴国外的经验,将毕业率、保持率、校友捐赠作为衡量教学产出的指标呢?众所周知,我国大学实行的是“严进宽出”,大学的毕业率和保持率均接近100%,因此以毕业率和保持率作为衡量指标,缺乏区分度。我国目前尚未形成捐赠文化氛围,校友捐赠的比例还很低,因此以校友捐赠作为衡量指标也缺少区分度。对教学质量最有发言权的还是用人单位和学生,因此可以通过毕业生去向、雇主评议和学生满意度调查考察大学的教学产出质量。

四、科研评价指标的设计

对大学科研水平的评价一般包括两部分,一是对科研条件的评价,二是对科研成果的评价。国外大学排行一般不涉及对科研条件的评价,而我国则比较重视对科研条件的评价。网大以博士点、硕士点、国家重点学科数、国家重点实验室与国家工程研究中心数、国家人文社科重点研究基地数和科研经费6个指标评价大学的科研条件,其权重占到总权重的26%;中国校友会以国家级科研机构(国家实验室、国家重点实验室、国防重点实验室、国家工程研究中心)、教育部科研机构(教育部重点实验室、工程研究中心、教育部社科重点研究基地)、国家科技转化基地(国家大学科技园、国家大学文化科技园、国家技术转移中心)3个指标评价大学的科研条件,占总权重的10.46%。通过科研条件来衡量科研水平,其理论假设是科研的投入与产出是成正比的。但是该假设并不能完全成立,比如:中国科学院系统科学研究所的顾基发和日本北陆先端科学技术大学院大学的山本明久、本多卓也通过对1999年网大大学排行榜上的数据进行分析,发现教师的平均科研费与EI、ISTP论文的人均生产效率相近,而与SCI论文的人均生产效率较远[6]。但是考虑到对科研成果的直接评价比较困难,而对科研条件的评价却相对容易得多,因此,通过科研条件来衡量科研水平也可以说是一种替代解决办法,只是所占的权重不宜太高。

对科研成果的评价主要有以下3种方法:

1.定性评价。定性评价主要通过同行专家对大学的科研产品(论文、著作、科研项目等)进行评议,最后给出一个相应的分数或等级,标示该科研成果的质量水平。“美国最好大学排名”、英国“世界大学排名”、《麦克林》、网大和中国校友会都设置了同行评议或声誉调查来考察大学的科研水平。其中,英国“世界大学排名”赋予该项指标50%的权重,而我国在这项指标上的权重比较低,网大为15%,中国校友会只有6.65%。

同行专家评议模式的突出优势在于评价结果的公信度比较高,考虑的因素比较全面,其主要缺点是主观性强,评价指标不易于量化。特别是在中国这样一个人情社会中,同行评议的公正性更难以得到保证。因此,在专家的选择和程序的设计上,还需要进一步完善。在这方面,英国的大学科研评价体系(Research Assessment Exercise,简称RAE)值得我们借鉴。

RAE把大学内的所有科研活动分成许多研究单元,每个研究单元包括一个宽广的学科领域,每个研究评价单元有一个由9-18位专家组成的专家评价小组。大学内的每一个系或团体可以选择一个对应或最接近的单元提出评价申请。在评价过程中,首先由评价小组公布本单元的评估方法和标准。申请参加评价的高校按要求提供书面报告,然后由各专家组进行评价,并给予每份申请一个等级。RAE在评价指标的设定上具有几个特点:(1)以质量为成果的指标,不考虑研究成果的数量;(2)以“原创性”作为表征质量的指标;(3)“原创性”是由专家根据等级评价标准来确定的,不考虑成果的形式(专著、论文、辞典等)、成果发表或获奖的等级。2008年英国大学科研评价的等级分为5级,每级的评价标准见表2。

2.定量评价。定量评价的方法一般有成果计数法、引文分析法等。

(1)成果计数法。广东管理科学研究院、上海交通大学“世界大学学术排名”、浙江大学“国际大学创新力排行榜”、武汉大学“世界科研竞争力排行榜”和《美国新闻与世界报道》“全球大学百强排名”均设置了考察科研成果数量的指标。在这些排行榜中,Science、Nature发表的论文数量占有相当大的权重,而这两种刊物属于自然科学期刊,因此在各排行榜中,人文社会科学均处于不利位置。另外,由于不同学科发表文章的难易不同、不同学科核心刊物的数量不同,使得运用成果计数法很难进行跨学科或跨学校性质的比较[7]。

(2)引文分析法。我国大学排行特别注重引文指标,武汉大学“世界科研竞争力排行榜”给予60%的权重,上海交通大学“世界大学学术排名”和浙江大学“国际大学创新力排行榜”给予40%的权重,网大和广东管理科学研究院的权重也超过20%。英国“世界大学排名”给予20%的权重,“美国最好大学排名”、“英国大学排行”和《麦克林》均不考察引文量。

在我国的大学排行指标体系中,考察大学科研水平的引文指标主要有SCI(科学引文索引)、SSCI(社会科学引文索引)、A&HCI(艺术与人文科学索引)、EI(工程索引)、ISTP(国际会议录索引)、CSCD(中国科学引文数据库)、CSSCI(中国社会科学引文数据库)、CSTPC(中国科技论文与引文分析数据库)、CHSSCD(中国人文社会科学引文数据库)。从总体上看,国外引文的权重大于国内引文的权重,自然科学引文的权重大于社会科学引文的权重。

引文分析法的理论基础是文献被引用是以其质量为基础的,质量高的文章或研究成果被引用的次数就多,与成果计数法相比,它更为客观。但是,引文分析法也存在很多缺陷:

缺陷之一缘于引文数据库本身。以SSCI为例,学科倾斜、地域倾斜、语种倾斜被普遍认为是SSCI的三大缺陷。2002年SSCI收入的期刊中,60%来自美国,英语语种的期刊占85%以上,最多的学科是经济学(有166种),最少的学科是民族学(只有7种),二者相差23倍[8]。为了使引文分析更具公正性,近年来国外已经放弃了以引文的绝对量来评价科研成果的做法,而代之以引文的相对量。比如:美国“全球大学百强排名”和英国“世界大学排名”均以“论文引用/教师”作为衡量指标;荷兰著名的文献计量学大师Raan教授建议,应该将每篇论文的平均被引用次数除以世界上该学科论文的平均被引用次数,以平衡各学科的差异性[9]。

缺陷之二缘于学术期刊不规范,因此漏引、伪引的现象普遍存在。在1998年CSSCI收录的6万余篇来源文献中,就有24538篇文章没有任何引文,占收录论文的40.6%[10]。

缺陷之三缘于学科的差异性,特别是人文社会科学与自然科学的巨大差异。人文社会科学的研究不像自然科学那样具有极强的和直观的累积性,文献之间联系不像自然科学那样形成了一个严谨紧密的体系,因而文献之间的相互引用有时显得可有可无[11]。人文社会科学科研成果的评价要受政治历史环境和社会现实环境的制约,因此在运用引文进行分析时会遇到很多困难。

3.定性评价与定量评价相结合。英国“世界大学排名”和中国校友会采取定性评价与定量评价相结合的模式,可以在一定程度上克服上述两种方法的不足。

此外,很多大学排行榜还设置了科研奖励和专利数量指标衡量科研成果。比如:中国校友会设置了国家级科技奖励、教育部社科奖励、十大科技进展、国防院校特殊贡献等指标,广东管理科学研究院设置了发明专利、国家级奖、省部级奖等指标,加拿大《麦克林》设置了社会人文奖金和加拿大国会奖金、医学或科学奖金等指标。

从总体上看,我国对大学科研水平的评价过于依赖定量方法,特别看重SCI、SSCI、EI等国际引文数据指标。为此,2002年6月,科技部、教育部在《关于充分发挥高校科技创新作用的若干意见》中指出:“合理利用SCI在科研评价方面的作用,从重视科研论文的数量向重视论文质量转变,从重视论文向重视论文与专利并重转变,取消政府导向的SCI排名。”2003年5月,中科院、科技部、国家自然科学基金委员会、教育部、中国工程院五部委联合发文《关于改进科学技术评价工作的决定》,指出:“SCI、EI等收录论文数量只是科学技术评价中的定量指标之一,反对单纯以论文发表数量评价个人学术水平和贡献的做法。”但是,由于同行评议法在实践中还存在诸多问题,因此定量方法仍被广泛采用。对于教育行政部门而言,研制一套科学的同行评议体系是当务之急,否则,我国大学排行在科研评价上仍然难有大的进展和突破。

标签:;  ;  ;  ;  ;  ;  ;  

高校排名评价指标体系设计中的难点分析_大学论文
下载Doc文档

猜你喜欢