SCI定量评价函数的局限性及修正_影响因子论文

SCI量化评价功能的局限性及其修正，本文主要内容关键词为：局限性论文,评价论文,功能论文,SCI论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

美国科技信息研究所(ISI)的Garfield于1955年提出了影响因子(IF)概念，并于1961年创立了“科学引文索引”(Science Citation Index，SCI)，为随后以其为基础开展学术成就的量化评价打下了坚实的基础[1]。作为Web of Knowledge知识服务的主体，SCI以及“期刊引证报告”(Journal Citation Reports，JCR)等评价工具主要以论文收录和引证数据为基础，以影响因子等指标作为学术评价的量化工具，对科技期刊和论文的影响力进行评价。由于其量化统计的相对客观性，以及相对克服了同行评议等定性方法带来的主观因素影响和过高的时间、人力和物力成本，作为定性评价的一种补充，期刊影响因子等指标以及相关的评价方法逐渐成为许多国家和地区进行学术评价的重要依据。但是，随着SCI在学界的推广和应用，国内外学者围绕SCI学术量化评价的优点、缺陷、修正方法等也开展了一系列的理论和实证研究。

1 SCI学术量化评价的局限性

影响SCI对期刊、论文甚至科研人员个人学术成果进行准确评价的因素很多，综合来看，主要有以下几个方面。

1.1 影响因子本身存在的局限

作为评价结果的影响因子与期刊、期刊论文的质量之间的联系如何，影响因子的统计原则本身是否存在局限，一直是学者探究的问题。

1.1.1 影响因子与期刊质量的关系任胜利等人认为影响因子与期刊质量没有绝对的关系[2]。例如，2002年SCI收录的我国期刊中，影响因子最高的期刊为《世界胃肠病杂志》，达到2.532，比《中国药理学报》的0.688高出近4倍，但这并不代表《世界胃肠病杂志》一定比《中国药理学报》质量高[3]。相反，由于高达90％以上的自引，《世界胃肠病杂志》随后则被SCI停止收录。Braun等人在研究中发现，美国期刊的影响因子水平比世界平均水平高了30％，但是Seglen则强调，这并不能说明美国的期刊就一定比其他的期刊质量高[4-5]。而Garfield也认为，高影响因子代表了期刊的高声誉，这种高声誉可以等同于高影响[1]，但高影响并不一定等于高质量。

1.1.2 影响因子与论文质量的关系 Garfield称，他使用影响因子评价论文的原因是“由于新发表的论文没有足够的时间被引用，所以选用影响因子成为替代工具”，并承认用影响因子代替论文的被引次数来评价作者或者作品存在较大争议，因为论文间的引用分布是不平衡的。他认为论文中的确存在一些“超级被引”论文，比如Lowry方法，被引用30万次，E.M.Southern发明的Southern印迹技术，被引3万次。而从1900-2005年被引用的3 800万篇论文中仅有0.5％的论文被引200次以上，大约一半数量的论文从未被引用过[1]。

在众多相关研究文献中，许多学者均指出，盲目地认为高影响因子期刊上发表的论文质量高是不正确的。Seglen在分别统计“J Biol Chem”，“Biochem J”和“Biochem Biophys Acta”三种期刊的被引数据时发现，期刊中15％和50％的论文分别贡献了50％和90％的总被引频次[5-6]。2004年“Nature”中25％的论文贡献了89％的被引率，而其他多数论文根本达不到该刊当年平均32次的被引率[7]。Trevor和David认为，高影响因子期刊上发表的论文比低影响因子期刊上发表的论文水平高这种观点是不成立的，只有少数论文对期刊的影响因子有极大的贡献作用，判断论文的质量要分析论文本身的被引用情况，而不是期刊的影响因子[8]。此外，Garfield，Mestecky还发现，评述类论文和新方法介绍性论文的被引频次一般要高于研究成果类论文[9]，能够广泛引起争议的论文一般也会带来较高的被引次数[10]，新研究领域的论文比成熟领域的论文更能获得较高的被引次数。

1.1.3 影响因子的统计原则产生的问题影响因子的统计原则影响着学术评价的准确性。SCI在进行影响因子统计时，作为分母的“某刊前两年发表的论文总量”仅统计论文和评述类文章，不将简讯、通讯等文章纳入论文总量进行统计。但是当简讯、通讯等类文章被引用后，它们的被引次数却计入分子的统计范围。因此，这部分数据对影响因子的正确性产生了一定的干扰[11]。Moed等人的研究发现，1992年“The Lancet”在剔除通讯类文章的影响后，影响因子下降了43％，而在对1994年SCI收录的化学领域的130种期刊研究后发现，剔除了通讯类文章的影响后，89.2％的期刊影响因子排名发生变化，其中变化幅度超过10％的达到4.6％[11]。因此Trevor等人指出，SCI的编者必须在期刊刊载的各种文章中给出论文的定义，否则会导致期刊科学行为的偏向[8]。在影响因子的统计原则中，除文章类型的相关规定受到学者批评外，引文统计的年限也受到一定的质疑。影响因子所衡量的平均被引次数是期刊前两年的相关数据，但在现实中，部分论文的引证高峰期超过两年。Trevor等学者认为影响因子所选取的两年时限将会对其有效性产生一定的干扰，很多文献的被引用存在延续现象，而影响因子每年的变化也有很大的随机性[8]。Moed在对200种化学期刊影响因子研究中发现，不同期刊在不同年份的影响因子波动较大，两年期的影响因子在不同年份的波动范围超过了20％，而5年期的影响因子则是一条相对平滑的曲线[12]。

1.2 SCI数据库本身的局限

1.2.1 SCI数据处理中的问题 “Nature”曾指出SCI对影响因子的统计存在较大的误差，这一点已经受到了科学界的关注。美国物理学会、《运动科学杂志》、《英国医学杂志》等知名研究机构或期刊也指出SCI在统计期刊影响因子时存在错误。任胜利等人指出，SCI在收录同名但不同语种的期刊时，出现混合统计的现象。1996年《中国科学通报》(CSB)发表的论文在1998年被引用147次，其中有91次错引，52次来自CSB中文版，39次来自CSB英文版，但SCI在统计时却没有考虑版本问题[2]。同时，SCI对于引文中作者姓名的处理也存在着同名作者区分能力差，对于同一作者姓名的不同缩写方式没有较好的处理机制等问题，而对于合著论文，SCI也只统计第一作者。

1.2.2 SCI的收录范围引发的问题目前SCI收录的科技期刊8 000余种，涵盖生命科学、物理学、化学、生物学、临床医学、工程技术等学科，但是全球目前科技期刊数量超过10万种，难免会漏掉一些优秀的期刊和论文。而ISI作为商业机构，其学科偏向性、地区偏向性会导致来源期刊选择上的偏向，最终影响统计结果的准确性。

一些学者认为SCI偏好收录英文文献。Bauin指出这种行为将会导致非英文文献的影响因子降低，因为同语种之间的相互引证行为更加普遍。Bauin在研究中发现，法国植物基因研究方面的论文，15％是用法文发表的，这些文章的平均被引次数为0.58，而另外85％以英文发表的论文，平均被引次数却高达4.33[13]。

1.3 科学引证本身存在的不确定性

在科学交流中，引证活动本身便存在着不确定性，这会极大地影响基于引文分析的学术评价活动。Moed，Seglen，任胜利等学者认为，目前SCI无法在正常的引用行为中识别过度自引、错引、漏引和反引，也无法确定作者引用的目的[2，5，12]，进而影响了学术评价的正确性。

尤其在自引方面，SCI对自引行为很难控制，更难以区分自引的目的。如《世界胃肠病杂志》高达90％的引用来自于自引。1997年，《应用生态学杂志》引用该刊一年前论文达30次，而到了2004年这个数字上升到91次[7]，更有某些期刊依靠自引为其影响因子带来超过90％的贡献度[14]。此外，不同国家学者拥有不同的引用习惯，这也加重了对引用不确定性的影响。Mller指出，美国科学家偏好引用更多的文献并偏好相互引用[15]，而正是由于这种习惯，使Braun等在研究中发现，美国期刊的影响因子水平比世界平均水平高了30％[4]。我国许多学者都谈到，由于引用习惯的问题，国外论文提供的参考文献要远多于中国论文。同时，我国学者对引用期刊著录的不规范、对引文标注的敷衍等不良习惯，都会对引证结果的准确统计和正确处理造成不利影响。

1.4 学科间差异带来的问题

Garfield以及一些我国学者都指出，由于不同学科的引证习惯、期刊数量、学科半衰期、研究人员数量、读者数量以及学科自身特点等不尽相同，也会造成不同学科的影响因子间的较大差异。

比如数学类期刊的引文密度明显低于生物学类期刊，生理学期刊的半衰期比物理学期刊的半衰期长[1]。2001年版JCR中生物化学和分子生物学领域共收录310种期刊，该领域期刊的最高影响因子为43.429，而数学领域的期刊则只有156种，且影响因子最高值仅为2.750[2]。笔者的最新统计也表明，2007年生物化学和分子生物学与数学领域在JCR中收录的期刊数量有所接近，分别达到了263和207种，但是期刊最高影响因子的差距依然明显，分别为31.190和2.739，数学领域内影响因子为1的期刊排名为第26，而生物化学和分子生物学领域中，影响因子为1的期刊排在第231名。

在同一学科内不同研究领域期刊的影响因子存在差异。如Seglen在研究中发现，生物化学类期刊在1984-1987年间的平均影响因子为6.93，而在其各子领域内论文的平均被引频次则相差较大，如钙相关研究为14.06，受体研究为13.57，细菌研究为4.30，而植物研究仅为1.71[6]。因此学科以及研究领域对期刊影响因子造成的干扰是极大的，这是对影响因子学术评价能力的有力质疑。

1.5 SCI收录期刊本身引发的问题

SCI收录的来源期刊本身存在的一些问题，例如出版地域、语种、意识形态、收录成本、用户需求数量、出版规模、出版周期、刊名变化等，都会干扰影响因子的统计。Seglen，Moed等学者认为，期刊的出版规模会对影响因子产生较大干扰。小期刊(年论文总量小于35篇)相邻年份的影响因子波动率大于40％，而年发文量超过150篇的期刊，相同的数字则下降到15％[5，12]。期刊的版面限制，也会牺牲一部分参考文献，而期刊名称的变化，也会导致影响因子统计不准确。

另外，期刊的出版周期对影响因子造成的影响也被广泛关注。一些学者认为出版周期短的期刊更容易获得高影响因子，因为首次公开发表的文章更有可能被引用，特别是那些时效性强、持续时间短的热点研究领域[16]。例如美国临床医学领域83％的论文当年即被美国科学家引用[16]。与国外期刊相比，我国的期刊出版周期则比较长，这对我国期刊影响因子的统计是不利的。

2 对SCI及影响因子学术评价功能的完善

针对SCI作为学术评价工具所存在的问题，不少学者积极探索优化和解决的方法，以完善SCI量化评价功能。此外，无论在理论上还是在实践中，也出现了一些新的评价方法，以消除单独使用SCI方法可能带来的负面影响。

2.1 对SCI量化方法的改进

在SCI量化方法改进方面，不少学者提出在统计时，按学科特性适当采用更长跨度的统计年限、剔除不良自引、负引和论文类型的干扰等理念[13]。

针对影响因子，不少学者提出了修正和优化方法，出现了标准影响因子、历时影响因子、调节影响因子、学科影响因子、作者影响因子、自引影响因子、被引高峰期影响因子、重要性系数、回应因子、综合影响力指数等修正方法[17-18]。而针对不同数据库影响因子不同的问题，有学者提出了指数权重方法。通过权威专家进行调查，运用层次分析法，并借鉴模糊群体决策和相邻指标比较法，确定各级指标集的若干指标。如其确定的被检索系统SCI、中国科学引文数据库(CSCD)和中国科技论文统计分析数据库(CSTPC)收录的权重分别为0.12832，0.10470，0.10451，可作为当前学术评价的重要指标依据[3]。为解决国际期刊、论文与国内期刊、论文之间存在的不可比性以及学科之间期刊、论文的不可比性，金碧辉等人提出了期刊影响因子等级区域赋分方法，何钦成等人还针对其在评价实践中的问题进行了分析和改进[19-20]。此外，在实际操作中，SCI已经研发了更为精确的统计方法，例如“期刊绩效显示器”在统计时，就在一定程度上排除了非实质性引用带来的影响[1]。我国的中文社会科学引文索引(CSSCI)吸取SCI统计论文类型方面的教训，规定凡超过一页的文章都纳入到论文总量统计范围[21]。

2.2 学术评价新方法的运用

一些学者和机构目前也尝试着运用新方法进行学术评价，并希望成为SCI的替代物。如Hiesch提出的h指数，Egghe的g指数，金碧辉的A指数和R指数，Kosmulski的h(2)指数，N.Sombatsompop的影响因子分数平均值，郭丽芳等人采用归一法建立的总被引次数指标占40％，影响因子指标和他引次数指标各占30％的评估体系[22]，以及Thomson Reuters科技集团2009年推出特征因子和论文影响指标等，都是寻找解决SCI问题的积极尝试。以下是已经用于评价实践的新方法或新指标。

2.2.1 影响因子分数平均值由于不同学科不同领域发展速度和成熟度不同，各自所拥有的期刊数量也千差万别，导致不同学科同级别期刊的影响因子差别很大。为此，泰国学者N.Sombatsompop提出了影响因子分数平均值(Impact Factor Point Average，IFPA)，试图通过数学方法，消除不同学科以及期刊数量的影响，来评价不同学科领域的研究工作。IFPA将某学科的平均影响因子、某种期刊的影响因子、该刊在该学科内期刊影响因子的排序(从大到小)、该学科期刊的总数、评价对象在该刊上发表论文的数量等指标纳入其计算公式中，消除了学科及相应期刊数量(基数)的差异。天津工业大学利用影响因子分数平均值等指标对本校产出的科研成果实施了评价，收到了比较满意的结果[23]。

2.2.2 h指数 2005年，美国物理学家Hirsch提出了h指数(h-index)用以评价科学家个人的学术成就。该指数创造性地将科学家学术论文的产出量(论文数)和质量(引文数)结合为一个单一指标，非常便于计算和比较。Hirsch定义的h指数为：当且仅当一个科学家有h篇引文数至少为h的论文，同时其余论文的引文数都小于h时，该科学家h指数的值为h。Rousseau在Hirsch基础上提出了h指数更精确的定义：将科学家S发表的论文按照引文数从高到低的顺序排列，相同引文数的论文具有不同的序列号，当且仅当前h篇论文每篇论文的引文数至少为h，同时第h+l篇论文的引文数小于h+1时，则科学家S的h指数值为h。目前Scopus数据库已经提供h指数计算服务[24]。

2.2.3 特征因子和论文影响力指标特征因子(Eigenfactor)和论文影响(Article Influence)指标是美国华盛顿大学C，T.Bergstorm等学者受搜索引擎Google的PageRauk思想的启发而提出的，2009年1月起已经应用于Thomson Reuters科技集团推出的《期刊引用报告》中。

特征因子值(Eigenfactor Score)测度过去5年中期刊发表的论文在JCR统计年的被引用情况。如同期刊影响因子，特征因子值也是引证次数与论文总数的比值。然而，特征因子与影响因子不同之处在于：①期刊的引证范围包括自然科学和社会科学；②排除了期刊自引；③基于5年的引用数据；④基于研究者阅读期刊时间的随机测度来衡量每篇文献；⑤该指标注重的是期刊本身的整体影响力，而不是基于已经出版的期刊论文来评测期刊的影响力[25]。

论文影响值(Article Influence Score)则基于每篇论文来测度期刊的相对重要性。其计算方式为：特征因子值除以期刊所发表的论文标准化比值(所有期刊的论文总数为1)。论文影响分值的平均值为1.00，大于1.00表明期刊中每篇论文的影响力高于平均影响力[25]。一些学者认为这些指标更能客观地反映期刊的学术影响力。

2.3 综合性指标的利用

许多学者和机构认为，综合性指标体系的建立与应用，能够更好地消除单一影响因子指标评价带来的局限性，同时能够大幅度地提高评价的准确性。对此，经过深入研究后，中国科技信息研究所推出了科技期刊评价指标体系，旨在鼓励人们使用更为综合的评价指标实施期刊评价。该指标体系包括总被引频次、影响因子、即年指标、他引率、引用刊数、扩散因子、学科扩散指标、学科影响指标、被引半衰期、来源文献量、文献选出率、参考文献量、平均引文数、平均作者数、地区分布数、机构分布数、海外论文比、基金论文比、引用半衰期等19个指标[26]。

在2007年开展的中国精品科技期刊、中国百种杰出学术期刊的评选中，也采用了更为综合的定量评价模式。其中国际化精品科技期刊的评价指标包括：影响因子、总被引频次、即年指标、他引比、国际论文比，同时用学科排位和发表论文数作为调整因素。中国精品科技期刊的定量指标包括：影响因子、总被引频次、即年指标、基金论文比、他引总引比、进步指标、文章下载率、平均引文率、学科影响、国际论文比、国际编委比、国外发行量等；同时还引入了一个负面指标——自引率，达到一定自引高线的则给予否决[27]。

3 结束语

大量的研究证明，SCI引领的学术量化评价方法，为我国乃至世界的学术评价活动带来了巨大的变化，改变了单纯定性评价的模式，为学术评价提供了相对客观的数据基础，解决了定性评价主观性、成本高等问题。但是，SCI作为学术评价工具本身还存在着一些局限性，针对这些局限而引发的指标修正研究正在轰轰烈烈地展开，并产生了一些新的指标和方法。一些学者认为，短时间内各国的学术评价活动仍无法完全脱离SCI。正如有些学者所言，影响因子不是评价期刊、论文质量的完美工具，但目前还没有更好的工具。

信息技术的快速发展为SCI评价功能的提升带来了挑战和机遇。加强SCI在网络环境下的考量，充分发挥和利用网络链接功能对SCI定量评价的提升作用，加大SCI定量评价与其他定量评价方法的综合运用，将会是学术评价领域必须面对和解决的问题。

标签：影响因子论文; sci论文; 论文发表论文; 论文;

SCI定量评价函数的局限性及修正_影响因子论文

猜你喜欢