引文分析中应注意的几个问题_文献分析法论文

引文分析中应注意的几个问题_文献分析法论文

引文分析中值得注意的几个问题,本文主要内容关键词为:引文论文,几个问题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引文分析作为一项文献调查方法始于本世纪20年代中叶,到1964年,随着《科学引文索引》(SCI)的出现, 引文分析的方法才引起人们广泛的注意。在我国,引文分析的应用和研究,虽然起步较晚,但发展势头甚好,一些刊物独具慧眼,开辟专栏、培植作者,功不可没。近两年推出的《中国科学引文索引》(CSCI)印刷版和光盘版,可提供进行多角度引文分析的数据资源,这是引文分析研究和应用进展的一个里程碑,是我国引文分析队伍掌握引文分析方法日渐成熟的一个标志。

尽管《中国科学引文索引》能提供大量引文数据,但由于《中国科学引文索引》收录的源期刊仅300种,某些学科的期刊要作引文分析, 仍然要依靠手工统计数据。因此,依据手工统计的数据进行引文分析的文章目前并不鲜见,并逐渐形成一种程序化的固定模式。然而有些文章对引文分析方法的某些细节未引起注意,以致出现疏漏和谬误,影响引文分析结论的准确性。

1 关于最大引文年限的确定

D.普赖斯曾经提出最大引文年限问题, 并指出“文章被引用的峰值是该文章发表以后的第二年”,这是一个带有普遍意义的结论,可得到大量引文数据的支持和验证。值得注意的是最大引文年限问题的被引文献的时间是容易确定的,而引用文献的引用时间却并非唾手可得。有一个不甚精辟的说法,如有的文献计量学著作认为以引用文献发表的时间作为论文作者引用行为终止的时间,把“文章被引用的峰值是该文章发表以后的第2年”的说法,等同于“当年发表的文献, 所用的被引文献大量来自前二年的”,这种把引用文献的引用行为的终止时间简单地确定在引用文献的发表时间的说法,显然是不确切的。

论文发表时滞是客观存在的。由于期刊的单期容量(页码)、每年的期数、每年的来稿量及审稿制度等的不同,都会引起各期刊论文发表时滞的不同。那么,显而易见,引用文献的发表时间不但不能客观地反映论文作者引用行为终止的时间,而且对不同期刊所统计的引用数据也失去了可比性(相对于最大引文年限问题)。不可比数据之间的比较分析是毫无意义的,从中又怎能得出具有规律性的结论呢?因而,笔者认为,虽然引用行为伴随着作者著述的整个过程,但为便于数据收集,又不失客观性,引用文献的引用行为的终止时间可确定为引用文献发表的年度数与发表引文的期刊当年的论文发表时滞的平均数(以年为单位)的差。

如有的文献[1]关于最大引文年限问题的数据统计, 其结果原本可支持D.普赖斯的结论,但由于引文引用行为终止时间确定为引文的发表时间,致使结论与D.普赖斯的结论失之交臂。文献[1] 谈到:“在本文研究对象中,1995年引用1992年的文献与其它年份相比,引用数量最高;1994年引用1991年的文献数量最高;……;1990年引用1986年文献数量最高,除1990年以外,其余均在第二年达到峰值”。不知这些结论是如何得出的,但可以肯定,作者没有考虑论文的发表时滞,否则就不必“除1990年以外”了。事实上,根据该文献的论文发表时滞的统计数据与上一段表述构成表1,不难看出, “文章被引用的峰值是该文章发表后的第2年”。

表1

引文发表年份 1995

1994

1993

1992

1991

1990

该刊该年度论文

发表的平均时滞1.13

1.09

1.14

1.05

1.55

1.98

被引文数量

最高的年份1992

1991

1990

1989

1988

1986

需要说明的是,被引文和引文的出版时间都是以自然年统计的,而不是以引文的出版时间扣除年平均发表时滞后所对应的时间统计的,因而出现半年误差是可以理解的。如表1中1991 年引用文献的出版时间扣除该刊该年度论文平均发表时滞, 即引用行为的终止时间“确定”为1989年的年中,那么,引用1988年上半年发表的文献,正是这些文献处于发表后的第2年。

2 关于确定文献半衰期的数据统计

通常确定文献半衰期的方法有两种:一是利用Butron-Kebler 老化方程的B.M.Mотылев修正式;二是采用引用文献分析法, 或称为同时法(synchronous method)。无论采用第一种方法,还是第二种方法,都需要进行被引文数量及其按年度分布的统计。前者只要统计10年累积的被引文相对比率,由于10年是一个时间长短的概念,而非年度的概念,因而不易产生误解,后者却容易产生误解。所谓“引用文献分析法”,是指“首先收集、给定某一时间间隔内某专业文献后面的全部被引文献(即参考文献),然后再按照被引文献出版年代对其数量分布进行分析的方法”[2]。如果给定某一时间间隔仅是一个年度, 那么按部就班地统计各年度的被引文数据,就可顺利地得出文献的半衰期。根据一年内文献末所附的参考文献的数据来确定文献的半衰期,从统计的角度看,结论的可靠性是不高的。因而通常采用2年及2年以上的数据。现在的问题在于,如果采用2年及2年以上的文献末所附的参考文献的数据作为统计对象,那么如何“按照被引文献出版年代对其数量分布进行分析”呢?一般的做法是,先以各年度文献末所附的参考文献作为统计对象,分别统计其按年度分布的数据,然后以被引文发表年份与引文发表年份的时间间隔(以年为单位)为基准,对上述被引文数据进行归并,计算间隔1年、2年、……、累积被引文献数量占全部被引文献数量的百分比,从而确定出文献的半衰期[3]。

对于采用2年及2年以上的文献末所附参考文献的数据来确定文献的半衰期,由于受到“年度”概念的困扰,容易产生两个错误。其一,不管引文发表的年份是否一致,被引文统统按公元年度统计,而后回溯计算各年度累积被引文数量占全部被引文的数量的百分比,从而确定文献的半衰期。这种错误虽未直接见诸文献,但在引文分析的文章中,文献半衰期常常作为引文年代统计的附产物。在此统计背景下,得出文献的半衰期不能不引起担心,只是一般引文分析的论文中,引文年代统计的原始数据常常不附在文中,无法验证罢了。其二,虽分别统计按年度分布的数据,但不以上述的时间间隔为基准进行数据归并,而直接按引文发表的年份确定文献的半衰期,而后再将各年份得出的文献半衰期进行算术平均[4]。如此既不考虑各个年度被引文数量的差异, 又不考虑各个年度引文末的被引文累积数量达到50%时其各年的分布不同,方法的缺陷是明显的。

3 关于洛特卡定律应用

有些引文分析的文章也注意到论文作者的著述情况,如合著现象的统计分析,著者科学生产率的统计分析等,因而这些文章不可避免地涉及到洛特卡定律。

洛特卡定律是一个经验性的定律,大量国内外的著者科学生产率数据不支持它的平方反比律,而支持广义洛特卡定律,即参数n不囿于2的洛特卡定律[4~8]。

广义洛特卡定律普适性研究的最大障碍是其参数n、c的确定,传统的回归分析确定参数n、c的方法已出现了多组数据的误判[9~11], 即完全符合广义洛特卡分布的一组数据,用传统的回归分析的方法求出的参数n、c所确定的洛特卡分布,不能通过K—S检验。从表面上看,传统的回归分析法对广义洛特卡定律研究所造成的损害,似乎仅仅局限在数据的误判上,事实上它给广义洛特卡定律的普适性笼罩了烟雾,使人们对广义洛特卡定律产生失望之后又陷于迷茫。既然数据的误判说明广义洛特卡定律也不“适用于”某些学科,那么,洛特卡的平方反比律这种简洁的表达式自然而然成为人们的选择。明知手头上著者科学生产率的数据与平方反比律相去甚远,不去考虑数据是否符合广义洛特卡定律分布,反而去探究时过境迁著者科学生产率数据不符合平方反比律的缘由[12],这也许就是传统的回归分析法造成数据误判的明证。

非回归分析的广义洛特卡定律参数n、c的确定法,或称之为直接法、搜寻逼近法,清除了广义洛特卡定律普适性研究的最大障碍。它摒弃了最小二乘法拟合的优化标准,建立了与K—S检验相一致的丨ε:丨最大最小化的优化标准,在严格数学证明的基础上,提出了一套应用计算机直接拟合的方法[13~15]。

文献[12]提供的著者科学生产率数据完全符合n=3.03 、 c =0.8360的广义洛特卡分布,最大的理论值与实际值偏差为0.0091, 大大小于0.01 显著水平下理论值与实际值偏差的最大允许值(临界值)0.0519。

引文分析法是图书馆学、情报学区别于其它学科的独特研究方法之一,它貌似简单,其实蕴含着丰富细腻而复杂的内容,虽然引文分析法在图书情报界已十分普及,但准确地理解与应用它还需作出一番努力。

标签:;  ;  

引文分析中应注意的几个问题_文献分析法论文
下载Doc文档

猜你喜欢