我国三种引文检索工具的比较_万方数据库论文

我国三种引文检索工具的比较_万方数据库论文

国内三种引文检索工具的比较,本文主要内容关键词为:引文论文,三种论文,工具论文,国内论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1996年5 月中科院文献信息中心编辑的《中国科学引文索引》印刷版面世,不久推出光盘版。同年中信所信息分析研究中心和万方数据公司合作出版《中国科技论文与引文数据库》光盘。1997年1 月由清华大学光盘国家工程研究中心制作、清华大学出版社出版的《中国学术期刊(光盘版)》和读者见面,它是大规模的期刊全文数据库,引文检索是其功能之一。

国内3种引文检索工具在数据库内容、 检索性能方面都存在着很大的差异,各有优势,也各有不足。本文从来源期刊、覆盖学科、收录年限、更新频率、检索性能等各个方面进行比较,并对国内引文数据库的生产提出了一些建议。为了行文方便,《中国科学引文数据库》等三库简称为科学院库、万方库和清华库。

1 数据库内容比较

1.1 来源期刊及覆盖学科

清华库目前收录3 500种国内期刊,学科覆盖面包括自然科学、 工程技术、农业、医药卫生、文史哲、经济、政治、法律、教育、社会科学等各个学科。万方库收录1 250种左右的国内期刊, 覆盖了自然科学、工程技术、农业、医药卫生等学科。 科学院库目前收录国内出版的582种中英文期刊,内容包括自然科学类,生、农、医类, 工程技术类3大类,偏重于自然科学类。

作为引文检索工具应该有丰富的统计源,如果来源刊物过少,小专业只有一种核心刊物入选,那么编入数据库的引文款目只能是该刊物上论文的参考文献,用户只能查找到这个期刊引文的情况,不能得到被引的数据。从这一点上看,清华库具有明显的优势。从涉及学科来讲,清华库覆盖面最全,特别是社会科学和人文科学独一无二,为这些学科的研究人员提供了科学计量的工具,有极其可贵的价值。

1.2 收录年限及数据量

1997年科学院库光盘收录了1989年至1996年共28万篇论文,85万条中文引文数据。1998年万方库光盘收录了1994—1996年3 年的引文数据,共31万条。清华库收录3 500种期刊,1997 年第一期至今的所有论文全文,包括全部引文款目,粗略估计论文数在100万篇左右, 引文数据在500万条以上。

从年限跨度看,科学院库有近十年的数据,对引文分析工作很有利,我们知道,通过引文分析揭示科学发展过程,预测科学技术的发展动向需要多年的累积数据。另外,论文一般在其发表两年后才进入被引高峰,所以,统计作者或期刊的被引量,需要多年份的数据,清华库虽然年份最少,但由于学科齐全,数据量最大,这在统计不同学科之间的互引量,交叉学科的内部联系方面有优势。例如,医学图像处理领域的引文就横跨计算机和医学两大学科。

1.3 更新频率

清华库是和印刷型期刊同步的电子全文数据库,除了文史哲专辑是两月一期外,其余7个专辑均为每月一期,基本上是月更新频率。 科学院库每年更新一次,万方库也是每年更新一次,但由于其上市时间受制于中信所每年发布论文统计分析公报的时间[1],所以, 数据年份和出版年份相差两年,时效性较差。

2 检索性能比较

2.1 数据库结构和检索入口

数据库的编排结构对检索性能有重要的影响,万方库的引文记录由15个字段构成,包括:记录号、被引作者、被引题名、被引刊名、被引期刊年卷期、被引论文所在页、被引作者所在单位、被引作得所在地区、被引论文学科分类、被引作者机构类型、被引论文基金类型、引用题名、引用作者、引用刊名、引用年卷期、科学院库的全记录格式由4 个字段构成,顺序如下:来源文献题名、来源著者、文献出处、被引文献。引文记录由5个字段构成,顺序如下:被引文献、来源文献、 来源著者、文献题名、文献出处。清华库的记录是保持原貌的一次文献,其引文是未经加工的原始形式。

从数据库结构来看,万方库编排最为科学,对被引论文的特征进行了详尽的标引,这项工作需要从原始的引文条目找到对应的原文,从原文中提取各项数据。万方库可以从被引作者姓名、所在单位、单位类型、所在地区、被引刊名、被引论文学科分类、被引论文基金类型、被引题名、引用作者等9个字段进行检索,因此, 它可以提供多种类型的统计数据,使引文分析法真正在科研管理、科学交流、人才评估、期刊评估方面发挥作用。科学院库检索入口有7个,其中来源著者、著者机构、来源期刊、文献题名4个检索点主要检索发文量, 关键词用来检索相关文献,被引著者、被引书刊这两个入口用来检索被引数据,因此只能得到著者被引和刊物被引两项数据,功能稍逊一筹。清华库可以从被引著者姓名、被引刊名、被引论文题名3个入口进行检索, 只能获得著者被引、刊物被引、论文被引3项数据。

2.2 检索方式

万方库有两种检索模式,一是自由词检索,由检索者输入关键词,词与词可进行逻辑运算,这种检索方式比较灵活,但查准率不高;二是字段检索,检索者首先选择检索字段,通过查阅词表选词,这种方式查准率高。清华库是大型全文检索系统,实现了单汉字标引,引文是全文检索系统中的一个字段,选择引文检索方式,随意输入检索词或字,系统就可找到匹配记录,单汉字检索模式查全率高。科学院库也是字段检索模式,输入检索词时可做右截断处理(前方一致匹配),检索性能较好。从检索方式上比较,清华库的单汉字检索模式性能最好。

3 其它方面的比较

万方库每年都提供几十种附表,公布我国科技论文的统计分析结果,如各地区、各学科、各主要高校、各科研机构发表论文的数量、被著名检索工具收录的数量、高产作者排序表等,这些数据对科研管理部门具有重要参考价值。

科学院库也附有多种专题资料,如来源期刊选刊方法、来源期刊目录、中国核心期刊一览表、被引频次最高的中国科技期刊500 名排行表等,这些专题资料在期刊评价方面有重要意义。

清华库没有这方面的功能。

4 建议

4.1 开发专门的引文数据库

通过以上比较可以看出,清华库主要目的是提供电子化一次文献,引文检索只是其辅助功能,由于年度积累90张光盘,对于跨年度、跨学科的引文检索确实带来许多不便,需要一个专门进行引文检索的数据库。科学院库有3个并行的检索功能,在发文量检索、文献检索、 被引检索方面,综合性虽强但削弱了引文检索功能。万方库是比较专门的引文数据库,但其前身也是论文和引文的双重数据库,至今论文与引文合为一库。近年来,被引检索的业务量有很大增长,应该开发一个专门性的引文数据库。

4.2 联合开发一个权威性数据库

早在万方库和科学院库出版之前,就有学者建议协调国内研究力量,使中信所“中国科技论文与分析”课题组和科学院“中国科学引文数据库”课题组合作,集中双方优势,建成综合性、权威性数据库[2]。 现在看来,这个建议很有必要。

4.3 开发学科齐全、多年度的引文数据库

美国费城科学情报研究所在60年代出版《科学引文索引》之后,于70年代相继出版《社会科学引文索引》、《艺术与人文科学引文索引》。为了增加数据累积量,还进行了大规模的回溯建库工作,《科学引文索引》的收录年限上溯至1945年,《社会科学引文索引》上溯至1956年。目前,SCI光盘每月更新一回,这是国际上最快的更新频率。 费城科学情报研究所开发引文数据库的策略值得我们学习,国内引文数据库也应该在多学科、多年度、更新频率快3个方面有所进步。

4.4 进一步改善引文数据库的检索性能

从数据库结构比较,万方库的字段设置最详尽,检索性能最好,中国引文数据库的数据结构应以万方库为标准。为了提高查全率,应该向单汉字标引发展,向自然语言检索过渡,检索软件的界面应该更为友好。

标签:;  ;  ;  ;  

我国三种引文检索工具的比较_万方数据库论文
下载Doc文档

猜你喜欢