美国三大检索系统在检索咨询过程中的误差分析_三大检索论文

美国三大检索系统在检索咨询过程中的误差分析_三大检索论文

美国三大检索系统在检索咨询过程中的误差分析,本文主要内容关键词为:三大论文,美国论文,误差论文,过程中论文,检索系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕G354

近年来,随着我国科学技术的迅猛发展,我国科技人员在国内、国际上发表的论文无论在数量上还是在质量上都有所增加与提高,越来越受到国际学术界的重视与承认。同时,国家科委综合计划司立项委托中国科技信息研究所,从1988年对我国科技人员在国内外发表论文被检索系统收录及被引用情况做统计和分析,并作出年度统计分析报告。在报告中,以科技论文被美国三大检索系统即《工程索引》(EI)、《科学引文索引》(SCI)、《科技会议录索引》(ISTP )(以下简称美国三大检索系统)收录和引文的数量来对地区、大学、研究所等进行排序,并以此来评价我国大专院校及科研院所的科研实力,分析我国的学科重点、学术带头人等情况。随着此项工作的开展和不断深入,这种评价方法已被我国有关部门及广大科研人员所接受,逐渐成为我国评估工作中诸如对进入211工程的高等院校的评估与验收、 国家重点实验室的评估、高校硕士点及博士点的评估、专业技术职称评定等项工作的一项重要指标,广泛地受到学术界的重视,使科技人员和科研单位对学术论文被检索系统收录情况的检索成为一大情报需求。

一篇论文或一项科研成果被美国三大检索系统收录与被他人引用的情况,往往表明了该论文或成果的先进性、创造性,这不仅是评价科技人员学术水平的一项衡量标准,也是评价学术期刊的一项重要指标。越来越多的科技人员重视论文的收录与引用情况,同时研究检索系统及其选刊,以各种方式提供有关科技论文被检索系统收录情况的检索咨询服务也引起了情报人员的重视。我们在长期的检索咨询及对科技论文的统计工作中发现,在实施检索和提供文献检索证明的工作中,存在着系统误差和偶然误差。为了保证我国科学评估工作的公正性和严肃性,此项工作亟待规范。在实施检索过程中,造成检索结果误差的影响因素如下:

1 检索范围不一致

在实施检索过程中,所选用的检索工具分别是印刷型文本、光盘数据库及联机数据库。其中,光盘数据库、印刷型文本、联机数据库的数据范围有时是不一样的。以美国《工程索引》(Ei)为例。Ei数据库可在世界许多公共计算机系统如KR

Dialog (USA

&

UK )、 STNInternational(Scientific and Technical Information Network )(USA、Germany & Japan)、Questel—Orbit(USA)、KR Data—Star(USA & UK )、 FIZ Technik (Germany )进行联机检索, 或通过INTERNET网络检索Engineering Information Village中的Ei Village,可快速检索到所需的相关文献。Ei数据库的光盘制品(据1996年统计)有以下几种,即:

·COMPENDEX Plus;

·Ei Page One;

·Ei Tech Index;

Ei工程专业光盘有如下领域:

·Advanced Materials;

·Ei ChemDiss;

·Ei CivilDisc;

·Ei EEDisc;

·Ei Energy and Envirenment;

·Ei Manufacturing;

·Ei MechDisc;

·Ei Contenidos de Ingeneria;

·Engineering Conferences & Reports.

其中,Ei COMPENDEX Plus 是印刷型文本的机读版本。可以看出,联机检索系统中的数据多于某一光盘数据库或印刷型文本中的数据,在检索时如果选用的联机数据库、光盘数据库或印刷型文本中的数据范围不一致,就造成了检索范围的不一致。同样,在对美国《科学引文索引》(SCI )的检索过程中也存在类似的问题。 SCI 的联机数据库(SCI Search)中的数据是对其所收录的外围期刊即5220 种期刊中的论文所作的来源索引及引文索引,而光盘数据库(SCI CDE )则来源于对这5220种外围期刊中的内核期刊,即3300种刊物中刊登的论文所作的来源索引及引文索引,两个数据库在收刊上相差1920种之多,其数据的范围也是不一致的,也就是说,某些学科或其他数据在其联机数据库( SCI Search Online)中可以查到相应的数据, 但在其光盘数据库( SCI CDE)即印刷型文本的机读版本中则有可能检索结果为零。在对以上数据实施检索时,常因检索范围不一致,造成检索结果的误差。既然美国三大检索系统中,联机数据库、光盘数据库及印刷型文本之间有着不同的数据范围,那么论文被每个数据库收录的难度是不一样的。例如,曾有读者询问,刊登其论文的期刊被美国《工程索引》中的“ Ei PageOne”收录,是否可以证明其论文被Ei收录。“Ei Page One”即《世界工程文献目录》( tables of contens of world literature inengineering),它收录的工程文献非常宽泛,而Ei Compendex 中的数据只来源于2400种期刊(Ei 1996年)中的论文,且为有选择地收录。仅被Ei这两个数据库收录的难度是不一样的。根据中国信息研究所的统计范围,建议应以印刷型文本或与之相对应的数据库来进行检索,这样建议是充分考虑了情报部门的信息资源及论文入选检索系统的难易程度这两个因素。

2 著者单位不详或不准确会产生论文归属的误差

在论文写作与编辑过程中,如果在原文中未写明著者单位,则该论文被检索系统收录时会在记录中缺少 字段,情报人员无法在该字段中检索出相应的记录,造成漏检。若根据其他检索字段检索出文献的话,常由于检索出的记录中著者单位不详,无法确定这些记录尤其是重名著者的文献记录对单位或个人的论文归属问题。例如,在著者单位字段以“国家重点实验室(National Key Lab,China )”进行检索时,会检索出许多文献。对这些文献很难确定其论文归属,也是造成漏检的原因之一,如:把SHENYANG(沈阳)写成SHENGYANG、SHENYANG 等,把LIAONING(辽宁)写成LIAORING等情况,造成了检索、统计数字的不完整,影响了评估的质量。我国的科技期刊有4000多种,是科技交流的重要媒介,提高刊物的编辑水平,加强规范化是当务之急。科研人员在论文写作时亦要按照标准格式将论文的内部特征及外部特征准确、完整地表达出来,并提高论文的科技含量,使我国科技出版事业尽快与国际接轨。同时,亦可减少在实施检索过程中的误差。

3 检索手段及检索技能亦会影响检索结果

检索手段分为手工检索、光盘检索和联机检索。手工检索在实施检索过程中,工作量大,速度慢,并受到检索工具书编排体例的限制。例如,美国《工程索引》印刷版没有 检索入口,在以一个学术团体为检索字段进行检索时,往往只能以团体著者中的单个著者来检索,这样在对一些出现重名机率比较大的著者进行检索时,困难大,效率低。如以“王英”为著者名实施检索时,在美国《工程索引》年刊中每一年平均有80~100篇左右的论文,每一篇论文都需要先查找文摘, 再根据文摘中提供的著者单位来确定论文的归属,如果非第一著者,则无法确定论文的归属。在美国《科学引文索引》的《引文索引》(CITATION INDEX)分册中检索出的文献则需要参照原文来确定被引论文的归属问题,相当繁琐。联机检索方便快捷,但费用较高,检索人员往往为了节省时间而快速脱机,如果检索式、检索词不完善都会造成一定程度的漏检。光盘检索集手工检索和联机检索之优势为一体,可实现快速准确地查找。在使用同样的检索工具时,检索技能的高低也是影响检索结果的一个重要因素。检索技能往往表现在关键词的选取及检索式的编写,不同的检索人员有可能做出不同的检索结论。例如,在《科技会议录索引》(ISTP)中, 以“东北大学”为检索入口进行检索时,其论文多集中于“SHENYANG”字段下,常用的写法是“

NORTHEASTERN UNIVSHENYANG,CHINA”,但也有部分论文出现在“LIAONING”字段下,这些论文是以“NORTHEASTERN UNIV,LIAONING,CHINA”标注著者单位的。在选择检索入口时,如果不能充分考虑到可能出现造成漏检的因素,则会产生一定的误差。以下是我们检索出的数据(数据1 )与中国信息研究所提供的数据(数据2)进行的一组比较。以表A中的SCI 项的两组数据为例,数据2中的SCI数据是中国信息科学研究所通过国际联机, 检索SCISEARCH数据库获取的数据,数据1是我们通过检索SCI 印刷本的《来源索引》(SOURSE INDEX)分册获取的数据,而SCI SEARCH的数据源(包括5220种期刊)大于SCI印刷本的数据源(包括3300 种期刊)。通过两组数据的比较可以看出,如果检索及统计数据不全面,则会造成评估工作的失准。

(见表A)

表A

单位\时间19931994

三大检索系统

EI SCI ISTP

EI SCI ISTP

大连理工大学(数据1)85 60

27 96 57

29

大连理工大学(数据1)64 55

26 79 40

28

东北大学(数据1)83 57

53 82 49

44

东北大学(数据2)79 36

53 66 30

45

单位\时间1995

三大检索系统

EI

SCI ISTP

大连理工大学(数据1)54

54

55

大连理工大学(数据1)145 32

49

东北大学(数据1)91

57

58

东北大学(数据2)70

39

58

注:1.数据2中的EI系列已将与ISTP系列中重复的数据去重。

2.在大连理工大学的两组数据中,1995年Ei数据出现了很大差别,我们通过COMPENDEX Plus光盘进行检索时,在“AUTHOR AFFLIATION ”检索字段采用“DALIAN*TECHNOLOGY*UNIV”检索式及分别以“DALIAN、LIAONING”为检索词实施检索,用排除法共检索出了54篇文献,与中国科技信息研究所提供的145篇文献有出入。

4 检索系统对原始数据录入的误差导致检索结果的误差

例如,中国的复姓“鲜于”、“诸葛”等,在译成英语录入检索系统时,极易被拆开。在对著者名为“鲜于泽”进行检索时,发现检索系统中常出现这样的拼写:Xian Yuze,这是由于外国人对中国的复姓不了解的缘故。另一原因是数据录入人员粗心所致,如在检索系统中存在的漏词、错词都会造成漏检和误检。 笔者用COMPENDEXPtus 以“SHENYANG”作为检索入口时,在检索结果中竟发现了两篇“北京理工大学”的论文。一般来讲,著名的检索刊物存在这种误检的机率是很低的。

5 文献检索证明中格式及用词不规范,有失此项工作的严谨性

完成检索之后,在为用户撰写文献检索证明时,用词及格式有待于规范化。基于检索手段和检索范围的不一致,有必要在文献检索证明中指出通过什么手段对什么系统的哪种数据库进行了检索,这一点很重要。以美国《科学引文索引》(SCI)为例, 以了解文献被收录和引用情况为检索目的进行检索时,在SCI中常用的两部分, 即《来源索引》及《引文索引》, 在下结论时必须注明某篇论文是被其《来源索引》(SOURCE INDEX)收录还是被《引文索引》(CITASTION INDEX) 收录,这是两个不同性质的问题。如果某一论文被《来源索引》收录,说明这一论文是作为美国《科学引文索引》(SCI)的来源期刊中的论文, 即被检索刊物收录的情况;如果该论文被《引文索引》收录,则表明此论文被他人引用的情况,有时论文被引用的情况更被人们所重视。在出具文献检索证明时,特别需要说明论文被哪一种检索刊物收录,或被谁引用,刊登于哪种期刊之哪篇论文引用,引用次数。在下结论时,如果笼统地说某文章被美国《工程索引》收录, 或通过检索, 证明某论文被SCI 收录或被引用等,对检索范围、检索手段不加以详细说明的文献检索证明,是不严谨的。我们曾见到过类似这样的结论,如:通过联机检索,某文章被美国SCI引用;或通过光盘检索发现, 某文章被美国《工程索引》收录等,这样的结论未免显得太粗糙了,无法进行考证和查验,有失此项工作的严肃性。

随着国家对此项工作的重视,有关此项内容的情报需求及检索咨询会越来越多,这项工作具有相当的广泛性。鉴于存在以上的误差及对评估工作的影响,有关部门应引起相当的重视,并将此项工作规范化。

来稿时间:1998—03—18。编发者:高贤。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

美国三大检索系统在检索咨询过程中的误差分析_三大检索论文
下载Doc文档

猜你喜欢