中外信息资源数字化比较研究_全文数据库论文

中外信息资源数字化比较研究_全文数据库论文

中外信息资源数字化比较研究,本文主要内容关键词为:信息资源论文,中外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

所谓文献资源数字化,是指把原先用纸张形式存贮的文献信息转化为用计算机存贮设备中的电、磁、光电信号存贮的信息,并实现对形式转换后的信息的计算机管理、网络传输和数字化存取。现代信息技术的发展掀起了一场全球信息数字化革命,这场革命不仅涉及用于检索的二次文献资源的数字化,还涉及直接报道知识的一次文献全文信息资源的数字化;不仅涉及文字信息的数字化,还涉及声音、图像等媒体信息的数字化;不仅涉及科技信息的数字化,还涉及人文信息的数字化;信息资源数字化不仅是现有图书馆馆藏形式的一种转换,它还涉及信息管理、信息服务和信息保存等一系列的变化。关于信息资源数字化的开发研究中外都取得了一定的成果,本文就数据库建设成果谈几点看法。

1 全文数据库的建设

首先全文数据库并非要求数据库的每条记录都是全文,通常全文记录的比例达到50%既可称为全文数据库,而全文记录的比例达到65%以上的可以算是比较好的全文数据库了,当然也有全部记录都是全文的全文数据库。全文数据库建设的目标之一是提供超时空的一次文献服务。

(1)基于互联网的全文数据库。近两年来,基于互联网的全文数据库的建设成为国外数据库开发的热点。基于互联网开发的全文数据库具有面向最终用户的网络检索系统、可浏览文献中的表格、图表、图像、多种输出方式等特点。目前,国外比较著名的全文数据库检索系统有美国UMI公司的ProQuest系统(收录期刊2345种,全文期刊1533种),美国EBSCO公司的EBSCOhost系统(收录期刊2668种,全文期刊1240种),美国IAC公司的InfoTrac系统,美国LEXIS-NEXIS公司的LEXIS-NEXIS系统(收录期刊5200种,90%以上的是全文或部分全文),美国West Group公司的WestIaw系统和美国OCLC公司的FirstSearch系统。这些全文数据库基本具有完善的检索功能,如全文检索功能和利用全文限制进行的二次检索的功能,可进行自然语言检索;友好的用户界面,齐全的帮助功能;全文文献输出有文本格式、HTML格式、或PDF格式供选择;输出方式可以是打印、存盘或E-mail发送。

我国目前为止开发的具有一定规模的全文数据库仅有《中国期刊网(www.cnki.net)》的专题全文数据库,它是中国知识基础设施重要工程(CNKI)之一,由清华大学中国学术期刊(光盘版)电子杂志社研制,1999年6月开通运行。2000年8月的统计数字显示中国期刊全文数据库入编期刊已达5000种,分理工A、理工B、理工C、农业、医药卫生、文史哲、经济政治与法律、教育与社会科学、电子技术与信息科学9个范畴126个专题。《中国期刊网(www.cnki.net)》专题全文数据库是我国第一部,也是当今世界最大的集成化全文电子期刊。提供全文检索功能,题录免费检索,摘要和全文库的付费浏览。浏览全文要用本数据库开发的特定软件CAJVIEWER,全文输出格式是CAJ格式,输出方式有打印和存盘。该数据库网络版每月与印刷版期刊基本同步发行,光盘版年更新。

此外,由清华大学中国学术期刊(光盘版)电子杂志社研制的其它全文数据库,如《中国优秀博/硕士论文全文数据库》(包括1997、1998、1999全国优秀博/硕士论文近5万篇)、《中国会议论文全文数据库》(该库每年收录在我国召开的重要国际会议和国内重要学术会议论文集2000多本),在提供光盘版的同时,开始提供网络镜像版的服务。

我国的全文数据库无论是数量和质量都和发达国家有一定的差距。〈中国期刊网〉专题全文数据库收录的期刊种类相当多,可收录年限只有1994-2000;全文输出格式不是目前国际流行的HTML格式或PDF格式,这造成其全文需要专用浏览器浏览;对全文文献中知识的开发和组织不足,如没有开发文章内以及文章间的超链接等。

(2)网络电子期刊。网络电子期刊是在互联网或局域网上的电子期刊,它可以是印刷本期刊的电子化产物或从编辑出版就以电子载体出现的网络期刊。国外网络电子期刊的发展非常迅速,据统计1999年6月电子期刊的总量已达7898种,预计重要的科学与医学相关的学术期刊可望于5年内全部数字化并放置于互联网上。许多网络电子期刊增加了印刷本所没有的附加值,如期刊全文检索功能、图表允许使用者放大或旋转角度、提供文章内以及文章间的超链接功能等。

国外致力于网络电子期刊研究开发主要有几方面的力量:出版代理服务商、联机数据库服务商、商业出版机构等。

开发网络电子期刊具代表性的出版代理服务商有EBSCO(http://www.ebsco.com/home/〉和Swets(http://www.swets.nl/SwetsNet〉。EBSCO下属的负责印刷本期刊和电子期刊出版发行的子公司代理全世界约4000种电子期刊的发行。Swets公司推出的SwetsNet网站是专为网络电子期刊设计的,目前,它与Academic Press、Blackwell Science、Oxford Unuversity Press、Springer-Verlang、Chapman & Hall/Rapid Science等50多家出版社合作,计划提供600多种网络电子期刊。

具有代表性的联机数据库服务商有Oivd Technologies(http://www.ovid.com/)、UMI(http://www.umi.com)。Ovid通过Journals @ Ovid提供80种医学方面的电子期刊,它的前身是OVid Full TeXt,该计划的目标是提供50家以上出版社的数百种电子期刊服务。UMI公司以ProQuest Direct系统提供网络电子期刊服务,目前它以PDF形式提供的期刊约有2000种。

商业出版机构中Elsevier(http://elsevier.com/)的Science Direct(http://www.Science-direct.com/)在网上提供Elsevier Science公司发行的350多种期刊的网络电子版,其数据格式HTML和PDF。BioMedNet(http://BioMedNet.com/)是Elsevier的子公司,它以HTML和PDF格式提供约140种医学电子期刊。Academic Press(http://www.apnet.com/)的IDEAL(Internation Digital Electronic Access Library)项目提供该出版社1996年以来175种期刊的网络电子版服务。

此外,世界许多专业学会也纷纷提供其学会出版物的网络服务。如美国化学学会1997年起开始以Web版提供其所有的26种期刊;英国皇家化学学会17种期刊全是网络化的电子期刊;美国物理学协会为其个人订户和机构订户免费提供其发行的35种期刊在Web上的检索。

网络电子期刊与二次文献数据库的结合,提供了跨数据库检索和使用,形式上类似分布式的全文数据库。如UMI公司的ProQuest Direct系统以ABI/Inform、Social Science Index、Applied Science & Technology Plus等作为检索数据库,在检索库和全文库之间建立超链接,有使用权限的用户在检索的书目文摘结果中可直接点击超链接调用全文。Ovid的Journals @ Ovid网络电子期刊都与自建的二次文献检索库CINAHL、MEDLINE、psycINFO、Current Content、Biosis等链接。美国科学信息所(ISI)引文数据库的网络版Web of Science也提供与原文的超链接,其做法是ISI与许多网络电子期刊出版单位(如Academic Press、Elsevier等)签定超链接协议,如果用户或用户所在机构订购了这些出版单位的网络电子期刊,用户在Web of Science的结果中可直接链接到电子文献的全文。

由于我国多数期刊编辑实力都有限,单个期刊靠自身的力量上网无论从组织上、技术上和人员上都难以保障,也不利于形成规模、扩充功能。我国政府十分重视期刊上网问题,将科技期刊上网工作列入国家“九五”重点科技公关项目“数字化图书馆示范系统”加以启动,纳入到万方数据资源系统(www.chinainfo.gou.cn)付诸实施。万方数据资源系统(Chinalnfo)数字化期刊1997年开始运作,目前期刊上网已突破1000种。该系统采用通用的超文本描述语言实现期刊全文内容转换编辑工作的程序化。读者可使用国际通用浏览器阅读上网期刊全文内容,进行全文检索,与编辑部和同行专家沟通联系。

2 图书馆书目数据库及文摘索引数据库的建设

(1)图书馆书目数据库建设。图书馆书目数据库是图书馆实现计算机化、网络化和资源共享的基础工作。发达国家不仅基本完成了学术图书馆和公共图书馆的书目数据库建设工作,与此同时开发了区域性、全国性、乃至世界性的联合书目。美国世界性的联机联合目录系统有OCLC和RLIN。OCLC拥有2.5万个成员馆,遍及世界上63个国家,有书目记录3700万条和6亿条馆藏记录。RLIN是研究图书馆的联机编目中心,拥有57个成员馆的2700万条记录。美国有代表性的区域联机联合目录有OhioLINK和CDL(California Digital Library)。

我国图书馆书目数据库的建设可从对我国20个知名的高校图书馆和35个省市级公共图书馆提供的信息服务调查结果窥见一斑。调查结果显示:①被调查的55个图书馆中有84%的图书馆开通了本馆的OPAC,有16%的馆网上没有馆藏书目数据库。②书目数据库不完全,大多数馆拥有馆藏中文图书、中文期刊刊名数据库,只有少数馆提供西文图书、西文期刊、非书资料数据库。③书目数据库提供的数据不一。有的馆提供藏书的索书号、藏书地点、藏书流通状况,有的馆只简单列出索书号、书名信息。有的馆列出了详细的MARC格式。④许多馆的数据是90年代开始的,回朔建库是许多馆面临的艰巨任务。区域性的联机联合书目有以北京大学图书馆、清华大学图书馆和中科院文献情报中心为支柱的北京中关村地区书目文献查询系统;上海图书馆开通的华东地区外国和港澳科技期刊预订联合目录;中山图书馆组建的ZSLAIS,实现了广东省内联机编目、书目检索。

我国单馆OPAC建设应注重提供书目数据库的质量,进一步完善数据,应有一个基本的建库标准,为建设区域性的联机联合目录打下基础。由于单个馆的人力物力有限,我国应多考虑区域性的合作建库方式。

(2)文摘索引数据库建设。国外文摘索引数据库建设的总趋势是由联机版向网络版转移。如美国科技情报所推出网络版的引文索引数据库——Web of Science;化学文摘社推出网络版的化学文摘数据库——SciFinder;美国国家医学图书馆推出网络版的医学数据库——PubMED等。这些网络版的专业数据库不仅具有友好的用户界面,如面向最终用户的检索系统,完善的随机帮助功能等,许多数据库在内容的质和量上都较联机版有所提升,如网络版的引文索引数据库Web of Science比联机版的数据库收录更多的期刊,并提供相关文献的检索(引用相同参考文献的一族文献)。此外,前面论及的在二次文献的检索结果中提供通向一次文献全文数据库或网络电子期刊的链接也是网络版的文摘索引数据库的特点之一。

我国在近几年也建成一批文摘索引数据库,收录的文献量和学科覆盖面也有一定的规模,但在文献的深加工上需要再上一层楼。下面是几个著名的中文文摘索引数据库。

重庆维普资讯公司的《中文期刊数据库》(题录文摘版)和《中文期刊数据库》(引文索引版)。

《中文期刊数据库》(题录文摘版)是国内最大的综合性文献数据库,从1989年开始建设,收录1989-1999年出版期刊7000种,2000年后出版期刊12000余种。学科范围覆盖理、工、农、医以及社会科学各专业;数据容量为1989-1999年累积文献量400万篇。2000年以后每年出版文献90-100万篇;提供树型分类导航系统,关键词、作者、第一作者、作者机构、题名、文摘、刊名、分类号等检索入口,检索(精确匹配、模糊匹配、前方一致、后方一致)、二次检索(与、或、非)、组合检索、索引浏览与查询、常用检索式的保存和调用等检索方式。

《中文期刊数据库》(引文索引版)从公司收藏的12000余种期刊中精选出数千种加工而成,可用于准确统计期刊论文和引文数量,客观评价某一地区、机构、刊物、研究人员及其著作的科研和学术水平,同时有助于期刊及其相关文献的检索与查询。其中收录1989年以来出版的各学科重要期刊4000多种,其中包括北京大学图书馆认定的核心期刊2000余种;1989-1999年累积文献量:源文献180万篇,被引文献500万篇;2000年以后每年出版文献量:源文献36万篇,被引文献100-120万篇。

《中文期刊数据库》(题录文摘版)和《中文期刊数据库》(引文索引版)皆提供网上免费检索,索取原文需付费。提供原文的方法有信函、快递、传真以及电子邮件等方式。出版周期CD-ROM光盘为季更新,镜像数据库为月更新。其内容更新的速度比印刷本滞后两期左右。

万方数据资源系统(www.chinainfo.gor.cn)。

由中国科技信息研究所(万方数据集团公司)开发,目前有100多个数据库供用户检索。包括的中文数据库有:中国科技文献数据库(文献量283万篇)、中国学术会议论文数据库(1980—1998年26.33万篇文献)、中国学位论文数据库(1989—1999.6的文献量24万篇)、中国科技论文统计与引文分析数据库(收录我国1250种核心期刊的论文105.67万篇、引文94.5万条)、中国企业公司及新产品数据库(包括19万条国内工商企业综合信息)、及一批小规模的专业文献数据库。

万方数据系统(ChinaInfo)的部分数据库是免费的,用户检索以后可以看到所有检出记录的全部字段;另外一部分数据库是收费的,非授权用户可以检索全库,也可以看到所有检出的记录,但看到的只是这些记录的部分字段。

3 数字化图书馆实验项目

信息资源数字化是数字图书馆建设实践的重要部分,目前关于数字图书馆的建设处于实验阶段。美国关于数字图书馆的研究起步较早,由于政府的大力支持和社会各界的参与,美国不仅在数字图书馆的技术研究方面处于世界领先地位,而且在实验过程中建立了一批初具规模的数据库。如卡内基梅隆大学(CMU)的Infomedia数字录像和演说资料实验基地(http://www.informedia.cs.cmu.edu/),现有约1.5兆兆(terabytes)的数据、用MPEGI格式骗码的2400小时的录像。加州大学伯克利分校的环境数字图书馆实验基地(http://elib.cs.berkeley.edu),1999年初已有0.5兆兆数据,包括7万多件数字图像、30多万页环境文献,在地理和生物数据库中有100多万条数据。

我国数字图书馆的研究正处于起步阶段,近几年的实验研究主要围绕数字图书馆的技术展开的,加上项目投资有限,实验过程中较难形成初具规模的实用数据库。其中一个较成功的例子当数“数字化图书馆示范系统”产生的万方数据资源系统的数字化期刊。我国今年4月启动的“中国数字图书馆工作”项目的目标之一是在互联网上形成超大规模的高质量的中文数据库群,这表明我国在数字图书馆实验中已经开始重视数据库的建设。

我国信息资源数字化已进行了不少尝试,积累了丰富的经验,但与先进国家信息资源数字化的发展相比还有不小的差距。我们要借鉴国外成功的经验,在今后信息资源数字化发展中注重基于网络的数据库的建设、全文数据库的建设、文献内容的深层开发和电子期刊的网络化。

标签:;  ;  ;  ;  ;  ;  ;  ;  

中外信息资源数字化比较研究_全文数据库论文
下载Doc文档

猜你喜欢