论虚拟图书馆的建设_搜索引擎技术论文

论虚拟图书馆的建设_搜索引擎技术论文

论虚拟图书馆建设,本文主要内容关键词为:图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G250.76 [文献标识码]A [文章编号]1003-2797(2003)04-0007-05

1 引言

对虚拟图书馆这一概念的理解,到目前为止还存在着诸多争议。从理论角度上讲,虚拟图书馆概念的出现是在1980年[1],之后有不少学者都对其进行了探讨,到目前为止,对其概念的各种界定可概括为三种观点:其一是将其与电子图书馆和数字图书馆等同起来[2~3];其二是从图书馆的形态角度考察,认为与传统图书馆相比,虚拟图书馆是一种没有物理形态的信息空间[4];其三是将其理解为一种抽象意义上的环境[5]或知识管理实体[6]。从虚拟图书馆的实践角度上讲,首次声称出现虚拟图书馆实体的时间是1993年[7],目前已有数以千计的以虚拟图书馆命名的实体。通过对其考察,从收录信息的来源上讲,这些实体可分为两大类型:其一是基于因特网上特定学科专业或专题的网页网站(如WWW虚拟图书馆[8]、清华大学虚拟图书馆[9]等);其二是基于馆藏资源的数字化(如上海高校虚拟图书馆),但目前这种类型的虚拟图书馆非常少。

笔者认为,理论应来源于实践,对虚拟图书馆概念的界定还是要从对已存在的虚拟图书馆实体的考察做起。在对因特网上已经存在的数以千计的虚拟图书馆实体进行系统考察和分析后,有学者认为:“虚拟图书馆是因特网上组织信息资源的一种有效而又经济的形式。具体说来,虚拟图书馆就是根据特定的目标,选定信息资源的学科领域,对有关的网站网页进行搜索和收集,加以鉴定核实,并对核实后的网址进行合理组织,使之能够提供检索、浏览和链接的信息集合。”[10]从这个界定出发,虚拟图书馆的本质特征可概括为下述三点:其一,从收录信息资源的学科属性来讲,虚拟图书馆都是学科专业或专题性的,没有综合性的虚拟图书馆。其二,从指向原始网页网站的超级链接来讲,虚拟图书馆要对链接进行鉴定核实,并不断维护,使其尽可能地不产生死链。其三,从对收集来的信息进行加工的方式方法来讲,虚拟图书馆要对收集的信息进行分类组织和关键词方式的词汇控制。由此可知,虚拟图书馆建设的一般步骤为:

(1)选定学科专业领域或专题。

(2)在因特网上通过各种搜索工具收集所选专题领域内的网站网页。

(3)编制虚拟图书馆的分类表。

(4)先对搜集来的网络信息资源进行著录和标引,包括关键词标引、分类标引、编制题名、文摘等。再将这些著录和标引结果导入到虚拟图书馆中相应的数据库,以便用户检索。

(5)编制实现分类检索、关键词检索、检索结果显示、原始网页网站调出以及用户接口等项功能的软件。

(6)虚拟图书馆的日常维护。包括删除数据库中死链的记录、增加新记录、修改记录的内容等。

2 虚拟图书馆的选题

从选题依据角度来讲,虚拟图书馆选题的基本依据是用户的需求与因特网上信息资源的现状相结合,用户需求是推动虚拟图书馆建设的原动力。纵观因特网上存在的虚拟图书馆,每一个都是用户需求驱动的直接结果。另外,因特网上所选专题信息资源的多寡构成了虚拟图书馆选题的另一个依据。如果信息资源过少,就失去了建立所选专题的虚拟图书馆的必要性。

从选题内容角度来讲,虚拟图书馆都是以学科专业或专题作为选题对象的。与其他网络二次信息系统(如搜索引擎)相比,虚拟图书馆的选题内容都比较狭窄。例如,目前清华大学虚拟图书馆现有的选题有人工智能、计算机仿真、模式识别、机器人等[11]。又如,目前WWW虚拟图书馆中具有代表性的选题有AIDS(爱滋病)、Distance Education(远程教育)、United States Labor History(美国劳工史)、Women's Studies(妇女研究)、World-Wide Web Development(WWW进展)等[12]。

从选题来源来讲,虚拟图书馆的选题来源一般有两种:其一是单位机构的信息资料中心(图书馆、资料室等)选题,这在大学图书馆的网站中比较普遍。许多大学图书馆选择本校的重点学科专业、特色学科专业以及重大课题项目建立虚拟图书馆,以满足有关用户的信息需求。其二是专家学者个人选题,以此来构建虚拟图书馆,上传到因特网上的WEB服务器,供广大网络用户使用,用户在使用过程中参与维护。例如,WWW虚拟图书馆中的许多专题就是这样产生的[13]。

3 虚拟图书馆中的网页网站收集

与其他网络二次信息系统相比,虚拟图书馆所收录的网页网站都具有学科专业及专题性的特点。从内容上讲,虽然不同的虚拟图书馆收录的网页网站存在着较大差异,但除了与所选学科专业专题相关的特殊问题的信息资源外,笔者认为,一个虚拟图书馆,无论是什么专题,如果有网络信息资源保障的话,都应该收录下述类型的网页网站(见下表)。

虚拟图书馆应收录网页网站类型一览表

序号 网页网站的类型

1

 网络图书的网页网站

2

 网络期刊及其预印本的网页网站

3

 有关会议信息的网页网站

4

 有关组织机构的网页网站

5

 主要人物的网页网站及个人主页

6

 基于用户网上学术交流信息的网页网站(如BBS、

Usenet/Newsgroups、Listserv/Mailing List)

7

 有关软件的网页网站

8

 有关专利的网页网站

9

 有关标准的网页网站

10

 有关政府出版物信息的网页网站

11

 有关数据库的网页网站

(1)网络图书是因特网上一种常见的信息资源,它具有出版发行周期短、“修订”及时、内容相对系统全面、成熟可靠等特点。网络图书的来源有三种:现有图书数字化后上网、原有的封装型电子图书(如软盘图书、CD-ROM图书等)上网和直接在网上出版发行的图书。

(2)网络期刊大致可分为两类:其一是传统期刊的网络版,其二是纯网络型期刊。前者大多为商业性的,而后者目前基本是免费的。另外,因特网中目前已出现了许多电子预印本系统,如较有影响的e-Print arXiv电子预印本文献库[14]。网络期刊及其预印本出版周期短,报道速度快,刊载的多是一些学术性较强的论文,因而成为虚拟图书馆重点收录的对象。

(3)因特网上的学术会议信息有会议通知(包括征文通知)和会议论文集两种。学术会议通知的生命周期很短,一旦过期就失去了存在的价值,应及时从虚拟图书馆中删除。会议论文的学术性较强,内容新颖,往往反映了某一学术领域国内外的最新发展状态,利用价值较高。

(4)组织机构包括从事虚拟图书馆所选领域的研究机构、实验室、教育机构、学术团体(学会、协会等)及产品的推广机构等。实际上每一个学科领域或专题都有相应的研究机构,绝大多数领域或专题都有相应的教育机构和学术团体。这些组织机构在进行教学、科学研究、组织学术交流以及其他日常活动中,产生了大量的原始信息。通过访问它们的网站,可以得到大量的技术报告、学位论文及教育教学信息等。

(5)主要人物的网页网站或个人主页,一般记载了联系方式、主要的出版著作和论文、主要的研究领域、研究经历和在研项目及进展情况等,利用价值也较高。

(6)因特网上的一些交流方式往往针对某一感兴趣的问题在网上进行讨论,其中包括了许多与科技有关的话题;这些讨论的议题经常是某一学科领域的热点或疑难问题。这些信息交流的主要方式有BBS、Usenet/Newsgroups、Listserv/Mailing List等。

(7)有关软件、专利和标准的网页网站,它们是涉及到自然科学专题尤其是工程技术专题的虚拟图书馆的主要收录对象。

(8)随着政府信息化的推进,因特网上的政府信息日益增多,是学术研究的重要信息资源。目前,因特网的政府信息大致包括介绍政府部门的职能、人员、机构、政策、法规、成果以及出版物信息等。

(9)近年来,因特网上出现了众多学术价值甚高的数据库,其中有的是综合性的,有的是学科专业性的,还有的是专题性的。免费数据库资源是虚拟图书馆的重点收录对象,但对于商业化的数据库,目前公益性的虚拟图书馆只能调出页面,无法调出其全文。

4 虚拟图书馆的分类表设计

通过对目前因特网上现存的虚拟图书馆的考察分析,发现几乎所有的虚拟图书馆所采用的分类表都是各站各自编的,没有用到现有的文献信息分类表。从编制原则上讲,笔者认为,虚拟图书馆中分类表的编制应遵循下述基本原则:

(1)从类型上讲,虚拟图书馆的分类表以等级体系型为宜,尤其是呈现在虚拟图书馆主页上供用户检索使用的分类表。这一原则在现有的虚拟图书馆分类表中得到了充分体现。虽然从理论上讲,分类表有两大类型(等级体系分类表和分面组配分类表),但从用户使用的角度来讲,等级体系分类表最方便虚拟图书馆的用户检索,因此宜采用它。

(2)从等级结构的层次来讲,应控制在三层以内。因为层次越深的分类表意味着用户在找到合适的类目前点击的次数越多,这一方面增加了用户的查找时间,另一方面也增大了用户使用分类表的困难度。

(3)类目的设置要同时体现信息保障原则和用户保障原则。信息保障原则要求所设置的类目要有合适数量的网页网站类分到该类目,站点过少的类目要归入到上位类,站点过多的类目要分解。用户保障原则要求所设置的类目要有足够数量的用户访问,否则就失去了设置的价值。

(4)类名要规范化。对于容易导致收录范围含糊的类名要加注释,对于同义概念的类名要全部列举出来,对于多义概念的类名要加限定词。

(5)基本大类的设置、类目的划分标准、各级类目的设置及其同位类的排列方式等,要充分体现虚拟图书馆所选学科专业专题的性质。在类目的划分标准上,不同学科专题有其自身的习惯划分方法,有的习惯于按研究对象来划分,有的习惯于按各分支领域来划分,有的则习惯于按地域划分,还有的适合于按时代划分等等。基本大类的设置和其他各级类目的设置也是如此。另外,在同位类排列方式方面,也要遵循所选学科专业的习惯,辅助以传统等级体系分类表中同位类排列的基本原则。

(6)虚拟图书馆的分类表应设置合理的参照系统,从而解决类目的多重隶属问题,也即“集中与分散的矛盾”。

(7)分类表的展现方式应力求简单、明了,尽可能展现在一个页面上,这样可以使用户对分类体系一目了然,缩短用户熟悉分类表的过程,使分类检索更加容易。

5 虚拟图书馆中的网页网站著录

从功能结构上讲,虚拟图书馆相当于传统检索工具中的一部主题索引,而每一网站网页在虚拟图书馆中则相当于主题索引中的一个款目。对网页网站的著录事项是决定其信息含量、引得深度和检索途径的基础。虚拟图书馆中网页网站的著录事项主要有:

(1)网页网站的标题。这是每一个虚拟图书馆中必备的著录事项,也是用户选择浏览网页网站的主要判断依据。

(2)网址。这是用户浏览原始网页网站的链接入口。目前有的虚拟图书馆在显示用户的检索结果时,网址作为一个字段加以显示,但大多数都将网址隐含在网页网站的标题字段内容之中,作为该项内容的超链指针(如WWW虚拟图书馆中所有的专题都采用这种方式[15])。采用第一种显示方式时,对于由于镜像等原因导致相同网页网站产生多于一个网址的,可以方便地将这些网址都记录和显示,各网址间用一定的分隔符隔开。同时,对于产生死链的链接,用户还可选择其他链接来调出原始的网页网站。若采用第二种显示方式,对于上述情况系统管理员只能人为地选择其中一个网址作为用户的链接入口。地址可用文字型地址,也可用数字型地址。

(3)内容简介。该著录事项为用户提供了虚拟图书馆中所收录的网页网站的内容概要,也是用户判断是否需要进一步调出原始网页网站进行详细浏览的主要依据之一。目前,几乎所有虚拟图书馆对收录的大多数网页网站都有该著录项目。内容简介除指明其覆盖面外,还应指明其收录材料的起始时间、更新周期及有无检索手段等。

(4)关键词。这是虚拟图书馆实现词汇控制的方法,也是向用户提供关键词检索的前提,应该提倡人工关键词标引。目前因特网上的虚拟图书馆对信息组织有些比较简单,仅提供分类浏览功能。但也有不少虚拟图书馆提供关键词的词汇控制功能,如WWW虚拟图书馆的Anthropology(人类学)专题[16]。

(5)国别及站点的类型。这个著录事项应视虚拟图书馆的学科专题性质而选择,它是提供虚拟图书馆中所收录网页网站来自的国家以及站点类型检察途径的基础。目前在虚拟图书馆实践中,已有不少选择了该著录事项,并提供了相应的检索途径,如WWW虚拟图书馆中Agriculture(农业)专题中的Databases类[17]。

(6)分类号。它是虚拟图书馆提供分类检索途径的前提。在进行分类之前,需要编制一个专用的分类表,不同专题的虚拟图书馆所编制的专用分类表有所不同。目前在虚拟图书馆实践中,有些编制的分类表比较简单,如清华大学虚拟图书馆的几乎所有专题的分类表都设置有组织机构、研究人员、电子出版物、软件、电子通告、特殊问题、其它地址等类目,并且只有这些一级类目,没有设置二级类目[18]。有些虚拟图书馆的分类表比较复杂,如WWW虚拟图书馆中Chemistry(化学)专题的一级类目就有11个,每一个一级类目都设置有二级类目[19]。还有些虚拟图书馆设置了三级类目。至于分类方法,目前所有的虚拟图书馆都采用人工分类。

6 虚拟图书馆的关键词标引

虚拟图书馆中对收集来的网页网站进行关键词标引,就是赋予网页网站的文献标识。虚拟图书馆的关键词标引具有下述特点:

(1)人工标引。这是与一般搜索引擎的关键词自动标引的最大区别之处。搜索引擎基本上都提供关键词检索,有的甚至提供全文检索(如Google),无论哪种情况,都要建立关键词甚至全文中字符串的倒排档,这种倒排档都是基于某种算法,从网页网站中抽取具有检索价值的语词和字符串而建立起来的(但Yahoo除外,它的关键词标引是由人工实现的)。到目前为止,虽然这种算法在不断改进,但标引质量却没有很大改观,因而检准率过低就成了搜索引擎的最大缺陷。目前的虚拟图书馆一改搜索引擎自动标引的做法,重新回到了人工标引,从而使检索效率得到了保障。究其原因主要在于,虚拟图书馆都是某一学科专题的,收录的网页网站的数量最多也就上万个,这使得虚拟图书馆中的关键词人工标引成为可能。

(2)标引的准确度高。这是因为虚拟图书馆大都是由所选学科专业或专题领域中的专家学者建立的,他们对收录的网页网站的内容非常知晓,不存在专业知识的障碍,对标引素材理解较透,标引用词的专业性把握较好,所以,标引的准确度有保障。

(3)标引深度较低。“标引深度”这个概念,用在网络文献上,一般的理解是指标引一个网页网站所用的文献标识的数量。当然,文献标识的数量是与主题的数量成正比的。所以,标引深度实际上就是对网页网站的内容进行标引的详尽程度。用的文献标识少,标引深度就低,叫浅标引;反之,所用的文献标识多,标引深度就高,叫深标引。由于一般的搜索引擎都是关键词的自动标引,所以,所给的文献标识数量一般较多,标引深度就高。而虚拟图书馆的关键词标引都是由人工进行的,所给的文献标识的数量一般都较少,所以,标引深度较低。基于这种分析,深度标引有利于全面揭示网页网站的内容,提供的检索入口多,从而有利于检全率的提高。但与此同时,深度标引可能会导致网页网站中出现的内容并非是对论述的主题进行了标引,这将会导致检准率的下降。这就是一般搜索引擎检准率低的根源所在。但在虚拟图书馆中,较低的标引深度排除了对网页网站中仅仅提及但没有展开论述的主题的标引,这有利于检准率的提高,但同时可能会导致检全率的下降。因此,虚拟图书馆中关键词的适度标引非常重要。

(4)标引的专指度高。在对网页网站的标引中,所谓标引的专指度一般是指所给的文献标识与网页网站所论述主题的相符程度。如果标引结果的关键词所表达概念的外延大于网页网站所论述的主题,那么标引的专指度就低。两者的接近程度越高,标引的专指度就越高。由于虚拟图书馆的关键词标引是由所选专业或专题的专家学者进行的,一般来讲,他们能选择专指度与网页网站所论述主题相当的关键词来标引。所以,标引的专指度可得到保障。

(5)标引的一致性相对较高。在虚拟图书馆中,关键词标引的一致性较高。这是因为:一方面,与搜索引擎的自动标引相比,搜索引擎的标引结果大都取自于网页网站中出现的词汇,而自然语言中同义现象相当严重,所以搜索引擎的标引一致性较低。但相比之下,虚拟图书馆的人工标引,可将论述相同主题的网页网站采用同一个关键词来标引。另一方面,虚拟图书馆的关键词标引大多由一人完成,有时也由为数不多的若干人共同完成。标引人员越少,标引结果的一致性就越高。当然,虚拟图书馆中关键词标引的一致性较高也不是绝对的,因为即使是同一个标引人员,在不同的时间对相同主题的网页网站进行标引,也会产生不完全一致的现象。

7 虚拟图书馆的软件设计

一个理想的虚拟图书馆软件应具备如下功能:

(1)软件的基本要求。从结构上讲,软件的整体结构应为Browser/Server。虚拟图书馆的软件运行在因特网的WEB服务器上,用户通过自己终端的浏览器,输入虚拟图书馆的网址来访问虚拟图书馆的主页,通过主页来利用虚拟图书馆所提供的各种服务。从功能上讲,软件应支持动态数据库的更新、检索、显示、超链等。

(2)顺排档数据库的管理功能。主要包括:变长字段、可重复字段的定义;数据库记录的增删改;外部数据的成批转换入库;网页地址、网页名称、网页内容简介等项目内容的抓取入库等。

(3)后控词表的建立与维护。虚拟图书馆中建立和维护后控词表的方法有两种:其一是人工建立与维护。根据虚拟图书馆所选的专题,由专家收集该专题的词汇,并分析它们之间的语义关系,将同义词及近义词进行聚类,形成一个专门的文档。检索时,系统将用户输入的检索式中每一个检索词在该文档中查找,并将与检索词相聚类的所有词进行逻辑“或”链接,自动扩充形成新的检索式,再进行检索。其二是由程序自动建立与维护。系统捕捉用户检索式中用逻辑“或”链接起来的检索词,并将它们进行聚类,从而形成后控词表的初表。通过日积月累,后控词表逐渐完善。

(4)倒排档的自动生成与更新。为了提高检索速度,用户的检索大多在倒排档层面上进行,显示则在顺排档层面上进行。当顺排档的内容发生变化时,相应的倒排档必须及时更新,否则,将可能导致显示结果与检索结果不一致的现象。一般来说,虚拟图书馆中的倒排档有这样几种类型:关键词倒排档、题名倒排档、分类号倒排档和语种编码倒排档等。

(5)检索功能。主要包括:关键词检索、各个字段的限定检索、截词检索、后控词表检索、顺序扫描的全文检索和分类检索等。检索速度要适中。

(6)检索结果的显示功能。它包括:检索结果的分屏显示,以减少网络通讯的负荷,提高显示速度;检索结果的显示项目应包含顺排档中的所有著录项目,并应提供显示项目的选择;检索结果显示中超级链接应提供全部的超锭接口;检索结果显示时的排序,可按与检索式贴近程度排、按网页名称排、按更新日期排等。

(7)软件的辅助性能。主要包括:汉字内码自动转换功能、软件的易用性、用户信息反馈功能、软件可管理的数据库容量、软件的免费性和稳定性等。

(8)虚拟图书馆构建的自动化。它包括:虚拟图书馆中学科专业或专题的界定描述与计算机自动识别、因特网上学科专业或专题网页网站的自动搜索、虚拟图书馆中各个著录项目的自动获取、虚拟图书馆中关键词的自动标引、虚拟图书馆中网页网站的自动分类、虚拟图书馆中顺排档数据库的自动更新等。

虚拟图书馆是因特网发展到一定阶段的产物。在国外,尤其是在西欧等发达国家,虚拟图书馆的建设已初具规模,但在我国,虚拟图书馆的建设还刚刚起步。因此,分析虚拟图书馆构建过程中所涉及的各种问题,并就每一个问题提出现阶段可行的解决方案,精心设计一些建设规范,对我国的虚拟图书馆建设具有重要的现实意义和应用价值。

标签:;  ;  ;  ;  

论虚拟图书馆的建设_搜索引擎技术论文
下载Doc文档

猜你喜欢