虚拟联合目录与传统联机联合目录数据库的比较--对我国网上联合目录数据库建设模式的思考_数据库系统论文

虚拟联合目录与传统联机联合目录数据库的比较--对我国网上联合目录数据库建设模式的思考_数据库系统论文

虚拟联合目录与传统联机联合目录数据库的比较——对我国联机联合目录数据库建设模式的思考,本文主要内容关键词为:目录论文,数据库论文,模式论文,我国论文,与传统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

联合目录是共享书目资源的基础。从联合目录的发展历史来看,它有两种模式:第一种是传统的集中式联合目录,即将来自多个图书馆的数据汇集在一个数据库中。这一模式经历了一个从手工到自动化的过程:最初是汇集卡片或编制书本式联合目录,到20世纪70年代初,OCLC的联机编目系统开通,传统集中式联合目录数据库的发展进入一个新的阶段即联机合作编目阶段。人们常提到的联机联合目录数据库通常指的都是这种模式,它在联合目录的发展史上一直占据主导地位。20世纪90年代中期以来,由于网络和信息技术的飞速发展,一种新的联合目录的模式出现并对传统联机联合目录造成很大冲击,这就是虚拟联合目录。所谓虚拟联合目录,顾名思义,指的是书目数据库的虚拟组合,即每一个书目数据库都是相对独立的,只是在用户检索时将它们视为一个整体,通过一个通用界面同步并行检索各个书目数据库,然后将检索结果返回。虚拟联合目录数据库的实现有很多方法,如:基于HTTP协议、Z39.50协议等。目前图书馆的书目数据库基本上都是采用MARC格式,由于MARC格式只能用于图书馆系统间数据交换,不能取代系统的内部格式,这些异构的图书馆系统要想在网络环境下实现互联、建立虚拟联合目录,必须采用Z39.50协议,所以基于Z39.50检索协议(Z39.50 Search and Retrieve Standard(ANSI/NISO Z39.50-1995)创建的虚拟联合目录是目前最常见的形式,也是本文讨论的主要内容。本文通过对联机联合目录数据库两种建设模式的分析和比较,为我国联机联合目录数据库的建设提供了一些思路和参考。

1 两种模式的比较

1.1 操作模式

1.1.1 传统联机联合目录的操作模式

基于数据的装载和更新机制,将传统联机联合目录的操作模式分为以下四种:

(1)数据由地方系统上载到中心数据库

在这种方式中,既有地方系统,又有中心系统,数据由地方系统卸出后批导入到中心数据库。用这一方式装进去的记录存在着很大的不一致性,但最主要的问题还是数据的滞后性(取决于成员馆数据卸出的周期)和地方数据库的更新信息不能及时反映到中心数据库。

(2)数据由中心数据库下载到地方系统

在这种方式中,既有地方系统,又有中心系统,在中心系统编目,然后将记录转出或下载到地方系统,美国图书馆联机中心OCLC采用的是此模式,特别是OCLC的合作联机资源编目即CORC(Cooperative Online Resource Catalog)项目,在这种方式中,中心系统不直接面对地方系统经常发生变化的信息,如流通信息等,数据的及时性也较强。

(3)完全集中式

联合编目系统同时也是成员馆的地方编目系统,地方和中心数据库保持同步更新。这一方式的优点是技术支持是集中进行的,每个图书馆不必面临单独解决问题的压力,同时可以节省开支。另外,成员馆在编目策略和索引机制方面容易达成一致。如果网络速度和可靠性能够得到保障,那么这种方式对于地理上分散而技术力量较弱的图书馆较为理想。但是,如果一个图书馆不只参加一个联合目录系统时,那么该模式就不可行。

(4)动态同步更新地方与中心数据库,即分布式编目

这一方式要求有先进的数据库系统和编目过程管理软件来实现实时同步更新,目前还在研究开发阶段。其工作原理是:基于Z39.50协议或其他协议,客户程序将更新记录请求发给一个代理服务器,代理服务器将更新信息发送到地方和中心数据库或将它们排为一个队列(当地方和中心数据库没有响应时),一旦地方数据库更新,那么系统就会自动激发中心数据库同步更新,这样,既可以保证书目数据的一致性,又可以及时获取动态更新的地方数据。这一模式是很理想的,但要走的路还很长,因为各个图书馆使用的地方系统具有多样性,要开发它们与中心系统的接口是一件费时费力的事情,而且,有些图书馆系统的开放性差,根本不可能与中心系统有接口。

以上介绍了传统联机联合目录数据库的四种操作模式,但在实际运作中可能不限于这四种模式,有时甚至是这四种模式的组合。但无论那种模式,它们都有一个共同点:那就是物理上存在一个集中式的中心数据库。

1.1.2 虚拟联合目录的操作

用户通过一个通用界面同步并行检索多个不同的书目数据库,检索结果集按照统一的格式返回该用户界面,尽管没有一个集中式的中心数据库,但在用户看来好象是对一个单一的书目数据库操作。这种检索具有以下几个特点:

(1)使用一个通用界面检索(面向不同的数据库);

(2)运用通用的检索属性集,采用相同的句法来表达检索式;

(3)采用通用格式检索和显示记录;

(4)不重复显示记录(对结果集要进行合并处理)。

这种方式既节省开支又具有灵活性,在数据的及时性方面,也较有优势,因为它提供的数据都是各个图书馆最新的,不过,目前并非所有的图书馆系统都支持这种开放性检索。

1.2 数据库质量控制

1.2.1 错误校验/规范控制

对于传统联机联合目录而言,既可以通过规范控制对个人名称和主题标目进行校验,又可以运用特定程序对源于不同数据源的记录进行统一处理,这样不但可以消除错误,同时还可以减少不同机构数据的不一致性。而虚拟联合目录由于缺少一个中心数据库,不可能对各个独立的数据库进行统一处理。所以严格讲,在纠错和数据的一致性方面,虚拟联合目录是无法控制的。

1.2.2重复记录的处理

无论传统联机联合目录还是虚拟联合目录,面临的一个最困难的问题就是如何筛选重复记录。传统联机联合目录可以通过题名、页码、出版年、号码等的匹配,采用一定的算法将重复记录筛选出来。从理论上看似乎很简单,但操作起来却不是一件容易的事情,由于文献的复杂性、出版物的多样性以及著录的不一致性等原因,导致了运用某一特定算法很难完全将所有重复记录筛出,而有时为了解决某一些特殊问题,不得不将查重程序修改得越来越复杂。有人提议用ISBN或ISSN号来简化这一过程,但这样做很冒险,有时候相同的ISBN或ISSN并不代表同一种文献,特别是中文图书。在虚拟联合目录中,由于每个数据库是相对独立的,统一查重和合并是不可行的,因此,当用户检索时会有来自不同图书馆的相同记录返回,那么对这些相同记录的合并就成为虚拟联合目录的关键(见本文1.3.4的(2)的说明)。

1.3 检索性能

建立联合目录的目的是为了提供检索——资源共享,比较两种模式在检索方面的优缺点是本文的核心内容。

1.3.1 检索的一致性

传统联机联合目录与虚拟联合目录在检索的一致性方面存在着很大差异。传统联机联合目录可以在以下几个方面保持一致:

(1)字段的索引方式;

(2)用来表示特定检索类型的字段;

(3)检索提问词被解析的方式,如:标点符号是如何处理的, 哪些是停用词等。

虚拟联合目录最大的问题是互操作性问题(interoperability),尽管Z39.50协议尽可能提供一致性检索,但由于系统不同,在以下几方面就存在着不同:

(1)检索索引的选项不同;

(2)处理结果集的方法不同;

(3)对字符集的支持程度不同;

(4)更新频率不同;

(5)系统的可靠性和可获取性不同。

以上这些不同决定了虚拟联合目录很难在检索方面具有一致性。

1.3.2 检索的灵活性和对网络的依赖性

检索的灵活性(弹性)和对网络的依赖性会直接影响到检索速度。

从灵活性看,传统联机联合目录的检索是对一个数据库的操作,如果数据库运行正常,网络畅通,就能检索到全部结果;反之,如果数据库或网络出了问题,那么检索结果就为零。而虚拟联合目录则不同,如果链接中的一个图书馆出了问题,还可以照常检索其它图书馆系统,具有一定的弹性。

从网络的依赖程度看,我们认为:网络及其性能对任何书目数据库都会产生影响,但对虚拟联合目录的影响更明显,也就是说,虚拟联合目录的运行受基本设施的影响较大,如:信带宽窄、并行检索的数据库量是多少(目前专家的看法是10-100个)。另外, 还受通用检索软件和各个图书馆系统设计和功能的影响,上述这些因素使得虚拟联合目录的检索速度具有不确定性。如:若要求逐个显示每个数据库命中的记录数,那么返回速度就较快;若要求显示所有数据库命中记录的总数,那么速度就会慢一些,因为必须等每个数据库的检索结果全部返回后才能给出这个总数。此外,若地方系统正在维护或出现问题、网络拥挤或其他原因,被连接的某一系统就有可能不能被检索,这样,系统的整体应答速度势必会受到影响。另外,虚拟联合目录的检索请求被发送到每个单独的图书馆,每个图书馆既要处理本馆的需求,又要处理来自联合目录的需求,在本馆用户服务的高峰期,两者很难同时兼顾。因此,需要建立一种机制在用户发出检索请求之前先检查各个系统是否都能被顺利连接。

1.3.3 查全率和查准率

检索的效益主要看查全率和查准率。传统联机联合目录提供的是一个单一的数据库,在编目规则和索引策略等方面具有一致性。当用户提交一个检索请求,如果数据库中有满足要求的数据且数据库运行正常,那么用户就会获取全部结果,相反,如果数据库运行不正常,那么就检不到任何内容。但虚拟联合目录的情况就不同,如果其中一个网关出了问题(如:某一个书目库不可获取或应答速度慢时),别的网关还可以检索。但这是否是一个优点主要取决于用户怎么看待查全率和查准率,如果一个用户想发现所有版本,那么就可能觉得分布式检索很烦人。从另一方面讲,由于传统联机联合目录具有1.3.1中提到的检索一致性,使得来自不同系统的数据都能被检索到。而虚拟联合目录则不同,即使两个图书馆系统采用相同的编目规则,若它们的索引机制和含义不同,检索结果也会不同。比如:作者检索,有的系统指的是个人名称检索,有的系统则既包括个人名称也包括团体名称。又如:某个图书馆系统可能将责任者包括在主题索引中,而其他系统则没有将责任者包括在主题索引中。这样,就很难将最完整的结果集汇总在一起。综合上面的情况,笔者认为,在查全率方面,传统联合目录具有一定的优势。

1.3.4 检索结果显示

传统联机联合目录的检索是针对一个数据库,检索结果可以根据系统的设置显示,比较简单。虚拟联合目录检索结果的浏览、显示、排序是一个难点,也是争议的焦点。

Z39.50协议使客户端与多个服务器连接,但Z39.50不是专门设计来进行跨库检索的(它只是具有这个功能而已),所以在建立虚拟联合目录的过程中许多有待解决的问题都没有在该标准中涉及,也就是说Z39.50不能完全支持它们,下面从三个方面来论述:

(1)浏览列表

Z39.50提供浏览功能,用户可以浏览索引并从中进行选择,但是标准并没有说明当索引有多个来源时如何实现浏览功能,且当多个图书馆系统有多个不同的索引时如何呈现在用户面前等。另外,不可能所有图书馆系统都支持浏览功能。由此可知,基于Z39.50的虚拟联合目录的检索具有一定的局限性,若某个系统不支持Z39.50,那么它就不可能被检索到。

(2)检索结果集的合并

检索结果的返回有两种方式:一是检索和结果的返回都是并行的,如:用户同时跨10个库检索,每个库返回100条记录, 那么用户就会得到1000条记录,即不同系统的相同数据没有进行合并就返回给客户端,显然这不是我们所期望的。二是检索是并行的,但检索结果不要求并行返回,只有当需要时才返回,这是我们所期望的,但操作起来却不是一件易事。

(3)检索结果排序

是将检索结果返回客户端排序还是在各个服务器端排好序后再返回是目前的一个难点:若返回客户端排序,其负载较大,功能也有限;若在服务器端排序,不同服务器排序机制不可能完全一致,会出现混乱。

总之,跨库检索还有许多问题有待研究,这不仅是基于Z39.50系统面临的问题,采用其他机制如HTTP的系统也有此问题,一个客户端/多个服务器的模式尚需要付出时间和精力去研究。

1.4 经费

传统联机联合目录数据库建立在网络和分布式数据库被广泛应用之前,那时候绝大多数图书馆还没有自己的OPAC,数据库建设、数据的更新都是劳动密集型工作,开支相对较大。虚拟联合目录是在网络大发展和分布式数据库技术使用比较普遍的前提下出现的,许多图书馆都有了自己的OPAC,因此,建立虚拟联合目录相对要容易些,而且,它将开支分担给了各个图书馆,整体开销要小一些。

1.5 成员馆管理

传统联机联合目录可以通过对成员馆权限、级别等的控制实行统一管理,另外,在编目规则、数据规范、索引抽取等方面也可以做出统一要求,否则,可以拒绝接受其数据。虚拟联合目录是一个“松散”的联合体,对其做统一管理不太可行,关键是要加强图书馆在下述几个方面的协作:

(1)在建立用户提问档方面达成协议,以提高互操作性;

(2)在使用的术语、检索条件、管理等方面尽可能达成一致;

(3)建立专门的网关来从事这项工作。

在传统联机联合目录中增加一个成员馆不是一件容易的事情,需要进行培训、练习、检测等一系列工作,一个图书馆才可能成为一个合格的成员馆。在虚拟联合目录中,若一个图书馆支持Z39.50而且有很好的技术支持,那么将其扩展为一个成员馆是很容易的;但若是技术力量差且不支持Z39.50,那么将其扩展为一个成员馆开支就要大一些。从总体上看,虚拟联合目录增加一个成员馆更为直接、快速,但要使参加馆真正成为一个高效率的成员,其难度并不亚于在传统联机联合目录系统中增加一个成员馆。

1.6 相关系统的支持性

建立联机联合目录的目的有两个:一是共享书目资源,节省编目开支,二是为最终用户提供文献资源共享服务。传统联机联合目录在一定程度上都实现了这两个功能,但由于传统联机联合目录不能很及时地反映流通等动态信息,在为最终用户提供资源共享方面有一定的局限性,像OCLC、RLG(Research Library Group)等联机编目系统都没有与流通信息实现实时连接。虚拟联合目录的一个最重要的特点是不仅可以显示书目信息,而且可以显示每一文献的流通信息(包括复本量、藏址、流通状态等),这是最终用户最关心的。不过,能够显示流通信息这一功能是很晚才加入到Z39.50协议中的,使用早期Z39.50协议开发的那些系统不具备此功能。

2 对建设我国联机联合目录数据库的启迪

如前文所述,两种模式各有利弊,从图书馆的发展现状来看,它们之间不可能是取代关系,而是优势互补、共同发展。但从长远来看,虚拟联合目录应当是趋势。这是因为:第一,任何传统联机联合目录都有一定的规模,不可能无限制增长下去来满足用户的所有需求。第二,虚拟联合目录提供动态流通信息的特征赋予它生命力。对最终用户而言,他们除了关心是否有某一文献外,更关心文献收藏在哪里,是否可以获取等。第三,现代信息技术不断推陈出新,Z39.50协议会逐步得到完善,基于Z39.50协议建立的虚拟联合目录在排序、记录合并和去除重复记录方面所存在的问题会逐步得到解决,同时,支持跨库检索的新协议也会出现。第四,如果能将灵活、有效、精确、可控的可扩展标记语言XML(Extensible Markup Language)引入现存的图书馆系统,那么,就可以看到虚拟联合目录的又一道曙光,因为XML从数据与文档的底层实现了格式化,这就保证了异构系统从里到外、从处理到交换的一致性,在网络环境下采用通用的元数据搜索引擎等软件工具来检索,就可以查到所需文献,例如通过关键词即可查到网上最终文献——无论文献存在哪个系统,将来如果所有的图书馆系统都基于XML构建,那么建立全球范围内的虚拟联合目录就变得很容易。

那么,我国联机联合目录数据库的建设要走什么样的发展道路呢?这主要取决于我国图书馆事业的发展现状。我国的图书馆事业是按照行业、系统建立的,分为高校、公共和专业三大体系。目前,三大系统都在积极建立自己的联机联合目录数据库。高校系统以中国高等教育文献保障系统(CALIS:China Academic Library and Information System)建立的联合目录数据库为标志,成为我国第一个真正的实时联机编目数据库。公共图书馆系统以国家图书馆牵头的联机编目中心为代表,在中文书目数据建设方面做出了一定贡献。科学院系统也在紧张地筹建自己的联机编目系统。这些联机编目系统都是集中式的联机联合目录数据库,它们的数据有交叉,任何一个系统都不可能囊括全部资源。从技术和现实情况看,我国不可能也没有必要建立OCLC式的联合目录。笔者认为,我们的目标应该分为中期和长期目标:

从中期看,各大系统可以在保留自己的集中式联机联合目录系统的基础上,增加和开发它们的Web和Z39.50检索功能。换言之, 把它们分别开发为虚拟联合目录系统的网关,这样每个集中式联合目录数据库就变成了虚拟联合目录体系中的一个子系统。随着网络和技术的发展,还可以与国外其他编目系统实现虚拟联合,建立世界范围内的虚拟联合目录系统。这样,既吸取了集中式联机联合目录数据库的优点,也发挥了虚拟联合目录的优势。不过,这并不意味着前面提到的所有问题都解决了,在数据库建设中还要注意对下面问题的解决:

(1)数据的不一致性:由于不同的编目实践与传统, 使用不同的规则、提供不同的数据;

(2)结构不同:不同编目级别出现的字段不同, 比如:用不同的分类和主题体系;

(3)语义不同:一个字段用来表示不同的内容, 如:作者在某种情况下作为一个综合字段用来标识著者、编者和其他责任方式者;

(4)句法差异:键入数据时采用了不同的规则, 如:个人名称的不同表现形式:名在前还是名在后,这些差异导致的最直接的问题就是重复记录问题,检索时查全率和查准率也会受到影响,另外,还会影响到检索结果的排序。

要解决上述问题,关键要做好下面两项工作:

(1)建立一系列共同遵守的规则、格式和句法;

(2)建立规范控制系统。

从长远看,要着手研究和开发基于XML/RDF (Resource Description Framework:资源描述框架)的MARC元数据描述技术,解决MARC元数据的XML描述问题和基于RDF的MARC元数据描述问题,从而使得专用的MARC格式转换成更通用的机读元数据,通过元数据搜索引擎就可以检索到最终文献,这样就可以创建全球范围内的虚拟联合目录。

3 结语

OCLC是联机联合目录数据库建设的楷模,但OCLC并不代表最先进的数据库技术和编目技术,它建立的集中式联机联合目录数据库是由当时的技术和客观条件所决定的。现代信息技术日新月异,我们没有必要照搬OCLC的模式,从我国的实际情况出发,创建基于Z39.50协议或其他协议的虚拟联合目录、开发基于ISO 10160和ISO 10161馆际互借协议的“电子馆际互借系统”(Interlibrary “elending”system)、实现全球范围内的资源共享才是我们的最终目的,这也是我国联机联合目录数据库建设的发展方向。

标签:;  ;  ;  ;  ;  

虚拟联合目录与传统联机联合目录数据库的比较--对我国网上联合目录数据库建设模式的思考_数据库系统论文
下载Doc文档

猜你喜欢