基于OPAC的数字资源集成研究_图书馆论文

基于OPAC的数字资源集成研究_图书馆论文

基于OPAC的数字资源整合研究,本文主要内容关键词为:资源整合论文,数字论文,OPAC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G250.76

1 概述

1.1 OPAC定义

OPAC是Online Public Access Catalogue的简称,国内通行的译法为联机公共检索目录。OPAC是用户从图书馆获取信息的最基本、最通用的途径,所提供的服务与功能是全面衡量一个图书馆服务水平的重要指标。其定义包含几种要素:一、OPAC的实质是书目数据的汇集,因此,书目数据是OPAC存在的基础;二、OPAC以信息检索为最基本功能,这一功能的实现决定了OPAC存在的价值;三、OPAC的建设主体是图书馆,受体为有信息需求的社会公众,两者决定了OPAC的发展方向;四、OPAC的服务是基于网络提供的,因此,OPAC与网络的紧密结合成为它的主要特点之一。

1.2 基于OPAC的资源整合

基于OPAC的资源整合是对OPAC系统中的各类资源对象、功能结构以及其间的相互关系进行融合、类聚,以数据为核心,形成一个向全文、目次、文摘、书评、音频、视频等各种信息资源扩展的整体的、立体化的、全方位的资源体系。[1]

整合的目的在于:将各种异构资源的数据结构、组织方式、检索方式都隐蔽起来,消除资源来源的差异性,以统一的检索界面和显示格式为用户提供检索,帮助用户发现资源,从而降低检索难度;消除元数据的存储冗余,加强信息资源的过滤,减少信息污染,提高检索的准确度,实现对各类资源的优化整合;提供统一的集成化数字资源架构,提高图书馆管理效率。

知识的发现与获取是图书馆用户最根本的需求,为用户提供知识服务是图书馆信息服务的最终目标,因此,整合的基本原则是通过建立动态的、有机的关联将独立的个体转化为一个相互依存的整体,最终构建立体的知识网络。

2 基于OPAC整合数字资源的内容分析

OPAC整合的内容按照不同的整合方式可分为两类:一是整合不同来源信息资源。这是对信息资源进行的横向整合,实质是将异构系统进行横向集成,汇集不同平台上的异构数据库,以便让用户通过OPAC就可以检索到自己需要的信息资源,而不论其存在于何处,从而实现信息资源的普遍存取。二是整合不同类型信息资源。这是对信息资源进行的纵向整合,实质是通过书目数据的整合形成一个向多种类型相关资源的延伸,达到通过OPAC检索到书目信息、全文文献、文摘、书评以及各种音视频等多媒体的各种相关资源的目的。

2.1 整合不同类型数字资源

(1)整合书目数据与数字化全文。近年来,国内外进行了大量的印本文献数字化工作,其中有些项目是由国家图书馆主持,或是多个机构跨地区合作。文献数字化是图书馆数字资源的重要来源,有利于用户对文献的利用,但数字化造成文献出现了多种载体形式,不对书目数据与数字化全文进行关联将影响图书馆资源的利用率。整合书目数据与数字化全文一般通过建立两者之间的链接关系实现。国家图书馆制作的数字化资源存放地点比较固定,其更新、管理、利用都由图书馆统一控制,因此,比较适合通过在书目数据中添加856字段的静态链接技术实现两者的关联;其他机构制作的数字化资源由于经常会有图书馆不可控的数据变动,因此,可以考虑通过OpenURL技术建立动态链接实现两者关联。

(2)整合图书书目数据与目次数据。目次对揭示文献内容、展示文献结构具有重要的作用,有助于促进目录查找功能的完善,在全文数据库中还能够提供阅读的便利性。因此,对目次的建设受到数字资源建设者的重视。

对目次数据的整合可以采取三种方式:一是在书目数据中增加目次的信息,这种方式的优点是目次信息与书目数据关系密切,方便使用,但不利于对目次数据的深度挖掘。二是建设独立的目次数据库,这种方式的优点是可以对目次数据库进行挖掘、分析,以形成其他的增值产品,为用户提供更多的知识服务,缺点在于受原数据库数据的格式等限制,导出后的数据需要投入人力进行清洗。三是通过网络采集技术对网络上一些免费的目次信息进行抓取,这种方式可以使图书馆更快更多地为用户提供目次信息,但网络上的这些信息制作简单,没有进行质量控制,缺乏规范格式,正确性、完整性往往得不到保证。

(3)整合期刊的书目数据、篇名数据、数字化论文全文。对于连续性资源,篇名级数据具有重要的利用价值。在传统编目中,由于MARC格式平面化的结构及编目系统对记录长度的限定等因素无法实现对期刊论文内容的揭示,影响了书目数据功能的实现,以OPAC的期刊书目数据为基础整合期刊论文及数字化全文,一方面可以完善馆藏书目数据的功能,另一方面可以按照期刊的结构进行论文的整合,有利于对论文的整序,同时方便对期刊进行系统化的研究。

2.2 整合不同来源数字资源

信息资源来源众多,不同的机构开发的数字资源在内容、技术和形式上都有各自的特点,不同的编码结构和表达方式造就了不同的描述和组织标准,进而导致了检索途径和方法的差异,对信息资源进行有序整合相当困难,需要进行深入的研究。

(1)其他图书馆的OPAC。图书馆书目数据的发布、管理、利用都基于OPAC系统,OPAC汇集了各个图书馆所有的馆藏资源,因此,基于OPAC最基础的整合是对多个图书馆的书目数据进行整合。

整合多个图书馆的OPAC的途径主要有两个:一个途径是通过Z39.50协议这一国际通用的信息检索标准协议实现与网络系统数据库应用程序之间的通讯,从而实现与其他图书馆在OPAC异构平台上的互检。Z39.50协议具有良好的互操作性和强大的功能,采用基于Z39.50的检索软件可以同时对多个含有Z39.50服务器的异构平台数据库进行检索,实现异构图书馆自动化系统之间的开放互联。另一个途径是通过合作共建的形式联合各图书馆共同建设一个统一的OPAC,实现对书目数据的统一检索。这种方式有利于减少图书馆人力物力的消耗,提高书目数据的质量,历来是图书馆界进行资源建设的重要方式。

(2)图书馆外购数据库。图书馆的资源除馆藏文献外,外购的数据库占有很大比重。但是,每个数据库都有各自的数据结构、检索界面、检索方式、显示风格,检索式构造规则、检索算符、检索字段等都不尽相同,用户想找到需要的资源就必须在各个数据库中重复检索,在一个图书馆内,用户耗费大量的时间和精力也无法保证查准率与检全率,这一状况将导致图书馆用户的流失。因此,应通过整合OPAC与外购数据库的资源帮助图书馆用户简化检索过程,实现一站式资源获取。

(3)出版及发行机构制作的元数据。出版社是正式出版物最权威的信息来源,也就理所当然地成为图书馆获取书目信息的主要渠道之一。如:美国国会图书馆凭借其国家图书馆的地位,与出版者等积极合作,由出版者向其提供相关信息。图书馆与出版机构一般都有顺畅的沟通渠道和良好的工作联系,因此,从出版社或供书商处受缴或购买出版物的同时获取书目数据具有可行性。但是,出版机构与图书馆界的通用元数据标准有差异,需制定互操作的规则,才能达到整合的目的。

(4)搜索引擎。近年来,搜索引擎获得了快速的发展,成为信息获取、传播的重要渠道,具有良好的宣传推广作用,能较好地满足用户广泛的信息需求。因此,图书馆应充分利用这一宣传渠道,对本馆的资源进行推广,提高社会公众的认知度。与搜索引擎进行的整合可以通过两个途径实现:一个途径是在OPAC中整合各搜索引擎的检索入口,使用户在OPAC中不但能检索图书馆的馆藏资源,还能检索网络资源,不但能补充图书馆的书目数据的信息,还能为用户提供更广泛的检索入口。第二个途径是在搜索引擎中嵌入图书馆OPAC的检索入口,为搜索引擎庞大的用户群提供馆藏资源的信息。

(5)网络资源。网络资源是图书馆进行数字资源整合的重要组成部分,Web2.0的发展也使得公众编目逐渐成为图书馆数据建设的一种方式。网络上的书目信息主要来源于在线读书网站、原创文学门户、社会编目网站、知识性百科等网站。整合网络上的信息资源可以采取两种方法:一是借助搜索引擎的功能,在OPAC上提供对网络信息的搜索功能。这是一种比较简便易行的方法,但是,由于各种搜索引擎排序方式的不同,对同一检索需求会返回不同的检索结果,用户在检索时需要查询多个搜索引擎,极大降低了检索效率。二是利用网页爬虫将网络上的信息资源抓取到本地。包括抓取网络上提供的免费书目数据或采集网络免费的电子图书全文。但是,由于网页往往没有统一的制作标准,抓取的数据需经过后期技术处理,必须以大量的校对工作来保证数据的准确性。

3 基于OPAC整合数字资源的途径分析

Web技术一直在不断发展,在Web2.0还在蓬勃发展时,Web3.0的概念就被提出来。Growthroute Ventures公司创始人Greg Boutin认为:如果说Web2.0意味着Youtube和维基百科等UGC和社交网络,那么Web3.0则意味着开放和结构化数据,让网络更加“聪明”。通过为信息添加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。OPAC的发展方向必然是吸收Web3.0理念的OPAC3.0,即以馆藏资源的语义化为核心的OPAC。

结合OPAC的发展方向,基于OPAC进行资源整合有如下三个途径:深入挖掘书目关系,实现作品层面的文献整合;加强对语义网的研究,实现语义层面的内容整合;利用可视化技术,实现表现层面的资源整合。

3.1 基于书目关系实现文献整合

3.1.1 书目关系概述及存在问题

由于网络时代数字资源数量的迅速增长,很多图书馆越来越倾向于对书目数据进行简编。但是,只有书目数据能够为数据分析提供充足的信息,才能实现对知识的深入挖掘与组织。OPAC系统是以书目数据为核心的,因此,基于OPAC进行数字资源的整合仍然要重视书目数据的作用,通过对书目关系的揭示和挖掘将各种类型、各种来源、相互独立的信息资源整合到一起,从而真正实现基于OPAC的全方位的资源整合。

图书馆界认为,书目关系主要包括以下几种[2]:

(1)等同关系(equivalence relation):如复本、摹真本、重印本、影印本、缩微复制品及其他复制品。

(2)衍生关系(derivative relation):如不同版本、修订本、译本、改写本等。包括作品的其他版本、改写或改编作品、体裁发生改变的作品、基于原作品的文体或内容产生的新作品。

(3)描述关系(descriptive relation):指原作品与其描述、评论、评估作品间的关系,还包括注释本、案例、文学评论等。

(4)整体/部分关系(whole/part relation):如主文献与其析出文献、作品合集与选集、期刊与其中文章、附属丛编与主丛编之间的关系。

(5)附属关系(accompanying relation):指书目文献与其附件之间的关系。

(6)连续关系(sequential relation):即UNIMARC中的年代关系。

(7)共有特性关系(shared characteristic relationships):目录中两个实体虽不相关,但却共有某些特性。

上述关系有些是显性的,如:附属关系,通过对单个文献的客观描述即可揭示;有些是隐性的,如:共有特性关系,需要通过对书目数据中各种信息的抽取、分析建立书目关系。

数字时代,文献的形式有了飞速的发展,由单一媒体形式向多类型、集成化媒体形式转化。从信息存储与发布的形式来说,由通过传统出版渠道发行印刷本、磁盘、光盘等发展为借助网络、卫星、通信等渠道向电脑、移动终端、手机、数字电视等新媒体终端发布;从传递与表现信息的媒介来说,从文字、图形等传统媒介向数字、文本、声音、图形、音频、视频、图片、动画、三维立体等多种媒介发展,呈现发布渠道越来越多样、表现力越来越强、新旧媒体互相融合的特点。如:通过数字化,纸质书有了数字版本;通过计算机程序,纸质书变成文字、图片、音频、视频、动画、交互式地图、互动式游戏的集合体;印本图书不再是所有作品的最原始版本,一本正式出版的印本图书的前身可能是在博客上以连载形式发布的原创小说,也可能是一个网络游戏;一本图书的其他版本不但包括原有的修订本、改写本,还有不同人播讲的音频版本、不同网站发布的数字版本等。数字时代日新月异的变化使书目关系变得更加复杂。

多年以来,文献编目一直是针对手头文献的,主要对文献层面的书目关系进行揭示,没有从文献内容出发对书目关系进行深入挖掘,缺乏对于复杂书目关系的描述。这一现状无法满足数字时代文献的变化与用户需求的变化。

3.1.2 解决途径

1997年,国际图联发布了《书目记录的功能需求》(FRBR)的最终报告[3],对处于变革时期的图书馆编目起了重要的影响作用。

FRBR应用了“实体-关系”模型来构建概念框架,以识别并清晰定义书目记录中用户所关心的实体、每个实体的属性、实体间的各类关系。其中,第一组实体代表知识或艺术创作产品中用户关心的不同方面。定义为作品(独有的知识或艺术的创作)和内容表达(一部作品的知识或艺术的实现)的实体反映知识或艺术内容。定义为载体表现(一部作品的内容表达的物理体现)和单件(一种载体表现的单一样本)的实体则反映物理形式。

FRBR的重要性在于,它提出了一个重要的概念——作品,并通过“实体—关系”模型的构建将书目关系由平面关系转为具有等级结构的立体关系。作品概念的确定将基于实体文献进行文献组织的传统理念转变为基于内容进行文献组织,在作品这一抽象概念下,汇集多种媒体、多种内容、多种形式的文献。FRBR将书目记录按照作品、内容表达、载体表现、单件四个实体层次进行定义,四个实体间具有等级关系,通过这种等级的确定,前文所述的七种书目关系不再是文献之间的平面关系,而是以作品为核心组织在一起的多层关系。

将FRBR应用于OPAC的整合可以有两个实现途径:

其一,按照FRBR的框架对编目规则进行修订,按照作品、内容表达、载体表现、单件制作不同层次的书目数据。这一方法的优点在于:高层记录的建立有利于对作品层与内容层的揭示;编目规则结构严谨,有利于编制高质量的高层记录;书目数据之间的关系明确,有利于对书目数据进行再挖掘,形成更深层次的知识产品;将OPAC的数据层建成具有完整体系的立体架构,将有力地支持OPAC的知识检索。这一方法的缺点在于:将实体间的关系固定在书目数据中,缺乏动态性,无法满足随数据更新而更新的需要;随着下层记录的增加,需要不断调整高层记录,维护量大;通过制作书目数据构建文献的体系容易带来封闭性,不利于与其他类型元数据的整合。

其二,不改变编目规则,通过设置一定的规则在检索层实现实体间关系的揭示,简单的、浅层的关系可以通过检索点之间的关联关系揭示,复杂的、深层的关系可以通过构建一定的知识组织工具来实现。这一方法的优点在于:具有良好的动态性,可以按照读者的信息需求对检索结果进行实时的聚合;不需要更改编目规则,也不需要对已建的书目数据进行转换,大大降低了工作量;不会导致书目数据变得更为复杂,因此,对书目数据的共享、交换不会产生影响。这一方法的缺点在于:书目数据所揭示的信息必须非常详尽才能支持系统的实时聚合;对复杂关系的揭示需要知识组织工具的支持,对工具的开发需要投入大量的人力、物力、时间,且随着信息资源的发展需要不断更新。

3.2 基于语义实现内容整合

传统的OPAC只汇集了书目数据,但随着信息技术的发展,利用OPAC整合的资源出现类型多样化的特点,在面对海量信息时,个性化、精细化知识服务要求对不同类型的数据进行解析、对自然语言进行分析,因此,需加强对语义关系的揭示。应该看到,语义化是图书馆OPAC的发展方向,但是,目前图书馆基于OPAC进行数字资源的整合方式主要集中在利用书目数据上,对于语义工具的研究还处在初级阶段。因此,在OPAC的发展过程中,必须充分重视语义的揭示与表达在信息组织中的作用,深入研究基于语义的资源整合。

基于语义对内容进行整合应重点研究以下几种技术:

(1)语义互操作。由于不同主体对现实世界有不同的理解和不同的表达方式,不同领域会遵循不同的规则,使用不同的术语和词表。命名方式、数据结构、句法结构、表达粒度(语法)等等的不同,必然会产生语义不一致的问题。解决语义异构是数字图书馆实现知识服务的关键问题。语义互操作能够有效解决信息的语义冲突,逻辑地屏蔽分类的差异性、定义的差异性、表达形式的差异性而带来的信息数据的语义不一致性,从而保证系统交互过程中信息的准确性,以及语义的完整性和最小的损失,达到彼此之间最大限度地获取有用的信息。

语义互操作在OPAC中的应用主要针对资源集成和服务集成。目前最系统的方法是对资源和服务的语义进行开放封装,在语义的层次上达成一致的理解。资源集成是在元数据体系和本体的基础上实现的,高度自动化的服务发现和调用机制提供了底层架构和技术支持,从而实现服务层次的语义互操作。

(2)语义检索。对资源进行整合的目的在于为用户提供高效的检索,传统的信息检索是基于关键词匹配实现的,语义差异、数据异构、缺乏关联都是传统信息检索的弊病,语义检索借助本体提供的领域知识和对逻辑推理的支持,根据语义相似度对资源进行聚合,从而实现语义检索。语义检索从语义理解的角度分析信息对象与检索者的检索请求,力图真正理解并挖掘检索者的信息请求。因此,基于语义的信息检索是OPAC知识检索的基本模式。语义检索的实现能够改进检索功能,按照文献类型设置智能化检索点,为用户提供精细化检索,通过检索词提示、热词推荐、相关主题推荐、相关借阅推荐等智能推荐功能实现信息的智能化导航。

(3)关联数据。关联数据(linked data)是语义网的一个具体应用,其概念由Tim Berners-Lee于2006年首次提出,关联数据提出的目的是构建一个计算机能理解的具有结构化和富含语义的数据网络,其原理是用一种轻型的、可利用分布数据集及其自主内容格式、基于标准的知识表示与检索协议、可逐步扩展的机制来实现可动态关联的知识对象网络,并支持在此基础上的知识组织和知识发现。[4]

关联数据在图书馆资源整合中所起的作用包括:关联数据具有的数据整合与重用的功能可以帮助图书馆关联多种异构的数据源,丰富书目信息;其开放性将极大地提高图书馆书目数据、规范数据等智力产品的利用率、认知度,从而使更多的人使用图书馆的服务;以标准的数据格式发布图书馆制作的各种数据将有利于实现基于语义的智能检索,提高检索的查准率和查全率,更好地发挥图书馆书目检索系统的功能。

3.3 利用可视化技术实现资源整合的展示

可视化技术是当今信息情报研究领域的热点问题之一。可视化是将各种抽象信息及其关联关系转化为有意义和可理解的视觉表达形式,通过图形、视觉、联想等揭示信息的模式、区别、联系与趋势。特别是在浏览、研究大规模数据时,可视化的形式有助于发现隐藏在信息内部的特征、规律、关联。

可视化技术主要可应用于:

(1)检索结果的可视化。可视化展示的范围包括知识检索的过程及结果。目的在于帮助用户获取信息。除帮助人们克服阅读、认知或理解障碍外,还可提供丰富的用户体验,提高OPAC对用户的吸引力,增加图书馆书目服务的黏度。如通过色彩、关系图和时间轴等可视化技术帮助用户概括、理解信息,揭示信息间关系;通过检索结果的分面化显示为用户实现海量信息资源中的精确导航;以标签云图提供信息的推荐;以三维图像模拟行为,增加用户利用信息的兴趣;通过嵌入地图信息提供文献收藏馆的位置,为用户提供更多的信息等等。

(2)分析结果的可视化。除了传输知识的目的外,可视化还有一个重要的作用,即对信息分析结果的展示、校准及评价提供支持。如:以图表的形式提供文献的出版、发表、引用、借阅等行为,研究学科热点的发展趋势;结合可视化技术及引文分析法,建立科学文献间的学科联系,进行科学文献结构和科学结构的研究,揭示科学发展史及其规律,评价科研成果,研究情报用户的构成及行为等。

(3)知识组织工具的可视化。分类法、主题词表等知识组织工具是图书馆的专业工具,没有受过专业训练的用户很难使用,但知识组织工具构建了严密的知识体系,对知识的导航有着重要的作用,因此,应使用更易为用户接受的方式提供服务。提供知识组织工具的可视化显示有助于帮助用户查找所需资源、揭示知识体系构成。

4 结语

信息技术的发展为OPAC带来了挑战与机遇,用户需求、资源特点的快速变化使得OPAC的发展面临重重困难。在建设OPAC的过程中,应充分重视用户集体智慧的作用,如:对用户行为进行分析,用于资源建设、信息推荐、系统改进,利用Web2.0的技术进行资源建设与信息组织等等,从而将OPAC发展成为规范化的、语义化的、开放化的信息整合平台。

(来稿时间:2013年4月)

标签:;  ;  ;  ;  ;  ;  

基于OPAC的数字资源集成研究_图书馆论文
下载Doc文档

猜你喜欢