数字资源整合研究_数字图书馆论文

数字资源整合研究_数字图书馆论文

数字资源整合方式研究,本文主要内容关键词为:资源整合论文,方式论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G250.76 TP393

1 引论

当前,数字图书馆建设面临两大困境:一是如何集成与整合因特网上数量巨大、分散 无序的信息,以解决“数字信息超载”;另一个则是怎样对多种、异质、异构的数字资 源进行集成与重组,以解决“数字信息孤岛”问题。为此,人们期望寻求一种有效的途 径来对数字资源进行组织、管理和提供高效的利用。数字资源整合正是在这种背景的驱 动下发展起来的。

数字图书馆的数字资源从形态上可以分为两类,即以数字模式产生的原生数字资源和 经由数字化转换的数字资源。“Integration”一词,可理解为“整合”、“集成”、 “融合”、“聚合”。目前,“整合”、“集成”两词用得较多,前者为图书情报界广 泛使用,后者则在计算机科学、信息科学界使用频繁。数字资源整合也可称为数据集成 、信息集成,它是依据一定的需要,对分散无序、相对独立的数字对象进行类聚、融合 和重组,使其重新组织为一个新的有机整体,形成一个效能更好、效率更高的新的数字 资源体系。数字资源整合是一种对原生和转换的数字资源优化组合的存在状态。

近年来,在理论探讨和实践应用中产生了不同类型的数字资源整合方式。如果从数字 资源加工、处理的程度及技术方法来概括,大体可分为三个层面的整合,即数据整合、 信息整合和知识整合。数据整合是数据在逻辑或物理上的合并,仅表现为数量上的变化 ,数据之间没有关联;信息整合基于数据集成,是对数据的序化,既包括数据量的综合 ,同时也体现了数据间的关联,但没有语义;知识整合基于数据集成和信息集成,是对 信息的优化,侧重于概念和关系(本体)的重组。上述三种方式在资源整合的实践中并不 是相对独立的,实际的数字资源整合系统是以某一种整合方式为主并兼有其他整合方式 的混合体,这三种整合方式显示出互有交叉重合且逐次递进的数字资源整合的发展过程 。

2 数据整合

数字图书馆在十余年间的建设过程中,根据不同类型数字资源的特征和应用,形成了 众多的依赖于不同软硬件环境的异构资源系统,每一类数字资源,都有一个独立的系统 支撑它的使用和服务。面对不断增长的数字资源类型,系统也在不断增多,这给用户利 用数字资源带来了诸多不便。所谓数据整合,是对异构资源系统中的异质、异类的数据 在逻辑上或物理上有机地集中,提供统一的表示和操作,以解决多种异构数据资源的互 联与共享。数据整合包括数据的逻辑集成和物理集成两种方式。

2.1 数据的逻辑集成

数据的逻辑集成又称为虚拟数据库整合、系统平台整合、数据聚合、数据互操作。这 种方式是将多个异构的数字资源系统集成为一个统一的数据视图,也就是把在不同时间 、用不同技术开发的、具有不同内容和形式的数字资源系统整合起来,屏蔽了异构资源 系统间的差异,呈现给用户的是一个统一的检索界面,用户可一次集成检索多个数字资 源系统。借助中间件和遵从相关检索协议是实现数据逻辑集成的两种主要方式。

中间件模式是目前比较流行的数据逻辑集成方法之一。它是在异构数据库的基础上, 借助于中间件构造一个虚拟的、逻辑的全局数据模式,用户查询请求先提交至中间件, 中间件将查询分解为各异构数据库的子查询模式后再分别执行,在得到各数据库返回结 果后进行综合并映射转换为统一的格式显示给用户,使得用户可以把集成数据源作为一 个统一的整体。此种方式的特点是,中间件层并不存储具体的数据,只存储所有数据的 逻辑集成模式,因此,无需改变原数据库数据的存储和管理方式,是一种集中式管理、 分布式存储的数据集成模式。

通过Z39.50等协议集成异构资源系统(或称跨库检索、联邦检索)是目前数字图书馆整 合馆藏OPAC书目数据库的常用方式。图书馆管理系统一般都支持Z39.50协议,通过Z39.50客户端专用程序,将多个图书馆公共查询系统整合在一个界面上,用户输入一个检索 词,可以同时检索多个图书馆OPAC系统中的书目信息。

数据逻辑集成的优点在于,所获数据与异构物理数据库的数据之间没有时滞,保证了 数据的新颖性和时效性,但其不足也很明显,即对于一个查询请求,中间件需要访问多 个分布的物理数据库,其检索速度显然要比访问一个物理数据库慢,同时受制于网络状 况,访问速度起伏较大,查询结果需多次获取,检索效率较低。

斯坦福大学的InfoBus(Inform ation Bus)和斯坦福大学与IBM联合开发的TSIMMIS(The Stanford-IBM Manager of Multiple Inform ation Sources),清华同方的USP等都是 基于中间件模型的分布式数据库集成系统。美国加利福尼亚大学的数字图书馆项目

Searchlight、美国国立医学图书馆NLM Gateway、加拿大虚拟联合目录vCuc等,则是更 注重Z39.50协议应用的异构数据库检索系统。

2.2 数据的物理集成

数据的物理集成主要指基于数据仓库的集成。虽然数据仓库还没有形成统一的定义, 但与传统的关系型数据库相比,数据仓库是面向主题的、集成的、稳定的、随时间不断 变化、非易失性的数据集合。

数据仓库集成又称为统一物理集成。通过对异构数据源中的数据进行抽取、分析、综 合、转换和装载,使分散的、不一致的数据转换成集成的、统一的数据,建立一个消除 了差异性的统一的数据仓库集合,用户可以从本地数据仓库中直接查询。数据抽取、数 据转换、数据加载是数据仓库建模的关键步骤,简称为ETL。通过ETL从多个数据源中将 数据进行抽取、转换、清理,然后加载到数据仓库中,最终得到统一的、完备的数据仓 库。

一般认为,数据的逻辑集成方式是一种“消极”的数据集成方式,只有在查询需要时 才进行相应的数据集成,并且不对集成的结果予以保留和维护;而数据的物理集成属于 “积极”的数据集成方式,因为数据的集成在相关查询发生前就已经完成并保留在数据 仓库中。

数据物理集成的特点是:数据物理地集成于本地,集成数据与操作型数据相分离,原 来分散的数据库系统仍然可独立地提供检索服务,因而是一种实现异构数据源的集中式 管理、集中式存储的方法。这种方式的优点在于为用户提供一个单一、透明的数据使用 环境,查询速度快,数据质量高;缺点是集成的数据要消耗大量的存储空间,所获数据 具有一定的时滞性。

数据仓库是为了支持管理决策的需要产生的,目前主要用于企业信息服务和企业管理 决策服务。将此种方式应用于数字图书馆资源整合实践的,主要是中国人民大学的数字 图书馆项目“数字图书馆个性化信息服务系统”。该系统子系统“个性化推荐系统”的 “资源集成检索”,就是基于数据仓库的资源整合检索系统,它是将本馆购置的具有重 要使用价值的数据库进行元数据归并而建立的一个稳定的数据仓储。由于系统采用的是 基于数据仓库的数据集成方式,整合后的资源相对稳定,既可作为个性化推荐的资源基 础,同时也可供用户进行快速的统一检索,大大提高了数字资源的利用效率。为进行信 息挖掘和数据挖掘,提供深层次的知识服务,使数据仓库发展演变为知识仓库,提供了 一个简洁精练的操作平台。基于数据仓库的物理集成方式比数据逻辑集成的整合方式更 能有效提高检索速度,同时能够进行个性化推荐服务。但需要解决几个难题:①数据抽 取。需要抽取的常常是数据源的部分数据,在不知道源数据的结构的情况下,如何正确 地获得需要的数据是一个问题。②冲突消解。指如何有效消除数据冗余、消除数据的不 一致性、剔除不正确的数据,在模式之间建立转换与映射等。③怎样建立数据主动更新 、自动转换和增量更新机制,使元数据仓库得以动态地持续维护和更新。④要建立为各 个异构元数据格式提供易于比照、映射、易于语义转换的公共元数据核心集,构建起良 好的元数据管理系统。

3 信息整合

所谓信息整合,主要指通过某种机制或标准,集成与描述不同性质、不同来源和不同 格式的数字资源,使相对独立的数字信息产生联系,实现学科领域知识结构的关联以及 与具体资源的链接。这种方式又可以分为基于信息链接的整合和基于DC元数据的整合两 种方式。

3.1 基于信息链接的整合

基于信息链接的整合是指对不同级次、不同载体和不同来源的数字资源进行功能上的 优化组合。其中,不同级次、不同载体的整合是一种对资源的纵向整合方式,主要用于 本地数据库资源;不同来源的整合是一种对资源的横向整合方式,主要用于网络数据库 资源。

所谓不同级次、不同载体的整合,是将数字资源系统中的一次文献、二次文献和三次 文献以及文本资源、图片资源、音频资源、视频资源之间进行纵向连接的方式。比较典 型的应用是基于OPAC书目资源系统的纵向整合。即将OPAC系统中的各类资源对象及其相 互间的关系进行融合、类聚,以书目数据为核心,向全文、目次、文摘、书评、音视频 等多媒体信息资源扩展,通过OPAC既能检索到馆藏印刷型图书和期刊的书目信息,也能 获得相应电子图书、电子期刊的全文以及相关的音视频资源。

这种整合方式的好处在于:可构建一个整体的、立体化的、全方位的OPAC资源体系, 便于用户使用。其实现方式是通过在MARC记录中添加856字段,录入数字资源的访问地 址和获取方式。但是,856字段的添加需要人工实现,耗时耗力,效率低。怎样实现856 字段的批量链接是提高整合效率的关键。

所谓不同参考来源资源的整合,是指将不同来源、多种类型数字资源系统中文献间的 相互引证、相关参考的关系进行横向链接的方式。典型的应用是ISI学术资源整合体系( ISI Web of Knowledge),该整合体系以Web of Knowledge为核心,不仅有效地整合了 自身出版的一系列数据库,建立了包括期刊、专利、会议录在内的多种类型文献之间的 引证与参考的关系,而且还实现了与其他出版公司的数据库、原始文献、事实数据、图 书馆OPAC等数字资源之间的相互链接。ISI学术资源整合体系把绝大多数文献紧密地联 系起来,从客观上体现出学科之间的交叉渗透、论著之间的继承与发展的内在联系,从 而构成了一个网状的、海量的学术信息资源体系。

ISI学术资源整合的实现主要用利用了SFX(Special Effects Cinematography)技术。

SFX实际上是一个基于开放的统一资源定位器(OpenURL)标准的上下文相关的参考链接系 统。运用SFX,可以把不同来源和不同通信协议的数字信息完全融合起来,使不同类型 、不同格式的数字资源实现无缝链接。由于SFX依据OpenURL标准,所以通过SFX可以将 所有遵循OpenURL规范的数据库都整合起来。

3.2 基于DC元数据的整合

基于DC元数据的整合是采用元数据标准(DC/XML/RDF),描述与组织网络资源,构成基 于元数据的有序的网络资源整合检索系统。DC元数据的简单易用、可修饰性、可选择性 、可重复性、可扩展性等优点,特别是其侧重描述数字对象的内容、内部结构方面的特 点,较好地解决了数字资源的描述、控制和管理等问题。

基于DC元数据资源整合的功能主要体现在两方面:一是能较为准确地描述资源,使无 序的网络信息变为有序的资源系统,便于用户发现资源、识别资源和评价资源;二是通 过与XMI/RDF的结合,使不同语言、不同学科的资源间具备语义上的相互可操作性,为 基于知识(语义)的资源整合奠定基础。DC的描述语言是XML,XML的特长主要是从结构和 内容来描述文献,但问题是其不具备语义描述能力。为此,W3C推荐以资源描述框架RDF 标准来解决XML的语义局限。XML和RDF的结合,不仅可以实现数据基于语义的描述,也 充分发挥了XML与RDF的各自优点,便于数字资源的检索和相关知识的发现。

基于DC元数据的整合的典型应用即是数字图书馆的各种类型的学科信息门户。国外如 英国的社会科学信息门户(SOGIG)、经济学科信息门户(Biz/ed);德国的地球科学、地 理科学信息门户(Beguile)、数学学科信息门户(MathGuide);澳大利亚的工程学科信息 门户(AVEL)、农业学科信息门户(Agrigate)。国内的如中国国家科学数字图书馆(CSDL) 生命科学、资源环境学科、数学物理学科、化学等学科的信息门户;中国人民大学“经 济学学科知识门户”等。

4 知识整合

所谓知识整合,即利用知识本体实现数字资源的概念/语义的组织。如前所述,DC元数 据标准虽然可以帮助发现所要的资源,但无法发掘该资源内所含的内容,因为在元数据 标准中用于内容描述的元素十分有限;XML和RDF的结合,虽然建立了描述层的格式与语 法环境,可以实现数据基于语义的描述,但这两个层次都不能赋予数据以语义,即数据 的含义和各种数据之间的联系。也就是说,单纯的元数据不能完全解决异构资源的语义 异构问题,也不能完全地、系统地体现资源对象间复杂的关联关系。所以,基于知识本 体的知识组织引起国内外数字图书馆界和计算机界的特别关注,成为数字图书馆数字资 源整合的一个新兴的研究与应用领域。

本体论原是表述哲学理论的术语,用于描述事物的本质,现广泛应用于知识工程、知 识表示、信息检索、知识管理等领域。对本体的经典解释是Studer于1998年提出的“本 体是共享概念模型的明确的形式化规范说明”。该定义包含概念化(conceptualization )、明确(explicit)、形式化(formal)和共享(share)四层含义。“概念化”指通过抽象 出客观世界中一些现象的相关概念而得到的概念系统所蕴涵的语义结构;“明确”指所 使用的概念及使用这些概念的约束都有明确的定义;“形式化”指本体是能被计算机处 理的;“共享”指本体体现的是共同认可的知识,反映的是相关领域中公认的概念集。

简单地说,知识本体即描述概念及概念之间的关系,知识本体的实质即概念及其间的 关系。概念包含着特殊和单一的属性,在逻辑上形成“种—属—具体个体”范畴。这三 类属性范畴是密切相关的;概念之间还存在同一关系、从属关系、并列关系、矛盾关系 和交叉关系等复杂关系。概念之间的各种关系使人类知识形成一个相互关联的立体网状 体系。因此,我们可以这样理解知识本体:知识本体是反映概念及概念之间关系的知识 系统。

将知识本体融入数字图书馆的资源组织,可以起到如下作用:

知识本体提供了对领域知识的规范描述和共同理解,使得知识可以共享,并可对这些 知识进行重用或复用。例如,把某一学科领域知识抽象成一套概念体系并使其“明确” 、“形式化”和“共享”,就构成了这一学科的领域本体。领域本体描述了学科中的概 念、概念的属性、概念间的关系以及属性和关系的约束。通过某一领域的本体,就可将 该领域的资源组织起来。如果一个组织构建了一个以专业分类法和主题词表为基础的专 业领域本体,如法学本体、经济学本体等,其他组织可以共享和复用。

知识本体使得不同领域的知识体系化、结构化、形式化,为实现数字图书馆数字资源 的整体化、一体化的整合奠定了基础。目前数字图书馆的资源整合都是在多个微观层面 上进行的,如上述的OPAC系统、数据库系统、网络资源等不同类型的资源整合,或是某 一领域的如经济学科、生命科学、数理科学等学科的资源整合,这些微观系统的资源组 织都是依据某一单纯的元数据方案,难以体现资源间复杂而多重的内在联系。实际上, 不仅微观资源系统内部存在关联,不同微观资源系统之间也存在多种关联,人类知识本 是一个大的宏观的知识网络。如果针对不同学科的资源内容建立起相应的领域知识本体 ,在此基础上,通过不同知识本体的语义映射实现异构资源和系统之间的语义联系,即 可将各个元数据方案联系成一个立体的知识网络,数字图书馆的所有资源就呈现出具有 完整结构、规范有序的知识地图。

怎样构建知识本体?比较有效的方法是以现有本体为基础构造出新本体。分类表、词表 等传统的知识体系就是简单的知识本体。但由于传统分类法与主题词表中的术语是规范 的(不能用自然语言表达)、知识点是线性的(不能反映概念网络)、内容结构滞后(难以 经常修订)、语义简单、缺乏对所应用资源的针对性等不足,因此在将其应用于数字图 书馆的知识组织时,需要进行改造。此外,元数据方案也是本体的简单表现形式,根据 不同类型的资源制定相应的元数据方案这一过程就是知识本体的构建过程。目前,怎样 应用新的模型,采用新的方法,对传统知识本体进行分析,转换为计算机可以理解的形 式化本体,构筑成形式本体的关系模型,以及对构造知识本体的语言、工具和方法等相 关领域的研究,是国内外数字图书馆界研究的重点。

5 结论

数字资源整合是数字图书馆数字资源建设发展到一定阶段的必然要求。在数字资源整 合的实践中,产生了数据整合、信息整合和知识整合三种逐次递进又互有交叉重合的整 合方式,这一数字资源整合的发展过程,反映了由基于集成服务的数字图书馆向基于面 向用户提供知识服务的数字图书馆转型的轨迹。同时,这三种整合也是资源整合的三个 不可缺少的方面,他们共同构成了完整的数字资源整合系统。

数据整合在一定程度上解决了异构数据共享和互通的问题。但数据的逻辑集成方式只 是实现了数据在逻辑上的综合与合并,是多个异构系统资源的简单相加,仅体现出数据 量的变化,数据作为资源其间没有关联,更没有语义,因此数据的逻辑集成是信息组织 的低级阶段。而基于数据仓库的物理整合则是去除重复冗余信息的有机整合,可为进一 步实现知识挖掘服务提供基础,是一种具有发展前景的数字资源整合方式。

信息整合则体现了数字资源质的优化,是信息组织的高级层面。这种整合方式虽然在 一定程度上体现出资源对象间的关联,但没有解决语义异构问题。基于元数据的整合方 式使数字资源有了基本的微观结构,为解决语义异构并从宏观上实现资源的知识整合奠 定了基础。

知识整合是数字资源整合的高级阶段,它不仅能够实现数字图书馆异构系统局部资源 的功能优化,而且可使数字图书馆众多的资源集合形成一张巨大的知识网络,使数字图 书馆的最终目标——面向用户的知识检索与知识服务成为可能。基于知识本体的整合是 数字图书馆资源整合主流发展模式,其应用前景非常广阔,有待于我们认真进行研究和 探索。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数字资源整合研究_数字图书馆论文
下载Doc文档

猜你喜欢