清华同方光盘有限公司数字资源集成系统体系结构研究_数字图书馆论文

清华同方光盘股份有限公司TPI协办——数字资源集成系统体系结构研究,本文主要内容关键词为:同方论文,股份有限公司论文,清华论文,体系结构论文,光盘论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

在信息系统的发展过程中,自然形成了两种现象:第一,分布。不同的系统分布于不 同的场地,运行在不同的计算机上;第二,异构。同样目的的系统存在模型的不同、接 口界面的不同、运行平台的不同等多种层次的异构性。信息系统的分布性和异构性造成 了人们使用的困难,客观上形成了无数的“信息孤岛”。因此,让这些系统“互联互通 ”,改善系统的互操作性和易用性,成了人们追求的目标。

当前,数字图书馆资源建设面临的最大困境是如何消除数字资源系统的分布与异构, 如何集成与整合数量巨大、分散无序的数字信息,以解决“数字信息过载”和“数字信 息孤岛”这两大难题。数字资源集成正是在这种背景的驱动下应运而生,它是数字图书 馆数字资源建设发展到一定阶段的必然要求。

“集成”也称为“整合”,包括两方面含义:一是“聚合”(汇合、集合),即运用现 代信息技术将异构的信息资源链接在一起;一是“组成”(融合),即通过各种技术和手 段,将所集合的各种信息资源进行规范、科学地组织,以供方便、快捷、高效地利用。 数字资源集成,也称数字资源整合,是指采用一定的方式将各种不同来源、不同性质的 数字资源组合在一起,形成一个相互关联的、效率更高的资源体系;数字资源集成是一 种对原生和转换的数字资源优化组合的存在状态。

要进行合理有效的数字资源集成,首先需要构建其体系结构。数字资源集成体系结构 即是指数字图书馆数字资源集成系统各要素相互影响、相互作用与结合的构建方式。对 系统体系结构的描述角度可以不同,但其目的是一致的,即以简化、具体、明晰的方式 来展示数字资源集成相互影响、相互作用的主要部分。

本文结合集成技术的发展以及数字图书馆数字资源整合的需要,提出数字资源集成体 系结构框架(见图1)。在这个体系下,数字资源集成包括三个层次:最底层是数据集成 层(基于语法的集成),完成异构和分布数据源在语法层面上的数据集成;第二层是知识 集成层(基于语义的集成),按照既定的知识组织体系和知识本体结构对数字资源进行描 述与组织,形成一个能够高效利用数字资源的知识网络;第三层是服务集成层,即根据 用户的个性化需要,动态地构建出应用系统,为用户提供智能化的知识服务。以下对数 据集成、知识集成和服务集成三种资源集成的体系结构作一探讨和分析。

2 数据集成

数据集成是对异构资源系统中的异质、异类的数据在逻辑上或物理上有机地集中,为 上层应用提供统一的视图和访问方式,以解决多种异构数据资源的互联与共享。数据集 成的方法有两种,一种是Lazy方法,另一种是Eager方法。

所谓Lazy方法,也称数据的逻辑集成。是指系统并不预先进行数据的集成,仅仅是在 全局模式和局部模式之间定义映射,在用户发出查询请求时,通过预先定义的映射,将 查询请求转换到局部数据库上的查询,然后进行执行。查询结果经过合并去重后提交给 用户。

借助中间件模式是目前比较流行的数据逻辑集成方法之一。它是在异构数据库的基础 上,借助于中间件构造一个虚拟的、逻辑的全局数据模式,用户查询请求先提交至中间 件,中间件将采用查询展开技术可以分解成一组在局部数据库上的子查询,然后传播到 各局部数据源执行,查询分解为各异构数据库的子查询模式后再分别执行,在得到各数 据源返回结果后进行综合并映射转换为统一的格式显示给用户,使得用户可以把集成数 据源看为一个统一的整体。(见图2)

所谓Eager方法,也称为数据仓库集成方法。即通过对异构数据源中的数据进行抽取、 分析、综合、转换和装载,使分散的、不一致的数据转换成集成的、统一的数据,建立 一个消除了差异性的统一的数据仓库集合,用户可以从本地数据仓库中直接查询。(见 图3)

比较上述两种方法,Lazy方法的优点在于,所获数据与异构物理数据库的数据之间没 有时滞,保证了数据的新颖性和时效性;其不足即是对一个查询请求,中间件需要访问 多个分布的物理数据库,检索速度慢,效率较低。Eager方法则解决了多个分散的异构 数据源间的不同和差异,为用户提供一个单一、透明的数据使用环境,查询速度快,数 据质量高。但是,这种方法的最大困难就是如何保持数据的新颖与时效性,也就是局部 数据源的数据更新如何传播到全局数据仓库中。目前兴起的网页探针技术可以发现数据 源的数据变化,它采用AGENT技术,对特定的网站进行监控,以便捕获数据源有意义的 变化,并传播到数据仓库中。此外,采用OAI互操作协议获取异构系统中的数据信息, 也是保持数据仓库中数据的时效性的有效方式之一。

数据集成在数字资源集成中的作用表现为在一定程度上解决了异构数据的共享和互通 的问题。特别是Eager方法是去除重复冗余信息的有机整合,既可供用户在一个统一的 界面上进行快速的资源统一检索,也可作为个性化信息推荐的资源基础,是一种具有发 展前景的数字资源集成方式。

将Eager方法应用于数字图书馆资源整合实践的主要是中国人民大学的数字图书馆项目 “数字图书馆个性化信息服务系统”。该系统的子系统“个性化推荐系统”所实现的对 数字资源的主动及个性化的推荐、管理和集成检索,就是建立在基于数据仓库数据集成 方式之上的。

3 知识集成

所谓知识集成,即根据知识服务的需要,按照一定的知识体系对数字资源进行分类、 组织、标注,并通过知识本体技术使相对独立的数字信息产生联系,从而使数字图书馆 的资源成为规范有序的知识网络。知识集成有以下几个显著特点:(1)专业性。针对学 科专业领域,具有学术特色。(2)集成性。集成学科专业领域不同载体、不同类型、不 同渠道的各种资源。(3)可靠性。集成的资源经过严格选择和规范描述。(4)知识性。按 照知识组织体系对集成的知识及知识间的关联进行揭示和组织。(5)智能性。提供方便 的浏览与检索服务,并在知识本体的基础上提供知识导航和实现基于概念的语义检索。

目前,国内外许多数字图书馆开展的学科信息门户的建设,即是知识集成的一种简单 形态。学科信息门户就是将某个特定学科领域内权威的、重要的信息资源(包括工具与 服务)集成到一个整体中,为用户提供一个方便的信息检索和服务入口。应该说,这是 当前数字图书馆资源集成最有价值的工作之一。

但是,目前数字图书馆在知识集成上存在的问题也不少,主要表现为:第一,集成的 手段较为原始。对资源的分类、描述和标引基本上是手工作业,对资源的获取、更新与 维护也基本以手工操作为主。第二,对知识组织体系研究不足。知识组织体系是对资源 的知识内容与知识结构及其相互关系进行描述和组织的机制。以分类法、主题法为主的 传统的知识组织体系在对文献资源的组织与管理上起了重要作用,但它们无论在类目、 结构还是在方式等方面,都无法满足组织与整合动态变化的网络资源的需要。虽然数字 图书馆界一直在努力寻求一种适应网络资源组织的开放的、灵活的知识组织技术机制, 但对其研究与应用尚未结果。第三,对资源的集成尚停留在信息组织层面。目前,在数 字图书馆实践中产生了多种资源整合方式,一定程度上解决了异构数据共享和互通的问 题,但资源之间缺乏语义关联,没有真正、彻底地消除“数字信息孤岛”现象。

要彻底地消除“数字信息孤岛”,必须由数据集成迈进到知识集成。图4是知识集成系 统的体系结构,它建立在数据集成系统的基础上,在知识本体的支撑下实现知识集成, 集成的结果是一个按照一定的知识体系进行组织的、经过标注的数字资源集合(在这里 我们称之为知识门户),同时,集成的过程也是知识本体的发展过程,因此,知识本体 也是知识集成的一个产物。

在对数字资源的知识集成中,知识本体无疑是最重要的技术和方法。知识本体可以看 作是领域知识规范的抽象和描述,是共享、重用知识的方法,目前已经成为一种提取、 理解和处理领域知识的工具,可以被应用于任何的学科和专业领域。(见图5)

如果针对不同学科的资源内容建立起相应的领域知识本体,在此基础上,通过本体的 语义映射和互操作,实现不同领域本体资源系统之间的语义关联,即可将各个相对孤立 的领域知识本体联系成一个立体的知识网络,数字图书馆的数字资源就呈现出具有完整 结构、规范有序的知识地图。

4 服务集成

所谓服务集成,就是以数据集成和知识集成为基础,将不同的知识资源根据用户的需 要有机地集成、链接成一个整体,为用户提供动态的并在时间和空间上一致的服务。服 务集成有四个特点:其一,以用户为中心,对资源动态地聚合和优化重构的过程;第二 ,以资源的规范组织特别是基于语义的组织为基础;其三,对集成的资源能够提供一体 化展示和智能化的获取途径;其四,需要依托网络环境和网络技术才能实现。

WEB SERVICE和GRID计算是实现服务集成的方法和技术框架。目前WEB SERVICE和GRID 计算的理念正被越来越多的人所接受。这两个概念虽然提出的背景不同,但却是殊途同 归。

WEB SERVICE是一种基于XML语言和标准网络协议实现的分布式计算技术,它支持计算 机之间通过网络进行交互,每一个WEB SERVICE都提供一个公共接口,并用机器可处理 的语言(即WSDL)来描述。其他系统与WEB SERVICE的交互行为是通过标准的SOAP协议完 成的。使用WEB SERVICE技术相互连接的软件可以在互联网上自由连通,在WEB SERVICE 框架下,软件模块充分复用、计算资源高度共享的理想将成为现实。可见,WEB

SERVICE有很高的集成能力,它通过界面描述WSDL和协同描述协议SOAP,完全屏蔽了不 同平台之间的差异,无论是CORBA、DCOM还是RMI都可以通过这样一种标准协议进行互操 作,实现了高度的可集成性。图6表示的是WEB SERVICE的概念结构。

GRID计算是指通过高速网络集成大量的计算机系统,以提供单一和一组计算机所不能 提供的数据处理能力和功能。网络计算的理想就是要让用户像使用水和电一样方便地使 用从计算资源(特别是CPU资源、存储资源等)到数据资源、知识资源的各种信息服务。 网格呈现给用户的是一个简单的接口,但在其背后隐藏着一个巨大的集成系统,网格根 据一定的标准协议将网络上的计算资源、数据资源、知识资源等都集成为一个有机的整 体,为分散在各地的用户共享使用分散在各地的资源提供了可能。

由此可见,WEB服务和GRID计算可谓殊途同归,都是为了解决互联网上巨大的资源的共 享和互操作从不同的角度而提出的解决方案,因此在发展过程必然会走到一起。实际上 这种趋势已经在GGG中得到体现,该组织成立了专门的GRID SERVICE小组来研究此事。

总之,数字图书馆是一个以知识资源体系为支撑的一种信息服务与知识服务环境,知 识网格则是一个提供服务集成智能互联的大环境,数字图书馆的知识资源系统应该融入 更广范围的知识网格环境中;通过集成与整合后的知识资源是知识网络提供集成服务的 重要资源基础;通过网格计算技术,使全社会得以方便的获得与共享数字图书馆的知识 资源,是数字图书馆资源集成与整合的发展方向,也是数字图书馆建设义不容辞的责任 。

5 结论

本文提出了数字图书馆数字资源集成的总体框架,它由数据集成、知识集成和服务集 成三部分构成;它们既是数字资源集成的三个发展阶段,也是三种逐次递进又互有交叉 重合的资源集成方式;它们既可以相对独立地存在,在每一集成的层面上都可以构建一 个面向用户的门户,同时也可以共同构成一个完整的数字资源集成体系。数据集成是数 字资源集成的前提与基础,知识集成是数字资源集成的高级阶段,基于知识本体的知识 集成可使数字图书馆众多的资源集合形成知识网络,是数字资源集成的主流发展模式。 服务集成以知识集成为基础,它使数字图书馆数字资源整合的最终目标——面向用户的 知识服务成为可能。

收稿日期:2005-03-20

标签:;  ;  ;  ;  ;  ;  

清华同方光盘有限公司数字资源集成系统体系结构研究_数字图书馆论文
下载Doc文档

猜你喜欢