下一代数字图书馆--数字图书馆网格_数字图书馆论文

下一代数字图书馆——数字图书馆网格,本文主要内容关键词为:数字图书馆论文,下一论文,网格论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G250.76 [文献标识码]C [文章编号]1008-0821(2010)04-0073-03

1 概述

数字图书馆(DL,Digital Library)技术是研究传播、存储、查询及分析各种数字数据的理论和实践的技术[1]。数字图书馆作为知识的存储者,可以被看做是复杂的信息系统,帮助人们解决众多科学、技术、方法、经济、法律等方面的问题。近些年,数字图书馆技术飞速的发展起来,但同时也面临了许多挑战,如信息的语义、信息整合及大量的不同种类的数据的标注等诸多方面问题。

数字图书馆已经在众多科学机构和大学中发挥越来越重要的作用。数字图书馆已经成为知识和力量的象征和保证。当前的数字图书馆建设都是在与出版商协商后,获得许可的基础上建立起来的,从而取代了订阅印刷版期刊。同时为数不少的大学将数字图书馆与传统印刷版式图书馆相结合,成为“混合图书馆”。数字图书馆以其存储量大、占地面积小、服务更快捷成为知识保管的重要方式。

但对于体积日益膨胀,信息整合度要求越来越高的数字图书馆,也面临着诸多方面的挑战,如:资源发现、统一的标准接口、数字图书馆管理、版权与许可以及成本优化。

在多种异构数据源中进行资源发现是数字图书馆技术中需要解决的一个关键问题。网格技术的出现使将多个异构、独立存在的数字图书馆整合成一个全球化数字图书馆成为可能。数据网格技术就是这样一个实例,它将多个独立的数字图书馆联合起来,使用共同的名字空间,并遵守共同的访问机制。这充分的证明了,即使是在不同的技术和政策下,消除异构数据源间的孤立性也是完全有可能的。

2 网格技术

网格计算是使用通过网络连接在一起的大量分散计算机资源从而大规模计算问题的技术[2]。网格计算涉及共享异构资源,如不同的平台、不同的硬件和软件架构或是不同的计算机编程语言。这些资源位于不同的地理位置,从属于不同的管理域,提供开放标准。使用这些资源,一定会涉及资源的虚拟化。

从功能上,可以将网格分为以下几种:

(1)计算网格,主要应用于大规模计算上;

(2)数据网格,控制和共享大量分布式数据;

(3)设备网格,连接大量地域上分散的设备仪器,实现远程使用的目标。

其中,数据网格是一个以数据为中心的网格计算系统,控制共享和管理大量分布式数据,往往与计算网格紧密结合[3]。

许多科学和工程应用需要访问大量的分布式数据,甚至可能是PB级的数据量。并且这些数据的规模和数量近些年仍在持续的迅速增长,新的仪器和传感器越来越多的可以在线使用,计算的代价成本和数据存储代价降低而性能却提高了,新型科学计算工具不断地被开发出来。

这里,我们提出各种不同形式的数字图书馆的一体化概念。网格计算允许多种数字图书馆在网格环境下彼此互联,从而支持一体化的访问数字资源。

通过任何连接到图书馆网格节点,用户可以访问数字图书馆资源从而查询到所需的信息。在对所需信息资源进行定位后,数据网格将进行副本选择,以此来提供下载速度最快的节点调度给用户。这里是考虑了下载速度的因素,也可以根据不同的业务要求选择不同的标准进行调度。最后将数字文档传输给用户。这样,图书馆网格就完成了一次一体化查询。很明显地看出,网格环境下的数字图书馆有助于全球化资源的检索、共享和跨各种异构资源的协同服务。

图1为在网格环境的支持下,不同地理位置的数字图书馆呈现全球化的视图。每个数字图书馆在网格中相当于一个资源节点,这样也就实现了全球化数字图书馆的资源共享和一体化管理与访问。

图1 全球化数字图书馆视图

3 数字图书馆系统的需求

本文的目标是构建一个软件工具包,它可以帮助用户根据用户的需求建立数字图书馆并将需求实例化,然后提交从现有资源中获得的新的文档和内容。

数字图书馆的核心功能集中包括查询、检索、获取信息对象,这些核心功能是任何一个数字图书馆都应提供的[4]。这些功能对用户的每一次提交的格式通常都是不同的,因为它们应用了不同的词汇表和规则进行的变异。除了这些核心的功能模块,数字图书馆通常还可以满足用户的某些特殊要求,从而提供定制服务。

新的机构或组织可能会要求在数字图书馆的生命周期内参与改建,并且希望通过添加额外的功能来满足新的需求。一个数字图书馆必须是动态的、自适应的,以此来应对各种新的环境。

但另一方面,建设一个数字图书馆是相当昂贵的,在资金、基础设施和人力资源方面的要求都非常高。许多组织和机构相信可以通过采用一个数字图书馆的联合模式来克服这个问题。这个联合模式就是将多个数字图书馆放在网格环境下,每个数字图书馆都是网格中的一个资源节点,统一由网格进行管理和调度。所以在这种联合模式下,多个组织可以共享网格中所有成员节点的资源来构建一个针对需求的新数字图书馆,这样既避免了资源的缺乏和单一,又节省了重开发的各项开销。同时,由于网格中的各资源节点充分自治,所以如果需要的话,各组织或机构可以完全掌控自己的资源,决定参与网格共享的程度,这也是一种资源保护的重要手段。

数字图书馆用户要求服务质量是有保证的,比如对服务的可执行性、可靠性和安全性等方面的要求。访问内容和服务往往是受到访问策略的限制的。这些都说明,例如,一个对象集合只提供给一组特定用户查看,或者一组服务只在一个特定时间段提供免费服务。以上这些都是控制策略。

4 网格中间件与数据网格

网格计算通过联合网络中不同的资源和各个孤立的计算设备使得计算能力得到了极大的提高。当电脑或者其他设备连接到网格时,网格上的其他计算机将会查询其组件,并开始与其共同处理和计算相关工作。这样,除了数据仓库,网格中的计算机闲置计算能力得到了利用,大大地提高了计算能力,同样在数字图书馆网格中也适用[5]。

数据网格体系结构是为了整合网格环境下的数据存储设备和提供数据管理服务提出的。数据网格由分散的数据资源和计算资源构成,这些资源位于不同的地理位置,但提供统一的访问入口进行访问。

网格中间件是网格设施中的关键技术,它是一个非常宽泛的概念,泛指在网格基础设施和网格应用之间提供的通用服务。它通过解决大范围、异构、分布等网格环境下的问题,提供开发网格应用系统的统一模型。数据网格中的网格中间件主要负责异构资源的资源管理和数据访问等方面工作。

多种不同网格中间件都可以很好的支持网格环境下的不同应用的开发,如Globus、Legion、Unicore等等[6]。其中Globus是应用最广的开源系统。在本文提出的框架结构中采用的就是Globus工具包。它提供了安全性、资源管理、数据管理和信息服务等主要功能。

基于Globus的数据网格由两层组成。下层是数据网格的核心服务,高层则是应用组件。如图2所示的数据网格体系结构。

图2 数据网格体系结构

其中存储系统是基础数据网格组件。如HPSS、DPSS这样的文件系统都被包含其中。数据访问服务是一组关于访问策略的集合,保证了数据在存储系统中的管理和传输。

元数据服务是用来管理和访问元数据的,包括数据网格的一些信息。元数据是一些用来描述在数据环境下文件和信息的数据,也就是通常说的——描述数据的数据。复制元数据可以用来管理数据对象的复制。

资源管理负责保障存储系统、网络和其他数据网格资源端到端的访问效率,技术评估测试的效率,以及一些重要资源的管理。网格安全基础设施面向大规模用户群体提供认证机制和授权环境。

副本管理是数据网格能够成功处理大量数据的关键部件。它负责决定何时何地产生副本,产生的这些副本用于提供资源的定位信息。

5 数字图书馆网格框架

综上所述,将网格技术与数字图书馆技术相结合具有明显的好处,具体体现在以下几个方面:

(1)网格有利于数字图书馆的信息集成,避免数字图书馆的反复重构;

(2)网格为数字图书馆提供统一平台,为用户屏蔽操作的复杂性和资源的异构性;

(3)网格有利于实现数字图书馆的资源共享,提供收放自如的访问机制。

所以本文在传统的数字图书馆的单一模式之上,针对数字图书馆的发展新需求,设计了网格环境下联合模式的数字图书馆框架结构,即数字图书馆网格框架结构。网格面向服务的体系结构十分适合构建联合模式的数字图书馆。网格服务和Web服务在数字图书馆中扮演着十分重要的角色[7]。表1中列出部分服务,这些服务由数字图书馆网格中的不同部件提供。

图3 数字图书馆网格体系结构

6 系统设计与实现

在网格组织中,网格门户服务将网格用户和网格功能相衔接,提供给用户基于Web界面的访问接口,方便用户使用网格中服务和资源。同时网格门户还具有连接网格和非网格环境的功能。

在该框架中,使用Globus作为网格中间件,而网格门户则负责网格服务与最终用户之间的交互。这种结构有利于屏蔽各种不同数字图书馆的软件异构性。使用Globus和GridSphere这样的网格技术可以将多个数字图书馆统一运行在同一模式下。此外还需考虑以下几方面,进一步完整该框架:

(1)为了使用网格服务每个网格成员必须搭建基础网格结构,比如安装Globus工具包和数据网格软件包;(2)每个加入到网格的成员都应能够识别共享一种数据格式;(3)在启动副本管理机制之前,网格数据存储在个人存储系统中,用来描述这些数据的元数据存储在元数据库中。系统内的数据都应使用XML语法进行描述;(4)ISBN将作为一个重要的索引关键字;(5)使用GridFIP作为本框架的数据传输协议。

与传统的数字图书馆相比,这种联合模式的网格数字图书馆具有以下几点优势:

所有的组织或机构都可以成为网格数字图书馆的用户,并且只需要通过网格门户提交服务请求即可获得服务,不受传统模式下单一数字图书馆的限制;

由于在网格数字图书馆中加入了副本管理,不仅可以快速的返回给用户资源定位信息,还可以在结果集中选择最高效的资源,满足用户对服务质量方面的要求;

通过网格技术不仅可以将多个独立的数字图书馆运行在一个联合模式下,对用户提供一个统一的访问的借口和界面,还可以在调度各个分布式资源时根据整个框架的性能加入负载均衡的控制,从而更加高效的为用户提供服务。

7 结论

本文提出一种数字图书馆网格框架,用来解决各个异构分布式数字图书馆的整合问题。该框架不仅能够提供高效的资源管理、数据存储和统一的用户访问接口,还加入了对服务质量的控制,从而给传统数字图书馆用户提供了全新的服务体验。下一步工作主要将考虑该联合模式下的数字图书馆网格的安全问题。

标签:;  ;  ;  ;  ;  

下一代数字图书馆--数字图书馆网格_数字图书馆论文
下载Doc文档

猜你喜欢