基于网格技术的虚拟图书馆_虚拟技术论文

基于网格技术的虚拟图书馆,本文主要内容关键词为:网格论文,图书馆论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号TP393 文献标识码A 文章编号1007-7634(2004)04-0482-06

1 引言

随着局域网、地区网、国际互联网的功能不断扩充,性能不断提高,图书馆正在发生着重大的变革。虚拟化的数字图书馆正是随着电子技术、网络技术应运而生。伴随着全球网络化的迅速发展,特别是Internet的出现,已经构成了人类有史以来的最大的信息资源网络。虚拟化的数字图书馆取代传统图书馆,将是社会发展的必然。在网络运载的虚拟图书馆系统,可以不受时间和空间的限制,随时随地进行各种自己需要的信息检索、存取活动,将节约大量时间,提高获取信息的效率。虚拟图书馆是一种知识管理实体,它将传统图书馆范畴与远程通信和计算机技术的应用有效地结合起来,通过将图书馆自身拥有的资源、图书馆母体机构专有的信息、外部世界范围内的信息资源无缝地整合,促进每个用户快速地存取和有效地使用信息,网络化使空间变小。图书馆的数字化、网络化又给全球化提供了可靠的保证,所以INTERNET和正在实施的网格计划可以把世界各地彼此分散的图书馆推向全球一体化。不久的将来将会出现一个数字化、虚拟化的全球图书馆。网格是国家级高性能计算和信息服务的战略性基础设施。它的目标是将地理上分布、异构的各种高性能计算机、数据服务器、大型检索存储系统和可视化、虚拟现实系统等通过高速互连网络连接并集成起来,共同完成一些缺乏有效研究办法的重大应用研究问题。它不仅实现了对各种计算资源的访问,而且实现了对所有数据资源的统一访问。数据密集型计算的飞速发展对信息处理能力的要求越来越高,从科学研究到军事决策、战场仿真;从分子生物学到核模拟;从数字地球计划到海湾战争,人们迫切需要缩短从原始数据提取高层信息,并进一步完成高层信息处理的时间。这就需要扩充网格的数据管理能力,建立一种有效的数据管理体系结构,将超级计算机的数值计算能力和数字图书馆的数据处理及发布能力有机结合起来,为科学应用在网格中实施资源发现和信息发现并进行高效的数据访问提供有力支持。

2 网格技术及其特点

网格将分布在不同地理位置的计算资源包括CPU、存储器、数据库等,通过高速的互联网组成充分共享的资源集成,从而提供一种高性能计算、管理及服务的资源能力。简单说,传统INTERNET实现了计算机硬件的连通,WEB实现了网页的连通,网格则适应了因特网应用的新发展,试图实现互联网上的所有资源的全面连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等等。现在网格已经在许多实际项目中得到了应用,如:

①生物医学:网格可提供药品开发人员所需的计算能力,用以研究药物和蛋白质分子的形态与运动。②工程:波音、福特、BMW公司都在尝试用网格计算进行复杂的仿真与设计。③数据搜集/分析:制造、石油加工、货物运输、甚至零售企业都要维护昂贵的设备,时常会出现问题,造成不好的结果。同无线传感器一样,网格能够存储和处理所有交易。④娱乐产业:特殊效果设计。⑤超级视频会议:Access Grid公司已能帮助美国大学举行视频会议,数十名研究人员可以通过大屏幕进行交流。

网格技术研究工作可以分为三个层次,即计算网格、信息网格、知识网格。计算网格是网格的系统层,它为应用层(信息网格、知识网格等)提供系统基础设施,在网格技术中起着基础的作用。下面首先阐述了网格的基本构架。

网格构架——Globus的体系结构。网格构架包括系统基本组件及其作用和功能,以及这些组件之间的交互。图1以Globus为例,介绍网格的体系结构。

图1 Golubs协议结构及与互联网协议的关系

Globus的网格计算协议建立在互联网协议之上,以互联网协议中的通信、路由、名字解析等功能为基础。G1obus的协议分为五层:构造层、连接层、资源层、汇聚层和应用层。每层都有自己的服务、API和SDK,上层协议调用下层协议的服务。网格内的全局应用都通过协议提供的服务调用操作系统。

2.1 构造层——本地控制接口

构造层的功能是向上提供网格中可供共享的资源,如计算力资源、存储系统、目录、网络资源等等。资源可能是物理的,也可能是逻辑实体,如分布式文件系统、计算机集群或分布式计算机池等。在构造层的实现与所支持共享操作间,有紧密而细微的互相关性。构造层的功能越多,将有越复杂的共享操作;同时,对构造层元素的需要越少,则网格构架的设置越简单。经验表明,资源最起码应该实现查询机制和资源管理机制。前者允许查询其结构、状态和功能,后者提供分发服务质量的控制。Toolkit中相应组件负责侦测可用的软硬件资源的特性、当前负荷、状态等信息,并将其打包供上层协议调用。

2.2 连接层——轻松而安全的通信

连接层是网格中网络事务处理通信与授权控制的核心协议。构造层提交的各种资源间的数据交换都在这一层的控制下实现。各资源间的授权验证、安全控制也在这里实现。在Toolkit中,相应组件采用基于公钥的网格安全基础协议(GSI)。在此协议中提供一次登录、委托授权、局域安全方案整合、基于用户的信任关系等功能。资源间的数据交换通过传输、路由及名字解析实现。

2.3 资源层——单个资源共享

资源层的作用是对单个资源实施控制,与可用资源进行安全握手、对资源做初始化、监测资源运行状况、统计与付费有关的资源使用数据。资源层协议分两种基本种类:信息协议用于获得关于资源的结构和状态,如其配置、当前负载和使用策略;管理协议用于协调对共享资源的存取,如,资源需求以及要执行的操作如建立进程、存取数据。在Toolkit中有一系列组件用来实现资源注册、资源分配和资源监视。资源层协议调用构造层函数存取和控制本地资源。资源层协议与所有单个资源相关。资源层协议必须有相同性质且被广泛配置。

2.4 汇聚层——多资源协调

汇聚层主要作用是将资源层提交的受控资源汇集在一起,供虚拟组织的应用程序共享、调用。为了对来自应用的共享进行管理和控制,汇聚层提供目录服务、资源分配、日程安排、资源代理、资源监测诊断、网格启动、负荷控制、账户管理等多种功能。如图2所示,图2显示了汇聚层协分配API和SDK(中间层)用于资源层管理协议,操纵底层资源。汇聚层组件可以根据特定用户组或应用域需求裁减。

图2 汇聚层和资源层协议的实现

Toolki还有许多基于全局连接和资源协议,如元目录服务、LDAP信息协议、复制目录和扶植管理服务及用于支持管理网格环境中的数据复制、在线信任仓库服务、DUROC协分配库等。

2.5 应用层

应用层是网格上用户的应用程序。应用程序通过各层的API调用相应的服务,再通过服务调用网格上的资源未完成任务。应用程序的开发涉及大量库函数。为便于网格应用程序的开发,需要构建支持网格计算的库函数。网格结构的最上层包含了用户应用。图3显示了应用程序员的网格结构视图。应用以任意层定义的服务建造。在每一层,已经定义了协议提供有用服务的存取,如资源管理、数据存取、资源发现等。

图3 网格的应用人员视图

3 构建基于网格技术的虚拟图书馆的设想及关键问题

网格能够充分吸纳各种计算资源、数据资源、知识资源,并将它们转化成一种随处可得的、可靠的、标准的、同时还是经济的信息处理能力。2008年北京奥运会的计算机信息处理系统将应用网格,IBM、Oracle、SUN、HP都已推出了一系列可应用网格的产品。如果能利用网格技术建设虚拟图书馆,可以解决目前图书馆建设中的很多难题。有了网格的巨大信息处理能力,可以把全国乃至全球的图书馆及信息资源联结在一起,实现信息的高度共享,各地不必建设那么多那么大的服务器机房,更不需要耗费大量的资金建设那么多传统的图书馆。所有的信息资源均来自网格,欠发达地区的图书馆建设可以实现跨越式发展,只要配备个人电脑,接入网格,就可以获得与全国一样的信息处理网格服务,不需要知道哪台计算机在处理,不需要知道数据存储在哪里,网格总是以最快的速度、最经济的方式返回处理结果。网格将带来永不停顿的服务。

然而,要实现网格上的虚拟图书馆,还需要解决以下几个关键问题。

3.1 网格应用开发环境

网格开发环境必须能在所有当前及将要出现的硬件和软件技术基础上操作。一个类似的比拟是Web。Web用户并不关心他们访问的服务是在Unix还是在NT平台上。从客户浏览器的观点来看,仅仅只是希望Web服务迅速和有效的处理他们的要求。同样,网格用户并不希望被低层硬件和软件结构烦扰,用户只关注于向合适资源提交应用,并能迅速获得正确的结果。因此理想的网格环境应提供以无缝的方式访问可用资源,使物理不连续性如平台、网络协议和管理界限的差别能变得透明。

3.2 中间件技术

在网格技术中,一个重要的组成部分是中间件技术。中间件是解决将企业多种操作系统、不同数据库、异构的网络环境以及数个应用等结合成一个有机的协同工作整体,真正实现企业跨平台分布式应用的解决之道,它用自己的复杂换取了企业应用的简单。

网格中间件提供服务,使网格用户通过资源代理或网格使能应用和资源连接,所提供的核心服务有远程进程管理,资源协分配、存储存取、信息(目录)、安全、认证、资源保留和交易等的服务质量。我们甚至可以说,网格计算是一种中间件。现有的资源,诸如网络、超级计算机、服务器、操作系统、数据库、文件系统等都是网格计算的底层设施,网格计算之上是应用程序,这些应用程序通过网格计算调用、共享网上资源未完成任务,因此,甚至可以把网格计算看成是一种中间件。

3.3 元数据

随着互联网的迅速发展和网络信息资源数量、类型和种类的激增,人们发现在海量的信息环境中,信息的查询和检索越来越困难,网络上充斥着各种各样的信息,但人们却不知道怎样才能找到自己所需的信息。为了有效的解决人们方便的查找网络信息资源这一问题,元数据这一概念就被提了出来。Metadata(元数据)被称为关于数据的数据(data about other data),它是专门用来描述数据的特征和属性的、提供某种资源的有关信息的结构数据(structured data),也就是说,元数据是促进Internet信息资源的组织和发现的数据。元数据作为描述网络信息资源的工具,往往有多个按照规定编码语言和编码方式对信息资源属性进行特征描述的元素组成,这些元素按照规定的相互联系和整体结构形成具体的元数据格式,应用于特定的主题或专业领域。元数据包含的数据元素集就是用来描述一个信息对象的内容和位置的,以便能在网络中方便的查找和检索信息。从元数据提供者的角度来看,元数据能改进网络信息资源的检索能力(特别是检索的精确性),以及信息资源的控制和管理问题。

3.4 知识管理

正在兴起的网格技术,为人们对知识信息的需求由文本单元向知识单元深度发展提供了实现的可能性,同时也要求人类采用新的知识组织方式来建立知识管理的大平台。它将改变人类知识生产、知识传播、知识创新、知识分配的传统方式。网格技术将会对知识管理带来革命,并将引发知识管理学的诞生。构建网格的目的在于实现人类知识的有效利用。它不仅对网格管理软件提出了技术要求,同时也对知识管理的理论和方法提出了挑战。传统的图书情报学理论与方法难于对人类迄今的全部知识成果进行全面的梳理与组织,构建起“知识体系”的框架,并确定各个知识单元之间的逻辑关系。因此,图书情报学的发展已经到了一个新的转折点,应该突破传统的专业角色和视野来总结和发展情报学,朝着建立“知识体系科学”的目标发展。知识网格对知识管理的挑战要求解决以下问题。

(1)构造知识元结构。对人类全部文明成果在现有的学科分类体系的范围内,进行系统的整理、甄别、认定,以确定各学科的基本知识元,可组织专家就若干个成熟的基础学科的知识元认定进行实验。

(2)开展知识链理论与方法研究。开展知识链理论与方法研究,实现知识组织结构由等级式向网络式转变。研究知识元的链接,实现由知识元组成新的知识结构。知识元之间的不同层次、不同学科的链接,是实现新知识生产、知识传播、知识有效利用革命的核心。

(3)建立知识平台。知识元的独立性与知识元的链接性是知识创新的途径之一。知识链的实现将依赖于知识平台的建立。知识平台将是实现知识创新革命的前提,将构建起整个科学分类体系,包括对诸多的综合科学和交叉学科框架的构建,使人类的知识成果系统化、有序化。

(4)提高隐性知识向显性知识编码转变的技术层次。隐性知识向显性知识编码转变是知识生产、知识学习、知识利用的基础。知识创新标引与创新检索同用户需求具有耦合共振性。解决知识创新标引与创新检索是知识不时滞的推动力。

(5)知识网格是“知识巨脑”。解决输入需求信息,输出特定知识的结果,是推动知识管理革命的目标。知识网格的建立须由情报管理专家、科学管理专家以及各学科的专家通力合作,才有可能实现。

(6)建立“知识管理学”。开展“知识管理学”研究,并在条件相对成熟的时候,考虑建立“知识管理学”。这一目标的实现将会把单个人直接与整个人类知识成果连接起来,它与引文索引的本质区别在于它不是文献链而是知识网络链。它会使知识的创新以无法预料的速度迅猛地增长。

3.5 虚拟现实技术的利用

虚拟图书馆是虚拟现实技术的最典型应用之一。目前大多数图书情报学家认为虚拟图书馆就是数字图书馆。严格地分析起来,两者的技术含量不尽相同。广义地说,数字图书馆是指利用计算机技术对文字等符号进行二进制编码转化为可视文图的图书馆,它可能还有馆舍和藏书。但虚拟图书馆是由许多分支网络通过网格构成的一个网络中心,它是无型而虚拟的图书馆。我们只能感觉到它的存在而不能真正地看到这个全球最大的图书馆“庐山真面貌”。当用户的个人电脑通过ISP服务商接通到网格后,他们就可以随心所欲地漫游全球阅览信息资源了。与此同时,他们并不再满足于单纯的数字信息,而是需要集文字、图像、声音三者合一的多媒体信息,仿佛自己真正进入到了现实的图书馆一样。这就是网格技术给我们阅读行为带来的挑战和擅变。虚拟实境技术还将用于观场活动和一些不经常发生的自然现象的模拟上,它将是人类观察、解决问题的一个新的好帮手。然而虚拟实境技术最重要的贡献是在于当它和图书情报学相结合之后,开辟了图书情报理论与方法的新空间。

3.6 网络安全问题

由于基于网格技术的虚拟图书馆是面向大众的开放系统,对于信息的保密和系统的安全考虑得并不完备,安全问题正日益突出,同时数字化信息有共享和易于扩散等特性,它在处理、存储、传输和使用上十分脆弱,很容易被干扰、滥用、遗漏和丢失,甚至被泄露、窃取、篡改、冒充和破坏,还有可能受到计算机病毒的感染。这就给虚拟图书馆带来严峻的计算机网络安全问题。具体实施起来应从以下五个方面着手。

(1)采用社会法律、法规与手段,这部分用于建立一套安全管理标准和方法。

(2)加强用户认证,用户认证在网络和信息的安全中属于技术措施的第一道大门,最后防线为审计和数据备份,不加强这道大门的建设,整个安全体系就会较脆弱。用户认证的主要目的是提供访问控制和不可抵赖的作用。用户认证方法按其层次不同可以根据用户持有的证件、用户密码、用户特有的生物特征三种因素提供认证。

(3)授权,这主要为特许用户提供合适的访问权限,并监控用户的活动,使其不越权使用。

(4)加密,加密是信息安全应用中最早开展的有效手段之一,数据通过加密可以保证在存取与传送的过程中不被非法查看、篡改、窃取等。

(5)审计和监控,确切说,还应包括数据备份。

以上的五个方面是相辅相成、缺一不可的。其中底层是上层保障的基础,如果缺少下面各层次的安全保障,上一层的安全措施则无从说起。如果没有对授权用户的操作规范、安全政策和教育等方面制定有效的管理标准,那么对用户授权的控制过程以及事后的审计等的工作就会变得非常困难。

3.7 加强馆藏资源的特色化建设

在网格环境下,各图书馆拥有的信息资源重复是没有任何意义的。只有各图书馆上网的文献资源具有各自的特色,互不雷同,网络才真正是资源丰富的宝库。Internet网上的WWW虚拟图书馆就是这样一个由世界各地不同学科的信息资源共同构成的资料库,如生物学方面的信息资源由哈佛大学负责,化学方面的信息资源由加州洛杉矾大学负责等。每个单位都开发一个Web服务器,由它与其他学科的Web服务器相联,然后将这些分布在各地的各学科服务器联结在一起,共同构成设在瑞士的主服务器上的虚拟图书馆。我们应该借鉴国外的经验,在文献资源建设中彻底转变“大而全”、“小而全”的馆藏模式,加强在馆藏发展中的分工协调,使各馆致力于馆藏特色化建设。如果说过去我们还缺乏紧迫感的话,那么在今天的网格环境中,解决这个问题已成当务之急。

3.8 开发和利用智能搜索工具

网格技术的发展给虚拟图书馆带来了丰富的、动态的网络信息资源,同时也呼唤新的检索机制与工具。虽然目前开发了不少搜索引擎,如HYTE-LNET、Archie、Veronica、Jughead、Gopher Jewels、Yahoo、Alta Vista、Lycos、Open Text、Infoseek、Excite、Netscape等,但是用户要想方便快捷地找到所需信息,却很不容易。因为用户在发出一个明确的查询请求后,返回的信息中往往有许多不相干的信息,如果再想从这些杂乱的信息中去浏览、选择和挖掘那些真正有用的信息,就不知不觉地浪费了许多时间和费用。为解决这个问题,可以采取两种方案。

(1)为虚拟图书馆提供基于元搜索引擎的检索机制。所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作。元摸索引擎不象常用的搜索引擎那样拥有自己独立的数据库,却更多地提供统一联结界面,或进一步地提供统一检索方式与结果整理,形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟逻辑整体,从而实现对这个虚拟整体中各独立搜索引擎数据库的查询与数据处理。

(2)为虚拟图书馆建立基于Push技术的信息检索系统。Push(推送)技术通过它的信息代理机制,在用户初次使用时设定所需的信息后,能够把网上相关信息用推送(Push)或网播(Netcasting)的方式送到用户面前。Push技术为Internet带来了重大的变革,使网络信息流不再是单一的“拉”,还包括反方向的“推”,从而使用户避免了网上漫无边际的查找与长时间的等待,极大地提高信息检索效率。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于网格技术的虚拟图书馆_虚拟技术论文
下载Doc文档

猜你喜欢