网格环境下图书馆数字化发展研究_图书馆论文

网格环境下图书馆数字化发展研究_图书馆论文

网格环境下的图书馆数字化发展研究,本文主要内容关键词为:网格论文,图书馆论文,环境论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G250 76文献标识码:A文章编号:1003-7136(2009)02-0019-04

1 网格技术发展的现状和意义

近几年来,网络环境下信息资源共享研究已愈来愈引起人们的广泛关注。在国际上,最成功的信息资源共建共享是美国联机图书馆中心(OCLC)系统。它已发展成为世界上最大的图书馆自动化网络,“串联”82个国家与地区的41000个各类型的图书馆,用370种文字通过因特网进行联合编目,年均产出数据2000多万条。我国也开展了不同类型、不同层面、不同范围的信息资源共建共享实践活动,如:科技部的“科技文献资源建设与服务平台”、文化部的“文化信息资源共建与共享工程”、中国高等教育文献保障系统GALIS等。到目前,国内已建成的数据库主要有《中文科技期刊数据库》、《中国期刊网专题全文数据库》、《书生之家数字图书馆》、《超星数字图书馆》、《万方数据资源系统》、《新华社专供信息》、《复印报刊数据系列光盘》、《中国专利文摘数据库》、《中国失效专利文摘数据库》、《中国教育50年状况数据库》等。国外的信息数据库主要有德国的《Springer LINK》、美国的《EBSCO》、《MEDICINE》、《Chemical Abstracts》(化学文摘)、《Engineer Index》(工程索引)等。但在深入探讨跨地区、跨系统,囊括所有信息服务机构的全国性的信息资源共建共享方面始终显得举步维艰,成效不明显。国内也相继发表了大量有关论文,其中以针对信息资源配置、图书馆文献信息资源共建共享存在的问题及发展趋势的论述居多。2003年12月,在上海举行了第二届网格与协同计算国际会议(GCC2003),会上网格界的权威Carl Kesselman等就OGSA、UNICORE、MPI-2等作了报告。从中可以看出,世界各国的有关专家已开始改变思路,将网络环境下文献信息资源共建共享研究重心放在网格应用研究上。2002年4月,科技部还在北京召开了“网格战略研讨会”。目前我国正在进行的网格研究项目包括“863”计划支持的“中国国家网格(China Grid)”、中国航天科工集团第二研究院和清华大学共同开展的“仿真网格”研究、中国科学院牵头的“织女星网格”等。理论研究方面,出版了我国第一部网格专业书籍——《网格计算》。国内的众多专家、学者也探讨了网格技术在信息资源管理领域的应用及其发展趋势。有的学者提出了以省市计算中心或信息中心为枢纽节点,以国家信息中心为总节点的树状网络模型。

但目前的信息资源共享建设过程中,出版机构与数字图书馆之间未能完成有效共享,重复建设严重。而目前的网络搜索技术,查找到的一些条目根本是与目标无关的;同时,越来越多的多媒体信息资源有待发掘、共享,传统的网络难以实现多媒体信息的有效查询和共享。网格的出现则可以解决相应的难题,其优势在于利用网格可以更准确、更专业地在海量信息中提炼出用户所需要的真正有用的信息。

为此,我们提出必须从信息资源的源头抓起,即从产生数字化信息的权威信息源出发,建立以信息源为中心的信息网格,才能更有效地避免越来越多的“信息孤岛”的出现。随着计算机技术的发展,出版机构的绝大部分信息资源已经实现数字化,如果在其信息资源数字化过程中遵循统一的标准并依托当今适合海量计算、查询的网格,那么就无须再花巨资重复建设各种各样的集中模式的数字图书馆。将每一个出版机构纳入信息资源共享网格,由国家制定统一的数字化标准和信息检索标准。这样既能降低成本,又能较彻底地解决目前信息资源共享面临的困境,同时还有助于保护知识产权。引入网格理念。构建信息网格,促进资源共享,是信息资源共享的必然趋势,也是共享资源的有效途径。在此过程中,还需要解决网格中信息资源的管理、注册、预订、分配、调度、安全、计费等技术问题。

如果说传统互联网实现了计算机硬件的连通,WEB实现了网页的连通,那么网格则试图把整个互联网整合成一台巨大的超级计算机,实现互联网上所有资源(包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等)的全面共享。互联网的第三次浪潮的实质,就是要将万维网(World Wide Web)升华为网格(Great Global Grid)。本项目研究的主要内容就是要引入网格理念,创新性地构建以信息源为基础的树状信息网格,建立开放的信息源管理机制,挖掘融多种媒体于一体的立体的特色信息资源,并实现信息资源共享的安全运行机制。

要实现信息资源共享,首先要完成信息的数字化,即建立待共享的信息源。信息源的建立从传统的FTP、Email、WEB1.0已发展到现在的WEB2.0,从单一的关键词驱动发展到网页的内容驱动,从典型的依靠专家编撰评审的大英百科全书(Britannica Online)在线到开放的集合群众智慧的维基百科全书(Wikipedia)(根据2005年3月的最新统计,维基百科全书已经成为一“本”包含190万个条目、205种语言的庞大的百科全书,在维基百科网站里,任何人都可以为维基百科全书创建条目,也可以修改已有条目内容),充分体现出利用广大网民的智慧来建立开放式的人类知识体系的巨大潜力。目前维基技术还广泛应用于社区的问答系统。比如,新浪爱问、百度知道、Google的Answers等。它们是在维基技术基础上增加了奖赏和审核机制,可称之为改进型“维基”模式。

传统的集中建立数字图书馆的信息资源管理模式成本高且共享资源有限。人类知识体系的广袤要求必须最终建立起类似于改进型“维基”模式的全民参与、全民共建的和谐、开放的信息资源管理机制,才能有更多的信息资源供人们共享。

2 图书馆数字化建设现状分析

2.1 “信息孤岛”的存在

文献资源的数字化正在改变着人们的阅读习惯,通过网络,人们可以足不出户地获得想要的信息,并在较短的时间内从海量的文献资源中检索并下载到自己所要的文献。但所要的资源不可能只存在于某种电子文献资源中,也不可能以单一的数据库或数据库结构出现,这便是人们所说的信息源异构[2]。因此如何为人们提供一种新的检索手段,以便更快捷、更方便、更准确地从各种海量的电子文献中获取所要的资源,已经成为人们思考的问题,于是便出现一种称为“异构库跨库检索”的检索平台,所谓的“异构库”是指不同电子文献所使用的不同数据库和数据库结构,如SQL、Oracle等。由于我国对于电子文献没有一个统一的加工标准,因而,在数据库类型、数据库字段的长短及数据字段的命名方式上也各不相同,各种数据库的检索窗口及检索方式也各不一样。因此,如要检索某一内容,哪怕检索的内容是相同的也必须分别打开不同的数据库检索窗口,并分别输入相同的检索词进行检索,这无疑是不方便和重复的操作过程。“跨库”则是为了打破这种各自为政的检索方式,人们寄希望建立一种检索平台(如大家熟知的Google,iAsk等搜索引擎)来对现有的电子文献(如“超星图书馆”、“中国学术期刊全文数据库(CNKI)”、“维普中国科技期刊全文数据库”这类的异构数据库进行一次性检索。目前,这类系统国内有“DIPS”、“TRS”等(跨库检索是这些系统的一个组成部分)。但这些检索平台都有一个致命的弱点,那就是必须对现有的数据库进行整合,即把包含题名、作者、出版者、关键词等检索字段的二次文献整合到自己的数据库中。再通过原文件的存储物理地址进行链接,这就有很大的局限性,一是必须获得现有电子文献数据库中的二次文献,二是原文件的存储物理地址不得改变,否则无法打开原文,此外还不能对镜像站以外的在线数据库进行跨库检索。随着各数据商对数据的保密性不断加强,这类异构库检索平台愈来愈难得到这些数据库的二次文献,因此,这类“异构库跨库检索”并没能起到多大的作用,“信息孤岛”的现象依然难以改变。

2.2 文献资源的重复建设

目前,在我们使用的电子文献中主要有两大类:一是文本格式,这类电子文献主要是通过对纸本文献进行数字化加工处理而来,因而其来源主要是印刷型文献,如书、刊、报纸等。而另一类则是音像、视频等多媒体格式,这类电子文献来源于音像制品和电视节目,“网上报告厅”就是这类的电子文献。但不论是哪种格式,其来源大多是公开发行出版物,为了获取更大的经济利润,作为原始文献资源的拥有者(如出版商、音像制作公司、电视台等)不可能仅局限于某个数据加工商对其产品进行数字化加工。因此作为电子文献就不可避免地出现重复建设的现象,图书和期刊的电子资源尤为突出,“超星图书馆”中有的书“书生之家”中基本都会有;“中国学术期刊全文数据库(CNKI)”中有的期刊资源“维普中国科技期刊全文数据库”中也会出现。这种文献的重复建设不但增加了图书馆在电子文献上的购置成本,也造成了存储设备无效的负荷。

2.3 硬件设备的低效率应用

作为数据发布的基本设施的服务器,除了小型机(如sun等)可称得上是高性能服务器外,常用的PC服务器内存也只有512M到2G,处理器也就是单核或双核,这样的配置,对于要求较高的数据处理特别是图形处理来说,运算能力还是不高的。但随着计算机硬件技术的不断提高,目前普通的服务器的处理器已经发展到四核乃至多核,大大地提高了服务器对数据运算的处理能力。但在现阶段条件下,这些高性能的计算机除了为图书馆承担一个或几个应用外,服务器利用率也较低,并没能充分发挥其最大的数据处理能力。

3 网格技术对图书馆数字化建设的影响

图书馆,特别是作为高校文献中心的高校图书馆,随着办公的自动化、网络化和文献的数字化,其服务方式早已从传统和单一的借阅转为借阅与网络传播共存。如今,在图书馆评估和教学水平评估中,评估一个图书馆的优劣,不单是看其藏书种类的多少和数量的多寡,现代化网络化建设及电子文献的拥有量已是不可或缺的组成部分,并在评估中占有越来越重要的地位。但目前我们所谓的图书馆数字化还只是基于局域网下的网络系统,而非是利用现代网络技术,实现跨地区、跨国家的多个数字化图书馆有效连接[1],为此,各图书馆每年都要花大量的资金购买各种计算机设备及电子文献。存储设备和存储空间也随着电子文献种类及数量的增加而不断加大和扩容,以1000G为一个T的存储空间已成图书馆存储容量的最基本单位。图书馆用于存储电子文献的空间少则几个T,多则数十个T。目前,“超星电子图书馆”、“中国学术期刊全文数据库(CNKI)”、“维普中国科技期刊全文数据库”等电子资源已经成为各图书馆必不可少的电子文献资源,除了建立各种电子文献的镜像站外,“国研网”、“中经网”等许多在线的电子资源也构成了图书馆数字化建设的基本元素。此外。各图书馆,特别是高校图书馆,都纷纷根据自身的馆藏特色,依据本馆的计算机硬件和软件基础建立具有本馆特色的数据库。如四川大学图书馆的巴蜀文化特色数据库;西南民族大学图书馆的藏族、彝族特色数据库等。

网格技术(Grid)是国际上近来兴起的一种极为重要的信息技术它被称为继Internet和Web之后的第三次信息技术浪潮,是网络的未来发展方向[3]。其主要特点是把各种信息资源,例如数据库、软件以及各种信息获取设备等都连接成一个整体,整个网络如同一台巨大无比的计算机,向每个用户提供一体化的服务。因此在未来基于网格下的图书馆数字化将会产生巨大的影响,主要体现在以下几个方面:

3.1 图书馆的信息资源来源会更为丰富,自身的资源也会得到更充分地利用。在网格环境下每个数字图书馆都是一个节点,在拥有相对独立的同时也是信息网格中的一个组成部分,因此其资源已经不再是个体的资源,而是整个网格信息资源的一部分。它既可从别的图书馆或别的服务器那里得到信息资源,同时也将成为其他用户所需信息资源的一部分;它不但是信息资源的受益者同时也是信息资源的供给者。这样就改变了目前这种信息资源各自为政的局面,使各种资源得到有效的整合和利用。

3.2 网格技术实现了计算机资源、存储资源、数据资源、信息资源、知识资源等多种资源的全面共享[4]。因此要想达到知识资源共享这样一个目的,网格就必须解决异构数据资源访问的问题,在作为操作系统的网格中间件的作用下,形成虚拟计算组织[5],为用户提供统一的访问接口,实现网上所有资源的全面连通,构建一个真正意义上的“跨库检索平台”。人们只需要在这个平台的检索窗口中输入所需检索的关键词,便可从海量的、不同数据库和不同数据库结构,以及不同的存储空间和服务器中检索到有效的信息。这些信息不受区域的限制,这样可彻底消除目前存在的信息孤岛现象。

3.3 网格技术下的数字化图书馆将会建立一套严格的信息上传审查制度。目的是为了保证信息的唯一性,避免信息的重复建设,这样,不但保证了信息的有效性,而且也使网格下存储空间得到最大限度的有效应用。计算机资源共享作为网格技术下的一个重要的组成部分,通过网格技术的实现,可以打破区域和局域的限制,使各馆各种高性能的服务器都得到充分的发挥,真正体现出高性能的特点来。

民族高校图书馆可以建立自己的特色信息源,就是将特色信息数字化。开发特色数据是发挥信息资源优势的有效途径,如可以考虑建立多媒体数据库,尤其可以结合我国多民族的特点建立以多媒体信息为基础的少数民族风情、民俗、物产等方面的数据库供全世界人民共享。

多媒体信息资源共享要解决的关键技术问题是多媒体信息检索技术。传统的信息检索技术主要是面向文本的。当今广泛使用的Google、Yahoo和百度等搜索引擎主要采用文本检索技术,即通常使用一组关键字或词组组成的查询项来搜索定位文本数据库中的相关文本文档。目前,国外有部分机构致力于多媒体信息的共享机制研究,如美国NSF、ARPA和NASA资助的数字图书馆主要研究数字信息的搜集存储和组织等新技术,通过网络实现信息的搜索、检索和处理;英国剑桥大学的VMR(视频邮件检索)和MDR(多媒体文档检索)项目探讨了一系列语音文档检索技术;惠普的SpeechBot项目是一种用于语音和视频索引的通用工具,它可以处理海量语音识别和用户查询数据。总体而言,目前国内外的文本信息检索技术已基本成熟,而多媒体信息检索才刚刚起步,这也是本项目研究要突破的难点。其中包括多媒体信息的建模和表示、多媒体数据的组织与索引、对复杂媒体数据的智能处理与识别技术以及多媒体信息的查询处理与相关反馈等一系列问题。

综上所述,现阶段在图书馆数字化建设得到长足发展和电子文献得到广泛使用的同时,受限于网络技术本身所存在的缺陷,“信息孤岛”与信息重复建设的现象在短期内未得到根本的改变。同时,各图书馆的服务器基本都处在一个高性能、低利用率的层面,服务器的高性能处理能力无法得充分的体现,更无法实现数据资源、信息资源、知识资源及计算机资源等多种资源的全面共享。网格技术作为一种新的信息技术,依靠强大的服务器处理共享能力和在此基础上建立的特有检索技术来实现各种数据资源共享、服务器处理能力共享及存储设备资源共享。因此,随着网格技术在图书馆方面的应用,必将改变目前图书馆在数字化建设中存在的弊端和局限性。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

网格环境下图书馆数字化发展研究_图书馆论文
下载Doc文档

猜你喜欢