数字图书馆及其实现技术_数字图书馆论文

数字图书馆及其实现技术_数字图书馆论文

数字图书馆及其实现技术,本文主要内容关键词为:数字图书馆论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引 言

随着INTERNET的发展和普及,信息资源在全球范围内的共享正在变成现实,人类逐步从后工业时代走向了信息化时代。信息的存储和检索方式也因而发生了根本性的变化,传统图书馆的工作方式已不再适应知识经济时代的要求,数字图书馆作为一种信息资源管理的新模式应运而生。

美国从20世纪90年代初就开始了数字图书馆的研究与开发。早在1994年,就由美国国家科学基金会(NSF)、国防部高级研究计划局(DARPA)、国家宇航局(NASA)赞助发起了“数字图书馆创导计划”——DLI,这是美国数字图书馆的先导计划。紧随美国,欧洲的英、法以及加拿大、日本也开始了数字图书馆的开发。我国从90年代中期开始研究与创建数字图书馆。目前,以国家图书馆为代表的“中国试验型数字图书馆项目”已经建立;北京大学建立了一个电子图书馆原型——“电子图书实验室”;清华大学与IBM公司合作开发了清华大学图书馆系统,并共同研究中文环境下的数字图书馆技术,特别是中文检索技术,而以中国信息网为基础的CHINAINFO系统已经正式向全球提供信息查询服务。

数字图书馆(Dieita Library)作为现代信息环境下的新生事物,目前还没有统一完整的定义。美国著名学者福克斯认为:“数字图书馆是一种有纸基图书馆外观和感觉的图书馆,但在这里图书馆资料都已数字化并被存储起来,而且能在网络化的环境中被本地和远程用户存取,还能通过复杂和一体化的自动控制系统为用户提供先进的、自动化服务”。作为图书馆界权威的美国图书馆研究协会(ARL)提出了数字图书馆的定义要素:数字图书馆不是一个简单的实体;数字图书馆需要技术来连接众多信息资源;数字图书馆和信息服务之间的连接对用户是透明的;广泛地存取和信息服务是其目标;数字图书馆馆藏并不限于文献替代品,还包括不能以印刷格式表达或传送的数字化形式。

本文认为,数字图书馆是一种能对信息进行搜集、转换、描述,并以数字化形式存储,利用先进的信息处理技术和计算机网络,以智能、有效的信息检索方式为用户提供多种语言兼容的多媒体远程数字信息服务的知识中心机构。在这里,为用户组织对网上数字化信息的有效访问是数字图书馆的最终目的。

2 数字图书馆与传统图书馆的比较

(1)数字图书馆是一个分布式的图书馆群体。

传统的图书馆只是单独的实体,即使实现了多个图书馆的联合(比如为用户提供通用借阅证),其信息共享程度也非常有限。而数字图书馆通过INTERNET和与之互联的园区网络,连接了分布的单个图书馆或信息资源实体,把不同类型的信息按统一标准加以有效存储、管理并方便用户在网上远程跨库获取信息。数字图书馆不限于一个实体,更是一个信息空间,其数字化信息资源不受地域、馆藏情况的限制。

(2)数字图书馆存储数字化多种媒体信息。

传统图书馆的馆藏对象主要是图书、期刊等一些印刷型文献,而数字图书馆的存储媒介是具有文本、光、图像、音频、视频等的多种媒体,其存储的数据库也应尽可能采用能够包含多种数据模型的面向对象的多媒体数据库、(OOMDB:Object orientcd MDB)。数字图书馆通过多媒体、超文本等技术,利用智能化的信息检索手段向用户提供信息服务。

(3)数字图书馆提供了信息传播与发布的基础平台。

网络硬件和软件的高速发展为数字图书馆提供了很好的信息传输环境,综合业务数字网(ISDN)、ATM网和有线电视网(CATV)等成为多媒体通信的高速网络。数字图书馆在服务方式上比传统图书馆做得更为主动,真正以用户为中心,向用户提供信息获取、信息增值、在线定购等服务。

(4)数字图书馆是电子商务在信息组织、传递方面的实现。

真正的数字图书馆不是简单的数字馆藏,也不是网上资源的一个目录或工具书的电子版,它在实现其功能时,存在着信息的提供、所有权转换、资金流动和商品的传递,因此需要引入电子商务模式。数字图书馆的信息流(对馆藏和数据库、文摘、索引等)数字化信息资源的组织,检索,版权和在线资源的利用、收费、订购、付款、转账等信息,以及交易对象的支付能力和支付信誉等等。资金流是资金的转移过程,包括付款、转账等过程。数字图书馆的物流相对较弱——物质实体流动很少,更多的是数字信息、增值信息和权益授受的过程,大多可通过网络传输的方式完成配送,比如付费浏览、下载、传真、E-mail邮寄等。

可以看出,数字图书馆摆脱了传统图书馆馆藏受馆舍的限制,而高速互联网络的时效性是传统图书馆无法比拟的,数字图书馆高度的资源共享使用户服务有了新的飞跃。使用户可以真正做到“足不出户而读天下书”,不用再为一本书或一篇文章奔波于多个图书馆之间。

3 数字图书馆的实现

(1)需要解决的问题。

在传统图书馆向数字图书馆转变的过程中,面临一些不匹配的问题,采用适当的技术解决这些问题,是数字图书馆实现的关键。

①信息源数据结构的统一。

数字图书馆的信息源,包括数据库、图像库、网页、电子邮件系统等的数据结构不同,取决于它们的存储、组织、管理和依存的平台。因此数字图书馆需要提供一个基础平台,支持信息的生成,便于信息在网络上的传输,并方便用户的有效利用。

②异构平台的兼容。

图书馆的自动化随计算机硬件的发展而发展,由最初的集中式系统不断加入新的计算机和工作站,进而发展为网络系统。这样,就必然同时存在着大型机、PC和SUN工作站,运行着Win31/32,Win9x、WinNT以及UNIX等操作系统和各种数据库。利用网络互联,就可能共存着以太网、令牌环网、PSTN、FDDI网、ATM网等,以及应用于其上的各种通信协议,包括TCP/IP、IPX/SPX、NeTBEUI等。实现数字图书馆就要解决在异构计算机、异构数据库、异构网络环境下实现信息共享和访问的问题。

③系统集成。

集成问题就是要保护已有的投资,减小系统改造和重写的代价。尽可能使现有系统的硬件不变或少变,只需投资或重写软件,使图书馆积累的信息和现有系统实现共享集成,封装已有的系统实现信息系统的重构。

(2)实现技术。

①数字化信息的生成及存储技术。

数字图书馆建立的前提是信息的数字化。将多媒体信息转换成计算机能够处理的数字化信息,以方便信息的压缩与有效存储,有效降低传输成本,利于实现信息资源的共享。SGML(Standard General Markup Language)是一种适合文献全文及多媒体信息描述的标准,它为创建结构化电子文献数据库提供了依据。SGML将信息分为文件类型定义(DTD)和文件实例两部分,其中DTD定义信息的结构,文件实例则通过DTD进行限制检索,为用户提供个性化服务,提高了查准率。HTML(Hypertext Markup Language)是Web上的通用语言,用于方便地制作网页并建立链接。XML(Extensible Markup Language)在描述数据时,可用多种方式显示,允许利用应用软件进行深入处理。数字图书馆的信息组成分三部分:指针、元数据(Metadata)、数据。指针是标识数据的一组唯一指示符。元数据是一组描述数据本身基本特性和属性的数据,类似于传统的文献编目,Dublin Core是元数据的一个通用标准,它适用于HTML环境。当前一些用于XML环境的规范也被提出,如MCF(Metadata Content Framework)、RDF(Resource Description Framework)等。

数字图书馆的数据库要求具有管理音频、视频、图像等多媒体信息的能力,由于多媒体信息资料量大、长度不定,使得传统的数据库的数据模型、系统结构、用户接口等技术难以管理多媒体资料,因此需要建立面向对象的多媒体数据库和相应的多媒体数据库管理系统(MDBMS)。而当前还没有现成的面向对象的多媒体数据库,所以一般采用扩充原有数据库的方法支持多媒体资料,通过引入抽象数据模型或语义模型使之模拟非结构化资料(如HTML文件等)。

②检索技术。

数字图书馆的信息资源日益丰富,对检索技术也提出了更高的要求。如何对多媒体信息建立有效索引,是当前研究的热点之一。现代的检索技术已经引入了超文本和超媒体的概念,由字符匹配向概念匹配发展。新型的全文检索已有三种实现技术:利用指定的检索项与全文文本的一次数据进行高速对照检索;对文本内容的检索项进行位置扫描、排序,建立以检索项的离散码为表目的倒排档;采用超文本模型建立全文数据库,实现超文本检索。

基于内容的检索(CBR:Content-based Retrieval),可以根据媒体对象的语义和上下文联系进行检索,它从媒体内容中提取信息线索,直接对图像、视频、音频进行分析,抽取特征,并建立索引。用户进行查询时,可以利用查询语言形成一个查询要求,系统提取该示例特征或把查询描述映射为具体的特征矢量。然后系统按照一定的匹配算法、模型等对查询特征与特征库中的特征进行相似匹配。系统根据用户选择的排序标准,按照相似度的大小将结果输出给用户。用户可以对系统返回的初步查询结果形成一个新的查询提交给系统,逐步筛选、求精,不断缩小查询范围,直到用户对查询结果满意为止。在图像检索方面,利用颜色直方图和灰度检索的匹配算法发展较成熟。另外,具有自动推理能力的智能检索理论发展也很快。

当前检索技术研究的热点是如何综合利用两种或多种媒体的特征,以便使用户容易达到较高的检索效率,以及如何结合多类特征(音频、视频、文本等)抽取语义和结构,在多个层次上组织信息内容。此外,用户查询接口、多媒体内容描述标准的研究制定、高维索引技术以及对合成媒体,如动画、VRML数据进行检索等,都是需要进一步研究的问题。

③系统集成技术。

对象管理组织OMG(Object Management Group)于1991年提出的通用对象请求代理体系结构(CORBA: Common Object Request Broker Architecture)的技术规范,是为解决软硬件协同工作而提出的很好的方案,已经成为INTERNET上实现对象互访的技术标准。CORBA的核心是对象请求中介(ORB),它定义了异构环境下对象透明地发送请求和接受响应的机制,客户机不需要知道请求对象的位置、使用的编程语言、通信协议等,它所关心的是找到某个对象实现这个请求,然后传递参数和方法,并将结果返回给服务器对象。由于CORBA提供了独立于编程语言的接口定义语言(IDL)来描述对象和操作,因此方便地实现了跨平台的通信和客户/服务对象间透明交互的能力。DLI就利用了这种结构。在CORBA中,数据源提供的服务的改变会引起对象应用程序的更新,这使客户应用程序复杂化,中间件(Mediator)结构就是针对这个问题提出的。它使用了包装器(Wrapper)和中间件,中间件接受用户的查询请求并传递给通用模型。包装器的功能是与响应的信息源进行交互,将中间件的查询语言分为子请求后翻译给相关信息源,并将查询结果送回中间件。亚历山大(Alexandria)数字图书馆使用了中间件结构。

中间件结构的不足在于不能搜索到新的和潜在的信息源,这样就引入了代理技术。基于代理(Agent-based)的方法用于海量的数据和服务,一个代理就是能代表终端用户执行具体任务的软件。通常基于代理的集成系统包括接口代理、中间代理和源代理。中间代理有很多类型,执行不同的任务,包括接受用户查询请求、定位相关信息源、发送请求以及与其它中间代理通信以协同工作等,接口代理与用户交互,将查询请求翻译成合适的语言发送给相关中间代理。源代理的功能类似于包装器。伊利诺伊大学(Illinois)和密歇根(Michigan)大学的数字图书馆采用了这种代理结构。

另外,微软公司的COM/DCOM和Sun公司的JavaBean技术近年来发展也很快。

此外,信息传输技术为网络的数据高速传送、存取提供了保证;信息的安全防护及管理技术更是保障数字图书馆正常运行不可缺少的;而对信息资源的管理,是要保证海量信息存储有序,并保证不影响读取速度和服务效果。

4 几个相关概念

(1)自动化图书馆(Automatic Library)。

随着计算机的发展和普及,图书馆使用计算机进行辅助查询,检索和管理,逐步实现了自动化,称之为自动化图书馆。用户借助计算机进行查询,并利用检索结果得到实体的印刷型文献资源;管理员利用计算机或网络对文献和用户信息进行管理。自动化图书馆提高了检索效率,缩短了借、还资料的时间,方便了管理,大大加快了文献的流通。

(2)虚报图书馆(Virtual Library)。

虚拟图书馆实质上是一种INTERNET利用工具,它把与某一领域相关的网络资源,包括研究机构、实验室、电子图书、期刊、论坛等等的URLs组织起来存为某一网页,通过超链接供给用户浏览或检索,它缓解了搜索引擎的查准率不高的问题。虚拟图书馆的信息组织分为两种形式:主题树方式和数据库方式。前者把所获得的资源按确定的概念体系分类加以组织,用户逐层选择、遍历,直到找到所需;后者按固定记录格式存储,用户通过关键词匹配查询。

(3)复合图书馆(Hybrid Library)。

在传统图书馆向数字图书馆转变过程中,印刷型文献与数字化文献有机结合、相互共存的形态。它的目的在于对两种文献进行协调,以满足用户的多种需求,使用户在检索终端接口依据需求可以获得印刷型文献,也可以得到数字化文献。

(4)比较。

自动化图书馆是依托于计算机及通信技术的应用,强调操作于信息的技术使检索和管理比传统图书馆更加方便、自动化,用户得到的仍然是印刷型文献。虚拟图书馆提供了比搜索引擎更为有效的检索工具,它类似于电子黄页,只是一种虚拟环境,没有实体的文献空间。复合图书馆是结合数字图书馆的优势对传统图书馆功能的延伸,它共存着印刷型和数字化文献,吸收了二者各自的优点,满足不同的用户。而数字图书馆强调以用户为中心的电子商务经营模式,是一种有偿服务方式。

5 结束语

信息技术的飞速发展带动了数字图书馆的崛起。数字化信息的生成技术是数字图书馆建立的前提,多媒体数据库保证了信息的高效存储,而相关检索技术的发展使检索效率大大提高,系统集成技术逐渐趋于成熟,同时信息传送技术、安全防护及管理技术等迅速发展,这些技术将使数字图书馆逐步走向实用化。

数字图书馆扩展了传统图书馆的功能,不但向社会公众提供相应的信息访问服务,而且还融合了电子商务的先进理念。我们有理由认为,数字图书馆将成为未来社会的公共信息中心和枢纽。

标签:;  ;  ;  ;  ;  ;  

数字图书馆及其实现技术_数字图书馆论文
下载Doc文档

猜你喜欢