数字图书馆信息体系结构_数字图书馆论文

数字图书馆信息体系结构_数字图书馆论文

数字图书馆信息的体系结构,本文主要内容关键词为:体系结构论文,数字图书馆论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数字图书馆的基本目标是创造一个良好的信息环境,通过互联网提供对分布式存储信息的 知识化组织、智能化访问和服务。但这些分散存储而又各自独立的信息仓储具有各自不同的 组织、描述和检索方式。网络环境下跨仓储的、统一的、高效的访问和利用工具,以及高质 量信息的生成、组织和提取成为数字图书馆的研究重点。如果把Internet看成是一个巨大的 无墙图书馆,数字图书馆的目标就是要优化Internet的信息存储结构,提供一致的检索接口 ,使整个网络成为一个虚拟的、单一的、有组织、有结构的信息集合,实现跨仓储的无缝检 索。要实现这一目标有以下两个方面问题,它们也是广义数字图书馆的信息体系结构所研究 的主要问题[1]。

第一,数字对象的组织结构。数字对象是数字仓储中表示信息的基本逻辑单位,如一篇文 章、一张图片、一部音乐作品或是一段影像。数字对象的信息结构是数字图书馆的基本问题 ,它决定着进一步的信息组织、处理和利用方式。

第二,分布式信息仓储的组织结构。数字图书馆的收藏可以特指本地的信息仓储,也可以 是互连的信息仓储的集合。数字图书馆应建立一个统一的、互操作的、可扩展的组织框架, 将分布互连的信息仓储集成为一个整体,在此基础上提供高质量的信息服务,如屏蔽各仓储 的差异,提供统一的服务接口、语义化检索、智能代理等。

1 数字图书馆信息的体系结构框架

按照Carl Lagoze和Sandra Payette的定义:数字图书馆是由数字对象构成的馆藏(内容)和 与数字对象的存储、发现、检索和保存有关的服务(功能)[2]。数字图书馆具有开放的体系 结构(open architecture),其含义是指将数字图书馆的整个功能划分为一组定义明确的服 务,每一种服务都通过一种定义明确的协议来访问。数字图书馆的体系结构为数字图书馆提 供了其必须具备的基本功能,即一组核心服务。

数字图书馆核心服务具有如下主要特征:

(1)数字图书馆基础结构中的内容以数字对象的形式存储。

(2)数字对象通过永久性的全局惟一的名称(URN)进行识别,URN(统一资源名称)由命名服务 器注册。一个独立的名录服务器能将URN解析一个或多个由URN标识的数字对象位置。

(3)仓储服务系统提供数字对象的存储和访问机制。仓储包含数字对象。如果一个数字对象 的URN解析成相应的仓储,则认为该数字对象包含在此仓储中,从而只有通过向相应的仓储 发送服务请求才能访问该数字对象。

(4)索引服务系统提供数字对象的发现机制,由索引服务器对数字对象组的信息进行索引。 向索引服务器提交查询式可返回含有与查询式匹配的数字对象的URN的结果集,客户或代理 然后将这些URN提交至名录服务器以访问相应的数字对象。

(5)馆藏服务系统提供将数字对象组汇聚成有用馆藏的机制。馆藏服务器按下列方式创建馆 藏:扫描一组索引服务,读取其元数据并应用馆藏定义标准来决定索引服务器标引的哪些数 字对象可以作为馆藏元素。

(6)用户接口网关提供数字图书馆以人为中心的入口。每个用户接口网关使用由馆藏服务器 提供的信息来检索和访问这些馆藏中的数字对象。用户接口网关也使用馆藏服务器和索引服 务 器提供的信息来制定检索策略[3]。

2 数字对象系统

数字图书馆信息体系结构的主要构件是数字对象、句柄和仓储。数字图书馆由数字对象构 成,它们存储在仓储中,用句柄来标识;存储在数字对象中的信息称为内容,内容被分成数 据,关于数据的信息叫做属性或称为元数据。

在数字图书馆中,信息以数字对象作为基本实体进行存储、访问、发送和管理。分布式数 字对象服务框架按照一定的命名规则来标识和定位数字对象、提供使用数字对象名字来定位 和发送对象的服务,并提供有关的访问协议。

在分布式数字对象系统的体系结构中,一个拥有数字材料的用户要使该材料供系统使用, 首先应将材料放入数字对象。一个数字对象是一个数据结构,它主要包括:数字材料(或数 据),以及句柄,它是该材料的惟一标识符。用户请求从授权的句柄生成器获得一个句柄, 随后,将数字对象存入一个或多个仓储中,从而该数字对象可为他人所用。把数字对象存入 仓储时,应将其句柄和仓储名向一个全局的句柄注册系统注册。以后,用户向句柄服务器提 交一个句柄可获得存放相应数字对象的网络名或仓储地址[4]。

3 仓储服务系统

仓储是一种可通过网络访问的存储系统,其中存储的数字对象可被存取和检索。仓储除了 包含数字对象,也包含了其他相关信息、服务和管理信息。仓储具有一个正式的、惟一的名 称,由一个全局命名授权(Global Naming Authority)分配和批准。

仓储的实现采用三层结构[5]。

第1层:仓储外壳。它是仓储与外界的接口部分,它实现了仓储访问协议(RAP),实现了数 字对象的内外格式转换,并管理用户权限和访问许可。

第2层:对象管理层。它在永久存储层所提供的服务和仓储外壳层所要求的面向对象功能之 间提供一种接口,并提供数字对象及其所在位置之间的映射。

第3层:永久存储层。仓储中的信息保存在永久存储层。永久存储层的实现对外界是完全透 明的。仓储外壳的设计可适应各种永久存储层。

仓储访问协议是每个仓储都必须支持的。目前RAP支持存放数字对象,通过句柄访问数字对 象并提供下列仓储服务:在一个仓储中存入一个数字对象;从一个仓储中删除一个数字对象 ;确认仓储中已存有一个带有特定句柄的数字对象;访问一个仓储的数字对象;访问一个指 定数字对象的元数据;修改仓储中的一个数字对象的元数据;修改仓储中的一个数字对象的 数据;确认一个句柄已在句柄系统中注册;访问仓储元数据(AccessRepoMeta)[6]。

4 名录服务系统

名字是数字对象的重要替代信息。名录服务系统的功能是负责数字对象名字的创建、解析 和管理。名录服务系统包括开放的句柄协议、名字空间和句柄协议的具体实现。分布式的计 算机管理系统可以存储数字资源的名字即句柄。通过句柄协议,可以将句柄解析成数字资源 所在仓储的位置,从而使用户或代理可以通过句柄访问和使用这些资源。资源的位置发生改 变时,句柄不改变,因而资源的名字是永久性的。

句柄系统即名录服务系统采用层次服务模型。顶层是一个全局句柄注册系统,底层是多个 句柄服务系统,它们共同构成名录服务系统,负责句柄的创建、解析和删除。

全局句柄注册系统用于管理句柄命名的名字空间,是一个集中管理的注册服务。所有的命 名授权必须用全局句柄注册系统注册。局部句柄服务系统管理在其命名授权下的所有句柄, 为这些局部名字提供解析和管理服务。局部句柄服务系统与多个仓储相关联,实现仓储与名 录服务系统的交互。

5 索引服务系统

索引服务系统是数字图书馆信息基础结构的一个重要组成部分,其任务是进行资源发现, 从而使用户能够方便地从馆藏中寻找和发现所需的对象。

索引服务系统的工作原理是:索引服务器收集关于数字对象的信息,这些信息可以是数字 对象的替代信息如传统图书馆的编目记录,或者是对象的全部内容如全文搜索引擎使用的全 文信息。这些替代信息被组织成结构化的索引,使搜索引擎在响应查询请求时能保证查准率 、 查全率和检索效率。查询请求的响应是一个结果集,结果集中的每一条检索结果都是与查询 请求相匹配的数字对象的替代信息,替代信息的简略形式是数字对象的惟一标识符;通过名 录服务系统解析该标识,就可以访问相应的数字对象[7]。

未来的中国数字图书馆应是一个联邦数字图书馆,其成员馆具有各自不同的馆藏内容和服 务,具有各自不同的信息组织和描述方式。以上阐述的数字图书馆的信息体系结构为解决异 构数据库的检索、实现跨库无缝检索提供了一种有效途径。

标签:;  ;  ;  ;  ;  

数字图书馆信息体系结构_数字图书馆论文
下载Doc文档

猜你喜欢