数字图书馆信息资源的发现与组织_数字图书馆论文

数字图书馆的信息资源发现与组织,本文主要内容关键词为:信息资源论文,数字图书馆论文,组织论文,发现论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数字图书馆是海量、分布、异构、集成的信息资源体系和信息服务体系,它是数字化网络化条件下图书馆发展的一种新形态,是新信息环境下社会实现公民平等信息权利的基础设施,是消除社会信息鸿沟的屏障。早期的数字图书馆是基于Internet/Web来构建的,但是由于Internet/Web的资源的分散性、缺乏统一管理等先天的不足,使得信息资源体系和信息服务体系的建立变得十分困难或难以实现或质量效率不高[1]。而从用户的需求来看,他们希望数字图书馆系统能灵活地处理信息、提炼知识,围绕用户信息活动和用户信息系统来组织集成数字信息资源和信息服务,从而直接深入有效地支持用户检索、处理、利用信息来解决问题的全过程[2]。因而如何有效地发现与揭示网络的信息资源与服务是数字图书馆要解决的首要的基本的问题。本文正是基于此来讨论数字图书馆的信息资源发现与组织问题。

1 资源发现相关研究

网络资源发现早期主要集中于“计算力”的集成与共享,即计算机硬件与软件资源的共享。关于资源发现的模式主要有四种:分散式、集中式、混合式和分布式,其中尤以分布式为研究主要对象[3]。常用的资源发现方法有:泛洪(flooding)、路由转发(RT)和NEVRLATE[4]。在资源发现系统的构建中要考虑以下几个方面的问题:资源命名与查寻方式,网络构造方式与拓扑结构,资源描述与注册,查寻路由,用户行为特征,服务提供者[5][6]。

数字图书馆本质上信息资源集成体系与信息服务集成体系,其基础是拥有或可存取大量的信息资源,因而信息资源发现及组织是数字图书馆研究中的重要问题。本文基于信息交流的幂规律和六度分离学说(亦称小世界理论)来探讨数字图书馆的信息资源发现与组织问题。

2 数字图书馆信息资源发现与组织的基本框架与运行机制

2.1 数字图书馆信息资源发现的基本目标

以整个网络空间的信息资源发现与组织为己任的数字图书馆在组织加工网络信息资源时必须达到以下目的与要求:一是适应网络服务体系结构复杂的特性,能将网络信息资源与服务有机地组织成一个完整系统,而且这种机制应该是自愿的、分布式的、无中心控制的;二是提供有效的信息查寻机制,即当用户提交查寻请求时,这种机制能明确知道网络上是否有能满足需求的资源,如果有,提供一种有效机制存取相应的资源;三是这种机制能够高效快速地完成相应的查寻,且基于网络的动态特征能动态响应特定用户或用户群的偏好;四是具有较强的可扩展性和安全性,即既保证用户可以自由地发现网络中各种有用的资源,而且也能有效屏蔽非法访问与恶意破坏;五是要注意效率和开销,即必须综合考虑资源发现与服务提供的时间消耗与带宽需求。总之,就是以用户需求为中心、以整个网络空间为资源来动态地高效满足用户需求。

2.2 数字图书馆信息资源发现与组织的概念框架

研究表明,目前网络信息资源满足幂规律和小世界现象。幂规律[7]说明网络信息资源体系中,少数节点有较高的度(即到达该节点的边的个数),多数节点的度较低。显然从度高的节点入手进行信息查找获取相关信息的概率较高。小世界现象[8]说明网络信息资源具有高聚集度和低特征路径长的特性,因而,我们可以根据小世界现象来实现网络信息资源的聚集并基于此来讨论网络信息资源的自组织问题。无论是幂规律还是小世界现象都说明了网络空间中的信息资源具有集中-分散特性,这种特性是系统发展过程中层次结构特性与整体涌现性的体现,我们可以利用这些特征来实现网络信息资源的发现与组织。

基于幂规律的特征,我们可以较高度的节点为中心来组织相关的信息,形成网络空间中的信息聚集区,并且这些信息聚集区能够自己有效动态地完成相应信息管理,我们把这些区域称为资源自治系统(resource autonomy system,简称RAS);以资源自治系统为平台,以六度分离学说为基础,从核心节点出发,分析相关链路,直到返回核心节点为止,把这些链路上的节点聚集起来,形成资源自治系统的基本组成,而链路分析可以采用动态技术来完成,这样可随时实现与网络空间资源变化的同步变化;为了保证数字图书馆的服务可用性,我们把资源自治系统的相关信息在公共登记系统中予以注册,形成服务的基本框架。基于上面的分析,我们给出了下面的网络信息资源的基本概念框架(图1)。

图1 信息资源发现与服务概念框架

在上述概念框架体系中,资源自治系统(RAS)是较高度网络节点为核心基于小世界现象的若干特征链路的节点所构成的集合。显然,这些聚集区节点应该具有特定的内在联系,从目前的网络超文本或超媒体链接来看,主要是缘于相关主题的聚集;同样,对资源自治系统来说,它们之间也可能存在着各种各样的联系,这样可以实现更大范围内的资源聚集,形成更高概念层次的组织系统,从而整个网络资源可构成一个知识/信息网络体系,并且整个过程是自组织过程。数字图书馆可以利用资源自治系统完成信息资源体系的构建,并对各资源自治系统的信息进行动态挖掘与组织,在公共登记系统(public registry system,简称PRS)中进行注册与登记并随时保持更新,并以公共登记系统为基础提供信息服务。

在上述概念框架模型中有以下几点基本假设:①网络中的信息资源是可以唯一标记的。就目前的研究来看,这一假设是可以成立的,只要我们对网络资源采用标准的命名方法(如DOI[9])即可。②任何服务提供者或资源公布者都愿意让自己的信息为他人所了解。从情报学的研究来看[10],信源在生产或传播某一信息时是因为该信息有潜在的相关使用者,用户查寻某一信息也是基于在整个信息资源集合中存在与其需求相关的信息。③网络信息资源具有自组织功能。从系统理论可知,系统在发展过程由于元素间的相干作用总存在自组织现象,网络信息资源的自组织是源于相关信息的相互链接,从而形成相应的簇聚效应,幂规律就是最好的证明。④用户信息查寻过程受最小努力原则支配。从众多的研究来看,人类行为总是受最小努力原则制约,用户在信息查寻过程中总希望拥有较高的查全率和查准率,并且支付函数最小,因而构建相应信息资源自治系统具有非常现实的意义。

2.3 概念框架的运行机制

2.3.1 信息资源发现

基于网络计量分析特征,确定出特定主题的较高度的节点,并将相关信息在公共登记系统予以登记。在公共登记系统登记的主要内容以下列数据结构表示:

〈主题内容〉〈RAS代码〉〈更新时间〉〈资源地址1〉

〈主题内容〉以某一选定的主题词表或自动生成的主题词表为基础来确定,它是信息资源发现的重要环节,一般基于智能化的分析手段来确定,目前研究的各种自动文本分析技术、概念集生成技术都可用于对RAS主题内容的自动分析;〈RAS代码〉可以是结构化的组码也可以是流水码,主要取决于公共登记系统的规定;〈更新时间〉是RAS系统在公共登记系统注册或进行资源更新时的时间,一般来说系统应当规定最长的更新间隔时间;〈资源地址1〉是指RAS系统的资源地址编码,它应具有唯一性、可识别性等特征,我们认为用DOI系统是较为有利的一种选择。

从RAS的节点开始,基于小世界理论分析链接结构确定RAS的成员,并将成员信息在RAS中注册登记。登记的内容以下列数据结构表示:

〈数据内容〉〈语种〉〈文档类型〉〈RAS代码〉〈更新时间〉〈资源地址2〉

〈数据内容〉是指从RAS系统节点始至该节点终的每一个节点主要内容,可通过自动解析方法确定;〈语种〉是资源所使用的语言类型;〈文档类型〉是系统对文档的所属判断,可从不同角度予以划分,具体划分形式可根据系统的具体规定;〈RAS代码〉是指该核心节点的公共登记系统编码,目标是与公共登记系统进行连接与通讯;〈更新时间〉指RAS系统对下属节点定期或不定期的搜索或登记时间;〈资源地址2〉是指该节点的资源地址编码,我们认为采用DOI编码是较为有利的选择。

由于上述过程是自动分析所得的聚类结果,因而整个数字图书馆的资源发现结果是动态变化的,尤其是RAS系统的成员,随着成员数的增加或某些成员度数的增加可能形成一些新的RAS系统。

2.3.2 信息资源组织过程

为了提高搜索效率,必须对数字图书馆发现的各种资源与服务体系进行有效的组织,该组织过程主要是基于各种数据结构形成各种索引结构。

对于公共登记系统的数据结构,〈RAS代码〉与〈资源地址1〉具有同一性,因而只需对〈主题内容〉形成倒排文档,以〈资源地址1〉作为指标器指引到具体的资源位置,而〈更新时间〉可作为用户判断相关的重要参数(如用户限定查寻时间)。

对于RAS系统,我们也只需对〈数据内容〉形成倒排文档,以〈资源地址2〉为标示器指引到具体资源位置,而〈语种〉、〈文档类型〉、〈更新时间〉可作为用户判断信息相关性的重要参数。

2.3.3 信息服务过程

数字图书馆的信息服务过程是指数字图书馆以拥有或可存取的信息资源满足用户信息需求的过程。其基本过程如下图所示(图2)。

图2 信息服务查寻过程

当用户提交服务请求后,公共登记系统对请求服务内容予以确认并解析,引入智能化手段可使这一过程进行多次交互,使系统对用户请求深入理解,除用户给出的主题概念的语词表现形式外,系统通过各种词表或后控词表提示更多的相关词、近义词与同义词;系统把交互结构提交给共享数据库系统,通过各种索引来确定相应的资源自治系统,一般来说,对应的资源自治系统可能是多个,系统应提供相应的排序机制,使相关度高的资源自治系统处于查寻结果队列的前面;在各资源自治系统中,通过资源自治系统的代理处理,匹配相关的资源文件或页面,基于链路进程进行信息匹配,从而获得相应文件或页面。

在文件或页面响应进程中,系统应提供相应的过滤与净化机制,把文件或页面中不符合用户需求的部分(如广告页面、插入式动画等)过滤掉,一方面可使用户获得较为干净的文件或页面,同时可减少传输过程的带宽要求。

3 结论与讨论

基于网络信息资源分布的幂规律与网络信息交流的小世界理论构建的以资源自治系统为核心的数字图书馆网络信息资源的发现与服务系统,使数字图书馆的智能化信息组织与信息服务成为可能。本文仅从理论上探讨了其基本概念框架与运行机制,拟在下一步工作中进一步研究其实现过程及技术方法。

收稿日期:2006-05-18

标签:;  ;  ;  

数字图书馆信息资源的发现与组织_数字图书馆论文
下载Doc文档

猜你喜欢