基于信息的资源整合_元数据论文

基于信息的资源整合,本文主要内容关键词为:资源整合论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 信息整合概述

1.1 信息整合的背景

信息整合(Information Integration)是数据整合发展的必然,是信息需求推动的结果。

数据整合的应用实现了多种异构资源的“一站式”检索。但这种方式仅解决了异构数据库中信息实体的合并问题,基于数据的整合系统提供的信息实体,在网络空间中是孤立的一个个结点。实际上,信息实体间客观存在着多种、多重联系,这种联系是用户希望获取的。例如用户不仅希望从书目集成系统中一次性获得所需书目,还希望能够得到与书目相关的资源(如目次、全文、书评、音视频);用户希望既能从异构数据库集成系统中一次性获得所需期刊,也能直接获得其各种参考引证文献。然而这些信息实体存在于其他资源系统中。再如,网络资源的集成与整合已是各信息机构及图书馆资源建设的主要任务,从内容上看,这种资源集合与现有的资源系统之间也存在着多种关联。

从用户需求的角度看,希望能在一个统一的入口处,既可实现“一站式”检索,又能达到对多种关联资源“一步到位”的获取。由于这种需求的推动,如何在异构资源系统集成的基础上,将客观存在于不同资源系统中信息实体之间的关系进行揭示、关联与链接,便成为资源整合研究的一个热点,由此推动了基于信息实体关系的组织与整合的应用发展。

1.2 信息整合的概念

所谓信息整合,主要指通过某种机制或标准,集成、描述、链接不同类型、不同来源、不同载体的数字资源,使相对独立的信息实体之间产生联系,实现数字资源的全方位整合和一步到位的获取。

信息整合的主要对象是信息间(或文献间)的关系。这里的信息包括两层含义:信息实体;与信息实体相关的基本特征。信息实体也叫文献实体,也就是一个完整的资源对象,如一本图书、一篇论文或一个完整的文档等;信息实体的特征主要指文献的责任者、出版单位、主题等反映信息实体基本属性的要素。这里的关系包括两类:①信息实体(或文献实体)之间的关联,如文献的引证关系、级次关系、载体关系和版本关系等。②信息实体(或文献实体)基本属性间的关系,如文献的责任者与该责任者的所有文献与相关文献的关系,文献的主题/关键词与反映该主题/关键词的所有文献的关系,文献与其出版(收藏)单位的关系等。信息整合的本质,就是通过一定的技术手段,将信息实体间及信息实体基本属性间的多种复杂的关系进行衔接、整合,使分散的、异构的文献及其关系形成一个有机关联的整体。

1.3 信息整合的特征

(1)以数据整合为整合前提。基于数据的资源整合虽然实现了异构资源系统的“互联互通”和统一检索,但只是解决了分布在异构系统中相关信息实体逻辑或物理的集中,并没有体现信息实体间的有机关联。信息整合是数据整合的深化,是以数据整合为前提,对蕴涵在数据或信息集合中信息实体间的关联再进一步予以揭示与整合。

(2)以信息关系为整合目标。没有关系,信息实体就失去存在的基础[1]。关系是信息实体的根本属性之一,是指信息实体之间相互作用、相互关联的状态。一信息实体如果不同其他信息实体相联系,就不能规定自身的存在。蕴涵在数据或信息集合中的信息实体形态多种,其关系也复杂多样。信息实体间的关系虽然是客观存在的,但这种关系被资源系统的异构性所“割裂”而难以完整的显现。信息整合的目标就是采用一定的方式和手段,将被异构系统“割裂”的信息实体间的关系联系起来,重现其本来面目。

(3)以信息组织机制为整合基础。首先,以分类法、主题词表等信息组织体系组织资源对象。只有以分类法/主题词表等规范的术语按学科、按事物来集中文献实体,揭示文献实体相互之间的关系,才能为基于信息的整合奠定基础。其次,以元数据作为资源对象的描述标准。通过元数据对资源对象的内容、位置、关系进行揭示与描述,基于信息的整合才有可能 (分类法/主题词表主要强调以不同方式组织概念以类聚资源,不太关注组织概念关联,所以称之为基于知识的信息组织体系比较合适,或者可以视为比较低层次的知识组织体系)。

(4)以URI/DOI作为资源对象的标识基准。URI是所有标识因特网资源的地址和名称的通用集合[2],包括URI、URN和URL。URN是统一资源名称,URL是统一资源定位器,URI既可以标识一个名称,也可以标识一个地址,或者两者都是。URI和URN是一种抽象的唯一标识符框架,仅定义唯一标识符的结构、语法和字符集等规则,独立于具体的应用;DOI则是根据URI机制设计的应用领域的数字资源对象唯一标识符,它保证了通过URI机制来唯一地标识每个资源对象,从而使资源对象的标识独立于物理位置、应用系统和存取协议,有效链接资源对象间的多种关系和多重关系;在唯一标识符的基础上实现异构系统中信息实体间的定位和链接,从而使信息的整合最终得以实现。

1.4 信息整合的方式

信息整合的核心是组织信息实体的关系。基于这一认识,根据整合的范围和功能,结合现实的应用,可将基于信息的资源整合划分为两类,即基于信息链接的整合和基于信息门户的整合。基于信息链接的整合侧重异构数据系统中信息实体间的级次关系、载体关系和引证关系等多种关系进行组织,目前广泛应用于图书情报界的数字期刊数据库之间的参考引文链接是其典型的应用。基于信息门户的整合是将某一领域(部门、行业)的资源及资源间的多种关系集成到一个统一的界面,用户在一个入口处能够获得该领域(部门、行业)活动所需要的基本信息和关联信息。本文主要介绍这两种方式的基本模式,并分析其应用与发展趋势。

2 基于信息链接的整合

2.1 信息链接概念界说

所谓信息链接,即采用一定的技术手段如超文本链接技术,将信息实体间及信息实体基本属性间的内在关系组成一个有机统一体的资源整合方式。其功能是通过超文本链接机制将相互引证的文献组成一个有机的信息网络。超文本链接(Hyper links)是表现信息之间关系的一种手段,是指使用超文本标记语言 (HTML)的标记指令,通过统一资源定位符(URL),指向链接对象的具体位置,在链接源(链源)与链接目标 (链宿)间建立联系。链接是超文本的核心,其基本特征是在嵌入URL标识的信息节点之间建立关系。

基于信息链接的整合的核心就是采用超文本链接技术,在嵌入URL标识的信息节点之间建立关联,揭示客观存在于异构数据源中信息实体的关系。

2.2 基于信息链接整合的基本原理

2.2.1 基于信息链接整合的体系结构

信息链接可作为一个过程,也可看作一个系统。如果从信息链接过程的结构方面看,信息链接一般包括四个基本要素:链接源、链接宿、链接媒介和表述工具。

图1 信息链接模式

由于HTML/URL是一种单向、单个的基于资源对象物理位置的链接机制,难以适应动态、复杂的资源对象。图1链接模式克服了HTML/UR的不足,其优势在于:通过永久性的逻辑标识符(DOI、SICI)来唯一地标识每个数字对象,使资源对象的标识独立于物理位置、应用系统和存取协议,通过一定的解析系统获得对应的标识对象物理地址(URL),从而实现跨系统的指向、链接和读取[3]。采用OpenURL开放协议/XML链接机制(XLink),使链接源、链接对象和资源对象的需求者处在一个开放式互联框架内,在资源对象间建立单向或多向的复杂链接关系,实现对各类关联资源的有效整合。

(1)链接源。是信息链接行为发生的主体。这里,作为链接源的节点,其链接内容可以是题录、不同载体形式的文献全文,也可以是文献的责任者、文献主题、文献出版机构等。

(2)链接宿。是链接源的指向者。作为链接宿的节点,与链接源一样,其链接内容可以是题录、不同载体形式的文献全文,也可以是文献的责任者、文献主题、文献出版机构等。

(3)链接媒介。是联系链接源和链接宿的手段,主要提供解析、链接机能,它是信息间的关系得以衔接的重要条件。由于信息间的关系是双向的、多维的,因而基于链接媒介的链源与链宿是相对的,是可以转化的;链源与链宿可进行双方向链接的指定;链接宿是前一个链接源的目标,可能又是下一个链接目标的起点。

(4)信息表述工具。无论是链源还是链宿,都应该采用相同的表述工具予以标识,没有统一的标识,信息间的关系就无法有效揭示。这里主要指作为链源或链宿的资源对象,必须有相应的元数据,元数据中都包含一个唯一标识符对其进行逻辑地标识。元数据和唯一标识符是资源对象的组成部分。

2.2.2 基于信息链接整合方式的分析

基于信息链接的整合通过超文本链接机制,将存在于异构资源系统中的信息实体及信息实体基本属性间的内在关系整合起来,组成一个有机的信息网络。

无论信息链接整合的方式是封闭式静态链接、开放式静态链接还是开放式动态链接,这种集成方式的核心,即是采用超文本链接技术,通过唯一标识符的指向,将信息实体(或文献实体)间的引证关系、级次关系、载体关系和版本关系等多种关系进行定位和链接。

对于用户来说,这种集成方式的优点在于,通过链接,将不同资源系统中信息间的关系编织成信息网络,使得不同类型、不同级次、不同载体的信息有机地连接成一体;在基于信息链接的整合系统中,用户不仅可以一次性获得多个资源系统的数据或信息的集合,实现“一站式”检索,而且可以根据信息点链接的指引,实现关联资源的“一步到位”的获取,而不论其物理位置在何处。

2.3 基于信息链接整合的应用及发展

如果根据链接机制的不同,基于信息链接整合的实现方式主要有三种,即封闭式静态链接、开放式静态链接和开放式动态链接[4]。

2.3.1 基于封闭式的静态链接

基于封闭式的静态链接是指所有嵌入URL的信息链接点均在本地存储和控制,是基于自建或自行出版的以及可以控制的数据库中信息的链接;链接环境是封闭的、可控的。这种链接方式最突出的优点是链接的准确率高,其不足是链接数据源有限,链接范围不广,如果链接源中涉及的链接目标原自其他数据源,其链接就难以实现(见图2)。国外基于封闭式静态链接的应用系统主要ISI的Web of Science,国内CNKI在其“中国知识资源总库”平台上,也以学术引文为核心,实现本地系列数据库中各种文献资源之间的链接与整合[5]。此外,国内基于OPAC书目资源系统的纵向整合也是采用这种方式。

图2 封闭式静态链接系统模式

2.3.2 基于开放式的静态链接

基于开放式的静态链接是对封闭式静态链接的改进,主要解决链接源所指向的链接目标不在本地范围内的链接问题。其特征是不同的资源系统间互相提供链接对象的URL或标识符DOI,链接双方建立一致的数据描述和传递标准,以便在异构系统间建立链接。开放式静态链接方式最突出的优点是拓展了资源的链接范围,其不足是只能实现一对一的链接,如果一个链接源的指向是多个资源系统的链接目标时,其实现的难度就较大(见图3)。该种方式的典型应用是 ISI的Web of Knowledget[6][7]和CrossRef[8][9]。其中,ISI的 Web of Knowledge对本地系统资源的链接是在链接源中嵌入URL来建立链接机制,对外部资源的链接主要采用互相提供链接对象的URL,CrossRef则是一个基于DOI的开放式资源链接平台。

图3 开放式静态链接系统模式

2.3.3 基于开放式的动态链接

封闭式静态链接和开放式静态链接都有两种特性:一是链接源和链接宿的链接都是预先设定好的,用户不能自由选择链接目标;二是往往只能处理一对一链接,对于一对多的链接,对于新出现的链接目标等一些复杂的链接现象,其处理能力不足。基于开放式的动态链接是对前两类链接系统的改进。其核心主要是基于OpenURL开放式统一协议建立的链接系统。OpenURL规定链接源不直接指向链接对象,而是由第三方链接服务器(Link Server)作为用户与所需求资源之间的中介。链接服务器接收链接源传送来的 OpenURL,通过唯一的标识符(如DOI)解析其内容,建立对上下文对象的描述,以动态选择合适的链接目标,从而使链接源和链接对象处于在一个开放式互联框架内,不同资源系统中各类资源,只要符合OpenURL框架,均可很方便地实现多种资源的链接(见图4)。该方式的主要应用是基于OpenURL的SFX[10]。

图4 基于OpenURL开放式动态链接系统模式

3 基于信息门户的整合

3.1 信息门户概念界说

3.1.1 信息门户的含义

作为一种专业术语,信息门户源于Internet的搜索引擎和门户网站,是指将一些常用的资源网站及服务集成到一个访问入口,用户在这一入口处能获得所需信息而不必再去辗转其它资源网站。形象地说,所谓门户应该体现为资源上的“一网打尽”。

作为一种信息整合的概念,信息门户与搜索引擎门户、网站门户有着显著的不同。信息门户是针对某一领域(部门、行业)的需求,采用相应的信息集成技术,遵循资源组织的标准规范,对异构数据库资源和网络资源进行搜集、选择、描述和组织,并提供浏览、检索、导航等服务的入口。是一种有效组织领域资源、提供高质量信息资源的技术和手段。根据领域的不同,基于信息整合的信息门户大致包括学科信息门户、企业信息门户和政府信息门户三种类型。

3.1.2 信息门户的基本特征

(1)全面整合该领域重要资源。信息门户的资源范围应是全面反映领域的重要资源,将该领域内部 (存储于本地数据库资源)和外部(因特网上可公共获取的资源)这两部分资源和内在关系加以描述、组织,并集成到一个有机整体中。

(2)以信息组织体系(分类/主题词表)为资源组织的基础。分类/主题词表都是从内容角度标引和检索文献的方法,是信息门户对集成的资源进行描述以提供检索与浏览的依据。分类法是直接体现学科分类的标识系统。利用分类体系将资源集合形成一个有序的等级系统,既能揭示出学科领域门类所包含的资源,又能显示各门类资源之间的逻辑关系。主题词表是直接体现事物对象分类的标识系统,主题词表的应用既保证资源描述的准确性,显示资源间的相互关系,又可提供比较深入的体现特性的专业检索。

(3)以元数据机制作为资源描述的基准。基于信息整合的信息门户采用国际通用的元数据与标记语言对集成的资源进行描述,目前多用DC作为资源描述标准,揭示资源的外部特征、内容特征和关系特征。采用基于DC的资源描述框架(RDF)对结构化的元数据进行编码,使得各种元数据间的转换成为可能,有利于不同信息系统间资源的共享、交换和存取,可大大提高资源整合的效率。

(4)具有质量控制机制。为对资源组织、集成的各个环节进行管理和控制,需要建立资源的选择与评价标准和资源的组织与描述标准,这是实现信息门户整合效益的重要保证。信息门户标准规范体系主要涉及资源选择与评价标准和资源组织与描述标准等。

(5)具有检索与服务功能。针对用户的特点及需求,以一个统一的界面提供浏览与检索。并采用相应的技术手段,提供信息推送、信息推荐等个性化信息服务。

上述特点是完善的、标准的信息门户应该具有的基本特点。由于基于信息整合的信息门户其发展历程较短,各领域信息门户在整合的内容、方式、技术等方面显示出较多的不平衡,就是在同一领域,也具有不平衡性。具有信息门户完善形态的则是图书情报界的学科信息门户。

3.2 基于信息门户整合的基本原理

3.2.1 基于信息门户整合的一般逻辑架构

不同领域中的信息门户虽然表现形态、应用目的有所不同,但其整合领域内外部资源,提供统一的访问入口的功能是一致的。信息门户整合的一般逻辑模式由信息源层、信息加工处理层、信息集成层和信息门户应用层四个基本要素组成(见图5)。

图5 基于信息门户整合的逻辑架构

各部分基本功能如下:

(1)信息源层。信息源是信息门户的物质基础。由两部分来源组成,一部分资源来源于存储在本地的各类数据库资源以及具有使用权的其它异构数据资源系统,另一部分资源来源于因特网公有资源。

(2)信息加工处理层。主要功能是对不同来源的资源按照统一的标准规范进行加工、处理,创建标准的元数据。对于外部因特网资源,根据相应的信息资源组织体系进行元数据标引;对于异构数据库资源,依据统一的格式,采用物理或逻辑的方式进行转换和处理,形成标准的元数据。

(3)信息集成层。对经过加工处理的异构数据库资源和网络资源及资源间的关系进行有机的整合,集成到一个有机的、统一的数据仓储中。

(4)信息门户应用层。展示信息门户界面,提供导航、检索与个性化信息服务功能。

3.2.2 基于信息门户整合方式的分析

与搜索引擎门户、网站门户相比,信息门户最重要的优势体现在资源的针对性(针对某一特定领域、行业)、集成性(集成各种资源与服务)、可靠性(对资源进行控制和管理)和便捷性(可有效获取资源)。

较之基于数据的集成和基于信息链接的整合方式,信息门户是一个比较系统、完整的资源整合方式。它不仅兼有数据集成和信息链接整合的功能,同时在资源整合范围上也从内部延伸到外部,从异构数据库信息源拓展至网络信息源。通过不同的、若干个信息门户间的协作与互操作,可以构建起更大范围信息资源网络。

信息门户一方面解决了某一领域(行业)信息资源建设的问题,使信息的整合从分散到集中,由局部到整体;另一方面为用户提供了更多的信息服务方式,既提供信息导航,又提供异构资源的一次性检索,同时对具有关联的信息资源能够实现一步到位的获取。用户在信息门户中可以满足较全面需求。

3.3 基于信息门户整合的应用及发展

3.3.1 学科信息门户的应用及发展

学科信息门户是基于信息整合的一种比较完善的方式。作为信息门户应尽量涵盖不同类型、不同载体、不同来源的内部和外部的重要资源。

目前国内外绝大部分学科信息门户在资源整合范围上都是以外部资源为主,以因特网上可以获取的公有资源为门户的主体资源,其主要功能是实现网上学科资源的信息导航。国外较著名的是英国社会科学信息门户(SOSIG)[11],国内则是国家科学数字图书馆(CSDL)的资源环境、物理数学、生命科学、化学、图书情报等系列学科信息门户[12]。

随着学科信息门户研究的深入,资源整合技术的发展,国内外学科信息门户逐步形成以下两种应用与发展趋势:①在资源整合的内容上,将本地馆藏资源(包括馆藏OPAC书目数据库、全文数据库和特色资源库等)集成到信息门户中,与网络学术资源一起构成一个完整的学科资源体系,实现两种资源在统一界面上的无缝存取[13]。例如中国人民大学的“经济学学科信息门户”[14]。②在资源整合方式上,以知识组织体系 (领域本体、知识库、概念图、主题图)代替传统的分类体系与主题词表,对资源进行基于知识的整合,由信息门户向知识门户演化。

3.3.2 企业信息门户的应用及发展

企业信息门户和学科信息门户构建理念是相同的,即是将相对独立分散的多种信息资源整合到一个平台上,形成一个有机统一体,提供资源导航和信息查询途径,让用户能够通过单一的入口访问其所需要的信息。但是在具体内容和实现方式上,企业信息门户又有其自身的不同。主要表现为:①在信息整合范围上,和以网络学科信息导航为主的学科信息门户不同,企业信息门户注重资源的整体性集成,即集成企业内部和外部的所有资源,即所谓的“一网打尽”,而且更强调企业内部信息(数据系统、应用系统)的整合。②在信息整合的对象上,企业信息门户一般强调两类信息的集成,一类是各类异构数据信息的集成,一类是在此基础上的各类应用的集成,以创造一种高效的信息获取环境和工作环境。

目前,企业信息门户的研究与建设显示出两种趋势:①将基于信息组织理论的信息构建理论引入企业信息门户的建设中。信息构建的适用对象是所有的信息集合,其组织系统、标识系统、导航系统和搜索系统等信息构建的基本要素,以及构建信息路径,可以用于企业信息门户的构建。②是与学科信息门户发展的共有趋势,即伴随着知识管理的兴起,企业信息门户向企业知识门户(EKP)发展。

4 结语

基于信息的资源整合是基于数据的整合发展到一定阶段的必然要求。

信息整合是对信息实体中存在的多种复杂关系进行集成与链接的一种资源整合方式,对信息关系的组织是信息整合的核心。其目的使相对独立的信息实体及其关系形成一个有机关联的整体,实现数字资源一步到位的获取。在信息整合的实际应用中,根据资源整合范围和应用需求的不同,逐步形成了不同的信息整合方式,基于信息链接的整合和基于信息门户的整合是其主要表现形态。

基于信息链接的整合是揭示客观存在于异构数据源中信息关系的整合模式。其主要优势在于,通过链接机制将信息实体间的引证关系、级次关系、载体关系和版本关系等多种关系有机地连接成一体,实现异构数字资源系统中关联资源的有效获取。

基于信息门户的整合是集成与揭示某一领域(部门、行业)的重要信息及其信息间有机关联的整合模式。其主要优势表现为资源整合的系统性与全面性,整合范围囊括该领域不同来源、不同载体、不同类型的所有资源,并兼有数据集成和信息链接整合的功能,可在异构资源系统“一站式”检索的基础上同时获得具有不同关联关系的资源。

作为资源整合的一种方式,其重要的整合特征在于:仅对信息实体间的关联进行整合,没有揭示信息实体内部的概念和语义。所以引入知识组织体系,对资源集合进行基于知识的整合,是基于信息整合的显著发展趋势。

基于信息的资源整合是资源整合体系的中间层面,它既相对独立,又在一定层面上和数据整合、知识整合相互交叉重合。

基于信息的资源整合以数据整合为基础,同时也是知识整合的前提和条件。

收稿日期:2006-10-12

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于信息的资源整合_元数据论文
下载Doc文档

猜你喜欢