信息集成服务模型研究_信息集成论文

信息集成服务模式研究,本文主要内容关键词为:模式论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕G358.5

1 引言

信息集成服务是开发与利用网络信息资源的方式之一,也是信息服务必然的发展趋势。信息集成服务的基础是信息集成。所谓信息集成,就是把信息资源诸要素有机地链接成一个整体的动态过程。这个过程也是优化要素、体系重构的过程。信息集成服务将整个动态过程以网络的方式展示给它的用户,使用户能得到动态的、在时间和空间上一致的面向主题的信息服务。集成信息服务只有在网络环境下才能得以实现,用户利用信息集成服务时,在前台面对着的将是“一站到位”的计算机界面,而后台则是整体化的信息资源保障体系。

根据不同的标准,信息集成服务可划分为不同的模式,如关联模式、结构组织模式、综合模式和分析模式。本文根据信息集成的层次,将信息集成服务的模式划分为基于共享的信息集成服务模式和知识集成的信息集成服务模式,并分别加以探讨。

2 基于共享的信息集成服务模式

信息可分为语法信息、语义信息和语用信息,分别对应着信息的形式、内容和效用3个层次。基于共享的信息集成服务主要解决的是语法信息层次的信息集成问题,其主要的方式即通过对网上分布、异构的信息源实施有效集成,将它们的分布性和异构性屏蔽起来,向用户提供一致的数据界面和高效、简便的查询服务。根据实现手段的不同,它又可分为如下几种模式:

2.1 专业导航服务模式

这类服务是通过人工或智能软件对网络信息资源按信息内容之间的相关性(如学科、专业、领域等)或信息的结构特征(如文本、图片等)进行合理组织,并通过统一的用户界面向用户提供浏览或查询服务。目前主要的导航服务模式有书目式导航服务、智能搜索软件导航服务和内容收集器导航服务。

书目式导航服务通过集中化的索引提供查找网络信息资源的书目式工具。在这类服务中,信息源本身是分散的,信息源的建设并没有特定的联系和合作,管理人员在网上寻找合适的资源,然后将这些资源的标题和地点编入自己的书目,再加以组织,提供各种浏览或查询的途径。在计算机科学技术领域使用较多的A.C.Achilles编的“计算机科学收藏目录”,M.Ley的“数据库与逻辑程序书目”,D.Jone的“超文本书目工程”等都采用的是这种服务模式。正在建设的中国科学院国家科学数字图书馆(CSDL)2003年开通的电子期刊集成目录服务实质上也是书目式的导航服务。这种服务因为主要由人工完成,标引的精确度和专指性较高,所以查准率较好,但自动化程度低,仅靠人工无法完成对网上不断增长并动态变化的信息资源的全面及时的标引与组织。

与书目式导航服务相比,智能搜索软件导航服务主要靠软件(而不是人工)在网上抽取书目信息和内容联接点,生成书目信息和索引产品。这种服务模式自动化程度较高,能及时反映网络信息资源的变化,但专指性和精确度较差。内容收集器导航服务与智能搜索软件的做法相似,但能下载全文,因而其最终产品的功能要多一些,例如“新西兰数字图书馆”就属于这种类型。

2.2 联合体服务模式

这种服务模式是若干信息资源及服务提供者在一个统一的结构框架下合作,实现信息资源的共建共享。联邦数字图书馆是联合体服务模式的典型代表。所谓联邦数字图书馆是指正式或非正式合作的一些组织,它们同意支持一组共同的服务和标准,以便在成员之间提供互操作。联盟的成员只要支持共同约定的一组服务,可以拥有完全不同的系统。一般而言,联合体服务模式在信息资源的收集上也有协调。康纳尔大学的NCSTRL是联合体服务模式最成功的例子。

我国的CALIS也是联合体服务模式比较成功的代表。CALIS(China Academic Library & Information System),是经国务院批准的我国高等教育“211工程”总体规划中两个公共服务体系之一。CALIS的目标是依托Cernet,通过构建全国中心——地区中心——高校图书馆三级文献收藏与服务体系,形成互联网上高校图书馆资源共享环境。CALIS项目启动以来,通过大规模引进国外优秀数据库产品,开发建立如中外文联合书刊书目数据库、中文现刊目次库、高校博硕士学位论文文摘数据库等多个联合揭示高校图书馆丰富馆藏的二次文献数据库,以及重点学科网络信息资源导航库、反映高校特色馆藏的重点学科特色数据库,极大地丰富了高校的馆藏资源。同期构建的联机编目系统、馆际互借与文献传递系统等资源共享软件平台,也把高校图书馆资源共建共享活动推进到一个崭新的阶段。而三级联合资源保障模式的建立,不仅可以更好地开展资源共享服务,协调全国高校文献资源的合理布局,更为以后网络环境下大规模的分布式资源共享与服务打下良好的基础。现在CALIS已胜利完成了一期建设的任务,正准备进入“十·五”建设阶段,即中国高等教育数字图书馆建设。

文献[5]中,吸收了搜索引擎和联邦数字图书馆在分布式信息资源发现上的不同优点,提出了一个基于本体的多Agent分布式信息发现模型,在这一模型中,数据资源不仅有来自各成员提供的信息资源,还有由搜索引擎在网络上搜索到的信息资源,比一般联合体服务模式在资源发现上更主动、更全面,因而具有更高的查全率。

2.3 电子出版物存储库服务模式

Los Alamos国家实验室的XXX e-Print Archive是这种服务模式最成功的例子。这种服务模式是由作者提交文献,用户可以通过存储库的各种查询工具查找使用。1991年XXX便为高能物理电子文件建立了一个存储库,是首先使用开放式存储库为科学研究快速出版作品的杰出代表,1999年已有近8万份文献,并以每年2.5万篇的速度增长;在世界16个国家有镜像网站,拥有约3.5万用户,每天做7万多件查询交互处理。这种服务模式推动了网下信息资源向网上信息资源的转化,对促进信息资源共享意识的深入具有积极意义。需要注意的是:由于其信息资源是由作者主动提供的,缺乏有效的质量监督与控制机制,因此这类服务模式最好仅用于那些来源比较可靠的文献类型。

2.4 集成搜索引擎服务模式

搜索引擎在其最初的发展阶段能较好地满足人们获取与使用网络信息资源的需求,但是随着网络信息资源的指数级增长,单个搜索引擎已无法有效地查找用户所需信息,集成搜索引擎应运而生。集成搜索引擎系统建立在多个现有的搜索引擎之上,提供对这些引擎进行统一访问的服务。集成搜索引擎自己并不维护对所有文件的索引。但是,为了提供更好的服务,一个复杂的集成搜索引擎通常会维护一些关于底层搜索引擎内容的信息。简而言之,当集成搜索引擎接到用户查询以后,它能将该查询分送给适当的底层搜索引擎,再搜集和整理底层引擎返回的结果。目前,这一领域的研究主要集中在元搜索引擎的研究上。

信息检索的目的是在尽可能减少代价的同时最大限度地提高检索的有效性,在集成搜索环境中,可以通过两个层次来实现:①选择尽可能多的潜在有用数据库(即含有潜在有用文件的数据库)进行搜索,同时尽可能少地选择搜索非潜在有用的数据库。②在每个被选数据库里,在尽可能少地检索无用文件的同时尽可能地检索潜在有用文件。为此,可以在集成搜索引擎系统中引入数据库选择技术和文件选择技术,在进行查询分派前运行这两个程序,可以实现在尽可能减少代价的同时最大限度地提高检索的有效性的目的。

3 知识集成的信息集成服务模式

信息集成服务的基础是信息共享,但不是最终目的。信息集成服务的最终目的是通过对分布信息进行有效集成,利用“基因工程”对原始信息中的相关内容重新组织成新的信息或对原始信息进行分析得出结论性或咨询性信息,向用户提供综合的、集成的、带有决策咨询性质的信息服务,是更高层次的信息即知识的集成,解决的是语义信息甚至语用信息的集成问题。

目前的研究主要集中在信息的语义异构问题。造成语义异构的因素主要有:①不同的信息源使用多种术语(词汇)表示同一概念。②同一概念在不同的信息源中表达不同的含义。③各信息源使用不同的结构来表示相同(或相似)的信息。④各信息源中的概念之间存在着各种联系,但因为各信息源的分布自治性,这种隐含的联系不能体现出来。

现阶段解决语义异构的集成服务主要有基于中间件的信息集成服务模式和多agent信息集成服务模式两种。

3.1 基于中间件的信息集成服务模式

这种服务模式的体系结构如图1所示。

注:QCA(Query Correspondence Assertions)查询关系断言式

图1 基于中间件信息系统的体系结构

其中包装器(Wrapper)负责对特定数据源进行封装,将其数据模型转化为系统所采用的通用模型,作为其输出模式,并提供一致的物理访问机制。中间件侧重于全局查询处理和优化,有一个使用通用模型描述的全局模式,它通过调用包装器或其他中间件来集成数据源中的信息,解决数据的冗余和不一致性,提供一致协调的数据视图和统一的查询语言。包装器既可与中间件处于同一位置,也可与数据源处于同一位置,这取决于系统的性能要求、数据源的归属关系及其访问控制权限。

基于中间件的信息集成服务模式的关键问题是:①Wrapper的构造,有手工和自动两种方式。目前自动Wrapper的构造方法大致可分为两种:一种是基于模板表达的构造方法,采用这种方法的有TSIMMIS;另一种是基于结构路径表达的构造方法,SIMS采用的就是这种方法。②数据模型,包括全局数据模型和本地数据模型。数据模型的构造方法也分为两种:自顶向底和自底向顶。自顶向底方法是在领域专家参与下,建立全局概念模式,由全局概念模式来统一底层各信息源的语义。自底向顶方法首先提取底层各信息源的局部数据模式,其次在局部数据模式上抽取局部概念模式,最后在局部概念模式上构造全局概念模式。③查询处理,包括全局查询分解、查询优化、并行处理及查询结果的汇总等。

文献[11]针对Web数据提出了一个由数据采集与数据服务程序两部分构成的Web数据转换集成服务方案。在该方案中,由网页包装模块对所要搜集数据的网页进行包装描述,以此生成网页的“描述文件”。根据对网页包装以后产生的“描述文件”由网页采集程序从远程网站上抽取网页信息,即网页描述文件充当了数据模型的角色。但由于是对已知的网页进行包装从而生成描述文件,这一系统仅适用于固定领域的固定应用的数据集成,可扩展性差。

文献[12]提出了一个异构数据统一检索系统。该系统首先采用某一元数据标准,如DC,对所有数据进行标引,对信息抽取后通过Meta演算向用户提供统一检索服务。这种服务模式是解决异构信息集成的理想模式,即在信息的建设阶段就采用统一的标准,因此也就不存在语义异构的问题。显然,这种理想模式在信息爆炸的今天是不现实的,因此,这种模式仅适用于小范围的信息集成服务。

近年来,本体的概念被引入信息集成这一研究领域。关于本体的定义在目前还存在着争议,一个被广泛接受的定义即“本体是共享概念模型的明确的形式化规范说明”。该定义包含4层含义:概念模型(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。“概念模型”指通过抽象出客观世界中一些现象的相关概念而得到的模型。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化”指本体是计算机可读的(即能被计算机处理)。“共享”指本体体现的是共同认可的知识,反映的是相关领域中公认的概念集。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,从不同层次的形式化模式给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义。由于本体既准确地描述了概念含义又描述了概念之间的内在关联,并能通过逻辑推理获取概念之间蕴涵的关系,因此具有很强的表达概念语义和获取知识的能力。在信息集成服务领域,以本体作为相关领域的全局概念模式,可以较好地解决语义异构的问题。目前本体应用在Web信息集成中最有代表性的项目有(Onto)[2]agent、Ontobroker和SKC。

除本体外,XML也是近年来信息集成领域的一个研究热点。XML(extensible markup language)是一种通用的数据表示方法,具有可扩展性、开放性和互操作等特点,支持HTTP等协议,特别适合于Internet应用,已被用来表示全局概念模型。同时,在异构数据源集成应用研究中,XML的查询语言是个非常活跃的研究方向。W3C推荐的查询语言Xquery表示用户查询请求是一个好的选择。XML应用中的一个发展是RDF(resource description framework)。RDF是新近出现的元数据标准,以标准的XML形式表达,它的目标是将万维网变成一个机器可理解的知识库,通过弥合语义差异,RDF提供了一个数据模型来支持对数据源的快速集成。将本体、XML、RDF引入信息集成服务领域,将进一步推动本领域的发展。

3.2 多agent信息集成服务模式

agent具有自治性、移动性、交互性和智能性等特点。多agent系统可以定义为由分布在网络上的多个问题求解器松散耦合而成的复杂系统,这些问题求解器相互作用以解决只靠个体能力和知识所不能处理的复杂问题,多agent系统是由多个agent组成的,且每个agent又是一个自治的实体,具有目标和知识。多agent系统的核心是“局部运作,全局共享”。

文献[14]将多agent系统引入信息集成领域,提出了一个agent的异构信息源集成框架。整个系统的体系结构如图2。系统中有3类agent,分别是resource agent、mobile agent、user agent。resource agent负责提供本地信息源的集成视图,同时具有与其他resource agent协作的能力。mobile agent负责收集各resource agent的能力和本体逻辑。user agent根据用户的查询,向用户提供最适当的信息源和相关信息源。

图2 多智能体的体系结构

3.3 语义Web

因特网的创始人Berners-Lee于2000年12月18日在XML2000的会议上正式提出了语义Web(semantic Web)。语义Web的目标是使得Web上的信息具有计算机可以理解的语义,满足智能软件代理(agent)对WWW上异构和分布信息的有效访问和搜索。Berners-Lee为未来的Web发展提出了基于语义的体系结构——语义Web体系结构。该体系中从底层到高层分别为:UNICODE和URI、XML、RDF、Ontology、Logic、Proof、Trust。第一层是UNICODE和URI。该层是整个语义Web的基础,其中UNICODE处理资源的编码,URI负责标识资源。第二层是XML+NS+xmlschema,用于表示数据的内容和结构。第三层为RDF+rdfschema,用于描述Web上的资源及其类型。第四层为Ontology vocabulary层,它用于描述各种资源之间的联系。第五层到第七层是在下面四层的基础上进行的逻辑推理操作。其中核心层为XML、RDF、Ontology,这三层用于表示Web信息的语义。如果语义Web最终得以实现,那么Web信息集成将会最终跨越语义异构的难点而变得比较简单。

4 结束语

信息集成服务是近年来新出现的研究领域,目前国内的研究主要集中在基于共享的信息集成服务的研究上,图书情报领域的实践也主要在共建共享的层次上进行。国外的研究已经由共享研究向知识集成的研究过渡,美国1998年开始DLI-2(数字图书馆创新-2),在解释其宗旨时指出,“数字图书馆通过创造一种信息环境来提供获取分散存储着的信息的智能途径,这种环境远不止提供通过电子途径去获取原始数据的功能,它提供更高级的智能途径,即获取电子收藏中所含的更全面的知识和意义的途径”。

信息集成服务是一项系统工程,需要涉及到管理学、社会学、法学、心理学特别是计算机科学等领域的知识,其中技术的发展将是推动信息集成服务向更高层次发展的主要动力。随着相关知识与技术的进一步发展,如推送技术、转播技术、指引库技术、智能代理技术、数据仓库、数据挖掘、人工智能以及前文提到的XML和语义Web等,信息集成服务将逐渐完成由共享集成服务向知识集成服务的过渡,体现出其不同于集中或分散服务的主动、智能、交互及个性化等独有的特征。

标签:;  ;  ;  ;  ;  ;  ;  ;  

信息集成服务模型研究_信息集成论文
下载Doc文档

猜你喜欢