基于WSMO框架的数字图书馆语义服务体系研究_数字图书馆论文

基于WSMO框架的数字图书馆语义服务架构研究,本文主要内容关键词为:语义论文,架构论文,框架论文,数字图书馆论文,WSMO论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 研究背景及思路

数字图书馆的发展进程同计算机科学的发展紧密联系,数字图书馆的发展如图1所示。传统图书馆收集、存储并重新组织信息,使读者能方便地查到所需要的信息,同时跟踪读者使用情况,以保护信息提供者的权益。随着网络技术、数字存储及传输技术快速的推广普及,跨地域性的“无墙图书馆”概念被提出来。

当前各国的数字图书馆建设开展得如火如荼,各种数字图书馆工程、数字图书馆联盟纷纷涌现。但据OCLC调查显示:全球84%的人通过谷歌、雅虎、百度获取资料信息,而使用数字图书馆集成系统的人仅占2%。数字图书馆作为信息中心,具有不可比拟的优势,但众多数字图书馆各自为战,没能有效整合资源,造成资源严重浪费。

图1 数字图书馆衍变

随着数字图书馆的大量建设,如何解决数字图书馆间的异构性,整合各数字图书馆文献资源,成为制约数字图书馆发展的新瓶颈。数字图书馆间主要存在以下四类异构现象:

(1)描述异构。数字图书馆间使用不同的本体概念对内容进行描述,通信双方对文献语义描述模式不同,造成数字图书馆间语义级互操作受阻。

(2)传输异构。数字图书馆间使用不同的格式、语言描述信息,或者使用不同的传输协议。各数字图书馆间采用不同制造商生产的计算机、网络设备和系统,大部分情况下运行在不同的协议上支持不同的功能或应用。

(3)功能异构。数字图书馆间功能需求不同或操作行为存在差异。异构数字图书馆各系统具有自身的自治性,实现数据共享的同时,每个系统仍保持自身的应用特性、完整性控制和安全性控制。

(4)过程异构。数字图书馆间所支持的操作系统及数据库不匹配。异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,每个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的数据库管理系统(Data Base Management System,DBMS)。

为解决数字图书馆异构性问题,本文提出了基于WSMO(Web Services Modeling Ontology)框架的数字图书馆语义服务设计方案。选择应用面向服务的架构(Service-Oriented Architecture,SOA)整合数字图书馆的服务资源。SOA通过定义各类接口,可以整合跨平台、低耦合性且自主开展业务的数字图书馆。但由于缺乏语义推理能力,SOA在面对高动态的海量数据时,很难用传统方法处理不断变化的服务及信息[1]。

为此,我们设计了加入语义描绘功能的SOA架构,既基于WSMF(Web Service Modeling Framework)的语义SOA架构。WSMF提供了一套具备诸如发现、调解和调用语义Web服务的功能组件。在WSMF架构下,运用WSMX-Choreography引擎及WSMX(Web Service Modeling Execution Environment)数据中介器解决Web服务发现、组合、选择、调用过程中的本体异构问题,并模拟了WSMX数据中介器在数字图书馆间的工作场景。

2 基于WSMF的数字图书馆语义SOA架构

WSMF作为已被运用的WSMO方案,提供了一套解决异构性的组件,这些组件能够提供诸如检索、调解、实施语义Web服务等功能。我们设计了一个完整的基于WSMF的语义SOA数字图书馆架构,如图2所示。包括四个层次:表现层,由多组接口组成;解决层,由一整套能够使工程师和用户通过使用中间件进行联系的服务组成;中间件层,由提供不同业务间的智能整合及互操作服务组成;服务层,用来提供数字图书馆的异构业务间后台应用功能[2]。本文第4节将对基于语义服务的数字图书馆SOA架构的中间层进行:展开说明。

不同种类的操作系统、应用软件、系统软件和应用基础结构相互交织,这是数字图书馆的现状。一些现存的应用程序被用来处理当前的业务流程,因此从头建立一个新的基础环境是不可能的。SOA凭借其松耦合的特性,使得数字图书馆可以按照模块化的方式来添加新服务或更新现有服务,以解决新的业务需要,从而保护了现有的数字图书基础建设投资。

要运行、管理SOA应用程序需要SOA运行环境,这是SOA平台的一个部分。SOA运行环境必须支持所有的相关标准,并需要合适的封装容器。WSDL、UDDI和SOAP是SOA运行环境的基础部件。其中WSDL用来描述服务;UDDI用来注册和查找服务;SOAP作为传输层用来在数字图书馆之间传送消息。在整个运行流程中,SOAP是Web服务的默认机制,其他的技术为可以服务其他类型的绑定,可以在UDDI注册表查找服务,取得服务的WSDL描述,然后通过SOAP来调用服务[3]。

图2 基于语义服务的数字图书馆SOA架构

3 数字图书馆远程异构解决方案

网格技术能够帮助解决数字图书馆远程异构问题,有效整合分散在各地的数字图书馆。本课题利用Ganglia捕获数字图书馆计算机硬件信息,并使用网格软件Glohus Toolkit 4.2.1(GT4.2.1)[4]的Web组件建立基于语义网格技术的WSMO数字图书馆系统模型。

网格调度平台包括网格的监测调度和语义(WSMO)调度两个部分。监测调度用的是Globus中的信息服务组件(Monitoring and Discovery Service,MDS)。MDS组件可以在网格中发现服务,监视资源状态信息,它包含Index Service,Trigger Service,Aggregator Service三个服务[4]。语义调度直接访问数字图书馆WSMO框架,通过解析WSML来达到语义服务的目的。Ganglia捕获各数字图书馆服务器的操作系统、CPU指数、CPU使用率、内存大小、网络流量情况等数据,并每隔指定时间响应一次服务端的请求。WSMO数字图书馆网格调度平台如图3所示。

图3 WSMO数字图书馆网格调度平台

4 基于WSMO的数字图书馆语义服务模型设计

语义Web和Web服务将成为下一代Web应用的支撑技术,语义Web使得机器能够理解数字图书馆Web页面中的内容(如文档、文献等),Web服务则为数字图书馆奠定了一个自动化的动态发现、组合和执行服务的技术基础。WSMO致力于推进语义Web服务的发展,形成语义Web服务语言标准,为语义Web服务建立统一的体系结构和共同的平台。WSMF是欧洲的研究组织提出的语义Web服务建模框架,而WSMO是在WSMF下提出的一个Web服务的建模本体,对WSMF进行了扩展。WSML则致力于描述Web服务所有相关的特征,从而达到Web服务的自动发现、选择、组合、协商、执行和监测。

鉴于“基于本体、严格解耦、角色分离、执行语义、集中协调”这一原理,欧洲研究组织导出了WSMF建模框架。该框架由Web服务、目标、中介器、本体四个顶层元素及其间的关系构成。其中,WSMF的顶层要素及其相互关系由Web服务本体模型(WSMO)扩展为层次结构的WSMF底层要素体系。WSMF的底层模型由WSML对基本要素进行描述,然后转换为XML代码。WSMF认为WSMO应该具有各个层面上的中介器,包括数据结构中介器、消息交换协议中介器和服务调用中介器[5]。在本文中,WSMF框架的四个顶层元素被用来描述数字图书馆的各主要要素,加之运用WSMX数据中介器和WSMX-Choreography便能够实现数字图书馆间本体—本体中介器的概念功能,从而最终解决数字图书馆异构性问题,实现跨平台的多图书馆智能检索。

4.1 WSMF框架设计

WSMF没有简单的区分原子服务和组合服务,而是认为Web服务接口的复杂性和内部描述的复杂性不同,认为Web服务没有固有的复杂性,而仅仅具有外部可视的复杂。因此,WSMF将外部描述和内部描述严格区分。并且不简单的使用原子——组合服务这种“二分法”来区分网络服务的描述,而是采用了黑盒描述—灰盒描述—白盒描述的渐进方式。WSMF还使用了数据流和控制流分开的方式来描述Web服务外部的可访问部分。

在WSMF基础上,WSMO定义了语义Web服务模型的四个顶层元素,即本体(Ontology)、Web服务(WebService)、目标(Goal)、中介器(Mediator),顶层要素关系如图4所示。Web服务是为了支持自动发现、自动组合、自动执行对Web服务的形式化描述,包括能力和接口,前者定义了Web服务的功能;后者描述了如何应用Choreography和Orehestration实现Web服务的互操作。目标顶层表示了服务请求者通过使用Web服务所要达到的目标;中介器顶层要素用于解决互操作的各顶层要素之间可能发生的不匹配。四种类型的中介器用于连接WSMO中的其他三个顶层要素,即目标—目标中介器、本体—本体中介器、服务—目标中介器、服务—服务中介器[5]。本文使用四要素对数字图书馆进行拆解、描述,利用中介器最终解决数字图书馆兼容性问题。

图4 WSMO的四个顶层要素及其相互联系

4.2 WSMX数据中介器设计

WSMX(Web Service Execution Environment)数据中介器完整实现了WSMO本体—本体中介器的概念功能,能够解决Web服务发现、组合、选择、调用过程中的本体异构问题,是映射规则的实际执行者。WSMX数据中介器的作用就是将本体实例转换为标本体实例,其在数字图书馆间的工作场景如图5所示。两个数字图书馆间因业务需要进行通信,一方想要使用另一方提供的功能,一系列信息在通信双方之间交换。每一方发出的信息都由其所用本体概念标注。由于双方使用了不同的本体,因此二者的成功通信需要语义执行环境WSMX中的数据中介器将消息中的概念实例转化为消息接收方所用本体的概念实例。也就是说,执行环境成为二者之间沟通的桥梁[6]。

图5 WSMX数据中介器在数字图书馆中的应用场景

本体—本体中介器(ooMediator)是WSMO中介器四种基本类型之一,是WSMO所提出的中介机制的最基本组件。它用于桥接描述其他WSMO元素的不同本体,可以被任何WSMO顶层要素所使用。

WSMO用语义本体建模,但还不能实现动态编辑,例如通过图形化方式对WSMO的choreography动态显示。WS-cdl能够对Pi4soa映射,转换成Bpel,即通过WS-cdl到Bpel的映射工作,然后发布到Bpel引擎,全局调用Bpelws(Business process execution language for webservices)。由于WSMX是硬编码实现组合的执行,需要修改WSMX执行引擎,留待以后对WSMX执行引擎的修改,使之能够由Choreography的WSML文件完成动态执行服务编排。当前可以用三种方式实现WSMX服务组合:Petri网机制、Pi演算(WS-cdl-->Pi-->Bpel)、Fsm状态机[7]。

4.3 WSMX-Choreography引擎设计

Choreography定义了如何与Web服务交换信息,即所谓的接口模式。它描述了一个请求者如何与服务提供商联系(在WSMO下执行Web服务)。这项服务请求者有自己的接口模式,只有相互精确匹配,请求者和服务提供者的直接沟通才有可能发生。通过匹配我们了解到全部的服务和目标接口模式,这也称为进程的等价性,这意味着对于每个可能的实例服务Choreography至少有一个目标Choreography实例可用。

由于客户端有自己的接口模式,通常和使用Web服务的接口不同,使之不能直接沟通,即使他们能够理解相同的数据格式。为了调用Web服务当事人必须重新定义他们的接口模式(或至少其中之一),或者利用外部调解系统作为该进程的一部分。第二种方法正是WSMX-Choreography引擎试图达到的目标。Choreography引擎的作用是把必要的元素整合起来,在运行时分析两个Choreography接口,并通过中介器来应对可能出现的不匹配情况。抽象状态机引擎用来执行WSMX-Choreography,抽象状态机引擎主要由控制应用程序接口、解释器、抽象存储器、调度程序四部分组成,其作用是执行在Choreography中描述的抽象状态机规则。数据处理通过中介器,数字图书馆间进行数据转换时才能保证一致[5]。如图6所示。

数字图书馆要实现海量数据共享需要具备两个条件:一是实现数据库转换;二是实现数据的透明访问。数据库转换工具用于实现不同数据库系统之间的数据模型转换,现在的问题是:如果数据库转换同时进行数据定义模式转换和数据转换,就可能引起同一数据集合在异构数据库系统中存在多个副本,因此需要借助WSMX-Choreography。在保证各个参与数据库自治、维护其完整性、安全性的基础上,对于海量异构数据库系统提供全局的访问控制、并发机制和安全控制。

对于海量数据系统采用多Agent抽象状态机,调度程序将采用一些策略选择一个Agent去执行(例如轮转策略或优先级策略)。然后,从抽象存储器中搜索存储在其中的被选择的Agent集合。抽象存储在接受了控制应用程序接口的消息之后,调用解释器。解释器在评估条件和产生更新集合之后,调用后台推理机,执行抽象状态机的规则。如果满足转换规则的条件,将命令抽象存储器执行更新规则,并将发生的改变返回控制应用程序接口[8]。

图6 利用Choreography进行数字图书馆间数据转换

4.4 配置WSMX

CVS是树形源代码管理工具,成功连接到CVS,WSMX文件将依据概述被分为不同组成部分。编辑代码前,必须先创建一个分支,在编译代码并运行无误后,将任务提交到HEAD。树形层次可按COMPONENT/src/main/ie/deri/wsmx……的根目录方式设置。有些WSMX组件依靠Web服务(如编译器,适配器)运行[9]。使用Apache Axis库编译WSMX,必须按照特定需求的指定来部署Tomcat服务器,以便对系统资源和系统功能(如写入文件,连接,解决特定的Java库等)实现权限的限制和授予。WSMX配置文件如下:

●$(USER-HOME) \ wsmx.properties-specifies connection to JDBC,login/password,paths to log4j properties files,etc.

●$(WSMX-HOME)\build.properties-specifies paths to JDBC driver libraries

●$(WSMX-HOME)\ bin\ startWSMX.bat-starts WSMX

5 结语

借助WSMO模型,我们可以很好的解决数字图书馆间的数据兼容性、信息兼容性和交互兼容性的问题。Web服务顶层要素之下的Choreography要素可满足信息兼容性,中介器顶层要素则可满足数据兼容性和交互兼容性。在Web服务执行过程中,应用WSMX-Choreography引擎和中介器是解决数字图书馆间兼容性问题的可行方案。数字图书馆间四类异构现象的解决,实现了对数字图书馆资源的整合,最终使数字图书馆成为可扩展的知识网络系统,成为跨库无缝链接与智能检索的知识中心。

收稿日期:2010-10-07

标签:;  ;  ;  ;  

基于WSMO框架的数字图书馆语义服务体系研究_数字图书馆论文
下载Doc文档

猜你喜欢