我国信息网格技术研究进展(一)_元数据论文

我国信息网格技术研究进展(一)_元数据论文

国内信息网格技术研究进展(上),本文主要内容关键词为:研究进展论文,网格论文,国内论文,技术论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]TP393

1 引言

伴随着互联网的发展,信息资源逐步呈现出海量、异构、分布、动态、自治等特性,客观需要有效的信息资源管理体系来对网络环境下的信息资源进行表示、组织、存储、注册、发布、发现、访问、安全、集成与服务等方面的管理,实现信息资源的异构集成与透明访问,这也是信息管理研究的核心问题之一。旨在实现信息资源有效共享与充分利用的信息网格技术为该问题的解决提供了可能,其通过对分布各处的数字信息资源和用户、超级计算机的数值计算能力和信息系统的数据处理及发布能力进行整合,对异构平台、不同格式、不同语义的信息资源进行规范和转换,对网格环境下的信息服务进行个性化集成,最终形成以用户为中心、可自动完成的信息管理机制和处理流程[1,2]。

2 信息网格技术简介

2.1 信息网格及其内涵

目前,广为接受的信息网格的定义是:信息网格是利用现有的网络基础设施、协议规范、Web技术和数据库技术,为用户提供一体化的智能信息平台。在该平台上,信息处理是分布式、协作式和智能化的,即非集中控制式,用户可以通过单一入口访问所有信息[2]。其目标是构建架构在OS和Web之上的基于Internet的新一代信息平台和软件基础设施,最终实现服务点播和一步到位的服务[3]。

究其内涵而言,信息网格是在全球范围内为各行业和社会大众提供一体化、通用信息服务的信息基础设施[4,5],是用网格技术和思想实现互联网信息资源的共享、管理和为用户提供一体化、个性化信息服务[6]的系统,主要解决广域分布、异构、海量信息资源的互联、互通和互操作问题,实现异构信息资源的同构访问和以用户为中心的信息集成[7],并重点拓展信息服务功能,包括信息的监测、搜集、注册、发现和检索[8]。其业务目标是彻底解决互联网上存在的信息孤岛、应用孤岛和用户孤岛问题,实现信息资源的有效共享。应用目标是变“异构信息访问”为“同构信息访问”,彻底改变基于网站的信息发布和获取模式中存在的效率低下问题。在信息网格平台上,用户只需在信息网格门户中提交信息需求或发布请求,其他工作由信息网格平台自动完成[9]。

2.2 核心研究内容及关键技术

与计算网格侧重于闲置计算能力共享[2]、数据网格侧重于大规模透明数据连通和共享、知识网格侧重于知识挖掘和管理[10]、语义网格侧重于信息资源语义集成、服务网格侧重于服务集成和管理不同,信息网格侧重于信息的获取、发布和管理[11],其以计算网格的计算能力和数据网格的数据管理功能为基础,重点解决广域信息的充分共享问题,并利用单一映像技术实现异构信息的同构访问[10],为用户提供个性化、一体化信息服务[12]。

信息网格关键技术包括体系结构、信息表示与存储、信息连通和一致性、信息网格智能化、信息安全等[3,12-14],涉及元结构数据结构化处理、信息在Internet上的合理分布、支持大规模用户的信息服务、智能信息检索和信息集成4项顺序承接的技术,即先有结构化信息,再去做合理分布,然后建立大规模信息基础设施,为用户提供信息服务,最后才是Internet级信息检索[7,15]。

3 国内信息网格研究进展

截止2008年6月30日,从CNKI上可以检索到题名包含“信息网格”的期刊论文149篇,硕博论文25篇,从重庆维普网上可以检索到139篇期刊论文。纵观国内研究成果,“信息网格”最早出现在何淑贞[3]等于2002年发表的《主宰互联网未来发展的信息网格技术》一文中;学术研究集中在体系结构、信息表示和元信息、资源管理、信息服务、安全和用户管理等方面,典型应用包括空间信息网格、织女星信息网格[5,9]、企业信息网格[3]、上海信息网格、军事信息网格[2]等。

3.1 体系结构

信息网格体系结构研究信息网格应具有的组成部分、各组成部分之间的组合方式以及运行机制[6],最终形成基于现有网络技术的完整信息服务链,实现跨越Web的信息集成[14]。目前,主要有抽象层次结构、积木块结构和混合结构三种形式[6]。

(1)抽象层次结构

抽象层次结构通常由多个层次组成,每层负责实现相应功能,并提供访问接口,各层协同实现网格功能,通常分为应用层、信息网格环境和信息资源层三层。核心是信息网格环境,又称虚拟资源空间,它一方面通过标准化访问协议、描述方法管理和标识信息资源屏蔽网格信息资源的无序、异构、分布等特性,通过虚拟资源层到信息资源层的动态映射算法、信息资源的动态加入和删除算法,实现信息资源的动态智能管理[16],另一方面为应用层调用提供支持,国内典型代表是织女星信息网格和空间信息网格。

织女星信息网格属于通用信息网格,整个体系结构基于信息网格资源空间模型EVP,分为4层:

①物理信息资源层:包括数据库、文档和URL;

②虚拟资源层:包括数据库对象管理、用户管理、权限库和基本流程引擎;

③频道:根据用户需求对物理数据进行重组发布;

④构成系统逻辑框架的社区:由用户、资源、角色等基本元素组成。

运行机制为:用户通过“频道”向信息网格平台提交请求,有效层通过访问LDAP来判断频道访问权限以及有效资源与虚拟资源的映射;虚拟层通过访问LDAP来判断虚拟资源访问权限及虚拟资源与物理资源的映射;物理层通过SOAP协议封装相关操作,完成与物理资源节点通信并返回相关信息[17]。此外,李晓林等学者提出松耦合织女星信息网格体系结构Sludge Architecture,具体由物理资源层、信息网格核心层、应用开发构建及部署平台和网格门户4层组成,运行时,利用网格门户、小网程和REVP模型映射关系,实现用户、应用逻辑、信息资源三者之间的动态绑定,并由会话容器控制执行[4,9]。

空间信息网格属于领域信息网格,其体系结构以服务为核心,分为资源层、服务层和应用层三层[18,19],核心是服务层,包括系统服务和专业服务,前者包括资源注册、监测、信息计费、安全和任务调度[20],后者为综合使用空间信息资源提供数据存储、组织、管理、分发、检索、处理和集成等服务[19]。此外,学者龚强将空间信息网格分为基础资源层、控制与分发层、管理层、环境与功能层、面向对象层和应用层[21]。学者赵姗等提出基于扩展UDDI的空间信息网格体系结构,具体包括网格资源层、网格容器层、扩展UDDI注册中心和Web应用客户端4层[22]。

此外,比较有特色的是学者史文羽中等提出的基于SOA的三维信息网格体系结构[23]。

(2)积木块结构

积木块结构通过定义信息网格应用与服务中的模块及相互之间的关系来设计信息网格体系结构,分析国内相关研究,信息网格体系结构由网格门户、元数据目录管理、资源接入和安全控制等核心模块组成。其中网格门户接收用户请求并进行任务分解,元数据目录提供信息访问接口,资源接入进行资源连接和信息集成,实现访问请求与信息存储系统之间的访问协议转换[24],具体采用资源代理[13]、数据适配器、网格服务器[25]或封装器实现,安全控制实现身份认证、访问控制、系统安全与监控等功能[13]。运行机制为:网格门户与元数据目录管理进行交互以选择最佳资源,然后由资源接入模块将资源接入。此外,学者杨宁提出的信息网格平台由响应客户请求的服务节点、用来访问物理数据库和封装成服务的存储系统的WS服务器、提供物理、虚拟、有效层资源的存储和访问服务的信息服务器和客户端浏览器组成[11]。

(3)混合型结构

混合型信息网格体系结构多是在某一种技术框架下实现信息网格功能的,比如Web服务、工作流等。

①基于Web服务的信息网格体系结构

学者庄毅等提出的信息网格模型由协同工作的Web服务器群子系统和Web浏览器群子系统构成。前者包括接受客户请求的Web Server、执行检索请求的。Executive Broker和提供本地服务动态信息的Service Broker,后者由多个Web浏览器和一个Proxy组成。用户通过Web浏览器群子系统提交请求以后,Web Server将请求转交给Service Broker,Service Broker告知浏览器端Proxy各个Web服务的信息与可用的Web服务器,然后由Proxy选择最优的Web服务器进行链接以获取信息,具体检索过程由Executive Broker执行[13]。学者马元元等提出基于Web服务的信息网格框架:信息发布者将信息封装成服务,然后将服务的接口、功能等描述信息发布到注册中心,服务请求者在注册中心查找所需服务,并使用注册中心提供的接口调用服务[26]。

②面向服务的信息网格体系结构

此类体系结构将各种信息网格功能以及具体业务应用统一封装为服务,通过管理服务实现信息网格功能。比如学者黄启峰等提出的基于服务的多层信息网格体系结构[12],面向服务的全球信息网格体系结构[27],面向服务的空间信息网格体系模型[28]。

③基于网格工作流的信息网格体系结构

学者王焕彬等提出基于网格工作流的信息网格架构,具体由门户、工作流引擎、信息网格资源管理、信息网格服务和信息网格性能监控组成[29]。

3.2 信息表示和存储

信息网格需要实现分布、异构信息的高效、安全、透明访问,解决如何将异构信息映射成数据库或其他存储机制(如文件系统)的数据实体和如何将信息以两种信息表示呈现给用户的问题,以及存储问题。国内相关研究集中在前者,尤其是异构信息的统一表示,目前多采用由多层元数据体系构成的虚拟数据层来解决:通过元素属性与值之间的关系描述数据对象,为其提供规范的描述方法和检索工具[30],屏蔽底层信息系统异构性;用户界面表示多采用遵循相关技术标准的信息网格门户,实现对信息资源的存储、调用和显示,比如利用XML与元信息的结合使界面表示和数据存储统一起来;信息网格存储多采用API实现,其定义对存储系统和文件实例的操作,如远程请求读/写、文件传输等[14],国内的相关研究并不多,仅有学者张超速提出采用GridFTP进行数据传输,采用SRM技术进行存储管理[31]。

在异构信息统一表示方面,最典型的是织女星信息网格提出的基于关系的信息网格资源空间模型,该模型用物理关系、虚拟关系和有效关系来统一表示信息资源[4]和用户信息[32],学者廖华明等以该模型为基础构建了由视图层、逻辑层和物理层元数据组成的多层元数据体系,用于信息资源表示[34]。其次,部分学者用面向对象思想解决该问题,学者段武明将信息网格信息资源分为结构化数据和非结构化数据:结构化数据表示采用基于元数据理论和面向对象思想的数据定义模型,通过将信息实体抽象成对象的方式来保证被管理对象的可扩展性和统一性;非结构化数据表示,主要是文件,则通过元数据将物理上分布在不同数据源中的基本数据在逻辑上形成单一数据源[5],学者周险峰等采用对象统一表示信息资源实体,资源对象属性包括信息内容、信息组织结构以及资源的Web表示三方面[33]。此外,学者程青等提出基于语义网技术的5层信息表示法:依次为UNICODE和URI层、XML+NS+XMLSchema层、RDF+RDFSchema层、Ontology Vocabulary层和逻辑推理层[30]。学者张小松提出用XML表示信息资源,用RDF表示元数据信息,用领域本体实现信息之间的语义连通[6]。

4 结语

综上所述,信息网格通过构建虚拟资源层实现异构信息资源的同构访问,为用户提供一体化、个性化的信息服务,一体化是其根本特点,单一映像技术是其核心技术。国内的相关研究处于起步阶段,体系结构主要分为层次和面向服务两种,具体内容与应用内涵相关。前者通过层间映射算法实现异构资源的透明访问,后者统一采用服务来描述信息网格资源,实现异构信息资源透明访问,同时两者相互借鉴。比如层次结构中的信息网格环境,其诸多功能就采用服务形式。目前,急需解决的是信息网格环境的标准化问题,具体可以通过制定通用信息网格功能组件来解决;信息表示主要采用面向应用领域、基于信息网格资源空间模型的多层元数据体系,现有研究多集中在信息资源表示上,对用户信息表示研究比较少,同时,需要注意网格环境下海量、异构信息资源的统一表示和自动处理问题,具体可以通过在信息网格中应用语义Web技术来解决。

收稿日期:2008-07-21

收修改稿日期:2008-08-13

标签:;  ;  ;  ;  ;  ;  

我国信息网格技术研究进展(一)_元数据论文
下载Doc文档

猜你喜欢