基于数据的资源集成_大数据论文

基于数据的资源整合,本文主要内容关键词为:资源整合论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 数据整合概述

1.1 数据整合的背景

数据整合(Data Integration)作为一种资源整合的理念和方式,缘起于20世纪90年代初,是随着信息系统集成的兴起而逐步引起重视的。在企业信息化建设过程中,建立了由不同核心技术构建的信息系统,由此而构成了一个个的异构数据源。如何通过一个集成系统,将企业内部和外部的异构数据源进行整合,提高资源的利用效率,是现代信息系统建设面临的挑战。数据集成则是实现信息系统集成的关键和基础,其目标是消除系统的分布性和异构性,实现异构信息子系统间的信息共享。由此,在计算机界的数据管理研究领域,异构数据集成与整合受到越来越多人的重视,这方面的研究也成为当前数据整合研究的一个热点。

与此同时,图书情报界的数字图书馆建设也面临上述问题。从20世纪90年代至21世纪初,数字图书馆建设主要集中在资源的数字化。经过近十年的数字资源建设,形成以下两种局面:一方面,数字图书馆不断地提供新的数字资源,为用户寻找信息提供多种渠道;另一方面,数字图书馆所拥有的资源系统都是封闭式的异构系统,给用户利用数字资源带来诸多不便。面对日益增多的数字资源系统,本世纪初,数字图书馆的资源建设开始注重研究数字信息系统间的互操作,对分布、异构的资源系统进行集成与整合,成为数字图书馆研究与应用的主要趋势。

1.2 数据整合的概念

所谓数据整合,是对异构资源系统中的异质、异类的数据在逻辑上或物理上有机地集中,提供统一的表示和操作,以解决多种异构数据资源的互联与共享。在集成化信息系统中,绝大部分信息是以数据的方式存在和处理,因此,通常将信息集成与数据集成等义。一般地,图书情报界多用“数据整合”,计算机科学界多用“数据集成”。

数据整合的主要对象是异构资源系统。异构系统是指众多的资源系统间所形成的一种不兼容的状态。所以,集成就是异构系统间的互操作,就是提高异构系统间的兼容性。资源系统的“异构性”主要表现为以下三个层面:①系统运行平台的异构。包括存储位置、硬件设备和操作系统的异构。②数据库管理系统的异构。包括数据模型、系统软件的异构。③数据的异构。包括数据类型、数据结构、数据语义的异构。

数据整合的本质,就是通过一定的技术手段,把上述不同来源、不同格式、不同特点、不同性质的异构数据,在逻辑上或物理上进行有机地集中,屏蔽各种数据源的差异,让这些异构系统“互联互通”,并以统一的视图形式表现出来,达到异构数据的共知和共享。

1.3 数据整合的特征

(1)数据获取的直接性。通过不同方式集成后的信息集成系统,应是各异构数据源的有机集成。对一个查询请求,可以直接一次查询多个数据源系统,不需分别访问不同的资源系统。

(2)数据访问的一致性。通过不同方式集成后的信息集成系统,应提供访问数据的全局统一数据视图,以一个统一的界面,使对异构系统中不同信息资源的访问不受数据格式、数据位置和访问接口差异的限制。

(3)数据显示(提取)的完整性。从信息集成系统中获取的数据信息,应保持其在原系统的状态,不可产生数据要素丢失的现象

1.4 数据整合的方式

数据整合方式是信息系统集成领域一直关注的研究重点。目前在实际应用中已经形成了一些较为成熟的整合方式,主要有基于联邦数据库的整合方式、基于数据仓库的整合方式和基于中介模式的整合方式。联邦数据库是构造信息集成系统较早的方式,基本思想是面向多个数据库系统,通过各数据源之间的数据交换格式进行一一映射,实现数据共享。数据仓库整合方式是将异构数据库系统中的数据复制并提取出来,建立一个消除了差异性的、稳定的数据仓储集合,以提供集中的、统一的检索服务。中介模式的数据整合即是通过诸如中间件、请求代理、标准协议等中介媒介,来完成数据的逻辑集成。其中中间件集成是目前比较通行的基于中介模式的数据整合方法。

目前,基于异构数据源系统的数据整合有多种方式,所采用的体系结构也各不相同,但其基本的体系结构可分为两类,即基于数据仓库的整合方式和基于中介模式的整合方式。本文将主要介绍这两种方式的基本模式,并分析其应用与发展趋势。

2 基于数据仓库的整合方式

2.1 数据仓库概念界说

1993年,W.H.lnmon在其所著《Building the Data Warehouse》中对数据仓库进行了完整的界定。他将数据仓库定义为:一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用以支持管理层的决策。这一界定被学术界广泛认同。

W.H.lnmon关于数据仓库的定义,可以从三方面来理解:首先,数据仓库是一种数字资源集成与整合的工具与方法;其次,数据仓库不同于一般的数据库,它是按照一定的要求对多个异构数据源所进行的有效集成;其三,数据仓库的主要目的是支持管理层的决策。

W.H.lnmon对数据仓库的界定,揭示了数据仓库的主要特征,即:数据组织的主题性、数据存储的集成性、数据格式的一致性、数据的相对稳定性、数据内容的更新性。

2.2 基于数据仓库整合的基本原理

2.2.1 基于数据仓库整合的体系结构

数据仓库的结构由不同层次组成,一个完整的数据仓库结构包括数据仓库基本功能层、数据仓库管理层和数据仓库环境层[1]。如果从数据集成的功能来说,数据仓库集成体系结构由异构数据源层、元数据抽取与创建层、数据仓库构建层、数据仓库管理层和应用层组成(见图1)。

图1 数据仓库集成的体系结构

各层的组成和基本功能如下:

(1)数据源层。是指集成于数据仓库中的各个异构数据系统,也就是在基于数据仓库集成系统的使用过程中的主要数据来源。

(2)元数据抽取与创建层。主要功能是对数据进行预处理。一般包括数据抽取、数据转换、数据净化等过程。

(3)数据仓库管理层。主要提供对数据仓库的管理和支持。包括数据仓库的数据管理和数据仓库的元数据管理两部分。

(4)数据仓库构建层。即指来自异构数据源的数据经过转换与净化后向元数据库进行转移和加载,创建数据仓库。

(5)应用层。展示数据仓库检索界面,提供查询工具,为用户和应用程序查询数据仓库提供服务。

2.2.2 基于数据仓库整合模式的分析

数据仓库整合方式通过对来自异地、异构的数据源或数据库的信息进行抽取、解析、净化、转换、过滤、整合,使分散的、不一致的数据转换成公共数据模型并被集成到数据仓库中,用户通过对本地数据库的访问实现多个异构数据库的一次性检索。数据仓库整合的主要特点是:数据物理地集成于本地,集成数据与操作型数据相分离,原来分散的数据库系统仍然可独立地提供检索服务,因而是一种实现异构数据源的集中式管理、集中式存储的方法。

这种方式的优点在于,由于数据仓库是对多个异构数据源的有效集成,最终解决了多个分散的异构数据源间的不同和差异,为用户提供一个单一、透明的数据使用环境,查询速度快,数据质量高。缺点是集成的数据要消耗大量的存储空间,所获数据具有一定的时滞性。

2.3 基于数据仓库整合应用的发展

随着数据仓库应用的发展,对数据仓库整合方式的需求越来越多。目前基于数据仓库数据整合方式的应用发展主要表现为以下方面:①数据资源的获取范围向广度延伸,即数据仓库集成对象从传统的异构数据库向WEB数据集成发展。②服务内容向深度发展,即利用数据挖掘技术和联机分析处理技术,实现更高层面的决策服务。③随着一些互操作协议的发布与应用,数据仓库对数据源的集成方式,从对异构数据源被动的“抽取”数据向主动“收获”数据的方式转变。

2.3.1 基于网络数据整合的应用

随着Web资源的迅速增加,类型不断丰富,对 Web资源的使用需求不断增长,数据仓库集成的对象逐步从分布式异构数据源扩展到Web数据源。传统异构数据库的数据是按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立和易扩展性,而Web数据没有固定的数据模型,数据结构和数据类型复杂多样,表现形式动态变化,对Web数据实施有效的抽取、转换、集成,保证数据的一致性与正确性,其难度比传统异构数据源的集成要大得多。这是数据仓库整合面向Web数据集成发展所面临的一个具有挑战性的问题。

2.3.2 基于OAI-PMH协议的应用

OAI-PMH(Open Archive Initiative for Protocol Metadata Harvesting)是OAI组织发布的一种基于元数据的收获的互操作框架[2]。通过OAI协议即可从异构分布的数据提供者中收获特定主题的元数据存储到本地数据库中,在此基础上提供统一查询检索服务。该协议框架由两部分组成,一是数据提供者(Data Provider),一是服务提供者(Service Provider)。数据提供者是元数据的发布方,一般拥有一个或多个仓储 (Repository),采用OAI技术框架发布元数据;服务提供者是元数据的收割方,遵循OAI-PMH协议,向众多数据提供者发出请求,收获数据提供方的元数据的元数据,将之集中保存在一个中心数据仓储中。

目前在数字图书馆建设领域,采用OAI-PMH进行元数据集成与整合的较有代表性的系统主要有[3][4]、 ARC[5]、OAIster[6]、NSDL[7]、NDLTD[8]、my.OAI[9]和 CALLS—高校学位论文数据库[10]等。

2.3.3 基于决策服务的应用

W.H.lnmon关于数据仓库的定义明确了数据仓库构建的主要目的是支持管理层的决策。要有效利用数据仓库中的资源,必须要有强大的工具对数据仓库中的数据进行分析。由于决策分析的工具与技术的局限,数据仓库支持决策的功能远没有实现。随着数据仓库的建立与应用,不仅实现了异构数据源的有效集成,同时也为数据的分析处理、数据的深入挖掘提供了数据源,从而促进了联机分析处理技术(OLAP)和数据挖掘技术的发展与应用;数据仓库和数据挖掘、联机分析处理技术的结合,使得数据仓库系统能够实现更高层面的决策服务。

目前,面向决策的数据仓库集成方式开始在工商企业、金融银行、医疗卫生、农业、建筑业、电信业、环境保护、军事等领域逐步加以应用,提出了一些面向本领域、本部门的基于数据仓库技术的应用方案。见诸报道、比较著名的是商业领域沃尔玛的数据仓库[11]。

3 基于中介模式的整合方式

3.1 中介模式概念界说

基于中介模式的整合方式,也称为数据的逻辑集成。这种方式是通过包装器(Wrapper)/协调器 (Mediator)中介结构模式满足系统集成应用的需求[12]。目前,采用中间件是基于中介模式的主要方式。中间件是一种具有标准协议与接口的通用软件层。简单说,中间件位于应用层和数据资源层之间,它的任务是完成在不同的信息资源间必要的信息转换和数据映射。采用中间件技术,无须针对不同系统平台设计不同的管理软件,只需要采用标准的中间件基础结构,就可以把多个异构数据源封装在中间件中,实现异构环境中的工具、应用和服务的分布式管理。

中间件具有以下几个主要特性:①封装性。通过封装技术,屏蔽分布式系统的异构性。②独立性。可以实现对象的跨平台应用。③兼容性。支持标准协议和标准接口,具有强大的互操作功能。根据功能及采用技术的不同,中间件包括数据库中间件、远程过程调用中间件、面向消息中间件、事务处理中间件和面向对象中间件五种类型[13]。

3.2 基于中间件整合的基本原理

3.2.1 基于中间件整合的体系结构

基于中间件整合的体系结构由异构数据源层、数据源集成中间件层和应用层组成(见图2)。

图2 基于中间件整合的体系结构

各层的组成和基本功能如下:

(1)数据源层。数据源层由各种分布、异构的数据库组成,是在基于中间件集成系统的使用过程中的主要数据来源。处于系统最低层。

(2)数据源集成中间件层。中间件层位于操作系统和分布式应用系统之间,其功能是屏蔽数据源的异构性,构造一个虚拟的、逻辑的全局数据模式,提供统一的查询界面。主要包括包装器、数据模式转换器、查询转换器和具有统一的数据模式的虚拟数据库[14]。用户查询请求先提交至查询转换器,查询转换器根据转换规则将查询转变为对各异构数据库的查询模式,在得到各数据库返回结果后进行综合并映射转换为统一的格式显示给用户。

(3)应用层。即用户界面层,展示虚拟数据库检索界面,提供查询工具,为用户和应用程序查询虚拟数据库提供服务。

3.2.2 基于中间件整合的方式的分析

基于中间件整合的核心是通过资源与利用之间的中介媒介完成异构数据的集成,用户不必关心每个数据源的查询特征便可一次集成检索多个数字资源系统。其主要特点是中间件层并不存储具体的数据,只存储所有数据的逻辑集成模式,因此无需改变原数据库数据的存储和管理方式,是一种集中式管理?分布式存储的数据集成模式。这种整合方式更适宜于数据源数量较大、数据变化频繁、集成系统对数据源没有控制的集成环境。

基于中间件的数据逻辑集成方式的优点在于,所获数据与异构物理数据源的数据之间没有时滞,保证了数据的新颖性和时效性;但其不足也很明显,即对于一个查询请求,中间件需要访问多个分布的物理数据库,检索效率较低。

3.3 基于中介模式整合的应用及发展

目前,基于中介模式整合的应用与发展主要表现:①采用CORBA分布式对象技术和XML技术等来构建中间件结构,实现对异构数据资源的集成与整合。②通过有关标准协议如Z39.50进行书目数据乃至各类异构资源的集成整合。同时也预示出一个新的发展动向,即利用SOA、Web Service、网格中间件等框架,会同信息整合与知识整合等相关技术,向面向服务的整合发展。

3.3.1 基于CORBA的数据整合

CORBA(Common Object Request Broker Architecture通用对象请求代理结构)是一个为异构平台提供基础对象接口的开放式的标准规范[15]。其目的是为了支持异构分布式计算环境下的互操作性,以利于解决与日俱增的异构数据源集成问题。CORBA标准主要分为三个层次,即对象请求代表、公共对象服务和公共设施。由于CORBA具有与平台、操作系统、网络和开发语言无关的特点,有效解决了平台异构性问题,并为解决数据库系统异构性提供了基础结构,使其成为当前重要的中间件技术和主流的分布式对象技术,被普遍地应用于信息集成系统的构建,实现异构数据资源的整合。基于CORBA集成异构资源方式的优势在于,支持资源的分布式组织,并可以实现资源的实时更新;同时采用标准中间件结构可以提高组件的重用性,降低系统开发的代价。例如,斯坦福大学的数字图书馆项目Infobus(Inform ation Bus)系统就是基于 CORBA构建的[16]。

3.3.2 基于XML的数据整合

可扩展置标语言XML(eXtensible Markup Language)致力于建立一个相对简单、通用、标准的文献内容与组织结构描述方法,使其独立于任何系统、设备、语言和应用。XML包含DTD(或XMLSchema)、XSL和 Xlink三个要素。DTD(或XMLSchema)规定了文件的逻辑结构、文件构成的元素、元素的属性以及元素和元素属性的关系;XSL用于规定文档呈现的式样,其重要特性是把内容和显示格式分开;Xlink是XML的链接机能,是一种表现XML文件中的数据和Web上其他数据之间关系的一种手段[17]。基于XML集成异构资源方式的优势在于,它既不要求改变现有异构资源系统的组织结构,也不要求参与集成的异构数据源遵从某种互操作协议,只要求使用XML语言描述各自的数据资源。因此,以中间件为解决方案,以XML技术为具体手段,是解决异构数据集成的一种较好方法,也是适应中介模式数据整合的应用趋势。

3.3.3 基于Z39.50协议的数据整合

Z39.50协议(Information Retrieval Application Service Definitionand Protoco Specification)的核心是指定了客户端和服务器之间的信息交换的格式和过程,使用户可以透明地检索远程数据库信息。该协议提出的最初设想是实现异构书目数据库分布式跨库检索。 Z39.50并不规定服务器端的资源组织和存储方式,只要求不同的书目数据库系统配备自己的Z39.50服务器,因而可以说Z39.50实际上就是一个中间协议层,通过它的转换,实现异构操作平台之间的交互式通信和分布式异构数据源之间的无缝连接。

目前基于Z39.50协议整合书目资源成为数字图书馆异构资源整合的重要应用。越来越多的国内外图书馆集成系统软件陆续支持Z39.50标准,典型的有 INNOPAC、HORIZON、Endeavor、ALEPH 500、SIRSI等,出现了众多的基于Z39.50的书目集成系统[18]。著名的如“OCLC WoddCat”[19]、国内中国高等教育文献保障体系(CALIS)联合目录数据库[20]、“美国国会图书馆 Z39.50网关”[21]、加拿大的虚拟联合目录计划vCuc (Virtual Canadian Union Catalogue)[22]、台湾“Z39.50跨系统查询系统”[23]等。

随着Z39.50协议的完善及有关集成技术的成熟,基于Z39.50的资源集成范围由书目数据库向各类型异构数据库以及Web资源拓展,在集成技术的支撑上有两个应用发展趋势:①Z39.50协议结合XML技术构建中间件结构,以简化资源集成,扩展Z39.50协议的应用领域[24]。②Z39.50协议和元搜索引擎技术相融合,以提高整合系统的检索效率[25]。

3.3.4 基于中介模式的异构数据库整合系统

国内具有影响的基于中介模式的异构数据库集成检索系统是CALLS“数字图书馆资源统一检索系统”[26]、国家科学数字图书馆(CSDL)“跨库集成检索系统”[27]以及台湾“华文知识人口网”[28]。这三个系统都是采用多种集成技术和协议标准构造一个中介结构模式,实现了实体资源分散下的虚拟的逻辑的数据整合。用户只需要提交一次检索请求,就可以对多个资源数据库进行检索,而不需要逐个进入不同的数据库检索服务界面。

4 结语

数据整合是对异构数据源系统中的数据在物理上或逻辑上有机地集中,提供统一的表示和查询的一种资源整合方式。其目的是解决多种异构数据资源的互联互通,以实现资源的共知与共享。在异构数据源系统集成的应用中,根据不同的集成需求和集成目的,形成了不同的数据集成方式,基于数据仓库和中介模式的整合是其主要表现形态。

基于中介模式的集成是一种对异构数据源集中式管理?分布式存储的模式。其突出优点是数据获取的时效性强;由于只存储所有数据的逻辑模式,所以可以简化系统的管理;其不足在于查询速度较慢,检索效率较低。

基于数据仓库的集成是一种对异构数据源集中式存储和管理的方法。其缺点是集成的数据要耗费大量的存储空间,数据的获取具有时滞性;但其最大优势是数据质量高,查询速度快,同时可为知识挖掘、联机智能分析等提供数据基础,在基于数据仓库整合的基础上,可以实现多样化的、高层次的服务。

目前,基于数据的整合方式逐步向广度和深度两个方向发展。一方面,整合的范围向Web资源、各种类型、多种格式的资源拓展,另一方面,采用并融合多种集成技术,提高数据整合服务的质量和效益。

基于数据的资源整合是异构资源系统建设发展到一定阶段的必然要求。作为资源整合的一种方式,其重要的整合特征在于:仅体现数据在逻辑或物理上的合并或集中,多表现为集成数据在数量上的变化,基本没有反映数据之间有机关联。

基于数据的资源整合是资源整合体系的最低层面,它既相对独立,又在一定层面上和信息整合、知识整合相互交叉重合。

基于数据的资源整合是信息整合、知识整合的前提和基础。

收稿日期:2006-10-12

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于数据的资源集成_大数据论文
下载Doc文档

猜你喜欢