论网络文学的信息整合_数据仓库论文

论网络文学的信息整合_数据仓库论文

论网络文献的信息集成,本文主要内容关键词为:文献论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G35

1 网络文献信息的特点

网络文献是指在因特网上以数字化形式存在的各种文献信息内容的集合,主要包括网络书目数据库、电子报纸、电子期刊、专利信息、科技报告、学术会议论文、标准信息、学位论文、数字图书馆等类型。与传统的文献信息资源相比,网络文献信息无论在数量、结构、分布、传播范围、类型、载体形态还是在处理手段等方面都有许多特点。在表现形式上,传统文献信息资源主要是以文字为主的模拟信息,网络文献信息资源则以数字化集成的文本、声音、图像等数据形式存在,不同形式的信息不仅在处理方法上不同,而且在利用方面也有较大的区别。在载体形态上,网络文献信息存储在计算机服务器的磁盘、光盘等介质中。传统的文献信息资源组织有序化程度较差,主要以篇或本作为处理单元,揭示信息的程度有限,而网络文献信息资源不仅以知识和信息为基本单元,而且充分展示这些单元之间的关系,通过超文本、超媒体技术使得信息可按照本身的逻辑关系组成相互联系的、直接的、非线性的网状结构;网上可查询到的文献信息主要是近年的,变化较大,尤其是网页上的信息更新比较频繁,而印刷型文献信息则相对比较稳定。总的来说,网络文献信息具有如下特点:

● 数量巨大。网络文献信息量大,内容丰富,信息增长较快。如中国学术期刊网有时一天所增加的新文章就达5000多篇。作为一种全新的信息媒体,网络不仅信息量大和传输方便,而且不受时空限制,并且具有共享性。随着计算机软硬件技术,特别是光盘技术、海量存储等技术的发展,为大容量、高速度、高稳定性的网络服务器提供了发展条件。随着计算机信息处理能力的不断增强和数字化技术的广泛应用,许多形式的信息都可以在网络中存储和传递。因此,网络文献信息资源将越来越丰富。

● 类型多样。因特网内容包罗万象,覆盖了不同学科、不同领域、不同地域和不同语言。在形式上,包括文本、图像、声音、软件、数据库等。既有公开出版发行的图书报刊、又有非公开发行的会议文献、学位论文、内部资料以及网上的“灰色文献”。网络文献不仅有题录、摘要,而且还有不少全文文献。此外,还有许多电子出版物、专门的文献数据库及数字图书馆等资源。

● 变化频繁。网络信息资源是一个动态系统,许多服务器处在不断的变化之中,每天都有新的网站出现,有的合并,有的取消。因此,网络文献更新迅速,网页的增加、删除、更换地址经常发生,信息的时效性强。因特网改变了文献处理和获取信息的方式,由于网页更新周期缩短,使有关的内容处于一种动态的变化之中。在网上能得到最新的资料以及某个学科或某项科研的最新动态,能检索到最近出版的文献。有些网络电子杂志甚至比印刷本发行还快,预印本的文章比正式印刷出版可提早与读者见面。例如通过网络《Britannica百科全书》,可查到印刷本尚未出现的新条目。

● 结构复杂。网络文献信息分别存储在世界不同国家、不同地区的服务器上。对信息资源的组织管理没有统一标准,不同的服务器采用不同的操作系统及数据结构,如有的采用字符界面,有的采用图形界面;有的采用菜单式,有的采用超文本方式;从整体上看,基本处在无序的状态。如今有不少服务器是用CGI等中间件与其它数据库连接起来的,因而在管理和利用方面比较复杂。

● 质量参差不齐。网络文献信息具有不同的层次与效用,既有科学前沿的研究报告,也有大众通俗读物;既有已经加工整理的信息,也有无序的原始信息;既有较大参考价值的信息,也可能混有毫无用处的“信息垃圾”,甚至还有不少有害的信息。利用的价值差异较大,信息质量参差不齐,并且相互混杂交织在一起,为用户选择利用带来了不便。

● 用户差异大。网络以其信息资源丰富、类型多样、利用方便等特点,吸引着众多的用户。用户群体和他们的信息需求表现出多样性,用户信息需求的变化频率加快;用户需求日趋个性化,部分用户的需求趋向更加专门化[1]。

2 网络文献信息集成的作用

集成是指将分散的部分形成一个有机整体。信息系统的集成是一个寻求整体优化的过程。目的是对分散的现有信息子系统或多种硬软件产品和技术,以及相应的组织机构和人员进行组织、结合、协调或重建,形成一个协调的整体信息系统,提供全面的信息支持。信息系统集成有3 个主要特征:①有统一的目标,即建立一个统一的信息系统。②以原有系统或已有技术为基础进行整合及协调。③多种意义上的集成。总之,信息系统集成是以集成的信息为目标,以功能的集成作为结构,以平台的集成作为技术基础,以人的集成作为根本保证的一种思想和方法。集成化的信息系统将为组织的各级决策者提供及时准确、一致而适用的信息[2]。

网络文献信息集成就是按照不同的应用要求,从大量的网络数据中将有用的数据进行整合处理的过程,以解决数据的应用数量和质量问题。因特网是一个巨大而又复杂的异构数据环境,Web上每个数据源都是异构的,各站点间的信息组织不一样,要利用这些数据,必须研究站点之间异构数据的集成问题,这是对数据进行分析利用的基础。另外,Web上的数据与传统的数据库中的数据不同,多为半结构化或非结构化数据,没有特定的模型描述。因此,解决问题的关键,是寻找一种半结构化的数据模型。除了要寻找一种半结构化的数据模型外,还需要一种半结构化模型抽取技术,即能自动地从现有数据中抽取半结构化模型的技术,因为数据集成的大量信息必须通过数据组织方式才能进行有效的管理。网络文献信息集成要处理大量的、不断递增的Web数据源, 如何在因特网环境下对分布式海量信息建立合理高效的海量数据系统是亟待解决的问题,其主要任务就是设计一个公共模型,用于表示来自于不同Web 信息源的各种数据,以便进行统一处理。其次,还要考虑数据转换问题,即如何将来自不同Web 信息源的各种数据转换为集成系统能进一步处理的统一格式。网络文献信息集成有利于网络文献信息的检索、数据挖掘和知识发现,有利于网络文献信息资源的共享。

3 网络文献信息集成的主要方式

目前一般通过两种方式进行数据集成:虚拟法和实体法查询。在虚拟法情况下,集成系统充当用户和信息源之间的接口,数据仍然保存在网络的信息源上,集成系统通过一个虚拟的集成视图及其查询处理机制,自动将集成模式的查询请求转换成对Web信息源的查询。由于虚拟法不需要重复储存大量的数据,并且能够查到新的数据,比较适合于高度自治的、集成数量多、更新变化快的Web 信息源集成。实体法是建立一个存储仓库,将参加集成的各Web 信息源的数据装入存储仓库,然后对这个存储仓库提供查询机制。当Web 信息源发生变化时,存储仓库中的数据要作相应的修改。这种间接访问方式的缺点是数据更新不及时,数据重复储存。采用虚拟法查询,由于需要访问数据源,因此响应查询比较费时。采用实体法查询,系统需要维护一个与信息源中的数据一致的视图副本,查询不再需要访问源数据,因此,响应查询比较快捷,但具体的操作和各种维护工作的代价也高[3]。

3.1 基于虚拟数据库的文献信息集成

虚拟数据库是使外界的数据表现为一个特定的关系数据库系统的扩展。在因特网环境下,Web提供的数据便是一种外界数据, 可以将这样的数据看成虚拟数据库中的数据。在这些数据源中,数据的组织方式、所使用的词表以及数据的存取机制均存在差异,其中大多数数据源不支持现有数据库中的查询操作。为使分布于许多数据源中的数据查询成为可能,提供对数据分散问题的求解,虚拟数据库技术必须具有收集、组织和集成来自不同数据源中的数据,并以统一的数据库系统的形式提供应用程序的能力。应用程序可以向分散在各类原始数据源中的数据提供访问服务。虚拟数据库可将各种数据源作为关系数据库的扩充,它把各个分散数据源中的数据搜集在一起,通过包装、映射和提取等处理,使分布异构的数据转化为统一的结构化形式。目前虚拟数据库技术已在一些领域出现实用的软件系统,可以通过执行标准命令实现对虚拟数据库的访问[4 ]。虚拟数据库具有以下几个显著特征:拥有大量不同的数据源;数据源之间是相互独立的,没有集中的控制机制;数据源的构成是复杂的,是结构化和非结构化数据的混合。虚拟数据库的裨是要实现对分布数据源的透明访问。它与异构数据库的访问既有联系又有区别。一方面,虚拟数据库需要实现对异构数据库的访问,即将访问请求分解到各个不同的数据库中去,再将返回的不同结构的结果进行整合。这要求虚拟数据库具有对各种不同类型数据库的查询能力。另一方面,虚拟数据库要具备对非数据库类型的网络资源的访问能力。这要求作为虚拟数据与外部数据源进行交互的中间接口有较高的工作效率,否则对客户端来说必须等待较长时间。虚拟数据库的数据并不都是来自某个或某些数据库的,有时来自诸如文件系统这样的数据源,因此,虚拟数据库的数据处理范围比较大。

虚拟数据源集成的目的是要为用户提供涉及多数据源的统一的查询机制,让用户可以用统一的方式使用来自于不同数据源的数据。即数据仍然保存在各数据源,集成系统仅提供一个虚拟的集成模式和对这个集成模式的查询处理机制。虚拟数据库技术能够快速收集、组织和集成来自不同数据源的数据,并以统一的数据格式提供给决策者,解决了异构多数据源的信息集成和统一化问题,便于数据挖掘和知识发现,提高决策支持的能力。虚拟数据库为联机分析处理、数据挖掘与知识发现提供了条件。利用虚拟数据库技术可以从大量的、自治的和混合的数据源中抽取面向主题的数据集合,统一其数据组织和数据的存取机制。虚拟数据库技术不仅能将因特网上的数据转化成为一个单一规范的数据库,而且能支持强大的结构化搜索功能的数据库,因此,虚拟数据库技术使Web向数据库转变成为可能,也为基于Web 的联机处理和进行数据挖掘提供了新的途径。

虚拟数据库集成系统通常由3个基本功能模块组成。它通过包装器(wrapper)、映射器(mapper)和提取器(extracter)从各种数据源搜集数据并将其变换成结构化的数据形式,提供给用户查询和利用。包装器根据需要从数据源中抽取数据,并以数据表的形式表示出来。包装器开发工具包提供的包装器框架,可用来方便地定制数据查询过程。开发工具包能为网络访问、HTML语法分析、模匹和关系数据输出提供高级抽象。通过SDL(Source Description Language)语言描述数据源,可将分散的Web上的HTML、XML等数据整理成关系表格的形式。映射器通过映射描述语言定义的映射规则,可进行属性名称和格式转换,统一包装器关系表中不同的模式和词汇。包装器能把数据源的数据表示为关系数据的表格形式,但这些表格的内容可能与图解及词汇表不一致,所需的属性名称和单位的转换是由映射器来完成的。利用映射器进行数据转换,要使用变换描述语言来给出变换规则集,映射描述语言能简洁地描述极为复杂的数据转换[5]。

通过虚拟数据库技术对网上文献信息进行集成,然后按主题建立虚拟数据库,也就是Web虚拟图书馆。 它是伴随着因特网产生而出现的一个概念,其涵义是将某一学科或领域的相关因特网资源的线索汇集之后,以主题树或数据库两种方式结合超文本链接提供给用户。它不是一个物理概念,也不是一个独立存在的实体,而是一个跨不同地区和范围的网络信息资源空间,是一种文献信息资源的网络传播系统。目前虚拟图书馆的主要做法是采用主题链接和元数据数据库方法。所谓主题树组织方式,就是将虚拟图书馆所有已获得的信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历,找到所需的相关站点链接后,再通过信息线索直接找到相应的网络信息资源。这种组织方式的优点是简单易用,屏蔽了网络信息资源系统对于用户的复杂性,提供了一种基于树型浏览方式的网络信息浏览界面;检索按照一定的体系结构,逐次查看,对于用户而言目的性较强,查准率高。其缺点是体系的结构比较简单,每一类目下的信息索引条目也不宜过多,因而降低了其所能容纳的网络信息资源的数量。这种组织方式对于构建小型的虚拟图书馆而言是可行的,但如果遇到某一领域大量复杂的网络信息资源时就需依靠数据库组织方式。数据库组织方式是将所有已获得的有关某学科的网络信息资源以固定的记录格式存储,用户通过关键词查询,便可以找到所需要的信息线索即相关站点链接,再通过信息线索直接与相应的网络信息资源链接。这种组织方式利用了数据模型对信息进行规范化处理,利用关系代数理论优化数据查询,从而较大地提高了数据操作的灵活性[6]。

文献信息虚拟数据库为网络文献的知识发现提供了基础。文献信息虚拟数据库利用虚拟数据库技术,通过包装、映射和提取等处理,把不断变化的、分布异质的、不同学科主题的数据源的数据集成转化为统一的结构化形式,建立起某一专业和主题的信息集合。作为一般的文献信息数据库的扩充,它给后续的数据分析提供基础,人们据此可以进行数据挖掘和知识发现。文献信息的虚拟数据库有利于提高网络文献信息资源的利用率;提高网络文献的服务水平;拓展图书情报部门的资源范围,有利于实现信息资源的共享。

3.2 基于XML的网络文献信息集成

由于利用因特网时不同部门使用的操作系统和数据库管理系统不同,给信息共享带来了困难。在异构系统之间进行数据交换的办法是采用一种统一的信息交换格式。XML因其具有自定义性及其可扩展性等优势,便于表达各种类型的数据,可作为异构数据库之间的中间件,解决数据的统一接口问题,便于不同数据库之间的信息交换和共享。

XML突破了HTML固定标记集合的约束, 可以定义各种标记来描述文档中的数据元素,这些数据元素可以组成一个信息体系,从而获得更大的灵活性和更强的功能。XML技术包括XML 解析器、文档对象模型、XSL等, 它采用将结构、内容和表现相分离的办法,同一个XML源文档只写一次,就可以用不同的方法表现出来,并很好地应用到各种平台的应用程序中,利用它可以确认文档中的数据是否有效,定义数据的类型和数据间的关系,从而实现异构数据集成。XML 及一系列标准提供了这种数据模型的描述和转化技术,而且可以更好地实现Web 中的信息共享与交换。XML可被看作是一种结构化的数据模型,它能容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。通常先从数据库中提取信息,再以XML的结构格式传送和发布。XML文档结构在很多方面反映出对象数据库的结构。而关系数据库则要依赖代码才能把XML模型映射成关系结构。数据集成方案中可使用XML作为自动化数据交换工具,XML对数据源的数据进行处理,起到接口层或者封装的作用, 这样在不同的应用程序之间、操作系统之间以及不同的数据库之间都可以交换数据。面向Web的数据集成是一项复杂的技术,由于XML能够使不同来源的结构化的数据很容易地结合在一起,从而为解决Web数据的集成问题带来了便利。随着XML作为在Web上交换数据的一种标准方式,面向Web的数据集成将会得到广泛的应用[7]。

基于XML的信息集成是以XML作为中间层的数据描述工具和转换工具,它用XML描述集成数据,用XSL定义用户视图,用XML 文档格式定义(DTD)表示集成模式和数据源之间的影射。 通过建立具有集成能力的中间件,集成已有系统的数据,为用户提供一种统一的查询手段和界面,就像使用一个大数据库一样,用统一的方式使用来自不同Web 信息源的各种数据,以便于共享。XML能将文档数据库化,数据文档化, 将数据处理和文档处理统一起来,为中间层的数据集成带来方便。XML 除能描述不规则的数据外,还能从不同的来源集成数据,纳入同一XML 文件并传到客户机上,被解析出来的XML数据可以在本地机进行操纵和编辑。因此,用XML作为集成层数据描述工具和转换工具来构造Web数据集成的中间件,将便于Web数据集成系统的实现。XML集成与虚拟数据库的集成有些不同,虚拟数据库集成系统通常需要为每一个数据源设一个包装器,以便将各Web信息源的数据转换成集成系统能够进一步处理的统一格式数据,由于XML允许把外部数据源的数据和应用程序所生成的数据作为元素的内容纳入到XML文档中,因此将XML作为集成层的数据描述工具和转换工具,就不必再另设包装器了[8]。

3.3 基于Web数据仓库的网络文献信息的集成

数据仓库是近几年来出现的、发展迅速的一种技术。数据仓库把一个单位的历史数据收集到一个中央仓库中以便于处理,是面向主题的、随时间而变的、支持决策过程的数据集合。数据仓库可以从异构数据库系统中选择多个数据库,建立统一的全局模式。它收集的数据还支持对历史数据的访问,用户通过数据仓库提供的统一数据接口可进行决策支持的查询。Web文献信息是一个巨大的数据源。它以简单易用的界面、 良好的开放性、标准趋于统一等特点使用户能够快速地获取各种信息。这两项技术相结合便产生了基于Web的数据仓库。基于Web的数据仓库技术是将数据仓库与Web结合起来的一门技术。 数据仓库建立和维护的费用相对较高,同时信息处理、信息传递的效率相对较低。基于远程网络操作平台建立的Web数据仓库,降低了系统费用,提高了传送效率,并且可满足海量的数据处理需求。Web数据仓库是一个分布式系统, 可以有效地利用各种数据资源,完成数据统计分析、数据挖掘等任务。Web数据仓库允许用户使用Web浏览器来访问和管理数据,它具有以下优点[9]:

● 更容易访问。基于Web 的数据仓库体系结构使任何与因特网连接的计算机都可以很容易地访问数据仓库及其应用程序,这使Web 浏览器对各种层次的计算机用户来说都是一种易于使用的界面,无须对用户再进行专门的操作培训。

● 平台独立无关性。因特网给大量用户提供了便宜、快捷的方法访问与平台无关的分布式数据。Web浏览器作为数据仓库的访问层, 用户可以通过它访问重要的信息而不必关心所使用的平台,这也是其它界面无法与Web浏览器比拟的地方。

● 建设和管理成本低。基于Web 的数据仓库提供了一个瘦客户端的解决方案,降低了建设和管理成本;瘦客户端方案将许多应用处理移到了服务器上,从而降低了客户端的软硬件成本。集中式管理网络容易管理、节省成本,具有较好的安全性。

在基于Web的数据仓库中,应用程序存储在服务器上, 它们可以被用户下载在本地执行,也可在服务器上执行。基于Web 的数据仓库可以用Web浏览器作用户界面,通过数据仓库访问工具向用户提供统一、 协调和集成的信息环境,支持用户的决策过程和进行深入综合分析。在Web数据仓库的基础上,可以进行数据处理、分析挖掘和知识发现。一般来说,数据挖掘的对象可以是普通的数据库、文件系统,也可以是数据仓库。直接从普通的数据库进行数据挖掘是比较困难的,因为数据处理比较复杂,需要通过大量的计算才能生成需要的数据。而数据仓库是面向复杂的数据分析以支持决策过程的,它集成了一定范围内的所有数据,是面向主题的、整合的、相对稳定的,并随时间变化而不断更新的数据集合。数据仓库完成了知识发现中大部分的数据预处理工作,因此,构建在数据仓库平台上的数据挖掘效率会更高。

3.4 基于智能代理的网络文献信息的集成

智能代理通常是指模拟人类行为及关系,能够根据所感知的环境自主运行和提供相应服务的程序。在网络范畴内可以把智能代理定义为在网络环境下代理用户或其他程序,以主动服务的方式持续完成一组操作的机动软件实体。它能够自己创建与实现与目的有关的计划,可定时和交互地执行,并对网络的环境变化作出反应。智能代理具有以下技术特性:代理性、自主性和智能性。智能代理的基本功能是代理用户或软件完成某些任务,如代理用户查找因特网上的信息;智能代理的代理功能具有强烈的行为目的性,即为达到某种目的,根据自身的行为规则主动采取一系列行动,直至达到目的。它能根据当前动态变化的环境状态,在无需外界参与的情况下,独立地发现和利用为完成任务所需的资源和服务;自主性的实现需要智能代理具有相关的知识、能够进行相关的推理或智能计算,推测用户的意图、爱好或兴趣。智能代理还能从经验中不断学习,以提高自身处理问题的能力。这些都表明智能代理具有较高的智能。例如,智能代理在代替用户在网上查找有关信息服务时,可以根据用户的爱好和水平,选择用户喜爱的文献。通过分析用户对网络文献信息服务的态度,又可以进一步掌握用户的意向等。智能代理能够根据以前的经验和感知所处环境的变化,及时对相关事件作出适当反应,改变自己的行动,使自己更好地代理用户工作。

移动智能代理(mobile agents)和多智能代理系统(multi agents system )理论的发展为智能代理在因特网上的进一步应用提供了条件。移动智能代理是指一个能够在网络节点间自主迁移的软件实体。它能够在运行中挂起,转移到网络的另一个结点,再从挂起的断点处开始运行。移动智能代理在网络分布式数据库应用中具有以下优点:①可以减轻网络负载。通过迁移到资源所在处运行,移动智能代理能够极大地节省带宽,远地机在进行大量数据处理时,这些数据也不需要在网络上传输,而是智能代理移动过去,在远地机上直接被处理完成。②可以异地自主运行。分布式数据库在进行数据传输时,往往是建立连接后,知道本次任务完成后才断开连接。如果有要与其他结点来进行连接的新任务时,再去执行下一个连接操作。移动智能代理被派送到目的机后,它就独立于产生它的进程自主地完成任务,完成任务后再将结果返回宿主进程,并带回执行结果。移动智能代理本身携带有管理远程资源的代码,不要求远程主机具有特殊的服务功能。③具有很强的应变能力。智能代理技术的产生就是基于人工智能的思想而产生的,分布式数据库系统中的智能代理同样具有对系统环境、用户请求的自适应能力,它可以根据不同的请求及用户系统环境来采取相应的对策,使系统运行达到最优化。④具有异构性。随着分布式数据库技术的不断深入发展,数据库系统中的异构环境越来越多。移动智能代理自然的异构性比较适合数据库系统中的异构环境。分布式数据系统中的智能代理产生后,即被封装而独立于分布式网络环境中。由于移动智能代理具有动态执行、异步计算、并行求解、智能化路由、转接和控制机制等特点。因此,利用移动智能代理技术能很好地解决因特网环境中异构、低带宽和不稳定等问题,提高信息的获取与服务能力[10]。

单一的智能代理功能很有限,通过一定的体系将各自独立的智能代理组合起来,才能有效地发挥作用。在多智能代理系统中,每个智能代理是独立发展的,它们互相联系,互相作用,使整个系统的能力超过任何一个单独的智能代理。多智能代理系统的出现使得智能代理能够完成比较复杂的任务。多智能代理系统是一个既分布又协调的系统,适合于构造具有高度开放性、分布性、可重构和可伸缩性的信息集成框架,为“异构信息孤岛”的信息集成提供新途径[11]。借助于智能代理与人之间的良好交互性,可营造一种优势互补、共同解决问题的有效环境。移动智能代理的移动性和自主执行性还能为信息集成平台营造一个完整的分布式计算环境。多智能代理系统具有智能性、自适应性、自组织性、层次性等特点,能有效地协调技术与组织之间的相互依赖关系。基于多智能代理的开放性信息集成体系结构充分利用了智能代理的特性和面向对象技术,不仅能有效地解决信息集成平台的开放性问题,而且能提高信息集成平台的通用性和适应性问题。智能代理的任务是对各分布的数据源进行管理、操纵和集成。要做到这一点,智能代理必须具备查找信息和集成这些信息的能力。智能代理在不同的网络资源之间建立了一个中间层,屏蔽了彼此之间的差异,使得用户可透明地访问网络的数据。使用智能代理进行网络信息集成有如下特点:①在网络分布的异构环境中,由于各个信息源具有自治性和异构性,使得信息源难以控制,但智能代理具有自治性、社会性等特点,因此既能够保持信息源的独立性和灵活性,又能很好地把信息源中的数据集成起来。②可以自主地在异构的网络上按照一定的规程进行移动,寻找合适的资源,并处理和利用这些资源,完成特定的任务。③可以在信息源端进行信息集成,从而避免了大量的原始数据需要通过网络传送到数据仓库端进行集成,这样可以减少数据的传送量,提高效率。

以上讨论了目前常见的几种网络信息集成方式。实际上,它们当中有些方式是可以综合起来应用的。例如,虚拟数据库可以和XML 的集成结合起来,虚拟数据库可使Web 和其他外部数据源看起来就像单个数据库一样,这种关系数据库视图能够使用结构化查询语言来执行功能强大的查询操作,查询结果可以根据应用系统的要求用XML文档来表示。 虚拟数据管理系统从不同的数据源提取数据,并且创建单一的关系数据接口,然后可以使用XML 把不同的数据源所使用的结构表示成容易访问的通用语法格式。XML是描述用户服务的数据的手段,可以使用XML格式来交换数据。又如,可以把移动智能代理引入到Web数据仓库领域,对Web数据仓库的设计、实现和维护都有重要的意义,两者的结合为开发一种灵活、可伸缩、高效的Web数据仓库提供了一条途径。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

论网络文学的信息整合_数据仓库论文
下载Doc文档

猜你喜欢