几种典型网格搜索引擎系统的体系结构分析_搜索引擎论文

几种典型网格搜索引擎系统的结构体系分析,本文主要内容关键词为:几种论文,网格论文,典型论文,体系论文,结构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

修回日期:2007-10-25

[分类号]G353

1 引言

当前,Internet及其他各种网络上的数据、信息等资源呈现出爆炸式增长态势,从这些资源中准确、快速地获取用户关心的资源犹如大海捞针。为了解决资源搜索效率和准确度问题,人们开展了许多卓有成效的网络数据搜索技术研究工作,各种有特色的资源搜索技术和搜索引擎应运而生。这些搜索技术多是采用通用的搜索引擎在互联网中搜索所需的信息,由一个称为蜘蛛的程序按某种策略主动发现和搜集网页信息,经由索引器对信息提取、组织、处理和理解后,建立索引库,由检索器按查询关键字快速检索该库,建立以词为单位、包含有检索词的排序文件。与此同时还进行文档与查询的相关度评价,用户根据获得的查询结果来检索相关网页[1-2]。以该技术为基础建立的搜索系统可较好地搜索出用户感兴趣的信息,但同时也面临着很多问题,如查全率低、索引库更新困难、不同的搜索引擎之间缺乏合作等。

网格技术的发展和应用,从技术手段上为解决搜索引擎的这些缺陷提供了可能性。网格是一个集成的计算与资源环境,它能够充分吸纳各种计算资源,并将其转化成一种随处可得、可靠、标准和经济的计算能力。目前由多个计算机网络组成的内联网越来越多,大量廉价的个人计算装置随处可见,但是它们的资源利用率非常低。充分利用这些空闲计算机的计算资源、存储资源、通信资源,以提供持续的、稳定的计算能力,完成大规模数据的计算任务是研究网格的意义所在。基于网格的搜索引擎系统主要利用网格强大的计算资源和资源共享特点,完成相应的计算任务。目前,国外在这方面的研究已经陆续展开,相应的研究项目已初步完成或即将完成,而我国在此方面的研究项目则还处于起步状态。因此,本文对国外基于网格的搜索引擎系统的体系结构进行分析研究,比较它们之间的异同,并对我国今后搜索引擎系统体系结构的研究和发展提出了建议。本文的研究为构建基于网格的搜索引擎进行了有益的探索[3-5]。

2 基于网格的搜索引擎系统的结构体系比较

研究内容与结构体系是密切相关的,不同的结构反应了系统的不同功能,因此,在介绍基于网格的搜索引擎结构体系时,本文也指出了各个不同系统的重点研究内容[6](见表1)。

2.1 GRACE

GRACE是第一个基于网格的信息检索应用系统,适应于开放网格服务结构(Open Grid Services Architecture,简称OGSA)体系,宗旨是开发一种基于网格环境的分布式搜索和分类引擎,以满足各领域科学研究的需要。当用户提出搜索请求后,系统将通过一个简单而友好的界面将搜索到的信息集中、分类地展现给用户[7]。

表1 研究内容与结构体系

名称

研究内容 结构体系

GRACE(Grid search and开发基于网格的分布式的5层结构:数字资源与用

categorization engine)

搜索和分类引擎;多种 户之间由3层组成,第1

语言支持机制。层为网格服务,第2层描

述GRACE的特性,第3

层主要是各种Web应用

服务。数字资源包括内

容源、数据库和存储

NFPs。

SE4SEE(Search engine for 基于网格的搜索引擎系 主要包括用户界面、网

south-east Europe)

统;提高搜索引擎的更 页爬取器和文本分类器

新率和查询效果。 三个组件。

GridIR(Grid information 实现基于网格的信息分 包括元数据服务、收集

retrieval)

布式检索和发现;制定 管理服务、索引、检索

网格环境下的信息检索 服务及查询处理服务5

标准。层。

SCULPTEUR(Semantic

基于网格的分布式多媒体包括网格中间件基础结构

and content-based multi- 信息处理系统;基于语 层、基础网格服务层、

media exploitation for Eu-

义和内容的检索系统。 语义网格服务层、知识

ropean benefit)层和高级网格应用层5

层。

GRACE采用了一种基于语义的信息检索技术,将本体概念与语义互用,致力于提供信息资源在语义层面的应用与服务。它还引入了知识域的概念,对联合搜索和信息检索实施分布式处理。图1所示为GRACE的五层体系结构[8]。

图1 GRACE的结构体系

图中的5层分别是数据层、采集层、网格服务层、GRACE特性层和Web应用层。在特性层,通过系统地采集文档的相关信息,利用自然语言处理技术,在知识域中重新索引文档并对其分类。通过使用本体来查询内容源,并按内容关联对其按关键词进行索引。图中虚线部分所示意的两层与底层网格服务进行通信和集合服务,最下层是GRACE架构元素,由内容源、KD仓库、存储NFPs等组成。最上层描述了GRACE所有的服务,用户直接访问此层完成相应的任务。

2.2 SE4SEE

SE4SEE是一种为东南欧国家提供社会化服务的网格搜索引擎,具有个性化、需求驱动、国别特色和网站分类搜索等多种服务特色,能利用网格的集成计算能力来解决传统搜索引擎中数据库更新困难、搜索引擎间缺乏合作等问题,从而提高数据的更新率和搜索引擎的执行速度[9]。

SE4SEE由爬取器、文本分类器和用户接口组成。爬取器是用JAVA编写的WebSPHINX交互式开发平台,WebSPHINX能根据用户提供的URL地址自动提取网页中的链接,实现网上冲浪。它采取广度优先爬取策略,从包含了相关内容的链接的子页面开始对每个类别进行搜索。系统采用的分类器是“先驱者”(the harbinger machine learning toolkit),选择朴素贝叶斯(Naive Bayesian)分类算法进行分类。系统根据用户提交的请求执行相关任务并激活外部程序。查询过程中所有的数据都被备份在MY-SQL数据库中,以减弱工作环境的变化对应用造成较大影响。

系统提供了两种查询方式:基于类别和基于关键字的查询。这两类查询方式在子页面选择和页面信任方式上有所不同。前者是从一系列具有类别特征的子页面开始搜索,对搜索到的页面进行分类,返回与训练文本相似的网页;后者与传统的查询方法比较相似,没有使用分类器,它从用户的URL地址开始进行查找,并返回包含了关键字的页面给用户。无论哪个查询方式,系统都规定爬取器只能在用户域名所在的国家范围内查找。

查询时,网页入口通过用户界面(Interface node,简称UI)将用户的查询请求提交给任务结点(Worker Note,简称WN),UI节点在LCG体系中充当网格入口,WN负责执行任务。任务由任务描述语言(Job Description Language,简称JDL)描述,管理系统创建负责JDL创建和初始化,相关的查询参数副本被系统自动保存,以便以后查找。在确定查找范围时,系统会自动找出离用户地理位置最近的网格结点作为查询的定位计算结点,当任务完成后,结果被存储在资源代理(Resource Broker,简称RB)中,再由用户将其转存到结果存储器上。最后,将搜索结果显示给用户,搜索结果可以被保存并多次使用,避免了再次查询而导致网格资源的浪费(具体流程见图2)。

2.3 GridIR

GridIR是由全球论坛发起的基于OGSA网格计算平台的信息检索系统,以构建标准化、能处理和发现信息的网格系统为目标,为以后的信息检索系统提供了安全机制和标准平台。

图2 SE4SEE的体系结构

GridIR主要由4个基础网格服务构成,如图3所示[10]:

图3 GridIR的基本服务模块

元数据服务:提供目录服务和发现元数据,与GridIR服务和数据进行交互;收集管理服务:通过标准APIs提供控制、收集和更新信息能力,采用分布式解决搜索瓶颈问题;索引和检索服务:负责处理查询和产生相关结果,编制索引和更新文档,形成文档集;查询处理服务:提供异步处理、信息过滤、结果合并等附加功能,这种透明的检索方式能指导客户端的生成和配置[11],GridIR的体系结构如图4所示:

图4 GridlR的体系结构框架

其中,收集管理服务、索引服务、查询处理服务和检索服务功能如上所述,由网格服务中间件完成。文档处理服务主要是对搜索的文档进行过滤、分词与转换等预处理,依据下载信息的链接后缀调用相应的格式转换工具进行转换,形成标准格式文档;信息抽取服务是对格式转换后的标准格式文本信息自动抽取相关的或特定类型的信息。

利用开发语言和相关的网络工具,对上述各服务模块进行开发,然后向UDDI注册中心进行注册。当用户提交查询请求时,系统针对该用户的访问权限进行安全审查,然后将用户查询分发到各许可访问的数据库访问接口加以检索。检索结果集经过相关度计算、合并、排序等处理后,得到查询结果集,生成特定格式的页面,通过用户界面提交给用户。

2.4 SCULPTEUR

SCULPTEUR是一种基于语义的分布式多媒体信息开发系统,利用分类代理和搜索代理查找多媒体信息,包括结构化和非结构化的信息。以SCULPTEUR为基础开发的所谓“概念检索”软件及CIDOC CRM本体概念,较好地实现了包含三维影像及多媒体信息的交互处理,其主要搜索的艺术范围有雕塑、绘画、铸造品、盆景等[12]。

SCULPTEUR主要有5层构成,如图5所示:

图5 SCULPTEUR的体系结构框架

其层次结构依次为:网格中间件基础结构层,应用IBM、Globus联盟和HP共同提出的Web服务资源框架(Web Service Resource Framework,简称WSRF)作为底层技术实现的基础设施,支持网格数据联通和共享;基础网格服务层,采用OGSA实现计算服务、数据服务、信息服务的共享;语义网格服务,使用本体和元数据语言描述信息,按照计算理解的格式表示知识,包括数据/计算服务、信息服务和知识服务;知识网格层,通过数据挖掘的方法,实现知识服务,并通过接口与高级网格应用互联;高级网格应用层,支持广域分布的、并行的各类网格应用,以促进特定任务或各学科及专业领域的全球协作与信息共享。

3 总结与展望

以上较为系统地介绍了4种典型的网格搜索引擎系统研究内容与结构体系。其中,GRACE是一种依赖于关键词的分布式检索系统,SE4SEE是一种个性化搜索引擎,GridIR力求构建一种基于网格的信息检索标准,而SCULPTEUR则以搜索多媒体信息为主要任务的检索系统。由于研究内容不同,体系结构也不一样:GRACE使用本体查询内容源,并按内容关联对其按关键词进行索引;SE4SEE使用任务管理器和资源代理管理任务分配和信息的存储;GridIR利用收集管理服务和查询处理器,控制、收集、更新信息和分布式检索、异步处理、信息过滤及结果合并等;SE4SEE提供语义网格服务,使用本体和元数据语言描述信息,提供数据/计算服务、信息服务和知识服务。尽管它们的体系结构不同,但研究重点基本一致,均着重于信息的收集、存储、检索和系统安全的设计与实现。

面对网格技术的发展,人们对搜索引擎的索引质量要求越来越高,基于网格的搜索引擎研究越来越多,而我国在这一方面还处于起步状态。要加快我国基于网格的搜索引擎的项目的研究,在结构体系设计方面,需要注意以下几点:

●基于语义网格的搜索引擎系统的研究。语义网格的重要支撑技术是语义Web和网格技术[13],融合了两者的技术优势,是一种由广泛分布的组织和用户、组件、计算资源、通讯资源交互形成的开放式系统。语义网格能够用计算机可以理解和处理的方式来描述所有的资源和服务,是更趋自然的人-机交互模式,通过语义实现全球化的协同工作、资源共享和语义互操作。

●分布式搜索系统的研究。传统的搜索引擎在可扩展性、容错能力等方面存在较大缺陷,难以适应现代信息量的飞快增长的要求,越来越多的基于网格的搜索引擎系统趋向于采用分布式搜索和异步处理方式,支持系统间的数据交换和共享信息资源与服务,进而提高处理速度和处理能力[14]。

●信息收集。通过比较可以发现,GRACE通过本体搜索信息,SE4SEE利用爬取器,GridIR利用收集管理器,而SCULPTEUR使用本体查询内容源,并按内容关联对其按关键词进行索引。虽然方法不同,但信息收集是搜索引擎系统的研究重点。我国在设计搜索引擎系统时,也应对这一部分引起足够的重视。

●系统任务分配和信息存储。资源分配主要处理资源请求、执行远程应用、分配资源和管理活动等服务,并根据计算资源的情况把资源更新信息发送给系统;信息存储是是对存储网络基础设施进行标准化的管理,以上各系统都提供了复制管理或资源代理等临时存储器。

●系统安全。为保证系统能够安全实施,系统必须能够满足用户安全、高效地使用各种资源,而在网格环境中,各种资源都是动态的,所以,其安全要求比网络环境下更进了一步。各个系统都提供了相应的安全措施。网格安全主要包括网格系统安全、数据传输安全、信息存储安全等。如何利用尽量少的系统资源,有效地提供安全保证是各系统设计的重点。

标签:;  ;  ;  ;  ;  ;  ;  

几种典型网格搜索引擎系统的体系结构分析_搜索引擎论文
下载Doc文档

猜你喜欢