对称搜索技术P2P在网格资源检索中的应用_搜索引擎论文

对称搜索技术P2P在网格资源检索中的应用,本文主要内容关键词为:网格论文,对称论文,资源论文,技术论文,P2P论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】TP391.3 TP274

网格(Grid)又称网格计算(Network Computing), 是把整个因特网整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。如果说传统因特网实现了计算机硬件的连通,Web 实现了网页的连通,而网格试图实现互联网上所有资源的全面连通。

在网格中,首先要查清网格里所有可用资源,比如哪些主机可供访问、还空置多少处理能力、数据库里可供使用的数据是什么、共享的应用程序是否已准备好、共享主机采用何种文件系统等。从这个意义上讲,资源搜索无疑成为网格技术的核心和基础。下面通过对传统Web网络环境下的搜索引擎、P2P系统[1,2] 和网格搜索引擎[3] 的分析,探讨了P2P技术在网格资源检索中的应用。

1 基于Web的传统搜索引擎的结构与性能分析

按照搜索引擎的搜索机理,从技术的角度大致可把基于Web 的搜索引擎的发展过程分为三个阶段(形式):目录式搜索引擎、机器搜索引擎(也叫Robot ,或Crawler搜索引擎)、元搜索引擎(Meta搜索引擎)。

1.1 Web搜索引擎的工作原理

三代搜索引擎都由搜索器、索引器、查询引擎和用户接口四个部分组成,如图1所示。

图1 传统搜索引擎结构图

(1)搜索器,其功能是在互联网中漫游,发现和搜集信息。它要尽可能多、尽可能快地搜集新信息和定期更新旧信息,以避免死连接和无效连接,为此搜索器的实现常采用分布式、并行计算技术,以提高信息发现和更新的速度。

(2)索引器,其功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引或分布式索引算法。

(3)查询引擎,其功能是根据用户的查询请求在索引库中快速检出文档, 进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。

(4)用户接口,其作用是输入用户查询、显示查询结果、 提供用户相关性反馈机制。

不同的是第一代搜索引擎的搜索器实质上是人,由人工来完成索引库的构建;第二代搜索引擎(Robot Engine)的搜索器是指被称作“Robot”的大规模程序,由这些具有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息并完成索引库的构建和补充、更新任务;第三代搜索引擎(Meta Engine)的搜索器是一个由多个不同搜索机制和策略的单一搜索引擎组成的集群系统,从而共同完成搜索任务。因此,从第一代搜索引擎到第三代搜索引擎,在搜索效率、查准率和查全率上都有较大进步。

1.2 Web搜索引擎存在的共同缺陷

纵观各个阶段的搜索引擎的基本工作原理和采用的技术与策略,可以看到:

(1)提供服务的方式。都只是主要提供信息资源的检索服务, 而对于网络应用资源(如应用程序等)的检索与利用问题,则无能为力。

(2)查询效率。都仍然没有从根本上解决查询效率低的问题, 为用户提供信息检索服务的效率都依赖于搜索器的性能和检索器的性能,尽管业界人士都一直在探究尽可能“优化”的算法以求提高查询效率,但是效率“瓶颈”问题一直没有得到理想地解决,日益膨胀的高速计算需求已经向传统的Web搜索引擎发起了严正的挑战。

(3)检索到的资源类型。一般只能查到HTML格式, 主要的原因是搜索引擎的自动排序软件(Spiders蜘蛛程序)只能接受这种格式的网页。这意味着, 网络上任何没有使用HTML格式的信息将无法被外部的搜索引擎查到,如PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。

(4)搜索引擎与资源站点之间的关系。搜索引擎是一切检索行为的实施者, 包括索引库的构建与更新(充当搜索器、索引器)、信息检索(充当检索器)和为用户提供交互式服务(充当用户接口),搜索引擎与资源站点间的分离机制,影响了资源检索的效率。

(5)搜索引擎与用户应用的“融合”问题。 目前的搜索引擎是与用户应用相分离的,尽管一般的搜索引擎都有用户接口,也仅仅是将检索到的信息进行分类和规范而已,如何将搜索引擎与用户应用“绑定”,将搜索机制“内嵌”到应用程序,如同将应用程序与数据库绑定来执行用户任务那样,实现真正意义上的网络高速计算?有待讨论和研究。

2 P2P系统的网络拓扑结构与性能分析

计算机对等联网(Peer-To-Peer,P2P)是目前流行的一种新兴网络模型。作为真正的分布式计算技术,P2P将对Internet的发展产生重要影响。P2P可简单定义为通过直接信息交换,共享计算机资源和服务,对等计算机兼有客户机和服务器的功能。在这种网络中所有节点是对等的(称为对等点,P2P网又称为对等网), 各节点具有相同的责任与能力并协同完成任务。对等点之间通过直接互联实现信息、处理器、存储甚至高速缓存等资源的全面共享,无需依赖集中式服务器支持,消除信息孤岛和资源孤岛。

关于P2P网络拓扑结构模型,目前尚无统一的标准。从技术上讲,P2P网络结构可分为纯P2P、中心文件目录/分布式文件、 有中间服务器(前两类系统的折中)等几种系统结构[1,2],如图2中的图2.1—图2.3。

图2 P2P系统的拓扑结构图

在纯P2P模式(如图2.1)的网络中,没有服务器,链状的节点之间构成一个分散式网络。优点在于允许用户设定自己的规则和建立自己的网络环境,提供近似的即插即用特性;问题是由于没有中心管理者,网络节点难以发现,这样形成的P2P网络很难进行诸如安全管理、身份认证、流量管理、计费等控制。

在中心文件目录/分布式文件系统结构模式(如图2.2)中, 交换数据时是通过中央服务器来进行目录管理的。由于采用集中式目录管理,所以不可避免地存在单点瓶颈的问题。

在有中间服务器的系统(如图2.3)中,各节点之间可以直接建立连接,网络的构建需要服务器,通过集中认证,建立索引机制。中间服务器仅用于辅助对等点之间建立连接,对等节点之间直接进行通信,通过分布式文件系统建立完全开放的可共享文件目录,运用相对的自由来兼顾安全和可管理性。

3 基于代理的网格搜索引擎的结构与性能分析

网格研究来源于美国联邦政府过去10年来资助的高性能计算项目。网格试图实现互联网上所有资源的全面连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。因此,网格是把信息技术具体化、计算资源虚拟化,并把所有通过联网的计算资源都按共享原则参与进来,达到计算资源的共享,或者是独立用户组在高速网络上动态地共享计算机资源,以满足不断变化的计算需求。

3.1 网格资源的特点

由于网格系统具有特殊的结构和资源共享机制,网格资源具有结构上的异构性(Heterogeneity)、规模上的可扩展性(Scalability)、资源管理策略的可适应性(Adaptability)、系统结构的不可预测性、 构成网格的机构和组织的多级管理域等特点。

(1)异构性。网格可以包含多种异构资源,包括跨越地理分布的多个管理域。构成网格计算系统的超级计算机有多种类型,不同类型的超级计算机在体系结构、操作系统及应用软件等多个层次上可能具有不同的结构。

(2)可扩展性。随着网格资源的增加而引起的性能下降以及网格延迟, 网格必须能适应规模的变化。

(3)可适应性。与传统网络的结构不同, 网格系统由于地域分布和系统的复杂使其整体结构经常发生变化,网格系统的应用必须能适应这种不可预测的结构。

(4)结构的不可预测性。网格具有动态和不可预测的系统行为, 一个计算可能要求在它的执行期间动态地开始使用或释放资源,因此造成系统行为和系统性能经常变化。

(5)资源分属多级管理域。资源和用户可属于多个组织;资源池庞大, 且动态可变;资源可支持不同的认证和授权机制,包括Kerberos、明文口令、全套接协议(SSL)、SecureSHell(SSH);用户在不同的资源上可有不同的标识。由于网格资源属于不同的机构或组织并且使用不同的安全机制,因此需要各个机构或组织共同参与解决多级管理域的问题。

3.2 基于代理的网格搜索引擎的结构与性能分析

考虑到网格资源的上述特点,文献[3] 中给出了基于代理的网格搜索引擎结构模型[3],如图3。它由5个部分构成:

(1)搜索代理(Query Proxy),每个站点都具有在网格纤维层执行查询以抽取本地资源信息;

(2)多功能、分布式的搜索器(Crawler),以发现和存储位于网格底层的资源,并转换成可被检索的数据模型;

(3)索引器(Indexer),能够进行元数据采集,并利用信息获取和挖掘技术生成用户查询所需的索引;

(4)查询引擎(Query Engine), 以识别查询语言和处理来自于用户接口的查询需求;

(5)智能代理接口(Intelligent-agent Interface),以满足用户的复合资源查询需求。

图3 基于代理的网格搜索引擎结构图

要说明的是图3中给出的模型存在着明显不足。

(1)当网格中的资源动态地改变时,如动态地加入和离开, 这些动态变化的资源信息标识不能及时地反映到元数据资源库和索引器的索引表中,导致搜索结果中因资源的“离开”而出现“失效”资源标识,因资源的新增而出现搜索“遗漏”,查准率和查全率不高。

(2)由于每个资源站点仅提供智能接口和查询引擎模块, 而真正实现资源搜索的搜索器(Crawler)和索引器(Indexcer)仍被多个站点共享,当用户的搜索请求数量庞大且为复杂搜索时,必然导致瓶径问题。

4 基于P2P的网格搜索引擎的改进模型与性能评价

网格环境中具有数目巨大、地理上分布的资源,并且这些资源和服务在网格中是动态的,可能会在不同的时间动态地加入或离开不同的虚拟组织。为了能使网格用户方便、高效地使用各种资源,必须解决网格环境下的资源管理问题,包括资源发现、资源分发、资源监控和更新等各方面的问题。

4.1 P2P技术与网格技术的融合

P2P与网格都强调要为分布在不同地点的人们提供资源共享服务。但是, 由于这两种技术有着不同的前提假设,这就导致了它们有着不同的需求背景和技术发展方向。P2P系统所关注的资源共享主要用于那些包含数以万计低带宽用户的大型环境,其重点在于容错技术和大规模扩展技术,而网格系统主要用于规模相对较小的用户组织的协作,并提供更加丰富多彩的可共享资源。

尽管二者具有不同之处,但是P2P与网格的长远目标是一致的, 因为网格系统需要扩展模型,并把短期服务与资源结合起来对外发布;而P2P 的研究者们则考虑提供一些更宽泛的服务。从如下几个方面可以看到[4,5],P2P系统与开放网格服务体系结构(Open Grid Services Architecture,OGSA)正逐步走向调和,P2P技术在网格中的应用研究正逐步走向深入。

(1)超越客户/服务器模型。P2P系统去掉了客户/服务器的不对称因素并对其进行了改进,这与网格计算中的资源管理策略一致。在P2P系统中, 客户机也可以充当服务器,接受对其资源的访问请求,贡献自己的资源以换取所需的资源,打破了传统客户/服务器结构的偏向服务关系,克服了性能和可靠性的瓶颈,提高了服务资源的共享和高速传输性能。尽管在P2P系统中, 只能管理和共享具有非信任关系的同构资源,然而,资源的“对等性”策略与网格的诞生初衷一致。

(2)通过覆盖部署Internet服务。P2P系统使用覆盖来创建和部署网络设施,从而提供一套在整个Internet环境下的节点寻址策略。P2P 系统通过通过动态创建的隧道集合进行动态路由,节点能够协同搜索一条较长的“IP级”路径,从而构建一个具有弹性的覆盖网络。而这些策略与网格虚拟组织的动态可扩充性技术特点和组织策略一致,都可实现参与者的动态网络接入。

(3)协作与信任。在P2P系统和网格计算中,参与者会按照共同的兴趣组建一个虚拟组织,只是网格系统尝试更为详细的网格内连接。

(4)可扩展性。P2P系统和网格计算系统都允许动态地增加资源,并充分利用相似性信息来平衡节点之间的负载,在节点加入和离开时都能有效地维护系统状态,因此都具有很好的动态扩展和动态自维护策略。

(5)相近性。为了快速响应存取和查询需求,在P2P系统和网格系统中都是通过几个分布式应用视图将相关的相近性信息的收集变为自动化,因此,都具有高效的信息搜集和检索性能且策略一致。

(6)负载平衡。在P2P系统和网格中,对资源的存储和分配的负载平衡都是通过根据资源的分布粒度和节点的最大负载构建副本转移的方式来实现,只是P2P 系统中涉及的主要是同构资源,而网格中面对的还包含有其他非同构资源,所以,在网格中要实现真正的负载平衡,既要考虑对资源的最好分配,还要考虑任务和资源属性的分布,要在两者之间权衡,“平衡的策略”更详细、更复杂。

(7)可用性。在P2P系统和网格中,由于规模和用户群体的特性,节点加入和离开的频率非常高,因此不能依靠单个节点来维护任何重要的状态信息。因此,每个节点都需要动态维护共同的一个更新日志,并及时更新其周围节点的加入和离开信息,以此共同标识系统的全局状态。

(8)匿名与审查对抗。P2P系统和网格都是通过隐藏身份来保护用户的隐私,通常都采用分割文件(把一个文件分割成多个部分,确保没有任何一个节点拥有整个文件,提高安全性)、复制文件块(把文件块复制到多个节点上提供高可用性,减少访问延迟)、文件块加密(确保文件不被泄露)、匿名(隐藏资源请求者和提供者的身份,提供匿名传输和服务),这四种策略密切配合,保证了资源的安全性和高可用性。

4.2 基于P2P的网格搜索引擎的改进模型

为了克服传统网格搜索引擎(图3)中的“代理瓶颈”问题, 取消集中式“搜索代理”,扩大每个站点的中间服务器功能,使每个站点均成长为独立的“搜索代理”,具有“搜索引擎”功能,并能实时搜索临近站点的动态资源标识,构建实时索引数据表(索引目录),具有“索引器”功能。这样,在网格虚拟组织(VO)中,各站点构成了一个地位对等、协调一致的“搜索代理网”,见图4。

图4 基于P2P的网格搜索引擎结构图

4.3 结构与性能分析

(1)结构分析。每个资源站点不仅是一个资源提供者, 同时也是一个资源搜索者。即每个资源站点除了拥有自身的特有资源,还具备搜索引擎的功能,包括智能接口、查询引擎、搜索器、索引器等。

(2)性能分析。第一,克服了集中式搜索引擎的瓶颈问题,提高了查询效率;第二,由于每个站点都拥有元数据资源库和临域资源索引库,具有搜索和索引功能,能够实时搜集和更新“临近”区域的资源标识信息,从而将网格资源的动态变化(增加和离开)实时地反映到元数据资源库和索引数据表中,克服了基于代理的网格搜索引擎的搜索结果中的“失效”和“遗漏”的动态滞后现象,提高了查准率和查全率;第三,由于元数据资源库、资源搜索和发现服务的体系结构属于分布式的控制方式,不依赖于单个结点。如果某个结点出了故障,不会影响整个资源检索的正常进行,消除了单点瓶颈带来的影响,从而使得整个系统的可靠性大大增加。分析表明:P2P技术应用于网格资源检索,将大幅提高网格资源的利用效率,提高网格资源检索的查准率和查询率,与网格技术诞生的初衷一致。

(3)有待进一步探讨的问题。第一,因为每个资源站点都可实时存储、 搜索和更新附近临域内的资源状态标识,然而“临域”如何确定?第二,由于每个资源站点已经升级为“搜索代理”,既要满足站点自身的计算需求,同时又要响应其他站点的资源共享需求和检索需求,站点的负载平衡问题如何解决?第三,为了提高资源搜索的查准率和查全率,应进一步探讨和研究智能搜索技术和语义网技术在网格资源检索中的应用;第四,P2P技术应用于网格资源检索, 进一步“白化”了网格资源的开放性,那么网格中的私有资源和隐私保护问题如何解决?第五,P2P 技术应用于网格资源检索将进一步加剧网格环境下的非法入侵和恶意攻击的威胁,那么如何进一步完善和改进网格安全体系结构及其安全策略?

5 结论

本文基于P2P技术给出了网格搜索引擎的改进模型,分析表明:将P2P技术应用于网格资源检索,可以提高网格资源的利用效率,提高网格资源搜索的查准率和查全率。但是,由于这时每个资源站点不仅要满足自身的计算需求,同时还要响应来自于网格中其他站点的资源共享和资源搜索请求、实时搜索和更新本站点临域内的动态资源标识信息,而所有这些都将加重站点的负担。此外,由于P2P 的“对等性”和网格资源的开放性,使得网格中的私有资源和隐私资源的保护问题、非法入侵和恶意攻击问题更加严峻[6],因此还有很多问题需要进一步地研究, 这将是今后的工作重点。

收稿日期:2005—02—12

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

对称搜索技术P2P在网格资源检索中的应用_搜索引擎论文
下载Doc文档

猜你喜欢