分布式信息检索的研究与应用

分布式信息检索的研究与应用

陈莉勤[1]2008年在《分布式信息检索中移动Agent技术的应用研究》文中研究指明目前人们普遍使用搜索引擎技术来检索Internet上的信息。搜索引擎是基于WWW的信息处理系统,它在一定程度上为人们解决了在WWW上查找信息的问题。但是现有的信息都是分布在异构的、分布式的、复杂的网络环境中的,传统的信息检索方式越来越清晰地显现出来局限性:第一,信息过载带来的效率低问题。现有的检索技术其查全率不高,即使检索出了大量的有一定关联的信息,但不一定是用户想要的,用户还必须从大量的信息中筛选出自己想要的,浪费了大量的时间和精力。第二,对网络有效带宽的依赖性较强,容易造成网络拥塞。传统的信息检索方式都是基于C/S模式的,在提供服务时,需要客户端与服务器保持稳定的连接,造成带宽的巨大浪费。第三,信息检索缺乏一定的智能性。此外,还存在安全性不高、移动性欠缺、检索的实时性也难以保证等缺点。移动Agent是人工智能与分布式计算技术相结合的产物,它的移动性、自主性、协调性和智能性等特点,使得它在分布式系统中得到了广泛的应用,并显示出巨大的应用前景和优越性。本研究旨在探讨一种基于移动Agent的分布式信息检索模式,提高信息检索的效率,降低系统对网络带宽的依赖,实现信息检索的智能化。从而解决传统信息检索的效率低、安全性差、智能性不高等问题。本论文首先分析了传统的分布式信息检索技术,重点剖析了搜索引擎技术,分析了它的优点以及其不足;接着阐述了移动Agent的系统结构和关键技术,通过比较分析了移动Agent技术和其他分布式计算技术,探讨了移动Agent技术应用于分布式信息检索的优势;设计了一个基于移动Agent的分布式信息检索模型,详细阐述了其各部分的功能和运行机制,并给出了移动Agent迁移机制、系统的容错机制、返回结果的“蜂拥”问题、安全问题等模型中所涉及关键问题的解决方案;以Aglet为开发平台,采用java程序设计语言实现了这一模型。

谢照莉[2]2011年在《基于Hadoop的机械故障诊断资源分布式信息检索系统的设计与实现》文中研究指明信息检索是从文档集合中返回满足用户需求的相关信息的过程。而搜索引擎是信息检索的一项成功应用,为用户提供快速、准确、全面、时新的海量Web信息导航服务。随着人们对信息在精度、深度和广度上的需求提高,搜索引擎将向精细化、个性化方向发展。当前搜索引擎的研究热点是垂直搜索、社交搜索和移动搜索。本文结合国家自然科学基金项目“基于知识网格的机械故障智能诊断系统的原理与方法研究”与目前互联网和搜索引擎发展的现状、热点,主要研究以下内容:(1)研究了信息检索和搜索引擎的发展现状,机械故障诊断知识管理的现状。研究了网页采集、网页内容分析、索引模块和查询接口等搜索引擎的体系结构和组成;信息检索系统中布尔模型、向量空间模型和概率模型等的定义、主要思想和优缺点;分布式信息检索的架构和分布式信息检索过程。(2)研究了Nutch的工作流程及Nutch的中文分词原理;Hadoop分布计算框架,HDFS的架构和MapReduce的计算流程。提出了基于Hadoop的机械故障诊断资源分布式信息检索系统的模型。(3)利用元搜索的思想设计了针对百度和谷歌的搜索结果获得机械故障诊断资源链接的程序,以插件的方式利用Paoding中文分词组件对系统的中文分词效果作改进,实现了对机械故障诊断资源的垂直搜索功能。实验结果表明,本文实现的系统能实现机械故障诊断资源的搜索,查准率比较好。

庞欢[3]2008年在《基于最优搜索的分布式数据检索技术》文中提出随着互联网的迅猛发展,网络信息的增加,用户要在海量的数据信息里查找所需信息,如果没有强有力的信息检索和分析工具几乎是不可能的。当前使用比较普遍的检索系统能部分的解决资源发现的问题,但随着网络数据量急剧膨胀,传统的集中式信息检索方法在搜索性能上已经无法满足用户的要求。当信息的检索规模达到一定的程度时,必然要采用分布式的方法,以提高系统性能。分布式数据检索技术的提出对信息检索领域具有极其重大的意义。与传统的信息检索技术相比,使用分布式数据检索技术的检索系统在检索效率上有了大幅的提高。而如何进一步在分布式数据检索技术的基础上提高其检索效率,是一个值得研究的课题。最优搜索理论是二战时期发展起来的学科,是计算统筹学的分支,它研究在有限的资源约束条件下,如何分配资源使得成功搜索到目标的可能性最大或者资源的消耗最小。利用最优搜索理论对分布式数据检索进行优化,将提高系统的检索质量。本文在研究了分布式数据检索技术和最优搜索理论的相关知识的基础上,进一步重点研究了最优搜索理论与分布式数据检索技术的结合。首先利用最优搜索理论建立分布式数据检索系统的数学模型,分析最优搜索模型的初始概率分布并研究初始概率调整的方法,再根据系统模型的特征确定探测函数的形式。然后在搜索时间有限的约束条件下,制定最优搜索策略,使得目标的检索概率达到最大,并且在用户搜索结果数固定的情况下,使检索的时间期望值达到最小。最后还研究了初始概率分布对探测概率造成的误差值。另外,本文还根据分布式数据检索系统的模型设计并实现了基于最优搜索理论的分布式数据检索系统。之后在该系统上进行了一系列的实验,讨论了各检索服务器的检索次序以及系统运行一段时间后初始概率分布的调整对系统性能的影响。并通过查准率和查询时间两个方面对传统的分布式检索系统和基于最优搜索理论的分布式检索系统进行比较评价,证实了最优搜索理论对分布式数据检索系统具有明显的优化效果。

薛云皎[4]2006年在《基于智能主体的分布式构件库相关技术研究》文中进行了进一步梳理构件技术是实现软件复用的有效途径,能大幅度提高软件的生产效率、降低软件开发和维护成本、提高软件质量,近年来成为软件工程界研究的热点之一。构件库是支持大量构件的描述、存储、管理和检索的构件复用基础设施。随着构件库相关技术的逐步成熟,我国科研机构和软件企业建立了一系列具有实用价值的构件库。传统的构件库是集中式的,将各种来源的所有构件集中在一台主机上,由一个构件库管理系统进行管理。随着各类机构建立的构件库逐渐增加,对共享可复用构件的愿望日益增强,同时不少软件企业日益重视构件的知识产权保护,因此对于在保持原有独立性的基础上整合相互分离的构件库的需求逐渐显露。这驱使我们寻求新的理论和技术,通过协调机制将分布、异构的构件库整合起来,形成一种分布式构件库,实现构件信息的共享,对外提供一个统一的逻辑视图和查询接口,方便用户通过公共网络寻找各个构件库内适合于复用目标的构件。本文从在社会学、人工智能和软件工程等领域已经作了深入研究的智能主体(Intelligent Agent)入手,采用Agent实现分布式异构构件库,并对其中的系统体系结构、Agent智能处理机制、分布式环境下的构件检索等进行了深入的研究,所开展的工作和取得的主要成果体现在以下几个方面:●提出了基于Agent的分布式构件库系统(ABDC)的体系结构。本文分析了分布式构件库的基本需求,采用抽象状态机的方法进行了架构分析和体系结构的概念设计,提出了系统的高层逻辑结构,并导出了细化的实现方案。该体系结构提供了一个能够整合分布的、异构的构件库的逻辑视图,从而避免了集中式构件库系统的建设代价以及中央服务器的重负荷。各成员构件库依然自行管理自身拥有的构件,能够获得比较高的安全保障。同时,由于Agent的自治性和智能性,这一基于Agent的集成方案是比较灵活和低耦合的,容易进行扩展。●提出了分布式构件库系统中的Agent的结构模型,设计了Agent通信机制和知识表达机制,通过Agent的功能以及Agent之间的协作实现分布式的构件检索。针对部分构件库中构件领域特征较强的情况,本文还提出了构件库的偏好(Preference)概念,以及基于逻辑编程方法的偏好知识表达和基于偏好的通告规则形式化框架。借助这一机制,Agent可以动态掌握构件库的偏好,主动将检索请求通告给相关构件库进行处理,从而缩短等待构件库来获取检索请求的时间。●提出了基于关联规则的自适应构件检索请求优化方法。本文将关联规则挖掘的理论和方法引入构件检索,通过对用户检索历史记录的挖掘来发现用户的潜在检索条件,从而智能地对新的检索请求进行补充,帮助用户完善不完整的检索请求,弥补普通用户对检索条件难以准确、完整说明的不足,提高检索请求的精确度和构件检索的效果。●提出了异质刻面方案的转换模型。通常不同的构件库拥有不同的刻面描述方案,用户检索条件中的刻面方案也可能与之不同。为解决刻面方案的异质性,本文借助树结构匹配的理论和方法,研究了不同构件库上刻面方案之间的转换机制,将刻面方案映射为树结构,用树结构的编辑操作对不同刻面方案之间的转换进行建模,使用户能够根据本地构件库刻面方案提出检索请求。通过原型系统,验证了上述方法的可行性。

刘明[5]2013年在《基于移动Agent和最优搜索的分布式信息检索系统研究》文中研究说明随着计算机技术的发展和网络技术的普及,互联网已成为人们获取信息的最重要途径之一。搜索引擎技术虽然在一定程度上解决了网络上资源的定位问题,但是随着网络规模的扩大,特别是移动互联网的崛起,使得网络信息逐渐向异构、复杂和分布式特性发展,传统的信息检索技术越来越明显的体现出其局限性。移动Agent作为新一代分布式人工智能技术以其自主性、移动性和智能性等特点,克服了传统分布式计算模式的固有缺陷,为现有信息检索技术的发展提供了新的思路。虽然基于移动Agent的分布式信息检索技术给人们带来了一种新的检索模式,但是还存在一些问题制约着它的发展,如检索时间的限制,检索效果不理想等。因此,如何制定更好的检索策略成为目前亟待解决的问题。本文以此为出发点重点研究了在有限搜索时间条件下,提高信息检索系统搜索质量的方法。最优搜索理论是二战时期发展起来的一门学科,其解决的核心问题就是在搜索资源有限的情况下,寻找一种最优的分配方案,使得在有限资源条件下找到目标的概率达到最高,或使成功找到目标所消耗的资源最少。因此最优搜索理论很适合用于处理信息检索系统的性能优化问题。本文首先在研究了现有基于移动Agent的分布式信息检索技术,以及最优搜索相关理论的基础上,建立了基于移动Agent的分布式信息检索优化模型。然后按照最优搜索理论的思想,提出了适合于分布式检索系统的最优时间分配模型和最小期望成本模型,并对初始概率分布的确定及其调整方法进行了深入研究,分析并确定了探测函数的形式,最后给出了在有限搜索时间限制下的最优搜索方案。本文还提出了一种对资源节点搜索质量的反馈评价方法,并将其应用到最优分配策略的自动更新上,因此增强了系统的自适应能力。针对节点网络环境的变化以及软硬件之间的差异,提出了一种移动Agent的迁移协商机制,实现了在资源检索过程中的Agent路由动态更新,从而在一定程度上实现了系统的负载均衡,有效节省了检索时间。另外,本文根据上面所建立的模型,设计并实现了基于Agent的分布式信息检索系统,最后在系统上进行了相关实验,结果表明,以上措施对于系统做到了切实的改进。

何川[6]2012年在《分布式信息检索中的若干重要问题研究》文中进行了进一步梳理分布式信息检索是信息检索中的重要研究领域之一。越来越多的检索系统都利用到了分布式检索理论和技术。例如,互联网的信息需求之一就是如何整合来自于各个垂直搜索引擎返回的结果,跨语言检索也无法避免的要处理不同语种下文档相关性排序的问题,专业的专利检索可能需要同时查询多个专利库等等。同时,研究上也论证过在一定的条件下分布式检索的效果优于传统检索。分布式信息检索是同时查询多个文档数据库的技术和方法。具体来说,检索系统在收到用户的查询时,首先会按照相关性对文档数据库进行选择,把查询送往选出的文档数据库,并从中得到返回的的检索结果,最后进行合并统一返回给用户。分布式信息检索主要有三个重要的问题:如何来描述文档数据库(文档数据库的描述),针对给定的查询如何选择合适的文档数据库(文档数据库的选择),如何对返回的结果进行合并(查询结果的合并)。经过详尽的调研,本文详细的研究了分布式信息检索的若干重要问题,取得了一定的创新性成果,主要工作成果如下:1.对于文档数据库的描述问题,本文验证了基于查询的抽样算法在中文环境下的可靠性、稳定性和必要性。非协同环境下的基于查询的抽样算法是研究的重点和热点,之前的研究工作都是针对英文的标准数据集进行的,但是并没有专门研究证实其在中文环境的可靠和有效。本文在研究了基于查询的抽样算法的前提假设和基本理论之后,从实践的角度考虑,通过结构完整的逻辑清晰的实验验证其在中文环境下的可靠性和有效性,从检索流程上来说包括数据库描述层面的、数据库选择层面的、检索层面的测试和检验。一系列广泛的实验都证明了中文环境下的查询抽样技术的可行和高效,尤其是数据库描述层面的实验结果更是论证了抽样技术的可靠性、稳定性、必要性。2.对于文档数据库的选择问题,本文提出了基于判别模型的选择算法和基于主题聚类的选择算法,并验证了其有效性。该领域已经出现过很多的研究工作。大致可分为基于词频的、基于文档的、基于分类/聚类的选择方法。从判别模型和生成模型的区别来看,本文的工作包括两点:第一,考虑不同数据库之间的信息,我们提出了一种基于判别模型的选择算法。第二,考虑到数据库的语义问题,我们从理论上提出了基于主题聚类的选择算法。对于前者,我们进行理论上的探讨。而后者是我们工作的重点,因为主题聚类算法不但考虑了文档因素的影响,而且引入了数据库的语义因素,这在建模上具有明显的可解释性。同时,我们也从概率图的角度对该类模型进行了统一的分析和解释。实验证实,基于主题聚类的选择算法在已有数据集上的表现是非常有竞争力的。3.对于结果合并的问题,本文建模了加权曲线拟合算法,并证实对已有算法有明显的稳定的改善。结果合并领域的经典算法分别是CORI合并算法(CORI Merging)、SSL算法(Semi-Supervised Learning)、SAFE算法(Sample-Agglomerate Fitting Estimate)。SSL算法解决了CORI合并算法在非协同环境下的不稳定性问题;SAFE算法解决了SSL样本数量不足的问题。而SAFE算法在使用文档上也有其不足,主要有两点,其一是没有考虑文档排名不同而产生不同的重要性,其二是没有考虑文档的排名的估计偏差。针对这两点,在SAFE算法基础上,本文提出了加权曲线拟合算法(Weighted Curve Fitting,即WCF算法)。通过丰富的实验证明,与SAFE算法相比,WCF算法的优越性是一致的稳定的。在一定的环境下,我们给出了WCF算法达到最优的可能参数组合。

王涛[7]2007年在《基于移动智能体的网络信息检索机制研究》文中研究指明随着网络技术的快速发展,传统的网络信息检索技术的缺点明显地暴露出来。如何解决网络信息检索技术存在的问题被提上了日程。本文分析了传统的网络信息检索技术的特点、分类、体系结构及其关键技术等,指出了其存在的不足。概要介绍了分布式人工智能领域的移动智能体技术的基本理论及其技术优势。在此基础上,提出了一种解决传统网络信息检索技术缺陷的新思想——将移动智能体技术引入网络信息检索领域中,构建基于移动智能体的网络信息检索系统。论文在构建了基于移动智能体的网络信息检索系统的系统模型后,对其运行机制进行了详细的阐述,并给出一个基于Aglet平台上的开发实例。对于系统中的几个非常关键的技术,本文也给出了详细的介绍。论文的最后给出了对本文研究成果的简单总结,并对下一步的研究工作进行了展望。

董乐[8]2013年在《基于分布式架构的元搜索引擎系统的设计与实现》文中认为随着互联网技术的快速发展和计算机技术的广泛应用,人类已经步入了信息爆炸的时代。在互联网上涌现的大量信息以及信息结构的多样化,使得人们很难在没有其它工具帮助的情况下快速搜寻到自己想要的信息。中国互联网信息中心CNNIC于2012年公布的互联网用户白皮书中明确提出,随着互联网的快速发展,互联网上的数据继续保持着爆炸式的增长模式,每年的增长率已经超过10倍。用户在互联网上获取信息的渠道虽然呈现多元化发展的趋势,但门户网站、搜索引擎、博客、微博、论坛、社交网站等仍是用户获取信息的主要渠道。元搜索引擎是信息检索中Web检索技术不断发展的产物,由于它能够集合多个成员搜索引擎的检索结果,并通过相应的算法优化检索结果的排序,所以它返回的结果能大大提高检索结果的查全率和查准率,因此受到了互联网用户的广泛欢迎。但是,随着成员搜索引擎数量上升,返回结果较多时,检索的效率以及文档最后的排序问题成为了现在元搜索引擎发展的瓶颈。分布式系统的发展,旨在联合网络上的单个主机,将一个复杂的大任务分解为多个规模小、复杂度低的子任务。通过利用网络上大量的廉价机处理规模较小、复杂度低的子任务,可以将串行工作模式改为并行工作的模式,这样的改进可以大大提高用户检索的效率。本文首先阐述了近几年国内外元搜索引擎系统的发展现状,在此基础上引出了论文的主要研究内容。针对元搜索引擎系统在检索结果排序融合方面的不足,本文对已有的基于位置信息排序算法进行了改进。在将文档的位置信息转换为文档得分时,增加了对成员搜索引擎个数因素的考虑,同时,对文档的URL通过构造域名缓存表来计算文档URL的分值;在成员搜索引擎权值方面,采用多元线性回归中参数的最小二乘估计法计算出各成员系统的权值;最后根据线性组合算法模型计算出文档总评分并作为排序依据。为满足用户对检索实时性的要求,本文将分布式系统中的主从模式结构引入到元搜索引擎系统设计中。具体地,采用基于HTTP/1.1的通信协议作为各个工作模块的传输协议,以各下载节点的CPU负载率作为分发模块分发策略依据,所有返回的文档在系统的中央检索模块中根据排序融合算法进行评分。系统测试时,选取了目前较为流行的五个通用搜索引擎作为成员搜索引擎,选用搜索引擎与网络数据挖掘大会中的查询测试集作为检索测试数据,对返回结果的平均查准率做了测试。在实际网络环境下的测试结果表明,系统在查准率方面有了较为明显的提高,具有良好的开发和应用前景。

简(王争)峰[9]2002年在《基于XML的异构产品信息网上交换、检索技术研究与应用》文中认为产品信息交换与共享的研究一直是计算机集成制造CIM、并行工程CE以及虚拟企业VE需要解决的首要问题,尤其是在分布式企业的异构环境下如何实现产品信息网上交换与共享已成为当前研究的热点。由于网络环境下各异构企业具有高度的自治性,异构企业之间的信息交换与共享在满足动态性、敏捷性要求的同时,需要解决平台异构性、系统异构性、信息异构性等问题,传统的产品信息网上交换与共享技术已难以满足这种需求。随着Internet及其相关技术的迅猛发展,尤其是九十年代后期XML语言的诞生与发展,给产品信息的网上交换与共享研究带来了新的方法和途径。论文围绕分布式企业异构环境下的产品信息,结合XML理论与技术,系统研究了基于XML的异构产品信息网上交换、检索技术及其应用,为产品信息网上交换与共享的实现提供了一种行之有效的新方法,从而为实现分布式企业信息共享提供了技术支持与理论依据。 本文的研究具有重要的理论与应用价值。全文内容组织如下: 在第一章中,回顾了产品信息交换与共享技术的研究以及XML语言的研究,总结了目前的研究现状以及存在问题。最后阐述了本文的研究背景、意义和主要研究内容。 在第二章中,针对Internet环境下产品信息网上交换与共享的需求,确定了采用XML作为Internet环境下产品信息的知识表达语言,系统地提出了基于XML的异构产品信息网上交换方法及其体系结构,并在此基础上论述了若干关键技术。 在第三章中,结合产品信息网上表达的需求,针对WWW环境下缺乏面向产品信息XML描述的WEB数据模型的情况,提出了基于带根连通有向图的一种新的数据模型即可扩展对象交换模型XOEM(eXtensive Object Exchange Model),给出了该模型严格的形式化描述,并将该模型应用到含有XML半结构化数据的WEB中。 在第四章中,针对产品信息网上交换与共享的核心——多样化异构产品信息的描述与识别,提出了异构产品信息统一表达的思想及实现方法,并具体研究了产品文档信息的XML表达:WEB文本信息的XML表达、关系数据库信息的XML表达以及非文本化信息的XML表达。 在第五章中,针对产品数据表达的STEP标准,重点研究了在WWW环境下STEP产品数据的WEB描述方法,建立了EXPRESS语言与XML语言模式的匹配,在此基础上研究了STEPPart21物理文件的XML转换和表达,建立了统一的XML DTD,从而在保持可扩展性和可移植性前提下实现了基于XML的STEP物理文件表达的通用性、统一性和完整性,最后结合实例介绍了SX_Viewer转换器实现STEP Part21物理文件的转换功能。 在第六章中,根据XOEM数据模型,建立了基于XML的层次分形—扩展超链相结合的基元模型,并给出了相应的约束规则的描述与表达,从而确定了异构产品信息网上动态关联浙江大学博士学位论文:基于XML的异构产品信息网上交换、检索技术研究及应用一的统一约束规范。然后在此基础上扩展构造了统一的XML DTD模板。 在第七章中,根据基于XML的异构产品信息网上交换方法,研究了分布式企业异构产品信息的网上检索。提出了基于XML的分布式企业产品信息检索系统的体系结构,然后在此基础上分析了系统的组成、运作,具体研究了实现该系统的若干关键技术:智能中介服务、基于XML的信息挖掘与搜索、异构多数据源的访问以及用户个性化的实现。 在第八章中,结合工程应用,给出了具体的应用实例。 最后,在第九章中,对全文作了总结,并对今后的工作做了展望。

曲卫红[10]2006年在《基于移动agent的分布式信息检索的研究》文中认为移动agent技术是一种新型的分布式计算技术,是分布式技术与Agent技术相结合的产物,利用它的可移动性,将其应用于分布式信息的检索,可以最大限度地节省服务器资源和网络带宽。本文在概述移动agent技术的基础上,分析和比较移动agent技术与现行的分布式信息检索技术,以说明移动agent技术是构造分布式应用系统的理论依据。最后,给出一个基于移动agent的分布式信息检索系统,并利用跨平台编程语言Java对系统各个主要部分加以简单的实现,即描述该系统的体系结构。

参考文献:

[1]. 分布式信息检索中移动Agent技术的应用研究[D]. 陈莉勤. 武汉理工大学. 2008

[2]. 基于Hadoop的机械故障诊断资源分布式信息检索系统的设计与实现[D]. 谢照莉. 湖南科技大学. 2011

[3]. 基于最优搜索的分布式数据检索技术[D]. 庞欢. 电子科技大学. 2008

[4]. 基于智能主体的分布式构件库相关技术研究[D]. 薛云皎. 复旦大学. 2006

[5]. 基于移动Agent和最优搜索的分布式信息检索系统研究[D]. 刘明. 电子科技大学. 2013

[6]. 分布式信息检索中的若干重要问题研究[D]. 何川. 北京邮电大学. 2012

[7]. 基于移动智能体的网络信息检索机制研究[D]. 王涛. 吉林大学. 2007

[8]. 基于分布式架构的元搜索引擎系统的设计与实现[D]. 董乐. 太原理工大学. 2013

[9]. 基于XML的异构产品信息网上交换、检索技术研究与应用[D]. 简(王争)峰. 浙江大学. 2002

[10]. 基于移动agent的分布式信息检索的研究[J]. 曲卫红. 现代情报. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

分布式信息检索的研究与应用
下载Doc文档

猜你喜欢