基于Java技术的生物资源专业搜索引擎的研究与开发

基于Java技术的生物资源专业搜索引擎的研究与开发

许彦彬[1]2004年在《基于Java技术的生物资源专业搜索引擎的研究与开发》文中指出随着Internet的迅速发展,Internet上的信息成指数增长。由于网络信息资源的飞速增加,给人们在网上寻找所需信息带来了很大的困难。搜索引擎的出现增强了人们收集和定位所需信息的能力,能够帮助人们迅速找到所需要的信息。以后的几年里搜索引擎技术开始不断的发展,Internet上的搜索引擎数量也是急剧的增加,基于Internet的搜索引擎技术成为了研究的热点。 随着搜索引擎应用的广泛化,人们对于搜索引擎的要求也越来越高,查准率和查全率成为衡量搜索引擎的新标准,无用信息的过滤成为人们开始关注的问题。如今搜索引擎不仅仅考虑能够搜索信息,还要考虑最快速的获取用户所需要的信息。除此之外,综合性的搜索引擎已经不能满足人们对于特定知识的检索要求。多元化的搜索引擎开始应运而生了,专业性和专题性的搜索引擎层出不穷,搜索引擎的发展更趋向于人性化、智能化。 本文首先回顾了搜索引擎的发展历程,介绍了搜索引擎的基本结构和实现技术。然后根据课题的研究内容和要求提出了专业性搜索引擎——生物资源专业搜索引擎的实现结构,考虑到所需要的技术,介绍了Java技术,包括特点、优势、实现技术等。之后讲解了昆虫资源检索站点和生物资源专业搜索引擎的实现细节,包括网络蜘蛛如何获取网页、中文分词模块如何工作、生物资源过滤模块如何实现、索引器如何工作以及用户接口的设计。最后对本文的工作进行总结,提出不足之处,并展望搜索引擎未来的发展。

邓凡[2]2008年在《基于元搜索的专业搜索引擎的研究与实现》文中研究指明随着互联网信息的飞速增长,越来越多的人将搜索引擎作为网络信息获取的主要手段。如何更快、更准的获取特定的网络信息,成为搜索引擎研究的重点。为用户提供专业信息服务的专业搜索引擎正好符合这一发展需求,因此近些年来得到了飞速的发展。本文在深入剖析了独立搜索引擎与元搜索引擎之间的区别和各自优缺点的基础上,构建了一个面向培训领域的专业元搜索引擎。由于元搜索引擎返回的结果是从独立搜索引擎中获取,可从查询结果中获得的有用信息较少,因此要判断元搜索引擎返回结果的专业相关性,就必须挖掘其位置信息以外的其他信息。本文在充分挖掘网页文本信息的基础上,通过对专业网页样本特征的提取,结合遗传算法给出了网页专业相关度算法,最后对算法的设计和实现做出了详细的描述,并对实验结果进行了分析。本文根据上述算法,设计和实现了以该算法为结果优化方法的专业搜索引擎,给出了该搜索引擎在设计和实现细节。最后对搜索引擎的实验结果进行了分析和评价。

张建兵[3]2006年在《基于网格的空间信息服务关键技术研究》文中提出计算机网络技术和分布式计算技术的迅猛发展为地理信息系统向大众化、分布式、网络化的空间信息服务的演变提供了技术基础。空间信息的多样性、动态性、异构性、海量性、分布性等都对传统的Internet环境下空间信息服务提出了新的挑战。目前对于空间信息服务的研究,主要是以Web Service为技术框架,依据OGC制定空间信息服务的一些规范,如WMS,WFS,WCS等。它们在实现空间信息共享与互操作方面起到了一定的作用,但是在对海量分布式空间数据的处理以及为用户提供一体化和透明的服务方法上遇到了许多难以克服的困难,同时在提供计算能力、协同能力、迁移服务能力等方面也多有不足。 网格的出现和发展为空间信息资源的有效利用和共享提供了一个可靠的环境。网格是在网络之上运行的以实现资源共享和协作为目标的软件基础设施,它提供了一种集成的资源和服务的环境。网格的出现为解决空间信息服务领域存在的一些难点问题带来了希望。高性能并行计算是提高空间信息服务效率的有效方法,而网格是提供高性能并行计算的有力武器。通过共享资源、协作以及并行计算,网格技术可以集成计算能力,提供有效集群和负载平衡,支持多用户空间操作的协同,解决空间信息服务中的诸如计算能力不足、缺乏协作等问题。基于网格环境和移动Agent技术的结合,还可以方便地实现空间信息服务的迁移。 本文将网格技术应用到空间信息服务领域,研究利用网格技术解决空间信息服务的共享、效率、计算力、协同、迁移等问题。论文围绕“基于网格的空间信息服务关键技术”这一主题,研究了基于网格的空间信息服务体系结构,以及网格在地图服务、空间信息搜索、空间信息协同服务和空间信息服务迁移中应用的关键技术,主要研究工作如下: (1) 对网格技术和空间信息服务体系结构进行了深入的研究,提出了空间信息服务应用网格技术主要有四种模式:空间信息网格服务模式、空间信息分布式并行服务模式、空间信息协同服务模式、空间信息服务的迁移服务模式。在此基础上提出了基于网格中间件的空间信息服务的四层体系结构。 (2) 对地图服务与网格技术的结合进行了研究,探讨OGSA(Open Grid Services Architecture)与OGC Web Services结合的两种方式:将空间信息网格服务封装成OGC Web Services;将OGC Web Services封装成空间信息网格服务。基于GT3.0设计和实现了网格地图服务,并提出了一个多网格地图服务系统的框架,结合加权轮询调度和地图分片调度策略实现网格地图服务的负载平衡。将网格地图服务技术应用于手机地图服务中,通过与J2ME技术的结合实现了一个Java手机地图服务系统原型。

王晓东[4]2017年在《基于生物医学数据的搜索系统的设计与实现》文中指出随着网络信息化的快速发展,人们越来越多地关注如何快速有效地从大量的网络信息中抽取出潜在的、有价值的信息。互联网搜索引擎应运而生,它解决了用户检索网络信息的难题,是人们获取信息极为有力的工具。当前对搜索引擎的研究是互联网技术中最为热门的领域之一。随着越来越深入的研究,搜索引擎技术正在不断的向前发展。同时,搜索引擎的设计与实现是一项庞大的工程,要运用较多专业技术知识,造成了搜索引擎研究开发的门槛较高,制约着搜索引擎的普及。Solr是开源的企业级搜索引擎服务器,它对外提供类似于Web-service的API接口。用户可以通过HTTP请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过HTTP Get操作提出查找请求,并得到XML格式的返回结果。其具备高效、独立等特点,其已经广受关注。本文研究并实现了一个基于生物医学数据的Solr搜索系统的实例。系统分为叁大模块,分别是数据处理模块、索引模块、搜索模块。本系统通过对SolrJ的研究和使用,在Java EE架构的基础上,首先对生物医学数据进行分析和处理,将生物医学数据处理为计算机中通用的XML文档格式,使处理后的数据可以应用于Solr搜索系统中;然后通过研究SolrJ源码,对处理后的文档进行解析,将解析得到的内容提交到Solr搜索服务器进行分词和建立索引;在搜索模块中,在前端页面输入查询关键字,查询请求提交到Solr搜索服务器进行响应,响应结果返回到前端页面。

邹庆欣[5]2008年在《基于Agent专业搜索引擎的研究》文中研究表明自从互连网诞生以来,网络上的信息增长速度几乎是爆炸式的,面对如此海量的信息,搜索引擎技术应运而生。但是,搜索引擎力求遍及尽可能多的信息的同时,也带来自身的副面效应:首先,存储量太多。其次,自身更新周期长等。面对这种副面效应,专业搜索引擎开始出现。专业搜索引擎是面向某一领域,满足特定一类人群的搜索引擎。由于专业搜索引擎只涉及本领域,本学科专业的信息,因此,它的存储量也就比较小。存储量相对小的特点就使专业搜索引擎自身的搜索速度有很大的提高。同时,由于它对某一领域的信息相对集中,在信息检索的专指度方面,专业搜索引擎也比较有优势。专业搜索引擎的出现,在很大程度上缓解了信息存储量过大的弊端,又对某一领域的信息进行集中地采集和管理,是搜索引擎发展史上的又一次迈进。本文首先对通用搜索引擎网络蜘蛛程序的原理和结构进行介绍,接着给出专业搜索引擎的模型,在此基础上,力求运用人工智能领域的Agent技术,构建一个专业搜索引擎系统。Agent本身具有一定的智能性,把它应用到专业搜索引擎上,就会使专业搜索引擎本身具有一些智能行为,更好地进行主题相关性的判断,从而更有效的对信息进行搜索。

刘峰[6]2004年在《通用中英文专业搜索引擎技术的研究及应用》文中研究指明随着Internet应用的逐渐普及和发展,因特网上的信息资源正在呈几何级数增长。它给人们带来极丰富信息的同时也向人们提出了一个重要的研究课题,即如何从浩如烟海的信息资源中迅速而准确地检索出人们所需要的信息,Web搜索引擎因此应运而生。近年来广而不精的综合性搜索引擎已无法满足人们获取专业信息的需要,小型专业化的搜索引擎正成为未来发展的一个趋势并且将具有广泛的应用前景。 本文介绍了综合搜索引擎的基本结构和基本原理,分析了搜索引擎各部件的关键技术、工作原理、实现方法和设计原则。其中着重讨论了网络机器人(Robot)技术、中文分词技术、向量空间模型(Vector Space Model,简称VSM)技术、文本自动分类技术、Web数据索引技术和Web数据检索技术。在此基础上,对各关键技术的实现方法进行了深入的研究。在实现中,采用了多线程、特征提取及加权、相关度排序等若干技术,有效地提高了Web数据采集、分类、检索的效率和质量。 在综合搜索引擎技术的基础上,本文针对专业信息搜索的特点,通过限制搜索网站范围和自动分类过滤专业信息相结合的专业化方法设计了一个中英文专业搜索引擎。同时为了提高本搜索引擎的广泛的适用性,本文采用了通用化的设计思想,使得该引擎可以方便地构建成各种专业的专业搜索引擎。在提高分类、分词的效率和质量方面,本搜索引擎采用了下列关键技术:对用户日志进行分析来动态修正词库;定期增加已分类专业文档来动态扩充训练文档集。与传统的分词和索引技术相比,本搜索引擎通过建立首字视图和词条视图简单有效地实现了专业词汇的分词统计;通过建立文档与词条的双向索引,解决了倒排表索引建立维护困难的问题,并节省了大量存储空间。 本文采用Java为开发工具,以Oracle8i为数据库,实现了一个实用的通用中英文专业搜索引擎。经过比较充分的测试,该搜索引擎已应用于国家科技部973预研项目人类脑计划和神经信息学研究中。

王小磊[7]2011年在《生物医学专题信息跟踪与服务系统关键技术的研究与应用》文中认为搜索引擎是通过互联网获取信息的主要手段之一,而垂直搜索引擎能够面向特定专业领域提供更为精确和快捷的信息服务。目前,国内外各种搜索引擎和检索系统比较多,但是都存在一定的局限性。例如,信息检索质量不高,能针对信息需求,主动提供专业信息跟踪和检索服务的系统很少,价格昂贵等等。本单位作为全军最高军事医学科研和疾控机构,科研和管理人员对主动、定制化的科研信息具有强烈的需求。为了满足本单位科研人员的科技信息服务需求,同时为总部领导机关的科学决策提供情报保障,论文作者研究了实现面向生物医学领域的垂直搜索引擎需要的关键技术,并以此为基础构建了我院自己的生物医学专题信息跟踪与服务系统。首先,论文作者利用文献调研、专家咨询以及系统分析的方法,通过对系统的需求分析,研究和讨论了实现系统功能所需的关键技术,包括网页抓取、全文检索、垂直搜索引擎、中文分词以及增量抓取等,并提出了这些关键技术的实现方式和软件组件工具的选择依据。其次,重点研究了部分关键技术的原理、现状,对国内外较有影响的技术实现方式和软件组件产品进行了认真的比较与选择,确定了Nutch、Lucene、庖丁解牛等实现系统需要的开源软件组件,并剖析了这些组件的技术实现和定制开发方法。第叁,根据软件工程原理和最新的组件式软件开发思想,作者利用Eclipse、MySQL、Tomcat等开发和平台工具,将这些关键组件进行组装和集成,并改造了Nutch的增量抓取模块,使之实际可用,实现了生物医学专题信息跟踪与服务系统。最后,论文讨论了系统由于缺少生物医学领域的专业词库,导致搜索精度不足,以及海量搜索能力较弱等方面的问题,提出了利用专业词库和云计算等技术对系统进行改进完善的设想。系统不仅实现了从互联网上抓取网页信息、格式处理、内容索引和检索等功能,而且具备中文分词和增量抓取的能力,使科研人员可获得更精确和及时的搜索结果。同时,系统还提供了信息的实时发布、分类导航、全文检索等个性化服务,积极主动的为用户提供最新的生物医学信息。目前系统已投入试运行,能够实现对30个网站的跟踪抓取,在20个并发用户访问的条件下搜索结果的响应时间不超过2秒。论文的研究结果已在《北京生物医学工程》和《军事医学科学院院刊》等中文核心期刊发表,可为相关机构和科研人员设计实现同类系统提供一定的参考借鉴。

胡元军[8]2007年在《基于Agent的分布式专业信息采集系统》文中指出本文对搜索引擎的基本框架和工作原理进行了分析和综述,并对移动Agent理论和技术进行了深入的研究,详细分析了Agent理论应用到信息采集系统的优势。本论文针对现有通用搜索引擎的不足,在对Internet信息收集处理及Agent技术的研究基础上,详细介绍了基于多Agent的专业信息采集系统的设计与实现。它使用基于多Agent的体系结构来实现信息收集过程的并行、分布式处理,较好地解决了Internet信息收集问题。本系统由分布在不同信息节点上的一组相互协作的Agent组成,包括信息采集Agent、信息分析及评价Agent、消息通讯Agent、中心控制Agent。相比于普通的分布式信息采集系统,该系统中增加了信息分析及评价Agent,它通过对所采集数据和专业词库的分析,对所搜索的网站对象给予该专业相关度的评价,以表示该网站对于该专业的价值。系统下次搜索时,可以参照该相关度,对网站进行有选择地搜索,从而有效提高信息采集系统的效率。

范小源[9]2007年在《搜索引擎系统网页消重的研究与实现》文中指出Internet的迅速普及和飞速发展,使人们面临着一个信息的海洋,快速从中获得真正重要的信息变得至关重要。搜索引擎(主要指全文搜索系统)即是提供这种功能的一种工具。然而在搜索引擎返回的检索结果中,存在大量的重复网页,它们主要来自网站之间的转载。这些内容重复的网页既占用了网络带宽,又浪费存储资源,用户不希望看到一堆内容相同或近似的检索结果,真正有用的结果往往淹没在这些重复信息之中而不易被发现。如果能够有效消除这些重复网页,不但会提高检索的准确率,节省用户的时间和精力,而且对搜索系统本身而言可以节省大量的存储资源,提高工作效率。本文主要研究搜索引擎中的网页消重问题。目前有效的网页消重方法还比较少,主要都在服务器端实现,即在搜索系统的采集器进行网页采集的过程中消除重复的网页。目前使用的方法主要有基于相同URL的方法、基于聚类的方法、基于特征码的方法和基于签名的方法。其中聚类的方法是先将文本基于向量空问模型表示为一个向量,然后再应用各种方法来实现聚类或分类。这种方法的向量夹角计算具有很高的计算复杂度因而占用较多的处理时间。此后提出的基于特征码的方法具有较高的消重效率,但仍然难以抵抗网页转载时产生的噪声。与以往消重工作不同的是,本文将消重工作分为服务器端和客户端两部分进行。在研究了大量重复网页的基础上,将重复网页的概念进一步细分,分成内容完全相同的网页和经过适当编辑、裁剪等工作后形成的基本相同或相似网页,并分别在搜索系统的服务器端和客户端进行这两种不同类型网页的消重工作。在以上研究工作的基础上提出了一种基于网页内容特征串的新方法来解决服务器端的网页消重问题。该方法充分利用了网页的结构特征,采取主码和辅码相结合的方式来标识网页文本。主码用来标识网页文本的段落结构信息,辅码用来标识网页文本的内容信息。本文采用对主码进行聚类,对相应类别的辅码进行匹配的策略,提高了消重的准确率和效率。实验证明该方法具有比较理想的消重效果。为了实现搜索系统的智能化和个性化定制功能,本文在服务器端消重的基础上,又在客户端提出了智能代理模型。在此基础上,分析了新闻类网页的重复特点,提出了适用于客户端的基于关键词上下文匹配的网页消重新算法。该算法利用新闻类网页转载率高、重复率高的特征,考虑到用户搜索关键词一般可以表征其所希望获得的网页,使用用户提交关键词的上下文来构成匹配串,对各匹配串进行比较来实现网页消重。该算法采用模糊匹配的思想来抵抗网页噪声,引入可以根据需要进行调整的模糊因子和重迭因子等参数,得到了满意的消重效果。本文为了验证所提出算法的有效性并比较其消重效果,在Windows平台上基于Java语言以及Lucene工具包开发了一个搜索引擎实验原型系统,完成了该系统的总体设计和各个模块的设计工作,并在该系统上实现了本文的算法。实验结果表明,本文提出的两种消重算法均具有较高的重复网页召回率、消重准确率和较低的漏删率及误删率,进一步改进、完善后,可望获得实际应用。最后进行了全文总结并提出了进一步研究工作的设想。

李广丽[10]2008年在《垂直搜索引擎的研究与设计》文中提出随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎在信息采集、存储等方面都将面临更加严峻的挑战。此外,通用搜索引擎面向Web上所有的检索用户检索不同类别的各种信息,但是,包罗万象的检索结果显然不能满足特定领域用户的精确搜索的需求。因此,面向主题的垂直搜索引擎系统应运而生。垂直搜索引擎系统包括网络机器人程序、索引程序和检索程序。与通用搜索引擎不同,垂直搜索引擎的网络机器人只采集Web中与主题相关的网页信息。网络机器人在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,它可以有效地避开大量无关主题区域,搜索出特定主题领域内的相关网页。所以,垂直搜索引擎的准确率、召回率和效率都远胜于通用搜索引擎。此外,由于网页数量的减少,垂直搜索引擎系统的数据维护的代价也远远低于通用搜索引擎,使用普通的硬件设备即可建立一个高质、高效的垂直搜索引擎系统的硬件环境。本文首先分析了通用搜索引擎与垂直搜索引擎在系统架构、工作原理、关键技术等方面的异同,介绍了垂直搜索引擎技术的研究现状和发展方向,然后深入分析了主题页面在Web上的分布特征,并重点研究了垂直搜索引擎的主题搜索策略和主题相关度判别算法。在此基础上,围绕垂直搜索引擎系统的体系结构,运用UML技术抽取出网络机器人程序和索引程序的对象模型。最后,应用Java+Lucene技术分别实现了网络机器人程序和索引程序,构建了一个可以在Tomcat服务器上运行的垂直搜索引擎系统软件原型。本文创新点:(1)采用改进和扩展Apache Lucene的思想来指导系统的开发,有效地重用了Lucene中的核心代码;(2)在Lucene的基础上独立开发了中文分词模块,具有新颖性(3)对主题搜索策略进行了优化,采用一种同时结合网页文字内容和Web图的启发式搜索算法作为本系统的搜索策略,实验证明此算法能提高搜索准确率,并有效地避免了主题漂移现象。

参考文献:

[1]. 基于Java技术的生物资源专业搜索引擎的研究与开发[D]. 许彦彬. 昆明理工大学. 2004

[2]. 基于元搜索的专业搜索引擎的研究与实现[D]. 邓凡. 西北大学. 2008

[3]. 基于网格的空间信息服务关键技术研究[D]. 张建兵. 中国科学院研究生院(遥感应用研究所). 2006

[4]. 基于生物医学数据的搜索系统的设计与实现[D]. 王晓东. 宁夏大学. 2017

[5]. 基于Agent专业搜索引擎的研究[D]. 邹庆欣. 大连海事大学. 2008

[6]. 通用中英文专业搜索引擎技术的研究及应用[D]. 刘峰. 大连理工大学. 2004

[7]. 生物医学专题信息跟踪与服务系统关键技术的研究与应用[D]. 王小磊. 中国人民解放军军事医学科学院. 2011

[8]. 基于Agent的分布式专业信息采集系统[D]. 胡元军. 北京化工大学. 2007

[9]. 搜索引擎系统网页消重的研究与实现[D]. 范小源. 中南民族大学. 2007

[10]. 垂直搜索引擎的研究与设计[D]. 李广丽. 华东交通大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于Java技术的生物资源专业搜索引擎的研究与开发
下载Doc文档

猜你喜欢