中文智能搜索引擎的设计与实现

中文智能搜索引擎的设计与实现

皮鹏[1]2002年在《智能搜索引擎系统的研究》文中指出搜索引擎作为互联网上最主要的信息搜索工具,在各个领域都已得到广泛应用。然而。由于网络信息量迅猛增加和网络信息组织的无序性,传统搜索引擎已经无法满足人们对信息服务个性化、智能化的需求。本文提出了智能搜索引擎的解决方案——通过机器学习获得用户的兴趣爱好,根据用户个性对信息进行过滤。并就方案中涉及到的一系列理论和技术问题进行了研究,主要包括: 提出了智能搜索引擎框架,在主动搜索和元搜索的基础上增加了中文信息处理模块,实现了搜索引擎的智能化和个性化服务; 对汉语分词技术进行了研究,综合各种分词方法实现了一套适合于智能搜索引擎系统的分词系统。针对歧义字段的划分问题,提出了歧义字段划分的三个原则,在三原则的基础上给出了“二字续分法”分词的方案,该方案能够快速有效的分解大部分的歧义字段,具有很高的实用价值。 神经网络分词是今后分词技术发展的一个趋势,本文对分词神经网络进行了研究,建立了分词神经网络的实验系统,利用分词神经网络进行了歧义字段划分的实验。 中文文档的排序与过滤是中文智能搜索系统开发的一个重要环节。本文结合智能搜索系统介绍了一种基于词频统计的文档过滤算法,该算法对传统的向量空间模型法作了改进,能够根据用户的兴趣爱好很好的对文档进行相关度的排序与过滤,取得了较好的效果。

隋毅[2]2008年在《彩铃智能搜索引擎的设计与实现》文中研究说明彩铃业务是一项由被叫(或主叫)用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。用户申请开通彩铃业务之后,可以自行设定个性化回铃音,在其做被叫时,为主叫用户播放个性化定制的音乐或录音,来代替普通的回铃音。近几年来,随着彩铃业务的迅猛发展,彩铃平台中的铃音数量与日俱增,数以万计的铃音出现在用户的眼前,各家铃音制作商创作的千奇百怪的彩铃使用户越发不知所从,难以挑选,现有的各种接入方式中的传统铃音查找方式已经不能满足用户的需要。另一方面,由搜索巨头Google公司所引领的搜索技术革新使得搜索领域有了突飞猛进的发展,各种分词、索引、排序等算法不断涌现,并出现了以Lucene、Nutch等为代表的开源搜索引擎工具,搜索技术已经日趋成熟。垂直搜索是目前搜索领域的重点发展方向之一。它是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,将非结构化数据抽取成特定的结构化信息数据,网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理。本文所介绍的彩铃智能搜索引擎正是利用现有的搜索技术,针对彩铃平台所开发的一套高效、智能的垂直搜索引擎。第一章引言简单介绍了目前垂直搜索引擎的发展现状。第二章对彩铃平台做了一个总体的介绍,从组网、数据、接入方式等方面分析了彩铃平台的特点。第三章介绍了目前搜索引擎领域中所用到的关键技术,以及今后的发展趋势。第四章是本文的重点之一,在对彩铃平台中各项数据进行了统计分析后,研究了在彩铃平台中应用搜索引擎技术的可行性,并提出了目标系统所应具备的能力,随后对各种不同搜索方式的搜索流程进行了设计,在全面分析了系统功能后,提出了一套较详细的系统框架设计方案,并定义了与外部功能实体间的交互协议。在第五章中,重点说明了彩铃智能搜索中所用到的分词、模糊匹配、权值算法等关键技术;其中SKM算法是针对彩铃平台的数据特点开发出的模糊匹配算法,在本章中做了详细论述;本章第三节则重点讨论了在搜索结果排序过程中所使用的一套独特的权值算法,对单字、关键词、铃音等对象的权重计算方法做了详细的阐述。第六章则利用现有测试数据对算法的效率与已知算法进行比较,并对算法性能做了详细讨论。

付志超[3]2008年在《基于Map/Reduce的分布式智能搜索引擎框架研究》文中研究表明随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了互联网所蕴藏的巨大商机。互联网离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。如今互联网中的信息每天以指数级的数量增长,面对海量数据的处理和存储,传统的集中式搜索引擎显得无能为力。另外传统搜索引擎系统一般都采用关键词匹配模式,无法理解用户搜索意图,使得用户在互联网上搜索自己真正需要的信息很困难。因此搜索引擎的分布式智能化是未来发展的趋势。本文从研究和设计的角度出发,对分布式智能搜索引擎的相关理论和技术进行了详细的分析和讨论,将基于Map/Reduce的分布式智能搜索引擎框架研究分为三个层次,即分布式并行计算理论方法研究、搜索引擎原理的研究以及基于分布式的智能搜索引擎研究。论文主要研究的内容如下:论述了目前搜索引擎的国内外发展现状、存在的问题以及发展趋势;分析了搜索引擎的工作原理以及各部分的主要功能;对分布式计算理论、网格计算、云计算、Map/Reduce分布式计算模型进行分析与研究。对开源搜索引擎工具包Lucene、开源分布式计算框架Hadoop进行了详细的分析与研究。在基于Map/Reduce的分布式计算模型的基础上,借助语义词典,对分布式的智能搜索引擎系统进行了研究。设计并实现了基于Map/Reduce的分布式智能搜索引擎——IEBSou。重点阐述了IEBSou系统框架的实现.不仅给出了系统各模块之间的关系,而且还分析了各个模块的实现原理和思想。对IEBSou的Map/Reduce基础框架进行了设计;结合Lucene设计了统一文档处理框架,并对中文分词中人名识别、新词的识别进行了研究;提出了基于Map/Reduce的网页消重算法;提出了通过构建概念集的方式来提供基于语义联想的搜索推荐词生成算法。借助语义词典,对用户搜索关键词的概念进行语义扩展,构造概念集,让系统智能的理解用户搜索意图,提高系统的查全率和查准确率。

操卫平[4]2008年在《基于结构化向量空间模型的中文信息检索系统研究与实现》文中研究指明信息检索(Information Retrieval, IR)是从数据集中提取相关文档和信息的过程。Internet的出现为人们提供了一种新的信息检索方式,也把信息检索的处理数据从结构化逐步转向半结构化、乃至无结构化。随着Web文本的不断增加,传统的Web检索技术已经很难满足高质量的查询需求。本文的主要内容是研究基于Web的文本信息检索算法。首先,本文介绍了信息检索技术的发展概况,并对基于关键字和基于超链接的检索算法进行了比较和分析。针对关键字检索的查全率不高、链接分析检索方法容易产生主题漂移等缺点,本文将这两种算法相结合,通过页面之间的链接关系来计算每个页面的hub值和authority值,并利用页面链接的锚文本和页面的文档内容与用户查询式进行相似度匹配,获取每个页面的相关度权值,同时在此基础上将检索结果进行排序输出。其次,针对Web信息检索的特点,通过分析传统向量空间模型(Vector Space Model,VSM)在Web检索中存在的若干问题,对传统向量空间模型进行改进,提出了结构化向量空间模型(Structured Vector Space Model, SVSM),其基本思想是将Web文档表达为具有一定逻辑结构的复杂向量,即结构化向量组。每个结构化向量组由若干子向量构成,每个子向量对应Web文档中相对独立的文本段,比如标题、子标题、正文和锚文本等内容。再次,本文对Web信息检索系统中的页面采集器、索引器及相关的原理和技术进行详细地介绍,同时讨论了如何利用页面标记树对网页内容进行去噪处理和主题提取的方法,并给出了一种提高页面索引质量、效率和压缩比的实现途径。最后,本文在已有信息检索算法的基础上,通过结构化向量空间模型,把关键字与超链接检索算法相结合,设计并且实现了一个基于Web的中文信息检索系统。通过参加2007年度全国搜索引擎和Web挖掘评测会议(SEWM2007),证明了该系统的检索算法能够有效地提高Web信息检索的查全率和查准率。

王艳文[5]2008年在《基于领域本体的网络智能搜索模型研究与实现》文中认为随着信息时代的到来,人们对信息的需求日益膨胀。众多的搜索引擎成了个人在Internet上获取信息的主要方式。搜索引擎是基于信息检索技术发展起来的。然而,传统的搜索引擎在实现语义网和基于语义的智能搜索方面做的不足,这导致智能信息检索成为学术界的一个新的研究重点。其中,基于本体的语义Web的使用已经成为了此类研究中的热点,然而在现有中文体系中,对基于领域本体的语义Web在面向Internet的网络搜索中的应用研究发展并不现实深入,本文从追求研究的现实意义的角度,从现有基于本体的语义智能检索系统的不足出发,提出了新的设计思路来改善中文智能搜索引擎的质量,并建立了基于股票证券领域本体的网络智能搜索模型StockOntoSearch(SOS)系统。本文的主要研究内容和成果有:1.构建面向股票证券领域的本体库,利用Google搜索引擎的底层服务,将基于本体的语义网技术融合进传统的搜索引擎,实现了面向专业领域的语义搜索,提供专业化的优于大型通用搜索引擎的网络信息检索服务。2.在设计中利用用户搜索行为学上的特点,发掘出比以往依赖用户输入的关键词更多的用户需求线索,充分利用这些信息,帮助语义推理引擎更有效的分析出用户的确切需求,提高搜索结果集的查准率。3.利用分层继承的信息展现层设计技术,借助本体库资源,设计出更容易被用户接受的人机接口智能化界面。提供与以往分类/聚类,以及语法相似度匹配不同的,启发式问题激发的搜索导航服务。从新的方向利用本体提供智能服务,提高语义分析的质量。本文对为研究而构建的StockOntoSearch模型系统设计了实验,所获的实验数据从一定程度上验证了我们的设计思想和理念,也显示出我们的研究对提高信息检索的查全率和查准率的有效性。

马东坡[6]2002年在《Internet中文智能搜索引擎汉语自动分词系统设计》文中研究表明本文详细描述了中文智能搜索引擎中汉语自动分词模块的设计方案与实现方法。 本文从目前发展迅速的搜索引擎技术的综述出发,结合中文智能搜索引擎技术的发展现状以及具体应用情况出发,根据项目要达到的目标逐步引出课题中心——汉语自动分词模块的设计与实现。然后从理论上分析和比较了目前的各种汉语自动分词方法,对各种分词方法的技术特点进行了阐述,对自动分词发展现状和趋势作了概括性的总结。根据课题应用具体现状,阐述了适合于本课题的分词方法和分词模块预期达到的性能指标。最后详细描述了汉语自动分词模块的具体设计,包括总体设计以及各模块设计等,同时给出了一些关键性的例程说明和程序设计的关键点总结。 本文所包含的内容完全是面向应用的,具体的技术选择与整体的设计思想完全根据实际的应用需求而定,采用的都是比较成熟的技术,实现了理论联系实际。另外,本文所描述的汉语自动分词模块已可以在基于命令行的情况下,进行分词处理。

薛鹏军[7]2001年在《基于知识库的中文网络检索工具——经济信息智能搜索引擎研究》文中认为本论文试图从计算机技术和图书情报学理论与实践手段出发,应用文献信息自动标引和组织技术于网页的加工处理过程上。在分析了中外搜索引擎的现状与不足,搜索引擎分类主题一体化进展以及网页主要特征的基础上,本文提出了针对中文网页特征的信息标引和组织方案,并利用相关网络技术,构建了一个实验性经济信息智能搜索引擎。 中文网页的自动标引思想主要基于知识库的概念进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号—主题词对应库、同义词库、关键词库、停用词库和特例词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号—主题词对应库主题词串的词面相似度计算,进一步完成中文网页的赋号标引,即分类标引。 随后,本文利用Borland Delphi、Visual FoxPro等工具设计并开发了一个包括中文网页文本信息提取、自动抽词、自动主题与分类标引、标引结果处理、知识库维护等功能,用以处理中文网页信息的自动标引实验系统;并简要介绍了系统的设计、工作流程、使用方法及运行条件。 根据分类主题一体化发展方向,本文还设计了检索型、目录型及分类主题一体化检索系统,并提出基于集成词表的不同引擎间类目体系的兼容互换方案。 文章的最后对中文网页自动标引系统从系统标引效率、标引准确率等方面进行了综合测评,并客观分析了系统存在的问题和不足。与手工标引相比,自动标引正确率达到了80%以上。

许武权[8]2011年在《基于Web文本信息的智能检索系统的设计与实现》文中研究表明随着互联网技术的发展和网络应用的日益广泛,Internet已经成为了人们获取信息资源和进行信息交流的一个重要途径,与此同时,Web信息也日益增长。如何从海量的互联网信息中找到自己所需要的信息,成为了互联网发展的一大难题。虽然传统搜索引擎的出现极大地提高了网络信息的检索速度,在一定程度上解决了这个问题,但还是无法满足人们想要准确获取信息的需求。因而对搜索引擎智能化的技术研究有着重要的现实意义。本文通过研究搜索引擎的技术框架和智能信息检索的主要技术方案,针对传统搜索引擎存在的不足,利用开源软件Lucene和Nutch,设计和实现了基于Web的文本信息的智能检索系统。本论文所做的主要工作如下:(1)在对信息检索的模型理论和搜索引擎的综合技术充分了解的基础上,针对传统搜索引擎存在的不足,详细分析了自然语言理解技术、基于Agent的智能信息检索、基于本体的智能信息检索和网页相关性研究,并对PageRank和HIT算法进行优劣对比,优化PageRank算法。(2)基于Lucene和Nutch搜索引擎智能化的实现。Lucene是Nutch内核的重要组成部分,从对Nutch的实现效果来看,Nutch的工作原理和当前商业搜索引擎的工作原理是一样的,也包含了其他技术要点,包括网页快照、网页详细信息等。利用语义分析和智能Agent的相关知识,从本地文档和数据库建立索引,建立计算机所能理解的“知识”,从而使信息检索更加智能化。(3)实验改进。Nutch原型的Crawl部分还有很多局限性,需要进行多部分的修改,改进的内容包括Crawl无法重复抓取同一个网站和不能自动更新索引的问题。中文分词的重要性不言而喻,由于Nutch自带的分词器对中文支持很弱,所以我们引入了庖丁解牛分词,并取得较好的效果。用户体验设计的修改,本论文的用户体验设计主要针对关键词的推荐和输入框的智能提示。本论文的研究内容将为智能化搜索引擎的设计方案提供一个更全面的知识内容,为智能信息搜索引擎的进一步发展提供一个新的平台。

李伟[9]2007年在《中文智能搜索引擎技术及其对数字图书馆的影响》文中研究表明本文引入了人工智能与搜索引擎结合的产物——智能搜索引擎,并重点介绍了中文智能搜索引擎的特性、技术实现、发展现状以及对图书馆行业产生的重要影响。

齐波[10]2007年在《基于自然语言理解的智能搜索方法研究》文中提出随着Internet的快速发展和网络应用范围的不断扩大,WEB信息量呈指数增长,而传统的搜索引擎仅能从词的层面上来进行搜索,造成人们从WEB信息海洋中及时、全面、准确获取信息越来越困难。本文针对传统的检索技术以及搜索引擎的弊端,对新一代的信息检索系统——基于自然语言理解的搜索引擎进行了研究。这是当前自然语言处理领域一个热门的方向,它同时也代表了将来搜索引擎的发展方向。该类搜索系统综合运用了知识表示、信息检索、自然语言处理等技术,它能够使用户以自然语言输入问题,而不是关键词的组合,大大方便了用户的操作。本文研究了在搜索引擎领域中一些自然语言处理上的相关技术,其中包含对汉语短语的机器识别和对动词谓语句的句法分析等,它们均是利用汉语言自身的语法语义规则来处理汉语言的方法。

参考文献:

[1]. 智能搜索引擎系统的研究[D]. 皮鹏. 哈尔滨工程大学. 2002

[2]. 彩铃智能搜索引擎的设计与实现[D]. 隋毅. 北京邮电大学. 2008

[3]. 基于Map/Reduce的分布式智能搜索引擎框架研究[D]. 付志超. 武汉理工大学. 2008

[4]. 基于结构化向量空间模型的中文信息检索系统研究与实现[D]. 操卫平. 北京工业大学. 2008

[5]. 基于领域本体的网络智能搜索模型研究与实现[D]. 王艳文. 上海交通大学. 2008

[6]. Internet中文智能搜索引擎汉语自动分词系统设计[D]. 马东坡. 广西师范大学. 2002

[7]. 基于知识库的中文网络检索工具——经济信息智能搜索引擎研究[D]. 薛鹏军. 南京农业大学. 2001

[8]. 基于Web文本信息的智能检索系统的设计与实现[D]. 许武权. 电子科技大学. 2011

[9]. 中文智能搜索引擎技术及其对数字图书馆的影响[J]. 李伟. 图书馆建设. 2007

[10]. 基于自然语言理解的智能搜索方法研究[D]. 齐波. 重庆大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

中文智能搜索引擎的设计与实现
下载Doc文档

猜你喜欢