中文全文检索技术研究

中文全文检索技术研究

周翊超[1]2008年在《军事文献搜索引擎架构的研究与实现》文中进行了进一步梳理军队信息服务体系与创新研究作为军队信息化建设战略研究的基础构件之一,在挖掘信息资源,实现无障碍传递,推进技术革新,协助军事科研,培养现代化军队,造就高素质复合型人才等方面,具有重要的理论价值和现实意义。当今时代,信息资源的开发利用作为信息化建设的中心任务,具有极其重要的意义。在军队的信息化建设过程中,电子军务,内网稳定共享的要求逐步提高,为了满足军方信息内部共享的要求,我们构建军用Internet。从目前发展的军网的架构来看,不同密级的局域网通过骨干网络沟联起来,信息通过外部网站的信息来发布。军事领域内网检索过程中,产生了大量的文献资料,为了有效地获取并利用这些已有信息,以往开发的部分军务系统将文献资料存储到Oracle数据库中,并利用其提供的全文检索技术Oracle Text来创建索引和进行检索。利用Oracle数据库检索技术虽然在一定程度上实现了文献资料的检索,但这种方法也有其自身的不足:索引与数据库是紧耦合的,这种紧耦合的关系在一定程度上影响了数据库的工作效率,特别是在索引创建和维护的过程中,要占用大量的系统资源,导致数据库的运行效率降低,可能会影响到其他使用数据库的应用的运行。其次Oracle数据库的索引不能为其他数据库系统所使用,因而当文献资料存储在多种数据库中时,不能进行跨库查询。最后,Oracle Text中的中文分词效率不高,而且不支持中英文混合情况下的分词,这都影响了检索的查全率和查准率。我们在已有的技术基础上,构建了军事文献搜索引擎架构,虽然依然使用Oracle数据库来存储军网的文献资料,但是不再使用Oracle内部的索引机制,而是设计开发了索引服务模块和查询服务模块来索引和检索。本论文解决以下几个问题:(1)提出了军事文献搜索引擎中检索系统的体系结构框架。该框架中,数据库与索引文件实现了松耦合,解决了以往系统中索引重建导致数据库效率变低的缺陷。(2)为了保证文献资料与索引的同步,采用了多线程编程的方式设计了数据采集服务并且引入了线程池技术以此来提高数据采集的运行效率。同时提出了在数据采集服务模块当中引入了网络爬虫的机制,利用类似于垂直搜索的概念扩充了军务信息的采集方式。(3)在C++平台上设计实现了算法即插即用的文本转换框架,利用C++的虚函数机制来获取文本转换基类的多态行为。该框架具备高度的可扩展性,在不影响框架本身和应用的前提下就可以将算法集成到框架中。(4)在研究已有索引技术的基础上,设计实现了满足系统需求的索引服务和查询服务。索引服务不仅对文献资料正文数据创建了索引,同时对于文献资料的属性信息和文献库的相关信息也存到了索引中,这为查询服务的几种查询方式提供了便利。

陈洪猛[2]2008年在《全文检索技术的研究与实现》文中研究表明随着网络信息资源的急剧增长,出现了越来越多的专业化网站,如何从这些网站内海量的网络信息中,抽取出全面的、准确的信息,在用户解决问题的过程中发挥作用,已变得越来越重要。搜索引擎技术解决了用户检索网络信息的困难,目前全文检索技术正成为计算机科学界和信息产业界争相研究、开发的对象。本文针对在北京工业大学技术转移中心网站的实际需要,对全文检索技术在技术转移中心网站的应用进行了较为深入、系统的研究,通过全文检索系统为网站的用户提供多方面、更准确的信息。本文首先对全文检索技术进行了细致的研究,对全文检索的各项技术和基本原理进行了深入的探讨,详细分析了全文检索系统的结构和索引的组织、库结构和创建过程,提出了优化索引创建过程的方法,通过把临时文件映射到虚拟内存中,大大加快对临时文件的访问速度,提高了索引的创建速度。另外对检索的四种模型、排序算法和中文分词技术进行了重点研究和总结,并针对词典分词法的不足,改进了最大匹配算法,充分实现了“长词优先”的原则。然后对常用的全文检索工具包Lucene进行了详细的分析,并与其它开源全文检索方法进行了比较。本文还对J2EE平台上典型的MVC模式和它的具体实现-Struts框架进行了分析和研究,分析了MVC框架原理、Struts框架基本组件和Struts框架的运行机制。本文最后对技术转移中心网站的站内全文检索功能的设计目标进行详细的论述,设计了全文检索系统的架构和各个功能模块,其中,功能模块设计包括静态页面模块、动态页面模块的设计,分词方法的优化、Lucene排序算法的改进以及分词引擎中的字典和网站的索引的设计。通过对分词方法的优化,将单汉字分词与词典分词两种方法结合起来使用,使检索结果兼具有相关度好和查全率高的优点。通过对Lucene排序算法的改进,增加了对网页链接的评分和对网站重要信息的加分,提高了网站内搜索系统的准确度。最后本文根据整体设计和各个模块的设计完成具体功能的实现,并部署在实际网站中测试运行。

苏潭英[3]2007年在《面向中文的数据库全文检索及其相关安全技术研究》文中研究说明目前,全文检索(Full-Text Retrieval)技术是国内外学者研究的热点。它以文本信息作为检索对象,允许用户直接获取文中的有关章节、段落或句子,是从海量信息中精确定位所需信息的最有效手段。随着信息量的急剧增加,为了在浩如烟海的文字信息中快速找到所需的相关信息,很多应用系统都通过全文检索技术来提高系统检索效率。本课题旨在对SECBase数据库添加全文检索功能,在解决该数据库目前不支持长字段检索的同时,全面提高检索效率。本文在对全文检索系统进行深入分析研究的基础上,提出了SECBase数据库外挂式全文检索引擎的体系结构,分析了系统内各模块的功能和相互之间的联系。全文检索的核心技术是全文索引,全文索引主要采用倒排表的索引方式。目前,英文的全文索引技术比较成熟,因为英文的词与词之间有空格间隔,语言分析比较容易。中文的构成比英文要复杂得多,字与字之间没有间隔,且中文字符数量较大,使一些索引模型不太适用于中文。本文在倒排索引的基础上,提出了一个基于词的中文全文索引模型B~+-Lists。B~+-Lists模型充分考虑了索引操作的特点和频率,把全文索引分为两级索引来存储和操作。第一级索引为索引词的索引,采用B~+树的数据结构;第二级索引是与索引词相关联的位置信息,采用广义表(Lists)结构。本文提出了全文索引库的安全问题。在对安全隐患进行分析的基础上,提出了一个具体的解决方案——对全文索引库进行存储加密。本文设计了专门的加解密模块来实施全文索引的存储加密,并构建了该模块的加密机制,对全文索引的安全技术进行了初步的探讨。在对全文索引进行深入的理论分析基础上,本文对SECBase数据库全文检索引擎系统的索引功能进行了实现。将全文索引的工作原理抽象为四个处理过程,详细阐述了每个过程的步骤。完成了文本信息(这里指数据库中存储的长字段信息)预处理过程和建立全文索引过程,并对索引操作采取了一些优化措施。

席敏[4]2010年在《基于单汉字索引的全文检索系统的研究与实现》文中研究表明全文检索技术是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具。全文检索的一个重要应用就是办公自动化领域,随着我国办公自动化进程的加速,人们对全文检索的需求剧增。本文针对现有全文检索技术进行了分析,特别是对基于分词和基于单字的不同全文检索算法进行了比较,分析了各自的优缺点和实现的难点,针对地情信息这一专业领域的特点,提出了一种有效的基于单汉字索引的倒排文件存储结构及其检索方法,使查全率达到100%。应用上,本文设计和实现了地情信息中心基础数据库系统,针对PDF文档创建字索引和检索机制,并且定位关键字到页面的具体位置,高亮显示关键字。根据实际需要,本文设计实现了二次索引,一次索引是将关键字定位到包含该关键字的PDF文档,二次索引是将关键字定位到页面的具体坐标位置。

熊回香, 夏立新[5]2007年在《基于词索引的中文全文检索关键技术及其发展方向》文中研究表明基于词索引的中文全文检索的研究是一个涉及到多个领域的综合性课题。汉语自动分词的精度和速度、词索引数据库的结构、词汇控制技术、检索匹配机制等是影响中文全文检索效果的关键因素。目前基于词索引的中文全文检索技术还在分词技术、网络信息标引的准确率、查全率、查准率以及查询方式上存在局限。未来的中文全文检索将最终在语义、语用、语境层次上实现智能化的信息检索。

黄杰[6]2007年在《基于Lucene的全文检索系统模型的研究》文中指出全文索引和检索是一种非常高效的信息检索技术,它极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。作为开源组织Apache Jakarta的成员项目,Lucene是一个用Java语言实现的成熟、自由、开源的软件项目,是一个高性能的、可扩展的信息检索工具库,可以方便快捷地融入到应用程序中以增加索引和搜索功能。目前,Lucene的核心包和扩展包对中文分词采取类似英文的机械式切分方法。但是,由于中英文之间在形式上存在着巨大的差异,这种切分方法的分词效果是非常粗糙和低效的。在对包括中文分词技术在内的全文检索技术和Lucene内核的分词原理进行分析和研究的基础上,本文设计实现了一个基于词库的、采用正向最大匹配算法的中文分词模块。测试结果表明,与Lucene内核包采用的单汉字切分方法和其扩展包针对中日韩等亚洲语言采用的二元切分方法相比,该模块具有效果更好、性能更优的比较优势。此外,为了使Lucene可以方便、无缝地嵌入到应用程序中,Lucene的内核被设计得非常小巧,它的处理对象局限于纯文本数据。在现实世界中,纯文本格式的文档正处于逐渐减少的趋势,取而代之的是,越来越多的电子信息采用各种格式文档的形式保存。本文设计与实现的基于Lucene的全文检索系统模型采用接口实现的方式,并且使用动态实例化的方法,能够统一、有效地处理txt、xml、html、pdf、doc和rtf等多种常见的格式文档,其突出的优点与特点是在最大限度地为用户屏蔽各种格式文档差异性的同时,极大地扩展了Lucene可以处理的格式文档的类型。文章的最后在对系统设计与实现过程中的关键点进行探讨的基础上,对中文分词的准确性和召回率、检索结果处理、查询接口实现、索引更新策略等问题进行了引申,并提出了自己的见解,这些将作为今后继续努力的方向。

熊回香, 夏立新[7]2008年在《自然语言处理技术在中文全文检索中的应用》文中研究表明自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。

郑萍[8]2009年在《军用文献检索系统的设计与实现》文中研究表明随着科技的发展和经济的腾飞,图书馆、新闻出版、企业等单位电子数据激增,可供人们选择的信息迅速膨胀。全文检索技术作为信息处理领域的重要技术为人们准确地获取信息提供了技术支持,目前该技术己成为研究的热点之一。在军队的信息化建设过程中,同样产生了大量的文献资料。为了有效地获取并利用这些已有信息,以往开发的系统将文献资料存储到Oracle数据库中,并利用其提供的全文检索技术Oracle Text来创建索引和进行检索。利用Oracle数据库检索技术虽然在一定程度上实现了文献资料的检索,但这种方法也有其自身的不足:索引与数据库是紧耦合的,索引创建过程中占用数据库的大量资源,这势必会影响到数据库的正常操作;当文献资料存储在多种数据库中时,不能进行跨库查询;Oracle Text索引技术中提供的中文分词力度不够,这就影响到了检索的精度。因此我们在已有技术的基础上,研究开发了军用文献检索系统。军用文献检索系统仍然使用Oracle数据库来存储文献资料,不过我们不再使用Oracle内部的索引机制,而是设计开发了索引服务模块和查询服务模块来索引和检索。其中,索引服务模块将索引信息存储在文件系统中,从而实现了索引和数据库的松耦合,为提高效率,该模块使用了倒排索引和增量索引的机制。查询服务模块扩展了基本的查询操作,提供了跨库查询的功能,同时该模块提供了算法来计算查询结果的相关度,并按照相关度来对查询结果排序。为了对文献资料创建索引,本文设计实现了文本转换框架和中文分词服务模块来进行对其进行预处理。文本转换框架的主要功能是获取文献资料中的文本信息,该框架为各种转换算法设计了通用接口,实现了各种算法的即插即用。为了提高中文分词的准确度,在中文分词服务模块的设计中本文采用了层迭隐马模型来进行词法分析,识别未登录词。同时系统中设计了数据采集模块来保证索引与数据库文献资料信息的同步,该模块通过主动数据库机制来按需地采集数据库中文献资料的更新信息。另外,系统中还设计了管理服务模块来对文献资料和用户信息进行统一管理。

励子闰[9]2009年在《基于Lucene搜索引擎的中文全文信息检索技术的研究》文中研究表明随着网络信息资源的急剧增长,人们对于如何快速有效地从海量的网络信息中,抽取出对其有价值的、潜在的信息,使之能有效地被应用在管理和决策中给予了越来越多的关注。信息检索技术帮助用户从海量的信息中提取出他们所需要的有用信息,节省了用户的时间,提高了用户的工作效率。信息检索中的中文检索与西文检索在实现的机制和原理上基本一致,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。论文首先阐述了与中文全文信息检索相关的关键技术,包括:信息检索的概念、中文分词算法的概念、文档相关度排序算法的概念。论文系统地比较分析了四种主要的中文分词算法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法,总结了它们各自的优缺点及其在中文分词各个评价因素上的优劣特性。论文在Lucene原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索Pagerank以及主页加分方式,改进了原有的排序算法。论文的主要工作是基于Lucene搜索引擎,设计并实现了一个中文全文信息检索原型系统。提出了对于算法和系统的各种改进,即索引预处理、关键词提示的操作优化、引入停止词分词算法、正向最大匹配算法的改进、逆向最大匹配算法的改进。通过实验,将改进后的词典分词方法与Lucene的自动切分方法:一元分词法和二元分词法进行比较后,验证了基于本文提出的改进的词典分词方法的优势。论文采用了基于用户行为的二次检索,Pagerank以及主页加分方式,改进后的文档相关度排序算法利用了用户对文档的主观评价,显着地提高了搜索系统的准确度。最后,论文对基于Lucene搜索引擎的中文全文信息检索系统的实现方法进行了总结,并对未来进一步的研究工作进行了展望。

赵素燕[10]2015年在《基于Lucene的电子公文全文检索系统研究与实现》文中研究指明近年来信息技术飞速发展,企业信息化达到很高的水平,电子办公成为企业日常工作交流的主要方式,电子公文成为了企业信息传递、保存的重要形式。企业各部门每天产生的电子公文越来越多,如何让用户能够随时快速全面地从这些电子公文中找到所关心的内容,日趋显得重要。与此同时,网络全文搜索引擎发展迅速,其搜索的高效和人性化极大地改变了人们的搜索习惯。因此,提供一种高效的检索方式对于提高系统用户的工作效率、改善用户体验和提升企业信息化水平尤为重要。本文深入分析了电子公文检索系统的研究现状和存在的不足,将Lucene全文检索技术引入到企业的电子公文检索中,构建了基于Lucene的电子公文全文检索引擎。着重就电子公文检索的安全问题、Lucene检索实时索引问题,以及检索结果排序问题进行了深入研究,在现有的系统访问控制模型的基础上,提出了一种扩展的访问权限控制模型;通过查阅大量技术资料和进行系统分析,研究并设计了Lucene实时索引;结合电子公文检索结果排序的影响因素,改进了Lucene默认的检索结果排序策略。并对企业电子公文部分实际业务进行调研分析,构建了小型的基于Lucene的电子公文全文检索系统。将Lucene全文检索技术应用到电子公文的检索中,实现了对电子公文统一入口、多数据源查询的信息检索方式,能够对用户输入的查询语句进行扩展,支持各种格式文档的全文检索,按一定的顺序返回用户具有访问权限的文档,满足了企业的实际检索需求,并且对Lucene全文检索技术在企业级搜索中的应用具有一定的借鉴意义。

参考文献:

[1]. 军事文献搜索引擎架构的研究与实现[D]. 周翊超. 南京理工大学. 2008

[2]. 全文检索技术的研究与实现[D]. 陈洪猛. 北京工业大学. 2008

[3]. 面向中文的数据库全文检索及其相关安全技术研究[D]. 苏潭英. 解放军信息工程大学. 2007

[4]. 基于单汉字索引的全文检索系统的研究与实现[D]. 席敏. 西安电子科技大学. 2010

[5]. 基于词索引的中文全文检索关键技术及其发展方向[J]. 熊回香, 夏立新. 中国图书馆学报. 2007

[6]. 基于Lucene的全文检索系统模型的研究[D]. 黄杰. 暨南大学. 2007

[7]. 自然语言处理技术在中文全文检索中的应用[J]. 熊回香, 夏立新. 情报理论与实践. 2008

[8]. 军用文献检索系统的设计与实现[D]. 郑萍. 复旦大学. 2009

[9]. 基于Lucene搜索引擎的中文全文信息检索技术的研究[D]. 励子闰. 华东师范大学. 2009

[10]. 基于Lucene的电子公文全文检索系统研究与实现[D]. 赵素燕. 北京交通大学. 2015

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

中文全文检索技术研究
下载Doc文档

猜你喜欢