中文搜索引擎的现状与发展_搜索引擎论文

中文搜索引擎的现状与发展_搜索引擎论文

中文搜索引擎的现状与发展,本文主要内容关键词为:现状论文,中文搜索引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、互联网搜索引擎概述

1.1 概念

随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,Internet用户在具备获取最大限度的信息量能力的同时,面临一个突出的问题:在上百万个网站中,如何快速有效地找到想要得到的信息?

搜索引擎(Search Engine)正是为解决用户的查询问题而出现的,它是Internet上的一个网站,该网站专门提供用户查询Internet上的信息。当用户输入关键字(Keyword)查询时, 该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。

1.2分类

目前因特网上的搜索引擎很明显地可分为两大类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎,当然这两类搜索引擎的功能是互相借鉴和渗透的。

1.3检索功能

除分类浏览或自由词检索等基本功能外,是否提供各种检索功能扩展,如逻辑检索功能(支持AND、OR、NOT),其他逻辑检索功能(NEAR、PHRASE)和各种其它功能(如截词检索)等。

1.4结果显示

搜索引擎总是要将检索结果返回给用户,而结果显示的好坏直接影响到搜索引擎的使用效果。因此,对显示结果的内容组织与排序,以及是否提供足够的相关信息(内码、文件大小、文件日期等),将直接影响用户对检索结果的判断。

1.5页面组织

大多数搜索引擎本身就是WEB站点, 其页面组织就如同用户的使用界面一样,组织得好与坏直接影响到用户的使用效果。页面是否能根据用户需求定制也是页面组织的一个重要内容。

1.6其他功能

搜索引擎,尤其是国外的搜索引擎,为了招揽用户,在提供搜索服务之外,还提供其他相关服务,如新闻、免费EMAIL,自动翻译、 网上聊天,常用信息(天气、旅游等),以其吸引更多的用户,从而获取更多的广告收益。

二、优秀搜索引擎的特点

2.1支持全文检索(Full-Text Search)

用户能够对各网站的每篇文章中的每个词进行搜索。世界上最典型的全文搜索引擎为Digital公司的Alta Vista(altavista.digital.com)。

全文搜索引擎的优点是查询全面而充分。当全文搜索引擎遇到一个网站时,会将该网站上所有的文章(网页)全部获取下来,并收入到引擎的数据库中。只要用户输入查询的“关键字”在引擎库中的某篇文章(的任意一行)中出现过,则这篇文章就会作为匹配结果返回给用户。

从这点上看,全文搜索真正提供了用户对Internet上所有信息资源进行检索的手段,给用户以最全面最广泛的搜索结果。但全文搜索的缺点是提供的信息虽然多而全,但由于没有分类式搜索引擎那样清晰的层次结构,有时给人一种繁多而杂乱的感觉。

2.2 支持目录式分类结构(Directory)

世界上最具有代表性的目录式分类搜索引擎是Yahoo网站。

分类搜索引擎的优点是将信息系统地分门归类,用户可以清晰方便地查找到某一大类信息,这符合传统的信息查找方式,尤其适合那些“希望了解某一方面/范围内信息,并不严格限于查询关键字”的用户。

但目录式搜索引擎的搜索范围,较全文搜索引擎要小许多。当遇到一个网站时,它并不像全文搜索引擎那样,将网站上的所有文章和信息都收录进去,而是首先将该网站划分到某个分类下,再记录一些摘要信息(Abstract),对该网站进行概述性的简要介绍。

例如,读者在图书馆查询有关“因特网”的信息,如果采用目录式的分类查询,他只能了解到在图书馆哪些大类书籍中,包含“因特网”字样,而如果采用全文检索式的查询,它将把图书馆中所有在书中出现过“因特网”字样的书籍查找出来,并返回给用户。

2.3在分类中实现全文检索

由于纯粹的全文式和目录式的搜索引擎都存在上述的缺点,因此往往不能完全令用户满意。例如,如果用户在整个搜索引擎中搜索“社会学”,结果会返回几千条文章中含有“社会学”字样的查询结果。显然结果相当繁杂,且往往不是用户需要的。而在某一分类下进行查询,用户可以确保查询在该范围之内进行,结果会接近用户的要求。

三、中文搜索引擎的特点

3.1内码

由于历史与政治的原因,目前两岸三地在中文语言的使用上存在较大的差别,体现在计算机处理上的最重要的区别在于采用不同的字符集及内码体系,大陆用的是GB码,而台湾则用的是BIG5码,字符集的大小也不尽相同。作为一个要涵盖网上中文信息的中文搜索引擎就不能不正视这个问题,想办法去解决这个问题,如在搜索引擎内部将其统一在一个内码体系中(如UNICODE)或者是一个大字符集中(如GBK)等。

3.2分词

西文单词的分隔相当清晰,用空格分隔。而中文的字词则不能简单地进行分隔,因此在传统上就有不同的处理方法。一个是单汉字全文检索,即将文章中的每一个汉字都做索引,而将用户的检索提问根据单汉字匹配的原则去进行检索。此法虽然能够保证有很高的查全率,但却经常返回一些杂乱无章的检索结果。所以说,这是较容易造成答非所问的处理方法。除此以外的方法则是根据一定的原则和方法来对文章进行自动分词,然后按词建库,对用户的检索结果按词汇匹配来进行查询。一般来讲,这种处理方法较容易返回符合用户检索要求的检索结果,但是分词技术的好坏直接影响到查全率。从目前中文搜索引擎实际情况来看,绝大多数的搜索引擎采用分词的处理方法,因为这样除了较准确之外还能提高整个系统的检索响应效率。

中文分词的另一层意义指的是,对于用户输入的查询语句进行自动分词,然后用分解后的词汇来进行检索,这种做法降低了用户在检索式组织上的工作量,提高了查全率和查准率。至于各搜索引擎在建库时是否分词,以及如何分词,这在检索界面上难以做出判断,因此下文中关于中文分词的讨论一般是指对于用户的检索式自动进行分词。

3.3分类

除了专门的分类搜索引擎(如Yahoo等)之外, 大量的关键词搜索引擎也采用了以分类目录进行导引的方法。这一现象在中文分类搜索引擎中更为普遍。但是由于文化的差异,中文搜索引擎分类的类目具有与国外搜索引擎分类类目不同的特点。如何更好地发挥汉语文化的特色,以期更好地做好网上中文文献的指引,这是一个值得进一步研究的问题。

四、与国外搜索引擎相比,中文搜索引擎主要差距在以下几个方面:

4.1库容量

作为搜索引擎,必须要有相当多的库容量才具有一定的代表性和实用性。可以说搜索引擎可搜索的库容量大小是搜索引擎质量标志的第一要素。从目前的中文搜索引擎来看,库容量在50万条记录以上即可列为“大量”级。但如果将之与AitaVista的巨大库容量相比, 则差之甚远。所以说即使是目前较成功的中文搜索引擎,在这一点上也远未称得上成功。

当然,也许是因为网上中文信息还不多,因此中文搜索引擎的库容量还不可能很大,但是从两岸三地因特网的发展情况来看,不上百万网页数据库容量的中文搜索引擎擎很难说具有一定的代表性。

4.2响应

从搜索引擎的实用性来看,必须保证对用户检索表达式具有一定的响应速度,在这个基础上才谈得上库容量、使用的方便性等其他因素的影响。比如北大的天网搜索引擎,虽然技术上做得不错,但因其各方面的因素而使其反应很慢,这样就难言其有很好的实用性。目前中文搜索引擎的库容量都不是很大,本身对机器硬件的要求还不是相当高,产生响应时延的一个很重要的因素是我们的信息基础设施建设做得还很不够。

就国外而言,举列说Aita Vista在如此大的库容量情况下,仍能保持这么快的响应速率,令人赞叹。这同时也说明国内中文搜索擎在硬件及技术方面的路还很长很长。

4.3核心技术

搜索引擎是一个技术含量很高的电脑网络应用系统。它包括网络技术、数据库技术、检索技术、智能技术等等。在这一方面,由于国外的很多先进技术是建立在西文内核的基础上,所以我们还不能简单引进照搬照抄。作为中文搜索引擎主要的问题是如何来发挥我们在中文处理上的长处,发展出有自己版权的核心技术,使我们在中文搜索引擎的竞争中占有有利地位。

在我们评价的中文搜索引擎中,CSEEK的检索功能很强劲, 但它用的是引进的搜索引擎核心。而北大的天网与台湾的盖世搜索引擎在核心技术方面的表现还是相当不错的。

4.4 多样化服务

靠提供多样化服务来吸引更多的用户,以此来获取更多的广告收益,这是国外著名搜索引擎的生存之道。而在这一方面,中文搜索引擎也做得远远不够。另外一方面,有些搜索引擎本身库容量及服务质量不高,主页上的广告很多,长此以往,也是不利于自身生存的。

五、中文搜索引擎的发展趋势

目前各种各样的中文搜索引擎越来越多,发展速度也很快。每个搜索引擎都有各自的特点,总的来说,中文搜索引擎的发展呈现以下趋势:

5.1支持目录式分类结构和全文检索。

分类搜索引擎的优点是将信息系统地分门归类,可以使用户清晰方便地查找到某一大类信息,这符合传统的信息查找方式,但目录式搜索引擎的搜索范围较全文搜索引擎小许多,尤其是当用户选择类型不当时,有可能遗漏某些重要的信息源。

全文搜索引擎的优点是查询全面而充分,用户能够对各网站的每篇文章中的每个词进行搜索。全文搜索真正提供了用户对Internet上所有信息资源进行检索的手段,给用户以最全面最广泛的搜索结果。但全文搜索的缺点是由于没有分类式搜索引擎那样清晰的层次结构,有时给人一种繁多而杂乱的感觉。

理想的搜索是能在目录式分类结构下实现全文检索,将分类检索和全文检索的优点结合起来。

5.2检索方法多样、查找手段完备。

性能完善的搜索引擎不仅能检索Internet上的文献,还能查找公司和个人的信息:不仅能检索Web页面,还提供对新闻组内文章的查找; 不仅支持布尔逻辑检索,还能支持截词检索、限制检索、位置检索、进阶检索、概念检索等检索功能。

5.3不仅提供受控语言检索,还支持自然语言检索

以自然语言作为检索语言符合人们的思维习惯,应该配备后控词表来克服自然语言查全率低的问题,提高自然语言的检索效率。同时,开发自然语言语义的分析和理解功能,把断词、切分等计算机语言处理工作提高到对自然语言的分析和理解上,并建立自然语言的同义转换;、近义识别、上下位关系和参照关系等。

5.4提供自动换库检索。

当某一检索式在当前引擎中检索不到信息时,系统会自动将它在另一种搜索引擎中进行检索,然后将检索结果通过当前系统返回。这一功能能充分利用其它网上检索工具,以弥补单一搜索引擎的不足。目前许多中文搜索引擎都提供了其它搜索引擎的链接,但能实现自动转库功能的还没有。

5.5提供多媒体检索功能。

随着网上多媒体资源的急剧增加,搜索引擎应不断开发对图表、图形、声音、图像、影像进行识别的功能。目前国外有些搜索引擎能够提供图像搜索,但也只限于对图像中的文字信息、大小、文件名的搜索,而对图像的内容特征如颜色、形状、纹理特征的检索和查询还有待发展。

5.6能自动识别因特网上的多种汉字编码(GB、BIG5,HZ), 并提供转换功能,使用户能在只支持一种内码的浏览器中查找全部的中文网页及其内容。

5.7能够区分搜索结果的相关性。

搜索引擎应该能够找到与搜索要求相应的站点,并按其相关程度将搜索结果排序。这里的相关程度是指搜索关键字在文档中出现的频度,当频度越高时,则认为该文档的相关程度越高。

5.8增加服务功能,提供全方位的信息服务。

许多搜索引擎都提供优秀中文站点推荐、天气预报、股市信息、免费电子信箱、新闻邮件及新闻讨论组等多种服务,以多种形式满足读者的需求。

5.9其它性能。

一个优秀的搜索引擎产品还必须查询速度快,具有较好的可维护、可更新性能。系统必须稳定可靠,具有完整的容错、备份、崩溃修复机制。系统即使出错,也可以得到迅速的恢复。

(收稿日期:2000年7月10日)

标签:;  ;  ;  ;  ;  

中文搜索引擎的现状与发展_搜索引擎论文
下载Doc文档

猜你喜欢