论网络信息检索策略_搜索引擎论文

论网络信息检索策略_搜索引擎论文

论互联网信息搜索策略,本文主要内容关键词为:互联网论文,策略论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

互联网最迷人之处是它具有丰富的信息。无论是商业信息、科技知识、学术论文、艺术创作,还是人们的创造灵感,无疑都会出现在这个千奇百怪的互联网中。当我们在互联网上浏览、漫游时,感到它既新鲜,又有趣,但是如果真要查找某个信息或是资料,有时还真让人无处下手。如果没有正确的检索策略,查找资料像大海捞针,困难重重。

制定正确的搜索策略是能否检索到文献信息的重要步骤,搜索策略的好坏直接影响着检索效率的优劣。在互联网迅速发展的今天,网上搜索策略应该是图书馆管理人员掌握的一门知识。

1 选择搜索引擎

搜索引擎是互联网上的一类网站,这类网站与其它网站不同的是,它主要的工作是自动搜寻Web服务器的信息,把信息进行分类,建立索引,然后把索引的内容存放到数据库以便于查找。搜索引擎分为两类:一类是分类目录型的检索,它将互联网上的信息资源,如网址、描述主题,按时间顺序汇总整理,形成图书馆目录一样的分类树型结构目录,用户通过逐级浏览这些目录来找自己需要的网址或相关内容;另一类是基于关键词的检索,在这种方式中,用户可以用逻辑组合方式输入各种关键词,搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据一定的顺序(如字母排列、时间、相关级别等),将包含此关键字词信息的所有网址和指向这些网址的链接反馈给用户。

目前互联网上中西文搜索引擎有近百种,它们各具特色,我们在检索时,应该选择什么样的搜索引擎?除了有特殊的检索要求,需要特定的搜索引擎外,一般选择的搜索引擎,应该考虑下面几个方面:

1.1 拥有网页数据库的大小

一个搜索引擎的网页数据库中存储的网页数量的多少,是网络用户最为关心的问题。数据库大,拥有的网页多,能给用户提供更多的信息资源,用户就能获得较满意的查全率。当然不能仅凭此点来断定一个搜索引擎的好坏。因为不同的搜索引擎在搜索网页中使用的策略是不同的,有的搜索引擎在找到站点后,会采集所有能访问到的网页,而有的搜索引擎只会抽样采集,收集它们认为具有代表性的网页,还有一些搜索引擎只会采集你站点中的网页。这些不同的策略是出于不同的考虑,各有利弊。

1.2 检准率

一个搜索引擎不仅要对查询的信息返回量大,而且要求准确,与用户所要求的主题内容结合紧密,不然返回一大堆垃圾信息,再多又有何用,即检准率要高。

1.3 更新速度

更新速度指网页数据库中内容被刷新的频率。既能更新,又能查重,也可添加和删除。搜索引擎的搜索软件搜索网页是有一定的时间间隔的,而且不同的网页间隔的时间也不一样。每个搜索引擎都有自己的策略,它们可能对一些超级流行的站点更感兴趣,而会无暇顾及那些默默无名的网站。

1.4 提交网页

搜索软件在搜索网站和网页时,可能有的站点和网页由于一些原因无法搜索到,因此应该主动地向搜索引擎送交你的网页。一般的搜索引擎在它的界面网页中都提供了此项功能。值得一提的是,搜索引擎对该站点提交的网页和该站点中未被提交的网页的处理速度是不一样的。被提交的网页可能会在近期内即被访问,并纳入网页数据库,而未被提交的网页则被列入搜索软件的日程表,以后再去访问。

1.5 检索方法

不同的搜索引擎具有不同的检索方法。主要体现在布尔检索,复杂布尔操作(嵌套),截词检索,词语加权,词语限定,字段检索,特定字段限定,缺陷省值,中断退出,重复辨别,上下文关键词,查询集操作,大小写有别,数字与特殊符号处理。

1.6 结果输出

不同的搜索引擎检索结果的内容详简程度有不一样的地方。但基本上在以下范围里:URL,题名,标题,关键词,摘要,超链接,文件大小,全文,检索结果的总数,相关性估计,评论等。有的搜索引擎智能化程度高些,可以让用户选择一些其它的输出的方式,用户可以选择输出的数量,输出出处的详略程度,是按“内容类聚”“站点类聚”还是两者都要,还可以选择网页生成的时间,等等。

互联网上搜索引擎虽然很多,但没有一个搜索引擎能完全搜索出所有的网络资源,也没有一个搜索引擎完全符合每个用户的要求。因此,在制作检索策略时,应根据实际情况,选择最佳的搜索引擎,最大限度地满足用户的需求。

2 处理好查全率与查准率的关系

网上搜索策略最重要的两个指标是查全率与查准率。查全率是进行网上搜索时,检索出来的信息与网络中存贮的有关该主题的信息总量之比;查准率是指网上搜索时,命中主题的信息与检索出来的信息总量之比。从搜索的要求来讲,如果查全率能达到100%,是最理想的。但是,实际上达不到这种要求。查全率与查准率之间存在着相互制约的现象,即提高查全率就会使查准率下降,提高查准率又会使查全率下降。它与用户的搜索提问有很大的关系。也就是说,在搜索过程中,如果使用了许多限定性的词语,或是使用的检索词很狭窄、很具体、很专深,搜索的信息必然比较适用,误检率低,查准率很高,但查全率会降低。反之,选用的检索词无限定、笼统广泛,搜索的信息就会多些,提高了查全率,降低了漏检率,但一些无用的信息也包括其中,即查准率就会下降。

如果搜索是以占有大量的资料为目的,用搜索的资料来说明问题、证明问题,如搜索一类事物的全部有关的信息或是浏览一个学科、专业范围的信息,那么应该提高搜索的查全率,将与之有关的信息全部搜索出来,尽量减少漏检。可以在检索词上用意义相关、相连的词,或是使用学名、俗称等。还可以用概念的上位类词,即从较专指的词上溯到较泛指的词,也能搜索到更多的信息。

如果搜索的目的是某个事实、某个数据,某一事物的全部信息,不在于信息的多少,而在于精确,应该注重查准率。提高查准率的方法有许多种,常用的是概念的组配。概念组配的过程是事物或概念的限制的过程,是由泛指到专指的过程。在网上搜索,检索出来的信息是逐渐减少的过程,也是逐渐命中主题的过程。比如搜索“大学素质教育”方面的信息,如果用“教育”进行网上搜索,有1547个网站,用“大学+教育”搜索,有133个网站,再用“大学+素质+教育”搜索,检索出的信息有44730个网页。最后的搜索结果是最符合要求的信息。因此,适当的概念组配可以剔除许多无关的信息。

网上搜索策略最关键的因素是尽量减少漏检。误检只会降低搜索的效率,不会影响搜索的质量,可以通过分析进行筛选。漏检却是影响搜索质量的致命因素,它会将有用的信息从我们眼皮下悄悄溜走,失去了分析问题、解决问题的依据。因此,在制定搜索策略的提问时,要把漏检降低到最低程度。

3 巧妙利用一般搜索和高级搜索方法

在互联网上漫游,掌握具体的搜索方法是提高搜索效率的重要步骤。搜索引擎可以进行一般搜索和高级搜索。一般搜索与高级搜索的区别在于:一般搜索可以使用加号减号进行搜索词之间的连接,而高级搜索只能用AND、AND NOT、OR、NEAR进行搜索词之间的连接;高级搜索能使用括号;高级搜索允许使用附加关键词限定时间范围、排序方式等极度复杂的搜索。下面用著名的英文搜索引擎Alarvista为例,看看如何进行—般搜索和高级搜索。

3.1 一般搜索

进行一般搜索时,应该注意以下几个问题:一是输入的字母要区别大小写,如果都是小写,那么将会搜索到包括大、小写在内的网站;二是引号代表把关键字当作一个词组来搜索,否则搜索的内容是包含任何一个单词;三是加号代表搜索的内容中必须要包含的关键字,减号代表搜索的内容中不包含的关键字,比如检索式“汽车—奔驰”,表示搜索的结果为不包括奔驰汽车在内的其它汽车的信息,星号(*)则是不能确定一个单词如何拼写时的代替者,但星号不能放在词首。

3.2 高级搜索

进行高级搜索时应注意,逻辑关联词AND、AND NOT、OR、NEAR字母必须大写;要想搜索任何语言,并且把它翻译成英文,可以进行以下操作:在Family Filter处于"off"的状态下,先选择"any language",点选"Translate",Altavista就会把诸如俄语等其他语言翻译成英文。

标签:;  ;  ;  

论网络信息检索策略_搜索引擎论文
下载Doc文档

猜你喜欢