利用网络信息检索工具提高关键词检索功能的措施_信息检索论文

利用网络信息检索工具提高关键词检索功能的措施_信息检索论文

网络信息检索工具增强关键词检索功能的措施,本文主要内容关键词为:信息检索论文,关键词论文,措施论文,功能论文,工具论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1

关键词检索功能是网络信息检索工具的两大基本检索功能之一

关键词检索功能和分类浏览检索功能是网络信息检索工具的两大基本检索功能。在国外,关键词检索功能为网络信息检索工具所必备,而分类浏览检索功能则尚有极少数该类检索工具所未备。

关键词检索之所以如此普及,是由于关键词的抽取可以完全自动化。但是,简单的关键词检索方法命中过多,检准率很低,往往达到使用户无法容忍的地步。而且命中过多并不意味着极少漏检有用信息。所以,简单的关键词检索方法,面对着浩如烟海的信息资源,是难于使网络用户满意的。

目前,在网络信息检索工具中种类繁多的语词检索方法,可以说都是为增强关键词检索功能而采取的措施。那些检索方法从其实质而言都属于关键词检索一类,都是对关键词检索某个方面的改进。

2 网络信息检索工具中增强关键词检索功能的措施

网络信息检索工具的关键词检索,其基础是对网页信息进行自动索引所建立的数据库。其基本检索方法是输入若干表达检索要求的关键词,检索工具默认关键词间的关系是逻辑或(OR)关系,即每个关键词都可独立命中网页,在排列检索结果时则把被全部关键词命中的网页排在最前面。

可以说没有一种网络信息检索工具仅仅使用这种简单的关键词检索方法,而是辅以各种各样增强关键词检索功能的措施。现将增强关键词检索功能的诸多措施综述如下。下面列举的各种增强关键词检索功能的措施,可以认为是国外有关关键词检索的各种研究成果(或者说有关自然语言检索已达到实用水平的各种研究成果)的综述。

2.1 布尔检索

如果说,使用多个关键词进行检索可改善关键词的检索性能,那末,布尔检索是保证多关键词检索正确操作的基本规则。

布尔检索对关键词检索效率的改进是多功能的,即它既可用于提高检准率的目的(使用AND和NOT算符,实质是提高专指度和缩小检索范围),也可用于提高检全率的目的(使用OR算符,实质是扩大检索范围)。不过,两者之间存在着互逆相关性。即使用AND和NOT算符会影响检全率,使用OR算符会影响检准率。

2.2 加权检索

它是对布尔检索的改进,可在既保障检全率,又保障检准率的前提下,按相关性排序输出检索结果,即相关度最高的信息资源排在最前,相关度最低的信息资源排在最后。

加权检索方法在网络信息检索工具中使用时,大多是采用简化的方式,即使用“+”号或选择“must contain”表示某个关键词“一定要出现”在检索结果中或某项内容“必须包含”在检索结果中;使用“-”号或选择“must not contain”表示某个关键词“一定不能出现”在检索结果中或某项内容“一定不能包含”在检索结果中;不加符号或选择“should contain”表示某个关键词“可以出现”在检索结果中或某项内容“可以包含”在检索结果中。

2.3 限定检索

这是在网络信息检索工具中使用得相当广泛的检索方法,一般可缩小检索范围,从而减少不需要信息的输出。限定检索均属选项,限定条件多种多样,包括:

(1)限定字段,也称字段检索, 即限定关键词必须是处于页面中的某个位置的。如限定在标题、统一资源定位地址(URL)、 链点文字、网页文字、特定站点等部分;

(2)限定两个关键词在文本中的距离, 也称相邻度检索或邻近检索。这是文本检索所需要的;

(3)限定网页深度(即网页层次);

(4)限定在某一专题内检索。 如果网络信息检索工具设有某些检索专题,则关键词可限定必须出现在某个专题内,如新闻组、黄页、白页、电子邮件地址、广告、道路地图、股票行情,热点商业新闻,等等;

(5 )限定首先在经专家选择的网页内(即限定在某一分类类目内)检索,并把检索所得排列在检索结果的前面,可提高关键词检索质量;

(6)限定首先在5%最优站点范围内检索,并把检索所得排列在检索结果的前面,可提高关键词检索质量;

(7)限定检索对象(站点类型)。如新闻站点、个人网页、 商业站点、非盈利站点、教育站点、军事站点、政府站点,等等(根据域名后缀);

(8)限定网络资源类型。公司信息、指南和名录、 活动公告信息、拍卖信息、学习信息、新闻发布信息,等等;

(9)限定数据类型。如文件、声音、图像、音像、HTML的成分、 内含编程语句,等等;

(10)限定日期。如特定日期之前或之后的网页,最近某段时间内建立或修改的网页,等等;

(11)限定地区或域名。

可以看出,某些限定条件检索对减少不需要信息的输出具有重要意义。

2.4 截词检索

截词检索有字面成族的作用,而字面成族的词中有一部分或大部分甚至全部又是概念成族的,所以利用截词检索可提高检全率,但会带出一些误检的网络资源。绝大部分网络信息检索工具都具有截词检索功能。

截词检索使用截词符(通配符“*”), 表示作为检索用词的关键词的某一部分允许有词形变化。截词检索包括右截词(后端截词、前方一致)、左截词(前端截词、后方一致)、中间截词(前后方一致)和左右截词(中间一致)。在网络信息检索工具中使用的主要是右截词,部分支持中间截词,左截词则极为罕见。

截词必须适可而止,截去部分过多会大大增加误检率。

与截词检索基本相同的是自动添加语法变化词。这种方法没有带出误检资源的副作用,但必须有一个词形变化对应表作为条件。

2.5 词组检索和短语检索

词组检索和短语检索是把组成词组或短语的若干词加上引号作为一个关键词进行检索,可提高检准率(但有时会漏检一些相关资源)。

2.6 用自然语言语句检索

有这一功能的网络信息检索工具允许用户以自然语言语句表达检索要求,检索工具利用非用词表排除非关键词,然后把剩余的词作为关键词进行检索,一般有助于提高检准率。自然语言语句检索的质量与非用词表的质量有关。

2.7 概念检索

有这一功能的网络信息检索工具可借助于一个同义词表对用户输入的关键词自动添加同义词,有助于提高检全率,但不会降低检准率。

2.8 区分大小写检索和不区分大小写检索

区分大小写检索可提高必须用大写(如人名、机构名等)的关键词的检准率,但会降低既可大写也可小写的关键词的检全率。

不区分大小写检索可提高既可大写也可小写的关键词的检全率,但会降低必须用大写的关键词的检准率。

一般网络信息检索工具忽略大小写,有的检索工具要求正确使用大小写,有的则提供两种方式供选择。显然,可供选择检索者优点较多。

2.9 容错检索

也称模糊检索。容错检索主要指用户在输入提问关键词时的输入错误,检索工具可自动纠错。这一功能在一些文字处理软件中也有。

这里所谓的“模糊检索”,与我国对该词的用法是有差异的。

2.10 相关信息反馈检索

这是指利用输入相同关键词的其他用户在检索结果中选中相关网页的信息来帮助选择网页(至少把其他用户认为与检索要求真正相关的网页排在前面)的检索方法。

2.11 相似检索

当用户发现一个网页非常符合检索要求时,可点击相似检索按钮,检索工具会将该网页的关键词作为检索用词,检出与该网页内容相似的网页(具有相同关键词的网页),并把最初选定的网页作为检索结果中的第一个网页。

2.12 在结果内再次检索

这实际上是一种修改检索提问的方法(对检索提问作进一步的限定),可提高检准率。

2.13 多语种检索和检索结果翻译

某些网络信息检索工具提供多语种检索功能, 其实现方法有:(1)提供不同语种的检索界面(有的建立不同语种的版本),对相应语种的网页进行检索;(2)将用任何一种语言输入的关键词, 自动翻译成所选语言的对应关键词,增加到检索提问中进行检索,其检索结果并不翻译。

检索结果翻译则是通过自动翻译以选定的语种输出检索结果,可极大地方便网络用户。

2.14 自动链接分类类目

对于关键词检索而言,这是一种扩检的方法,通过分类类目的聚类作用,可检出更多相关的、与关键词字面不能匹配的网页,其作用类似于概念检索。

2.15 从结果网页转到其他检索工具检索

有的网络信息检索工具的检索结果网页提供转到其他检索工具去用相同关键词进行再次检索的功能,以扩大检索范围,提高检全率。

2.16 过滤检索

也称家庭音像资料过滤功能,即自动删除那些包含毒品、赌博、种族歧视、色情、暴力等内容的网页。某些网络信息检索工具提供这种检索功能。这种功能的实现是通过收集与上述内容有关的词汇,构成一个词汇表,在检索过程中用它来进行过滤。另一种实现方法是对众多站点预先进行自动筛选,将那些不含有上述内容的站点命名为绿色站点,用户可专门检索这些站点。过滤检索不可能过滤得很彻底。

2.17 检索提问修改

检索提问修改功能,大多数是针对检索结果的情况,对原来的检索提问作进一步完善,排除检索结果中不需要的网络资源,相当于在检索结果中再次检索。与在检索结果中再次检索不同的是,检索提问修改功能也可以进行扩检,弥补第一次检索的不足。

2.18 按相关度排列检索结果

这项功能可在大量的检索结果中,使用户首先阅读内容可能是最相关、最有用的网络资源。每个网络信息检索工具都有按相关度排列检索结果的功能。这一功能可以认为是对检索结果作自动甄别。用户通常只有时间阅读那些排在最前面的网络资源,甚至只可能阅读那些排在最前面的网络资源的一部分或一小部分。

按相关度排列检索结果,一般采取把全部包含所输入的若干个关键词的网页排在最前面,把只包含一个关键词的网页排在最后面的方法。

有的检索工具则提供多种检索结果排列方案,如:所有关键词是否都出现在页面中;按照关键词在页面中的密集程度(出现频率)排序;按照关键词是否出现在页面开头部分排序;按照关键词是否出现在页面标题中排序等。用户可选择若干种排序方案,每种分级打分,然后计算总分。这实际上是按用户最希望的排序方案(或者说按筛选方案)排列检索结果。

此外也有按站点名称或域名、按网页建立或修改时间的反顺序等的排列方法。

按相关度排列检索结果实际上是对检索结果再次进行加权检索,但不一定是对关键词加权。

2.19 对检索结果粗分类

将一次检索结果的全部网页按关键词分布和站点分布情况进行聚类,形成若干类别,用户可选择某个或某几个类别进行浏览阅读,而不必遍览整个检索结果列表,这实际上也是一种检索结果排序方法。

2.20 在检索结果中将新闻报道单列

新闻报道不同于其他信息资源,它属于网络资源的一种特殊类型,很容易识别,而且其信息价值也与其他网络资源有差别,有的网络信息检索工具在检索结果中将新闻报道单列,这对用户选择利用检索结果,是一种方便措施。

2.21 以统计链接数判断网页重要性

在对检索结果进行排序时,信息资源本身的价值也应是重要因素。如果有大量网页链接到某一网页,该网页的重要性会增加。有的网络信息检索工具综合考虑了网页的被链接程度和关键词出现频率及出现位置等,作为检索结果的排序依据,这是一种可取的方法。

2.22 关于提高检索效率的建议

关键词检索看似简单,其实也有许多规则和技巧。为提高关键词检索效率,有的网络信息检索工具向用户提供了一系列正确使用关键词检索方法的建议,这也是提高关键词检索效率的一种措施。

3 从中文关键词检索角度的讨论

总观以上各种增强关键词检索功能的措施,可以看出:

(1)关键词检索基本原理十分简单, 原始模式的关键词检索方法容易操作,但命中过多,检准率很低,往往达到使用户无法容忍的地步,而且,命中过多并不意味着极少漏检。所以,它应用于网络环境时,面对浩如烟海的信息资源,是难于使网络用户满意的。目前,所有的网络信息检索工具在应用关键词检索方法时,无一例外地都或多或少采用上述增强其检索功能的措施。越是要求检索效率高的检索工具,采用上述措施越多,关键词检索易用性的优点丧失也越多。实际上,目前网络信息检索工具中的所谓“高级检索”方法(即采用增强措施的关键词检索方法),甚至比分类浏览检索方法更为复杂。关键词检索方法之所以在网络信息检索工具中被广泛应用,一方面是主题检索途径不可缺少,而更主要的原因是利用它能使建立索引数据库的过程完全自动化。

(2)在上述增强关键词检索功能的各种措施中, 起主要作用的是布尔检索、加权检索、限制检索和按相关度排列检索结果四种措施。

(3)网络资源的建库前筛选, 对关键词检准率的保障有重大意义。例如,限定首先在经过专家选择的网页内(即限定在某一分类类目内)进行关键词检索,并将检索所得排在检索结果的前面; 限定首先在5%最优站点范围内检索,并将检索所得排在检索结果的前面。这类方法对提高关键词的检准率,减少不需要信息的输出,无疑会起很好的作用。但网络资源建库前筛选的覆盖面有限,且时效性也较差,尤其是完全自动化所不可能实现的。

(4)对中文网络信息检索工具而言,主题检索途径不可缺少, 而对浩如烟海的网络信息资源,不可能完全采用人工主题标引,关键词检索方法是必然选择。采用各种增强关键词检索功能的措施,也成为必由之路。但上述各种增强关键词检索功能的措施,必须有选择地进行吸取,而不应完全照搬。有些好方法的采用,尚须创造条件。

中国人应当创造使用关键词检索的特色。创造这种特色的要点是把主题法原理和分类法原理结合起来,把自然语言原理与人工语言原理结合起来。

(5 )采用上述各种增强关键词检索功能的措施还不可能彻底消除关键词检索的缺陷,甚至不可能基本消除关键词检索的缺陷,因而也不可能否定网络信息的人工标引在现阶段的必要性和合理性。也就是说,网络信息的全自动标引虽很理想,也有必要采用,但要达到完善程度还有很大距离,这一距离估计不可能在较近的时期内克服。

储荷婷等在1999年10月出版的《Internet网络信息检索——原理、工具、技巧》一书前言中说的下面这段很风趣的话,很值得我们寻味:“令您苦恼的是,即使使用这些检索工具,您往往得到的是成千上万条似是而非的网站名称,面对它们您不得不承认‘因特网信息检索定律’:在因特网上您总能找到(甚至只能找到)您不需要的东西”。我的理解:(1)这段话是美国流传的一则幽默;(2)这段话是针对关键词检索的缺陷说的,因为分类浏览检索不可能出现这种情况;(3 )这段话其实并没有全盘否定关键词检索,更没有否定网络信息检索工具的作用;(4 )这段话给我们一个信息:国外在自然语言检索方面还没有突破性进展;(5 )全自动标引无疑是一个应当研究的方向和可以采用的方法,但不要对它的优点太夸大、对它的主要缺点能在短期内克服太乐观,而忽视了人工语言及情报语言学原理在网络信息检索中的应用价值。

(收稿日期:2000—11—01)

标签:;  ;  

利用网络信息检索工具提高关键词检索功能的措施_信息检索论文
下载Doc文档

猜你喜欢