提高Web信息检索系统精度的一种新方法_同义词论文

一种提高WEB信息检索系统查准率的新方法,本文主要内容关键词为:查准率论文,新方法论文,检索系统论文,信息论文,WEB论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

网络搜索引擎是自90年代中期以来迅速发展起来的一种新技术,它越来越多地受到人们的关注。然而目前搜索引擎普遍存在的一个问题是对一个查询请求返回很多的查询结果,而真正能满足用户需要的查询结果并不很多。因此如何从所获得的大量查询结果中发现有用的信息已经成为急需解决的一大难题。

查准率(Precision)是Web信息检索研究急需解决的问题,目前已成为Web信息检索研究的一大热点。改进查准率主要采用下列方法:(一)考虑使用路径和用户推荐的方法。例如在文献[1]中,Letizia是一个个人代理,它用来帮助用户浏览Web上的网页,Letizia通过记录用户的浏览行为来学习用户感兴趣的领域,最终推荐用户所喜爱的页面。(二)使用分析子图的链接结构,更一般地说是超文本结构的方法,它用来发现可以赋予较高权值的“重要”文档。Clever[2],Google[3]等系统使用了引导(Hubs)页面和权威(Authorities)页面。例如,Cornell大学的Jon M.Kleinberg[4]等人认为超媒体环境中的链接结构蕴涵着丰富的内容信息,问题在于我们如何才能有效的理解它,因此他们开发了Clever系统,在这个系统中,他们提出了一组算法对超媒体环境中的链接结构进行研究,并从中自动抽取出超媒体的某些类型的信息。他们设计了HITS算法(Hyperlink-Induced Topic Search)来计算某个查询或主题的权威页面和引导页面。另外,纽约州立大学Binghamton分校的M.Cutler等人研制了Webor系统,该系统主要研究如何将HTML文件的结构用于改进检索的性能和效果[5],他们使用了HTML文档的结构和超链接的一些解释信息来改进检索性能。(三)采用指定查询所在领域的方法。由于(一)、(二)两种解决方法缺乏搜索的上下文,造成返回的查询结果可能都和查询相匹配,但是却属于不同的和无关的领域,而缺乏上下文是源于Web上固有结构的缺乏。因此Yahoo等一些著名搜索引擎通过指定查询所在领域,这样的领域限制可以显著减少无关结果的数量并且限制搜索空间,从而增加查准率。然而这种领域层次是以手工方式,至多是半自动的方式来预先确定目录的分类。

我们认为上述方法主要存在以下不足:1)上述方法(一)、 (二)主要采用对搜索所产生的结果进行进一步处理,以提高查准率。然而上述对搜索结果进行处理的方法,无论产生的效果如何,代价总是昂贵的,因为它们必须从Web上搜索一些无用信息,然后才能进行处理。2)上述方法(三)自动化程度不太高,并且只是指定查询所在领域。

为解决上述问题,本文提出了一种新方法,该方法综合了以下措施:(1)由于很多搜索引擎是按照用户所需要查询的关键词从WWW的网页上抽取信息,模式匹配是这些搜索引擎所使用的常用方法。 如果在WWW的网页上包含同样的关键词,模式匹配的方法是有效的。但是对于网页上出现关键词的同义词的情况,模式匹配的方法效果不甚明显。为了避免丢失所查询的信息,本文除考虑使用所查询关键词之外,还考虑使用这些关键词的同义词以扩大查询的范围。(2 )由于用户进行查询的关键词是多义词,而一些多义词易造成查询网页并不是用户需要的网页,因为很多搜索引擎使用模式匹配的方法,结果从搜索引擎所获得的一些查询结果虽然包含有用户所查询关键词,但是却不是用户需要的网页,因此这些网页并不能满足用户的要求。本文通过提出关联规则挖掘算法Associationword来找出与所查询关键词以及它们的同义词相关联的词,然后通过提出Restrictedcandidate算法来找出约束的候选关键词集,从而增加对所查询关键词的语义约束,消除所查询关键词的二义性。(3)现有的搜索引擎仍然主要使用传统的布尔模型,并使用向量空间模型进行相似性评分。由于Internet上的一些用户对搜索引擎的查询语法并不熟悉,因此易导致用户错误地表达了自己的查询意图。本文以用户惯用的自然语言的方式来描述所查询的问题,从而减少因为用户对搜索引擎的查询语法并不熟悉所造成错误地表达自己的查询意图的问题。(4)由于现有的很多搜索引擎对Internet上的用户都是普遍适用的, 因而力求索引的主题的覆盖面尽量广泛,这样对具体的用户针对性就比较差。本文通过提出Userprofile算法来构造用户访问模式, 从而过滤掉候选关键词集中一些不符合用户要求的关键词,进而减少搜索时所产生一些与查询无关的网页。在这里,由具有相似兴趣的用户构成一个兴趣组。由于该用户的用户访问模式运用协同过滤技术,借鉴同一兴趣组中已有的、能较好地反映组中各个用户共同兴趣的公共用户访问模式中的结果来构造用户访问模式,因此该用户访问模式具有较广泛的代表性,并能较好地反映领域特点,这使得获得的信息更加符合用户的要求。

2 一种提高查准率的新方法Improveaccuracy

为了提高查准率,本文提出Improveaccuracy方法, 该方法的具体步骤如下:

步骤1:对查询问题进行预处理。用户提出需要查询的问题, 由于一些查询问题有一定的语法结构,因此必须将查询问题分为主语、谓语、宾语、修饰语等成分。如果不进行语法分析,就容易产生错误。例如查询问题为“在中国,每年汽车压死行人的人数?”如果将上述查询问题中的主语和宾语的位置颠倒,就变成“在中国,每年行人压死汽车的人数?”。因此必须对用户所输入的问题进行语法分析,本文使用著名的LR语法分析算法[6],通过它,生成语法树,提交给填充槽(slot-filling)。虽然许多自然语言都使用填充槽,但是本文中的填充槽具有语法结构,因此可以对查询问题进行语法分析,而不仅仅只是做模式匹配。在对查询问题进行语法分析之后,我们采用自然语言处理领域中使用较为广泛的Brill's part-of-speech tagger[7]来对问题中的词进行分析。然后我们把问题中的标点、符号,和诸如介词、冠词、连接词、情态动词等词剔除,保留的只是主要的动词、形容词、疑问词和副词,特别是名词。对于疑问词,则把它转换为相对应且易理解的模板形式。对于上述词的剔除,主要采用将这些词和存放在WordNet[8]系统中所提供标点符号的符号表和存放使用频率较高的常用词表中的词进行比较,当发现表中有这些词时就进行剔除的方法。此外, 我们使用WordNet系统来识别语义上联系较为紧密的一些名词,然后将这些名词看作一个复合词来进行查询,从而提高搜索的精度。最后将上述词形成查询关键词集。同时按照查询关键词集中的这些关键词在查询问题中出现的次数赋于不同的权值。限于篇幅,对预处理查询问题的一些具体内容在此不做详细介绍。

步骤2:确定候选关键词集。 将经过预处理查询问题所获得的查询关键词集进行扩充,以获得同义词集。由于我们主要是对英文信息进行检索,因此可以使用WordNet[8]系统。WordNet系统由称作synsets的同义词集合和同义词集合间的联系组成。每个synset包括有相同或相近含义的一个或多个词。由于一个词有不同的含义,因此可以出现在多个synsets中。通过WordNet系统来找出与这些查询关键词相对应的同义词和该词的其他词性的词,主要采用从查询关键词key映射到synsets(key),然后从Synsets中取出这些查询关键词key的同义词的方法。这样做易于查找网页上出现的所查询关键词的同义词,从而更有利于运用搜索引擎普遍使用的模式匹配的方法。最后我们将查询关键词和其同义词集一道构成该查询关键词的相似性列表,把上述所有关键词的相似性列表结合在一起构成候选关键词集,也就是:

定义1 设key[,i]是第i个查询关键词, 该查询关键词的同义词集为con(key[,i]),则该查询关键词的相似性列表list[,i]可以定义为:list[,i]={key[,i],con(key[,i])}

定义2 设list[,i]是第i个查询关键词的相似性列表,则候选关键词集可以定义为:ckeyset={list[,1],…,list[,i],…,list[,n]},其中n为查询关键词的数目。

步骤3:确定约束的候选关键词集。我们使用Restrictedcandidate算法来找出约束的候选关键词集,以加强对候选关键词集的限制。在具体描述我们提出的Restrictedcandidate 算法之前,我们首先给出我们提出的关联规则挖掘算法Associationword, 以找出与所查询关键词以及它们的同义词相关联的词。

虽然一些系统使用WordNet 系统来获得与所查询关键词有语义联系的一些词,但是这种方法有时,特别是在要满足特定领域用户查询要求时,效果并不理想。因为虽然这些关联词可能具有特定的含义,但是它们的含义并不与查询相关,因此仍然无法满足用户的要求。所以本文采用从同一兴趣组的已有查询结果中,使用关联规则挖掘算法Associationword来找出与所查询关键词及其同义词相关联的词,通过这些相关联的词来增加对所查询关键词的约束,从而消除所查询关键词的二义性,提高查询的准确性。这种利用关联规则来找出词与词之间关联的方法,比普遍使用的基于术语共同出现的方法更为灵活,因为它不但考虑了一些术语共同出现频率的情况,而且采用从所查询关键词出发,找出与它相关联词的关联规则,并对这些关联规则指定最小可信度。

Associationwrod算法的时间复杂度由排序算法的时间复杂度和循环算法的时间复杂度组成。时间复杂度为:

其中排序算法的时间复杂度为O(m*log[,2]m),在这里,m表示单个词数,n表示前n个频率较高的单词。

Associationword算法的处理步骤如下:输入:一些样本文档,词qkey,最小可信度输出:与词qkey相关联的词所构成的关联词集{按单个词进行词频统计并排序;剔除频率较高的介词,冠词,连接词,情态动词等;count=n;C=nil;association={前n个频率较高的单词};While count≥1{前n个频率较高的单词以及词qkey共同构成C;//n为给定的最大值C'=C;i=1;While support(C)/support(qkey)<最小可信度 and i≤C[n-count+1][,n]//support表示支持度{words=fetch(association);//fetch函数表示取出而不是删除association中每次循环都不相重复的n-count+1个元素C=C'-{words};i=i+1;}if support(C)/support(qkey)≥最小可信度then{关联词集=C-{qkey};

break;//跳出循环

}else{count=count-1};}}

我们的Associationword 算法与具有很大影响的关联规则算法Apriori[9]不同的是:Associationword 算法采用对搜索空间进行“自顶向下”遍历的方法来代替Apriori 算法所采用的“自底向上”遍历的方法。这主要是由于Apriori 算法采用对搜索空间进行“自底向上”遍历的方法,而这种方法对高维数据进行处理时,容易产生扫描趟数过大,冗余规则过多的问题,因此为了弥补Apriori算法的这一不足,Associationword 算法放弃了对搜索空间进行“自底向上”遍历的方法,而采用“自顶向下”遍历的方法,也就是Associationword 算法是从尽快识别可能的长频繁项目集入手。由于使用了Apriori 算法所提出一个频繁项目集的任一子集必定也是频繁项目集这一策略,因而Associationword算法所识别的长频繁项目集实际上是简明地隐含了全部频繁项目集。此外,结合应用特点,Associationword算法只是找出与词qkey相关的频繁项目集,而不是找出所有的频繁项目集。另外,采用从兴趣组已浏览过的查询结果中收集一些样本文档,以减少交易数据库的大小。通过采用上述方法就可以减少频繁项目集生成过程中的计算开销。

下面我们给出可以获得约束的候选关键词集的Restrictedcandidate算法。Restrictedcandidate算法的处理步骤如下:输入:候选关键词集{list[,1],…,list[,m]}输出:约束的候选关键词集{ i=1;While i≤m//m表示查询关键词的数目{r[,i]=nil;

word=fist(list[,i]);//first函数是取出第i个查询关键词的相似性列表list[,i]中的第一个元素。

While list[,i]< >nil

{使用关联规则挖掘算法Associationword,找出与word 相关联的词;

r[,i]={与word相关联的词}+r[,i];

word=next(list[,i]);//next函数是取出list[,i]中的下一个元素

}i=i+1;}count=m;eset=nil;

While(r[,1]∩r[,2]∩…∩r[,count]< >nil)and(count<2m)

{对r[,1]∩r[,2]∩…∩r[,count]的结果,按照与候选关键词集中的list[,1],…,list[,count]相关联的程度排序;

count=count+1;

将排序后所获得的相关联程度最高的词作为约束的候选关键词ekey;eset=eset∪{ekey};//eset用来存放约束的候选关键词集;

使用关联规则挖掘算法Associationword,构造ekey 相关联的集合为r[,count];

}}

我们的Restrictedcandidate算法的时间复杂度为O(m*s*(关联规则挖掘算法Associationword的时间复杂度)+m*(排序算法的时间复杂度+关联规则挖掘算Associationword的时间复杂度))。其中排序算法的时间复杂度为O(c*log[,2]c)。在这里,c表示r[,1]∩r[,2]∩…∩r[,2m-1]集合中的元素数目,m表示查询关键词的数目,s表示最大list的元素数目。

步骤4:确定关联词集。使用余弦相似性公式, 求出所获得的候选关键词集和用户访问模式之间的相似度,过滤掉相似度较小的词,将其余的词保留在相似性列表中。这避免了一些系统使用用户访问模式对搜索到的网页进行再过滤所造成代价较高的弊端。

在这里的用户访问模式采用对已浏览过的查询结果进行不断地分析和训练,并借鉴兴趣组中已有的、能较好地反映组中各个用户共同兴趣的公共用户访问模式中的结果来构造用户访问模式,这样做使得用户访问模式更好地适应用户的动态需求变化。这避免了很多系统所采用的需要用户输入自己的信息需求或采用机器学习技术要求用户提供大量的反馈信息来进行训练,却不利用兴趣组中已有的公共用户访问模式中的内容的缺陷。

下面我们给出构造用户访问模式的Userprofile算法的主要步骤:

(1)根据HTML语法的特点,对返回的查询结果中的HTML 文档进行处理。由于HTML文档和传统的信息检索系统存在的主要区别是:HTML中的标记使得我们可以比较容易地获得HTML文件的结构。虽然这个结构只是关于文件的表现格式和排版形式,但是我们还是可以从中归纳出一些信息用于辅助并提高检索的效率。传统的IR系统一般都忽略这些结构信息。鉴于此,我们将做如下处理:依据HTML语法的特点,获得一些启发式规则来对这些页面中的信息进行抽取,从中获得页面中的关键词。我们采用下列方法来抽取关键词:1)TITLE或H*的标记中所包含的信息常常是所要抽取的关键词;2)对于没有使用TITLE或H*标记的,我们通过使用标题居中,标题所使用的字体较大,标题通常采用加粗的黑色字或颜色较鲜艳的字,以及标题单独成行等特征来判断文档标题,并从中抽取关键词;3)下划线标记<u>,粗体标记<b>, 强调标记<strong>,斜体标记<i >等重要属性中所包含的信息常常是所要抽取的关键词;4)超链接附近出现的信息常常是所要抽取的关键词。

(2)提出Weight权重公式来计算这些关键词的权值。Weight 权重公式表示为如下形式:W[,di]=log(log(time[,d])/len[,d])*tf[,di]*log(N/df[,i])+f(x[,di])。其中,W[,di]表示在一个页面d中关键词i的权值,time[,d]表示阅读页面d的时间,len[,d]表示页面d的长度,N表示在页面集合中的页面数,tf[,di]表示在页面d中关键词i的频率,df[,i]表示关键词i的页面频率,x[,di]表示页面d中第i个关键词,f表示一个函数,它根据关键词x[,di]在文档中的重要性,赋予相应的重要系数。Weight权重公式与目前广泛使用的tf-idf[11]算法的权重公式不同的是:Weight权重公式除了考虑tf-idf算法的权重公式中的因素之外,还考虑采用阅读某一页面的时间和页面的长度等因素以及根据HTML语法的特点,找出页面中一些重要特征的词的方法,这使得获得的权重要为合理。

(3)对获得的关键词进行排序,取出m个最高权值的关键词构成关键词集k={k[,1],…,k[,n]}。

(4)使用余弦相似性公式, 求出获得的关键词集和在兴趣组的公共用户访问模式之间的相似度。如果相似度大于某一阈值,则将用户归入这一兴趣组,并产生该用户的一个兴趣集。该兴趣集由该用户的关键词集和所匹配兴趣组的公共用户访问模式相并而得。

(5)由于一个用户可能有多种兴趣, 因此该用户可能归入多个兴趣组,从而产生多个兴趣集。将这些兴趣集结合在一起构成某一用户的用户访问模式。这样做避免了一些系统中用户访问模式只能反映用户单一兴趣的缺陷。

在这里建立的公共用户访问模式是使用我们提出的Commonuserprofile算法。

Commonuserprofile 算法是按照在兴趣组中的重要性对各用户的用户访问模式中的关键词进行加权来构造兴趣组中的公共用户访问模式。该算法的主要步骤如下:

(1)求出兴趣组中各用户的用户访问模式中兴趣集的交集, 然后对交集中的每个关键词进行加权。

(2)求出兴趣组中各用户的用户访问模式中兴趣集的并集。 然后求出并集和交集之差,对并集和交集之差的集合中的关键词进行加权。通过计算这些关键词的权值,从中剔除权值小于某一阈值的关键词。

(3)将步骤(1)和步骤(2)所获得的关键词相并, 从而获得一个关键词集。该关键词集就构成公共用户访问模式。

步骤5:使用布尔逻辑表达式来表示查询请求。对于关键词集中各关键词的相似性列表,使用or连接同一相似性列表中的词,同时使用and连接不同的相似性列表,然后使用and连接约束的候选关键词, 从而形成一个布尔逻辑表达式。

3 Improveaccuracy方法的性能分析

我们的实验环境是建立在以155M ATM相连接的3台PC机上,PC 机的配置为Intel P Ⅱ 400MHz CPU,64MB内存,8.4GB硬盘,操作系统为Windows NT4.0。我们使用JAVA编程语言进行了实现。

毕竟,任何对信息检索技术的评价都在一定程度上是基于用户对查询结果的相关性判断,而这是一个非常主观的概念,因此判断一个网络搜索工具的性能是一件十分困难的事情。在本文中,我们采用文本信息检索和分类的最常用的评估标准查准率来衡量Improveaccuracy方法。 由于WEB信息检索系统中的查准率可以有多种形式表示, 在这里我们将查准率定义为一组文档中正确检索出的文档比率。

下面通过我们所做的一系列实验来说明Improveaccuracy 方法的有效性。

实验1:为了说明同义词对查准率的影响,在实验时, 多名学生分别使用他们所熟悉领域中的100组关键词在yahoo上进行查询(情况1 )以及使用上述关键词和由Improveaccuracy 方法所获得的他们相对应的同义词在yahoo上进行查询(情况2)。经过他们自己手工分析情况1和情况2的查询结果,分别获得了情况1和情况2的查准率。从图1的实验1中可以看出:使用同义词后,查准率虽然有所提高,但是提高得不很明显。这主要是由于使用WordNet[8]系统获得了所查询关键词的同义词后,就可以使用这些同义词来扩大查询的范围,以获得查询的关键词所不能找到的用户需要的网页。但是这也同时产生了一些负面影响,由于扩充了所查询关键词,因此同样也导致所获得一些网页并不是用户需要的。

图1 实验结果比较

实验2 :为了说明相关联的词对查准率的影响并且便于和其他实验进行比较,在实验时, 多名学生分别使用与上述实验相同的关键词在yahoo上进行查询(情况1)以及使用关联规则挖掘算法Associationword来找出与所查询关键词相关联的词,然后使用Restrictedcandidate算法来找出一些约束的候选关键词,将这些约束的候选关键词同所查询关键词一起形成一个布尔逻辑表达式,并在yahoo上进行查询(情况2)。经过他们自己手工分析情况1和情况2的查询结果,分别获得了情况1和情况2的查准率。从图1的实验2中可以看出:使用与所查询关键词以及它们的同义词相关联的词后,查准率有了一定的提高。这主要是由于这些约束的候选关键词可以增加对所查询关键词的语义约束,消除所查询关键词的二义性,因而使查准率得到了提高。

实验3 :为了说明使用用户惯用的自然语言的方式来描述所查询的问题对查准率的影响并且便于和其他实验进行比较,在实验时,由多名学生分别使用与上述实验相同的关键词在yahoo上进行查询(情况1)和使用自然语言的方式来描述所查询的问题,并经本文采用的措施处理后,在yahoo上进行查询(情况2)。经过他们自己手工分析情况1和情况2的查询结果,分别获得了情况1和情况2的查准率。从图1的实验3中可以看出:使用用户惯用的自然语言的方式来描述所查询问题的方法后,查准率有了一些提高。这主要是由于一些用户对搜索引擎的查询语法并不熟悉,因此导致用户错误地表达了自己的查询意图,而使用用户习惯的方式来描述所查询的问题,就可以减少用户的一些错误。

实验4 :为了说明用户访问模式对查准率的影响并且便于和其他实验进行比较,在实验时,多名学生分别使用与上述实验相同的关键词在yahoo上进行查询(情况1)以及通过使用Improveaccuracy 方法来建立各自的用户访问模式,然后过滤掉一些无关的词,再用这些关键字在yahoo上进行查询(情况2)。经过他们自己手工分析情况1和情况2的查询结果,分别获得了情况1和情况2的查准率。从图1的实验4中可以看出:使用用户访问模式的方法后,查准率有了一定的提高。这主要是使用用户访问模式可以根据具体用户的特点,过滤掉候选关键词集中一些不符合用户要求的关键词,并添加一些与用户需求有关的关键词,进而减少搜索时所产生一些与查询无关的网页。

实验5:为了说明Improveaccuracy方法对查准率的影响并且便于和其他实验进行比较,在实验中,多名学生分别使用与上述实验相同的关键词在Yahoo上进行查询(情况1)以及利用Improveaccuracy 方法所获得的关键词在Yahoo上进行查询(情况2)。经过他们自己手工分析情况1和情况2的查询结果,分别获得了情况1和情况2的查准率。从图1 的实验5中可以看出:使用Improveaccuracy方法使得查准率有了显著的提高。这主要是Improveaccuracy方法综合运用了上面四个实验中提高查准率的四种措施,并采用扩充和约束相结合的机制,由于这些措施不是简单地堆积在一起,而是有机地结合在一起,这样做可以避免单纯使用某一技术所造成的缺陷,从而使查准率有了显著的提高。

从图1 可以看出虽然单独地采用一种措施也可以使查准率有不同程度的提高,但是综合上述措施的Improveaccuracy 方法却能显著地提高查准率。

4 与国内外同类工作的进一步比较

Yahoo等一些著名搜索引擎通过指定查询所在领域, 而该领域的限制可以显著减少无关结果的数量并且限制搜索空间,从而提高查准率。然而这种领域层次是以手工方式,至多是半自动的方式来预先确定目录的分类。而本文采用自动的方式,不仅考虑领域知识,而且考虑找出与所查询关键词以及它们的同义词相关联的词,并且使用用户访问模式来过滤掉候选关键词集中一些不符合用户要求的关键词,进而提高查准率。

在文献[1]、[2]、[3]、[5]中,主要采用对搜索所产生的结果进行进一步处理,以提高查准率。然而上述对搜索结果进行处理的方法,无论产生的效果如何,由于必须从Web上搜索一些无用信息, 因此代价总是昂贵的。而本文提出的一种新方法主要是能较好地对用户的查询请求进行处理,这样做避免了对搜索所产生的结果进行进一步处理所带来的代价较高的弊端,因此既提高了搜索的效率又提高了搜索的精度。

在文献[10]中,Microsoft公司的Ji-Rong Wen等提出一种按照查询的内容和用户的日志信息来聚类相似的查询的新方法,从而便于对FAQs进行识别。文中采用DBSCAN算法和Incremental DBSCAN算法作为核心算法来构造一个全面的查询聚类工具。然而,在查询相似性计算时,只是考虑同义词的问题,而没有考虑词与词之间的关联和如何解决词的二义性问题。而本文不仅使用自然语言的方式来描述用户所查询的问题,以利于更好的表达用户的查询意图,而且使用找出与所查询关键词以及它们的同义词相关联的词来提高查准率。

5 结束语

查准率是Web信息检索研究的一个主要难点, 尽管近些年来人们在该领域做了大量的工作。然而目前大多Web 信息检索系统研究的重点是如何对搜索所产生的结果进行进一步的处理,从而提高其查准率。如果采用上述对搜索结果进行处理的方法,无论产生的效果如何,代价总是昂贵的。为了解决上述问题,本文提出了一种新方法。该方法综合运用了一系列措施,从而既避免单独地采用一种措施查准率提高不快的缺陷,又减少了从Web上搜索一些与查询无关的信息。 这样做既提高了搜索的准确性又提高了搜索的效率。此外,该方法综合运用了数据挖掘、信息检索、自然语言、协同过滤等方面的技术,提出了多个算法,从而较好地保证了新方法的现实。目前该系统的设计思想已运用在国家863 高科技项目“Java开发环境的开发”的研制过程中,并且这一项目已通过了国家863专家组组织的鉴定和验收。

标签:;  ;  ;  ;  ;  ;  

提高Web信息检索系统精度的一种新方法_同义词论文
下载Doc文档

猜你喜欢