Web2.0环境下知识搜索引擎的开发研究_搜索引擎论文

Web2.0环境下的知识搜索引擎发展研究,本文主要内容关键词为:搜索引擎论文,环境论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

面对互联网信息量的指数级增长,传统搜索引擎存在一些固有的缺陷,例如:返回的查询结果数量过于庞大;搜索结果的直接性和针对性较差;用户参与度较低等。以“知识共享社区+搜索引擎”模式为基础的知识搜索引擎引入了Web2.0环境下的互动性和个性化特点,在一定程度上弥补了传统搜索引擎的不足①。知识搜索引擎返回的查询结果在量上更精,在质上更高;能够为用户提供直接性、针对性强的信息内容而非网页链接;为用户提供了多种交流、共享信息的手段,用户的参与度高,值得关注。

1 知识搜索引擎概况

1.1 知识搜索引擎的概念

知识搜索引擎是一种以特定的知识性资源,如知识类、娱乐类和生活类问答信息为检索对象的网络检索工具,通常基于自然语言智能查询技术进行处理和提供,用户输入简单的疑问句,搜索引擎在对提问进行词法、句法和内容分析之后,或直接给出提问的答案;或引导用户从几个可选择的问题中进行再选择;如果没有满意的答案,可确定为新问题,等待他人回答。

1.2 知识搜索引擎模式整体架构

虽然目前基于问答平台的知识搜索引擎仍然在逐步探索中,但国内外一些知名搜索引擎公司都十分关注并进行了这一模式的研发。从目前的发展看,这类系统通常包括五个部分:问题理解、信息检索、知识问答、评价监督和知识库② (见图1)。

1.2.1 问题理解模块(Question Analysis)

问题理解即问题分析,主要是对自然语言提问进行词法、语法分析,提取有价值的查询概念。传统搜索引擎也有类似的模块,但两者的检索对象不同,方法不同。传统搜索引擎面向的对象是整个互联网资源,搜索结果往往是数以万计的网页;而知识搜索引擎面向的对象是自身积累的知识库,对象比较单纯,为了能够有针对性地访问信息来源,知识搜索引擎的问题理解模块引入了分类组织方法,通过主题词分类,将问题理解过程上升到关键词的语义层次,以充分理解用户的真实请求③。如用户提问:《梅兰芳》的主演是谁?系统经判断确定“主演”一词属于娱乐电影或电视范畴,同时有“梅兰芳”作为电影名字的数据记录,就可以直接在知识库中的“娱乐”字库进行搜索。

1.2.2 信息检索模块(Information Retrieval)

在知识搜索引擎系统中,信息检索模块处于核心地位。通常在接受问题分析模块所返回的带有加权系数的关键词组(对关键词加权,表示该词在当前问题中的重要程度,例如专有名词获取的权值一般最高)后,在知识库中检索,如检测相关答案,须将检索结果按照某种规则排序返还给用户;如没有相应条目,该查询即进入知识问答模块。信息检索模块对检索结果的检全率和检准率,直接影响着用户得到的最终答案及下一步的选择。

图1 知识搜索引擎系统图

该模块所面对的不是用户本身,而是本地知识库中大量的文档信息。一般先在对该文档进行预处理(包括文档分段、分词)的基础上建立索引,以加快检索的速度;其次,该模块聚合了“人”的力量,其搜索结果的排序是关键词加权系数与用户评价系数的综合结果,用户评价的好坏和等级对输出结果的排序有直接影响④。如果说机器算法为搜索结果提供了量的保证,那么用户评价就为搜索结果提供了质的评判。信息检索模块的结构如图2所示。

图2 信息检索模块

1.2.3 知识问答模块(Question Answering)

在信息检索模块中匹配失败的问题则进入知识问答模块,此模块为用户提供了一个提问和回答的平台,可以对问题进行进一步补充说明,并由平台对问题进行自动分类或提问者手动调整分类。用户通过问答平台,将头脑中的隐性知识转化为显性知识,实现知识共享⑤。

1.2.4 评价监督模块(Evaluation and Supervision)

开放网络环境的自由特色在促进网络用户交流和知识共享的同时,也给知识产品带来了明显的负面影响,这是由于缺少了传统的“看门人”把关,导致知识产品质量的良莠不齐。因此,在Web2.0环境下,采用有效的质量评价机制至关重要。

在知识搜索引擎系统中,最关键的因素是“人”的参与。在质量评价方面,知识搜索引擎充分利用了知识网络中“人”的力量,即大众智慧的测评能力。⑥ 首先,提问者对于回答者提供的答案可以进行满意度评价;其次,对于回答,普通用户也可以直接在线上进行评论;最后,用户发现任何违反平台规则的现象都可以投诉,每个回答都有相应的纠错功能,系统管理员会迅速反应进行相应处理。由此,回答的内容质量得到了有效地反馈和监控。评价监督模块是知识搜索引擎区别于传统搜索引擎的一个特点,它不仅有助于保证开放网络环境下的问答质量,而且也有利于为用户提供有针对性的、精确的搜索结果。

1.2.5 知识库模块(Knowledge Base)

知识库就是把用户已解决的问题、答案和评价保存起来,形成检索“答案”库。对用户的提问首先在知识库搜索,如果有相应条目,即可直接检出答案,不需要经过复杂的处理,还能保证答案的质量。知识库是动态的,可以实时接受新知识,进行扩展与更新。

2 知识搜索引擎中的组织体系——以国内知识搜索引擎的具体实践为例

知识搜索引擎与传统搜索引擎提供检索的单一服务模式不同,其最大特点在于集成了多样化的问答信息和提供多种形式的服务,可根据自身内容的特点和用户需求,集搜索引擎、信息分类浏览、知识问答、社区用户收藏资源、用户交流等服务于一体,为用户提供一站式服务。其组织体系可用于:资源分类浏览、资源主题检索、与其他资源系统的检索或浏览互操作等。笔者选取了百度“知道”、新浪“爱问知识人”和雅虎“知识堂”进行案例研究。

2.1 知识搜索引擎的分类体系

笔者于2010年9月17日调查了国内三大知识搜索引擎的分类体系,结果见表1。

从上表中可以看出,知识搜索引擎的分类体系一般有10~15个类目,其划分的类目数量、类目名称、类目级次、排列次序各异,缺乏规律性。同时,其类目体系也表现出一些不同于传统分类体系的特征:以主题为中心设类,在大类设置上突出生活性类目,弱化学术性类目;类名措辞采用通俗的自然语言词汇;具有较高的动态性,每个知识搜索引擎都是根据其资源数量和用户需求的不同来建立具有不同偏重的分类体系。

2.2 知识搜索引擎的主题检索机制

知识搜索引擎的分类体系主要是为用户提供分类浏览功能,起到一个辅助作用,其核心的部分是主题检索机制。二者的结合,加快了系统的反应速度,提高了检全率和检准率。

2.2.1 检索结果排序

知识搜索引擎面对的是本系统的知识库,资源大都经过用户评价和系统筛选。相对于整个网络上的资源来说,知识库中的资源在量上更精,在质上更高。当然,知识搜索引擎在检索结果提供时,也要考虑如何在保证检全率的同时提高检准率的问题,涉及的因素包括:词频、词汇一致度、词位因素、用户评价等级和提问时间等。前三个因素与传统搜索引擎一致,其最大的特点在于“用户评价等级”的引入,用大众参与的形式实现了对资源的有效筛选,颠覆了搜索结果按一定规则累加的工作模式。“从堆到筛”的改变不仅提升了用户搜索的效率和质量,还绕开了搜索引擎因数据高速膨胀而导致的技术发展瓶颈。另外,知识搜索引擎还充分考虑了资源的时效性,将“提问时间”也作为搜索结果排序的一个重要因素。

2.2.2 检索结果优化

知识搜索引擎大多采用了一些缩小或约束检索结果的方法,对检索结果进行一定的限定。这种限定可以看作是一种变式的高级搜索形式,通过限定检索问题的性质,过滤一些不必要的资源,提高检准率,节省用户的时间和精力。比较国内三大知识搜索引擎,都对搜索范围做出了不同详略程度的限制,详见表2。

从表2可以看出,百度“知道”只提供了对问题性质的限定;新浪“爱问知识人”提供了问题性质和提问时间两个层面的限定组合,其限定因素可以交叉组配。雅虎“知识堂”提供了三个层面的限定组合,一是对问题性质的限定;二是每一种性质的问题都有特定的、与之对应的检索结果排序方式。例如:对于“提问中的问题”,用户可以选择三种检索结果排序方式:“相关性”、“发问时间”、“赠分数”;三是在动态聚类的基础上,提供检索提问所属的类别及资源数量。如检索提问为“如何美白?”,系统自动聚类后提供了检索提问的特定分类,分别在“美容时尚”、“保健常识”、“女性”等大类。目前,只有雅虎“知识堂”在返回检索结果的同时,给出了其分类体系,用户可以根据自己感兴趣的方面来选择特定分类的搜索结果。

3 知识搜索引擎的发展展望

在Web2.0的环境下,知识搜索引擎的出现弥补了传统搜索引擎存在的种种缺陷,满足了用户个性化、社区化的新需求。但是,知识搜索引擎还处于摸索阶段,很多方面还存在不足,需要不断改进和优化。

3.1 在分类体系中引入Tag的应用

在知识搜索引擎的分类体系中,热门类目具有突出显示的特点。所谓热门类目,是指用户最需要的、被频繁使用的那些类目。⑦ 将热门类目突出列举,这样做的好处是使用户在浏览中迅速进入感兴趣的类目,并把一些按逻辑等级在知识树中比较隐蔽的信息揭示出来。但突出列类影响了分类导航系统的逻辑性,导致热门类目下的资源数量增长过快,影响类目之间的均衡性。

为了解决热门类目突出显示所引发的类目发展不均衡问题,笔者建议在知识搜索引擎的分类体系中,引入Tag(标签)的应用。具体来说就是在分类体系外增加一个标签表,以供用户进行专题检索。其作用在于:一方面,由于人类社会涉及的领域十分广泛,问答用户常常会遇到不知该将信息划分到何种类目下的困惑。Tag具有较强的灵活性,用户可以根据自己的理解对问答信息进行标签设置,具有相同Tag的问答信息被自动聚合在一起。另一方面,热门类目可以在标签表中集中显示,而在原分类体系中的位置保持不变,并运用字体、字形、色彩等屏幕显示技术进行突出显示。

3.2 检索来源——本地知识检索和搜索引擎检索相结合的多级检索

目前,大多数知识搜索引擎都将检索来源限定在本系统构建的知识库中,笔者认为这样会导致检索来源的受限,不能充分满足用户的检索需求。笔者建议知识搜索引擎充分利用网络资源和其他知识共享平台,采用本地知识检索和搜索引擎检索相结合的多级检索。

多级检索需要包括以下检索来源:首先,充分利用维基百科,建立一个常识库,对一些常识性问题进行快速检索;其次,面向本系统和其他问答系统中已经确定答案的问题,建立一个知识库,用于快速检索常问问题;最后,对于依然没有检索到的问题,一是进行Internet检索,抽取可能的答案;二是选择提出新的问题。国内三大知识搜索引擎检索来源和范围的对比详见表3。

3.3 检索形式——有效的提问去重机制和高级检索

在调研中,笔者发现大多数知识搜索引擎只提供了模糊的简单检索,检索结果数量庞大且内容重复现象严重。笔者以“怎么清洗羽绒服?”在新浪“爱问知识人”搜索,结果竟然有901条,而且前100条结果中就有78条完全相关的答案。使用同样的检索问句,在百度“知道”得到339条结果,在雅虎“知识堂”得到255条结果。可以看出,三大知识搜索引擎都面临同样的问题:用户进行搜索后,得到的是大量千篇一律的回答,问答信息内容重复的现象相当严重。

通过对三者检索形式的比较分析,笔者认为造成问答信息内容重复的原因主要有两个方面:一是缺乏有效的提问去重机制,二是缺乏高级检索方式。详见表4。

综上所述,笔者认为解决问答信息内容重复的问题可以从两方面入手:第一,建立有效的提问去重机制。一是在提问流程方面,引导用户“先搜索再提问”,例如在系统首页只提供搜索输入框;二是将相似问题展示融入到提问流程中,用户输入提问后,系统在页面的明显位置自动推送出已有的相似问题,加强提示效果。第二,增加高级检索功能,提高查准率。例如:按词语搜索、按类别搜索、按正面评价搜索等。

3.4 检索结果优化——分类体系与主题检索机制结合

近年来,知识搜索引擎发展迅速,随着访问量和问题增长速度的提高,知识库中积累的问答信息量十分庞大,百度“知道”的问题数量已上亿。⑧ 面对如此海量的数据,如何提高搜索精度、减少噪音、优化检索结果是目前知识搜索引擎所要解决的新问题。

笔者认为分类体系和主题检索机制的有机结合是提高检索准确率的重要手段,通过对搜索范围的限定,过滤用户不需要的信息。一种方法是在一个类目下进行自然语言搜索,把结果限定在本类的范围;另一种方法是在检索结果中引入分类法,将检索结果分类编排。这样,用户就可以利用分类迅速筛选结果,减少逐条查看结果之苦。

4 结语

知识搜索引擎的组织体系主要有两大特点:一是在整个知识组织过程中重视“人”的因素。主要体现在:在信息检索模块,用户对问答的评价等级是影响搜索结果排序的重要因素之一;在评价监督模块,用户的参与在一定程度上保证了开放网络环境下的问答质量;二是在主题检索机制中引入分类组织的思想。主要体现在:在问题理解模块,通过主题词分类明确了具体的数据源范围;在检索结果优化中,通过对检索结果的分类编排和Tag应用,更加精确地定位用户的信息需求。总之,知识搜索引擎在组织和检索中显现的这些新特点值得关注,对探索未来搜索引擎的社区化模式发展来说也具有启示和借鉴价值。

注释:

① 高雯雯,杨木锐.知识搜索引擎探究.图书情报工作,2006(10):87-89

② 雅虎知识堂帮助中心.http://help.cn.yahoo.com/property_pknowledge.html,2010-10-15

③ 百度“知道”帮助中心.设置问题分类.http://www.baidu.com/search/zhidao_help.htm,2010-10-15

④ 田晓萌.基于搜索引擎的知识问答平台研究.北京:北京大学信息管理系,2005

⑤ 王春晓.知识搜索引擎比较分析.图书馆学研究,2009(1):47—49

⑥ 知识搜索——亚洲人的搜索方式.http://blog.donews.com/evanli/archive/2006/04/13/826385.aspx,2010-10-12

⑦ 张琪玉.网络信息检索工具的热门类目.图书馆杂志,2002(8):28-29

⑧ 百度“知道”首页.http://zhidao.baidu.com/,2010-10-18

标签:;  ;  ;  ;  ;  

Web2.0环境下知识搜索引擎的开发研究_搜索引擎论文
下载Doc文档

猜你喜欢