Word列表在网络信息检索中的应用分析_信息检索论文

Word列表在网络信息检索中的应用分析_信息检索论文

词表在网络信息检索中的应用分析,本文主要内容关键词为:词表论文,信息检索论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在传统的情报检索领域,词表即指主题词表。主题词表是结构化的受控词表,是后组式的检索语言,它可以清晰和系统地标示自然语言词汇间的基本语义关系(同一、等级和相关关系)。主题词表是对文献信息进行主题标引和检索的依据。在网络环境下,词表已发生了深刻的变化,不再局限于传统手工信息组织时期印刷型词表工具的单一模式。传统词表的相关原理和技术在网络环境下融会贯通,借助于计算机和网络技术的推动,词表的编制和应用都呈现出新的面貌。词表已不单单指结构化的受控词表,词表的类型更加丰富,除了标题表、叙词表以外,网络环境下还涌现出了如一体化词表、禁用词表、关键词表、同义词表和反义词表等诸多主题法的词表工具。词表在网络信息检索及自动标引等领域得到广泛应用。

1 词表在网络信息检索中的应用现状

1.1 传统受控词表的应用

1.1.1 标题表的应用 美国国会图书馆标题表(Library of Congress Subiject Headings,LCSH)是目前世界上影响最大、使用最多的综合性主题词表,在当今图书馆主题编目工作中占有重要的地位。在美国国会图书馆的网站上,主要提供两种主题检索方式,一种是直接利用关键词对网上书目数据库进行检索;另一种是主题词检索,这种主题词检索是建立在LCSH的基础上的。使用这种检索方法时,用户只需用自然语言表达出所要检索的概念,系统就会自动反馈与之相符或相近的标题词,帮助用户进一步精确检索。

LCSH还被应用于一些网络信息检索系统。采用LCSH的检索系统有:BUBL Link (http://bubl.ac.uk/),INFOMINE (http://infomine.ucr.edu/),Scout Report Signpost (http://www.signpost,org/signpost/index,html # lcsh),Cooperative Online Resource Catalog (CORC) (http://www.oclc.org/oclc.core/index.htm) 等。

另一著名的标题表是《医学标题表》(Medical Subject Headings,MeSH),是由美国国立医学图书馆开发的。MeSH包含的是指导检索的规范化的生物医学术语,提供完全不同于关键词匹配的检索。《医学标题表》浏览器(MeSH Browser)是在因特网上利用电子版MeSH来查找某领域规范的描述词,以便检索MEDLINE及其相关数据库的必备工具。MeSH Browser提供输入检索词搜索与树形结构表浏览两种方式,帮助用户确定所需的主题词及相关词。MeSH还是一个非常有效的检索工具,被广泛应用于国内外的医学数字图书馆和网络数据库系统。采用MeSH的系统有:CliniWeb International (http://www.ohsu.edu/eliniweh/),Diseases,Disorders and Related Topics (http://www.mic.ki.se/Diseases/index,html),PubMed (http://www.ncbi.nlm.gov/thesfiml,htm)等。

1.1.2 叙词表的应用 叙词表有以下几种应用。

1)联机叙词表的应用。因特网上出现了许多联机叙词表,它是独立于检索系统而存在的网络信息检索工具,可同时供联机编目人员和网络信息用户使用。联机叙词表的检索途径有浏览检索和提问检索两种,主题词表浏览方式一般包括字顺浏览和等级分层式浏览。单语种的词表占多数,也有少量多语种词表。比起印刷版叙词表,它更能适用于网络信息的组织与检索的需要。目前,因特网上有很多联机叙词表提供在线服务,如:UNESCO Thesaurus(语种:英、法、西)(http://www.ulcc.ac.uk/unesso/),The Astronomy Thesaurus (语种:英、法、德、西)(http://msowww.anu.edu.au/library/thesaurrs/),AGROVOC Thesaums (FAO) (http://www.fao.org/agrovocl)等。

2)叙词表在网络数据库中的应用。叙词表大量地与网络数据库系统结合使用,为其充当全文检索系统的后控制词表子系统。叙词表的使用对数据库检索质量起到了较好的语言保障。从叙词表与数据库检索系统的关系来看可以将叙词表分为两种,一种是独立存在的,可以供多种不同的数据库使用,如《ASIS图书馆学与情报学叙词表》;另一种则是嵌入数据库检索系统中成为检索系统不可分割的一部分。这些数据库的一次文献大多是期刊论文、会议论文、研究报告等,再标引时采用相应的叙词表,在检索时提供专业词表挂接的辅助检索功能。如美国教育资源信息数据库使用《ERIC主题词表》,英国国家数字档案馆使用《UNESCO叙词表》,STI数据库使用《NASA主题词表》,UMI数据库使用《ProQuest受控主题词表》,国内巨灵公司“中国财经报刊数据库”使用的是《经济类主题词表》等。

3)叙词表在搜索引擎中的应用。目前,大多数搜索引擎都采用关键词检索,仅有少量搜索引擎提供了叙词表方式的网络信息资源检索。叙词表在这种搜索引擎中的应用主要是辅助选词和检索式的扩展,其主题词检索途径也只是对关键词检索的补充,检索方式是利用叙词表进行检索词的等级结构浏览,并把选中的叙词送到关键词搜索引擎进行检索,搜索引擎的检索机制并未改变。如美国国防部的Center for Army Lesson Learned(CALL)系统,该系统使用CALL字典和军事词汇主题词表。在检索界面上,用户可直接浏览叙词表,选中主题词后向Alta Vista发出检索提问,用户可以在Alta Vista检索界面中修改检索提问。

1.2 同义词表的运用

网络信息检索的实践表明,由于自然语言中存在大量的同义词、近义词,用户检索时很难全部列举出表示同一概念的不同词汇的表达形式,因而在检索时容易造成漏检。同义词表的运用可以解决检索系统的漏检问题,实现系统的同义扩展检索,提高检全率。目前,有些网络信息检索工具除了支持同义词扩展检索外,还支持近义词扩展检索,具有这一功能的检索工具借助于同义词扩展词表,对用户输入的检索词自动添加同义词和近义词。搜索引擎Excite就是采用这种理论设计的。Excite在处理检索词时使用了“智能概念提取”技术,Excite认为词与词之间尽管不同,但逻辑上可能存在一定的关系,一个词可能有多个同义变形词。为此,Excite构建了一种词表,用一定的方式表示词汇间的相互联系。在标引网页时,Excite不仅对这个网页进行全文索引,而且还将它与其他讨论相同或相关问题的网页联系起来。在检索时,Excite不但能直接检索用户输入的检索词标引的网页,也能检索出那些虽然没包含用户检索词,但包含了与这些检索词相关的其他词汇的网页。例如,在Excite中输入检索词“elderly people”,系统将含有“old people”,“needs of the elderly”,“help the aged”,“senior citizens”,“age concern”,“care of the elderly”,“stereotypes of elderly people”,“home help”等与检索词概念等同或相关的信息返回给用户,供用户进一步检索。类似的扩展检索在英文搜索引擎“Google”,中文搜索引擎“搜狐”和“百度”中也有应用。

1.3 一体化词表的运用

一体化词表,又称分类主题一体化词表,是指对分类表和主题词表的术语、参照、标识、索引四部分实施统一的控制,从而能够同时满足分类和主题标引、检索的需要。近年来,国内外对一体化词表的研究为分类、主题一体化检索系统的建立奠定了基础,其模式大致分为4种:分面叙词表模式、叙词表索引模式、分类表—叙词表对照索引模式以及集成词表模式。一体化词表实质上就是一种实现了分类语言和主题语言兼容互换的系统。随着网络技术的迅速发展,一体化词表的应用越来越广泛,它不仅用于文献信息的检索而且也用于网络信息的检索,是网络信息检索系统提高检索效率的语言保证。美国国立医学图书馆(NLM)研制的一体化医学语言系统UMLS就是一个成功的典型。该系统由超级叙词表、语义网络、信息源图谱和专家词典4个部分组成。其中超级叙词表是生物医学概念、术语、词汇及其含义、等级范畴的广泛集成。语义网络是为建立概念术语间相互错综复杂的关系而设计的,它为超级叙词表中的所有概念提供了语义类型及相互关系结构。信息源图谱是关于生物医学机读信息资源的数据库,其中对记录的标引也应用超级叙词表和语义网络。专家词典则包含有英语词汇数据库和UMIS知识源建立、发展和维护经常要使用到的一组词典程序和词索引程序。UMIS不仅实现了情报检索语言中字、词、术语、概念、语义和语用的一体化,而且实现了各类型情报检索语言一体化、分类检索语言与主题检索语言一体化、各文种检索语言一体化及各种功能一体化,从而实现了人工语言和自然语言的和谐统一。

1.4 禁用词表的运用

禁用词表也称停用词表,英文表达为“Stop List”或“Stop Words”,是指检索系统中通过罗列非检索用词来排除无检索意义的语词的词表。它的主要作用是剔除用户提供的短语或句子中无检索意义的字词,缩小查询范围,提高检索速度。禁用词表收录的词主要包括:①自然标点符号。如逗号(,)、句号(。)、引号(“”)、破折号(——)、冒号(:)、分号(;)、书名号(《》)等。②没有实际检索意义的词。中文的虚词、助词、连词。如“的”、“与”、“之”、“或”、“以及”、“也”等。英文的冠词、介词、助词、连词、代词等。如a(an)、the、of、by、to、and、this、that等。禁用词表广泛应用于自然语言检索系统。

1.4.1 在搜索引擎中的应用 Google对一些网络上出现频率极高的中英文单词(如“的”、“the”“http”、“coin”、“WWW”等)及一些符号(如“*”、“.”等)予以忽略(使用英文双引号可将这些忽略词强加于搜索项),如在下例中实际忽略了“WWW”和“的”两个词。

搜索:“WWW的历史因特网”。

结果:以下的字词太常用,因此未列入搜索范围:WWW的。

1.4.2 在网络数据库检索系统中的应用 很多网络数据库利用禁用词表作为改善自然语言检索的辅助工具。如综合性学术期刊数据库ProQuest Research Library的禁用词表就共有102个单词,通常proQuest会忽略这些常用词。Elsevier Science出版公司的全文电子期刊Science Direct On Site 的禁用词表收词98个,如表1所示。

表1 Scienee Direct On Site的禁用词表

a about after

all

alsoan

andany

are asat be

becausebeen between both but by

cancould do each evenfirst

forfrom had has

havehe

herhis

how I if in

into

isit its

justlast

like

many may more mostmuch

newnonot now

of on

oneonly or other our out

over s(复数)

saidsays she should

so some suchthan thatthe

their them there

these theythis

those three through totwo up

usewas

we well werewhat

when

which while

who

willwith

would you

2 网络信息检索中词表的应用分析

2.1 词表是提高自然语言检索效率的有效工具

在传统的文献检索领域,词表是用以提高检索效率的必要和有效的工具,而在网络信息检索中,使用词表仍然是一种有效的辅助手段。词表的作用归纳如下:

1)帮助用户选择合适的检索词,确定检索词之间的逻辑关系,从而构造出较为准确的检索式,方便用户进行扩检和缩检。词表是信息检索系统中用来反映概念间语义关系的专用词表,词表中的语义关系包括等同关系、属分关系和相关关系,使用词表可以向用户提供检索入口词的同义词、近义词或与检索主题相关的其他词汇,词汇差异问题可以得到一定的控制。以美国教育资源信息中心(ERIC)数据库系统为例,该系统中挂接有ERIC Thesaurus词表的查询系统,词表系统参照体系比较完善,包括USE、UF、RT、NT、BT,主要目的是帮助用户确定合适的检索词,以便进行扩检、缩检。

2)信息过滤作用。在网络信息检索中,禁用词表作为主题词表的一种,其作用与受控词表、同义词表、一体化词表有所不同。从检索全过程来看,受控词表、同义词表、一体化词表可以看作是一种后控手段,而禁用词表可以看作是一种反控手段,在用户使用检索工具和访问信息服务系统时,可作为“过滤”用户检索表达式的一项工具。在排除禁用词的基础上,使用句子中的关键词检索,从而加快查询速度,提高检索效率。

2.2 词表的检索性能更趋完善

传统印刷型词表的检索性能并不突出,查询方法非常简单,或借助辅表,或直接手工翻阅和浏览。在网络环境下,词表借助于计算机和网络技术,进一步改善查询和使用性能,为网络信息用户提供交互式的检索服务。词表系统针对不同的用户群设计不同的检索界面和检索方式。检索界面有关键词基本、高级检索界面,主题检索界面。检索方式有:①提问检索;②浏览检索(字顺浏览、等级体系浏览)。

2.3 词表是人工后控手段在网络信息检索中的体现

目前,网上信息检索基本都采用基于关键词匹配的全文检索技术。由于缺乏对标引词和检索用词的控制,同义词和多义词问题在基于关键词自动化全文检索中更加突出。用户检索时可能会导致以下问题:①词间关系含糊不清,无法清楚地显示概念间的关系,容易造成检索失误。②用户难以确定全部检索用词,不仅加重用户的负担,同时也会降低检全率。虽然大多数网络信息检索工具都采取了增强关键词检索功能的措施,如:布尔检索、限定检索、加权检索、截词检索等,这些措施对改善关键词检索功能起到了一定的作用,但词汇差异问题仍没有得到解决。

实践证明,在网络信息检索中引入人工语言的控制原理,采用“标引不控制+检索控制”的检索模式,通过后控词表,充分发挥人工语言和自然语言的优势,可以达到提高检索效率的目的。因此,许多研究机构纷纷把现有词表编入计算机检索系统作为检索辅助手段,借助于词表的语义关系,对自然语言中大量存在的等同、等级、相关关系进行控制和提示,向检索中的用户建议可供选择和替换的检索词,检索效率大为提高。

2.4 词表在网络信息检索应用中的不足

尽管词表在网络信息检索中得到广泛的应用,并在一定程度上提高了网络信息的检索效率,但仍存在明显的不足,主要表现在:①词表网络应用的范围与深度受到限制。现有词表大都以挂接在专业数据库检索系统的方式为用户提供主题检索服务,词表通常反映较为通用的主题领域,词表在搜索引擎中的应用甚为少见,仅有部分搜索引擎引入同义词表,提供类似同义词扩展检索的功能,但词汇的控制力度较少。②词表的运用在一定程度上增加了用户的认知负担。现有词表的格式、结构和检索界面多种多样,不利于词表的交互使用。系统对用户的检索水平要求较高,专业用户和非专业用户的检索效果差距很大,用户花很多时间可能找不到任何信息,这在一定程度上加重了用户的认知负担。而要改变这种现状,积极研究基于因特网的词表检索系统甚为必要。

收稿日期:2005-09-12

标签:;  ;  ;  ;  ;  ;  ;  

Word列表在网络信息检索中的应用分析_信息检索论文
下载Doc文档

猜你喜欢