形容词在网络环境中的应用_搜索引擎论文

叙词在网络环境中的应用,本文主要内容关键词为:环境论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G254

一、概述

叙词(描述词或叙述词)是主题词的一种,它是一些以概念为基础的、经过规范化的、具有组配性能、能显示词间语义关系和动态性的词或词组,是描述文献主题的一种标识符。一般来说,叙词语言的参照系统和索引系统都比较完善,以多种方法来显示概念之间的关系,有利于科学地组织和管理网络信息资源。自上世纪60年代以来,叙词语言得到了广泛的应用。

目前,网络信息技术的迅猛发展,信息量急剧增加,国际间的信息交流以前所未有的速度进行,为适应现代信息表示和检索的需要,叙词利用了超文本技术以及其他研究领域中的成果,在网络信息资源组织中叙词仍然得到十分广泛的应用。本文主要总结了叙词在网络信息资源检索中三种应用模式:1.直接利用叙词进行标引和检索网络信息资源;2.基于关键词检索的搜索引擎利用叙词进行检索式的扩展;3.利用叙词对其他词表(例如其他语言的叙词表、标题词等)以及分类法进行兼容互换以实现交叉检索。

二、叙词在网络环境中的具体应用

1.直接利用叙词进行标引和检索网络信息资源

在这种检索系统中,网络信息资源需要人工进行选择和收集,并且描述其网络文本的实际存储地址,人工给网络文献赋予叙词,即人工进行叙词标引。大多数情况下系统会把叙词以字顺或等级层次的格式直接显示在检索系统的界面上,以便检索者浏览并选择合适的检索词,检索者也可以直接在检索框中输入词或字母,检索系统根据输入的词再转换成所对应的叙词,然后检索系统用叙词对所收集的网络信息资源进行检索。

这种检索系统有很多,例如各种网关:SOSIG(Social Sciences Information Gateway)、OMNI(Medical Networked Information)等;应用HASSET(Humanities And Social Science Electronic Thesaurus)的BIRON检索系统;英国的EDUCATION-LINE也是利用叙词实现对有关教育研究、政策和实践等方面的会议文献以及其他的电子文献的标引和检索。值得一提的是在EDUCATION-LINE中所采用的叙词表并不是利用已经出版过的叙词表而是根据系统中收集的数据而编制成的(British Education Thesaurus)。

在EDUCATION-LINE中,一个完整的检索过程包括三个步骤:第一步是叙词浏览(browse thesaurus),在文本框中输入单词或一个单词的开始几个字符,计算机自动搜寻叙词表中对应的叙词以及该叙词的各种组配概念词。第二步选取领词(lead term):在叙词浏览表中选取一个词或该词的概念组配词作为领词。通过浏览按钮则可以浏览到该叙词的各种语义关系。第三步是检索,根据选取的领词检索到用该叙词标引的网络文献。

例如需要检索有关“教学方法”(teaching method)方面的资料,以method作为叙词浏览的入口词,在检索文本框中输入该词。按下浏览后,系统自动寻找叙词表中的含有“method”的叙词,检索结果按字顺排列。再在检索显示结果中选择含有“method”的叙词作检索领词,如:METHODS:TEACHING,按下浏览按纽,在浏览界面的列表框中将显示该叙词的所有语义关系如:用代词[UF],上位概念词[BT],下位概念[NT],相关词(RT),语义关系能帮助明确事物概念。如需要寻找“教育方法”方面的资料,可选择TEACHING-METHODS的上位概念叙词educations methods做领词再进行检索。如需要扩检,可以通过选取该叙词的相关词作检索词,在叙词列表框中选择TEACHING METHODS的下位词做领词可以找到概念更专指的记录,总之可以实现缩检和扩检的目的。

另外在EDUCATION-LINE的叙词列表中,系统自动地标注了每个叙词标引的网络文献数。这是进行扩检的重要依据,对于一些集中文献较少或没有文献的叙词一般不选作检索词,即领词。如果同时选择多个叙词作为领词,系统自动进行逻辑或操作,这可增加检索记录量,达到扩检目的。

检索结果将显示所有命中文献标题的超连接,通过点击该标题可以获取全文本。

这种叙词检索系统也存在自身的不足:为了使系统中叙词达到很好的标引和检索效果,就必须对检索系统所涉及的领域内的叙词收集提出很高的要求;叙词的选词和建立词间关系要求情报界和专业领域内的专家们来完成;随着社会的不断发展,知识和语言的不断进化,叙词要不断地得到更新,而词表的维护是一件很费时和费力的事情。以上几点都制约了网络检索系统中直接采用叙词标引的应用。

2.叙词在搜索引擎中的应用

目前大多数的综合性搜索引擎都是采用关键词搜索,叙词在这种搜索引擎中的应用主要是辅助选词和检索式的扩展。针对某一个概念,检索者可根据检索界面中显示的叙词表进行选词,把选取的叙词分别放入搜索引擎中进行关键词搜索,但搜索引擎的检索机制并没有改变,仍然是采用关键词检索。

搜索引擎中应用叙词主要有以下一些特点:首先,资源集合中的文档资料不采用专门的受控词——叙词进行赋词标引,而是采用全文标引或文档部分标引。由于全文自动标引技术已经很成熟,对资料集的处理基本上可以自动完成,标引不需要由情报界和专业领域内的专家们来完成,甚至不需要人工参与,这可以节约大量的人力,同时也提高了资料集的处理速度和处理量。其次,检索时不管输入的是叙词还是其他词,搜索引擎把输入的词当成是关键词,例如可以在检索框中输入非叙词“of”,检索系统将会把资源集中的含有“of”的文档当成结果输出到检索结果集中。第三,叙词和检索系统一般是各自独立的,叙词表的维护对检索机制并不产生直接的影响。例如当对叙词表中增加了叙词,并不需要用新增的叙词对资料集中的各相关文档进行赋词标引。

CAB Thesaurus检索中的“Export To Search Engine”(输出到搜索引擎)功能就是叙词在关键词搜索引擎中具体应用。

CAB Thesaurus主要收集应用生命科学方面的叙词,包括农学、园艺、作物保护、动物产品、林学、自然资源管理、食物安全、传染病等25个领域。

利用CAB Thesaurus中的叙词在关键词搜索引擎进行关键词搜索包括两个具体的过程:CABthesaurus检索;将叙词表中的叙词送到关键词搜索引擎进行检索。

(1)CAB Thesaurus检索

进入http://194.203.77.66/Search.asp,在“enter term”的文本框中输入需要检索的词,叙词的检索结果显示界面由三个框(frame)组成:term index(款目索引框),它主要显示检索的结果,并按字母排序,要了解某叙词的具体词间关系则需要在框中选取叙词。选词后,broader term and narrower term(上位款目和下位款目框)会显示该词的上位词和下位词(可多个下位词或多个上位词),在最右边的termde details and relationships中显示该叙词的相关关系。

例如需要检索农业政策方面的内容,在检索框中输入“agricultural”,并按下“search CAB thesaurus”按钮,系统将在最左边的显示框中将显示含“agricultural”的叙词排序。按字顺找到“agricultural policy”并点击,在系统的中间框中显示了agricultural policy的上位词和三个下位词,在右框中显示了agricultural policy的相关词。

(2)选取叙词至搜索引擎中进行关键词搜索

从检索界面中可以看出该叙词的词间关系,如果需要检索网络中包含有“agricultural policy”的网络文献,可以通过点击,选中该词,并按下检索界面中的“add to search query”按纽,系统将自动把该词送入关键词检索界面中去。

在关键词检索界面中,可从下拉框中选取综合性搜索引擎(google,alta vista,msn),默认是在google中进行搜索,当按下“submit tosearch engine”后,系统将选取的叙词当做关键词在google中进行检索。另外还可以对检索词进行简单的逻辑运算(如“or”、“not”、“and”)。

农业政策这个概念的表达可以用不同的词,一般的关键词搜索引擎的使用者很难选取合适的词,通过叙词表检索和关键词检索的集成可以很好地克服这个困难,检索者对某一概念很容易地采用不同的词检索。叙词的这种应用并没有克服关键词检索的缺陷。

3.实现不同词表之间和分类法兼容互换交叉检索

交叉检索不单单是多语种叙词之间的叙词检索,而且指叙词和主题词表以及分类法之间的兼容互换,以便通过主题途径来实现交叉检索和浏览,下面就以英国的HILT(High-Level Thesaurus Project)为例来简要说明。

“High Level Thesaurus”并不是重新编制一部包含所有主题领域的叙词表,而是研究在网络环境下(具体来说跨部门跨领域的环境下),如何利用现有的主题表、叙词表、分类法等通过相互之间的映射使它们联系起来,HILT项目的参加者有档案资料界、博物馆、图书馆以及其他一些单位。调查发现:以上部分参加单位的图书资料的分类、标引所采用的词表和分类法如下表所列:

从表中可以发现,不同的部门采用了不同的分类法和词表,就是都采用叙词标引,其叙词表也不相同。在网络环境下,如果只通过一种词表能不能检索到其他部门中的相关资料?叙词之间的映射是一种很好的解决办法。如图:

检索时其匹配过程如下:

叙词表之间可以采取图中所采取的映射,叙词、分类法以及主题词之间又如何建立联系呢?同样也是采用互换的办法,包括一对一的映射和一对多的映射。如下例:

One to one mapping

UNESCO(United Nations Educational,Scientific and Cultural Organisation)to DDC(一对一的互换)

·Abandoned children对应305.906945 Abandoned children

·Abbreviations对应401.48 Abbreviations

·Ability对应153.9 Intelligence and aptitudes

·Ability grouping对应371.254 Homogeneous grouping

One to many mapping(一对多的互换)

Abortion 179.76 Abortion(ethics)

294.356976 Abortion (ethics-religion-Buddhism)

304.667 Abortion(demographic effects)

342.084 Abortion(law and comprehensive works)

342.085 Abortion(rights of fetuses)

342.0878 Abortion(rights of women)

344.04192 Abortion(medical law)

363.46 Abortion(social problems)

363.96 Abortion(birth control)

364.185 Abortion(criminal offences)

615.766 Abortion(drugs causing)

618.392 Abortion(spontaneous)

618.88 Abortion(surgical)

在HILT项目中的叙词表都采用这种互换的方式进行对应,当用户直接用关键词(自由词)进行检索时,系统先把关键词转换为本地叙词表中的叙词,由于叙词已经和分类法建立了对应关系,不管信息源是采用分类法或其他叙词标引都能被检索出来。而叙词在这种系统中起着连接两头的重要作用。

三、结束语

叙词曾经在传统信息资源的组织和检索中得到广泛应用,在网络环境下叙词也并没有被信息组织者和检索者所忘记,国外同行们对于叙词以及叙词的应用方面的研究一直没有停止过,并且取得了很大的成功,已有不少成功的实例和应用方式,叙词仍然在情报检索中有重要的应用价值。

目前,我国在网络环境下叙词应用得非常少,图书情报界编制的大量词表目前仍然是书本的形式存在,叙词的应用也基本停留在传统的信息检索方面,有的叙词表在传统信息检索方面也应用不多。借鉴国外先进的研究成果,积极开展叙词在网络环境下的信息检索在我国是十分必要的。

标签:;  ;  ;  

形容词在网络环境中的应用_搜索引擎论文
下载Doc文档

猜你喜欢