英语电子百科全书检索系统_自然语言论文

电子版英文百科全书的检索系统,本文主要内容关键词为:英文论文,百科全书论文,电子版论文,检索系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

百科全书的检索系统直接关系到其使用价值,是评价百科全书的重要标志之一。印刷版英文百科全书在长期发展过程中,检索系统逐渐趋于完备,人们对其的认识也趋于成熟。进入90年代以来,电子版英文百科全书的种类和数量不断增加,许多著名的英文百科全书都有相应的电子版,单独出版的电子版百科全书也并不少见。笔者认为有必要对其检索系统进行系统研究和揭示,分析其特性,以利于广大用户迅速掌握其特性并方便地利用。

与印刷版英文百科全书比较,电子版英文百科全书的检索系统仍可分为两个子系统,即基本检索系统和辅助检索系统。前者可以说是索取资料的正门,表现为首页所提供的各种检索方式和检索入口;后者则可视为对首页所提供的检索系统的补充和深入,这主要表现为索引、参见、目录、超文本、布尔逻辑、自然语言等检索系统。

(一)基本检索系统

H.肯纳说:“百科全书……把我们所掌握的知识分为若干小块,然后将这些小块排列起来,以便可以分别找到它们。”印刷版百科全书是这样,而电子版百科全书的这一特征就更为明显。就总体而言,电子版英文百科全书的基本检索系统是在印刷版的基础上发展起来的,表现为首页(Homepage)所提供的各种检索方式与检索入口。这两者相辅相成,交替使用,共同构成了电子版英文百科全书(下简作“电子百科”)的基本检索系统。

1.检索方式

电子百科在首页上提供可选择或键入词语的相对区域,让用户选定检索方式。这有两种表现形式:一是在相应的区域显示对应特定检索方式的词、字符供选择;二是在相应的区域提供可供键入各种字符的空间,从而达到选择检索方式的目的。通常电子百科的检索方式有两种类型。

(1)条目列举方式

条目列举方式是将电子百科的条目依据一定规则完全列举出来供选择的检索方式,常用英文Contents(条目一览),Browse(浏览)等词表示。一般讲,它主要依字顺或知识体系将条目一一排列,其特点是易于从头至尾浏览各条目的标题,如欲选择某条目,只需轻击鼠标便可获得正文;其局限性是不利于从所需检索的词入手,或无法检索到与某检索词相关联的有用信息。如Grollier Multimedia Encyclopedia 1996(《格罗利尔多媒体百科全书1996》,以下简称GME96)的Browse功能有两种列举方式:第一种是"All"(所有)条目列举方式,即将书中的所有条目依字顺全部排列出来。第二种是"Custom"(分类体系)列举式,如击鼠标选中该方式后便出现Gategory(类别):

○All(全部)

○Geography(地理)

○History(历史)

○Language literature(语言文学)

○Life Sciences(生命科学)

○Performing Arts(表演艺术)

○Physical Sciences and Math(数理科学)

○Society and Social Sciences(社会与社会科学)

○Sports,Games,Recreation(运动,游戏,娱乐)

○Technology(技术)

○Visual Arts(视觉艺术)

在类别下还分有次级类别。选中某类别后击鼠标,便展现出该类下的次级类别。如选中“历史”类后,便出现以下次级类别:

Sub-category(次级类别)

○U.S.History(美国历史)

○…(等等)

这种方式比较便于从知识体系方面寻检知识,具有系统性较强的特点。

(2)字词检索方式

字词检索方式是用户根据自己的检索需要利用键盘输入欲查检知识的主题词或有关词汇从而获取知识信息的检索方式,英文常用Search或Find来表示。在不同的百科全书中,这两个词汇时而通用,时而含义各有不同。相同时,无论使用Search还是Find,均可检索到与该词相关的条目,如Bookshelf1995中的Find与Compton'sMultimedia Encyclopedia(《康普顿多媒体百科全书》,以下简称Compton's)中的Search即属此类;不同时则有不同的检索结果,如用户键入Library一词,在Search方式下,可检索出与Library相关、相近的词条以便于系统研究利用,而在Find方式下,则只检索出与Library直接关联的单个条目,只有Li-brary一词,无任何相关词条。

2.检索入口

检索入口即是电子百科在首页提供给用户选择的检索途径。不同的电子百科有不尽相同的检索入口。比如,Compton's提供给用户的检索入口有七个:美国历史大事年表(The U.S.History Timeline),主题树(The Topic Tree),专题检索(The Search),标题一览(The Finder),科技条目(The Science Feature Article),世界地图集(The World A-tlas),图片漫游(The Picture tour)。GME96则提供了六个检索入口:条目(Articles),声像(Gallery),地图集(Atlas),大事年表(Timeline),卓越成就者(Pathmaker),年鉴(Yearbook)。以文本式条目为主的《不列颠百科全书》(Britannica CD)的检索入口则与其印刷版有着相似之处,比如用户可通过正文索引、百科类目进行检索;不同之处是Bri-tannica CD还补充提供了以国家名称为检索入口的途径以及条目浏览(Random Article)、图片漫游(Picture tour)等。

从以上三部电子百科的检索入口可以看出:第一,检索入口较齐备,便于用户根据不同的需要从不同途径进行检索,如声像、大事年表等。第二,各电子百科之间的检索入口不完全一致,各有特色,如Compton's的科技条目,GME96的卓越成就者。第三,检索方式与检索入口相互交叉使用,有时界限并不严明,如Search与Find,在使用上互有交叉。

(二)辅助检索系统

电子百科的辅助检索系统主要包括索引、参见、目录、超文本、布尔逻辑、自然语言等检索系统。

1.索引

索引在印刷版百科全书中是加强其查考功能的最主要方式。有否索引或索引质量如何是评价印刷版百科全书的重要标准之一。而在电子百科中索引的地位则有明显减弱的趋势,原因是由于电子百科的检索方式和检索入口较多,辅助检索系统功能较强,从而削弱了索引的重要作用。前面提到的Compton's、GME96、Book-shelf95等均无索引,只有文本式的Britannica CD同印刷版一样有索引,并且在使用和编排上与印刷版无大区别,只需在检索方式中选择“索引”,而后输入检索词,检索结果即可显示出来,进而再获取原文。

2.参见

参见系统是印刷版百科全书的重要辅助检索系统之一。这一特色已被电子百科广泛采纳和应用,并得到发扬光大。在多媒体百科全书中,参见不仅可指向条目,还可以将与某条目有关联的图片、图表、地图、电影实况、声音联系起来,以获取某一主题的完整信息。参见系统在电子百科中有不同的表现形式。

(1)图标形式

图标形式即是在条目正文的边栏利用形象生动的图像标识将与条目正文内容有关的各种形式的信息标引出来,便于用户使用。如与条目有关的文字用书稿、图片用照相机、动态图像用摄像机、图表用表格、地理位置用地图、声音用耳机或剌叭等图像标引,形象生动,易于理解。

(2)文字标识形式

文字标识形式即是在条目正文的一定位置(上方或左右侧)以文字形式将与条目正文有关的各种信息用文字表示出来,如与条目有关的文字或条目用“相关条目”(Related Articl);图片和动态图像用“相关媒体”(Related Media)或“图片”(Picture)。也有的电子百科直接使用印刷版的称谓“参见”(See Also)。

无论表现形式怎样,其功能始终没变,使用时用户只需选中后轻击鼠标即可获得所需信息。

3.目录

百科全书目录系统的出现和利用是伴随着大条目的出现而产生的。印刷版如此,电子版也如此。英文百科全书的大条目有的可能长达几万甚至几十万字,为使读者方便地检索其中的局部知识信息,许多百科全书在条目前设置了目录检索系统。目录在电子百科中通常有以下表现形式:

(1)单纯条目目录

条目目录通常是在条目的开头或底部以Contents或Tableof Contents字样标明。用户选中后轻击鼠标,目录即可显示全文供选择使用。如Compton's中Soil(土壤)条目的目录为:

Soil

How soil is formed(土壤的形成)

Composition of soil(土壤的组成)

soil colors(土壤的颜色)

soil particles(土壤粒子)

texture and structure(组织与结构)

chemistry(化学特性)

nutrients(养分)

soil classification(土壤的分类)

soil-management and research(土壤管理与研究)

Britannica CD中Libraries(图书馆)条目的目录则更加详细,有图书馆的概论、历史、种类、建筑、服务、馆际关系、职业与职业教育、书目等目录标题,这些标题下又有小标题。用户可根据自己的需要择项选用。

(2)逆向主题列举式目录

逆向主题列举式目录通常在某条目的下方以一定的文字(如Knowl-edge Tree)等作为标识,用户视需要即可打开此目录。如GME96中Lib-rary条目下的Knowledge Tree有如下内容:

从此目录不难看出,左侧是图书馆所属的学科和类别,右侧是图书馆这一概念的内容。利用逆向列举式目录可通过细小主题检索到较宽泛的主题。

4.超文本

超文本系统是利用计算机加工、存贮、检索、咨询、评阅、编辑并实现思想交流的非线性高级动态文本系统。其检索的主要特点是打破了文本的线性结构,对原有的单向线性工作、单值媒体或单值排列作扩充和开拓;它在文本片断之间建立链接关系,具有组织和检索非线性文本的能力。它的最大优越性是用户能够沿着系统提供的或自定义的链路来实现情报单元之间的快速移动和浏览。同时,它还可以真实地反映客观情报源之间的相互作用的某些规律。在电子百科中,超文本系统的应用比较普遍,从而大大提高了检索效率,方便了用户。用户可以从一个条目跳跃到另一个条目,或从某一个词语跃至另一词条,从而使用户在阅读条目时能自由自在地、随心所欲地进行浏览、阅读、检索。如GME96的Pope' Alexander条目中有多处超文本链路连接词直接链接到另一条目,每一链接词均以蓝色显示,用户只需轻击鼠标便可直接通向该词所指的条目。像AUGUSTAN AGE(奥古斯都时代)一词即以蓝色显示,鼠标点击后即刻呈现,AUGUSTAN AGE条中又有Pope链路,可重新返回Pope条目。此外还有多个其他超文本链接词。

5.自然语言检索系统

目前对文献内容进行揭示、组织和检索的语言工具,可分为人工语言和自然语言。自然语言是在计算机检索系统出现后才流行起来的;人工语言则是根据情报检索的需要创制的,包括分类检索语言、主题检索语言等。自然语言检索用词一般取自文献本身(题名、摘要、各级小标题、全文),个别由标引人员自主赋予(即自由标引)。从检索的角度看,自然语言的优越性在于用户无需学习掌握复杂的工人检索语言,只需知道检索对象的关键词、自由词、题名等即可进行检索,使用起来非常方便,尤其在计算机网络环境下自然语言检索更具高效、高水平的特点。在电子百科中,自然语言检索系统的应用较为普遍。笔者接触到的电子百科几乎均提供了自然语言检索系统。如自然语句“Which is thelongest river in the world?(世界上最长的河流是哪一条?)”中,具有检索意义的词是longest,river,world。输入这些检索词后,GME96显示的结果是:

Chang Jiang(长江)

Nile River(尼罗河)

Amazon River(亚马逊河)

Nile River,Egypt(尼罗河,埃及)

Britannica CD则可视用户需要显示1~200条记录供选择。由此可见自然语言检索系统的优势异常显著。

6.布尔逻辑检索系统

布尔逻辑检索是文献检索中较常见和使用较广泛的一种检索方式。其主要功能是利用布尔逻辑运算符缩小检索范围,增强专指深度,提高检索的准确性。布尔检索式编制的要求是:(1)应该完善、准确地反映出问题的主题内容;(2)要适应所查百科全书的索引体系和检索用词规则;(3)要符合检索系统的功能及限制条件的规定。使用布尔逻辑拟定检索式时应遵循这样的原则:首先,要遵守概念组配原则,即对同一关系类的概念用逻辑或"OR"进行组配,对具有交叉关系的概念,用逻辑与"AND"组配,不能越级组配,即属种关系的词不能组配。其次,要注意拟定精练的检索式,利用电子百科的检索系统时,掌握布尔逻辑检索系统仍很重要。以GME96为例,如拟定的检索式是"Pope AND Iliad",检索结果为:

Pope,Alexander(波普,亚历山大)

Iliad(伊利亚特)

English literature(英国文学)

mock epic(讽刺叙事诗)

epic(史诗)

如检索式是"Pope OR Iliad",结果除检到上面的5条外,还有:

Homer(荷马)

Troy..(特洛伊)

Troy War(特洛伊战争)

oral literature(口头文学)

Odyssey(奥得赛)

mythology(神话)等。

如检索式是"Pope NOT Iliad"(即排除伊利亚特),则检索结果为:

Luther,Martin(document)(路得,马丁)

Urban II,Pope(鲁本二世,波普)

……

从以上三种不同检索式的运用结果,可看到几种常见布尔逻辑运算符在检索中的不同作用。

电子百科的辅助检索系统,除以上分析的几种外,还有截词、标识词、生词等等,这里不一一分析了。

总之,电子百科全书的出现,已经向图书情报单位和广大用户提出了新的课题和挑战,只要我们在使用中不断积累、总结经验,不断开发和利用电子百科全书的潜在信息,相信电子百科全书定能在科研、生产中发挥巨大的推动作用。

标签:;  ;  ;  

英语电子百科全书检索系统_自然语言论文
下载Doc文档

猜你喜欢