信息检索语言的发展方向:分类学科整合新探_中图分类号论文

信息检索语言的发展方向:分类学科整合新探_中图分类号论文

情报检索语言的发展方向问题——分类主题一体化新论,本文主要内容关键词为:新论论文,发展方向论文,情报论文,语言论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

随着计算机技术在图书情报工作中的广泛应用,情报检索语言于20世纪60年代进入了 “叙词表年代”,因此,有些学者认为分类法在情报检索中失去了存在的意义。接着, 在另一些学者中产生了分类法回归的思想,认为叙词表无法全面显示主题之间的关系, 必须改善其结构,加强分类控制。

1969年,英国分类法研究小组成员J.艾奇逊等,采取了叙词表与分面分类表相结合的 方式,编制了《英国电力分面叙词表》。该表是分类法回归思想的产物,1970年出版后 ,被誉为“受控词表的楷模”[1]。于是,不少类似的词表相继问世。我国图书情报界 一贯重视分类法,对这种类型的词表特别容易赏识,因此一些专家、学者认为,它们既 便于特性检索,又便于族性检索,分类标引和主题标引还可同时完成,因而把它们称为 分类主题一体化词表,并在我国大力提倡,认为分类主题一体化是情报检索语言的发展 方向。时至今日,有些人还在接连发表这类文章。分类主题一体化这个词是我国独创的 ,所以我们用integration、classification、thesaurus三个词,在DIALOG文献数据库 中作组配检索,结果查不到外文文献。本文姑且采用分类主题一体化词表这个词,并简 称为一体化词表。

1982年召开的第四次国际分类法研究会议的《结论和建议》指出:“更一致和完美的 分类法和叙词表编制方法促使了1977年《联合国教科文组织叙词表》和1981年《词根叙 词表》(我国译为《基础叙词表》)的出现。”而在我国,《教育主题词表》和《中国分 类主题词表》都是具有代表性的一体化词表。我们就以上述五种词表加以剖析,考察一 体化词表的实质及其前景,从而看清情报检索语言的发展方向。

2 国外的三种著名一体化词表

(1)《分面叙词表:工程及相关学科的叙词表和分面分类法》(下简称《分叙表》)—— 《分叙表》导言[2]称它为《英国电力分面叙词表》。据该导言的介绍,它是从《英国 电力工程分面分类法》第三版直接发展而来的,但在形式和内容上均与前几版不同:它 覆盖的学科范围更广,包括科学和技术的所有领域,但不同学科的揭示深度不同,故仍 是一种专业表;它收词更多,共收叙词16000个,非叙词7000个;它由分面分类表与叙 词表两部分构成,两者互为索引,但前者为主,后者为辅。每个词在《分叙表》中出现 两次:一次出现在叙词表中,一次出现在分面分类表中,两者之间用分类号联系。有关 某词的信息,由两个构成部分互相补充。虽节省了篇幅,但只使用其中之一,即不能获 得每个词的完整信息,因而标引和检索时均须反复查考,效率较低。它可用于:图书分 类排架,编制普通先组式的主题目录,以及带或不带标记符号的、供手检及机检用的先 组式标引;也可作为“记忆提示装置”,用于自然语言检索系统。《分叙表》的分面分 类表是按一般科学技术体系编排的;在大的学科领域里,则采用分面技术。这种分类表 难免也有人为性,所以按文献的主题概念直接查找分类表的类目,有一定难度。因为类 目即叙词,而叙词是一词一号,且词形、先组度等是受控的,所以用这种分类表类分图 书时,从内容到形式常须由若干叙词组配而成,故造成类号冗长,不利于图书的分类排 架。例如,“振荡器”的类号是LL,其下位类“无线电频率振荡器”的类号是LL/DY2, 其余11种振荡器的类号几乎全都要用两个类号组配而成。《分叙表》的叙词表结构过于 简单:除了分面分类表作为它的分类索引外,别无其它辅助索引。它几乎相当于传统分 类法的相关索引,但不及相关索引之能字面成族、发挥一些轮排索引的功能。因而,以 此作主题标引时,除了用本表按字顺选词外,只有利用与之对应的分面分类表,但它的 查词效率较低;而用该叙词表选择某词后,还须按其分类号查分面分类表,作进一步选 择,甚至还得回查叙词表,比较麻烦而费时。《分叙表》是分类语言和叙词语言相结合 的尝试,但不够完善。

(2)《联合国教科文组织叙词表》(下简称《联叙表》)——《联叙表》也是由J.艾奇逊 ,按照联合国教科文组文献标引和检索需要而编制的[3],是一部专用表。它由分类叙 词表、字顺叙词表、轮排索引和词族索引四部分组成,结构比较完整,因而优于上述《 分叙表》。它收叙词5530个,非叙词2970个;每个叙词同时出现在它的四个构成部分的 不同位置上。这些词在分类叙词表中是类名,在其余三部分中则是叙词,但各个叙词后 均注明其相应的分类号,作为联系符号。分类叙词表以教育、社会科学、人文科学及文 化、传播、情报、图书馆、档案五大类为主,总论及科学技术两大类为辅,其中科学技 术大类立类特别粗略。《联叙表》也能同时用于分类标引和主题标引,但它以分类叙词 表为主,最细分到十二三级。它虽能全面显示词间关系,但直接用来类分图书,则因层 次多、人为性大,也难免要作组配标引而造成类号复杂、冗长,因而效果不佳。《联叙 表》以字顺叙词表等三部分为辅,它们作为分类叙词表的类目索引,则有助于提高分类 标引的质量和效率。《联叙表》与传统叙词表不同,它以分类叙词表取代了范畴索引。 而范畴索引中的叙词,一般只分到三级,往下均按字顺编排,故词的查准率高于细分的 分类叙词表,也就是说,用分类叙词表来作叙词标引,效率反而不及用范畴索引。所以 ,《联叙表》在将分类语言和叙词语言结合的方法上虽有所改进,但用来标引和检索的 实际效果如何,还是值得探讨的。

(3)《基础叙词表》(下简称《基叙表》)——《基叙表》是以J.艾奇逊为顾问,由英国 标准学会(BSI,可译为英国标准研究所)为标引和检索技术标准,并作为技术术语指南 而编制的,于1981年出版。它由三部分构成:①主题显示表。它是《基叙表》的主体。 它将所收全部词汇分成24大类,其中15大类为核心大类,详列类目(即叙词),其余大类 从简;大类之下一般按传统学科划分,不存在传统划分时则采用分面技术;各级类目下 设置了详细的参照,大体与《分叙表》相同,只是参照符号用数学符号取代字母;标记 符号采用纯字母,三个为一组,其间用黑点隔开,并采用半层累制配号。《基叙表》在 导言中称:“标记的目的在于为每一个叙词提供一个独有的、显示其在主题显示表中位 置的代码”[4]。它增设了组配词(非叙词,相当于类名),其下列出可用作主题标引的 叙词组配形式,以保证标引用词的正确性。它和一般文献分类表不同:不用来类分技术 标准;主要功能在于全面显示叙词之间的各种关系,以便从分类途径选词标引和检索。 但主题显示表结构复杂、篇幅大、参照符号多,非专业馆员特别是用户,难以直接用来 标引和检索技术标准。②字顺叙词表。它是主题显示表的索引,从实用出发,共收叙词 11800个,非叙词5500个(包括同义词及组配词),以技术科学为主(比较详尽),以社会 科学及自然科学为辅(比较粗略);设置参照,重复列举主题显示表中有关各词的信息, 但只显示上、下位各一级;凡标明相应分类号的词,均可据以回查主题显示表。可惜字 顺叙词表中出现的叙词,不是全都标明其分类号的,因而对回查主题显示表带来不便。 ③化学式索引。它重复列举主题显示表中作为同义词的无机物化学式及化学符号,但按 字顺排列,也可据以回查分类表。作叙词标引和检索时,可先查字顺叙词表:查到的叙 词若是款目词,即知其分类号、上位词、下位词及相关词;查到的若是非叙词,即知其 叙词形式及其分类号;查到了分类号,再到主题显示表中去查这些词,从而获得更多的 信息,以便作恰当的选择;如果尚须查属于其它类的上、下位词或相关词,又得再查主 题显示表。已知化学式或化学符号者可先查化学式索引。《基叙表》采用机编词表技术 ,有利于词表的增、删、改,还有利于生成其它语种和多语种文本。《基叙表》在《分 叙表》和《联叙表》的基础上作了改进:它将传统叙词表的范畴索引与词族索引相结合 而成主题显示表,且将轮排索引溶入字顺叙词表,故结构简单而功能齐全。有的学者把 它视为分类主题一体化的新进展[5]。然而,《基叙表》不是为了同时满足技术标准的 分类标引和主题标引的需要而编制的,它不是严格意义上的一体化词表。

3 我国的两种著名一体化词表

(1)《教育主题词表》(下简称《教主表》)——《教主表》是1993年12月我国出版的第 一部教育专业叙词表。它是由教育专业人员与情报检索语言专业人员合作,采用分面叙 词表模式编制而成的一体化词表。它由5部分构成:①字顺叙词表。它是《教主表》的 主要部分,收叙词3011个,非叙词691个,共3702个,内容涉及教育科学的各领域和若 干相关学科;其叙词款目中含有款目词、分类号、词号、英译名、注释及各参照项(代 、属、分、参);非叙词款目没有注释项,只有“用”参照,其余各项同叙词款目;各 款目均按款目词的汉语拼音,用逐字三同法排列。②分面分类表。它将字顺叙词表中的 全部叙词及非叙词,作分面分类处理:共分16大类,类名均为叙词;类号采用双字母加 数字的混合号码,按层累制配号;各类包括类号、类名及其词号、注释、参照符号、参 照词及其类号和词号、分面标头;为了醒目,还在类名前加上表示类目级别的小圆点。 ③英汉对照索引。它是按叙词的英译名,用逐词字母法编排起来的;索引款目中含有英 译名、叙词及其相应的类号和词号;若英译名下为非叙词,则只有词号而无类号。④轮 排索引。它是按字面成族原理,将全部叙词及非叙词用题内关键词索引形式编排起来的 ;叙词后标注类号及词号,而非叙词则只标词号。⑤附表。它是字顺叙词表外单列的专 用叙词一览表,包括学科名称表及人物名称表。此外,与《教主表》合印成册的《中图 法》教育专业分类表所附的辅助表,也可用来标引地点、时代、民族等。由此可知,《 教主表》比《汉语主题词表》(下简称《汉表》)多了一种轮排索引,并用分面分类表取 代了《汉表》的范畴索引和词族索引。《教主表》后来居上,较之国外的上述三种著名 一体化词表,在结构上更完整,使用上更方便。但为了实行分类主题一体化,用分面分 类表取代范畴索引和词族索引,虽节省了篇幅,却降低了标引与检索的效率(我们对此 作过随机抽样调查:用同样的8个教育专业常用词,请24位学主题标引课的学生去查《 汉表》的范畴索引,平均每词化4分35秒,再去查《教词表》的分面分类表,平均每词 竟化了13分钟[6]);为了尽量达到叙词与类名的一一对应,提高了叙词先组度(达61%, 国外词表一般为40%左右)。这些都说明:编得较好的一体化词表尚且有削足适履之嫌。

(2)《中国分类主题词表》(下简称《中主表》)——《中主表》是为了加快主题法及《 汉表》在我国图书情报界的推广,提高分类标引和主题标引的质量,由全国40个单位的 60多位专家、学者和图书馆工作者,在计算机辅助下,以经过增订了的《中图法》第三 版(含《资料法》第三版)和《汉表》为基础,从1987年开始编制,直至1994年出版的一 部大型、综合性的、分类法—叙词表对照索引式的一体化词表。它主要由两部分构成: ①分类号—主题词对应表(下简称分—主表)。它把《汉表》的全部叙词纳入《中图法》 的分类体系,生成了一个新的体系分类表式的范畴索引。每个类目的右侧标注相应的叙 词(完全对应的只占48%[7]),或标注与类目对应的几个叙词的组配形式(称词串),还把 无法与类目直接对应的叙词,分别作为各类目的注释。故分一主表可直接用于分类标引 ,也可用于从分类角度选词标引。但由于《中图法》三版当时尚未更新,许多新书,如 《WTO法律知识读本》、《论电子商务之法律问题》、《网络经济与法律论坛》、《比 较国家赔偿法》和《伤亡事故防范与调查处理统计报告法规读本》等,只好采用上位标 引或靠类标引,对应于所入之类的叙词或词串就与它们的内容相去甚远。本表原可为编 制主题目录、分类目录主题索引提供方便,但随着机检取代手检,这种作用现在已无从 发挥。这种体系分类表式的范畴索引,又由于等级多、人为性较大,致使叙词的检准率 和查找速度均较传统的范畴索引低。②主题词—分类号对应表(下简称主—分表)。它在 每个正式叙词后标注了相应的《中图法》分类号;还编入了大量词串,也注明了相应的 《中图法》分类号。这就构成了一部相当于叙词表式的《中图法》第三版的相关索引, 可用于标引选词,也可用于从主题角度查找类目。但《汉表》收词少,仅约11万个(若 按《教主表》的收词量匡算,本综合性词表应收词约21.5万个)。我们按1993年出版的 《新主题文献分类指南》一书抽查,发现有大量的新主题尚未收入该表,其中心理学、 计算机科学两类未收的均达70%以上。所以,用该表作主题标引,常无词可标。加上《 汉表》原有的其它索引没有了,更不要说轮排索引,故该表的查词途径少,漏检的概率 高。《中主表》企图实现分类语言与叙词语言的兼容,通过分—主表和主—分表的互为 索引,一次查表同时完成分类和主题的标引与检索。然而,做到已有的类名和叙词一一 对应十分困难:尽管除概念一致的专指对应外,还采用了2~3个词的组配对应、上位或 靠类对应、交替或并列对应,还为《汉表》中的通用概念在分—主表的总论复分表中增 设了复分类目“—8”(这在《中图法》四版中是没有的);实在没法对应时,只好采用 增词对应和叙词加倒装自由词对应。这样,一次查表同时完成分类和主题的标引与检索 ,常难做好。

4 分类主题一体化的实质

(1)一体化词表是分类法在叙词表中的渗透——上述《分叙表》、《联叙表》、《基叙 表》和《教主表》都用分类的方法,作为全面而系统地揭示叙词之间的各种关系的手段 ,所以类目即叙词,叙词即类目,均做到一一对应,并以分类号(《教主表》还有词号) 作为类目和叙词之间的联系符号。这样做的主要目的是提高叙词标引的选词质量,而不 完全在于一表两用,同时完成分类标引和叙词标引,并供检索。像《基叙表》就不用来 作分类标引,更谈不上供分类检索。我们认为一体化词表是分类法在叙词表中渗透的产 物,仍然属于叙词表范畴;它只是20世纪后半叶叙词表的一种新形式而已。不管《分叙 表》、《联叙表》和《基叙表》都以叙词的分类表(不管它们叫什么名称)为主,《教主 表》以叙词表为主,都不能把一体化词表视为继叙词语言而起的、全新的检索语言。

(2)一体化词表是分类语言和叙词语言的合二为一——分类语言和叙词语言虽都是受控 检索语言,但存在着根本的区别:前者是先组定组式语言,以符号作为文献的标识,系 统性是其主要特征,目前的基本功能是图书或宏观文献的分类排架,供读者在架上浏览 、选借,因而要求类目相对稳定、类名不严格控制、类号比较简明;后者是后组式的( 可作先组散组式用),以语词作为文献的标识,专指性是其主要特征,用于所有文献的 标引和检索,但不用于文献的排架,因而便于增、删、改,标引用词受严格控制,概念 组配是其基本原理。为了实现类目与叙词之间等值地兼容互换,上述四种一体化词表都 只好以叙词为类名,由此造成它们的分类表类目多、划分细、查检效率低,而且分类标 引的组配概率高,以致类号复杂、冗长。《中主表》由于《中图法》的类名不同于《汉 表》的叙词,虽然采取了不少补救措施,仍较难兼容互换。所以,国内外这五种著名一 体化词表中的分类系统和叙词系统,它们的兼容互换,都有削足适履之嫌,特别是《中 主表》。所以,不能说分类语言和叙词语言在这五种词表中已经有机地融为一体,既能 充分发挥各自的功能,又能发挥最佳的整体效应。它们只是将这两种性质根本不同的检 索语言合二为一而已。

(3)一体化词表是分类法的逆潮流而动——1876年《杜威十进分类法》首创标记符号, 1899年《国际十进分类法》开始使用冒号组配技术,分类检索语言蓬勃发展,出现了以 分类法为主、主题法为辅的年代。但由于分类法存在着人为性、凝固性、滞后性,由于 文献数量的急剧增长和检索需要的走向专指性,由于手检迅速过渡到机检,检索语言随 之进入以分类法为辅的“叙词表年代”,这是极其自然的。以英国分类法研究小组成员 J.艾奇逊为代表的一些学者,采取叙词表与分面分类法完全结合的形式,使分类法在检 索语言中重新扮演主角。后来,类似的做法受到第四次国际分类法研究会议的赞扬,更 加扩大了一体化词表的影响。其实,一体化词表并不那样神妙,这种做法是过高估计了 分类法的作用。分类法在美国的作用早已局限于宏观文献的排架和架上的浏览性检索。 在机检情况下,很难找到可以使用分类检索途径的。所以,分类法回归的思想是产生于 对分类法的偏爱,是逆潮流而动的。

5 情报检索语言的发展

(1)“叙词表年代”的盛极而衰——叙词语言吸取了多种检索语言的优点,大大改善了 情报检索的效果,于上世纪80年代进入鼎盛时期。但由于叙词语言属后组式受控检索语 言,它须作词形、词义、先组度等控制,而且用户的检索需求要在检索时用几个规范词 、通过适当的组配加以表达,所以技术要求较高。尽管叙词表采取增加入口词、采用自 由词和增添轮排索引等改进措施,标引和检索还是离不开叙词表,还需要图情专业人员 的指导。随着计算机局域网、内联网、因特网以及网上数字化文献的相继出现和大量增 加,如今最终用户无须到馆,常能在网上满足其需求。他们即使在网上能查到叙词表, 也难以达到叙词检索的技术要求。随着印刷型文献和电子文献的海量化,用人工对它们 作叙词标引在速度上赶不上需要、在费用上不堪负担,因而叙词语言阻挡不了人工标引 向人机结合标引、最终走向自动标引发展的历史潮流。上世纪80年代之后的叙词语言, 盛极而衰实在是不可避免的。

(2)自然语言的崛起——自然语言与受控语言相对,它直接来自文献本身,在使用前未 经优选和规范化处理,是符合文献著者和用户交流习惯的检索语言。在网络环境中,用 以标引和检索的自然语言,以关键词为最成熟。它较之叙词语言有四大优点:①标引不 必查表选词,速度快而成本低,且适应人机结合标引和全自动标引的实际需要;②可由 作者使用与文献主题相应的词来标引,不受词表和题名等的限制,因而专指性好而查准 率高;③叙词须按词的标引频率和检索频率确定,必有滞后性,有时还有人为性(如因 特网、院校图书馆),而关键词随文献的产生而产生,不存在这些问题;④符合网络化 和终端机普及的时代需要,方便用户,使他们不必在专业人员的指导下检索文献。然而 ,关键词存在着同义现象、近义现象、一词多义和同形异义现象,容易造成漏检、降低 查准率和产生误检;关键词之间还存在着等级关系和相关关系,从单个关键词入手检索 ,难以进行扩检和缩检。因此,关键词检索的效果还不理想,必须加以改进。

(3)关键词检索的优化——为了扬长避短,图书情报界由编制同义词表、入口词表到后 控词表,终于找到了关键词语言的优化之道。后控词表能使计算机将关键词转换为控制 词(相当于叙词),以实现查全;后控词表还能通过它的分类表或范畴体系实现扩检和缩 检,并作相关检索。这样就克服了关键词检索的缺点[7]。美中不足的是:控制词的选 定也须符合文献保证原则和用户保证原则,分类表或范畴体系的更新亦非易事,因而难 免滞后于新概念的不断涌现,以致影响检索效果。数码链接关键词机检表(简称SGJ)在 我国的编制,是进一步改善关键词检索的尝试[8]。SGJ是后控原理与词号技术相结合的 产物。它在编制上具有如下特点:①不设控制词,给每个关键词一个词号,同义的关键 词用同一词号链接。因而,不管用哪个关键词检索,数据库内相同主题概念的文献,均 能一次查全。②不编分类表或范畴体系,代之以编制较简便的词族表。不同级别的关键 词或同义词链,用相应级别的词号链接,以利扩检和缩检。③编列各种注释来指引用户 检索相关的文献。④面向最终用户,便于维护、更新,在查全、查准、便捷和节省费用 方面均有较大改进。

(4)分类主题一体化的前景——显而易见,分类主题一体化语言以叙词为基础,随着叙 词语言的盛极而衰,它的基础已经动摇,前景不容乐观!最近我们查了DIALOG的61文档 ,找到论述一体化语言的13篇文章,其中2篇1996年发表(介绍《中主表》的),1篇1994 年发表,其余都是20世纪70~80年代发表的,足见国外对一体化语言的研究早已淡漠了 。随着时代的阔步前进,自然语言迅速崛起,关键词检索走向成熟,我们建议同行们与 时俱进,开拓创新。随着“叙词表年代”而来的,决不是“分类主题一体化年代”,而 应是“自然语言时代”。再不要说分类主题一体化是情报检索语言的发展方向了!

限于水平,以上看法难免有欠妥之处,敬请同行专家、学者教正!

标签:;  ;  ;  

信息检索语言的发展方向:分类学科整合新探_中图分类号论文
下载Doc文档

猜你喜欢