论文献检索语言的发展趋势_自然语言论文

论文献检索语言的发展趋势_自然语言论文

论文献检索语言的发展趋势,本文主要内容关键词为:发展趋势论文,语言论文,论文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔摘要〕 文章阐述了分类语言、叙词语言、自然语言作为文献检索语言在实际检索中的优缺点,揭示了文献检索语言在现实检索中的部分困惑,认为检索语言应与科学发展、用户需求、检索手段相适应,指出自然语言更符合机检的发展趋势。

〔关键词〕 文献检索 检索语言

1 引言

文献检索语言是通过揭示、区分文献内容,使用户在咨询或查找自己所需要文献时获得捷径之方法。文献检索语言一般可分作分类语言、主题语言和自然语言等类型。

近代分类法在我国的出现是以《仿杜威十进分类法》(沈祖荣、胡庆生1917年编)和《世界图书分类法》(杜定友1922年编)先后问世为标志,至今已有70余年;而《中文图书标题法》[1]和《主题分类法大纲》[2]也标志着主题语言在我国出现长达40余年的历史。我们翻阅了论述采用主题语言检索文献的400余篇论文(截止1989年统计已达394篇)[3,4]和10余部有影响的专著,认为真正从实践出发的,能够理论联系实际而做出客观分析评价,并且有一定指导作用的论著寥寥。有的尽管其文章题目中标有“实践”字样,但披览之后,仍有隔靴搔痒之感,对解决当前文献信息网络中采用检索语言方面的问题不能切中要害,不免使人感到遗憾。

那么,究竟采用哪一种检索语言能够最迅速,最全面,最客观,最及时,最准确地揭示文献的主题内容呢?我们谨就目前人们最关注的,专题论著中涉及最多的几种检索语言进行探讨,作为抛砖引玉。

2 各类检索语言之瑕瑜

2.1 分类语言

分类语言是分类法(表)的基本组成部分,它往往是由纯数字或字母与数字组合构成的分类号:其每一类号代表一个类目的内容。分类语言是以分类号作为标引、查询、检索文献的主题标识和依据,分类号则依照学科体系加以组合、排列。

分类语言的特色是系统性(或称族性)强,便于用户从知识体系(科学分类体系)查考文献。其缺点是:

(1) 必须借助辅助工具。分类号是人为规定的,抽象难记,不直观。因为它要同与其配置在一起的类目名称结合才具有实际意义;而且随着分类深入,类目增多,加细,号码不断扩大,越来越长,容易看错写错;就是从事多年专业技术工作的老分类人员如果离开分类表,也是寸步难行的。

(2) 适应性有限。随着科学的发展,学科之间的渗透、分化、交叉现象层出不穷;而分类法受分类号结构的限制,不但难以容纳不断产生的新学科,而且对待包含综合性学科和横断学科内容文献的归类束手无策。例如近期出版的《个性心理学》、《民政法》、《典当》、《气功声学》、《农药生态学》、《相似学》、《光滑动力学》、《中国市场法学》、《家政学》等新技术、新问题、新学科的图书不胜枚举,在对它们进行归类时,遇到分类表无法容纳,只好将其进到上位类或放到内容相近的类目中。

(3) 补救困难。由于历史的原因与分类语言固有的弱点,目前国内尚无各方皆满意,实际应用效果好的分类法。据1981-1989年不完全统计,仅对目前有影响的一部分类法的评论文章(包括编制原则、类目设置、标记符号、使用方法、类目注释等方面)就有518[4]。然而,修订增补一部分类法因受其结构的束缚,修改增补内容困难很大,并且极费时间、精力、经费等;即使待其修改完稿,正式出版,使用者拿到手中,前后也需要5年左右,早已事过境迁。

我们对国内出版图书的归类情况进行过调查统计,约有20-30%的自然科学方面新书找不到确切的类目可归,社会科学的图书无类可归的现象尤为突出。韩平先生对1994年进口外文图书的归类进行抽样统计调查,得出自然科学方面不能恰当归类的概率竟高达60%的结论(详见1995年《图书情报工作动态》)。可以说,分类语言已经远远落后于社会的不断进步和科学的日新月异。

2.2 叙词语言

所谓叙词语言是指以检索为目的,经过人为的整理、加工、规范化后的自然语言中的名词术语。叙词语言可以用来直接标识文献主题内容,也可以用来进行词间组配以揭示多主题的文献。

叙词具有分类语言所不及的组配性能和灵活直观的特点,同时,它还有受词表结构的左右限制,随时可以增添新词(但要经过“规范化”处理)。但是,叙词由于是在用户使用之前就已经过规范、整理、组织、排列于词表中的“规范词”及词间关系(“用”、“代”、“分”、“属”、“族”、“参”系统)形成的“参照系统”,在使用叙词表查找表现文献主题的专指叙词时很难选取和确定。这是因为:

(1) 新出现的学科,词表中未收;

(2) 文献所论述的主题专深,虽有现成的关键词,但在叙词表中难以寻觅和判断其学科属性;

(3) 叙词表庞大,繁杂,再加上有时检索要先查词族、范畴表,然后再查词表等规划,手续多。一种多主题图书,对其进行标引需要较多时间。例如美国国立医学院图书馆每个标引员仅约标引文献10篇/天[5],这怎能及时处理当今潮水般涌来的文献?繁杂的选词程序对于一般学科知识不够深厚和广博的标引人员来说,无疑是一个很大的负担;就是学位较高,经验丰富的标引员,处在综合文献情报单位,面对百科知识纵横交错,文献量浩瀚的情况,从事标引实际工作也感到用叙词标引十分伤脑费神;那么普通用户采用叙词检索之难概可想见。

我们曾经走访过一些图书情报单位,了解到:由于《汉语主题词表》存在种种问题,他们大多都还没有采用;就是采用该表的单位,也是作粗标引加上自然语言互补。大家共识一点:新书所包含的新学科、新观点、新问题在词表中往往找不到理想的对应叙词;如果为了表示“规范化”而做牵强附会的叙词标引工作,还不如直接标引自然语言更为准确。

总之,人们既对分类语言跟不上科学发展而深表遗憾,又对叙词表内容庞大,适当叙词难觅且又标引复杂、费时、费工而失望。为此,近年来专家学者又在苦思冥想,研究、探讨国内外检索语言的新方法、新途径。在国外只有图书情报机构和专家根据印度著名图书馆学家阮岗纳赞的“分面分析”理论指导下对现存分类法进行全分面组配技术的改造试验工作;国内则有人根据分类法和叙词法的各自特点,进行分类主题一体化和自然语言与叙词语言兼容的检索研究。

2.3 自然语言

自然语言是从文献本身(题名、文摘、正文等处)抽取关键词(即方献中客观存在,兼有揭示文献主题作用的自然词及词组)以方便检索。

自然语言很早就被纳入情报检索语言之一(有人称之准情报检索语言),后来逐渐被“规范化”的叙词语言之优势所冷落。随着电子计算机及其技术的更新换代,关键词以其自身的特点和可以用“后控”方法改造不够规范的一部分自然语言而重新受到重视。

现有叙词表百种之多,其中专业性叙词表(如国际科学技术、生物、医学、艺术、环境、林业、水利水电、中医、自动化、机器人等专类叙词表)占绝大多数,这对专业性有强的图书情报单位来说,应当说使用价值比较高双符合专业对口。但对一般性综合图书馆而言,则显然感到采用专业叙词表“细”,很难掌握;那么,使用综合性叙词表又因为过“粗”(主要指部分叙词陈旧,不能适应学科发展增补新记号),真是进退维谷。再者,叙词表中的叙词是否“规范”有待考证。

自然语言优点是:

(1) 符合客观需求。自然语言可以不受限制,随时输入新词,因而可以跟踪学科发展,加速数据库的建设。

(2) 标引简便。标引人员只要掌握一定标引方法和规则,就能很快掌握标引技术,具有“高中文化水平的标引人员就可以胜任”[6];而叙词标引则要求标引员不但具备较高专业(学科)知识水平,而且还要掌握叙词标引技术和对叙词表的熟悉,否则难以胜任。

(3) 标引速度快。自然语言没有词表的约束和复杂的规则限制,标引速度比用叙词标引高得多。每人每天用自然语言标引文献量:北京火星电子研究所达到50篇,美国中央情报局达到100篇[6,7],显然是用叙词标引的5-10倍。

(4) 检索方便,简单。用户只要不脱离文献中的主要自然语言,便可以任意检索,既不受词表控制,也不需要培训,查询快。

(5) 查准率较高。规范语言受种种限制,用其标引不能充分揭示文献内容;而自然语言标引灵活,可以任选表述主题内容的专指词,再加上能及时增补大量新词,满足用户对新文献的需求。

(6) 遗漏率低。叙词是从自由词中加以规范的,显然后者完全可以覆盖前者,减少检索中出现的遗漏。

(7) 统一性好。采用分类语言和叙词语言标引依靠人工选择,标引员的素质与理解、判断等方面的差异往往造成归类或选词的不同;而用自然语言标引在较小规范内采用“现成词”,即使多人标引同一文献,出入也不大。

(8) 顺应发展趋势。用自然语言标引更容易向自动标引检索系统过渡,这是用叙词难于解决的问题。另外,自然语言不受词表及各种复杂标引规则、技术的干扰,更具备联合建设数据库的优势。

自然语言虽然有诸多优势,但是其弱点也是明显的。例如:

(1) 对同义词、近义词、多义词及与其相关的一些词没有进行规范和统一,词音缺乏有机的联系,影响查全率。

(2) 由于选词没有严格限制,词量势必过多过杂,反而会分散主题,影响查准率,并且会过多地占用磁盘的存贮空间。

针对自然语言的弱点进行补救、改造,对现代的设备、技术来说并非无计可施,例如进行适当的规定,有一些规范,加强概念间联系等。

3 检索语言应与科学发展、用户需求、检索手段相适应

纵观检索语言的变化,深受科学的发展,用户需求与检索手段的变化的影响,并逐渐使之适应这些变化。

古代,科学的发展是百科全书式的,学科之间的界线并不分明,在目录编制上以学科分类[7]:“辩章学术,考镜源流”便是点睛之笔。近代,西方学术思想传入我国,科学研究基本上沿着三大学科框架展开。现代,科学的发展一方面继续走向纵深,形成隔行如隔山;另一方面相互交错综合,出现众多的新学科,突破了旧的框架。这使得检索语言以分类、主题、自然等形式出现。

当学者的研究工作局限于某一或少数几个领域中进行时,他们主要依靠分类语言检索查找自己所需要的文献。在我国图书馆中占主导地位的分灰目录,本世纪30年代却在欧美大部分图书馆中已逐步消亡了,因为一般读者只是带着自己所研究的主题寻找资料,采用主题语言最为简便。[9]。当用户带着各种跨学科、新主题的问题急需资料时,自然语言便成为比较理想的检索语言。

在手工检索时期,用户利用分类语言能够快捷简便地查找到所需文献。二十世纪中叶,微电子学和计算机技术的迅速崛起,产生了既适用于计算机成批检索又适用于手工检索机编书本式主题索引的主题检索语言,例如美国1952年发明单元词法,1960年发明叙词法[7]。当计算机技术与通信技术相结合后,传统图书馆目录的概念发生更有意义的变化——由单一馆扩大到整个网络,并且还在扩展。联机系统是在先进的硬设备(具有海量随机存贮器、众多联机终端的第四代计算机,数据通信网络)和软设备(分时操作系统、数据库管理系统和联机检索软件)支持下建立的。并且,联机检索软件也从只能利用规范化叙词语言进行布尔逻辑检索的第一代发展到能利用自然语言进行“语境逻辑下”检索的第二代[7]。

计算机容量增大,运行速度加快,检索能力扩充,多用户共用的巨大变化,使一度遭冷遇的自然语言又有了新的用武之地。英国INSPEC1967年投入试运行,1971年即开始用自然语言试标引,两年后的1973年便将其作为该系统检索语言之一。DIALOG系统和ESA-Quest系统的一些数据库中,自然语言已占相当高比例。据1975年对国外部分数据库调查,其中仅仅采用受控语言的数据库只有22个,而用自然语言的数据库有18个,同时采用受控语言和自然语言的数据库有48个。[10]有人认为:概念有限,结构复杂的叙词型情报检索语言已不能适应数量众多,要求各异的联机终端用户的检索要求,情报检索语言又随之向自然语言方向发展。[11]美国俄亥俄州大学图书馆馆长,华裔图书馆学家李华伟博士也预言:未来的情报检索语言是以自然语言为主的发展方向。[12]

4 自然语言更符合机检的发展

我国情报检索语言经历了分类语言、标题语言、元词语言和叙词语言等的演变和发展,并且叙词语言已被众多专家肯定又确实为唯一规范化检索方法,那么为什么要研究和使用只作极少量规范化处理的自然语言做为机检语言并主张普遍运用呢?这是因为它比叙词有更广泛的市场,客观实用,词更新及时。尤其是自然科学文献,其关键词大部分是科学名词术语,而且有相当数量是最普遍使用的活词,还有一部分是最新学科的名词(叙词表所没有的)。

我们在今后大量的词库中只需对同义关系的名望做词间参照系统,就可以基本满足用户的需求。例如,用户查询有关“中国科技信息研究所”时,该机构与此不同名称的还有“中情所”、“中信所”、“中国科技情报所”、“中国科技情报研究所”、“中国科学技术情报研究所”(文献实体都曾用过的名称)都可以通过相互参照而被一一串联出来。[13]

我们曾就文献题名中的自然语言(关键词)与规范词(叙词)的标引对照测试。具体做法是用北京图书馆发行的中文图书“统编卡”为素材对题名和内容提要进行关键词的抽取,并与该片标引的主题词对照(原卡片上的主题词是采用《汉语主题词表》上的叙词),共抽取500张,“统编卡”的自然科学图书款目进行试验,统计结果表明:在自然科学文献中,自然语言与规范的叙词有很大比例是相一致的,选词不完全一致的平均占20%左右,如果对这部分自然语言进行“后控”管理,就可以大大缩小它们之间的差距。当然,这一试验仅仅是粗标引,如果都进行细标引,恐怕两种语言之差还要大一些。但只要进行一定的“后控”管理,效果仍会好一些。

采用自然语言标引文献,用词量显然要比采用叙词多,这必然也要多占磁盘存贮空间,但现代计算机存贮空间的承受能力如何?用词量与文献量增长的关系又如何?利用INSPEC系统研究报告[14]提供的公式N=K[,1]D[m]计算后表明;用自然语言标引比用叙词标引建倒排档多占用磁盘的空间并不多,而且随着文献的增长,多占用空间的比例反而下降,当降到某一数值时将成为常数。[7]

中国科学院科学数据库(Asnet)作为中国教育与科研示范网(NCFC)的子网络之一,虽然1992年底就有1000条记录以上的在建文献数据库68个,包含数据量达586.2万条记录;收录的来源期刊1800余种,约占中国出版的常用科技期刊量的60%,覆盖了目前中库所涉及学科或专业领域中国出版的全部核心期刊,但是,“到目前为止,仍未建立全院统一的综合学科文献库,也无学科库之间的联网服务,因而很难形成全院数据库服务的整体优势。学科范围覆盖不全面,数据加工不规范,收录数据既有较大重复又有较大遗漏,以及服务水平参差不齐等问题。”[15]。显然,标引质量与检索系统占了相当大的比重,选择适当的检索语言的重要性正日益加强。

5 结束语

综上所述,我们认为采用自然语言是文献检索语言发展的必然趋势。当然,用户才是裁决自然语言检索优劣的“上帝”,自然语言检索的效果如何尚需实践检验。同时,我认为实施自然语言检索,还有几点值得重视的问题:

1.要进行相当量文献的自然语言标引工作,通过试验,从中摸索规律和最佳方法;

2.要制订自然语言标引规则(例如:选词的先后顺序,一文献的最多选词量等);

3.对部分同义关系的不同自然语言进行一定参照技术处理,该项工作最好采取多单位联合,编制成软件共同利用;

4.请用户使用自然语言,经过实践,发现问题,研究对策,以达到高质量的检索效果。

(来稿时间:1995年2月)

标签:;  ;  ;  ;  ;  

论文献检索语言的发展趋势_自然语言论文
下载Doc文档

猜你喜欢