21世纪信息语言学研究的新课题_语言学论文

21世纪信息语言学研究的新课题_语言学论文

21世纪情报语言学研究面临的新课题,本文主要内容关键词为:语言学论文,情报论文,新课题论文,世纪论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕G254.0

情报检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统,其职能是作为情报检索系统的语言保证,它的核心问题是检索效率。这是在传统文献信息环境下情报检索语言的定义。而在网络环境下,情报检索语言面临的信息环境已发生了深刻的变化:数据库数量急剧膨胀,信息资源类型复杂多样,广大网络终端用户直接使用检索语言。这就要求情报语言学要突破传统的束缚,开拓研究思路,适应大信息环境下情报检索的语言要求。近年来国内外的研究分析表明,情报语言在网络信息环境下又有了其发展的新领域、新热点,蕴育着新的生机。

1 情报检索语言的网络化应用研究

1.1 网络信息检索导入受控语言机制的必要性

情报检索语言如何适应新的检索环境是一个非常值得研究的问题。我们先从检索语言的核心问题——检索效率入手来分析。检索效果通常用查全率、查准率和检索时间这三个尺度来衡量。但是,由于网络信息数量大、变化快,再加上没有一个网络信息检索工具能覆盖所有的网络信息,因此人们不可能估算整个国际互联网上究竟有多少与某一检索提问相关的信息,从而也就无法进行查全率的计算。事实上,检得结果数量往往是远远超过可能存在的相关信息总量。而检索速度方面,随着信息技术的进步,几乎所有以万维网为界面的网络信息检索工具,都可以在检索提问输入后的几秒钟内把检索结果显示在网络终端上。总的说来,用户在网络信息检索效果方面需要关注的不是查全率,而是查准率。相比之下,查准率又主要取决于网络检索工具的标引机制和检索功能。据此推理,作为一个整体,网络信息检索工具所具有的功能已相当可观,但与联机和光盘检索工具相比,网络信息检索工具的查准率远未能及。笔者认为,缺乏对网络信息的质量控制,缺乏对受控语言的使用,以及尚待完善的网络信息检索工具功能,都导致了网络信息检索的低查准率。

网上知识——信息资源大多未采用情报检索语言作标引和组织,自然语言是其主要的检索用语言。虽然这在一定程度上有助于查全率的提高,但同时也由于同义词和反义词得不到控制,词之间的相互关系得不到揭示,因而也就无法避免检索质量相对较低的缺憾。所以现在的网上检索工具——搜索引擎,应当从如何提高检索效率,尤其是检准率方面加以改进。受控语言检索由于具有规范性和准确性,有利于查准率的提高,因此新一代的搜索引擎应当引入受控语言因素。这是国内外情报语言学研究的一个前沿性的课题。

1.2 分类法作为网络信息组织工具的优势和现状

为充分开发网络信息资源,网络信息的生产者与提供者必须采用符合人们思维方式的、科学合理的方法来存贮信息、组织信息、揭示信息。在这一点上,国外的研究分析表明,“分类法和主题法作为网络资源组织和检索工具”已成为研究的热点。

据调查,到目前为止,不论是局域网还是城域网,甚至是国际互联网,除根据信息外表属性(如地名、代号、文献类型)组织信息与检索点之外,更多的情况是按照信息的范畴(分类)和事物的概念(主题)组织信息。网络查询工具也分为按范畴层次工具和语词查询工具。现有Internet上著名的浏览型网络信息检索工具如Yahoo,Eblast,Galaxy和大部分的综合型网络检索工具,实际上在自觉或不自觉地借鉴了分类法组织和揭示信息的思想;而Altavista集成的Askjeeves自然语言搜索引擎则以主题词为组织与揭示信息的重要途径和方法。由此可见,分类法与主题法是各种网络信息资源最主要的组织和揭示工具,其中尤以分类法的应用前景更为看好。其原因在于:①随着多媒体技术的迅速发展,非文献型信息在网络信息资源中的比重将越来越大,如:数值、图像、图形和空间对象等,而分类法独有的聚类功能及其代码标识为组织和揭示这些非结构化的信息资源提供了一条可行的途径。②由于按事物与学科范畴分类组织信息资源层次清晰,符合人们查询的思维习惯,再加上分类法以其分类标识作为检索标识,其等级体系能够反映概念之间的逻辑关系,而且等级体系同时具有相对的稳定性,不会因所用语种的不同而变化。因此,分类组织法的这些特性使得它在现有的检索语言中最有可能成为国际通用信息检索语言,成为跨世纪网络信息资源组织与揭示的工具。

事实上,目前国际上几部著名的分类法如UDC,DDC,LCC等都在谋求网络上的应用,并已取得相当进展。如OCLC在研究开发DDC组织和查询WWW上的信息资源的浏览检索工具NetFist已经取得运行实效;还有各种相似的网络资源组织工具,如CyberDewey,Niss,BUBLLink等都已小有成果。但是,我们也应该注意到这些借助于分类法的组织工具在发展过程中对分类法也采取了一些取舍和改进的措施,以充分适应网络信息资源。

目前,国内学术界对情报语言在网络中的表现形式和应用问题还没有引起足够的重视,只有少量的研究文章,并只是停留在对国外情况的介绍和对国内趋势的预测上,没有大的研究项目启动。

1.3 分类法作为网络信息组织工具的技术要求

分类法在网络信息资源组织与揭示中的应用,还有待解决以下几方面的问题,这是情报检索语言研究热点中的细节问题。

1.3.1 机读化。机读化是分类法进入网络的必要前提,尤其是视窗版的开发。在网络环境下,Windosw的功能可以把分类法带进电子信息资源环境。DDC视窗的开发所取得的效应有力地说明了这一点。这里所说的机读化不只是将分类号输入计算机,还需要对分类法作网络化的改造。

1.3.2 兼容性和国际通用性。这主要体现在各种分类法之间的兼容互换及其与主题法的兼容上。目前世界上几部大型分类法都在寻求联合,如UDC与BC,UDC与DDC。分类法与主题法的兼容即所谓的分类主题一体化。通用性方面要加强多语言之间的转换,其中要注意加强匹配技术的研究。

1.3.3 分类主题一体化。分类主题一体化比较适合于超文本系统的管理。分类主题一体化词表是一种将分类表和叙词表结合在一起进行统一控制的检索语言,一般以分类表作主表,即保留了完整的分类等级体系,并通过参照系统反映了概念之间错综合复杂的关系,能满足多种检索要求。分类主题一体化的完善的关系网络可为超文本系统直接利用,用来设计和管理超文本链路,并为具有不同检索要求的用户提供最经济有效的检索途径。因此,分类主题一体化是网络环境下分类法作为网络检索工具仍应注意加强研究的方面,但应强调以超文本系统的管理这一特性为导向。

1.3.4 充分利用新技术、新方法改造原有的分类法,提高分类法描述网上信息主题的能力。即根据网络资源的特点对类表进行完善、调整,大量充实入口词,还应解决复合主题的转换问题,包括引用次序的调整,使类目具有较强的规律性,并能根据不同主题概念的特征按一定的次序加以组配等。一方面充分利用超文本技术,加强交替类目、参见与注释类目之间的横向联系,加强多重列类的使用;纵向联系则借助层层链接来实现,同时也要注意对类目体系深度予以控制。另一方面应加强分面分析方法的应用。在网络搜索引擎的编制中,加入分面分析的方法,无疑会增加检索系统的系统性和检索性能,从而大大提高检索效率。这些技术细节在具体操作上还有待于进一步研究。

1.3.5 分解和分段标记化分类法的先组类号。如何使原有的体系分类法的先组类号增加分段标记的能力,是提高计算机检索功能的重要措施。可以借助于某些辅助区分符号增加有限的分段标记功能和某些组配规则,这就涉及到语义、语言学的研究。这个问题在国外情报检索语言界也是研究热点之一。在这一热点上,日本的一研究项目“国际十进分类法数字自动组合系统——UDC—AUTCS”取得了先导性成果。但总体而言,目前还没有理想的研究成果。

1.3.6 情报语言易用性的研究。由于网络检索系统的最终使用者不再仅仅局限于懂情报检索语言的专业人员,而是广大网络终端用户。目前,各搜索引擎的组织和检索方法千差万别,因而需要寻找一种最适合、最易用的组织方法。情报检索语言学当前已达到相当高的控制水平,但在易用性方面仍需进一步改进。学者们几乎一致认为,其主要易用化措施是采用与自动语言相结合的各种方法,或者说增加自然语言成分,也就是情报检索语言的自然语言改造。

2 自然语言在情报检索中的应用及受控语言结合技术的研究

自然语言有很大的发展前景,这一点是不可否认的。自然语言作为一种较为实用的非受控语言,国外使用较为普遍。总的来说,自然语言在情报检索中有三种应用方式:①无标引方式,包括文本检索、单汉字检索和文本检索作为辅助检索途径。②自动标引方式,包括自动抽词标引、自动赋词标引、自动赋分类号、自然聚类和人机结合抽词标引等。③人工标引方式,包括自由标引和自由词补充标引。从目前使用的情况来看,有些进展,但在某些方面相当有限,在国内还没有一个检索系统完全不加控制地使用自然语言,而相应的机辅检索系统较多一些。一方面自然语言具有成本低、处理时差短、容易被普通检索者接受、检索率一般较高等优点,在信息呈几何级增长的网络时代无疑是一种相对较为实际的选择;另一方面自然语言存在着表达概念过分自由,语义无关联,词汇无控制的不足,在情报检索中需要放弃某些质量要求,从而影响了检索效率,造成信息检索中无可容忍的信息冗余,这对一些高要求的检索系统是一个致命的缺点。这说明情报检索过程绝对不能没有控制,不管今后计算机技术和自然语言系统如何发展,情报检索的基本原理——对词汇的控制是永远不会取消的,变化的只是词汇控制的方式、方法和手段。其实,高质量的检索系统,必须包含有人为的标引、控制因素,尤其在现阶段还有相当的技术问题没有得到解决的情况下。因而在网络信息的自动标引和检索还未能保证质量之前,仍然需要依靠用户和信息工作人员来改善和提高网络信息检索的质量。

目前,情报语言学界一致认为,检索时的后控制是一种较为有效的控制形式,即“自由标引+后控词表”有机结合的混合系统。正如兰开斯特指出:“后控词表的发展为改进联机网络内的检索效果以及成本——效益提供了良好的前景。事实上这种方法值得引起比以往任何时候更多的重视。”这种后控制表采用字顺或分类的方式显示各种关键词或自由词之间的等同关系和等级关系。有了后控词表,就可以把各种“自由散漫”的自然语言组织起来,形成一个语义网络,以便于检索。目前,大量的研究人员都在从事后控词表的设计和开发研究,这方面的研究已经取得实验性的成果,但仍未能达到实用的阶段。一方面是技术的原因,另一方面则是缺少必要的自然语言词表。因此张琪玉教授指出“积极为自然语言与情报检索语言的结合创造条件——建议大量编制自然语言词表”,现在更应加入网络化这一发展因素,解决上述问题也是一个研究难点和热点。

3 情报检索语言新技术的研究

计算机技术的应用是情报检索语言发生深刻变化的主要动力。在网络信息环境下,自然语言的分析和处理是人工智能中与信息检索有着密切联系的一个分支,在网络信息检索中体现为对标引和检索语言的探索。例如,怎样从网络信息中自动抽取标引词?如何从网络信息中自动抽取标引词?如何把用户的自然语言自动转变为恰当的检索提问?如何自动完成相关信息反馈?随着计算机网络和电子出版物的发展,要求情报检索语言必须有所创造,诸如自动标引、自动分类、自动抽词、自动摘要、自然语言理解、智能情报检索等。以上自动化功能的实现必须借助于计算机、语言学、统计学、认识论等学科和领域的知识,这是长期以来检索语言和计算机、语言学工作者研究的重中之重。目前,这方面研究已经取得很大进展。例如,Altavista在自然语言的自动翻译上有所建树,Excite能够自动编制文摘,Askjeeves和inquizit都允许用户直接使用英文句子提问。这些功能还未能完全付诸实践,或者效率很低,有些还处于实验阶段,因此要继续加强这方面研究的力度。

4 重构情报语言学学科体系

情报语言学是一门为情报检索提供语言保障的应用性学科。从发展的角度看,情报检索的发展经历了“手工检索——机械检索——计算机检索——联机检索——网络检索”的发展阶段。相应地,从张琪玉教授《情报语言学基础》一书的3个版本来看:1982年版,是对传统情报语言学学科体系的确定和总结,其理论的确立是据于当时的检索技术处于手工检索和机械检索发展阶段;电大版,是对1982年版的不断完善;1997年版,则把分类主题一体化检索语言、自然语言检索问题纳入情报语言学的学科体系。从这一发展逻辑来看,当前,情报检索语言的生存环境出现网络化发展趋向,研究的领域、前沿问题也随之发生变化。应该指出,必须把网络信息组织的情报语言问题纳入情报语言学的学科体系之中。只有体系的不断完善才能体现情报语言学的勃勃生机,因此要重构情报语言学学科体系。

综上所述,在网络信息这个背景下,一切有关情报检索语言的研究,包括人工语言和自然语言,都应以组织和揭示网络信息资源为中心,应充分吸收国内外情报语言学以及其他学科的先进方法和技术,拓展研究领域,利用丰富的网络资源,包括理论文献、调查研究报告、关于某一种检索语言的网站、关于一种检索语言的应用等,从而发挥各情报语言的优势,取长补短,交汇融合,达到网络信息检索的最高检索效率。

(来稿时间:2000-04-21;编发者:徐向东。)

标签:;  ;  ;  

21世纪信息语言学研究的新课题_语言学论文
下载Doc文档

猜你喜欢