关于中文信息检索语言发展的探讨_自然语言论文

关于中文信息检索语言发展的探讨_自然语言论文

对于中国情报检索语言发展脉络的探究,本文主要内容关键词为:脉络论文,中国论文,情报论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

我国是最早在图书文献资料的体系编列上运用情报检索技术与方法、最早把情报检索思想应用到实践工作上的国家。可以说,我国情报检索语言发展历史悠久,但是情报语言学作为一门科学学科,却只是在本世纪八十年代初才开始的历史。

一、中国情报检索语言与近现代史

中国情报检索语言之近代阶段约略是确定于从1840年鸦片战争到1949年中华人民共和国成立这一段时期。在分类法方面,以杜威(十进制)分类法的传入为分界线,又可以分成为两个发展阶段:

(1)第一阶段:自1840年鸦片战争前后始, 随着帝国主义势力的入侵,“西学东渐”,西方的文化思潮流传到中国,对中国固有的传统思想和文化产生了很大的冲击,使得原有的四部分类法不能适应客观要求,从而产生了一批全新的改进型图书分类法。但这一批图书分类法仍然是纯粹中国意义上的分类法,与前期分类法并行而重。

其主要发展线索是:

①新四部体系的产生:1896年,梁启超首成《西学书目表》,提出“学部、政部、教部和杂类”这样一个区别于传统四部分类法的新四部分类体系。

②四部体系的摒弃:1902年,徐树兰编印《古越藏书楼书目》,提出“学部和政部”的二部分类体系,完全摒弃了传统的四部体系。

在这一阶段中所编制的图书分类法一般具有三个比较明显的特点:一是打破了传统分类法形式上“四部”的框框,在类目设置上勇于创新,具有一定的进步性;二是科学系统性不强,在类名取舍和体系设置上比较牵强、随意;三是缺乏理论上的科学指导,体系松散不够严谨。

(2)第二阶段:自20世纪初杜威分类法被介绍入中国始, 中国情报检索语言的发展在经过长期缓慢的过程后进入了一个崭新的时期,对应于从藏书楼向图书馆的职能上的飞跃性转变,“仿杜”型、“补杜”型、“改杜”型、自创型等各种类型图书分类法相继出现;并且开始建立了全国范围上的协作组织——中华图书馆协会,提出了图书馆学理论问题。

其发展线索是:

①西学东渐——西方先进分类法的引进:表现为20世纪初孙毓修发表的介绍美国杜威之《十进分类法》的文章,是为杜威分类法传入我国之始。

②洋为中用——新分类体系的产生:主要有:1917年,沈祖荣、胡庆生根据杜威十进分类法的原则和方法,仿其结构自创“仿杜”型分类法《仿杜威书目十类法》(另:刘国钧谓为《仿杜威十类法》, 参见02.同上P.398;另:杜定友谓为《仿杜威十进分类法》,参见03.《杜定友图书馆学论文选集》之《图书分类法史略》P.216)。 这是第一部纯为中文图书而编制的新型分类法,其特点在于:一是该分类法体系依书而立类,适用于一般图书馆,理论上适用于所有藏书体系;二是第一次把中文新旧书籍统一进行分类;三是第一次运用新技术编制我国的图书分类法。四是第一次真正冲破《四部分类法》的体系束缚,建立了一个全新的分类体系。

1924年,查修编订而成“补杜”型分类法《杜威书目十类法补编》(另:刘国钧谓为1925年,参见同02),以适应中文图书分类之用。

1929年,刘国钧先生编制“仿杜”型分类法《中国图书分类法》,其基本思想主要来源于杜威分类法,却又有较大的不同。主要特点在于:一是类目含义准确、科学,并使用了类目参照等方法;二是类表灵活性高;三是在分类理论上和编制技术上,都联系实际,有所总结和创新。总之,该分类法在中国近代图书分类法史上占有相当重要的地位。

1934年,皮高品先生编订“改杜”型分类法《中国十进分类法》,其主要特点在于:一是根据杜威分类法只是针对西文图书而编制、不能较好适应中文环境的特点,专门编制适合中文图书和西文图书共同分类的中国图书分类法;二是运用了一系列索引技术、类目参照等方法;三是联系分类实际,编制技术新颖。是当时使用较多、影响较大的分类法之一。

1935年,上海生活书店采用拉丁字母、罗马数字和阿拉伯数字相结合的混合制号码编制了一部思想崭新的“自创型”分类法。

③图书分类协作组织的成立:1925年,以梁启超为会长、董事长、并分类委员会主任的中华图书馆协会成立。

④图书分类原理基础性著作产生:1936年,姚名达编撰而成《中国目录学史》一书。这本有关图书分类原理基础性著作的产生,标志着图书馆学原理从此被纳入目录学范畴。

总之,中国情报检索语言之近代阶段中,尤其是在杜威分类法被介绍入中国以后,受其先进的分类理论、编制技术与分类思想所影响,中国情报语言学在分类法方面得到了较大的创新与发展。主要特点表现在如下几个方面:

①从分类体系来看,冲破了四部分类法的束缚,提出了新的分类理论,能尽量建立在科学的基础之上,为新旧书籍、中外图书的统一分类开辟了可行的途径;

②从类目设置与标记制度来看,比较简单、科学、准确、便于利用,是中国图书分类法史上的一次重大变革;

③从类分表的结构来看,分类法已经形成为一个完整的系统,并且有一定的科学理论作为其指导依据及一定的使用范围作为其实践基础;

④从编制技术上看,既继承了古代分类法的优良传统与经验,更吸收了国外的先进技术,具有科学性;

同时,⑤受杜威分类法带来的局限与影响,在类目体系的确立上表现有机械、呆板、生硬的一面;

⑥对分类法理论中的一些重大问题与实践中出现的情况未能展开充分的讨论并科学的加以解决,从而在实际操作中各行其是,影响了图书分类法理论研究的整体性进展;

⑦分类法几乎都是依靠个人力量进行思考、学习、研究并编制,所以有随心所欲的现象并且难以进行深入的、更为科学的修订。

2.在主题法方面:我国近代图书馆的主题编目技术也是于20世纪初由西方传入的。继而从30年代到50年代,我国虽然有三、四部中文标题表问世,但是都未能得到实际的应用。而仅仅是有国外的一、二部标题表在北京图书馆、北京大学图书馆等少数大型图书馆中参照西方图书馆方式被用以编制馆藏西文图书的标题目录。可以说,到70年代初叙词法语言的创立与被采用之前,主题法体系在我国各类图书馆中几乎没有得到过更多的应用。

二、1949年以后的发展

在本文,中国情报检索语言之建国后初步发展阶段是指从1949年建国到70年代末、80年代初这一时间段,这一时期,我国在分类法和主题法两个方面都有了不同程度的发展,而且技术基础、指导思想等方面有了较大的改变。可以从分类法与主题法两条线来阐述。

1.分类法方面:

①技术基础上的苏联倾向、“五分法”体系的确立与鲜明的政治指导思想的树立:主要体现在五部大型分类法的编制成功上:1948年-1951年,东北图书馆(今辽宁图书馆)编制并修订出版《东北图书馆图书分类法》(简称《东北法》),是我国建国后编制的第一部分类法,第一次将毛泽东著作和鲁迅著作辟为特藏类目而突出,具有建设性的指导意义;在我国当代分类法史和情报语言学史上占有重要地位。

1952年-1954年,张照、程德清主编,中国人民大学图书馆集体编制的图书分类法《中国人民大学图书馆图书分类法》(简称《人大法》),是我国第一部新型的图书分类法,开始了我国图书分类法史上的一个全新的阶段,给全国很大的影响。其特点主要在于:一是奠定了我国图书分类“五分法”的基础;二是完全突破了机械运用阿拉伯数字十进制的束缚,创立了十七大类和不局限于机械十分的新颖的分类体系,提出了同列类目超过十个时以两位数字算作一位的标记方法;三是结构体系比较简明、科学,逻辑性强;四是类目设置不够均匀,自然科学部分过于简单,不很适合于专业性强的图书馆;同时其类目名称不够概括、清晰,严格层累制的类号则过于冗长。

1956年-1957年,中国中小型图书馆图书分类表编辑小组编制的《中小型图书馆图书分类表草案》由北京图书馆出版,并以《图书馆工作》杂志的附册形式予以公布,是我国一部较好的图书分类法,在全国具有很大的影响。其特点主要在:一是使用对象明确;二是在《人大法》的基础上,确立了我国图书馆图书分类法“五分法”的序列体系;三是采取了汉语拼音字母和阿拉伯数字相结合的标记符号混合制;四是在类目设置上首次采用了交替类目的形式。

1954年-1958年,中国科学院图书馆编制成功《中国科学院图书馆图书分类法》(简称《科图法》),由科学出版社出版,使科学院的藏书分类初步形成了一体化,是我国图书分类法中思想性、科学性、实用性三者结合得较好的一部大型的、综合性的图书分类法,一直受到图书馆界的重视,至今还占有相当重要的位置。其主要特点在于:一是体例清楚、结构完整,逻辑性强;二是采用了类目参见、交替类目等多种方法,有利于专业图书馆的使用;三是在自然科学部分,列类比较详细,较好的反映了当时科学技术的发展水平;四是在体系安排、类目设置了上系统性较强;五是独特的纯数字号码制度,类号简洁、易记、易读、易于排检。

1971年-1975年,大型综合性图书分类法——《中国图书馆书分类法》(简称《中国法》)编制成功,1979年-1980年修订再版。该分类法较好的解决了大型综合性图书馆的图书分类问题,而陆续为全国相当比例的图书馆和情报单位所采用,开始了我国统一分类法的新时代;随后,《中图法》被推荐为国家试用标准并在实际上起到了国家标准的作用。其主要特点在于:一是类目采用上充分反映了新科学、新技术、新学科的存在;二是引进的组配编号法极大的增加了分类法的性能和灵活性,一定程度上缓和了分类法在集中与分散上的矛盾;三是体系安排和类目设置上的规范化,易记、易标、易于检索;四是采用汉语拼音字母和阿拉伯数字相结合的混合号码制,保证了分类法的相对稳定性和扩充发展的可能性;五是编制了一部较为详细的相关索引,在一定程度上能起到主题检索的功效。

②技术性、实践性与思想性相结合的著作产生:1953年,刘国钧所著《图书怎样分类》由开明书店出版,这是我国第一本关于图书分类技术、分类工作实践方法方面的参考资料,也是一部经典性著作。

1957年,刘国钧、陈绍业、王凤翥编著《图书馆目录》由高等教育出版社出版,内容主要分为两大块:分类、目录。是我国第一本最有影响的图书馆著作。

③图书分类理论的转向与情报检索语言的学科思想基础产生:刘国钧先生于《图书馆》杂志,1962年第四期发表《分类、标题和目录》一文,及《科技情报工作》杂志,1963年第六期发表《分类法与标题法在检索工作中的作用——在检索方法座谈会上的发言》一文;与杜定友先生于《图书馆》杂志,1962年第二期发表《图书分类法的路向》一文等,表明中国图书馆学界已经开始逐步把目光转而投向主题法语言以及分类法语言与主题法语言结合的研究上来。

总的来说,这一时期中国图书分类法一改近代阶段“西学东渐”时以杜威分类法为体系核心或参照核心的做法,而是受前苏联图书分类法思想的影响更为深刻,全面的学习了前苏联的图书分类法编制技术。实际上,这是我国图书分类史上飞速发展的一个时期。

2.在主题法方面:

正如上文所说,我国在70年代初之前,主题法体系在我国各类图书馆中几乎没有得到过更多的实际应用,主题法思想也未得到充分的认识和发展。直到叙词法语言的创立与被采用之后,才有了根本性的转变。其主要线索是:

①标题表的产生:1950年,程长源编制的《中文图书标题法》(附有标题表)由商务印书馆出版,是我国建国后编制的第一部标题词表,也是第一部关于标题法应用的书。

②标题法原理的认识与研究:1963年,丁珂所著《索引工作基础》由第一机械工业部技术情报所油印发行,并在《科技情报工作》上发表了“汉文标题法的初步探讨”、“编制汉文字顺标题索引的原则意见”等文章,首次系统总结了标题语言词汇控制的主要原则,阐述了标题法的原理与基础。

③实用性主题词表与叙词表的编制:1964年,航空工业部情报系统编印而我国建国后编制的第一部实用性的标题词型主题词表——《航空科技资料主题表》,1971年修订再版,改编成为我国第一部叙词表,其中收录正式叙词4330个,非正式叙词199个。

至此,我国的叙词表的具体编制工作、对主题法语言思想及理论的研究工作才逐步开展了起来。可以认为,这一时期才是我国叙词语言——主题法语言的实际初步起步与尝试阶段。

三、中国情报检索语言之趋于成熟阶段

中国情报检索语言之趋于成熟阶段主要是在80年代以后,随着改革开放的展开、推进与深入,中国情报检索语言开始在传统理论研究的基础上与吸收世界精华的同时,与之进行互补性的相结合,——“西为中用”,逐步探寻而创立自己的情报语言学学科体系与理论框架的道路,主要表现为情报语言学学科的框架体系的构建,以及情报检索语言的标准化、理论创新与语言创制问题的研究深化。

情报检索语言的标准化主要是通过全国性协调组织机构——情报语言学会的成立得以提出并实现:1980年,全国文献工作标准化技术委员会(简称“全国文标会”)第五分会成立,其主要任务是促进情报检索语言的标准化。

情报语言学学科的框架体系的构建主要是通过一本理论专著的产生:1980年-1982年,我国情报语言学学科的主要开拓者之一——张琪玉先生完成并修订《情报检索语言》一书,1983年出版,1987年修订再版并更名为《情报语言学基础》,对每一种情报检索语言类型进行综合分析,横向比较,抽象升华,把理论研究的基点建立在实践的情报检索效率提高之上。从而构建了中国情报语言学学科的基本框架与研究方法体系,拓展了情报语言学全新的研究领域,不断的进行学科的创新和新型情报检索语言的创制研究。

1.在分类法方面:

1975年《中图法》第一版的出版,就开始了我国统一分类法的新时代;随后,《中图法》被推荐为国家试用标准,实际上,从70年代末80年代初以后,我国分类法已经基本上走向统一,而从分类法的具体编制转到了分类法的及时修订这条正确的道路上来。

2.在主题法方面:

①叙词表的基本模式的确立:1975年-1980年,由中国科学技术情报所和北京图书馆主持编制的《汉语主题词表》(简称《汉表》)完成,共收词108568个,其中正式叙词91158个,非正式叙词17410个,是我国、也是世界上目前规模最大的叙词表之一。

《汉表》是一部结构体系完整的大型综合性叙词表,它确定了我国传统叙词表的基本模式,并进而成为汉语叙词表编制的典范,为我国的词表编制培养了人才,积累了经验,成为各专业性汉语叙词表的词汇和结构的基础。

②叙词表的技术成熟:1986年-1990年,我军队系统第一部大型综合性叙词表——《军用主题词表》(简称《军表》)编制成功,共收词52500个,其中正式主题词47340个,非正式主题词5160个,其计算机技术辅助编制方式和字顺表词族表合一的等级关系全显示方法既便于使用,又相对降低了成本,是词表结构的一种较好的选择。

3.在分类法主题法一体化上:

从结构与功能的关系角度:结构决定着功能,而功能反过来促进结构的优化。分类法主题法一体化正是情报检索语言在结构与功能发展的过程中,自身结构上的互补性融合优化的必然要求。

其主要线索表现为:

①分类表一叙词表对照索引式一体化检索语言的成果实现:1985年-1993年,中国图书馆图书分类法编辑委员会编,刘湘生等主编的《中国分类主题词表》编制完成,全表总约1500万字,是目前世界上最大的一部综合性一体化词表。它既是《中图法》第三版和《资料法》有机的合璧本,也是一部完整的《汉语主题词表》的增订本,同时更是一部《中图法》和《汉语主题词表》的双向对应互换、互为索引的工具书,方便了标引与检索,提高了检索效率,其功能大大强于两者之和。

《中国分类主题词表》作为大型分类表一叙词表对照索引式一体化检索语言而成为同类型专业性词表编制的基础,是情报检索语言创新改革、一体化词表编制模式的成功实践,具有重要的理论价值和实践意义。

②分类法主题法一体化新模式的成果实现:1993年,由中国社会科学院文献信息中心主持研制,朱铁声等主编的《社会科学检索词表》通过鉴定并于1996年出版。全表共收词23000个,其中正式叙词18874个,非正式叙词4126个,是一部大型的社会科学领域的综合学科型分类法主题法一体化模式的叙词表。

该词表的成功编制不仅填补了我国社会科学领域大型综合性检索语言的空白,而且在探索词表结构体系新模式、编制新技术等方面进行了大量的理论研究和实践探索工作,丰富了我国情报语言学理论。

4.在情报检索语言的计算机技术化方面:

计算机技术因其独特的功能对应于检索效率的要求(高准确度、高速度、低检索成本、低时间消耗等)而成为情报检索活动中崭新而又不可或缺的现代工具。在我国情报语言学的具体应用实践和理论研究领域,情报检索语言计算机技术化主要表现为如下方面:

①词表的计算机辅助编制技术化。即在词表(包括分类表,下同)的编制过程中,辅助完成大量细致、繁琐的日常例行性工作,可以大大缩短编制时间,提高编表质量,降低编表成本。目前在具体形式、功能拓展、反应速度、技术水平、主体对象上都有深化的趋势。1996年5 月大型综合学科型分类主题一体化分面叙词表——《社会科学检索词表》的出版发行标志着我国计算机辅助编表技术的完全成熟。

②词表的计算机管理技术化。具体的可表现为对应于词表的增、删、改、联、升级、优化以及其它日常或例行维护工作。其优点在于:一是实时性;二是准确性;三是联动性;四是全面性;五是低耗性;六是在线性。1992年10月《军用主题词表》编管会完成“汉语叙词表微机编制管理系统”的研制,系统包括叙词维护、范畴维护、质量维护、逻辑查错、排版输出和统计分析六大模块以及若干子模块,管理功能较为齐全。

③词表的计算机应用技术化。主要体现于:一是词表的联机功能,包括联机显示、联机查询、联机标引、联机检索等;二是检索校对,即对于检索用语、标引用语等的错误校对;三是入口词的自动转换与优选词的提供;四是检索策略的优化;五是自动的扩、缩、和改变检索范围;六是词频(包括标引用词与检索用词)统计;七是对词表的优化与升级。1998年9 月《军用主题词表》编管会研制的“《军用主题词表》应用管理系统(EMT)”在军事科学院通过专家鉴定,具有较高的创新性,标志着我国叙词语言的研究和词表的计算机应用技术化进入了一个崭新的发展阶段。

④词表的计算机数据技术化。即把词表数据转变成为计算机型的机读数据,词表转为机读型的数据动态性词表,从而使得词表从建立生成到管理维护到标准兼容到动态联机到更新优化到再版升级都实现计算机化。1997年7 月解放军报社与深圳科技信源电子有限公司等多家单位共同研制完成的“解放军报光盘数据库系统”在这方面做了开拓性的工作。

⑤词表的计算机网络技术化。这是一个前沿性的研究课题。在计算机网络环境下,传统的情报服务在形式、手段、内容等许多方面都发生了明显的变化,情报检索的需求特性、主体成分、行为形态、目标能态等的转移使得词表必然对应于此而实现计算机网络技术化。主要可表现在四个方面:一是词表对于网络数据库的控制;二是词表对于网络信息资源的组织、控制;三是词表对应于网络环境的适应性发展;四是计算机网络系统的词表控制。

⑥词表的网络版。即以计算机网络环境为物质基础,以网络技术为技术建构平台,使词表实现在网络环境下的动态编制、维护、管理、应用。

5.在自然语言检索方面:

自然语言在情报检索中应用是情报检索语言领域在受控语言占绝对统治地位时代的重大变革,是当今情报检索领域的一种重要的发展趋势。其主要应用标引方式有三种:无标引方式、自动标引方式、人工标引方式。

①自然语言检索研究的理论总结:1997年,张琪玉教授的《情报语言学基础(增订二版)》一书将自然语言检索与应用研究作为一个重要章节,系统总结了我国自然语言检索技术研究成果,标志着我国的自然语言检索研究进入了一个新的历史时期。

②自然语言检索与受控语言检索研究的技术成果:1997年7月, 解放军报社与深圳科技信源电子有限公司等多家单位共同研制完成的“解放军报光盘数据库系统”是自然语言与人工受控语言在检索系统中结合的典范。

1998年9 月《军用主题词表》编管会研制的“《军用主题词表》应用管理系统(EMT)”在军事科学院通过专家鉴定, 所提供的自然语言接口通过双叙词词素的轮排来实现,并加入了人工智能的原理和方法,具有较高的创新性,能较好的实现自然语言与受控语言的转换,提高自然语言与受控语言的兼容度从而提供多种检索途径,在国内处于领先地位。

总的来说,自然语言的应用是以计算机检索技术为前提的,与国外自然语言检索研究相比较,我国还有很大的差距,处于起步阶段。

6.在探索21世纪情报检索语言方面:

未来情报检索语言的发展方向如何,是情报语言学领域的重大课题。自然语言检索是情报检索的一个重要发展趋势,但受控的情报检索语言仍将处于主要地位,自然语言不可能全面取代情报检索语言,这种认识占据主流。自然语言与受控语言的结合是情报检索语言发展的必然之路。1997年张琪玉教授在《图书馆杂志》、《北京大学学报》(信息管理系专刊)上分别著文探索并介绍21世纪的情报检索语言发展方向。指出理想的情报检索语言应是学科——事物概念组配型检索语言,其主要实现方法可概括为——“分面分析+概念代码+概念对应转换+数据库技术”模式。

总而言之,我国情报语言学在经过多少代学者的共同建设之下,从一种技术性、工具性、方法性工作已经发展为图书馆学重要的一门分支学科——情报语言学,从一种技术、工具、方法已经发展为一个科学的理论研究对象,如今已走向发展的成熟阶段;在信息资源网络化和知识全球化的社会环境中,如何研究和把握情报检索语言的发展技术、发展方向,发展形式和发展目标,已是情报语言学学者和研究人员下一步必须要思考和深入探索的情报语言学学科的最主要课题。

标签:;  ;  ;  ;  ;  ;  ;  

关于中文信息检索语言发展的探讨_自然语言论文
下载Doc文档

猜你喜欢