词库中无关词的分析与处理_关联词论文

叙词表无关联词分析与处理,本文主要内容关键词为:关联词论文,词表论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

修回日期:2011-04-29

0 引言

2009年,中国科学技术信息研究所在国内相关研究机构与专家参与下,启动了《汉语主题词表》(工程技术版)的修订与重编工作,修订的出发点是继承,重编的含义是编制适合网络环境下信息组织与信息检索的叙词表,这样的项目完全符合继承与发展的普遍规律。修订与重编的重要内容包括选词与建立词间关系。在选词方面,包括继承一些原《汉语主题词表》(以下简称《汉表》)的重要概念及增加一些新的概念;在词间关系方面,也包括继承以前一些重要的词间关系,并且建立更多新的关系。在项目开展与执行过程中,原《汉表》中一些特殊的叙词——无关联词,成为修订与编制重点讨论与处理的对象。本文通过对原《汉表》无关联词的调查,对无关联词进行了分析与归类。通过与其他80多部叙词表进行对比,分析了无关联词产生的原因,面向《汉表》(工程技术版)的修订与重新编制,提出了减少无关联词的方法。

1 减少无关联词的意义

叙词表中的无关联词,也叫非族中词,几乎在国内每部传统叙词表中都存在,1991年版《汉语主题词表》的无关联词占10%以上[1],2005年出版的《中国分类主题词表》,也有20%的无关联词[2]。传统叙词表无关联词普遍存在,只是所占比例大小不等。叙词表作为较为成熟完善的传统知识工具,词间关系,也可以理解为目前图书馆学、情报学领域概念间的语义关系,是叙词表发挥作用的重要措施,对于无关联词,意味着没有表达出概念间的语义关系,也就无从发挥这些概念的语义关系。这就引发人们思考,为什么传统叙词表中存在无关联词?在网络时代修订和重新编制叙词表时,应该如何面对无关联词?或如何处理无关联词?对于叙词表中无关联词的处理,已经存在的观点是尽量减少无关联词,甚至达到理想的无关联词不存在,即所有的叙词都入族[3],也有关于如何减少无关联词的方法和措施报道[4-5],但现实存在是几乎所有的传统叙词表都存在无关联词。在网络环境下,基于词频、基于文献保障等思想修订和重新编制的叙词表,将在文献的查全查准等方面发挥更加重要的作用[6],丰富的词间关系,将是新型叙词表的重要特征,也是发挥重要作用的基础与条件保障。

2 无关联词相关定义

与叙词表无关联词直接相关的概念,主要有以下几个,分别定义如下[7]:

无关联词(orphan term):如果一个叙词,属项(S)、分项(F)和参项(C)都不存在,则这个叙词就是无关联词。一些无关联词甚至没有代项(D),本文称其为“独词”。

关联比:等于(叙词总数-无关联词总数)/叙词总数。关联比越接近1,说明有语义关系的叙词所占比例越大;或者可以说,关联比越大,则无关联词越少,理想的结果是关联比等于1,即不存在无关联词。

参照度:(F项词数+S项词数+C项词数)/叙词总数,参照度越高,则语义关系越丰富;由于参照度是一个平均值,而单个叙词的参照关系数量存在不均衡特点,故参照度与无关联词数量没有直接关系。可以假设一个极端值,叙词表参照度等于“0”,即所有叙词没有任何F项、S项和C项,这时叙词总数等于无关联词总数,关联比等于0,无关联词的比例为100%,这样的叙词表也就不成其为叙词表了,更可能是一个词汇表,或者是同义词表。

属分参照度:(F项词数+S项词数)/叙词总数。

相关参照度:C项词数/叙词总数。

普通名词与专有名词:叙词表的叙词主要包含普通名词与专有名词两类,普通名词主要指普通事物名称,专有名词表达特定事物的名称。本文为了分析无关联词的特征,参考文献[8]对这两类名词的不同种类进行了编号,见表1。

3 词表相关统计数据

文章统计了1991年版《汉表》中的独词,经过统计,数量是7 885个。笔者又对这7 885个独词在其他80多部叙词表中进行了检索统计,发现共有3 467个独词在其它叙词表中也是独词(完全独词),占43.97%,即这些词在已出版的所有中文叙词表中都没有叙词表的典型的3种关系;4 418(7885-3467)个《汉表》独词在其它叙词表中不“独”(非完全独词),占56.03%,即这些词在其它一些叙词表中存在等同关系、等级关系或相关关系的1种或几种。为了分析《汉表》中7 885个独词的特征,限于篇幅,本文从7 885个独词中随机抽取了80个词,分析这些词的特征,按照本文表1的概念分类方法,将这些叙词归类如表2。

4 概念分类统计分析

从表2可以看出,表示各种普通事物的名词术语(编号1.1)占主要比例,总体比例为56/80=70%。在完全独词中,表示普通事物名词术语的词汇比例为23/33=69.70%,在不完全独词中,表示普通事物名词术语的词汇比例为33/47=70.21%。从以上比例来看,说明独词中表示普通事物名称的术语占主要比例,而且在完全独词与非完全独词中所占比例基本一致,没有迹象表明非完全独词中普通事物名称概念比例有显著差异。

第二大类词就是表示事物属性(编号1.2)与技术名称(编号1.3)类词,总体比例为19/80=23.75%。在完全独词中,这类词汇比例为9/33=27.27%,在不完全独词中,这类名词术语的词汇比例为11/47=23.40%。从以上比例来看,说明独词中表示普通事物属性与技术名称的术语占次要比例,而且非完全独词中这类词的比例与总体比例相当,没有显著差异,无法得出这类词具备更多的词间关系的结论。

通过以上数据分析,分别统计没有任何词间关系的完全独词,以及在其它词表中存在关系的非完全独词的概念属性分类特点,可以得出结论,即叙词表的独词主要由普通事物名词术语、事物属性等术语组成,可否建立词间关系,与概念属性种类关系不大。

5 增加无关联词词间关系方法讨论

网络环境下的叙词表,其适用性建立在丰富的词间关系基础上,在叙词表编制过程中,如果存在无关联词,应该通过以下两种方法添加无关联词的词间关系。

5.1 继承和发展其他相关知识组织系统的词间关系

《汉表》中的无关联词,有一半以上的独词在其它叙词表中具有词间关系,基于知识的继承与发展关系、知识共享特征,在符合构建叙词表词间关系的基本原则基础上,可以参考、吸收和利用已有的词间关系,增加叙词表概念的参照度,使叙词表的关联比接近1或等于1。例如表2中的叙词“三角形”,在《汉表》中是一个独词,属于通用概念,无任何词间关系。可在其它的叙词表中却具备词间关系。例如,在专业叙词表《数学叙词表》中,“三角形”有5个下位词:“锐角三角形”、“等腰三角形”、“钝角三角形”、“直角三角形”、“等边三角形”;在《交通叙词表》、《建筑叙词表》、《印刷叙词表》等多部叙词表中有上位词“形状”;在《石油叙词表》中上位词为“平面几何”,相关词为“多边形”、“三斜晶系”;在《自动化与计算机叙词表》中上位词为“多边形”。通过参考其他叙词表的词间关系,在《汉表》的修订中,可以参考建立属分关系,例如增加上位词“形状”或“多边形”。下位词的概念细分要考虑叙词表的选词规则,专业叙词表的选词专指度高,例如《数学叙词表》中有5个下位词,但综合叙词表或其他专业叙词表中多数没有下位词。

《汉表》(工程技术版)的词间关系一者决定于词表的综合性质,概念选词专指度不宜太高;另外,要考虑新型《汉表》的用途或编制目的,要考虑用户需求,要有丰富的语义关系,主要通过机器推理进行使用,可以处理比纸本叙词数量更加宏大的概念术语,所有这些特点决定了在保证词频的基础上,可以增加一些专指度高的词汇,例如“三角形”的5个下位词,如果词频达到了《汉表》选词的标准,也可以增加为下位词,从而丰富了词间关系。

5.2 通过新技术手段建立或增加词间关系

也可以通过新的技术手段建立或增加新的词间关系。关于如何建立概念间关系,近年来,随着叙词表修订与重新编制的升温,随着本体构建的深入研究,已经报道了大量自动或辅助增加词间关系的方法,例如《汉表》中的独词“自然界”,在其他中文叙词表也没有任何词间关系,为了增加词间关系,可以考虑使用“共现”的方法,具体方法可以参考文献[9],例如“自然界”与“生态系统”、“生态危机”等词汇共现率比较高;也可以使用聚类的方法,发现一些能够聚到一起的词汇,例如通过不同阈值的设置,可以发现“环境保护”、“人类社会”等词汇可以聚到一起。如果《汉表》中存在这些概念,可以考虑建立相关关系,从而增加相关参照度。

为了增加叙词表的语义相关度,面对词间关系,理念为既继承又增加,所以无论是完全独词,还是非完全独词,依据叙词表的编制与修订规则,都应努力增加其叙词参照度。在机器辅助的条件下,依据特定的算法和规则,增加更多的语义关系,成为目前增加叙词表语义关系的主要方法。通过领域专家的个人知识体系,增加词间关系,仍然是一种可行的方法。由于个人知识的差异,手工增加的效率低,影响知识组织体系的构建速度,所以领域专家的作用主要是审阅与确认词间关系。

6 结语

无关联词在传统叙词表中普遍存在,主要由普通事物名词术语、事物属性等概念类型构成,但没有参照度的原因与词的属性分类没有直接关系。在网络环境下,叙词表无关联词需要建立或增加新的语义关系,一种方法是以继承为主,即参考已有叙词表的词间关系进行继承与发展;另一方法为全新构建,可以参考目前已经报道的“共现”、“聚类”等方法建立更加丰富的词间关系。

标签:;  ;  ;  

词库中无关词的分析与处理_关联词论文
下载Doc文档

猜你喜欢