并列成分中心语语义相似性考察,本文主要内容关键词为:相似性论文,语义论文,心语论文,成分论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1.引言
并列结构(coordinate structure)是语言信息处理中的一个难点。一般认为并列成分是相似的,并列结构的自动识别研究几乎全是围绕并列成分的相似性来进行。Okumura和Muraki(1994)、Agarwal和Boggess(1992)对英语并列结构的研究,Kurohashi和Nagao(1994)对日语并列结构的研究,周强(1996:37-40)和孙宏林(2001)对汉语并列结构的研究,都是基于“并列成分相似”这样的语言学假设,在此前提下设计规则和算法。汉语语言研究也认为并列成分是相似的:吴竞存、梁伯枢(1992:162)指出,词性相同、结构相同、语义类相同、音节数相同的项并列是最理想、最严格的并列;储泽祥等(2002:49)认为并列短语的形成是以“语义亲近性”为基础的。然而不幸的是,我们对“并列成分相似”这一概念却是模糊而不清晰的,什么样的成分和什么样的成分在什么样的条件下可以形成并列,我们并不是那么确切地知道。上述研究暴露出来的共同问题是,在利用并列成分的相似性时有些盲目。Kurohashi和Nagao(1994)指出,提高并列结构识别准确率的一个重要途径,是设计更为精确的相似度测量方法。
中心语(head)是当代句法理论中的一个核心概念,扩展的短语结构文法(GPSG)、中心语驱动的短语结构文法(HPSG)都把中心语摆在了重要的位置。中心语是其父亲节点句法语义特征的集中体现者,那么,并列成分的相似也应该集中体现在各并列成分的中心语上。本文基于中文概念词典(Chinese Concept Dictionary, CCD),对名词性并列结构并列成分中心语的语义相似性进行了定量考察,给出了定量结果并进行了定性分析。本文的研究和以往的大多数研究其实是“逆向”而行的:以往的研究是根据“并列成分相似”这一特性来标注出文本中的并列结构,本文是根据标注出的并列结构来考察“并列成分相似”这一特性。
2.考察准备
语义约束需要基于一个良构的语义分类体系,否则,“同语义类并列”这一大多数人认为的语言规则,将会是模糊不清、摇摆不定的。但汉语语义分类体系还处在探索阶段,不同学者从不同的角度出发,构造适合各自研究目标的语义分类体系。董振东的HowNet(注:请参见:http: //www.keenage.com.)、北京大学的中文概念词典CCD(于江生、俞士汶 2002)、北京大学的《语义词典》(王惠等 2003)、北京语言文化大学的905工程语义分析体系(陈小荷 1998),这些语义分类体系在语义范畴的设定上存在诸多不一致性(詹卫东 2001)。在不一致的语义范畴上谈论共同的“同语义类并列”,结果必然是不一致的。另一方面,语义分类体系都是层级结构而非扁平结构,例如“生物”下分“动物”和“植物”,“植物”下又分“花草、树木、庄稼”,那么我们在哪个层级上定义“同语义类”呢?
本文选择CCD作为研究现代汉语名词性并列结构语义相似性规律的立足点,这当然主要是因为CCD沿袭的是WordNet(Fellbaum 1999)的语义分类体系,而WordNet在计算语言学界已产生了广泛深远的影响,已成为事实上的国际标准。CCD的构建思想主要体现在三个方面:
1)传达的是概念关系,概念的承载者是词语,词义在概念中体现。
2)用同义词集合(synset)表示概念。synset用可替换性原则来确定,当两个词语在某个语境中可以相互替换而不改变语义时,它们即属于同一个synset。例如,{手段,方法}可以在下面的语境中替换:“要采用合适的手段|方法来解决这个问题”,它们因此属于同一个synset。
3)上下位是主要的语义关系。
本文以CCD的25个名词基本语义类(见附录)作为研究的出发点,不再关注其语义细类。不过CCD也并不是那么完美,并列结构的语义相似性某种意义上是一种客观存在,并列结构的研究可以反过来关照CCD的语义分类体系,引导其作出适当的调整。
我们从《人民日报》1998年1月1-10日的语料中(注:语料经过了词语切分和词性标注。作为先行研究准备,笔者手工标注了1998年1月1-10日语料中所有出现的有标记并列结构,2010个名词性并列结构就是从中抽取出来的。此语料可从北京大学计算语言学研究所网站下载供研究之用:www.icl.pkv.edv.cn.) 随机抽取了2101个有标记名词性并列结构,基于CCD对其中心语相似性进行了定量考察。本文的例句均取自于此(注:为了节省篇幅,例句在字词上有所删减。)。待考察的并列结构都是两项的,多项并列结构可看作是多个两项并列结构的叠加,和两项并列结构应该具有相同的语义约束。待考察的并列结构仅包括并列成分中心语是名词的并列结构,如“被[习惯势力和陈旧观念]所束缚”,“全部是由[国家、集体]投资”。
对名词性并列结构,各并列成分的最右端一个词默认为是中心语;当并列成分是光杆词语时,其自身也就是中心语。考察两个并列成分的中心语语义类异同情况,其计算机操作过程可概要地叙述为(注:北京大学计算语言学研究所的叶嘉明和温珍珊同学帮助实现了这部分程序,并提出了许多很好的建议,在此表示谢意。):1)提取两个并列成分的中心语,并列标记之前是前一个并列成分的中心语,并列结构结尾处是后一个并列成分的中心语;2)在CCD知识库中寻找各中心语所对应的语义类(注:当词语是多义词,有多个语义类归属时,由人工进行甄别选择正确的语义类。);3)产生中心语语义类同现列表。
行文中,用“n[+X]”表示n的语义类是X,用“[ ]”标示出句子中的并列结构。
3.对语义分类体系CCD的调整
语言的语义分类体系不同于生物科学的物种分类,后者具有科学客观的依据,而前者却具有一定的个体主观性和随意性。语义分类体系渴望在语言运用中证明自己的有效性,并列结构无疑是一种较好的证明方式。我们在利用语义分类体系来研究并列结构的同时,也根据并列结构的语言特征对语义分类体系(CCD)作出了适当的调整。
CCD是用标记树来表示概念关系的,我们就用“树”的术语来描述这些概念关系:处于同一个初始概念下称为有共同祖先节点,否则称为无共同祖先节点;同一个初始概念下并列的概念称为兄弟节点;同一个初始概念下的上下位概念,不论距离远近称为祖孙节点;同一个初始概念下的其他概念,如果不属于同一个synset、不形成兄弟节点和祖孙节点,则称为远距离节点。
3.1 对“处所位置”语义类的调整
CCD在“处所位置”(location)语义类下设有“国家”(country)一小类,“国家”之下又按洲际区分出“欧洲国家、非洲国家、亚洲国家”等。例如CCD中,“中国”的上位概念依次是“亚洲国家→国家”,“南非”的上位概念依次是“非洲国家→国家”,“中国”和“南非”是两个平等的主权国家,它们可以自由地形成并列,地理位置上属于哪个洲际一点也不妨碍这种并列,如“高度评价[中国和南非]建立外交关系的重大意义”。又如“[美国和伊拉克]关系紧张”。因此,从并列结构的形成考虑,可以将“处所位置”的“国家”这一小类坍塌,不再区分洲际,而看作是政治上平等的主权国家。这一坍塌的结果是,“中国、南非、美国、伊拉克”都由远距离节点变成了兄弟节点。
3.2 对“群体”语义类的调整
CCD在“群体”(group)语义类下设有“人们”(people)一小类(记作[+人们]),表示“任何一群人”(any group of human beings),而25个基本语义类中又设有“人”(person)一类。现代汉语中,[+人们]和[+人]名词经常形成并列,例如:
(1)a.日益被[各层领导和社会公众]所认识。(领导[+人],公众[+人们])
b.雅俗共赏,极受[专家和人民群众]喜爱。 (专家[+人],群众[+人们])
看来,[+人们]、[+人]名词能自由形成并列,而可以不论是否是“群体”,即数的多少。这是由于汉语没有数的形态变化而造成的。例(1b)中并列结构若翻译成英语必得用复数形式,如expert and common people。[+人们]、[+人]这两个语义类在汉语中是相近的,应该合并在一起。事实上,HowNet、《语义词典》都是将“公众、群众”这样的词置于“人”语义类下。
CCD在“群体”(group)语义类下设有“社会团体”(social group)一小类(记作[+社会团体]),[+社会团体]名词经常和[+人]名词形成并列,例如:
(2)a.[求职者和用人单位]反映最为强烈的,(求职者[+人],单位[+社会团体])
b.[旅客和航空公司]都受到损失, (旅客[+人],公司[+社会团体])
[+人]名词和[+社会团体]名词都具有“施事”功能,很多动词对它们具有相同的选择限制。例如,“反映”的主体可以是“求职者”,也可以是“单位”,因此可形成例(2a)的并列;“受到损失”的主体可以是“旅客”,也可以是“公司”,因此可形成例(2b)的并列。除了一些人所特有的生理动作[+社会团体]名词不能胜任,例如不能说“[**]单位吃”([**]表示“某某”),“[**]公司跑”,[+社会团体]名词可以充当大多数动词的施动者,如“单位赠送锦旗,公司转让债权,航空公司请求延期”等等。虽然表面上[+社会团体]名词不具有生命,但它由具有生命的人所组成,并且由其中的代表法人来实施某种行为,因此句法功能上[+社会团体]名词和[+人]名词有很多相似之处。从WordNet对“社会团体”的解释中,我们可以更清楚地看到“社会团体”和“人”的密切联系:people sharing some social relation,“社会团体”其实就是一群人。因此,“社会团体”和“人”在语义分类中可以适当合并。《语义词典》将“社会团体”置于“人”语义类下作为一个次类(注:《语义词典》将此语义类称作“团体”(group)。),这是比较合适的。
基于上面的论述,我们对CCD的“群体”语义类作如下微调,见图1:
附图
图1 对“群体”语义类的调整
3.3 对专名语义关系的约定
《人民日报》语料中专名的并列是非常普遍的,这主要是人名和人名并列,地名和地名并列。例如“[新华社记者陈雁、本报记者何加正]报道,遭受严重雪灾袭击的有[尼玛县、安多县]等县”。在一般的语义词典中找不到此类专有名词,本文的考察中将此类并列的专名看作是兄弟节点。
4.数据考察
在上述调整的基础上,我们对2101个并列结构进行了定量考察。CCD的25个初始概念也就是25个基本语义类,有共同祖先节点也就意味着属于共同的语义类,而无共同祖先节点则意味着不属于共同的语义类,见表1。
有共同祖先节点: 188990%
词形等同:1367%
同一个synset:58 3%
兄弟节点:47222%
祖孙节点:70 3%
远距离节点: 115355%
无共同祖先节点: 21210%
总计:
2101100%
表1 名词性并列结构并列成分中心语语义相似性考察
5.语料分析
5.1 并列成分中心语属于同一个语义类
表1显示,在90%频率的情况下,并列成分的中心语在语义分类树上享有共同的祖先节点,即属于同一个语义类。这时各并列成分呈现出语义上的相似性,激发的是人们头脑中基于语义类的相似联想。语义相似和下文(5.2.2)将要讲到的语义相关是两种主要的词语之间的语义联系。一般认为,语义相似较语义相关在人们的认知世界中更为重要,本文的研究也同样表明,在并列结构的形成中,语义相似扮演着头等重要的角色。并列成分中心语语义相似又有下面几种情况。
1)词形相同。并列成分中心语的词形相同,也即达到了句法和语义的完全统一。例如:
(3)a.建立一整套适应市场经济的[竞争机制和激励机制]。
b.真正把[技术优势和条件优势]结合起来。
2)同一个synset。同一个synset中的词语是同义或近义的关系,它们在某一特定语境下可以互相替换而不改变句子的语义。并列成分中心语属于同一个synset的例子不是很多,只占3%,这时各并列成分的语义是很相近的。
(4)a.他们往往融合多种[创作方法和艺术手法]。
b.产品有[20个大类、1000多个品种]。
3)兄弟节点。并列成分中心语是兄弟节点,这种情况分布比较普遍,占到了22%。这时各并列成分语义相近,在概念意义上存在着种差。
(5)a.企业追求创造、追求技术进步的[压力和动力]将会减弱。
b.促进整个[长江、黄河]流域生态环境的好转。
4)祖孙节点。祖孙节点即上下位概念,并列成分中心语属于上下位概念的情况不是很多,只有3%。请看下面的例子:
(6)a.他想借此机会了解一下困难企业和职工的[情绪和真实状况]。
b.特别要安排好[灾区和贫困地区]群众的生产和生活。
c.中国愿意加强同[联合国和其他国际组织]的协调。
例(6a)中“情绪”是一种“状况”;例(6b)中“灾区”是“地区”一类;例(6c)中“联合国”是一种“组织”。当这些词无标记连用时,形成的是定中结构而不可能是并列结构,如“情绪状况、灾区地区、联合国组织”。例(6b)、例(6c)中上位概念“地区、组织”前面分别有其他的限定成分,以拉近两个并列的成分,使其处于平等的地位。这样就导致了两个并列成分结构上的不平行,例如单词“灾区”和粘合式定中结构“贫困地区”并列;单词“联合国”和粘合式定中结构“其他国际组织”并列。这时语序排列上呈现出“前轻后重”的趋势,例如我们一般不说“[**]贫困地区和灾区”,而倾向于说成“灾区和贫困地区”。
5)远距离节点。并列成分中心语属于同一个基本语义类,但语义距离较远,不是同一个synset,也不是兄弟节点或祖孙节点,而是远距离节点。这种情形在并列结构中分布最为广泛,占到了1/2强。如下面这些例子:
(7)a.其中包括[未发表过的文章及在南开读书时期的作文]。 (文章、作文[+通信])
b.超过传统的出口产品[香蕉和咖啡]。 (香蕉、咖啡[+食物])
c.袁家兄弟拍武打片确实有[丰富的经验、独到的手法]。 (经验、手法[+认知])
d.[专家、各界观众]也提出许多修改意见。 (专家、观众[+人])
如此多的远距离节点并列告诉我们,有标记并列结构对各并列成分中心语的语义相似性要求是比较粗糙的。例如,CCD中“经验”的上位概念依次是“认知内容→认知”,“手法”的上位概念依次是“方法→操作技巧→才能→认知”,不同的细类区分并不影响它们并列在一起。又如例(7d),CCD中“专家”的直接上位概念就是“人”,“观众”的上位概念依次是“察觉者→人”,语义小类不同但他们却可形成并列,因为他们都是“人”。
5.2 并列成分中心语不属于同一个语义类
表1显示,在10%频率的情况下,并列成分的中心语在语义分类树上没有共同的祖先节点,即不属于同一个语义类。并列成分中心语的语义类不相同时,又是什么相同的东西把并列成分拉在一起了呢?
5.2.1 不属于同一个语义类但呈现出语义相似
在上文的考察中,我们对CCD的25个基本语义类采取了统一的一刀切的做法,即认为同一个语义类内部的词语相似,不同语义类的词语彼此等距离不相似。其实这种认识是很粗线条的。“实体”(entity)类语义类形成并列结构时,其语义类相同要求更细,而“抽象物”(abstraction)类语义类形成并列结构时,其语义类相同要求略粗。事实上,同属于“抽象物”类的“属性、关系、通信、认知、群体、状态”6个语义类之下的词语可以相当自由地彼此形成并列。例如:
(8)a.要坚持不懈改善[生态环境和生产条件]。 (环境[+状态],条件[+属性])
b.可持续发展的[定义和内容]。(定义[+通信],内容[+认知])
c.被[习惯势力和陈旧观念]所束缚。(势力[+属性],观念[+认知])
d.有着[悠久的文明和丰富的文献传统]。(文明[+群体],传统[+认知])
e.一国两制事业的[可行性和辉煌前景]。(可行性[+属性],前景[+状态])
人们对抽象事物的认识其实没有那么清晰的分类意识。假如问一个人“环境”、“传统”、“可行性”的语义类是什么,他或许会回答“环境”的语义类是“认知”,“传统”的语义类是“通信”,“可行性”的语义类是“状态”。各家语义分类体系对抽象词语的归类也存在诸多的不一致性。《语义词典》将“环境”和“传统”笼统地归入“抽象事物”,将“可行性”归入“属性”。HowNet将“环境”和“可行性”归入“属性”,将“传统”归入“规矩”(相当于CCD中的“认知”类)。而对具体事物(实体)就是另一番光景了,没有人会认为“桌子”是“食品”,或者“狗”是“人工物”。表现在语言上,具体事物(实体)的语义类之间不能随意并列,偶尔并列也依赖于一定语境的支撑。现代汉语并列结构的形成启示我们,对路径长度相同的两对节点,“具体事物”类下的两个节点语义距离较大,而“抽象事物”类下的两个节点语义距离较小。那么,在并列结构的自动识别过程中,对抽象名词的语义相似性要求可适当放宽,而对具体名词的语义相似性要求需适当加严。
另外还需注意的是,“社会团体”名词和“处所位置”类下的“行政区”(district)名词可以彼此形成并列。“社会团体”名词既可以指称共享某些社会关系的人们,也可以表示这些人们所在的处所位置,例如“银行”,在例(9a)中表示“社会团体”之意,而在例(9b)中表示“处所位置”之意。反之,“处所位置”类下的“行政区”类名词既可以表示占有一定空间的处所位置,如例(10a)中的“北京”,又可以指称相关的社会团体,如例(10b)中的“北京”。两种意思的传达是这两类词语天生内置的。因此,[+社会团体]名词和[+行政区]名词可以自由形成并列,如例(11)所示。
(9)a.来自西方7国集团和瑞士的13家银行还在纽约聚会。
b.他走进了那家银行。
(10)a.1921年9月26日生于北京。
b.北京第一个按照国际奥委会的要求,如期将申办报告文本送交国际奥委会审阅。
(11)a.深入[企业和农村]。
(企业[+社会团体],农村[+处所位置])
b.[俄罗斯和北约]之间战略伙伴关系的建立。
(俄罗斯[+处所位置],北约[+社会团体])
类似例(11)的并列结构并列成分的中心语也应看作是相似的。
概而言之,“抽象物”类名词并列,[+社会团体]和[+行政区]名词并列,并列成分中心语还是呈现出了语义上的相似性。如果将这两种情形也计入语义相似,那么并列成分中心语语义相似的频率将高于90%。
5.2.2 不属于同一个语义类呈现出语义相关
并列成分中心语不属于同一个语义类时,很多并列结构的并列成分呈现出语义上的相关性,激发起人们头脑中的相关联想,从而形成语言可接受的并列。人脑思维中容易同时激活同一情境(situation)或同一框架(frame)下的不同概念,不同语义类并不能妨碍这种激活,情境或框架足可以成为激活因子(trigger)。例如,面对“商业事件”这一情境,人们很容易联想到买主、卖主、商品、钱以及买卖的行为(Fillmore 1982)。又如,面对“医疗行为”这一情境,人们很容易联想到医生、护士、医院、疾病、费用等等相关概念(董振东、董强 2000)。基于语义类的语义相似是一种聚合型的语义关系,而基于情境的语义相关是一种组合型的语义关系。相关概念在一定的语境下就可形成并列。例如:
(12)a.有利于提高[企业和资金]运作效率。
(企业[+社会团体],资金[+所有物],情境:商)
b.从这里出发的[车辆和人群)如洪水般流向麦加。
(车辆[+人工物],人群[+人们],情境:道路交通)
c.促进更多的[中文、中国]信息上因特网。
(中文[+通信],中国[+处所位置],情境:中国)
d.环境教育的[师资、教材]都非常缺乏。
(师资[+人],教材[+人工物],情境:教育)
e.造就出一批批自强不息、直面挑战的[企业和企业家]。
(企业[+社会团体],企业家[+人],情境:企业)
这些不同语义类的词语因在同一个情境下共存而可形成并列,并列的词语通过不同的方式“指引”(index)或是“唤起”(evoke)相同的普遍情境。HowNet致力于反映概念之间和概念的属性之间的各种关系,形成的是一个网而不是一棵树,同一情境下的不同概念之间有着相关联的描述。并列成分中心语语义相关在HowNet中也可得到部分验证。例如,对例(12a,b)并列成分中心语,HowNet的描述是(注:此处参考的是HowNet 2000版本。):
(13)a.企业:InstitutePlace|场所,[*]produce|制造,[*]sell|卖,industrial|工,commercial|商
资金:spend|花费,#money|货币,commercial|商
b.师资:human|人,[*]teach|教,education|教育,mass|众
教材:readings|读物,[*]teach|教,education|教育
5.2.3 不属于同一个语义类呈现出语义相对
相近的概念容易被同时激活,相对的概念也容易被同时激活。语言中,表示相对意义的词语经常形成并列。例如:
(14)a.接收河西医院全部[人员和资产]。(人员[+人们],资产[+所有物])
b.漫漫史河的[许多实事、众多人物]。 (实事[+事件],人物[+人们])
c.[社会心理、人们情感]变化都是值得抒写的。 (心理[+认知],情感[+情感])
d.赢得了宝贵的[时间和空间]。(时间[+时间],空间[+处所位置])
e.典型本身的[真实事迹和先进思想], (事迹[+行为],思想[+认知])
例(14)中并列的概念在某种意义上是对立的,表示两个互补的集合,这两个集合相并就形成一个对语言交际而言完整的集合,对这个完整的集合我们还无法用一个更为抽象的语词来指称。人们常说“人财两空”,“人”和“财”在汉语言人们的认知世界中是对立和互补的,因此有了例(14a)的并列。同样“人”和“事”,“心理”和“情感”,“时间”和“空间”也是对立互补的。例(14e)是“认知”类名词和“行为”类名词并列。哲学上强调理论和实践的统一,在人们的思维中(至少在汉语言人们的思维中)同样注重“认知”和“行为”的辩证统一,“认知”和“行为”类名词在语言中经常形成并列。例如:
(15)a.会议的[收获和价值]其实应当体现在议透和解决了什么。(收获[+行为],价值[+认知])
b.提出了近15年内的基本[措施和政策]。(措施[+行为],政策[+认知])
c.以自己的[聪明才智和实际行动],谱写青春之歌。 (聪明才智[+认知],行动[+行为])
还需注意的是,例(14)中各并列成分多是概括的、抽象的词语,它们不指称具体的概念,一旦将其中一个抽象概念换作具体概念,并列就不成立。例如不能说“[**]接收河西医院全部[医生和资产]”。这种抽象概念往往就是某个语义类的“标签”,其本身的意义和用法与语义类内部具体词语差别很大。例如“时间”的语义类是[+时间],但和具体的时间词“今天”、“明年”用法语义差别很大,可以说“今天学习”,但不能说“[**]时间学习”。“时间”能和别的语义类的词语形成并列,如“时间和精力,时间和空间”,但具体的时间词却只能跟时间词自己并列,不能跟别的语义类的词语形成并列,“[**]今天和精力”,“[**]明年和空间”这样的并列在语言中是不存在的。又如“感情”的语义类是[+情感],但它和具体表示情感的词语是很不一样的,“感情”和“温情”、“恐慌”在形成并列时鲜有共同点。像语义类标签的这些抽象词语可看作是广义的属性(attribute),语义类下的具体词语(概念)可看作是属性值(attribute value),我们有VALUE(时间)=今天|明年,VALUE(情感)=温情|恐慌。我们怀疑,类似语义类标签的这些抽象词语,是否应该从一个新的角度加以聚类。
6.结语
名词性并列结构并列成分的中心语在语义上显现出相似性相关性及相对性。基于CCD的25个名词基本语义类,对其稍做调整之后,有90%的并列结构其并列成分的中心语语义类相同,而有10%的并列结构语义类不同。语义类不同的并列成分中有部分也呈现出语义上的相似性,只是由于语义分类体系的不够完善而没有显性地表现出来,并列成分中心语语义相似的频率事实上大于90%。语义类不同的并列成分中有部分呈现出语义上的相关性和相对性。
无论是语义相似性还是语义相关性,都是对并列成分构成的一种大概率事件描述。在丰富复杂的语言应用中,某两个原本不相似、不相关的概念在特定的语境中会被赋予某种共有的特质从而形成并列,例如:
(16)a.草案确定了反恐怖活动战略计划的执行[机构和办法],
b.领导干部受到[人民和法律]的监督。
(17)a.第二天起来,……桌上留了[纸条和早饭]。
b.我的心一酸,[眼泪和肩上的行李]一起掉了下来。(例17转引自储泽祥等 2002:157)
对类似例(16,17)的并列成分中心语的语义共性,目前我们还无法进行有效的描述和解释。储泽祥等(2002)认为例(17)的并列结构是“非常规的联合短语”,具有特定的语用价值“经济简明,新奇别致”。
90%的并列结构其并列成分中心语的语义类相同,借助CCD这样的语义分类体系,这一特性可帮助计算机自动识别出真实文本中的并列结构。但对于10%的“例外”,还需探求更好的解决方案。本文对并列结构并列成分中心语语义相似性的研究,是就并列结构的理解和识别而言的,还不能胜任并列结构生成这样更艰巨的任务。根据本文的研究成果,我们可以声称“并列的词语一般语义类相同”,但不能反过来声称“同语义类的词语即可形成并列”。例如虽然同属[+人工物],但“[**]电视和厨房”这样的并列是在语言中很少发生的;虽然同属[+人类],但“[**]和尚和丈夫”这样的并列也几乎是不成立的。
本文的并列结构研究,其意义远不在并列结构本身。词语语义相似度计算(semantic computation)在基于实例的机器翻译、信息检索、信息提取、词义排歧等许多语言信息处理领域都有着广泛的应用,引起了国内外许多学者的关注和兴趣(刘群、李素建 2002;Resnik 1999),但什么样的词语之间是语义相似的,似乎并不存在一个客观的评判标准,这给精确的语义计算造成了一定的困难。语言中并列结构并列成分之间语义相似其实是一种客观存在,并列结构为我们提供了一个很好的视角来观察和计量不同词语之间的语义距离,并且也可以窥见人类思维的某些小秘密。综合上文的论述,并列结构对语义研究的启发主要体现在以下几个方面:
1)基于语义类的语义相似性(semantic similarity)是人们思维中最常见的语义关系,同一个语义类下的词语呈现出更多的语义相似性。
2)情境触发而产生的语义相关性(semantic association)在语言及人们思维中有体现,但远不及基于语义类的语义相似性那么普遍。按在并列结构中的发生频率讲,语义相似占到了90%强,而语义相关不足10%。
3)[+社会团体]名词和[+人]名词具有很多句法语义上的共性,“社会团体”可看作是“人”语义类之下的一个次类。
4)“社会团体”和“行政区”两个语义类下的名词呈现出语义相似性。
5)对同一语义分类体系下路径长度相同的两对词语,“具体”(entity)类语义类词语之间的语义距离更大,而“抽象”(abstraction)类语义类词语之间的语义距离更小。
6)类似语义类标签的高度抽象的词语和该语义类之下的具体词语在用法语义上差别很大,应该考虑从一个新的角度加以聚类,见表2。
动物
人 植物 人工物自然物
animal personplantartifactnatural object
身体 物质食物
属性 数量
bodysubstance food attribute quantity
关系 通信时间
认知 情感
relationcommunication time cognition feeling
动机自然现象 过程
行为 事件
motivation natural phenomenon processactivityevent
群体处所位置 所有物 形状 状态
group
locationpossession shape state
表2 附录:CCD的25个名词基本语义类