基于大规模真实语料库的汉语词汇联想意义网络的构建吕叔湘先生诞辰一百周年纪念_联想论文

基于大规模真实语料汉语词汇联想意义网络的构建——纪念吕叔湘先生百年诞辰,本文主要内容关键词为:语料论文,汉语论文,诞辰论文,词汇论文,意义论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:H0-05

文献标识码:A

文章编号:1000-0062(2004)05-0037-05

一、问题的提出

“意义”是什么?The meaning Of“meaning”,这可能是语言学和许多相关学科永恒的话题。词语的意义是什么?在下断语之前,我们可以从侧面来考察一下这个问题,也就是看看“意义”到底包括哪些方面。最有名的是Geoffrey Leech提出的“七类不同的意义”:理性意义、内涵意义、社会意义、情感意义、反映意义、搭配意义和主题意义。这七种意义里面,“理性意义”是最基本的,这似乎大家意见都比较一致。Geoffrey Leech又把内涵意义、社会意义、情感意义和反映意义概括为“联想意义”,看成是理性意义基础上的附加意义。[1](P13-33)

关于联想意义中的内涵意义,早在1957年,Osgood等就曾经企图进行客观、定量、系统的研究。他们设计了连续变量十等分的不同刻度的表格,设计了有如“好”——“坏”、“美”——“丑”、“强”——“弱”、“明亮”——“黑暗”、“坚硬’——“柔软”、“迟缓”——“迅速”、“主动”——“被动”、“热情”——“冷淡”、“高尚”——“低下”、“愉快”——“悲哀”等许多对立的两极,测试和比较一些词语所引起说话人的反应(感觉和判断),以此对联想意义进行统计的定量研究。图1就是用这种“语义鉴别法”把说话人关于“mother”和“woman”的印象纪录在图上的情况[2](P76-77):

图1

这一研究无疑是有意义的探索,但Geoffrey Leech也认为对联想意义的这种研究是“部分的和近似的”,我们可以看到,这实际上显然失之过于空泛,并无进一步的实用价值。

Geoffrey Leech谈到英国人说“woman”这个词的时候,可能会联想到这个词所指对象一些心理的或社会的特征,如“爱聚群”、“有母性本能”。还可能进而包括仅仅是典型的而不是女性必然具有的特征,如“善于辞令”、“善于烹调”、“穿裙子或连衣裙”等。可能联想到的社会“公认特征”,包括一些优点如“优雅”、“富有同情心”、“敏感”和“勤勉”等,还包括一些缺点如“脆弱”、“易流眼泪”、“懦怯”、“好动感情”、“缺乏理性”和“反复无常”等。[1](P17)

中国人说起松柏就会联想到“坚贞不屈”,说到荷花就会联想到“出污泥而不染”,说到老黄牛就会联想到“任劳任怨”等等,则更多的是我们的社会文化在这些词语里的投影和积淀。中国古代提到龟,联想到的是“寿”;而在现代,情况则截然不同。中国人说到仙女首先想到的是“美丽”;韩国学生说提到仙女,他们首先联想到的是“善良”。可见,词语的联想意义随着时代和地域会有所不同的。联想意义的研究是跨文化研究非常重要的一个方面。

词典里的释义给出的是理性意义(即逻辑意义),并不反映联想意义。不仅跨文化学习很需要有一部能反映联想意义的词典,而且根据作者的调查,实际上本族人使用词语的时候,在许多情况下起主要作用的并非理性意义,而是联想意义。我们对“绅士”一词既做过网络语料的用法调查,也做过学生的答卷调查,人们提到“绅士”绝大多数首先联想到的是“彬彬有礼”和“风度优雅”,其次就是“穿着西服或燕尾服”、“为女士打开车门”,甚至还有“决斗”。说话人提及“绅士”的时候,心目中的意象几乎很少和词典里面所描写的“旧时地方上有势力、有功名的人,一般是地主或退职官僚”有直接联系。[3)(P1120)在词典里,“水”的释义有化学分子式“”,有些词典里各种花的释义都有拉丁文的学名,但实际上语言使用者关于这些词语的实际知识并不包括这些精确而抽象的描写,很可能只是一些模糊的联想意象的复合。

因此,客观地、系统地提取汉语词汇的联想意义,就不仅是可以为跨文化学习者提供丰富的、符合习惯的联想意义的用例,更重要的是可以借此窥测词汇的意义在人们认知上存在的形态。

二、模型的建立

(一)提取框架

1.两个框架

作者设计了两个格式,作为提取“喻点”的框架,因为这两个框架典型地反映了“喻体”和“喻点”之间的联系。“喻点”又叫“比喻点”,是比喻结构里本体和喻体的相似之点。在本研究中,“喻点”是一个重要支点。这两个框架是:

框架1:像Y那样A/V

框架2:A得像Y(一样)

其中“Y”是名词,是喻体;“A”是形容词,“V”是动词,“A”或“V”是喻点。例如:

(1)像仙女那样漂亮(/飘然而至)

(2)漂亮得像仙女(一样)

在这里,本体(“X”)并不重要。

2.“像Y那样V”的歧义

一般情况下,“像Y那样V”没有歧义,只是表示“V”这一事件发生的时候具有和“Y”相关的特征。例如,“请你像绅士一样把蛋糕切成两半”,表示“把蛋糕切成两半”的时候,切蛋糕者具有绅士的风度。

但是,如果“V”不仅可以表示事件,而且可以作为一种特征,那么,“像Y那样V”就可能具有歧义了。例如:“他得像绅士那样讲英语”可能是有歧义的。第一种可能,在说话人心目中,“讲英语”是“绅士”的特征(我们可能想起《阿Q正传》里拿文明棍夹杂着几句英语的假洋鬼子),这个时候“讲英语”是句子的语义重心;第二种可能,说话人想要说的是他像绅士那样彬彬有礼地讲英语,说话人心目中“彬彬有礼”已经固有地蕴含在“像绅士那样”里边了,不必单独显示出来加以强调,这时“像绅士那样”本身便是语义重心。“像英国人那样讲英语”也是有歧义的,一个意思是说讲英语是英国人天经地义的事情;另外一个意思是说英语讲得像英国人那样地道,原因同上。当语料进入框架1而且“那样”后面是动词或动词短语的时候,本研究关心的是第一种情况;第二种情况并不在本文讨论范围。

3.框架的其他变式

在结构上能反映“喻体”和“喻点”关系的格式,除了上述两种典型情况之外,还有一些变式。如:

AX似Y(柔情似水)

XA如Y(夜色凉如水,君子之交淡如水)

(X)A如Y(安如泰山,坚如磐石,危如累卵,浩如烟海)

X像A的Y(他像生气勃勃的野马)

A(/V)像Y的X(彬彬有礼像绅士一样的人/头戴大礼帽像绅士一样的人)

只需上述两个典型的框架就足以完成词语联想意义的提取任务,但这些千变万化的变异格式,充分反映了“本体”、“喻体”和“喻点”三者在句法结构和语义结构上的复杂关系,对进一步讨论是很有用的。

(二)隐喻搭配

本模型方法论上的实质是利用广义的分布来研究词语的联想意义。实际上,“联想”就是一种搭配,是一种分布关系。本模型就是利用隐喻搭配来发现和提取联想意义的。就像提到“狐狸”就联想到“狡猾”,一提到“狡猾”就联想到“狐狸”:

狐狸——狡猾

狡猾——狐狸

  N——A    A——N

像狐狸那样狡猾 狡猾得像狐狸一样

“狐狸”和“狡猾”这种高频率的共现可能,正是一种高强度搭配关系的反映,也正是词语分布关系的表现。我们可以计算它们之间的“互信息”和“搭配强度”。

(三)网络结构

每一个词语都是网络中的一个节点(node),每一个节点都可能生发出若干弧线(arcs);而弧线的另外一端又是一个节点。弧线一头的节点表示事物的名词;另外一头的节点则表示特征的形容词或者动词短语;反之亦然。根据递归的原理,不断反复利用这两个典型的框架,可以生成、建立汉语词汇隐喻关系封闭而又无限的语义网络。

以“水”作为体词节点,我们在大规模真实语料中由它生发出许多弧线伸向其他有联想关系的谓词节点,谓词右边的数字表示在搜索统计文件的200个例句中所出现的频次:

以“水”为体词节点可能生发出许多弧线连接不同的谓词节点:

像水那样——

清澈12/明澈/清亮/透明7/纯/纯洁/纯净4/清纯/干净/清洁/清白3/清6/亮/稀/柔4/柔顺4/柔和/温柔3/柔弱2/柔软2/绵软2/驯顺/软5/滑5/光滑/清凉/寒/淡11/平淡3/无味/清淡/没有气味/自然2/简单2/美5/凉3/

绵长2/流畅5/顺滑/涌/

深沉2/沉稳/平静3/安静5/宁静/沉静/静寂/宽容4/包容/安于卑下/光明平正/平淡无奇/

流18/流动9/流走17/流逝3/流淌19/淌/流泻2/流掉3/流出来3/流出去2/流过去/泼出来2/泼出去/漫2/灌满/蔓延2/渗透4/淹没/滴落2/朝四周扩散4/泻4/喷涌/喷/铺张展开/倾泻2/漾/荡漾3/波动/蒸发3/

是必需品2/便宜/无形/有质无形/无处不在/变形/自由变换形体/不可捉摸4/千变万化/多变/灵动

这就是“水”在说话人心目中的意象集合。

联想语义网络包括以下要素:节点(词项),弧线(联想关系),节点弧线数,弧线强度。

弧线数——某一节点生发出的弧线的总数。有的词语容易联想到许多其他词语(弧线数多),有的只能联想到非常有限的其他词语(弧线数少),很不平衡。

强弧线——弧线两端节点共现频率大于某设定阈值的弧线。可能联想到的词语,有的很容易想到(很快想到,激活时间短,首先想到,多数人想到,共现频率高),有的不容易想到(很费劲才想到,激活时间长,后来才想到,很少人想到,共现频率低)。

弧线强度——弧线两端节点共现频率(搭配强度或互信息)。

这实际上是一个神经网络模型。

如果以“绅士”作为节点,由它生发出去的弧线连接的谓词节点,可能有“彬彬有礼/慷慨大方/穿着礼服/为女士拉开车门/决斗”等,但它们的出现频率是不同的,其中“彬彬有礼”频率最高,而“决斗”最低。如果以“狐狸”作为节点,由它生发出去的弧线连接的谓词节点,“狡猾”的频率最高达65%。可见,弧线的强度是很不相同的,它反映了联想被激活的难易程度,激活弧线另一端点的概率和速度。

网络的二维表示:下面的网络,通过上述两个框架,利用网络语料或单机语料库,可以不断生成新的节点和弧线,扩展成一个无比庞大的多维语义网络,这个网络最终可能是封闭的,也就是说,不断延伸的弧线最后可能回归出发的节点:

 (四)联想意义

 本文利用比喻的基本句法结构和语义结构提取联想意义。比喻的完整结构包括“本体”、“喻体’、“喻词”和“比喻点”:

张三

 狐狸

那样

狡猾

本体

喻词

喻体

喻点

对本文而言,重要的是“喻体”和“喻点”以及它们之间的关系,正是这三个要素,构筑了本文所生成和描写的网络。而“喻体”和“喻点”之间的关系(弧),正是我们要讨论的“联想意义”。

“联想意义”有物理方面的,也有社会方面的。如:

物理联想意义:滑,硬,快,凉,淡,流动……

社会联想意义:狡猾,高洁,坚贞,坚强,任劳任怨……

同样一个体词节点,可能同时生发出物理联想意义的弧线和社会联想意义的弧线。如:

像泥鳅那样滑

(物理意义)

狡猾

(社会意义)

联想意义可能是定指的,也可能是泛指的。如:

定指联想意义:像张三那样狡猾/狡猾得像张三一样

泛指联想意义:像狐狸那样狡猾/狡猾得像狐狸一样

当喻体是泛指的时候,其中的联想意义是语言范畴的,在“像狐狸那样狡猾”或“狡猾得像狐狸”里,“狐狸”都是作为类的名词。在汉语使用者心目当中,“狡猾”是“狐狸”这一类动物共有的特性,这两个句子的表达是每一个以汉语为母语者都能理解、都会使用的。

当喻体是定指的时候,其中的联想意义仅属于言语范畴,张三是否具有狡猾的特性,只是说话人(或者包括听话人)知道,并非汉语使用者共有的知识。这样的话语只有在特定的情景中才能理解,才会使用。当然,如果张三已经成为一个众所周知而且具有鲜明特性的公众人物,这个时候,情况会发生变化。比如,“像唐吉诃德那样可笑”、“像希特勒那样残暴”,因为“唐吉诃德”和“希特勒”已经成为公众形象,成为某种特征的通用符号,这时已经转化为语言范畴的问题了。

联想意义还可以分为“主要联想意义”和“次要联想意义”。前面已经提到,一个体词性节点可能通过弧线与不止一个谓词性节点相联系,一个谓词性节点也可能通过弧线与不止一个体词性节点相联系,但是,节点发出的弧线强度并不相同,其中一定有联想强度比较大的弧线,它所联系的另一端的节点共现的概率比较大。例如:

主要联想意义:像狐狸那样狡猾(56%)

次要联想意义:狡猾得像河里的游鱼,一闪一闪的

由“狐狸”激发而产生的连接谓词性节点的联想虽然很多,但其中“狡猾”的可能性最大,出现频率最高,是主要的联想意义。而“游鱼”虽然在我们的语料中有与“狡猾”连接的弧线,但仅此一例,出现概率很低,一般很少会做这样的联想,当然这也可能是很富于创意的联想。在上面图示中,用连接弧线粗细的不同来表示联想强度的差异。

三、数据来源

本系统联想意义的提取基于大规模真实语料,一个是开放的网络,作者制作了专用的搜索统计剪贴程序,可以按照前文提及的两个框架大批量自动提取联想意义词项。另外一个是自行构建的5000万字的平衡语料库,因为网络语料无法得到语料总字数,无法进行某些计算。两个语料来源因此可以互补。作者曾以300词(体词)作为节点出发进行研究,包括各种人物、动物、植物等。

作者还在65名学生中散发并收回调查问卷,问卷上要求学生用“像绅士那样……”任意造三个句子。问卷上除了“绅士”之外,还有其他一些关于人物、动物和植物的名词(如“男孩、女孩、母亲、绅士、牛、雪、海、水”等)。网络搜索统计软件进行调查的结果,大致和答卷调查一致。

四、理论含义

本文并不仅限于为跨文化学习者提供丰富的用例,为词典编撰者提供一种能够客观地、系统地提取和确定联想意义的方法,而且还在于探讨“意义”,首先是“联想意义”在认知结构中的存在形态。

根据上述分析,可以看到汉语词汇的联想意义具有如下一些性质:

(一)非分析性

联想意义不是像传统义素分析法那种二分树形结构,传统义素分析法和化学元素周期表的模型实际上是根本不同的,化学元素是有限的,但无法提取有限的义素集合,义素的认定具有很大的随意性。联想意义具有整体性,是以词项、短语甚至更大形式自然存在的,无需人为地把词项分析成实际上并不存在的更小单位。

(二)非逻辑性

联想意义实际上是意像的组合。笔者提到过,词典的逻辑意义描写在实际使用语言时的作用是非常有限的,在提及“玫瑰”的时候,大脑里浮现的是它的形象,是形,是色,是香的意象,是关于爱情的联想,词典里关于这种植物的“种”和“属”,乃至其拉丁文学名,在说话人和听话人的意念中实际并不存在,也不起作用。认知语言学认为隐喻是思维的基本方式,也许可以解释这一点。

(三)循环性

研究联想意义,从某种程度来看,实际上是在研究搭配,研究分布。不过,这不是线性分布,是多维空间分布。每一节点可能是联想的出发点,也可能是联想的终点。词项在网络空间互相定义,这种循环具有必然性和合理性。不过,“循环半径”情况很不一样,有的很快就“短路”了,有的则路径很长,要经过很多节点和弧线。

(四)现实性

义素分析具有虚拟性,义素的确定和分析可能因人而异,具有很大随意性。本模型具有真实性和客观性,因为各种节点和弧线来自真实语料,它反映了以汉语为母语的说话人真实的潜在语言心理。

上述几个特点很可能不仅是人们词汇联想意义存在的属性,很可能词汇的一般意义也具有如此性质。词义的探究,其实是知识结构和知识表示研究的一部分,不仅对语言学,而且对认知科学、计算机科学、人工智能等学科都有密切关系。

收稿日期:2004-06-12

标签:;  ;  ;  

基于大规模真实语料库的汉语词汇联想意义网络的构建吕叔湘先生诞辰一百周年纪念_联想论文
下载Doc文档

猜你喜欢