词频与词功能的相关性_正相关论文

词频与词的功能的相关性,本文主要内容关键词为:词频论文,相关性论文,功能论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:H14

文献标识码:A

文章编号:1000-2979(2001)03-0001-09

一 引言

汉语中,对于一些词类的某些功能的数量统计往往有很大分歧。比如一般认为形容词绝大多数都能做定语,而根据我们的统计,只有29%的形容词可以直接做定语;邵敬敏(1995)认为双音动词中,能直接做定语的有90%,而根据我们的统计只有35%;徐枢(1991)认为,能受名词直接修饰的双音动词约占三分之一,而根据我们的统计只有7%。为什么会出现如此大的分歧?造成这种分歧的根本原因是词频与词的语法功能的相关性。

词频与词的功能有一定的相关性,这种相关性对不同词类、不同功能而言,情况有所不同。一方面,同一功能在不同词类中与词频相关性可能相差很大,比如做主语的能力在动词中随词频下降而显著下降,但在名词中没有显著变化。另一方面同一词类的不同功能与词频的相关性也可能相差很大,比如形容词做定语的能力随词频的下降而显著下降,但做组合式补语的能力却无显著变化,而做谓语的能力随词频下降反而上升。

我们下面将统计计算形容词、名词、动词功能与词频的相关系数,并分析词频与功能的相关现象反映了什么实质。其他词类由于数量较少,难以说明其功能与词频的关系;或由于功能单一(如区别词、副词),无需考虑其功能与词频的关系,因此不再计算这些词类的功能与词频的相关系数。

本文所依据的是北京大学中文系和计算语言所合著的《现代汉语语法信息词典》(电子版本)43330词的考察材料。统计中使用的词频表由北京语言文化大学宋柔教授提供,该词频表共收词244574个,从2亿字语料中统计得出。词典中同形词分成不同词条,多义词有的也分成不同词条,但词频表中对同形词、多义词都未分条目,造成词类表中同形词和多义词的多个词条共享词频表中的同一词频的情况,比如“婉转”在词频表中词频为111次,在形容词表中有两个“婉转”词条:婉转1——委婉义,婉转2——抑扬动听义,如果把两个“婉转”的词频都作111显然不合适,凡遇到这种情况,我们一律只取同形词和多义词的第一个词条,其他词条为无效词条,不进行统计。

二 词频与功能相关性统计

2.1 词频与形容词功能的相关性

形容词共2355条,去除同形词、多义词重复词条15条,有效词条共2340条。把这2340条有效词条按词频排序,并按词频高低分为五级,每一级共468条。分级统计形容词功能见表2.1-1。

表中"r"表示词频与具有某项语法功能的词的数量的相关系数。相关系数反映数组之间的线性相关性程度,计算公式为:

r(X,Y)=COV(X,Y)/Sx Sy

其中,r(X,Y)指数组X和数组Y的相关系数,-1≤r≤1。r的绝对值越接近1,表明相关性程度越高,r=1时,两数组完全正相关;r=-1时,两数组完全负相关;r=0时,两数组无相关性。但仅看r值的高低并不能断定两个数组之间的相关性有无显著性意义,是否有显著性意义,还需根据自由度查表判断。自由度=成对数据数目-2。此处成对数据数目为5,自由度为3。查表得知自由度为3时,5%显著水平临界值为0.878,1%显著水平临界值为0.959。即若│r│>0.878,则两数组显著相关(用“+”表示),说明两者有必然的关系,若│r│>0.959,则两数组极显著相关(用“++”表示);若│r│≤0.878,则两数组不显著相关(用“-”表示),无法断定两者有必然的关系。

表2.1-1中相关系数指各级词频的形容词中具有某项功能的词数与中间词频的相关系数。中间词频指该频率级中处于排序中间的那个词的词频,比如1级词共468条,按词频排序,第234条的词频就是1级词的中间词频。

表2.1-1 词频与形容词功能的相关性

从表2.1-1可以看到,除具有“不~”、“谓语”、“很~”、“~的”这四项功能的词的数量随着词频下降反而略有上升(相关系数为负数)外,具有其他功能的词的数量都随词频下降而下降。其中做定语、做状语、做准谓宾动词宾语、做“有”的宾语、受名词直接修饰、做粘合式补语达到显著水平。为了清楚地显示这种现象,我们用相对数量关系来描写各级词频之间功能的数量变化,即把绝对词数转为相对词数。相对词数计算公式为:

相对词数=具有某功能的词数/具有某功能的最高词数

表2.1-2是词频与形容词相关性的相对数量。

表2.1-2 词频与形容词相关性的相对数量

2.2 词频与名词功能的相关性

名词总词数共27408条,去除同形词、多义词重复词条,有效词数27232条。按词频排序,分成五级,每一级平均5446.4条。下面是分级统计结果:

2.3 词频与动词功能的相关性

动词总数共10299条,去除同形词、多义词重复词条,有效词条共9814条。按词频排序,并分为五级,每级平均1962.8条。统计如下:

表2.3-1 词频与动词功能的相关性

三 分析和讨论

3.1 词频与功能的相关性说明了什么

语法功能与词频的相关性有三种情况:1.词频与功能无显著相关;2.词频与功能显著正相关;3.词频与功能显著负相关。这三种状况分别反映了什么实质?

可以从两个方面的相关现象出发来分析:1.词频与兼类词的相关性;2.功能的相容性。

3.1.1 词频与兼类词的相关性

我们在前面的统计中对名动形三类词中兼类词数量与词频的相关系数作了计算,都显示兼类词数量与词频呈正相关。下表是所有兼类词与词频的相关性统计,可以看到,从整体上看词频与兼类词的数量也是呈正相关的。

表3.1-3 兼类词数与词频的相关性(注:多义词、同形词的多个词条只作为一个词条统计,因此统计词数(38110)少于总词数(43330)。)

很多学者已注意到语言形式和意义的变化与词频的正相关,这种现象可以这样解释:变化总是在使用中发生,使用越频繁的成分发生变化的可能性也就越大,越容易衍生出新的意义和用法;使用越少,出现变化的可能性越低。那些最不可能发生变化的成分是已经不用的成分。一个词兼有多种词性通常都是词在使用中发生变化,产生出新的意义或用法造成的,我们可以说词所具有的词类性质的多少与词频正相关。

3.1.2 功能的相容性

功能的相容性(compatibility)指同一批词共有两个或多个语法功能的性质,比如能做主语的词也能做宾语,反过来能做宾语的词也能做主语;能进入“很~”的词大多也能进入“~极了”、“~得很”,能进入“~极了”“~得很”的词也能进入“很~”。而另一些功能之间相容性极小,如“不~”和“数~”,“数量~”和“状”。如果两个功能之间有很高相容性,那么意味着什么呢?如果两个功能之间相容性极低,那么又意味着什么呢?语法位置对词语选择限制的根本依据是词语的语法意义,因此具有较大相容性的功能往往反映了这两个不同的语法位置对词语的选择限制相同,即两个语法位置对词语语法意义的要求相同,反映了共同的词类性质,因而是等价功能(equivalentfunctions)。相容性较小或无相容性的两个功能反映不同词类性质,是异价功能。因此,我们可以根据功能的相容性来判断语法功能的划类价值。

我们是这样计算相容度的:设0≤C≤1,功能x相对于功能y的单向相容度(Cx-y)、功能y相对于功能x的单向相容度(Cy-x)和功能x和功能y的总相容度(Cx*y)的计算公式分别为:

(8)Cx-y=xy重合词数/x词数

 (9)Cy-x=xy重合词数/y词数

(10)Cx*y=xy重合词数/(x词数+y词数-xy重合词数)

例如:

图1中具有功能x的词100个,具有功能y的词40个,其中只有功能x的词80个,只有y的词20个,兼有x和y的词20个,相容度为:

Cx-y=20/100=0.2

 

Cy-x=20/40=0.5

总相容度意义不大。如图2:Cx*y=20/(100+20-20)=20/100=0.2。总相容度虽然能反映出x相对于y的相容度,但不能反映y相对于x的相容度:Cy-x=20/20=1。

我们用上述办法计算了汉语实词主要功能之间的相容度并确定了等价关系(见表3.1-4)。

表3.1-4 汉语实词主要语法功能间的相容度(注:等价功能的判断除根据相容度外,还需参照其他规则,笔者将在《汉语词类划分论证》(《中国语文》2001年6期)中讨论。)

说明:1.带*的功能的词数是根据抽样统计的比例推算得出的。2.相容度等级的临界值:高相容度(+):C≥0.5,其中包括极高相容度(++):C≥0.9;低相容度(-):C<0.5,其中包括极低相容度(--):C<0.1。3.表中"x&y"表示具有功能x并且具有功能y的词数。4.“等价”一栏中"+"表示等价,"-"表示不等价,"-?"表示相容度高于0.5,但根据相关规则应判为不等价,"+?"表示相容度低于0.5,但根据相关规则应判为等价。

3.1.3 词频与功能相关性的实质

上面我们看到,词频与功能之间有三种关系:正相关、负相关、无显著相关。而正相关的那些功能正好与该词类最基本的功能间相容度很小,负相关及无显著相关的那些功能与该词类的最基本的功能间有较大相容度。前面我们说到,词频与一个词具有的词类性质呈正相关,相容度高的功能间反映了相同词类性质,相容度低的功能间反映了不同词类性质,因此我们可以说,那些与词频呈显著正相关的功能一般是这个词类的兼职功能,即实际上是兼词性,只是我们按同型策略不处理为兼类词;那些与词频无显著相关的功能以及与词频负相关的功能就是这个词类的本职功能,即区别性功能。比如形容词中,做谓语、“不~”、做组合式补语、带补语等功能及形容词的基本功能“很~”都与词频无显著相关或正相关,这些功能相容度很大,是等价功能;而做定语、状语、受名词修饰与词频正相关,这些功能与形容词的基本功能“很~”相容度很小,是异价功能,具有这些功能的形容词实际上都兼有区别词性、副词性和名词性。

3.2 形容词功能与词频相关性分析和讨论

表2.1-1中从“~趋补”起向上的功能相互间有较大相容度,是形容词的区别性功能。从“定语”向下,不是形容词的区别性功能。从表2.1-1可以看到,这些区别性功能除做粘合式补语外,都与词频无显著相关性,甚至还呈显著负相关。而非区别性功能则全与词频显著正相关。

现在需要解释为什么做粘合式补语是例外。这是因为音节数会影响形容词做粘合式补语的能力,单音节形容词做粘合式补语的能力大大高于双音节形容词(见表3.2-1),而单音节形容词恰恰大多词频较高,因此很有可能是由于音节数因素干扰,使形容词做粘合式补语的能力随词频显著下降。为了排除音节数的干扰,我们下面只统计双音节形容词的功能变化,为了对比,其他功能也一并统计(见表3.2-2)。

表3.2-1 音节数对形容词做粘合式补语的影响

表3.2-2 词频与双音节形容词功能相关性

从表3.2-2看到,在排除了音节数的干扰后,形容词做粘合式补语与词频的相关系数降到0.361,明显低于显著水平的临界值。因此,我们可以说形容词做粘合式补语的能力仍服从区别性功能与词频不显著相关的规律。

3.3 名词功能与词频相关性分析讨论

从表2.2-1可以看到,名词的区别性功能除“数~”外,都与词频无显著正相关,而非区别性功能大都与词频显著正相关,但做定语和做临时量词时例外。目前还没有找到例外原因。

3.4 动词功能与词频相关性分析和讨论

从表2.3-1可以看到,动词的功能与词频的关系比形容词和名词复杂,有不少例外(表中“显著水平栏中标“?”的)。不过,其中有些例外是可以解释的。

我们下面讨论动词做定语、状语、主语、宾语、受名词直接修饰(名~)的例外。由于音节数与词的某些功能有显著相关性,比如音节数对动词做定语的影响(见表3.4-1)、音节数对动词受名词直接修饰的影响(见表3.4-2)。而单音节词大多为高频词,会对词频与功能的相关性产生干扰,为排除干扰,下面我们只统计计算双音节动词的功能与词频的相关性。

从表3.4-5可以看到,排除音节数的干扰后,动词做定语、状语、主语、宾语、受名词直接修饰(名~)与词频的相关系数都上升,到达显著水平。

但是作为区别性功能的带真宾语和带粘合式补语与词频的相关性也上升,达到显著水平,又带来新的例外。带真宾语的例外是由构词因素引起的。表3.4-3显示,VO格构词的动词带宾语的能力明显少于非VO格的动词,下面只统计非VO格动词带宾语能力与词频的相关性(表3.4-4)。

排除VO格构词的干扰后可以看到,动词带宾语的能力与词频无显著相关性。

至于双音动词带粘合式补语的能力与词频的显著正相关,我们还无法解释。

表3.4-5 词频与双音动词功能的相关性

四 结语

词频与功能之间有三种关系:正相关、负相关、无显著相关。与词频呈显著正相关的功能一般是这个词类的兼职功能,与词频无显著相关的功能以及与词频负相关的功能就是这个词类的本职功能,即区别性功能。

这样我们可以回答引言中提出的问题,为什么对词类的功能统计会出现较大差异?邵敬敏(1995)根据对《动词用法词典》的调查,认为双音动词中,能直接作定语的有90%,但实际上《动词用法词典》所收都是常用词,而恰恰动词直接作定语是动词的兼职功能,与词频正相关,在常用词中比例远高于不常用词。若把不常用词也算进去,双音动词直接作定语只有35%,远远低于常用词的比例。徐枢(1991)认为,能受名词直接修饰的双音动词约占三分之一,但其依据是陈爱文(1985)对《普通话三千常用词表》的调查,而直接受名词修饰是动词的兼职功能,与词频正相关。若把不常用词也算进来,能直接受名词修饰的双音动词只占7%。

形容词的主要功能是做谓语还是做定语,历来有两种意见。根据本文的考察,能直接做谓语的形容词占99%,能直接做定语的形容词只有29%,过去认为形容词绝大多数能做定语是根据常用形容词得出的结论;而且形容词做谓语与词频呈负相关,而做定语与词频正相关,并且两项功能的相容度很小,可见应把做谓语视为形容词的主要功能,而做定语只是形容词的兼职功能。

标签:;  ;  ;  ;  ;  ;  

词频与词功能的相关性_正相关论文
下载Doc文档

猜你喜欢