现代汉语AABB重叠词基础的统计分析_语义分析论文

现代汉语AABB重叠式词构成基础的统计分析,本文主要内容关键词为:现代汉语论文,统计分析论文,基础论文,AABB论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

AABB重叠格式是现代汉语诸多重叠格式的一种,它的构成、句法功能、语义特征及修辞作用都曾引起人们的广泛关注。不少研究重叠的文章都或多或少地提到了它,专题研究就我们所见少说也在十篇以上,且大都发表于二十世纪八九十年代。大多数学者从自己关心的角度出发,或从所掌握语料的特点出发,对这一语言现象作了多方面的分析,有些分析是相当深入细致的。尽管如此,我们觉得有些问题还是不那么清楚,例如:这种重叠式有没有一个共同的构成基础?它是不是能产的?它的各种语法功能特征究竟说明了一些什么问题?此外,在进行语料库加工的过程中,我们要对文本进行分词和词性标注,在把AABB重叠式切分为一个词之后,(注:真实文本语料中的AABB音节序列不都是词,例如:“海海关关”在“上海海关关长…”中、“东东阿阿”在“山东东阿阿胶厂…”中。在我们搜索的语料范围内,33.3%的AABB音节序列都不是词。这对人来说,要识别它是不是词应该没有什么问题,但对于计算机来说,要识别它不那么容易。这个问题,我们将另文探讨。此外像“哥哥姐姐”、“常常看看”等这样的AABB式的短语也不在本文讨论范围之内。)我们该给它标注什么词性?尽管已有这方面的加工标注规则(参看俞士汶1999),但是由于AABB重叠式本身的复杂性,我们在实际的操作中依然遇到一些难以标注的情况。这些都使我们产生了重新描写这一现象的想法。我们用自己设计的程序查找了一亿字的语料,把所有包含AABB重叠格式的句子摘了出来,然后建成了一个AABB重叠式数据库。在数据库的基础上,我们对AABB重叠式词的构成基础作了一些统计分析,希望这种分析对语法理论问题的探讨和语料库加工问题的解决有所帮助。至于AABB重叠式词的句法功能和词性等问题,我们将另文讨论。

一 AABB中AB的性质

在以往一些论述AABB的文章中,有一种倾向是把AABB重叠式的构成基础看成是词,即AB是词,经过重叠构成AABB。例如:“漂漂亮亮、干干净净、安安稳稳”,它们的构成基础“漂亮、干净、安稳”都是一个词。于是不少文章的注意力就主要集中在能构成AABB的AB式词的范围或由AB构成的AABB式词的各种特点上。然而,AB本身是词,这只是反映了AABB式词的构成基础的一个方面,其实大量的AABB式词的构成基础AB本身并不是词。这一点有不少文章都提到(董树人1982、郭志良1987、张谊生1999等),而早在二十世纪五十年代,陆志韦先生在他的一篇短文中就已经指出了这一现象(陆志韦1956)。不管AB本身是不是词,AABB是由A和B构成的,这是显而易见的。我们感兴趣的是:既然AABB中的AB不都是词,为什么以往的研究没有对此给予应有的重视?AABB中的AB成词跟不成词的比例在实际的语料中有什么表现?尤其是它跟词的频率的关系如何?

我们在一亿字的语料中,共查到AABB重叠式词2734个,例句总数37862句。我们先考察所有这2734个词中的AB是否为词的情况。由于对什么是词的标准认识并不统一,所以我们从较严和较宽两个不同的角度来看AB是否为一个词。我们先对照《现代汉语词典》(商务1978年12月版),(注:据该词典《前言》介绍:本词典中所收条目共约五万六千余条。由于该词典的编写带有促进现代汉语词汇规范的目的,所以我们认为它的收词标准是相对较严的。)发现2734个中只有1205个中的AB可以是一个词。这个比例是44.0%。然后对照清华大学孙茂松等研制的《信息处理用现代汉语分词词表》(1999年4月内部交流版,共75884个词条),(注:该词表主要是为现代汉语的信息处理用,它主要是用统计的方法作出。两个常在一起出现的语言单位,一般就被当作一个词收入词表,所以我们认为它的收词标准是相对较宽的。)我们发现有1337个中的AB可以是一个词。这个比例是48.9%。这个数据使我们确信AABB重叠式的构成要素是A和B,但是它们的组合AB本身不一定是词,而且从总体上看,AB不是词的AABB要比AB是词的AABB多。

再从频率的角度看。根据每个AABB式词的例句数(即在一亿字语料中出现的次数)与总例句数(即在一亿字语料中AABB式词出现的总次数)的比例,那么可以知道AABB式词的出现频率。下表是AABB式词的频度变化与其构成基础AB本身为词的频度变化的关系表。

表一:AABB出现率与AB成词率关系

上表显示:AB的成词率与AABB的出现率呈现一种正向协同关系,AABB的出现率越高,其AB的成词率也就越高。这一事实可解释为什么不少人会想当然地以为AABB重叠式是由AB式词构成的。在我们的语料中,1%出现率以上的AABB式词只有10个。根据频率从高到低的次序排列,它们是:许许多多、实实在在、清清楚楚、扎扎实实、干干净净、千千万万、大大小小、上上下下、轰轰烈烈、老老实实。其中“轰轰烈烈”的AB“轰烈”不是词。由此可见,即使最常用的AABB式词也并不都是由作为词的AB重叠构成。从反方向看上表,AABB的出现率越低,AB的成词率也就越低。我们把只有一个例子的AABB式词作了统计,发现AB的成词率只有29.3%(《现代汉语词典》)和34.1%(清华词表)。如果AABB式词是封闭的,那么可以把低频词作例外处理,然而,我们的语料显示AABB式词是开放的、能产的,因而不能忽略低频词的存在及其构成特点,更不能忽略存在于高频词与低频词之间的共同特点。

二 AABB能产性的表现

AABB重叠式词的能产性,首先可以从下页图一中反映出来。

缩写符号含义

xdsw:《现代散文精品》

rm96:1996年《人民日报》

 (116位作家作品)

ddxs:当代小说(50多位作 duzh:《读者》(1981-1998)

 家作品)(共200期)部分栏目

zjwz:《作家文摘》报1993  qyao:琼瑶小说(51部)

-1997(共260期)

rm95:1995年《人民日报》 jswx:纪实文学(历史、

 人物传记)96篇(部)

waig:外国小说(汉语译文)sanm:三毛文选(15部)

 15篇(部)

xdmz:现代名作(冰心、老舍jiny:金庸小说(6部)

 等9位作家作品)

从图一中可以看到,随着语料字数的不断增加,AABB式词的数量也不断地增加。我们本来想弄清楚现代汉语中的AABB重叠式词到底有多少个,但是当统计完一亿多字语料之后,我们还是没有办法说清到底有多少个AABB式词,因为图中的增长曲线始终是上升的。这清楚地说明AABB式词是能产的,是开放的类。我们很难完全把握它的数量,看来我们需要做的是把握它产生的条件和规则。这一点,我们将在第三节中讨论。

从图一中,我们也发现AABB式词在不同语料中的增量是有区别的。图中曲线附近的字符串标明其对应的增长线段所代表的(在我们总语料库中的)语料类型。图中增长曲线的走向始终是向上的,但线段的倾斜率在不同的区域有所不同,这在一定意义上表明了不同语体语料中的AABB式词的增长率的高低是不同的。

图二是根据每一种语料的总字数与其不同形式的AABB式词的总数之比作成的,它更能反映不同语体语料中的AABB式词的增长率的差异。开头的xdsw代表现代散文名作的语料,共1,785,548字。它的增长曲线呈最接近直线上升的趋势(即AABB式词的增长率最高),这说明AABB式词在散文中的使用面最宽。(注:这里说使用面宽,并不说频率高。使用面宽是指一定字数内,不同的AABB式词的数量相对较多。而频率高则指词的使用次数多,一个AABB式词可以被多次使用,这样频率可能高,但是使用面可能不宽。)与这个较为不同的是rm95和rm96所代表的《人民日报》1995年和1996年的语料(分别是24,272,198字和24,366,988字)。它的增长曲线呈相对缓慢的趋势。这说明AABB式词在新闻语体中的使用面相对较窄。处于散文和新闻之间的ddxs(路遥、苏童等五十多位作家的当代小说,共7,414,281字)和zjwz(《作家文摘》报1993-1997(共260期),总字数13,262,296字)的增长线段的倾斜率也处于两者之间。这反映了AABB式词在小说和文摘中的使用面要比散文窄,但比新闻语体的宽。AABB式词的使用面宽与窄能说明AABB式词在该类语料中能产性的强与弱。在我们统计的语料中,散文语体中的AABB式词的能产性最强。

AABB重叠式词的能产性和开放性,我们也可以从不同的AABB式词在总体语料中的频率变化上看出。我们根据在总体语料中收集到的总例句数制作了在不同频率范围内的AABB式词数量的变化表,请看表二:

表二:不同频率范围内的AABB式词数量的变化(1)(总例句数37862句;AABB式词2734个)

表二显示现代汉语极端高频的AABB式词数量极少,不会超过一百个。例句数范围在1-100的是绝大多数。我们把这个范围的情况放大做成下面的表三,它更能展示AABB式词频率分布的特征:

表三:不同频率范围内的AABB式词数量的变化(2)(“表二”中1-100范围段的放大)

从表三可以看出:例句数范围在11-20以后的AABB词数大致上呈逐渐下降的趋势,而1和2-10这两个范围内的词数与后面的词数相差极大,而且这两个低频范围内的词数占AABB式词总数的绝大多数。更突出的是,例句数为1的这类AABB式词的总数却要超过两例以上的AABB式词的数量。这一现象说明AABB式词中的大部分词是偶发的,它从另一个方面告诉我们,AABB式词是能产的,或者说是开放的。

三 A和B构成AABB的条件

高频的AABB式词中的AB大部分为词这一现象,不应使我们忽视大量的低频的和偶发的AABB式词中的AB大部分不是词这一事实。既然不同的AB都能构成AABB,那么它们之间是否有什么共同的特点呢?AABB中的AB除了可以是词与非词外,A和B本身的形式也是多样的。

表四:AB组合的性质与A和B的关系

从表四可以看出:AABB式词的构成要素A和B,就其本身形式来说,可以是单纯的音节,也可以是语素。作为单纯音节的A和B,在组合以后才成为语素,AB可以是连绵词或外来词。作为语素的A和B,可以两者都为黏着语素,也可以其中之一为黏着,另一个为自由语素(表中的1、2、3就反映了这样的事实)。作为语素的A和B也可以是两者都为自由语素(表中的4即反映了这样的事实)。从另一个角度看,这时的A和B分别都是词。以往的文章就有从这一角度出发对AABB重叠式进行研究的。(邢福义等1993)

由表四可见,AABB式词的构成要素A、B单独看有的是音节、有的是语素、也有的是词。这就意味着难以从A、B本身的性质中找到用以说明AABB式词构成的共同的形式基础。没有共同的形式基础,我们自然就想到了它们是否存在共同的语义基础。在分析语义共性前,我们先把作为语素的AB间的语义关系作了分析,除了A和B是并列的关系(如:整整齐齐、急急忙忙、偷偷摸摸、跌跌撞撞、风风火火、点点滴滴、叮叮咚咚、乒乒乓乓、双双对对、桩桩件件、三三两两)(注:在我们的语料中,AB为并列式的AABB,由动词或动语素构成的约占总词数的23.4%,由形容词或形语素构成的约占23.3%,由名词或名语素构成的约占8.9%,由拟声词或拟声语素构成的约占10%,由量词构成的约占1.5%,由方位词构成的和由数词构成的分别约占4%。)之外,其他的关系可以勉强分析为:1)陈述或主谓,如:涛涛滚滚、冰冰凉凉等;2)附加或偏正,如:秀秀气气、诚诚心心、热热闹闹、欢欢笑笑等;3)支配或述宾:认认真真、放放心心等;4)补充或后补:扎扎实实、分分明明、花花朵朵等。这里说勉强分析,是因为AABB式词中的A和B的语义关系,除了并列之外,其他的都不容易分析,即使我们把它们单独作了分析,放在AABB式词中,它们的语义关系也已变化。有一些我们实在感到很难分析,如:林林总总、利利索索、草草率率、些些微微等。我们把能分析和难以分析的词数作了统计,列表如下:

表五:AABB式词中AB单独组合的语义关系类型分布情况

表五中的数据显示AABB式词中的A和B的语义关系绝大多数是并列的,这符合AABB的语义特征对A和B的选择。AABB的语义特征就是AA与BB在承载整体语义信息上的均衡性。(注:我们的语料库显示202个(约7.4%)AABB式词有它倒置的重叠形式,如:“千千万万、整整齐齐、家家户户、结结巴巴、弯弯曲曲、踉踉跄跄”等可以倒置为:“万万千千、齐齐整整、户户家家、巴巴结结、曲曲弯弯、跄跄踉踉”。这种倒置的例句数虽然不相等,但是它从一个侧面说明AA和BB在语义上的均衡性。)换句话说,AABB的语义就是既A且B。这一点,邢福义先生等在研究中也有相似的看法。(邢福义等1993)因为A和B语义结构并列,那么重叠后,AA和BB在承载AABB整体语义的功能上也是均衡的。这一点不难理解,让人费解的是呈其他语义关系类型的A和B在AABB中的语义功能。

在难以分析的一类中,有大约三分之一的AB组合是联绵词。我们知道联绵词的两部分尽管单独讲都没有什么意义,但是在承载AB整体语义的功能上则是均衡的,如:犹犹豫豫,“犹”就是“豫”,“豫”也就是“犹”。(注:笔者在读大学本科的时候就曾听郭在贻先生在课堂上这样解释。)正是因为这种均衡使重叠后的AABB在语义上呈现为AA与BB的均衡。除了联绵词,这类中的另外一些词A和B的语义关系难以确定(如上面所列的“林林总总”等),那是因为我们一时还难以断定A或B作为语素意义该作何理解。如果硬要对它们作一种理解,似乎把AB的关系理解为并列较好。

现在我们尝试解释一下非并列的A和B重叠为AABB的语义特点是什么。根据一般的观察,非并列的A和B很难重叠为AABB,如:内疚(陈述)、眼花(陈述)、掌柜(支配)、雪耻(支配)、充满(补充)、证明(补充)、新闻(偏正)、公审(偏正)。在我们的语料中,有10%左右的AABB的A和B是非并列式,有人认为这是“类化”的结果(郭志良1987)。那么这种类化的条件是什么?吕叔湘先生(1979)在讲到动名组合时指出:“许多不是动宾结构的词被人们当动宾结构来用,例如:考完试|登个记|我跟他同过三年学...”这里讲到的是词语的语义结构被重新分析(reanalysis)的事例。同样的道理,我们觉得非并列的A和B在重叠成AABB之后,要使AA和BB能均衡地承载AABB的整体语义,A和B的语义结构需要被重新分析。这种重新分析可以是某个语言社团的行为,也可以是某个人临时的行为。

在我们的语料中“踏实”重叠为“踏踏实实”,如:

(1)虽然专心“做学问”的人数在减少,但应当看到,仍在踏踏实实地从事学术理论研究的者学们正在努力走向成熟。(电子版《人民日报》1996年1月)

(2)大量的事实已反复证明,历史只垂青那些踏踏实实干事业的人,而不会为那些处心积虑投机钻营、乞求官运亨通的人树碑立传。(电子版《人民日报》1996年3月)

“踏实”从原初意义上讲是一个补充结构的词,“踏”与“实”分别表示动作及其结果。但是,现在“踏”与“实”的结合已非常紧密。“踏实”经过语义重新分析后,已没有任何动作的意义,它是一个形容词,表示在从事某一工作过程中所处的行为状态。“踏实”的第二个音节念轻声暗示着这种语义上的转变。在“踏踏实实”中,“踏踏”与“实实”均衡地承载着表示某种行为状态的语义信息。这种对语义所作的重新分析是由语言社团集体作出的。

再看“软颤”被重叠为“软软颤颤”,如:

(3)小时候,我喜欢听涛声,看河漩儿,踩岸边儿那平平坦坦、软软颤颤的河泥儿,直到溅得全身都是泥点儿……(电子版《人民日报》1995年5月)

“软颤”不是词,而是两个词的组合。“软”和“颤”分别为词。按一般的分析,“颤”是表现动作,“软”是说明“颤”的方式。在这里,“软颤”的语义被重新分析了,“颤”已不表示动作,而是表示一种特性,“软颤”是既有“软”的特性又有“颤”的特性。在“软软颤颤”中,“软软”和“颤颤”均衡地表示了两种紧密联系的状态,“软软颤颤”表达由两种紧密联系的状态构成的复合状态。这种用法在我们的数据库中只有一例,属于个人对“软”和“颤”所作的临时重新分析。

以上只是对A和B构成AABB的语义基础作了尝试性的分析。通过分析,我们觉得AABB重叠式对AB的语义选择是AB重叠后能使AA和BB均衡地承载AABB的整体语义信息。并列式的AB重叠之后自然符合这一要求,因而实际语料中绝大部分AABB的AB是并列式;非并列的AB组合在重叠为AABB时需要经过重新分析,以符合AABB对AB的这一个语义选择要求。每一个具体词(AB)或词的组合(AB)的重新分析,会因为AB的不同而有所不同。对其中规律的深入探讨不是本文的任务。值得指出的是,重新分析有一定的主观变异性,不同的人会因为重新分析的不同,在把AB重叠为AABB时会有所不同。正是因为如此,AABB的使用情况会因为不同的作者、不同的方言区而呈现出不同的特色。这也是AABB重叠式词具有开放性的一个原因。

四 结语

通过初步分析,我们发现AABB式词越是常用,其AB为词的可能性越大。AABB式词是能产的,表现在随着语料字数的增加,AABB式词也就不断增加;偶发性的词大量存在。A和B构成AABB应满足能使AA和BB均衡地承载整体语义的条件。语义结构为并列式的A和B,最容易重叠成AABB式词;非并列的A和B,需要经过重新分析重叠成AABB,以满足AABB对AB选择的需要。

本文是我们使用大规模真实文本语料系统进行汉语重叠式研究的一个开端,主要是根据语料的统计数据做一些初步的分析,以后我们还要继续深入研究这些问题。AABB重叠式的问题很多,例如它与其他重叠式的相互关系、它的每一种不同性质的AB所表现出来的不同规律与共同规律、它在汉语发展史中的地位等等都值得我们探索。

标签:;  ;  

现代汉语AABB重叠词基础的统计分析_语义分析论文
下载Doc文档

猜你喜欢