关于语感与流通性的思考_语料库论文

关于语感与流通度的思考，本文主要内容关键词为：语感论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

在1998年8月的应用语言学研讨会上，我提交的论文《关于大规模真实文本语料库的几点理论思考》，对语料库的建设进行了反思，在回顾多年来语料库建设的成就和当前迫切需要解决的棘手问题的基础上，对于第三代语料库的建设，特别是面对下一个世纪的超大规模语料库的建设，从理论语言学和社会语言学的角度提出了一些想法，其中，非常重要的核心思路是提出了语言的“流通度”的概念，以及流通度的内涵和基本计算公式。（注：张普《关于大规模真实文本语料库的几点理论思考》，《语言文字应用》1999年第1期。）

本文想就流通度与语感的问题作进一步的探讨。

一关于语感

首先，我们需要弄清楚：什么是语感？

迄今为止，语感是语言学界使用频度较高但是又琢磨不透、难于界定的一个术语。

《现代汉语词典》、《辞海》乃至《语言与语言学词典》竟然均未收录“语感”这样的词条。《汉语大词典》收录了“语感”，解释为：“对语言的感觉”，并且引证朱自清《〈文心〉序》和陈原《社会语言学》为例。《现代汉语新词典》（刘文义主编）对语感的解释是：“对语言符号的直觉、感受及理解”。

我们检索了最近10年来的主要语言学刊物及学报，得到论述“语感”的论文26篇，这还不包括此前论及“语感”的名家的著述，如：朱德熙（1980）和吕叔湘（1985）中都谈到语感，邢公畹则在1981年发表《论“语感”》的专文。

最近一二十年，不仅是语言学界，哲学、思维科学、认知科学、信息科学等领域都有人对语感、语感能力发生浓厚兴趣。在语言学界，心理语言学、社会语言学、计算语言学、应用语言学、生成语言学等都从不同角度对语感、语感能力进行了界定、分类、描述等研究。尤其是语言教学领域（包括对外汉语教学），对于语感的性质、语感能力的训练、语感能力和听说读写等语言能力的关系以及语感在语言（文）教学中的地位等一系列问题都有探讨。无论围绕着语感和语感能力有多少争论，但在下述几方面应该说已经有了比较统一的看法：

1.语感是操某一种语言的人在长期的语言实践中形成的对于这种语言的运用的正误、优劣、常殊的一种直觉（intuition）能力。

2.语感是一种综合的语言直觉能力。它包括对语音、语法、语义、语用等许多方面的敏感的直觉能力。

3.由于个人的文化素质、生活环境、交际范围、阅读领域、活动空间等各不相同，人们的语感能力千差万别，但是操同一语言的民族总有共同的语感和语感能力，否则就无法进行交际。

4.语感能力也是一种语言能力，广义的语言能力可以也必须包括语感能力。听说读写是最基本的语言能力，而语感能力是听说读写能力的基础和前提。语感能力是对听说读写这种语言运用（performance ）起监控作用的一种语言审析能力。

5.语感是在长期的语言实践中逐步地、自然而然地形成的，语感可以通过语言教学实践来培养和训练。传统的语文教学中有许多培养和训练语感的宝贵经验与方法（例如“涵泳”），“书读百遍，其义自见”，“读书破万卷，下笔如有神”，“熟读唐诗三百首，不会写诗也会吟”，都有语感训练的道理在其中。

总之，语感是客观存在的，语感是重要的。在语言教学中，过去对听说读写等语言运用能力较为重视，而对语感这种语言监控能力研究不够。

二关于语感的量化

既然语感是一种重要的客观存在，并且需要加强研究，那么我们能不能对语感进行量化的研究呢？能不能使得语感可计算呢？

我们从计算语言学的角度对语感的研究提出了新的目标。当然，实现语感量化和可计算，其更进一步的目的是为了让电脑模拟人的语感，或者说赋予电脑以语感，使电脑获得语言的监控能力，从而具备语言的自学习、自反馈功能。

语感是对语言运用的正误、优劣、常殊的一种直觉，或者说是对表述得正确不正确（即“信”）、顺畅不顺畅（即“达”）、恰当不恰当（即“雅”）的一种直观的认识能力与审析能力。语感是一种“度”，一种“分寸”。实际上就是对信达雅的程度感，对语言运用的分寸感。因此，语感一定是可以量化的，可以计算的。一种语言事实能不能“被理解”、“被认同”和“被传播”，通常是看其“能不能说”。而“能不能说”主要靠的是个人的“语感”，个人的语感则与对话双方的许多背景因素有关，甚至连职业、职务、年龄、性别、性格、品德、情感、阅历等也可能对人们的语感有影响。因此，可以认为，原则上没有也不大可能有语感完全相同的人，即使是同一个人，其语感在不同时期也可能会有所变化。

当然，操同一语言的不同的人，其语感和语感能力还是有强弱之分的。所以有的人表达起来“伶牙俐齿”，有的人则“笨口拙舌”，有的人领悟起来能够“举一反三”，有的人则必须“冥思苦想”。我们把人与人之间的这种语感的差别称为“差别语感”，用C来表示。 “差别感”C是一个变数，它随着不同人的语感和语感能力强弱的变化可大可小，同一个人的“差别感”也随着影响语感的因素的变化而变化。所以，“差别感”是语感和语感能力中的动态部分，是一种动态语感。

但是，操同一语言的人必定还有共同的语感，这样才能沟通。共同的语感是最基本的语感，最常规的语感，最一般的语感。我们把这种人与人之间存在的共同的语感称为“共同语感”，用G来表示。 “共同感”G是一个定数，对于所有的人都是一定的。所以， “共同感”是语感和语感能力中的稳态部分，是一种稳态语感。任何一个人的语感（我们用Y来表示）都是有稳态部分和动态部分这样两种成分的，所以，语感的公式是：

Y＝G+C（Y：语感；G：共同感；C：差别感）

我们说G是稳态而不说是静态，是因为共同感并不是静止不变的，而只是相对稳定。随着时代的发展，随着人类的进步和世界的交融，“共同感”也会发生变化，只不过无论怎样变化，无论变化大小、快慢，对于每一个人来说，理论上这部分永远是一样的。

我们主要分析差别感。人与人之间的语感差别主要体现在如下一些方面。

1.新旧差别

这主要表现在新词、新义、新用法方面。语言总是要发展变化的，新词、新义是最活跃的部分，“能指”必须适应“所指”，新事物、新思想、新发现带来的新概念常常需要用新词、新义来表达。例如：“网址”、“手机”、“邮编”、“电喷”、“尾气”、“驾校”、“拆迁”、“拥堵”、“整治”、“监管”、“下岗”、“转制”、“磨合”、“超市”、“展销”、“甩卖”等等。青年人思想最活跃、最容易接受新事物，所以，一些新词、新用法往往首先从青年人群开始传播，例如：“爽”、“酷”；“帅哥”、“大款”；“网虫”、“黑客”；“蹦的”、“考托”；“光盘”、“盗版”；“帅呆了”、“酷毙了”、“很中国”等等。新的语言成分总是有人最先在局部范围内开始使用，传播开并稳定后，就成了被大家接受的新词、新义、新用法，如不然，就逐渐被淘汰，个人或极少数人仍使用，就被视为生造。语感的量化和可计算，应该能够提供一个阈值，从而较为科学地确定一个新的语言成分何时算是“约定俗成”，被公众（或者说是被绝大多数人）接受了。

2.学科差别

这主要表现在词汇中的术语和一般词汇的术语义。一些人（往往是从事某一学科的知识分子或从事某一行业的同行）对本领域的术语和术语义有较强的语感，而该学科领域或行业范围以外的人则没有这种语感。例如：“向量”、“函数”；“扇区”、“总线”；“臭氧”、“烃基”、“等离子”、“电离层”等等。术语或术语义的使用范围有时会扩大，进入一般词汇。例如：“攻坚”、“突击”（军事）；“开刀”、“瘫痪”（医学）；“票友”、“反串”（戏曲）；“硬件”、“软件”（计算机）；“板块”、“断层”（地理）；“倒计时”、“软着陆”（航天）等。进入一般词汇后，学科差别消失，成为新的具有共同感的词汇和词汇义。语感的量化和可计算，应该可以寻找到从术语进入一般词汇的阈值。

3.地域差别

这主要表现在方音、方言词汇、方言义、方言语法等方面。一些人长期生活在方言区，对本方言区的语感较强，不在该方言区生活的人或者不了解该种方言的人，就缺乏或不具备该方言语感。方音、方言词汇、方言义或方言语法有时也会因表达需要而被普通话所吸收，从而地域差别消失，成为新的具有共同感的词汇、意义和用法。例如：“搞”、“尴尬”、“垃圾”、“靓”、“焗油”、“硬是”、“有售”、“打工”、“炒鱿鱼”等等。语感的量化和可计算，应该也可以帮助我们寻找到一个语言成分从方言进入普通话的阈值，达不到这个阈值的就仍然是方言成分，例如：“搞掂”、“早晨”（“早安”义）、“困觉”、“行街”、“有去”等等。

4.文白差别

这主要表现在文言词语、文言用法在现代汉语中的遗留。一些人出于不同的交际目的或者处于不同的交际环境，常常使用某些文言词语或文言语法，不熟悉文言的人，就不会有文言的语感。例如：“兹”、“为荷”；“国是”、“丁忧”；“动之以情、晓之以理”、“是可忍，孰不可忍”、“勿谓言之不预也”等等。平常说这叫“转文”，不用口语而用文言，这是一种以文白手段来表现的风格差别。在特定的场合需要体现出文白的差别，以显示学问的高深或文笔的凝炼、庄重等。怎样确定一个语言成分属文言还是属白话？现代书面汉语中究竟有多少文言成分的遗留？语感的量化和可计算应该也可以帮助我们找到区分文言和白话的阈值，以确定哪些是文言成分的遗留。

5.翻译差别

这主要表现在外来词的翻译方面。最初，不同的人或不同的地区对同一事物常常会有不同的译法。例如：“BB机”、“BP机”、“拷机”、“寻呼机”、“呼机”；“大哥大”、“移动电话”、“手提（持）电话”、“手提”、“手机”；“互联网”、“国际网”、“网际网”、“国际互联网”、“因特网”等等。以后，也许会慢慢趋于一致，或者由有关的标准和规范来统一。例如：取“邮编”废“邮码”；取“因特网”，废其他。此外，欧化的句式也是出于翻译的影响。语感的量化和可计算，应该也可以帮助我们找到合适的阈值，来确定外来词的恰当的译法。

也许语感差别还体现在其他方面，本文暂不细论。

共同语感G总是稳态的语感，是操同一语言的全体人的语感。差别语感总是动态语感，是操同一语言的部分人的语感，这“部分人”有三种情况：少部分人、大部分人、一半人。刚好一半人说的时候是偶然的，少部分人、大部分人说的时候是必然的。只有当一种语言现象为大部分人或者绝大部分人所接受时，这种语言现象才可以说是具备了进入规范的资格。一大批这种“多数人认同”的语言事实进入规范后，对这种语言事实语感不强的少数人自然会反对，那是很正常的。只不过我们无从证明反对的人就是代表少数，所以规范常常陷入两难的境地。当然，反对者也有可能代表多数，但时过境迁之后又可能成为少数，语言随时都在发生变化，这也常常使我们的一些语言学家陷入尴尬的境地。例如，当初被极力禁绝的“人均”、“达标”、“彩电”、“面的”、“邮编”、“焗油”等词，最终却顽强地生存下来，有的甚至进入词典或成为规范。

倘若语感可以量化、可以计算，我们就能科学地找到规范化的“多数”的依据，从而以“（数）理”服人，而不仅仅是以权力或权威服人。当然，如前所说，我们进一步的目标是叫电脑模拟人脑。赋予电脑语感，实际上就是给它一个“大多数”的阈值，让电脑能科学地判定那些“成熟的”、“已经流通的”语言事实，自动地“认可”和“接受”，这就是自学习和自反馈，就是人工智能研究所追求的高智能境界。

但是，叫电脑获得语感谈何容易。不说别的，单是科学地确定那个代表“大多数”的阈值，就不是一件容易的事。1998年，中国科协对公众的科学素养及对科学技术的态度作了一次调查。其中，调查了公众对“分子”、“计算机软件”和“DNA”三个科技基本概念的理解，公众自报了解这三个术语的分别为32.8%、15.8%和13.3%；对这三个术语不了解的公众分别为36.9%、54.4%和27%；而从未听说过“分子”一词的竟还有25.6%。仅依据百分比而言，了解这三个词的公众都不到“多数”，更不到“大多数”，那么，这三个词就都还属于科技术语，尚未进入通用词汇范围（注：参见滕文渊《让科普读物热起来》，《新闻出版报》1998年12月2日。）。但是，实际上会有许多人关心：此次抽样调查的原则、范围、方法是什么？文盲、家庭妇女、大学生、教授、科学家等不同人员的比例和权重一样吗？如果不一样又如何确定不同人员的比例和权重？自报“了解”的依据又是什么？等等。可见语感的量化和计算本身就不是一件容易的事，叫电脑获得语感就更难了。

不过，不容易并不等于不可能，只是需要认真研究，选择一条可以操作的途径，来对语感进行量化和计算。

这就必须涉及流通度及流通度与语感的关系了。

三流通度与语感

倘若我们要知道一个语言事实是否被大多数人认可或接受，即符合大多数人的语感，最科学的办法是向操这种语言的所有人进行调查，但这实际上是不可行的，因为：

1.就算撇开港澳台和海外华人，仅以大陆而言，我们实际上无法让13亿人就一个语言事实来回答“是”与“否”。

2.何况要调查的语言事实并不是一个，而是一长串、一长篇或一大本，这不是13亿人每一位都能够回答、都愿意回答的。

3.那一大串、一长篇或一大本需要调查的语言事实，由谁提出？怎样提出？并不是随便一个人任意提出一堆语言事实大家就可以认可用来进行调查的。

4.更何况要保证这种调查的科学性，实际上还应该不间断地进行调查，因为新的语言成分随时都在产生和增长。我们也不可能一而再，再而三地时常拿这样的问题去打搅13亿人。

当然，很容易想到的可行办法就是在13亿人中进行抽样问卷调查。但那必须具备以下的条件或前提：

1.有人愿意提供足够的常年语感调查经费。

2.有人能够并愿意接受常年的语感问卷调查。

3.能够科学地确定一个从各个角度看都具有代表性的被试名单，抽样的各种代表的比例和权重首先需要被认可和接受。

这些条件和前提中的任何一条实现起来都是很困难的。因此，我们希望能够寻找测量语感的其他方法。

我们发现语感与流通度之间有十分密切的关系。

我们提出“流通度”概念，希望通过测量流通度来对语感加以数学界定、加以量化，使得“能不能说”、是否已经“被理解”、“被认可”、“被传播”变得可以通过流通度的计算进行判定。进一步还想把“流通度”的知识或者说“流通度”的获取方式教给电脑，使电脑通过获得“流通度”来获取“语感”，或者自动计算语感，从而获得自学习能力。所以流通度理论不仅是在语言学方面使人的“语感”得以量化，更重要的是在信息处理方面有可能使计算机真正获得语言的自学习能力，使智能化进入一个新的发展阶段。

那么，什么是“流通度”呢？简单而通俗的解释就是：“流通度”是一种语言事实在社会交际中的流行通用的程度。语感实际上就是人们对一种语言现象的流行通用程度的感觉。流行通用程度高，听得多，习惯成自然了，就感觉能说，否则，就觉得不能说，“语感”处于似有似无或不高不低之间就“拿不准”。

如果我们能够对某种语言事实进行“流通度”的测量，得知这种语言事实在社会中流行通用的程度，这种“度”也就代表了所有操这种语言的人使用该语言成分的情况，对这种“度”的感觉就是语感。我们发现：“度”的高低刚好与语感代表的人是“大部分”还是“少部分”成正比，因此，测到了“流通度”也就大体测到了语感。

那么，如何测量流通度呢？

四关于流通度与动态语料库

在谈论如何测量“流通度”这个关键问题之前，我们还需要界定一下测量的对象。我们此前界定的“语感”是对语言运用的一种直觉，“流通度”是语言事实在社会中的流行通用的程度，而语言是有口语和书面语之分的。口语的语言成分“流通度”（或“语感”）的测量，目前的技术难度较大，本文主要讨论书面语的“流通度”的测量方法。

关于口语和书面语的界定，我们接受汉字改革的先驱者之一周有光先生的提法，他认为书面语有两种：一种是文言，是以古汉语为基础经过加工的书面语，与口语的距离很大；一种是白话，是以现代汉语为基础经过加工的书面语，与口语一致。白话也经过了加工，加工体现在两方面：一方面是写共同语（普通话），不写方言；另一方面是对口语要作语法修辞规范化的加工。对于后一种书面语，他认为：“写出来是‘语体文’，说出来是‘文体语’，‘言文一致’。”（注：参见周有光《白话是怎样成为文学正宗的？》，《北京日报》1998年12月13日文史副刊。）

我们要测量的“书面语”的流通度，就是周有光先生说的第二种书面语，并且是写出来的“语体文”。他所说的说出来的“文体语”和未加工的真实“口语”我们都暂且不论。

我们实际上是主张建立一个动态的大规模真实文本的书面语的语料库。把语料库的建设和使用从静态推向动态，把文本的选择和抽样原则从分布原则推向流通原则，把对语言成分的一般性的统计分析推向对语感的推测性统计分析和验证，从而探索使电脑可以逐步获得语感并随时增强和调整语感的路径。

目前大众传播有六大媒体：报纸、杂志、图书、广播、电影、电视，前三种是阅读媒体，后三种是视听媒体。我们说的大规模真实文本的书面语，主要来自前三种媒体，也包括后三种媒体以文字形式出现的剧本、脚本、稿本等（注：书面语的大众传播还有其他渠道，例如书信、布告、通知、墙报、标语、街头广告等，暂不细论。）。现在六大媒体又都可以凭借多媒体光盘和因特网来传播，实际上在网络上传播的文本的流通度可能更容易测量（有关这方面的测量问题我们将另文讨论）。我们先说常规的六大媒体，特别是书面语主要来源的前三种媒体——报纸、杂志、图书的流通度测量问题。

我们主要是基于大规模真实文本的书面语语料库来测量语言成分的流通度，这种语料库与此前的语料库相比，应该具有以下特点：

1.动态性

这种语料库是一种动态的语料库。它不确定一个固定的库容量（例如：把库容量目标确定为数百万字、上千万字、数千万字、数亿字等）；不确定一个固定的选择文本的时间段（例如：确定为1949－1980年、1980－1990年、1990－1995年的语料等）；不确定一个固定的文本选择范围或应用领域（例如：确定为只收现代汉语文学语料，或新闻语料，或科技语料，或中小学生语料等，从而建立一些专门的语料库）；它也不确定一些固定的文本抽样对象（例如：《人民日报》、《光明日报》、《人民文学》、《小说选刊》，或者老舍著作、巴金著作、曹禺著作、毛泽东著作、邓小平著作等）。它是根据大众媒体的传播情况，依据一定的原则，即期抽取的。因此，它是一个历时的动态的语料库，可以观察和测量到流通度的变化情况，可以追踪到语言成分的产生、成长、消亡。大众传播媒体的情况是在不断变化的，例如，1978年，我国报纸只有186种，基本上是单一的党委机关报，到1995年底，已经增加到2202种，平均期印数增加4倍，总印张增加3.5倍，报纸的品种、功能、发行都有了相当大的变化。既然要科学地反映语言的流通应用情况，语料库的容量、选材、抽样等怎么可能一成不变呢？六大媒体中，除了图书类，其他媒体都具有“固定版面”。所谓“固定版面”，有时间性固定，以时间定数体现，例如广播、电影、电视；也有空间性固定，以开本页数的定数来体现，例如报纸、杂志。由于时间和空间的“版面”受限，我们就可以依据总品种数和出版物的出版规模和出版频度，来预测这种书面语的年出版总字数。虽然媒体的数量、规模在不断变化，但是我们仍可以依据预测的年出版总字数（即书面语的流通规模），来预定语料库的选材和抽样规模。规模虽然无定，确定规模的原则是有定的。图书类的版面无定，可以从一个印张2万余字的活页文选，到规模为上百个印张的大部头图书，因此与版面固定的媒体的选取方法不一，但是每年也处于变化中的动态性质却是一样的。

2.流通性

这种语料库中的语料的选取不仅要遵循分布的原则，更重要的是要遵循流通的原则，是在流通基础上的分布，或者说是在流通前提下的分布。分布是重要的，但不流通的分布或者流通度低的分布，是不重要的。我们曾经提出一个粗略的书面语流通度选材原则和计算公式，分析了文本的发行量、发行周期、发行地区和阅读率，认为文本的“流通度”与流通量、流通密度、流通空间和流通率有关（注：张普《关于大规模真实文本语料库的几点理论思考》，《语言文字应用》1999年第1期。）。这里，最困难的是文本流通度的有关数据的获取，我们可以首先利用现成的新闻出版年鉴和类似的国际国内统计数据。例如，据总部设在英国的世界期刊联盟出版的《世界期刊概况》最新版，1997年列入全世界期刊发行量最大的前50名综合类刊物的中国期刊是：《半月谈》（第4位，新华社，半月刊，516万）、《故事会》（第6位，上海文艺出版社，月刊，392万）、《读者》（第7位，甘肃人民出版社，月刊， 370万）、《知音》（第11位，湖北省妇联，月刊，298万）、《家庭》（第12位，广东省妇联，月刊，264万）。其他还如在行业类期刊中辽宁省委主办的《共产党员》排名第1位，月刊，150万。《农民文摘》、《家庭医生》、《党员特刊》、《党的生活》、《大众电影》也都榜上有名。在财经类期刊中，《中国税务》（月刊，138万）排名世界第2。我国的有关主管部门在评定期刊的排行榜时，有时也并不唯发行量论，例如列入“全国百种重点社科期刊”的也有《小学生天地》（1998年发行350万份）。

在阅读率方面，也已经有“中国市场与媒体研究”的调查可以参照，该项调查是目前国内类似调查中规模最大、访问最深入的年度连续调查，由中国国家统计局中国经济景气监测中心、新生代市场监测机构有限公司、英国市场研究局（BMRB）、美国TELMAR数据分析集团等著名媒体研究与分析机构参与数据分析研究。例如，据1997年11月－1998 年6月的调查分析，全国周报的阅读率前15名排名如下表：

刊名名次阅读率

足球 112.9

南方周末 2 7.3

民主与法制3 6.7

报刊文摘 4 6.5

中国足球 5 6.4

文摘报6

中国电视报7 5.8

球迷 8 4.4

作家文摘 9 3.7

每周文摘 10 3.5

体坛周报 11 3.5

计算机世界

12 3.2

球报 13 3

舞台与银幕

14 3

健康文摘报

15 2.5

注：原件缺《文摘报》的阅读率。

《计算机世界》的读者阅读率排名第12位，但在专业性的周报中排名则为第1位，其读者群是年轻的具有高智力、高科技知识、高收入的三高群体。如读者群中16－34岁的年龄段占75.7%，大学以上学历比例占32.6%，专业技术人员比例占34.2%，拥有电脑者的比例占39.4%，男性占68.6%等等（注：参见《〈计算机世界〉读者形态及广告价值分析报告》（新生代市场监测机构有限公司，内部）。）。其他还有央视调查咨询中心也有1998年的读者调查最新结果，包括“报纸阅读量市场份额”、“平均阅读率”等数据。如果我们能够获得文本流通度的有关数据，我们就能够给文本在各种分类标记之外，加上流通度标记，各类文本都具有了流通度，我们就可以让电脑计算语感、获得语感了。

即便如此，语感的获得和计算也只是刚刚起步，严密的分析和复杂的计算还没有开始，不过，那已经不是本文的任务了。

但是，从理论语言学和社会语言学的角度看，我们对语感的量化、语感的可计算以及赋予计算机以语感这件事的前途充满信心！

标签：语料库论文; 文本分类论文; 文本分析论文;

关于语感与流通性的思考_语料库论文

猜你喜欢