语料库在中国历史研究中的运用_语言史论文

汉语史研究中的语料使用问题，本文主要内容关键词为：语料论文,汉语论文,史研究论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

恰当使用语料是进行科学的汉语史研究的前提。语料使用主要涉及两个问题：一是语料的选择，二是语料的分析①。两者又是相互关联的。下面分别讨论。

一、语料的选择

用于汉语史研究的语料有两个基本要求：一是口语性，二是可靠性（参看汪维辉，2000b）。

关于语料的可靠性问题，太田辰夫先生（2003：373）曾经有过经典性的论述：“在语言的历史研究中，最主要的是资料的选择。资料选择得怎样，对研究的结果起着决定性的作用。”太田先生所说的“资料选择”，主要就是材料的可靠性问题。这一观点已经成为汉语史学界的共识，深入人心。虽然在研究实践中使用不可靠语料的问题仍然时有所见（参看王魁伟，2000；董志翘，2006；麻爱民，2010等），但这主要不是认识问题，而是个人学养或治学态度等问题，这里就不赘述了。

我们所要研究的汉语史就是口语发展史，所以据以得出结论的材料理应是口语性语料。多年来，我们一直致力于探索如何依据口语性语料来探明汉语史上各种问题的真相，并做过一些尝试（汪维辉，2000a、2001、2002、2007等）。

问题的复杂性在于，汉语的历史文献虽然无比丰富，但是语言性质却十分驳杂，纯口语资料是很难找到的（朱庆之，2012：203），特别是晚唐五代以前。因此有人会说，在缺乏纯粹的口语语料的情况下，退而求其次，带有一些口语成分的语料也是可以而且应该使用的。这话没错，问题是怎样使用。只要我们能对语料做科学的分析，那么理论上一切历史文献都可以用作汉语史研究的资料。

二、语料的分析

蒋绍愚（1998）曾经指出：“不但要做好语料的整理工作，而且要做好语料的分析工作。语料有文字讹误、后人擅改，以及时代、真伪等问题，需要通过校勘学、文献学的方法加以鉴别和改正，这是语料的整理。语料本身没有问题，但语料中反映的语言特点有的是时代特色，有的是地域特色，有的是语体特色（如有的很口语化，有的文白夹杂），需要加以区分，这是语料的分析。不注意语料的整理，把有问题的语料作为研究的依据，当然会造成大错；对语料不加分析，把地域或语体的特点当作时代的特点，在作语言史的研究的时候同样会发生错误。语料整理的问题，现在一般比较注意了，语料分析的问题，还需要特别强调。语音研究方面，已有学者提出‘剥离法’，在语法和词汇研究方面，不少语料也是需要‘剥离’的。只有在正确分析语料的基础上，才能作可靠的语言史的研究。”

蒋先生十几年前的这段话，至今仍值得每一位汉语史研究者深思，因为在目前的研究实践中，语料分析的重要性没有引起应有的重视，语料分析的方法更是有待大家共同来探索。

我们认为，语料的分析至少应该包含这样四个方面：一是确认有效例证，二是剥离口语成分，三是分析统计数据，四是重视典型语料。后三点又是相互联系的。下面分别论述。

1.确认有效例证

所谓“确认有效例证”，实际上主要是一个正确理解文意（包括断句和认字等）以避免“假例”的问题。这里试举一例。李焱、孟繁杰（2011）引例多有问题，仅举下面两例：

地气反寒暄，天时生杀。（白居易《桐花》）

世间滋味，尝尽酸咸苦涩。时今食蔗，无甜汁。（唐致政《感皇恩》）作者认为其中的“倒”是关联副词，实际上都不是。《桐花》例“倒”与“反”对文，是动词“倒过来了”“反过来了”的意思；《感皇恩》例是用典，《世说新语·排调》：“顾长康啖甘蔗，先食尾。人问所以，云：‘渐至佳境。’’“倒食蔗”就是倒过来吃甘蔗，所以“无甜汁”。只要稍作分析，这种“假例”本来是可以避免的。

正确理解文意是从事文献语言研究的必要前提，而目前的汉语史研究中此类“假例”问题并不鲜见（参看汪维辉，1996；史文磊，2008；刘君敬，2008；张海媚，2010；麻爱民，2010；王虎，2012等的分析），限于篇幅，不再细说。

2.剥离口语成分

正如蒋绍愚（1998）所说，跟语音研究一样，“在语法和词汇研究方面，不少语料也是需要‘剥离’的”。语料分析最重要的一点其实就是“剥离”，即把文言性成分和口语性成分“剥离”开来，因为在浩如烟海的历史文献中，纯口语资料是不多的，文献语言的基本形态是文白混杂，只有把其中的口语性成分“剥离”出来，才能据此探明历代口语的真相。这个问题下面再结合实例作详细分析。

3.分析统计数据

定量研究作为一种科学方法，在汉语史研究中正被越来越广泛地使用。但是科学的方法必须科学地运用才会有效。

目前比较常见的做法是：选取若干种语料，统计其中研究对象的出现次数，然后依据出现频率得出相应的结论，而不管所统计的语料是否具有“同质性”和研究对象所出现的具体语境如何。这种方法可以称之为“‘一锅煮’统计法”。这样的实例随处可见。我们认为这种做法缺乏科学性，它往往难以导出合乎实际的结论。下面举个例子。

王云路、方一新（2002）评汪维辉（2000a）一书时说：

该书的考证大抵可信，但可商之处也是有的。例如：谈到“愚/痴”二词时，作者说：“粗略地说，上古多说‘愚’，东汉魏晋南北朝主要说‘痴’。”（325页）“在东汉佛经里，‘痴’字用得极多，……‘愚’单用的已不多。”（326页）按：“愚”和“痴”的变化未必如《研究》所说。整个魏晋南北朝，“愚”都活跃在口语色彩浓厚的作品中，并未退出历史舞台。笔者以日本《大正藏》第3、4两卷为随机抽查对象，利用陕西师大历史系袁林先生的检索软件（据袁先生说明，该电子本《大正藏》原始文本来自中华电子佛典协会）作了检索，现将结果报告如下：

愚第3卷，命中132篇，总共454次；第4卷，命中113篇，总共1113次。

痴第3卷，命中145篇，总共519次；第4卷，命中103篇，总共536次。

仅就第3、4两卷统计结果来看，“痴”并未取代“愚”，相反，“愚”的使用频率还稍高些。以上统计数字容或有误差，但出入应该不会太大。这样看来，《研究》的结论尚可商榷。

上述统计数字确实对汪维辉（2000a）的结论提出了严峻的挑战。事实究竟如何？我们抽查了其中公认为口语性最强的一部佛经——收于《大正藏》第4卷的南朝齐求那毗地所译《百喻经》。该经中这两个词的使用情况如下表所示：

统计数据显示：“愚”大大多于“痴”，两者的出现次数是118：25。但这并不意味着当时的口语仍以说“愚”为主，让我们来分析一下两者的用法：

“愚”虽然多达118例，但没有一例是单用的，用法只有两种：一是充当定中结构的修饰成分，其中“愚人”就占了94例，还有“愚者，愚臣，愚夫，愚老人，愚鸽”，出现频率都不高；二是与其他成分构成同义（或近义）连文，有12例“愚痴”、3例“愚惑”和1例“凡愚”。而25例“痴”中，除去12例“愚痴”，“痴人”只占了4例，“痴猴”1例，单用的却有6例（即上表中“不痴”以下6例）。可见作为一个可以单说的词，“痴”已经取代了“愚”，“愚”则降格成了一个非成词语素。此外“痴倒”一例也值得注意，“痴倒”应是同义连文，“倒”即佛经中常见的“倒见”的“倒”，意思是“颠倒的，错误的，不正确的，愚蠢的”，这是佛经中的一个新义②，“痴”能跟它组合，说明是当时的口语词。下面是《百喻经》中的一个典型例子：

其中“愚”的组合只有“愚人”和“愚痴”，凡是要用单字表达愚笨义的地方都用“痴”，这说明在口语中，作为一个可以独立运用的词，“痴”实际上已经取代了“愚”。可见只看统计数据和对统计数据进行分析有时会导出完全不同的结论。

统计方法也有运用得好的，但比较少见。例如李战（1997）对《红楼梦》前80回中“便”和“就”的使用情况进行了统计，不仅把各回分开统计、对话体和叙事体分开统计，而且把不同人物的对话也分开来统计，结果就有了有意思的发现。先看两个统计表：

表2显示，“便”和“就”在叙事部分和对话部分的出现数量正好相反，对话中“就”的数量是“便”的约六倍，而叙事部分则“便”是“就”的近十倍；如果只看全书的出现总数，则“便”比“就”多出一千多例，这显然不能反映口语的真相，口语的实际情况理应主要看对话部分。表3对不同人物的对话分别进行了统计，更有意思（原文统计了20个人物的数据，这里仅选取其中8位）：上层人物贾政的对话中，“便”和“就”之比高达67%；而不识字的底层人物李嬷嬷和赵嬷嬷说话时都只用“就”，根本不说“便”，这才是当时老百姓日常口语的真实反映！据此我们可以作出推断，在当时的实际口语中，“就”对“便”的替换已经基本完成。其余人物对话中这两个词的使用情况也值得细细玩味，从中可以看出作者用词的匠心。

更细致的分析是把听话人也分开来统计，比如平田昌司（2008）就通过两个统计表把说话者和听话者分性别进行统计，结果发现，“‘不曾VP’和‘没VP’的选择，跟小说人物的男女性别有很明显的关系”，又通过其他角度的分析，得出结论：“‘不曾’偏于‘外言’，‘没’偏于‘内言’。”这样细致入微的分析给我们以很大的启发。

可见运用统计方法需要注意：一是所选的语料应该尽量具有同质性和可比性（包括篇幅大小的对等性）；二是在选取的语料文白混杂、性质不一的情况下，对统计数据要做分析，切不可把复杂的语料“一锅煮”，简单化地列出一个统计数据就匆匆得出结论。太田辰夫（2003：374）说过：“处理中国古代文献是极为困难的。”这是经验之谈。

4.重视典型语料

所谓“典型语料”，就是能够真实反映口语面貌的语言材料，包括成篇的文本和“剥离”出来的口语性语例。

我们认为，在反映口语真相方面，典型语料的价值有时远远大于一堆未作分析的统计数据③。“一些高度口语化的语料可以作为我们推定替换过程完成与否的有效依据……这种作品是最能说明问题的宝贵材料。”（汪维辉，2000a：405）

仅仅根据少数几种（有时甚至就一种）典型语料就得出结论，这样的方法是否太大胆太武断？请允许我们打个比方：在长白山上看天池，绝大多数情况下都是云雾迷茫，看不真切的；只有偶尔云消雾散，才能一睹真容。能看到真容的时间往往非常短暂，甚至就是瞬间，但是我们相信，这才是天池的真面目，而大多数情况下人们所看到的仅仅是它的假象。由于历史语料的复杂性，我们常常只能通过典型语料一窥古代口语的“真容”，就像看到真正的天池一样。

由此我们提出，汉语史研究中是否可以确立这样两条原则：

1）以典型赅非典型。即：在典型语料能够证明某一事实的情况下，其他非典型语料所提供的反面证据一般可以不予采信。

2）以前期赅后期。即：某一事实在前期已经得到证明，则后期的反面证据可以不予采信，因为按照一般逻辑，某一种语言现象只会按着既定的方向向前发展，除非有特殊的原因，不会逆转。

这两条原则主要是针对汉语词汇史和语法史研究而言的，不过我们相信其基本原理同样适用于语音史的研究。需要指出的是，这两条原则只适用于同一个语言（或方言）系统的共时状态及其连续性演变，而不能用来解释不同方言之间的共时差异或不同语言（或方言）系统各自独立发展的历时演变，这是不言而喻的⑥。

三、语料使用举例：关于系词“是”何时发展成熟的讨论

下面我们以如何判断系词“是”是否已经发展成熟为例，对上文所论及的与语料使用相关的各种问题作一总的说明。

董守志（2011）主要从“不是”对“非”的替换来讨论系词“是”的成熟问题，这比以前仅仅依据“不是”的出现（如汪维辉，1998）或“不是”取代了“非是”（如唐钰明，1992）就判定系词“是”已经发展成熟要更加全面、深入，把研究推进了一步。

董文的结论是：“系词‘是’的成熟时代应该是在元末明初。”我们姑且相信这一结论（关于这一点下面再讨论）。他赖以得出结论的唯一依据是：《老乞大》《朴通事》中表示否定判断100%都用“不是”，没有“非”“非是”“未是”。

应该说《老乞大》《朴通事》是典型语料，它们反映了真实口语，董文的依据是站得住脚的。那么《水浒传》等同时期语料所提供的反证就不足以推翻这个结论，比如《水浒传》（100回本）中“不是”200见，“非”134见（其中有些并非“不是”义，应予排除，下同），“非是”32见，“非”和“非是”还占有相当大的比例。这就是“以典型赅非典型”。

同样的，之后的《红楼梦》中这组词的数据也不足以动摇这个结论：“不是”158见，“非”178见。这就是“以前期赅后期”。

之所以不采信《水浒传》《红楼梦》这些反证，道理很简单，因为我们相信《老乞大》《朴通事》所反映的才是真实的口语状况，就像偶获一睹的天池真容。

事实也确实如此，试以《红楼梦》第一回为例。该回中“不是”只有1例：“那道人道：‘趁此何不你我也去下世度脱几个，岂一场功德？’’而用作否定判断的“非”却有11个（例略）。如果只看出现次数，我们一定会认为，在《红楼梦》时代，否定系词“不是”非但没有成熟，甚至还可能仅仅处于发展的初级阶段呢！可是董文根据《老乞大》《朴通事》的材料得出的结论明明是“系词‘是’的成熟时代应该是在元末明初”，难道过了将近四百年又倒退回去了？这显然是不可能的。其实稍作分析即可明了，这些“非”并不反映真正的口语，尽管半数以上的例子出现在对话中⑦。即使到了现代汉语，表否定判断的“非”仍可单用，《现代汉语词典》（第5版）“非”字条说：“④不是：答～所问|此情此景～笔墨所能形容。”标注了词性，说明《现代汉语词典》认为这个“非”是个可以独立运用的词，所举例子也可以证明这一点。我们能否据此就说直到现代汉语“不是”还没有完全代替“非”、系词“是”还没有完全发展成熟呢？显然不能，因为我们知道这样的“非”在实际运用中是高度受限的，一般情况下，现代汉语口语要表达否定判断都得用“不是”。

现在回到董文的结论。对于这个结论，可能很多同行都会觉得难以认同，因为这跟之前的唐代说（唐钰明，1992等）和东汉说（汪维辉，1998）时间差得太远，也不符合汉语史研究者的一般语感。

我们认为董文在语料的选择上存在缺陷，又未对所选语料作具体分析，只相信统计数据，因此导致结论存在偏颇。通过对唐代一些典型语料的考察，我们认为至晚到中唐时期“不是”已经在口语中基本取代了“非”，系词“是”已经发展成熟。下面试作论证。

进入唐代，否定判断句有两个重要的变化。

一是在一些口语性语料中，“不是”超过了“非是”成为“F是”⑧的主流形式。这一点比较容易判定，只要看一看下表的统计数据即可明白。

二是“不是”对“非”的替换至晚在中唐以后的口语中已经基本完成，而不是如董文所说的晚至“元末明初”。要确认这一点难度较大，光看统计数据不能说明问题，必须借助进一步的语料分析。

从上表可以看出，王梵志诗中“F是”已略多于“非”，“不是”和“非”的数字也已十分接近，到了敦煌变文和《祖堂集》中，无论是“F是”还是“不是”，都已经超过了“非”，成为否定判断词的主流形式，特别是在敦煌变文中，“不是”已经达到“非”的近1.4倍。数量对比只是一个方面，更重要的是要看它们的具体使用情况。下面我们重点分析一下王梵志诗、《游仙窟》、敦煌本《六祖坛经》和《入唐求法巡礼行记》这四种典型语料中“非”和“F是”的使用情况。

1.王梵志诗（14）

王梵志诗可以说是唐代最口语化的语料，其中“非”共32见，但用于否定判断句、相当于“不是”的实际上只有5例（15）：佐史非台补，任官州县上。|观影元非有，观身亦是空。|触目即安心，若个非珍宝。|天堂在目前，地狱非虚说。|纵起六十二，非由无最殿。

由于体裁的限制，用“非”还是用“F是”，显然是取决于诗句对字数的要求；不过从用例对比中不难看出，“F是”尤其是“不是”应该是更口语化的表达，4例“不是”都出现在几乎是纯白话的语境中，而“非”除“若个非珍宝”外，出现的语境口语性都没有“不是”强，有一例“非”与“是”对举，不能改为“F是”。如果跟同是唐代白话诗僧作品但口语程度低得多的寒山诗相对比，王梵志诗在反映唐代口语方面的独特价值就更值得我们重视：寒山诗中，“不是”“非是”均仅1见，而“非”有15例。

2.游仙窟

《游仙窟》是张文成（约660-740）以自叙体方式、采用骈散相间的形式创作的爱情小说，创作年代大概是680-683年之间（16）。其中“不是”有5例：仆又为诗曰：“……鬓欺蝉鬓非成鬓，眉笑蛾眉眉。”|五嫂笑曰：“娘子故夸，张郎复能应答。”|五嫂答曰：“奉命不敢，则从娘子。赋古诗云，断章取意，唯须得情；若不惬当，罪有科罚。”|下官笑曰：“百兽率舞，乃是凤凰来仪。”（17）|五嫂即报诗曰：“李树子，元来偏。巧知娘子意，掷果到渠边。”都出现在对话（包括赋诗）中，其中“不是赋古诗云”一例没有字数限制，其余则都出现在需要双音节的场合。其实这些“不是”换成“并非”之类也并非不可以，但是作者没有那么做。如果我们考虑到《游仙窟》是文人的游戏之作，那么“不是”如此多见已经是非同寻常了，那一定是诗人口语中“不是”已经用得习以为常了，他才会自然而然地流注于笔端。

《游仙窟》中“非”字共24见，用于否定判断句的有15个，无一例外都出现在需要单音节的场合，见下表。

不难看出，这些“非”都属于传统的文言用法，在具体文句中由于字数的限制无一可以改成“不是”。所以“非”的数量虽然是“不是”的三倍，但是这未必反映口语的真实面貌。《游仙窟》一共一万余字，系词“是”用了多达29次，由此反观5例“不是”，我们可以推测，在张文成时代的口语里“不是”也已经发展成熟了。

时代晚一百多年的白居易（772-846）诗，情形与此类似。白诗中用于否定判断的“非”约有173个，“不是”有36例，“未是”4例，“非是”2例。从数量上看，“非”（173）是“F是”（42）的四倍多，但是我们只要稍作对比，就不难发现“非”和“不是”是不同性质的东西，比如：诚君子心，恐草木情。（《和答诗十首·答桐花》）|好映墙花，本当轩树。（《有木诗八首》）|寂寞曹司热地，萧条风雪寒天。（《初授赞善大夫早朝寄李二十助教》）|草萤有耀终火，荷露虽团岂珠。（《放言五首》）以上都是“是”“非”相对，单音节对单音节。又如：自省于其间，忧有疾。（《首夏病间》）此例是“非×即×”的固定格式。|掩抑复凄清，琴筝。（《和令狐仆射小饮听阮咸》）前用“非”后用“不是”，为的是避复。|乃知天子别有镜，扬州百炼铜。（《百炼镜——辨皇王鉴也》）|丈人阿母勿悲啼，此女凡夫妻。恐是天仙谪人世，只合人间十三岁。（《简简吟》）|愁醉酒，悲吟歌。（《晚春登大云寺南楼赠常禅师》）|尘埃便风雨，疾病即悲忧。（《勉闲游》）“不是”配“便”，都是口语；“若非”配“即”，都是文言。|眼尘心垢见皆尽，秋池道场。（《秋池》）|藤花无次第，万朵一时开。周从事，何人唤我来。（《陈家紫藤花下赠周判官》）此诗相当口语化，不过用“不是”也是平仄的需要。

白诗以通俗易懂著称，他的诗中“不是”用得如此频繁，也是其语言贴近口语的反映。

3.敦煌本六祖坛经

两相比较也不难看出，“不是”的自由度和口语性更高，它可以单独回答问题，也可以用来提问，后面可以省略宾语，前面可以受新兴的表疑问或推测语气的副词“可”修饰，而这些用法“非”都没有，“非”的组合基本上都是习见于佛教典籍的一些固有搭配。

4.入唐求法巡礼行记

“非”都跟后面的成分构成四字句，而且有2例分别出于圆仁的状文和皇帝的敕文，通篇都用文言写成，那是不可能换成口语说法“不是”的，另有1例是村老王良跟圆仁笔谈时所写的话，这种场合用更简洁、更书面化的“非”而不用口语化的“不是”也很正常。2例“不是”则都出自下层人物之口，而且没有字数的限制；“未是”的确切含义是“还不是”（20），应该也是口语说法，不能换成“不是”。值得注意的是，“不是”‘未是”的三条用例都出现在卷四会昌四年和五年（844-845）的日记中，也就是在圆仁来到中国的第七年之后，这应该是他在巡礼途中习得的口语词；而“非”则是他在日本跟着哥哥学习汉文时早就习得的书面语词。

以上的分析表明，至晚在8世纪以前（《游仙窟》和敦煌本《六祖坛经》的时代），口语中否定判断句实际上已经是以说“不是”为主了，“非”虽然还有比较高的见次率，但主要保留在书面语中，正如何亚南（2004）所说：“事实上‘不是’最终完成对‘非’的替代是一个缓慢的过程，这在书面语里表现得尤为明显。”

到了晚唐五代的敦煌变文和《祖堂集》，“不是”的数量都已超过“非”，其中的“非”字也是同样的性质，由于数据过大，根据“以前期赅后期”的原则，就不再对它们作详细分析了，只举两个典型例子：他儿婿还说道里（理），道个甚言语也：“娘子今日何置言，贫富多生恶业牵。交（教）娘子独如此，下情终日也饥寒。”（《敦煌变文校注·解座文二首》）|师问：“马师说何法示人？”对曰：“即心即佛。”师曰：“是什摩语话！”又问：“更有什摩言说？”对曰：“心佛，亦曰心，佛，物。”（《祖堂集·慧忠国师》）

敦煌变文例本来是七言韵句，若用“非”刚好字数相应，但此处却用了“不是”，以致字数不等，可见在当时人的口语里“不是”已经成了惯用语。《祖堂集》例“非心非佛”是前代传下来的惯用语，“不是心，不是佛，不是物”则是用当时口语对它做的解释。

需要指出的是，上面所分析的这些语料都还不是纯口语资料（口语成分的多寡又各有差异），而且有一半以上属于有字数限制的文体（诗歌、骈文或四字句等），这样的语料跟实际口语肯定会有差距，这是不难想见的。“汉语的文言词汇系统有着极大的保守性，即使新词实际上已经取代了旧词，旧词往往也不会轻易退出词汇系统，而是采取‘和平共处’的方式跟新词长期并存。这是书面语词汇系统的一个特点，一般来说，在口语中这种情况是不大可能存在的。”（汪维辉，2000a：407）如果把这个因素考虑进去，那么我们说中唐以后口语的否定判断句已经是以用“不是”为常，应该离事实不会太远。也就是说，从“不是”替代“非”这一角度来看，至迟到中唐时期，系词“是”也已经发展成熟了。这比“不是”取代“非是”稍晚一点。

可见在研究某一问题时，要尽可能多地挖掘和利用口语性资料，并把口语成分和文言成分“剥离”开来，这样才能最大程度地逼近事实真相。上面分析的四种典型语料，董文除王梵志诗转引了唐钰明（1992）的统计数据（与寒山子诗合在一起）外，均未采用，这是我们的结论与董文大相径庭的主要原因。

如上所述，我们通过对唐代一些典型语料的考察，证明了至晚在中唐时期“不是”已经在口语中基本取代了“非”，系词“是”已经发展成熟，那么其他同时期语料所提供的所谓“反证”就都不足以否定这个结论。这就是“以典型赅非典型”。

既然我们已经证明在中唐以前事实已是如此，那么之后的情况就无需再证明，因为“不是”对“非”的取代是一个渐进的过程，不可能前期已经完成了取代，到后期又退回去了。这就是“以前期赅非后期”。

还有一点需要指出的是，判断某一语言现象新旧更替是否已经完成，标准不能定得过死，要求不能过高、过纯，比如董文认为只有像《老乞大》《朴通事》那样否定判断100%都用“不是”才能证明系词“是”的成熟，其实这是不切实际也没有必要的。语言现象是极其复杂的，共时系统是历时演变的结果，旧质要素被新质要素替换后，一般不会全然销声匿迹，而是可能会由于各种语用因素的影响而不时地在这里那里露一下脸，因为语言库藏（linguistic inventory）（21）是极其丰富的，语言的运用具有很大的灵活性和弹性，且不说“口语”和“书面语”本来就很难截然区分，即使是地道的日常口语，也不能要求它完全排斥旧成分。所以判断新旧成分是否已经完成替换，一是要看大势和主流，二是要对语料作具体分析，而不能要求百分之百无例外，否则一碰到少数“不听话”的语料我们将一筹莫展。

语料如何选择、如何分析，如何避免“假例”，典型语料和统计数据的关系如何处理，判断标准如何设定和掌握，这些都是汉语史研究中最基本的一些原则性问题。在当前的研究实践中，由于对这些基本问题认识不清从而导致研究方法不科学、结论不可靠的现象还相当普遍地存在，这是值得我们认真反思的。冯友兰先生说：“研究历史必须从收集史料开始，继之以审查史料，分析史料，然后把所得结论写出来。”（22）这话对汉语史研究同样具有指导意义。

本文最初曾在同人学术沙龙上（2012.4.6）讨论，修改时吸收了大家的意见；友生真大成博士从京都大学发来很好的意见和材料。文章初稿在第八届中古汉语国际学术研讨会（2012.4.湖南师范大学）上报告过，修改后曾先后在南京大学、南开大学、安徽大学、华中师范大学、厦门大学及浙江省语言学会第十六届学术年会（2012.12.杭州）上做过演讲，得到多位师友的鼓励和指教，特别是鲁国尧先生提供了具体意见和冯友兰先生的有关论述。《中国语文》编辑部匿名审稿专家提出了很中肯的修改意见。谨此一并致谢。文中错误概由作者负责。

①本文主要讨论汉语词汇史和语法史研究中的语料使用问题，暂不涉及语音史。

②参看汪维辉（2011）“痴-愚”条。

③汪维辉（2000a：404）曾经以“入/进”为例说明过这个道理，可以参看。

④“典型语例”一词系真大成博士所创用。

⑤匿名审稿人指出：“孤证很难排除是作者母语方言的特殊影响，造成其他方言区作者很少使用。文中以《僮约》‘目泪’为例说明即使同时代的孤证也足够有力。假如同时代其他文献几乎看不到此词，不能完全排除其为方言词的可能。即使后代此词用得广泛，也不排除当时尚是方言词，以后逐步扩散的可能。”从广义上说，这种可能性是存在的，不过“目泪”的情况我们以为可能还是这里所分析的可能性更大。感谢匿名审稿人的提醒。

⑥匿名审稿人指出：“原则一‘以典型赅非典型’理论上可以成立，但是文中认为典型材料有时即使只有一条孤证也足够有力，可以排除非典型的大量语料，这或许有风险。除了版本等方面原因带来的孤证的风险，还应该考虑到汉语分布区域辽阔，地域差异自古就有。……对汉语来说，绝对纯的单一系统的语料很难找，尤其是本文作为重点的口语体材料，很多口语化语料都带有作者的地域方言要素，这使得原则一的采用不能太过强大、毫不受限。”这一提醒完全正确，可以纠正原稿的偏颇，笔者深表感谢。

⑦对话并不都是口语。太田辰夫先生（1991：189-190）指出：“清代作品中，试着翻一翻《红楼梦》就可以知道，那里面女性和小孩和奴仆人等使用地道的俗语，与此相反，北静王和贾政及其他贵族士大夫们在正式场合所作的对话非常接近文言。”

⑧“F是”是“否定副词+是”的总称，包括“非是、未是、不是”。

⑨我们的统计数据与董文（26页表八）略有出入。

⑩有5例重复出现于“不是寻常等闲事，必作菩提大法王（或‘必作无上大法王’）”中。

（11）括号内是“F是”中“不是”的出现次数。

（12）另有1例引《维摩诘经》“此非我宜”（《维摩诘经讲经文（五）》），1例引《撰集百缘经》“非是帝释，亦非梵天鬼神大将”（《频婆娑罗王后宫彩女功德意供养塔生天因缘变》）。

（13）另有10例，或引用前代佛典，如《因果经》、《普曜经》等；或引用古书注解，如《山海经》郭璞注；或引用古语；等等。

（14）传统认为王梵志诗是唐初白话诗僧王梵志的作品，但是项楚先生认为：“我经过潜心玩索，深信这三百多首‘王梵志诗’，决不是一人所作，也不是一时所作，而是在数百年间，由许多无名白话诗人陆续写就的。”（《王梵志诗校注·前言》，第4页，上海古籍出版社1991年）

（15）排除了“非关”“除非”“自非”“非但”等固定结构和相当于“不”“错误”等意思的“非”。下面对“非”的处理均同此，不再一一说明。

（16）参看李时人、詹绪左《张文成生平事迹及〈游仙窟〉创作时间考》，原载《中国古代小说研究》第二辑，人民文学出版社2006年，后作为“附录”收入所著《游仙窟校注》，中华书局2010年，448-449页。

（17）按，此句有异文，《游仙窟校注》（第315页）云：“不”，真福寺钞本作“非”。……“乃凤凰来仪也”，诸钞本、校本、注本“乃”字下有“是”字，“仪”字下无“也”字。

（18）据杨曾文研究，敦煌本和敦煌县博物馆本《坛经》都应源于一个“敦煌原本”，敦煌原本“当成书于开元二十一年（733）至贞元十七年（801）智炬（或作慧炬）撰《宝林传》之前”。参看杨曾文（2001：293—294）《〈坛经〉敦博本的学术价值和关于〈坛经〉诸本演变、禅法思想的探讨》。

（19）“非圣之言”也可以理解为“非议圣人之言”，不过从上下文看，可能理解成“不是圣人之言”更确切。

（20）柳士镇（1992：297）说：“‘未是’与‘不是’略有不同。‘未是’含有时间意义，表示目前尚不是，所处条件变化之后则可能是，……‘不是’则表示一般性的否定。”柳说甚确。

（21）参看刘丹青《语言库藏类型学构想》，《当代语言学》2011年第4期，中国人民大学书报资料中心复印报刊资料《语言文字学》2012年第2期全文转载。

（22）《中国哲学史新编》绪论，《三松堂全集》第八卷第13页，河南人民出版社2000年。

标签：语言史论文; 红楼梦论文; 游仙窟论文; 朴通事论文; 老乞大论文; 大正藏论文;

语料库在中国历史研究中的运用_语言史论文

猜你喜欢