通用语料库#183的词汇提取与词汇组成分析_自然语言处理论文

国家语委“通用语料库#183;核心库”的词表提取及词汇构成分析，本文主要内容关键词为：国家语委论文,语料库论文,词表论文,词汇论文,核心论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、从真实语料中提取词表的意义与价值

说到词表，人们就会想到词典的词目，其实，词典的词目与来自语言生活中的词表是很不一样的。词典的词目重在继承，多来源于前面一代代的辞书，更重要的是它看重的是“考释性”，愈是人们不懂，需要查考的，愈是它的收录对象，而于“见字明义”的词则是不屑一顾的。因此，从词典的词目来看一个时代的词汇面貌也就打上了许多的折扣。

人们开始重视从真实语言材料中来提取词表，而对断代词汇整体面貌的了解则是人们孜孜以求的目标。人们作过许多尝试，从专书研究时代起，就有过通过选取代表作品、代表作家来窥探断代语言面貌的做法。到了计算机语料库时代，从众多的作品、海量的语料中来概括断代语言面貌则成为一种普遍的做法。从百万字级容量的语料库，直至千万级、亿级，甚至若干G级的都出现了，仅《人民日报》从创刊起至当下，容量就逾十亿字。这时新的问题又出来了，人们发现语料库并不是愈大愈好，超大语料库所反映的语言规律往往与规模适中的语料库是相当的，何况有时在超大语料库中有价值的东西还会被稀释。这样，规模适中、能综合反映断代语言整体面貌的语料库也就成为人们首要的追求目标。在汉语界，国家语委主持研制的“通用语料库”与台湾中研院研制的“平衡语料库”，就是这方面的两个最有代表性的成果，“通用”与“平衡”，所反映的意思一样，就是这个语料库所纳入的语言材料是考虑到了语言状况的方方面面，具有全面反映断代语言面貌的功能。

“通用语料库”在研制前言中明确指出：它的目的是“选材要有足够的时间跨度，语料应抽样合理、分布均匀、比例适当，科学地反映现代汉语全貌”。“选材工作自1992年底开始，按照通用性、描述性、实用性等原则系统地抽样选择了1919～1992年的现代汉语语言材料7000万字，由人文与社会科学、自然科学及综合三个大类约40个小类组成。”

“通用语料库”在建库的同时，还研制了一个核心语料库：“为加快建库工作，使现代汉语语料库尽快发挥社会效益，首先建立了核心语料库，以适应词典编纂、办公自动化、中文信息处理等近期需要。核心语料库的字数为2000万字，由7000万语料中筛选出来。由于《选材原则》是经几次专家论证确定的，核心语料库的语料筛选工作，在语料分科、年限划分、比例、字数等方面基本上仍依照《选材原则》进行，只是结合核心语料库的用途特点，在语料筛选上突出1977年以后的新语料，注意选用内容通俗、通用性强的普及性语料，因而不同年限和门类的语料比例和字数均有小的调整。”[1]

由上可知，核心语料库的性质、功用与通用语料库基本保持着一致。通过它来观察现代汉语面貌是符合研制者目的的。在目前的情况下，要了解现代汉语词汇面貌，由核心库入手来描写、提取、概括，是一个稳妥的做法，要明显优于专书语料库、专类语料库或词典的词目库。本文就是尝试从核心语料库中提取词表时的所遇所思，所议所论。

二、从真实语料中提取词表的困难与思考

语言库语言学的思想正在日益影响着语言研究者的认识和行为。语言研究愈来愈离不开语料库的开发、建设与利用。大规模语料库的建立与开发利用正成为我国语言研究者日益认同的一项必做的基础工作，但里面存在着许多理论和实践的问题需要我们去解决。尽管人们已经认识到将对真实语料的分词单位进行总集的词表，词表与词汇全貌之间，有着某种直接的类推逻辑关系，但毕竟从大规模语料提取词表，与借用词典的词目表有着很不相同的意义，做法也完全不同。它所做的是从最原始的“矿料”中提取成品，中间要经历的复杂与繁难并不是“水到渠成”。从真实语料到最终词表的形成，中间要经历三个阶段，所展现出来的词语无论在性质，还是在构成上，都有着很大的不同。

第一个阶段：语言的真实存在状态，它蕴含着词与语，词与语的具体灵活的运用形式，其状态是语言词与言语词的共存混存。

第二个阶段：将汉民族在语言运用时下意识中能清楚运用的词要一一外化地、明晰地切分开来。由于语料的庞大，这项工作不得不由分词标注软件来完成。即使是人，要将潜藏的词外显出来都不易，所以才有了在语言研究者中普遍存在的典型词好分，非典型词难分，例子好办，穷尽难成的局面，何况是软件，能否将人赋予的那些知识正确运用，都是一大难题。

第三个阶段：对软件的分词标注结果进行人工干预。现有的机器分词正确率在最优的状态下已经能达到百分之九十几，但这要得到最合适语料的配合。在广泛采集、多种多样的语料面前，其正确率能否继续保持这个数率是值得怀疑的。至于要将静态的、核心的、要素性的语言词与动态的、变化组合性的言语词区分开来，这在理论上似乎较为清楚，而要在实践上，“全面落实到词”，其难度是不言而喻的。“核心库”在投入使用前经过多次人工校对，但由于校对精度、校对标准等，仍在不同程度上存在讹误，多少仍会影响着分词结果，影响着统计数据。

因此，在利用核心语料库的材料来提取词表时，仍会碰到许多问题，既有理论上的，也有操作层面的，既有对语料的思考，也有对统计结果的甄别。下面是对若干问题的思考。

（一）分词正确率及其影响

要对真实语料进行加工分词与标注，要进行词语提取工作，首先遇到的问题就是“词”的切分与标注是否准确，它的加工精度是如何影响到词汇的数量与分布，分词错误的普遍性与可接受程度如何。

我们先来看一个例子：

用压电材料做小平面镜阵来代替一块反射镜，每块小平面镜可以自动调节，或者把主镜设计得可以快速改变其局部的形状，以在最后的焦平面上获得消除大气湍动和光学像差影响的天体像。（ID8092/JN10000402／《实测天体物理学》（注：ID8092/JN10000402／《实测天体物理学》分别表示核心语料库中的编号、分类号、语料来源的书名。））

用／v压／v电／n材料／n做小／v平面／n镜／n阵／n来／vd代替／v一块／d反射镜／n，／w每／r块／q小／a平面／n镜／n可以／vu自动／a调节／v，／w或者／c把／p主／n镜／n设计／v得／u可以／vu快速／s改变／V其／r局部／n的／u形状／n，／w以／p在／p最后／n的／u焦／a平面／n上／nd获得／v消除／V大气／n湍／V动／V和／c光学／n像／n差／a影响／v的／u天体／n像／n。/w

在上面的分词中，共分出53个分词单位，从词语数量而不是从词种数量来看，大部分是正确的。但有错误的也不少：

A.可分可合，分了损失大。如“压电”、“镜阵”、“焦平面”、“像差”、“天体像”这些都被分开了。它们组合起来是专业词，反映了专业词语的面貌，分开了则只剩下“通用的”“语言层面的”东西，却没有了专业词语。

B.不该分的分了。如“湍动”被分开，则是将应该是词的“消灭”掉了。

C.不该合的合了。“做小”因结构误切而新产生出来。它在原文中可以轻松地被发现是误切，可一旦列入词表却不会被发现，因为语言生活中是有“做小”这样一个词的，意思是“低声下气”“做小老婆”。在核心库的词表中“做小”有两例，都是误分的结果。

这三种情况都会影响词汇统计的正确性。A反映不出词汇特点，B减少了词语的种数，C造成错误的词频数据。而把这些讹误类型以更直观的形式反映出来，就会造成下面这些词汇现象的出现：

行业词的消失：如“白－磷”、“滤－纸”、“X－光－室”、“卫－线”、“信－徒”、“互济－会”、“行为－科学”。

专名的消失：“一顶‘文艺－黑线－专政－论’的帽子”、“总结出‘傻－论’者的观点”、“还给它起了一个吓人的名字‘狼－桃’”。

言语词的消失：“千万不要认为我这县长能一－掌－遮－天”、“现在不是提倡访－富－问－甜吗”、“这一席话，言－简－情深”、“先定一个框框，拿框子去套，接着就是抓辫子，挖根子，戴帽子，打棍子，那就不好了嘛。一来就是五－子－登科、目－不－旁－视”。

新词语的消失：“剧－画就是我国的连环画”。

已有词的消失：“湍－动”、“其燃料多用枣－木炭”。

（二）加工精度的可容性

既然有了分词错误，那就会出现对差错率的评价，及对容错度的估计。下面看看“国人”的分词情况。从核心库提取的词频共有71例，经检验共有16例为错。如：

1.过去／nt几／m年中／nt两／m国人／n民间／n频繁／s的／u交往／v。/w

2.船／n上／nd有／v英国人／n，／w也／d有／v经营／v商业／n的／u别／r国人／n，／w你／r可／vu去／V问／V他们／r/w。/w

3.这／r虽／c不是／vl人人／n办／v得到／v，／w但／c那／r一／m国／n文字／n最好／a请／V那／r一／m国人／n来／vd做／v教师／n，／w却是／vl比较／d适宜／s的／u办法／n。

4.大致／d有／v二／m种／v情况／n：／w一／m是／vl法律／n对／a我国／n公民／n的／u适用／v范围／n；／w二／m是／vl法律／n对外／d国人／n的／u适用／v范围／n。

其正误比为55/16，正确率为55/71，即78%。

但如果不分词，只按未分词前的字符串来查询，则查询出3144例，正确率只有1.75%。可见，经分词软件加工过，经人工干预的核心库的可信任度还是相当高的。当然作为一个国家级语料库，现有的误差率还是高了些，精度应该得到进一步加强，里面还存在相当大的空间。像“在鸣－沙－山上－看完－大漠－落日－的－人群－结队－滚－将－上来”中的“鸣沙山”，“文化大革命－的－后遗症，二－十年－不治”中的“二十”与“年”，“黄－老－曾－到－戏园子－来看－戏”中的“看戏”这样的情况都应得到纠正。

在对大规模的真实文本的处理中，错讹现象远不止于仅是分词与标注的问题，其原因和类型是相当复杂多样的。如书写符号的正确与否（如“板登”、“爱僧”、“反节命”、“干于净净”、“蜜挑”、“模梭两可”、“青蒇高原”），词素的随意变更（如“美奂美轮”、“孤儿寡妇”），空格的有无（“不同a：”、“按p”、“高锰酸n钾”、“版？子”）等都会出现。“核心库”的分词单位是18.76万，到汉字词的16.38万，再到151515，里面在排除掉字母串、符号串、数字串的同时，也排除了不少的错讹词例。在151515词中再分出的“存疑类”3621条，其中相当部分属于此。但讹误存在于大规模的语料库中一是难免，二是影响有限。“存疑类”词条在词总数中所占比例只有2%～3%，而词频13910次，只占总词频10586971的0.131%，基本上是可以忽略不计的。

（三）机器分词的强制性

在机器分词中，频率是一个重要参考因素，只要经常结合在一起，只要表现出相当的凝固度，就会将它们作为一个分词单位来处理，这时分与合对意义和理解都不会带来什么大的改变。如“围成”、“仅限于”、“本市”、“遥指”、“中日”、“攻下”、“单靠”、“这么回事”、“（他）换好（了入殓的衣服）”、“（一些－硫酸－）溅到（－了－腿上）”。又如“德国－队、芬兰－队、日本－队、香港队”，前三个队是分，第四个“香港队”合；“（已－不是－专注－于－）劲歌－劲－曲”，“劲歌”合，“劲曲”分。在词汇统计中，这样的问题都应该得到一致的处理。它不在于对与错，而在于标准把握的松紧度。恰恰是一点，也是人工干预的难点。

（四）机器分词的局限性

机器分词是大规模处理语料的必需手段，不经此则难以实现对汉语词汇的大规模统计。而又正是这一点深深地影响着词汇统计的结果。它远不像英语那样，词与词之间有着清楚的间隔，不存在分词的摇移不定。目前对汉语的分词基本作法是“词典主义”，它依据着后台的一个词典，词典中有的词予以保留，没有的词被切割。能通过一定的算法而对非词典中的词予以保留、提取的则算是上乘。像《中国语言生活状况报告(2005)》[2]所使用的软件具有对命名实体较好的提取功能，保留下了大量的专名，成为该软件的一大特色。在目前的情况下，提高机器分词的多样性，满足不同层次的分词要求，提高机器分词的正确性，以准确反映真实语言状况中的词汇面貌，应该是有着相当紧迫性要求的。机器分词应当尽量保留“真实语料”的本来面貌。满足面向人的研究需求，否则它将对以探讨“语言真实面貌”为目的的研究带来很大的副作用。其标准是分出来的词语单位应符合“意义完整”、“独立运用”、“结构紧密”的要求。

三、“通用语料库·核心库”的词汇面貌

“核心库”共有不包括标点符号、数字、字母、不分词性的汉字词15515条。这个语料库的规模可与其他几个库作一对比：“通用语料库”已经加工了4500万字语料；台湾中研院“平衡语料库”700万字（注：以上数据分别来源于教育部语文文字应用研究所、http://elearning.ling.sinica.edu.tw/cwordfreq.html。）；《中国语言生活状况报告(2005)》语料9亿字，它们的词语提取情况是这样的：

语料库名称语料总切分分词性

不分词性

规模

单位纯汉字词数纯汉字词数

通用语料库·核心库2000 18.7616.38

15.1515

通用语料库（部分）4500

24.821.7

平衡语料库 700 16.5515 13.2

2005年度词汇调查 90000 166 161.5

这里的“词数”其实是机器的分词单位，里面包括的切分单位与传统语言学中的“词”有所不同，因此，还需要人工进行逐步深入的干预、筛选。“总切分单位”除了汉字词外，还包括标点符号、数字串、字母及字母串。在“纯汉字词”的统计中则是把它们排除在外的。分词性则区分出了词的不同语法功能，其中也反映了词的不同意义。这些有区别的意义大多数是多义词，可作为一个词语来看待，少数是同形异义语。下面的统计将按照不分词性的来进行。

现在来看看“核心库”的整体词汇面貌。

（一）专用词语之构成

“核心库”的总汉字词151515条。首先来看看人名、地名、机构名、数字词这四类典型的专名的分布情况。人名有27557条，地名11306条，机构名5963条，数字词3240条，共48066条，占所有词语的31.7%。如图1所示。图中显示了这样一些有价值的信息：

图1 专用词语分布情况

1.四类专名占总词数的31%，与“语文性词语”的比约为1:2。

2.词的长度由短到长，为“语文性词语”、“人名”、“地名”、“数字词”、“机构名”。把这个特点与《中国语言生活状况报告(2005)》的词汇调查数据相比，两边的数据表现出了某些共同特点。如“词长”，最短的都是语文性词语，长度依次增长的都是“人名”、“地名”、“数字词”、“机构名”。但也有两个明显的不同，一是词长变短了（统计单位为字），如：

人名地名机构名数字词语文性词语

核心库 2.949 3.1986.085 4.394

2.394

2005年度2.298 3.3998.724 5.594

7.768

特别是第二点，即五种词语成分所占的比重不同，在“核心库”中四种专名所占的比重大幅下降。分析其原因，造成这两种现象的最大原因当与分词软件有关，因2005年度使用的软件具有较强的提取命名实体的功能，而专名的词长一般都比较长。大量专名没有被切碎而保留下来，其直接影响就是各类词语的数量增多并使得词的长度增加。另一个原因则与语料来源有关。“核心库”是平衡语料库，新闻语料只是其中的一部分，而“2005年度”调查的是单纯的新闻语料，新闻语料的特点是专名的大量存在，“新闻”所强调的“人”、“时”、“地”、“事”，每一个特点都与专名紧紧地连在一起。

3.词次则清楚反映出了词语的使用频率，语文性词语明显表现出了高频的特点，约为“人名”的14倍，“地名”的7倍，“机构名”的20倍，“数字词”的7倍。

（二）语文性词语之分析

现在来看看103449条语文性词语的构成情况。根据使用的范围将它们分成了“通用词”、“行业词”、“方言词”、“古语词”四类。具体见图2：

图2 语文性词语构成情况

图中显示了这样一些有价值的信息：

1.与通用词关系最密切的就是“行业词”，行业词可看作是领域词，使用于某个具体的行业领域。它是通用词语的主要来源之一，因此，它是如何衍变，如何由特定领域的词语演变为全社会的通用词，与通用词该作出怎样的区分，也就成为重要而解决起来又相当困难的事情。学术界曾有过不少这方面的论述，较近的一篇论文则是根据“核心库”的统计材料作了新的探讨，提出了频率高低、范围大小与意义转变的标准[3]。

2.与通用词还有关连的是“方言词”与“古词语”，前者重在地区上的差异，多用于某个地域，后者重在时代上的差异，保留着过去时代的特色。这两部分也是与通用词有着直接联系的，它们特色鲜明，数量上较少，区别起来较为容易，影响通用词的程度较小。

3.从词长来看，行业词最长，依次较短的是方言词、通用词、古词语。这是一个很有趣的现象。尽管词的长短相差不大，但这个变化趋势还是颇耐人寻味的。古词语较多地保留了古代词汇偏短的特点，行业词要长于通用词，也说明随着词语的高频通用，词语的长度会更加进一步地固化、紧凑，而显得更加短小精悍。

4.词次上的数据则更清楚地反映出了通用词的一个重要特点——高频性。作为通用性词汇，“英雄不问出身”，不管来源何处，只要具有了相当的频度，也就具有了成为通用词的最重要条件。当然，辅之以其他两个条件：一是稳定性，在较长的时间跨度内持续使用；二是普遍性，即有较广的分布面，则能更好地保证其通用性。使其高频而不具有片面性，即不因为某个时间段，或某个社会领域而出现片面的高频。对“通用词”我们还作过进一步的调查，即对79271条通用词从结构与正确性上作了进一步的分类，分出了“词素”、“短语”、“存疑”三类，将它们的词频分离开，就能发现真正具有独立使用价值的通用词高频性更为突出。请见下表：

通用词

词素短语误例

词数 64521265884713621

词次 146.624.531.33.8

作了这样的区分后，通用词的词频由上面的123.7上升为现在的146.6。

为了更好地显示通用词的词次分布特点，下面再来看看64521条通用词的词频分布情况：

词语数64521

平均词频146

中位词频数8

最低词频 1

最高词频 747475

总词频 9459689

64521条通用词的平均词次146,最低词次1，最高词次747475,位于64521条词语中间位置的词次是8。

下表显示的是不同词次的词语所占的比重（注：“1”表示词次为1，“-10”表示2至10之间；“-20”表示11至20之间，其余类推。）。

词次词语数占总词数的词次词语数占总词数的

比例／% 比例／%

1174618.20 -60 1274

1.97

-10 2427337.62 -70

976

1.51

-20 814512.62 -80

806

1.25

-30 4073 6.31 -90

686

1.06

-40 2661 4.12 -100 592

0.92

-50 1716 2.66 ＞1007573

11.74

词次为1的11746条，占总词数的18.2%，词次在2～10之间的有24273条，占总词数的 37.62%。其余类推，词次在10以上的只有44%，即28502条词。词次在100条以上的是7573条，只占总词语数的11.74%，而拿到未经以上层层剥离、层层剔除的总词表151515条中来计算，它占的比例更低，只有5%。

在作完上面的分析后，现在可以来提出这样一个关于现代汉语的断代词汇系统设想：它有两个层面，下面一层是语言词。语言词的核心是通用词，这是整个现代汉语词汇系统的基本部分，居于中心的位置。与其接壤并有着较强互渗力的是行业词、方言词、古词语，其中以行业词最为重要。这几种词构筑在中心部分通用词的四周，中心部分与四边部分不是一清二楚的，而是有着一个广阔、重合的地带。这一层面的词语是语言性质的，有着静态、稳定的特性，愈是靠中间的部分，这一性质愈是突出。

人名、地名、机构名、数字词则构成了言语词层面，它们漂浮在语言词层面之上。之所以说它们是漂浮的，就是因为稳定性不够，而且大部分活跃在特定环境，没有进入整个社会的通用范围。只有极少一部分词语具有较广的使用面和较高的频率，一旦具有了这两个特点，它们也就具有了沉淀下来的力量，也就开始渗进通用词，成为通用词的一部分了。

四、“通用语料库·核心库”的词汇特点

从“核心库”提取出来的词表源于真实语料，当然也就带上了“真实”语言的特点。所谓“真实”，就是语言词与言语词共存，规范词与不规范词共存，各种语体色彩词共存，词与词素、词与短语共存的未加整理的词汇面貌。“核心库”存在着这样一些突出的特点。

（一）书面语与口语之间存在明显差异

现在计算机处理的都是书面语，现在进行的几乎所有语言统计都是根据书面语词作出的，而书面语与口语是有着相当大距离的。许多口头上说的词在书面语上不那么说了，许多口头上说的句式在书面语上也不怎么用了，因此，根据书面语来得出的汉语面貌其实也就不是那么完全真实的。下面就以“儿化词”为例来看看。

“核心库”中“儿”处于词尾的有776条，属于“儿化词”的有540条。我们稍作整理，就会发现把540条“儿化词”的“儿尾”去掉，大部分仍见于“核心库”，为481条，如“味—味儿”、“一会－一会儿”、“老头－老头儿”、“背影－背影儿”、“被卷－被卷儿”。这就告诉我们，在词表里出现了两个意义一样的词，出现的原因一是有的书面语中显示了儿化词的“儿”字标记，有的没有显示；二是在切分中有的保持了儿化词的完整性，有的则把它切开了。应该说两种原因都有可能，前者更为主要。

那么，在“核心库”中带“儿”的与不带“儿”的词有多少呢？带“儿”的平均词次为13次，不带“儿”的则是1236次，相差近百倍。如果儿化词是重要而必不可少的话，这就说明书面语中普遍没有反映出来；如果儿化词是不必需的话，这又把儿化词在书面语的出现放在了不规范、不重要的地位。尽管带“儿”的仅是不带“儿”的百分之一，但在481条中竟也有一些其词频是超过不带“儿”字词：

带儿带儿词次不带儿不带儿词次

一会儿1028

一会593

自个儿 61

自个 25

那会儿 44

那会 18

没准儿 33

没准 4

红枣儿 18枣 15

呆会儿 11

呆会 2

对劲儿

对劲 2

曲根儿

曲根 2

枪子儿

枪子 2

水粉画儿 3 水粉画 1

刺梨儿

刺梨 1

高枝儿

高枝 1

这只是以儿化词为例，而在实词的选择上，在语句的选择上，在风格的选择上，其差异同样是普遍而值得高度重视的。

（二）异形词普遍存在

按部就班(9)——按步就班(2)（注：括号里的数字表示该词在“核心库”中出现的次数。）

琢磨(143)——啄磨(1)

稀里哗拉(2)——稀里花啦(2)

心惊胆战(4)——心惊胆颤(2)

一刀两断(7)——一刀两段(1)

一古脑(22)——一骨脑(1)

掉头(34)——调头(11)

刻画(121)——刻划(144)

席梦司(1)——席梦思(3)

将国家语委2001年公布的“首批异形词整理表”与“核心库”相对比，“整理表”中338组的正体词有 316例见于其中，异形词A见于其中的有155例（注：“异形词A”表示的是多个异形词中处于首位的词，“异形词B”即位于第二位的异形词。）。正体词与异形词A同时存在于“核心库”的有149例，可见真实语言中异形词是普遍存在着的，也可见“整理表”的制订有着现实需要的紧迫性，而且大部分数据是支持“首批异形词整理表”的。但“整理表”的正体词与异形词的判断有的也存在一定的疑问。在“核心库”中正体词低于异形词A的有26例，它们是：

总词次正体词异形词A

词语词次比率／%词语词次比率／%

343图像 9528 图象 248 72.3

265刻画 12146 刻划 144 54.3

278联结 13549 连结 143 51.4

78 就座 1519 就坐

63 80.8

57 纽扣 1832 钮扣

39 68.4

71 影像 3346 影象

38 53.5

29 扬琴

414 洋琴

25 86.2

37 折中 1232 折衷

25 67.6

指手画脚 518指手划脚 23 82.1

40 舢板 1845 舢舨

22 55

38 渔网 1745 鱼网

21 55.3

25 辈分

624 辈份

19 76

22 余晖

523 余辉

17 77.3

32 热衷 1547 热中

17 53.1

21 凝练

629 凝炼

15 71.4

19 寒碜

737 寒伧

12 63.2

14独角戏 321 独脚戏 11 78.6

20 毋庸

945 无庸

11 55

18 分内

739 份内

11 61.1

13玩意儿 323 玩艺儿 10 76.9

15 贤惠

533 贤慧

10 66.7

12 夹克

542 茄克7 58.3

9 低回

444 低徊5 55.6

7浑水摸鱼 229混水摸鱼 5 71.4

2 磐石

150 盘石1 50

2 疲沓

150 疲塌1 50

当然，有的异形词其实就是书写的白字，只是因其也有着一定的使用范围而成为异形词的。如：

遵从(51)——尊从(1)

酝酿(117)——蕴酿(1)

皱纹(118)——绉纹(3)

（三）语料库总词表与“断代词汇”之间的非等同性

“通用语料库”或“平衡语料库”，其目的都是希望能以此来达到整体宏观把握断代词汇的面貌。这是比较好的一种方法，也是在专书研究时代之后，又借助于计算机，加以海量语料进行加工处理之后的较好方法。可在调查之后，却发现千万级规模的语料库，亿级规模的语料库不可谓不大，但要做到整体反映，于文字于语法都较好办，因为它们总量少，复现率好，可词汇却是量大面广，统计起来总有缺漏不断、难以穷尽之憾。我们近几年在研制词表中做了一些工作，发现各种词表愈做下去，对此的感受愈是明显。现将前文列举过的3个材料和《现代汉语词典》与“现代汉语常用词表”进行比较（以万为单位）：

词表汉字词语文词共有词汇

通用语料库·核心库 15.0 10.3449⑥

通用语料库（部分） 21.7 21.7⑦

五种词表共有“核心库”与“核心库”与“核心库”与

2005年度词汇调查 165.0 11.8⑧

2.9233“通用库”共 “现汉”共有“常用词表”

《现代汉语词典》（3版） 6.1⑨

有10.3065 4.4259 共有5.2129

现代汉语常用词表（2007年）

5.8

注释：

⑥在总词种数中排除了“人名”、“地名”、“机构名”、“时间词”四类外其他所有的词。

⑦指总词种数，未对任何专名作剔除。

⑧在总词种数中排除了“人名”、“地名”、“机构名”、“时间词”四类外其他所有的词。经去重处理后是91281条。

⑨包括第三版所有的单字词目与复音词目。经去重处理后是58238条。

以上“共有词汇”栏的比较，以“核心库”为基点来比较，就会发现愈多的词表放在一起，其共有成分愈少。以上的比较对象是已经作了一些整理加工的，将典型的言语词已经排除在外，如包括进来其共同成分会更低。而换一个角度来看，后两个词表基本上是语文性词语，也注重了通用性，可也有不少的出入：《现汉》有10000多不见于“核心库”，“常用词表”有4000多不见于“核心库”。如果说“核心库”偏小的话，那么将它们与“通用语料库”来比较，检查的结果与和“核心库”比较的非常接近。

语料库建设的另一个值得我们注重的问题，就是语料库的断代性。语料库中的内容总是与时代语言存在着滞后性的。这在“核心库”中也表现得相当明显。因此，在统计断代词汇面貌时，注重语料库的多样性也就是必需的了，希冀于“毕一库于一役”是不太现实的，当然，对词频的统计方法也就有必要作出调整。有关这一点请参阅拙稿《计量方法在词汇研究中的作用及频级统计法》（刊于《长江学术》 2007年第1期）。

标签：自然语言处理论文; 语料库论文; 中文分词论文;

通用语料库#183的词汇提取与词汇组成分析_自然语言处理论文

猜你喜欢