基于统计的语言处理模型的局限性_自然语言处理论文

基于统计的语言处理模型的局限性，本文主要内容关键词为：局限性论文,模型论文,语言论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

［中图分类号］H08　［文献标识码］A　［文章编号］1003-5397(2004)02-0099-10

一　引言：统计方法引起的思考

最近几十年，语料库语言学和基于统计的语言模型在自然语言处理领域十分盛行。这引起了许多学者的质疑：语言学家总结出的各种语言学规则，对于语言信息处理还有没有用处？单纯依靠概率统计的方法，能否完成语言信息处理任务？或者问得更深入一点：能否从带有标注的语料库中、通过概率统计的办法来获得真正的语言知识？

本文拟站在语言学的角度说明，语言具有递归性(recursion)的结构特点；语言知识具有依赖于结构(structure-dependent)的特点。这两点使得任何统计方法都难以真正挖掘出系统的语言知识。于是，基于统计的语言模型只能在某些非结构化的语言领域奏效。下面，从语言学理论和有关统计方法的原理与实践两个方面，作出论证。

二　语言的统计结构和有限状态语法

（一）信息论和语言的统计结构

建立基于统计的语法模型的思想，最早源于信息论(information theory)。（注：参考Newmeyer(1986),p.2,22，中译本第2、27页。）Shannon and Weaver(1949:117)指出了信息论对于语言学研究可能具有的意义：

诚如我们所知道的，这种跟来源(source)相联系的信息的概念，会直接促成对语言的统计结构(statistical structure of language)的研究。拿英语来说，信息似乎对于研究语言和交际的每一方面的学者，必定都是重要的。看起来，使用涉及马尔科夫过程这种强有力的理论的观念，对于语义学研究尤其有前途；因为这种理论特别适合于处理意义的最重要、但也是最困难的方面，即语境的影响。

对于他们的提议，语言学家作出了热烈的响应。比如，Hockett(1953)对信息论作了具体的介绍和评论，并指出信息论在语言学以及其他方面的可能应用；讨论了音位化和讯号单位的最大平均熵问题(p.81)、音位系统的统计结构和总体熵问题(p.86)、语素—音位的转换和概率问题(p.87)，特别讨论了怎样利用语素序列的统计特点来判断直接成分的界限(p.88)。Hockett(1955)把信息论的成果应用到关于人类语言的马尔科夫过程模型(Markov-process model)的构造中。他用状态(states)和转移概率(transition-probabilities)组成的矩阵表来说明语句的统计结构，还引入熵来度量每一种状态的不确定性。他相信，如果统计英语中所有语素和许多语素序列实际出现的相对频率，并进行适当的计算；那么，整个语法结构就能用上述概率转移矩阵的方式刻划出来。

用统计方法来研究自然语言，在描写语言学和语言教学中都有一些实践。比如，Chatman(1955)通过概率计算来确定直接成分和层次划分，Pittman(1948)用数量统计来确定语法结构的核心，Fries(1957)用词类串对英语的“基本”句子进行描写和公式化。但这些都不成功。（注：详见范继淹(1983)，第224-225页；Corder(1979),P.177-183。）

（二）有限状态语法和有限状态语言

有限状态语法（正则语法）是一种线性语法，分为左线性语法(left-linear grammar)和右线性语法(right-linear grammar)两种。在左线性语法中，在重写规则的右侧，单独的非终端符号只能位于单独的终端符号的左侧；在右线性语法中，则正好相反。对于一部正则语法，我们总能用信息论所建议的有限状态转移图(finite state transition diagram)来表示。

为了生成被正则语法所定义的语言中的一个句子，只需在跟它对应的有限状态转移图上，从起始点开始，沿着任何一条弧从当前节点转移到下一个新节点，并记下该弧上标注的符号。当到达最后节点时，我们所记下的符号串就是这种语言的一个句子。换句话说，在状态转移图上每一条从起始点到最后节点的路径都对应于被这部语法所生成的语言（即有限状态语言）中的一个句子。如果给这种语法增加若干封闭圈(closed loops)加以扩展，就可以生成无限数的句子。从一个状态到另一个状态，允许有几条不同的途径；也可以随便加若干个封闭圈，并且其长度不限。这种生成语言的机制在数学上叫做“有限状态马尔科夫过程”(finite state Markov process)。为了完成这个根据初级的通讯理论编制的语言模式，可以给每一个状态转移加上一个概率，这样就可以计算每一个状态所带的“不确定性”(uncertainty)；再用这个不确定性的平均数跟相连的各个状态的概率加权，就可以得到语言的“信息内容”。于是，通过这种概括就可以来研究语言的统计结构。显然，“有限状态”指的是状态转移图中的状态（节点）数量是有限的。当我们处于一个句子的生成过程中，从开始状态那里起头，说出句子的第一个词；接着就转入第二个状态，这一状态限制了第二个词的选择，等等。所经过的每一个状态都代表了若干语法上的限制条件，这些条件在整个话语的每一个状态（节点）上都限制了下一个词的选择。也就是说，为了正确地结束这个句子（即到达终端节点），需要知道的唯一的信息就是当前状态（节点），而无需了解已经生成的那部分句子的其他任何情况。（注：详见Chomsky(1957)p.18-25.中译本第12-19页；Newmeyer(1986)p.22-26，中译本第26-32页；石纯一等　(1993)第341-343页。）

（三）自然语言不是有限状态语言

乔姆斯基在50年代中后期的一系列研究，宣告了有限状态语法对于描写人类语言的不适用性。Chomsky（1956和1957）证明，没有一个有限状态语法能生成一种具有下列情况的语言：包含无限组带有嵌套依存（nested dependencies）的语符列(string)，但又同时排斥无限组跟这些嵌套依存相矛盾的语符列；在英语中，也有嵌套结构。假如为英语的陈述句，那么就可以有这样一些英语句子：

(1a)中的then不能用or来代替，(1b)中的or不能用then来代替，(1c)中的is不能用are来代替。显然，各句逗号两边的词之间，都有相互依存的关系（即if-then,either-or,man-is）。但是，在相互依存的词之间，都可以嵌入一个陈述句；并且，这个陈述句实际上可以是(1a-c)中的一句。如果把(1b)代替(1c)中的，将得到：

(1)c'.The man who said that either ,is arriving today.

把(1c')代替(1a)中的，将得到：

(1)a'.If the man who said that either is arriving today,then .

因此，一部用来生成英语句子的程序必须记住，当它经过时前面曾经生成过什么样的构造，以便跟either匹配而生成or、跟if匹配而生成then。这样一类构造说明，一个有限状态转移网络（正则语法）不适宜用来描写英语这样的自然语言。因为，说到底，像英语这样的自然语言不是一种有限状态语言，其中包含着有限状态语法无法处理的嵌套依存结构。

三　基于统计的语言模型的工作原理

（一）基于规则的语言模型和基于统计的语言模型

基于统计的语言模型是相对于基于规则的语言模型而言的，前者是一种概率性的非确定性的语言处理模型，后者是一种确定性的语言处理模型。一般来说，确定性的模型运用明确的规则来表述物理世界（或自然语言）的已知的特定属性。在物理学中，如牛顿力学；在自然语言处理中，如正则语法、上下文无关语法等形式语法。但是，并不是所有的物理世界和自然语言的现象都可以用确定性的规则来刻划，而且这些规则的使用也具有不确定性。在这种情况下，统计模型被用以描述物理世界和自然语言的统计属性。建立统计模型的基本假设是：物理世界和自然语言可以用随机过程来刻划，而随机过程中的参数可以精确地估计。比如，物理学上的统计力学、自然语言处理中的概率语法，都属于统计模型。（注：详见翁富良、王野翊(1998)，第116页。）

在目前的语言学理论水平和计算技术条件下，当人们用规则方法不能处理语言时，自然地会转向统计方法；希望用在语料库中对相关数据统计的方法来为要解决的语言问题建立统计模型，并且由语料库中的训练数据来估计统计模型中的有关参数。下面，先以N元模型为例介绍基于统计的语言处理模型的工作原理，再介绍这种模型在词类自动标注方面的应用。

（二）N元模型（N-1阶马尔科夫模型）

语言的统计模型可用于计算语句的先验概率P(W)，在这里用变量W代表一个文本中顺序排列的n个词。根据概率论的定理（乘法规则（注：乘法规则用以计算两件事一起发生的概率：两件事一起发生的机会等于第一件事发生的机会乘以已知第一件事发生的情况下第二件事发生的机会。详见Freedman等(1991)的中译本，第253-255页。）），P(W)可以分解为：

通常N的值不能太大，否则会有太多的等价类，前面提及的过多自由参数的问题仍然存在。当N=1时，即近似地认为出现在第i位上的词独立于历史（它的出现概率跟它前面的词无关），这种N元语言模型称为一元语法（uni-gram，或mono-gram）。当N=2时，即近似地认为出现在第i位上的词的出现概率只跟它前面紧邻的一个词相关，这种N元语言模型称为二元语法(bi-gram)。当N=3时，即近似地认为出现在第i位上的词的出现概率只跟它前面紧邻的两个词相关，这种N元语言模型称为三元语法(tri-gram)。其实，N元模型就是N-1阶马尔科夫模型。因此，一元语法就是零阶马尔科夫链，二元语法就是一阶马尔科夫链，三元语法就是二阶马尔科夫链……。当使用三元语法模型时，P(W)可以分解为：

该模型的参数为，其值可以通过大规模语料库、用最大似然估计(maximum likelihood estimation)方法来求得：

这种词序列根本没有出现过，根据最大似然估计，这些事件的概率为零。然而，这些事件的真实概率不一定为零。这就是所谓的数据稀疏问题(sparse data problem)。现在已经发展出解决这一问题的有关方法，此处从略。（注：详见翁富良、王野翊(1998)第116-124页，黄昌宁(2002)第80页，白栓虎(1992)第50-52页，黄昌宁、李涓子(2002)第115-116页。）

（三）基于统计的词类标注

词类标注(part-of-speech tagging)问题，可以看作是在给定词的序列的条件下，搜索词类标记序列，使得P（C│W）最大。即计算如下条件概率极大值的问题：

P（C│W）表示已知输入词序列W的情况下，出现词类标记序列C的条件概率。数学符号。表示通过考察不同的候选词类标记序列C，来寻找使条件概率P（C│W）取最大值的那个词类标记序列C，这后者就是对词序列W的同类标注的结果。根据贝叶斯定律，上式可以转写为：

由于公式中的分母P(W)在词序列W给定时，是一个归一化常数，不影响极大值的计算；因而可以忽略不计，即把它从公式中删除。于是，得到下面的公式：

接着，对公式进行近似。首先，引入独立性假设，（注：如果给定第一件事，无论它的结果是什么，第二件事的机会都一样；那么，这两件事是独立的。否则，就是不独立的。如果两件事是独立的，那么这两个事件都发生的机会等于它们各自无条件概率的乘积。详见Freedman等(1991)的中译本，第256-258页。）认为词序列中任意一个词的出现概率近似只跟当前词的词性标记有关，而跟上下文的词类标记无关。即词汇概率（某个词以某种词类出现的概率）为：

显然，这是一种一元语法模型，它只考虑词跟在其上可能出现的词类（标记）之间的统计信息，即一个词用作某种词类的概率。其次，采用二元假设，认为任意词类标记的出现概率只跟它紧邻的前一个词类标记相关。即：

是词类标记的转移概率，显然这是一种二元语法模型；它只考虑词类一级上的相邻上下文关系（即某种词类序列是否出现的统计关系），但是没有考虑特定的词跟某种词类标记之间的统计关系（即一个词用作某种词类的概率）。把(4)和(5)两式代入(3)，得到下面的公式：

这个公式可以看作是一个隐马尔科夫模型，模型中的每一个状态对应于一个词类标记；从状态于是，词类标注问题变为求隐马尔科夫模型的最佳状态序列的问题。这种问题可以用韦特比算法(Viterbi algorithm)来解决。(6)这个公式（即隐马尔科夫模型）中的两个概率参数都可以通过训练数据（即带词类标记的语料库）来分别估计：

公式(7)说的是，词汇概率约等于：训练数据中某词作某种词类使用的次数，除以该词类标记在训练数据中出现的次数。公式(8)说的是，转移概率约等于：训练数据中某种词类标记出现在另一种词类标记之后的次数，除以另一种词类标记在训练数据中出现的次数。（注：详见翁富良、王野翊(1998)第170-174页，黄昌宁(2002)第81-82页，白栓虎(1992)第49-53、61-62页。）

因此，词类标注系统一般由词汇概率模型和转移概率模型两个部分组成。直观地说，词类标注就是搜索词类标记序列C，使得这两个模型的概率的乘积最大。据Garside等(1989)报导，他们用上述方法自动标注英语词类的正确率达到96%。据白栓虎(1992:61)报导，他尝试用不同的模型来自动标注汉语词类：单纯用词汇概率（一元语法）模型时正确率达到88.3%，单纯用转移概率（二元语法）模型时正确率达到89.5%，用这两种概率的乘积（隐马尔科夫模型）时正确率达到95.2%。

四　语言的递归性和语言学规则的结构依赖性

（一）语言的递归性和语言官能

语言在结构方式上具有递归性的特点，突出地表现为：一个按照某种语法模式造成语法组合，其直接成分可以也是按照这种结构模式（或其他结构模式）造成的语法组合。（注：参考Hockett(1958)§18.1：递归模式，中译本第194-200页。）例如：

(1)　The mouse the cat the dog chased bit died.

(2)　a.The man who……is here.b.I saw a……house.

(3)　这件事儿，我们几个人中间，小王现在态度最不明朗。

(4)　我不知道小李知道不知道她丈夫已经知道她没有通过律师资格考试。

当然，像例(1)这样极端的例子在真实的语言交际中是不常见的；但是，我们不能保证一定碰不到像例(3)(4)那样的句子。正如Chomsky(1957:17)所说的，像例(2)的……处可以分别插入任意长度的动词性词组和形容词性词组。如果用产生式规则(production rule)来表示短语结构的形成过程，那么递归性就表现为箭头左侧的符号可以出现在箭头的右侧，甚至连初始符号S也可以出现在箭头的右侧。（注：参考Hartmann,R.R.K.and F.C.Stork(1972)Dictionary of Language and Linguistics(Applied Science Publishers Ltd.London)中的recursiveness（循环性）条目。见中译本《语言与语言学词典》（黄长著等译，上海辞书出版社，1981），第292页。）例如：

(5)i.S→NP+VP　ii.NP→Det+N　iii.NP→Del+N+(S)

iv.VP→V+NP　v.VP→V+to-VP

在(5iii)中，初始符号S可以作名词N的定语从句；这样形成的名词性成分可以分别代入(5i)中的NP和(5iv)中的NP，再把(5iv)这样的动词性成分代入(5i)中的VP，就构成下面这种句子：

(6)The man(who kicked the ball)scored the goal(that won the game).

递归性是人类语言的一个非常重要的特性，它把人类语言跟其他动物的交际符号系统区别开来。Hauscr,Chomskv and Fitch(2002)甚至认为递归性是反映人类语言官能(the faculty of language)的基本属性。由于有限状态语法只能反映局部的依存关系(local dependencies)，因而它不能充分地抓住任何人类语言。因为自然语言可以通过在短语中递归地嵌入短语来超越纯粹的局部结构，从而导致统计规律被任意数目的词或短语打乱。这种长距离的层级关系在所有的自然语言中都存在，这使得短语结构语法成为必不可少(p·1577)。

（二）语言学知识的结构依赖性

语言学知识具有依赖于结构(structure-dependent)的特点，这是它不同于人类其他知识的地方。正是根据这一点，乔姆斯基强调语言能力不同于人类的其他认知能力。Chomsky(1980:39-40)非常直观地用英语是非问句(yes-or-no question)的形成过程来说明语言学规则具有依赖于结构的特性。例如：

(1)a.The man is here.-Is the man here?

b.The man will leave.-Will the man leave?

当考察了上述范围极其有限的陈述句和疑问句配对(declarative-question pair)后，我们或许可以提出下列两种假设(hypotheses)来解释怎样从陈述句上推导出疑问句：

：在陈述句中自左向右逐词搜索，直到发现首先出观的is、will一类词；然后把它放到句首，就形成了相应的疑问句。

：在陈述句中自左向右逐词搜索，直到发现首先出现在第一个名词短语之后的is、will一类词；然后把它放到句首，就形成了相应的疑问句。

像这种假设，可以称为“跟结构无关的规则”(structure-independent rule)；像这种假设，可以称为“依赖于结构的规则”(structure-dependent rule)。因为，只需把陈述句分析为一个词的序列；而除了需要把陈述句分析为一个词的序列外，还需要把陈述句分析为名词短语之类的抽象的短语。之所以说短语是抽象的，是因为它们只是一种心理结构(mental constructions)，它们的边界(boundaries)和类别标定(labeling)并不通过某种方式用一般的物理形式标记出来。尽管如此，人们还是愿意选择像这种假定了抽象的心智加工过程(abstract mental processing)的假设；因为，它比更接近事实。比如，假如有下列陈述句：

(2)a.The man who is here is tall.

b.The man who is tall will leave.

根据假设，可以得出下列正确的疑问句：

(3)a.Is the man who is here tall?

b.Will the man who is tall leave?

但是，根据假设，却得出了下列不合格的疑问句：

(4)a.*Is the man who here is tall?

b.*Is the man who tall will leave?

换句话说，假设正确地预测了(2)和(3)之间的语法联系，而假设根本做不到。

五　基于统计的语言处理模型的局限性

（一）独立性假设：统计语言模型的双刃剑

由于自然语言不是有限状态语言，因而自然语言的语句中的符号串不是一种马尔科夫链。这样，符号串中某个当前符号的出现概率并不是单纯地由前一个符号决定的，甚至在理论上无法统一地知道到底是由其前的N个符号决定的。但是，统计模型必须假定当前符号的出现概率是由其前的N个符号决定的，这就是本文第二部分（二）中的N元语法模型。这里，引入了概率论上的独立性假设：假定N+1个符号出现这个事件的机会只跟其前的N个符号的出现相关，但是跟语句中的其他符号的出现与否都无关。这已经跟语言的实际情况相对立了。并且，在实际构造和实现统计模型的时候，为了避免自由参数太多而造成的计算上的指数爆炸，同时为了克服训练例中数据稀疏的困难，这个N的数目不能太大，通常要减少到3以下才能实施。这样，势必使得这种基于统计的语言处理模型离语言事实越来越远。

简单地说，独立性假设是一把双刃剑：基于统计的语言处理模型借助于独立性假设，使得统计模型得以实施；但是，独立性假设过度地简化了语言模型，使得统计模型只能处理对结构关系依赖性不强的对象，而像代词的先行词求解、长距离依存关系等依赖结构关系的结构化对象，则较难用统计模型来处理。不幸的是，绝大部分语言学知识和语法规则都具有结构依赖的性质，它们使得独立性假设失效，从而使得统计模型难以施展神威。

（二）一个实验：介词结构消歧的条件

黄昌宁(2002:83)介绍，Collins and Brooks(1995)用概率统计方法进行介词结构消歧实验。他们用宾州大学提供的带有句法标注的华尔街日报(WSJ)树库，从中抽出20801个四元组作为训练集，其余的3097个四元组作为测试集。并把机器自动判定的结果跟人在不同条件下的判定结果进行比较：

实验条件

　　精确率

一律视为名词附加（即A≡ANP）

59.0%

只考虑句中介词p的最常见附加

72.2%

机器根据四个中心词判断　84.1%

三位专家只根据四个中心词判断

88.2%

三位专家根据全句判断

93.2%

显然，自动判断精确率的下限是72.2%，因为机器根据四个中心词来判断，不会比只考虑句中介词p的最常见附加做得更差；上限是88.2%，因为同样根据四个中心词来判断，机器不会比专家更高明。虽然自动判断的精确率84.1%离上限88.2%不远，但是离实际应用的需要还有距离。究其原因，语法规则的结构依赖性未必是N元语法模型所能逼近的，更何况除了语言知识之外，语篇上下文知识和世界知识对语言理解也产生影响；因此，即使是人类专家，即使阅读了全句，也未必能正确地判断出介词结构的正确附加。

六　结语：走向统计方法和规则方法的结合

根据上文的讨论，线性的语法模式难以处理语言中的嵌套结构。在目前的技术条件下，基于统计的语言处理模型无法通过对线性的语言符号序列上有限的N个符号之间共现概率的统计，来发现真正的语法结构，从而达到真正的语义理解。语言信息处理面临的对象既然有如此顽劣的既抗拒规则模型、又抗拒统计模型的属性，那么一种可能的技术途径只能是把规则的方法和统计的方法结合起来，采用多元化的方法来建立处理自然语言这种混杂(miscellaneous)系统的综合性模型。因此，不管是追求规则挖掘的语言学家，还是沉迷概率统计的计算语言学家，对于语言信息处理，大家面前都有许多紧迫的工作值得去做。

［收稿日期］2003-06-20

标签：自然语言处理论文; 陈述句论文; 自然语言论文; 统计模型论文; 概率计算论文; 序列模式论文; 符号计算论文; 语言学论文;

基于统计的语言处理模型的局限性_自然语言处理论文

猜你喜欢