概率最优选择理论_概率分布论文

概率性优选论，本文主要内容关键词为：概率论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

语言学中的概率思想由来已久。1960年代以前，语言学研究中占主导地位的是基于统计分析的概率性研究。但此局面被Chomsky(1957)所倡导的生成语言学所改变，与当时计算科学的发展相对应，其理论核心是非概率性的模块论，此理论模式一直延续到最简方案 (Chomsky and Lasnik 1995)，其基本算法是离散性概念的线性推导。Chomsky和Halle(1968)发表的《英语音系》(Sound Pattern of English,SPE)一书，是该潮流在音系学中的表达。正统生成语言学（包括生成音系学）认为能力与表现，或者说语言知识和语言行为之间有不可逾越的界限，同时认为音系和语音之间，或者说言语者的隐性音系知识和他们的实时处理技能之间泾渭分明，并将所有统计学意义的变异都归因为表现而非能力，因而难以解释语言习得和自由变异。然而，现代音系学中另外一种倾向正变得越来越明显，其基本理念是音系知识和语音处理之间是共生的、相互依存的关系，是同一完整系统的两个方面(Pierrehumbert 2001a:137-57)。优选论(Optimality Theory,OT)的最新发展就是该倾向的突出代表。

1990年代初推出的OT和生成音系学有很深的渊源。经典OT继承了生成音系学的深层表征和表层表征的区分，在这个意义上，它仍然是推导性的音系理论。但经典OT还继承了非线性音系理论的各音层相互独立的思想，抛弃了SPE以来的规则串联有序推导，不改变底层表征，通过对表层表征施加并行评估，而获取优选输出项（马秋武、王嘉龄2001:F27）。与计算科学的新发展相对应，其创始人Prince和Smolensky(1993:3)则认为OT可以通过连接主义网络得到最好的体现。OT的最新进展表现出对功能主义的日益注重，主张语言习得的基础是语言经验，使得该理论更符合人类认知的特点(Kirchner 1997:83-111；王嘉龄2002:30-4)。OT的另一进展表现在学习演算系统的建设上，并研发了专门的运算软件OTsoft(Hayes et al.2003)。这些进展从根本上说都有赖于对概率性语言学研究传统的回归。

1.概率性优选论的理论前提

当代认知科学的一些基本假设为概率性OT提供了理论前提。

假设1：语言是人类认知系统的一部分(Ciere 1987:139-59)。

假设2：认知就是对输入进行表征，就是符号化表征的建构和处理，也即编码(Hale and Reiss 2003:219)。

假设3：某些语言结构直接在认知系统中进行编码，有些则只是间接地在认知系统中获得编码(Goldrick 2002:3)。

假设4：言语产出概率可以同时受多层表征的制约(Goldrick 2002:22-31)。

假设5：由于输入信息包含噪声，且认知资源有限，人类认知是对有限认知资源优化利用的概率性过程(Anderson 1990)。

假设1和假设2实际上暗含着一个推理，那就是，语言作为认知表征不等于认知的对象。用语言哲学家Frege(1892)的话说，语言只是对客观对象(objects)的描述，一个描述指示一组客观对象，但该描述的具体程度永远都不足以确定其中任意一个。因此，就音系学而言，一个公理性的基本假设是，所有音系表征本质上都是源于语言实践对真实世界中话语的描述，是基于语言经验的“随机密度分布”(stochastic density distribution,Pierrehumbert 2001a:137)。在这个意义上，可以说，传统生成音系学的问题就在于从一个对真实对象的描述直接推导出了客观对象(Bid 1996:32)，忽视了音系及其语音实现中概率特征的作用。Pierrehumbert(2001b:195)指出，任何层面的音系知识都与语言处理的概率模型相关联，在不同的音系或语音抽象表征层都发现存在着概率性效应。人们对语音空间（注：空间本身是一个概率概念，从概率统计的角度出发，“空间”即在满足一定条件的情况下，某一函数的所有可能取值的集合。）和音系概念的连接具有概率性知识，或者说，人们通过概率性的知识来联系语音空间和音系概念。概念相互组合构成词库中的词项，词项与词项之间又以特定方式相连接，人们对此类组合和连接的频率也具备概率性的知识。因此，音系表征与语音产出的关系必须通过心理表征在语音空间中的概率分布来描述。

假设3实际上区分了语言结构在认知系统中的不同层面。具体地说，关于任何一个语言学理论，至少可以区分两类描述：结构性描述全集和外显结构性描述(Tesarand Smolensky 1998:236)，前者指基于某特定理论的所有可能的结构性描述；后者是指学习者可直接处理的描述，是前者的一个子集。

根据假设4，可以认为产出音系可以同时受语音制约条件和音系制约条件的制约。

基于假设1到假设5，语言处理作为一个认知过程，可视为一个函数，该函数对输入表征与输出表征的映射分配概率。设输入I和输出O都是可数非空集，那么二者的映射I×O也是可数非空集，设所有合法的或者说符合某一理论结构性表达要求的映射为C，那么GI×O。这样我们就可以定义一个输出项：

该概率是G上的一个随机变量。一个认知过程如果发生于非理想条件下，可能会生成各种不同的输出模式，如等，而不是理想条件下的最优输出模式，也就是输出概率最高模式。一个认知过程可能表达为多种不同函数，如等，每一个不同的函数相当于一个不同的语法理论。由于认知本身是概率性的过程，语法的合格性(wellformedness)也必然是相对的。

概率模型可以解释语言处理，但问题是，即使是处理简单的语言问题，现有的概率模型都非常复杂，而我们在日常语言实践中，似乎体会不到这样一种复杂的计算过程，也就是说，概率模型不具有很强的心理现实性。实际上，可以认为概率过程发生在“计算层面”，对输入—输出之间的映射分配概率，至于如何具体实现该计算机制是另一个问题。一般认为，概率通过不易察觉的某种心理结构的激活水平(Goldsmith 1992:229)，或激活的分布模式（比如连接的权重）得以实现(Jurafsky 2003; Dell and Gordon 2003)。

2.概率性优选论（注：Smolensky(1996)等人提出产出与理解共用同一语法。但Boersma(1999)认为两者不对称，应分别考虑，本文着重探讨产出语法。）的基本思想

2.1 词库、语法和制约条件

像SPE一样，OT一直严格区分词库和语法。词库为语法提供输入项。根据“基础丰富性原则”(Kager1999:19)，输入项不受制约条件限制，因此过去OT中有一种忽视词库作用的倾向，现在OT内部一种具有代表性的观点（Hammond 2004等）认为，词库中储存的不仅是词，还有常用词组和搭配。词库的结构直接反映到语法中。而词库中的单位及构式(schemas)都表现出概率特征，因此，语法本身也不可避免地表现出概率效应。也就是说，很大程度上，词库是语言学规律的发源地。

OT语法可以视为一个函数，该函数为每个输入项分配结构性描述，即可能输出项集Gen，在OT中Gen被称为“生成器”。但这部分语法并不提供具体的函数算法。OT语法通过制约条件层级排列决定哪个描述是合乎语法的，或更合乎语法的，该部分被称做“评估器”(Eval)。正统OT语法中只有一种层级排列，但OT的基本思想本身并不排斥有多个制约条件层级排列的可能。注意，在OT中，I和O都是离散型随机变量，就是说，I和O的个数都是有限或可数无穷多个，其评估函数也是离散型的。根据(1)，同样有输出项：

制约条件是某一输出项可能满足或违反的一个结构性要求(Kager 1999:9)。可以定义一个“制约条件空间”，即所有可能的制约条件的无限集，从理论上说，该无限集包括对音系的任何方面进行OT形式化表达所必需的所有结构性要求。由于OT表达的高度形式化，可以将输入项的结构性描述和制约条件的结构性要求（也是结构性描述）进行精确对比，算出违反的程度(degree of violability)，从而得出优选输出项。据此，可以定义一个影响输出概率的向量c(i,o)，该向量描述一个候选输出项违反制约条件的情况，又叫特征函数。该向量和函数Gen和函数Eval共同定义了OT语法(Gen,c,Eval)。

2.2 输出项不唯一问题

输出项不唯一问题，也就是输出中自由变异的问题。本节专门讨论OT的各种新进展为解决该问题所作出的努力。由于OT中的I和O都是离散变量，以下讨论都局限于离散型概率模型，并且只涉及产出模型（注：关于感知模型见Boersma(1999)，关于产出—感知模型见Blunter(2004)。）。

2.2.1 层级不确定理论

2.2.2 随机域值分布理论

Hayes和McEachern(1998),Boersma(1997,1998),Boersma和Hayes(2001)对Anttila的理论进行了改进，提出每个制约条件不是只有一个固定值而是有一个取值范围，称作“层级量表”(ranking scale)（见图1）或“严格性带”(strictness band)（见图2），其取值(ranking value)分布是概率性随机分布的(stochastic)，我们可以将该理论命名为“随机域值分布理论”。实际上，图1是图2的点分布。当样本点足够多时，每个制约条件域值分布接近高斯(Gauss)正态分布，一个正态概率模型的特点是只在中部有一个峰值，越靠近峰值的选择点的发生概率越高，概率向两侧迅速降低，当然不绝对为零。在此模型中，制约条件统制(domination)关系改变的概率是通过不同制约条件的正态分布的重叠部分来表现的，假设有制约条件和，当两个制约条件域值完全重叠时，就是Anttila所谓“层级不确定”，在这个意义上可以说，层级不确定理论是随机域值分布理论的一个特例。如果只是部分重叠，则统制的概率不同于统制的概率，原本被统制的制约条件的取值就有可能大于原本处于统制地位的制约条件的取值，统制关系发生变化，导致输出项不同。这种变化在图2中可以看得很清楚。OT中，所有可能的制约条件排列被称为因子类属(factorial typology)，在OTSoft主界面上运行factorial typology可自动产生。

该模型非常适合解释在线产出和在线评估，可以认为，在实际言语过程中，每个制约条件的位置都暂时受到一个随机正值或负值的干扰，看起来就好像每个制约条件都有一个域值范围。从音系习得的角度来说，评估中的取值（即选择点）与相应制约条件的联系越持久（发生的频率越高），该值就越有可能成为该制约条件的缺省层级取值。一个制约条件的取值(v)是由其缺省排列等级（注：在OTSoft中可人工设定。）(r)和一个随机噪声变量(z)决定的：

在该理论中，有两个向量，一个是，一个是噪声变量，加上特征向量c，决定最终的输出概率。该噪声变量与制约条件的结构性描述无关，但对评估发生作用，相对于传统意义上的音系，是一个外部变量。增加噪声后，原来的层级取值（注意，并不是其结构型描述），即相对于其他制约条件的权重受影响，相应地层级排列有时也发生改变。这与决定论OT只允许一个固定的层级排列大为不同。这种条件下的评估属于在线评估，每次评估的结果都可能不一样，因此也叫“随机评估”，当评估次数足够多时，其评估结果符合正态分布。总之，该噪声变量的增加是随机域值分布理论对概率性OT的一大贡献，极大地增强了OT的解释力。基于这种思想的OT也叫做随机OT(Stochastic OT,StOT)。

Boersma(1997:45)认为该噪声变量的心理相关物是某一事件当下所具备的神经传导素数量中的噪音，但没有作进一步阐述。Boersma和Hayes(2001:38)则提出，言语风格作为一个外部变量影响评估，并将其纳入了对制约条件选择点的计算公式：

(7)选择点＝层级＋风格敏感度·风格＋噪声

他们主要依据语体的正式与随意来定义言语风格，最随意的风格定义为0，最正式的定义为1。风格敏感度是一个相对于特定制约条件的变量，制约条件的风格敏感度取值为正值时，在正式言语中层级较高，负值则在随意言语中层级较高，取值为O则说明该制约条件对风格不敏感。他们认为习得初期制约条件对风格不敏感。Gussenhoven(2004:163)在对语调切分进行OT分析中，也提出了一个在线排列(ranking on the hoof)模式，该模式中，每当需要决定一对制约条件的层级关系时，制约条件都会被重新权衡，每个制约条件的权重可能受言语风格等因素的影响，从而有可能改变整个制约条件排列。该模型只是一个初步的设想，至于言语风格如何影响制约条件的权重，作者未能给出解释。Fischer(2005:18)认为言语风格是相对于某一输入对某一层级排列的偏好。总之，现有研究的共识是言语风格影响制约条件排列，通过允许言语风格等外部变量影响制约条件的层级取值，可以解释更多的自由变异。如果我们将言语风格等外部变量都纳入噪声变量的范畴，公式(5)就足以表达随机域值分布理论的精髓。

可以看出，层级不确定理论和概率性域值分布理论，在一定程度上颠覆了经典OT的主要假设，如优选项唯一，层级排列固定等，而且可以较好地解释自由变异和不同层级关系概率不对称。尽管以上理论为解决输出概率问题作出了有效的努力，包括增加了噪声变量，但正如信息论的创始人Shannon(1948:379)所指出，语言像音乐和图像一样，都有固有的复杂性，一个随机过程不可能被无失真地压缩到该固有复杂性之下。这个固有的复杂性就是该随机过程的熵。以正态分布为基础的经典误差理论的基本前提是构成总和的组分数目很大，且每一组分对总和的贡献很小。但实际研究中有很多情况不符合这两个条件。因此，有的研究者提出了最大熵OT。

2.2.3 最大熵OT

熵是对不确定性的一种度量(Shannon 1948:379)，或者说是对概率分布偏态的数量化(Jger 2003:4)。假如已知输出候选项o的概率p(o)(o∈O)，那么，可以定义该候选项的熵，即不确定性为，

当输出概率等于0或1时（即o的点分布概率），熵为0。如果输出概率是等可能分布，则p(o)=1/n,（o∈O,n=＃O，即n等于所有O的组分的数目），则H(p)=In(n)。所以，对于p在可能概率分布空间上的任何分布有：0≤H(p)≤ln（＃O)。在给定信息不充分的情况下，最大熵概率分布是唯一不需要建立在武断假设之上，并与给定信息相匹配的概率分布（翁富良、王野翊1998）。

基于此，Goldwater和Johnson(2003)，Jger(2003),Fischer(2005)提出了最大熵OT（简写为ME）。ME和StOT在基本框架上是一样的，都认为语言系统包含Gen，Eval，并服从特征函数c的约束。简单地说，ME与StOT的最大不同在于前者认为，系统在评估e的状态只与其在评估e-1的状态相关，而不是服从正态分布，因而系统的评估状态构成马尔可夫链（注：定义：如果随机变量X，Y，Z的概率密度函数可写成：P(x,y,z)=P(x)P(y|x)P(z|y)，则称这三个随机变量构成马尔可夫链x→Y→Z。马尔可夫链是马尔可夫随机过程的特殊情况，是状态和时间都离散的马尔可夫过程（谢锦辉1995）。）。因此可以将一种语言视为具有马尔可夫评估Eval，从I到O(GenI×O)的映射。设有P为一概率分布集，与某一语言相对应，也就是对一个输入—输出映射的集合的概率分布，最大熵概率即满足：

(9)H(p)=max｛H(p)|p∈P)

由于某一输出的概率由三个向量｛c,z,r｝决定，也就是说该输出项是由一组离散随机变量(c,z,r)决定，其联合概率分布为p(c,z,r)，其联合熵等于：

(10)H(c,z,r)=H(c)+H(c|z)+H(r|z)

ME和StOT在本质上并不矛盾，都是基于概率的OT。但与StOT相比，ME的可概括性(generalizability)更好，也更灵活。比如，有一组候选项，StOT总是根据候选项对制约条件的相对违反程度，也就是说，通过比较不同候选项之间的违反程度，来进行评估，因此，不同候选项的产出概率是不独立的。但在ME中，如果某一候选项对某一制约条件过度违反，那么，无论该制约条件的层级如何，整个层级排列如何，或其他候选项表现如何，该候选项的产出概率都将大大降低。原因是在StOT中，概率分布是正态的，而在ME中则可以是偏态的。

3.概率性OT的可学性(learnability)

可学性问题就是音系习得的问题。关于音系习得的出发点是什么，关于语言结构是否内在而无需习得，OT内部存在争议。Prince和Smolensky(1993)，Tesar和Smolensky(1993)认为制约条件都是内在的，习得的出发点是此内在的制约条件，学习者的任务就是排列这些制约条件。由于语法不只是评估显性结构性描述，而是对包括显性和隐性的全部结构性描述进行评估，那么问题就是，学习者如何仅仅从显性形式推出正确的语法。Tesar和Smolensky(1998)提出了制约条件降级演算系统(Constraint Demotion Algorithm,CDA)试图回答该问题，在该算法中学习者从一个初始排列开始，根据该初始排列，针对显性数据(overt data)提出假设性的结构性描述，来验证并修正该初始排列，音系习得是错误驱动的。CDA的一个基本假设是根据所有输入数据只能推导出一个层级排列，因而该系统难以处理在线产出和自然语言中的变异现象(Kager,ef al.2004:33；马秋武2003)。

概率性OT则认为可能只有很少一部分制约条件是先天的，其他都是后天习得的，或通过后天努力而为学习者所认识(accessible)。关于习得如何发生，概率性OT一般认为，学习者首先接触的是言语事件，在此基础上形成一定的语音知识，此语音知识就是对言语事件的语音参数的概率分布的概括，此类概括属于“原生态的”制约条件。Hayes(1999:243-85)通过“归纳着基”(inductive grounding)理论，对此进行了形式化的表达。设有制约条件，和其语音有效性映射集M。如果与具有相同或更小复杂性的制约条件相比，的语音有效性更高，则是在M上着基的。其中，在M上的语音有效性可以通过下面的公式计算：

(11)语音有效性=正确预测数／（正确预测数＋错误数）

一个制约条件的语音有效性越接近1，学习者越有可能习得该制约条件。这里有两个基本概念必须澄清，一是制约条件的复杂性；每个制约条件都是一个结构性描述，如果制约条件C1的结构性描述是制约条件C2的子集，则C1比C2要简单，即复杂性较小。二是相邻制约条件；在制约条件空间中，有的制约条件的结构性描述可以通过对另一个制约条件进行一个原始形式替换（例如改变一个特征值，或增加或减去一个特征值或连接线等），这样的制约条件称为相邻制约条件。

一般来说，任何一个言语事件都涉及多个层面或多个维度的多个语音参数，因此，在音系习得过程中，学习者能概括出相当大数目的“当下最大语音拟合优度”(local maxima of good phonetic fit)，也即“当下最大制约条件有效性”(local maxima of constraint effectiveness)。由于制约条件空间是可能制约条件的一个可数无限集，为了解决计算负荷的问题，Hayes仍然像生成音系学一样，假设学习者音系追求形式的简单性，并将此称为语法设计(grammar design)。总之，归纳着基的过程，即学习者从自己的学习经验中“归纳”出制约条件，并通过形式的简单性对这些制约条件进行过滤的过程。这一过程的基本动因包括发音的省力及其它认知或交际需要(Stemberger 2001)。因此，音系习得过程按照其逻辑关系可以表示为：

(12)语法设计→制约条件有效性→归纳着基→排列制约条件

基于制约条件的概率性域值假设和语法评估的随机性（见第2.2.2节），Boersma(1997)，Boersma和Levelt(1999)，Boersma和Hayes(2001)提出了渐变学习演算系统(Gradual Learning Algorithm,GLA)来模拟习得过程。该算法可以对学习步骤进行界定，当学习不成功时，可以增加学习尝试的次数。该算法根据学习数据，即学习者实际产出某音系形式的次数，算出每两个制约条件之间的配对统制概率（注：详见OTSoft使用手册关于GLA的介绍。）。例如，已知制约条件AlignSub，Wraps，Balance制约朗读口语中句内语调短语切分，对某朗读人的n次朗读进行语调短语切分标注后，在OTSoft中运行GLA（设制约条件初始值为100），可以获得制约条件的概率性层级取值和配对统制概率（见图3)。图3显示Wraps>>Balance和AlignSub>>Balance的概率都是0.999，属于范畴化的关系；而WrapS>>AlignSub的概率只有0.51，属于随机概率关系。因此，在线产出条件下，该朗读人句内语调短语划分可能服从两种制约条件层级排列：WrapS>>AlignSub>>Balance，或AlignSub>>Wraps>>Balance，从而导致不同的输出项。这样概率性OT就可以较好地解释在线产出及产出中的变异问题。

图3 制约条件之间的层级取值（左上）及配对统制概率（右）；代表制约条件的椭圆之间的实线表明概率大于0.99，虚线表明概率小子0.99；WS=Wraps，AS=AlignSub,Ba=Balance。

另外，在假定标记性制约条件和忠实性制约条件在习得的初始态存在统制关系的偏态，比如标记性制约条件>>忠实性制约条件的情况下（注：与此相反，Hale和Reiss(1997)认为习得的初始状态下忠实性制约条件>>标记性制约条件。）（例如将所有标记性制约条件的初始值都设为100，而将所有忠实性制约条件的初始值设为50），GLA可以较好地预测习得顺序(Boersma and Levelt 1999)。

4.结语

概率性OT一方面继承了传统优选论高度形式化的特点，具有强大的模式识别力，便于研究者形成研究假设和证伪研究假设，同时概率性优选论通过引入制约条件随机域值分布和随机评估理论，以及信息论的最大熵理论，更符合人类认知的特点，与当今认知科学的发展相契合，为解释在线产出、自由变异，以及非音系因素（如言语风格、语速和在线产出管理等）对音系的影响找到了较为理想的途径。

标签：概率分布论文; 概率计算论文; 认知过程论文; 语言描述论文; 系统学习论文; 认知风格论文;

概率最优选择理论_概率分布论文

猜你喜欢