从语言工程的角度看“中心展开条件”与“并列条件”_功能分析论文

从语言工程看“中心扩展条件”和“并列条件”,本文主要内容关键词为:条件论文,语言论文,工程论文,中心论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 问题的提出

汉语词类划分作为构建汉语语法体系的基础工作,长期以来却是困扰汉语语法研究者和中文信息处理研究者的一个大问题。下面通过一个例子说明主要问题之所在。

(1)a.科学出版社非常迅速地出版了这本书。

b.这本书的出版标志着我国思想界的进一步解放。

c.这本书的封面显然是用中华书局的原版封面翻拍印制的。

例(1)a中的“出版”是动词(v),没有争议,例(1)c中的“封面”是名词(n),也没有争议,例(1)b中的“出版”是什么词,在汉语语法学界则一直争议不断:是动词、名词,还是动名词、名动词?沈家煊(2007,2009a,2009b)提出汉语词类的包含模式理论,即汉语里的名词包含动词,动词包含形容词,因此例(1)b中的“出版”既是动词,也是名词。①

沈先生的理由是:这样处理之后的语法理论既不违反“简约原则”,也不违反“扩展条件”(本文称为“中心扩展条件”)和“并列条件”。我们对此的质疑是:1)怎么知道(或评判)哪个理论更简约?理论的简约是一种主观感觉,还是有客观的评价标准?2)“中心扩展条件”、“并列条件”是否真的不能违反?沈先生的理论真的做到了既不违反“中心扩展条件”,又不违反“简约原则”吗?下面就来重新审视沈先生的词类包含模式理论的上述立论依据是否可靠,或者说沈先生提出的这种理论的好处是否真的存在。

2 关于“简约原则”

“简约原则”又称“奥卡姆剃刀(Ockham's Razor)原则”。这是被学术界普遍接受的一种观念,即所谓的“若无必要,勿增实体”。强调在竞争的两个理论中,如果理论的解释力相同,那么简单的那个理论胜出。这个观念很好理解,但是在具体操作层面,要比较两个理论哪个更简单,却绝对不是一件简单的事情。有时候直觉简单的理论,其实并不简单。下面举一个例子说明。

“开飞机容易”、“打是疼,骂是爱”是汉语中合法的结构,其中句法结构的主语由“开飞机”、“打”、“骂”等“动词性成分”充任。如何描述这样的现象呢?理论甲的描述方法是提出两个假设:1)汉语中动词做谓语不做主宾语;2)动词做主宾语的时候变成了名词。理论乙的描述方法是提出一个假设:汉语中动词本来能做谓语也能做主宾语。那么,是不是能根据理论甲有两个假设,而理论乙只有一个假设,得出理论乙比理论甲简约的结论呢?

答案是否定的。用自然语言描述的理论有时候会给人错觉,比如上面在对比理论甲和理论乙的时候,以为理论甲需要用到两条假设,而理论乙只需要用到一条假设。其实,要解释同样多的事实,理论乙需要的假设(规则)一点也不比理论甲少。如果用S代表句子,vp代表动词性成分(包括动词和动词短语),np代表名词性成分(包括名词和名词短语),那么,理论甲的两条假设对应的形式规则可以表达如下②(规则中的箭头可以解作“推导出”或“变为”。R1、R2、R'1、R'2等为规则编号,便于称说):

(R1)S→np vp(说明:S变换为np+vp,np作主语,vp作谓语)

(R2)np→ vp(说明:np变为vp,这样vp也就可以作主语了)

同样的,理论乙的一条假设对应的形式规则其实也是两条:

(R'1)S→np vp(说明:同R1)

(R'2)S→vp vp(说明:S变换为vp+vp,第一个vp作主语,第二个vp作谓语)

把自然语言表达的理论假设“翻译”成严格的形式文法后,就会发现,其实两种理论的规则条数是一样的,谁也不比谁“简约”。理论甲和理论乙都可以“解释”两种组合模式:“名+动”主谓结构(如“他+开飞机”)和“动+动”主谓结构(如“打+是疼”),但都无法解释汉语中的另一种组合模式“名+名”主谓结构(如“他+黄头发”)。要解释这种模式,按照理论甲的思路,仍然可以用两条规则来做到,同时还能解释原来可以解释的事实(前两种组合模式)。理论甲修改后得到如下新版本:

(R1)S→np np(说明:S变换为np+np,第一个np作主语,第二个np作谓语)

(R2)np→vp(说明:np变为vp,这样vp就既可以作主语也可以作谓语)

但按照理论乙的思路,③要“解释”上述三种组合模式,就需要三条规则:

(R'1)S→np vp

(R'2)S→vp vp

(R'3)S→np np

那么,是否由此就可以认为理论甲比理论乙更简约呢?

答案仍是否定的。因为理论甲虽然规则少,但它描述的事实也跟着就出问题了,它在能够解释三种主谓结构组合模式的同时,会产生一种新的错误组合模式:从R1和R2可以推导出S→vp np这样的组合。推导过程是:R1中的第一个np变换为vp,第二个np保持不变。这条规则会把“开+飞机”这样的述宾结构分析为主谓结构,而这显然不对。

通过上面这个简单的示例,不难看到,要评判两个理论谁更简单,并不能诉诸直觉。事实上,在比较两个理论的复杂程度之前,我们得有办法评估一个理论能解释多少事实。只有满足了两个条件,才能客观评价两个理论的复杂程度:1)一个理论所能解释的事实多少是可以量化的;2)一个理论模型本身是可以计量的(可比较大小)。上面例子中理论甲和理论乙用自然语言表述的时候,是无法计量其大小的。

直到上个世纪60-70年代,数学家和信息科学家才把诞生于14世纪的“奥卡姆剃刀原则”从一个抽象的观念变成了操作上可计算的算法(algorithm)。数学上用柯尔莫哥洛夫复杂度(Kolmogorov complexity)④这个概念来表达一个对象(比如负载了一定信息的字符串)的复杂程度。这个概念有一个别名是描述复杂度(descriptive complexity)。具体怎么定义这个复杂度呢?数学家想出的办法是用打印程序来模拟,即一个字符串的复杂程度,可以定义为打印出这个字符串所写的打印程序的长度。对同一个字符串,人们可以写出不同的打印程序来打印出这个字符串。这些打印程序就是解释该字符串的不同理论。这样,理论复杂度的比较问题,就转化为打印程序的长短比较问题。短的打印程序简单,长的打印程序复杂。那么,为什么同一个字符串,会有长短不同的打印程序呢?或者说,打印程序(理论)跟打印对象(字符串)之间的本质关系到底是什么呢?答案是,打印程序的本质是发现打印对象的规律,如果发现了字符串的规律,就可以把长的字符串压缩成更短的字符串(比如“010101010101”这个字符串可以表述为“6个01”,后者比前者缩短了)。这样一来,好的理论其实就是好的压缩程序,它可以把所描述对象压缩成更短的代码。而发现好的理论的前提是,我们能发现对象的内在规律。信息科学中用最短描述长度原则(minimum description length,MDL)来表达为一个对象发现最好的打印程序(或压缩程序)的算法。⑤至此,简约原则(或奥卡姆剃刀原则)才算是有了一个可操作的版本。那么,是不是什么理论都可以用上述办法来度量其复杂度呢?答案再次令人遗憾。有些描述对象太复杂了,比如自然语言,以至于要发现一个符合MDL的理论模型是不可能的。自然语言的句子理论上是无限多的,而且语言学家至今也没有实现用“有限规则生成无限个句子”的理想。⑥在自然语言信息处理领域,只能针对某个具体的语料库(即数量有限的句子集合),发现一个解释该语料库的MDL理论模型,但这个“好”的理论模型在处理其他的语料库(句子集合变了)时,很可能就成了一个表现糟糕的模型。

以上是我们关于简约原则的看法。我们的目的是说明,关于理论简约性的客观度量需要比较复杂的数学和计算技术。如果仅仅停留在哲学层面或直觉层面谈论简单与复杂,很容易陷入公说公有理婆说婆有理的无效争论。对此,本文不再展开讨论。下面回到具体的相对容易判别的问题上来,看看“中心扩展条件”、“并列条件”在汉语中的实际表现情况如何。

3“中心扩展条件”、“并列条件”的基本含义

在到树库(treebank)语料中考察中心扩展条件和并列条件的表现情况之前,我们需要先明确一下这两个概念的具体内容。这里引沈家煊(2007)对这两个概念的说明。中心扩展条件(Head Expansion Condition,记作HEC)指的是“以一个成分为中心加以扩展,扩展后的结构的语法性质跟中心成分的语法性质一致”。并列条件(Coordination Condition,记作CC)指的是“在非临时活用的场合,并列的两个成分应该属于同一词类或同一语类(Radford 1988:76)”。

沈家煊(2007)在说明“中心扩展条件”和“并列条件”的性质时,还引用了Lyons(1968:331)的论述并补充了自己的意见:

“N和NP之间,V和VP之间都存在一种必不可少的(essential)的联系,对哪种语言都一样。……NP和VP不仅仅是帮助记忆的符号,而是分别表示句法成分NP必定是名词性的,VP必定是动词性的,因为两者分别以N和V作为其必需的主要成分。”他(指Lyons)接着说,如果有哪位语言学家提出诸如“NP→V+VP,NP→V,VP→T(冠词)+N”的规则,“那不仅是有悖常情的,在理论上也是站不住的。”这些话是就“扩展条件”而言的,但是也适用于“并列条件”,提出有“NP和VP”这样的并列结构也是有悖常情的,理论上站不住的。

根据以上关于“中心扩展条件”和“并列条件”的说明,可以把以下例子区分为两类:

(2)a.这本书的封面 这本书的出版

b.封面和封底 图书和出版

例(2)中Ⅰ组的例子显然是符合“中心扩展条件”和“并列条件”的。Ia中的中心成分是“封面”,扩展后的结构“这本书的封面”的语法性质跟“封面”一致。Ib中“封面”和“封底”并列,属于同一词类。

如果按照严格的“中心扩展条件”和“并列条件”的定义,例(2)中Ⅱ组的例子显然不符合“中心扩展条件”和“并列条件”。汉语语法的研究者们也正是因为很自然地感觉到了上面Ⅱ组例子跟Ⅰ组例子的显著区别,同时又想把两组例子的句法结构“统一”起来,使得统一后的结构满足“中心扩展条件”和“并列条件”的要求,才会费尽心力地去发明语法理论模型,来解释如何才能让Ⅱ组例子满足这两个条件。沈家煊(2007)在提出自己的理论主张之前,评价了程工(1999)、司富珍(2002,2004)、陆俭明(2003)、熊仲儒(2005)等学者提出的DP、DeP(“的”字作结构中心)等理论模型,指出这些模型为了满足“中心扩展条件”,付出了违背理论的简约性原则的代价。在分析了已有的理论模型的“不足”之后,沈家煊(2007,2009a,2009b)提出了汉语实词包含模型,在这个理论模型中,动词可以无标记地“构成”为名词,因而“出版”作为“这本书的出版”的中心语,既不违反中心扩展条件,也不必付出违背理论简约性的代价。

对相关理论模型及争议情况做了简要梳理后,不难概括出两个要点:

1)尽管沈先生跟之前的DP、DeP理论模型的主张不同,但大家有一个共识,就是普遍接受“中心扩展条件”(及“并列条件”)且不能违反这个前提。

2)沈先生跟其他学者的不同在于:他在坚持这个前提的同时,还要兼顾“理论的简约性”这一原则(其他学者应该也主张理论应该简约,但在分析这个具体问题时,没有显式地强调这一原则)。

上文第二节我们对“简约原则”的讨论中已经指出,评价一个理论简约与否,如果不做形式化和定量分析,是无法得到客观结论的。仅仅在理论模型中声称“动词可以无须加名化标记就构成为指称语(名词)”⑦(类推到短语就是动词性短语vp可以无标记地“构成”为名词性短语np),并不能证明这样的理论模型就是简约的。当然,同样也不能说这种理论模型更复杂。如果要问上述这些理论模型哪个简约哪个复杂,我们认为,当前实事求是的回答应该是无法评价。

能够进行评价的是相对客观的“中心扩展条件”和“并列条件”,这两个条件的定义相对清楚。本文打算调查实际语料中到底有多大比例的例子是跟例(2)中Ⅱ组例子类似的情况,并反思这两个条件是否一定不能违反。

4 树库中的NHE结构和NCC结构

基于对“中心扩展条件”和“并列条件”的认识,可以把符合这两个条件的结构分别记作HE结构(中心扩展结构)和CC结构(同类成分并列结构),相应地,把不符合这两个条件的结构记作NHE结构(违反中心扩展条件的结构)和NCC结构(违反并列结构条件的结构,也即非同类成分并列结构)。

树库是对句子进行了句法结构标注的语料库(周强2004;陈锋等2008;Abeillé 2003;Xue et al.2005)。有了树库语料,就可以方便地调查HE、NHE、CC、NCC结构在真实文本中的分布情况。下文是北京大学树库(詹卫东2008)中一个句法结构标注实例(见图1),例句来自中国政府白皮书(1994)《中国妇女的状况》。其中涉及的标记的含义为:zj整句,dj单句,np名词性短语,vp动词性短语,ap形容词性短语,dp副词性短语,ude1的,wfs句号,n名词,v动词,a形容词,d副词。标记之前的叹号“!”表示该成分是整个结构的中心语。

图1中“妇女经济地位的提高”是一个类似“这本书的出版”的短语结构,在北大树库标注规范中,为了区别“这本书的出版”和“这本书的封面”,前者被标记为“np ude1!vp”结构,而后者则标记为“np ude1!np”结构。通过这种标记方式,可以很方便地检索出树库中哪些“的”字结构np的中心语是由np充当的(即HE结构),哪些“的”字结构np的中心语是由非np(如vp,ap等)充当的(即NHE结构)。上例中,“妇女经济地位的提高”就是一个NHE结构,“最重要的基础”则是一个HE结构。二者的共同之处是整个结构都被标记为np,句法上属名词性短语,语用功能为指称。但前者的中心语“提高”是vp,跟整个短语的功能类(np)不一致。后者的中心语“基础”是np,跟整个短语的功能类(np)一致。

从标注好的树库中可以抽取短语结构组合规则。根据调查的需要,我们抽取的规则包括:1)全部短语结构规则;2)符合中心扩展条件的规则;3)不符合中心扩展条件的规则;4)符合并列结构条件的规则;5)不符合并列结构条件的规则。北大树库的规模情况及抽取的各类具体规则数量见表1—表5。

上面表中NHE及NCC规则的统计数据是程序根据规则形式自动判别的。判别方式是:一条规则为HE规则,当且仅当规则符合XP→α! XP β这样的形式(其中α、β可以是空字符串),否则该规则为NHE规则。一条规则为CC规则,当且仅当规则符合XP→!XP c XP或XP→!XP wsc XP的形式(其中c为连词、wsc为顿号)⑩。否则为NCC规则。对于这种(判定)做法,有两点需要进一步明确说明:

第一,关于NHE和NCC规则的认定虽然有明确的操作标准,但实际上不难看出,一个规则(或一个结构)是否属于NHE或NCC规则(结构),是在标注语料库的时候就已经确定了的。在我们的树库标注体系中,“这本书的出版”因为中心词在“出版”上,而且“出版”标为v,整个结构的类别标为np,从而使得这个结构必然是一个NHE结构。试想在另一个标注体系中,如果把中心词标在“的”上,整个结构标为DeP,或者中心词标在“出版”上,而“出版”又标为n,则按照我们的自动抽取操作标准,这个结构就是一个HE结构,而不再是NHE结构。由此不难看出,从树库语料中抽取NHE和NCC结构,背后的实质性的标准乃是我们的语法理论体系(假设)。从某种程度上说,我们之所以把“这本书的出版”认定为NHE结构,是因为我们想突出这种结构跟“这本书的封面”的区别。而那些主张“这本书的出版”应该处理为HE结构的理论假设,则是因为他们想强调“这本书的出版”跟“这本书的封面”的共性。纯粹从理论设计的角度来说,完全有可能做到让所有的结构都符合HE结构的要求(比如X-bar理论的设计就可以让所有的短语结构都符合HE结构的要求)。需要强调的是,本文关心的并不是判定一个具体的结构属HE结构还是NHE结构,而是试图揭示:一个语法理论可以假设所有的结构都属HE结构,但这仅仅是一种选择而已,并不带来实质性的让语法理论简约的好处。从这个意义上讲,下文举出的那些NHE结构和NCC结构的例子,从理论上说也都可以找到办法重新把它们描述为HE结构和CC结构。但是,当理论描述选择这种做法的时候,它很有可能恰恰正走向简约的反面,而不是在走向简约。

第二,通过程序自动判别得到的数据可能有一定误差。不过,我们的目的并不是统计出精确的数据做量化分析,而仅仅是指出实际语料中存在NHE规则和NCC规则的实例。很显然,从实例频次的对比来说,NHE规则和NCC规则相对于HE规则和CC规则都是绝对少数。换言之,真实语料中的大部分短语组合都是符合“中心扩展条件”和“并列结构条件”的,但是我们想强调的是,也确实存在不符合这两个条件的实例,尽管比例不高,但违反中心扩展条件和并列结构条件的组合模式也并非特例。

下面就来分析NHE结构和NCC结构的具体实例,见下页表6。

表6中的1、2都是通过结构助词系统地改变结构的性质,比如“的”、“地”、“似的”等结构助词,可以系统地使得结构整体的功能不同于其中中心成分的功能。(11)此外,汉语中也存在结构功能不需要标记成分的帮助,直接发生功能转换的情况,如表6中3、4、5都是这类情况。陈述性成分、修饰性成分都直接转为指称性成分。最有意思的转类情况是像表6中8这样的组合,“过桥”是vp,“不远”是ap,二者组合后,表示一个处所,整个短语成了sp(处所词性短语)。

从规则形式看,下页表7中的规则都符合NCC的判定标准,但内部情况有区别。如果从宽泛的标准看,表7中1至3也可以属于CC结构,因为1和2中ap跟vp并列,ap跟dj并列,可以理解为都是谓词性短语,3中,dp跟dp并列,可以理解为都是修饰性短语,因而也可算是同类并列。尤其2中“地震”因为词典收录为动词,在参与短语组合时就成为vp。“火山喷发”是主谓式dj,这样就形成了vp跟dj并列的NCC结构。

但是,显然二者的内部结构是平行的。而且,从严格的同类并列标准看,这三种情况又应属于NCC结构。这些例子的启示在于并列条件是相对的。短语类(词类)是同一范畴还是不同范畴,有一定的相对性(类似的,中心扩展条件也是相对的)。5中并列前项是“一间红瓦灰墙的小屋,一排白漆的大栅栏”,属np。并列后项是“还有三五个人影”,属vp。从语义上说,后项vp中的“还有”几乎没有语义功能,这里参与并列结构语义组合的其实是vp中的“三五个人影”。但在句法形式上,5仍然构成NCC结构。6的并列前项是“今天开始”(dj),后项是“明天”(tp),属典型的因为成分省略造成的NCC结构(传统语法中一般称为“骈合结构”)。

下面重点分析一下表7中4中np跟dj构成并列结构的情形。通过分析这个例子可以看出,汉语中陈述性成分可以无标记地转为指称性成分。这个性质造成的后果是:中心扩展条件、并列条件、理论的简约性之间的关系其实是“鱼跟熊掌,无法兼得”。见下页图2。

表7中4的句法结构分析引出的一个核心问题是:汉语中主谓结构是陈述性成分还是指称性成分?如果是陈述性成分,则主谓结构跟np并列的时候,就违反了“并列结构条件”,如上面图2所示,np跟dj是非同类成分并列。如果把“广播频道增多”分析为指称性成分,则不违反并列结构条件。但是,当它不违反“并列结构条件”的时候,就要进一步追问,主谓结构的中心语又是什么呢?如果主谓结构的中心语是谓语vp,那么,例中作为指称性成分的主谓结构(跟np并列的dj),其功能就又跟vp(“增多”)不一致了,前者是起指称作用,而后者是起陈述作用。这样,就又违反了“中心扩展条件”。这个例子显示,在短语结构的组合过程中,如果在一个层次上要遵守“并列结构条件”,就可能在另一个层次上违反“中心扩展条件”,二者难以兼顾。如果要兼顾,就必然要迫使“增多”从动词类转为名词类。这样才能使得“广播频道增多”符合中心扩展条件的要求。

这样处理后,上面的结构就同时满足中心扩展条件和并列条件了。但带来的问题是显然的,就是理论不再简约。不仅“增多”现在要兼属动词和名词两类,而且“广播频道增多”要兼属主谓式单句(dj)和名词性短语(np)两类。更为严重的是,这种情况并非个例,而是普遍存在的。下面引沈家煊(2009b)举过下面的例子:

这个例子中开头的主语是“美国的介入”,后面则用“美国介入”作主语。仅相差一个“的”字,但其中蕴含的汉语句法结构的特点却需要引起足够的重视:汉语中的主谓结构既可以用于陈述表达功能,也可以用于指称表达功能,在表层句法结构上表现为主谓结构可以做主语,而且本身不需要添加形式标记。有“的”和没有“的”,都不妨碍“美国介入”起指称作用。区别只是,有“的”之后,“美国的介入”只能用于指称(句法上分析为np),没有“的”的时候,“美国介入”可以用于指称,也可以用于陈述(句法上分析为dj)。主谓结构本身的内部中心成分是谓词性的(起陈述表达功能),但主谓结构整体则既可以起到谓词性功能(作谓语),也可以起到体词性功能(作主、宾语)。因为汉语主谓结构存在上述用法特点,构建汉语短语结构规则系统时不违反“中心扩展条件”就很难做到了。

上面图2中的np并列结构要同时满足同类成分并列的条件和中心扩展条件,就不得不假设“改进”、“普及”和“增多”既是动词,也是名词(这就是沈家煊先生汉语词类包含模式的思想,本质上也就是传统的动词名物化的主张),但这样做的后果就是,理论上在词和短语层面都会造成大面积的兼类问题——极端情况就是所有的谓词性短语dj、vp、ap等都同属np。

黄昌宁等(2009a,2009b)主张语言工程中把“n+v”(如“文艺批评”)、“a+v”(如“重大调整”)、“v+v”(如“继续教育”)的中心成分都处理为名词,并认为这样处理后动名兼类词比例并不高,“不会打破‘兼类的词只能是少数’的格局,也不会造成‘词无定类’的恶果”。但实际上,问题远不是黄先生所估计的那么乐观。沈家煊先生在提出汉语实词包含模式时,也主要是以“这本书的出版”这样的结构为分析对象的,认为只要把“出版”处理为既是动词,同时又是名词,就解决了中心扩展条件的问题了。

但其实汉语中短语结构分析和词类问题的要害并不在于上面这些结构,而在于像主谓结构和述宾结构这样的谓词性短语(陈述性成分)都可以无标记地转为非陈述性用法。下面是陈述性成分用在非陈述性的句法位置的一些实例:

限于篇幅,这里只简要分析一下例(7)a的情况。“崇尚国粹”是一个典型的述宾结构vp。而“国学家们的崇尚国粹”是一个用作指称表达的短语,整体功能类应属np,于是,这个结构就成了一个NHE结构:vp作np的中心语。如果要避免这种分析,就得想办法把“崇尚国粹”变成np。

一旦这样处理了,问题就接踵而来:这个作为np的“崇尚国粹”中的“崇尚”是v还是n呢?“崇尚国粹”的中心词是“崇尚”还是“国粹”呢?如果一个为了不违背中心扩展条件而构建的汉语语法理论模型将“崇尚国粹”分析为兼属vp和np两类,其中的“崇尚”也兼属v和n两类,我们就没有任何理由相信,这样的理论模型会是简约的,至少,它不可能比不主张“崇尚国粹”和“崇尚”兼类的理论模型简约。

5 为什么会有违反“中心扩展条件”和“并列条件”的结构

那么,为什么在常规的HE结构和CC结构之外,语言系统会有NHE和NCC结构呢?我们的假设是:言语交际中,说话人(信息发出方)为了编码简约,会尽量压缩编码长度,省略那些信息量低的成分,而这样的成分在语篇中往往是上文已经出现的旧信息或背景信息,在句法结构中一般是中心成分。中心成分省略后,新的结构体很可能就违反中心扩展条件了。(12)面是这个过程(常规结构中的成分省略)的简要示意:(13)

例(8)a“成套的书”的中心成分“书”省略后,新的结构“成套的”从句法分布功能的角度讲,跟原来的“成套的书”等同,因此仍属np,但中心成分既不是“成套”(vp),也不是“的”(结构助词)。如果一个语法学理论强调“中心扩展条件”是不能违反的,那么为了解决这个问题,就必然要设计一套办法,或者假设有一个隐形的中心成分,或者让“的”成为中心成分,然后把整个短语分析为DeP(不同于np)。

例(8)b“实际情况”省略“情况”后,剩下的“实际”就要担负起原来由“实际情况”担负的功能,也就是“实际”将分布在“实际情况”的句法位置上,比如“教学”。这样,一个结构的中心成分省略后,当它以省略前的结构属性参与结构组合时,就可能会造成更多的NHE结构。这个由省略成分滋生出NHE结构的过程(从HE结构到NHE结构)示例如下:

例(9)a、b代表了常规的定中式np的两种结构类型:“xp的!np”和“xp! np”(xp代表任意短语类型)。例(9)a'、b'则代表了由于省略中心成分造成的定中式np的两种新的结构类型:“xp的!vp”和“xp! ap”。例(9)a'的中心成分不再是np,变成了动词“饲养”,例(9)b'的中心成分也不再是np,变成了形容词“实际”。如果一定要坚持结构必须满足“中心扩展条件”,那么,就必然要让“饲养”和“实际”都兼属n。

不过,遗憾的是,仅仅让词兼类,还是解决不了这个问题。根据上一节的分析,要满足中心扩展条件,需要让能够出现在α位置的动词短语vp、主谓结构dj,形容词性短语ap等谓词性短语类都兼属np才行。因为在例(9)中的α位置,不仅可以出现单个谓词,还可以出现谓词性短语。当体词性短语的中心成分(np)省略后,整体的功能必然要由原来的从属性成分(即α位置上的谓词性短语)来充任,只有让α位置上的成分都归属np,才能在α的父节点所在树结构往上的层次避免违反中心扩展条件的问题。但是,将α位置上的成分归属np这个操作本身,仍然会面临违反中心扩展条件的问题。以例9a'“军马的饲养”为例,应该怎么处理这个含有“空位”的树结构(把“空洞”删除掉)呢?图3展示了有两种处理方式,这两种方式从形式规则的角度看都是违反中心扩展条件的。

图3甲所示的方式就是主张兼类的方式,即让原来的从属成分α兼属XP/X'类(这里就是让“饲养”兼属np/n类)。图3乙所示的方式则是不主张兼类的方式,即主张汉语词类(短语类)多功能的理论模型。在这个模型下,“饲养”仍然以vp身份成为np的中心语。显然,无论是哪一种方式,本质上都要违反中心扩展条件,只不过具体发生违反的树结构层次不同罢了。图3甲是在X'→!a这个层次违反,上图乙是在XP→β!a这个层次违反。

上述过程如果用形式文法规则来描述,需要相同数量的规则。为了能同时解释“军马的饲养方法”和“军马的饲养”,主张兼类的理论模型和不主张兼类的理论模型分别对应的形式规则如下页表8所示:

显然,为了描述同样的语言现象,两种用自然语言描述的不同的理论模型,在简单程度上并无差异。更重要的是,无论哪一种模型,都必然要包含np→(α)!vp这样的被Lyons称为是“有悖常情”的规则(规则中α是可选的任意字符,可以为空)。

通过本文的分析可以看到,汉语中最重要的语法现象是:陈述性成分可以无标记地用作指称性成分,(14)沈家煊(2007,2009a,2009b)均指出了这一点。这一“事实”的存在,使我们有机会对主流语法理论中强调的“中心扩展条件”和“并列条件”进行更深入的反思。当代语法理论模型青睐“中心扩展条件”的理由很充分,因为符合条件的组合规则是“简单”的,中心成分与结构整体在功能上的共性使得语法规则的组织更容易系统化,X-bar理论就是这样的理论模型的典型代表。但是,语言“事实”却并不会轻易就范逻辑上“完美”(简约)的理论。言语使用者会不断尝试突破“中心扩展条件”(以及“并列条件”)的限制,因为遵守这个条件的约束,必然意味着更长的编码,而使编码缩短,是言语使用者的“天性”。追求言语表达的“简约”,必然造成语言句法系统的“繁化”——即组合规则(或组合模式)的数量(类型)增多。这个“冲突”不可能靠提出更简约的理论模型来回避。

6 余论

本文从语言工程句法标注实践中观察到的违反“中心扩展条件”和“并列条件”的实例出发,对汉语语法理论模型设计中是否应该以及如何遵循“中心扩展条件”进行了分析和反思。结论是汉语句法理论模型不可避免地需要包含违反“中心扩展条件”和“并列条件”的组合规则(当然这样的规则在实际语料中只占相当少的比例)。沈家煊先生正确地指出了汉语陈述性成分可以无标记地“构成”指称语的事实,但是由此提出的“汉语实词包含模型”并不是一个更简约的理论设计。从语言工程的角度看语法理论模型的设计,一个重要的评价标准是,理论是否能够反映语言事实中存在的区别(而不是忽视区别)。当我们觉察到“这本书的出版”跟“这本书的封面”,“语言学习”跟“语言系统”是有区别的组合时,语言工程中就应该把区别表达出来,比如“这本书的出版”标记为“np ude1 vp”组合模式,“这本书的封面”标记为“np ude1 np”组合模式;“语言学习”标记为“np vp”组合模式,“语言系统”标记为“np np”组合模式。而不是把这些组合处理成相同的模式,即把“出版”、“学习”跟“封面”、“系统”归为一类,都标记为np。这样的“兼类”做法对揭示区别并无帮助,虽然这样做达到了“表面上规则符合中心扩展条件”的效果。从语言工程和为计算机做句法结构分析的目的来讲,是否把“出版”、“学习”处理为动、名兼类,并不重要。重要的是用“类+特征描述”的知识表达方法,尽可能精细地去刻画词语的分布差异(比如“出版这本书”可以合法的变换为“这本书的出版”,而“属于这本书”却不能平行地变换为“这本书的属于”),以及词语对其组合对象的选择约束(詹卫东2010a)。

针对汉语句法系统中存在违反中心扩展条件和并列条件的组合(虽在少数,但非特例)现象,本文提出“语用省略”假说来加以解释。对此,有两点需要补充说明:

1)省略不是无限制的。解码的负担是对编码简约度的一个约束。编码过简,会造成大量歧义,带来解码负担过重,影响交际,社会中的每个人都既是信息发出方,同时又是信息接收方,在编码简约与解码负担加重的博弈过程中,信息发出方跟信息接收方的讨价还价最终达成语言系统的一个相对稳态。

2)并不是所有的NHE结构都能解释为是HE结构的省略。比如“这本书的出版”就不容易像上面分析“军马的饲养”那样,做出类似的分析。对此,我们的看法是,一旦一个NHE结构(比如np→xp ude1!vp)形成,使用时间长了,它就会跻身常规结构模式,从而不再由“常规结构”(HE结构)经由省略这个渠道来产生实例,而是以常规的类推的方式,直接由NHE规则产生新的实例。比如“这本书的出版”可以解释为由“np→xp ude1!vp”规则直接生成。

最后,值得一提的是,汉语中“np的vp”是典型的书面语结构,而非口语结构。我们猜测,书面语需要“的”来显式地标记整个结构的体词性(指称性),尽管不用“的”的“np vp”结构本身也可以兼具陈述性和指称性。而在口语中,上下文语境更清楚,同时,信息发出方更具缩短编码(简约)的动力,人们就会更倾向于使用“np vp”这样的短编码模式(如“美国介入”)来表达指称,而不倾向用“np的vp”(如“美国的介入”)这样的长编码模式。有关编码压缩程度与句法结构系统歧义程度大小之间的关系以及达成平衡的机制,“np的vp”跟“np vp”在书面语和口语上的语用差异,对于认识汉语陈述语和指称语之间的关系有重要的价值,这里只是先简要地提出了问题,要把这些问题研究清楚,还有待树库语料扩大规模及更为细致的标注。

①中文信息处理学界黄昌宁等(2009a,2009b)主张这里的“出版”在语料标注中应标为名词(即“出版”是动、名兼类词)。而俞士汶等(2003)则主张标为名动词(vn),意思是“出版”是动词,但在例(1)b中属于“特殊用法”,即动词用作名词。沈先生的理论观点落实到语言工程上,如果直接应用其词类包含模式理论的话,应该是例(1)b中的“出版”标v和标n两可,但是根据沈家煊(2009b)对“哭没用”中的“哭”应标为n的意见,可以推想,对例(1)b中“出版”的词性标注,沈先生跟黄先生应是持相同意见,即应该标为n。我们曾从计算机进行句法结构分析需要什么样的词语分布知识角度讨论过这里的“出版”的词性标记问题(詹卫东2010a),结论是工程上标n并不带来实际好处,反而增加知识管理的麻烦。“出版”理论上不是兼类词,在语言工程上就应该是单标记词,应标为v。标n或vn都不好。

②为节省篇幅,这里规则简化了,能说明问题即可。比如只有np作主语的规则,不涉及np作宾语的规则。

③理论乙的思路跟理论甲的思路的本质区别是:理论乙不主张无标记转类(即兼类):vp不能(或不需要)变成np(即动词没有名词化)。理论甲主张可以无标记转类:vp可以变成np(动词可以名词化)。

④可参考维基百科对柯尔莫哥洛夫复杂度的解释:http://en.wikipedia.org/wiki/Kolmogorov_complexity。

⑤可参考维基百科对MDL的解释:http://en.wikipedia.org/wiki/Minimum_description_length。

⑥Chomsky提出的产生式规则可以做到用有限规则生成无限多的字符串,但不能做到生成一种自然语言的全部句子且只生成这种语言中的句子。现有自然语言形式规则总是在生成正确句子的同时也生成一堆不正确的句子。

⑦沈先生提出的“动词可以无须加名化标记就构成为指称语”这样的主张,如果翻译成形式文法,就是“NP→V”(或N→V)这样的规则。而这正是Lyons所谓的“那不仅是有悖常情的,在理论上也是站不住的。”从这个意义上讲,即便承认沈先生的理论模型是简约的,那这个理论模型也是以违背“中心扩展条件”为代价的。

⑧规则Type(型)数指从树库抽取的不同形式的短语规则的数量(类似统计汉字个数时所有的字种个数,比如一般说的常用字3000个,就是字种数,即type数)。规则Token(例)数指树库中实际出现过的短语规则的数量(类似统计一个文本中的实际汉字个数,每个汉字出现一次就计一次)。

⑨表3—表5中涉及的短语类标记含义为:c连词,wsc顿号,tp时间词性短语,sp处所词性短语,qp数量短语。

⑩因是程序自动判别,所以没考察无并列标记的并列结构,只考察中间有连接标记(连词或顿号)的并列结构。

(11)有的语法理论模型主张这类结构中“的”、“地”、“似的”是中心成分,我们不持这种观点,可参见本文第五节的分析。关于树库语料中“X的Y”结构的不同类型和分布数据,参见詹卫东(2010b)。

(12)如果碰巧中心成分省略后留下的从属成分的功能类跟短语整体功能类一致,则造成新的组合不违反“中心扩展条件”的假象。比如“电视节目”省略中心成分“节目”后剩下的“电视”也是np,跟原来“电视节目”的功能类np是一样的,这种情形下,省略后的新结构可以看作没有违反“中心扩展条件”。

(13)限于篇幅,这里只讨论HE结构到NHE结构的过程,NCC结构的形成机制跟NHE结构是一样的。从略。例(8)和例(9)中XP,X',x等标记是采用X-bar理论中习惯的表达方式,即符合中心扩展条件的结构模式,x作为中心成分(head)向上投射,生成同功能类的XP短语。α、β表示不同的从属成分。

(14)实际语料中有的例子甚至同时兼具“陈述性”和“指称性”,比如:“这一批精品成套的出版,标志我国蒙古族当代文学的发展已经进入了一个崭新的阶段。”例中“这一批精品成套的出版”,既可分析为dj,又可分析为np。

标签:;  ;  

从语言工程的角度看“中心展开条件”与“并列条件”_功能分析论文
下载Doc文档

猜你喜欢