自然语言数字系统中句子语义接口理论的最新研究进展_数词论文

自然语言数词系统句法语义接口理论的最新研究进展，本文主要内容关键词为：数词论文,自然语言论文,句法论文,语义论文,研究进展论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

自然数是人类最早认识的数。在远古时代，人类在捕鱼、狩猎和采集果实的劳动中产生了计数的需要。起初，人们对数目的认识都是和具体的对象联系在一起的，例如要说“一只羊、两根木棒”等等。随后人们用手指、绳结等实物来计数，采用一一对应数数，例如表示捕获了3只羊，就伸出3个手指，这已经是一种很大的进步。经过漫长岁月，人们渐渐地把数从具体事物中抽象出来，先有数目1，以后逐次加1，得到2、3、4等等。

数是抽象概念，它并不是事物的某个特征，和事物所特有的性质无关，这一点和形容词代表的特征不同。这些抽象概念的形成几乎和人类历史一样长。直到不久前还发现有的语言甚至没有真正意义上的数词，例如皮拉罕语（

）只有“一、二、多”，前二者意思相当于英语的few和some（Everett 2005；Frank，et al.2008）。世界上还有少数文明落后的部落，数数只能数到“一、二、三”，“三”以上就是“许多”（Pica，et al.2004）。现在有些部落语言中仍然没有“五”这个词，只有“五只羊、五个人”等这样一些词，可见他们至今还没有完成“5”这个概念的抽象过程。

发展出数的概念之后，人类语言相应地发展出数词系统，给数命名，即称数法（numeration），藉此我们可以把“数”当作一个事物直接谈论，也可以用“数”来述谓其他事物。数词系统在人类语言中的地位很特殊。一方面，和语言的其他系统不一样，数词系统最容易受到语言外因素的影响，并且不像语言的其他系统，数词系统需要儿童经过系统的学习才能掌握。因此，有人认为数词系统是人造语言的一部分，不属于核心语法，至少对于十以上的数词是如此（Wiese 2003）。另一方面世界上各种语言的数词结构和语义诠释遵守语言的普遍规律，如结构的递归性、意义的组合性（Hurford 1975，2003），并且各种形态音系在数词上得到充分体现。

数词系统是语言中较特殊的子系统。Hurford（1975：3）指出“可能所有语言都有一个称之为数词系统的部门，这个系统和同一语言中所有其他系统都不同”。数词系统在各语言中的差别是很大的。世界上数以千计的民族使用着各种各样的计数系统，例如不同的进制。绝大部分语言复杂数词的组合利用乘法和加法，但是也有用除法和减法的。这些有趣的奇特现象反映了人类计数概念的不同以及语言与心智的关系。因此，数词系统的研究，本身就是一个十分有趣的语言学课题。王力（1984：319）曾指出没有数词系统描写的语法是不完整的，可见数词对语言学的重要性。就语言本体来说，数词系统研究涉及句法、语义、语用和形态音系几个大的方面，每个方面内部又有很多课题和争议的焦点，这些争议至今仍未达成一致意见，从中也可以看出目前语言学对数词系统研究的热烈程度。

数词系统还是一个跨学科研究的重要领域。这些跨学科研究目前十分活跃，取得很多成果，涉及人类学、民族学、认知科学、发展心理学和数学哲学等学科。本文拟只对数词系统的语言本体研究的最新进展做一批评性的综述，不涉及跨学科研究，后者超出了作者的能力，需要另外的专门介绍综述。即使是语言本体的研究，数词系统也涉及太多的问题，本文只针对数词系统的句法和语义（指称和组合语义）界面研究的最新进展做一次相对全面的批评性综述和评论，不涉及语用和形态音系研究，但是我们将充分展示形态音系对数词句法语义界面研究的重要意义和价值。由于篇幅的限制，本文只考察基数词的语言研究。

2.数词的指称

2.1 数词的四种指称

目前语言学界和哲学界对数词的指称有四种观点：指称数本身（相当于名词）、指称个体集合（相当于形容词）、指称从集合到集合的集合的函数（相当于量化词）、指称从集合到集合的函数（相当于副词）①。

第一种指称观点认为，发展出数的概念之后，人类语言相应地发展出数词系统，藉此我们可以把“数”当作一个事物直接谈论。数词直接指称“数”这种抽象实体，例如five这个数词指称“5”；five hundred and twenty one这个数词指称“521”，语法上相当于名词，语义类型为e或d。这种观点的哲学基础是数学哲学的主流观点——唯实论（柏拉图主义），即数是一种客观存在，不依赖时空、人类思维而永恒存在。以下Frege（1980）的经典例句表明数词具有直接指称数的功能，其中的数词一律指称数本身。例如（1c）明明白白地说“七是一个素数”。世界上绝大多数语言都有这种句式，汉语中还有一个明显例子是数词前面可以加“个”，表明“三”是一个个体，如（2）所示。

（1）a.Two and two is four. b.The square foot of two is an irrational number.

c.Seven is a prime number. d.The number of planets in the solar system is nine.

（2）四个三加起来是多少？

这看上去清楚而明显。语言学界持这种观点的有很多（Cresswell 1977；Krifka 1995；Hackl 2001；Kennedy and Stanley 2009；Rothstein 2011等）。

尽管数已经是一个高度抽象的概念，但并不是一个基本概念，数学中“数”的概念最后归结于更基本的概念——集合。而这个概念的形成先于数的概念的形成，道理是人类对数的概念发源于一组一组具有相同个数的事物。这样一来，数词five或five hundred and twenty one可以认为指称从集合到集合的集合的函数，此时数词在句法上相当于限定词（the、every），语义类型为〈et，〈et，t〉〉。这种观点最早见于“广义量词理论”（Barwise and Cooper 1981）。这样一来five定义为λPλQ｜P∩Q｜=5，five hundred and twenty one定义为λPλQ｜P∩Q｜=521，类似于量化词every的定义，于是five students这个名词短语可以用函数应用规则得出λQ｜P∩students｜=5。但是这种观点今天已经没有人支持了，因为数词和限定词的句法分布完全不同，例如量化词前面不可以有限定词，而数词前面可以（Ionin and Matushansky 2006：319-20）。数词可以直接做谓词，但是量化词不可以。这些区分在很多语言中都是如此。

（3）a.*the every student b.the three students

（4）a.We are four. b.*We are every.

（5）a.这五个学生 b.*这每一个学生

（6）a.我们是五个。 b.*我们是每一个。

此外，Hurford（1975：3）也早就指出数词和限定词的句法分布不同。例如，有时候数词可以出现的环境量化词不能出现，反之亦然。

（7）a.too many/very many/how many

b.*too six/very six/how six

（8）a.exactly six/less than six/almost six

b.*exactly many/less than many/almost many

随后有的学者把数词看成是复数个体的集合，代表一个特征，语言学中接受这种观点的也比较多（Verkuyl 1981；Landman 2004；Hofweber 2005；Moltmann 2013）。这种观点的哲学基础是唯名论，或者“达米特论题”（Dummett Thesis）。于是数词five指称一个集合，这个集合内部的复数个体只需具有一个共同特征，即都是由5个元素组成。这些元素包罗万象（罗素悖论所涉及的集合除外）。这时候数词five相当于形容词，语义类型为〈e，t〉，表达一个数量上的特征，即||five||=λX[｜X｜=5]。短语five apples的语义可以通过谓词修饰规则得出（9），意思是所有复数苹果的集合与所有5个元素事物的集合的交集。这种处理需要假设名词短语上面有一个存在封闭（existential closure）的操作。这并不是一个缺点，因为已经独立地证明存在封闭操作是存在的（Heim 1982）。

这看上去同样清楚而明显。数词的一个重要功能是修饰名词，并且数词可以直接用作谓词。

（11）We were two,now we are one.

还有一种观点认为数词指称从集合到集合的函数，这是最新的一个研究成果（Ionin and Matushansky 2006），它基于一种特别的句法，下面3.3节会详细讲到。

2.2 评论

数词指称问题非常重要，涉及语言与心智的复杂关系，也涉及认识论、知识论的哲学问题，例如是不是真的存在“数”这种东西。这个问题最好留给哲学家去争论，但是如果我们能够从语言中找到证据，认为数词只能指称数或者只能指称集合或者二者都可以，那么无疑会使我们做出更合理的判断。

现在仍在争议的是数词指称数还是个体的集合。如果认为数词指称数，容易解释数学句中的数词，但需要解释形容词用法的数词，如five apples。如果认为数词指称个体集合，比较容易解释形容词用法的数词，但需要解释数学句中的数词。双方都需要一个额外隐性的语言机制把一个转换成另一个，例如对于（1）中的数词，有一个类型转换机制负责把它们的集合指称转换为数。Frege很清楚这个问题，所以他认为数词本质上具有两种指称，后人称之为“弗雷格另一难题”（Frege's Other Puzzle，Hofweber 2005）。这也是Frege认为自然语言不完美的一个地方。

之后，出于理论经济性的考虑，有人认为数词只有一种指称，要么是数，要么是集合。数词总有一个最本质的语义指称，另一个是推导出来的。例如，Hofweber（2005）、Moltmann（2013）等学者认为，数词的最本质指称是集合，数的指称是第二位的。这种做法表面上给语法带来了简洁性，但其实不然，因为需要类型转换机制，并且多数情况下这种类型转换机制没有形态上的证据，只能是隐性的，所以并没有给语法带来任何的好处。由于目前各方都没有发现有力的语言证据，又考虑到绝大部分的数不能用集合来表达，例如π和自然对数的底e，所以目前的主流意见是遵从Frege的观点，认为数词是有歧义的。

就汉语来说，对数词指称的确定也许更加重要。汉语语言学一直认为汉语量词只和数词发生关系，现在也有形式研究支持了这种观点（Wilhelm 2008；Wu and Bodomo 2009；Bale and Coon 2014；贺川生待刊），而不是像过去很多生成语言学学者那样认为汉语量词只和名词发生关系（Cheng and Sybesma 1999；Chierchia 1998等）。如果是这样，我们也许可以从数词的指称方面了解量词产生的原因：为什么古汉语不需要量词，现代汉语需要量词，并且在某些特殊情况下量词又可以不出现。原因可能是汉语数词的指称发生了历时变化，而英语保留了数词的两种指称。

从语言的角度看，有事实支持数词指称数的观点。例如Kennedy和Stanley（2009），贺川生、潘海华（2014）对平均句中的数词研究表明，即使是名词组中的数词也是指称数这种个体的。另外数词和形容词虽然都可以直接修饰名词，但是也有区别。形容词代表的特征是事物本身固有的，但是前面已经指出数所代表的特征并不是事物的固有特征，它和对象所特有的性质无关。即使是直接修饰名词，数词和名词之间的关系也不同于形容词和名词之间的关系。这一点可以从下面的对立中看出。所以我们认为数词短语和名词之间的关系不应该是普通意义上的修饰限制关系，数词也不是普通意义上的形容词修饰语，它应该就是朱德熙（1982）所提出的同位关系。

（12）a.There are intelligent students./Students,there are intelligent*（ones）.

b.There are seven students./Students,there are seven（*ones）.

（13）a.有聪明学生。/学生，有聪明*（的）。

b.有七个学生。/学生，有七个（*的）。

另一方面，语言中也有事实支持数词只指称集合的观点。瑶语在两个数词相加时，数词后必须有量词，如（14a），很少说成（14b）（语料见舒化龙、肖淑琴1984：151）。这表明至少在某些语言中，数词不能指称数本身，只能指称集合之类的东西。

3.数词的句法结构

尽管数词指称这个问题没有解决（指称数还是集合），但是不妨碍我们研究数词的其他语义问题，例如复杂数词的语义是怎么得来的。

对于简单数词，这不是一个问题，three指称一个3的数或者3个一组的复数个体的集合，但是对于复杂数词，问题就不是那么明显。例如three thousand four hundred twenty one这个数词指称3421这个数或者3421个一组的复数个体的集合，但是这其中语义组合的步骤却没有说出来。尽管大家都认为大数结构涉及系数和位数的乘法和加法，例如“四万三千五百=4×10000+3×1000+5×100=43500”，但是这种概括并没有涉及结构上的层次，没有说出“四万”之间的语义关系，并且乘法和加法没有在这个表达式中有任何语言上的体现，所以与其说是语言知识的描写，倒不如说是数学知识的描写。这对于受过教育的人来说当然不是问题，但是语言学理论应该能够运用于人工智能，机器没有这种数学能力，所以必须先有语言学理论，才有机器编程。

要弄清楚复杂数词的语义是如何一步步组合而来的，先必须研究复杂数词的内部句法成分问题。正如下面所示，这个问题也是一个很有争议的课题，并不是每一个人都认为“四万三千五百”能够抽象地表示成“4×10000+3×1000+5×100=43500”，即“四万三千五百”在句法中并不一定是一个语义完备的句法单位。

3.1 Hurford（1975）

最早对复杂数词做出系统深入研究的是Hurford（1975）。他研究了英语、米克斯泰语（Mixtec）、法语、丹麦语、威尔士语、夏威夷语、约鲁巴语（Yoruba）的数词系统，提出复杂数词的内部结构适用于所有语言的数词系统，所用的是早期PS规则。

（15）a.NUMBER→｛DIGIT PHRASE（NUMBER）｝

b.PHRASE→（NUMBER）M

这个句法规则生成能力太强，会生成不合法的数词结构，例如*two thousand hundred、*twenty one hundred等等。为了限制数词的生成能力，Hurford提出包裹策略（packing strategy）作为所有语言数词系统的生成限制条件。

（16）包裹策略：NUMBER节点的姐妹成分必须有尽可能大的数值。

包裹策略没有对线性顺序做出规定，而是对层级关系做出预测。例如加法式数词中，较高数值的数词成分会最靠近树形图的顶端，所以英语中较高数值的数词处于左边。在乘法式数词中，较高数值的乘法数基最靠近树形图的顶端，所以英语中较高数值的乘法数基位于较低数基的右边。

法语也支持包裹策略。法语中，数值70是soixante dix（60+10），为什么不是*cinquante vingt（50+20）或者*quarante trente（40+30）呢？包裹策略选出了正确的soixante dix，因为soixante比cinquante和quarante大。同样，数值90会是quatre-vingt-dix（4×20+10）而不是*trois-vingt-trente（3×20+30），也是由于包裹策略的作用。

包裹策略是一个全局性的规则，它从每个数值所有可能的数词组合中选出唯一合法的数词结构。这个限制条件经过很多语言的检验都普遍适用，例外非常罕见。Hurford只举出了英语的一个例外，即英语中two thousand one hundred和twenty one hundred同时存在，按包裹策略只有第一个合法。Hurford解释说，这是由于在读阿拉伯数字2100时才出现的，受21，00的分析影响。如果我们从two thousand and ninety nine数起，那么下一个数词不会是twenty one hundred，一定是two thousand one hundred，在数数时，反例就消失了。

包裹策略是一个语言上的规则。直到很久以后，Hurford（2007）才进一步阐释包裹策略的深层理据其实就是数数中的算术原则。数数时遵守“有几个数就数到几个数”（Go as far as you can with the resources you have）。如果一种语言的数词只有1到10，他只能数到10然后再开始新的一轮数数。10个10个地成一个单位，然后数剩下的数，直到全部数完。所以如果有两组，大数目一定在小数目之前。数数的另一个原则是“数数涉及的实体尽可能少”（Minimize the number of entities you are dealing with）。假如一种语言有“百”和“千”的数词，那么three hundred thousand意味着数300个1000。当然这个数值也可以数成3000个100，但前者涉及的实体少很多，所以语言形式采用前者。

Hurford的结构表明，不管简单的还是复杂的，数词都是一个完整的句法成分。这是主流意见，是一个“零假设”。于是像two hundred这样的复杂数词短语构成独立于名词之外的完整句法成分，语义在内部生成。这是非常合乎常识的一个结论，因为直觉告诉我们复杂数词应该是一个短语，属于完整的句法成分。

Hurford（1975）之后，专门针对复杂数词内部结构的研究不多，大部分是研究简单数词，并且附带在大名词结构中，例如研究数词在大名词结构中的地位（是中心词还是标示语）、与名词的形态一致关系、数词的词类等等，更不用说组合语义问题了（Jackendoff 1977；Selkirk 1977；Corbett 1978；Ritter 1991；Franks 1994；Borer 2005等）。

3.2 Corver和Zwarts（2006）

Corver和Zwarts（2006）研究了很多语言中受介词修饰的数词（主要是荷兰语），他们论证了复杂数词一定是完整的句法成分（简单数词当然是），但是他们没有深入探讨内部的结构关系。例如荷兰语的数词可以和elke（each）、iedere（every）和zo’n（such a）结合，如（18）。这充分表明数名结构应该是[[Quantifier Numeral]Noun]而不是[Quantifier[Numeral Noun]]，因为量化词elke、iedere和zo'n不能和复数名词组合（*elke minuten（each minutes）、*iedere seconden（every seconds）、*zo'n mannen（such men））。注意这里的要点是在[[Quantifier Numeral]Noun]分析中，复杂数词一定是完整的句法成分，而在[Quantifier[Numeral Noun]]这种分析中，复杂数词不一定是完整的句法成分。

（18）a.[Elke drie minuten]viel er een druppel water op zijn hoofd

Each three minutes fell there a drop water on his head

‘Every three minutes a drop of water fell on his head.’

b.[Iedere twee seconden]kwam er een auto langs

Every two seconds came there a car along

‘Every two seconds a car passed by.’

c.Het concert duurde[zo’n veerig minuten]

The concert lasted such a forty minutes

‘The concert lasted approximately forty minutes.’

对于前面有介词修饰的数词结构，他们也论证了其中数词的句法完整性，即above three hundred students这样的短语应该分析成[above[three hundred]]students，而不是[above[three hundred students]]。同样在前者的分析中，three hundred 一定是完整的句法成分，而在后者的分析中，three hundred不一定是完整的句法成分。特别有力的论证是between这个词，他们说between ten and twenty languages不能分析成[between[ten and twenty languages]]，因为没有ten and twenty languages这个形式，所以[[between ten and twenty]languages]是唯一合乎逻辑的分析。在这种分析中，数词必须是完整的句法成分。如果涉及复杂数词，也是一样的。between one hundred and two hundred twenty languages只能分析成[[between one hundred and two hundred twenty]languages]。于是one hundred和two hundred twenty必须是完整的句法成分。

Corver和Zwarts（2006：825）进一步提出了语义证据。根据他们的观点，修饰数词的介词和修饰名词的介词一样，前者投射一个数在数轴上的一个空间上，后者投射事物到空间的一个点上。于是（19a）表示above投射一个数在100以上，而[above[one hundred students]]不能得出正确的语义，因为above不能直接修饰one hundred students（除非是空间解读，即100个学生的头上，但是很明显（19a）不是这个意思）。

（19）a.There are above one hundred students.

X[STUDENTS（X）&｜X｜∈ABOVE（100）]

3.3 Ionin和Matushansky（2006）

Ionin和Matushansky（2006）提出一种完全不同的数词句法结构，认为一个复杂数词应该投射层级性的补足语结构，如（20）所示。

（20）[two[hundred[books]]]

在这种分析中，数词并不构成独立于名词之外的完整句法成分。相反，一个数词是一个名词性的中心词，选择名词作为补足语，不管这个名词是否是一个名词还是数名短语。换句话说，数词短语不再是数词短语，语法中没有数词短语，表面上的数词短语其实是名词短语。

按照这种句法分析，含有加法式数词的名词短语，例如two hundred twenty books，每一个并列数词必须包含有名词，即来自于two hundred books（and）twenty books。他们认为有两种办法转换成two hundred twenty books：（1）右节点提升；（2）PF省略。

b.[two hundred books]（and）[twenty books]

他们的另一个理由是在一些语言中，和大于“一”的数词结合的名词在形态上是单数的，尽管这些语言具有复数形态，如（24）所示。这只是一个间接证据，和他们对数词的语义相符合。另外，英语等语言不支持这种分析，但是他们认为英语才是例外，three students在语义诠释中其实是three student。

3.4 对数词的其他句法研究：Zweig（2006）、Kayne（2010）、Danon（2011）

目前文献中其他几项句法研究与Ionin和Matushansky（2006）基本类似。Zweig（2006）在威尔士语、闪语和班图语的研究上也采取层级结构，但是认为数词不直接选择名词，而是选择一个词汇性名词NUMBER，如（25a）所示。Danon（2011）在希伯来语和阿拉伯语研究的基础上，认为不同语言，甚至同一语言中，数词有两种结构分析：名词性中心词选择名词补足语（即层级结构）；数词构成最大投射（即完整句法成分分析）。他的观点是折中的，如（25b-c）所示。

Kayne（2010）反对Ionin和Matushansky（2006）的层级结构，证据是以下语料中的话题化和VP省略。但是他提出与（25a）相似的句法结构，即[two[hundred NSFX]]books，NUMBER换成了NSFX，意思是名词性后缀（noun suffix）。这是一种不彻底的分析，仍然看不出数词是否能够构成完整的句法成分。

（26）a.They have hundreds of thousands of linguistics books.

b.（?）Linguistics books they have hundreds of thousands of.

c.*Thousands of linguistics books they have hundreds of.

（27）a.??Linguistics books they have three hundred.

b.*Hundred linguistics books they have three.

（28）a.They have three hundred linguistics books and we have three hundred,too.

b.*They have three hundred linguistics books and we have three,too.

3.5 He（in press）对Ionin和Matushansky（2006）数词层级句法的评论

Ionin和Matushansky（2006）认为他们的数词层级句法是跨语言的，适用于所有语言。He（in press）发现，这种数词层级分析应用于汉语复杂数词时面临着三个方面的困难，包括句法困难、语义困难和形态音系困难。句法困难包括概数词、过度生成和不足生成；语义困难包括概数词和并列名词；形态音系困难包括“一”的连续变调、“二/两”、“俩/仨”。下面每类困难中只简单介绍其中一个论证，详细的论证见He（in press）。

句法困难中，我们介绍不足生成。层级分析不能生成真正的算术数词短语，因为这种分析预测自然语言没有数词短语，如前所述。Ionin和Matushansky意识到这个问题，他们认为每一个数词后面其实都有一个隐含或省略的名词X，代表事物，例如“二十三是素数”分析成“二十X三X是素数”。但是Hurford（1987：159）早就指出这种分析是不合理的，事物并不是数。

语义困难中，He（in press）介绍并列名词。根据层级分析，当加法式数词结构涉及到并列中心名词时，例如“一百二十个男人和女人”，它应该来自深层结构“一百个男人和女人[和]二十个男人和女人”。如果是这样，那么它们的指谓应该是相同的。但是情况并不是这样。根据语感，“一百二十个男人和女人”可以有119个男人和1个女人或119个女人和1个男人的极端解读。但是这两个解读在深层结构中是无法获得的，因为根据这个深层结构，每一个解读都必须至少有2个男人和2个女人。这是因为“一百个男人和女人”的外延应包含至少一个男人和至少一个女人，“二十个男人和女人”外延也应包含至少一个男人和至少一个女人，所以在任何可能解读中，“一百二十个男人和女人”的外延必须至少包含2个男人和2个女人。

假设没有这两种极端解读（119+1），问题仍然存在。毫无疑问“一百二十个男人和女人”这个名词短语可以表示118个男人和2个女人或118个女人和2个男人。那么“一百个男人和女人”的外延应至少包含2个男人和至少2个女人，“二十个男人和女人”的外延也应该至少包含2个男人和至少2个女人，在任何可能解读中，“一百二十个男人和女人”的外延必须包含至少4个男人和4个女人。但这个名词短语应有的两种极端解读（118+2）不能获得。如果把“一百二十个男人和女人”这个名词短语中男人和女人所需的最小数量设为3或4，我们会有同样的语义问题，层级结构不会得出正确的结果。加法式数词和它们所谓的深层结构之间没有推导关系。前者解读的可能性高于后者，它们是语法的不同形式，具有不同的诠释。

形态音系困难中，He（in press）介绍“二/两”。汉语表示2的数词有“二”和“两”，它们的用法不一样。表示2个事物时一般只用“两”而不是“二”，但是当数词是复杂数词时，又必须用“二”，如下所示。按照层级分析，“十二个学生”就会来自于“十个学生二个学生”，但是“二个学生”本身是不合法的。而正确的形式“十个学生两个学生”又会得出不合法的“*十两个学生”。

（30）两个学生/*二个学生

（31）十二个学生/*十两个学生

He（in press）认为以上的句法和语义困难在英语和其他语言中也存在，并且在我国南方一些民族语言中，这种分析带来的形态音系困难非常普遍。He（in press）的调查涉及数词的变音变调（藏缅语族的藏语、门巴语、卡卓语和桑孔语，见第5节），也涉及混合的数词，即同一数目用不同语素表达，例子来自南岛语系、苗瑶语族和侗台语族，还有闽方言（邢福义1995；陈丽冰1999）。

He（in press）初步得出结论，Ionin和Matushansky（2006）的数词补足语结构分析是不成立的。俄语格标记是一个难点，俄语格标记并不是只有他们这种分析才可以解释，其他分析（数词成分分析法）也可以解释。有很多其他研究并不假设数词层级结构，而是把数词当作一个完整句法体（Babby 1985；Franks 1994；

2006）②。考虑到这一点，He文认为有必要重新审视关于数词句法的更传统的观点，即数词短语是独立于名词之外的完整句法成分，因此数词短语的语义可以在自己内部生成。He文设想所有数词序列都是数词短语，简称NumeralP。数词短语可以设想成一个X’结构，由一个中心词投射，中心词就是数基（位数词）。数基包括“十、百、千、万、亿”等。中心词的标示语是一个简单数词或者另一个数词短语。当标示语是简单数词时，生成一级乘法式数词；如果标示语是数词短语，得出二级乘法式数词，如此等等。在加法式数词的情况下，它们是并列式的数词短语。简单数词包括零直接投射数词短语，所以在任何环境中，简单数词都投射数词短语。“零”是一个数词，不是类似and的并列连词，理由是汉语可以有“一万零零零三”的说法，但是几个连词不可能连着说，于是，（32）就会有（33）的结构分析（这个树形图中很多细节不能详述，参看He（in press））。

（32）五百万零六百零一

4.数词的组合语义

什么样的句法结构决定了什么样的语义，He没有提出汉语复杂数词的具体组合语义，目前为止也没有人做这个工作。这主要属于技术层面的工作，只有确定了句法结构之后才可以进行进一步的语义步骤。这种自成完整成分的结构分析与前面说的数词指称集合或数都是匹配的。另外，汉语数词的组合语义需要考虑量词和光杆名词的语义问题。

到目前为止，Ionin和Matushansky（2006）是一套完整的句法语义接口理论，他们在句法树的基础上建立了严密的一一对应的语义组合程序。这是一个很大的贡献。但是He（in press）的工作表明，他们的结构分析是不合理的，由此而来的语义分析也应该是有问题的，因为句法决定了语义。下面我们看基于这种句法的语义的分析会有什么样的问题，He文没有讨论这个问题。

Ionin和Matushansky的句法结构决定了数词two和hundred等只能具有〈et，et〉类型，因为任何一个数词必须总是和一个名词性成分先发生组合关系。他们的定义如下。

这样一来，要组合five hundred thousand dollars的语义，首先名词dollars需要和thousand组合，然后thousand dollars与hundred组合，最后是hundred thousand dollars与five组合，最后意义是（37），意思是五箱子的一百叠的一千张的一美元钞票，总数是500，000。

由于采取层级结构，所以Ionin和Matushansky数词语义的核心在于受数词修饰的中心名词逻辑上必须是单数形式，表示原子个体的集合｛a，b，c，…｝，这是必然的结果。他们把这个单数性要求归于一个语用制约：“只有相同（已知）基数的个体才可以数”，认为这个制约确保真正的复数名词不能和数词结合，因为一个复数个体的集合并不一定意味着每个复数个体具有相同的基数。另一方面，数词可以和单数名词以及另一个复数性的数名结构结合，因为一个原子个体的集合意味着每一个个体都有相同的基数，即1；一个复数性的数名结构（如hundred books）指谓的集合一定意味着每一个复数个体都具有相同的基数，即100。

上面的分析存在逻辑矛盾。从理论上讲，与大于“一”的基数相结合的名词具有内在单数性要求，只是从他们的语义定义中得出的，如（34-36）所示，其中每一个S必须是一个P，因为S必须是原子个体，所以P必须表示原子个体的集合（单数NP）。这个假设并没有独立的证据，如果我们给数词下不同的定义（例如作为〈e，t〉属性），那么NP完全可以表示一个复数个体的集合，如｛｛a，b，c｝，｛d，e，f，g，h｝，｛i，j，k，l，m，n，o｝…｝。

另外，“只有相同（已知）基数的个体才可以数”这个假设是不成立的。从（34-36）可以看出，数数反映在子公式｜S｜=2或｜S｜=100上。在集合论中，S可以是不同数目原子的集合的集合。这可以从短语（38）看出，它直接告诉我们，个体有不同的基数。如果该制约真的存在，那么（38）应该是一个不恰当的形式。同样（39）清晰地告诉我们：“A是所有自然数的集合，B是所有实数的集合。根据康托，这两个集合有不同的基数。”如果“只有相同（已知）基数的个体才可以数”，那么（39）根本就不能说，即表达式these two sets本身是不成立的，也就是说我们不能说these two sets，因为这两个集合具有不同的基数，违反了“只有相同（已知）基数的个体可以数”的这个假设。但是（39）却是合适的语句，表达一个数学发现，于是（39）体现了Ioinin和Matushansky（2006）分析的一个内在逻辑矛盾。

（38）two sets of atoms of different numbers

（39）A is the set of all natural numbers and B is the set of all real numbers.These two sets have different cardinalities,according to Cantor.

从实证上讲，有理由显示和大于“一”的基数结合的名词应该表示复数。例如，（40）存在着五个相互合作的助手的解读。在这个解读中，中心名词必须表达复数外延，否则这个句子是无解的。

（40）We need five cooperative assistants.

更重要的是，其语义在并列结构中会导致语义错误。按照他们的理论，two hundred men and women应该表示一个复数个体的集合，其中每个个体分为2个非重叠的个体s，它们的和是这种复数个体，并且每个s又分为100个非重叠的个体s′，它们的和是s并且每个s′具有男人和女人的特征。但子公式men and women（s′）是无解的，因为没有东西能够同时既是男人又是女人。

这个问题取决于如何定义连接词and。我们可以穷尽目前关于“and”的语义，一一做分析。首先，它不能被定义为集合相交（intersection）的关系，因为这两个名词性质不相容（λx[man（x）&woman（x）]）。即使是相容的名词（如two hundred friends and colleagues），相交式解读不是唯一解读，因为这个名词短语可以有分裂的解读（有些是朋友，有些是同事）。假设“and”被解释为集合合并（union）的关系，那么“men and women”是指一个包含男性个体和女性个体的集合。但这个名词短语的解释相当于“two hundred men or women”。假设“and”被解释为笛卡儿积（Cartesian product），即

，个体变量x是一个男人和一个女人的集合，这会导致不正确的外延，如（42）所示：200个男人和200个女人，一共400个。这个名词短语的正确解释是一个男人和女人的集合，其总人数是200，没有指定男人和女人的实际数量。如果中心名词是由三个并列项组成（two hundred men，women and children），那么就会有600个人。假设“and”被解释为“非布尔和”（non-Boolean sum），即

，我们仍然获得一个不正确的外延：200个个体，每一个是男人和女人的“和”，又涉及到200个男人和200个女人，一共有400个，如（43）所示。

5.我国境内民族语言数词的形态音系

世界上各种语言的计数方式在遵守普遍规律的同时又展现各自特色，过分强调各自特色无助于我们深入探讨人类语言的表数方式和内在机制（Hurford 2003）。相对于其他语言，汉语称说数目简单整齐而有规律（王力1984：322），从汉语入手也许更容易找出人类语言数词系统具有的共性和类型学特征。通过对汉语数词结构的研究，有助于我们找出一些隐藏的线索来正确处理数词结构的形式句法和组合语义，并提供可资借鉴比较的材料。这方面王力（1984）的称数法、朱德熙（1958）的系位构造、邢福义（1995）的段位系连法以及萧国政、李英哲（1997）的整零构造等都属于汉语描写语法的经典③。

但是，汉语数词系统过于简单整齐而有规律，反而没有给我们提供足够的信息。幸运的是，我国境内少数民族语言有129种，涉及藏缅、苗瑶、侗台、突厥、蒙古、通古斯、南岛和南亚语系或语族（孙宏开等2007：30）。这些语言为我们提供了得天独厚的条件。目前对这些语言数词的研究多见于描写语法中的一节，文章有很多，但是主要涉及个位数，少有复杂数词的语料。特别重要的是，我国境内民族语言数词系统往往具有丰富的形态音系表现，值得深入发掘，让国际语言学界了解，因为有时候一个有说服力的形态音系证据非常宝贵，能够对数词的句法和语义的确定有重要启示，因为形态音系是直接看得见的语言形式，不需要曲折迂回的论证。Ionin和Matushansky（2006）从俄语格标记出发提出一整套句法语义界面理论，尽管我们认为是有问题的，但是这种思路无疑是非常正确的。

我们容易看出，这些音系事实为数词的完整性分析提供了有力的证据，对非完整性分析提出了挑战，对卡卓语和桑孔语的分析见He（in press）。藏缅语族其他语言数词的变音变调也非常丰富，但是缺乏详细的记录，找不到需要的语料。随着描写工作的深入，特别是专题描写工作的深入，预计可以在我国境内民族语言数词系统内部找到丰富的形态音系事实，为数词系统的句法语义接口研究提供重要证据，从而为自然语言数词系统的深入研究做出贡献。

本文对数词系统语言本体研究的最新进展做了批评性的综述，着重说明涉及数词系统的句法和语义界面问题，前者涉及复杂数词的内部结构分析，后者涉及数词的指称和组合语义。本文还对形态音系对数词句法语义界面研究的重要意义和价值做出了评论，认为数词句法语义界面研究应该多注意形态音系方面的事实。

①以上四种关于指称的观点都已体现在过去汉语语言学对词类划分的研究中。例如马建中认为数词是形容词，金兆梓认为数词是量化词，刘复认为数词是副词，王力认为数词是名词（单独的数词类）（转引自蒋仁萍2007：1）。尽管以上中国语言学前辈没有考虑数词的指称，但是从他们对数词的归类可以看出，他们大概也会分别采取以上四种关于指称的观点。

②在本文快付印之前，我们在Syntax期刊网上看到一篇预印论文，作者是A.Meinunger。该文章也对Ionin和Matushansky的分析提出反对意见，并且对俄语格标记提出另外的解释。因版面所限，这里不介绍其内容。

③但是关于汉语数词研究仍然不够深入，内部结构和组合语义缺乏研究。有些关于汉语数词的细节没有解释。例如“一百一”为什么可以是110？这种情况好像只发生在汉语和受汉语影响的南方民族语言，英语等西方语言没有，比如one hundred and one就是101。邢福义（2011）曾指出“六六三十六套”这个数词结构的疑难点。

标签：数词论文; 语义分析论文; 理论语言学论文; 自然语言处理论文; 复数名词论文; 自然语言论文;

自然语言数字系统中句子语义接口理论的最新研究进展_数词论文

猜你喜欢