构建汉语行为语法的金字塔分层结构论文

【逻辑学研究】

[栏目主持人] 北京大学哲学系陈波教授

[主持人语] 本期发表两篇文章,它们都是其作者们通过严肃认真的研究而获得的成果。第一篇是满海霞和邹崇理合著的《构建汉语行为语法的金字塔分层结构》。两位作者受汉语语法分析的三个平面理论、组合逻辑和组合范畴语法CCG 启发,提出了关于汉语行为语法的金字塔结构。金字塔自顶向底,是函项贴合规则结合句法组合子构成能力语法、再结合语用组合子构成行为语法的过程。他们根据汉语CCGBank 的规则例数据,找到了汉语中最基础的语用组合子为K 和C,构建了一个从能力语法到行为语法的极简结构。阅读本文会有一个感觉:作者们所讨论的问题极为专门,结合语言学理论和汉语的相关统计数据,力图做出一些独立的探索工作。第二篇是陈晓庆、张斌峰合著的《试论法律价值逻辑》。两位作者回应了对法律价值逻辑的疑虑,论证了其必要性和可行性,提出了法律价值逻辑的如下研究纲领:(1)价值命题的内涵以及价值命题的合理性、恰当性的评价问题;(2)“应当”的生成逻辑,涉及价值思维向规范命题的转换过程;(3)价值命题的语形、语义逻辑,涉及价值命题之间的语义关联与逻辑推理,彰显形式理性;(4)价值命题的语用逻辑,要将做出价值判断的主体和语境考虑进来,在具体的情景中论证价值命题的恰当性。他们认为,法律价值逻辑研究将拓展法律方法论的广度和深度,使法律思维成为开放的、动态的面向实质正义的思维方法,彰显法律的价值理性。

构建汉语行为语法的金字塔分层结构

满海霞1, 邹崇理2

(1.北京科技大学 外国语学院,北京100083;2.中国社会科学院 哲学研究所,北京100732)

[摘 要] 20 世纪60 年代初,乔姆斯基提出“语言行为”和“语言能力”的区分,前者是语言使用者在具体语境下的语言使用,后者是语言使用者关于语言规则的潜在知识,各种语法形式化理论就是对语言能力的描写,而自然语言处理所面对的真实语料,则是语言行为的现实表现。如何基于语言能力模型构建刻画语言行为的模型,是自然语言处理亟待解决的重要问题。在自然语言处理领域,已知能力语法的形式化理论中计算性能最好的是组合范畴语法CCG。CCG 以组合逻辑思想为基础。在组合逻辑那里,任何逻辑系统都可以划归为某一函项贴合系统,仅包含函项贴合规则F 与若干组合子,比如,CCG 可以划归为F 加3 个组合子B、T、S。理想的行为语法因此可以看作一个金字塔结构,表现为F 结合句法组合子B、T、S 构成能力语法CCG、再结合语用组合子构成行为语法CCGP的过程。这样一个思路受到了汉语三个平面理论思想的支持。通过汉语CCGBank 树库的规则例统计数据,可以进一步获得汉语从能力语法到行为语法的语用组合子K 和C,从而获得汉语行为语法完整的金字塔分层结构。

[关键词] 行为语法;组合逻辑;组合范畴语法CCG;三个平面理论;汉语CCGBank

2017 年7 月,我国国务院发布了《新一代人工智能发展规划》,在规划的第一项重点任务中明确提出:要重点突破自然语言的语法逻辑、字符概念表征和深度语义分析的核心技术,推进人类与机器的有效沟通和自由交互,实现多风格多语言多领域的自然语言智能理解和自动生成。提取上述“任务”中两个与理论相关的关键词,一个是“语法逻辑”,另一个是“语义分析”。目前,世界上语义自动处理的主要形式模型中,绝大多数采取了词汇语义的研究方法,基于语法逻辑的做法不多见[1]。这种研究现状也反映在我国的语义研究情况上。过去十年间,我国的语义处理工作虽然在知识库的构建、词汇与构式的推演等方面取得了一定成果[2-8],但是针对逻辑语法及其对应语义的研究,明显冷清[9]264~477。最重要的原因之一,是逻辑语法研究理想化的“语言能力”,而大规模信息处理面对的是实际的“语言行为”。如何用关于“语言能力”的研究成果指导并处理“语言行为”实例,这是一个仍在摸索中的问题。

一、语言行为与语言能力

20 世纪60 年代初,乔姆斯基提出了“语言行为”和“语言能力”的区分[10],[11]。语言行为是语言使用者在具体语境下的语言使用,而语言能力是语言使用者关于语言规则的潜在知识。形式语言学家与计算语言学家共同关注的各种语法就是对语言能力的描写。其基本的想法是,如果找到能够恰好生成自然语言的语法,基于这样的语法开发自然语言的分析器,则可用来对自然语言实现自动句法解析。据英国计算语言学家Steedman 回忆,在20 世纪60 年代到70 年代中期,语言学家与计算语言学家之间拥有高度的理论共识,乔姆斯基的语言层级让所有人相信,有限状态自动机与上下文无关文法不能完全捕捉到人类的语言能力,(而乔氏提出的)转换生成语法才是关于人类语言能力的可能模型[12]2~3。但是,对于涉及句法、语义和语用模型三者互动的语言行为,如何基于语言能力模型构建刻画它的模型?基于能力语法开发出来的语法分析器,用它去解析实际的语言行为,应该对能力语法做什么样的调整?语言学家与计算语言学家积极寻求答案,但却没能携手跨过从语言能力到语言行为的鸿沟,最终,共识破裂,大多数计算语言学家开始转向机器学习和概率统计的道路① 关于乔姆斯基层级和语法形式化理论,可参见[13]、[14]。 。

在我国,语义处理研究进展缓慢且多关注细节,很大程度上,是因为与汉语句法结构相关的一些问题还没有想清楚。胡附、文炼在《句子分析漫谈》一文中指出,“由于汉语缺乏所谓严格意义的形态,无法从形态出发去归纳范畴……在建立范畴这个问题上,西洋的传统语法凭借形态,汉语语法则乞灵于意义,他们的出发点不完全相同”[15]4。汉语语法的三个平面研究发现,汉语句法结构所体现的,有的属于语义、有的属于语用,那么对于同一个结构,如何区分两个平面的影响?进一步的,鉴于汉语独特的语法特点,如何基于已有的能力语法,从语言行为的句法表现出发,获得表征语义的逻辑式,从而实现汉语语义的解析?这些问题都是进行汉语语义的计算与形式分析首先需要回答的问题。

本文试图分三步回答以上问题:第一步,从组合逻辑视角出发,看到自然语言语句系统作为分层的函项贴合系统的本质;第二步,基于汉语学界提出的三个平面理论,厘清汉语表层句法结构与深层句法结构、语言能力与语言行为之间的关系;第三步,结合社科汉语CCGBank 树库的数据,找到汉语中连接三个平面的语用组合子函项,构建汉语分层的句法形式化系统,并在此基础上给出完整的语言行为金字塔。

二、自然语言作为一个函项贴合系统

2.1 函项贴合运算与组合子

在《论构建数理逻辑大厦的基石》[16]一文中,Skönfinkel 提出了一套化简逻辑初始概念的方案,该方案后被发展为组合逻辑,成为数理逻辑的一个重要分支。Skönfinkel 的基本想法是,任意n 元函项都可以划归为一元函项,在结合一个论元后,得到n-1 元函项。最简单的,如(1)所示,二元函项Fxy 和Gzw 可以划归为一元函项(Fx)y、(Gz)w② 这种记法后来为柯里(Haskell Curry)推广使用,所以也被称为函项的柯里化形式。 。尽管划归前后只是记法上括号多少与有无的差别,但其内在含义却有本质上的差别:前者以序对为论元,表示的是由关系组成的类,而后者则以个体或函项为论元,表示的是由类组成的类,由此实现了类似类型论的分层,规避了罗素悖论。

“羲皇子孙,开来继往;优秀文化,既厚且长;一带一路,协和万邦。”近年来,国内多地举行公祭伏羲大典,引起海内外百万民众寻根问祖。

首先必须承认,句法分析是句子分析的基础,语义和语用都要通过句法结构才能表现。在这种意义上,三个平面的关系如图2 所示。其次,就析句过程来说,句法和语义是对句子本身结构的静态分析,语用则关注静态结构之外的动态因素,句法和语义一起跟语用发生关系,所以在同一篇文献① 图2 与图3 均出自[21]。此处根据讨论需要,我们将两图中的“句法”、“语义”、“语用”分别加注下标1 和2,以示区别。此外,为方便两图对比,我们调整了施关淦图示中的部分内容,施关淦的原图为。我们做了两点调整:(1)原图中“语法”位于整个关系图之下,表示“语法”与三者组成的整体对待,我们按照袁晖的表示方法,用等号表示对等关系,即将“语法”调至等号左侧;(2)原图为强调三个平面理论以“句子”而非“语素”为研究对象,故在横线上面标注了“句子”二字,我们的研究就是在句子层面上讨论“语法”,所以图3 省略了“句子”二字。总的来说,以上调整并未影响原图含义,但调整后图2 和图3 构件相同,更加方便进一步的对比与讨论。 中,施关淦将其总结为图3:

除此之外,程小青在称谓方面也采取了归化的翻译方法。如“足下非即华生医士耶”[1]68“夫人曾否询及尊夫此恐怖谷名义作何解释”[1]65“尊父已下逐客之令”[1]111等。“足下、尊父、尊夫”等这些都是汉语中表达尊敬的语气词语,是原文中本来没有的。

(3)树立危机意识。危机意识是企业财务管理人员必须时刻具备的,正所谓“生于忧患”,企业财务管理人员在新时期更需要重视自身理论观念的充实、丰富与发展,培养接纳新事物,勇于挑战的心理素质,要充分意识到经济开放性所带来的机遇与挑战,梳理企业发展面临的困难,树立危机管理意识,积极向外开拓新的业务与对外合资渠道,全方位、多层面的促进企业资本的多元化发展,将“鸡蛋”放在尽可能多的“篮子”里,降低企业财务风险。

此外,Skönfinkel 进一步扩大函项的内涵,使函项不仅可以作为论元的值,也可以做函项的值。如(3)中的函项U,表示两个论元函项不兼容。为做区分,Skönfinkel 将这种以函项为论元的特殊函项称为组合子(Combinator)。同样,组合子也可以做一元划归,进行函项贴合运算,由高阶函项贴合其论元函项。

以下例(4)定义了组合逻辑中常用的几个组合子:

在有些语体中,还崇尚表达简洁明了的修辞语义。这和语体自身语言应用的范式有关。比如口头语体、新闻语体、广告语体、公文语体、政论语体、演讲语体中,对简洁明了修辞语义的规约就是一种常态。

置换组合子C:C=λfxy.fyx

1.2 治疗方法 随机分成对照组和治疗组,每组50例(100眼),两组性别,年龄,高血压病程和高血压视网膜病变程度均无统计学差异。对照组:硝苯地平控释片30mg/d,早晨服用。治疗组在对照组的基础上给予前列地尔(10μg),静脉推注,qd。所有患者均连续治疗3周。

函项置换组合子S:S=λfgx.fx(gx)

论元提升组合子T:Tx=λF.Fx

所有患者的一般资料以及实验结果均采用统计学软件SPSS19.0进行数据处理,计数资料用率(%)的形式表达,数据比较采取χ2检验,若P<0.05,差异有统计学意义。

论元复制组合子W:W=λfx.fxx

根据图5 的行为语法金字塔结构,日常使用的自然语言语句,其由部分到完整语句的生成不仅是最基本的句法运算的体现,也是语用因素作用的结果。基本的句法运算已经得知,是F 加B、T、S 三个组合子对应的规则,无法通过这些规则获得的,是我们窥见语用因素的突破口。由于每条规则都有若干条规则例、而规则例本身的使用频次差别很大,例如,NP/NP·NP→NP 与M/NP·NP→M② 原句为:“叶笃庄主译的《达尔文进化论全集》包括:《达尔文自传与书信集》(两卷集)、《贝格尔舰环球航行记》、《物种起源》、《兰科植物的受精》、《动物和植物在家养下的变异》(两卷集)、《人类的由来及性选择》、《人类和动物的感情表达》、《攀缘植物的运动和习性》、《食虫植物》、《植物界的异花受精与自花受精的效果》、《同种植物的不同花型》、《植物的运动本领》、《蚯蚓和腐植土》。”其中,[卷]M/NP结合[集]NP,使用了M/NP·NP→M 规则。 都是>的规则例,但是前一例使用频率超过15 万次,后一例只使用了2 次,所以为展示最真实的规则使用情况,我们以下均以使用频次为统计对象。

在组合逻辑那里,如果一个逻辑系统仅包含F 一条运算规则,那么这个系统就是函项贴合系统(applicative system)。事实上,有了组合子,任何逻辑系统都可以划归为函项贴合系统[17]31。比如,Skönfinkel证明,命题逻辑中的所有公式都可以只用C、S、U 加函项贴合规则来表示;Steedman 证明,自然语言的生成语法可以使用B、T、S 三个组合子加F 来实现,此为组合范畴语法(CCG)的理论基础[18]

为了验证试验模型的正确性,结合实际情况,按照乙醇浓度40%、浸提时间60 min、浸提温度40℃、浸提pH 6.6,进行5次重复试验验证,测得甜菜苷类色素含量的平均值为4.35 mg/100g,与预测值的相对误差为4.13%,充分验证了模型的正确性。该参数具体有效。在此条件下,甜菜苷类色素含量的预测值为5 mg/100g,实际测得甜菜苷类色素提取量平均为4.35 mg/100g,提取率为87.19%,与预测值的相对误差为4.13%,充分验证模型的正确性。与赵珍珍[10]的研究结果相近,说明参数有效。

2.2 组合范畴语法CCG

随着语言学理论逐步成熟,人们也已逐渐认识到,自然语言句法结构背后的驱动力可能比几十年前所想的简单得多[19]2① 虽未直接提出,该书作者隐晦指涉几十年前那种复杂的语法构造即转换生成语法。 。相比之下,CCG 的理论构想恐怕是众语法中最简单直接的了。它继承范畴语法的思想,将自然语言语句由小到大的生成看作句法上函项与论元、函项与函项之间的贴合,语词的句法行为凝缩在其句法范畴的构造中,如(5)中定义了几个词条的范畴:初始范畴集为{S,NP},分别代表语句范畴和名词范畴,/和\为范畴构造符,斜线左侧为结果范畴,右侧为论元范畴,斜线方向指示论元的结合方向。(6)中两条规则为范畴的基本运算规则,显然是(2)中F 区分论元结合方向的两个版本,其中,·表示范畴之间的毗连。

因此,比如简单句“我读过《红楼梦》”,其句法生成可以展示为下面的范畴贴合运算:

添加了三个组合子之后,语义上不是函项-论元关系的两个范畴也可以优先毗连。比如“我读过可妈妈没读过《红楼梦》”,需要“读过”和“没读过”两个谓语动词首先与各自的主语结合,获得S/NP 范畴,两个S/NP 范畴做广义并列后,才能与宾语结合。主谓结合的过程借助T 和B② T 对应的范畴提升规则有两种:X→Y/(Y\X)或者X→Y\(Y/X);B 在本文中用到的对应规则为:X/Y·Y/Z→X/Z。 可以完成。(8)为“我读过”的句法生成过程,直观地展示了组合子的作用:

CCG 的工作证明,自然语言语句系统本质上也是一个函项贴合系统,其唯一初始运算是函项应用规则F。从仅包含F 的范畴语法(CG)到能力语法,是F 结合组合子构成能力语法金字塔结构的过程(图1)。那么接下来的问题是,在建立关于语言行为的形式分析模型时,如何探测语言行为中的语用因素?如何将其抽象并加以形式化?CCG 又如何结合这些语用因素?

药学类实验室具有涉及学科广、使用功能多样性等特点,笔者对中国药科大学实验室按使用功能、学科分类、涉及的安全隐患等进行调研与分类,以期为进一步管理模式与监管对策的提出提供依据。

(图1) CCG 的能力语法金子塔结构

上世纪80 年代初,我国汉语语法学者在进行汉语语法研究时,将语言的使用纳入考虑范围,提出三个平面理论。这些基于汉语的洞见是我国学者在语言描写工作中获得的宝贵成果,是对语言行为的思考。自乔姆斯基以来,西方语言学形成了一个重视形式化的传统,形式语言学家与计算语言学家所关注的语法都是对语言能力的描写。如何形式化语言行为?三个平面的思考或是一个很好的补充和启发。

三、从语言行为到语言能力

3.1 汉语语法分析的三个平面理论

汉语缺乏严格的形态变化,所以,如果效仿西方传统语法的分析方法,对语句单纯做句法上的主谓分析,很多问题都无法解释。上世纪50 年代之后出现的几次关于汉语问题的大讨论,比如关于词类问题的讨论、关于主宾语问题的讨论、关于析句方法的讨论,大都跟汉语的这个特点有关[20]。20 世纪70 年代末,得益于时代的开放,国外新的语法理论陆续引入,促使汉语研究者结合汉语实际,进行多维度、多层面的思考。学者们认识到,对汉语进行语法分析只讲形态上的句法分析是不够的,还要兼顾到语义和语用。例如,(9)、(10)两句在句法结构上完全相同,但语义关系不同,“醉”是说明“我”的,而“碎”是说明“花瓶”的;(11)和(12)两句,语义关系虽然相同,但语序不同、表现的语用含义有所区别。

(9)我喝醉了酒。

(10)他砸碎了花瓶。

这样一个行为语法的三层金字塔结构堪称优美。它保持了与能力语法在理论上的一致性,极尽简约之美。下面的问题便是,构成汉语行为语法金字塔的语用组合子有哪些?若能基于句法上的变化剥离出语用因素,便可回答这一问题。同时,沿金字塔向上,B、T、S 作为句法组合子,在汉语的句法生成过程中使用情况如何?函项贴合规则在汉语中的基础性地位又如何体现?对于这些问题,以下我们将结合社科汉语CCGBank 的规则例实例数据,逐一作答。

(12)《红楼梦》我读过。

因此,语法分析既要区分句法、语义、语用三个平面,又要关注三个平面之间的联系,此所谓三个平面的基本思想。这里的语义与语用指与句法相关的语义和语用,不是语义学和语用学范畴下的宏观概念。那么,三个平面之间的关系是怎么样的呢?

函项划归之后,每一次运算显然都是一元函项结合其论元的函项贴合运算(functional application):

(图2) 袁晖概括的三个平面间关系

(图3) 施关淦概括的三个平面间关系

3.2 划句法与语用之界

初看图2 与图3 展示的两个框架,句法与语用的相对位置不同,一个包容、一个排他,相互矛盾。然而,如若仔细推敲,实则不然,两幅图恰恰展示了不同层面上的句法结构,以及句法与语用之间的关系。

复方冬虫夏草口服液对载脂蛋白E基因敲除小鼠动脉粥样硬化的影响 …………………………………… 胡抗远等(14):1912

句法1 同时反映语义和语用两方面关系的影响,是包含语用影响的句法结构,对应语言使用者在具体语境下的语言使用,是对语言行为的句法结构分析;句法2 则剥离了语用的影响,是仅与语义对应的句法结构,属于传统句法形式化理论研究的对象,是对语言能力表现的句法结构分析。Joshi 等人证明,恰好生成自然语言的语法,在乔姆斯基层级上位于上下文无关语法与上下文有关语法之间,除了转换生成语法位于其中,还包含一批非转换的生成语法树嫁接语法TAG、线性索引语法LIG 与组合范畴语法CCG 等,它们在生成力上与转换生成语法等价[22]。据此,拼合图2 与图3,获得从语言能力到语言行为的组合生成图,即图4。

(图4) 从语言能力到语言行为的组合图

图4 说明,语用因素2 作用在句法结构2 上,获得句法结构1,也就是说,语用因素通过句法来表现,通过句法上的语序、位置等变化体现不同的语用价值① 为集中讨论对象,我们所谓语言行为仅限于自然语言处理的文本,不涉及语音、且仅限于句内。 。给定一种能力语法,如果能够确定三个平面理论中所谓的语用因素2,便可打通联系语言行为的康庄大道。

从逻辑角度看,语用因素2 与句法结构2 上的加和,其实是语用组合子作用在句法结构2 上,造成了句法结构的变化,同时伴随获得了语用的特殊含义。例如,从例(11)到(12),宾语前移至句首成为话题,逻辑上是对宾语与宾语前的成分使用了置换组合子C。忽略句法范畴的结合细节,过程如(13)所示:

在人工智能、自动驾驶以及其他探测领域,激光雷达需要几米到几百米的动态范围[6],如自动驾驶典型工作范围为5~150 m,则回波功率动态范围可达78.16 dB,在满足远距离测距要求时,会导致近距离处接收电路响应的回波信号饱和,造成系统的探测精度严重下降,从而降低了雷达的动态范围.目前激光雷达主要采用多套雷达系统协同工作,成本较高,实现较复杂.如何减少硬件系统,在算法上实现大的动态范围是一个亟待解决的问题.

(13)C(B(T(我)·读过)·红楼梦)

因此,我们不妨在图1 的基础上再向前迈一步,自然语言作为一个函项贴合系统,F 与句法组合子构成其能力语法CCG,从CCG 到行为语法(记作CCGP,P 代表语用),又增加了语用组合子,如图5。

函项贴合组合子B:B=λfgx.f(gx)

(11)我读过《红楼梦》。

(图5) 行为语法的金字塔结构

四、汉语语言行为的金字塔结构

4.1 社科汉语CCGBank 及规则例数据

社科汉语CCGBank 借助已有转换生成语法注释的宾州汉语树库PCTB6.0 版本,通过对PCTB 6.0 进行符号修正、标记中心语、生成二分结构、PCTB 标签投射为句法范畴等操作,将PCTB 树转换成CCG树。PCTB 6.0 所有语料来自于主流的中文媒体、网站,包括新华社、台湾光华杂志、香港媒体及各大新闻广播转写的文本内容,可以代表汉语的语言行为。汉语CCGBank 树库一共有初始范畴25 个,除了NP 和S,还有连词范畴conj、数词范畴M、数量词范畴QP、空范畴None 和标点范畴等,树库中句子语料共25,694 个,用到规则例2483 例,使用总频次达722,492 次。

反思阶段学生总结学习活动全过程,讨论工程设计的过程,展示作品,并在小组间交流反思,应用了哪些技术?设计的纸桥是否符合审美要求?通过借鉴其他小组分享的经验思考在哪里能进一步改善纸桥?学生在不断反思中巩固学到的知识,完善认知结构,培养批判性思维,正确认识自己,实现自我管理[22]。

变元取消组合子K:K=λfx.f

(表1) 汉语CCGBank 规则例统计数据

表1 的统计数据显示,在汉语表层的句法组合中,使用频次最高的是函项贴合规则F,B、T、S 三个组合子对应的规则,使用频次相加不足3%,尤其置换组合子S 仅有4 次使用。以上数据说明,汉语中最常用的句法毗连,是函项与论元的贴合,函项与函项结合运算的比重不高。余下23%左右的规则中,使用最多的是标点吸收规则和同类型范畴并列规则,约占其他规则的85%(表2)。从句法构造角度看,标点吸收规则① aX→X 或Xa→X,其中a 为标点符号范畴、X 为任意范畴。 没有参与句法生成,只是消去标点的一种技术操作;而同类型范畴的并列规则② conj·X→X[conj];X·X[conj]→X,这个过程中,conj 等值于二元的并列连接范畴(X\X)/X,(X\X)/X 结合相同范畴的过程就是使用F 消去论元范畴的过程,所以conj 也可以转换为函项与论元间的贴合运算。 中,连词范畴conj 也可以转换为函项与论元之间的贴合操作F,因此,探索语用组合子最直观的部分,是其他规则中余下那近15%的规则。这些规则可以分为4 类,分别实现了论元范畴脱落、词类吸收、话题化和词类转换之目的(表3)。

(表2) 汉语CCGBank 其他规则例的统计数据

(表3) 汉语CCGBank 除标点消除与并列规则例的其他规则统计数据

为更加直观,以下表4 分别列出每一子类使用率最高的两个规则例的实例,并各附具体语例一个:

(表4) 其他规则的规则例实例列举

为使合法的行为语句在句法生成上也合法,即最终得到范畴S,成为一个完整语句,汉语CCGBank调用了一系列其他规则。这些规则从本质上看,都属于转换词类的操作,使在能力语法CCG 下谓词论元关系不完整的、修饰关系不成立的语句,在语用因素介入后,变得合理合法。比如主语没有出现的(14)利用主语脱落规则1,仍可得到语句范畴S,获得独立语句的地位;含有同位语成分的(16)和(17)利用词类吸收规则,实现相同或不同类成分的同位并列;话题化规则允许句首成分成为话题(18-19),而规则7 和8 则允许汉语中的VP 成分直接做名词修饰语。这些现象说明,虽然汉语缺乏严格的形态标记、词类转换在句法上没有形态表现,但是语用因素驱动句法生成的过程中,词类产生微调,以此获得正确的句法结构和语义关系。

虽然表4 只列出了8 条规则,但这8 条规则完全可以代表汉语其他规则的基本情况。表4 每一子类之中,排名第二的规则例在数目上,最高不到排名其前第一位的规则例的一半,最低不足1/10。这一规律体现了规则使用逐次递减的实际情况。图6 是此类规则例的使用排名与使用频次的反比图。根据我们的统计,到排名第15 的规则,使用频次就已经下降到100 以下,15名之后的433 条规则中,有217 条只使用了1 次,81 条只使用了2次,构成了图6 中的长尾事件。因此,以下我们对汉语中语用组合子的探讨,仅以此8 例为例。

4.2 汉语语用组合子K 和C

根据表3 的统计数字,汉语中最高频的句法重构是论元脱落,允许论元成分在语用层面上被省略。这一工作,在逻辑上可以通过组合子K 实现。例如,(14)中“不断提出更高的目标”,其范畴S\NP 中的论元范畴NP,可以借助K 直接脱落,获得S 范畴:

回顾此行,曼杜里亚的普里米蒂沃保证法定产区协会旗下的31家酒庄会员,我们拜访了其中11家,一家家细细品鉴交流后,对这果香浓郁、高酒精度、个性明晰的Primitivo的确刮目相看,如今越来越多酒庄走入中国市场,也相信接下来越来越多人能看到他们的潜力!

(图6) 其他规则的使用排名(横轴)与使用频次(竖轴)的反比图

但是,如果需要脱落及物动词的主语,即范畴(S\NP1)/NP2中的NP1,则应使用置换组合子C 先将论元置换再做脱落,(15)中“自然妊娠”的主语脱落如(23)所示:

(23)K(C(自然妊娠))

脱落的论元范畴其自身不一定是原子范畴,也可以为函项范畴。(24)-(25)展示了(20)和(21)的转换过程,动词短语S\NP 或S/NP 类型提升之后,脱落其论元范畴(NP/NP)/(S\NP)或(NP/NP)/(S\NP),获得名词修饰语的身份:

类型提升组合子T 能够将论元转化为函项,因此,在范畴的毗连生成过程中,如果相邻的句法范畴没有形成函项-论元关系,既不能依据F 进行运算,也不构成借助B、S 对应规则可以运算的函项-函项关系,则可以借助T 先做提升。如(16)和(18)的生成(26)-(27):

除了实现论元脱落的组合子K、重构函项论元关系的T,汉语较为松散的语序还需要在贴合运算时使用置换组合子C。在讨论(12)句的生成时我们已经使用过C,(19)的生成过程与(12)相似,在此省略,以下只给出(17)的演算过程(28):

到此为止,我们找到了汉语中使用频率最高的两个语用组合子K 和C。有了K 和C,汉语允许空代词的广泛存在,允许语序上相对松散。同时,借助类型提升的组合子T,相邻范畴可以形成合适的函项-论元关系。其他规则所涉及的各种类型的词类转换,都可以借助这2 个语用组合子获得。词类转换完成后,语词间的句法毗连可以依照CCG 规则继续进行,得到合语法的语句。因此,完整的汉语行为语法金字塔已经浮出水面。从上至下:

第一层只有函项贴合规则F,依据它能够生成大部分的自然语言语句,它定义了自然语言作为函项贴合系统的本质;第二层含有句法组合子B、T、S,与第一层共同构成自然语言的能力语法CCG,跨语言的变化不大,主要差别在于S 在具体语言中的使用情况;从能力语法到行为语法增加了语用组合子,构成金字塔的第三层。第三层或因语言而异,与语言中影响句法结构的语用因素有关,即三个平面理论中的语用平面息息相关。我们根据汉语CCGBank 的规则例数据,找到汉语中最基础的语用组合子为K 和C,K 和C 实现了汉语灵活的句法使用。

五、小结

著名计算语言学家冯志伟指出,我国自然语言处理在基础理论研究方面,还有许多重要的问题没有解决,其中第一个就是语义的计算与形式分析[1]。陈鹏将语义解析的完整思路归纳为三步:其一,通过语义分析,将一个自然语言语句,按照特定的句法,解析为逻辑表达式;其二,基于这些逻辑表达式,可以实现逻辑和知识操作;其三,基于所得逻辑式,构建相应的顶层应用,如自动问答、知识推理系统等[23]。这个过程中,表征语义的逻辑表达式是核心,而它的获得,显然要借以特定的句法结构为依据。语义的计算要依据句法结构的构造,还要考虑作为语法的研究对象与作为自然语言处理的对象之间的差别。我们在此构建了一个从能力语法到行为语法的极简结构,是对此一差别的思考,同时也方便我们剥离汉语中那些呈现在句法上的语用影响,构建合理的句法结构。在合适的句法结构上,为汉语CCGBank 匹配什么样的语义?如何进行语义计算,实现自动解析?将是下一个值得思考与实践的课题。

1589 年的佛罗伦萨 《幕间剧》(Intermezzi)㊴也是《图像学》较为重要的借鉴资源。研究中发现,里帕正是据此对各类文学体裁的拟人形象进行构思设计,如1593年初版中的“Poema Eroico”(史 诗)、“Poema Pastorale”(田 园 诗)、“Poema Satirico”(讽喻诗)㊵等拟人形象,当时遗漏了同类的“Poema lirico”(抒情诗),学者曼多夫斯基认为是里帕重读此书时发现自己忘记翻页而错过了这个拟人形象,1603年版中便又添上。

[参 考 文 献]

[1] 冯志伟.自然语言处理中的一些宏观问题之我见[J].中国外语,2009,(1).

[2] 李强,袁毓林.名词词义描写和研究需要什么样的语义学知识?[J].中文信息学报,2015,(5).

[3] 李强,袁毓林.量词“场”的事件量化功能分析[J].语言研究,2016,(4).

[4] 夏雪,詹卫东.“X 什么”类否定义构式探析[J].中文信息学报,2015,(5).

[5] 袁毓林.动词内隐性否定的语义层次和溢出条件[J].中国语文,2012,(2).

[6] 袁毓林.汉语词义识解的乐观主义取向——一种平衡义程广泛性和义面突出性的策略[J].当代语言学,2014,(4).

[7] 袁毓林.汉语中的概念转喻及其语法学后果[J].语言教学与研究,2018,(1).

[8] 张志飞,等.强语义模糊性词语的情感分析[J].中文信息学报,2015,(2).

[9] 邹崇理,等.自然语言信息处理的逻辑语义学研究[M].北京:科学出版社,2018.

[10] Noam Chomsky.On certain formal properties of grammars[J].Information and Control,1959,(2).

[11] Noam Chomsky.Formal properties of grammars[C]//R.Duncan Luce,Robert R.Bush,Eugene Galanter(eds.).The Handbook of Mathematical Psychology.New York & London:John Wiley and Sons,1963.

[12] Mark Steedman.Romantics and Revolutionaries:What theoretical and computational linguists need to know about each other[J].Linguistic Issues in Language Technology,2011,(11).

[13] 满海霞.汉语把字句及相关句式的CCG 形式计算[J].湖北大学学报:哲学社会科学版,2013,(6).

[14] 满海霞.乔姆斯基层级与自然语言语法——从短语结构语法到非转换语法[J].外国语文,2015,(3).

[15] 胡附,文炼.句子分析漫谈[M]//袁晖,戴耀晶.三个平面:汉语语法研究的多维视野.北京:语文出版社,1998.

[16] Moses Schönfinkel.On the building blocks of mathematical logic[C]//van Heijenoort(ed.).From Frege to Gödel:A Source Book in Mathematical Logic,1879-1931.Cambridge,MA:Harvard University Press,1924/1967.

[17] Haskell Curry,Robert Feys,William Craig.Combinatory Logic[M].Amsterdam:North-Holland Publishing Company,1958.

[18] Mark Steedman.Combinators and grammars[C]//Richard T.Oehrle,Emmon Bach,Deirdre Wheeler(eds.).Categorial Grammars and Natural Language Structures.Dordrecht:D.Reidel Publishing Company,1988.

[19] Robert Berwick,Noam Chomsky.Why only us:Language and evolution[M].Cambridge and London:The MIT Press,2016.

[20] 何伟渔.关于语法研究的三个平面学说[J].上海师范大学学报:哲学社会科学版,1991,(4).

[21] 岳方遂.三个平面:语法研究的多维视野——黄山语法修辞座谈会发言摘要[J].语言教学与研究,1992,(1).

[22] Aravind K.Joshi,K.Vijay Shanker,David Weir.The Convergence of Mildly Context-Sensitive Grammar Formalisms[R].1990.

[23] 陈鹏.组合范畴语法(CCG)的计算语言学价值[J].重庆理工大学学报:社会科学版,2016,(8).

[中图分类号] B81

[文献标志码] A

[文章编号] 1001-4799(2019)05-0077-08

[收稿日期] 2 019-04-08

[基金项目] 国家社会科学基金重大资助项目:17ZDA027;国家社会科学基金资助项目:14CZX044

[作者简介] 满海霞(1983-),女,内蒙古乌兰浩特人,北京科技大学外国语学院副教授,哲学博士,主要从事自然语言逻辑、句法与语义界面接口研究;邹崇理(1953-),男,四川成都人,中国社会科学院哲学研究所研究员、博士生导师,哲学博士,主要从事自然语言逻辑研究。

[责任编辑:熊显长]

标签:;  ;  ;  ;  ;  ;  ;  

构建汉语行为语法的金字塔分层结构论文
下载Doc文档

猜你喜欢