现代汉语“n≤n”的结构歧义研究_自然语言处理论文

机用现代汉语“n+n”结构歧义研究,本文主要内容关键词为:歧义论文,现代汉语论文,结构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

人们对歧义现象的关注早在两千三百年前就开始了,古希腊哲学家亚里士多德(Aristoteles)在他的《工具论·辨谬篇》中,探讨了自然语言的歧义问题, 但亚里士多德对歧义的研究是为哲学辩论中的语言应用服务的。 1930年,恩普森( W.Empson)发表了《歧义的七种类型》(Seven Types of Ambiguity)一书, 正式开始从语言理论的角度研究歧义问题。而在人们对自然语言进行信息处理后,更关注的是如何让计算机自动消歧。1963年,Katzt和Fodor首先提出利用语义选择限制(注:选择限制是一种利用语义消解歧义的方法。它规定可共现语义是合法组合,而剖析过程中产生的不合法表达式要被排除掉。) 的方法去消解歧义,从此,利用语义特征不同形式的各种研究方法几乎被用在每个计算模型的消歧上。1975年威尔克斯(Wilks)最先成为优选语义学的拥护者,他发明了一个利用语义模板去解释句子表达的系统。Hayes(1977)与Hirst(1987)运用选择限制和语义近似度相结合的办法处理多义词消歧问题。1983年Dyer发明BORIS系统,这个系统利用自顶向下预测与选择限制相结合的方法去理解复杂文本,取得了很好的效果。1986年Quillian引进自然语言的语义网络来表达词义以及词与词之间的概念关联。1990年Miller构造了一个英语综合词汇的知识库——Wordnet,它是当代概念语义网络研究的一个主要成果,对自然语言计算过程中的歧义问题研究很有价值[1]p293—325。

国内对汉语歧义研究主要集中在歧义分类、歧义成因、歧义格式、歧义界定、歧义分化、消歧手段、歧义指数、意义优选和歧义度。语言学界研究歧义主要是为了找出人与人在交际过程中产生歧义的原因及全部类型。而计算语言学家的任务则是在语言学家研究成果的基础上,考察机器在处理自然语言的过程中所遇到的歧义,包括多义词义项选择,歧义字段切分,歧义格式分化等。目的是为了找到消解歧义的策略。

一 理论基础

冯志伟在研究汉语术语歧义问题时, 提出“潜在歧义理论”( Potentional Ambiguity,简称PA论)[2],PA论认为,中文词组型科技术语中,当一个PT 结构(词组类型结构)对应于一个以上的SF-结构(句法功能结构)时,就有可能对这个PT-结构做出一种以上不同的解释,这时,就说这个PT-结构是潜在歧义结构,之所以说是“潜在歧义”,是因为在PT-结构实例化(instantiation)的过程中,这种歧义有可能继续保持,成为真歧义结构,也有可能得到消除,成为歧义消解结构,因而这种歧义是潜在的而不是现实的,它只具有了歧义的可能性,但是还不一定具有歧义的现实性。

冯志伟后来在《论歧义结构的潜在性》一文中,将这种为分析汉语科技术语而提出的潜在歧义论用来解释日常语言中的歧义现象[3]。 证明了尽管在自然语言中存在大量的同形歧义结构,但是,它们的PT-结构都是潜在歧义结构。自然语言有其歧义性(ambiguousness)的一面,也有其非歧义性(non-ambiguousness)的一面。自然语言中这种存在潜在歧义有时又能够自行消解的现象正是歧义性和非歧义性对立统一规律的体现。这说明潜在歧义结构本身就包含了消解歧义的因素,仔细研究这些潜在歧义结构本身,就不难发现可供计算机自动消解歧义的办法。

詹卫东等对汉语短语结构的定界歧义做了全面考察,并对汉语短语结构定界歧义的不同类型进行了初步统计[4]。从模式歧义和实例歧义对应关系的角度将歧义格式分为真歧义格式、准歧义格式、伪歧义格式三种。其实从这个角度对歧义格式进行分类是在冯志伟有关潜在歧义格式的基础上进一步深入分析得到的结果。其中的“真歧义格式”就是冯志伟提出的“潜在歧义格式”,由于这种格式对计算机处理真实文本而言,确实都存在歧义,因此,我们认同这种说法。

我们认为“真歧义格式”(或称真歧义结构)是指具有潜在歧义的抽象句法格式,其结构项包括常项和变项,常项是具体词语,变项是词类或句法成分类。需要说明的一点是,这种格式中的歧义与同形异义词中的歧义有所不同。歧义格式中歧义的产生是由于词与词之间在搭配时可能产生的不同结构层次、语法关系或语义关系引起的,机器在识别这些结构时,我们假定组成它们的词的词性和意义已被计算机正确选择。对实例化后的真歧义短语我们又从潜在歧义是否现实化的角度分为两种类型:

(1)格式真歧义短语 一种类型的PT-结构可能对应两种或两种以上不同的SF-结构,每一种PT-结构实例化后都会产生很多不同的短语,每一个短语可能会对应一种或几种不同的SF-结构一个格式真歧义短语只对应一个SF-结构。每个PT-结构对于计算机来说都是一种类型,这种只在类型上对机器产生歧义的短语,我们称之为格式真歧义短语。它的特点是对机器来说有歧义,对人而言歧义消失。但每个格式真歧义短语对应的SF-结构可能会不尽想同,这时PT-结构对计算机来说就是存在歧义的结构。

举例来说,“v+nl+的+n2”这个结构有两种组合方式:

A.[v[nl 的n2]] B.[[v nl 的]n2]

[削[苹果 的 皮]]

[削 苹果 的]刀]

这两个对人来说轻而易举就可以理解的语言片断,对机器来说切分结构层次,判断语法关系首先就成了一个难题。“削苹果的皮”、“削苹果的刀”两个短语在没实例化以前其PT-结构都是:“v+nl+的+n2”,对机器来说对应动宾和定中两种SF-结构,存在歧义。而实例化后的两个短语对人来说其PT-结构分别只对应一个SF-结构,并不存在歧义。所以说格式真歧义短语是那些只对机器存在歧义的短语。

(2)实例真歧义短语 有的PT-结构实例化后的短语会对应两种或两种以上不同的SF-结构,在PT-结构实例化后,短语本身仍然存在歧义的短语叫做实例真歧义短语,它的特点是对人和机器都有歧义。还是上面这个格式如果实例化为“关心自己的孩子”,可以理解为“某人关心的是自己的孩子”(按A的组合方式),也可以理解为“一个孩子关心自己”(按B的组合方式)。

二 消歧方法简介

一、复杂特征 美国语言学家乔姆斯基(N.Chomsky)在50年代提出短语结构语法,它是自然语言计算机处理进程中最早提出的一种自动语法分析理论,这种语法使得自然语言获得了可计算的性质。还在人们对短语结构语法的出现兴奋不已时,很快就发现了它的局限性。首先这种语法在对语言进行识别的过程中常常难以区分相同的表层结构所蕴含的不同层次关系和语法、语义关系;另外,在语言的生成过程中又会产生大量歧义的或不合格的句子。从前面用CTT的CFG语法为格式真歧义短语和实例真歧义短语画树形图的过程中,我们也看出CFG 语法对潜在歧义结构的分析能力是很有限有时甚至是无能为力的。为了克服短语结构语法的上述不足现象,前修时贤又纷纷提出新的语法理论, 其中较有代表性的有:词汇功能语法(lexical Functional Grammar,简称LFG);功能合一语法(Functional Unification Grammar,简称FUG);广义短语结构语法(Generalized Phrase Structure Grammar,简称GPSG);中心词驱动的短语结构语法(Parsing Head-driven Phrase Structure Grammar,简称HPSG);中文信息MMT 模型( Multiple branched and Multiple labeled Tree Analysis,简称MMT)等。 这些用于语言信息处理的语法都采用了复杂特征的方法,它是当代计算语言学的主要研究方法之一。

复杂特征主要采用“属性/值”矩阵来对语言进行描写,实质上是对人类知识的一种形式化表述方式,可以用它来扩展CFG语法,以此增强CFG语法描写语言结构的能力。LFG、GPSG、HPSG、FUG都是对英语CFG语法的扩展, 英语是典型的屈折型语言,这个类型的语言语法的形式化标志比较明显,大部分采用词的性,数,格,时,体,态,词性,语义特征等作为属性标记。

而汉语是典型的孤立型语言,和英语等印欧语言比较起来,语法的形态变化几乎没有,照搬英语中的“属性/值”系统处理汉语显然是不合适的。究竟采用何种复杂特征系统要依据汉语自身的特点来决定。

二、意合手段 汉语中经常被语言学家们提及的语法手段主要是虚词和语序,作为复杂特征虚词的覆盖面显然过于狭窄,其描写手段也过于概括。

语序被传统语言学家看作汉语中极为重要的语法手段,可汉语的语序有时却显出很大的灵活性,如:

AB

(1)饭不吃了——不吃饭了

(2)我送给他贺年片 ——我送贺年片给他

A(1)与B(1),A(2)与B(2)分别可以表达相同的含义而语序上却有很大的不同,而且语序只表达词与词的前后位置关系,并不涵盖对词语本身意义的描写,语序也不足以作为描述汉语的形式化手段。

怎样才能准确全面形式化地描写语法语义关系呢?如果我们把语序不能解决的问题搞清楚,再把每个词自身的语法,语义特性,形式化地描述出来似乎就应该能够找到答案。到底是什么原因使得上面不同语序的词表达了相同的意义呢?

吕冀平先生在《汉语句法中的意合问题》一文中回答了这个问题,认为决定诸如此类语言现象的也是一种手段,并称它为句法中的意合手段[5]p156。“意合”作为一个语法术语,最早始于王力先生的《中国语法理论》,不过王先生那时只把这个术语用于复句分析, 他说:“中国的复合句往往是一种意合法, 在西文称为parataxis(注:陈慰主编《英汉语言学词汇》(商务印书馆,1998年)中“parataxis”译为“无连词并列,并列关系,并列结构,意合连结,意合结构”。)(引者按,即不用连词而并列起一些clause)”。

《现代汉语语法讲话》中的解释是“以意会”,虽然这个解释过于概括,但吕先生却认为它“触到了一个接近汉语根本特点的问题:组词成句过程中,语法的形式标志并不处于不可或缺的绝对需要的地位,而主观上的‘意会’具有不可忽视的作用,最低限度同印欧系语言比较起来是如此。”[5]p159 吕先生认为“意合”是指“没有任何表示语法关系的语法手段,而能表达人们共同理解的相关意义,”这种意义是“对言内之意的意会,其结果不因人而异”[5]p161。 他把意合手段界定为“词汇意义+结构框架+逻辑推断”三者相互协调的表意手段。具体地表述这个界定就是:意合手段是深层的语义特征、表层的结构框架、具体的语言环境,即语义、语法、语用三者相互协调的综合运用,其中的“语用”不是严格意义上的pragmatics,而是指具体语言环境中对词句表达内容的逻辑推断[5]p174。笔者认为从传统语言学的角度来理解,“意合”就是指人们根据具体的上下文对概念意义上能够组合使用、相互之间没有冲突的语言单位理解出某种固定含义的语法手段。运用“意合”的观点,就可以解释为什么上面A、B两组句子虽然在语序上不尽相同,也能够被人们所理解。

吕先生有关“意合”的解释是从人理解语言的角度切入的,从计算机处理语言角度来讲,“意合”主要有两层含义:一是指机器判断组织在一起的语言单位之间在意义上可以相容,没有冲突;二是指可以相容的语言单位间可能会由于语义属性的不同组合,而产生不同的语法、语义关系。“意合手段”也由上面三个层面(即语义、语法、语用)组成,为了能在计算机上实现这样的想法,需要将几个层面以机器可识别的形式化方法表示出来。前面讲到的复杂特征可以很好地形式化地表述这些知识,也正是我们寻找的方法。因为“意合”本质上来讲是“意义相合”之义,因此三个层面中还是以语义为主,语法和上下文语境都只是一些辅助信息。

三、ontology与语义计算 既然意合理论中认为语言单位间语义可以组合就说明某个语言片断的各个词的语义是可以分解的,把语言中所有对单词语义分解的结果组合在一起就产生了语义方面的一个ontology。“ontology”本来是一个哲学术语,字面上可以分析为“ont+logy”其中“ont”是希腊文“on”即“being”的变形,因此,“ontology”就是关于“being”的学问。因此,“ontology”曾被译为“万有论”、“存在论”,现在哲学界流行的译名为“本体论”[6]。

John Wilkins最早于1668年公布他的设计, 他将整个世界划分为 40 个大类:GENERAL,RELATION MIXED,RELATION OF ACTION,DISCOURSE……在以上40个大类下,进一步又划分为子类和种。为了表示这些划分出来的概念,他发明了一种称之为real character的表意符号。如果我们要在今天的计算机技术中为Wilkins 找寻一席之地,那么他可以被誉为是“超文本之父”和“ontology之父”,他的知识分类体系中所构画出的知识树正是今天“超文本”应用的基础和实质(注:参见John Wilkins,An essay Towards a Real Character and a Philosophica Language[M].Continuum Pub Group,2002.转引自刘海涛.计划语言研究对自然语言处理的影响[A].术语标准化与信息技术[C].1998:29—35.)。近年来,“ontology”的思想被其它学术领域借用来解决一些具体问题,计算语言学就是其中之一。“ontology”在哲学中的定义原是“关于存在的学问”,这个定义对于具体的学科来讲显然过于宽泛,需要根据不同学科的特点重新界定其含义。在人工智能领域里,格鲁伯(Gruber)在1993年给“ontology”下的定义是:“概念体系的规范”(注:参见Neches,R.; Fikes,R.; Finin,T.; Gruber,T.; Patil,R; Senator,T; Swartout,W.R.Enabling Techology for Knowledge Sharing.AI Magazine.Winter 1991:36—56.),这个定义根据学科的特点来解释“ontology”,较为具体。1998年,施图德(Studer)等在格鲁伯定义的基础上,又进一步对“ontology”做出了更加明确的阐述:“对概念体系的明确的、形式化的、可共享的规范说明”(注:参见Studer,Benjamins,Fesel,Kowledge Engineering:Principles and Methods.Data and Knowledge Engineering.25(1998):161—197.)。其中,“概念体系”是指世界上某些现象的抽象模型,“形式化”是指“机器可识别的”,“规范说明”是指“这个体系中的概念,属性关系,规则,限制,公理都被准确定义”,“可共享”是指“该概念体系所属领域的专家之间意见一致并且可以共同享用这个资源”。冯志伟先生把“ontology”译为“知识本体”,他认为“如果把每一个知识领域抽象成一个概念体系,再采用一个词表来表示这个概念体系,在这个词表中,要明确地描述词的涵义、词与词之间的关系、并在该领域的专家之间达成共识,使得大家能够共享这个词表,那么,这个词表就构成了该领域的一个知识本体。知识本体已经成为了提取、理解和处理领域知识的工具,它可以被应用于任何具体的学科和专业领域,知识本体经过严格的形式化之后,借助与计算机强大的处理能力,可以对于人类的全部知识进行整理和组织,使之成为一个有序的知识网络。”我们认为冯志伟的解释体现了计算语言学领域中“ontology”的本质,具有很大的可操作性,“知识本体”的译法也体现出了“ontology”在具体学科领域中的特点,它不再简单是一种理论,而是一个具体的体系,因此我们也采用这种说法。冯志伟把知识本体分为四种类型:

(一)通用知识本体(common ontology)常常从哲学的认识论出发,概念的根结点往往是很抽象的,例如,时间、空间、事件、状态、对象等。

(二)领域知识本体(domain ontology)对领域的知识进行抽象, 概念比较具体,容易形式化和共享。

(三)语言知识本体(language ontology)常表现为一个词表,其中要描述单词和术语之间的概念关系。

(四)形式知识本体(formal ontology)对于概念和术语的分类很严格,要按照一定的原则和标准,明确地定义概念之间的显性和隐性关系,明确概念的约束和逻辑联系。

按照冯志伟的分类词网(WordNet)就是一个语言知识本体,包括名词,动词,形容词和副词。名词按层组关系组织在一起,动词按隐含关系组织在一起,形容词和副词按照同义与反义关系组织在一起。这个知识本体把词性做为整个体系分类的基础,符合英语是屈折型语言的特点。但汉语是孤立型语言,语法手段主要是意合,按词性分类会出现很多交叉现象,照搬Wordnet恐怕会出现一词多译, 多词一译或一词无译的现象,同时汉语好多特有的语法、语义现象无法在这个体系中得到表达。找到一个符合汉语特点的语言知识本体成为当务之急。

冯志伟先生在日汉机器翻译的研究中,设计了一个知识本体系统ONTOL-MT。 这个知识本体的初始概念有事物(entity)、时间(time)、空间(space)、数量(quantity)、行为状态(action-state)和属性(attribute)6个。这6个初始概念之下,还有不同层次的下位概念。它是专门为机器翻译设计的,属于通用知识本体,对于构建针对汉语的基本概念体系已经足够,不过要想使它成为一个机器可识别的语言知识本体还需要补充一些知识,笔者在处理同词性短语的过程中根据汉语的特点在这个知识体系的基础上制作了一个词表,这个词表中的信息包括:语义属性(主要来自ONTOL-MT中的信息),词性,语义特征,动词的次范畴,单词的字符数以及某些单词的基本语义关系。这些都是单词的静态信息(注:参见冯志伟[7]p351。),运用这些静态信息我们可以计算出单词之间的一些动态信息(注:参见冯志伟[7]p351。),包括词组类型信息和句法关系信息,静态信息和动态信息共同构成了我们为实现计算机自动消解结构歧义的语言知识本体。在具体的实现过程中,静态信息体现为机器可读词典,动态信息体现为机器可读规则库。

冯志伟提到,知识本体本身是一个概念体系,它可以为我们提供一种语言各个单词的语义属性,通过语义属性可以获得词与词之间的语义关系,语义关系实质上是概念间的关系,也就是单词所指间的关系,所指关系是否可以为能指关系(即单词间的语法关系)提供一些线索呢?回答应该是肯定的,前面意合理论中提到汉语的语法关系在很多情况下是由词与词之间的意义组合体现出来的,那么在理论上讲单词之间的语义关系与其语法关系应该有某些相通的地方,语义关系是由语义属性的结合获得的,因此,通过语义属性的计算应该可以得到单词间的语法关系,冯志伟先生在设计MMT模型时, 也认为单词固有的语义特征对于判断词组的句法功能有很大的作用[7]p344。我们在处理语料时也发现语义与句法功能间确实存在某种对应关系。

四、基于ONTOL-MT的词典和规则库设计 为了构建一部机器可读词典, 我们首先需要把ONTOL-MT这个知识本体中的语义属性标记到词典中的每个词条上面,然后标注一些其它机器消解结构歧义时用到的信息。单词上的每条信息都用“属性/值”的方式来表示,每个词条上的所有信息就构成了一个复杂特征矩阵。这部词典中的信息参照了冯志伟先生在80年代初期提出的中文信息MMT模型(注:中文信息MMT模型,又叫做多叉多标记树形图分析法(Multiple branched and Multiple labeled Tree Analysis简称MMT模型),是冯志伟先生在汉外多语言机器翻译研究的实践中,吸取了法国特尼耶尔从属关系语法和德国配价语法的精粹,针对乔姆斯基短语结构语法的弱点和汉语语法的特点提出来的,这个模型是我国学者对复杂特征集研究的最早尝试。),同时又加入了针对消解结构歧义所需要的一些单词的特性。由于我们在实现时采用的是CTT中的PATR(注:PATR是CTT的内置形式化体系,它是一种基于合一的语法,可以把我们的词典及规则库中的信息按照这种语法的格式改写后,让机器理解,再通过CTT画出图来。)语法,因此词典和规则库中的编写了按这个语法的要求来设计,内置的PATR形式化体系,可用于PATR语法的剖析。PATR语法在各种基于合一的语法中是最简单的一种。它可以被看作是某些更复杂语法(如HPSG等)的一种简化版本。目前的大多数语法形式化模型都可以编译为PATR。

特征结构由特征值对的集合构成,其中的每一个特征对应一个值。如果FS是一个特征结构,我们就用FS>>syn来表示特征syn的值,用FS>syn..cat来表示FS>>syn的cat值。

Prolog算子被用作两个特征结构、变量或Prolog项的联合。如果两个结构不兼容则联合失败。如,nps失败的原因在于np和s表示的结构是不兼容的,而Cats和sCat的成功理由是Cat被实例为s。由此类推,CatlCat2中的Catl和Cat2将被设置为同一个没有实例的Prolog变量,FS>>catnp把FS中的cat特征设成了np,FS1FS2做的事情是把特征结构FS1和FS2联合在了一起。

PATR语法是一个具有如下格式的Prolog程序:

%语法规则 %词汇规则

FS[FS1,FS2,...,FSN] lex(Word,FS)

定义特征结构的Prolog代码 定义特征结构的Prolog代码

规则FS[FS1,FS2,...,FSN]body.认为:如果所有的特征结构可以满足在body中给定的Prolog特征限制,那么,我们可以将具有特征结构FS1,...,FSN的成分序列分析为具有特征FS的一个成分。与此类似,规则lex(Word,FS)body.说的是要将一个词Word分析成具有特征结构FS的成分,就必须满足body内的限制(注:上文patr语法规则参照刘海涛老师自然语言处理课程的讲义。)。因此,语法规则的body必须通过设置某些属性的值来生成所需的特征结构。该词典的主要内容如下:

1.词性 词性是描述汉语句子的复杂特征之一,记为cat。在词典里的表示方法为:

L>>cat‘n’

2.语义属性 语义属性是单词的最基本的概念意义,就是知识本体中的各个语义标记,类似冯志伟系统的语义特征。语义属性记为sem。 它可以取的值和子值都在ONTOL-MT中获得。词典的表示方法为:

L>>sem‘cgi’ %cgj:持工具动作(注:%后面是缩写字母代表的语义类别。)

L>>sem‘gq’ %gq:感情

L>>sem‘st’ %st:身体部位

3.语义特征 上文提到本文所用词典中的语义属性类似于冯志伟系统中的语义特征,是“ONTOL-MT”中的语义标记,这里的语义特征不是知识本体中的标记,而是通过比较得出的同一语义类别中的词各自具有的不同特性,比如同样是[+食物]语义类别中的词语,就有可直接食用和不可直接食用的区别,这样的区别对于句法功能是有一定的影响的。语义特征记为sem_feature,词典中记为:

N>>sem‘sw’, %sw:食物

N>>sem_feature‘zjsy’ %zjsy:可直接食用

4.单词间的意义关系 是指单词之间由于语义上的原因产生的关系。包括部分与整体关系,种和属的关系,同义关系,反义关系等,记为:mean_rel。

lex(‘电视机’,N) lex(‘屏幕’,N)

N>>cat‘n’, N>>cat‘n’

N>>mean_rel‘wl’,%wl:整体 N>>mean_rel‘pl’,%pl:部分

N>>sem‘jq’.N>>sem‘yj’.

以上是机器可读词典的设计,规则库中包括如下两部分:

5.词组类型 虽然我们研究的是同词性词组成的短语,可是组合后的结果也许与组成成分的词语性质不同,同是n+n,“绿色衣服”是名词性短语,而“全身白色”则是动词性短语,因此有必要算出词与词组合后短语的性质。词组类型记为cat,虽与词性标记相同,但取值不会重复,它的值可以是:np,vp,ap。规则的写法如下:

NP[NP1,NP2]

NP>>catnp,%np:名词短语

NP1>>catn,

NP2>>catn,

NP1>>semjqn,%jqn:金钱

NP2>>semyj.%yj:用具

6.句法关系 上面已经说过可以通过计算语义属性的方法得到句法关系,句法关系标记为:syn_rel,它的值可以是:blp(并列关系短语),dzp(定中关系短语),fzp(复指关系短语),zwp(主谓关系短语)。规则的写法如下:

NP[NP1,NP2]

NP>>syn_reldzp,%dzp:定中短语

NP1>>catn,

NP2>>catn,

NP1>>semjqn,

NP2>>semyj.

通过词组类型标记和句法关系标记我们就可以把格式真歧义短语间的不同语法关系区分出来,也可以把同一个实例真歧义短语中的不同语法关系辨别出来,从而让计算机分化出一个潜在歧义结构中可能含有的多重意义。当然对于实例真歧义短语来说,只区分出短语的词组类型和语法关系还不够,还要让机器知道在具体的上下文语境中,同一个短语会是哪种词组类型和语法关系。我们对结构歧义的判断都是通过上面的词典和规则库中的信息来完成的,它们二者构成了本文消解结构歧义的语言知识本体,规则的编写主要靠语义来完成。因此,我们可以说本文采用的是一种“基于ontology语义驱动的结构歧义消解方法”。

下面以[+食物]这个语义类别为例说明n+n短语的编写:

NP2>>catn,

NP1>>semsw,

NP1>>sem_featurezjsy,

NP2>>semsw,

NP2>>sem_featurezjsy.

NP[NP1,NP2]

NP>>catnp,

NP>>syn_reldzp,

NP1>>catn,

NP2>>catn,

NP1>>semsw,

NP1>>sem_featurezjsy,

NP2>>semsw,

NP2>>sem_featurezjsy.

定中关系的短语,一般在上下文中还会找到其它[+食物]名词,且有表示个体的量词短语出现;而并列关系短语的上下文一般会有表示将两种东西混合或分开义的动词出现。因为PATR是基于CFG语法编写的,因此对于上下文相关语法不能处理,而对于实例真歧义短语的消歧方法又恰好是在上下文语境基础上编写的规则,其它程序语言可能会实现这些规则,对实例真歧义短语的消歧规则我们用作者设计的伪码(注:在附录中有对这些伪码含义的解释。PATR是基于上下文无关语法的一种语法形式化表示认识方法,而利用语境消歧需要用到的语法规则是上下文相关的,因此采用了自己编写的规则。文中“牛奶面包”这个实例在实现时,恰好可以把上下文无关规则转写为上下文相关规则来实现,所以能画出下图。)表示:

if n1+n2/[+食物]n/“一”+q;

then n1+n2=dzp;

if n1+n2/[+混合]v/[+分开]v;

then n1+n2=blp。

以实例真歧义短语“牛奶面包”为例在CTT上用PATR实现的结果如文末图。

附图

运用上面的消歧方法,我们对收集到的语料中11个语义类的“n+n”短语成功地进行了句法关系消歧。

需要说明的一点是以上规则是在我们目前拥有语料的基础上提出来的,可能还有许多语言现象不能用上面的规则来处理,但是随着语料库的不断扩大我们将会进一步完善它们。

本文的研究方法及提出的消歧策略是“n+n”结构中名词特有的性质所决定的,它可能还适合如:“n+n+n”,“n+v”,“v+n”等其它含有名词的短语结构,这需要我们在分析其它语料的基础上进一步研究。

附录:本文采用的形式化语言

[]表示词语具有的语义特征;

and 表示合取关系;

+ 表示具有某一特征;

“”表示终极符号;

- 表示不具有某一特征; ≌ 表示只能形成的结构关系;

if 表示条件;

= 表示可能形成的几种结构关系;

else 表示除if以外的其它条件;

│ 用来分隔可能形成的结构关系;

then 表示结论; / 表示n1+n2可能出现的上下文, 这样的上下文仅限于

end 表示判断结束,可以继续下一个语言片断的识别; n1+n2短语的前面或后面五个词;

or 表示析取关系;

标签:;  ;  ;  ;  ;  ;  

现代汉语“n≤n”的结构歧义研究_自然语言处理论文
下载Doc文档

猜你喜欢