汉语代词研究的新思路_自然语言处理论文

汉语代词所指研究的新设想，本文主要内容关键词为：汉语论文,代词论文,所指论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

【内容提要】本文在借鉴国内外现有理论和方法的基础上，从计算语言学角度，结合汉语代词自身的特点，提出一种基于语料库和基于规则相结合的研究设想，以探讨汉语代词所指确定的一般性方法，为计算机理解汉语代词提供一种有效可行的处理模式。

一

计算机科学的飞速发展，使人类直接使用自然语言与计算机打交道成为可能和必然。欲实现这一目标，必须探明人类大脑的语言机制，并赋予计算机理解与处理自然语言的智能。计算语言学(Computational Linguistics)就是为此应运而生的一门新兴学科。

计算语言学，是指面向计算机的语言研究与应用。在理论上，它涉及语言学、计算机科学、数学和认知科学的一门综合性学科；在应用上，“它面对着包括自然语言理解、自然语言人机接口、智能化情报检索和机器翻译等广阔的应用领域。”（黄昌宁，1991）

近年来，计算语言学的理论及应用研究成果表明：语言学与计算机信息技术的结合与交叉，已是一种实际存在的发展趋势。显然，语言学研究必须实行多元化，任何单一性的研究都不可能真正取得成功。在国外，语言学研究方向已明显地向人工智能、智能计算机等高新技术领域偏转，并且已形成与语言密切相关的信息产业、语言产业以及智能产业。在我国，为配合国际计算语言学界的“大规模真实文本的处理”这一战略目标的实现，有关的语言研究开始集中在两个方面：一是重视语料库的建设；二是采用基于语料库的自然语言处理方法。

根据这一新的研究动向，我们考虑代词所指研究是否也该引入基于语料库语言学(Corpus Linguistics)的研究思路？

为此，不妨回顾一下国内外代词所指研究的状况。

所指是语言中的一个重要概念。最近几年，语言学家、认知心理学家、计算机科学家都发现它与各自领域的关系，并开始致力于这方面的研究。其中代词所指这一重要的语言现象，一直受到有关专家学者的关注。在自然语言的计算机处理领域，代词所指的研究，主要集中在代词消解(Pronoun Resolution)方面。代词消解是指如何使计算机在理解语言时能正确唯一地确定代词所指对象。国外这方面的研究，大致分为传统的和现代的两个阶段。在传统的研究阶段，人们把代词所指的确定问题仅视作一个寻找先行名词短语的问题。其方法通常是在句子平面上进行的，有时也引入常识和低层次的语言学知识。在现代研究阶段，有关专家开始认识到言谈(Discourse)平面知识对代词所指确定的重要性。如：70年代后期，主要有5种理论及方法：概念激活、注意中心、焦点框架、逻辑形式及言谈连贯；80年代提出的方法是：言谈语义特性、限定领域知识；90年代主要有：利用空位语法(Solt Grammar)和言谈上下文环境进行消解。国内的研究始于80年代。范继淹等(1981)的RJD-80和李家治等(1982)的ACLUS系统，均以句法、语义及推理方法处理所建系统中某些代词的所指问题；王开铸(1987)的CQAES-1系统，以实验验证了句内代词所指的理解层次；倪子伟、李堂秋(1991)的XMMT系统，则运用组合途径对系统中的代词所指问题作了一些尝试性的研究。

在自然语言理解中，代词所指的确定极为复杂，涉及大量言谈分析知识。尤其是汉语，由于缺乏“形态”、强调“意会”，其代词所指在言谈环境中的使用情况更加复杂，给计算机汉语理解带来的难度更大。目前国外已在英语理解方面，提出了一些面向言谈分析的代词消解策略，但对汉语代词研究还很欠缺。国内还局限在自然语言处理系统中所出现的某些代词的处理，尚未提出一种一般性的消解策略，故难以从根本上解决自然语言理解中的代词所指问题。可以说，在当今的计算机自然语言理解研究中，尤其是计算机话语篇章理解方面，代词消解已成了阻碍我们取得突破性进展的难题之一。

要解决这一难题，我们认为应该从汉语代词所指这一语言现象本身入手。代词所指，无论是从人理解，还是从计算机理解，说到底还是一个语言问题。而现在的问题是：代词所指现象，在自然语言中早已习以为常，而计算机处理起来却十分困难。因此，要让计算机能够比较顺利地处理代词所指，首先得全面考察代词所指现象，即将代词所指置于言谈使用环境之中进行考察分析。只有这样，我们才有可能从大量实际运用的语言事实中，“挖掘”出代词所指的规律或倾向性规律，进而加以形式化描述，归纳出代词所指的确定性规则，建立相应的代词所指消解模型，为计算机处理汉语提供算法设计的依据。这一来，代词所指现象的考察工作就显得尤为重要。要做好这项工作，我们应真正地、充分地尊重语料，特别是真实语料；而这恰好正是语料库语言学研究的出发点。

语料库语言学的宗旨，是企图通过大规模真实语料的调查来发现并总结自然语言的各种语言事实和语言规律，为语言研究的进一步发展奠定基础。语料库语言学是“以计算机语料库为基础的研究路线，强调语言知识的源泉是大规模真实语料，而研究人员的任务是在计算机的辅助下，对这种真实语料中所包含的语言事实作出客观的描写，用以支持大规模真实文本的处理。”（黄昌宁，1991）

语料是进行科学分析与研究的语言材料，是语言信息的载体。以真实文本语料为研究对象，是计算语言学界进行自然语言处理的最新进展。以往的计算语言学研究表明：单纯依靠一种以规则为基础的形式化理论和处理方法，已“不能满足信息社会对语言信息处理产业的需求。”原因在于：传统的语言规则往往是根据规范的语言现象概括出来的，其解释不能覆盖真实语料中所包含的某些细微的语言现象。因为真实语料往往是不合规范的。显然，基于这样的规则所建立的自然语言处理系统，是无法顺利地处理实际的语言现象；更难以胜任大规模真实文本处理。虽然，“不同的应用领域会对自然语言处理系统提出不同的要求，但是有一点是相同的，即希望系统处理的是自然语言，是大规模的真实文本。”（萧国政，1994）

在这一背景下，我们对以往的代词所指研究工作进行了认真的反思。反思的结果表明：多年来，在汉语代词所指研究工作中，有两种情况：一是语言家总是习惯以规范文本作为语料对象。然而，这种对规范文本进行分析而得出的规则，究竟有多大程度上适用于实际的语言现象，还是个问题。二是自然语言理解研究者，往往只注意那些能在狭窄领域中有效工作的规则处理方法。这样一来，易使人们忽略言语运用的多样性，忽略了对大规模真实语料的调查，以致由这些研究而提出的一些理论和方法，只能从某个侧面和一定的高度提出解决代词所指问题的途径，而不能圆满地解决语言理解中的代词所指问题。

代词所指研究的难点和关键之处，在于从对语言现象的分析中寻找规则、规律或某些倾向性规律，确立一个语言分析模型，提供一种能供计算机处理的算法。然而，从语言这一客观现实出发，规则的确立和规律或某种倾向的发现，离不开对“真实语料”的定量和定性分析。因此，在代词所指研究中，以真实文本为语料对象的语料库语言学方法的引入就成了自然而然且又必需的研究趋势。

二

借鉴语料库语言学的研究思路，根据汉语代词自身的特点，笔者提出一种基于语料库和基于规则相结合的研究设想。下面就此设想的展开作一概要介绍。

⒈语料的选取和语料的标注

语料库建设是语料库语言学的基础。在语料库的建设工作中，语料的选取和语料标注，是两个关键环节。

(1)语料的选取，是指选定语料对象的范围或语料领域。Donald Warker曾根据语料对象的性质，将语料库分成四种不同类型：①异质的(Heterogeneous)。这是一种最简单的语料收集方法，尽可能广泛地接受各类材料而没有事先制订的任何选材原则。②同质的(Homogeneous)。它是“异质”的对立面。仅仅有选择地收集某一方面的特定语料。③系统的(Systematic)。系统采集是为了保证语料具有广泛的代表性。④专用的(Specialized)。这是为专项研究而建立的语料库。

我们的作法是：采用语料的分类方法。由于不同领域中篇章结构的差别，代词的使用情况也大不一样，所以，先将待考察的语料分成：办公信息、报刊政论、科技科普、生活口语及文学作品等几大类，再分别对各类语料进行统计分析。

(2)语料的标注，必须尽可能地从句法、语义、语用等方面进行标注，使语料尽可能多地反映语言的各种信息。这样的语料库才能真正成为语言的知识库。一个未经任何加工的语料库是生语料库，不能起什么作用。只有经过标注、统计、索引等方法加工的熟语料库，才能成为语言研究的工具。

语料的标注，如分词、词性标注、语义标注等方面已有了一定的研究基础；而对代词所指研究而言，应考虑的是代词的指称或指代标注。指代标注属于话语标注范围，在这方面尚无成功的经验可借鉴。

我们采用的技术路线是：先选出一定数量的语料，进行实地标出指称或指代，并用统一的标号。如：针对代词的回指现象，文中前面提到的某一人名或地名，而在其后面文中出现：他、其、该地、该年、同年等代词，此时进行加注标引。即：

人名冠以N，地名冠以P时，他（AN，鲁迅），

其（AN，邓亚萍），

该地（AP，杭州），

其中第一字母，A可以代表文件类别。

⒉基于语料库的统计分析与结果比较

从现代语言学和言谈分析的角度来看，定量分析是定性分析的基础；既定性又定量的分析结果则往往表现为一种规律性，或表现为一种以百分比的形式出现的倾向。因此，在代词所指现象考察中，应注重定量分析与定性分析相结合的方法，即在研究类型的异同时，还应注意实例的多寡。

我们的统计分析的工作分两步进行：先是按分类语料库单独进行统计分析；再对各类语料库的统计结果进行比较分析。

在分类语料库中，首先查询有关的典型代词，并建立例句库；然后再针对代词事例，从句法结构、语义关系、语用意义等角度进行分析研究，并赋予形式和意义的特征标记，以便让计算机进行自动归类统计。根据其同现频率，进一步考察代词所指的某种规律性或倾向。

在各类语料的统计分析基础上，比较其统计结果，以“提炼”出代词所指的共性，以便建立适用于计算机处理的通用规则库。至于代词所指的个性，则作为各类子系统的处理规则。例如：

(1)通用规则条件：句首为一确定性名词短语，将此短语置换后续句中出现的第三人称代词或后续句中居首的指示代词，其结果与当前上下文、言谈意义不矛盾。

确定：后续句中第三人称代词或指示代词指代句首这一确定性名词短语。

实例：①老张嘿，他肯帮别人的忙，别人也肯帮他的忙。

②祖国，这不是一个普通的词儿。这是一个至亲至爱的名字、尊贵的名字、神圣的名字。

(2)个性规则条件：在口语问答模式中，名词（名字或称谓）不属于交谈双方中的任何一方，并在上文中出现。而含有第三人称代词（他）的话语出现在下文，并与上文主题不矛盾。

确定：该第三人称代词（他）指代上文中的表称谓的名词。

实例：③问：老张最近怎么样？

答：他很忙，不过身体很好。

⒊基于规则的代词消解策略

根据上述基于语料库的统计分析所提取的规则，我们提出了一种分层规则的代词消解策略。这一策略的指导思想是：

(1)从认知角度观察，代词的消解，即确认代词所指对象的过程，是一个动态的过程。代词消解须在语言理解的基础上才能完成。

(2)从使用角度观察，影响代词所指确定的因素是多层面的，既有句法与语义上的受限，又有语用与语境上的限制。因而，代词消解应在不同的语言平面上进行。

因此，在语言理解系统的整体设计中，不妨把代词消解环节作为一个单独的子系统来考虑。该代词消解子系统的具体构造应该是：

图1

代词消解子系统，主要依据汉语理解系统中句法、语义及语用分析处理所得的信息，进行代词所指的分析与确定工作。系统运行时所需的句法、语义及语用等信息的内部表示为：

·句法信息以句法树形式提供，采用嵌套的表结构表达。即：

其一般式为：〈结点N〉＝（N〈子结点N1〉

······

〈子结点Nn〉）

······

·语义信息以语义表达式提供，采用格框架表达。即：

其一般式为：（〈动词V〉

(A (VAL)

(LIM))

(O (VAL)

(LIM))

(I (VAL）

(LIM))

……)

式中A、O、I、分别表示施事格、受事格、工具格。LIM槽存放语义限制。

·语用信息主要是指句类、主题两类信息。句类寄存器，存放当前句子的类别（始发句、后续句、终止句）。主题结构，用一个主题变化表和主题结构树表示。它们是在对篇章进行分析时动态建立的。主题变化表反映当前主题是什么，通过向前搜索和比较，可反映主题是否发生了变化。主题结构树提供了各主题之间的承续关系。这些对于代词所指的确定都是极为有用的。

·语境信息主要提供上下文语境和有关世界的知识。

代词消解子系统内部的设计，是根据汉语代词所指的特点，采用不同语言平面的分层处理方法。该系统包括句法处理、语义处理、语用处理三种处理模块，由总控程序模块根据当前输入决定。

该系统采用基于规则的处理策略，即在系统中，针对每一输入语句中的代词，有一相应的代词所指确定规则。事实上，在什么情况下，使用什么规则进行处理是一个很复杂的过程。我们采用属性分类排序的方法，将所有规则分为句法类、语义类、语用类，分别供系统中的句法、语义、语用处理模块使用。三个程序模块所用的规则类尽管不同，但其机内表达采用如下的统一格式。

（RULE 〈规则类〉〈规则号〉）

其中〈规则类〉定义为SYNTACTIC、SEMANTIC、PRAGMATIC，〈规则号〉则指出该规则在特定规则类中的序号。

系统运行时需要的主要数据结构有：启发式信息表、规则类别表和当前处理的代词索引表。具体实现过程是：根据当前处理的代词索引表中的一代词，由搜索启发式信息表，得到一具体的〈规则类〉，然后执行（RULE〈规则类〉1），即进入具体的处理模块。模块中每一个具体规则由一测试动作对构成。测试部分以判断当前代词所处环境是否满足规则要求的限制条件。如满足则执行动作部分以确定当前代词所指，如不满足则跳出。

三

为了适应信息社会对处理大规模真实文本的迫切需要，语料库语言学的方法正在取代传统规则方法而成为实用化自然语言理解系统和机器翻译系统、全文系统的主流技术。在这一背景下，笔者针对汉语代词所指问题，提出一种基于语料库和基于规则相结合的研究设想。

就我们已进行的工作来看，基于语料库语言学的代词所指研究，其关键之处在于如何对语料库进行话语标注。这是一项很困难的工作，特别是对大规模真实文本的处理，在实际中遇到的问题要比想象的复杂得多。因而，有必要对此问题作更深入的探讨。

本研究项目已获国家社科基金资助

标签：自然语言处理论文; 语言学论文; 语料库论文; 语义分析论文;

汉语代词研究的新思路_自然语言处理论文

猜你喜欢