现代汉语信息处理词汇研究中期成果报告(下)_自然语言处理论文

现代汉语信息处理词汇研究中期成果报告(下)_自然语言处理论文

《信息处理用现代汉语词汇研究》课题中期成果汇报(之二),本文主要内容关键词为:现代汉语论文,之二论文,课题论文,词汇论文,成果论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

汉语知识词典及词汇内部语义描述研究

董振东

一、研究进展

本子课题研究的主要内容包括两部分:

(1)在已有的知识词典的基础上,为每一个多义义项填写5个或更多的例子。

这部分以工程实施为主。自本课题于1998年中期正式展开以来,已完成对逾万条义项的填写。同时在此过程中也对已有的语义词典的语义描述进行了校正和修订。虽然现有的例子在量和质两个方面尚有改进和提高的余地,词语义项的语义描述也有进一步修正和完善的需要,但经过半年多期间中港台三地一些学者的试用已显露出它的实用性,也反映出它语义描述的深度。

(2)汉语两字或多字格词语各组成部分间的语义关系模式的研究。

这部分以学术探索为主。一年多来本课题组内部举行过几次讨论,也对国内其他学者在这方面已做过的研究进行了学习和考察。但迄今为止我们尚未就模式的基本单元、组成方式、描述方法等得出明确的意见。

2.歧义排除的新机制和新资源

信息处理用现代汉语词汇语义研究和语义词典的建立务必着眼于应用。我们的知识词典和正在进行的工程建设,正朝着成为一种歧义排除新机制的新资源的方向发展。这种歧义排除的新机制的特点是:1 )适用于大语境,而不只是限于一个句子的范围内。实践证明句群比单一的句子会有更好的效果;2 )对于绝大多数的多义义项的判别将是免除规则的,而不再是为每一个义项去写若干条规则。以往的实践证明写规则不仅十分辛苦,更主要的是规则通常是很硬性的,加之词条的属性描述很弱,进而导致规则难以表达或判别失败可能性高;3 )基于上述机制的算法将在很大程度上可以是不依赖于特定语言的,只要具有同样的象《知网》那样的资源,算法就可以由不同的语言共享。这将是歧义排除的一种革新。

这里我们不妨来看一个实例。在下面这段报道文字[1]中, “举”和“案”两字是多义的,需要排歧。

台南县新化警分局刑事组小队长林文政昨天下午举枪自戕后,其生前同仁、好友莫不掬起同情之泪,在一片惋惜声中,认为林小队长之作法实在太傻了,因为是非曲直,法曹自有明断,又何必自寻短见。林小队长对涉案之事一直不愿多谈。在我们的词典里“举”有7个义项,其记录如下:

NO.=044197NO.=044209

W—C=举

W—C=举

G—C=ADJ G—C=N

E—C=~国欢腾,~世无双,~世瞩目,~国志哀, E—C =~~家迁移动,壮~,义~,此~,~措

DEF=aValueㄧ属性值,rangeㄧ幅度,allㄧ全 DEF=partㄧ部件,

%factㄧ事情,#

actㄧ行动

NO.=044201NO.=044215

W—C=举

W—C=举

G—C=VG—C=V

E—C=选~,推~,~贤,~荐,保~ E—C=~义, ~

DEF=chooseㄧ选择 DEF=startㄧ开始

NO.=044205NO.=044204

W—C=举

W—C=举

G—C=VG—C=V

E—C=~起手中的金杯,~重,~过头顶,高~旗

E—C=~办,~行

帜,~手发言

DEF=liftㄧ提升 DEF=doㄧ做

NO.=044213

W—C=举

G—C=V

E—C=~例,~一反三,列~,~一件小事说明你的看法,~出几条古注证明我的判断

DEF=quoteㄧ引用

词典里的关于义项的每一个记录都包括如上所列的各项:义项序号(NO.),汉语词语形式(W—C),汉语词性(G—C),汉语例子(E—C),语义定义(DEF)。

在上面这段文字中“举枪”的“举”应属于哪一个义项?新的排歧装置的一个机制是:1)用“举枪”去与7个记录中所给出的例子进行比较;2)当没有查到时,把“举枪”的“枪”分离出来,分别去跟记录1中的“国”“世”等,记录2中的“动”“措”等,记录5中的“金杯”“旗帜”等,以及记录7中的“例”等进行比较, 于是我们将会发现“枪”与记录5中的“金杯”“旗帜”的语义距离是最小的。 这样我们就可以确定文中的“举”的义项应是:“liftㄧ提升”。

至于“案”字,由于词典未包括“涉案”,因此“案”字也是多义的。在我们的词典里“案”有5个义项,记录如下:

NO.=000814NO.=000824

W—C=案

W—C=案

G—C=NG—C=N

E—C=有~可查,备~,教~,记录在~,~卷, C=~子,~头,

无~可寻,文~ 条~E—

DEF=documentㄧ文书 DEF=furnitureㄧ家

具,@putㄧ放置

NO.=000825NO.=000817

W—C=案

W—C=案

G—C=NG—C=N

E—C=提~,议~

E—C=惨~,

公~,~例

DEF=textㄧ语文,$proposeㄧ提出,$discussㄧ DEF=factㄧ事情

商讨,$debateㄧ辩论

NO.=000821

W—C=案

G—C=N

E—C=凶杀~,铡美~,施公~,办~,~例,破~,~情,~子

DEF=factㄧ事情,#policeㄧ警

在上面这段文字中的“涉案”的“案”应属于哪一个义项?新的排歧装置的另一个机制是:取出一段文字中所有词语的语义定义,然后加以比较。这时我们会发现在这段文字中,下列词语的语义定义中都含有“policeㄧ警”:“警分局”“刑事组”“法曹”,这就与“案”的记录5中的语义定义中的“policeㄧ警”取得最大相似度。 这样一来我们就可以确定文中的“案”的义项应是:“factㄧ事情,#policeㄧ警”。这里,“案”的记录4和记录5分别列出的两个义项的区别是非常细微的,它们的主要特征是相同的,它们的区分只是在于各自的特定的次要特征。说来也巧,它们所对应的英语对译词也是相同的,都是“case”,换言之,英语的“case”也是多义的,在自然语言处理中也同样需要排除歧义。我们不难想象只要我们有类似的资源,那么我们用于英语的排歧机制与汉语的将是相同的。现据《知网》应用者和研究者一致反映,我们词典的这样的语义描述有非常强大的语义排歧功能。

[1]此段文字节取自台湾中研院资讯所词库小组的平衡语料库。

现代汉语真实文本短语标注的若干问题

任海波/范开泰

语料库建设已逐渐地成为语言学和自然语言的计算机处理、机器翻译等其他交叉学科赖以发展的一个基础。语料库语言学的主要研究内容之一是要对语料库内收入的真实文本作不同层次的标注,以供研究者在不同层面上的应用。

要对语料库作不同层次的加工标注需要制定不同层次的加工规范。语料加工目标的不同会影响规范的制定。

汉语信息处理最初是从机器翻译的研究开始,至今为止,汉语信息处理的主要兴奋点还是在机器翻译上,因此在制定加工的标准或规范时往往较多地从机器翻译的角度来考虑。然而,值得指出的是,汉语信息处理的领域,除了机器翻译之外,还有汉语生成、篇章理解、信息检索、自动文摘、自动校对等等一些领域,这些领域都对语料库提供的汉语语言知识提出了比机器翻译用的更为精细的要求。我们觉得我们在对综合语料库进行语料加工时要充分考虑到信息处理的这些应用领域的需要,以对汉语语法的研究和对汉语知识的挖掘为基本目标,充分借鉴和吸收语言学界已有的成果来制定加工规范。下面我们具体谈谈现代汉语短语加工规范制定中的一些问题。

一、分词和词性标注

中国国家标准GB13715“信息处理用现代汉语分词规范”(以下简称为“分词规范”)提出“分词单位”这一基本概念,它的定义是

汉语信息处理使用的,具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组。

这个分词单位主要是词,但是也包括了一部分“结合紧密、使用稳定”的词组,例如:“对不起”、“社会主义”、“春夏秋冬”等(见“分词规范”4.2和4.3)。北京大学计算语言学研究所“《人民日报》语料库加工规范”(以下简称“北大加工规范”)把“分词单位”称为“切分单位”。我们采用“北大加工规范”的说法。对于切分单位是什么,“北大加工规范”指出:

按照“分词规范”对“切分单位”的定义和解释,本切分规范中的“切分单位”主要是词,也包括了一部分结合紧密、使用稳定的词组,在某些特殊说法中所出现的语素或非语素字,如在动词的离合形式

出/v了/u一/m次/q差/Ng。/w

中,“差/Ng”是名语素;我们觉得如何确定切分单位是由处理语料的目的所决定的。从机器翻译的目的出发,对语料进行切分,是要让程序懂得切分单位的意义,并据此理解句子的意义。因此,一些频率高的词组,只要在电子词典中作为单独的条目收入,并给出释义,就能解决问题。然而,如上所述,语言信息处理的领域不仅是机器翻译,要根本解决语言信息处理的问题,必须深入挖掘语言知识。从这个目的出发,把词组,哪怕是“结合紧密、使用稳定”的词组当作一个切分单位,也显得“颗粒度”太粗。例如,把“对不起”当作一个切分单位,那么如果我们要考察“动词+否定副词“不”+趋向动词”这一个词串格式时,就很可能会在加工过的语料库中找不出“对不起”这样的例子,由此会影响知识挖掘的广度和深度。同样,把“春夏秋冬”当作一个切分单位,当我们在词切分和标注的基础上作了短语的加工标注后,去提取所有的联合结构并考察它们的种种特征时,我们肯定会把“春夏秋冬”这样的例子漏掉。那么我们对语料掌握就不够全面,得出的结论也会受影响。

我们觉得影响切分单位划分的因素主要来自两个方面:一方面是计算机自动切分是否方便,另一方面是切分后的语料是否能有效使用。就第一个方面来说涉及两个因素,即分词系统中的词表和规则的问题。有人主张大词表小语法,持这种主张的人会倾向于让切分单位包括“结合紧密、使用稳定”的词组。就第二方面来考虑,如果在切分后的语料中找出切分单位的意义就算解决问题,这样做理论上说似乎是可行的,但是如何把握“结合紧密、使用稳定”这一含义?“分词规范”虽然对此作了说明,但是它依然未能说清什么是“紧密”什么是“稳定”,因此人们对此可以作见仁见智的理解。如果在难以把握的情况下,比照“对不起”把“想不起”“了不起”“买不起”“看不起”“瞧不起”“记不起”“经不起”“拿不起”“举不起”“惹不起”等等也都当做切分单位;比照“春夏秋冬”把“日月星辰”“东南西北”“前后左右”“油盐酱醋”“红黄蓝白”等等也都当做切分单位,那么这个词表该是多大很难想象,更重要的是,在把这些组合都当作一个切分单位后,我们在进行短语标注时是否还要再对此作切分和标注。如果再要切分和标注,何不在分词和词性标注阶段先对它们做好处理。如果不再切分和标注,那么既然“分词规范”已承认它们是词组,而进行短语标注加工时却又忽略过去,这本身就是矛盾。而且这样标注后的语料库把这些短语(词组)都忽略了,那么它能提供的短语信息肯定是不足的。

根据现有各种分词系统的介绍,大词表小语法与小词表大语法在占用系统的空间和时间方面各有优劣,但在系统总的开销上看相差不是太大的。所以,我们觉得加工后的语料库是否能有效地提供使用,在确定切分单位时是主要应考虑的。切分单位颗粒度粗的语料可能在信息处理某些实用领域有效,但是对于用于挖掘语言知识、提炼语法规则来说肯定不是那么有效的。所以,既然我们的语料库是为挖掘语言知识、进行语法研究而用,我们在实际的加工中,就应把切分单位的立足点确定为语言学意义上的词,同时也包括“北大加工规范”中提到的那些切剩下来的语素。

“分词规范”一般把谚语、格言等都给予切分,但是对“不管三七二十一”却不予切分,因为“分词规范”认为这是分开后“违背原有组合的意义,或影响进一步的处理”的。如果“不管三七二十一”可以不切分,那么“不问青红皂白”“不知天高地厚”等等也就不应切分,那么如此加工的语料库就可能难以满足语法知识挖掘的需要。《现代汉语词典》老版中收入“不管三七二十一”作为一个词条,但是没有收入后面两条,而新版中增收了“不知天高地厚”,却依然没有收“不问青红皂白”。我们认为汉语词典中应该收入这样具有固定意义的词组,但是不应该把它当做词条收入,而应该把它附在某一词条下。英语中也有大量的比较固定意义的词组,如:make both ends meet (收支平衡)、at the crack of dawn(清晨)、let the cat out of the bag(泄露秘密)、between you,me,and the gatepost(天知、地知、你知、 我知),英语词典中没有把这些当作一个词,当然在英语的语料库中也不会把它当一个切分单位。汉语信息处理系统中应该有知识库(这项工作已有人在做),知识库中至少要包括语素库、词库和短语库,谚语、格言、俗语等应收入短语库,它们的释义应在短语库中给出。它们的语法形式既然是词组,从我们加工语料库的目的出发,其内部还是应该切分。

国内计算语言学界对词性标记都各不相同,有的标注集分类很细,如孙茂松(清华大学计算机系)的词性标注集和白栓虎(电子部计算机与微电子发展研究中心)的词性标注集,或者七八十个类,或者一百多个类;有的则较粗,如“北大加工规范”的词性标注集,只有四十个类。汉语语法研究的实践告诉我们,汉语语法规则的进一步揭示需要对词类作较细的分类,北大的标注集虽然较粗,但是有《现代汉语语法信息词典》作为支撑,用于汉语语法规则的描写应该够用,因为《现代汉语语法信息词典》对每一个词的语法特性都作了细致的刻画,实际上提供了每一个词的复杂特征集,从某种意义上说可以做到一个词一个类。因而,它看似粗,实则细。考虑到我们在加工语料后,在考察语料中的语法现象时,还尚无词典作为支撑,因此我们倾向于把语料中的词类标注得细一点,而且在分类时尽量吸收现代汉语语法研究的成果,用现有的成果对语料作标注,然后来系统考察实际语料中的种种现象,这样既可以挖掘新的语法知识又可以检验现有的现代汉语语法的研究成果,进而可以提供信息处理用的汉语语法规则。

二、短语标注目的与标注集

从80年代中期开始,以英国和美国为主,人们为树库加工和建设花费了大量的人力和物力。有两个比较著名的工程项目,它们是:英国的Lancaster—Leeds树库项目和美国的Penn树库项目。这两个树库的建成都不同程度地应用了机器自动标注的方法。英语树库对句法成分的标注,是在对词性作了标注的基础上,根据词性与句法成分功能之间的一些对应关系,对句法成分的功能给以标注。这样标注的树库可以用于研究概率语法(当然是句法成分功能类概率值的统计),Lancaster—Leeds树库就曾用于这方面的研究;也可以用于对句子理解的研究,如Penn树库就曾用于谓词——论元结构的识别研究。

国内汉语语料库句法分析和标注方面的研究从90年代才开始,虽然时间较短,却有了一定的研究成果,如:清华大学计算机系的依存语法标注研究、清华大学中文系的汉语句型自动分析和分布统计研究、等等。

清华大学周强,在北大做博士论文时,吸收英语树库加工的技术和经验,并结合汉语短语分析的特点,对汉语语料库短语自动切分和标注进行了比较深入的研究。他提出了一个汉语短语句法标记集,它以短语描述为基础,兼顾了准短语组合和句子及句群类型,覆盖了“词→短语→句子→句群”之间的绝大多数语法单位,试图对真实语料句子分析中所遇到的大部分句法成分进行标注和处理。

以上这些树库和句法库的切分和标注研究,不管是人机互助还是主要由机器自动标注,主要兴趣在于探讨实现完全自动标注的途径和方法。而我们所进行的对真实文本的短语标注是用人工的方法。人工标注短语与机器自动标注短语,除了都要对真实文本先进行分词和词性标注这个共同点外,在某些方面还有所不同:

首先,就标注的条件来说,机器自动标注,主要是内部的词典和有限的如何从词的形式标记对应到句法的形式标记的规则。对于要求语义和语境参与进行句法分析的句子,机器自动标注目前还是无能为力,主要原因是标注系统缺乏具有较深语法知识的规则和语义词典及语用知识库等。这是人们对语言知识挖掘不够的一个必然结果。而人工标注的条件就是从事标注的专家和学者所具有的人的知识资源。它能帮助解决许多机器所难以解决的问题。

第二,就标注的结果来说,机器自动标注由于目前系统智能程度欠高,自动标注的树库只能是较浅地反映现实的句法结构的面貌,国外有些树库只是仅仅标出了句法的层次,而未作任何句法成分属性的标注。所以,机器自动标注的树库其主要用处是面向自然语言处理的某些应用领域,如机器翻译等。对于进行语言知识的挖掘,目前还缺乏有效的方法。由于人工标注可以利用人的所有知识资源,所以短语人工标注的加工深度可以大大超过机器自动标注的树库,其用处不仅是面向自然语言处理的应用领域,更重要的是面向自然语言处理的基础领域——自然语言知识的深入挖掘和语法规则的详尽总结。

基于以上这些考虑,我们把我们正在做的《汉语文本短语结构人工标注》语料库的加工目的确定为为汉语自然语言的计算机处理提供基础研究服务,同时它也可以为传统的汉语语法研究提供服务。从这一个目标出发,我们首先想到要让我们加工的语料库能更多地提供现代汉语句法的信息。如何才能较多地提供现代汉语的句法信息,这要从挖掘现代汉语的语法知识需要什么样的基本信息来考虑。

陆俭明曾经指出,面向信息处理,现代汉语的短语研究至少有三个问题需要解决:(1)现代汉语短语的定界问题, 就是一个短语结构其开始与结束的界限在哪里的问题,最基本的就是一个词语串中相邻的两个成分是直接组合成一个短语结构还是分属两个不同的短语的问题。就这个问题,马真和陆俭明的论文《“名词+动词”词语串研究》就是在这方面进行初步探索的代表作。(2 )现代汉语短语结构层次和结构关系的识别问题,也就是怎样让计算机识别一个线性词语串的内部结构,从而进一步达到理解句子意义的目的。(3)现代汉语短语的排歧问题,也就是怎样让机器自动在语境中识别歧义短语从而达到正确理解句子内容的目的。詹卫东的博士论文《面向中文信息处理的现代汉语短语结构规则研究》对后两个问题进行了初步的探索。他的论文以一部对现代汉语词语进行了全面句法语义属性描述的电子词典作为底层支撑,以词性和短语的功能属性为初始要素,描述它们在短语结构内充当什么样的结构成分从而组成什么样的短语结构的规则。

传统的汉语语法学进行的短语结构分析,通常涉及结构成分(具有一定词性的词和具有一定功能特性的短语)、结构的层次、结构的功能和结构的关系等因素;而目前见到的信息处理用的句法分析则往往是以结构元(以复杂特征集来表示)、结构层次、结构功能为要素进行合一运算,认为结构关系可以经过运算推出。从现有我们所见的由计算机自动标注的树库来看,还没有一个是标注了句法结构关系的。而语言学的研究证明,由结构元、结构层次和结构功能并不能确定所有短语的结构关系,换句话说,这样来推出结构关系时,往往会有歧解。既然句法结构关系是人理解句子所必须了解的,是句法自动标注最终要求出的,那么我们在为语法研究而加工的语料库中也给它标注出来,让人的识别短语的知识通过人工标注的方法反映在语料库中,它会给我们的研究提供有效的应用,带来很大的方便。所以,我们认为汉语短语的人工标注,应该标注出汉语短语的结构层次、结构关系和结构功能。我们在实践中,设计了一套句法标注集,包括短语标记28个、句子标记16个、特殊标记6个。目前能基本满足真实语料的短语人工标注。

三、结语

传统汉语语法研究中所存在的问题,如语素与词、词与短语、短语与句子的界限问题,在短语的人工标注中依然存在,切分单位(分词单位)的确定,就是这些问题的一个反映。怎样处理这样的问题,应从工程的实际目标出发来确定。短语的自动标注,由于目前的背景条件限制,还欠缺足够的人所具有的知识,因此它标注的结果会缺少象结构关系这样的因素。而人工标注就应该从实际的标注目标出发来补上这样的欠缺。总之,目标是操作的依据。

标签:;  ;  ;  ;  ;  ;  

现代汉语信息处理词汇研究中期成果报告(下)_自然语言处理论文
下载Doc文档

猜你喜欢