汉语信息处理中单词的构词与复合词的识别与理解_语义分析论文

汉语信息处理中单词的构词与复合词的识别与理解_语义分析论文

汉语信息处理中单字的构词方式与合成词的识别和理解,本文主要内容关键词为:合成词论文,汉语论文,单字论文,方式论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 汉语信息处理中单字构词的基本问题

在汉语文本自动分析和理解系统中,“词处理”是一个基础环节。所谓“词处理”,是指在连续的汉字字符串中识别词语,并获取这些词语的语言学信息和统计学信息,譬如:语法属性、语义属性、用法信息等,这些信息是系统下一步分析和理解语句的必要基础。我们把计算机获取这些必要的信息称为对词语的理解。这样,“词处理”的任务就是识别和理解语句中的词语。典型的“词处理”任务通常由自动分词系统承担。在分词底表的支持下,可以根据确定的算法对没有切分歧义的词语进行识别和理解,系统实现起来也并不困难。所以自动分词研究的难点是如何处理切分歧义和未登录词语。未登录词语包括专有名词和普通词语,本文讨论的是后者。处理未登录词的主要目标有两个,一是判断某个字串是不是底表之外的新词,二是如果是新词,推测它的词义和词性。

语言的词汇系统在不断地变化和发展,汉语中未登录词的数目是无限的。但汉语中作为构词基本部件的单字(注:严格说应该是“单音节语素”。考虑到汉语信息系统的处理对象,本文用“单字”。),在数量上却是有限的,在表义功能上是相对稳定的。使用汉语的人用组字成词的方式创造新词。根据这样的认知途径,汉语信息处理系统把单字作为基本资源,寻找它们组合成词的规律,用来识别和理解未登录词。由于识别和理解的依据是单字的属性,所以单字的构词规律就成为汉语信息处理中引人关注的问题。

为了方便后面的讨论,我们在正文里把组成合成词的单字叫做词素,并且把讨论限制在双字组合的范围内(注:双字组合在现代汉语词汇中占绝对多数。据周荐(1999)统计,在《现代汉语词典》所收条目中,双字组合占收条总数的67.625%。据我们对《信息处理用现代汉语分词词表》扩充表的统计,双字组合占60%)。和任何一种语言结构单位一样,由词素组合而成的词,其结构方式可以从两个方面考察:一是结构成分,二是结构关系。前者指词素的语法性类或语义类别、语义特征等属性,后者指词素组合成词时这些属性之间的关系。在汉语信息处理中,从识别和理解合成词的需要来看,关于合成词的结构方式,我们关心的是以下几个基本问题:

1)用哪些语法性类、语义类别或特征能够概括词素在组合成词时的各种情况?

2)词素之间能否搭配组合成词的选择条件是什么?

3)组合成词的词素之间,顺序关系是什么?

4)词素组合成词时的结构方式是什么(是意义结构关系还是句法结构关系)?

5)合成词的词义与词素意义的关系是什么?

  6)合成词的词性与词素的性类有没有关系?

其中问题1关系到词素有哪些属性在组合成词时起作用,在汉语信息处理系统中,这些属性应该得到充分的描述,并作为识别和理解合成词的初始信息。问题2关心的是在众多词素当中,哪两个词素能够组合成符合汉语习惯和语感的词,或者哪两个词素不能组合成这样的词。问题3是说如果两个词素可以组合成词,那么谁该在前谁该在后?显然与问题2和3有关的各种因素也应该纳入问题1的范围。如果说前三个基本问题主要与合成词的识别有关,那么问题5和6就关系到合成词的理解。即,可否根据词素的意义和性类得到合成词的词义和词性?这是处理未登录词的主要目标之一。问题4概括了其他几个问题,我们把它看作研究构词规律的基本观点。

了解了这六个基本问题,计算机才有能力根据有限的词素去识别和理解任意的词语,或者更进一步,按预定的意义生成恰当的词语。这是在汉语信息处理领域里研究单字构词、或者叫语素构词问题的直接动因。

二 汉语信息处理中的构词研究及其应用

目前汉语信息处理领域里与词素构词研究有关的工作主要集中在三个方面。一是语言资 源的建设;二是构词规律的统计和研究;三是在识别和理解未登录词语的工程实践中的应用。

(一)语言资源的建设

在这方面有代表性的是汉语语素数据库(苑春法等,1998;俞士汶等,2003)。语素数据库的登录项一般以“国标GB-2312”的6763个汉字为基础收集,并为每个语素标注如下属性:语素义、语法性类、成词与否(成词、半成词、不成词)、构词位置(前位、后位、不定位等)、特定构词项目等。为了研究语素构词的规律,有的数据库还收录了由已登录语素构成的二字词、三字词和四字词,并标注了它们的读音、语法性类、构词方式(主谓、偏正、述宾、述补等)、类序:(a+n、v+n等)、多义与否和字义组合方式。

类似的资源还有“汉字义类信息库”(亢世勇等,2001),也是基于“国标GB-2312”收录汉字条目,标注了读音、义项、同音、同形、语义类别、词性、成词与否等属性。与上述语素数据库相比,它的特点之一是按照《同义词词林》的分类体系标注语义类别属性,这样就把每个汉字的每一个意义都纳入了一个层级结构里面,可以体现单字意义之间的同义、反义关系和上下位关系。

这些资源建设的目的有两个,一个是为汉语信息处理提供初始信息(各种词法、语法、语义属性),另一个是获取与构词规律有关的统计数据。譬如,以“汉语语素数据库”为基础,用语法性类作为词素的基本属性,统计了在全部词素中各种性类的分布:名词性词素占46.7%,动词性词素占31.4%,形容词性词素占12.7%,等等(注:尹斌庸(1984)也曾做过统计,处理的语素集合有所不同,统计的结果也有些差别。)(苑春法等,1998)。这些数据能够帮助我们从语法因素的角度对汉语的构词部件有一个宏观的把握。但是对于词素构词这个目标来说,与其说这些统计数字对揭示构词规律有直接的作用,倒不如认为它们实际上体现了一种思路,这就是用语法因素作为词素的基本属性来概括词素组合成词的各种情况。这种思路来自如下关于构词方式的基本观点:合成词的词素之间是句法结构关系。

(二)构词规律的统计和研究

在上述语言资源的支持下,用语法性类作为词素的基本属性,得到了关于二字合成词词汇结构形式的一些统计数据。其中典型的是按句法模式表现的构词方式和按词性表现的构词类序(苑春法等,1998)。

所谓按句法模式表现的构词方式,是以句法功能(主、谓、宾、定、状、补等)为结构成分,以这些功能的组合类型(定中、述宾、述补、联合等)为结构方式,在二字合成词中统计各种组合出现的数目。显然这些统计数据反映的是词素之间的句法结构关系。在这项统计结果中,还分别按照名词、动词和形容词列出各种组合类型的数目,希望借此说明合成词的词性与其内部句法结构之间的关系。所谓按词性表现的构词类序,是以词性(名、动、形等)为结构成分,以两个词性的排列顺序(形+名、动+名等)为结构方式,统计各种排列在二字合成词中出现的数目。这些统计数据从词性的角度反映词素在构词时的顺序关系。各种排列顺序又分别按照名词、动词和形容词进行统计,希望借此说明合成词的词性与词素的性类之间的关系。

在用语法性类作为词素的基本属性进行统计的同时,也考虑到了意义在构词中的作用。只是这种考虑很粗略:只考察二字合成词字义组合变化的三种情况。即,(1)合义:二字词的意义是两个词素意义舶组合;(2)非合义:二字词的意义不是两个词素意义的组合;(3)介于(1)和(2)之间:合成词的意义与两个词素的意义有关系,但又不完全是两个词素意义的组合。统计数据反映了这三种情况在名词、动词和形容词中的数目和频次。希望借此说明合成词的词义与词素意义的关系。除此之外,还有统计数据显示词素可否成词及其在二字合成词中的位置,其中后者与合成词词素之间的顺序有关。

这些统计数据从不同的角度反映了汉语二字合成词的结构方式。值得注意的是这些调查研究的目的:希望这些数据能够反映词素构词的规律,并且据此建立一种处理汉语未登录词的有效方法。然而实际上,根据这些统计数据所表现的规律,计算机很难识别和理解新出现的二字合成词。从目前识别和理解未登录词语的工程实践中,我们可以看到这一点。

(三)在识别和理解未登录词语的工程中的应用

就目前所见到的文献资料而言,在词素构词方式的调查统计中得到的统计规律很少在识别未登录词语的工程实践中得到应用。尤其是那些基于语法属性的构词规律(譬如,定中偏正和体素联合是二字名词的主要构词方式,合计约占二字名词的90%,其中数量最多的类序类型是“名+名”,占46.7%,其次是“形+名”,占20.6%;等等),并没有像人们所希望的那样,能够系统地用来识别新的合成词,或者帮助判断新词的词性和词义。这些统计规律为什么没有得到全面的应用,我们将在后面讨论。

倒是汉语当中一些朴素的构词法则甚至字词用法个例,容易成为识别未登录词的辅助规则。譬如郑家恒等(2001a)在处理分词碎片中的汉字散串时,利用后缀词素判断新词,也用“名+名”做规则识别二字合成词,还利用“功能字”(注:指单音节自由语素,如:我、的、啊,等等。)和“功能词”(注:指二字虚词,包括:代词、连词、副词,等等。)剔除“噪声字串”。在这些办法当中,规则“名+名”的意思是,在分词碎片中任意两个单字如果符合“名+名”的类序模式,那么它们也许构成一个汉语合成词。其成词的概率与上面提到的“名+名”在二字名词中的百分比(46.7%)并不是一回事。

实际上在识别未登录词语的工程实践中,还是基于“字符出现”的统计方法用得更多一些。罗盛芬等(2003)比较了九种这类方法的应用效果,其中最有效、也是最常用的是互信息法。基于“字符出现”的统计方法是不考虑语言学意义上的构词规律的,它只根据单字之间结合的紧密程度及其对上下文环境的依赖程度判断成词的可能性。

至于在语言工程中辩识未登录词的词义,就更不容易了。郑家恒等(2001b)曾做过一个从词素意义到二字组合,推测合成词词义的实验。推测的结果是二字词词义组合的四种类型之一(注:设二字词为x+Y,词义组合的四种类型分别是:合义(x+Y的词义与x、Y的字义有直接关系);偏义A(x+Y的词义偏重于X的字义);偏义B(x+Y的词义偏重于Y的字义);转义(x+Y的词义与x、Y的字义没有直接关系)。),而不是词义本身。“汉语语素数据库”的工作也曾按类似思路统计过字义组合的方式,但是还没有见到在处理未登录词时应用这些统计数据的报告。

三 汉语信息处理中构词研究的局限性

研究合成词的结构规律,是为了识别和理解未登录词。然而从上面的分析可以看出,在汉语信息处理领域里,关于这个问题的统计和研究与其应用目标之间存在着脱节的现象。原因是什么呢?

首先是可操作性的问题。从多数关于单字构词方式的统计性结论中,我们很难得到处理未登录词时可操作的方法。以按词性表现的构词类序为例,多数统计工作都会给出这样的结论:在被考察的n个二字合成词中,类序为“名+名”(注:还会有“名+动”“动+形”“形+名”等其他十余种构词类序,这里只举“名+名”一例。)的有m个,所占百分比为m/n。如果一个系统依据这些数据去判断一个双字组合X+Y是不是二字合成词(或者更进一步:是不是名词),那么它应该首先知道X和Y的词性。可是汉语里面一个词素常常有两个或更多的词性,这就使得应用的条件很不好确定。即使能够确定X和Y是名词性的,X+Y是词或者不是词的概率p或q也与m/n是两码事。因为p和q是相对于汉语中出现的所有“名+名”双字组合而言的,包括成词的和不成词的,而m/n仅仅来自那些已经成词的双字组合。

在关于构词规律的统计结论中,常见的还有按句法模式表现的构词方式。例如:在二字合成词当中,动词的主要构词方式是谓素联合、述宾和状中偏正,合计占总数的90%以上。如果依据这条结论去判断一个双字组合X+Y是不是二字合成词(或者更进一步:是不是动词),在操作上会遇到和上面的类序问题一样的困难。除此之外,还会多一个更大的阻碍:大多数句法模式的组成成分(述、宾、状、中,等等)是动态属性,因此X和Y是什么成分,多数情况下不可能在成词以前预先知道。

至于意义在构词中的作用,目前能够得到的只有合成词词义与各个词素义之间组合关系的部分统计数据,而且都是粗线条的:仅仅考察了意义组合变化的三、四种类型(譬如合义、偏义、转义等等)。这些组合类型本身就是难以量化的模糊概念,如果用来推测合成词的词义,仅此一点,其可操作性问题之难就可想而知。

可操作性方面的问题反映了研究思路上的困惑。在处理未登录词时,我们需要的构词规律应该是合成词的形成性条件,即两个什么样的词素、怎么样才能组成一个二字合成词。而现有的关于构词方式的统计性结论,只是两个词素成词以后的一些结构性质(主要是语法性质),是非形成性的。所以它们虽然看上去部分解答了本文第一节基本问题中提出的设问,却不能对识别和理解合成词起有效的作用。因此,指望从体现合成词内部结构性质的统计规律出发,去寻找合成词形成的条件,用来识别和理解未登录词,是否可行很值得质疑。

必须承认,目前在构词规律方面的调查统计和研究成果,尤其是经过深加工的语料和数据库,都是非常宝贵的资源。它们使我们能够系统地考察汉语的词素,从宏观上把握汉语词汇系统的一些重要性质,帮助我们对汉语合成词的内部结构有一个比较全面的认识。其重要性不言而喻。我们在这里提出疑问的,只是这些结论在识别和理解未登录词时的实际作用。

除了研究思路以外,在汉语信息处理领域里影响词素构词研究的还有一个问题,这就是研究构词规律的基本观点。迄今为止我们见到的几乎都是以句法为本(或者叫以语法为本)的观点。也就是说,认为合成词词素之间的组合关系是句法性质,在调查统计中用句法因素(或者叫语法因素)作为词素的基本属性来概括词素组合成词的各种情况。我们在前面分析过的按句法模式表现的构词方式和按词性表现的构词类序,就是这种观点最典型的表现。语言信息处理学者几乎是没有多少犹豫就采用了这个基本观点,这是因为他们看到了大量的语言事实:合成词内部存在着句法组合的结构方式(注:周荐(2003)认为,96.57%的双音节复合性单位可以套用句法结构模式来解释或理解。),而且句法模式相比之下更易于形式化。但是词汇学家对这个问题却持有不同的看法。他们认为在合成词内部,字与字的组合未必能够从句法的组合规律上找出解释性来(刘叔新:1985)。认真研究这些观点和论述,对汉语信息处理应该是有益的。

四 “意合”的构词方式

词素的构词规律也是词汇学家研究了很久的问题,其中备受关注的题目之一就是,词素组合成词时的结构方式是什么?是句法结构关系还是意义结构关系?词汇学家认为,在词素组合的过程中,起决定性作用的是参与组合的词素能否在意义上和习惯上相互搭配。虽然绝大部分复合词可以套用句法结构模式来解释或理解,但这是它们成词以后的事情,原因是人们在造词和造句时有相近的心理模式(周荐,2003)。合成词词素间的顺序关系与词序不是一回事,合成词的词法结构与语句的句法结构也并不对应。因此在研究构词规律的基本观点上,词汇学家主张“意合”的结构方式,注重意义结构关系。

这是一种以意义为本的观点。周荐(1991)曾以《现代汉语词典》所收的全部双音节复合词(注:双音节复合词的两个词素都是表义单字。)为研究对象,分析了每个复合词内部的意义结构关系,试图说明它们依据什么样的结构方式由两个词素组合而成。比如,对词素A和B(A代表事物对象,B代表事物对象修饰、限定的成分)组成的一类复合词A+B,根据A、B的语义类别或语义关系把其结构方式分为29个次类,每个次又根据A、B更具体的语义再分为小类。例如(注:下面的例子引自周荐(1991)。):

人/动物/事物+处所 A—人,B—A所在的处所:皇宫 使馆 妓院

    A—动物,B—A所居之地:虎穴 牛棚 蜂巢

    A—物象,B—使用或处理A的处所: 茶馆 药铺 银行

形状+动物/事物 A—某动物之形,B—具A特征的动物: 板鸭 带鱼 瓢虫

A—以动物比况物体的形貌,B—具A形貌的物体: 驼背 鱼雷 蝶骨

工具+事物 A—人的手脚或所持用具,B—为A作用的物象: 手鼓 足球 棒球

A—使物体运动的原动力,B—被A驱动的物体: 气锤 风钻 水磨

每一小类都给出了结构成分的意义类别、位置顺序以及结构关系,体现了“意合”的构词特点,为根据词素的意义识别未登录词提供了依据。

对造词法和构词法的分别研究(葛本仪,2001)一方面支持了上述“意合”的观点,另一方面对未登录词处理也具有实际的意义。所谓造词法指词素组合成词的过程,解决的是词从无到有的问题。而构词法的研究对象是已经存在的词,研究的是词的内部结构方式,典型的是一些句法结构形式(联合式、偏正式、动宾式、补充式等等)。对于未登录词识别来说,判断一个二字组合是不是词,是词素组合成词的过程,应该属于造词的范围,适用造词的规律和方法。如果用构词的方法解决,就会用成词以后呈现出来的结构性质作为合成词形成的条件。这些条件在应用时会遇到困难:对句法条件来说主要是可操作性的问题,对语义条件来说则至少是完备性的问题。

那么按照“意合”的观点;哪些因素会影响词素组合成词的过程呢?人们在造词时要受多种语言要素和非语言因素的制约,譬如,语义(表义确切、合乎情理、色彩和谐),句法(结构模式),语音(音位、声调、避免同音),风格(口语、文言)和修辞(比拟、比喻),还有认知、文化、心理等因素。词在形成时会有一种理据作为它产生的依据或条件,统摄各种语言要素和非语言因素的作用。要想真正解决未登录词的问题,我们需要一个语言认知模型来描述这些理据和各种因素,体现词素组合成词的过程。除此之外,还需要一个语言计算模型来解决形式化和可操作的问题。词汇学研究目前能够做到的只是从意义和逻辑方面寻找造词的一部分规律,得到的结论有的不够确切,有些结论之间互不够协调。人具有意合的语言能力,可以理解这样的结论。但对于计算机来说,即使是很明确的规律,即使是只有一条,也还需要前提条件是已知的、可以形式化定义的,判断过程是用可操作的有限步骤实现的,判断的结果不是模棱两可的(即问题得到了解答或者没有得到解答)。这样的要求不容易满足。仅就词素组合成词的过程所涉及的语言要素来说,就先得有个完整、清晰的认识,然后才能考虑形式化的定义。

相对于从认知模型到计算模型这样一个含有太多未知因素的难题,语言信息处理倾向于采用基于“字符出现”的统计方法来研究构词规律。然而统计语言模型仍然需要建立在语言学知识的基础上,一个语言模型能否达到比较好的处理效果,很大程度上取决于它采用什么样的语言知识作为参数(傅爱平,2003)。基于“字符出现”的模型使用的参数是最表层的语言知识。用它来表达构词的过程,确实勉为其难,但这也是现实条件所限。

五 不完备的构词规则及其应用实例

语言信息处理常常在一定程度和范围内有自己的工程化、实用化目标。虽然目前构词研究与其应用目标之间存在着脱节的现象,我们还不可能系统地描述词素组词的过程并用它识别和理解未登录词,但这并不妨碍我们把某些构词法则、词素的性质、甚至字词用法个例作为识别未登录词的辅助规则,在一定程度上达到工程化的实用目标(注:郑家恒等(2001a)曾经在较小规模的封闭语料(10万字)里运用一些构词法则和特定字词识别新词语。)。

这些辅助规则来源于汉语词汇学多年的研究,在语言处理系统中应用之前,往往需要经过整理和改造。譬如葛本仪(2001)曾提出过词素组合的十种情况,符合条件即可辨认为词。其中经过处理能够形式化并且可以操作的有四种。例如:如果两个能表义、但不能独立运用造句的词素A、B组合在一起,形成一个新的结构,表示新的意义,并能独立运用造句,那么A+B是词。对于这种情况,我们可以预先建立“表义的粘着词素表”等字表,辅以前后边界限制,再加上累积概率的计算,就可以控制这种情况的主要辨认条件。下面是根据类似的构词法则改造而成的辅助规则,可以在分词碎片(自动分词后剩余的字串)中辨认未登录的二字词:

辨认框架: X A+B Y (X是A的前一字,Y是B的后一字)

需用资源:L:表义的粘着词素表

P1:非构词字表(充分语法化的单音节虚词、构形词素、单音节副词/代词等)

(例如:“的/们/很/最/我/你/他/它/这/那/是”等)

P2:弱构词字表(不足语法化的单音节虚词)

(例如:“比/连/用/像”等)

Q:特定字表(单音节介词、连词、助词、方位词(分前位/后位))

辨认条件:

一)过滤性约束条件:当A∈P1或B∈P1,则A+B不是词

二)过滤性约束条件:当A∈P1∪P2且B∈P1∪P2,则A+B不是词

三)筛选性约束条件:当A not∈PI且B not∈P1,则

1)X∈Q(前位)且Y∈Q(后位),即为框式特定字 则A+B是词

(如X=“在”,Y=“上/下/前/后/里/外/中”)

2)A∈L或B∈L;X=Y=“。”(注:“。”代表标点符号。下一条规则中的“#”代表已成词的词素。)

 则A+B是词

3)A∈L或B∈L;X=Y=“#” 则A+B是词

4)A∈L或B∈L;X∈P1∪P2 且Y=“。”则A+B是词

5)A∈L或B∈L;X∈P1∪P2且Y=“#” 则A+B是词

6)A∈L或B∈L;X=“。”且Y∈P1∪P2则A+B是词

7)A∈L或B∈L;X=“#”且Y∈P1∪P2 则A+B是词

8)A∈L或B∈L;X∈P1且Y∈Pl

则A+B是词

概率累积机制:按正/负权重累积计算A+B成词的概率。例如,两个过滤性条件的权重是负100%;筛选性条件是的权重是正值,大小不等。

这一组规则在我们的“汉语新词语辅助识别系统”(注:关于该系统的设计和实验结果,详见骆彬,《汉语新词语辅助识别系统的研制》,2003年中国社会科学院研究生院硕士学位论文。)中作为“字符出现”技术的补充得到了应用。这个实验系统采用了多种技术的混合策略,这组规则是其中规则技术的一部分。对1270万字语料(《人民日报》1999年1至6月)进行识别二字新词的开放测试,得到了多种技术交互作用的测试结果:召回率为68.28%,准确率为32.74%。研制这个新词语辅助识别系统的目的,是使用计算机自动从电子出版物中提取候选新词,供词典编纂者筛选,用于新词条的收录。从事词典编纂的专家认为,他们在从候选词表中挑选新词语的时候,噪声字串的干扰低于70%就可以接受,如果准确率能达到50%以上则比较满意。目前这个系统识别的准确率刚达到可接受的程度。显然,这些规则不能完整地反映汉语合成词形成的过程,也不是一种系统化的辨识方法,它只对未登录词的识别起部分作用。考虑到这种规则需要不断改动,我们把规则的执行方式设计成开放式的,便于规则的增加、删除和修改。

至于未登录词的理解(推测词义和词性),目前还没有工程化的办法。词素构成合成词,更多的是习惯使然、约定俗成的组合。词汇学家虽然对词素义与词义的关系有所研究,但多是原则性的。例如构词中语素共义(义项所概括的意义)和语素变义(合成词中语素所出现的意义差别)的关系(注:共有八种关系:一致关系、种类关系、关联关系、借代关系、比喻关系、部分语素义模糊、部分语素义消失、词的全部语素义消失(符淮青,1996)。)仅有这些原则,还远不能根据词素的意义推测合成词的词义,更何况在语义资源和形式化方面也存在着巨大的困难。至于推测词性,在以意义为本的观点看来也是不可行的,因为即使是从成词以后的性质来看,合成词的内部结构(句法或形态结构)与合成词的词类之间也没有什么对应关系(戴昭铭,1988)。关于词素的语法性类与合成词词性之间关系的统计数据,更难以在语言工程中得到有效的应用。

六 结 语

本文提出了汉语信息处理中关于词素构词方式的基本问题,考察了目前对于这个问题的研究和应用情况。认为现有的统计性结论在未登录词处理中对于揭示单字构词的规律缺乏有效的作用。究其原因,一是这些结论体现的是词素组合成词之后的结构性质,而不是组合过程中的规律;二是这些调查统计遵循以句法为本的观点,而合成词的结构方式主要是意合。在词素组合的过程中,起决定性作用的是参与组合的词素能否在意义上和习惯上互相搭配。但是目前的研究还远不能系统地揭示意合的规律,大多数语言要素和非语言因素也难以形式化地定义。在语言信息处理中,基于“字符出现”的统计语言模型使用的参数是最表层的语言知识,还不足以说明词素组合成词过程当中的问题。因此在语言工程中,我们还只能运用不完备的构词知识去识别未登录词。本文最后给出的一组规则及其应用结果就是一个例子。

标签:;  ;  ;  

汉语信息处理中单词的构词与复合词的识别与理解_语义分析论文
下载Doc文档

猜你喜欢