自然语言逻辑的多元发展及其对情报学的影响_自然语言处理论文

自然语言逻辑的多元化发展及对信息科学的影响,本文主要内容关键词为:自然语言论文,逻辑论文,科学论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

自20世纪70年代初创建蒙太格语法以来,自然语言逻辑经历了近30年的发展,已形成包括若干理论流派的学科群体,对现代逻辑、理论语言学以及计算机人工智能科学等研究领域产生了广泛而深刻的影响。本文需要论述的是:首先,自然语言逻辑是一门新兴学科,迄今还处于草创阶段,各派学说林立,多种理论并存,类似百家争鸣的战国时代。即便是一种理论内部也显示出不同的研究方向,有的偏向语言学的题材,有的侧重逻辑的趣味。自然语言逻辑呈现出多元化的发展态势。其次,自然语言逻辑在国外已成为一股日益扩大的研究潮流,其强大的生命力是信息时代科学发展的需求所致。同时自然语言逻辑研究的特有结果——所构造的部分语句系统也直接影响到计算机人工智能等信息科学关于自然语言理解的研究工作。

自然语言逻辑在西方又被称为“自然逻辑”(natural logic )或“逻辑语法”(logical grammar),在我国也有“语言逻辑”的叫法。顾名思义,自然语言逻辑是一种既跟自然语言有关系又与现代逻辑相关联的学科。它以自然语言的句法、语义以及语用等方面的内容为研究对象,又从现代逻辑的角度把自然语言看作是可以通过构造形式句法系统及形式语义模型的方法来处理的研究对象。自然语言远比人工符号语言(包括逻辑语言、数学语言及计算机程序语言等设计出来的语言)复杂丰富得多,很难在一个框架内对它的句法、语义乃至语用的方方面面进行统一处置,也很难在短期内把一个疑难问题研究透彻。侧重不同的方面给予关注,或对一个热点问题不断深入下去,就形成了自然语言逻辑不同的理论学派。所以,从历史纵向的角度看,自然语言逻辑先后创立了各种各样的理论学派,呈现出多元化的发展态势,其主要的脉络表现为:

70年代始 80年代初

80年代末至90年代

蒙太格语法MG广义量词理论GQT 动态语义学DS

(R.Montague)(J.Barwise & R.Cooper)(van Benthem,etc.)

话语表现理论DRT类型—逻辑语法TLG

(H.Kamp etc.) (B.Carpenter& G.Morill)

情境语义学SS 自然语言理解的加标演绎系统

(J.Barwise & J.Perry)

LDS[,NL](D.Gabbay&R

.Kempson)

MG(Montague Grammar)的特点是:把自然语言看作是同逻辑语言本质上相同的符号系统,提出所谓通用语法思想,开创了自然语言形式语义学研究的新思路。MG构造的PTQ 英语部分语句系统成功地描述了自然语言的量化结构、 晦暗语境及命题态度句等语义特征; GQT (Generalized Quantifier Theory )研究自然语言的限定词和名词短语的量化意义及其语义共性,研究推广的量词概念对逻辑推理的作用以及对逻辑系统的影响;DRT(Discourse Representation Theory)擅长处理句子之间名词与代词的照应关系以及动词在时间方面的联系,对句子序列的语义分析采用一种渐进递增的动态方法;SS(Situation Seman-tics)对语句的语境因素及命题态度句的认知心理特征给予充分关注,运用信息数据化的方式来描述自然语言的语义语用现象;DS(Dynamic Semantics)与DRT一脉相承,从类似程序语言状态转换的动态角度来处理自然语言的语义特征;TLG(Type—Logical Grammar)更彻底地贯彻意义的组合原则,用比较简洁的规则和简单类型λ—演算的工具去刻画句子的语义特征;而LDS[,NL]则从程序化处理角度构造关于自然语言语义组合的演绎模型。以上表明,针对自然语言的不同方面,或运用不同的处理方法,就构成了多种理论学派,呈现出自然语言逻辑的多元化的发展局面。

自然语言逻辑不仅从历史纵向的角度看体现出多元化的发展趋势,从横向角度看也是如此。即就某个理论流派而言,其内部常常出现多种不同的研究倾向。自然语言逻辑是介于现代逻辑学和理论语言学之间的交叉学科,这种“中性边缘”的性质体现为:研究对象是自然语言,研究的题材受到理论语言学的影响,即自然语言逻辑关注的热点有相当部分同时又是理论语言学的研究对象;但研究的出发点是现代逻辑,即按照现代逻辑的原则,把自然语言看作是一种符号形式系统,把其意义看作是参照形式语义模型进行解释的结果,即从形式语义学的角度去分析自然语言的语义特征,自然语言逻辑在逻辑思想的影响下对自然语言中与推理有关的语义现象显示出特别的兴趣。可以说,自然语言逻辑既有理论语言学的题材,又讨论其中的逻辑问题。不仅如此,自然语言逻辑的研究甚至还考虑计算语言学的需要,即产生从计算机理解自然语言的角度进行研究的方向。总而言之,自然语言逻辑的各理论流派,无论是MG或GQT,还是DRT或SS,由于受相邻学科的影响,其内部呈现出多元化的研究方向,大致可分为三个板块的内容:(1 )对自然语言的逻辑分析或形式语义学处理,这部分的内容同理论语言学所关注的问题比较接近;( 2)构造自然语言的部分语句系统,强调自然语言的计算机处理,这跟计算机人工智能科学的需求相关;(3 )形成具有自然语言特色的逻辑推演系统,这个板块是创建新逻辑的研究方向。

第一板块的内容是:对自然语言进行逻辑分析。这意味自然语言逻辑的研究对象是语言,这跟语言学有什么区别?通常语言学研究自然语言的意义主要关注各种词类及具体词条的一些语义特征,而不怎么考虑句子的语义,更不研究由较小语言单位到较大语言单位的意义组合规律。自然语言逻辑虽然也研究语言,但首先关注的是句子的真值条件意义。就词而言,自然语言逻辑则着重考察语言中某些词(如连词、限定词、否定词、动词及命题态度词等)与推理有关的涵义,即根据对这些词的语义分析,可以确定有关的自然语言推理是否有效,如MG对诸如命题态度词的翻译处理直接服务于所谓“晨星昏星悖论”和“Barbara 疑难推论”等的说明。而与逻辑推理关系不大的词,如普通名词的具体意思,自然语言逻辑对此是不予考虑的。

更为重要的是,自然语言逻辑这部分的研究有很强的理论抽象性,其结果往往成为对所有自然语言有关特性的普遍概括。如GQT 的研究表明:限定词和名词短语所体现的某些语义共性适合于所有的自然语言,自然语言限定词具有的驻留性(conservativity)、同态性等性质也是如此。GQT要推知自然语言限定词在理论上可能具有的数目, 讨论自然语言限定词的表达力问题,等等。这些研究说明自然语言逻辑的处理对象虽是语言,并且跟语言学的研究有千丝万缕的联系,但研究的结果从理论角度看完全超越了语言学的眼界,揭示了那些语言学难以说明的有关自然语言语义的普遍特征。

自然语言逻辑第一板块的研究采用的是形式化的数学或逻辑方法。由于方法的精确严格性,自然语言的一些基本概念因此获得比较确切的理解,这样给语言学的理论研究提供了新方法新思路,也对语言学的一些具体研究起到指导作用。如MG的内涵逻辑方法,DRT的动态分析模式、SS的信息数据表述以及LDS[,NL]的程序处理观点等对理论语言学的发展都产生了不同程度的影响。事实上,80年代以来出现的一系列具有很强数学和逻辑特点的理论语言学流派,如广义词组结构语法(Generaliz-ed Phrase Structure Grammar)、词汇功能语法(Lexical Function-al Grammar)及中心语驱动语法( Head—Driven Phrase Structure Grammar)等都不同程度受到自然语言逻辑的影响。

自然语言逻辑第二板块的内容是:构造自然语言的部分语句系统。这是因为,对自然语言语义现象的逻辑处理,自然语言逻辑并不满足于零散的分析结果,而是要探讨如何由词或短语的意义组合成句子意义的规律。自然语言逻辑毕竟有很浓厚的逻辑情结,它把自然语言看作是与逻辑语言有相同内在结构的符号系统。逻辑语言具有系统的特征,句法表达式可以递归地生成,语义解释可以建立模型。所以自然语言逻辑就仿照逻辑的惯例,构造生成自然语言句子的形式系统,再配备相应的语义模型,这就是关于自然语言的部分语句系统。于是,自然语言的一些语义问题的零散分析结果就能在系统中统一体现出来。关于自然语言部分语句系统的举例参见下文的叙述,这里从略。

自然语言在诸多方面比人工设计的逻辑语言复杂得多,其系统的句法语义及二者关系远不像纯粹的逻辑推演系统那样单纯。自然语言的部分语句系统尽管与逻辑系统在句法和语义的构成方面比较相似,但二者毕竟存在区别。二者主要的差异如下:(1 )自然语言语句系统的语义解释有直接和间接之分,而逻辑系统只有直接的语义解释;(2 )自然语言语句系统的句法结构运算及其规则极为丰富多样,而逻辑系统则相对单纯;(3 )逻辑系统具有公理化研究及系统总体性质的刻画如可靠性完全性的讨论,而自然语言语句系统一般没有也很难进行这样的讨论;(4)逻辑系统的目的是关注有效推理式, 而自然语言语句系统主要的注意力却在于句子的逻辑结构及语义特征的分析上,尽管它也能据此解释自然语言的有关推理,并且理论上也能生成自然语言中的推理句。

自然语言逻辑构造的语句系统不同于通常的逻辑推理系统,其价值何在?应该说,它也有存在的合理性。人们运用自然语言进行思想交流,推理只是其中的一部分,只分析语言交流中的推理对理解自然语言是不够的。全面理解自然语言要求对句子的句法结构和语义特征进行精确分析,需要对自然语言进行句法、语义和语用等方面的全方位考察。而关于自然语言表达式的零散个别的逻辑分析却不利于机器对此的仿效模拟,自然语言的语句系统可以说是计算机要求理解自然语言的产物。构造具有特色的自然语言部分语句系统是自然语言逻辑诸理论中极为重要的研究方向,这个话题在下文还要进一步阐述。

自然语言逻辑第三板块的内容是:创建具有自然语言特色的逻辑推演系统,这也体现出自然语言逻辑理论的多元化发展趋势。自然语言经逻辑的形式化处理后,所揭示出来的内在结构很容易显示其中的推演关系。或者说,自然语言部分语句系统的构成也为相关的逻辑推演系统准备了条件,自然语言逻辑推演系统是其部分语句系统的直接延续。并且,从不同的角度关注自然语言就形成了不同的自然语言逻辑方法,也就给逻辑理论的研究提供了新方法和新思路。如MG的英语系统中用于语义解释的内涵逻辑语言本质上是一种高阶模态逻辑, 后来Gallin 继承了Montague的工作,给出了内涵逻辑的公理系统。该系统以λ—算子、外延算子“”和内涵算子“^”为初始词项,据此定义通常的真值联结词、逻辑量词和模态算子。λ—算子、外延算子和内涵算子是描述自然语言的毗连组合、显透语境和晦暗语境的产物,有很强的自然语言特色(参见Gallin,1975:Intensional and Higher—Order Modal Logic.);还有DRT自然演绎系统S[,DRT],该系统的推理单位是表现自然语言句子语义关系的DRS(discourse representation structure )框图,而不是逻辑公式。该系统强调从自然语言实际推理到抽象的推演关系的转换,即先由DRT英语语句系统生成体现推论的英语句,再由DRT构造算法把这些英语句换成若干DRS,最后由S[,DRT]的推演规则来说明这些DRS之间体现的推理关系,S[,DRT]是DRT的直接延续(参见Wemer Saur-er,1993:“A Natural Deduction System for Discourse Represen-tation Theory.”In Journal of Philosophical Logic 22,pp.249—302.);在GQT的研究那里,自然语言的限定词更是多种多样,把它们添加到一阶逻辑语言中去就可以获得许多广义量词的逻辑系统(参见Jaap van der Does etc.1996:Quantifiers,Logic and Language)。对自然语言丰富多样表达式的充分挖掘,可以获得发展具有自然语言特色的逻辑系统的无穷无尽的题材。

总之,自然语言逻辑理论内部的多元化研究方向体现为三大板块的内容,而三大板块的内容主要与三个邻近学科相关。第一板块的内容与理论语言学相关;第二板块的研究给计算机关于自然语言的机械处理提供了依据,对计算机人工智能等信息科学产生影响;第三板块的探索给逻辑理论的发展提供了新题材新思路。基于此,Benthem 等人在荷兰集中一大批学者成立的国际研究中心就起名为:逻辑、语言和计算学院,新近创立的热点刊物叫做:Journal of Logic,Language and Inform-ation,还于1997年集中38位来自逻辑学、语言哲学、 计算语言学以及计算机人工智能等领域内的专家编写了大型工具书“Handbook of Log-ic and Language”。自然语言逻辑受到周边邻近学科的影响, 呈现出多元化的广阔发展前景。

自然语言逻辑是一个极具生命力和发展前途的新门类,20世纪70年代以来各国学术界发表了大量有关的论文和专著,在欧美不少大学开设了有关课程,也成立了一些专门的研究机构,自然语言逻辑的研究潮流在国际上已经形成并且日益扩大。是什么力量使自然语言逻辑获得如此迅猛的发展?按照历史唯物主义的原理,自然语言逻辑作为一种学术理论,是受社会经济发展水平和科学技术发展的需求所制约的。当今信息化时代,计算机的使用深入到人类生活的方方面面,计算机要求理解人类的自然语言,要求对自然语言进行信息处理,这就需要运用形式化的数学或逻辑方法去分析自然语言的句法、语义和语用诸方面的特征,这恰恰是自然语言逻辑所追求的目标。换言之,信息时代科学技术发展的需求导致自然语言逻辑研究的出现。更具体说,这种“制导关系”主要通过自然语言逻辑理论“构造部分语句系统”的板块体现出来。

就自然语言逻辑理论内部多元化的研究方向而言,“构造部分语句系统”的板块具有独特的作用。对自然语言的逻辑处理,零散个别的分析必然上升到系统的描述,第二板块的内容是对第一板块研究结果的承接。而对自然语言的系统处理,就使得对自然语言某些表达式的刻画更加深刻,从中能够挖掘出影响逻辑推理的因素,从而据此创建新的逻辑推理形式系统,这样第二板块的研究就直接促使了第三板块的产生。所以“构造部分语句系统”的研究在自然语言逻辑内部几个板块之间起到承前启后的作用,是体现自然语言逻辑特色的重要方向。正因为如此,30年来自然语言逻辑各种理论流派大都有这个方向的内容:MG创建了最早的英语部分语句系统PTQ(参见Montague,1974:Formal Philosophy.);DRT的经典作者在90 年代初的著述中也构造了相应的部分语句系统(参见 Kamp,etc.1993:From Discourse to Logic);SS有关的部分语句系统在其创始人Barwise的经典著作那里就能够见到,Cooper在90 年代的论文中也构造了三个英语语句系统(参见Cooper,1990: " Threelectures on Situation Theoretic Grammar." In Lecture Notes inArtificial Intelligence 476,by J.Siekmann,etc.);GQT的自然语言语句系统在其经典论文中就已提出来(参见Barwise,1981:"Genera-lized Quantifiers and Natural Languages. " In Linguistics and Philosophy 4);而类型—逻辑语法的部分语句系统则通过Carp-enter的著作逐渐展开而体现出来(参见Carpentcr,1997:Type—Logic-al Semantics),等等。

更令人瞩目的是,“构造部分语句系统”的研究显示出自然语言逻辑理论与计算机人工智能等信息科学的互动效应。据说,当年Montague就是在自然语言信息处理的需求下来设计PTQ系统的。另一方面,在MG的 PTQ系统基础上,人们又构造出许多关于自然语言理解的计算机分析程序:如Janssen 80年代提出的仿照PTQ方式的计算机分析程序,这种程序按照PTQ的句法规则生成句法结构, 然后再把句法结构翻译成内涵逻辑式(参见Janssen:"Logical investigations on PTQ arising fr-om programming requirements." Synthese 44);而Indurkhya发展了一种根据MG句法和语义的同构原则建立的计算机分析程序。按照句子的句法生成过程,该程序的语法生成器形成相应的逻辑公式,进而通过意义公设的帮助来确立句子的意义(参见 Indurkhya:

"Sentence Analysis Programs Based on Montague Grammar." MEE thesis,Eindhoven,the Netherlands:PIITS.); 近年来美国还出现了用于自然语言理解的DRT分析程序。

计算机人工智能对自然语言的信息处理,采用一种机械的操作过程,开始处于什么状态,最后要达到什么结果,前一步怎样做,后一步做什么,这都需要事先给计算机编好程序,所有的操作运行都遵循严格的算法。以往逻辑对自然语言的结构或语义分析,很大程度取决于经验直觉或分析技能。如对英语句:

(1)John owns a donkey and he beats it.的逻辑结构分析为:

(2)ヨx[donkey'(x) & own'(John',x) & beat'(John',x)]这样的分析符合人们对(1)的语义特征的直观理解, 人们可以凭借经验直觉的帮助来获得这个结果。但怎样从(1)得到(2),甚至(1 )本身由词造句的过程是什么样的,机器对此却一筹莫展,不知如何下手。凭经验直觉获得(1)和(2)的方式是一种零散个别的处理,从(1 )获得(2)的途径是不确定的,第一步做什么,第二步怎样做, 究竟做多少步才能完成,这些可能因人而异。而计算机做任何事情都需要给出一系列的固定指令,需要一板一眼按部就班。对自然语言的分析必须采取适合于计算机处理的方式,这就是自然语言逻辑“构造部分语句系统”的研究所要解决的问题。在自然语言的语句系统中:按照句法规则,一步步由小到大生成(1);再遵循语义和句法同构的原则, 按照翻译规则,由(1)的生成过程一步步去获得(2);句法生成和语义翻译都遵循组合原则,即句法规则和翻译规则都采用递归定义的方式,这样可以据此编制计算机处理自然语言的程序指令。可见,自然语言逻辑“构造部分语句系统”的研究直接给计算机理解自然语言的工作提供了理论依据,甚至可以说,自然语言逻辑所构造的部分语句系统就是关于自然语言理解的电脑编程的半成品。

计算机要理解自然语言,就要模拟人脑分析自然语言的智力活动,模拟人们理解语言的句法结构及语义特征的全过程。这里模拟的人脑分析过程是自然语言逻辑所构造的语句系统那种形式化的处理过程。此处介绍一下在MG的PTQ 系统基础上编制生成自然语言句法结构和逻辑式的计算机程序的思路:

仿效PTQ系统,先编制对应句法规则的程序, 该程序生成英语句的句法结构;再编制对应翻译规则的程序,该程序获得英语句的逻辑式。PTQ系统具有句法规则S1,S2,...,S17,例如:

这些规则实质上起到函项的作用,α被叫做该函项的第一论元,β被称为第二论元,F[,4]和F[,5]被称做符号串的形成函项。当计算机想要生成英语句时,它可以在几个能够生成句子范畴的指令中作出选择,如选择相应于 S4的指令;若如此,它就把范畴T当作第一论元,把范畴IV当作第二论元;这时计算机又要在形成T的几个指令中作出选择, 它选择从范畴T中取出基本词条的指令,如取出 Mary;再选择形成IV的指令,比如相应于S5的指令;在这种情况下,计算机必须把TV当作第一论元,把T当作第二论元。假定对TV和T,计算机都选择取出词条的指令,比如分别取出love和John。这样,计算机就生成了英语句“Mary loves John”的句法结构分析树:

以上只是从直观角度说明了计算机生成英语句法结构分析树的过程,其生成过程的严格表述应该采用递归程序的方式。(参见Janssen 论文里采用ALGOL—60语言的表述)

另一方面,作为计算机处理的结果,我们还需要从句子结构分析树那里通过转换得到句子。事实上,对分析树的每个节点存在着对应的符号串,树根这个节点对应的符号串就是句子。母节点对应的符号串是作为论元的子节点所对应符号串的毗连,符号串通过递归程序由小到大逐步形成,相应于S4和S5的形成程序是:

程序 形成串(节点)

开始执行 相应的指令(标记的规则(节点));

指令F4: 开始

形成串(其中第一论元(节点));

置换其中第一个动词(形成串(其中第

二论元(节点)));

毗连已获得的两个符号串

结束

指令F5: 开始 形成符号串(其中第一论元(节点));

用him置换其中的he (形成串(其中第

二论元(节点)));

毗连已获得的两个符号串

结束

结束

显然,指令F4与F5是按照S4和S5的要求设计的,其中“形成串(节点)”中的“形成串”代表算子,而“节点”代表这个算子的论元,其他括号外表达式与括号内表达式之间体现的都是算子和论元的关系。根据以上程序,计算机处理句法结构分析树(3 )的结果为(下面每行左端的两个标记表明右端符号串所运用的句法规则和所属的范畴):

S1:TERM: Mary

S1:TV: love

S1:TERM:

John

S5:IV:love John

S4:SENT:Mary loves John

在MG的PTQ语句系统里, 自然语言的句法结构还要翻译成内涵逻辑式。因此在这里的计算机分析程序中,相应于每个句法规则都设立了有关的翻译指令。计算机翻译的实质仍然是有关递归程序的编制,这类似上述把句法结构分析树转换成自然语言符号串的程序表述,此处从略。

不仅MG构造部分语句系统的工作与计算机科学关于自然语言理解的研究具有密切联系,DRT的有关研究则更胜一筹, 在其部分语句系统中关于句法分析树转变成语义表现DRS的环节那里, 干脆直接建立了便于计算机处理的算法,于是计算机理解自然语言的DRT 分析程序便应运而生,这充分表明自然语言逻辑的研究对计算机人工智能等信息科学的影响,也显示出二者之间的一种互动关系。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

自然语言逻辑的多元发展及其对情报学的影响_自然语言处理论文
下载Doc文档

猜你喜欢