机器翻译:发展与展望_自然语言处理论文

机器翻译:发展与展望,本文主要内容关键词为:机器翻译论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着电脑于1946年在美国发明,人们很快产生了将电脑用于不同语言之间的翻译的想法。一门边缘学科--机器翻译(machine translation)--诞生了。1952年英美学者在麻省理工学院召开了首次机器翻译大会。此后,一些国家多次召开了机器翻译专题讨论会。1954年初,乔治城大学在IBM公司的协助下,用IBM-701电脑进行了人类第一次机器翻译试验,将俄文句子翻译成英文。这次试验所用的机器仅包括250个词,语法规则只有6条。接着,苏联、英国、日本等国在不同型号的计算机上都进行了机译试验。但是,到1966年,由于种种原因,机器翻译曾一度处于低潮。进入70年代以后,机器翻译再度开始繁荣。影响最大的是美国的SYSTRAN系统。如今机器翻译这朵鲜花在适宜的土壤中已经愈开愈盛。

我国的机器翻译研究始于1956年,是最早开展机器翻译研究的国家之一。1959年9月中科院语言研究所和计算技术研究所在104通用电子计算机上进行了俄汉翻译试验。词典包括2030个词,语法规则系统由29个线路图表组成。1966年以后,机器翻译的研究也一度停顿。到1975年11月,在中国科技情报研究所设立了一个机器翻译联合研究组,重点是英汉翻译。一些大专院校在随后的几年里也成立了机器翻译课题研究组。整个80年代是机器翻译研究稳步发展的时期。计算机技术的迅速发展和价格大幅度下降为机器翻译的实用化铺平了道路,出现了人们在十年前无法想象的局面。本文以英汉机器翻译为重点,论述机器翻译的发展,并展望其前景。

机器翻译是信息社会的需要

机器翻译经历了一个马鞍型的发展过程,现在正日益繁荣,步入新的高潮。是什么原因使机器翻译如此倍受青睐呢?首先,社会需要是科学发展的巨大推动力。信息社会的来临,国际交往激增,对翻译工作自动化的需要日益迫切。加拿大是一个双语国家,同时使用英法两种语言,为此每年用于翻译的费用十分庞大。欧洲共同体近年来成员国增加,文件互译工作量激增,导致欧共体决定大力支持机器翻译研究计划。美国是信息化的社会,在机器翻译研究方面也十分活跃。日本由于经济发展,对自动翻译的要求也很强烈。我国同样面临这个问题。据有关方面报告,反映最新科技进步的国外专利资料90%以上由于缺乏翻译力量被堆放在仓库里。在新华社的外电传印室,尽管有一支庞大的人工翻译队伍,但绝大部分资料还是被搁在一边。翻译的滞后会影响到经济的发展和科学的进步。可以说,社会需要是机器翻译得以发展的原动力。

其次,机器翻译的技术物质条件已经具备。计算机技术发展迅猛,语言处理所必需的高速度和大存储量已不是什么技术难题了。更重要的是计算机价格已大幅度下降。可以说,机器翻译的研究和发展已具备坚实的技术物质基础。

再就是语言学的研究有了重要进展。在句法分析方面,乔姆斯基的转换生成语法,哈利迪(Halliday)的系统语法,派克(Pike)的法位学理论,海尔皮格(Helbig)的配价理论(valence theory)等都为机器翻译中的句法分析提供了更可靠、更精确的新方法。在语义学上也有进展,提出了一些新理论。计算机语言学的发展尤为迅速。这些都为机器翻译的发展提供了切实可行的理论根据。

机器翻译的过程

机器翻译的过程一般可分为分析、转换、生成三个阶段。具体而言,这三个阶段是:

原文分析:分析原文的形态和句法结构:

原文译文转换:把原文词转换为译文词,并作原、译文之间的结构转换;

译文生成:生成译文的句法和形态,输出译文。

下表是我国于70年代后期开始研制的ECMT-78英汉机器翻译系统的翻译过程,该系统在早期第二代机译系统中有一定代表性。该机译系统采用的是相关分析、独立生成的办法,原文分析的结果是由原文--译文对比得出的中介成分组成的符号串,译文生成只是根据这些中介成分的信息进行调整。这样的办法,对于一对一机器翻译是极为方便而行之有效的。我国的“JFY-Ⅱ英汉机器翻译系统”也是采用这种相关分析、独立生成的办法。

从现有的机器翻译或机助翻译系统看,其翻译质量和效率仍不理想。质量不高,就需要大量的译后处理,直接影响到翻译的费用和效率。Van Stype在1982年所写的《机器翻译的经济价值》一文中提到“……当翻译处理修正率低于20%,即低于每五个字改正一个字时,这样的系统才有可能考虑被人所接受。”在国外,人工翻译代价高昂,尽管机译系统会有错误,人们还是愿意使用,因为它省时省钱。在国内,机器翻译总体上还处于科学研究阶段。

机器翻译研究的三个阶段

根据迄今为止机器翻译的研究水平,可划分为三个发展阶段:第一代机器翻译,即单词对译水平。初期的机器翻译系统的通常做法是在计算机内存储一个双语词典。利用计算机的高速检索能力,将源语材料中的单词逐一对应译成目的语,然后作一点简单的译文词序调整工作。翻译过程中很少进行句法处理,译文的质量很低。第二代机器翻译,即结构分析水平。停留在单词对译水平上的机器翻译无法满足现实的需要。研究人员认识到要提高水平,必须在翻译过程中引进结构分析。以美国的SYSTRAN系统为例,机器翻译过程中的源语分析和目的语生成截然分开,每一处理层次相对独立,形成“模块结构”,同时语法规则系统与算法程序分开。这就为不断修改及完善机器翻译规则系统创造了有利条件。这是机器翻译研究的一大进步。第二代机器翻译对多义词作了专门处理,可以根据上下文关系选择译文词。第三代机器翻译则是建立在语义分析的水平上。几十年的机器翻译研究和实践已使人们理解,要进一步提高译文质量必须使机器翻译系统能进行语义分析,为此机译系统就应配置语义分析规则及相应的知识库。

语义分析远比句法分析要难。在以句法分析为主的机器翻译系统中要处理的最小翻译单位是词,最大翻译单位是句子--它只在词一句子范围内进行自动加工。而要实现语义上的分析,必将深入到单词内部,进行义素(sememe)分析,也要进行超句结构分析,即篇章分析(discourse analysis)。这样,机器翻译的处理范围就由“词一句”扩大为“义素一篇章”。语义学,尤其是面向机器的形式语义学,进年来虽然有重大发展,但离全面深入的系统研究尚有距离。况且语义分析要有知识库及先进的人工智能的支持,这些也是第五代计算机研制中的关键课题。第三代的机器翻译系统现在还不多见。

国内外几个代表性的机译系统

80年代中期以来,机器翻译进入了蓬勃发展的时期。据粗略统计,全世界从事机器翻译领域研究的人员达2000之多。机器翻译已成为全球性的热门课题。当前的机器翻译研究有以下几个特点:(1)研究和应用相结合。美国的SYSTRAN系统已经在许多国家得到实际应用。1976年该系统转让给欧共体翻译局后,一直在边改造,边扩充,边应用。它现在已可以处理15种语言对,包括英、法、德、西、俄、日等主要语种。近年来也在尝试处理汉语。它现在每个月要更新系统的词典与规则。(2)国际交流与国际合作极其活跃。人们在实践中认识到,翻译是各国人民交际的桥梁,翻译的自动化是各国人民的共同愿望,同时机器翻译的实现也有赖于各国科技人员的通力合作。故而近年来国际合作交流日趋活跃,有国家政府间的合作,也有民间机构间的合作。(3)加速新理论和新技术的应用。机器翻译研究水平的不断提高有赖于新理论和新技术的吸收和采用。一些新的句法理论已在机译系统中得到应用,许多机译系统已更加重视语义分析,而且机器翻译的研究正逐步溶合知识工程的研究。机器翻译要取得实质性的真正突破,机译系统没有语言外的知识或背景知识是不行的。各国的研究人员正在对这些理论问题开展研讨,并开始做各种试验。

近年来我国的机器翻译研究及开发也有长足的进步,已由试验向应用型,继而向商品化迈出坚定步伐。我国机器翻译研究当前主要有四个方面的经费支持:第一是国家自然科学基金的支持,主要集中在机译理论和机译评估技术方面的研究;第二是国家863高科技计划的支持,主要集中在新一代机译系统的开发方面;第三是国家“八五”攻关计划的支持,主要集中在机译产业化、商品化系统的开发上;第四是企业在机译方面的投资,主要是实现机译的产业化。

一个代表性的也是我国第一个实用化的英汉机器翻译软件是“译星英汉翻译系统”。该软件系统的主要特点是:采用逻辑语义为其语言转换平面,分析与转换生成相对独立;系统的语言规则与程序分开。整个系统由信息库、规则库、语境数据库以及控制器、解释器、执行器四个部分组成。“译星”能模仿人类翻译的过程:即查询,向辞典求教,分析,翻译和最后产生译文。“译星”强调实践,具有良好的可移植性,能用于各种领域。1992年中软公司又推出了“译星”的新版本-“译星-92”。在386档微机上,其翻译速度可达每小时3万个英文单词,比“译星”快十倍,译文的可读性也有明显提高。它目前还不能翻译那种需要很多语言以外知识才能理解的文章,而只能应用于原文专业较窄,主要靠字面意义即可理解而不需要处理“言外之意”,且对译文质量要求不很高的场合。机译系统的专业针对性愈强,译文的质量也愈好。

1992年由中科院计算所等单位的几十位机译专家参与开发的智能型英汉翻译系统--“IMT/EC863”在北京通过国家科委主持的鉴定。这项由中科院计算所陈肇雄博士设计主持的工程在进行了长达7年的联合攻关后已达到实用化的阶段。该系统是基于人工智能技术的新一代机器翻译系统。在总体设计方面,它采用开放式的总体结构,使系统具有良好的可扩充性,通过系统提供一致化操作,实现整体的协调,从而便于大规模的工程化开发,克服传统机译系统不易扩展的局限。在鉴定会上,该系统接受了专家们提交的100个英文句子的实际考核,译文正确率达到83%。用该软件制成的“快译通-863”已经面世。与其他“快译通”不同的是,它可以进行整句的翻译,准确率高,十分畅销。另据报道,上海交通大学最近研制成功世界首台智能型汉英翻译机。台湾也有“译经英汉翻译系统”等。当然,实际使用中的机器翻译软件已远不止上述这几个,尤其是针对某一专业的机器翻译软件已纷纷出现,显示出人们对这一学科及其实用价值的巨大兴趣。

前景展望

随着社会信息化程度的不断提高,对机器翻译提出了更高的要求。机器翻译的研究将面临更大的挑战。其发展趋势可归纳为以下几个方面:

1.面向特定专业的机器翻译系统在特定专业领域实现高质量全文自动翻译。

这个方向将是今后一段时期内机器翻译研究突破的重点。现在虽然已有一些面向特定专业的机译系统,但专业范围窄小,翻译质量不高,无法大规模推广应用。估计未来几年机器翻译系统将在这方面有所突破,并将随着专业领域的不断扩大,逐步提高译文的质量和专业范围,最终为社会所接受。

2.语音机器翻译系统

与语音识别和合成系统相结合形成的语音机器翻译系统将是今后机器翻译发展的另一个主要方向。这种系统具有广泛的应用范围,如可以形成全自动电话翻译系统,同声会议翻译系统等。但由于语音识别和机器翻译本身固有的难题,在近期内不大可能实用化。因此这是机器翻译的一个长期的重要的研究方向。

3.商品化、产业化发展

目前虽然有许多投入使用的机器翻译系统,但真正实用化、商品化的系统并不多。由于社会信息量的急剧膨胀,以机器翻译为主要工具的快速翻译服务显得非常紧迫。可以说机器翻译技术实现产业化和商品化是势在必行。

机器翻译是建立在语言学、数学及计算机技术这三门学科基础上的一门边缘学科。同时也是人工智能研究的一个重要方面。它的发展取决于这三门学科的协同努力。当今世界上电脑已渗透入人类活动的各个领域。目前有着成千上万台的自动机和机器人在代替人类从事危险、繁重的劳动,而且颇有成效,但却只有为数不多的几个机器翻译系统在实际应用,而且译文质量也差强人意。这是因为机器翻译是一个难度极高的课题,要研制出人们所企盼的全自动高质量的机器翻译系统还有待于一些理论问题、尤其是在语言学领域取得突破性的进展。

客观而论,机器翻译尚未步入全面的实用阶段。大多数的机译系统目前还停留在第二代的水平上。从近期来看,范围有严格限定的,译文比较粗糙的机器翻译系统将在科技翻译中逐步扩大应用,初步满足社会需要。而全自动高质量的机器翻译系统还不可能在短期内研制出来。至于文学作品、尤其是诗歌的机器翻译目前还看不到可能性。

标签:;  ;  ;  ;  ;  

机器翻译:发展与展望_自然语言处理论文
下载Doc文档

猜你喜欢