基于语料库的机器翻译论文

基于语料库的机器翻译论文

基于语料库的机器翻译

朱 杰[1] 古 明[2]

[1.中国劳动关系学院 北京 100048;2.中国矿业大学(北京) 北京 100083]

摘要: 机器翻译在计算机科学突飞猛进的今天吸引了大批科学家的关注和研究,其理论方法也呈现出多样性,而语料库的发展给机器翻译注入了新的活力,基于此的机器翻译便一跃成为主流。通过对机器翻译的理论支撑和发展历史做以综合概述,然后运用机器翻译工具——谷歌翻译进行实例对比研究,其结果显示了机器翻译相对于人工翻译的不足之处,但也展现了光明的发展前景。

关键词: 机器翻译 语料库 谷歌翻译

在计算机还未普及之前,人们的视野、获取信息的渠道都是有限的,获得信息的广度和深度都受到束缚。各个民族、种族、国度或者地区的人们说着各自的语言,难以交流,这限制了信息的及时传播。计算机的飞速发展,让世界成为了一个小小的地球村。信息传播的速度和数量呈现几何级数增长,这就需要精准而快速的翻译。但是,传统的人工翻译的方式已经不能满足信息化社会的需求。传统的人工翻译往往意味着昂贵的劳务费,而且人工翻译也就意味着时间的耗费,尤其是目标信息涉及较多专业性知识的时候,比如心理学、哲学、政治学等,翻译所要耗费的时间就更长。

在酶解时间、酶添加量和料液比均为上述试验中的最佳条件下,试验考察了酶解温度对辣椒碱、辣椒二氢碱及辣椒红色素含量的影响,试验结果见图3中A。

为了满足及时翻译的需要,机器翻译应运而生。翻译软件的开发和应用,化解了信息传播的语言障碍。人们足不出户,坐在电脑前,动动鼠标,点点图标,就可以将源语言翻译为目标语。

一、机器翻译

机器翻译,又被称为计算机翻译或自动翻译,是一门多学科融合的综合学科。这些学科包括:语言学、数学和电脑科学。它也是自然语言处理研究的一个分支。1947年,美国著名的科学家Warren Weaver首先提出了用电子计算机将不同的语言进行转换翻译的可能性,并在1949年正式提出了机器翻译的观点。从那以后,机器翻译给世界带来了意想不到的巨大变化。在众多学者的研究和贡献之下,机器翻译领域也取得了跨时代的发展。

(一)机器翻译方法

以翻译策略所反映的哲学背景为分类准则,人们常把机器翻译方法划分为理性主义方法和经验主义方法两大类。理性主义方法一般指基于规则的方法;经验主义方法一般指基于语料库的方法。

1.基于规则的机器翻译

虽然基于规则的机器翻译发展迅猛,但其翻译的质量不太令人满意,其可懂性及效度也很不充分。随着对机器翻译的深入研究,现存的基于规则的翻译方式的很多问题凸显出来,如:翻译质量低、人力耗费高、语法规则僵硬等。单单只依赖语法规则和语法结构的翻译是远远满足不了当代社会的需要的。于是,另一种主流的机器翻译理论便逐渐抓取了专家学者的眼球,这便是经验主义方法,即基于语料库的方法。

用洗手液还是肥皂洗手?在讲求高效时尚的今天,相信大多数消费者都会倾向选择洗手液,因为其使用方便、能杀菌,还有润肤的作用。但《加拿大生活》杂志近日发表的文章却指出,洗手液是不能代替肥皂的。

在生活中应用非常广泛的是使用规则制定的机器翻译系统,不同系统有很多的共同点:第一,每个翻译系统都拥有一个表达语言学的符号系统;第二,翻译系统在特定的规则下完成翻译内容。换而言之,单词对单词的对等翻译、直接的转化翻译以及运用中间语的翻译都可以纳入基于规则的翻译方法中来。

2.基于语料库的机器翻译

嫁接应该选择在晴朗的下午进行,将砧木3片以上部分切掉,保留2片真叶,取茄子幼苗一心一叶,确保切口与砧木接口相近,然后将插穗紧贴在切口上,用嫁接夹固定好,放在营养钵中灌溉透水,移入高温小拱棚内密闭培养。

源文本选自热门美剧《摩登家庭》(Modern Family)剧本,第一季第七集最后结尾处旁白的一段总结性的话语。

(1)基于统计的机器翻译

基于语料库的机器翻译就是利用数据库中的语言信息来创造新的翻译。基于语料库的机器翻译虽然在机器翻译的早期就已经有所萌芽,但其真正地开始抓取公众的眼球还是始于20世纪90年代。它包括两种方式:一是统计机器翻译方法,另一个是实例机器翻译方法。根据Carl(2000)所言,所有的基于语料库的机器翻译都会运用一系列的所谓的“指称翻译”(包括源文本和其翻译)来做翻译。这其中源文本和目标文本是平行的,通过分析这样的平行结构,从语料库中分离出对等的翻译。Hutchins(1992)认为基于语料库的翻译为僵化、复杂的基于规则的翻译在分析和产出阶段提供了另一种选择。

数据统计可以为机器翻译提供大量的素材,也是目前非限定领域机器翻译中使用广泛的方法之一。此方法主要是利用大量的平行语料库提取大量素材并对其进行统计分析、建立模型,并利用模型进行新材料的翻译。利用语料库进行素材统计的要务是能够为语言的生成建构合理的统计模型。模型建好后,还需对模型里的参数进行定义。早期的统计模型主要是采用噪声信道模型,近年来,将区分性训练方法融入机器翻译越来越常见。

与传统的基于规则的机器翻译相比较,基于语料库的机器翻译有着其独特的优势。为了更直接地呈现其优越性,本文将选取一段文本,用谷歌在线翻译系统进行翻译,然后将源文本与目标文本进行对比,分析其翻译状况,来展示其可行性。

除了上述机器翻译模型外,使用实例进行机器翻译也是十分常见的翻译方法。该方法由日本翻译专家长尾提出,其核心原理如下:将实例放入实例库,并对实例进行标注,主要标注为两个字段,其中一个字段保留源语言句子,另一个字段保留目的语句子,当要进行翻译时,机器会将输入的句子与实例库的源语言进行对比,找出最相似的句子,从而匹配最佳的目的语翻译,并进行输出。

(2)基于实例的机器翻译

二、例证

(一)谷歌翻译

谷歌翻译是一项美国谷歌公司提供的翻译文段和网页的服务,其采用的翻译方法就是基于统计的机器翻译。谷歌的机器翻译方法主要是基于2003年Franz Josef Och在美国国防部高级研究项目局(DARPA)的机器速度翻译比赛时获奖的研究成果Och指出,若想要开发一个可用于翻译一对全新语言的统计机器翻译系统,必须做好以下的数据基础搜集工作:一个拥有百万词汇量的双语文本语料库和属于这两种语言的单语语料库,各自得拥有十亿数量级以上的单词。

谷歌翻译有其非常强大的语言学数据,这些数据内容主要来源于联合国文档。一般来讲,联合国的文档都会有至少六种联合国官方语言的译本。因此,谷歌的翻译语料库数据是非常可靠及海量的,相当于拥有了经人工翻译了两三百万单词并由不同语言构成的语料库。

(二)源文本

总之,母语的迁移受到很多因素的制约,它们互相作用,共同制约着母语迁移,不存在某个因素决定了母语的迁移,这也就是不同的做不同的研究得出不同的结果。

Jay:We tell our kids it doesn't matter if you win or lose,but let's be honest,winning feels pretty great.There's nothing like that golden moment in the sun.I think every parent probably wants that for their child.So,sometimes,we push too hard.And that leads to a lot of resentment and guilt.So,how much is too much? Here's where I come out.Guilt fades.Hardware is forever.

(1)圆叶裸蒴苔 Haplomitrium mnioides(Lindb.)R.M.Schust.余夏君等(2018)

改革开放新时期的全面整党、保持共产党员先进性教育活动、深入学习实践科学发展观活动、党的群众路线教育实践活动等,都是先进行试点,然后在全党范围内分期分批地开展集中教育活动。

(三)谷歌翻译文本

“我们告诉我们的孩子,无论你输赢都没关系,但说实话,胜利感觉非常棒。在阳光下没有像那个黄金时刻。我想每个父母都可能想要他们的孩子。所以,有时候,我们太过努力。这导致了很多怨恨和内疚。那么,多少钱太多了?这是我出来的地方。内疚消退。硬件是永恒的。”

各组别移植瘤经一系列处理及HE染色后,将病理切片置光学显微镜下作组织病理学观察。图1示,细胞核明显深染的肿瘤细胞,部分细胞胞核多个,可见多核瘤巨细胞,且核质比例失调,畸形核及核分裂像多见。同时,各组切片均可见不同程度的坏死肿瘤细胞。HE染色主要表现为镜下大量无结构深红色颗粒状物质,肿瘤细胞呈碎片状,部分肿瘤坏死中央掺杂出血。其中,重组人血管内皮抑素+DDP(d4~d6)组坏死最明显,可见典型细胞坏死核浓缩、核碎裂、核溶解3个过程。生理盐水组坏死最少,在细胞间质可见散在分布的少量出血。

我们将源文本粘贴至谷歌翻译页面处,点击翻译,生成了译本。

(四)分析

源文本属于比较口语化的内容,因此整体的翻译难度不太高。译文的第一句,整体上翻译得比较出色,没有出现句法的问题。译文的第二句则出现了比较明显的句法错误。“in the sun”应该是介词短语作后置定语修饰“golden moment”,而译文则将“in the sun”当成了整个句子的地点状语,并且在词汇“golden”的翻译上,谷歌比较直接地翻译为了“黄金”,而更为雅致的翻译则为辉煌的或者光辉的。第三句的翻译,谷歌则出现了漏翻的现象:that没有在译文中体现出来。第四句同样出现了词义理解的差异。push在文本情境中的意思应该为把……逼太紧,而不是努力的意思。第五句句子较短,句法简单,因此谷歌翻译未出现错误。而第六句中谷歌翻译则将“how much”粗暴地翻译成了“多少钱”,而忽略了语境,此处“how much”就理解为多少的意思。倒数第二句的翻译中,“come out”此短语也被直接翻译为了“出来”,实际上为“得出结论”的意思。最后部分的翻译内容没有问题,但翻译得比较生硬,读起来很不符合中文的习惯,因此在人工翻译中通常会结合语境,将词句翻译为“内疚会消退,但是硬件才是永恒的”。

通过实例的分析,我们可以总结出基于语料库的机器翻译的最大优势就是其翻译内容的准确性和易理解性。其在处理歧义句上表现出了强大的能力,更别提基于数据库的常识的丰富性。

当然,我们也不可否认,机器翻译与人脑翻译相比还存在着巨大的差距,谷歌翻译的上述文本也显示出其在句式结构处理上还有所欠缺,亟待完善。

三、结语

机器翻译的历史曲折而坎坷,机器翻译依据的理论和方式也纷繁复杂,基于数据库的机器翻译方式在多年的实证中体现出了自身价值,博得了商业公司的青睐。但机器翻译毕竟是随着计算机的发展才发展起来的一门科学,其后续的发展和完善还需要依赖于科技的进步、软件的设计开发。

注释:

①摩登家庭主角之一,年纪最大。

②见http://translate.google.cn/?hl=zh—CN & tab=wT#。

参考文献:

[1]Carl,M.Combining invertible example—based machine translation with translation memory technology[A].Proceedings of the 4th Conference of the Association for Machine Translation in the Americas,Mexico,2000.

[2]Hutchins,J and Somers,H.An Introduction to Machine Translation[M].London:Academic Press,1992.

[3]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司,2004.

[4]俞士文.计算语言学概论[M].北京:商务印书馆,2007.

中图分类号: H085

文献标识码: A

文章编号: 1009—5349(2019)17—0100—02

[作者简介] 朱杰,中国劳动关系学院讲师,硕士,研究方向:社会语言学、话语分析、教学法;古明,中国矿业大学(北京)讲师,硕士,研究方向:教学法、教学测试。

责任编辑:景辰

标签:;  ;  ;  ;  ;  

基于语料库的机器翻译论文
下载Doc文档

猜你喜欢