对我国几种机器翻译软件译文质量的测评

对我国几种机器翻译软件译文质量的测评

何岚湘[1]2001年在《对我国几种机器翻译软件译文质量的测评》文中指出顾名思义,机器翻译就是用电子计算机来进行语言的翻译。它是结合语言学、数学和计算机等科学的一门边缘学科。机器翻译从实验室走向市场,在经历了几十年的曲折发展之后,出现了理性的即“基于规则”的方法以及经验的即“基于实例”和“基于统计”的方法。然而,翻译的译文质量还不尽如人意。机器翻译到底能不能代替人工翻译?机器翻译应该往何处去?关于这个问题国内外一直存在着激烈的争论。 中国的机器翻译研究起步大致与国外同步,绝大多数的软件系统所采取的核心模块都是基于“规则”的。本文基于机器翻译在科技翻译上的可行性,选取了目前市场上较为流行的叁种软件。根据科技翻译的标准,对叁种软件的译文质量,分别从忠实和通顺两个角度进行了评测,并对评测的结果进行了统计和分析。 评测的结果发现,我国翻译软件已经取得了可喜的成绩,译文的准确度和通顺度取得了巨大的进步。在某些语言现象方面,尤其是英语和汉语结构和句序差别不大时,译文几乎无需修改,但是在处理语言的歧义性、介词、连词以及结构较复杂的句子等方面表现较差。 作者针对造成这种结果的原因进行了分析,尽管不排除软件程序的因素,但是从翻译的实质和语言的特点来反思当前机器翻译的工作机理,作者发现两者之间存在着两对不可调和的矛盾,即(1)语言的灵活运用和规则的死板推导之间的矛盾;(2)规则的有限性和语言的无限性之间的矛盾。这两对矛盾构成了目前基于规则的机器翻译不可突破的局限性。 作者由此得出结论,一直被人们所忽视的人机互助的机译方式应该是当前机器翻译的主流。同时作者对当前基于规则的机译系统提出了自己的优化设想:就是专业化为导向,以传统的机译系统为基础,吸收基于实例的思想,在人机互助翻译的过程中建立系统的记忆库,即专业化的语料库,使机译系统的翻译质量逐步提高,人工的参与程度逐渐降低。

张涛[2]2011年在《面向特定领域的统计机器翻译研究与应用》文中认为机器翻译是自然语言理解领域的难点和热点,在国际交流日益频繁的今天,机器翻译对多语言沟通交流具有重要意义,但其目前翻译的准确率却不尽人意。然而针对特定领域,特别是一些专业名词较多的技术性文档,通常词汇较为固定,句法较为简单,因而更加容易取得较好的效果,如天气预报,知识库等领域。本文对面向领域的统计机器翻译做了一系列研究和探讨,以医学领域具体研究对象,主要取得了以下几个方面的成果:融合领域规则模板的统计机器翻译方法。领域规则模板和领域平行语料库等相关领域资源是提高面向领域统的计机器翻译系统效果的重要基础和重要手段。本文以医学领域为研究对象,构建面向医学领域的统计机器翻译系统所需的领域规则库和领域资源,包括领域平行语料库,领域规则模板。提出领域规则模板扩展方法及模板匹配算法。并将这些提出模板匹配算法和领域资源融合进开放域统计机器翻译的系统,以实现面向领域的统计机器翻译系统。实验表明,在一定规模的领域平行语料库和领域规则模板的支持下,面向领域的统计机器翻译效果有较大幅度的提升。构建面向领域的依存语言模型并约束解码效果。针对医学领域建立依存语言模型,提出模型的参数训练方法,并将模型融入到统计机器翻译的解码阶段,对解码产生的NBEST候选翻译结果进一步约束,重新计算得分,调整NBEST候选翻译序列,以得到更好的最佳翻译提升翻译的正确率。最终实验结果表明提出的基于依存句法关系的语言模型可以在一定程度上提高汉-英统计机器翻译最佳翻译的正确率。利用上述研究成果,利用词法、句法分析、词语对齐等基础开源软件,并结合领域词典、领域模板等领域资源,搭建面向医学领域的统计机器翻译原型系统。

何纯阳[3]2017年在《通过文本类型分类评估Google NMT的翻译质量》文中研究指明目前,随着跨文化交际增加、国际竞争不断增强,需要进行翻译的内容越来越多。由于翻译会消耗大量的精力和时间,机器翻译应运而生。机器翻译经历了最初的IBM模型、基于规则(RBMT)的二代翻译方法、基于短语的机器学习(PBMT)等多个时期。2016年9月27日,Google Translate推出新版本的翻译程序GNMT(神经机器翻译系统)引起翻译界的大变革。GNMT基于端到端的自动翻译学习方法,英法、英西的互译准确度已经超过了 90%,中英互译准确率则在80%左右。本文探讨了 Google NMT在政治讲话翻译中的应用问题,发现了在政治讲话翻译中存在的一些主要问题,并提出了一些建议。本文先简要回顾机器翻译研究历史以及机器翻译本身存在的问题、Google Translate的演变以及使用谷歌Google NMT技术进行汉译英的可行性和实用性;之后探讨了文本分类类型及具体的翻译策略;对本论文测评对象《习近平谈治国理政》中的讲话语篇进行介绍和文本类型分类;之后从语篇层面的文内因素和文外因素角度对Google NMT译出的《习近平谈治国理政》译文进行对比评析和分析;最后做出结论,发现Google NMT在应用方面具有一定的普适性,但和真正人工翻译的译文仍有距离。

赵硕[4]2018年在《翻译认知视角下的神经网络翻译研究——以Systran PNMT为例》文中研究指明基于人工神经网络技术的机器翻译技术,是目前世界上新兴的机器翻译技术,备受学界、业界乃至全球很多大型实体企业、组织机构的关注和青睐。本文对Systran PNMT(Pure Neural Machine Translation)的研究背景、翻译系统应用价值、翻译效果等方面进行了分析,进一步阐明与认知相结合的信息翻译技术对翻译实践的辅助作用,并基于翻译认知理论对神经网络翻译技术的进一步发展提出建议和展望。

刘超[5]2014年在《基于树到树的汉语—纳西语句法统计机器翻译研究》文中进行了进一步梳理机器翻译在不同语种之间的交流中起着非常重要的作用,一直是自然语言处理研究的热点和难点。这些年来,世界各地对于少数民族语言文字也越来越重视,纳西语即为其中之,作为古老的象形文字,纳西语在现代文明的冲击下也在慢慢的消亡。为更好的保证纳西文化的传承,对纳西语的研究具有现实的必要性,实现纳西语和汉语的互通互译就具有更重要的意义。纳西语和汉语在句法结构上的差异性很大,所以在做纳西-汉语的机器翻译时,有必要引入纳西句法信息,同时纳西语和汉语存在很多的对齐缺失问题.所以汉语-纳西语的机器翻译有很大的研究空间。本文根据汉语-纳西语的句法特征,取得了以下主要成果:(1)基于树到树的汉语纳西语句法机器翻译方法。为有效利用纳西语句法信息,提出基于树到树的汉语纳西语句法统计翻译方法。该方法为了有效利用源语言、目标语言对应的句法信息,首先收集了汉语纳西语平行对齐语料,并对两端语料进行句法分析,从而得到对应的汉语和纳西语短语句法树。再采用GMKH算法来抽取汉语短语树和纳西语短语树内短语树片段的翻译规则,根据大量翻译规则生成的概率关系来获得翻译模板。最后利用tree-parsing算法和翻译模板来指导解码,由底而上的翻译每个源语言汉语短语树片段,得到最终的译文。与树到串模型对比,实验表明该方法提高了1.2个BLEU值,说明该方法有效的利用了纳西句法信息来改进汉语纳西语句法统计翻译。(2)基于子树对齐的汉语纳西语树到树翻译方法。针对纳西语的句法特点,将子树对齐融入翻译模型并提出训练方法,解决了汉语-纳西语的对齐缺失问题和一对多问题,定义了子树对齐模型,给出了子树对齐模型的推导概率,引入了节点的删除和插入,然后对子树对齐模型进行训练。最终实验结果表明提出的基于子树对齐的树到树翻译模板对于最佳翻译结果的选择有很大的帮助。(3)利用已有的词对齐工具、短语句法分析器等基础软件,结合短语树到树和改进的基于子树对齐的短语树到树翻译模板、解码算法以及语言模型,构建原型系统。

塔依尔江·苏拉依曼[6]2012年在《多语种计算机辅助翻译系统中双向翻译记忆子系统的设计与实现》文中研究表明虽然近年来,机器翻译技术发展取得了不少的进步,但是译文的质量很难达到大家的要求。因此,开始考虑采用机器翻译的同时采用计算机辅助翻译技术—翻译记忆技术来提高翻译质量。翻译记忆技术对语言的复杂性和多变性,充分利用记忆库的各种功能,重新利用已有的译文,在很多重复性比较高的一些领域采用这种技术,能够避免翻译者的重复性劳动,避免一种句子出现多种译文的情况,保持译文的一致性,可以较大的提高翻译效率。本文中的研究内容围绕翻译记忆技术的一些关键技术展开:句子相似度计算在翻译记忆技术中很关键的一个技术。针对句子相似度计算,首先对自然语言处理领域中常用到得几种相似度计算方法进行了相应的研究及分析,并结合到维吾尔文、哈萨克文、柯尔克孜文及汉文之间的一些特点和差异,最终采用最短编辑距离来计算句子之间的相似度。记忆库是翻译记忆系统进行翻译的基础。记忆库的结构及管理会直接影响到翻译记忆系统最终的使用效果。因此,在设计之前,进行了一些针对这一部分的研究并分析,最终设计出了记忆库。记忆库中所收集的所有句子均以XML标记语言作为编码语言。翻译记忆以“翻译单元”的形式存储,句子与句子以精确对应。对应的句子通过句子标记对<tu>…<tu>下的id来描述。系统的相关模块由2010C#来实现相应的功能。记忆库设计好之后,还要对记忆库进行很好的管理,包括对记忆库进行查找单词、添加句子、删除句子、记忆库导入、导出等。除此之外,在本文采用的最短编辑距离的句子相似度计算方法的基础上,这对译文的生成方法进行了研究。译文的生成是翻译记忆系统得到高质量译文的关键。翻译记忆系统中,待译句子的译文是通过句子相似度来计算,按照得到的相似例句译文结构作为模型来构造句子模式。当每一个输入的句子,翻译记忆系统通过内部的计算算法和翻译流程,在记忆库中的例句进行一定的匹配。当待译句子和例句存在一定程度的相似性(0%-100%),并这个相似性百分比大于等于我我们上面提到的阈值时,翻译者可以对相似例句译文进行相应的改进、删除、插入等操作得到待译句子的译文。最终,在翻译记忆技术的基础上开发了多语种翻译记忆系统。通过相似度计算得到的相似度程度来进行相应的翻译工作。为了测评本文所开发的系统,通过某产品的M630和M868版本的说明书进行翻译来考察使用效果。实验结果显示,在重复率接近47%的资料上,翻译的速度提高了整整1天的时间,也就是说在保证质量的同时,明显的提高了翻译速度。

李海英[7]2015年在《中国当代语言本体规划研究》文中研究说明随着全球化发展为全球在地化、社会信息化程度加深和世界经济全面向服务经济转型,语言已成为国家实力的指标,语言问题被安全化,语言的社会功能和语言规划的战略意义愈加凸显。在中国,受经济一体化和城市化等因素影响,言语社区加速复杂化,产生语言认同困惑和母语能力下滑等问题:自媒体时代的全民“语言狂欢”造成了语言生活的种种乱象。此种背景下,《国家中长期语言文字事业改革和发展规划纲要(2012—2020年)》确立了至2020年“国家语言实力显着增强,国民语言能力明显提高,社会语言生活和谐发展”的规划目标,包含了可量化的综合国力目标——发展语言能力,和非可量化的语言生态管理目标——构建和谐的语言生活。这是当前语言地位规划的具体化,同时需要科学设计、优化本体规划系统。因此,本文拟从语言规划形成机制角度,采用历时和共时相结合的方法,对当代本体规划进行发展趋势研究。论文首先进行理论建构,论述本体规划内容的组成部分和语言规划形成机制的构成要素;再以此为分析框架,基于所建“当代本体规划信息库”,分叁个阶段描写本体规划实践;在共时描写的基础上,论述当代本体规划的演进特点和趋势走向,并结合本体规划调查分析其现存主要缺弊;最后提出对本体规划发展的思考结论。语言规划是在语言意识的影响下,基于言语社区的语言实践形成的,语言意识、语言实践和语言规划分别构成语言规划系统的理论板块、实践板块和政策-管理板块,叁者互动构成语言规划形成的基本机制。但语言意识并非直接、而是通过语言规划观间接影响本体规划;语言舆情则集中反映了语言实践。因此本文确立语言规划观、语言舆情和本体规划为从形成机制视角考查本体规划的叁条主线。本体规划居于语言规划系统的核心地位,具有“固本强体”的功能;主要内容包括政策规划和培育规划两个部分,政策规划有语言、副语言和领域语言叁个规范化版块,培育规划包括语言净化、现代化和国际化叁个方向;在语言舆情的促动下,当代本体规划经历了分别以语言规范化、语言标准化与信息化、柔性语言规范建设为主的叁个阶段,在第一阶段体系雏成,第二阶段成果规模化,第叁阶段规划理念发生变化。研究发现,当代语言规划经历了从“问题观”到“资源观”,再到“服务观”两次转向,规划观的转变对本体规划的内容、标准和基础产生了深刻的影响。当代中国社区本体规划最重要的理论创新是建立了语言规范化叁级体系新模型:宏观层面首创语言生活状况发布制度、定期报告社区语言生活状况;中观层面丰富了语言规范系统的层次,提出新的语言规范类型“软性规范”;微观层面则尝试在具体规范中使用“推荐性标准”。政策规划部分,规范成果数量排序为文字>词汇>语法>语音,但是语言规范、标准同项更新、升级的比率较大;副语言规范集中于本体规划第一阶段;领域规范自第二阶段呈上升趋势,涉域广泛,但尚未成系统,不同时期各有侧重,体现出实用性和即时性。培育规划显性和隐性形式并存,显性规划逐渐增加;语言净化贯穿规划历程始终,显性规划以“内外标准”类为主;语言现代化线索清晰:词汇现代化过程中,新词语筛选、提取形成叁级进阶模式,语体现代化体现为稳定的自上而下模式,术语规划则是科技名词审定和术语工作规范化两条线索并行;语言国际化发展历经了确立中文国际地位、使《汉语拼音方案》提升为国际拼写标准和参与汉字信息技术编码国际标准建设等叁个阶段。现有本体规划的主要缺弊体现在本体规划的内外缺环、内容失衡和施行效果不足叁个方面。主要缺环表现在本体规划与地位、习得规划有所脱节,对应的声望规划缺失。内容失衡在于:培育规划的弱势不利于政策规划更新和落实;领域语言规范化薄弱,无法满足语言生活诉求;语言文字各要素规划不均衡,语法规范从严苛到淡化,词汇规范覆盖不全;语言净化规划不力。施行效果不足的典型表现是规划成果社会闻知度低,对语言的“脏俗化”缺少控制,并且忽略了“对语言规范的规律性违反”现象。基于语言舆情的综合特征,论文提出本体规划的优化和发展应从明确新的语言规划观、优化本体规划系统和提高本体规划效应叁方面进行:母语规划观有利于维护国家语言和文化安全,有助于统摄语言规划系统,培养语言情感,提高本体规划认同;明确语言规划服务观才能为社会提供基础语言服务和契合语言服务发展,具体做法包括丰富其内涵,区分不同层面的服务功能,并在实践中落实服务观,将“语言服务”管理纳入语委工作日程等。优化系统的前提是遵循系统规划和区域规划原则,避免脱节和规划浪费,进行社区和分层规划;重心则在于设计均衡的政策规划内容,包括:加强领域语言规范化,开拓国际化规划视野,形成语言净化、现代化的动态机制,重建词汇和语法规范,更新词汇、语法规范模式。提高本体规划效应受多重因素制约,但重在创新,因此论文提出充分分析言语社区语言设施的优劣势、从规范“语言”转向规范“言语”和尝试借用“信噪比”理论等观点。全文共分十章:绪论部分介绍、说明研究背景与意义、材料与思路以及所用理论与方法,同时进行概念界定和分类,完成部分理论论述;第二章为研究现状综述,梳理文献,提出研究不足;第叁章论述语言规划的形成机制,完成理论构建;第四、五、六章为当代本体规划的分阶段共时描写,结合语言舆情分版块描写、分析本体规划内容;第七章是本体规划发展趋势分析,结合语言规划观的变化,进行量化统计和理论分析;第八章结合本体规划调查,论述当代本体规划的主要缺弊问题;第九章分析自媒体背景,基于前述研究发现,提出优化、发展本体规划的理论和实践设想;第十章为结语,总述主要研究结论,指出研究不足及展望。

参考文献:

[1]. 对我国几种机器翻译软件译文质量的测评[D]. 何岚湘. 西安电子科技大学. 2001

[2]. 面向特定领域的统计机器翻译研究与应用[D]. 张涛. 昆明理工大学. 2011

[3]. 通过文本类型分类评估Google NMT的翻译质量[D]. 何纯阳. 北京外国语大学. 2017

[4]. 翻译认知视角下的神经网络翻译研究——以Systran PNMT为例[J]. 赵硕. 中国翻译. 2018

[5]. 基于树到树的汉语—纳西语句法统计机器翻译研究[D]. 刘超. 昆明理工大学. 2014

[6]. 多语种计算机辅助翻译系统中双向翻译记忆子系统的设计与实现[D]. 塔依尔江·苏拉依曼. 新疆大学. 2012

[7]. 中国当代语言本体规划研究[D]. 李海英. 南京大学. 2015

标签:;  ;  ;  ;  ;  ;  ;  

对我国几种机器翻译软件译文质量的测评
下载Doc文档

猜你喜欢