基于Self-Attention模型的机器翻译系统论文

基于Self-Attention模型的机器翻译系统

师 岩,王 宇,吴水清

(河海大学计算机与信息学院,江苏 南京 211100)

摘 要: 近几年来神经机器翻译(Neural Machine Translation, NMT)发展迅速,Seq2Seq框架的提出为机器翻译带来了很大的优势,可以在观测到整个输入句子后生成任意输出序列。但是该模型对于长距离信息的捕获能力仍有很大的局限,循环神经网络(RNN)、 LSTM网络都是为了改善这一问题提出的,但是效果并不明显。注意力机制的提出与运用则有效地弥补了该缺陷。Self-Attention模型就是在注意力机制的基础上提出的,本文使用Self-Attention为基础构建编码器-解码器框架。本文通过探讨以往的神经网络翻译模型,分析Self-Attention模型的机制与原理,通过TensorFlow深度学习框架对基于Self-Attention模型的翻译系统进行实现,在英文到中文的翻译实验中与以往的神经网络翻译模型进行对比,表明该模型取得了较好的翻译效果。

关键词: 神经机器翻译; Seq2Seq框架; 注意力机制; Self-Attention模型

0 引 言

机器翻译(Machine Translation)即自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程[1],是人工智能的终极目标之一,也是自然语言处理领域的尤为重要的研究方向之一[2]。近年来,随着深度学习的研究取得较大进展,基于深度学习的神经机器翻译(Neural Machine Translation)方法也取得了突破性的进展,无论在翻译的效率上还是翻译的质量上,都逐渐超越了传统的基于统计的机器翻译方法。随着技术的发展与完善,机器翻译这一困难的任务,也会逐渐被克服,人工智能在翻译上的应用会更加广泛,也会为人类的发展做出重要贡献。

深度学习(Deep Learning)是机器学习研究中的一个新的领域,通过建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据。目前深度学习在自然语言处理的很多核心问题上都有突破性的进展。机器翻译任务就是其中一个例子。

在基于深度学习的机器翻译任务中,怎样使深度学习模型在机器翻译任务中表现得更有效率、准确率更高,是研究者将深度学习应用于机器翻译任务中的主要目标。随着深度学习技术不断地发展,众多研究者将更加有效的模型应用于机器翻译任务中,使得基于深度学习的机器翻译有了飞速的发展。

2014年提出的Seq2Seq模型[3]能够捕捉长距离的信息,对句子的翻译任务带来了很大的优势。在Seq2Seq框架中,编码器将完整的输入句子压缩到一个维度固定的向量中,然后解码器根据这个向量生成输出句子。而融合了注意力(Attention)机制[4]的翻译模型能够提高长句子的特征学习能力,加强源语言的序列的表示能力。注意力机制在基于深度学习的机器翻译任务中的成功运用,使得神经机器翻译有了更大的发展。

1 相关技术研究

1.1 编码器-解码器框架

神经机器翻译是近年来被Kalchbrenner等[5]、Sutskever等[3]和Cho等[6]提出的一种新兴的机器翻译方法。基于深度学习的机器翻译采用编码器-解码器框架,它的基本思想是使用一个神经网络输入句子,称为编码器(Encoder),将整个句子信息压缩到一个固定维度的编码中;再使用另一个神经网络,称为解码器(Decoder),读取这个编码,将其“解压”为目标语言的一个句子[7]。这种思想也就是常说的Seq2Seq模型。

1.2 基于RNN的神经机器翻译

基于深度学习的机器翻译任务的关键在于使用合适的神经网络结构,使用编码器-解码器框架都要设计合适的神经网络结构构建机器翻译模型。其中最为常用的网络结构就是循环神经网络(Recurrent Neural Network, RNN)[8-10]。RNN是传统前馈神经网络的扩展,能够处理可变长度序列输入。RNN通过具有循环隐藏状态来处理可变长度序列,其每次激活取决于前一次的激活。在每一时刻t ,循环神经网络的主体结构A的输入除了来自输入层x t ,还有一个上一时刻的隐藏状态h t-1 ,RNN的主体结构A在读取了x t 和h t-1 之后会生成新的隐藏状态h t ,并产生本时刻的输出o t ,将完整的输入输出序列展开,可以得到图1所示的结构。

图1 循环神经网络按时间展开后的结构

循环神经网络在理想状态下可以对任意长度的序列进行迭代训练,但是在实验的过程中,一旦梯度的值变得非常大,会导致在运行过程中容易检测到其引起的溢出;这样的问题称为梯度爆炸问题。然而,当梯度接近为0的时候,梯度近乎不再存在,同时降低模型对语料库中的远距离的单词的学习质量;这样的问题称为梯度弥散问题[11]

1.3 基于LSTM的神经网络翻译

循环神经网络通过前一时刻的状态激励当前时刻,例如使用前一个单词来影响或者理解当前单词的含义。但同时,这也带来了更大的技术挑战——长期依赖问题。当前预测位置和相关信息之间的文本间隔可能会很大,简单的循环神经网络可能会丧失学习到距离如此之远的信息的能力[12],例如在较长的文本信息中,相互联系的信息可能相隔的距离较远,循环神经网络无法捕捉到这样信息之间的关联性,导致对信息的理解能力变差。

长短时记忆网络(Long Short-Term Memory, LSTM)[13]就是为了解决这个问题而提出的。LSTM有着复杂隐藏层单元的RNN,其中主要分成4个部分:1)记忆单元由输入单词和过去的隐藏状态来生成新的记忆;2)输入门使用输入单词和过去的隐藏状态来决定输入值是否值得保留,从而决定该输入值是否加入新的记忆中;3)遗忘门用来评估过去的记忆单元是否对当前记忆单元的计算有用;4)输出门则根据当前输入信息以及新的记忆单元内容来共同决定当前时刻的输出。正是这些门控制单元的组合,使得LSTM可以很容易携带一个长距离的信息,捕获潜在的长距离的依赖。LSTM单元细节图如图2所示。

图2 LSTM单元细节图

使用LSTM结构的循环网络的前向传播是一个相对比较复杂的过程。具体地,LSTM每个门的公式定义如下:

输入值:

z =tanh (W z [h t-1 ,x t ])

(1)

输入门:

i =sigmoid(W i [h t-1 ,x t ])

(2)

遗忘门:

f =sigmoid(W f [h t-1 ,x t ])

(3)

输出门:

o =sigmoid(W o [h t-1 ,x t ])

(4)

新状态:

行政事业单位缺乏对资金流向的监督管理,在资金流向上,缺乏专人检查,容易出现与预算使用不一致的情况。有部分行政事业单位过度依赖会计中心,导致其财务监管力度减弱,出现财务管理问题,影响资金运转效率。我国的财务监管系统,还不够完善,行政事业单位缺乏财务监督管理,所以导致许多资金的运用和项目不能匹配。

c t =f ·c t-1 +i ·z

(5)

输出值:

h t =o ·tanhc t

(6)

1.4 融合了注意力机制的翻译模型

使用LSTM结构构造的神经网络模型应用于Seq2Seq框架中,能够在一定程度上解决长序列的问题。但是Seq2Seq模型本身有自己的局限性。在Seq2Seq模型中,编码器将完整的输入句子压缩到一个维度固定的向量中,然后解码器根据这个向量生成输出句子。当输入句子较长时,这个中间向量难以存储足够的信息,Encoder-Decoder神经网络的性能也跟着不断变差[14],成为该模型的一个瓶颈。注意力机制[15]就是为了解决这个问题而设计的。注意力机制允许解码器随时查阅输入句子中的部分单词或片段,因此不再需要在中间向量中存储所有信息。这个过程可以类比人的翻译过程:在翻译句子时,人们经常回头查阅原文的某个词或片段,来提高翻译的精确度。

注意力机制的核心思想是:将输入的源语句传入编码器后由编码器生成一个输出,然后给输出加上权重向量后作为解码器的输入;解码器在解码的每一步将隐藏状态作为查询的输入来“查询”编码的隐藏状态,在每个输入的位置计算一个反映与查询输入相关程度的权重,再根据这个权重对各输入位置的隐藏状态求加权平均[15-16]。注意力机制的实现细节如图3所示。

图3 注意力机制的实现细节

图3中,h i 表示编码器在第i 个单词上的输出,s j 是编码器在预测第j 个单词时的状态。计算时刻j 的context的方法如下:

(7)

(8)

其中,e (h i ,s j )是计算原文各单词与当前解码器状态是否相关的函数,它是一个带有单个隐藏层的前馈神经网络:

e (h ,s )=U tanh (Vh +Ws )

(9)

模型的整体结构由编码器和解码器构成,在编码器的一个网络块中,由一个多头注意力(Multi-Head Attention)子层和一个前馈神经网络子层组成,整个编码器栈式搭建了N 个块。解码器同编码器的结构类似,只是多了一个多头注意力层。为了更好地优化深度网络,整个网络使用了残差网络[14]连接,然后进入标准化层(Add & Norm)[21]。该模型的整体结构如图4所示。

对于成熟期企业,其产品的市场占有率日趋稳定,而行业的市场需求也开始步入 “天花板”阶段,此时企业若想保持行业内的领导地位,需要将社会责任摆在更为重要的战略地位,而企业的碳信息披露越规范,其在市场中赢得的美誉度就越高,有利于其在饱和的市场中抢占份额,稳固行业地位。已有研究表明,与行业非龙头企业相比,龙头企业可以获得更为便利的外部融资。据此,提出假设4。

对于表面人工湿地结构进行研究时不难发现,接近水面部分为好氧层,底部部分为厌氧层。考虑到湿地植物对阳光有所遮挡,这样就不会存在藻类大量滋生的可能。可以种植芦苇、水葱、香蒲、灯芯草等挺水植物,凤眼莲、浮萍、睡莲等浮水植物,以及伊乐藻、茨藻、金鱼藻、黑藻等沉水植物。还可以种植慈姑、雨久花、玉蝉花、千屈菜、黄菖蒲、泽泻等水生花卉类的观赏植物,既可以处理污水,也可以美化环境。

2 基于Self-Attention的翻译模型

注意力机制是一种高效获取信息的方式。一方面,它使得解码器可以在每一步主动查询最相关的信息,而暂时忽略不相关的信息;另一方面,它大大缩短了信息流动的距离,解码器在任意时刻只需一步就可以查阅输入的任意单词。

指数平滑法综合了全期平均法和移动平均法(MA),是传统的时间序列法中的一种方法。在计算完平滑值后,根据平滑值,采用一种预测的数学模型进行建模,对未来某时刻值进行预测。指数平滑的基本原理是本期的滑值是本期实际值与前一期平滑值的加权平均后的值,指数平滑法可表示为

为了更好地运用注意力机制的优点,本文抛开原有的以RNN或者CNN作为编码器-解码器的模型结构,使用自注意力(Self-Attention)[17-18]作为编码器-解码器框架的基础,构建模型应用于机器翻译任务中。该模型完全使用注意力机制在不同神经层之间传递信息,实现了一个仅依靠注意力机制的神经网络翻译模型。

以往的编码器-解码器框架往往以RNN或LSTM、GRU等模型构建整体的网络结构,但是这些模型都是依赖于顺序计算的,也就是说采用这些模型只能从左向右或从右向左依次计算,这种机制带来了一些问题:1)时间片t 的计算依赖于t -1时刻的计算结果,这样就限制了模型的并行能力,导致神经网络的训练比较缓慢;2)顺序计算的过程中信息会产生丢失,这也就是人们说的长期依赖问题,虽然LSTM、GRU等门机制[19]的结构一定程度上缓解了长期依赖的问题,但是对于特别长期的依赖现象这种机制无法达到满意的结果。

使用Self-Attention机制能够很好地解决这2个问题。使用Attention机制,将序列中的任意2个位置之间的距离缩小为一个常量,在Self-Attention中所有词之间都要计算Attention,那么任意2个位置之间的距离都为1。其次仅仅使用Self-Attention构建网络,不是类似于RNN的顺序结构,Self-Attention不依赖于前一时刻的计算,具有更好的并行性,训练速度得到较大的提升[20]

2.1 模型的整体结构

增加注意力机制之后,编码器也采用了一个双向循环网络。这是因为编码器通过注意力机制查询一个单词时,通常也需要知道该单词周围的部分信息,使用双向循环网络使得每个单词的annotation可以同时包含左右两侧的信息。同时,取消了编码器和解码器之间的连接,解码器完全依赖于注意力机制获取原文信息。取消这一连接使得编码器和解码器可以自由选择模型。

图4 编码器-解码器模型整体结构

2.2 Self-Attention结构

在编码阶段不用做序列输入,而是将整个序列一次全输入,输入为句子的矩阵,先分别通过3个全连接矩阵将输入矩阵变化为3个矩阵,分别为Query、 Key和Value。

Attention函数可以看作将一个查询和一系列键值对映射为一个输出的过程。这里的查询(Query)、键(Key)、值(Value)以及输出都是向量。输出是由带权重的值加起来得到的,而每个值的权重是根据查询和相应的键值通过一个函数计算出来的,最终得到需要的Attention。Attention的输出矩阵可以按照下述公式计算:

(10)

函数的计算模型如图5所示。

图5 缩放点积的Attention结构

通过模型结构可以对Attention的计算有一个直观的了解,整个过程可以分为以下几步:

1)输入的每个单词向量矩阵通过3个不同的权值矩阵分别得到Q K V 这样3个不同的向量。

2)为矩阵中的每个向量计算一个“得分”:QK T。使用Scaled(缩放点积)方法[17],把“得分”除以

3)对这个“得分”使用softmax激活函数。

4)最后再乘上矩阵V ,得到最终的输出。

这就是公式(10)得出的Attention结果的完整计算过程。

模型中的多头注意力相当于h 个不同的Self-Attention的集成。这样的好处是可以允许模型在不同的表示子空间里学习到不同的侧重点,多头注意力结构如图6所示。

图6 多头注意力结构

具体的操作细节如下:

(11)

2)2621(2622)隔离开关控制规则,分闸条件:①262断路器分闸、2622(2621)隔离开关分闸;②2622(2621)隔离开关合闸、母联断路器及其两侧隔离开关合闸。合闸条件:①2622(2621)隔离开关分闸、262断路器分闸、26230及26240接地开关分闸;②2622(2621)隔离开关合闸,母联断路器及其两侧隔离开关合闸。

因此,在这些思想观念指导下,政府部门认为“对社会发展有益”的、“敏感性较低或不存在”的组织,得到惠利和发展的机会自然更多,同时不少倡导公民进行社会参与实践、以发扬基层民主自治为理念的社会组织因为其“性质敏感”而被剥夺了在同一起跑线上竞争的权利。而且从实践中可知,即使是属于“四大类”放松规制范围的社会组织,也往往由于诸多因素限制而难以享受门槛降低带来的益处。民办非企业单位的生存处境已经在逐步改善,然则要惠及大多数乃至全体,恐怕还需假以时日。但这和起初的严格限制相比,已经是不可同日而语了。这显然是我们的政府始终在不断创新、也在不断进步的体现。

(12)

在编码器到解码器的地方使用了多头注意力进行连接,此时Q 来自于解码器的上一层的输出,K V 则来自于编码器的输出,计算方式与文中之前介绍过的方式完全相同。然后利用解码器和编码器的Attention来进行翻译对齐。在编码器和解码器中都使用了多头自注意力Self-Attention来学习文本的表示。

为了捕捉句子的序列信息,让所有的单词能够组成有意义的句子。在编码词向量的时候引入位置编码的特征,也就是模型中的Position Embedding。具体地说,位置编码会在词向量中加入单词的位置信息,这样模型就能区分不同位置的单词。采用正余弦函数对单词位置进行编码[22],公式如下:

(13)

(14)

3)根据数据的长度和内容标准化文本,将长度不足的句子进行补齐,对超过最大长度的句子进行截取。

MultiHead(Q ,K ,V )=Concat(head1,…,headh )

本文实验中使用的深度学习框架是TensorFlow。TensorFlow是谷歌在DistBelief的基础上开发的新一代深度学习框架。TensorFlow相比于其他的深度学习框架在性能上有很大的优势,它的架构较为灵活,可在多个平台上完成训练与应用,得到了工业界的广泛认可和应用。

FFN(x )=max (0,xW 1+b 1)W 2+b 2

(15)

解码器解码之后,解码的特征向量经过一层激活函数为softmax的全连接层后得到反映每个单词概率的输出向量。此时,便可以通过损失函数训练模型了。

3 实验与分析

3.1 实验设置

本文实验选择数据规模较小的IWSLT数据集进行实验,以其中的英文-中文数据进行模型训练和测试,对本文中所提到的LSTM神经网络翻译模型、融入了注意力机制的神经网络翻译模型以及Self-Attention神经网络翻译模型进行对比,就英文到中文机器翻译任务进行对比分析。

在编码器和解码器中经过Multi-Head Attention之后,得到的输出,还要经过一个Feed Forward层,这是一个全连接的前馈网络,其中进行了2次线性变换,包括一次ReLu激活,公式描述如下:

本实验中的相关参数设置如表1所示。

表1 参数设置

实验步骤依次为:

笔者跟随马来西亚木材理事会组织的考察团在2018年10月走访了位于霹雳州的BKB Hevea 地板生产厂、位于雪兰莪的Finesse Moulding 相框生产厂、Weng Meng集团木门生产厂和Hup Chong家具生产厂。这几家工厂虽然是挑选出来的大厂,但是通过考察对马来西亚林业产业有了很多真实的感受。

5)对模型进行测试和评价。

2)统计语料中出现的单词,为每个单词分配一个ID,将词汇表存入一个vocab文件,然后将文本转化为用单词编号的形式来表示。

通背拳研究会则是将通背拳各个派系团结在一起发展及传承通背拳的社团组织,其中主要包含了白猿、祁家、五行三大派系的通背拳传人.由于该社团存在多个派系的通背拳传承人,传承内容都有着各自门派独特的教学方式及内容,但同为一个派系的传承人在传承内容方面并不会出现过多偏差.以白猿通背拳来说,通背拳研究会与民族武术社的教学内容非常相似,传承内容都是以活背八法、十字拦、六路总手等单操为主,最后整合为白猿通背拳的二十四式单操.

其中pos表示单词的位置,i 表示单词维度,最终位置信息被编码为d model的向量,便于和词向量进行加的操作。

4)将处理好的数据导入模型中进行训练。

1)对于平行语料进行预处理,首先将句子切分为单词。

3.2 实验结果与分析

Self-Attention模型训练过程中的损失下降如图图7所示。

图7 Self-Attention模型训练损失下降图

Self-Attention模型训练过程中的准确率如图8所示。

保罗·斯特兰德(Paul Strand,20世纪美国摄影艺术界一位承先启后的重要人物。)认为,纯粹客观主义是包括“艺术摄影”在内的一切摄影艺术的终极追求。崇尚古典主义的现代人十分尊崇这一定义,但这位后现代主义摄影师却恰恰相反,表现出对设计的迷恋。谈到摄影艺术的趋势问题,戈特弗里德·雅格(Gottfried Jager,德国摄影师、摄影理论家)指出:“此刻,我们的原创摄影艺术正面临着‘能力表演’的过剩。”他列举道:“舞台结构、蒙太奇、拆拼贴等各种扩展手段,与摄影的初衷完全背离,且正在破坏与消解这种艺术的初衷。摄影作品‘客观反映现实’的价值开始动摇,面临着将“真实”本身融入主题等激进问题。”

“我最清楚的记忆来自6岁那年的遭遇。那是一个礼拜天,母亲陪着我们兄弟俩走下公寓的台阶。我们正准备去教堂。正沿着走廊走向大门口时,我们听见巨大的撞击声,混杂着尖叫声和呼救声。三辆载着家人的轿车发生了事故。不知怎的,混乱中,我松开了抓着母亲的手。我站在路边,看见有什么东西从一辆翻转的车里滚落出来。它停在我所站的马路牙子边。那是一个小女孩的头。我弯下腰,想去触摸那张脸,和她说话——但在碰到她之前,我就被什么人拽走了。”

图8 Self-Attention模型训练准确率图

为了对翻译模型进行评价,本次实验采用国际通用的机器翻译评测脚本、大小写不敏感的BLEU值[23]对译文质量进行自动评价。实验结果如表2所示。

表2 翻译模型的性能对比

表2展示了不同的神经网络结构模型构建的机器翻译系统的性能对比。表中的第2列为翻译模型在开发集上的BLEU值,第3列、第4列分别为3种翻译模型在测试集上的BLEU值。

肝病属于在肝脏位置发生病变的疾病,如乙肝、丙肝、甲肝、肝硬化、肝癌、脂肪化、酒精肝等,属于常见的一种较大危害性临床疾病,动物和人的胆碱酯酶包括乙酰胆碱酯酶和酰基胆碱酰基水解酶两种,乙酰胆碱酯酶大部分分布在肺、红细胞、神经末梢、脾中,也被叫真胆碱酯酶;酰基胆碱酰基水解酶主要在脑白质、心、肝、胰中分布,也被叫做假胆碱酯酶。血清胆碱酯酶是肝脏合成的一种物质[1],在损伤肝细胞时会降低合成血清胆碱酯酶的含量,减少血清中血清胆碱酯酶活性。将2013年11月—2017年11月收入的160例肝病患者和40例健康体检人员作为研究对象,报道血清胆碱酯酶检测的效果。

通过对表2中的数据进行分析,可以看出,加入了注意力机制的双向LSTM模型,在翻译性能的表现上相较于原有的模型有了较大的提升,说明注意力机制能够更好地获取语言中的上下文信息,使机器翻译表现出更好的性能。本文中使用Self-Attention模型构建的翻译模型在性能上达到了最优,这表明Self-Attention模型能够有效地解决传统的循环神经网络中存在的长期依赖问题与获取远距离的信息能力较弱等问题。为了验证这一结论,继续进行第2项实验。

将测试集中的数据按照句子长度进行分类,然后分别使用不同句子长度的数据集对3种翻译模型进行测试,通过BLEU值对不同翻译模型性能进行比较分析。结果如表3与图9所示。

治疗前两组患者的HBN评分无明显差异,治疗后研究组显著高于对照组,差异有统计意义(P<0.05),如表1。

表3 不同句子长度翻译性能对比

图9 不同句子长度翻译性能对比

通过表3中的数据对比可以发现,在所有不同的句子长度区间,Self-Attention翻译模型的表现都是最好的,这表明以Self-Attention模型为基础构建的翻译模型比以传统的循环神经网络结构为基础构建的翻译模型的翻译性能更佳。

随着句子长度的增加,机器翻译模型的性能都出现了下降的趋势。融合了注意力机制的双向LSTM翻译模型,在长句子的翻译中也有不错的表现,但是当句子长度进一步加长后下降明显。Self-Attention模型的下降幅度最小,说明该翻译模型对于长序列信息的获取能力较之其他2个模型更好。

在翻译中当然还存在很多不能直译或完全对等的情况,如修辞就有时不能直接转移到目标语中需要变换说法这时就会用到归化策略以符合英语的表达方式。

4 结束语

本文构建了几种不同的神经网络翻译模型,通过实验的对比分析说明了注意力机制在机器翻译中的成功运用使得机器翻译的效果能够进一步提高。但是本文中所得到的结果还是不尽人意,这是因为实验中构建的神经网络较为简单,训练模型所使用的数据集也比较小。本文中使用Self-Attention构建的编码器-解码器模型,整个编码器和解码器均采用栈式搭建了N 块,本文的实验中N 取值为2。如果网络搭建较深,可能使模型的最终效果表现得更好,但也可能大大增加训练的时间,对最终效果的提高却不大。还有诸如模型中的词向量维度、多头注意力结构层数等均可能对最终结果产生影响,如何调整网络结构使模型达到最优效果,这是后续需要继续研究解决的问题。

Self-Attention模型的特点在于能够有效地解决长序列中词之间的距离直接计算出依赖关系,能够学习到一个句子的内部结构。针对这一特点可以将Self-Attention当做一个层与其他RNN或者CNN结构配合使用,如果能够将其成功应用于其他自然语言处理任务中,相信也可以使其他任务达到更好的效果,这也是后续仍然需要研究的地方。

参考文献:

[1] 张家俊,宗成庆. 神经网络语言模型在统计机器翻译中的应用[J]. 情报工程, 2017,3(3):21-28.

[2] 刘洋. 神经机器翻译前沿进展[J]. 计算机研究与发展, 2017,54(6):1144-1149.

[3] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]// Advances in Neural Information Processing Systems 27 (NIPS 2014). 2014:3104-3112.

[4] BAHDANAU D, CHO K H, BENGIO Y. Neural Machine Translation by Jointly Learning to Align and Translate[J/OL]. (2014-12-19)[2018-12-10]. https://arxiv.org/pdf/1409.0473v4.pdf.

[5] KALCHBRENNER N, BLUNSOM P. Recurrent continuous translation models[C]// Proceedings of the 2013 ACL Conference on Empirical Methods in Natural Language Processing (EMNLP). 2013:1700-1709.

[6] CHO K H, VAN MERRIENBOER B, BAHDANAU D, et al. On the properties of neural machine translation: Encoder-Decoder approaches[C]// Proceedings of the 8th Workshop on Syntax, Semantics and Structure in Statistical Translation. 2014:103-111.

[7] DYER C, KUNCORO A, BALLESTEROS M, et al. Recurrent neural network grammars[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016:199-209.

[8] CHUNG J Y, GULCEHRE Ç, CHO K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J/OL]. (2014-12-11)[2018-12-10]. https://arxiv.org/pdf/1412.3555.pdf.

[9] GULCEHRE Ç, FIRAT O, XU K, etal. On Using Monolingual Corpora in Neural Machine Translation[J/OL]. (2015-06-12)[2018-12-10]. https://arxiv.org/pdf/1503.03535.pdf.

[10] WU Y H, SCHUSTER M, CHEN Z F, et al. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J/OL]. (2016-09-26)[2018-12-10]. https://arxiv.org/pdf/1609.08144v1.pdf.

[11] PASCANU A, MIKOLOV T, BENGIO Y. On the Difficulty of Training Recurrent Neural Networks[J/OL]. (2013-02-16)[2018-12-10]. https://arxiv.org/pdf/1211.5063.pdf.

[12] HOCHREITER S, BENGIO Y, FRASCONI P, et al. Gradient flow in recurrent nets: The difficulty of learning long-term dependencies[M]// A Field Guide to Dynamical Recurrent Neural Networks. Wiley, 2001:237-243.

[13] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997,9(8):1735-1780.

[14] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. 2016:770-778.

[15] KIM Y, DENTON C, HOANG L, et al. Structured Attention Networks[J/OL]. (2017-02-16)[2018-12-10]. https://arxiv.org/pdf/1702.00887.pdf.

[16] LUONG M T, PHAM H, MANNING C D. Effective Approaches to Attention-based Neural Machine Translation[J/OL]. (2015-09-20)[2018-12-10]. https://arxiv.org/pdf/1508.04025.pdf.

[17] VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need[J/OL]. (2017-06-30)[2018-12-10]. https://arxiv.org/pdf/1706.03762v4.pdf.

[18] BRITZ D, GOLDIE A, LUONG M T, et al. Massive Exploration of Neural Machine Translation Architectures[J/OL]. (2017-03-21)[2018-12-10]. https://arxiv.org/pdf/1703.03906.pdf.

[19] CHO K H, VAN MERRIENBOER B, GULCEHRE Ç, et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J/OL]. (2014-09-03)[2018-12-10]. https://arxiv.org/pdf/1406.1078.pdf.

[20] KAISER L, BENGIO S. Can Active Memory Replace Attention?[J/OL]. (2016-10-27)[2018-12-10]. https://arxiv.org/pdf/1610.08613v1.pdf.

[21] BA J L, KIROS J R, HINTON G E. Layer Normalization[J/OL]. (2016-07-21)[2018-12-10]. https://arxiv.org/pdf/1607.06450.pdf.

[22] GEHRING J, AULI M, GRANGIER D, et al. Convolutional Sequence to Sequence Learning[J/OL]. (2017-05-12)[2018-12-10]. https://arxiv.org/pdf/1705.03122v2.pdf.

[23] PAPINENI K, ROUKOS S, WARD T, et al. BLEU: A method for automatic evaluation of machine translation[C]// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 2002,7:311-318.

Machine Translation System Based on Self -Attention Model

SHI Yan, WANG Yu, WU Shui-qing

(College of Computer and Information, Hohai University, Nanjing 211100, China)

Abstract : In recent years, neural machine translation (NMT) has developed rapidly. The proposed Seq2Seq framework brings great advantages to machine translation. It can generate arbitrary output sequences after observing the entire input sentence. However, this model still has great limitations on the ability to capture long-distance information. The proposed recurrent neural network (RNN) and LSTM network were all proposed to improve this problem, but the effect is not obvious. The presentation of the attention mechanism effectively compensates for this deficiency. The Self-Attention model is proposed on the basis of attention mechanism, and an encoder-decoder framework is built based on Self-Attention. This paper explores the previous neural network translation model. The mechanism and principle of the Self-Attention model are analyzed. The translation system is realized based on Self-Attention model by TensorFlow deep learning framework. In the English-to-Chinese translation experiment, compared with the previous neural network translation model, it shows that the model has a good translation effect.

Key words : neural machine translation; Seq2Seq; attention mechanism; Self-Attention model

文章编号: 1006-2475(2019)07-0009-06

收稿日期: 2019-01-11; 修回日期:2019-03-04

基金项目: 国家自然科学基金青年科学基金资助项目(61103017); 中国科学院感知中国先导专项子课题(XDA06040504)

作者简介: 师岩(1993-),男,河北巨鹿人,硕士研究生,研究方向:自然语言处理,E-mail: yansirsy@qq.com; 王宇(1979-),男,研究员,博士,研究方向:云计算技术,E-mail: won9805@hhu.edu.cn; 吴水清(1994-),女,硕士研究生,研究方向:目标检测与识别,E-mail: wsq30332@163.com。

中图分类号: TP391

文献标识码: A

doi: 10.3969/j.issn.1006-2475.2019.07.002

标签:;  ;  ;  ;  ;  

基于Self-Attention模型的机器翻译系统论文
下载Doc文档

猜你喜欢