注意力机制论文笔记:Neural Machine Translation by Jointly Learning to Align and Translate

论文原文镇四方,大神护我科研顺利,顶会约稿~~

这是注意力机制落地到自然语言处理的一篇论文,好像是第一篇,没有考究。

论文中心思想:在传统的机器翻译模型(encoder-decoder)中的decoder中加入注意力机制,使得在解码时不再使用同一段中间向量,而是有针对地对译文中每一个词使用与原文相对的内容来生成的中间向量。

以下先解读论文内容(注重点为注意力机制),再从中抽象出注意力机制的中心思想,不再拘泥于机器翻译。

背景:神经机器翻译

从概率的角度看,翻译其实是基于条件x(原句子)找到最大概率的目标句子y。

argmax_yp(y|x)

后来,神经网络的兴起,编码器解码器模型的诞生,成为了一种新兴的方法,先通过将原句编码成一段定长的中间向量,再根据中间向量以及已有译文来进行进行译文生成。

RNN Encoder-Decoder

简单介绍一下传统模型,因为之后的注意力模型是基于这种模型进行改良的。

在Encoder-Decoder模型中,编码器把输入句子x(x1,x2,..,xTx),嵌入成c,最常见的方法就是使用RNN,例如:

h_t=f(x_t,h_{t-1})

c=q(\{h_1,...,h_{Tx}\})

其中h_t \in \mathbb{R}^n是时序 t 的隐藏状态,c是一个由隐藏状态生成的向量。f,q是一些非线性的函数,例如LSTM。

解码器通常训练基于上下文向量c和所有已经预测的词语{y1,...,yt'-1}来预测下一个词yt',如下式:

p(y)=\prod ^T _{t=1}p(y_t|\{y_1,..,y_{t-1}\},c)

其中y=(y_1,...,y_{t-1}),通过RNN,每一个条件概率建模为:

p(y_t|\{y_1,...,y_{t-1},c\})=g(y_{t-1},s_t,c)

其中g是一个潜在多层的非线性函数,输出是y_t的概率,st是RNN的隐藏状态。

值得一提的是,用其他结构也是可以的,不一定RNN。

学习对齐与翻译(注意力机制)

在这篇论文中,这群大佬提出了这么一个新模型,这个模型由双向的RNN作为编码器,以及一个在解码过程中模拟通过原句进行搜索的解码器(注意力的思想就是在这里得到体现)。

Decoder

在新模型中,他们把每个条件概率定义为:

p(y_i|y_1,...,y_{i-1},x)=g(y_{i-1},s_t,c_i)

其中,si是一个RNN在时序 i 的隐藏状态,由下式计算得:

s_i=f(s_{i-1},y_{i-1},c_i)

文中,大佬在写到这里时,敲了敲黑板,画了个重点(原文:It should be noted that.......,不是我胡说的,手动滑稽)。注意到在模型中,c不再是一样的,而是会变的。因为 hi 会更多地留意到输入里 i 时序附近的信息,由下式计算得:

c_i=\sum _{j=1} ^{T_x}\alpha _{ij}h_j     (注意力其实就是在这里得到体现,输入中的不同时序的信息得到了不同权重的关注)

其中,hj的每一个权重阿尔法ij等于:

\alpha _{ij} = \frac{exp(e_{ij})}{\sum _{k=1} ^{T_x}exp(e_{ik})}     

其中,

e_{ij}=a(s_{i-1},h_j)

这个eij其实就是一个位置 i 的译文与位置 j 的原文的一个对齐分数;阿尔法ij则反映了hj与译文si-1的一个重要程度。

Encoder

使用双向RNN编码,每个时序的隐藏状态为串联此时序的前向与后向的隐藏状态。如:前向的隐藏状态为fi,后向的隐藏状态为bi,那么,hj=[fi,bi]。

至此,文章的解读结束,因为后面都是一些实验结果和分析,看原文即可。以下介绍注意力机制的思想。

注意力机制

由文中的decoder中可以看见,他们计算了每一个输出与输入中对齐程度,然后按权重对信息求和,得到所关注的信息,这个就是注意力的体现之处。

总结起来,注意力机制其实就是四个字:加权求和。

通过一个函数计算出每个位序的分数,然后计算权重,再加权求和。

在很多注意力机制的使用中,就是通过一个非线性的多层感知机模型来得到分数,再按上面的式子求出阿尔法,加权求和得到c即可。

总结

注意力的提出,使得文本中不再是均匀地处理每一位的信息,而是有关注地使用信息,主要思想就是对提取到的特征进行加权,权值的计算一般通过神经网络,因为这样就可以通过反向传播来实现训练。

e_{ij}=a(s_{i-1},h_j)这条公式很关键,注意力就是从这里来的。

发布了54 篇原创文章 · 获赞 36 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/aaalswaaa1/article/details/103867354