一、 基本思想
文章在NIC的基础上加入了attention机制
二、模型结构
对LSTM部分做出的改动,其余与NIC相同。
与原本的lstm公式相比 多了一个,就是attention应 用的结果。
首先 我们给不同位置的特征设置权重 权重的值和为1 这很自然就会想到使用softmax
在每个时刻t,我们都要设置不同位置的权重。在每个时刻,根据前一刻的状态确定当前的权重,权重不同,代表对不同位置的关注度不同。
其中,是一个多层感知器,也就是简单的全连接网络。得到权重以后,
这里的有两种 hard attention 和soft attention ,因为soft简单,只介绍soft。