attention 简介

简介

在序列编解码中

  1. RNN无法很好地学习到全局的结构信息,因为它本质是一个马尔科夫决策过程。
  2. CNN的方案也是很自然的,窗口式遍历,比如尺寸为3的卷积
  3. google 提出 attention
    在这里插入图片描述

attention 过程:
在这里插入图片描述

Reference:
1.nlp中的Attention注意力机制+Transformer详解
2.《Attention is All You Need》浅读
3.(线性Attention的探索:Attention必须有个Softmax吗?)[https://kexue.fm/archives/7546]

猜你喜欢

转载自blog.csdn.net/kingiscoming/article/details/113668202