理解Attention机制原理及模型 - 代码天地

理解Attention机制原理及模型

其他 2018-10-31 22:11:09 阅读次数: 0

写在前面

目前采用编码器-解码器 (Encode-Decode) 结构的模型非常热门，是因为它在许多领域较其他的传统模型方法都取得了更好的结果。这种结构的模型通常将输入序列编码成一个固定长度的向量表示，对于长度较短的输入序列而言，该模型能够学习出对应合理的向量表示。然而，这种模型存在的问题在于：当输入序列非常长时，模型难以学到合理的向量表示。这个问题限制了模型的性能，尤其当输入序列比较长时，模型的性能会变得很差。解决方法是将encoder的历史状态视作随机读取内存，这样不仅增加了源语言的维度，而且增加了记忆的持续时间（LSTM只是短时记忆）。

Attention机制

Attention机制的基本思想是，打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。

Attention机制的实现是通过保留LSTM编码器对输入序列的中间输出结果，然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。

更为通俗的一种解释是，attention机制就是将encoder的么一个隐藏状态设定一个权重，根据权重的不同决定decoder输出更侧重于哪一个编码状态。

下面直接上图来看看attention机制的流程。

约定encoder hidden states：h1,h2,...,hn；第t时刻decoder hidden state：St；

由encoder hidden states和decoder hidden state 计算每个encoder状态对应的attention score Et

2.

扫描二维码关注公众号，回复： 3844980 查看本文章

2.将Et softmax化后得到attention分布

3.将attention分布与encoder hidden state 相乘后相加得到attention vector

4.将attention vector与decoder hidden state 作为输入计算得出输出

参考资料

Attention and memory in deep learning and NLP

Attention Mechanism

Survey on Attention-based Models Applied in NLP

What is exactly the attention mechanism introduced to RNN?

What is Attention Mechanism in Neural Networks?

猜你喜欢

转载自blog.csdn.net/Kaiyuan_sjtu/article/details/81806123

理解Attention机制原理及模型

浅谈 Attention 机制的理解

理解Attention机制

Attention机制论文（Convolutional Block Attention Module）理解

MultiHead-Attention和Masked-Attention的机制和原理

浅谈NLP中Attention机制的理解

Attention（注意力机制）的简单理解

Attention机制理解（参考代码和理论）

Attention注意力机制–原理与应用

Attention注意力机制--原理与应用

attention机制

attention 机制

【计算机视觉】深入理解Attention机制

关于Attention机制的一些简单理解

深入理解推荐系统：推荐系统中的attention机制

简单理解反向注意力(Reverse Attention)机制

深度学习中注意力机制的理解-Attention mechanism

Attention模型

多模态条件机制 Cross Attention 原理及实现

自己动手写 chatgpt: Attention 机制的原理与实现

深度学习中的注意力机制模型及代码实现(SE Attention、CBAM Attention)

Attention原理

Hierarchical Attention Networks for Document Classification 模型理解篇

机器阅读理解（看各类QA模型与花式Attention）

注意力模型（Attention Model）理解和实现

注意力模型直观理解（Attention Model Intuition）

Attention机制（Bahdanau attention & Luong Attention）

Scroller机制原理解析

简单理解Binder机制的原理

对于反射机制原理的理解

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)