关于Transformer中注意力的理解 - 代码天地

关于Transformer中注意力的理解

企业开发 2023-07-29 21:10:21 阅读次数: 0

在学习Transformer中的注意力时有了新的感悟，在这里记录一下，首先我们来看一下Transformer中注意力的计算流程。如下图所示。
加粗样式

上面的过程其实就是执行下面这个公式的计算过程。

在这里插入图片描述
那么到底该如何理解这个Q，K，V呢？
下面我们以购物为例，来理解下Q，K，V的含义，并将其迁移到目标检测中。
Q即检索条件，K则为特征属性，比如有的K主打价格便宜，有的K主打质量，有的K主打设计
V则是K所代表的特征属性的一个具体值。
我们在进行检索时，就要看检索条件与属性的相关性，而在矩阵这相关性的计算是通过点乘来实现的。
除以dk是使这个值小一些，计算起来方便些。
随后使用softmax进行一个归一化与属性比例，将相关性量化。（以上图为例，K1更符合我们预想描述，故其值就越大些）
接下来乘以V则是要看看不同K描述的属性具体值到底是多少，也就是计算出我们以后要对这组K,V要施加的注意力为多少。可以看到注意力要想变大是Q，K，V共同努力的结果。
对Q而言，要想让自己更快速的找到自己想要的，那么Q就需要不断让自己的检索条件更加明确。
而K，V指的就是一个属性特征，其为了被注意到（在一次epoch中，K，V通过Encoder构建的特征值不再变化，但放眼多次epoch，其也是有改变的），也会让自己逐步将自己的无关属性逐步消失，来让自己更具有辨别性。这样在下次购物时，由于注意力的存在，Q变为直接去找K，从而学得更多的特征描述，Q的描述也就越清楚，条件越严格。

拓展到目标检测领域，Q就是要找的物体，最开始Q1说自己要找马，K1说我这是马，K2说我这也是马，他们都有马的属性，K1可能由遮挡，导致只有马蹄特征，而K2有马蹄，有马尾，马头，那么计算相关性时Q1与k2的相关性便会大些，随后再看看具体值是多少，随着这样不断的学习，Q1负责找马，其对自己所要找寻的马的特征也就越来越明显，在DETR中，要训练的便是这个Q，那么Q1便会以后负责去找马，其余的也就如法炮制。

猜你喜欢

转载自blog.csdn.net/pengxiang1998/article/details/129893837

关于Transformer中注意力的理解

注意力机制----transformer中注意力机制

学习笔记-Transformer中注意力机制

简单理解Transformer注意力机制

注意力&Transformer

集中注意力

快速理解图像处理中注意力机制的应用

深度学习中注意力机制的理解-Attention mechanism

Transformer——注意力机制

翻译深度学习中注意力如何工作：理解序列模型中的注意力原理

NLP中注意力机制综述

关于注意力

【Transformer 相关理论深入理解】注意力机制、自注意力机制、多头注意力机制、位置编码

注意力的厉害模型transformer学习

自注意力机制和transformer

深入理解BERT Transformer ，不仅仅是注意力机制

【原创】理解ChatGPT之注意力机制和Transformer入门

神经网络中注意力机制概述

培养集中注意力的学习方法

自然语言处理中注意力机制综述

学习Transformer：自注意力与多头自注意力的原理及实现

深度学习——机器翻译、注意力机制、transformer

注意力机制----Multi-Head Attention 和 transformer

结合可变形注意力的视觉Transformer

从零开始快速入门Transformer注意力机制

Transformer多头注意力机制实现数字预测（pytorch）

Transformer自注意力机制发展历程(原理)

BiFormer:基于双层路由注意力的视觉Transformer

人工智能课程笔记：注意力机制 Transformer

图解transformer中的自注意力机制

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)