Transformer动画讲解 - 单头注意力和多头注意力 - 代码天地

Transformer动画讲解 - 单头注意力和多头注意力

企业开发 2024-11-01 20:17:58 阅读次数: 0

前言

Transformer的起源：Google Brain 翻译团队通过论文《Attention is all you need》提出了一种全新的简单网络架构——Transformer，它完全基于注意力机制，摒弃了循环和卷积操作。

在这里插入图片描述

正如论文标题所言“注意力机制是全部所需”，强调了注意力机制是Transformer架构的核心要素，就如同人的心脏一样，充当着发动机的作用。

那么单头注意力和多头注意力到底是什么？它们两者有哪些联系和区别？让我们一起跟着动画来解读吧。

在这里插入图片描述

单头注意力：通过生成查询、键和值向量，计算并归一化注意力分数，最终对值向量进行加权求和，从而得到输入序列中每个位置的加权表示。
在这里插入图片描述

单头注意力机制的工作流程如下：

生成查询、键和值：接收一个由嵌入向量组成的输入序列。使用三个不同的线性变换（或称为全连接层）将输入序列分别映射为查询（Q）、键（K）和值（V）向量。
计算注意力分数：计算查询向量与所有键向量之间的点积，得到注意力分数矩阵。这些分数反映了查询与序列中每个位置的相关性。
缩放注意力分数：为防止点积结果过大导致softmax进入饱和区，可以将注意力分数除以一个缩放因子（通常是键向量维度的平方根）。
归一化注意力分数：应用softmax函数对注意力分数矩阵进行归一化，得到注意力权重矩阵。归一化后的权重矩阵每行之和为1，表示序列中每个位置的注意力权重。
加权求和：使用归一化后的注意力权重对值向量进行加权求和。加权求和的结果是自注意力机制的输出，它包含了根据注意力权重对输入序列中所有位置信息的加权整合。

在这里插入图片描述

多头注意力：通过将输入的查询、键和值矩阵分割成多个头，并在每个头中独立计算注意力，再将这些头的输出拼接并线性变换，从而实现在不同表示子空间中同时捕获和整合多种交互信息，提升模型的表达能力。

多头注意力机制工作流程如下：

初始化参数：首先，初始化查询（Q）、键（K）、值（V）矩阵的权重以及多头注意力中的头数（h）。这些权重将用于后续的线性变换。
线性变换：对输入的查询、键和值矩阵进行线性变换，生成各自的变换矩阵。这些变换是通过将输入矩阵与相应的权重矩阵相乘来实现的。
分割：将线性变换后的查询、键和值矩阵沿着深度（通常是最后一个维度）分割成多个头（h个）。每个头都会得到自己独立的查询、键和值矩阵。
多头并行计算：在每个头中独立地执行注意力得分来计算加权求和。
拼接：将所有头的输出矩阵沿着深度维度拼接在一起，形成一个大的输出矩阵。
最终线性变换：对拼接后的输出矩阵进行线性变换，得到多头注意力的最终输出。这个线性变换通常包括一个可学习的权重矩阵和一个偏置项。
残差连接与层归一化：多头注意力模块通常会与残差连接和层归一化一起使用，以提高模型的训练稳定性和性能。

在这里插入图片描述

两者的联系和区别：两者在基本原理和目的上是相似的，但在注意力头的数量、信息捕捉与表达能力、计算复杂度与训练难度以及输出结果等方面存在显著的差异。
这些差异使得多头注意力在处理复杂任务时通常具有更好的性能。

两者的联系：

基本原理：两者都基于注意力机制，通过计算查询（Query）、键（Key）和值（Value）之间的相似度来确定输入的加权表示。
目的：都是为了让模型能够关注到输入序列中重要的信息，从而提高模型的性能。

两者的区别：

注意力头的数量：
- 单头注意力：只有一个注意力头，即只计算一次查询、键和值之间的相似度。
- 多头注意力：拥有多个独立的注意力头，每个头都会独立地计算查询、键和值之间的相似度。这允许模型同时关注输入序列的不同部分。
信息捕捉与表达能力：
- 单头注意力：只能关注一个方面，信息捕捉能力有限。
- 多头注意力：通过多个头的并行处理，能够捕捉到更多样化的特征，提高了模型的表达能力和泛化性能。这种机制使得多头注意力能够关注到句子更多层面的信息，例如罕见词、多义词、反义词等。
计算复杂度与训练难度：
- 单头注意力：计算复杂度相对较低，训练也较为简单。
- 多头注意力：虽然增加了计算复杂度，但通常可以通过并行计算来优化。同时，它也需要更多的训练数据和计算资源来优化模型。然而，这些额外的投入通常能够带来模型性能的显著提升。
输出结果：
- 单头注意力：直接输出一个加权表示。
- 多头注意力：每个头都会输出一个加权表示，然后将这些表示拼接在一起，并经过一个额外的线性变换，得到最终的输出。

最后

感谢你们的阅读和喜欢，我收藏了很多技术干货，可以共享给喜欢我文章的朋友们，如果你肯花时间沉下心去学习，它们一定能帮到你。

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

大模型知识脑图

为了成为更好的 AI大模型开发者，这里为大家提供了总的路线图。它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

猜你喜欢

转载自blog.csdn.net/Gaga246/article/details/143418702

Transformer动画讲解 - 单头注意力和多头注意力

注意力&Transformer

学习Transformer：自注意力与多头自注意力的原理及实现

Transformer多头注意力机制实现数字预测（pytorch）

自注意力机制和transformer

Transformer——注意力机制

注意力机制----transformer中注意力机制

【Transformer 相关理论深入理解】注意力机制、自注意力机制、多头注意力机制、位置编码

吸引注意力的动画

Transformer中的多头注意力机制-为什么需要多头？

Transformer、多头自注意力机制论文笔记：Attention is all you need

自然语言处理（十八）：Transformer多头自注意力机制

通过7个版本的attention的变形，搞懂transformer多头注意力机制

翻译: 详细图解Transformer多头自注意力机制 Attention Is All You Need

Transformer | 一文了解：缩放、批量、多头、掩码、交叉注意力机制（Attention）

注意力的厉害模型transformer学习

关于Transformer中注意力的理解

简单理解Transformer注意力机制

自注意力 self attention Transformer 多头注意力代码 Transformer 代码动手学深度学习v2

注意力机制----Multi-Head Attention 和 transformer

注意力机制讲解与代码解析

Transformer：注意力机制（attention）和自注意力机制（self-attention）的学习总结

【轴承RUL预测代码】基于TCN、TCN和多头注意力(TCN和Transformer的encoder结合)、Transformer模型的轴承RUL预测代码(精华)

深入理解深度学习——Transformer：解码器（Decoder）的多头注意力层（Multi-headAttention）

深度学习——机器翻译、注意力机制、transformer

学习笔记-Transformer中注意力机制

结合可变形注意力的视觉Transformer

Transformer自注意力机制发展历程(原理)

从零开始快速入门Transformer注意力机制

BiFormer:基于双层路由注意力的视觉Transformer

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

更多

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)