Transformer原理及知识体系大纲
一、什么是Transformer?
-
提出者:Google在2017年发布的论文《Attention is All You Need》
-
本质:一个用于处理序列数据的深度学习模型架构,抛弃了传统RNN和CNN,完全基于Self-Attention机制。
二、应用场景:从“预测下一个词”到理解整段文本
-
任务举例:
-
输入:“我今天吃了一个苹果”,预测下一个词。
-
翻译任务:输入英文,输出中文。
-
问答任务:输入问题,输出答案。
-
三、整体架构图解(可以配图说明)
-
分为三大部分:
-
输入模块:Tokenization、词嵌入(Embedding)+位置编码(Positional Encoding)
-
编码模块(Encoder Stack)
-
解码模块(Decoder Stack)
-