Transformer原理及知识体系大纲

Transformer原理及知识体系大纲

一、什么是Transformer?

  • 提出者:Google在2017年发布的论文《Attention is All You Need》

  • 本质:一个用于处理序列数据的深度学习模型架构,抛弃了传统RNN和CNN,完全基于Self-Attention机制。


二、应用场景:从“预测下一个词”到理解整段文本

  • 任务举例:

    • 输入:“我今天吃了一个苹果”,预测下一个词。

    • 翻译任务:输入英文,输出中文。

    • 问答任务:输入问题,输出答案。


三、整体架构图解(可以配图说明)

  • 分为三大部分:

    • 输入模块:Tokenization、词嵌入(Embedding)+位置编码(Positional Encoding)

    • 编码模块(Encoder Stack)

    • 解码模块(Decoder Stack)

猜你喜欢

转载自blog.csdn.net/leread/article/details/147032691
今日推荐