transformer零基础学习

声明:以下文章链接仅用于个人学习与备忘。

基础知识

1:零基础解析教程 [推荐]
https://zhuanlan.zhihu.com/p/609271490

2:Transformer 详解 [推荐]
https://wmathor.com/index.php/archives/1438/

3:如何从浅入深理解transformer?
https://www.zhihu.com/question/471328838/answer/3011638037

4:Transformer模型详解(图解最完整版)[推荐]

Transformer模型详解(图解最完整版) - 知乎

5:万字长文解读Transformer模型和Attention机制 [推荐]

 【经典精读】万字长文解读Transformer模型和Attention机制 - 知乎

疑惑解析

1:transformer decoder里的K和V为什么要用encoder输出的K和V?

https://www.zhihu.com/question/458687952

2: Teacher Forcing  、 Autoregressive、Exposure Bias 解释

关于Teacher Forcing 和Exposure Bias的碎碎念 - 知乎

3: decoder部分训练是怎么并行化的?

浅析Transformer训练时并行问题 - 知乎

浅析Transformer训练时并行问题_transformer并行化体现在哪里_思考实践的博客-CSDN博客

 Transformer decoder中masked attention的理解_寺里LZS的博客-CSDN博客

 4:在测试或者预测时,Transformer里decoder为什么还需要seq mask?

在测试或者预测时,Transformer里decoder为什么还需要seq mask? - 知乎

深入理解transformer源码_赵队的博客-CSDN博客

猜你喜欢

转载自blog.csdn.net/lilai619/article/details/131410327