课程四学习笔记: ViT模型全流程拆解

1. Multi-Head Self Attention:回顾

Encoder-MSA-Patch Embedding请添加图片描述
程序中定义了qkv,实际上是Linear层。
Linear的输入是:X1、X2…Xn,所有的Image Token(Patch Embedding)。维度是Number-of-patches,Channel数是Embed-dim。
Linear层的输入是Embed-dim,Weight是如图所示(All_head_dim:所有头的Embed-dim加起来,WQ、WK、WV)

猜你喜欢

转载自blog.csdn.net/qq_37486501/article/details/121761969
今日推荐