课程三学习笔记:视觉问题中的注意力机制

课程三学习笔记:视觉问题中的注意力机制

1. Vision Transformer回顾

请添加图片描述
图像只有变为Seq2eq格式,才能输入到Transformer中去。因此,lmage ——Patch(Image Token)——Patch Embeddings
请添加图片描述
Embedding定义:从低维到高维的映射。

</

猜你喜欢

转载自blog.csdn.net/qq_37486501/article/details/121761481
今日推荐