16.ViT模型介绍

Vision Transformer

关于ViT

Transformer201706月由谷歌团队在论文Attention Is All You Need中提出后,给自然语言处理领域带去了深远的影响,其并行化处理不定长序列的能力及自注意力机制表现亮眼。根据以往的惯例,一个新的机器学习方法往往先在NLP领域带来突破,然后逐渐被应用到计算机视觉领域。时间来到202010月,同样是谷歌团队提出了将Transformer应用到视觉任务的方法,Vision Transformer(ViT)

论文:AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

关于对Transformer的介绍可以参考Transformer 介绍

Transformer应用于视觉任务的一种想法是将图像每个像素都flatten,得到一个表示图像的序列,作为模型的输入。但对使用自注意力模块的transformer来说,这种方法随着图像分辨率的变大,计算复杂度也变得很高,因为scaled dot self attention计算时 Q K d k V \frac{QK}{\sqrt{d_k}}V dk QKV的复杂度是序列长度的平方。譬如对于640*640的图像,序列长度 L L L将达到409600,这远远超出当前transformer所能处理的序列长度。

ViT中,作者是将输入图像等分成大小为16X16patch,然后通过image embedding将输入从NCHW转换成(N, hidden_dim, (n_h * n_w)), n_hn_wH//patch_sizeW//patch_size的大小,flatten后得到长度为 L = n h ∗ n w L=n_h*n_w L

猜你喜欢

转载自blog.csdn.net/lx_ros/article/details/134149767
ViT