inductive bias

归纳偏置:
一种先验知识/提前做好的假设
CNN:有两个归纳偏置

  1. locality,因为cnn是以滑动窗口这种形式,一点一点在图片上进行卷积的,所以他假设在图片上相邻的区域会有相邻的特征

  2. translation equivariance平移同变性
    即f(g(x)) = g(f(x)),可以把f理解成卷积,g理解成平移。因为CNN里面的卷积核就像一个模板一样,像一个templete一样,无论这个模板移动到哪里,那只要是同样的输入进来,遇到了同样的卷积核,那它的输出永远是一样的。
    一旦CNN有了这两个归纳偏置,那就有了很多先验信息,所以他就需要相对少的数据去学一个比较好的模型,但对于transformer来说他没有这些先验信息,所以他对视觉的感知就需要自己去数据里面学

所以CNN的缺点就是:当训练集数据比较少时,泛化性差

因为VIT中没有涉及到解码,所以它不会出现在生成Q的时候它是来自于解码, KV来自编码器的情况

猜你喜欢

转载自blog.csdn.net/weixin_43845922/article/details/130923876