CAE详解

参考文章:北大博士生提出CAE,下游任务泛化能力优于何恺明MAE_湃客_澎湃新闻-The Paper

MAE是基于可见patch的隐藏表示以及可见patch进行重建,CAE是基于可见patch的隐藏表示,引入latent context regressor(隐式上下文回归器)预测出mask patch的隐藏表示,再进行解码重建。

CAE将“表征学习”和“前置/代理任务”进行分离,要求encoder更好的进行表征学习,decoder更好的进行pretext task。


网络

1)encoder采用ViT,可见的patch经过encoder得到隐藏表示Zv

2)latent context regressor,基于可见patch的隐藏表示 + mask query,回归得到 mask patch的隐藏表示Zm

3)decoder,基于mask patch的隐藏表示,解码得到mask patch的一些目标性质,比如RGB像素。

4)alignment,为了约束regressor输出的Zm与encoder的输出在一个空间保证其输出具有高质量表达,将mask patch也经过encoder得到Zm~,将Zm与Zm~进行alignment。

(1)将所有patch都经过编码器得到隐藏表示后,直接送入到decoder进行RGB重建,发现CAE能很好的重建图像,因此可以说明,regressor输出的隐藏表示encoder的隐藏表示 是同一隐藏空间。

(2)没有alignment的话,regressor输出的隐藏表示在解码后无法重建,因此说明没有align的话regressor的输出与encoder的输出不在同一个编码空间;

​ 

loss

1)对decoder输出的loss使用的是CEloss

2)对Alignment输出的表示进行监督,使用的是MAE loss

结论

 进一步验证了MIM(mask image model)方法,要比对比学习(MOCO等)更适合下游任务。

且随机裁剪很大概率都会包括图像中心,而imganet数据集大多都是目标在中心,因此对比学习方法主要学习的还是主体的特征。而MIM通过随机的mask patch,能使得模型能考虑到图像中所有patch。

猜你喜欢

转载自blog.csdn.net/sinat_34201763/article/details/124861500