ECCV 2022 | 上交&华为提出SdAE:自蒸馏掩码自编码器

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者:鹦鹉丛中笑 |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/485061820

c5820ab3ea7b487f72fd593888d4ab04.jpeg SdAE: Self-distillated Masked Autoencoder
论文:https://arxiv.org/abs/2208.00449

代码:https://github.com/AbrahamYabo/SdAE

1. 论文动机

介绍了BEIT和PECO的弊端,是需要一个预先训练好的dVAE来提供最后的预测目标。这种tokenizer需要pretrain。

介绍了MAE和splitmask的弊端,就是重建目标和语义理解可能有较大的鸿沟。

文章基于这两个点提出了改进:

a.引入根据EMA更新权重的教师模型,来产生预测目标。

b.其次是通过分析学生分支和教师分支之间的information bottleneck,从而提出一个新的重建的策略。

2. 具体做法

2-1.整体结构

5a20350c8dd95496278ea5a7d67c65ff.jpeg
模型结构图

相比于还原像素等low-level的特征,论文采用了教师分支输出特征的方法。并且对教师分支的特征进行Patch内部的归一化。

这部分预测目标的修改,在最近的工作其实比较多,不展开。

2-2. 教师模型的输入

文章通过分析学生分支和教师分支的输入之间的互信息,得出了三个结论。

a. 学生分支和教师分支的输入要尽量减少共享的信息,即输入的token避免重叠。

b. 学生分支和教师分支的输入的互信息量应该相等,因此文章设计了新的策略使得两个分支输入的patch数量接近。

c. 为了保留更多信息,要利用上更多的被遮掩的图像块。

793d51091abc0ee384f28b1127295a64.jpeg
教师模型输入的策略

因此文章提出了新的策略——先将被遮掩的块进行分组,保证每一组的图像块的数量和学生分支输入的数量接近,然后每一组图像块分别通过共享的教师分支的模型,得到相应的特征,作为被预测的对象。

这种新的策略相比于全图输入和被遮掩的块一次性输入,计算速度能有些许提升。

e65a6bc97b3814e241d04e589d4dd40b.jpeg

3. 实验结果

3-1.分类下游任务

0451001b766abb70d29d276d75c9f258.jpeg

finetune效果可以,在较少的epoch能有领先。但是线性的结果比较一般。

这里MAE应该是low-level feature的重建,任务目标跟SDAE(用了EMA更新的teacher)不一致。

3-2. 消融实验

afa1a8e250d09165b75eeb5b025ce299.jpeg
对教师分支输入的消融实验

从全图输入到只输入被遮掩的块,有0.5的掉点。

再加入新的策略,能够提升0.6%。

a287b15d12a4057f3f9f1c1c2b3ef030.jpeg
教师更新策略的消融实验

每一个epoch更新一次教师分支的权重效果更好。

da7c4469013c95a1be5b38575a1499a2.jpeg
教师分支输入策略的参数的消融实验

teacher mask:用过多的被遮掩的块,整体会有提升趋势。

multi-fold mask(文章最后的方案):教师分支和学生分支输入接近时,下游准确率更高。

3-3. 附录的实验

18c1d97eb0acd8c8786f677119ac90ec.jpeg
训练轮次的实验

随着训练轮次的提升,分类任务上没有什么提升。可能代表了这个方式训练的高效性。此外作者在这里也说可能达到了这个backbone在分类任务的瓶颈。

4. 结论

这个教师分支的输入的分析还是比较有意思的。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

 
  

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/126296108