ECCV 2022 | 上交&华为提出SdAE：自蒸馏掩码自编码器

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：鹦鹉丛中笑 | 已授权转载（源：知乎）编辑：CVer

https://zhuanlan.zhihu.com/p/485061820

SdAE: Self-distillated Masked Autoencoder
论文：https://arxiv.org/abs/2208.00449

代码：https://github.com/AbrahamYabo/SdAE

1. 论文动机

介绍了BEIT和PECO的弊端，是需要一个预先训练好的dVAE来提供最后的预测目标。这种tokenizer需要pretrain。

介绍了MAE和splitmask的弊端，就是重建目标和语义理解可能有较大的鸿沟。

文章基于这两个点提出了改进：

a.引入根据EMA更新权重的教师模型，来产生预测目标。

b.其次是通过分析学生分支和教师分支之间的information bottleneck，从而提出一个新的重建的策略。

2. 具体做法

2-1.整体结构

模型结构图

相比于还原像素等low-level的特征，论文采用了教师分支输出特征的方法。并且对教师分支的特征进行Patch内部的归一化。

这部分预测目标的修改，在最近的工作其实比较多，不展开。

2-2. 教师模型的输入

文章通过分析学生分支和教师分支的输入之间的互信息，得出了三个结论。

a. 学生分支和教师分支的输入要尽量减少共享的信息，即输入的token避免重叠。

b. 学生分支和教师分支的输入的互信息量应该相等，因此文章设计了新的策略使得两个分支输入的patch数量接近。

c. 为了保留更多信息，要利用上更多的被遮掩的图像块。

教师模型输入的策略

因此文章提出了新的策略——先将被遮掩的块进行分组，保证每一组的图像块的数量和学生分支输入的数量接近，然后每一组图像块分别通过共享的教师分支的模型，得到相应的特征，作为被预测的对象。

这种新的策略相比于全图输入和被遮掩的块一次性输入，计算速度能有些许提升。

3. 实验结果

3-1.分类下游任务

finetune效果可以，在较少的epoch能有领先。但是线性的结果比较一般。

这里MAE应该是low-level feature的重建，任务目标跟SDAE（用了EMA更新的teacher）不一致。

3-2. 消融实验

对教师分支输入的消融实验

从全图输入到只输入被遮掩的块，有0.5的掉点。

再加入新的策略，能够提升0.6%。

教师更新策略的消融实验

每一个epoch更新一次教师分支的权重效果更好。

教师分支输入策略的参数的消融实验

teacher mask：用过多的被遮掩的块，整体会有提升趋势。

multi-fold mask(文章最后的方案)：教师分支和学生分支输入接近时，下游准确率更高。

3-3. 附录的实验

训练轮次的实验

随着训练轮次的提升，分类任务上没有什么提升。可能代表了这个方式训练的高效性。此外作者在这里也说可能达到了这个backbone在分类任务的瓶颈。

4. 结论

这个教师分支的输入的分析还是比较有意思的。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信: CVer6666，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看