《Diffusion Models as Masked Autoencoders》ICCV2023

企业开发 2024-11-02 00:14:29 阅读次数: 0

摘要

文章探讨了生成模型在视觉数据预训练中的潜力，并提出了一种新的方法，将去噪扩散模型（denoising diffusion models）作为掩码自编码器（masked autoencoders）来使用，称为DiffMAE。这种方法不仅能够作为下游识别任务的强大初始化，还能进行高质量的图像修复，并且可以轻松扩展到视频领域，实现最先进的分类准确率。此外，文章还对设计选择的优缺点进行了全面研究，并建立了扩散模型与掩码自编码器之间的联系。

概述

拟解决的问题： 论文旨在解决的问题是如何有效地利用生成预训练来提升视觉数据的理解，并在下游识别任务中与其他自监督算法竞争。尽管生成模型理论上能够通过近似数据分布来创建新样本，但如何将这种能力转化为对原始视觉数据的语义理解，是一个开放性问题。

创新之处：

提出了DiffMAE框架，将扩散模型与掩码输入相结合，形成一种新的条件生成目标。
证明了DiffMAE在下游识别任务中的有效性，并且在图像修复任务中生成了更高质量的样本。
揭示了MAE和扩散模型之间的联系，即MAE可以看作是扩散模型的第一步推断。
对于视频领域，DiffMAE能够提供高质量的修复并实现最先进的识别准确率。

方法

条件扩散模型： 将输入图像分为掩码区域和可见区域，模型学习在不同噪声水平下对掩码区域进行去噪。
架构设计： 使用视觉变换器（ViT）作为编码器和解码器的架构，不增加额外的训练成本。
采样： 在推理过程中，从高斯噪声迭代展开到采样输出。
与CLIP特征的结合： 通过预测CLIP特征和像素，增强了模型的语义理解能力。

编码器。编码器采用标准的 ViT。具体来说，首先将训练图像划分为不重叠的小块，其中选取大部分为可见小块 $x_{0}^{v}$ ，其他为掩模 $x_{0}^{m}$ 。ViT 编码器 $E_{\phi }\left ( \cdot \right )$ 只对可见补丁进行操作，并将这些补丁中的每一个编码到潜在空间中。然后将编码的 $E_{\phi }\left ( x_{0}^{v} \right )$ 作为解码器执行的生成任务的条件，提供掩码对象的提示。在预训练阶段之后，只有编码器被微调到下游任务。

解码器。解码器以噪声掩码补丁 $x_{t}^{m}$ 作为输入。这些补丁的噪声水平，用时间步 t 表示，是训练期间 [1, T ] 中均匀采样的整数。与 ViT 一样，我们首先使用线性层将这些嘈杂的补丁投影到噪声标记中。时间步 t 可以通过将正弦嵌入添加到噪声标记以及位置嵌入来指定。然而，我们的实验表明，添加 t 嵌入或其缺乏对下游识别和修复生成都没有太大差异，这表明解码器可以在以干净的补丁为条件时自动确定噪声补丁的水平 t。

探索了三种不同的解码器配置，它们在注意力模块如何应用于可见潜在和噪声标记方面有所不同：

联合解码器将 Transformer 块应用于最后一个编码器块和噪声标记的可见潜在序列的连接序列。每个 Transformer 块对可见潜在和噪声标记一视同仁，具有自注意力层，然后是 MLP。
Cross-self 解码器类似于原始 Transformer 中的编码器-解码器设计。在每个解码器块中，噪声标记首先关注具有交叉注意力层的可见潜在值，然后使用自注意力层关注彼此的噪声标记。交叉注意使解码器能够关注不同编码器块的可见潜在，而不是像联合解码器中那样仅关注最终块。这样，编码器和解码器可以U 形方式连接，这通常有利于图像生成和密集预测，例如 U-Net。
交叉解码器类似于交叉自注意力解码器，但不包括噪声标记之间的自注意力。换句话说，每个噪声标记以自上而下的方式独立地关注来自编码器的可见潜在，不知道其他噪声标记的存在。使用更小的注意力图，交叉解码器是三个中最有效的。具体来说，使用交叉解码器的训练总体上比联合解码器高约 15%，使用 ViT-L 编码器和宽度为 512 的八块解码器。

抽样。对于推理，编码器 $E_{\phi }\left ( x_{0}^{v} \right )$ 仅转发可见补丁一次，而解码器在DDPM之后迭代从高斯噪声展开到采样图像 T 次。随着迭代展开的进展，预测逐渐变得不那么模糊，并且对象（例如猴子的嘴）和高频细节（例如，狐的毛）的小规模结构都出现在生成的图像中。经过 T 次迭代，我们在 t = 0 时获得高质量的样本。

CLIP目标。为了与使用 CLIP 的最新先前工作进行比较，我们还探索了通过简单地使用第二个解码器来预测 CLIP 特征与原始像素预测任务的版本。通过最小化与掩码补丁的CLIP特征的余弦距离来优化预测，类似于MaskFeat[87]和MILAN。预测CLIP特征不仅增强了识别能力，而且提高了修复生成质量。