【ICLR 2025】谷歌提出离散扩散模型精确编辑方法

Diffusion Models专栏文章汇总:入门与实战

前言:离散扩散模型在图像生成和掩码语言建模等任务中取得了成功,但在可控内容编辑方面面临局限性,当前方法无法实现对离散数据的灵活编辑和准确重构。最近谷歌提出离散扩散模型的在精确内容控制方面的研究,值得做内容编辑生成方向的读者们关注。 

目录

贡献概述

方法详解

论文


贡献概述

离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。提出了DICE(可控编辑的离散反演),这是首个针对离散扩散模型(包括多项扩散和mask生成模型)的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式,实现了无需预定义mask或注意力操作的精确重构和灵活编辑。DICE 方法利用了在反向扩散过程中记录的噪声序列和mask模式,应用于离散数据的精确反演和可控编辑。其评估对象包括VQ-Diffusion、Paella和RoBERTa等模型,跨越图像和文本领域。DICE 保留了较高的数据保真度,并增强了离散空间中细粒度的内容编辑能力,展示了在图像和文本领域的有效性,提供了新的内容操控机会。

方法详解

基于非ODE的反演:基于ODE的生成模型,例如DDIM和流匹配,定义了一个ODE轨迹。由于ODE的确定性特性,可以通过使用欧拉法在正向方向上求解ODE来实现反演,确保根据ODE的固有性质进行重构。相比之下,另一类研究关注基于SDE的模型,如CycleDiffusion和DDPM Inversion。广义上讲,这些方法通过记录噪声或残差来确保重构,这些噪声或残差是重现随机轨迹所需的。CycleDiffusion 在从后验进行采样时记录高斯噪声,并通过输入真实的来注入信号信息。另一方面,DDPM Inversion通过将反演过程拟合到由独立的采样得到的人工随机轨迹中,将信息引入。对于CycleDiffusion和DDPM Inversion,两者的关键思想是利用高斯重参数化技巧,,并跟踪“噪声”,这些噪声可能是从均值生成样本的来源。对于离散扩散模型,我们使用Gumbel-Max技巧,。下图2提供了所提方法的直观解释。

多项扩散的反演:类似于Huberman-Spiegelglas et al.,首先通过从进行独立的采样,得到一个随机轨迹序列 (沿着的维度填充以下采样操作)。

反演mask生成模型:在mask生成建模中,随机轨迹是根据所使用模型的特定推理算法构建的。例如,在Paella中,mask是包含性的,这意味着随着时间步的增加,被掩盖的tokens集合会增加。相比之下,Unleashing Transformer在每一步采用随机mask,其中mask是通过采样函数独立生成的。为简便起见,定义一个去噪函数(由参数化)。该去噪函数根据噪声token 输出预测的未掩盖数据的logits。由于在这种情况下,分类采样发生在对去噪器预测的采样中,因此我们定义一个相应的潜在序列。

通过潜在空间,保证了准确的重构。然而,对于编辑任务而言,如果潜在变量主导了生成过程,这种精确度可能并不理想。详细算法见下算法1。

为了提供更多灵活性,引入超参数、和,它们允许对编辑过程进行更精细的控制。具体来说,表示编辑过程开始时(也是最大)时间步,控制从原始输入中注入的信息量,而则管理随机噪声的引入。

分析:描述一个简单但典型的DDPM示例,并计算编码潜变量与输入信号之间的互信息。

论文

DISCRETE INVERSION ENABLING CONTROLLABLE EDITING FOR MULTINOMIAL DIFFUSION AND MASKED GENERATIVE MODELS

https://arxiv.org/pdf/2410.08207

猜你喜欢

转载自blog.csdn.net/qq_41895747/article/details/143478432