[论文解析]Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation

在这里插入图片描述

论文链接: Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation
项目主页:https://pnp-diffusion.github.io/

Overview

论文试图解决什么问题?

给定单个现实世界的图像作为输入,该框架可以实现对原始内容的通用文本指导翻译。

提出了一种新的框架,将文本到图像合成应用到图像到图像的翻译领域——给定一个引导图像和一个目标文本提示作为输入,我们的方法利用预先训练好的文本到图像扩散模型的力量来生成一个符合目标文本的新图像,同时保留引导图像的语义布局。

这是否是一个新的问题?

不是一个新的问题,展示效果不错。

论文中提到的解决方案之关键是什么?

我们通过观察和经验证明,可以通过操纵模型中的空间特征及其self attention来实现对生成结构的细粒度控制。这是一种简单有效的方法,从制导图像中提取的特征直接注入到翻译图像的生成过程中,不需要训练或微调。、

取得了什么样的效果?

在通用的文本引导的图像翻译任务中展示了高质量的结果,包括将草图、草图和动画翻译为真实的图像,改变给定图像中物体的类别和外观,以及修改全局质量,如照明和颜色。

这篇论文到底有什么贡献?

  • 我们为扩散过程中形成的内部空间特征提供了新的经验见解。
  • 我们引入了一个有效的框架,利用预训练和固定引导扩散的力量,允许执行高质量的文本引导I2I翻译,而无需任何训练或微调。
  • 我们的方法优于现有的Sota baseline,在保留制导布局和偏离其外观之间实现了更好的平衡。

3. Preliminary

在这里插入图片描述
在这里插入图片描述
self-attention的输出:
在这里插入图片描述

4. Method

给定一个输入引导图像IG和一个目标提示符tp,我们的目标是生成一个新的图像I *,它符合P并保留了fig的结构和语义布局.

观察并经验证明:

  • (i)从中间解码器层提取的空间特征编码局部语义信息,且受外观信息的影响较小;
  • (ii)self-attention block 表示空间特征之间的亲和力,允许保留精细的布局和形状细节。

我们的方法既适用于文本生成的制导图像,也适用于现实世界的制导图像

空间特征

在这里插入图片描述

图3。可视化扩散特征。我们使用了20幅类人图像(真实的和生成的)的集合,并从不同的解码器层提取空间特征,大约在生成过程的50% (t = 540)。对于每个块,我们对所有图像的提取特征应用PCA,并可视化前三个主要成分。中间特征(第4层)揭示了在所有图像中共享的语义区域(例如,腿或躯干),在物体外观和图像域的很大变化下。更深的特征捕获更多的高频信息,这些信息最终形成模型预测的输出噪声。更多的可视化请参见SM。

如图4所示,这些属性在整个生成过程中是一致的。随着我们深入网络,特征逐渐捕获更多的高频低水平信息,最终形成网络预测的输出噪声。
在这里插入图片描述

图4。扩散特性超过生成时间步长。对类人图像进行l = 4层空间特征的可视化PCA(图3)。在每个时间步,语义部分在图像之间共享(具有相似的颜色)。

特征注入

图5(a)显示了增加层l注入空间特征的效果。可以看出,仅注入层l = 4处的特征对于保持引导图像的结构是不够的。
在这里插入图片描述

图5。消融特征和注意注射。(a)从引导图像(左)中提取的特征注入到翻译图像的生成过程中(由给定的文本提示引导)。虽然中间层(第4层)的特征表现出局部的语义信息(图3),但仅注入这些特征不足以保留指导结构。合并更深(和更高分辨率)的特征可以更好地保持结构,但会导致从引导图像到生成图像(4-11层)的外观泄漏。(b)仅在第4层注入特征和在更高分辨率层的自注意力图缓解了这个问题。(c ) 仅注入自注意力图限制了特征之间的亲和度,而指导特征和生成特征之间没有语义关联,导致结构失调。最终配置的结果以橙色高亮显示。

self-attention

图6显示了给定图像的矩阵Al t的前导主成分。可以看到,在早期的图层中,注意力与图像的语义布局对齐,根据语义部分对区域进行分组。逐渐地,更高频率的信息被捕获。
在这里插入图片描述

图6。Self-attention可视化。展示了为三个不同层的输入图像计算的自注意力矩阵的三个主要成分。主成分与图像的布局对齐:相似的区域共享相似的颜色。请注意,裤子的所有像素都具有相似的颜色,尽管它们在输入图像中的外观不同。

实际上,注入自注意力矩阵是通过替换等式2中的矩阵Al t来完成的。直观地说,该操作根据Al t中编码的亲和性将特征拉近。我们通过修改公式(3)来表示这种额外的操作,如下所示
在这里插入图片描述

算法归纳如下:
在这里插入图片描述

Negative-prompting

在无分类器制导[20]中,每个采样步的预测噪声为
在这里插入图片描述

epsilon 正向条件预测θ (xt, P, t)外推,并从无条件预测θ (xt,∅,t)外推。这增加了去噪图像对提示P的逼真度,同时允许偏离θ (xt,∅,t)。类似地,通过将Eq.(5)中的空提示替换为“负”提示Pn,我们可以推走来自θ(Xt,Pn,t)。例如,使用描述引导图像的PN,我们可以引导去噪图像远离原始内容。我们使用参数∈[0,1]来平衡中性提示和负面提示:
在这里插入图片描述

在实践中,我们发现负提示对处理无纹理的“原语”引导图像(例如,剪影图像)是有益的。对于看起来很自然的导航图像,它起着很小的作用。

5 Results

在这里插入图片描述

图7.我们的方法在Wild-TI2I和ImageNet-R-TI2I基准测试的图像-文本对上的示例结果。

在这里插入图片描述

图8。比较。分别显示了两个基准测试的示例结果:ImageNet-R-TI2I和Wild-TI2I,其中包括真实的和生成的制导图像。从左到右:引导图像和文本提示,我们的结果,P2P [16], DiffuseIT [25], SDedit[27]与3个不同的噪声级别,VQ+CLIP[9]。

在这里插入图片描述

图9。定量评价。测量了CLIP余弦相似度(越高越好)和DINO-ViT自相似距离(越低越好),以分别量化对文本的保真度和结构的保持。在三个基准上报告了这些指标:(a) Wild-TI2Ifor,其中包括对所提出方法的消融,(b) ImageNet-R-TI2I,和© Generated-ImageNet-R-TI2I。注意,由于(b)和©的提示限制,我们只能将其与P2P进行比较。所有基线都难以同时实现低结构距离和高剪辑分数。所提出方法在所有基准中在这两个端点之间表现出更好的平衡。

在这里插入图片描述

图10。在生成的ImageNet-R-TI2Ibenchmark上与P2P的比较。虽然P2P结果显示了对目标文本的高保真度,但与引导结构有明显的偏差,特别是在多个单词交换的情况下(最后两行)。在所有的例子中,我们的结果坚持目标编辑,同时保留引导场景布局和对象姿态。
在这里插入图片描述

图11。与其他基线的定性比较:Text2LIVE [4], DiffusionCLIP [22], FlexIT[8]。这些方法不能偏离结构以匹配目标提示符,或者创建不需要的工件。

6. Discussion and Conclusion

本文提出了一个新的框架,用于各种文本引导的图像到图像的翻译,建立在对预训练文本到图像扩散模型内部表示的新见解之上。所提出方法基于对特征的简单操作,优于现有的基线,在保留指导布局和偏离其外观之间实现了更好的平衡。至于局限性,该方法依赖于原始和翻译内容在扩散特征空间中的语义关联。因此,它在区域任意着色的详细标签分割掩码上效果不佳(图12)。此外,我们依赖于DDIM反演,我们发现它在大多数示例中都工作得很好。然而,对于无纹理的"最小"图像,DDIM有时可能会导致编码主要低频外观信息的潜值,在这种情况下,一些外观信息会泄露到我们的结果中。本文工作证明了预训练文本到图像扩散模型所跨越的丰富而强大的特征空间尚未实现的潜力。我们希望它能推动未来在这个方向上的研究。
在这里插入图片描述

图12。的局限性。当指导内容和目标文本之间没有语义关联时,我们的方法会失败。因此,它在任意颜色的实体分割掩模上表现不佳。

猜你喜欢

转载自blog.csdn.net/NGUever15/article/details/129872102