【stability.ai】SDXL:改进高分辨率图像合成的潜在扩散模型

github:https://github.com/Stability-AI/stablediffusion

试用:
https://clipdrop.co/stable-diffusion
https://dreamstudio.ai/

介绍

近年来,深度生成建模在自然语言、音频和视觉媒体等各个数据领域取得了巨大的突破。本文将重点关注视觉媒体领域,并揭示了SDXL(Stable Diffusion的极大改进版本)的出现。Stable Diffusion是一种潜在的文本到图像扩散模型(DM),为3D分类、可控图像编辑、图像个性化、合成数据增强、图形用户界面原型设计等一系列最新进展提供了基础。令人惊讶的是,这些应用的范围非常广泛,涵盖了音乐生成和从fMRI脑部扫描中重建图像等领域。

用户研究表明,SDXL在性能上始终明显优于之前的Stable Diffusion版本(见图1)。

本文将介绍导致性能提升的设计选择,包括:i)相比之前的Stable Diffusion模型,UNet主干网络扩大了3倍);ii)引入了两种简单而有效的附加条件技术,无需任何额外的监督;iii)引入了一个基于扩散的精化模型,通过对SDXL生成的潜在空间进行噪声去噪处理,从而提高样本的视觉质量。

视觉媒体创作领域的一个主要关注点是,虽然黑盒模型通常被认为是最先进的,但其架构的不透明性阻碍了对其性能的准确评估和验证。这种缺乏透明度阻碍了可重复性,抑制了创新,并阻止了社区在这些模型的基础上进一步推动科学和艺术的进展。此外,这些闭源策略使得评估这些模型的偏见和局限性变得具有客观和公正的方式变得困难,而这对于它们的负责任和道德部署至关重要。通过发布SDXL,我们提供了一个开放的模型,其在图像生成方面达到了与黑盒图像生成模型相竞争的性能(见图10和图11)。

图1:左图:比较用户对SDXL和Stable Diffusion 1.5&2.1的偏好。尽管SDXL已经明显优于Stable Diffusion 1.5&2.1,但添加额外的精化阶段可以提高性能。右图:两阶段流程的可视化:我们使用SDXL生成大小为128×128的初始潜在空间。然后,我们利用专门的高分辨率精化模型,并使用相同的提示在第一步生成的潜在空间上应用SDEdit 。SDXL和精化模型使用相同的自动编码器。

以上是对论文《SDXL:改进高分辨率图像合成的潜在扩散模型》的简要介绍。该论文主要介绍了SDXL模型的改进和应用,以及其在图像生成领域的重要性。下面将进一步解读SDXL的改进内容以及未来的研究方向。

改进 Stable Diffusion

在这一部分中,我们将深入探讨SDXL模型中对稳定扩散架构所做的改进。这些改进显著提升了模型的性能,并为其在高分辨率图像合成方面赋予了竞争优势。

  • Architecture & Scale(架构与规模)
    在这里插入图片描述
    从Ho等人和Song等人的开创性工作开始,稳定扩散模型一直是图像合成中强大的生成模型。最初的稳定扩散模型采用了卷积UNet架构,但随着模型的发展,架构也在不断演进。SDXL模型引入了一个三倍大的UNet骨干网络,其中包含更多的注意力模块和更大的交叉注意力上下文。这使得SDXL能够更好地捕捉图像中的细节和语义信息,提高了合成图像的质量和逼真度。

  • Micro-Conditioning(微调条件)
    SDXL模型引入了两种简单而有效的附加条件技术。首先,模型对图像尺寸进行了条件约束,以解决潜在扩散模型在处理小尺寸图像时的问题。通过这种微调条件,SDXL能够更好地处理小尺寸图像,并保留更多的细节信息。其次,SDXL还引入了文本编码器的条件约束,以进一步提高模型对文本输入的控制能力。这些微调条件技术无需额外的监督,但能够显著提升模型的性能。

  • Multi-Aspect Training(多方面训练)
    为了提高模型的泛化能力,SDXL模型采用了多方面的训练策略。模型在多个方面比如图像尺寸、图像风格等进行训练,使其能够适应不同的合成任务。通过这种多方面训练,SDXL能够生成更具多样性和适应性的图像样本。

  • Improved Autoencoder(改进的自编码器)

    SDXL模型还引入了改进的自编码器,用于提高样本的视觉质量。这个自编码器通过对SDXL生成的潜在空间进行噪声去噪处理,改善了样本的细节和背景质量。这一步骤是可选的,但对于生成具有复杂背景和人脸的图像样本的质量有所提升。

  • Putting Everything Together(整合一切)
    通过将上述改进整合在一起,SDXL模型在高分辨率图像合成方面取得了显著的性能提升。它能够更好地处理图像细节和语义信息,生成逼真且多样性的图像样本。通过使用大规模的UNet骨干网络、微调条件技术、多方面训练和改进的自编码器,SDXL模型能够在各种合成任务中表现出色。

总结起来,SDXL模型通过架构和规模的改进、微调条件技术的引入、多方面训练的策略、改进的自编码器以及整合所有改进的方法,显著提升了稳定扩散模型的性能。这些改进使得SDXL能够生成高分辨率、逼真且多样性的图像样本,使其在图像合成领域具有竞争优势。

未来工作

在这篇论文中,作者介绍了SDXL模型作为一种改进的潜在扩散模型,用于高分辨率图像合成。虽然SDXL模型在合成图像质量、生成样本的准确性和多样性方面取得了显著的改进,但仍然存在一些可以进一步改进的方面。在接下来的工作中,我们认为可以关注以下几个方面来进一步提升模型的性能:

  • 单阶段生成:目前,SDXL模型使用了一个两阶段的生成方法,其中包括一个额外的改进模型。这导致需要加载两个大型模型到内存中,限制了模型的可访问性和采样速度。未来的工作可以探索如何提供一个单阶段的生成方法,既能保持相同或更好的生成质量,又能减少模型加载的负担。

  • 模型可解释性:尽管SDXL模型在性能上取得了显著的提升,但黑盒模型的不透明性限制了对其性能的准确评估和验证。这种缺乏透明度不利于模型的可重现性和创新,并阻碍了学术和艺术领域的进一步发展。未来的工作可以致力于提高模型的可解释性,使其能够更好地被理解和评估,从而促进科学和艺术的进步。

  • 模型偏见和限制的评估:对于大规模模型的评估中,评估模型的偏见和限制是至关重要的。然而,由于黑盒模型的特性,评估其偏见和限制变得具有挑战性。未来的工作可以探索如何以公正客观的方式评估模型的偏见和限制,这对于模型的负责和道德化部署至关重要。

通过关注上述方面的研究和改进,我们可以进一步提升SDXL模型的性能,并推动高分辨率图像合成领域的发展。

猜你喜欢

转载自blog.csdn.net/u011239443/article/details/131609555