免费云端Stable Diffusion部署体验

体验攻略地址：免费云端Stable Diffusion部署体验 - Clark (dongyao.ren)

什么是 Stable Diffusion？

2022 年发布的稳定扩散（Stable Diffusion[1]）是一个文本到图像生成的深度学习模型。它主要用于根据文本的描述产生详细图像，尽管它也可以应用于其他任务，如内补绘制、外补绘制，以及基于文本提示（英文）生成图像到图像的转换。该模型是由初创公司 Stability AI[2] 与一些学术研究机构和非营利组织合作开发的。

Stable Diffusion 是一种潜在扩散模型，它的开发由初创公司 Stability AI 资助和塑造，模型的技术许可证由慕尼黑大学的 CompVis 小组发布。开发工作由 Runway[3] 的 Patrick Esser 和 CompVis[4] 的 Robin Rombach 领导，他们是早期发明稳定扩散使用的潜在扩散模型架构的研究人员之一。Stability AI 还将 EleutherAI[5] 和 LAION[6]（一家德国非营利组织，他们组织了 Stable Diffusion 训练的数据集）列为该项目的支持者。

Stable Diffusion 的代码和模型权重已开源，并且可以在大多数消费级硬件上运行，配备至少 8 GB VRAM（Video random-access memory[7]）的适度 GPU。而以前的专有文生图模型（如 DALL-E[8] 和 Midjourney[9]）只能通过云服务访问。

Stable diffusion的原理可以分为以下几个步骤：

1. stable diffusion使用一个新颖的文本编码器（OpenCLIP），由LAION开发并得到Stability AI的支持，将文本输入转换为一个向量表示。这个向量表示可以捕捉文本的语义信息，并与图像空间对齐。

2. stable diffusion使用一个扩散模型（Diffusion Model），将一个随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型，可以从训练数据中学习出一个概率分布，并从中采样出新的数据。

3. 在扩散过程中，stable diffusion利用文本向量和噪声图像作为条件输入，给出每一步变换的概率分布。这样，stable diffusion可以根据文本指导噪声图像向目标图像收敛，并保持图像的清晰度和连贯性。

4. 最后，stable diffusion使用一个超分辨率放大器（Upscaler Diffusion Model），将生成的低分辨率图像放大到更高的分辨率。超分辨率放大器也是一个扩散模型，可以从低分辨率图像中恢复出细节信息，并增强图像质量。

通过以上步骤，stable diffusion可以实现从文本到图像的生成，并且具有以下优点：

- stable diffusion可以处理任意领域和主题的文本输入，并生成与之相符合的多样化和富有创意的图像。

- stable diffusion可以生成高达2048x2048或更高的分辨率的图像，并且保持了良好的视觉效果和真实感。

- stable diffusion还可以进行深度引导（Depth-guided）和结构保留（Structure-preserving）的图像转换和合成。例如，它可以根据输入图片推断出深度信息，并利用深度信息和文本条件生成新图片。

免费云端Stable Diffusion部署体验

猜你喜欢