【三维生成】DiffusionGS：基于GS的可扩展单阶段图像生成GS模型

在这里插入图片描述

标题：Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
来源：Johns Hopkins University, Adobe Research
链接：https://caiyuanhao1998.github.io/project/DiffusionGS/

文章目录

摘要
一、引言
二、相关工作
- 2.1 Image-to-3D 的生成扩散模型
- 2.2 Gaussian Splatting 高斯泼溅
三、方法
- 3.1 DiffusionGS
- 3.2 Scene-Object 混合训练策略
四、实验

摘要

现有的前向图像到三维的方法主要依赖于二维多视图扩散模型，不能保证三维的一致性。这些方法在更改提示视图方向时很容易崩溃，并且主要处理以对象为中心的提示图像。本文提出了一种新的单阶段三维扩散模型，DiffusionGS，用于从单一视图生成对象和场景，在每个时间步长直接输出三维高斯点云，以加强视图的一致性，并允许模型生成任何方向的提示性视图，而不是以对象为中心的输入。此外，为了提高扩散gs的能力和泛化能力，我们通过开发一种场景-对象混合训练策略来扩展三维训练数据。实验结果表明，与SOTA方法相比，该方法具有更好的生成质量（2.20 dB↑PSNR和23.25↓FID）和5×以上的速度（A100GPU上的∼6s）

一、引言

略

二、相关工作

2.1 Image-to-3D 的生成扩散模型

略

2.2 Gaussian Splatting 高斯泼溅

略

三、方法

图4为DiffusionGS的框架。4 (a)为场景-对象混合训练。对于每个场景或对象，选取一个视图作为条件，N个视图作为要去噪的噪声视图，以及M个新视图作为监督。然后在图4 (b)中，将干净的和有噪声的视图输入到DiffusionGS中，以预测每像素的三维高斯原语。

在这里插入图片描述

3.1 DiffusionGS

图像扩散模型的训练、测试原理如下：

在这里插入图片描述

类似地，二维多视图扩散[37,38,61,70]通过在多个视点上去噪图像或latent code 来产生新的视图。然而，这些二维扩散没有三维模型，因此当提示的视图方向改变时，存在视图错位并容易失败。我们通过将三维高斯分布烘焙成扩散去噪器来解决这些问题。

我们的目标是恢复干净的三维高斯点云。因此，去噪器直接预测像素对齐的三维高斯，并在干净的二维多视图渲染中进行监督。

如图4(b)，DiffusionGS在训练阶段的输入：一个条件视图 $x_{con}∈R^{H×W×3}$ 和 $N$ 个噪声视图 $X_t$ ={ $x_t^{(1)},x_t^{(2)},···,x_t^{(N)}$ )，与视点条件 $v_{con}∈R^{H×W×6}$ 和 $V$ ={( $v^{(1)},v^{(2)},···,v^{ (N)}$ }拼接在一起。噪声视图的干净对应项为 $X_0$ ={ $x_0^{(1)},x_0^{(2)},···,x_0^{(N)}$ )。前向扩散过程为每个视图添加噪声:
在这里插入图片描述

$ϵ \sim N (0, I)$ 。在每个时间步长t中，去噪器 $θ$ 预测三维高斯 $G_θ$ ，以增强视图一致性。由于原始三维高斯函数的数量不是一个常数，我们采用像素对齐的三维高斯函数作为输出，其数量是固定的。预测的三维高斯 $G_θ$ 表示为:

在这里插入图片描述
其中，

文章目录

摘要

一、引言

二、相关工作

2.1 Image-to-3D 的生成扩散模型

2.2 Gaussian Splatting 高斯泼溅

三、方法

3.1 DiffusionGS

猜你喜欢

目录

热门文章