【三维生成】DiffusionGS:基于GS的可扩展单阶段图像生成GS模型

在这里插入图片描述


标题:Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
来源:Johns Hopkins University, Adobe Research
链接:https://caiyuanhao1998.github.io/project/DiffusionGS/


摘要

  现有的前向图像到三维的方法主要依赖于二维多视图扩散模型,不能保证三维的一致性。这些方法在更改提示视图方向时很容易崩溃,并且主要处理以对象为中心的提示图像。本文提出了一种新的单阶段三维扩散模型,DiffusionGS,用于从单一视图生成对象和场景,在每个时间步长直接输出三维高斯点云,以加强视图的一致性,并允许模型生成任何方向的提示性视图,而不是以对象为中心的输入。此外,为了提高扩散gs的能力和泛化能力,我们通过开发一种场景-对象混合训练策略来扩展三维训练数据。实验结果表明,与SOTA方法相比,该方法具有更好的生成质量(2.20 dB↑PSNR和23.25↓FID)和5×以上的速度(A100GPU上的∼6s)


一、引言

  略

二、相关工作

2.1 Image-to-3D 的生成扩散模型

  略

2.2 Gaussian Splatting 高斯泼溅

  略

三、方法

  图4为DiffusionGS的框架。4 (a)为场景-对象混合训练。对于每个场景或对象,选取一个视图作为条件,N个视图作为要去噪的噪声视图,以及M个新视图作为监督。然后在图4 (b)中,将干净的和有噪声的视图输入到DiffusionGS中,以预测每像素的三维高斯原语。

在这里插入图片描述

3.1 DiffusionGS

  图像扩散模型的训练、测试原理如下:

在这里插入图片描述

  类似地,二维多视图扩散[37,38,61,70]通过在多个视点上去噪图像或latent code 来产生新的视图。然而,这些二维扩散没有三维模型,因此当提示的视图方向改变时,存在视图错位并容易失败。我们通过将三维高斯分布烘焙成扩散去噪器来解决这些问题

  我们的目标是恢复干净的三维高斯点云。因此,去噪器直接预测像素对齐的三维高斯,并在干净的二维多视图渲染中进行监督。

  如图4(b),DiffusionGS在训练阶段的输入:一个条件视图 x c o n ∈ R H × W × 3 x_{con}∈R^{H×W×3} xconRH×W×3 N N N个噪声视图 X t X_t Xt={ x t ( 1 ) , x t ( 2 ) , ⋅ ⋅ ⋅ , x t ( N ) x_t^{(1)},x_t^{(2)},···,x_t^{(N)} xt(1),xt(2),⋅⋅⋅,xt(N)),与视点条件 v c o n ∈ R H × W × 6 v_{con}∈R^{H×W×6} vconRH×W×6 V V V={( v ( 1 ) , v ( 2 ) , ⋅ ⋅ ⋅ , v ( N ) v^{(1)},v^{(2)},···,v^{ (N)} v(1),v(2),⋅⋅⋅,v(N)}拼接在一起。噪声视图的干净对应项为 X 0 X_0 X0={ x 0 ( 1 ) , x 0 ( 2 ) , ⋅ ⋅ ⋅ , x 0 ( N ) x_0^{(1)},x_0^{(2)},···,x_0^{(N)} x0(1),x0(2),⋅⋅⋅,x0(N))。前向扩散过程为每个视图添加噪声:
在这里插入图片描述

ϵ ∼ N ( 0 , I ) ϵ∼N(0,I) ϵN(0,I)。在每个时间步长t中,去噪器 θ θ θ预测三维高斯 G θ G_θ Gθ,以增强视图一致性。由于原始三维高斯函数的数量不是一个常数,我们采用像素对齐的三维高斯函数作为输出,其数量是固定的。预测的三维高斯 G θ G_θ Gθ表示为:

在这里插入图片描述
其中, 1