项目:https://junshengzhou.github.io/DiffGS/
来源:清华大学软件学院
文章目录
摘要
三维高斯溅射(3DGS)在渲染速度和保真度方面表现出了令人信服的性能,但高斯溅射由于其离散性和非结构化性质的生成仍然是一个挑战。DiffGS是一种基于潜在扩散模型的三维生成模型,它能够以任意数生成高斯原语,用于使用栅格化的高保真渲染。关键的见解是通过三个新的函数来表示高斯溅来模拟高斯的 probabilities, colors and transforms。通过新的3DGS的解耦,我们表示了具有连续高斯溅射函数的离散和非结构化的3DGS,然后我们训练了一个无条件和有条件地生成这些高斯溅射函数的潜在扩散模型。同时,我们引入了一种离散化算法,通过八叉树引导的采样和优化,从生成的函数中提取任意数的高斯函数。
本文探索了DiffGS的各种任务,包括无条件生成、从文本、图像中获得的条件生成和部分3DGS,以及点云高斯生成 。
一、前言
3D内容创作是计算机图形学和3D计算机视觉领域的一项重要任务,它在虚拟现实、游戏设计、电影制作和机器人技术等现实世界的应用中显示出了巨大的潜力。以往的三维生成模型通常以神经辐射场(NeRF)[41,2,62]为表征。然而,NeRF的体积渲染需要相当大的计算成本,导致缓慢的渲染速度和显著的内存负担。3D高斯溅射(3DGS)[28,68,23]的最新进展表明,通过实现实时渲染和高保真外观建模,其作为下一代3D表示的潜力。为3DGS设计3D生成模型提供了一个与3D创作进行实时交互的方案。
生成3DGS建模的核心挑战在于其离散性和非结构化性质,这阻止了结构图像/体素/视频生成的框架转移到直接生成3DGS。并行工作[72,19]交替地将高斯数据传输到结构体素网格中,并使用体积生成模型[11]来生成高斯数据。然而,这些方法导致了1)高分辨率体素的大量计算成本,以及2)受体素分辨率限制的生成高斯函数的数量有限。某些体素化方案[19]也引入了信息丢失,使得保持高质量的高斯重构具有挑战性
为了解决这些挑战,我们提出了DiffGS,一种新的基于扩散的三维高斯溅生成模型,它能够有效地生成高质量的高斯原语。DiffGS的关键是通过三个新的函数(高斯概率函数)表示高斯概率函数(GauPF)、高斯颜色函数(GauCF) 和高斯变换函数(GauTF)。特别是,GauPF通过将每个采样的三维位置建模为一个高斯位置的概率来表示3DGS的几何形状。GauCF和GauTF分别预测了给定一个三维位置作为输入的外观和变换的高斯属性。通过对3DGS的新的解纠缠,我们表示了具有三个连续高斯溅射函数的离散和非结构化的3DGS。
通过解耦和强大的表示,下一步是设计一个生成模型,以生成这些高斯喷溅射函数。我们提出了一个高斯VAE模型来创建高斯溅函数的压缩表示。高斯VAE学习一个正则化的潜在空间,它将每个形状的高斯溅射函数映射为一个潜在向量。在潜在空间同时训练一个潜在扩散模型(LDM),以生成新的3DGS形状。利用强大的LDM,我们探索DiffGS有条件和无条件地生成不同的3DGS。最后,我们引入了一种离散化算法,通过八叉树引导的采样和优化,从生成的函数中提取任意数的高斯函数。其关键思想是首先在GauPF中进行三维位置采样,从GauPF中提取三维高斯几何,然后用GauCF和GauTF预测高斯属性。图1中说明了DiffGS的概述

二、算法
2.1 Functional Gaussian Splatting Representation(3DGS的解耦)
三维高斯溅射(3DGS) 将一个三维形状或场景表示为一组具有高斯分布的属性,用于建模几何图形和与视图相关的外观。对于包含N个高斯分布的3DGS G G G= { g i g_i gi} i = 1 N ^N_{i=1} i=1N,通过三维协方差矩阵 Σ i Σ_i Σi及其中心 σ i ∈ R 3 σ_i∈R^3 σi∈R3显式参数化:
我们通过三个新的函数以解耦的方式表示高斯喷溅:高斯概率函数(GauPF)、高斯颜色函数(GauCF)和高斯变换函数(GauTF)来解决这个问题。通过对3DGS的新型解纠缠,我们表示了具有三个连续高斯溅射函数的离散和非结构化的3DGS
Gaussian Probability Function。高斯概率函数(GauPF)通过将每个采样的三维位置建模为一个高斯位置的概率来表示3DGS的几何形状。给定一组3D查询位置 Q Q Q = { q j ∈ R 3 q_j∈R^3 qj∈R3} i = 1 M ^M_{i=1} i=1M(从拟合的3DGS G G G={ g i ∈ R 3 g_i∈R^3 gi∈R3} j = 1 N ^N_{j=1} j=1N空间中采样),GauPF预测查询 { q j q_j qj} i = 1 M ^M_{i=1} i=1M是G中高斯位置的概率 p p p:
高斯概率建模的思想为:观察到的三维位置 q j q_j q