MonoSDF:神经隐式曲面重建的单目几何线索探索(论文阅读笔记)

目录

文章摘要:

1 文章思路

1.1 之前神经隐式曲面重建存在的缺陷

1.2 本文提出的方法

1.2.1 单目几何线索

1.2.2 研究神经隐式曲面重建的网络架构

1.2.3 本文贡献总结

2 相关工作

2.1 神经隐式场景表示的体系结构

2.2 多视图图像的三维重建

扫描二维码关注公众号,回复: 17486443 查看本文章

2.3 将先验信息整合到神经场景表征中

3 方法

3.1 隐式场景表征

3.1.1 密集SDF网络

 3.1.2 单个MLP

3.1.3 带有MLP解码器的单分辨率特征网格

 3.1.4 基于MLP解码器的多分辨率特征网格

3.1.5 颜色预测

3.2 隐式曲面的体绘制

3.3 利用单目几何线索

3.3.1  单目深度线索

3.3.2 单目法线线索

3.4 优化

4 实验

4.1 消融实验

4.1.1 场景表示的架构选择

4.1.2 消融不同线索

4.1.3 优化时间

4.2 真实世界大规模场景重建

4.3 稀疏视图的对象级重建

4.4 密集视图对象级重建

5 结论


文章摘要:

近年来,神经隐式曲面重建方法已成为多视点三维重建的热门方法。 与传统的多视点立体重建方法相比,由于神经网络的归纳平滑性偏差,这些方法往往产生更平滑和更完整的重建。 最先进的神经隐式方法允许从许多输入视图中高质量地重建简单场景。 然而,对于更大、更复杂的场景和从稀疏视点捕获的场景,它们的性能显著下降。 这主要是由RGB重建损失中固有的模糊性造成的,它没有提供足够的约束,特别是在观察较少和无纹理的区域。 在单目几何预测领域的最新进展的推动下,我们系统地探索这些线索为改善神经隐式曲面重建提供的效用。 我们证明了由通用单目估计器预测的深度和法线线索显著提高了重建质量和优化时间。此外,我们分析和研究了用于表示神经隐式曲面的多种设计选择,从单网格上的单块MLP模型到多分辨率网格表示。 我们观察到几何单目先验在小尺度的单目标场景和大尺度的多目标场景中都能提高性能,与表示的选择无关。

1 文章思路

1.1 之前神经隐式曲面重建存在的缺陷

最先进的神经隐式方法允许从许多输入视图中高质量地重建简单场景。然而,对于更大、更复杂的场景和从稀疏视点捕获的场景,它们的性能会显著下降。这主要是由于RGB重构损失中固有的模糊性造成的,它没有提供足够的约束,特别是在观察较少和没有纹理的区域。

仅使用RGB图像作为输入会导致一个欠约束问题,因为存在无限多的光度一致性。

1.2 本文提出的方法

受最近单眼几何预测领域的进展的激励,我们系统地探索这些线索提供的效用,以改善神经隐式表面重建。我们证明,由通用单目估计器预测的深度和法线线索,显著提高了重建质量和优化时间。

此外,我们分析和研究了多种设计选择来表示神经隐式表面,从单网格上的单片MLP模型到多分辨率网格表示。我们观察到,几何单目先验无论是在小尺度单目标场景还是在大尺度多目标场景中,都能提高性能,这与表示方式的选择无关。

1.2.1 单目几何线索

在本文中,我们探索单目几何先验,因为它们是容易获得和有效的计算。从单个图像中估算深度和法线等几何线索一直是一个活跃的研究领域。

本文描述了一种名为MonoSDF的框架,用于将单目几何先验集成到神经隐式表面重建方法中:给定多视角图像,我们推断出每幅图像的深度和表面法线,并将它们作为优化过程中的附加监督信号,同时考虑到RGB图像重建损失。我们观察到,这些先验导致重构质量的显著收益,特别是在纹理无和观察较少的区域。

1.2.2 研究神经隐式曲面重建的网络架构

更具体地说,我们研究了以下体系结构:单个大MLP密集SDF网格单个特征网格多分辨率特征网格

1.2.3 本文贡献总结

引入了MonoSDF,这是一种利用单目几何线索来提高神经隐式表面模型的多视图三维重建质量、效率和可扩展性的新框架;

对神经隐式表面表示的设计选择提供了系统的比较和详细的分析,包括普通的MLP和基于网格的方法;

在多个具有挑战性的数据集上进行了广泛的实验,从DTU数据集[1]上的对象级重建,到Replica[61]和ScanNet[12]上的房间级重建,再到Tanks和Temples[30]上的大规模室内场景重建。

2 相关工作

2.1 神经隐式场景表示的体系结构

在本文中,我们提供了一个系统的比较四种体系架构设计选择隐式曲面重建。

2.2 多视图图像的三维重建

经典的多视图立体视觉(MVS)方法:要么考虑特征匹配来进行深度估计,要么考虑用体素表示形状。

基于学习的MVS方法:通常会替代经典MVS管道的某些部分,如特征匹配,深度融合,或从多视图图像推断深度。

神经方法:通过一个具有连续输出的单一MLP表示表面。从纯粹的2D图像中学习,它们显示了吸引人的重建结果,而且不受离散化的影响。在这项工作中,我们合并单目先验可以使这些方法获得更详细的重建,并扩大到更大和更具挑战性的场景。

2.3 将先验信息整合到神经场景表征中

用于新视点合成的先验信息有:深度平滑度、语义相似度、稀疏MVS点云等。

Manhattan- sdf利用colmap中的密集MVS深度图作为监督。

本文的方法:基于数据驱动的单目深度和法线预测为整个场景提供高质量先验的观察。将这些先验结合到神经隐式曲面的优化中,不仅消除了曼哈顿世界的假设,而且改善了重建质量和简化了管道与NeuRIS。

3 方法

我们的目标是在利用单目几何线索指导优化过程的同时,从多个姿势的图像恢复底层场景几何。在3.1节回顾了神经隐式场景表示和各种设计选择,在3.2节讨论了如何对这些表示进行体渲染。在第3.3节中研究的单目几何线索,在第3.4节中讨论损失函数和整体优化过程。

概述。我们使用由一个通用的预训练网络预测的单目几何线索来指导神经隐式表面模型的优化。更具体地说,对于一批射线,我们体积渲染预测的RGB颜色、深度和法线,并优化wrt。此外,我们研究了神经隐式架构的不同设计选择,并提供了深入的分析。为了清晰起见,我们只显示SDF而不显示上面的颜色预测分支

3.1 隐式场景表征

在这项工作中,我们用可学习参数θ参数化了SDF函数,并研究了几种不同的设计选择来表示该函数:显式为可学习SDF值的密集网格,隐式为单个MLP,或混合使用MLP与单分辨率或多分辨率特征网格。

3.1.1 密集SDF网络

参数化SDF最直接的方法是将SDF值直接存储在离散体Gθ的每个单元中,其分辨率为RH ×RW ×RD[28]。为了从密集的SDF网格中查询任意点x的SDF值ˆs,我们可以使用任何插值运算,本文采用三线性插值法。

 3.1.2 单个MLP

其中s是预测的SDF值,γ对应于将x映射到更高维空间的固定位置编码。位置编码广泛用于神经隐式曲面重构,因为它们增加了基于坐标的网络的表达能力。

3.1.3 带有MLP解码器的单分辨率特征网格

我们还可以将这两种参数化方法结合使用特征条件的MLP fθ和分辨率为R3的特征网格Φθ,其中每个网格单元存储一个特征向量,而不是直接存储SDF值。MLP fθ的条件是插值的局部特征向量来自特征网格Φθ

 3.1.4 基于MLP解码器的多分辨率特征网格


除了使用单一的特征网格Φθ,还可以使用分辨率为Rl的多分辨率特征网格。在几何空间中采样分辨率,结合不同频率的特征:

其中Rmin和Rmax分别是最粗和最细的分辨率。我们在每一层提取插值的特征,并将它们连接在一起:

随着网格单元总数的立方增长,我们使用固定数量的参数来存储特征网格,并使用空间哈希函数在更细的级别上索引特征向量。

3.1.5 颜色预测

除了三维几何,还预测颜色值,这样模型可以优化重建损失。因此,我们定义了第二个函数cθ

预测了3D点x和观察方向v的RGB颜色值ˆc。3D单位法线ˆn是我们的SDF函数的解析梯度。特征向量ˆz是SDF网络的第二个线性头的输出。

3.2 隐式曲面的体绘制

为了渲染一个像素,我们从相机中心o投射一条射线r,沿着像素的视图方向v,我们沿着射线采样M点,并预测它们的SDF和颜色值。我们遵循[74]将SDF值转换为密度值用于体渲染:

 Ti r和αi r分别表示样本点i沿射线r的透射率和alpha值,δir为相邻样本点之间的距离。类似地,我们计算与当前光线相交的表面的深度D(r)和法线N(r)为:

3.3 利用单目几何线索

我们使用现成的、高效的计算单目几何先验,从而改进神经隐式表面方法。

3.3.1  单目深度线索

一个常见的单目几何线索是单目深度图,可以容易地通过现成的单目深度预测器获得。使用一个经过预处理的omndata模型来预测每个输入RGB图像的深度图¯D。注意,在一般场景中,绝对尺度是很难估计的,所以D¯¯必须被视为一个相对线索。然而,这种相对深度信息也提供了更大的距离在图像。

3.3.2 单目法线线索

另一个几何线索是表面法线。与深度线索相似,应用相同的经过预处理的omndata模型来为每幅RGB图像获取一个normal map¯N。与提供半局部相对信息的深度线索不同,法线线索是局部的,可以捕捉几何细节。因此,我们期望表面法线和深度是互补的。

3.4 优化

重建损失:用RGB重建损失来优化场景表示

Eikonal损失:作用是正则化三维空间中的SDF值

深度一致性损失

法线一致性损失
我们用来与外观网络联合优化隐式曲面的总体损失是:

4 实验

首先分析不同的架构设计选择,并进行消融研究。在真实世界的室内场景中提供与最先进的基线的定性和定量比较。最后,对稀疏输入和密集输入场景下的对象级重建方法进行了评估。

数据集: a)真实的室内扫描:Replica和ScanNet ;b)真实世界的大型室内场景:坦克和寺庙高级场景;c)对象级场景:稀疏3-view设置下的DTU。

基线:a)最先进的神经隐式表面方法:UNISURF、VolSDF、NeuS和Manhattan-SDF。b)经典的MVS方法:COLMAP和一个最先进的商业软件(RealityCapture2)。c) TSDF-Fusion[与预测的单目深度线索。

评估指标:DTU遵循官方的评估协议并报告倒角距离。Replica和ScanNet,我们报告倒角距离,阈值为5cm的f分数,以及法线一致性度量。

4.1 消融实验

4.1.1 场景表示的架构选择

架构消融研究。 比较神经隐式曲面表示的不同设计选择,我们观察到密集的SDF网格由于缺少光滑性偏差而导致噪声重建。 MLP和单分辨率特征网格改善了结果,但几何往往过于平滑,缺少细节。 采用多分辨率特征网格获得了最佳结果。

 使用单一的MLP作为场景几何表示可以获得不错的结果,但重构往往过于平滑。

基于网格的表示,优化密集的SDF网格会导致性能显著下降,其原因是缺乏平滑偏差:网格单元中SDF值的存储和优化都是相互独立的,因此不存在局部或全局平滑偏差。

单分辨率特征网格用一个低维潜码替换每个网格单元中的SDF值,并使用一个基于这些特征的浅MLP读取任意3D点的SDF值。这种修改导致了在密集网格上重建质量的显著提高,表现类似于单一的MLP。

使用多分辨率特征网格进一步提高了性能。是基于网格表示的最好的模型。

4.1.2 消融不同线索

单眼几何线索的消融。 单目几何线索显著改善了两种架构的重建质量(我们展示了我们的MLP变体)。 与单目深度线索,恢复几何包含更多的细节和更好的整体结构。 在正常的提示下,缺失的细节被添加,结果变得更加平滑。 同时使用这两种提示可获得最佳性能。

使用单目线索或同时使用单目线索都能显著提高重建质量。深度和法线线索是互补的。值得注意的是,当使用单目线索时,两种表征之间的差异变得可以忽略不计,这表明这些作为一个普遍的改进重建质量。

4.1.3 优化时间

通过表格对比观察到多分辨率网格比单一的MLP模型收敛更快。此外,添加单目线索显著加快了收敛过程。在仅10K次迭代后,两种模型的表现都优于无单目线索的融合模型。注意,将单目线索纳入优化过程所需的开销很小,可以忽略。

4.2 真实世界大规模场景重建

在ScanNet上,我们的MLP变体优于所有基线,实现更平滑的重构与更详细的细节。此外,MLP变体的性能明显优于使用多分辨率网格。ScanNet的RGB图像包含运动模糊和相机姿势也是有噪声的。这可能对基于网格的表示中的局部几何更新有害,而mlp由于其平滑性偏差,对这种噪声更有鲁棒性。

4.3 稀疏视图的对象级重建

在dtu数据集上选三个视图作为输入。有趣的是,基于网格的表示执行起来不如单个MLP,因为它们是本地更新的,并且不能受益于单片MLP表示的归纳偏差。经典的MVS方法在定量上表现得很好,但它们严重依赖于密集匹配,在三张输入图像的情况下,这不可避免地会导致不完全重建。与此相反,我们的方法结合了神经隐式表面表征与单眼几何线索的好处,后者对观察较少的区域更为稳健。

4.4 密集视图对象级重建

在具有所有输入视图的DTU数据集上评估了我们的方法。在本实验中,我们简单地将低分辨率的单眼线索调整为全分辨率(从384×384像素到1200×1200像素),同时保持图像比例。由于原始图像大小为1200×1600,图像左右部分缺少单目线索。因此,我们只在可用的情况下使用单眼线索。

5 结论

提出了一种新的框架MonoSDF,该框架系统地探索了如何将单目几何线索整合到多视图图像的神经隐式表面优化中。我们表明,这种容易获得的单目线索可以显著提高三维重建的质量,效率和可扩展性的各种神经隐式表征。当使用单目线索时,一个简单的MLP架构整体上表现最好,这表明MLP在原则上能够表示复杂的场景,尽管与基于网格的表示相比收敛速度较慢。多分辨率特征网格具有较快的收敛速度和捕捉细节的能力,但对输入图像中的噪声和模糊的鲁棒性较差。

局限性:我们的模型的性能取决于单目线索的质量。利用滤波策略处理单目预测器的故障是进一步提高重建质量的一个有前途的方向。虽然我们证明整合深度和法线线索可以显著改善重建,但探索其他线索,如遮挡边缘、平面或曲率[14,78]是一个有趣的未来方向。我们目前受限于omndata模型[14]的低分辨率(384 × 384像素)输出,并计划探索使用高分辨率线索的不同方法。我们提供了一些使用高分辨率线索的初步结果。场景表示和相机参数的联合优化[3,82]是另一个有趣的方向,特别是对于多分辨率网格,以更好地处理噪声相机姿态。

猜你喜欢

转载自blog.csdn.net/weixin_59961223/article/details/131947305