ManhattanSDF:基于曼哈顿世界假设的神经三维场景重建(论文阅读笔记)

目录

1 文章思路

1.1 文章摘要

1.2 改善低纹理区域重建

1.3 本文贡献

2 相关工作

2.1 MVS

2.2 神经场景重建

2.3 语义分割

3 方法 

3.1 从图像中学习场景表示

扫描二维码关注公众号,回复: 17486435 查看本文章

3.2 基于平面约束的场景重建

3.3 语义与几何的联合优化

4 实验

4.1 消融实验

4.2 与最先进的方法进行比较

5 结论


1 文章思路

1.1 文章摘要

本文提出了从多视点图像重建三维室内场景的挑战,以前工作在处理室内低纹理平面区域存在困难。本文提出平面约束可以方便地集成到最近的基于隐式神经表示的重建方法中。 使用一个MLP网络将符号距离函数表示为场景几何。 基于Manhattan-World假设,利用平面约束规则化二维语义分割网络预测的楼层和墙壁区域的几何形状。 为了解决分割不准确的问题用另一种MLP对三维点的语义进行编码,并设计了一种新的loss来联合优化三维空间中的场景几何和语义

1.2 改善低纹理区域重建

在这项工作中,我们证明了曼哈顿世界假设可以方便地集成到三维室内场景的内隐神经表示的学习中,并显著提高了重建质量。

具体来说,使用MLP网络来预测三维空间中任意点的符号距离颜色语义logits

语义logits表示一个点是楼层、墙或背景的概率,由二维语义分割网络初始化。

对于地面和墙壁上的表面点,我们强制执行它们的表面法线,以尊重曼哈顿世界假设。考虑到初始分割可能不准确设计了一个损失同时优化语义logitsSDF。这种损失有效地改善了场景重建和语义分割。

核心思想。 用隐式神经表示来表示三维场景的几何和语义,从而实现了基于曼哈顿世界假设的三维空间几何重建和语义分割的联合优化。

1.3 本文贡献

一种新的场景重建方法,将曼哈顿世界约束集成到隐式神经表示的优化中

一个新的损失函数优化语义标签和场景几何

在ScanNet和7-Scenes上与最先进方法相比,重建质量显著提高。

2 相关工作

2.1 MVS

许多方法都采用两阶段的流水线进行多视图三维重建:首先根据MVS估计每个图像的深度图,然后进行深度融合以获得最终的重建结果。然而,它们往往在纹理较少的区域上给出较差的性能。主要原因是纹理较少的区域使得密集特征匹配变得困难。

一些用深度学习的技术尝试进行改进。例如,试图提取图像特征,建立成本体积,并使用3D CNNs预测深度图;或者以从粗到细的方式构造成本体积,并可获得高分辨率结果。另一些利用场景先验来帮助重建,无纹理的平面区域可以使用平面先验来完成。

我们的方法不是预测每个图像的深度图,而是学习一个隐式神经表示,可以实现更一致和更准确的重建。

2.2 神经场景重建

神经场景重建方法利用神经网络预测三维空间中点的性质。受NERF[29]成功的启发,NEUS和Volsdf将体绘制技术与IDR结合起来,消除了对掩码信息的需求。虽然这些方法在小尺度、纹理丰富的场景中获得了惊人的重建效果,但这些方法在大规模、平面区域无纹理的室内场景中往往效果不佳。

相比之下,我们的方法利用语义信息来辅助无纹理平面区域的重建。

2.3 语义分割

我们的方法从二维分割预测中学习三维语义,并与几何联合优化语义。 

3 方法 

本文方法概述。使用隐式神经表示学习3D场景的几何、外观和语义。对于图像像素,使用可微体绘制来呈现像素的颜色和语义概率,并通过输入图像和二维语义标签来监督这些概率。为了联合优化几何和语义,在曼哈顿世界假设的基础上,在平面区域引入几何约束,提高了重建和分割的精度。

 给定室内场景的摄像机姿态的多视角图像,我们的目标是重建高质量的场景几何。我们提出了一种称为ManhattanSDF的新方法。

我们用符号距离和颜色场来表示场景的几何和外观,这是用体绘制技术从图像中学习的(第3.1节)。

为了提高无纹理区域(如墙壁和地板)的重建质量,我们通过语义分割来检测这些区域,并基于曼哈顿世界假设(sec.3.2)应用几何约束。

克服语义分割的不准确性,将语义信息额外编码到隐式场景表示中,并将语义与场景的几何和外观联合优化(第3.3节)。

3.1 从图像中学习场景表示

利用符号距离颜色场来表示场景几何外观。给定一个3D点x,几何模型将其映射到有符号距离d(x),其定义为:

其中Fd实现为MLP网络,Z(x)是几何特征。为了逼近辐射度函数,外观模型以空间点X、视向V、法线N(x)和几何特征Z(x)作为输入,输出颜色C(x),其定义为:

通过计算点x处符号距离d(x)的梯度来获得法线n(x)。

采用体绘制从图像中学习场景表示网络。渲染一个图像像素,沿着它的相机射线r采样n个点{xi}。然后预测每个点的符号距离和颜色。为了应用体绘制技术,将符号距离d(x)转换为体密度σ(x):

其中β是可学习参数。使用数值求积来累加密度和颜色:

在训练过程中,使用带有光度损失的多视角图像优化场景表示网络:

其中c(r)是真实像素颜色,而r是穿过采样像素的相机射线集合。此外还应用Eikonal损失:

仅用图像从头开始学习场景表示,即使在纹理区域也很难重建合理的几何形状。虽然基于深度估计的方法往往给出低纹理区域的不完全重建,但它们可以从图像中重建纹理区域的精确点云。建议使用多视点立体方法中的深度图来辅助场景表示的学习:

虽然深度损失提高了重建质量,但由于输入的深度图在纹理较少的区域是不完整的,因此在纹理较少的区域重建性能仍然有限。

3.2 基于平面约束的场景重建

由于大多数无纹理的区域位于地板或墙壁上,正如曼哈顿世界假设提出室内场景的地板和墙壁通常与三个主要方向对齐。于是提出将几何约束应用于地板和墙壁的区域

首先使用2D语义分割网络获得地板和墙壁的区域。然后应用损失函数来强制平面区域中的曲面点共享相同的法线方向

对于地板的监督,假设楼层垂直于z轴,遵循曼哈顿世界的假设。将地板像素的法线损耗设计为:

Xr是摄像机射线R的表面交点,n(Xr)是作为符号距离d(x)在点Xr处的梯度计算的法线,并且nf=0,0,1是表示在地板区域中假定的法线方向的上单位向量。

监督墙壁区域引入了一个可学习的法线NW。 我们设计了一个损失,该损失强制墙壁表面点的法线方向与可学习法线NW平行或正交,对于墙壁像素,法线NW定义为:

其中可学习法线nw初始化为<1,0,0>,训练时与网络参数联合优化。我们将nw的最后一个元素固定为0,使其垂直于nf。最后,我们将法线损失定义为:

其中F和W是图像像素的相机射线集合,通过语义分割网络预测为地板和墙壁区域。

3.3 语义与几何的联合优化

网络预测的二维语义分割结果在某些图像区域可能是错误的,从而导致重建不准确,提出将语义标签与场景几何和外观结合起来进行三维优化。

预测3D空间中每个点的语义对数来增强神经场景表示。x的语义对数表示为s(x)∈R3。语义logits的定义如下:

FS是MLP网络。利用Softmax函数,将logits转化为X点为楼层、墙面等区域的概率。 我们使用体绘制技术将语义logits绘制到二维图像空间。

其中si是采样点xi沿摄像机射线r的logits。我们将Logits转发到一个Softmax归一化层,计算多类概率PFPWPB,表示像素为地板、墙壁和其他区域的概率。

将式(10)中的法线损耗改进为联合优化损耗,其定义为:

以楼层区域为例,如果R的输入语义标记正确,则Lf(r)应该容易减小。 但是如果输入分割错误,Lf(r)会在训练过程中出现振动。为了降低Pf(r)Lf(r),梯度将Pf(r)推小,从而优化语义标签。我们利用交叉熵损失对估计的输入语义分词结果进行语义监督:

4 实验

数据集:scannetV2和7-scenes

评价指标:准确性、完整性、精确度、查全率和F-Score。 考虑F-score作为总体度量

4.1 消融实验

ScanNet的消融研究。 与基线相比,我们的方法可以产生更一致的重建结果。 注意,与Volsdf和Volsdf-d相比,Volsdf-D-G可以重建更平滑和更完整的平面。 与Volsdf-D-G相比,我们的算法在保持平面重建质量的同时,还能在非平面区域重建更多的细节。 颜色表示表面正常。

用四种配置进行训练:(1)原始设置的VolSDF:只有图像监督的训练网络,(2)VolSDF- D:加上深度监督Ld, (3) VolSDF- D - G:在VolSDF- d的基础上,添加第法线损耗LGEO;(4)Volsdf-D-S:除了Volsdf-D之外,学习三维空间中的语义;(5)学习三维空间中的语义,并将法线损耗改进为联合优化损耗Ljoint。

4.2 与最先进的方法进行比较

ScanNet上的三维重建结果。 我们的方法明显优于COLMAP和基于体绘制的方法。 此外,与采用平面重建先于MVS的方法相比,我们可以得到更相干的重建结果,尤其是在平面区域。

5 结论

本文提出了一种基于曼哈顿—世界假设的室内场景重建方法。其关键思想是利用平面区域的语义信息来指导几何重构。该方法从二维分割结果中学习三维语义,并对三维语义和几何进行联合优化,提高了对不准确二维分割的鲁棒性。实验表明,该方法能够在保持非平面区域细节的前提下,精确、完整地重建平面,在公共数据集上的性能明显优于目前的方法。

局限性。 这项工作只考虑曼哈顿世界假设。 虽然大多数人造场景服从这一假设,但有些场景需要一个更普遍的假设,例如亚特兰大-世界假设。通过修改损失函数中几何约束的形式,该框架可以扩展到采用其他假设。

猜你喜欢

转载自blog.csdn.net/weixin_59961223/article/details/131964381