Single View Stereo Matching

Abstract

以往的单目深度估计方法采用单一视角，直接回归预期结果。虽然最近的进展是通过在训练中应用几何启发损失函数来实现的，但是推理过程并没有明确地强加任何几何约束。因此，这些模型完全依赖于数据的质量和学习泛化的有效性。这要么导致了次优结果，要么需要大量昂贵的地面真值标签数据来产生合理的结果。本文首次证明了单目深度估计问题可以重新表述为两个子问题，一个是视图合成过程，然后是立体匹配，在推理过程中可以显式地施加几何约束;ii)标签深度数据的需求可以大大缓解。我们展示了整个管道仍然可以以端到端的方式进行训练，这个新公式在提高性能方面起到了关键作用。该模型仅使用少量的真实训练数据，在具有挑战性的KITTI数据集中优于以往的单目深度估计方法和立体块匹配方法。该模型也很好地推广到其他单目深度估计基准。讨论了用立体方法进行单目深度估计的意义和优点。

Introduction

深度估计是计算机视觉中的一个基本问题。在机器人技术、增强现实技术、三维重建技术、自动驾驶汽车等诸多领域都有重要应用。这个问题是大量研究文献中,主要解决两种类型的技术方法即主动立体视觉等结构光[33],飞行时间[40],和被动立体视觉包括立体匹配[17,25],[35]结构与运动,光度立体[5]和深度线索融合[31],等等。在被动立体视觉方法,立体匹配可能是应用最广泛的技术，因为它是精确的，它对传感器和成像过程没有什么假设。近年来该领域的研究进展表明，利用合成数据训练的深度模型和有限的真实数据训练的精细模型可以显著提高立体匹配的质量[26,28]。

另一方面，单目深度估计的适用性受到精度的限制，但在实际应用中，为了避免立体摄像机设置出现校准误差和同步问题，单目深度估计更受青睐。从一个单一的观点估计深度是困难的，因为它是一个不适定的和几何上模棱两可的问题。近年来，利用深度学习方法对单目深度估计进行了改进[4,19,20,23]。然而，与前面提到的基于几何正确性的无源立体视觉方法相比，目前最先进的单眼方法的公式存在问题。原因有两方面。首先，目前的深度学习方法几乎完全依赖于高级语义信息，直接将其与绝对深度值联系起来。由于网络中的操作是通用的，对它需要逼近的函数没有任何先验知识，因此即使在损失函数中施加了一些特殊的约束，要学习这些语义信息也是很困难的。其次，即使是有效的学习，场景理解和深度之间的关系也需要通过大量的真实数据和地面真实深度来建立。这样的数据不仅在规模上获取非常昂贵，而且收集高质量的密集标签非常困难，如果不是完全不可能的话，也非常耗时。这极大地限制了当前公式的潜力。

本文以一种新颖的视角，首次将单目深度估计问题表述为由高质量的视图合成网络自动生成右视图的立体匹配问题。整个管道如图1所示。这里的关键是：一、无论是视图合成还是立体匹配都尊重基本的几何原理;二、不用昂贵的真实深度数据就可以训练两者，推广效果好；三、整个管道可以以端到端的方式进行整体培训，以优化几何正确的目标。我们的方法与空间变换网络[12]的思路相似。虽然深度模型可以自己学习必要的转换，但是显式地建模这样的转换可能对我们更有利。我们发现，结果模型仅使用少量的真实训练数据，就能在具有挑战性的KITTI数据集[9]中胜过所有以前的方法。该模型对其他单目深度估计数据集也有较好的推广。

我们的贡献可以总结如下。
首先，我们发现单目深度估计问题可以有效地解耦成两个具有几何合理性的子问题。为进一步推进这一领域的绩效建设奠定了新的基础。
其次，我们展示了整个管道可以进行端到端训练，并且使用一小部分训练数据，它在很大程度上超过了所有以前的单目方法。值得注意的是，这是第一种单目方法在整体精度上胜过立体块匹配算法。

在这里插入图片描述

深度补全（1803）-论文阅读-翻译

Single View Stereo Matching

Abstract

Introduction

猜你喜欢