【论文】单目深度估计:Unsupervised Monocular Depth Estimation with Left-Right Consistency

Unsupervised Monocular Depth Estimation with Left-Right Consistency

摘要

不像之前的有监督的方法一样,利用深度图作为标签(GT),本文的方法用容易得到的双目图来训练。利用epipolar geometry constraints。我们通过训练我们的网络来产生视差图像,使其具有图像重建的损失。结果表明,仅对图像重建进行求解就会导致图像质量较差。为了解决这个问题,我们提出了一个全新训练损失,它加强了相对于左图像和右图像产生的差异之间的一致性,与现有的方法相比,这将提高性能和健壮性。

介绍

然而,这些技术大多依赖于对感兴趣的场景进行多次观察的假设。因此现在提出了很多机遇单眼深度估计的监督学习方法。但是这种方法需要很多的有标签的深度图,这个代价很大。而我们的全卷积模型不需要任何深度数据,而是被训练成将深度合成为一个中间值。
我们的算法有如下3个贡献:
1.一种网络结构,它执行端到端无监督的单目深度估计,并产生一种新的训练损失,使网络内部的左右深度一致。
2.对几种训练损失和图像形成模型的评估突出了我们的方法的有效性
3.除了展示在一个具有挑战性的数据集上的最优结果外,我们还展示了我们的模型在三个不同的数据集上的结果,包括我们自己收集的一个新的户外城市数据集,我们公开地收集这些数据集。

相关工作

相关的一些工作往往对数据集有很多的限制,比如需要同个场景多张图像,不同角度,时间序列不同光照等等,而我们的方法就是着眼于单目深度估计,且没有任何其他的假设条件。
1.通过对比两张图像每个像素点间的差距,来得到深度。这种方法缺点就是数据难易获取,需要较大的人力。
2.单视图或单目深度估计是指在测试时只有一个图像可用的问题设置。而之前的方法基本上都是要讲深度相机拍到的深度图作为标签的,而这种标签图也很难得到。而我们也进行单深度图像估计,但增加了双目彩色图像,而不是要求地面真深度,所以我们的方法被称为无监督深度估计。
3最近,人们提出了一种基于深度网络的新视图合成和深度估计方法,这种方法在训练时不需要地面真实深度

1.DeepStereo:在测试时,他需要从其他图中提取相邻小块来估计深度,所以不是一种单目深度估计手段。
2.Deep3D:根据双目视觉的上下文信息,从输入的左图像(即源图像)生成相应的右视图。应用了图像重构loss,然而这种增加候选差异值的方法会消耗很多存储资源。
3.Garg他们的方法和Deep3D与我们的方法是比较类似的,但他的方法提出的Image formation model是不全可微的,而我们解决了这个问题。

我们把单目深度估计问题考虑成一个图像重构问题,然而只最小化光度损失(photometric loss)只能够得到高质量的图像重建结果,但得不到高质量的深度信息。对于这个问题,我们设计的完全可微训练损失包括一个左右一致性检查,以提高我们合成的深度图像的质量。

算法方法

我们引入了一种新的深度估计训练损失,其特点是内建的左右一致性检查,使我们可以在不需要监督的情况下对图像对进行训练,以地面真实深度的形式。

深度估计作为图像重构

测试时,给我一张图像I,我们的目标是学习一个函数f来预测每个像素点的深度d=f(I)。给定一对经过校准的双目摄像机,如果我们能学习一种功能,能够从另一种图像中重建出一幅图像,那么我们就能了解到正在被成像的场景的三维形状。我们没有直接预测深度,而是试图找到密集的对应场dr,当它应用到左边的图像时,我们可以重建右边的图像。当然也可以根据右边的图像,重建出左边的。

这里写图片描述
这里写图片描述

所以d就相当于一种图像差异,这个差异是对于每个像素点来说的一个标量值,这个标量值是我们的模型需要去学习预测的。给定摄像机与摄像机焦距f之间的基线距离b,我们就可以从预测视差中很容易地恢复深度d, d =bf/d。

深度估计网络

猜你喜欢

转载自blog.csdn.net/qiu931110/article/details/80537239