Unsupervised Monocular Depth Estimation with Left-Right Consistency

4.1 实验细节

在TensorFlow[1]中实现的网络包含3100万个可训练参数,并且使用单个Titan x GPU在30 000张图像的数据集上训练约25小时,持续50个时期。对于512×256图像,推断速度很快,所需时间小于35 ms,即每秒超过28帧,包括与GPU之间的传输时间。更多详情请参阅补充材料和我们的代码1。

在优化过程中,我们将不同损失分量的权重设置为αap=1和αlr=1。使用非线性Sigmoid将可能的输出差异限制在0和d max之间,其中d max=0.3×给定输出比例下的图像宽度。由于我们的多尺度输出,相邻像素的典型差异将在每个尺度之间相差两倍(因为我们将输出放大两倍)。为了纠正这一点,我们对每个比例的视差平滑度项αds和r进行缩放,以获得每个级别的等效平滑度。因此αds=0.1/r,其中r是对应层相对于传入网络的输入图像分辨率的缩小因子。

对于网络中的非线性,我们使用指数线性单元[7]代替常用的校正线性单元(relu)[40]。我们发现Relus倾向于过早地将中间尺度上的预测差异固定为单个值,从而使后续的改进变得困难。在[42]之后,我们将通常的反褶积替换为最近邻的上采样,然后是卷积。我们从零开始对模型进行了50个时期的培训,批次大小为8,使用Adam[30],其中β1=0.9,β2=0.999,和\epsilon =10^{-8}。我们使用初始学习率λ=10−4,在前30个阶段保持不变,然后每10个阶段将其减半,直至结束。我们最初使用渐进式更新计划进行试验,如[39]中所述,首先优化低分辨率图像比例。然而,我们发现同时优化所有四个尺度会导致更稳定的收敛。同样,我们对每个尺度的损失使用相同的权重,因为我们发现不同的权重会导致不稳定的收敛。我们对批处理规范化进行了试验[26],但发现它没有产生显著的改进,最终排除了它。

数据扩充是在飞行中执行的。我们以50%的概率水平翻转输入图像,同时注意交换两个图像,使它们处于相对正确的位置。我们还增加了色彩增强,有50%的几率,我们通过从均匀分布中采样来执行随机的gamma、亮度和颜色偏移,其中gamma的范围为[0.8,1.2]、亮度的范围为[0.5,2.0]以及每个颜色通道的范围分别为[0.8,1.2]。

Resnet50   为了完整性,与[33]相似,我们还展示了使用resnet50[20]作为编码器的模型变体,其余架构、参数和培训过程保持一致。这个变量包含4800万个可训练参数,并由resnet在结果表中指示。

为了减少在图像左侧和封堵器上产生视差斜坡的立体遮挡的影响,对输出执行最后的后处理步骤。对于测试时的输入图像i,我们还计算了水平翻转图像{I}'的视差图d_{l}^{'}。通过翻转这个视差图,我们得到一个视差图d_{l}^{''},它与dL对齐,但是视差渐变位于封堵器的右侧以及图像的右侧。我们将两个视差图结合起来形成最终的结果,用d_{l}^{''}将图像左边的前5%和右边的最后5%分配给来自d_{l}^{'}的视差。最终视差图的中心部分是d_{l}d_{l}^{'}的平均值。最后的后处理步骤会导致更好的精度和更少的视觉伪影,代价是将测试时间计算量加倍。我们在结果表中用pp表示这些结果。

4.2 KITTI

我们使用两个不同的测试拆分来呈现Kitti数据集[17]的结果,以便与现有的工作进行比较。数据集的原始形式包括来自61个场景的42382个校正立体声对,典型图像大小为1242×375像素。

我们评估了作为Kitti官方训练集一部分提供的200幅高质量差异图像,共覆盖28个场景。剩下的33个场景包含30159个图像,其中29000个用于培训,其余的用于评估。尽管这些视差图像的质量比重新投影的Velodyne激光深度值要好得多,但它们插入了CAD模型来代替移动的汽车。这些CAD模型会导致透明表面(如车窗)上的差异值模糊不清,并导致对象边界问题,即CAD模型与图像不完全对齐。此外,Kitti数据集中的最大深度约为80米,我们将所有网络的最大预测值都限定为该值。计算结果时使用了来自[10]的深度度量以及来自Kitti[17]的d1所有差异误差。[10]中的指标测量了距离地面真值两米的误差,以及距离正确值在某个阈值内的深度百分比。值得注意的是,在深度空间测量误差的同时,在视差中给出地面真值会导致精度问题。特别是,非阈值测度对小视差下的预测误差所引起的深度大误差较为敏感。

发布了27 篇原创文章 · 获赞 9 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_36835368/article/details/86138539
今日推荐