PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation剩余部分

pvnet前四章翻译
https://blog.csdn.net/weixin_44636737/article/details/102314355

5.实验

5.1 数据集

LINEMOD[18]是6D对象姿态估计的标准基准。该数据集对姿态估计提出了许多挑战:场景杂乱、对象纹理少、光照条件变化。

通过Occlusion LINEMOD图像的子集来创建遮挡LINEMOD。每个图像包含多个带注释的对象,这些对象被严重遮挡,这给姿态估计带来了很大的挑战。

Truncation LINEMOD若要对截断对象的方法进行全面评估,请通过在LINEMOD数据集中随机剪切图像来创建此数据集。裁剪后,图像中只保留目标对象40%到60%的区域。一些例子如图5所示。注意,在我们的实验中,遮挡LINEMOD和截断LINEMOD仅用于测试。我们在这两个数据集上测试的模型只在LINEMOD数据集上训练。

YCB Video[43]是最近提出的一个数据集。这些图像是从YCB对象集合[7]中收集的。由于不同的光照条件、显著的图像噪声和遮挡,该数据集具有挑战性。
在这里插入图片描述

图4。在Occlusion LINEMOD数据集上显示结果。绿色三维边界框表示地面真实姿势,而蓝色三维边界框表示我们的预测在这里插入图片描述

图5。我们通过随机裁剪LINEMOD数据集的每个图像来创建一个名为truncationlinemod的新数据集。显示了截断LINEMOD数据集上结果的可视化。绿色三维边界框表示地面真实姿势,而蓝色三维边界框表示我们的预测。最后一列的图像是失效情况,其中可见部分太模糊,无法为姿势估计提供足够的信息。

5.2 评估指标

我们使用两个常用指标评估我们的方法:二维投影指标[4]和模型点的平均三维距离(ADD)指标[18]。二维投影度量。此度量计算给定估计值的三维模型点投影与地面真位姿之间的平均距离。如果距离小于5像素,则认为姿势正确。添加度量值。利用加法度量[18],我们分别通过估计和地面真位姿变换模型点,并计算两个变换点集之间的平均距离。当距离小于模型直径的10%时,估计的姿态是正确的。对于对称对象,我们使用ADD-S度量[43],其中平均距离是基于最近点距离计算的。我们将这两个度量表示为ADD(-S),并使用适合对象的度量。在对YCB视频数据集进行评估时,我们计算了[43]中提出的ADD(-S)AUC。ADD(-S)AUC是在评估中通过改变距离阈值而获得的准确阈值曲线下的面积
在这里插入图片描述

表1. 基于遮挡LINEMOD数据集的不同姿态估计方法的消融研究。根据ADD(-S)度量,这些结果是准确的,其中glue和egbbox被视为对称对象。Tekin[39]通过回归检测关键点,而其他配置使用提议的基于投票的关键点定位。BBox 8显示了使用[39]中定义的关键点的方法的结果。FPS K表示我们检测到FPS算法生成的K个表面关键点。 Un表示我们使用不确定性驱动的PnP。 在没有Un的配置中,使用EPnP [24]估算姿势。

5.3 消融研究

我们在Occlusion LINEMOD数据集上进行消融研究,比较不同的关键点检测方法、关键点选择方案、关键点数目和PnP算法。表1总结了消融研究的结果。
要将PVNet与[39]进行比较,我们重新实现了与[39]相同的管道,但使用PVNet来检测包含8个边界框角点和对象中心的关键点。结果列在表1的“BBox 8”列中。“Tekin”列显示了[39]的原始结果,它通过CNN直接回归关键点的坐标。比较这两列,可以看出像素投票对遮挡更为稳健。 为了分析第3.1节中讨论的关键点选择方案,我们比较了基于不同关键点集的姿势估计结果:“BBox 8”(包括8个边界框角和中心)和“FPS 8”(包括由FPS算法选择的8个曲面点和中心)。将表1中的“BBox 8”与“fps8”进行比较,结果表明所提出的FPS方案具有更好的姿态估计效果。

在研究关键点数目对姿态估计的影响时,我们训练PVNet分别检测4个、8个和12个加上目标中心的表面关键点。所有三组关键点均由第3.1节所述的FPS算法选择。比较“FPS 4”、“FPS 8”和“FPS 12”列,可以看出姿态估计的精度随着关键点数目的增加而提高。但是“FPS 8”和“FPS 12”之间的差距可以忽略不计。考虑到效率,我们在所有其他实验中使用“FPS 8”。

扫描二维码关注公众号,回复: 11510970 查看本文章

为了验证在求解PnP问题时考虑不确定性的好处,我们将“FPS 8”中使用的EPnP[24]替换为不确定性驱动的PnP。结果显示在表1的最后一列“FPS 8+Un”中,这表明考虑关键点位置的不确定性可以提高姿态估计的精度。

配置“fps8+Un”是我们方法的最终配置,在接下来的实验中用“OURS”表示

在这里插入图片描述

表2.根据二维投影度量,我们的方法和基准方法在LINEMOD数据集上的准确性。
在这里插入图片描述

表3。根据ADD(-S)度量,我们的方法和LINEMOD数据集上的基线方法的精度,其中glue和egbbox被视为对称对象。

5.4 与目前最先进的方法进行比较

 我们将与以RGB图像为输入输出6D物体姿态的最先进方法进行比较。

在LINEMOD数据集上的性能。在表2中,我们将我们的方法与LINEMOD数据集上的[33,39]在二维投影度量方面进行了比较。[33,39]通过回归检测关键点,而我们的方法使用基于投票的关键点定位。BB8[33]训练另一个CNN来改进预测的姿势,并在单独的列中显示改进的结果。我们的方法在所有对象上都实现了最先进的性能,而无需单独的细化阶段。

表3显示了我们的方法与[33、26、39]在ADD(-S)度量方面的比较。注意,我们计算了eggbox和glue的ADD-S度量,它们是对称的,如[43]中所建议的。与未加求精的方法相比,我们的方法的性能至少优于最大边缘法30.32%。SSD-6D[20]使用边缘对齐来优化估计的姿势,显著提高了自身的性能。尽管如此,我们的方法仍然优于它7.27%。

对遮挡的鲁棒性。我们使用在LINEMOD数据集上训练的模型来测试遮挡LINEMOD数据集。表4和表5分别总结了与遮挡LINEMOD数据集上的[39、43、30]在2D投影度量和ADD(S)度量方面的比较。对于这两种度量,我们的方法在所有方法中都取得了最好的性能。特别是,我们的方法在ADD(-S)度量方面比其他方法有10.37%的优势。一些定性结果如图4所示。改进后的性能表明,提出的矢量场表示方法使PVNet能够学习到物体各部分之间的关系,从而使遮挡的关键点能够被可见部分可靠地恢复。
在这里插入图片描述

表4。基于二维投影度量的遮挡线模型数据集上我们的方法和基线方法的精度
在这里插入图片描述

表5 . 根据ADD(-S)度量,我们的方法和Occlusion LINEMOD数据集上的基线方法的精度,其中glue和egbbox被视为对称对象
在这里插入图片描述

表6 . 关于截断LINEMOD数据集的2D投影和ADD(-S)度量的结果

对截断的鲁棒性。我们在截断LINEMOD数据集上评估了我们的方法。注意,用于测试的模型只在LINEMOD数据集上进行训练。表6显示了二维投影和加法(-S)度量的量化结果。我们也对[39]中发布的模型进行了测试,但由于它不是针对这种情况设计的,因此没有得到合理的结果。

图5显示了一些定性结果。即使是部分可见的物体,我们的方法也能很好地恢复它们的姿态。在图5的最后一列中,我们展示了两个失败案例,其中可见部分没有提供足够的信息来推断姿势。这种现象对于小物体尤其明显,比如鸭子和猿,它们的姿态估计精度较低。
在这里插入图片描述

表7. 我们的方法和YCB视频数据集上的基线方法在2D投影和ADD(-S)AUC度量方面的精度

YCB视频数据集上的性能。在表7中,我们将我们的方法与YCB视频数据集上的[43,30]在二维投影和ADD(-S)AUC度量方面进行了比较。我们的方法再次达到了最先进的性能,并超过了Oberweger[30]这是专门为处理遮挡而设计的。PoseCNN的结果来自Oberweger[30]。

5.5. 运行时间

在给定480×640图像的情况下,我们的方法在桌面上以25 fps的速度运行,使用Intel i7 3.7GHz CPU和GTX 1080 Ti GPU,这对于实时姿势估计非常有效。具体来说,我们的实现需要10.9ms用于数据加载,3.3ms用于网络前向传播,22.8ms用于基于RANSAC的投票方案,3.1ms用于不确定性驱动的PnP。

6.结论

我们介绍了一种用于6DoF对象姿态估计的新颖框架,该框架包括用于关键点定位的像素级投票网络(PVNet)和用于最终姿态估计的不确定性驱动的PnP。我们表明,预测矢量场,然后对关键点定位进行基于RANSAC的投票,比直接对关键点坐标进行回归具有更好的性能,尤其是对于闭塞或截断的对象。我们还表明,考虑到解决PnP问题时预测关键点位置的不确定性,可以进一步改善姿态估计。我们报告了所有三个广泛使用的基准数据集的最新性能,并论证了该方法在新的截断对象数据集上的鲁棒性。

猜你喜欢

转载自blog.csdn.net/qq_46105339/article/details/106877738