图像 检测 - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection (ICCVW 2021)

声明:此翻译仅为个人学习记录

文章信息

摘要

  单目3D目标检测具有成本低的优点,是自动驾驶的一项重要任务。由于其固有的不适定性,它比传统的2D情况更具挑战性,这主要反映在缺乏深度信息上。2D检测的最新进展为更好地解决这个问题提供了机会。然而,使通用的2D检测器在该3D任务中工作是不平凡的。在本文中,我们通过建立在全卷积单级检测器上的实践来研究这个问题,并提出了一个通用框架FCOS3D。具体来说,我们首先将通常定义的7-DoF 3D目标转换到图像域,并将其解耦为2D和3D属性。然后,考虑到目标的2D比例,将目标分布到不同的特征级别,并仅根据训练过程的投影3D中心进行分配。此外,利用基于3D中心的2D高斯分布来重新定义中心度,以拟合3D目标公式。所有这些都使该框架简单而有效,消除了任何2D检测或2D-3D对应先验。在NeurIPS 2020的nuScenes 3D检测挑战中,我们的解决方案在所有纯视觉方法中排名第一。代码和型号发布于https://github.com/open-mmlab/mmdetection3d.

在这里插入图片描述

图1. 2D检测和单目3D目标检测示意图。给定输入RGB图像,2D无锚检测器需要预测从前景点到四个框边的距离。相反,单目3D无锚检测器需要预测目标的变换后的3D中心、3D大小和方向。

1. 引言

  目标检测是计算机视觉中的一个基本问题。它旨在识别图像中感兴趣的目标,并用相应的2D边界框预测它们的类别。随着深度学习的快速发展,近年来2D目标检测得到了很好的探索。Faster R-CNN[27]、RetinaNet[18]和FCOS[31]等各种模型显著促进了该领域的进步,并使自动驾驶等各种应用受益。

  然而,2D信息不足以让智能代理感知3D真实世界。例如,当自动驾驶汽车需要在道路上平稳安全地行驶时,它必须拥有周围目标的准确3D信息,才能做出安全的决策。因此,3D目标检测在这些机器人应用中变得越来越重要。大多数最先进的方法[38,14,29,32,40,41]都依赖于激光雷达点云提供的精确3D信息,但在每辆车上安装昂贵的激光雷达是一个沉重的负担。因此,单目3D目标检测作为一种简单、廉价的部署设置,成为当今一个非常有意义的研究问题。

  考虑到单目2D和3D目标检测具有相同的输入但不同的输出,单目3D目标检测的直接解决方案是遵循2D领域的实践,但添加额外的组件来预测目标的额外3D属性。先前的一些工作[30,20]不断预测2D框,并在2D中心和感兴趣区域之上进一步回归3D属性。其他[1,9,2]同时预测具有对应于每个2D锚的3D先验的2D和3D框。另一种基于冗余3D信息的方法流[13,16]预测了最终优化结果的额外关键点。总之,根本的根本问题是如何将3D目标分配到具有2D-3D对应关系的2D域,并在之后对其进行预测。

  在本文中,我们采用了一种简单而有效的方法来使2D检测器能够预测3D定位。我们首先将通常定义的7-DoF 3D位置投影到2D图像上,并获得投影的中心点,与之前的2D中心相比,我们将其命名为3D中心。通过这种投影,3D中心包含2.5D信息,即2D位置及其对应的深度。2D位置可以进一步减少到从图像上的某个点的2D偏移,该偏移用作可以在不同特征级别之间归一化的唯一2D属性,如在2D检测中。相比之下,深度、3D尺寸和方向被视为解耦后的3D属性。通过这种方式,我们用基于中心的范式来变换3D目标,并避免任何必要的2D检测或2D-3D对应先验。

  作为一种实际实现,我们在FCOS[31]上构建了我们的方法,FCOS[32]是一种简单的无锚全卷积单级检测器。我们首先将目标分布到不同的特征级别,并考虑它们的二维比例。然后,仅根据投影的3D中心来分配每个训练样本的回归目标。与FCOS用到边界的距离来表示中心度不同,我们用基于3D中心的2D高斯分布来表示3D中心度。

  我们在一个流行的大规模数据集nuScenes[3]上评估了我们的方法,并在没有任何先验信息的情况下在该基准的相机轨迹上获得了第一名。此外,我们只需要减少2倍的计算资源,就可以在一天内训练出一个性能与以前最好的开源方法CenterNet[37]相当的基线模型,速度也比它快3倍。这两项都表明我们的框架简单高效。详细的消融研究显示了每个部件的重要性。

2. 相关工作

2D目标检测。随着深度学习方法的突破,2D目标检测研究取得了巨大进展。根据最初猜测的基础,现代方法可以分为两个分支:基于锚和无锚。基于锚的方法[10,27,19,26]受益于预定义的锚,因为它更容易回归,同时有许多超参数需要调整。相比之下,无锚方法[12,25,31,15,37]不需要这些预先设置,因此更整洁,具有更好的通用性。为了简单起见,本文以具有代表性的无锚检测器FCOS作为基线,考虑其处理重叠真值和尺度方差问题的能力。

  从另一个角度来看,单目3D检测是一项与2D检测密切相关的更困难的任务。但很少有研究它们之间的联系和区别的工作,这使得它们相互孤立,无法从彼此的进步中受益。本文旨在以FCOS为例,进一步在这两项任务之间建立更紧密的联系。

单目3D目标检测。单目3D检测比传统的2D检测更复杂。潜在的关键问题是输入2D数据模态和输出3D预测的不一致性。

涉及子网络的方法。第一批作品采用子网络来辅助3D检测。仅举几个例子,3DOP[4]和MLFusion[35]使用深度估计网络,而Deep3DBox[21]使用2D目标检测器。它们严重依赖子网络的性能,甚至外部数据和预先训练的模型,这使得整个系统复杂且不方便训练。

转换为3D表达。另一类方法将输入RGB图像转换为其他3D表示,例如体素[28]和点云[34]。最近的工作[36,23,33,24]在采用这种方法后取得了巨大进展,并显示出了良好的性能。然而,它们仍然依赖于密集的深度标签,因此不被视为纯粹的单目方法。不同的深度传感器和激光雷达之间也存在领域差距,这使得它们很难顺利地推广到新的实践环境中。此外,将这些方法应用于现实世界场景时,很难处理大量的点云。

端到端设计,如2D检测。最近的工作注意到了这些缺点,并开始设计像2D检测器这样的端到端框架。例如,M3D-RPN[1]提出了一种具有端到端区域提案网络和深度感知卷积的单级检测器。SS3D[13]检测2D关键点,并进一步预测具有不确定性的目标特征。MonoDIS[30]改进了多任务学习,同时减少了纠缠。这些方法遵循基于锚的方式,因此需要定义一致的2D和3D锚。其中一些还需要多个训练阶段或手工制作的后期优化阶段。相比之下,无锚方法[37,16,5]不需要对给定的数据进行统计。更方便的是将它们的简单设计推广到具有更多不同类或不同内在设置的更复杂的情况。因此,我们选择遵循这种模式。

  然而,这些工作几乎没有研究将通用2D检测器应用于单目3D检测时的关键困难。在提出新的框架时,很少讨论应该保留或调整哪些内容。相反,本文专注于这一点,这可以为将典型的2D检测器框架应用于密切相关的任务提供参考。在此基础上,更深入地理解这两项任务之间的联系和区别,也将有利于双方社区的进一步研究。

3. 方法

  目标检测是场景理解中最基本、最具挑战性的问题之一。传统的2D目标检测的目标是预测每个感兴趣目标的2D边界框和类别标签。相比之下,单目3D检测需要我们预测3D边界框,而3D边界框需要解耦并转换到2D图像平面。本节将首先概述我们的框架以及我们所采用的3D目标的重新表述,然后详细阐述两种相应的技术设计,即2D引导的多级3D预测和具有2D高斯分布的3D中心度,以适应这项任务。这些技术设计共同作用,使2D检测器FCOS具备检测3D目标的能力。

在这里插入图片描述

图2. 我们的管道概览。为了利用发展良好的2D特征提取器,我们基本上遵循2D检测器的主干和颈部的典型设计。对于检测头,我们首先用基于中心的范式重新表述3D目标,将其解耦为多任务学习。进一步调整了多级目标分配和中心采样的策略,使该框架具有更好的处理重叠真值和尺度方差问题的能力。

3.1 框架概述

  全卷积一级检测器通常由三个组件组成:用于特征提取的主干、用于多级分支构建的颈部和用于密集预测的检测头。然后我们简单介绍一下每一个。

主干。我们使用预训练的ResNet101[11,8]和可变形卷积[7]进行特征提取。在我们的实验中,它在准确性和效率之间取得了很好的平衡。我们固定了第一个卷积块的参数,以避免更多的内存开销。

颈部。第二个模块是特征金字塔网络[17],它是检测不同尺度目标的主要组件。为了精确说明,我们将级别3到7的特征图表示为P3到P7,如图2所示。我们遵循原始FCOS获得P3到P5,并用两个卷积块对P5进行下采样以获得P6和P7。所有这五个特征图都负责之后不同尺度的预测。

检测头。最后,对于共享检测头,我们需要处理两个关键问题。第一个是如何将目标分布到不同的特征级别和不同的点。这是不同检测器的核心问题之一,将在第3.2节中介绍。二是如何进行体系结构设计。我们遵循RetinaNet[18]和FCOS[31]的传统设计。每个共享头部由4个共享卷积块和用于不同目标的小头部组成。根据经验,为具有不同测量值的回归目标构建额外的解纠缠头更有效,因此我们为每个目标设置一个小头(图2)。

  到目前为止,我们已经介绍了我们的网络架构的总体设计。接下来,我们将更正式地阐述这个问题,并介绍详细的训练和推理程序。

回归目标。首先,我们首先回顾FCOS中用于目标检测的无锚方式的公式。给定主干第 i i i层的特征图,表示为 F i ∈ R H × W × C F_i∈R^{H×W×C} FiRH×W×C,我们需要基于该特征图上的每个点来预测目标,该点对应于原始输入图像上均匀分布的点。形式上,对于特征图 F i F_i Fi上的每个位置 ( x , y ) (x,y) (x,y),假设直到层i的总步幅是s,那么原始图像上的对应位置应该是 ( s x + ⌊ s 2 ⌋ , s y + ⌊ s 2 ⌋ ) (sx+\lfloor{\frac{s}{2}}\rfloor,sy+\lfloor{\frac{s}{2}}\rfloor) sx+2ssy+2s⌋)。与基于锚的检测器通过将预定义的锚作为参考来回归目标不同,我们直接基于这些位置来预测目标。此外,因为我们不依赖锚,判断一个点是否来自前景的标准将不再是锚和真值之间的IoU(交并比)。相反,只要该点足够靠近长方体中心,它就可以是前景点。

在这里插入图片描述

图3. 我们利用的旋转编码方案。具有相反方向的两个目标基于2英寸边界共享相同的旋转偏移,因此具有相同的sin值。为了区分它们,我们从回归分支预测了一个额外的方向类。

  在2D情况下,模型需要回归点到上/下/左/右侧的距离,在图1中表示为t、b、l、r。然而,在3D情况下,回归到3D边界框的六个面的距离并非易事。相反,一个更简单的实现是将通常定义的7-DoF回归目标转换为2.5D中心和3D大小。2.5D中心可以通过相机固有矩阵轻松地转换回3D空间。回归2.5D中心可以进一步简化为回归从中心到特定前景点的偏移量∆x、∆y及其相应深度d。此外,为了预测目标的异中心方位,我们将其分为两部分:周期为π的角度θ和2-bin方向分类。第一个组件自然地用真值框对我们预测的IOU进行建模,而第二个组件则专注于两个框具有相反方向的对抗性情况。得益于这种角度编码,我们的方法在定向精度方面超过了另一个基于中心的框架CenterNet,这将在实验中进行比较。旋转编码方案如图3所示。

  除了这些与目标的位置和方向有关的回归目标外,我们还回归了类似FCOS的二元目标中心度c。它作为一个软二进制分类器来确定哪些点更接近中心,并有助于抑制那些远离目标中心的低质量预测。更多细节见第3.3节。

  综上所述,回归分支需要预测 ∆ x 、∆ y 、 d 、 w 、 l 、 h 、 θ 、 v x 、 v y ∆x、∆y、d、w、l、h、θ、v_x、v_y xydwlhθvxvy、方向类别 C θ C_θ Cθ和中心度c,而分类分支需要输出目标的类别标签及其属性标签(图2)。

损失对于分类和不同的回归目标,我们分别定义它们的损失,并将它们的加权总和作为总损失。首先,对于分类分支,我们使用常用的焦点损失[18]来表示目标分类损失:

在这里插入图片描述

其中p是预测框的类概率。我们遵循原始论文的设置, α = 0.25 α=0.25 α=0.25 γ = 2 γ=2 γ=2。对于属性分类,我们使用一个简单的softmax分类损失,表示为 L a t t e r L_{atter} Latter

对于回归分支,我们对除中心度外的每个回归目标使用平滑L1损失,并考虑其尺度使用相应的权重:

在这里插入图片描述

其中 ∆ x 、∆ y 、 w 、 l 、 h 、 θ ∆x、∆y、w、l、h、θ xywlhθ的权重误差为1,d的权重为0.2, v x 、 v y v_x、v_y vxvy的权重为0.05。注意,尽管我们使用exp(x)进行深度预测,但我们仍然在原始深度空间而不是对数空间中计算损失。它根据经验最终导致更准确的深度估计。我们使用softmax分类损失和二进制交叉熵(BCE)损失进行方向分类和中心度回归,分别表示为 L d i r L_{dir} Ldir L c t L_{ct} Lct。最后,总损失为:

在这里插入图片描述

其中 N p o s N_{pos} Npos是阳性预测的数量, β c l s = β a t t r = β l o c = β d i r = β c t = 1 β_{cls}=β_{attr}=β_{loc}=β_{dir}=β_{ct}=1 βcls=βattr=βloc=βdir=βct=1

推理。在推理过程中,给定一个输入图像,我们通过框架将其转发,并获得具有类分数、属性分数和中心度预测的边界框。我们将类得分和中心度相乘作为每个预测的置信度,并在鸟瞰图中作为大多数3D检测器进行旋转非最大值抑制(NMS),以获得最终结果。

3.2 二维引导的多层次3D预测

  如前所述,要用金字塔网络训练检测器,我们需要设计一种策略,将目标分布到不同的特征级别。FCOS[31]在其中讨论了两个关键问题:1)与基于锚的方法相比,如何使无锚检测器实现类似的最佳可能召回(BPR),2)由真值框重叠引起的难以解决的模糊性问题。原始论文中的比较很好地解决了第一个问题。结果表明,通过FPN进行多级预测可以提高BPR,甚至比基于锚点的方法取得更好的结果。同样,这个问题的结论也适用于我们调整后的框架。第二个问题将涉及回归目标的具体设置,我们将在下面讨论。

  原始FCOS在不同级别的要素图中检测不同大小的目标。与基于锚点的方法不同,它不是分配不同大小的锚点,而是直接将不同大小的真值框分配给不同级别的特征图。形式上,它首先计算每个特征级别上每个位置的二维回归目标l*、r*、t*、b*。则满足 m a x ( l ∗ , r ∗ , t ∗ , b ∗ ) > m i max(l*,r*,t*,b*)>mi max(l,r,t,b)>mi m a x ( l ∗ , r ∗ , t ∗ , b ∗ ) < m i − 1 max(l*,r*,t*,b*)<m_{i−1} max(l,r,t,b)<mi1的位置将被视为负样本,其中 m i m_i mi表示特征级别i的最大回归范围(在我们的实验中,我们分别将 m 2 m_2 m2 m 7 m_7 m7的回归范围设置为 ( 0 , 48 , 96 , 192 , 384 , ∞ ) (0,48,96,192,384,∞) (0,48,96,192,384,))。相比之下,考虑到2D检测的规模与我们需要关注的区域大小直接一致,我们在实现中也遵循了这一标准。然而,在这个分配步骤中,我们只使用2D检测来过滤无意义的目标。在完成目标分配后,我们的回归目标仅包括与3D相关的目标。在这里,我们通过计算投影的3D边界框的外部矩形来生成2D边界框,因此我们不需要任何2D检测注释或先验。

在这里插入图片描述

图4. 我们提出的用于处理模糊情况的基于距离的目标分配可以显著提高每类的最佳召回率(BPR),尤其是对于拖车等大型目标。施工车辆和交通锥在本图中缩写为CV和TC。

  接下来,我们将讨论如何处理歧义问题。具体来说,当一个点位于同一特征级别的多个真值框内时,应该将哪个框指定给它?通常的方法是根据二维边界框的面积进行选择。将选择面积较小的框作为该点的目标框。我们称这种方案为基于面积的准则。这种方案有一个明显的缺点:这种处理会减少对大型目标的关注,这也通过我们的实验得到了验证(图4)。考虑到这一点,我们提出了一个基于距离的标准,即选择中心更近的框作为回归目标。该方案与用于定义回归目标的自适应的基于中心的机制一致。此外,这也是合理的,因为更靠近目标中心的点可以获得更全面和平衡的局部区域特征,从而容易产生更高质量的预测。通过简单的验证(图4),我们发现该方案显著提高了大目标的最佳可能回忆(BPR)和mAP,还提高了整体mAP(约1%),这将在消融研究中提出。

  除了基于中心的方法来处理模糊性外,我们还使用3D中心来确定前景点,即只有足够靠近中心的点才会被视为正样本。我们定义了一个超参数,半径,来测量这个中心部分。距离目标中心的距离小于半径×步幅的点将被认为是正的,在我们的实验中,半径被设置为1.5。

  最后,我们将不同回归分支的每个输出x替换为 s i x s_ix six,以区分不同特征级别的共享头。这里, s i s_i si是一个可训练的标量,用于调整特征级别 i i i的指数函数基。它在检测性能方面带来了微小的改进。

3.3 具有2D高斯分布的3D中心度

  在FCOS的原始设计中,中心度c由二维回归目标l*、r*、t*、b*定义:

在这里插入图片描述

由于我们的回归目标改为基于3D中心的范式,我们通过以投影的3D中心为原点的2D高斯分布来定义中心度。二维高斯分布简化为:

在这里插入图片描述

这里,α用于调整从中心到外围的强度衰减,在我们的实验中设置为2.5。我们将其作为中心度的真值,并从回归分支对其进行预测,以便稍后过滤低质量预测。如前所述,该中心度目标的范围从0到1,因此我们使用二进制交叉熵(BCE)损失来训练该分支。

4. 实验设置

4.1 数据集

  我们在一个大规模的、常用的数据集nuScenes[3]上评估我们的框架。它由从1000个场景中收集的多模态数据组成,包括来自6个环绕视图相机的RGB图像、来自5个雷达和1个激光雷达的点。它分为700/150/150个场景,用于训练/验证/测试。总共有来自10个类别的140万个带注释的3D边界框。由于其场景的多样性和真实性,它正成为3D目标检测的权威基准之一。因此,我们将其作为验证方法有效性的平台。

表1. nuScenes数据集上的结果。

在这里插入图片描述

4.2 评估指标

  我们使用官方指标、基于距离的mAP和NDS与其他方法进行公平比较。接下来,我们将简要介绍这两种指标,如下所示。

平均精度指标。在评估目标检测器的性能时,通常使用平均精度(AP)指标。nuScenes不是使用三维交并比(IoU)进行阈值处理,而是通过地平面上的二维中心距离d来定义匹配,以将检测与目标大小和方向解耦。在此基础上,我们通过计算召回率和准确率超过10%的precision-recall曲线下的归一化面积来计算AP。最后,在所有匹配阈值上计算mAP,D={0.5,1,2,4}米,并且所有类别C:

在这里插入图片描述

真阳性指标。除平均精度外,我们还计算了五种真阳性指标,即平均平移误差(ATE)、平均尺度误差(ASE)、平均方位误差(AOE)、平均速度误差(AVE)和平均属性误差(AAE)。为了获得这些测量结果,我们首先定义,与匹配真值的中心距离d≤2m的预测将被视为真阳性(TP)。然后对每一类目标独立进行匹配和评分,每个指标是每个召回水平超过10%的平均累积平均值。ATE是2D(m)中的欧几里得中心距离。ASE等于1−IOU,IOU是在对齐它们的平移和方向后在预测和标签之间计算的。AOE是预测和标签之间最小的偏航角差(弧度)。注意,与其他类别不同的是在整个360◦ 时期上测量,在在180◦ 时期上测量。AVE是2D中绝对速度误差的L2范数(m/s)。AAE定义为1−acc,其中acc是指属性分类的准确性。最后,给定这些指标,我们计算所有类别的平均TP指标(mTP):

在这里插入图片描述

请注意,考虑到锥体和障碍物是静止的,将省略未定义的指标,如它们的AVE。

NuScenes检测分数。传统的mAP结合了对检测位置、大小和方向的评估,也无法捕捉该设置中的某些方面,如速度和属性,因此该基准提出了一个更全面、解耦但简单的指标,即nuScenes检测分数(NDS):

在这里插入图片描述

其中mAP是平均平均精度(mAP),TP是由五个真阳性指标组成的集合。考虑到mAVE、mAOE和mATE可以大于1,应用一个界限将它们限制在0和1之间。

4.3 实施细节

网络体系结构。如图2所示,我们的框架遵循FCOS的设计。给定输入图像,我们使用ResNet101作为特征提取主干,然后使用特征金字塔网络(FPN)来生成多级预测。检测头在多层次特征图中共享,不同之处在于使用三个比例因子来区分它们的一些最终回归结果,分别包括偏移、深度和大小。所有卷积模块都由基本卷积、批处理归一化和激活层组成,并利用正态分布进行权重初始化。整体框架建立在MMDetection3D[6]之上。

训练参数。对于所有实验,我们按照端到端的方式从头开始训练随机初始化的网络。模型使用SGD优化器进行训练。在16个GTX 1080Ti GPU上,梯度剪辑和预热策略的学习率为0.002,预热迭代次数为500,预热比为0.33,批量大小为32。我们对深度回归应用0.2的权重来训练我们的基线模型,以使训练更加稳定。为了获得更具竞争力的性能和更准确的检测器,我们将权重切换为1来微调我们的模型。消融研究中给出了相关结果。

数据增强。与之前的工作一样,我们只在训练和测试时实现图像翻转以进行数据增强。注意,当翻转图像时,只有偏移量需要被翻转为2D属性,并且3D框需要在3D空间中相应地变换。对于测试时间的增加,我们对检测头输出的分数图进行平均,但旋转和速度相关的分数除外,因为它们不准确。从经验上讲,这是一种比合并方框更有效的增强方法。

表2. nuScenes测试基准上每个类别的平均精度。CV和TC是表中施工车辆和交通锥的缩写。

在这里插入图片描述

表3. nuScenes验证3D检测基准的消融研究。

在这里插入图片描述

5. 结果

  在本节中,我们给出了定量和定性的结果,并对推动我们的方法走向最先进的关键因素进行了详细的消融研究。

5.1 定量分析

  首先,我们将定量分析的结果显示在表1中。我们分别比较了测试集和验证集的结果。我们首先比较了使用RGB图像作为测试集输入数据的所有方法。其中mAP 0.358和NDS 0.428的性能最好。特别是,我们的方法在mAP方面超过了以前最好的方法2%以上。使用激光雷达数据作为输入的基准包括速度更快、重量更轻的PointPillars[14]和性能相对较高的CBGS[39](表1中的MEGVII)。对于使用RGB图像和雷达数据输入的方法,我们选择CenterFusion[22]作为基准。可以看出,尽管我们的方法与高性能CBGS有一定的差距,但在mAP上甚至超过了PointPillars和CenterFusion。这表明,只要有足够的数据,我们就能很好地解决这个不适定问题。同时,可以看出,使用其他数据模式的方法具有相对较好的NDS,主要是因为mAVE较小。原因是其他方法引入了连续的多帧数据,例如来自连续帧的点云数据,以预测目标的速度。此外,雷达可以测量速度,因此即使使用单帧图像,CenterFusion也可以实现合理的速度预测。然而,这些并不是仅靠单个图像就能实现的,因此如何从连续的帧图像中挖掘速度信息将是未来可以探索的方向之一。有关每个类别的详细mAP,请参阅表2和官方基准。

  在验证集上,我们将我们的方法与最好的开源检测器CenterNet进行了比较。他们的方法不仅需要大约三天的训练时间(相比之下,我们只要一天的时间达到类似的性能,这可能要归功于我们预先训练过的骨干),而且除了mATE之外,他们的方法也不如我们的方法。特别是,由于我们的旋转编码方案,我们在角度预测的准确性方面取得了显著提高。mAP的显著改进反映了我们多级预测的优越性。基于这些方面的所有改进,我们最终在NDS上实现了约9%的收益。

5.2 定性分析

  然后,我们在图5中显示了一些定性结果直观地了解了我们模型的性能。首先,在图5中,我们在六视图图像和顶视图点云中绘制了预测的3D边界框。例如,右后方摄像头中的障碍物没有标记,而是由我们的模型检测到的。然而,同时我们也应该看到,我们的方法在遮挡目标的深度估计和识别方面仍然存在明显的问题。例如,很难在左后图像中检测到被阻挡的汽车。此外,从俯视图来看,特别是在深度估计方面,结果不如图像中所示的结果好。这也符合我们的预期,即深度估计仍然是这个不适定问题的核心挑战。

在这里插入图片描述

图5. 检测结果的定性分析。将3D边界框预测分别投影到来自六个不同视图和鸟瞰图的图像上。不同类别的方框用不同的颜色标记。我们可以看到,除了左侧部分的错误类预测的一些检测之外,结果是合理的。此外,我们的模型检测到了一些小目标,但没有被注释为真值,比如后/右后相机中的障碍物。然而,除了这种设置中固有的遮挡问题外,一些目标的深度和方向估计仍然不准确,这可以在鸟瞰图的可视化中观察到。

5.3 消融研究

最后,我们在表3中展示了整个研究过程中的一些关键因素。可以看出,在前期过程中,将深度转换回原始空间以计算损失是提高mAP的重要因素,而基于距离的目标分配是提高整体NDS的重要因素。更强的主干,例如用ResNet101取代原来的ResNet50和使用DCN,在后期的推广过程中至关重要。同时,由于尺度和测量的差异,对不同的回归目标使用解纠缠头也是提高角度预测和NDS精度的一种有意义的方法。最后,我们通过简单的增强、更多的训练时期和基本的模型集成实现了当前的最先进技术。

6. 结论

  本文提出了一种简单而高效的单阶段框架FCOS3D,用于单目3D目标检测,无需任何2D检测或2D-3D对应先验。在该框架中,我们首先将通常定义的7-DoF 3D目标转换到图像域,并将其解耦为2D和3D属性,以适应3D设置。在此基础上,考虑到目标的2D比例,将目标分布到不同的特征级别,并仅根据3D中心进行进一步分配。此外,使用基于3D中心的2D高斯分布来重新定义中心度,以与我们的目标公式兼容。详细消融研究的实验结果表明了我们方法的有效性。对于未来的工作,一个有希望的方向是如何在这种不适定的环境中更好地解决深度和方向估计的困难。

References

[1] Garrick Brazil and Xiaoming Liu. M3d-rpn: Monocular 3d region proposal network for object detection. In IEEE International Conference on Computer Vision, 2019. 1, 2
[2] Garrick Brazil, Gerard Pons-Moll, Xiaoming Liu, and Bernt Schiele. Kinematic 3d object detection in monocular video. In Proceedings of the European Conference on Computer Vision, 2020. 1
[3] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, and Oscar Beijbom. nuscenes: A multimodal dataset for autonomous driving. CoRR, abs/1903.11027, 2019. 2, 5
[4] Xiaozhi Chen, Kaustav Kundu, Yukun Zhu, Andrew G. Berneshawi, Huimin Ma, Sanja Fidler, and Raquel Urtasun. 3d object proposals for accurate object class detection. In Conference on Neural Information Processing Systems, 2015. 2
[5] Yongjian Chen, Lei Tai, Kai Sun, and Mingyang Li. Monopair: Monocular 3d object detection using pairwise spatial relationships. In IEEE Conference on Computer Vision and Pattern Recognition, 2020. 2
[6] MMDetection3D Contributors. MMDetection3D: OpenMMLab next-generation platform for general 3D object detection. https://github.com/open-mmlab/mmdetection3d, 2020. 6
[7] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In IEEE International Conference on Computer Vision, 2017. 3
[8] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Fei-Fei Li. Imagenet: A large-scale hierarchical image database. In IEEE Conference on Computer Vision and Pattern Recognition, 2009. 3
[9] Mingyu Ding, Yuqi Huo, Hongwei Yi, Zhe Wang, Jianping Shi, Zhiwu Lu, and Ping Luo. Learning depth-guided convolutions for monocular 3d object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2020. 1
[10] Ross Girshick. Fast r-cnn. In IEEE International Conference on Computer Vision, 2015. 2
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition, 2016. 3
[12] Lichao Huang, Yi Yang, Yafeng Deng, and Yinan Yu. Densebox: Unifying landmark localization with end to end object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2015. 2
[13] Eskil J¨orgensen, Christopher Zach, and Fredrik Kahl. Monocular 3d object detection and box fitting trained end-to-end using intersection-over-union loss. CoRR, abs/1906.08070, 2019. 1, 2
[14] Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, and Oscar Beijbom. Pointpillars: Fast encoders for object detection from point clouds. In IEEE Conference on Computer Vision and Pattern Recognition, 2019. 1, 6, 7
[15] Hei Law and Jia Deng. Cornernet: Detecting objects as paired keypoints. In European Conference on Computer Vision, 2018. 2
[16] Peixuan Li, Huaici Zhao, Pengfei Liu, and Feidao Cao. Rtm3d: Real-time monocular 3d detection from object keypoints for autonomous driving. In European Conference on Computer Vision, 2020. 1, 2
[17] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2017. 3
[18] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar. Focal loss for dense object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2017. 1, 3, 4
[19] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C. Berg. Ssd: Single shot multibox detector. In Proceedings of the European Conference on Computer Vision, 2016. 2
[20] Fabian Manhardt, Wadim Kehl, and Adrien Gaidon. Roi-10d: Monocular lifting of 2d detection to 6d pose and metric shape. In IEEE Conference on Computer Vision and Pattern Recognition, 2019. 1
[21] Arsalan Mousavian, Dragomir Anguelov, John Flynn, and Jana Kosecka. 3d bounding box estimation using deep learning and geometry. In IEEE Conference on Computer Vision and Pattern Recognition, 2017. 2
[22] Ramin Nabati and Hairong Qi. Centerfusion: Center-based radar and camera fusion for 3d object detection. In IEEE Winter Conference on Applications of Computer Vision, 2020. 6, 7
[23] Rui Qian, Divyansh Garg, Yan Wang, Yurong You, Serge Belongie, Bharath Hariharan, Mark Campbell, Kilian Q Weinberger, and Wei-Lun Chao. End-to-end pseudo-lidar for image-based 3d object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5881–5890, 2020. 2
[24] Cody Reading, Ali Harakeh, Julia Chae, and Steven L. Waslander. Categorical depth distributionnetwork for monocular 3d object detection. CVPR, 2021. 2
[25] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2016. 2
[26] Joseph Redmon and Ali Farhadi. Yolo9000: Better, faster, stronger. In IEEE Conference on Computer Vision and Pattern Recognition, 2017. 2
[27] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems, 2015. 1, 2
[28] Thomas Roddick, Alex Kendall, and Roberto Cipolla. Orthographic feature transform for monocular 3d object detection. CoRR, abs/1811.08188, 2018. 2
[29] Shaoshuai Shi, Xiaogang Wang, and Hongsheng Li. Pointrcnn: 3d object proposal generation and detection from point cloud. In IEEE Conference on Computer Vision and Pattern Recognition, 2019. 1
[30] Andrea Simonelli, Samuel Rota Rota Bul`o, Lorenzo Porzi, Manuel L´opez-Antequera, and Peter Kontschieder. Disentangling monocular 3d object detection. In IEEE International Conference on Computer Vision, 2019. 1, 2, 6, 7
[31] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2019. 1, 2, 3, 4
[32] Tai Wang, Xinge Zhu, and Dahua Lin. Reconfigurable voxels: A new representation for lidar-based point clouds. In Conference on Robot Learning, 2020. 1
[33] Xinlong Wang, Wei Yin, Tao Kong, Yuning Jiang, Lei Li, and Chunhua Shen. Task-aware monocular depth estimation for 3d object detection. In AAAI Conference on Artificial Intelligence, 2020. 2
[34] Yan Wang, Wei-Lun Chao, Divyansh Garg, Bharath Hariharan, Mark Campbell, and Kilian Q. Weinberger. Pseudo-lidar from visual depth estimation: Bridging the gap in 3d object detection for autonomous driving. In IEEE Conference on Computer Vision and Pattern Recognition, 2019. 2
[35] Bin Xu and Zhenzhong Chen. Multi-level fusion based 3d object detection from monocular images. In IEEE Conference on Computer Vision and Pattern Recognition, 2018. 2
[36] Yurong You, Yan Wang, Wei-Lun Chao, Divyansh Garg, Geoff Pleiss, Bharath Hariharan, Mark Campbell, and Kilian Q Weinberger. Pseudo-lidar++: Accurate depth for 3d object detection in autonomous driving. In ICLR, 2020. 2
[37] Xingyi Zhou, Dequan Wang, and Philipp Kr¨ahenb¨uhl. Objects as points. CoRR, abs/1904.07850, 2019. 2, 6, 7
[38] Yin Zhou and Oncel Tuzel. Voxelnet: End-to-end learning for point cloud based 3d object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2018. 1
[39] Benjin Zhu, Zhengkai Jiang, Xiangxin Zhou, Zeming Li, and Gang Yu. Class-balanced grouping and sampling for point cloud 3d object detection. CoRR, abs/1908.09492, 2019. 6, 7
[40] Xinge Zhu, Yuexin Ma, Tai Wang, Yan Xu, Jianping Shi, and Dahua Lin. Ssn: Shape signature networks for multi-class object detection from point clouds. In Proceedings of the European Conference on Computer Vision, 2020. 1
[41] Xinge Zhu, Hui Zhou, Tai Wang, Fangzhou Hong, Yuexin Ma, Wei Li, Hongsheng Li, and Dahua Lin. Cylindrical and asymmetrical 3d convolution networks for lidar segmentation. In Proceedings of the European Conference on Computer Vision, 2021. 1

猜你喜欢

转载自blog.csdn.net/i6101206007/article/details/132133046