CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection

原文链接:https://arxiv.org/pdf/2011.04841.pdf

标题:CenterFusion:用于三维目标检测的基于中心的雷达和相机融合

摘要:自动驾驶汽车中的感知系统负责检测和跟踪周围物体。这通常是通过利用几种感知模式来提高鲁棒性和准确性来实现的,这使得传感器融合成为感知系统的关键部分,我们专注于雷达和相机传感器的融合问题,并提出了一种中间融合方法来利用雷达和相机数据进行三维目标检测。我们的方法称为CenterFusion,首先使用中心点检测网络通过识别图像上的中心点来检测对象。然后,它使用一种新的基于截锥体的方法将雷达检测与其对应对象的中心点相关联,从而解决了关键数据关联问题。相关的雷达检测用于生成基于雷达的特征图,以补充图像特征,并回归到物体属性,如深度、旋转和速度。我们在具有挑战性的裸体数据集上评估了CenterFusion,它将最先进的基于相机的算法的整体裸体检测分数(NDS)提高了12%以上。我们进一步表明,在不使用任何额外的时间信息的情况下,CenterFusion显著提高了速度估计的准确性。代码位于https://github.com/mrnabati/CenterFusion

1.介绍

自动驾驶汽车通常配备不同类型的传感器,以利用它们的互补特性。使用多传感器模态提高了鲁棒性和准确性,但也给感知系统的设计带来了新的挑战。传感器融合是这些挑战之一,近年来,它推动了2D和3D目标检测[4,10,14,19]、语义分割[33,16]和目标跟踪[1,7]的许多研究。

最近的传感器融合方法大多侧重于利用激光雷达和相机进行三维物体检测。激光雷达利用激光脉冲的飞行时间来计算到周围物体的后期距离。激光雷达在近距离提供精确的3D测量,但在远距离产生的点云变得稀疏,降低了系统准确检测远处物体的能力。相机提供了丰富的外观特征,但不是深度估计的良好信息来源。这些互补的特征使激光雷达相机传感器融合成为近年来人们感兴趣的话题。这种组合已被证明可以在包括自动驾驶在内的许多应用中实现3D物体检测的高精度,但也有其局限性。相机和激光雷达都对不利的天气条件(如雪、雾、雨)敏感,这会大大降低它们的视野和传感能力。此外,如果不使用时间信息,激光雷达和相机就无法检测物体的速度。在许多情况下,估计物体的速度是避免碰撞的关键要求,而在时间紧迫的情况下,依赖时间信息可能不是可行的解决方案。

多年来,毫米波雷达一直被用于车辆中的高级驾驶辅助系统(ADAS)应用,如防撞和自适应巡航控制(ACC)。与激光雷达和相机相比,毫米波雷达对恶劣的天气条件非常鲁棒,能够在很长的距离内探测物体(汽车雷达可达200米)。毫米波雷达利用多普勒效应精确估计所有探测物体的速度,而不需要任何时间信息。此外,与激光雷达相比,毫米波雷达点云在用作目标检测结果之前需要较少的处理。与激光雷达相比,这些功能及其较低的成本使雷达成为自动驾驶应用中流行的传感器。

尽管雷达在汽车行业很受欢迎,但很少有研究将雷达数据与其他传感器融合。其中一个原因是,没有太多包含自动驾驶应用毫米波雷达数据的数据集,这使得在该领域进行研究变得困难。此外,由于激光雷达和毫米波雷达点云之间的固有差异,将现有的基于激光雷达的算法应用或调整到毫米波雷达点云被证明是极其困难的毫米波雷达点云比其激光雷达计数器部分要稀疏得多,因此无法用于提取物体的几何信息。聚合多个毫米波雷达扫描增加了点的密度,但也给系统引入了延迟。此外,尽管毫米波雷达点云通常在3D坐标系中表示为点,但报告的点的垂直测量通常不准确,甚至不存在,因为大多数汽车毫米波雷达只报告到物体的距离和方位角

为了有效地组合多种传感模式,利用神经网络中的分层特征表示,已经开发了多种传感器融合方案[8]。在早期融合方法中,来自不同传感器模态的原始或预处理的感知数据被融合在一起。通过这种方法,网络从感知模态中学习联合表示。早期的融合方法通常对数据的空间或时间错位很敏感[8]。另一方面,后期融合方法决策层面结合了来自不同模态的数据,并为将新的感知模态引入网络提供了更大的灵活性。然而,后期融合方法并没有充分利用可用感知模态的潜力,因为它没有获得通过学习联合表示获得的中间特征。早期和晚期融合方法之间的折衷被称为中期融合它从不同的模态中单独提取特征,并在中间阶段将其组合,使网络能够学习联合表示,并在灵敏度和灵活性之间建立平衡。

我们提出了CenterFusion,这是一种利用雷达和相机数据进行三维目标检测的中间融合方法CenterFusion专注于将雷达检测与从图像中获得的初步检测结果相关联,然后生成雷达特征图,并将其与图像特征一起用于准确估计物体的3D边界框。特别地,我们使用关键点检测网络生成初步的3D检测,并提出了一种新的基于截头体的雷达关联方法,以准确地将雷达检测与其在3D空间中的对应对象相关联。然后将这些雷达检测映射到图像平面,并用于创建特征图以补充基于图像的特征。最后,融合特征用于准确估计物体的三维属性,如深度、旋转和速度。CenterFusion的网络架构如图1所示。

图1.CenterFusion网络架构。首先使用由主干提取的图像特征来获得初步的3D框。截头体关联模块使用预备框将雷达检测与物体相关联,并生成雷达特征图。然后,图像和雷达特征图被连接起来,并用于通过重新计算深度和旋转以及估计物体的速度和属性来细化初步检测。

我们在具有挑战性的nuScenes[2]数据集上评估了CenterFusion,在3D对象检测基准中,它优于以前所有基于相机的对象检测方法。我们还表明,在不使用任何时间信息的情况下,利用毫米波雷达信息显著提高了物体的速度估计。

2.相关工作

2.1 单目方法

单目3D目标检测方法使用单个相机来估计对象的3D边界框。已经报道了许多研究,采用不同的方法从单目图像中提取深度信息。3D RCNN[11]使用带有额外头部和3D投影的Fast R-CNN[9]。它还使用一组CAD模型来学习目标的类别特定形状先验。Deep3DBox[17]首先使用卷积神经网络回归一组3D对象属性,然后使用2D边界框的几何约束为对象生成3D边界框。CenterNet[34]采用了不同的方法,并使用关键点检测网络来查找图像上对象的中心点。通过仅使用对象中心点处的图像特征的回归来获得诸如3D尺度和位置之类的其他对象特性。

近年来,激光雷达已被广泛用于自动驾驶应用中的三维物体检测和跟踪。大多数基于激光雷达的方法要么使用3D体素[12,35],要么使用2D投影[13,5,29,31]进行点云表示。由于体素网格的高维性,基于体素的方法通常很慢,并且基于投影的方法可能会因投影平面的不同而导致对象形状和大小的巨大差异。PointRCNN[25]直接对原始点云进行操作,并使用点云分割以自下而上的方式生成3D对象建议。这些建议在第二阶段进行了完善,以生成最终的检测框。

2.2 基于融合的方法

现有的传感器融合方法大多集中在激光雷达和相机的融合问题上。除了RGB图像外,MV3D[4]还从激光雷达数据的前视图和鸟瞰图(BEV)表示中提取特征。然后,从激光雷达的BEV获得的特征被用于生成3D对象建议,深度融合网络被用于组合每个视图的特征,并预测对象类别和检测框方向。PointFusion[28]分别使用CNN和PointNet模型处理图像和激光雷达数据,然后使用提取的特征生成3D对象建议。Frustum PointNet[23]直接对从RGB-D相机获得的原始点云进行操作,并使用RGB图像和2D目标检测器来定位点云中的对象。

很少有研究将毫米波雷达与其他传感器融合用于自动驾驶应用。RadarNet[30]融合毫米波雷达和激光雷达数据,用于3D目标检测。它使用早期融合机制来学习两个传感器的联合表示,使用后期融合机制来利用雷达的径向速度证据并提高目标的评估速度。在[3]中,Chadwick等人将雷达探测投影到图像平面,并使用它们来提高远距离物体的目标探测精度。在[20]中,作者首先使用雷达检测来生成3D对象建议,然后将其投影到图像平面,以执行联合2D对象检测和深度估计。CRFNet[22]也将雷达检测投影到图像平面,但将其表示为垂直线,其中像素值对应于每个检测点的深度。然后用雷达信息增强图像数据,并在卷积网络中使用图像数据来执行2D对象检测。

3.初步措施

3.1 毫米波雷达点云

毫米波雷达是一种主动传感器,它发射无线电波来感知环境,并测量反射波来确定物体的位置和速度。汽车毫米波雷达通常将探测到的物体报告为BEV(鸟瞰图)中的二维点,提供物体的方位角和径向距离。对于每次探测,毫米波雷达还报告物体在径向方向上的瞬时速度。这个径向速度不一定与物体在运动方向上的实际速度矢量相匹配。图2显示了毫米波雷达报告的径向与车辆坐标系中物体的实际速度之间的差异。

 图2.实际速度和径向速度之间的差异。对于目标A,车辆坐标系中的速度和径向速度(vA)相同。另一方面,对于目标B,雷达报告的径向速度(vr)与车辆坐标系中物体的实际速度(vB)不同。

我们将每个雷达探测表示为自中心坐标系中的一个3D点,并将其参数化为P=(x,y,z,Vx,Vy),其中(x,y,z)是位置,(Vx,Vy)是报告的物体在x和y方向上的径向速度。径向速度由车辆的自主运动抵消。对于每个场景,我们集合毫米波雷达点云的3次扫描(过去0.25秒内的检测)。nuScenes数据集提供了将毫米波雷达点云从雷达坐标系映射到相机坐标系和自我中心所需的校准参数。

3.2 CenterNet

CenterNet[34]代表了使用单摄像头进行三维物体检测的最先进技术。它以图像I\epsilon\mathbb{R}^{W\times H\times 3}为输入,并生成关键点热图\widehat{Y}\epsilon [0,1]^{\frac{W}{R}\times \frac{H}{R}\times C}作为输出,其中W和H是图像的宽度和高度,R是下采样率,C是目标类别的数量。\widehat{Y}_{x,y,c}=1Yx,y,c=1的一个预测作为输出来指示以图像上的位置(x,Y)为中心检测到的类c的对象。地面真值热图Y\epsilon [0,1]^{\frac{W}{R}\times \frac{H}{R}\times C}是使用高斯核从地面真值2D边界框生成的。对于图像中c类的每个边界框中心点pi\epsilon \mathbb{R}^{2},在Y_{:,:,c}上生成高斯热图。类c在位置q\epsilon \mathbb{R}^{2}的Y的最终值定义为[34]:

其中σi是尺寸自适应标准偏差,根据每个对象的尺寸控制热度图(heatmap)的尺寸。使用全卷积编码-解码器网络来预测\widehat{Y}

为了生成三维边界框,使用单独的网络头直接从检测到的中心点回归目标的深度、尺寸和方向。在将Eigen等人[6]中使用的逆S形变换应用于原始深度域之后,深度被计算为额外的输出通道\widehat{D}\epsilon [0,1]^{\frac{W}{R}\times \frac{H}{R}}。将目标维度直接回归到它们的绝对值(以米为单位),作为三个输出通道:\widehat{\Gamma }\epsilon [0,1]^{\frac{W}{R}\times \frac{H}{R}\times 3}。按照Mousavian等人[18]中的方向表示,方向被编码为两个仓(bin),每个仓(bin)中有4个标量。对于每个中心点,还预测了局部偏移,以补偿骨干网络中输出步长引起的离散化误差[34]。

给定注释对象p0,p1...在图像中,基于焦点损失[15],训练目标定义如下:

 其中N是物体的数量,Y\epsilon [0,1]^{\frac{W}{R}\times \frac{H}{R}\times C}是被注释物体的地面实况热图,α和β是焦点损失超参数。

4.CenterFusion

在本节中,我们介绍了用于3D物体检测的雷达和相机传感器融合方法。整个CenterFusion架构如图1所示。我们采用[34]作为我们的基于中心的对象检测网络来检测图像平面上对象的中心点,并回归到其他对象属性,如3D位置、方向和维度。我们提出了一种中间融合机制,将雷达检测与其对应目标的中心点相关联,并利用雷达和图像特征,通过重新估计其深度、速度、旋转和属性来改进初步检测。

我们的融合机制的关键是雷达探测与物体的精确关联。中心点目标检测网络为图像中的每个对象类别生成热度图。热度图中的峰值表示对象的可能中心点,并且这些位置处的图像特征用于估计其他对象属性。为了利用这种设置中的雷达信息,需要将基于雷达的特征映射到图像上相应对象的中心,这需要雷达检测和场景中对象之间的精确关联。

4.1 中心点检测

我们采用CenterNet[34]检测网络对图像进行初步检测。首先使用全卷积编码器主干网络提取图像特征。我们遵循CenterNet[34],并使用深层聚合(DLA)网络[32]的修改版本作为主干。然后,提取的图像特征用于预测图像上的目标中心点,以及目标2D尺寸(宽度和高度)、中心偏移、3D尺寸、深度和旋转。如图1所示,这些值由主回归头预测。每个主回归头由一个具有256个通道的3×3卷积层和一个生成所需输出的1×1卷积层组成。这为场景中的每个检测到的对象提供了精确的2D边界框以及初步的3D边界框。

4.2 毫米波雷达联合

中心点检测网络仅使用每个目标中心的图像特征来回归到所有其他目标属性。为了在这个过程中充分利用雷达数据,我们首先需要将雷达探测与其在图像平面上的对应目标相关联。为了实现这一点,一种简单的方法是将每个雷达检测点映射到图像平面,如果该点映射在该物体的2D边界框内,则将其与该物体相关联。这不是一个非常稳健的解决方案,因为雷达检测和图像中的物体之间没有一对一的映射;场景中的许多对象生成多个雷达检测,也有不对应于任何对象的雷达检测。此外,由于雷达检测的z维度不准确(或根本不存在),映射雷达检测可能最终在其对应目标的2D边界框之外。最后,从被遮挡物体获得的雷达探测将映射到图像中的相同区域,这使得在2D图像平面中对它们进行区分变得困难,如果可能的话。

截锥关联机制:我们开发了一种截锥关联方法,该方法使用对象的2D边界框及其估计的深度和大小来为对象创建3D感兴趣区域(RoI)截锥体。有了对象的精确2D边界框,我们为该对象创建了一个截锥体,如图3所示。这大大缩小了需要检查关联的雷达检测范围,因为这个截头体之外的任何点都可以被忽略。然后,我们使用估计的物体深度、尺寸和旋转来创建物体周围的RoI,以进一步过滤掉与该物体无关的雷达探测。如果这个RoI内部有多个雷达探测,我们将最近的点作为该物体对应的雷达探测。

在训练阶段,我们使用对象的3D地面真值边界框来创建紧密的RoI截锥体,并将雷达检测与目标相关联。在测试阶段,如前所述,使用对象的估计三维边界框计算RoI截锥体。在这种情况下,我们使用参数δ来控制RoI截锥体的大小,如图3所示。这是为了说明估计的深度值的不准确性,因为在此阶段的对象的深度仅使用基于图像的特征来确定。使用此参数放大截锥体会增加在截锥体内部包括相应雷达探测的机会,即使估计的深度略有偏差。应仔细选择δ的值,因为大型RoI截锥体可能包括附近物体的雷达探测。

图3.截锥关联。使用图像特征检测到的对象(左),基于对象的3D边界框生成ROI截锥体(中),以及显示截锥体内部雷达检测的ROI截锥体内BEV(右)。δ用于在测试阶段增加截锥体的尺寸。\widehat{d}是训练阶段的地面真值深度和测试阶段的估计物体深度。

RoI截锥体方法可以轻松地关联重叠的对象,因为对象在3D空间中是分离的,并且会有单独的RoI截锥体。它还消除了多检测关联问题,因为只有RoI截锥体内最近的雷达检测与对象关联。然而,这无助于解决不准确的z维度问题,因为雷达探测可能由于其不准确的高度信息而在其对应目标的ROI截锥体之外。

支柱扩展:为了解决高度信息不准确的问题,我们引入了一个称为支柱扩展的雷达点云预处理步骤,其中每个雷达点被扩展到一个固定大小的支柱,如图4所示。支柱为雷达检测到的物理对象创建了更好的表示,因为这些检测现在与3D空间中的维度相关联。有了这个新的表示,我们只需将雷达探测视为在截锥体内部,如果其相应支柱的全部或部分位于截锥体内,如图1所示。

图4.将雷达点扩展到3D支柱(上图)。将支柱直接映射到图像并替换为雷达深度信息会导致与物体中心的关联性较差,并导致许多重叠的深度值(中间图像)。截锥关联将雷达探测准确地映射到物体的中心,并最大限度地减少重叠(底部图像)。雷达探测仅与具有有效地面实况或探测框的物体相关联,并且仅当雷达探测柱的全部或部分位于该框内时。截锥关联还防止将背景物体(如建筑物)引起的雷达检测与前景物体相关联,如在图像右侧的行人的情况下所见。

4.3 雷达特征提取

在将雷达探测与其对应的物体相关联后,我们使用雷达探测的深度和速度来为图像创建互补特征。特别是,对于与物体相关的每一次雷达探测,我们都会生成三个热度图通道,这些通道以物体的2D边界框为中心并位于其内部,如图4所示。热图的宽度和高度与对象的2D边界框成比例,并由参数α控制。热图值是归一化的对象深度(d),以及自中心坐标系中径向速度(vx和vy)的x和y分量:

 其中i∈1,2,3是特征图通道,Mi是归一化因子,fi是特征值(d,vx或vy),c_{x}^{j}c_{y}^{j}是图像上第j个对象的中心点的x和y坐标,w^{j}h^{j}是第j个物体的2D边界框的宽度和高度。如果两个对象具有重叠的热图区域,则深度值较小的对象占主导地位,因为只有最近的对象在图像中完全可见。

然后将生成的热图作为额外通道连接到图像特征。这些特征被用作二次回归头的输入,以重新计算对象的深度和旋转,以及速度和属性。速度回归头估计车辆坐标系中物体实际速度的x和y分量。属性回归头为不同的对象类估计不同的属性,例如为汽车类移动或停放,为行人类站立或坐。二次回归头由三个具有3×3核的卷积层组成,然后是一个1×1卷积层,以生成所需的输出。与主回归头相比,额外的卷积层有助于从雷达特征图中学习更高级别的特征。最后一步是将回归头结果解码为3D边界框。边界框解码器块使用二次回归头的估计深度、速度、旋转和属性,并从一次回归头获取其他对象属性。

5.实施细节

我们使用带有DLA[32]主干的预训练的CenterNet[34]网络作为我们的目标检测网络。DLA使用迭代深度聚合层来提高特征图的分辨率。CenterNet比较了其使用不同骨干架构的性能,Hourglass网络[21]的性能优于其他网络。我们选择使用DLA网络,因为它在提供合理性能的同时,训练所需的时间要少得多。

我们直接使用已发布的CenterNet模型,该模型在nuScenes数据集上训练了140个时期。默认情况下,此模型不提供速度和属性预测。我们训练了30个时期的速度和属性头,并使用由此产生的模型作为我们的基准。我们网络中的二次回归头被添加到CenterNet骨干网络的顶部,并在两个Nvidia P5000 GPU上使用图像和雷达特征进行额外60个时期的训练,批量大小为26。

在训练和测试过程中,我们将图像分辨率从原来的1600×900像素降低到800×450像素。在训练期间使用数据增强,随机左右翻转(概率为0.5)和随机移位(从图像大小的0%到20%)。同样的增强也参考相机坐标系应用于雷达点云。我们不应用任何缩放增强,因为它会改变3D测量。在测试时,我们只使用翻转(flip)测试增强,其中图像及其翻转版本被馈送到网络中,并且网络输出的平均值用于解码3D边界框。我们没有使用CenterNet使用的多尺度测试增强。支柱尺寸在[x,y,z]方向上设置为[0.2,0.2,1.5]米,δ设置为在测试时将RoI截头体的长度在径向方向上增加20%。

我们对大多数回归头使用L1损失,但使用焦点损失的中心点热图头和使用二进制交叉熵(BCE)损失的属性回归头除外。

6.结果

我们将我们的雷达和相机融合网络与基于nuScenes基准的最先进的基于相机的模型以及基于激光雷达的方法进行了比较。表1显示了nuScenes数据集的测试和验证拆分的结果。我们与基于相机的3D物体检测网络OFT[24]、MonoDIS[26]和CenterNet[34]以及基于激光雷达的方法InfoFocus[27]进行了比较。如表1所示,CenterFusion在nuScenes NDS得分方面优于所有其他方法,该得分是mAP和误差度量的加权和。在测试数据集上,与CenterNet和MonoDIS相比,CenterFusion显示NDS得分分别相对增加了12.25%和16.9%。与其他方法相比,基于激光雷达的方法InfoFocus在mAP得分方面表现出更好的性能,但在方向、速度和属性误差指标方面明显优于CenterFusion。虽然在测试拆分上,与CenterFusion(1.2%的差异)相比,带有Hourglass[21]骨干网络的CenterNet的mAP得分更好,但验证拆分的结果表明,当两个网络使用相同的DLA[32]骨干时,CenterFusion的性能优于CenterNet 2.6%。验证集结果还显示,CenterFusion在所有其他指标上都改进了CenterNet。与CenterNet相比,CenterFusion显示NDS和速度误差指标的绝对增益分别增加了38.1%和62.1%,这证明了使用雷达特征的有效性。

表1.nuScenes数据集上3D对象检测的性能比较。mATE、mASE、mAOE、mAVE和mAAE分别代表平均平移、比例、方向、速度和属性误差。↑ 表示越高越好↓ 表示越低越好。”“C”、“R”和“L”分别指定相机、雷达和激光雷达模态。

表2比较了测试和验证划分的每类mAP结果。虽然在测试集中的大多数类别中,带有Hourglass主干的CenterNet的mAP高于CenterFusion,但在两种方法都使用DLA主干的验证集中,它的性能优于CenterFusion。验证集中改进最多的类别是摩托车和汽车,其mAP绝对值分别增加了5.6%和4.0%。

表2.nuScenes数据集上3D对象检测的每类性能比较。

图5展示了相机和BEV中的3D物体检测结果。它显示了CenterFusion(第1行和第2行)和CenterNet(第3行和第4行)对4个不同场景的检测结果。雷达点云也显示在CenterFusion的BEV结果中。与CenterNet相比,CenterFusion的结果在大多数情况下与3D边界框更匹配,尤其是距离较大的物体,例如第二个场景中的远处车辆。此外,与CenterNet的结果相比,CenterFusion估计的速度矢量显示出显著的改进,如第二个和第三个场景所示。

图5.相机视图和BEV中来自CenterFusion(第1行和第2行)和CenterNet(第3行和第4行)的定性结果。在BEV图中,探测框显示为青色,地面实况框显示为红色。雷达点云显示为绿色。物体上的红色和蓝色箭头分别显示地面实况和预测速度矢量。 

7.消融研究

我们通过对nuScenes验证集进行消融研究来验证我们的融合方法的有效性。我们使用CenterNet模型作为我们的基准,并研究了支柱扩展(pillar expansion)截锥体关联(frustum association)翻转测试(flip testing)对检测结果的有效性。表3显示了消融研究的总体检测结果。

表3.nuScenes验证集的整体消融研究。每一行中的改进百分比是相对于基准方法的。(PE:支柱扩展,FA:截锥体关联,FT:翻转测试)

在第一个实验中,我们只将支柱扩展应用于雷达点云,并将3D支柱映射到图像平面,获得其等效的2D边界框。然后,这些框中填充了相应雷达探测的深度和速度值,并用作雷达特征图,如图4所示。根据表3,与基准方法相比,这种简单的关联方法使得NDS评分的相对改善15.4%,mAP的绝对改善1.0%。

在下一个实验中,我们只使用截锥关联方法,直接将其应用于雷达点云,而不首先将其转换为支柱。这使NDS得分相对提高了25.9%,mAP得分提高了2.0%。同时应用支柱扩张和截锥联合可使NDS和mAP得分分别提高35.5%和4.3%。

翻转测试再次使得NDS评分和mAP评分分别提高了3.3%和3.9%,与基准方法相比,NDS和mAP分别提高了37.8%和8.4%。

表4显示了每个步骤对于每个类别在mAP上的贡献。根据结果,在大多数目标类别中,支柱扩展和截锥关联步骤都有助于改进mAP。唯一一个与基准相比没有改善的类别是自行车类别,在自行车类别中CenterNet的mAP得分比CenterFusion好0.5%。

8.结论

总之,我们提出了一种新的雷达和相机融合算法,称为CenterFusion,以利用雷达信息进行鲁棒的三维目标检测。CenterFusion使用基于截锥的关联方法将雷达检测准确地与图像上的目标相关联,并创建基于雷达的特征图,以在中间融合方法中补充图像特征。我们的截锥关联方法使用初步检测结果在3D空间中生成物体周围的RoI截锥,并将雷达检测映射到图像上物体的中心。我们还使用了支柱扩展方法,通过在3D空间中将雷达点转换为固定尺寸的支柱来补偿雷达探测高度信息的不准确度。我们在具有挑战性的nuScenes 3D检测基准上评估了我们提出的方法,其中CenterFusion优于最先进的基于相机的对象检测方法。

猜你喜欢

转载自blog.csdn.net/m0_63604019/article/details/131425415