图像 检测 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection (ECCV 2022)

声明:此翻译仅为个人学习记录

文章信息

摘要

  在本文中,我们开发了用于多视图3D目标检测的位置嵌入变换(PETR)。PETR将3D坐标的位置信息编码为图像特征,产生3D位置感知特征。目标查询可以感知3D位置感知特征并执行端到端的目标检测。PETR在标准nuScenes数据集上实现了最先进的性能(50.4%的NDS和44.1%的mAP),并在基准测试中排名第一。它可以作为未来研究的一个简单而有力的基线。代码在https://github.com/megvii-research/PETR.

关键词:位置嵌入,transformer,3D目标检测

1. 引言

  在自动驾驶系统中,基于多视角图像的3D目标检测由于其低成本而备受关注。以前的工作[6,33,49,34,48]主要从单目目标检测的角度解决了这个问题。近年来,DETR[4]因其在端到端目标检测方面的贡献而受到关注。在DETR[4]中,每个目标查询表示一个目标,并与transformer解码器中的2D特征交互以产生预测(见图1(a))。DETR3D[51]简单地从DETR[4]框架扩展而来,为端到端3D目标检测提供了直观的解决方案。通过目标查询预测的3D参考点通过相机参数投影回图像空间,并用于对所有相机视图中的2D特征进行采样(见图1(b))。解码器将采样特征和查询作为输入,并更新目标查询的表示。

  然而,DETR3D[51]中的这种2D到3D转换可能会引入几个问题。首先,参考点的预测坐标可能不那么准确,使得采样的特征超出了目标区域。其次,只收集投影点的图像特征,无法从全局角度进行表示学习。此外,复杂的特征采样过程将阻碍检测器的实际应用。因此,在没有在线2D到3D转换和特征采样的情况下构建端到端的3D目标检测框架仍然是一个遗留问题。

在这里插入图片描述

图1. DETR、DETR3D和我们提出的PETR的比较。(a) 在DETR中,目标查询与2D特征交互以执行2D检测。(b) DETR3D将生成的3D参考点重复投影到图像平面中,并对2D特征进行采样以与解码器中的目标查询交互。(c) PETR通过将3D位置嵌入(3D PE)编码为2D图像特征来生成3D位置感知特征。目标查询直接与3D位置感知特征交互并输出3D检测结果。

  在本文中,我们的目标是开发一个基于DETR[4]的用于3D目标检测的简单而优雅的框架。我们想知道是否有可能将2D特征从多视图转换为3D感知特征。通过这种方式,可以在3D环境下直接更新目标查询。我们的工作受到了内隐神经表示[17,8,32]的这些进步的启发。在MetaSR[17]和LIFF[8]中,通过将HR坐标信息编码到LR特征中,从低分辨率(LR)输入生成高分辨率(HR)RGB值。在本文中,我们试图通过对3D位置嵌入进行编码,将多视图图像的2D特征转换为3D表示(见图1(c))。

  为了实现这一目标,首先将不同视图共享的相机截头体空间离散为网格坐标。然后通过不同的相机参数对坐标进行变换以获得3D世界空间的坐标。然后,从主干和3D坐标提取的2D图像特征被输入到简单的3D位置编码器以产生3D位置感知特征。3D位置感知特征将与transformer解码器中的目标查询交互,并且更新的目标查询进一步用于预测目标类和3D边界框。

  与DETR3D[51]相比,所提出的PETR架构带来了许多优点。它保持了原始DETR[4]的端到端精神,同时避免了复杂的2D到3D投影和特征采样。在推断时间期间,3D位置坐标可以以离线方式生成,并用作额外的输入位置嵌入。它在实际应用中相对容易。

  总之,我们的贡献是:

  • 我们提出了一个简单而优雅的框架,称为PETR,用于多视图3D目标检测。通过对3D坐标进行编码,将多视图特征转换到3D域中。可以通过与3D位置感知特征交互来更新目标查询并生成3D预测。

  • 引入了一种新的3D位置感知表示,用于多视图3D目标检测。引入了一个简单的隐式函数,将3D位置信息编码为二维多视图特征。

  • 实验表明,PETR在标准nuScenes数据集上实现了最先进的性能(50.4%的NDS和44.1%的mAP),并在3D目标检测排行榜上排名第一。

2. 相关工作

2.1 基于transformer的目标检测

  Transformer[47]是一个广泛应用于对长期依赖性建模的注意力块。在transformer中,特征通常与位置嵌入一起添加,位置嵌入提供图像[13,53,27]、序列[15,47,11,10,54]和视频[1,24,52]的位置信息。Transformer XL[10]使用相对位置嵌入来对成对令牌的相对距离进行编码。ViT[13]将学习的位置嵌入添加到对不同块的距离进行编码的块表示中。MViT[24]分解相对位置嵌入的距离计算,并对时空结构进行建模。

  最近,DETR[4]将transformer引入到用于端到端检测的2D目标检测任务中。在DETR[4]中,每个目标被表示为目标查询,该目标查询通过transformer解码器与2D图像特征交互。然而,DETR[4]的收敛速度较慢。[44]将缓慢收敛归因于交叉注意力机制,并设计了仅编码器的DETR。此外,许多工作通过添加位置先验来加速收敛。SMAC[14]预测2D类高斯权重图作为每个查询的空间先验。可变形DETR[58]将目标查询与2D参考点相关联,并提出可变形交叉注意力以执行稀疏交互。[50,30,26]从锚点或使用位置先验的锚点生成目标查询,以实现快速收敛。SOLQ[12]从DETR[58]扩展而来,使用目标查询同时执行分类、框回归和实例分割。

2.2 基于视觉的3D目标检测

  基于视觉的3D目标检测是从摄像机图像中检测3D边界框。许多以前的工作[6,33,20,21,41,19,2,49,48]在图像视图中执行3D目标检测。M3D-RPN[2]引入了深度感知卷积,该卷积学习用于3D目标检测的位置感知特征。FCOS3D[49]将3D真值转换为图像视图,并扩展FCOS[46]以预测3D长方体参数。PGD[48]遵循FCOS3D[49],并使用概率表示来捕捉深度的不确定性。它极大地缓解了深度估计问题,同时引入了更多的计算预算和更大的推理延迟。DD3D[34]表明,在大规模深度数据集上进行深度预训练可以显著提高3D目标检测的性能。

  最近,一些工作试图在3D世界空间中进行3D目标检测。OFT[39]和CaDDN[38]将单目图像特征映射到鸟瞰图(BEV)中,并检测BEV空间中的3D目标。ImVoxelNet[40]在3D世界空间中构建3D体积,并对多视图特征进行采样以获得体素表示。然后使用3D卷积和特定领域的头部来检测室内和室外场景中的目标。与CaDDN[38]类似,BEVDet[18]采用Lift Splat Shoot[37]将2D多视图特征转换为BEV表示。对于BEV表示,CenterPoint[55]头用于以直观的方式检测3D目标。在DETR[4]之后,DETR3D[51]将3D目标表示为目标查询。从目标查询生成的3D参照点会重复投影回所有摄影机视图,并对二维特征进行采样。

  基于BEV的方法往往会引入Z轴误差,导致其他3D感知任务(例如,3D车道检测)的性能较差。基于DETR的方法可以从具有更多训练增强的端到端建模中获得更多好处。我们的方法是基于DETR的,以简单有效的方式检测3D目标。我们将3D位置信息编码为2D特征,产生3D位置感知特征。目标查询可以在没有投影误差的情况下直接与这种3D位置感知表示交互。

2.3 隐式神经表示

  隐式神经表示(INR)通常通过多层感知器(MLP)将坐标映射到视觉信号。这是一种对3D目标[35,9,31]、3D场景[32,43,36]和2D图像[17,8,45,42]进行建模的高效方法。NeRF[32]采用完全连接的网络来表示特定场景。为了合成新的视图,沿着相机光线的5D坐标被输入到网络作为查询,并输出体积密度和与视图相关的发射辐射。在MetaSR[17]和LIFF[8]中,HR坐标被编码到LR特征中,并且可以生成任意大小的HR图像。我们的方法可以看作是INR在3D目标检测中的扩展。用3D坐标对2D图像进行编码以获得3D位置感知特征。3D空间中的锚点由MLP转换为目标查询,并且进一步与3D位置感知特征交互以预测对应的3D目标。

3. 方法

3.1 总体架构

  图2显示了拟议的PETR的总体架构。给定来自N个视图的图像 I = { I i ∈ R 3 × H I × W I , I = 1 , 2 , … , N } I=\{I_i∈R^{3×H_I×W_I},I=1,2,…,N\} I={ IiR3×HI×WI,I=1,2,,N},将图像输入到主干网络(例如ResNet-50[16])以提取2D多视图特征 F 2 d = { F i 2 d ∈ R C × H F × W F , I = 1 , 2 , … , N } F^{2d}=\{F_i^{2d}∈R^{C×H_F×W_F},I=1,2,…,N\} F2d={ Fi2dRC×HF×WF,I=1,2,,N}。在3D坐标生成器中,首先将相机截头体空间离散为3D网格。然后通过摄像机参数对网格坐标进行变换,生成3D世界空间中的坐标。3D坐标与2D多视图特征一起被输入到3D位置编码器,产生3D位置感知特征 F 3 d = { F i 3 d ∈ R C × H F × W F , I = 1 , 2 , … , N } F^{3d}=\{F_i^{3d}∈R^{C×H_F×W_F},I=1,2,…,N\} F3d={ Fi3dRC×HF×WF,I=1,2,,N}。3D特征被进一步输入到transformer解码器,并与查询生成器生成的目标查询交互。更新后的目标查询用于预测目标类以及3D边界框。

在这里插入图片描述

图2. 所提出的PETR范式的架构。多视图图像被输入到骨干网络(例如ResNet)以提取多视图2D图像特征。在3D坐标生成器中,将所有视图共享的相机截头体空间离散为3D网格。网格坐标通过不同的相机参数进行变换,得到3D世界空间中的坐标。然后将2D图像特征和3D坐标注入到所提出的3D位置编码器以生成3D位置感知特征。由查询生成器生成的目标查询通过与transformer解码器中的3D位置感知特征的交互进行更新。更新后的查询进一步用于预测3D边界框和目标类。

3.2 3D坐标生成器

为了建立2D图像和3D空间之间的关系,我们将相机截头体空间中的点投影到3D空间,因为这两个空间之间的点是一对一的分配。与DGSN[7]类似,我们首先对相机截头体空间进行离散化,以生成大小为 ( W F , H F , D ) (W_F,H_F,D) (WF,HF,D)的网格。网格中的每个点可以表示为 p j m = ( u j × d j , v j × d j , d j , 1 ) T p^m_j=(u_j×d_j,v_j×d_j,d_j,1)^T pjm=(uj×dj,vj×dj,dj,1)T,其中 ( u j , v j ) (u_j,v_j) (uj,vj)是图像中的像素坐标, d j d_j dj是沿着与图像平面正交的轴的深度值。由于网格由不同的视图共享,因此可以通过反转3D投影来计算3D世界空间中对应的3D坐标 p i , j 3 d = ( x i , j , y i , j , z i , j , 1 ) T p^{3d}_{i,j}=(x_{i,j},y_{i,j},z_{i,j},1)^T pi,j3d=(xi,j,yi,j,zi,j,1)T

在这里插入图片描述

其中 K i ∈ R 4 × 4 K_i∈R^{4×4} KiR4×4是第 i i i个视图的变换矩阵,该矩阵建立了从3D世界空间到相机截头体空间的变换。如图2所示,所有视图的3D坐标覆盖了变换后的场景全景。我们进一步对3D坐标进行归一化,如等式2所示。

在这里插入图片描述

其中 [ x m i n , y m i n , z m i n , x m a x , y m a x , z m a x ] [x_{min},y_{min},z_{min},x_{max},y_{max},z_{max}] [xmin,ymin,zmin,xmax,ymax,zmax]是3D世界空间的感兴趣区域(RoI)。 H F × W F × D H_F×W_F×D HF×WF×D点的归一化坐标最终被转置为 P 3 d = { P i 3 d ∈ R ( D × 4 ) × H F × W F , i = 1 , 2 , … , N } P^{3d}=\{P_i^{3d}∈R^{(D×4)×H_F×W_F},i=1,2,…,N\} P3d={ Pi3dR(D×4)×HF×WF,i=1,2,,N}

在这里插入图片描述

图3. 拟议的3D位置编码器示意图。将多视图2D图像特征输入到1×1卷积层以进行降维。通过多层感知将3D坐标生成器生成的3D坐标转换为3D位置嵌入。3D位置嵌入与同一视图的2D图像特征相加,产生3D位置感知特征。最后,3D位置感知特征被展平并用作transformer解码器的输入。F○ 是压平操作。

3.3 3D位置编码器

3D位置编码器的目的是通过将2D图像特征 F 2 d = { F i 2 d ∈ R C × H F × W F , I = 1 , 2 , … , N } F^{2d}=\{F_i^{2d}∈R^{C×H_F×W_F},I=1,2,…,N\} F2d={ Fi2dRC×HF×WF,I=1,2,,N}与3D位置信息相关联来获得3D特征 F 3 d = { F i 3 d ∈ R C × H F × W F , I = 1 , 2 , … , N } F^{3d}=\{F_i^{3d}∈R^{C×H_F×W_F},I=1,2,…,N\} F3d={ Fi3dRC×HF×WF,I=1,2,,N}。类似于Meta-SR[17],3D位置编码器可以公式化为:

在这里插入图片描述

其中 ψ ( . ) ψ(.) ψ(.)是位置编码函数,如图3所示。接下来,我们描述 ψ ( . ) ψ(.) ψ(.)的详细实现。给定2D特征F2d和3D坐标P3d,首先将P3d输入到多层感知(MLP)网络中,并将其转换为3D位置嵌入(PE)。然后,通过1×1卷积层对2D特征F2d进行变换,并将其与3D PE相加,以形成3D位置感知特征。最后,我们将3D位置感知特征平坦化,作为transformer解码器的关键组件。

3D PE分析:为了证明3D PE的效果,我们在前视图中随机选择三个点的PE,并计算这三个点与所有多视图PE之间的PE相似性。如图4所示,靠近这些点的区域往往具有更高的相似性。例如,当我们在前视图中选择左点时,左前视图的右区域将具有相对较高的响应。表明3D PE隐含地建立了不同视图在3D空间中的位置相关性。

在这里插入图片描述

图4. 3D位置嵌入相似性。红色点是前视图中的选定位置。我们计算了这些选定位置的位置嵌入与所有图像视图之间的相似性。这表明,靠近这些选择点的区域往往具有更高的相似性。

3.4 查询生成器和解码器

查询生成器:原始DETR[4]直接使用一组可学习的参数作为初始目标查询。在可变形DETR[58]之后,DETR3D[51]基于初始化的目标查询来预测参考点。为了缓解3D场景中的收敛困难,类似于Anchor-DETR[50],我们首先在3D世界空间中初始化一组从0到1均匀分布的可学习锚点。然后,将3D锚点的坐标输入到具有两个线性层的小型MLP网络,并生成初始目标查询 Q 0 Q_0 Q0。在我们的实践中,在3D空间中使用锚点可以保证PETR的收敛性,而在DETR中使用设置或在BEV空间中生成锚点则无法获得令人满意的检测性能。有关更多详细信息,请参阅我们的实验部分。

解码器:对于解码器网络,我们遵循DETR[4]中的标准transformer解码器,其中包括L个解码器层。在这里,我们将解码器层中的交互过程公式化为:

在这里插入图片描述

其中 Ω l Ω_l l是解码器的第 l l l层。 Q l ∈ R M × C Q_l∈R^{M×C} QlRM×C是第 l l l层的更新目标查询。M和C分别是查询和通道的数量。在每个解码器层中,目标查询通过多头注意力和前馈网络与3D位置感知特征交互。在迭代交互之后,更新的目标查询具有高级表示,并且可以用于预测相应的目标。

3.5 头和损失

检测头主要包括用于分类和回归的两个分支。来自解码器的更新的目标查询被输入到检测头,并预测目标类以及3D边界框的概率。请注意,回归分支预测相对于锚点坐标的相对偏移。为了与DETR3D进行公平比较,我们还采用焦点损失[25]进行分类,并采用L1损失进行3D边界框回归。设 y = ( c , b ) y=(c,b) y=(c,b) y ^ = ( c ^ , b ^ ) \hat{y}=(\hat{c},\hat{b}) y^=(c^,b^)分别表示一组真值和预测。匈牙利算法[22]用于真值和预测之间的标签分配。假设σ是最优分配函数,那么3D目标检测的损失可以总结为:

在这里插入图片描述

这里,Lcls表示用于分类的焦点损失,Lreg是用于回归的L1损失。λcls是一个用于平衡不同损失的超参数。

4. 实验

4.1 数据集和指标

我们在nuScenes基准测试[3]上验证了我们的方法。NuScenes是一个大规模的多模数据集,由6台摄像机、1台激光雷达和5台雷达收集的数据组成。该数据集有1000个场景,官方将其分为700/150/150个场景,分别用于训练/验证/测试。每个场景有20个视频帧,每0.5秒用3D边界框进行完全注释。与官方评估指标一致,我们报告了nuScenes检测分数(NDS)和平均平均精度(mAP),以及平均平移误差(mATE)、平均尺度误差(mASE)、平均方向误差(mAOE)、平均速度误差(mAVE),平均平均属性误差(mAAE)。

4.2 实施细节

为了提取2D特征,ResNet[16]、Swin Transformer[27]或VoVNetV2[23]被用作主干网络。对C5特征(第5级的输出)进行上采样并与C4特征(第4级的输出来)融合以产生P4特征。具有1/16输入分辨率的P4特征被用作2D特征。对于3D坐标生成,我们在CaDDN[38]中进行线性递增离散化(LID)后,沿深度轴采样64个点。对于X轴和Y轴,我们将区域设置为[-61.2m,61.2m],对于Z轴,我们设置为[-10m,10m]。3D世界空间中的3D坐标被归一化为[0,1]。根据DETR3D[51],我们将λcls=2.0设置为平衡分类和回归。

  PETR使用AdamW[29]优化器进行训练,权重衰减为0.01。学习率用 2.0 × 1 0 − 4 2.0×10^{−4} 2.0×104初始化,并用余弦退火策略衰减[28]。采用多尺度训练策略,其中短边在[640,900]内随机选择,长边小于或等于1600。根据CenterPoint[55],实例的真值随机旋转,范围为[-22.5°, 22.5°] 在3D空间中。所有实验都在8个批量为8的特斯拉V100 GPU上进行了24个时期(2倍计划)的训练。推理过程中没有使用测试时间增加方法。

表1. 关于nuScenes val集合的近期工作的比较。FCOS3D和PGD的结果经过了微调,并通过增加测试时间进行了测试。DETR3D、BEVDet和PETR使用CBGS进行训练[57]。†从FCOS3D主干进行初始化。

在这里插入图片描述

4.3 最先进的比较

如表1所示,我们首先将nuScenes val集的性能与最先进的方法进行了比较。结果表明,PETR在NDS和mAP指标上都取得了最佳性能。CenterNet[56]、FCOS3D[49]和PGD[48]是典型的单目3D目标检测方法。与FCOS3D[49]和PGD[48]相比,使用ResNet-101[16]的PETR在NDS方面分别超过它们2.7%和1.4%。然而,由于明确的深度监督,PGD[48]实现了相对较低的mATE。此外,我们还将PETR与在统一视图中检测3D目标的多视图3D目标检测方法DETR3D[51]和BEVDet[18]进行了比较。由于DETR3D[51]和BEVDet[18]在图像大小和主干初始化方面遵循不同的设置,我们分别将PETR与它们进行比较,以进行公平比较。我们的方法在NDS中分别优于它们0.8%和1.4%。

  表2显示了nuScenes测试集的性能比较。我们的方法在NDS和mAP上也实现了最佳性能。为了与BEVDet[18]进行公平比较,还使用2112×768的图像大小训练了具有Swin-S主干的PETR。研究表明,PETR在mAP和NDS中分别比BEVDet[18]高3.6%和1.8%。值得注意的是,与使用外部数据的现有方法相比,使用Swin-B的PETR实现了相当的性能。当使用外部数据时,具有VOVNetV2[23]主干的PETR实现了50.4%的NDS和44.1%的mAP。据我们所知,PETR是第一种超过50.0%NDS的基于视觉的方法。

在这里插入图片描述

图5. PETR的收敛性和速度分析。(a) PETR和DETR3D[51]的收敛性比较。PETR在初始阶段收敛较慢,并且需要相对较长的训练计划才能完全收敛。(b) 不同主干和输入大小的性能和速度分析。

表2. nuScenes测试集的近期工作比较。*使用外部数据进行训练是测试时间的增加。

在这里插入图片描述

  我们还对PETR的收敛性和检测速度进行了分析。我们首先比较DETR3D[51]和PETR的收敛性(见图5(a))。在前12个时期内,PETR的收敛速度相对慢于DETR3D[51],并最终实现了更好的检测性能。这表明PETR需要相对较长的训练计划才能完全融合。我们猜测原因是PETR通过全局注意力学习3D相关性,而DETR3D[51]感知局部区域内的3D场景。图5(b)进一步报道了不同输入大小的PETR的检测性能和速度。FPS是在单个Tesla V100 GPU上测量的。对于相同的图像大小(例如,1056×384),我们的PETR推断为10.7 FPS,而BEVDet[18]推断为4.2 FPS。请注意,BEVDet[18]的速度是在NVIDIA 3090 GPU上测量的,它比Tesla V100 GPU更强。

表3. 3D位置嵌入的影响。2D PE是DETR中使用的常见位置嵌入。MV是多视图位置嵌入,以区分不同的视图。3D PE是在我们的方法中提出的3D位置嵌入。

在这里插入图片描述

表4. 分析离散相机截头体空间的不同方法和归一化3D坐标的不同感兴趣区域(ROI)范围。UD是均匀离散化,而LID是线性递增离散化。

在这里插入图片描述

4.4 消融研究

在本节中,我们对PETR的一些重要组成部分进行了消融研究。所有实验都是在没有CBGS的情况下使用ResNet-50主干的单级C5特征进行的[57]。

3D位置嵌入的影响。我们评估了不同位置嵌入(PE)的影响(见表3)。当仅使用DETR中的标准2D PE时,该模型只能收敛到6.9%mAP。然后我们添加了多视图先验(将视图编号转换为PE)来区分不同的视图,这带来了轻微的改进。当仅使用由3D坐标生成的3D PE时,PETR可以直接实现30.5%mAP。这表明3D PE在感知3D场景之前提供了强有力的位置。此外,当我们将3D PE与2D PE和多视图先验相结合时,可以提高性能。应该注意的是,主要的改进来自3D PE,并且在实践中可以选择性地使用2D PE/多视图先验。

3D坐标生成器。在3D坐标生成器中,将摄像机截头体空间中的透视图离散为3D网格。利用感兴趣区域(RoI)进一步归一化3D世界空间中的变换坐标。

表5. 拟用PETR中不同成分的消融研究。

在这里插入图片描述

在这里,我们探讨了不同离散化方法和RoI范围的有效性(见表4)。与线性递增离散化(LID)相比,均匀离散化(UD)表现出类似的性能。我们还尝试了几个常见的ROI区域,ROI范围(−61.2m、−61.2m,−10.0m、61.2m、61.2m和10.0m)比其他区域获得了更好的性能。

3D位置编码器。3D位置编码器用于将3D位置编码为2D特征。在这里,我们首先探讨了多层感知(MLP)将3D坐标转换为3D位置嵌入的效果。从表5(a)中可以看出,与没有MLP的基线相比,具有简单MLP的网络可以在NDS和mAP上分别提高4.8%和5.3%的性能(将2D特征的通道数调整为D×4)。当使用两个3×3卷积层时,模型将不会收敛,因为3×3的卷积破坏了2D特征和3D位置之间的对应关系。此外,我们在表5(b)中比较了将2D图像特征与3D PE融合的不同方法。与加法相比,级联运算实现了类似的性能,同时超过了乘法融合。

查询生成器。表5(c)显示了不同锚点生成查询的效果。在这里,我们比较了四种类型的锚点:“无”、“Fix-BEV”、“Fix-3D”和“Learned-3D”。原始DETR(“无”)直接使用一组可学习的参数作为没有锚点的目标查询。目标查询的全局性特征不能使模型收敛。“Fix-BEV”是指在BEV空间中生成数量为39×39的固定锚点。“Fix-3D”是指在3D世界空间中固定的锚点数量为16×16×6。“Learned-3D”是在3D空间中定义的可学习锚点。我们发现“Fix-BEV”和“Fix-3D”的性能都低于学习的锚点。我们还探讨了锚点的数量(见表5(d)),其范围从600到1500。该模型通过1500个锚点实现了最佳性能。考虑到计算成本随着锚点数量的增加而增加,我们简单地使用1500个锚点来进行权衡。

在这里插入图片描述

图6. BEV和图像视图中检测结果的定性分析。得分阈值为0.25,而主干为ResNet-101。3D边界框是用不同的颜色绘制的,以区分不同的类。

在这里插入图片描述

图7. 注意力图的可视化,由多视图图像上的目标查询(对应于卡车)生成。左前视图和左后视图在注意力地图上都有很高的反应。

4.5 可视化

图6显示了一些定性检测结果。在BEV空间以及图像视图中投影和绘制3D边界框。如BEV空间中所示,预测的边界框接近真值。这表明我们的方法取得了良好的检测性能。我们还可视化了从多视图图像上的目标查询生成的注意力图。如图7所示,目标查询倾向于关注同一个目标,即使在不同的视图中也是如此。这表明3D位置嵌入可以建立不同视图之间的位置相关性。最后,我们提供了一些失败案例(见图8)。故障案例用红色和绿色圆圈标记。红色圆圈显示一些未检测到的小目标。绿色圆圈中的目标分类错误。错误检测主要发生在不同车辆在外观上具有高度相似性的情况下。

在这里插入图片描述

图8. PETR的故障案例。我们用红色和绿色圆圈标记故障案例。红色圆圈是一些未检测到的小目标。绿色圆圈是分类错误的目标。

5. 结论

本文为多视图3D目标检测提供了一种简单而优雅的解决方案。通过3D坐标生成和位置编码,可以将2D特征转换为3D位置感知特征表示。这种3D表示可以直接结合到基于查询的DETR架构中,并实现端到端检测。它实现了最先进的性能,可以作为未来研究的有力基线。

鸣谢:本研究得到了国家重点研发计划(编号:2017YFA0700800)和北京人工智能研究院(BAAI)的资助。

References

  1. Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding. arXiv preprint arXiv:2102.05095 2(3), 4 (2021) 3
  2. Brazil, G., Liu, X.: M3d-rpn: Monocular 3d region proposal network for object detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 9287–9296 (2019) 3
  3. Caesar, H., Bankiti, V., Lang, A.H., Vora, S., Liong, V.E., Xu, Q., Krishnan, A., Pan, Y., Baldan, G., Beijbom, O.: nuscenes: A multimodal dataset for autonomous driving. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 11621–11631 (2020) 8
  4. Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: End-to-end object detection with transformers. In: European conference on computer vision. pp. 213–229. Springer (2020) 1, 2, 3, 4, 7
  5. Chabra, R., Lenssen, J.E., Ilg, E., Schmidt, T., Straub, J., Lovegrove, S., Newcombe, R.: Deep local shapes: Learning local sdf priors for detailed 3d reconstruction. In: European Conference on Computer Vision. pp. 608–625. Springer (2020) 4
  6. Chen, X., Kundu, K., Zhang, Z., Ma, H., Fidler, S., Urtasun, R.: Monocular 3d object detection for autonomous driving. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 2147–2156 (2016) 1, 3
  7. Chen, Y., Liu, S., Shen, X., Jia, J.: Dsgn: Deep stereo geometry network for 3d object detection. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 12536–12545 (2020) 5
  8. Chen, Y., Liu, S., Wang, X.: Learning continuous image representation with local implicit image function. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 8628–8638 (2021) 2, 4
  9. Chen, Z., Zhang, H.: Learning implicit fields for generative shape modeling. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 5939–5948 (2019) 4
  10. Dai, Z., Yang, Z., Yang, Y., Carbonell, J., Le, Q.V., Salakhutdinov, R.: Transformer-xl: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860 (2019) 3
  11. Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018) 3
  12. Dong, B., Zeng, F., Wang, T., Zhang, X., Wei, Y.: Solq: Segmenting objects by learning queries. Advances in Neural Information Processing Systems 34 (2021) 3
  13. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020) 3
  14. Gao, P., Zheng, M., Wang, X., Dai, J., Li, H.: Fast convergence of detr with spatially modulated co-attention. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 3621–3630 (2021) 3
  15. Gehring, J., Auli, M., Grangier, D., Yarats, D., Dauphin, Y.N.: Convolutional sequence to sequence learning. In: International Conference on Machine Learning. pp. 1243–1252. PMLR (2017) 3
  16. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 770–778 (2016) 4, 8, 9
  17. Hu, X., Mu, H., Zhang, X., Wang, Z., Tan, T., Sun, J.: Meta-sr: A magnification-arbitrary network for super-resolution. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 1575–1584 (2019) 2, 4, 6
  18. Huang, J., Huang, G., Zhu, Z., Du, D.: Bevdet: High-performance multi-camera 3d object detection in bird-eye-view. arXiv preprint arXiv:2112.11790 (2021) 4, 9, 10
  19. J¨orgensen, E., Zach, C., Kahl, F.: Monocular 3d object detection and box fitting trained end-to-end using intersection-over-union loss. arXiv preprint arXiv:1906.08070 (2019) 3
  20. Kehl, W., Manhardt, F., Tombari, F., Ilic, S., Navab, N.: Ssd-6d: Making rgb-based 3d detection and 6d pose estimation great again. In: Proceedings of the IEEE international conference on computer vision. pp. 1521–1529 (2017) 3
  21. Ku, J., Pon, A.D., Waslander, S.L.: Monocular 3d object detection leveraging accurate proposals and shape reconstruction. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 11867–11876 (2019) 3
  22. Kuhn, H.W.: The hungarian method for the assignment problem. Naval research logistics quarterly 2(1-2), 83–97 (1955) 8
  23. Lee, Y., Park, J.: Centermask: Real-time anchor-free instance segmentation. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 13906–13915 (2020) 8, 9
  24. Li, Y., Wu, C.Y., Fan, H., Mangalam, K., Xiong, B., Malik, J., Feichtenhofer, C.: Improved multiscale vision transformers for classification and detection. arXiv preprint arXiv:2112.01526 (2021) 3
  25. Lin, T.Y., Goyal, P., Girshick, R., He, K., Doll´ar, P.: Focal loss for dense object detection. In: Proceedings of the IEEE international conference on computer vision. pp. 2980–2988 (2017) 8
  26. Liu, S., Li, F., Zhang, H., Yang, X., Qi, X., Su, H., Zhu, J., Zhang, L.: Dab-detr: Dynamic anchor boxes are better queries for detr. arXiv preprint arXiv:2201.12329 (2022) 3
  27. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 10012–10022 (2021) 3, 8
  28. Loshchilov, I., Hutter, F.: Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983 (2016) 8
  29. Loshchilov, I., Hutter, F.: Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101 (2017) 8
  30. Meng, D., Chen, X., Fan, Z., Zeng, G., Li, H., Yuan, Y., Sun, L., Wang, J.: Conditional detr for fast training convergence. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 3651–3660 (2021) 3
  31. Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A.: Occupancy networks: Learning 3d reconstruction in function space. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4460–4470 (2019) 4
  32. Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R., Ng, R.: Nerf: Representing scenes as neural radiance fields for view synthesis. In: European conference on computer vision. pp. 405–421. Springer (2020) 2, 4
  33. Mousavian, A., Anguelov, D., Flynn, J., Kosecka, J.: 3d bounding box estimation using deep learning and geometry. In: Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. pp. 7074–7082 (2017) 1, 3
  34. Park, D., Ambrus, R., Guizilini, V., Li, J., Gaidon, A.: Is pseudo-lidar needed for monocular 3d object detection? In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 3142–3152 (2021) 1, 3
  35. Park, J.J., Florence, P., Straub, J., Newcombe, R., Lovegrove, S.: Deepsdf: Learning continuous signed distance functions for shape representation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 165–174 (2019) 4
  36. Peng, S., Niemeyer, M., Mescheder, L., Pollefeys, M., Geiger, A.: Convolutional occupancy networks. In: European Conference on Computer Vision. pp. 523–540. Springer (2020) 4
  37. Philion, J., Fidler, S.: Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d. In: European Conference on Computer Vision. pp. 194–210. Springer (2020) 4
  38. Reading, C., Harakeh, A., Chae, J., Waslander, S.L.: Categorical depth distribution network for monocular 3d object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 8555–8564 (2021) 3, 4, 8
  39. Roddick, T., Kendall, A., Cipolla, R.: Orthographic feature transform for monocular 3d object detection. arXiv preprint arXiv:1811.08188 (2018) 3
  40. Rukhovich, D., Vorontsova, A., Konushin, A.: Imvoxelnet: Image to voxels projection for monocular and multi-view general-purpose 3d object detection. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. pp. 2397–2406 (2022) 3
  41. Simonelli, A., Bulo, S.R., Porzi, L., L´opez-Antequera, M., Kontschieder, P.: Disentangling monocular 3d object detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 1991–1999 (2019) 3
  42. Sitzmann, V., Martel, J., Bergman, A., Lindell, D., Wetzstein, G.: Implicit neural representations with periodic activation functions. Advances in Neural Information Processing Systems 33, 7462–7473 (2020) 4
  43. Sitzmann, V., Zollh¨ofer, M., Wetzstein, G.: Scene representation networks: Continuous 3d-structure-aware neural scene representations. Advances in Neural Information Processing Systems 32 (2019) 4
  44. Sun, Z., Cao, S., Yang, Y., Kitani, K.M.: Rethinking transformer-based set prediction for object detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 3611–3620 (2021) 3
  45. Tancik, M., Srinivasan, P., Mildenhall, B., Fridovich-Keil, S., Raghavan, N., Singhal, U., Ramamoorthi, R., Barron, J., Ng, R.: Fourier features let networks learn high frequency functions in low dimensional domains. Advances in Neural Information Processing Systems 33, 7537–7547 (2020) 4
  46. Tian, Z., Shen, C., Chen, H., He, T.: Fcos: Fully convolutional one-stage object detection. In: Proceedings of the IEEE/CVF international conference on computer vision. pp. 9627–9636 (2019) 3
  47. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: Attention is all you need. Advances in neural information processing systems 30 (2017) 3
  48. Wang, T., Xinge, Z., Pang, J., Lin, D.: Probabilistic and geometric depth: Detecting objects in perspective. In: Conference on Robot Learning. pp. 1475–1485. PMLR (2022) 1, 3, 9
  49. Wang, T., Zhu, X., Pang, J., Lin, D.: Fcos3d: Fully convolutional one-stage monocular 3d object detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 913–922 (2021) 1, 3, 9
  50. Wang, Y., Zhang, X., Yang, T., Sun, J.: Anchor detr: Query design for transformer-based detector. arXiv preprint arXiv:2109.07107 (2021) 3, 7
  51. Wang, Y., Vitor Campagnolo, G., Zhang, T., Zhao, H., Solomon, J.: Detr3d: 3d object detection from multi-view images via 3d-to-2d queries. In: In Conference on Robot Learning. pp. 180–191 (2022) 1, 2, 4, 7, 8, 9, 10
  52. Wu, C.Y., Li, Y., Mangalam, K., Fan, H., Xiong, B., Malik, J., Feichtenhofer, C.: Memvit: Memory-augmented multiscale vision transformer for efficient long-term video recognition. arXiv preprint arXiv:2201.08383 (2022) 3
  53. Wu, K., Peng, H., Chen, M., Fu, J., Chao, H.: Rethinking and improving relative position encoding for vision transformer. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 10033–10041 (2021) 3
  54. Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R.R., Le, Q.V.: Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems 32 (2019) 3
  55. Yin, T., Zhou, X., Krahenbuhl, P.: Center-based 3d object detection and tracking. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 11784–11793 (2021) 4, 8
  56. Zhou, X., Wang, D., Kr¨ahenb¨uhl, P.: Objects as points. arXiv preprint arXiv:1904.07850 (2019) 9
  57. Zhu, B., Jiang, Z., Zhou, X., Li, Z., Yu, G.: Class-balanced grouping and sampling for point cloud 3d object detection. arXiv preprint arXiv:1908.09492 (2019) 9, 11
  58. Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159 (2020) 3, 7

猜你喜欢

转载自blog.csdn.net/i6101206007/article/details/132135226