Multi-View 3D Object Detection Network for Autonomous Driving

1. 摘要

MV3D将LIDAR point cloud 和RGB 作为网络输入,预测带有方向的3D bounding box. 网络包含两部分:1. 3D 目标proposal 生成; 2. 多视角特征融合. proposal 网络以3D point clound鸟瞰图作为输入,生成3D候选框。并且设计一种深度融合机制结合多视角的region-wise 特征,并且进行不同路径下中间层的信息交流。

2.引言

网络pipeline

3. 相关工作

3D object detection in point cloud

多数方法将3D point cloud用 voxel grid representation, sliding shapes、 Vote3D 利用SVM分类器进行3D目标检测。VeloFCN 投影点云到前视角。

3D object detection in images

3DVP 利用3D voxel模式和利用ACF检测器进行2D检测和3D姿态估计。3DOP 使用熵最小化的方法从双目图像重构深度,然后输入到R-CNN用于目标识别。Mono3D和3DOP具有同样的pipeline,只不过是利用单目图像生成3D proposal。为了融合时序信息,一些工作结合运动中的结构以及地面估计将2D 目标检测迁移到3D 目标检测。

Multimodal Fusion

[10]结合images,depth,optical flow ,使用混合的框架进行2D 行人检测。[7]在早期阶段融合RGB和depth图像,并且训练基于pose的2D分类器。该文章的方法受启发于[14,26]。

3D Object proposals

......

4. MV3D 网络架构

网络的输入为多视角的点云输入以及RGB图像,首先从鸟瞰图生成3D proposal,基于region特征表示进行多视角的特征融合,融合的特征用于分类和带有方向的3D box 回归。

4.1 3D 点云表示

4.1.1 鸟瞰图的表示

鸟瞰图表示包含有高度,强度和密度信息,将投影的点云用0.1m的分辨率离散到2D grid,对于每一个cell,height为该cell中最大的高度。为了得到更加详细的height信息,point cloud 被划分成均等的M个 slices,每一个slices有一个height map, 因此可以得到M个height map. 强度特征为每个cell最高点云的反射值。点云的密度表示每个cell中点云的数量。所有点云需要计算强度和密度特征,而M个slices都需要计算高度特征,因此鸟瞰图的特征通道为(M+2)。

4.1.2 前视图表示

前视图为鸟瞰图提供了互补的特征,由于雷达点云是非常稀疏的,将其投影到image plane将导致稀疏2D点图。本文将其投影到圆柱面来生成稠密的前视图。给定3D点云p=(x,y,z),对应的前视图坐标为:

,其中

4.2 3D proposal 网络

利用鸟瞰图作为输入,在3D 目标检测网络中,相比于前视图和image,鸟瞰图有如下优势:1.投影到鸟瞰图时,保留了目标的物理size;2.鸟瞰图中的目标占据了不同的空间,因此避免了遮挡问题;3.在道路场景中,目标占据水平路面,在垂直位置方差较小,鸟瞰图能够得到更加精确的3D bounding box。

给定鸟瞰图,网络从3D先验框生成3D box proposals,每个3D box的参数为(x,y,z,l,w,h),该参数表示目标在点云坐标系统下的中心位置以及目标的size,对于每一个3D先验框,对应鸟瞰图的anchor能够通过离散化(x,y,l,w)得到。本文通过聚类训练集的真值设计N个3D先验框,对于car,(l,w)的值为{(3.9, 1.6),(1.0, 0.6)},高度为1.56m。

由于激光点云是稀疏的,导致了不少的空anchor,本文移除这些空anchor降低计算量。对于每个非空anchor,网络会生成3D box,为了较少冗余,采用NMS进行抑制。

4.3 region-based 融合网络

4.3.1 多视角ROI Pooling

来自不同视角与模态的特征具有不同的分辨率,利用ROI Pooling来得到每个视图同样长度的特征向量,在本文中,将生成的3D proposals投影到3个视图:鸟瞰图(BV),前视图(FV) 和image plane(RGB),给定3D proposal,利用下面模型得到每个视图的ROIs:

Given an input feature map x from the front-end network of each view, we obtain fixed-length features fv via ROI pooling:

4.3.2 深度融合

 , 

4.3.3 带方向的3D box regression

回归3D box的8个顶点

使用多任务损失来预测目标的类别和朝向,类别的损失使用交叉熵损失,3D box的损失使用l1损失。3D proposals 为正样本的条件是:proposals与真值的IOU 大于0.5,否则为负样本,在推理阶段,使用NMS作用在3D box上,阈值是0.05.

4.3.4 网络的正则化

 For each iteration, we randomly choose to do global drop-path or local drop-path with a probability of 50%,若是global-drop-path,随机选择3个视图中的一个视图,若是local-drop-path,输入的path 有50%的可能性被drop.确保至少有一个输入。

 add auxiliary paths and losses to the network

5. 实验

猜你喜欢

转载自www.cnblogs.com/ahuzcl/p/12691286.html