论文速读 – BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
参考:
BEVDet:High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View 论文笔记
一. 网络
网络主要分为四部分:图像视角编码器(image-view encoder)、视角转换器(view-transformer)、BEV编码器(BEV encoder)、特定任务头(task-specific head)
1.1 图像视角编码器 image-view encoder
编码输入图像到高层次的特征,该模块主要包含用于高层次特征提取的backbone
和多分辨率特征融合的neck
。
backbone
: ResNet / Swintransformer; DenseNet HRNet也可以替换。
neck
: FPN-LSS; PAFPN、NAS-FPN未实验过
1.2 视角转换器(view-transformer)
将图像视角转换为BEV视角,将上一步特征作为输入,采用分类的方式
稠密预测深度。最后使用垂直方向pooling算子生成BEV特征。实践中,使用1.25倍r,拓展了默认检测范围到[1,60m]。
1.3 BEV编码器(BEV encoder)
与1.1内容类似,由backbone和neck组成,感知高精度的重要信号,如尺度、旋转、速度
。使用带有参差模块的ResNet作为backbone、FPN-LSS作为neck。
1.4 特定任务头(task-specific head)
CenterPoint网络中CenterHead第一阶段
二. 数据增广策略
2.1独立的视觉空间:
常用方式: 图像的翻转(flipping), 裁剪(cropping), 旋转(rotating)
。注意在视图转换时,为保证空间一致性,需要进行逆变换。
2.2 BEV特征空间:
BEV空间的特征学习因数据量问题,容易陷入过拟合。常规的翻转、裁剪、旋转方式也可以用于view transformer输出特征图
。注意对视图转换器的输出以及检测目标进行同样操作,以保证空间一致性。
三. 尺度NMS方法
在图像空间,一般采用经典的NMS方法来调整预测结果。BEV空间,iou交集几乎为0,如锥桶、行人此类比BEV分辨率还小。
为解决上述问题,本文提出尺度NMS方法,先根据预测类别放缩物体,再进行NMS操作
。在实践中,我们将Scale-NMS应用于除屏障外的所有类别,因其大小变化大。缩放因子是类别相关的。