- Depth Estimation Matters Most: Improving Per-Object Depth Estimation for Monocular 3D Detection and Tracking
- https://arxiv.org/pdf/2206.03666.pdf(2022.6.8)
- https://zhuanlan.zhihu.com/p/527290019
- 还没开源,已经中稿,估计不打算了
1.前沿
-
与基于激光雷达的技术相比,包括检测和跟踪在内,单目3D感知方法的性能往往较差。通过系统分析,发现每个目标的深度估计精度是影响性能的主要因素。
-
在图像中包括旋转、大小、深度和非模态中心在内的所有属性中,发现只有每个目标的深度,即车辆3D中心的深度,才起作用
-
最近的工作(例如,3D单目检测)主要集中于直接从原始RGB图像学习,或利用从预测的密集深度图中提取伪激光雷达表征。
-
上述两种表示法在估计每个目标的深度方面可能是互补的,单独从其中任何一种学习都可能是次优的
- RGB图像实际上编码了外观、纹理和2D几何等,但不包含3D直接信息,在不过拟合无关信息的情况下,很难学习如何将RGB特征精确映射到深度
- 伪激光雷达表征通过估计的密集深度图直接建模目标三维结构,这使得学习每个目标的深度变得简单,然而估计的密集深度图通常是有噪声的(通常具有至少8%的平均相对误差)
2.整体框架
● 上图显示用于逐目标深度估计的多级融合框架概述:首先进行二维目标检测和跨帧跟踪检测,为每个目标构建一个tracklet;然后,构建跨帧目标的伪激光雷达表示,以及当前帧的RGB图像特征;自运动补偿应用于每个tracklet的所有伪激光雷达patch,并转换到相同的坐标系;最后,对当前帧的RGB图像特征和时间融合的伪激光雷达特征进行融合,以产生逐个目标深度。
- 伪激光雷达表示的提取过程包括三个步骤:
- (1)每个图像的密集深度估计
- (2)提升预测的密集深度到伪激光雷达
- 基于摄像头模型将整个深度图的每个像素提升到点云
- (3)用神经网络提取伪激光雷达表示
- 基于2D边框对时间戳t的目标bt伪激光雷达patch P t P_t Pt进行裁剪,其中 P t P_t Pt是框 b t b_t bt内的伪激光雷达点集。
- 用另一个特征编码器 F p F_p Fp提取目标 b t b_t bt的伪激光雷达特征 P L P_L PL
3.基于伪激光雷达表示带自运动补偿的T-融合法
- 出发点
- 一种简单的方法是直接跨帧融合图像特征,然而直接融合不同帧的RGB特征可能不太理想,因为RGB特征将摄像头自运动和目标运动耦合在一起,很难从2D图像序列中学习运动和时间一致性。
- 为了对深度估计进行有效的时间融合,必须对摄像机运动进行补偿,以确保不同帧的特征位于同一坐标系中。幸运的是,摄像头的自运动可以通过伪激光雷达表示在3D空间中轻松补偿。因此,提出一种基于伪激光雷达表示带自运动补偿的T-融合法。
- 猜测:通过前后帧伪点云估计自车运动,补偿自车运动后,在每一帧上裁剪得到他车的深度图,这时候再和RGB图(track得到)做融合
4.网络细节
- RGB特征提取采用CenterNet和CenterTrack
- Objects as points
- Tracking objects as points
- 伪激光雷达特征提取采用PatchNet
- 跟踪2D检测形成trackle:基于卡尔曼滤波器的跟踪器
- Simple online and realtime tracking
- 作者说,用更先进的可能会提升:
- Fairmot: On the fairness of detection and re-identification in multiple object tracking
- Soda: Multi-object tracking with soft data association
- Towards real-time multi-object tracking