DEMM:Depth Estimation Matters Most: Improving Per-Object Depth Estimation for Monocular 3D Detection

1.前沿

  • 与基于激光雷达的技术相比,包括检测和跟踪在内,单目3D感知方法的性能往往较差。通过系统分析,发现每个目标的深度估计精度是影响性能的主要因素

  • 在图像中包括旋转、大小、深度和非模态中心在内的所有属性中,发现只有每个目标的深度,即车辆3D中心的深度,才起作用
    在这里插入图片描述

  • 最近的工作(例如,3D单目检测)主要集中于直接从原始RGB图像学习,或利用从预测的密集深度图中提取伪激光雷达表征

  • 上述两种表示法在估计每个目标的深度方面可能是互补的,单独从其中任何一种学习都可能是次优的

    • RGB图像实际上编码了外观纹理2D几何等,但不包含3D直接信息,在不过拟合无关信息的情况下,很难学习如何将RGB特征精确映射到深度
    • 伪激光雷达表征通过估计的密集深度图直接建模目标三维结构,这使得学习每个目标的深度变得简单,然而估计的密集深度图通常是有噪声的(通常具有至少8%的平均相对误差

2.整体框架

在这里插入图片描述

● 上图显示用于逐目标深度估计的多级融合框架概述:首先进行二维目标检测跨帧跟踪检测,为每个目标构建一个tracklet;然后,构建跨帧目标的伪激光雷达表示,以及当前帧的RGB图像特征自运动补偿应用于每个tracklet的所有伪激光雷达patch,并转换到相同的坐标系;最后,对当前帧的RGB图像特征和时间融合的伪激光雷达特征进行融合,以产生逐个目标深度。

  • 伪激光雷达表示的提取过程包括三个步骤:
    • (1)每个图像的密集深度估计
    • (2)提升预测的密集深度到伪激光雷达
      • 基于摄像头模型将整个深度图的每个像素提升到点云
    • (3)用神经网络提取伪激光雷达表示
      • 基于2D边框对时间戳t的目标bt伪激光雷达patch P t P_t Pt进行裁剪,其中 P t P_t Pt是框 b t b_t bt内的伪激光雷达点集。
      • 用另一个特征编码器 F p F_p Fp提取目标 b t b_t bt的伪激光雷达特征 P L P_L PL

3.基于伪激光雷达表示带自运动补偿的T-融合法

  • 出发点
    • 一种简单的方法是直接跨帧融合图像特征,然而直接融合不同帧的RGB特征可能不太理想,因为RGB特征将摄像头自运动和目标运动耦合在一起,很难从2D图像序列中学习运动和时间一致性
    • 为了对深度估计进行有效的时间融合,必须对摄像机运动进行补偿,以确保不同帧的特征位于同一坐标系中。幸运的是,摄像头的自运动可以通过伪激光雷达表示在3D空间中轻松补偿。因此,提出一种基于伪激光雷达表示带自运动补偿的T-融合法。
    • 猜测:通过前后帧伪点云估计自车运动,补偿自车运动后,在每一帧上裁剪得到他车的深度图,这时候再和RGB图(track得到)做融合

4.网络细节

  • RGB特征提取采用CenterNetCenterTrack
    • Objects as points
    • Tracking objects as points
  • 伪激光雷达特征提取采用PatchNet
  • 跟踪2D检测形成trackle:基于卡尔曼滤波器的跟踪器
    • Simple online and realtime tracking
    • 作者说,用更先进的可能会提升:
      • Fairmot: On the fairness of detection and re-identification in multiple object tracking
      • Soda: Multi-object tracking with soft data association
      • Towards real-time multi-object tracking

猜你喜欢

转载自blog.csdn.net/qq_35759272/article/details/132567900