基于单目3D目标检测的路侧数据集(CVPR 2022 | 百度开源Rope3D | 车路协同感知)

数据集(中文介绍):https://thudair.baai.ac.cn/rope
论文标题:Rope3D: TheRoadside Perception Dataset for Autonomous Driving and Monocular 3D Object Detection Task
论文链接:https://arxiv.org/abs/2203.13608

详细内容请去数据集官网https://thudair.baai.ac.cn/rope查看

1. Rope3D目标检测

路侧单目3D检测与传统自动驾驶3D检测任务相比,本任务需要解决3个难点。首先,由于路侧相机具有不同的配置,例如相机内参数、俯仰角、安装高度,因此存在歧义性,这在很大程度上增加了单目3D检测任务的难度。 其次,由于路侧相机安装在杆子上,而不在车顶的正上方,因此相机光轴与地面平行的假设不再成立,无法直接应用具有此先验的单目3D 检测方法。 第三,由于路侧视角下的感知范围更大,能观察到更多的物体,增加了感知系统的密度和难度。所有这些差异都表明了直接应用大多数现有的 3D 检测方法不可行。因此,需要将现有的单目 3D 检测方法改进后适配到路侧应用,提升感知精度。

  • 问题建模

    • 输入:路端数据(图像),以及标定文件
    • 输出:路端感兴趣区域内的障碍物目标类别、3D位置、长宽高、朝向等
    • 优化目标:提高算法在测试集上的3D目标检测精度
  • 评测指标

    • 目标检测精度(mAP):针对车辆、行人等不同类别目标,计算3D 边界框的尺寸、 位置和置信度, 基于不同的IoU阈值计算检测精度(Average Precision, AP) ,最终计算所有类别AP的平均值(mean Average Precision, mAP)
      在这里插入图片描述

2. 数据采集

采集设备

路侧数据采集传感器有两种,一种是安装在路灯杆上或红绿灯杆上的路侧相机,另一种是安装在停放或者行驶的车辆上的LiDAR,用于获取同一场景的3D点云。对于传感器同步,我们采用最近时间匹配策略找到图像和点云对,时间误差控制在5毫秒内。

lidar:

传感器类型:(1) HESAI Pandar 40P 40线激光雷达,采样帧率为10/20Hz,探测距离精度<=2cm,水平FOV 360◦ ,垂直FOV -25◦ ~+15◦ , 最大探测范围200m.
(2) Jaguar Prime from Innovusion 300线激光雷达,采样帧率6-20hz,探测距离精度<=3cm,水平FOV 100◦,垂直FOV 40◦,最大探测范围280m.
Cameras:

传感器类型为1/1.8”CMOS,采样帧率为30-60hz,图像格式为RGB格式,按1920x1080分辨率压缩保存为JPEG图像.

  • 标定和坐标系

数据集中使用了三个坐标系:世界坐标系(UTM Coord.)、相机坐标系以及激光雷达坐标系。为了获得准确的2D-3D 联合标注结果,需要在不同传感器之间进行校准。

首先,通过棋盘格检测来对相机进行标定获得相机内参数。然后通过车辆定位模块进行 Lidar坐标系到世界坐标系的校准。对于世界坐标到相机坐标系的校准,首先将包含车道和人行横道端点的高清地图投影到 2D 图像上进行匹配,获得初步变换矩阵,然后通过捆绑调整优化得到最终转换矩阵。最后将Lidar-to-World 和 World-to-Camera 转换矩阵相乘获得 Lidar-to-Camera 转换矩阵。得到三个坐标系之间的转换关系后,可以利用相机坐标系中的地面点 [x,y,z] 来拟合地平面,从而计算出地面方程G(α, β, γ, d),其中αx+βy+γz+d=0.

在这里插入图片描述

图2.数据采集和标注流程。标注平台的输入是路侧相机采集的图像,安装在停放或行驶车辆上的 LiDAR 扫描到的点云。通过多个传感器之间的校准和标定,得到了LiDAR、世界坐标系和相机坐标系之间的变换,以及地平面方程和相机内参。通过将点云投影到图像上并手动调整3D框位置来适配2D框 来进行2D-3D 联合标注。对于未被lidar扫描到的物体,仅在图像上进行2D补充标注。例如在(d)中,由于缺少3D点,一些物体只有白色的2D框标注没有3D彩色标注。

3. 数据标注

针对采样得到的路端相机数据和lidar点云数据,利用2D&3D联合标注技术,标注图像中道路障碍物目标的2D和3D框,同时标注障碍物类别、遮挡和截断等信息。

  • 障碍物类别:一共4大类,包括小车、大车、行人、非机动车,细化为9小类,具体为:Car、Van 、Truck、Bus、Pedestrian、Cyclist、Motorcyclist, Barrow and Tricyclist.
  • 障碍物截断:从[0, 1, 2]中取值,分别表示不截断、横向截断、纵向截断
  • 障碍物遮挡:从[0, 1, 2]中取值,分别表示不遮挡、0%~50%遮挡,50%~100%遮挡
  • 2D box:图像中2D bounding box框
  • 3D box:3D bounding box, 基于相机坐标系,包括 (height, width, length, x_loc, y_loc, z_loc, orientation),其中orientation表示障碍物绕Y轴旋转角度.
    其中,每张图片都有对应txt格式的标注文件,如下所示:
    Car 0 2 1.924 385.959 167.884 493.861 235.018 1.545 1.886 4.332 -16.361 -10.232 68.357 1.689
  • 第1个字符串:代表物体类别;
  • 第2个数:代表物体是否被截断;
  • 第3个数:代表物体是否被遮挡;
  • 第4个数:alpha,物体的观察角度,范围:-pi~pi,(在相机坐标系下,以相机原点为中心,相机原点到物体中心的连线为半径,将物体绕相机y轴旋转至相机z轴,此时物体方向与相机x轴的夹角);
  • 第5~8这4个数:物体的2维边界框(xmin,ymin,xmax,ymax);
  • 第9~11这3个数:3维物体的尺寸(高、宽、长),单位为米;
  • 第12~14这3个数:3维物体的位置(x、y、z),单位为米;
  • 第15个数:3维物体的空间方向:rotation_y,在相机坐标系下,物体的全局方向角(物体前进方向与相机坐标系x轴的夹角),范围:-pi~pi。

4. 数据文件结构

在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_35759272/article/details/123810398