pointpillars Paper学习总结

Pointpillar Paper

  • PointPillars提出了一种新的点云编码方式和3D转2D的方法,用2D卷积的方式实现目标检测而没有采用耗时的3D卷积,在速度和精度上达到了很好的平衡,其速度快、精度高、易于部署的特点使得其在工业界得到了广泛的应用。

  • 处理思路是3d转2d,在2d伪图像上进行目标检测。

  • 主要步骤分三阶段:
    在这里插入图片描述

    1. 将点云转换为稀疏伪图像的特征编码器网络;
      • 首先在俯视图的平面上打网格(H x W)的维度;然后对于每个网格所对应的柱子中的每个点都取(x,y,z,r,x_c,y_c,z_c,x_p,y_p)9个维度。其中前三个为每个点的真实位置坐标,r为反射率,带c下表示该点到柱子中心的偏差,带p下标的是对点相对于网络中心的偏差。每个柱子中点多于N的进行采样,少于N的进行填充0.于是形成(D,N,P)D=9,N为点数(设定值),P=H*W。
      • 然后学习特征,用一个简化的PointNet从D维中学出C个channel来,变为(C,N,P),然后对N进行最大化操作操作变为(C,P),又因为P是H*W的,我们再展开成一个伪图像形式,H,W为宽高,C为通道数。
    2. 2D卷积基础网络,用于将伪图像处理成高维特征表示;
      • 包含两个子网络(1.top-down网络,2.second网络)top-down网络结构为了捕获不同尺度下的特征信息,主要是由卷积层、归一化、非线性层构成的,second网络用于将不同尺度特征信息融合,主要由反卷积来实现(上采样)。由一个2D卷积神经网络组成,其作用是用于在第一部分网络输出的伪图像上提取高维特征。
    3. 检测头部(detection head,SSD),对类别预测和对3D检测框的位置进行回归
      • SSD检测头用于实现3D目标检测,与SSD类似,PointPillars在2D网格中进行目标检测,而Z轴坐标和高度则是通过回归方式得到。
  • 数据增强

    1. 为所有类和这些3D框中的相关点云创建了一个地面真实3D框的查找表。然后对于每个样本,我们分别随机选取汽车、行人和骑自行车的15、0、8个ground truth样本(ground truth: 分类准确性,用于统计模型中验证或推翻某种研究假设),并将其放入当前点云中。
    2. 然后,将所有ground truth box都被单独增强。每个盒子旋转(均匀地从[-\pi/20,\pi/20]绘制)并平移,进一步丰富训练集。
    3. 沿x轴应用随机镜像翻转,然后进行全局旋转和缩放。最后,应用从N(0,0.2)中提取的x,y,z的全局平移来模拟局部化噪声。

输入/输出

在这里插入图片描述

在这里插入图片描述

本文中输入数据集格式为激光雷达点云和图像的样本组成。我们只在激光雷达点云上进行训练,并与同时似乎用激光雷达和图像的融合方法进行比较。
PointPillars,一种新颖的编码器,利用PointNet学习垂直列柱体组织中的点云特征,虽然编码特征可以与任何标准2D卷积检测架构一起使用。

输入

LAS格式作为点云数据的一种,LAS是根据几种规格打包的二进制文件。其常见于自动驾驶、高精度地图制作的使用中。las文件旨在包含激光雷达点云数据记录。
其数据记录格式如下:
在这里插入图片描述

在这里插入图片描述

输出

携带有检测及回归信息的点云数据,仍是LAS格式

loss损失函数(详细说明参考网站)

每个目标的3D框用一个7维向量来表示:(x,y,z,w,l,h,θ),其中x,y,z表示3D框的中心点坐标;w,l,h表示3D框的宽、长、高;θ表示3D框的朝向角,ground truth和anchors的残差定义为:
在这里插入图片描述

扫描二维码关注公众号,回复: 16191568 查看本文章

其中,xgt和xa分别表示Ground truth和锚框,da=锚框宽平方与锚框长平方和的平方根。
定位损失函数采用Smooth L1函数:
在这里插入图片描述

Smooth L1损失函数为:
在这里插入图片描述

smooth L1损失函数曲线如下图所示,目的是让loss对于离群点更加鲁棒,相比于L2损失函数,其对离群点(距离中心较远的点)、异常值(outlier)不敏感,可控制梯度的量级使训练时不容易跑飞。
在这里插入图片描述

与SECOND一样,PointPillars 采用softmax分类损失来学习目标朝向,该损失函数用Ldir来表示。
对于目标分类任务,PointPillars采用Focal Loss:
在这里插入图片描述

其中Pa表示锚框的类别概率,阿尔法表示0.25,伽马表示2.
总的损失函数如下:
在这里插入图片描述

其中Npos是真阳性锚框的数量,Bloc=2,Bcls=1,Bdir=0.2
在这里插入图片描述

结果分析

  • 前置说明:KITTI数据集中,BEV指的是鸟瞰图,3D指的是三维立体图。
    在这里插入图片描述

在这里插入图片描述

PointPillars与图中所有算法相比,刷新率最高。PointPillars在平均精度(mAP)方面优于所有发布的方法。与仅使用激光雷达的方法相比,PointPillars在所有类和难度层上都取得了更好的结果(除了easy car层)。它还优于基于汽车和自行车的融合方法。
在这里插入图片描述

图中KITTI测试的平均取向相似度(AOS)检测基准。SubCNN是性能最好的图像唯一方法,而AVOD-FPN,SECOND和PointPillars是预测方向的3D对象检测器。Pointpillasr预测的是3D导向的盒子,但BEV和3D中没考虑方向。所以Pointpillars采用AOS算法,将3D方框投影到图像中,进行2D检测匹配,然后评估这些匹配的方向。与仅有的两种预测定向盒体的3D检测方法相比,PointPillars在AOS上的性能在所有层中都显著优于其他方法。

AOS解释:平均方向相似性,Average Orientation Similarity(AOS)。该指标被定义为:
在这里插入图片描述

其中,r代表物体检测的召回率recall()。在因变量r下,方向相似性s属于[0,1]被定义为所有预测样本与ground truth余弦距离的归一化:
在这里插入图片描述

其中D®表示在召回率r下所有预测为正样本的集合,δ及θ表示检出物体i的预测角度与ground truth 的差。为了惩罚多个检出匹配到同一个ground truth ,如果检出i已经匹配到ground truth(IoU至少50%)设置\delta i=1,否则为0。

新的创新点(存在问题)

  • 过分依赖前面的特征提取。SSD是one-stage的方式,只有一次的回归(可以用二阶段例如pointRCNN在后续的RCNN阶段继续对局部特征进行整合)。
  • 针对行人检测效果略差问题,怀疑是空间角度复杂的行人无法准确进行高维转伪图像处理。个人认为可以进行预先标注几种形态下的行人,然后聚类出有相似特征的行人集合,然后在指导高维转伪图像过程。也可以在伪图像中采用行人预测较好的AVOD-FPN进行处理(具体需要考虑将backbone与AVOD-FPN如何融合)。
    • 更正:点云中,因为人的物理特质特殊,相较于汽车等物体,展示效果可能更简单而更容易找到,可能不是空间角度问题导致。

代码运行

  1. 源码下载
  2. 数据集下载

猜你喜欢

转载自blog.csdn.net/weixin_44077556/article/details/128974059
今日推荐