Pointpillar Paper

PointPillars提出了一种新的点云编码方式和3D转2D的方法，用2D卷积的方式实现目标检测而没有采用耗时的3D卷积，在速度和精度上达到了很好的平衡，其速度快、精度高、易于部署的特点使得其在工业界得到了广泛的应用。
处理思路是3d转2d，在2d伪图像上进行目标检测。
主要步骤分三阶段：
1. 将点云转换为稀疏伪图像的特征编码器网络；
  - 首先在俯视图的平面上打网格（H x W)的维度；然后对于每个网格所对应的柱子中的每个点都取（x,y,z,r,x_c,y_c,z_c,x_p,y_p）9个维度。其中前三个为每个点的真实位置坐标，r为反射率，带c下表示该点到柱子中心的偏差，带p下标的是对点相对于网络中心的偏差。每个柱子中点多于N的进行采样，少于N的进行填充0.于是形成（D,N,P）D=9,N为点数（设定值），P=H*W。
  - 然后学习特征，用一个简化的PointNet从D维中学出C个channel来，变为（C,N,P），然后对N进行最大化操作操作变为（C，P）,又因为P是H*W的，我们再展开成一个伪图像形式，H,W为宽高，C为通道数。
2. 2D卷积基础网络，用于将伪图像处理成高维特征表示；
  - 包含两个子网络（1.top-down网络，2.second网络）top-down网络结构为了捕获不同尺度下的特征信息，主要是由卷积层、归一化、非线性层构成的，second网络用于将不同尺度特征信息融合，主要由反卷积来实现（上采样）。由一个2D卷积神经网络组成，其作用是用于在第一部分网络输出的伪图像上提取高维特征。
3. 检测头部（detection head,SSD）,对类别预测和对3D检测框的位置进行回归
  - SSD检测头用于实现3D目标检测，与SSD类似，PointPillars在2D网格中进行目标检测，而Z轴坐标和高度则是通过回归方式得到。
数据增强
1. 为所有类和这些3D框中的相关点云创建了一个地面真实3D框的查找表。然后对于每个样本，我们分别随机选取汽车、行人和骑自行车的15、0、8个ground truth样本(ground truth: 分类准确性，用于统计模型中验证或推翻某种研究假设)，并将其放入当前点云中。
2. 然后，将所有ground truth box都被单独增强。每个盒子旋转（均匀地从[-\pi/20,\pi/20]绘制）并平移，进一步丰富训练集。
3. 沿x轴应用随机镜像翻转，然后进行全局旋转和缩放。最后，应用从N(0,0.2)中提取的x,y,z的全局平移来模拟局部化噪声。

输入/输出

在这里插入图片描述

本文中输入数据集格式为激光雷达点云和图像的样本组成。我们只在激光雷达点云上进行训练，并与同时似乎用激光雷达和图像的融合方法进行比较。
PointPillars，一种新颖的编码器，利用PointNet学习垂直列柱体组织中的点云特征，虽然编码特征可以与任何标准2D卷积检测架构一起使用。

输入

LAS格式作为点云数据的一种，LAS是根据几种规格打包的二进制文件。其常见于自动驾驶、高精度地图制作的使用中。las文件旨在包含激光雷达点云数据记录。
其数据记录格式如下：

在这里插入图片描述

输出

携带有检测及回归信息的点云数据，仍是LAS格式

loss损失函数(详细说明参考网站)

每个目标的3D框用一个7维向量来表示：（x,y,z,w,l,h,θ）,其中x,y,z表示3D框的中心点坐标；w,l,h表示3D框的宽、长、高；θ表示3D框的朝向角，ground truth和anchors的残差定义为：
在这里插入图片描述

扫描二维码关注公众号，回复： 16191568 查看本文章

其中，xgt和xa分别表示Ground truth和锚框，da=锚框宽平方与锚框长平方和的平方根。
定位损失函数采用Smooth L1函数：
在这里插入图片描述

Smooth L1损失函数为：

smooth L1损失函数曲线如下图所示，目的是让loss对于离群点更加鲁棒，相比于L2损失函数，其对离群点（距离中心较远的点）、异常值（outlier)不敏感，可控制梯度的量级使训练时不容易跑飞。
在这里插入图片描述

与SECOND一样，PointPillars 采用softmax分类损失来学习目标朝向，该损失函数用Ldir来表示。
对于目标分类任务，PointPillars采用Focal Loss:
在这里插入图片描述

其中Pa表示锚框的类别概率，阿尔法表示0.25，伽马表示2.
总的损失函数如下：
在这里插入图片描述

其中Npos是真阳性锚框的数量，Bloc=2，Bcls=1,Bdir=0.2
在这里插入图片描述

结果分析

前置说明：KITTI数据集中，BEV指的是鸟瞰图，3D指的是三维立体图。

在这里插入图片描述

PointPillars与图中所有算法相比，刷新率最高。PointPillars在平均精度（mAP）方面优于所有发布的方法。与仅使用激光雷达的方法相比，PointPillars在所有类和难度层上都取得了更好的结果（除了easy car层）。它还优于基于汽车和自行车的融合方法。
在这里插入图片描述

图中KITTI测试的平均取向相似度（AOS）检测基准。SubCNN是性能最好的图像唯一方法，而AVOD-FPN,SECOND和PointPillars是预测方向的3D对象检测器。Pointpillasr预测的是3D导向的盒子，但BEV和3D中没考虑方向。所以Pointpillars采用AOS算法，将3D方框投影到图像中，进行2D检测匹配，然后评估这些匹配的方向。与仅有的两种预测定向盒体的3D检测方法相比，PointPillars在AOS上的性能在所有层中都显著优于其他方法。

AOS解释：平均方向相似性，Average Orientation Similarity(AOS)。该指标被定义为：

其中，r代表物体检测的召回率recall()。在因变量r下，方向相似性s属于[0,1]被定义为所有预测样本与ground truth余弦距离的归一化：
在这里插入图片描述

其中D®表示在召回率r下所有预测为正样本的集合，δ及θ表示检出物体i的预测角度与ground truth 的差。为了惩罚多个检出匹配到同一个ground truth ,如果检出i已经匹配到ground truth(IoU至少50%)设置\delta i=1,否则为0。

新的创新点（存在问题）

过分依赖前面的特征提取。SSD是one-stage的方式，只有一次的回归（可以用二阶段例如pointRCNN在后续的RCNN阶段继续对局部特征进行整合）。
针对行人检测效果略差问题，怀疑是空间角度复杂的行人无法准确进行高维转伪图像处理。个人认为可以进行预先标注几种形态下的行人，然后聚类出有相似特征的行人集合，然后在指导高维转伪图像过程。也可以在伪图像中采用行人预测较好的AVOD-FPN进行处理（具体需要考虑将backbone与AVOD-FPN如何融合）。
- 更正：点云中，因为人的物理特质特殊，相较于汽车等物体，展示效果可能更简单而更容易找到，可能不是空间角度问题导致。

pointpillars Paper学习总结

Pointpillar Paper

输入/输出

输入

输出

loss损失函数(详细说明参考网站)

结果分析

新的创新点（存在问题）

代码运行

猜你喜欢