文章目录

PLARD
- ADT
- FST
- Fusion
- Backbone
- Loss
- Experiment

目前KITTI榜单第一，发表于自动化学报英文版。

好久没读Road Detection方面的论文的，该论文的结果虽然是KITTI榜单第一名，但我个人认为创新性和行文确实与发表在CV领域的顶会文章的有挺大差距。但也有个好的地方是该方法开源了。

PLARD

该方法使用了图像与点云两种数据，是将点云投影到图像上的方法。
在这里插入图片描述

ADT

Altitude Difference-based Transformation是制作点云那一支的输入的一个过程。其实就是将点云的高度信息投影到图像中，然后求取每个像素在其邻域内的高度差的平均值。
在这里插入图片描述

FST

Feature Space Transformation是转换lidar分支feature的一个步骤。首先用对应的lidar和image的feature学两个参数：
在这里插入图片描述
这就是总图中的“TN”（Transformation Network）。然后根据这两个参数，得到转换后的lidar的feature：

整个过程由下图所示：

Fusion

与文中公式（10）对应，但这个公式打错了：
在这里插入图片描述
但总体而言不难理解。

Backbone

backbone使用pspnet，本人对语义分割的文章看的不多，这里就记录一下pspnet的主要特点。

pspnet使用resnet101作为backbone，一共5个res block。在res4 block之后加入cls layer，预测feature map中每个grid的mask，使用双线性插值，up sampling到原分辨率，称为aux mask。
resnet101的输出之后加入pyramid pooling来aggregate不同scale的特征，然后送入cls layer预测mask。再使用双线性插值，获取原分辨率的大小的mask，具体操作如下图：
在这里插入图片描述
计算loss的时候，除了使用最后获取的mask，还使用aux mask。两者都与target计算loss，然后相加。

Loss

loss这里由三部分loss，最后分割使用一个loss能理解，lidar的分支在res5 block之后也送入cls layer，再up sampling到原分辨率得到一个mask，同样参与loss的计算：
在这里插入图片描述

Experiment

实验效果没的说，KITTI第一。
Ablation Study是在validation set上做的，效果不如test set可能是由于训练不充分，网络权重没有用大数据集预训练，没有加数据增广，放出来的代码中也没有数据增广。

文章中提到，对于用于test的版本，做如下训练：
“In contrast to ablation studies, we pre-train visual image-based DCNN in the PLARD system using external data [46] to improve robustness for the evaluation on test set. In addition, for the test set, we improve PLARD by adopting several data augmentation techniques, including multi-scale training and testing, random cropping, and disturbing the image brightness. Lastly, we extend the training period for the test set evaluation to three times longer than in the ablation study.”

由于KITTI Road Detection的数据集非常小，只有几百张图片，所以其实第一也不能就说效果比第二第三确实好，但应该还是可以接受的。