论文速读系列四:Cross-Modality、CT3D、Pyramid R-CNN、VoTr、AFDetV2

以下内容是对专栏:https://www.zhihu.com/column/c_1370398704629858304的笔记记录

1. Cross-Modality 3D Object Detection

paper:《Cross-Modality 3D Object Detection》(2021WACV)
结构图:
在这里插入图片描述

1)point-to-pixel模块:利用点云point-wise特征对图像特征层进行信息融合,在不同level的特征图上都进行fusion。不过这里存在一个疑问,point-wise的维度不一定和某个level的特征图channel一致,这具体是如何融合需要查看代码。
2)在RPN网络的回归损失总,包括3d anchor的预测回归以及2d anchor的预测回归(3d标注框在2d上投影来进行监督训练),以及利用3d预测的边界框在2d上进行投影,再与2d的预测框进行回归构建成reprojection loss。所以这里的回归损失包含了三个方面:Lreg = Lreg(2d) + Lreg(3d) + αLreg(reprojection)。通过reprojection loss,希望为3d回归提供粗略的方向,并且紧密2d和3d框的紧密联系。
3)roi特征聚合信息包括2d的crop feature以及3d的point feature,还包括每个point到传感器的距离以及局部点云坐标(local coordinates)。将以上4个部分进行concat作为最后的fused features。同样的,这里应该需要对crop feature进行处理,实现和point feature的对齐,不然如何拼接呢。


2. CT3D

paper:《Improving 3D Object Detection with Channel-wise Transformer》(2021ICCV)
结构图:
在这里插入图片描述

动机:如何建模点之前的几何关系以及位置信息,如何充分获取点云的语义信息(现阶段的proposals refinement大多数是人工设计)

思路:
1)RPN网络:采用SECOND框架,用于生成候选框
2)Proposal-to-point Encoding Module:如何扩充point feature,一开是将proposal信息添加到每个点特征上,既:[pic,l,w,h,θ,fi]。pic是位置信息,fi是原始点云信息,不过transformer encoder对于重新定向几何信息的编码效果较差。因此,作者提出新的关键点策略(8个角点),每个点减去8个角点产生相对坐标△pi,最后的点特征构建为:[pic,△pi1,△pi2,…,△pi8,fi]。
3)Channel-wise Decoding Module:将编码的特征解码为全局表示,用于后续检测。同时保持全局信息以及局部信息。如下图所示: (a)Standard decoding; (b) Channel-wise re-weighting; © Extendedchannel-wise re-weighting. standard decoding 主要处理global aggregation,而channel-wise re-weighting 主要处理channel-wise local aggregation。
在这里插入图片描述

详细的点云transformer处理细节需要查看代码。


3. Pyramid R-CNN

paper:《Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object Detection》(2021ICCV)
结构图:
在这里插入图片描述

动机:roi区域点云稀疏分布不均匀,而且点云在标注框中个数分布也不平衡

思路:
1)RoI-grid Pyramid:对于每一个RoI,通过pyramid 方式,逐渐扩大RoI区域,以获得更多的grid points。pyramid方式通过超参数 ρ 控制RoI的大小, ρ=1 时为原始预测的RoI,ρ 越大,RoI区域越大,以囊括周围的点云,增加语义信息。
2)RoI-grid Attention:通过一个可学习的gated函数结合graph-based和 attention-based的方法,提取RoI特征。让网络学习使用哪个方法更合适,哪些点对于grid point更重要。
3)Density-Aware Radius Prediction:决定Points of Interest内的哪些点参与特征提取,这里的半径r是可学习的超参数,而非之前人为设定的。总的来说,对于pyramid的每一级,首先通过加权RoI附近Points of Interest的信息,得到context embedding;再利用这个embedding预测半径r;进一步将r转化为系数参与RoI-grid Attention的计算。
在这里插入图片描述


4. VoTr

paper:《Voxel Transformer for 3D Object Detection》(2021ICCV)
结构图:
在这里插入图片描述

动机:对于3d卷积的backbone如何尽可能获取大感受野,引入transformer可以建立像素间的long-range relationships

思路:
1)submanifold voxel module:仅提取non-empty voxel位置的特征,保持3D场景的几何结构;sparse voxel module可以提取empty位置的voxel特征(需要进行估计计算)
2)Effificient Attention Mechanism:设计了Local and Dilated Attention模块,利用Local Attention覆盖周围的voxel以保持细节的3D结构信息,同时再利用Dilated Attention(有点像空洞卷积)逐步扩大querying步长,以覆盖更远的voxel空间。保持局部和全局信息,且避免了大量计算
3)Fast Voxel Query:一种应用基于 GPU 的哈希表以很少的内存消耗有效地查找参与的非空体素的新方法。
在这里插入图片描述


5. AFDetV2

paper:《AFDetV2: Rethinking the Necessity of the Second Stage forObject Detection from Point Clouds》(2022AAAI)
结构图:
在这里插入图片描述

这篇东西的创新不算特别多,不过故事讲得特别好。

背景:
为什么需要second stage?根据之前工作的经验,second stage可以提升网络性能,原因有以下2个:1)原始点特征可以恢复损失的位置信息;2)分类和边界框回归是通过2个独立的分支完成的,会带来不对齐的问题。
但是,近来有工作证明,就算没有原始点云信息做second stage的refine,依靠voxel特征依然可以取得不错的性能。通过大量的实验,作者发现first stage已经足以得到精确的bbox定位,second stage的贡献主要源于分类得分的提高,这一发现也和分类-定位不对齐的问题一致。
在有工作证明原始点云的信息对于second stage refine是非必要因素后,作者认为剩下3个因素可能会提升second stage的精度,即:1)box regression;2)classification score;3)alignment between box regression and classification score

通过实验表明,box regression是非必要的,second stage带来的提升主要源于classification score refine。那么,后续的想法就是在single-stage的框架中,引入classification score refine。作者提出引入self-calibrated convolution block以增强语义信息;同时,增加一个IoU alignment to the classification

思路:
1)Self-Calibrated Convolutions:RPN部分采用的是Self-Calibrated Convolutions
在这里插入图片描述

2)如结构图所示,网络输出包含了多个head。对于IoU-aware,作者通过下述公式建立bbox和classification的alignment(类似于CIA-SSD)
在这里插入图片描述

其中score是原始classification score,iou是预测的IoU,α 是超参数。这个IoU-aware的改动给One-stage带来了带来了2.3的提升(难以相信)。
3)设计keypoint模型进行辅助监督来联合训练,具体来说是在BEV上预测4个角点和1个中心点,也就是设置关键点损失进行正则化操作(类似corner loss,八角点损失),该模块仅在训练时有,inference时去掉。

ps:通过IoU-aware,带来3+%的提升简直难以想象。


参考资料:

1. 知乎专栏:3D检测与分割

猜你喜欢

转载自blog.csdn.net/weixin_44751294/article/details/128269265