VISTA Boosting 3D Object Detection via Dual Cross-VIew SpaTial Attention论文个人总结

1、引言

LiDAR传感器是自动驾驶中重要的传感器,能够直接获取精确的物体的三维信息。目前基于LiDAR的3D目标检测有很多研究,为了使用卷积网络来处理点云,一些算法试图将点云体素化,但这样会带来一个问题:计算效率太低并且非常消耗计算资源。

为了解决上述问题,一些方法利用稀疏卷积来提取3D点云特征,并将这些特征投影到2D视图(常见的有BEV和RV),随后基于2D视图使用卷积网络来生成预测建议。

  • BEV:鸟瞰视图,物体大小不随距离变化,但缺乏高度信息
  • RV:距离视图,可以理解为点云的前视图,能生成紧凑、密集的特征

点云到BEV和RV的转换,都损失了3D空间中信息的完整性,由此一些工作试图利用多视图来对丢失的信息做一个互补,目前多视图方案有两种思路:

  1. 从单视图产生初始的预测框,利用其他视图来细化
  2. 利用投影矩阵融合多视图特征,基于融合后的特征来做3D目标检测

当然,上述两种方案也有缺点。第一种太过于依赖初始的提议,第二种依赖于另一视图是否能有效互补单张视图的信息。

2、Overview

在这里插入图片描述

  1. 使用3D ResNet提取特征
  2. 将特征分解为两种2D特征映射:BEV和RV
  3. Neck采取UNet架构,包含若干个卷积层
  4. VISTA模块以两个2D特征作为输入,融合为多视角特征

3、跨视角空间注意力

在这里插入图片描述

3.1 架构简介

  1. 以两种视图特征作为输入,并对多视图特征之间的跨视图相关性进行建模(数据对齐)
  2. 修改注意力模块,使用卷积网络代替多层感知器,两种视角特征分别映射为Q和K
  3. 为了解耦分类和回归任务,使用一维卷积将第2步得到的Q、K投影为Qi和Ki(一对用于语义,一对用于几何)
  4. 使用缩放的点积来获得交叉视图的注意力权重

3.2 解耦分类和回归

分类和回归任务共享一个卷积模块,3.1提到过,只是利用一维卷积将Q和K分开。这么做的原因如下:

分类任务需要联系全局上下文的语义信息,也就是需要寻找共性,换句话说就是同类对象必定存在相似的语义信息

回归任务是对特定的对象而言的,而不同的对象所处的位置、型状、大小不同,也就是说,不同对象有不同的几何特征

所以作者认为,分类和回归共享一个键值对会导致任务冲突,学习效率较低

在这里插入图片描述

另外,由于3D点云的特性,点云传递的语义信息是非常弱的,不适合分类任务。但点云能传递极强的几何信息,网络很容易理解物体的几何属性。因此,尤其是在基于点云的目标检测中,出现了分类和回归任务的不平衡,回归任务是占主导地位的,常见的一个例子就是对于几何信息相似但分类不同的对象识别能力较弱,比如公交车和卡车,在点云中肉眼都几乎难以分辨。

为了缓解分类和回归不平衡的问题,注意力模块根据语义和几何权重输出几何特征语义特征,保证有效学习。实验结果也是证明有效的,比如下图的a和c,都准确的识别出了结果,b和d有分类错误(b中的紫色和黄色,d中的紫色跟红色)

在这里插入图片描述

3.3 注意力约束

通俗来讲,就是使用某些手段,使网络注意可能存在目标的区域,而不是全局平均注意。

点云中只有少量的前景点会对检测起着决定性作用,大部分都是些无用的背景点,因此注意力模块可能会关注不相关区域,不添加监督的情况可能注意力模块不能很好的构建跨视角特征映射关系。为了使注意力模块关注目标点,引入一个约束,思路如下:

首先给定学习的注意力权重:

给定地面真相尺度和中心位置的集合:

对于BEV视图下的每个pillar,基于体素大小计算中心的真实世界坐标,获得一个坐标集合:

在这里插入图片描述

获取地面真相边界框的注意力权重:

上述公式个人理解:取满足右侧花括号条件下的pillar中心坐标点,再根据这些坐标点的索引取学习的注意力权重。笔者能力有限,欢迎在评论区指出个人见解。

随后,将所有地面真相边界框的方差约束公式化如下:

实验证明,引入注意力约束可以更好的使网络关注目标点,下图中点越亮表示关注度越高。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u014295602/article/details/129168438