【CMT】Cross Model Transformer:Towards Fast and Robust 3D Object Detection

Cross Model Transformer:Towards Fast and Robust 3D Object Detection

论文地址
代码地址

1 摘要

本文提出了一个端到端的3D目标检测,将 image 和 lidar 转换成tokens 作为模型的输入,作者尝试构建了一种新的空间对齐方法,将 image 和 lidar 的特征对齐,并在 nuScenes 上取得了很好的结果。

2 简介

与 BEVFusion 和 TransFusion 对比
在这里插入图片描述
(a) Bevfusion 在通过 LSS 结构转换成 BEV featture 之后,简单的与 lidar feature 进行 concat
(b) TransFusion 首先通过 lidar 特征的高反应区域(可能存在目标区域)生成 queries,再利用queries 与 PC 和 image 特征进行 Transformer。
© 作者提出的 CMT 模型首先使用 PE 结构将 PC 和 image 位置进行编码,再将位置编码加入到对应模式的feature中,再使用生成的带有两种位置编码信息的 queries 同时与 PC 和 image 特征进行 transformer,实现对不同模式的位置对齐操作。

3 Method

在这里插入图片描述

3.1 不同模式特征提取,生成Tokens

对 image 和 lidar 信息分别使用 Image backbone 和 lidar backbone 进行信息提取,生成对应模式的 Tokens(backbone 自己选择)
在这里插入图片描述

3.2 位置坐标编码模型(CEM)

在这里插入图片描述

(作者通过 image 和 lidar 的位置编码结构实现对两种模式数据的 aligin)
首先对于每一个模式数据的 F(u,v) (featuremap),构建一个与之对应的3D 点的集合 P(u, v),其中(u,v)表示的是与之对应的坐标(注:(u,v)在 image feature 表示的是h 和 w,在 lidar 上表示的是 BEV 坐标),然后利用 CEM 结构对 P(u,v) 进行编码:
在这里插入图片描述
ψ 表示的是 MLP 层。

Images 位置编码

作者受到 PETR 的启发,编码 Images 的 P(u, v) 坐标和 PETR 中的方法一致,
在这里插入图片描述
(u,v)表示的是 Images 的 featuremap 的坐标,d 表示的是 depth 坐标轴上的深度坐标,dk 表示的 depth 坐标。u * dk 和 v * dk 是实现 image 坐标到 3D 坐标的透视变换的计算。再利用相机外参矩阵 K∈ 4 × 4 和相机坐标系到雷达坐标系的转换矩阵 T,将P(u, v) 转化到 lidar 坐标系下:
在这里插入图片描述
使用 CE 模块实现对转换后的坐标的编码:
在这里插入图片描述

lidar 位置编码

lidar 位置编码和 Image 位置编码相似,但是不需要进行坐标系转换,构造 lidar 的 P(u, v)方法:
在这里插入图片描述
ud 和 vd 白表示的是BEV的 grid size,编码方法:
在这里插入图片描述
最后 ,将生成的Im PE 和 PC PE与对应的 Im Tokens 和 PC Tokens 相加,让对应的 Tokens 带有位置信息。

3.3 基于位置引导的 Query 的生成器

根据 Anchor-DETR 和 PETR 首先生成 n 个 anchor 点 A = {ai = (axi, ayi, azi), i = 1, 2, 3, …, n},使用[0, 1] 的均匀分布生成 A 中的点坐标,再利用检测范围在这里插入图片描述
将生成的 anchor 点,扩展到检测范围:
在这里插入图片描述
将生成的 anchor 点映设到不同的模式的坐标内,在利用 CEM 结构将 anchor 点所映射的 Image/lidar 模式的点进行编码,(应该是与之前的位置编码使用的是同一个机构, 这样才保证同一个模式下的编码尽可能相同),将两种模式的位置编码相加,得到生成 query 对应的位置编码:
在这里插入图片描述
Apc 和 Aim 是 A 对应的两种模式的点。
将 positional embedding 和 query content embedding 相加得到初始 query:Q0。

3.4 Decoder and loss

解码过程使用 L 层解码层,再使用FFM 层输出 bbox 和 class :
在这里插入图片描述
Qi 表示的是对应的解码层更新后的 query。
Loss函数:class 使用的是 focal loss,bbox 使用的是 L1 loss函数
在这里插入图片描述
w1 和 w2 是两个超参。

4 Masked-Modal Training for Robustness

另外,作者还随机对 lidar 和Images 数据进行随机 mask,提高模型在图像缺失情况下的鲁棒性。
在这里插入图片描述

5 实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43915090/article/details/133761978