基本情况

文章：Monocular Camera Localization in Prior LiDAR Maps with 2D-3D Line Correspondences
作者：Huai Yu1;2, Weikun Zhen2, Wen Yang1, Ji Zhang2 and Sebastian Scherer
编译：点云PCL
来源：arXiv 2020

摘要

目前，视觉和视觉+惯导的里程计（VO&VIO）技术在状态估计中得到了很好的发展，但在回环闭合时不可避免地会出现累积漂移和位姿跳跃。为了克服这些问题，我们提出了一种基于二维-三维直线对应关系的单目定位方法。为了处理LiDAR点云和图像之间的数据和模型的差异，从LiDAR地图中离线提取三维几何线，从视频序列中实时提取鲁棒二维图像直线。通过VIO的位姿的预测，可以有效地获得可能的2D-3D直线对应。然后通过最小化对应点的投影误差和剔除异常点，对相机位姿和二维-三维对应点进行迭代优化。在EurocMav数据集和我们采集的数据集上的实验结果表明，在结构化环境中，该方法可以有效地估计摄像机的姿态，且不会产生累积漂移或姿位姿跳跃。

这项工作的主要贡献是使用二维-三维几何直线对应关系估计位姿用于单目定位的方法，有效地将每个关键帧与先前的LiDAR地图相关联。几何线对应对外观变化具有很强的鲁棒性，适用于城市环境中的相机定位。下图显示了在LiDAR地图中具有2D-3D直线对应和估计的相机位姿的图像。

本文提出的在现有的道路LiDAR地图中的单目定位系统的应用。右侧的激光雷达地图按高度着色。红色和绿色轨迹分别是VINS Mono和我们的结果。左上角的图像显示三维直线投影（绿色）使用估计的VINS Mono姿态（有遮挡）和提取的二维直线（红色），而左下角的图像使用提出的方法的姿态估计的二维-三维直线对应的关系图。

主要内容

该方法可同时估计六自由度相机姿态和二维-三维线对应关系。通过最小化三维直线重投影误差来优化相机位姿，而精确的相机姿态有助于剔除离群点。在大尺度的三维LiDAR点云地图上离线提取三维线特征，作为实时二维-三维对应估计的前期工作。同时，PnP解算对手动标记的2D-3D点对应关系给出第一帧的粗略姿态初始值。然后利用VINS-Mono预测相机在相邻关键帧之间的运动。利用预测的姿态，提取相机的视场（FoV）中的局部3D线，并与从图像序列中在线提取的2D线直接匹配。最后，迭代更新相机姿态和2D-3D对应关系，流程如图所示。

基于单目相机在LIDAR点云地图中定位的流程

A .2D-3D 的线提取

在城市环境中，几何结构通常用线段和平面来表示。这里使用基于分割的三维直线检测方法从激光雷达点云地图中提取三维直线。其基本思想是将点云聚类成平面区域，利用等高线拟合得到三维线段。该方法对大规模无组织点云具有良好的鲁棒性和有效性。尽管处理数百万个点需要时间，但在我们开始跟踪之前，所有地图的3D线只提取一次。

对于二维直线的提取，需要提取出与三维直线一致、对噪声具有鲁棒性的重要的二维几何直线。这在城市场景中是一个挑战，因为大量的纹理噪声会分割出较多的二维线段，并且在颜色均匀的结构（如白墙）上的二维图像中一些几何边缘是不可见的。计算机视觉算法中提出了许多最先进的线段检测（LSD）方法，传统的方法在CPU上运行效率很高。然而，检测到的线段散乱有噪声的，如左图。这些零散且噪声特征会产生大量的2D-3D匹配异常值。考虑到线的完整性和对噪声的鲁棒性，最后采用了一种基于学习的LSD算法，它利用attraction field map（AFM）将LSD问题转化为基于颜色的区域生长问题。

二维图像上线段检测不同方法的比较

B .2D-3D 线段的匹配

对于单帧图像，获取2D-3D对应关系的主要步骤包括初始摄相机姿态预测、3D直线检测和单个2D-3D直线对应关系估计。在这里，在相机FoV中的3D线的提取有助于提高效率，因为FoV中的局部3D线与3D地图中的所有3D线相比非常有限。考虑到仅对三维线图进行遮挡检测比较困难，在不丢弃遮挡线的前提下，将所有的三维线保持在视场中。

三维线段是否在视场中的检查

•如果两个端点都在视场中（图（a）），则将整个三维线段保持为局部可视特征。

•当只有一个端点处于视场（图（b））时，我们从可视点以0:1的线长比例在3D线上迭代采样新的3D点，并检查新采样点的可见性。生成的具有视场中最长长度的三维线段子集被存储为局部可视特征。

•如图（c）所示，当两个端点都不在视野范围内，但一个子集在视野范围内时，我们也可以采样点来提取一个子集。然而，大多数不可视的地图线段在这种情况下，为了效率放弃了三维线段与两个端点的在视场外的情况。

C .线匹配和位姿的优化

对于单个帧，可以通过将两个三维线段的端点投影的点到无穷远直线距离最小化到相应的二维直线距离来优化相机姿态。估计相机姿态Pt的李代数表示为ξt，无限长二维直线的系数向量为H=abc。目标函数是最小化所有2D-3D对应之间的投影误差：

然而，单帧2D-3D对应观测值针对实时的相机定位的鲁棒性是不够。当视场中的三维直线在三维空间中受限或平行时，二维-三维对应关系不能约束六自由度姿态。此外，即使对应关系足够用于姿态估计，二维和三维直线的几何定位噪声也会使估计在真实姿态附近不稳定。为了解决这些问题，利用滑动窗口来添加更多先前的对应观测，以优化当前姿势Pt（如图所示）

基于滑动窗口的位姿优化

实验

该方法在两个不同的真实数据集上进行了测试。第一个实验是在公开的EuRoC MAV数据集上进行的，数据集中包含了地面真实轨迹。并且，我们在不同条件下对Realsense D435i相机采集的数据集进行了实验，以验证方案的性能。测试电脑是一个英特尔核心i7-4790K处理器，32GB内存，和一个Nvidia GeForce GTX 980Ti图形处理器。GPU仅用于二维测线。

EuRoC MAV数据集上的相机定位结果。左上角的图像显示了使用VINS-Mono提取的2D线段（红色）和投影的3D线（绿色）（有遮挡），左下角显示了使用我们的方法的2D-3D对应。右图显示了估计的轨迹（绿色）与激光雷达地图中的真值（红色）对齐的结果。

在EuRoC MAV数据集上运行了5次 ATE RMSE的统计结果

不同长度的线段的RPE （ The average relative pose errors）RMSE统计结果

相对轨迹误差箱线图

为了进一步评估我们的方法在不同的环境下，测试了我们自己采集的室内走廊和室外建筑物数据集。Intel RealSense D435i摄像头用于采集同步图像和IMU数据。全局快门成像仪用同步的IMU数据（200Hz）捕获单目图像序列（640×480像素，30Hz，红外投影仪关闭）。激光雷达地图是通过配准FARO扫描仪focus3D S的几次扫描点云数获得的，如图所示。

三个场景激光雷达点云地图

室外环境下的相机的定位结果

自采数据集中的定位误差

总结

在这篇论文中提出了在预先构建的结构化的LiDAR点云地图环境中，使用单目相机进行定位的方法。该方法利用LiDAR地图中的三维几何直线和图像中检测的鲁棒的二维直线，基于VINS-Mono的相机运动预测的位姿，有效地获得了粗略的二维-三维直线对应关系。这种二维-三维对应的位姿优化方法能够在不进行回环检测的情况下，降低了VIO系统的位姿估计的漂移。并进行了数据集的定性和定量分析结果表明，该方法能有效地获得可靠的二维-三维对应关系和精确的相机姿态。

论文笔记_S2D.65_基于先验LIDAR点云地图的单目相机定位

基本情况

摘要

主要内容