基于SLAM的室内场景的结构化构建

分享提纲：

结构化场景重建的定义及意义
单目结构化重建
俯视图结构化重建
多目结构化重建

应用

Robot navigation（机器人导航），Indoor decoration（室内装饰），Virtual walk-in tours（虚拟购房导航），Augmented reality（虚拟现实效果优化）

室内的研究集中在分析重建场景中的高层机构化信息，从一个场景中理解分析三维的几何信息是一个非常重要的计算机视觉问题。传统的方法多是用一些底层次的三维表示，比如说密集的点云、密集网格模型或者是深度图。这些传统的低层次的三维表示虽然看起来很美观，但是却不好分析和理解，因此并不是很实用，因此寻找一种既中看又中用的方法非常重要，单目结构化重建就是符合要求的方法。

单目结构化重建

为了更好地取得平面性和交互性，主要采取从照片中提取出所需要的平面，并估计每个平面的三维参数，进而确定平面的三维结构信息。

我们假定一个图像拥有十个平面，每个平面分别用三维空间中的三个参数来表示，最终确定三维结构；为了进一步确认在三维空间中的范围，我们会计算 segmentation masks；至于非平面区域，则估算 pixel-wise 的 depth map，这三种信息合起来就是图片的三维信息；

提取所有的平面，提取所有平面信息，即三维信息不知道第一个输出的平面是什么样子的。不知道第一个level长什么样，可以得到三维场景中所有的信息；

俯视图结构化重建

关于俯视图结构化重建主要分享了如何从 JPEG 图像和点云中进行恢复重建，其主要从JPEG格式中提取相关信息；其总目标是获得一个总的完整的三维化的结构化模型。

为了获取矢量图，我们借鉴了 Human pose estimation 方法，并解决了所面临的任意拓扑挑战。在我们的工作中，会先通过深度网络找到图中的关键元素（墙角、门、物体……），然后再利用 Integar Programming（IP）进行优化。总的来说，前者构成了我们的中间层表示，后者最终优化出最终的结构图。

多目结构化重建

多目结构化重建希望可以实现用户拍摄一组 rgb 照片，结合照片和机位信息，就可以完美重建结构化模型。
这项工作的难点在于：

一、缺少三维信息的数据；
二、难以找到两幅图像之间的对应关系；
三、当前的分析可能会基于早先的发现。

解决方案：一项是基于 Wireframe3D 的表示，可以检测出二维空间里的角点和连线信息，进而获得三维空间中的 Wireframe 表示。另外一项则是增强了鲁棒性的 LayoutNet++，网络先对两幅图像的共同之处做聚类，再根据聚类对信息进行单独处理，最后将所有输出拼到一起。

本文主要是对AI研习社刘晨的分享，然后我看完发现不错，做了一下总结