3D视觉学习路线 + 路线规划

我们生活在三维空间中,如何智能地感知和探索外部环境一直是个热点难题。2D视觉技术借助强大的计算机视觉和深度学习算法取得了超越人类认知的成就,而3D视觉则因为算法建模和环境依赖等问题,一直处于正在研究的前沿。近年来,3D视觉技术快速发展,并开始结合深度学习算法,在智能制造、自动驾驶、AR/VR、SLAM、无人机、三维重建、人脸识别等领域取得了优异的效果。

3D视觉是计算机视觉的终极体现形式

2D视觉技术主要在二维空间下完成工作,三维信息基本上没有得到任何利用,而三维信息才真正能够反映物体和环境的状态,也更接近人类的感知模式。近年来,学术界和工业界推出了一系列优秀的算法和产品,被广泛应用到各个领域。

学术界:CVPR、ECCV、ICCV三大顶会每年和3D视觉相关主题的文章数量保持在十分之一左右,主要关注3D点云的识别与分割、单目图像深度图的生成、3D物体检测、语义SLAM、三维重建、结构光等。

  工业界:3D视觉技术被广泛应用到人脸识别、智能机器人、自动驾驶、AR(增强现实等领域,国内外相关公司推出了一系列产品。

  1. OPPO、华为和苹果等公司推出的3D+AI识别功能,通过扫描人脸三维结构完成手机解锁;
  2. 自动驾驶领域通过分析3D人脸信息,判断司机驾驶时的情绪状态;
  3. SLAM方式通过重建周边环境,完成建图与感知;
  4. AR领域通过三维重建技术完成目标的重现。

3D视觉技术学习的难点?

3D视觉是一个范围较广的概念,涉及到硬件选型、离散数学、非线性优化、最优化理论、矩阵论、多视图几何、空间变换、点云处理、计算机视觉、SLAM、深度学习等相关知识点,对初学者来说,几乎没有一个完整明确的学习路线可以参考,入门较为困难,难以深入,许多人走了很多弯路还是没有取得较好结果。然而,有价值的东西一般都很难,如果能够完全掌握,一定会非常有竞争力。

那么,如何更好地入门且系统化学习3D视觉呢?

首先,我们先来看看入门3D视觉需要哪些知识,以及3D视觉的知识体系包含哪些。

基于3D视觉领域缺少完整的知识路线,我和几个朋友共同完成了3D视觉技术学习路线总结,并以思维导图的形式呈现出来,主要包括0~16个小结,其中每个小结代表特定区域的知识点。学习路线的总结,需要较宽的知识面,由于自身有一定的知识盲区,若有缺漏之处还望指出,后续将会不断更新维护该学习路线~

 



多了解一下几何,SfM,MVS,3D Reconstruction,Visual Localization等,可以集中了解AI在视觉定位和AR中的应用

首先简单的名词解释:

1、SFM【从运动中恢复结构】:

Structure From Motion(SFM) 是从一系列包含视觉运动信息的多幅二维图像序列中估计三维结构的技术

  • SFM和立体视觉的区别:
  • 在立体视觉中,两个相机之间的相对位姿(位姿位置和姿态,是刚体在空间中的位置和它自身的姿态,相机的位姿即相机在空间中的位置和相机的朝向。 相机的位姿可以看做相机从原始位置到当前位置的变换,包含一个平移变换和一个旋转变换,先旋转再平移。)是通过标定靶精确标定出来的,在重建时直接使用三角法进行计算;
  • 而在SFM中该相对位姿是需要在重建之前先计算的。

2、MVS【多视角立体视觉】:

多视角立体视觉(Multiple View Stereo,MVS)是对立体视觉的推广,能够在多个视角(从外向里)观察和获取景物的图像,并以此完成匹配和深度估计某种意义上讲,SLAM/SFM其实和MVS是类似的,只是前者是摄像头运动,后者是多个摄像头视角。

4、3D Reconstruction【3D 重建】 和 虚拟现实【VR】

三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中建立表达客观世界的虚拟现实(虚拟现实在计算机中构造出一个形象逼真的模型。 人与该模型可以进行交互,并产生与真实世界中相同的反馈信息,使人们获得和真实世界中一样的感受。 当人们需要构造当前不存在的环境(合理虚拟现实)、人类不可能达到的环境(夸张虚拟现实)或构造纯粹虚构的环境(虚幻虚拟现实)以取代需要耗资巨大的真实环境时,就可以利用虚拟现实技术。)的关键技术

5、Visual Localization【视觉定位】

视觉定位是指,在大尺度场景下,已知环境地图,给定任意一张图片,计算出该图片对应的位姿。 

以下学习路线,没有具体规划,我想随着学习的不断深入,自己或许有更深的感悟,然后随时更新和自我指导学习路线

1、首先我需要了解SFM以及SLAM相关知识以及关于3D视觉的一些基础知识:

计算机视觉之三维重建(深入浅出SfM与SLAM核心算法)——1.摄像机几何_哔哩哔哩_bilibili

2、MVS【多视角立体视觉】?

猜你喜欢

转载自blog.csdn.net/weixin_43135178/article/details/125340457