怎么自学计算机视觉?难不难?

计算机视觉有传统计算机视觉和基于深度学习的计算机视觉,传统方法需要很强的视觉方面的基础知识,感觉会特别难,而且在一点点被深度学习取代,或结合深度学习才能取得更好的结果。

怎么自学计算机视觉?

正好最近在备这门课,可以简单分享一下我的备课思路,各位有什么好的建议尽管评论,首先要表明,自学基本上是不可能的,除非你有一定的基础,否则不要考虑自学。

首先我打算明确几个容易混淆的概念:人工智能(AI)、机器学习(ML)、深度学习(DL)、计算机视觉(CV)、图像处理(IP)。其中最应该强调的有两点:(1)图像处理是信号处理的范畴(图像是2D Signal),不完全和CV相同,他们的输入都是图像,但CV的输出是一种对图像的理解,比如语义分割,而图像处理(顾名思义是处理图像的)输出的是一张图片,比如边缘检测;(2)ML/DL是方法论,CV是应用。

那既然CV是一项应用,那这门课我是打算按照应用科学的方式去讲——实验很重要,能上手做出demo很重要。

具体的课程安排打算从成像开始,即空间中的一个3D点怎么投射到相机平面。这要涉及到一些Perspective Transformation的公式推到,比较简单,初高中物理知识。

随后打算设计一些2D图像分析/理解的课程,比如从简单的边缘检测到图像分类/回归(介绍一下ResNet等经典网络和最近比较火的Transformer)到目标识别/跟踪(比如介绍一下YOLO和R-CNN系列和一些常用tracking算法比如DSST)、语义分割(比如FCN、SegNet、DeepLabV3+、FuseNet等)、instance segmentation(不知道咋翻译TT)。

然后可以从2D图像分析/理解延伸到3D重建,基于“一个场景中两个不同位置拍到的照片的重叠部分可以得到其三维几何模型”。然后推导一下Essential Matrix、Fundamental Matrix、Homograph Matrix这些公式。然后分几节课讲一下特征匹配(比如ORB、BRISK等到Key.Net、LF-Net等)、光流(传统方法、监督类、无监督等)、立体视觉(同理)、场景流等(基于点云的和基于图像的)以及Structure from Motion和SLAM中一些经典算法。

免费分享一些我整理的人工智能学习资料给大家,包括一些AI常用框架实战视频、图像识别、OpenCV、NLQ、机器学习、pytorch、计算机视觉、深度学习与神经网络等视频、课件源码、国内外知名精华资源、AI热门论文、行业报告等。

为了更好的系统学习AI,推荐大家收藏一份。

下面是部分截图,文末附免费下载方式。

一、人工智能课程及项目

二、国内外知名精华资源

三、人工智能论文合集

四、人工智能行业报告

学好人工智能,要多看书,多动手,多实践,要想提高自己的水平,一定要学会沉下心来慢慢的系统学习,最终才能有所收获。

点击下方名片,扫码免费下载文中资料。

猜你喜欢

转载自blog.csdn.net/gu1857035894/article/details/125487635