学习了哪些知识，计算机视觉才算入门？

作者：言有三
链接：https://www.zhihu.com/question/26836846/answer/996660212
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

从两个方向来回答这个问题，第一个是从零开始怎么系统性入门计算机视觉，这是一个路线问题。第二个是如何系统性学习，涉及到计算机视觉的各个方向。

第一个问题，如何系统性进阶，我斗胆将学习深度学习的同志分为5大境界，分别是 白身，初识，不惑，有识，不可知，下面一个一个道来，以 计算机视觉方向为例。

1 白身

所谓白身境界，就是基本上什么都不会，还没有进入角色。在这个境界需要修行的内容包括：

(1) 熟练掌握linux及其环境下的各类工具的使用

(2) 熟练掌握python及机器学习相关库的使用

(3) 掌握c++等高性能语言的基本使用

(4) 知道如何获取和整理，理解数据

(5) 掌握相关的数学基础

(6) 了解计算机视觉的各大研究方向

(7) 了解计算机视觉的各大应用场景

(8) 了解行业的优秀研究人员，知道如何获取最新的资讯，能够熟练阅读简单的技术资料

如果掌握了这些，那么就从白痴，不，是白身境界晋级了。怎么判断这个境界呢？可以参考以下的文章，看看掌握的如何。

AI白身境界系列完整链接：

第一期：【AI白身境】深度学习从弃用windows开始

第二期：【AI白身境】Linux干活三板斧，shell、vim和git

第三期：【AI白身境】学AI必备的python基础

第四期：【AI白身境】深度学习必备图像基础

第五期：【AI白身境】搞计算机视觉必备的OpenCV入门基础

第六期：【AI白身境】只会用Python？g++，CMake和Makefile了解一下

第七期：【AI白身境】学深度学习你不得不知的爬虫基础

第八期：【AI白身境】深度学习中的数据可视化

第九期：【AI白身境】入行AI需要什么数学基础：左手矩阵论，右手微积分

第十期：【AI白身境】一文览尽计算机视觉研究方向

第十一期：【AI白身境】AI+，都加在哪些应用领域了

第十二期：【AI白身境】究竟谁是paper之王，全球前10的计算机科学家

2 初识

所谓初识，就是对相关技术有基本了解，掌握了基本的使用方法。在这个阶段，需要修行以下内容。

(1) 熟练掌握神经网络

(2) 培养良好的数据敏感性，知道如何正确准备和使用数据

(3) 至少熟练掌握一个深度学习框架的使用

(4) 熟悉深度学习模型的基本训练和调参，网络设计

(5) 掌握归一化，激活机制，最优化等对模型性能的影响

(6) 能熟练评估自己的算法，使用合适的优化准则

AI初识境界系列完整链接：

第一期：【AI初识境】从3次人工智能潮起潮落说起

第二期：【AI初识境】从头理解神经网络-内行与外行的分水岭

第三期：【AI初识境】近20年深度学习在图像领域的重要进展节点

第四期：【AI初识境】激活函数：从人工设计到自动搜索

第五期：【AI初识境】什么是深度学习成功的开始？参数初始化

第六期：【AI初识境】深度学习模型中的Normalization，你懂了多少？

第七期：【AI初识境】为了围剿SGD大家这些年想过的那十几招

第八期：【AI初识境】被Hinton，DeepMind和斯坦福嫌弃的池化，到底是什么？

第九期：【AI初识境】如何增加深度学习模型的泛化能力

第十期：【AI初识境】深度学习模型评估，从图像分类到生成模型

第十一期：【AI初识境】深度学习中常用的损失函数有哪些？

第十二期：【AI初识境】给深度学习新手开始项目时的10条建议

3 不惑

进入到不惑境界，就是向高手迈进的开始了，在这个境界的重点就是进一步巩固知识，并且开始独立思考。如果说学习是一个从模仿，到追随，到创造的过程，那么到这个阶段，应该跳过了追随，进入了创造的阶段。

如果是在学校读研究生，就要能够发表水平不错的文章，如果是在公司做业务，就要能够提出正确且快速的解决方案，如果是写技术文章，就要能够信手拈来原创写作而不需要参考。

这个阶段需要修行以下内容：

(1) 熟练玩转数据和模型对一个任务的影响

(2) 能够准确的分析出模型的优劣，瓶颈

(3) 对于新的任务能够快速寻找和敲定方案

(4) 拥有各种各样的深刻理解深度学习模型的技能，从可视化到参数分析等等等

(5) 能够优化模型到满足业务的需求，实现工业级落地

(6) 了解行业的最新进展，并在某些领域有自己的独到理解

不惑境界的内容

第一期：【AI不惑境】数据压榨有多狠，人工智能就有多成功

第二期：【AI不惑境】网络深度对深度学习模型性能有什么影响？

第三期：【AI不惑境】网络的宽度如何影响深度学习模型的性能？

第四期：【AI不惑境】学习率和batchsize如何影响模型的性能？

第五期：【AI不惑境】残差网络的前世今生与原理

第六期：【AI不惑境】移动端高效网络，卷积拆分和分组的精髓

第七期：【AI不惑境】深度学习中的多尺度模型设计

第八期：【AI不惑境】计算机视觉中注意力机制原理及其模型发展和应用

4 有识

到这里，就步入高手境界了。可以大胆地说自己是一个非常合格的深度学习算法工程师甚至是研究员了，在自己研究的领域里处于绝对的行业前沿，对自己暂时不熟悉的领域也能快速地触类旁通。

无论是眼界，学习能力，还是学习态度都是一流水平，时而大智若愚，时而锋芒毕露，当之无愧的大师兄。

这个修行之路仍然在更新中，我们发布了超过360页的指导手册和GitHub项目，大家可以去自行获取。

下面是一些综述性质的总结文章和两个适合初学者的专栏内容。

1 深度学习模型设计

模型解读系列文章：

第一期：【模型解读】从LeNet到VGG，看卷积+池化串联的网络结构

第二期：【模型解读】network in network中的1*1卷积，你懂了吗

第三期：【模型解读】GoogLeNet中的inception结构，你看懂了吗

第四期：【模型解读】说说移动端基准模型MobileNets

第五期：【模型解读】pooling去哪儿了？

第六期：【模型解读】resnet中的残差连接，你确定真的看懂了？

第七期：【模型解读】“不正经”的卷积神经网络

第八期：【模型解读】“全连接”的卷积网络，有什么好？

第九期：【模型解读】从“局部连接”回到“全连接”的神经网络

第十期：【模型解读】深度学习网络只能有一个输入吗

第十一期：【模型解读】从2D卷积到3D卷积，都有什么不一样

第十二期：【模型解读】浅析RNN到LSTM

第十三期：【模型解读】历数GAN的5大基本结构

2 开源框架速成（更新完）

开源框架速成系列：

第一篇：【caffe速成】caffe图像分类从模型自定义到测试

第二篇：【tensorflow速成】Tensorflow图像分类从模型自定义到测试

第三篇：【pytorch速成】Pytorch图像分类从模型自定义到测试

第四篇：【paddlepaddle速成】paddlepaddle图像分类从模型自定义到测试

第五篇：【Keras速成】Keras图像分类从模型自定义到测试

第六篇：【mxnet速成】mxnet图像分类从模型自定义到测试

第七篇：【cntk速成】cntk图像分类从模型自定义到测试

第八篇：【chainer速成】chainer图像分类从模型自定义到测试

第九篇：【DL4J速成】Deeplearning4j图像分类从模型自定义到测试

第十篇：【MatConvnet速成】MatConvnet图像分类从模型自定义到测试

第十一篇：【Lasagne速成】Lasagne/Theano图像分类从模型自定义到测试

第十二篇：【darknet速成】Darknet图像分类从模型自定义到测试

喜欢打酱油的老鸟博客专家

发布了469 篇原创文章 · 获赞 718 · 访问量 151万+

他的留言板关注