CNN的发展史

上一篇回顾讲的是2006年Hinton他们的Science Paper，当时提到，2006年虽然Deep Learning的概念被提出来了，但是学术界的大家还是表示不服。当时有流传的段子是Hinton的学生在台上讲paper时，台下的机器学习大牛们不屑一顾，质问你们的东西有理论推导吗？有数学基础吗？搞得过SVM之类吗？回头来看，就算是真的，大牛们也确实不算无理取闹，是骡子是马拉出来遛遛，不要光提个概念。
时间终于到了2012年，Hinton的学生Alex Krizhevsky在寝室用GPU死磕了一个Deep Learning模型，一举摘下了视觉领域竞赛ILSVRC 2012的桂冠，在百万量级的ImageNet数据集合上，效果大幅度超过传统的方法，从传统的70%多提升到80%多。个人觉得，当时最符合Hinton他们心境的歌非《我不做大哥好多年》莫属。
这个Deep Learning模型就是后来大名鼎鼎的AlexNet模型。这从天而降的AlexNet为何能耐如此之大？有三个很重要的原因：

大量数据，Deep Learning领域应该感谢李飞飞团队搞出来如此大的标注数据集合ImageNet；
GPU，这种高度并行的计算神器确实助了洪荒之力，没有神器在手，Alex估计不敢搞太复杂的模型；
算法的改进，包括网络变深、数据增强、ReLU、Dropout等，这个后面后详细介绍。

从此，Deep Learning一发不可收拾，ILSVRC每年都不断被Deep Learning刷榜，如图1所示，随着模型变得越来越深，Top-5的错误率也越来越低，目前降到了3.5%附近，而在同样的ImageNet数据集合上，人眼的辨识错误率大概在5.1%，也就是目前的Deep Learning模型的识别能力已经超过了人眼。而图1中的这些模型，也是Deep Learning视觉发展的里程碑式代表。
图1. ILSVRC历年的Top-5错误率
在仔细分析图1中各模型结构之前我们先需要了解一下深度学习三驾马车之一————LeCun的LeNet网络结构。为何要提LeCun和LeNet，因为现在视觉上这些神器都是基于卷积神经网络（CNN）的，而LeCun是CNN的祖师爷，LeNet是LeCun打造的CNN经典之作。
LeNet以其作者名字LeCun命名，这种命名方式类似的还有AlexNet，后来又出现了以机构命名的网络结构GoogLeNet、VGG，以核心算法命名的ResNet。LeNet有时也被称作LeNet5或者LeNet-5，其中的5代表五层模型。不过别急，LeNet之前其实还有一个更古老的CNN模型。

最古老的CNN模型

1985年，Rumelhart和Hinton等人提出了后向传播（Back Propagation，BP）算法[1]（也有说1986年的，指的是他们另一篇paper：Learning representations by back-propagating errors)，使得神经网络的训练变得简单可行，这篇文章在Google Scholar上的引用次数达到了19000多次，目前还是比Cortes和Vapnic的Support-Vector Networks稍落后一点，不过以Deep Learning最近的发展劲头来看，超越指日可待。
几年后，LeCun利用BP算法来训练多层神经网络用于识别手写邮政编码[2]，这个工作就是CNN的开山之作，如图2所示，多处用到了5*5的卷积核，但在这篇文章中LeCun只是说把5*5的相邻区域作为感受野，并未提及卷积或卷积神经网络。关于CNN最原始的雏形感兴趣的读者也可以关注一下参考文献[10]。
图2. 最古老的CNN网络结构图

LeNet

1998年的LeNet5[4]标注着CNN的真正面世，但是这个模型在后来的一段时间并未能火起来，主要原因是费机器（当时苦逼的没有GPU啊），而且其他的算法（SVM，老实说是你干的吧？）也能达到类似的效果甚至超过。
图3. LeNet网络结构

输入尺寸：32*32
卷积层：3个
降采样层：2个
全连接层：1个
输出：10个类别（数字0-9的概率）

因为LeNet可以说是CNN的开端，所以这里简单介绍一下各个组件的用途与意义。

Input (32*32)

输入图像Size为32*32。这要比mnist数据库中最大的字母(28*28)还大。这样做的目的是希望潜在的明显特征，如笔画断续、角点能够出现在最高层特征监测子感受野的中心。
卷积核在二维平面上平移，并且卷积核的每个元素与被卷积图像对应位置相乘，再求和。通过卷积核的不断移动，我们就有了一个新的图像，这个图像完全由卷积核在各个位置时的乘积求和的结果组成。
二维卷积在图像中的效果就是:
对图像的每个像素的邻域（邻域大小就是核的大小）加权求和得到该像素点的输出值。具体做法如下：
这里写图片描述

卷积运算一个重要的特点就是: 通过卷积运算，可以使原信号特征增强，并且降低噪音。

不同的卷积核能够提取到图像中的不同特征，这里有在线demo，下面是不同卷积核得到的不同的feature map，
这里写图片描述
以C1层进行说明：C1层是一个卷积层，有6个卷积核（提取6种局部特征），核大小为5*5，能够输出6个特征图Feature Map，大小为28*28。C1有156个可训练参数（每个滤波器5*5=25个unit参数和一个bias参数，一共6个滤波器，共(5*5+1)6=156个参数），共156 (28*28)=122,304个连接。

S2, S4 (pooling层)

S2, S4是下采样层，是为了降低网络训练参数及模型的过拟合程度。池化/采样的方式通常有以下两种：

Max-Pooling: 选择Pooling窗口中的最大值作为采样值；
Mean-Pooling: 将Pooling窗口中的所有值相加取平均，以平均值作为采样值；
S2层是6个14*14的feature map，map中的每一个单元于上一层的 2*2 领域相连接，所以，S2层是C1层的1/4。

F6 (全连接层)

F6是全连接层，类似MLP中的一个layer，共有84个神经元（为什么选这个数字？跟输出层有关），这84个神经元与C5层进行全连接，所以需要训练的参数是：(120+1)*84=10164.
如同经典神经网络，F6层计算输入向量和权重向量之间的点积，再加上一个偏置。然后将其传递给sigmoid函数产生单元i的一个状态。

Output (输出层)

输出层由欧式径向基函数（Euclidean Radial Basis Function）单元组成，每类一个单元，每个有84个输入。
换句话说，每个输出RBF单元计算输入向量和参数向量之间的欧式距离。输入离参数向量越远，RBF输出的越大。用概率术语来说，RBF输出可以被理解为F6层配置空间的高斯分布的负log-likelihood。给定一个输式，损失函数应能使得F6的配置与RBF参数向量（即模式的期望分类）足够接近。
这里写图片描述

LeNet主要是用于识别10个手写数字的，当然，只要稍加改造也能用在ImageNet数据集上，但效果较差。而本文要介绍的后续模型都是ILSVRC竞赛历年的佼佼者，这里具体比较AlexNet、VGG、GoogLeNet、ResNet四个模型。如表1所示。
表1 AlexNet、VGG、GoogLeNet、ResNet对比