AlexNet

在ILSVRC 2012中赢得了第一名,Top5错误率15.3%。论文链接
这里写图片描述
AlexNet前面是5个卷积层，之后是3个全连接层，最后再加上一个1000-way的Softmax，对应于ILSVRC的1000个类别的概率。
从上图可以明显看到网络结构分为上下2层，这是表示网络分布在2个GPU上，因为一个NVIDIA GTX 580 GPU只有3GB内存，装不下这么大的网络。为了减少GPU之间的通信，第2，4，5个卷积层只连接同一个GPU上的上一层的kernel maps(见名词解释)。第3个卷积层连接第二层的所有kernel maps。全连接层的神经元连接到上一层所有的神经元。第1，2个卷积层里ReLU操作之后有response normalization操作。第1，2，5个卷积层里有max pooling操作。作为激活函数，所有的卷积层和全连接层都有ReLU操作。
输入的图片的尺寸是224 * 224 * 3，3表示RGB这3个通道。第一个卷积层共有96个卷积核，每个卷积核的尺寸是11 * 11 * 3，移动的步长是4。第二个卷积层有256个卷积核，每个卷积核的尺寸是5 * 5 * 48。因为第1个卷积层共有96个卷积核，第2层的卷积核尺寸应该是5 * 5 * 96的，但因为第一层的kernel maps分布在2个GPU上，且第2个卷积层只连接同一个GPU上的上一层网络，所以卷积核的尺寸只有5 * 5 * 48。第3个卷积层有384个卷积核，每个核的尺寸是3 * 3 * 256。第4个卷积层有384个卷积核，每个核的尺寸是3 * 3 * 192。第5个卷积层有256个卷积核，每个核的尺寸是3 * 3 * 192。第1和2个全连接层各有4096个神经元，第3个全连接层有1000个神经元。
值得学习的地方：

1：Data augmentation

AlexNet用到的第一种data augmentation方法为：从原图片（256 * 256）中随机的提取224 * 224的图片，以及他们水平方向的映像（即沿竖直中轴线翻转180度）。
AlexNet用到的第二种data augmentation方法是在图片每个像素的R，G，B值上分别加上一个数，用的方法为PCA (Principal Component Analysis)。

2：Dropout

AlexNet用了一种叫做dropout的技术来减少过拟合。dropout是指以一定的概率使神经元的输出为0，AlexNet选择的概率为0.5。

3：Relu

（1）选择ReLU作为激活函数
AlexNet使用了修正线性单元（ReLUs），用这种方法能够更快的学习，这种方法对于在大型数据集上训练大型模型的表现有重大影响。

VGGNet

在ILSVRC上定位方面获得第一名，分类获得第二名（第一被GoogleNet拿去了）。论文链接
这里写图片描述
卷积核的大小为3*3
1：相较与AleNet,VGGNet最大的改进或者说区别就是用小size的Filter代替大size的Filter。两个3*3的卷积层的有限感受野是5*5（）如下图用两个3*3的卷积核代替一个5*5的卷积核）三个3*3卷积层可以替代7*7的卷积核
这里写图片描述
2：多个3*3的卷基层比一个大尺寸filter卷基层有更多的非线性，增强泛化能力。
3 : 3*3是最小的能够捕获上下左右和中心概念的尺寸，对于1*1的卷积核的作用是在不影响输入输出维数的情况下，对输入线进行线性形变，然后通过Relu进行非线性处理，增强网络泛化能力
(未完待续)

AlexNet、GoogLeNet、VGGNet、ResNet对比

AlexNet

1：Data augmentation

2：Dropout

3：Relu

VGGNet

猜你喜欢