AlexNet、GoogLeNet、VGGNet、ResNet对比

AlexNet

在ILSVRC 2012中赢得了第一名,Top5错误率15.3%。论文链接
这里写图片描述
AlexNet前面是5个卷积层,之后是3个全连接层,最后再加上一个1000-way的Softmax,对应于ILSVRC的1000个类别的概率。
从上图可以明显看到网络结构分为上下2层,这是表示网络分布在2个GPU上,因为一个NVIDIA GTX 580 GPU只有3GB内存,装不下这么大的网络。为了减少GPU之间的通信,第2,4,5个卷积层只连接同一个GPU上的上一层的kernel maps(见名词解释)。第3个卷积层连接第二层的所有kernel maps。全连接层的神经元连接到上一层所有的神经元。第1,2个卷积层里ReLU操作之后有response normalization操作。第1,2,5个卷积层里有max pooling操作。作为激活函数,所有的卷积层和全连接层都有ReLU操作。
输入的图片的尺寸是224 * 224 * 3,3表示RGB这3个通道。第一个卷积层共有96个卷积核,每个卷积核的尺寸是11 * 11 * 3,移动的步长是4。第二个卷积层有256个卷积核,每个卷积核的尺寸是5 * 5 * 48。因为第1个卷积层共有96个卷积核,第2层的卷积核尺寸应该是5 * 5 * 96的,但因为第一层的kernel maps分布在2个GPU上,且第2个卷积层只连接同一个GPU上的上一层网络,所以卷积核的尺寸只有5 * 5 * 48。第3个卷积层有384个卷积核,每个核的尺寸是3 * 3 * 256。第4个卷积层有384个卷积核,每个核的尺寸是3 * 3 * 192。第5个卷积层有256个卷积核,每个核的尺寸是3 * 3 * 192。第1和2个全连接层各有4096个神经元,第3个全连接层有1000个神经元。
值得学习的地方:

1:Data augmentation

AlexNet用到的第一种data augmentation方法为:从原图片(256 * 256)中随机的提取224 * 224的图片,以及他们水平方向的映像(即沿竖直中轴线翻转180度)。
AlexNet用到的第二种data augmentation方法是在图片每个像素的R,G,B值上分别加上一个数,用的方法为PCA (Principal Component Analysis)。

2:Dropout

AlexNet用了一种叫做dropout的技术来减少过拟合。dropout是指以一定的概率使神经元的输出为0,AlexNet选择的概率为0.5。

3:Relu

(1)选择ReLU作为激活函数
AlexNet使用了修正线性单元(ReLUs),用这种方法能够更快的学习,这种方法对于在大型数据集上训练大型模型的表现有重大影响。

VGGNet

在ILSVRC上定位方面获得第一名,分类获得第二名(第一被GoogleNet拿去了)。论文链接
这里写图片描述
卷积核的大小为3*3
1:相较与AleNet,VGGNet最大的改进或者说区别就是用小size的Filter代替大size的Filter。两个3*3的卷积层的有限感受野是5*5()如下图用两个3*3的卷积核代替一个5*5的卷积核)三个3*3卷积层可以替代7*7的卷积核
这里写图片描述
2:多个3*3的卷基层比一个大尺寸filter卷基层有更多的非线性,增强泛化能力。
3 : 3*3是最小的能够捕获上下左右和中心概念的尺寸,对于1*1的卷积核的作用是在不影响输入输出维数的情况下,对输入线进行线性形变,然后通过Relu进行非线性处理,增强网络泛化能力
(未完待续)

猜你喜欢

转载自blog.csdn.net/qq_32768091/article/details/78757518