AlexNet 论文笔记

标题 :ImageNet Classification with Deep Convolutional Neural Networks

作者:Alex Krizhevsky; Ilya Sutskever;Geoffrey E. Hinton

摘要:

        1、论文作者训练了一个大型深层卷积神经网络,将120万张高分辨率图像分为1000种不同类别。在imagenet lsvrc-2010中,此模型Top-1的错误率为37.5%,Top-5错误率为17%,远好于过去所用的算法水平

        2、此神经网络共包含6000万个参数以及65万个神经元,有五层卷积层,有的层后做了max-pooling池化,之后再有三层全连接层,最后做1000路的softmax分类。

        3、为了加快训练速度,使用了非饱和神经元的思路(其实就是ReLu激活),以及使用GPU完成卷积计算。

        4、为了避免过拟合,使用了最新的正则化的方法“dropout”。

        5、他们还在lsvrc-2012比赛中使用了该模型的一个变种,取得了15.3%的测试失误率,而第二名的成绩则为26.2%。

一、introduction

        1、目前对物体的检测关键使用机器学习的方法

        2、为了对数百万张图像进行上千种分类,我们需要一个有很大学习容量的算法

扫描二维码关注公众号,回复: 3486299 查看本文章

        3、尽管CNNs有一些吸引人的特点,也尽管它对局部构成具有相对有效性,他们仍需要花费很大代价将其应用于大量的高分辨率图像

        4、这篇论文做出了一下贡献:我们训练了一个至今为止最大的卷积神经网络并且取得了前所未有的效果;我们写了一个高优化的2D卷积的GPU实现方法,其他的操作不变,并且对公众开放;我们的网络包含了一些新的不常见的特征,提高了性能和训练效率,具体可见第三节;网络太大使得过拟合成为一个重要的问题,所以我们用了一些行之有效的方法去解决,具体可见第四节;最终的网络包含5个卷积层和3个全连接层,我们发现这些缺一不可,省掉任何一层,网络性能就会下降。

        5、网络的大小受限于GPU内存容量和我们能够忍受的训练时间。我们训练用了5-6天时间,使用了两块GTX 580 3GB 显卡。

二、数据集

        1、ImageNet 是一个拥有超过1千5百万高分辨率图片涉及22000个类的数据集。2010年起,ILSVRC开始举办。ILSVRC使用的ImageNet的子数据集。

        2、只有2010届ILSVRC的测试集标签可用,所以2012年比赛的时候我们也用它们训练,具体结果可见第六节。Top-5失误率是指正确的测试标签完全不在模型预测的前五个标签内的失误率。

        3、ImageNet数据集的图片分辨率各有不同。我们对图像统一下采样到256*256分辨率。除了把每个像素减去均值,没有做别的预处理,采用原生RGB像素值作为输入。

三、结构


conv(11,11,3,96)-max pool-conv(5,5,48,256)-max pool-conv(3,3,256,384)-conv(3,3,192,384)-conv(3,3,192,256)-full connect(4096)-full connect(4096)-full connect(4096)

四、避免过拟合

        1、数据增强。两种方法都是在GPU训练时利用CPU计算资源实时地将训练图片做少量变换,从而不占用内存。其一,我们通过从256*256个图像中提取随机的224*224的部分(及其水平反射)并在这些数据上训练我们的网络;其二,改变训练图像的rgb通道强度,比如对训练图像的像素做主成分分析。

        2、Dropout。前两个全连接层使用了Dropout,即让一部分神经元隐藏。如果不使用这种技术,模型会明显过拟合。另外Dropout会花费两倍于原来的迭代次数。

五、学习细节

        SGD随机梯度下降;标准差0.01均值为0的高斯分布初始化权值矩阵;第2、4、5卷积层以及全连接层运用并初始化了bias;所有层使用相同学习速率;

六、结果

        

        1、定量评价。GPU1负责提取边缘特征,GPU2负责提取颜色特征,且与初始化的权值无关;即使物体不在图中央,Top-5失误率也较低;相似图片像素级别的上两幅图的欧氏距离较大,比如狗有不同姿势的图片,CNN模型能够有效识别

七、结论

        我们的研究结果表明,一个大型深层卷积神经网络能够使用纯监督学习在高度具有挑战性的数据集上取得破纪录的结果。最终我们希望在视频序列中使用非常大和深度的卷积网络,其中时间结构特别重要,这些信息在静态图像中缺少或者说还不太明显。


猜你喜欢

转载自blog.csdn.net/liusiyang_641/article/details/79687072
今日推荐