基于更深卷积网络的大规模图像识别——阅读笔记

这篇文章是根据之前有一篇翻译的文献而来，翻译见前面的博客： https://blog.csdn.net/D_____S/article/details/82825322

第一次读外文文献，理解起来非常困难，参考了网上的不少资料。

之后会学习如何复现此网络，复现过程将在接下来的博客上更新。

一、VGG的意义

这篇论文之所以简称为 “VGG” 是因为出自牛津大学 Oxford Visual Group。

二、文章内容

摘要

本篇文章是以2014年的ImageNet挑战赛上的模型为基础，当时的模型分别在比赛上的定位和分类项目中取得了第一名和第二名的好成绩。最后公布了两广性能最好的模型 VGG-16 和 VGG-19 来给大家研究。

1、引言

卷积网络在大规模图像识别和分类上取得成功的原因：大型公共图像数据集；高性能计算机系统；大规模分布式集群。

之前的技术：在AlexNet的原始框架上做一些改进。比如在第一个卷积上使用较小的卷积核以及较小的滑动步长。另一个方法则是在全图以及多个尺寸上稠密的训练测试网络。

本文的主要是增加网络深度，采用了3x3的卷积核。

图取自网上

2、卷积配置

文章为了将关注点放在深度上，其他网络参数的配置都是固定的，通过增加卷积层的方法来增加网络深度。

2.1、构架

训练输入：固定尺寸 224x224的 RGB 图像。

预处理：每个像素值减去训练集上的RGB均值。

卷积核：一堆 3x3 的卷积核，步长为 1，使用填充来保持卷积后图像空间分辨率不变。

空间池化：为 2x2 的滑动窗口，步长为 2。

全连接层：特征提取之后，是三个全连接层，前面两个是 4096 通道，第三个是 1000通道，最后一个是 soft-max层，输出概率。

隐藏层：所有隐藏层都用非线性修正ReLu。

2.2、详细配置

表1中每列代表不同的网格，只有深度不同（层数计算不包含池化层）。第一层为64通道，每经过一次最大池化，通道数翻倍，直到数量达到512通道。

表2表示每种模型的参数数量，因为参数量主要集中在全连接层，所以尽管网络加深，但权重变化不大。

2.3、讨论

两个 3x3 的卷积核相当于一个 5x5 的卷积滤波器的感受野，三个 3x3 的卷积核相当于一个 7x7 的卷积核的感受野。

优点：三个卷积堆叠具有三个非线性的修正层，模型更具有辨别力；参数的数量更少，相当于将 7x7 的卷积核上加入了正则化，便于加快训练。

图取自网上

从下图来看,在计算量这里，为了突出小卷积核的优势，拿同conv3x3、conv5x5、conv7x7、conv9x9和conv11x11，在224x224x3的RGB图上（设置pad=1，stride=4，output_channel=96）做卷积，卷积层的参数规模和得到的feature map的大小如下:

图取自网上

3、分类框架

3.1、训练

除了多尺度训练图像采样方法不一样以外，其他的训练方法与AlexNet基本一致。

训练采用 mini-batch 梯度下降法，batch size = 256；

采用动量优化算法，momentum = 0.9；

采用L2 正则化方法：惩罚系数为0.00005；dropout比率为 0.5；

初始学习率为 0.001，当验证集准确率不在提高时，学习率衰减为原来的 0.1 倍，总共下降 3 次；

总迭代次数为 370K（74epochs）；

数据增强采用随即裁剪，水平翻转，RGB颜色变化；

设置训练图片大小的两种方法；

定义 S 代表经过各向同性缩放的训练图片最小边。

第一种方法：针对单尺寸图像训练，S=256或384，输入图片从中随即裁剪 224x224 大小的图片，原则上 S 可以取任意不小于 224 的值。

第二种方法：针对多尺度图像训练，每张图像单独从 [Smin，Smax] 中随机选取 S 来进行尺寸缩放，由于图像中目标物体尺寸不定，因此训练中采用这种方法是有效的，可看作一种尺寸抖动的训练集数据增强。

网络权重的初始化非常重，因为深度网络梯度的不稳定性，不合适的初始化会阻碍网络的学习。因此先选练浅层网络，再用训练好的浅层网络去初始化深层网络。

3.2、测试

测试阶段，对于已经训练好的卷积网络和一张输入图像，采用以下方法分类：

首先，图像的最小边各向同性缩放到预定尺寸Q；

然后，将原先的全连接层改换成卷积层，在未裁剪的全图像上运用卷积网络，输出是一个与输入图像尺寸相关的分类得分图，输出通道数与类别数相同；

最后，对分类得分图进行空间平均化，得到固定尺寸的分类得分向量。

测试阶段采用全卷积网络，无需对输入图像进行裁剪，相对于多重裁剪效率会更高。但多重裁剪评估和运用全卷积的密度评估是互补的，有助于性能提升。

4、分类实验

4.1、单尺寸评估

表3展示单一测试尺寸上的卷积网络性能。

4.2、多尺寸评估

表4是多个测试尺寸上的卷积网络性能。

4.3、多重裁剪与密集网络评估

表5是多重裁剪与密集网络对比，并显示了两者融合的效果。

4.4、卷积模型的融合

这部分将不同模型融合，计算多个模型的 soft-max 分类概率的平均值来对它们的输出进行组合，由于模型的互补性性能有所提高。

表6是多个卷积网络融合效果。

4.5、与当前最好算法的比较

5、结论

网络深度有利于分类准确率的提升。