深度学习—VGG16模型详解

1.网络结构

根据卷积核大小和卷积层数，VGG共有6中配置，分别为A,A-LRN,B,C,D,E，其中D和E两种最为常用，即i我们所说的VGG16和VGG19。具体为：

卷积-卷积-池化-卷积-卷积-池化-卷积-卷积-卷积-池化-卷积-卷积-卷积-池化-卷积-卷积-卷积-池化-全连接-全连接-全连接。
通道数分别为64，128，512，512，512，4096，4096，1000。卷积层通道数翻倍，直到512时不再增加。通道数的增加，使更多的信息被提取出来。全连接的4096是经验值，当然也可以是别的数，但是不要小于最后的类别。1000表示要分类的类别数。
所有的激活单元都是Relu 。
用池化层作为分界，VGG16共有6个块结构，每个块结构中的通道数相同。如下图蓝色所示。因为卷积层和全连接层都有权重系数，也被称为权重层，其中卷积层13层，全连接3层，池化层不涉及权重。所以共有13+3=16层。
对于VGG16卷积神经网络而言，其13层卷积层和5层池化层负责进行特征的提取，最后的3层全连接层负责完成分类任务。

在这里插入图片描述

2.VGG16的卷积核

卷积层全部都是3x3的卷积核，用上图中conv3-xxx表示，xxx表示通道数。其步长为1，用padding=same填充。
池化层的池化核为2*2

3. 卷积计算

1）输入图像尺寸为224x224x3，经64个通道为3的3x3的卷积核，步长为1，padding=same填充，卷积两次，再经ReLU激活，输出的尺寸大小为224x224x64

2）经max pooling（最大化池化），滤波器为2x2，步长为2，图像尺寸减半，池化后的尺寸变为112x112x64

3）经128个3x3的卷积核，两次卷积，ReLU激活，尺寸变为112x112x128

4）max pooling池化，尺寸变为56x56x128

5）经256个3x3的卷积核，三次卷积，ReLU激活，尺寸变为56x56x256

6）max pooling池化，尺寸变为28x28x256

7）经512个3x3的卷积核，三次卷积，ReLU激活，尺寸变为28x28x512

8）max pooling池化，尺寸变为14x14x512

9）经512个3x3的卷积核，三次卷积，ReLU，尺寸变为14x14x512

10）max pooling池化，尺寸变为7x7x512

11）然后Flatten()，将数据拉平成向量，变成一维51277=25088。

11）再经过两层1x1x4096，一层1x1x1000的全连接层（共三层），经ReLU激活

12）最后通过softmax输出1000个预测结果

4. 权重参数（不考虑偏置）

1)输入层有0个参数，所需存储容量为224x224x3=150k

2）对于第一层卷积，由于输入图的通道数是3，网络必须要有通道数为3的的卷积核，这样的卷积核有64个，因此总共有（3x3x3）x64 = 1728个参数。
所需存储容量为224x224x64=3.2M
计算量为：输入图像224×224×3，输出224×224×64，卷积核大小3×3。所以Times=224×224×3x3×3×64=8.7×107

3）池化层有0个参数，所需存储容量为图像尺寸x图像尺寸x通道数=xxx k

4）全连接层的权重参数数目的计算方法为：前一层节点数×本层的节点数。因此，全连接层的参数分别为：
7x7x512x4096 = 1027,645,444
4096x4096 = 16,781,321
4096x1000 = 4096000
按上述步骤计算的VGG16整个网络总共所占的存储容量为24M*4bytes=96MB/image 。所有参数为138M
VGG16具有如此之大的参数数目，可以预期它具有很高的拟合能力；但同时缺点也很明显：
即训练时间过长，调参难度大。
需要的存储容量大，不利于部署。