深度学习核心技术实战——图像分类模型

                                                                              图像分类模型

1.LeNet-5: 每一个卷积核都会形成一个特征图,3个通道则是每个通道是不同的卷积核,但是最后是将三通道的卷积值相加,最后变成一个通道,所以5*5*64的卷积核,感知范围是5*5,最后出来是64层(个特征图)。每个卷积核都包括w(权重)和b(bias偏置)。LeNet-5最初用于手写数字识别。

2.AlexNet:5个卷积层和3个全连接层 最后输出层是1000类的Softmax。

使用如下创新:

1) ReLU 非线性激活函数

2) 多GPU训练

3) 局部响应归一化

4) 重叠池化

3.降低过拟合的方法:

1) 数据增强:对图像数据进行变换

2) Dropout  随机的关闭一定比例的节点(神经元)

4.VGGnet:最后输出为4096维,全连接层是1000维(1000类别)。最后一层是Softmax层

隐层使用ReLU

5.GoogleNet:2014ILSVRC分类任务冠军。22层

创新点:用全局平均池化层取代全连接层,借鉴了NIN(network in network)的做法

MLP网络能够更好的拟合局部特征,也增强了输入局部的表达能力,NIN不在分类层前使用全连接,而是采用全局平均池化。

提高深度网络效果的方式是:增大网络尺寸。但是带来了更多的参数和计算资源需求。

改善方案:

1) 引入稀疏性

2) Hebbin原则:两个神经元同步激发,则他们之间的权重增加,如果单独激发,则权重减少。

GoogleNet就是利用Inception自动构建非一致结构的神经网络。

ResNet:残差网络shortcut  一定程度上解决了过深模型梯度发散导致无法训练的问题。

DenseNet 从第一层开始每层都作为后面各层的输入。

Dual Path Network:双通道神经网络

猜你喜欢

转载自blog.csdn.net/zzyy0929/article/details/80975161