Pytorch教程[06]权值初始化

文章目录

背景知识

神经网络的训练过程中的参数学习是基于梯度下降法进行优化的。梯度下降法需要在开始训练时给每一个参数赋一个初始值，因此权重初始化的选取十分的关键，设定什么样的初始化方法关系到模型能否成功学习。那么如果我们把权重初始值全部设置为0，会怎样？？？通常来说，把权值初始值设置成0，不是一个理性的选择，因为实际上如果初始化为0的话，模型将无法学习。因为如果参数都为0，在第一遍前向计算时，所有的隐层神经元的激活值都相同。这样会导致深层神经元没有区分性。这种现象也称为对称权重现象。因此为了打破这个现象，比较好的方式就是给每个参数随机初始化一个值。

但是初始化的值太小，那么导致神经元的输入过小，经过多层之后信号就消失了，设置的过大导致数据状态过大，对于sigmoid类型的激活函数来说，激活值就一下子饱和了，梯度接近于0，也是不好训练的。

因此，参数初始化的区间应该根据神经元的性质进行差异化的设置。

一.梯度消失与梯度爆炸

1.1梯度爆炸

在反向传播过程中需要对激活函数进行求导，如果导数大于1，那么随着网络层数的增加，梯度更新将会朝着指数爆炸的方式增加。

1.2梯度消失

如果导数小于1，那么随着网络层数的增加，梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。

因此，梯度消失、梯度爆炸，其根本原因在于反向传播训练法则，属于先天不足。

二.Xavier方法与Kaiming方法

2.1Xavier均匀分布初始化

torch.nn.init.xavier_uniform_(tensor, gain=1.0)
公式：
在这里插入图片描述
eg.

w = torch.empty(3, 5)
nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain('relu'))

2.2 Xavier正态分布初始化

torch.nn.init.xavier_normal_(tensor, gain=1.0)

在这里插入图片描述

w = torch.empty(3, 5)
nn.init.xavier_normal_(w)

2.3 kaiming正态分布

torch.nn.init.kaiming_normal_(tensor, a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’)
在这里插入图片描述

w = torch.empty(3, 5)
nn.init.xavier_normal_(w)

2.4 kaiming均匀分布

torch.nn.init.kaiming_uniform_(tensor, a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’)
在这里插入图片描述

w = torch.empty(3, 5)
nn.init.kaiming_uniform_(w, mode='fan_in', nonlinearity='relu')

三.常用初始化方法

Xavier均匀分布
Xavier正态分布
Kaiming均匀分布
Kaiming正态分布
均匀分布
正态分布
常数分布
正交矩阵初始化
单位矩阵初始化
稀疏矩阵初始化