机器学习系列（2）：初始化的一小步，网络性能的一大步

“ 万事开头难？训练网络当然也不例外，哈哈没错，这里是机器学习系列第二篇，带你走进看似简单且容易被忽视的权重初始化，了解一下呗（清爽科普风）,文末有小彩蛋哦。”

01 初始化方式

1.1 导言：

1.2：零初始化

Figure 1:三层前馈举例（图片来源知乎koala tree用户）

Figure 2:三层前馈计算式（图片来源知乎koala tree用户）

和都初始化为零（矩阵、向量，下同），这种方式由于导致前馈过程具有对称性，反向传播也产生对称性，导致权重值一样，相当于降低了隐藏层神经元的个数，从而无法进行有效的学习。
以一个三层网络为例：如下结构：
- 那么表达式就如下图所示：
- 从上式可以看出，如果每个权重都一样，那么在多层网络中，从第二层开始，每一层的输入值都是相同的了也就是a1=a2=a3=....，那么就相当于一个输入了，那么反向传播算法最后得到的W和b也都相同，即对称的，就不能拟合任意输入到输出的映射了。

1.3：随机初始化

初始化为随机值，b初始化为0，这种方式尽管b都为0，但由于W值不同，打破了对称性，可以有效学习，但是若网络深度很深，可能会产生梯度消失或梯度爆炸的问题，需要更好的方式。
梯度消失：通常神经网络所用的激活函数是sigmoid函数，这个函数将负无穷到正无穷的输入映射到0和1之间，这个函数求导的结果是f′(x)=f(x)(1−f(x))，两个0到1之间的数相乘，得到的结果就会变得很小了。由于神经网络的反向传播是逐层对函数偏导相乘，因此当神经网络层数非常深的时候，最后一层产生的偏差就因为乘了很多的小于1的数而越来越小，非常接近0，从而导致层数比较浅的权重没有得到更新。
那么什么是梯度爆炸呢？梯度爆炸就是由于初始化权值过大，前面层会比后面层变化的更快，就会导致权值越来越大，这就是梯度爆炸。

1.4：He initialization