Dropout的正则化原理

Dropout的正则化原理

1、dropout 如何工作

典型的神经网络其训练流程是将输入通过网络进行正向传导,然后将误差进行反向传播。Dropout就是针对这一过程之中,随机地删除隐藏层的部分单元,进行上述过程。步骤如下:

随机删除网络中的一些隐藏神经元,保持输入输出神经元不变将输入通过修改后的网络进行前向传播,然后将误差通过修改后的网络进行反向传播对于另外一批的训练样本,重复上述操作训练阶段使用Dropout,测试阶段把Dropout屏蔽。

所以,在训练的时候为每个存活下来的神经元做同采样比例的放大,或者,另外一种选择就是把测试结果根据采样比例缩小。

Dropout之所以具有正则化能力的两个解释:

  1. 强迫网络拥有冗余的表示;
  2. Dropout在训练一个大规模的网络组合(ensemble)

强迫网络拥有冗余的表示:在每轮迭代中,总是随机屏蔽一定比例的神经元,因此输出并不知道它正在组合哪些特征,比起没有Dropout时过于专注于某些特征(比如拿识别猫来说,过于专注于猫的眼睛),现在模型把专注力分散到每个特征,使得这些特征也能具备比较好的预测能力。由于原本具有很高权重的那些特征现在被压缩,达到了正则化的效果。 Dropout相当于模型平均、模型组合:看作是模型平均的一种,平均一个大量不同的网络。不同的网络在不同的情况下过拟合,但是共用一个损失函数,相当于同时进行了优化,取了平均;相比之前使用所有的数据在一个模型里面训练,Dropout相当于在训练阶段每次针对一批数据就生成一个独特的小模型,然后再将这些模型组合起来的一种方法。我们在《透彻理解集成算法及其思想》一文中对于集成模型的优势有很好的阐述。

减少复杂依赖性:由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,因此不能保证某两个隐含节点每次都同时出现,这样就减少了神经元之间的依赖性,即每个神经元不能依赖于某几个其他的神经元(指层与层之间相连接的神经元),阻止了某些特征仅在有其他特征存在才有效的情况,减少神经元之间复杂的依赖性。

转自:https://baijiahao.baidu.com/s?id=1613121229156499765&wfr=spider&for=pc

发布了207 篇原创文章 · 获赞 36 · 访问量 14万+

猜你喜欢

转载自blog.csdn.net/NXHYD/article/details/104602101