深层神经网络

深层神经网络求梯度的大致过程:

偏差和方差:

过拟合措施(正则化):

w是参数矩阵

L2正则化又称为权重衰减,w的矩阵乘了一个比1小的数,在进行同之前的梯度递减,所以整个过程又称为“权重衰减”。

原因:lamda足够大,则w接近0,直观理解就是把多个隐藏单元的权重设置为零,于是消除了这些影响,网络得以简化.

过拟合措施(dropout):

每层的keep.prob可以设置不同值,对于w比较大的容易过拟合的层,这个值设置相对较小。

防止过拟合的其他方法还有:数据增强、early stopping。

常见的数据归一化方法 min-max标准化 和 z-score 标准化。

前者:

扫描二维码关注公众号,回复: 5619264 查看本文章

这种方法有一种缺陷就是加入数据后可能导致max、min发生变化,需要重新计算。

后者:

经过处理的数据服从正态分布,即均值为0,标准差为1,注意,一般来说z-score不是归一化,而是标准化。

梯度检验:

注意:梯度检验不要用在训练中,可以在调试中观察,检验还不能和dropout同时进行。

初始化权重:

猜你喜欢

转载自blog.csdn.net/qq_30122883/article/details/88235890