learning rate 和weight decay

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/laoxuan2011/article/details/52754288

首先,假设我们有loss function为 E(w)
梯度下降算法告诉我们,为了最小化loss function为 E(w) ,要在 E 的最快速下降的方向修改权值:

wiwiηEwi,

这里 η 学习率,学习率越大则对应的权重 wi 修改也越大。
为了防止过拟合,在loss function上加上正则项(惩罚项),一种简单的方法是通过在权重上引入一零均值高斯项。

E˜(w)=E(w)+λ2w2

这里,λ为正则化参数。正则项是模型复杂度的单调递增函数,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。

应用梯度下降算法到这个新的cost函数,我们得到:

wiwiηEwiηλwi.

这新的一项 ηλwi 起到的就是正规化的作用,使得权重与其大小成比例衰减。

猜你喜欢

转载自blog.csdn.net/laoxuan2011/article/details/52754288