多元梯度下降法演练 I – 特征缩放 多元梯度下降法II – 学习率

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/up_XCY/article/details/86481332

特征缩放:瘦长的椭圆,会导致趋向最值时梯度下降的震荡;所以需要缩放特征值,使得其取值范围相近。按经验,特征缩放到3倍或1/3是比较可以接受的。

相关参量调整到相同范围,有助于对最优值的寻找,应该也可以用于 群体智能算法。

从上图左边我们可以看到,由于两个特征值的取值范围相差很多倍(2000:5),导致代价函数是一个瘦高的椭圆,这样进行梯度下降,你会发现很慢甚至一直震荡,缓慢的到达最优解。所以这里我们采用特征缩放,是得每个特征值的取值范围差不多。这样得到的代价函数的等高线就是差不多是一个圆,这样梯度下降就会很快。

缩放可以用:实际值减去平均值除以范围(最大值减最小值)

多元梯度下降法II – 学习率

迭代次数与J的关系示意图:

学习率太大或者太小可能导致的结果:

学习率α的取值要合适,太小太慢,太大适得其反。选取α的经验,从……0.001—>0.01—>0.1—>1……

3倍作为速率筛选过程取值,也是一个很好的思路。

猜你喜欢

转载自blog.csdn.net/up_XCY/article/details/86481332