梯度下降——新感悟

    书读百遍,其义自见!

    以前学习神经网络的时候,只知道学习率α设置对与参数更新很关键。设置的太小,训练速度特别慢,设置的太大又会存在越过最低点,使得更新没办法收敛还有可能会发散。曾经看到过网上有人提出使用“变学习率”方法的,当时还觉得十分有理。

    今天看了吴恩达教授的讲解,又有了新的认识,当Θ越接近最低点的时候,其实代价函数 J(Θ) 的导数也逐渐在减小,这也使得在接近最低点的时候参数更新的幅度也在减小,所以其实没必要用“变学习率”的方法让学习率α随着迭代次数减小。

    图片引自:吴恩达机器学习

http://study.163.com/courses-search?keyword=%E5%90%B4%E6%81%A9%E8%BE%BE%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0

猜你喜欢

转载自blog.csdn.net/Muzi_Water/article/details/81015526