An overview of gradient descent optimization algorithms (更新到Adam...

Momentum:解快了收敛速度,同时也减弱了SGD的波动

NAG: 减速了Momentum更新参数太快

Adagrad: 对于不长出现的feature更新参数大,长出现的feature更新参数小,不共用一个学习率

Adadelta:解决了Adagrad后续学习率为0的缺点,同时不要defalut 学习率

RMSprop:解决了Adagrad后续学习率为0的缺点

Adam: 结合了RMSprop和Momentum的优点,Adam might be the best overall choice

参考博客:http://ruder.io/optimizing-gradient-descent/index.html#batchgradientdescent(真大神)

    

    

    

     

    

    

    

    

      

      

    

    

    

     

      

      

      

猜你喜欢

转载自www.cnblogs.com/wuxiangli/p/9236061.html
今日推荐