《强化学习精要 核心算法与TensorFlow实现》【1】

 

 

  

 

扫描二维码关注公众号,回复: 11326747 查看本文章

 

 

 

  

 

 

 

 

 

 -->

不一定要沿梯度方向下降?

通过不同的方向 来探测/估计当前地形?

-->

如何衡量 zigzig 的程度——如果从历史的迭代中学习掌握规律?

--> 

动量方法 --> 数据驱动~ 每个方向算一个偏导数,根据偏导数来决定当前的方向

步长呢?——可以动量方法一把?dogleg 方法试探性地步长减半?

 

 

 

 

  

 

 

 

 

 

 

Fisher 信息阵 = KL散度的二阶导

--> log f(x) 的二阶导,求期望,到底是个何方神圣

猜你喜欢

转载自www.cnblogs.com/cx2016/p/13168993.html