扫描二维码关注公众号,回复:
11326747 查看本文章
-->
不一定要沿梯度方向下降?
通过不同的方向 来探测/估计当前地形?
-->
如何衡量 zigzig 的程度——如果从历史的迭代中学习掌握规律?
-->
动量方法 --> 数据驱动~ 每个方向算一个偏导数,根据偏导数来决定当前的方向?
步长呢?——可以动量方法一把?dogleg 方法试探性地步长减半?
Fisher 信息阵 = KL散度的二阶导
--> log f(x) 的二阶导,求期望,到底是个何方神圣