1、
2、
3、
4、
多个参数就是矩阵的运算
梯度下降就是沿着梯度相反的方向
学习率跟替代批次变化
学习率还跟梯度本身相关
原因1反差效果
原因2更好的达到最小值
平滑快速的达到相应的值
本质上是数学上的在某一点的泰勒展开式
1、
2、
3、
4、
多个参数就是矩阵的运算
梯度下降就是沿着梯度相反的方向
学习率跟替代批次变化
学习率还跟梯度本身相关
原因1反差效果
原因2更好的达到最小值
平滑快速的达到相应的值
本质上是数学上的在某一点的泰勒展开式