梯度下降(学习率优化,以F(w)=w^4为例)和拟牛顿

NoSuchKey