3-《PyTorch深度学习实践》-梯度下降算法

穷取法计算量太大,搜索空间太大,不太现实
在这里插入图片描述
分治算法,各个击破
在这里插入图片描述
分治算法,不适合非凸函数,会陷入局部最优,凸函数,任取两点,画一条线段,线段的值都在曲线上面或者曲线下面,神经网络参数数量过大,划分空间去搜索也是没法划分的
在这里插入图片描述
梯度的下降法,站在当前节点,梯度下降的方向,就是往最小值的方向
在这里插入图片描述
梯度就是导数,学习率不要过大,防止跳跃太大,对比人,人生道理都是一样
在这里插入图片描述
贪心思想,只看眼前最好的,也是只能得到局部最优,不一定得到全局最优
在这里插入图片描述
非凸函数
在这里插入图片描述
局部最优全局最优,深度学习一般没有多少局部最优点,实践证明
在这里插入图片描述
局部最小和局部最大的交接处,鞍点,梯度没法更新,走不动了,没法运动收敛了
在这里插入图片描述
在这里插入图片描述
高维曲面的鞍点
在这里插入图片描述
梯度计算公式
在这里插入图片描述

数据集
在这里插入图片描述
前馈计算
在这里插入图片描述
损失函数
在这里插入图片描述
梯度求解
在这里插入图片描述
更新梯度
在这里插入图片描述
结果
在这里插入图片描述
指数加权均值,把cost弄成平滑,更容易观察整体下降趋势
在这里插入图片描述
往往是学习率过大,没法收敛了,训练发散了
在这里插入图片描述
随机梯度下降,一个样本的损失就可以去更新参数了,而不是所有样本的平均损失,引入了随机性的噪声,遇到鞍点了也可能跨域,向前前进
在这里插入图片描述
随机梯度下降代码
在这里插入图片描述
在这里插入图片描述
训练过程
在这里插入图片描述
梯度下降跨域并行计算,随机梯度没法并行,后一个样本依赖前面一个,时间复杂度过高
在这里插入图片描述
取个小批量的batch去训练,每次不是一个,也不是全部,而是小批量的,很有启发性,说到batch都是minibatch
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_15821487/article/details/126023197