tensorflow 超参数影响

tensorflow 超参数影响

学习率

说明:学习率决定了参数每次更新的幅度,如果太大会造成优化速度太慢,如果太小会造成不收敛,参数在一定范围内不断摇摆

学习率灵活设置方法
指数衰减法。先使用一个较大的学习率快速得到比较优的解,再随着迭代的继续逐步减少学习率,使得模型更加稳定

// 实现格式
decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)

学习调整说明
若loss值在一个范围波动,则应降低学习率或使用自适应学习率
若loss值一直衰减,则应提高学习率

神经网络优化算法
梯度下降算法主要用于优化单个参数的取值,反向传播算法给出一个方式将所有参数上使用梯度下降算法
1.梯度下降算法
缺点:
①不能保证被优化的函数达到全局最优解,只有当损失函数为凸函数时,梯度下降算法才能保证全局最优解
②计算时间太长
2.随机梯度下降算法
针对梯度下降算法,为了加速训练过程,故可使用随机梯度下降算法
△ 实际运用时,常用上述两种方式的折中,计算batch的损失函数

batch值

大batch会使训练加快,但是也需更多的内存计算空间,遇到内存不足或者TensorFlow错误,可减小batch大小。
小batch会使误差计算有更多的噪声,并且运算慢,且此噪声通常有助于防止训练过程陷入局部最优。

隐藏层

在一定范围内,隐藏层越多训练结果越好。超出范围会出现过拟合,可通过正则化或减少隐藏层数来解决

猜你喜欢

转载自blog.csdn.net/qq_37443333/article/details/84930134