版权声明:转载请注明出处。 https://blog.csdn.net/Xin_101/article/details/82432646
本文针对人工神经网络数字化过程中涉及的概念及相关函数,进行解析(初级版,存在尚未理解到的点,不吝指教)。
1 损失函数
损失函数(loss function):刻画预测值和真实值差异的函数。
交叉熵(cross entropy):刻画两个概率分布间的距离,是分类问题中运用较广的一种损失函数,以预测值q刻画真实值p,评估两者的“差距”,交叉熵越小,两者概率分布越接近。
2 softmax回归
softmax回归模型是logistic回归模型在多分类问题上的推广,多分类问题中,类标签y可以取两个以上的值,突破了二分类的限制,经典应用为MINIST手写数字分类。
神经网络中,原始输出经过softmax层回归后,原始输出被用作置信度产生新的输出,新的输出满足概率分布。将神经网络的输出转化成一个概率分布,因而可以使用交叉熵计算预测值与真实值概率分布之间的距离。
3 学习率衰减函数
学习率(learning rate):控制自变量更新幅度的变量,表示为η。如果η多大,导致损失函数极值附近波动,不能达到极值;η过小,导致收敛速度过慢,降低优化速度。
tf.train.exponential_decay
#函数实现功能如下:
decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)
参数描述
decayed_learning_rate:每轮优化时使用的学习率
learning_rate:预先设定的初始学习率
decay_rate:衰减系数1 学习率衰减函数
decay_steps:衰减速度,表示训练一遍数据需要的迭代次数
使用说明
tf.train.exponential_decay函数可以通过设置参数staircase选择不同的衰减方式,staircase默认为False,该情况下学习率连续衰减,staircase为True时,学习率为阶梯状衰减。
学习率连续衰减:不同的训练数据有不同的学习率,当学习率减小时,对应的训练数据对模型训练结果的影响相应减小。