深度学习训练的常用名词

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hzhj2007/article/details/83240608

     本文节选自CVer《深度学习速查词典》中的一部分内容,并补充一些常见名词。

 

      batch size

      一次前向或反向传播时样本的数目,该参数受限于内存的大小。

       iteration

      样本传播的次数,每次传播的样本数为batch大小,注:一次样本的传播包括前向和反向传播。

      epoch

      所有训练样本的传播次数。例如,有1000个样本,若batch size=500,则iteration=2时完成一次epoch。

      learning rate

      用于调节权重衰减的超参数,公式new_weight = existing_weight — learning_rate * gradient,即梯度下降法中使用的参数。

      梯度下降优化算法      

      1. momentum(动量)

      用于平滑随机梯度下降法的振荡。

SGD without momentum SGD with momentum

      2. Adam(Adaptive Moment Estimation)

      用于计算参数自适应学习率的方法,效果一般优于其他自适应学习算法。

      网络层参数

[convolutional]   #卷积层
batch_normalize=1 #批归一化参数  
filters=32        #卷积核的数量
size=3            #卷积核的大小
stride=1          #卷积步长
pad=1             #卷积时填充像素数
activation=leaky  #网络的激活函数(非线性的主要根源)

[maxpool]         #池化层:最大化池化
size=2            #池化核大小
stride=2          #池化步长

      Dropout

      是一种在深度神经网络中随机消除节点及其连接的正则化技术。它可以防止模型过拟合,同时加快深度神经网络的训练速度。

参考文献:

  1. https://mp.weixin.qq.com/s/0evrjcivb5ArZGLQ4tGrmg
  2. https://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95
  3. http://ruder.io/optimizing-gradient-descent/index.html#adam

猜你喜欢

转载自blog.csdn.net/hzhj2007/article/details/83240608
今日推荐