深度学习超参数的理解

首先理解一下超参数的概念：在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。深度学习中的超参数，如学习率（Learning Rate）、weight decay(权值衰减)、

目前超参数往往只能人工基于经验来设置，以及采用暴力枚举的方式来尝试以寻求最优的超参数。

常用的超参数：

(1)、learning rate：学习率决定了权值更新的速度，设置得太大会使结果超过最优值，太小会使下降速度过慢。学习率是指在优化算法中更新网络权重的幅度大小。学习率可以是恒定的、逐渐降低的、基于动量的或者是自适应的，采用哪种学习率取决于所选择优化算法的类型，如SGD、Adam、Adgrad、AdaDelta、RMSProp等算法。

(2)、weight decay(权值衰减)：在实际应用中，为了避免网络的过拟合，必须对价值函数(cost function)加入一些正则项。在机器学习或者模式识别中，会出现overfitting，而当网络逐渐overfitting时网络权值逐渐变大，因此，为了避免出现overfitting，会给误差函数添加一个惩罚项，常用的惩罚项是所有权重的平方乘以一个衰减常量之后。其用来惩罚大的权值。weight decay的使用既不是为了提高收敛精确度也不是为了提高收敛速度，其最终目的是防止过拟合。在损失函数中，weight decay是放在正则项(regularization)前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也越大。

(3)、momentum(动量)：动量来源于牛顿定律，基本思想是为了找到最优加入”惯性”的影响。mementum是梯度下降法中一种常用的加速技术。总能得到更好的收敛速度。

(4)、learing rate decay：每次迭代的时候减少学习率的大小。

(5)、迭代次数：迭代次数是指整个训练集输入到神经网络进行训练的次数。当测试错误率和训练错误率相差较小时，可认为当前的迭代次数是合适的，否则需继续增大迭代次数，或调整网络结构。

(6)、权重初始化：在网络中，通常会使用小随机数来初始化各网络层的权重，以防止产生不活跃的神经元，但是设置过小的随机数可能生成零梯度网络。一般来说，均匀分布方法效果较好。

(7)、Dropout方法：作为一种常用的正则化方式，加入Dropout层可以减弱深层神经网络的过拟合效应。该方法会按照所设定的概率参数，在每次训练中随机地不激活一定比例的神经单元。该参数的默认值为0.5.

自动超参数优化算法：

(1)、网格搜索：如果有三个或更少的超参数时，常见的超参数搜索方法是网格搜索。对于每个超参数，使用者选择一个较小的有限值集去探索。然后，这些超参数笛卡尔乘积得到一组组超参数，网格搜索使用每组超参数训练模型。挑选验证集误差最小的超参数作为最好的超参数。

(2)、随机搜索：如果超参数较多，首先，我们为每个超参数定义一个边缘分布，在这些边缘分布上进行搜索。

深度学习超参数的理解

猜你喜欢