机器学习&深度学习训练中防止过拟合的方法

防止过拟合的一些方法

L1 loss

在loss function中添加模型权重参数的绝对值和，用超参数 $\alpha$ 调节L1 loss在整体loss function中占的比例。
$L_{n e w} = L_{o l d} + α \sum | w |$ ${L_{new}} = {L_{old}} + \alpha \sum {\left| w \right|}$

L2 loss

在loss function中添加模型权重参数的平方和，用超参数 $\beta$ 调节L2 loss在整体loss function中占的比例。
$L_{n e w} = L_{o l d} + β \sum {‖ w ‖}^{2}$ ${L_{new}} = {L_{old}} + \beta \sum {{{\left\| w \right\|}^2}}$

early stopping

当验证集的误差不再下降时，停止训练，防止过拟合。

数据增强

使用一些数据增强的方法(resize，crop，warp….)，增加数据量，增加模型训练结果的泛化能力

dropout

在神经网络训练中，随机抑制特定网络层的一些神经元，相当于引入随机性，这可以增加系统的鲁棒性。

集成方法

在机器学习中常用，将不同的模型进行融合，bagging，boosting等方法。

batch normalization

这个操作主要是为了使所有数据的分布都是 $N(0,1)$ 分布的，减少了Internal convariate shift，可以加快训练过程；但是这种方法会导致网络学到的特征被破坏，因此在BN中，又通过学习的方法引入两个参数，对归一化的数据进行变换，得到最终的输出。具体的公式变换如下

\begin{array}{l} μ_{B} = \frac{1}{m} \sum_{i = 1}^{m} x_{i} \\ σ_{B}^{2} = \frac{1}{m} \sum_{i = 1}^{m} (x_{i} - μ_{B})^{2} \\ {\hat{x}}_{i} = \frac{x_{i} - μ_{B}}{\sqrt{σ_{B}^{2} + ε}} \\ y_{i} = γ {\hat{x}}_{i} + β = B N_{γ, β} (x_{i}) \end{array}

$\begin{array}{l} {\mu _B} = \frac{1}{m}\sum\limits_{i = 1}^m {{x_i}} \\ \sigma _B^2 = \frac{1}{m}\sum\limits_{i = 1}^m {({x_i} - } {\mu _B}{)^2}\\ {{\hat x}_i} = \frac{{{x_i} - {\mu _B}}}{{\sqrt {\sigma _B^2 + \varepsilon } }}\\ {y_i} = \gamma {{\hat x}_i} + \beta = B{N_{\gamma ,\beta }}({x_i}) \end{array}$