Deep Learning - 第七章：深度学习的正则化

前言

机器学习中的核心问题：模型的设计不仅在训练数据上表现好，并且能在新输入上泛化好；
正则化策略：以增大训练误差为代价，来减少测试误差（如果在训练误差上很小，可能出现过拟合的情况）；
最好的拟合模型（最小化泛化误差的意义上）是一个适当正则化的大型模型；

参数范数惩罚

许多正则化方法通过对目标函数 $J$ 添加一个参数范数惩罚 $\Omega(\theta)$ ，限制模型的学习能力，我们将正则化后的目标函数记为：

$J^(θ; X, y) = J (θ; X, y) + α \cdot Ω (θ)$ $\hat J(\theta;X,\ y) = J(\theta;X,\ y) + \alpha \cdot \Omega(\theta)$
当我们的训练算法最小化正则化后的目标函数 $\hat J$ 时，它会降低原始目标 $J$ 关于训练数据的误差并同时减小参数 $\theta$ 的规模。
常见的参数正则化函数包括： $L^2$ ， $L^1$ 参数正则化。

$L^2$ 参数正则化：

$Ω (θ) = 1 2 | | ω | | 22$ $\Omega(\theta) = \frac{1}{2}||\omega||_2^2$
加入正则项后，经过具体的公式推导和分析可以知道（推算过程也不是很难懂的。）， $L^2$ 参数正则化能让学习深度学习的算法“感知”到具有较高方差的输入 $x$ ，因此 与目标的协方差较小（相对增加方差）的特征的权值将会收缩。

它是权重衰减一种最常见的方式！

$L^1$ 参数正则化：

$Ω (θ) = | | ω | | 1 = \sum i | ω i |$ $\Omega(\theta) = ||\omega||_1 = \sum_i |\omega_i|$
加入正则项后，经过一些推导和分析，得到 $L^1$ 正则化会产生更加稀疏的解（参数具有0的最优值），它与 $L^2$ 正则化不同， $L^2$ 正则化不会使得某个权重为 $0$ ，而 $L^1$ 正则化有可能通过足够大的 $\alpha$ 实现稀疏。

由 $L^1$ 正则化导出的稀疏性质已经被广泛地用于特征选择 机制，特征选择从可用的特征子集选择应该使用的子集，简化了机器学习问题。

特别是著名的 $LASSO(Tibshirani, 1995)$ 模型将 $L^1$ 惩罚和线性模型结合，并使用最小二乘代价函数。 $L^1$ 惩罚使部分子集的权重为零，表明相应的特征可以被安全地忽略。

其余正则化方法

防止或拟合最有效的方法就是增强训练集，训练集合越大，出现过拟合的概率也就越小；
1. 在目标识别领域常用的方法是将图片进行旋转、缩放等（图片变换的前提是通过变换不能改变图片所属类别，例如手写数字识别，类别6和9进行旋转后容易改变类目）
2. 语音识别中对输入数据添加随机噪声
3. NLP中常用思路是进行近义词替换
4. 噪声注入，可以对输入添加噪声，也可以对隐藏层或者输出层添加噪声

半监督学习、多任务学习、提前终止（最常用的正则化形式，由于其简单性和有效性）。
Bagging和Dropout 技术。

这里先列出这些常用防止数据过拟合（模型的泛化能力强）的方法，等到后面学习具体神经网络结构的时候再来一一弄明白这些技术的原理及实现方法。

Deep Learning - 第七章：深度学习的正则化

前言

参数范数惩罚

其余正则化方法

猜你喜欢