L1和L2正则化直观理解

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_34886403/article/details/83105677

正则化是用于解决模型过拟合的问题。它可以看做是损失函数的惩罚项,即是对模型的参数进行一定的限制。

应用背景:
当模型过于复杂,样本数不够多时,模型会对训练集造成过拟合,模型的泛化能力很差,在测试集上的精度远低于训练集。
这时常用正则化来解决过拟合的问题,常用的正则化有L1正则化和L2正则化。

最小平分损失函数的L1正则化:
在这里插入图片描述
最小平方损失函数的L2正则化:
在这里插入图片描述

L1正则化与L2正则化的区别:
在这里插入图片描述
解的唯一性是一个更简单的性质,但需要一点想象。首先,看下图:
在这里插入图片描述
绿色的线(L2范数)是唯一的最短的路径,而红色、蓝色、黄色线条(L1范数)都是同一路径,长度一样(12)。可以将其扩展至n-维的情形。这就是为什么L2范数有唯一解而L1并不是。

内置特征选择是L1范数被经常提及的有用的性质,而L2范数并不具备。这是L1范数的自然结果,它趋向于产生稀疏的系数(在后面会解释)。假设模型有100个系数,但是仅仅只有其中的10个是非零的,这实际上是说“其余的90个系数在预测目标值时都是无用的”。L2范数产生非稀疏的系数,因此它不具备这个性质。

计算效率。L1范数没有一个解析解,但是L2范数有。这就允许L2范数在计算上能高效地计算。然而,L1范数的解具备稀疏性,这就允许它可以使用稀疏算法,以使得计算更加高效
注:解析解是指通过严格的公式所求得的解,
例如:方程2y=x
解:
y=0.5x 这是解析解
x=1时,y=0.5 数值解

L1正则化的直观理解
L1正则化(数学符号表示为 w 1 ||w||_1 )的公式:在原有的损失函数基础上加上权重参数的绝对值。 L = L l o s s + λ j w j L=L_{loss}+\lambda \sum_{j}|w_j| 其中 λ \lambda 是正则化参数。
L L 中包含了两部分值,一个是原 L l o s s L_{loss} ,另一个是 λ w 1 \lambda||w||_1 。我们定义 λ w 1 C \lambda||w||_1\le C ,这是从几何上面理解,可以看成是一个正方形。如下图所述。

在这里插入图片描述
蓝色的圆代表着原 L l o s s L_{loss} 的损失,圆心代表最佳收敛点,假如没有正则化的作用,理论上最终会收敛到圆心,但是当存在正则化的作用时,最佳收敛点必须满足正则化的要求,所以此时的最佳收敛点是正方形与圆的交点。
L1正则化的一个重要特性就是参数稀疏。 对于L1正则化来说,其限定区域为正方形,其与蓝色区域(上图)的交点是顶点的概率很大。也就是说方形的凸点更容易接近 L l o s s L_{loss} 的最优解,而凸点处必有 w 1 w_1 w 2 w_2 =0,这样,得到的解 w 1 w_1 w 2 w_2 为0的概率好大。所以说L1正则化具有稀疏的特性。

L2正则化的直观理解
L2正则化(数学符号表示为 w 2 ||w||_2 )的公式:在原有的损失函数基础上加上权重参数的绝对值。 L = L l o s s + λ j w j 2 L=L_{loss}+\lambda \sum_{j}w_j^2 其中 λ \lambda 是正则化参数。
在这里插入图片描述
蓝色的圆代表着原 L l o s s L_{loss} 的损失,圆心代表最佳收敛点,假如没有正则化的作用,理论上最终会收敛到圆心,但是当存在正则化的作用时,最佳收敛点必须满足正则化的要求,所以此时的最佳收敛点是黄色圆与蓝色圆的交点。
L2正则化的一个重要特性就是可以获得很小的参数。 对于L2正则化来说,其限定区域为圆。这样解的为0的概率很小。

正则化参数 λ \lambda
损失函数包含两个方面:一个是训练样本误差。一个是正则化项。其中,参数 λ 起到了权衡的作用。

以 L2 为例,若 λ 很小,对应上文中的 C 值就很大。这时候,圆形区域很大,能够让 w 更接近 L l o s s L_{loss} 最优解的位置。若 λ 近似为 0,相当于圆形区域覆盖了最优解位置,这时候,正则化失效,容易造成过拟合。相反,若 λ 很大,对应上文中的 C 值就很小。这时候,圆形区域很小,w 离 L l o s s L_{loss} 最优解的位置较远。w 被限制在一个很小的区域内变化,w 普遍较小且接近 0,起到了正则化的效果。但是,λ 过大容易造成欠拟合。欠拟合和过拟合是两种对立的状态。

猜你喜欢

转载自blog.csdn.net/qq_34886403/article/details/83105677