机器学习中L1和L2正则化的自然解释

目前一些博客或知乎上解释L1,L2正则化的,要么理论太多,搞一堆分布,可能性函数推来推去的,要么过于通俗,就好像说论语一样,让读者被动接收,就比如会告诉你L1,L2的famous picture说明了什么,但是却不会告诉你famous picture里面的椭圆为什么是椭圆,如果你不知道是椭圆,又怎能很好通过famous picture来理解L1比L2正则化的到解更具有稀疏性呢。所以说如何在通俗易懂和数学证明保持一个好的平衡,关键在于怎么把L1,L2自然而然的引入,下文就为此而写。

上帝视角先瞧一瞧

解决问题时,我们不自觉的就在局部的假设空间去寻找解,而不是全局的问题空间。而不同方法所假设的空间也不同,比如线性规划假设空间就是所有的线性函数,决策树也是一种假设空间。正则化就是问题空间像假设空间转化的过程。转化是为了缩小搜索空间,降低问题复杂度,衡量问题复杂度的方法超多的,比如特征数,决策树的深度,多项式回归的最大次数。而L1,L2范式是用来衡量线性决策函数的,对应的L1,L2正则化的决策函数也是线性的。

问题空间
正则化
假设空间
降低复杂度
降低复杂度
L1 范式
L2 范式
正则化
衡量线性决策函数的复杂度
其他决策函数或者树结构
L1正则化
L2正则化

正则化

正则化(regularization)即可被理解为带约束的最小化risk函数,有两种形式,一种是写成约束形式(Ivanov 正则化),一种是写成罚函数的形式(Tikhonov 正则化)。两种正则化形式对于很多问题时等价的,对于线性决策函数,可以被证明两种形式是完全等价的。罚函数形式(Tikhonov 正则化)作为无约束形式在实际求解中更方便,下文也都将写成Tikhonov 正则化形式。

  • Ivanov 正则化
    min f F 1 n i = 1 n l ( f ( x i ) , y i ) \min_{f\in\mathcal{F}}\frac{1}{n}\sum_{i=1}^{n}l(f(x_i),y_i)
    s.t. Ω ( f ) < r \text{s.t.}\Omega(f) < r
    其中 Ω ( f ) \Omega(f) 是衡量f的复杂度函数, r r 是复杂度阈值, l l 损失函数
  • Tikhonov 正则化
    min f F 1 n i = 1 n l ( f ( x i ) , y i ) + λ Ω ( f ) \min_{f\in\mathcal{F}}\frac{1}{n}\sum_{i=1}^{n}l(f(x_i),y_i) + \lambda\Omega(f)
    其中 Ω ( f ) \Omega(f) 是衡量f的复杂度函数, l l 损失函数

线性模型

  • 最小二乘法
    线性回归函数
    F = { f : R d R f ( x ) = w T x  for  w R d } \mathcal{F}=\{f:R^d \rightarrow R| f(x) = w^Tx\ \text{for} \ w\in R^d\}
    Loss函数: l ( y ^ , y ) = ( y y ^ ) 2 l(\hat{y},y)=(y-\hat{y})^2
    最优解:
    w ^ = arg min w R d 1 n i = 1 n { w T x i y i } 2 \hat{w}=\arg \min_{w\in R^d}\frac{1}{n}\sum_{i=1}^{n}\{w^Tx_i-y_i\}^2
    其中( x i , y i x_i,y_i )是训练数据。
    可以解得:
    w ^ = ( X T X ) 1 X T y \hat{w}=(X^TX)^{-1}X^Ty
    其中 X X 是全部 x i x_i 的矩阵表达式, y y 是全部 y i y_i 的向量形式。

上面是无约束的线性回归问题。 w w 可以看成特征向量。特征向量里面元素值的大小就表示对应特征的重要程度,而特征中元素值的大小可以作为衡量复杂度的指标,L1和L2正则化的区别就是在于基于元素值大小构建复杂度的方式。

L2 正则化

L2正则化也叫岭回归(ridge regresion),下面是其Tikhonov 形式
w ^ = arg min w R d 1 n i = 1 n { w T x i y i } 2 + λ w 2 2 \hat{w}=\arg \min_{w\in R^d}\frac{1}{n}\sum_{i=1}^{n}\{w^Tx_i-y_i\}^2+\lambda||w||_2^2
其中 w 2 2 = w 1 2 + . . . + w d 2 ||w||_2^2=||w_1||^2+...+||w_d||^2 即L2范式。
L2正则化相当于给线性规划添加了一个复杂度的惩罚函数,或者说复杂度的约束条件(Ivanov形式)。具体就是把每个特征元素值的范式的平方求和。

L1 正则化

L1正则化也叫lasso regresion,下面是其Tikhonov 形式
w ^ = arg min w R d 1 n i = 1 n { w T x i y i } 2 + λ w 1 \hat{w}=\arg \min_{w\in R^d}\frac{1}{n}\sum_{i=1}^{n}\{w^Tx_i-y_i\}^2+\lambda||w||_1
其中 w 2 = w 1 + . . . + w d ||w||_2=||w_1||+...+||w_d|| 即L1范式。
L1正则化是把每个特征元素值得范式求和。

L1和L2 范式约束

在二维的特征向量空间来看,L2约束轮廓是个圆,而L1约束轮廓是菱形。约束轮廓不同将导致正则化的路径不同以及最后得到解的特性不同比如稀疏性。

  • L1约束轮廓
    w 1 + w 2 = r |w_1|+|w_2|=r
    L1约束轮廓
  • L2约束轮廓
    w 1 2 + w 2 2 = r w_1^2+w_2^2=r L2约束轮廓

L1和L2正则化过程

下面会说明L1和L2正则化的famous pictues,famous pictures描述是在特征 w w 坐标系中,围绕着全局最小值 w ^ \hat{w} 一系列等值线不断接近约束空间的过程。要画出具体问题L1或L2正则化的famous picture,需要知道 w ^ \hat{w} ,等值线和约束空间的形状。 w ^ = ( X T X ) 1 X T y \hat{w}=(X^TX)^{-1}X^Ty 在最小二乘法处已得出结果,L1,L2约束空间的形状也在上文画出。 w ^ \hat{w} 周围等值线展开一下平方项即可得(如下)

  • w ^ \hat{w} 周围等值线方程
    对于任一特征向量的risk(准确说是empirical risk):
    R ^ n ( w ) = 1 n i = 1 n { w T x i y i } 2 \hat{R}_n(w)=\frac{1}{n}\sum_{i=1}^{n}\{w^Tx_i-y_i\}^2
    = 1 n X w y 2 =\frac{1}{n}{||Xw-y||}^2
    w = w w ^ + w ^ w=w-\hat{w}+\hat{w} 和 代入上式展开平方项
    = 1 n X w y 2 =\frac{1}{n}{||Xw-y||}^2
    = 1 n X ( w w ^ ) + X w ^ y 2 =\frac{1}{n}{||X(w-\hat{w})+X\hat{w}-y||}^2
    再结合 w ^ = X ( X T X ) 1 X T y \hat{w}=X(X^TX)^{-1}X^Ty
    = 1 n ( w w ^ ) X T X ( w w ^ ) + R ^ n ( w ) =\frac{1}{n}{(w-\hat{w})X^TX(w-\hat{w})+\hat{R}_n(w)}
    对于某一条等值线上的点假设比全局最小值对应的risk R ^ n ( w ^ ) \hat{R}_n(\hat{w}) 大c,那该条轮廓线就满足下面的椭圆方程,即L1,L2的famous pictures 中的椭圆。
    ( w w ^ ) X T X ( w w ^ ) = n c {(w-\hat{w})X^TX(w-\hat{w})=nc}
  • L1 正则化的famous picture
    下图蓝色区域代表L1约束空间即 w 1 + w 2 r |w_1|+|w_2| \le r ,红色是全局最小值 w ^ \hat{w} 附近的等值线
    L1正则化
  • L2 正则化的famous picture
    下图蓝色区域代表L2约束空间即 w 1 2 + w 2 2 r |w_1|^2+|w_2|^2 \le r ,红色是全局最小值 w ^ \hat{w} 附近的等值线
    L2正则化

为什么说L1正则化得到的解比L2正则化得到更具有稀疏性(sparsity)?

首先要明白什么是解的稀疏性,类似稀疏矩阵有很多0,稀疏解就是包含很多0的解,或者很多值很小近似0,这样在做大规模的特征选择时候就很有用,接近0的特征可以忽略从而达到降维的目的,降低储存空间。对应上面的二维情况,稀疏的解便是在坐标轴上的点。
上文我们达到 w ^ \hat{w} 附近的等值线是椭圆,现在我们考虑椭圆的特殊情况圆。对于L1正则化,只要圆心 w ^ \hat{w} 落在红色区域,等值和L1约束必然相交在坐标轴,得到相应的落在坐标轴上的解,即为稀疏解。而对于L2圆上每个点是等价的,只有圆心 w ^ \hat{w} 落在坐标轴上才能得到稀疏解,相比L1正则化就困难许多。

在这里插入图片描述

  • 一个小联想

L1得到稀疏解和PCA(主成分分析)降维区分
L1正则化趋于得到稀疏解,自然就对特征进行了降维,PCA需要设定降到多少维,而且抓住只是数据之间的线性特征。

L1,L2正则化路径实例

这里的实例关于预测美国50个州犯罪的。左边坐标轴指的是特征值的大小。正则化路径图表述的是假设空间从0(对应横坐标 w ^ r / w ^ = 0 ||\hat{w}_r||/||\hat{w}||=0 )逐渐变大直至包含全局最优解( w ^ r / w ^ = 1 ||\hat{w}_r||/||\hat{w}||=1 )的过程。从下图可以看出,虽然最终的解是相同的,但是两种正则化路径确有很大区别。
正则化路径

参考文献

NYU机器学习课程课件
https://davidrosenberg.github.io/mlcourse/Lectures/02c.L1L2-regularization.pdf

发布了5 篇原创文章 · 获赞 0 · 访问量 240

猜你喜欢

转载自blog.csdn.net/peter_mama/article/details/104208172