SVM(二):软间隔与正则化

2 软间隔与正则化

2.1 软间隔

硬间隔(hard margin)要求所有样本均满足约束: y i ( w T x i + b ) 1 ( i = 1 , 2 , . . . m ) y_i(\boldsymbol w^T \boldsymbol x_i + b) \geq 1 (i =1,2,...m) ,即所有样本都必须划分正确。

软间隔(soft margin)允许某些样本不满足约束,即允许支持向量机在一些样本上出错。

在最大化间隔同时,不满足约束的样本应尽可能少,优化目标如下:
min      1 2 w 2 + C i = 1 m l 0 / 1 ( y i ( w T x i + b ) 1 ) \min\;\; \frac{1}{2}||\boldsymbol w||^2 +C\sum\limits_{i=1}^{m} {l}_{0/1} (y_i(\boldsymbol w^T \boldsymbol x_i + b)-1) 其中 C > 0 C>0 是一个常数,为惩罚参数。当 C C 为无穷大时,会迫使所有样本满足约束。

l 0 / 1 {l}_{0/1} 是0/1损失函数:
l 0 / 1 = { 1 z < 0 0 o t h e r w i s e l_{0/1} = \begin{cases} 1 & { z < 0} \\ 0 & {otherwise } \end{cases} 由于 l 0 / 1 l_{0/1} 非凸、非连续,常用其他函数,称为替代损失(surrogate loss),替代损失函数通常是凸的连续函数且是 l 0 / 1 l_{0/1} 的上界:

  • hinge loss: l h i n g e ( z ) = m a x ( 0 , 1 z ) l_{hinge}(z) = max(0,1-z)
  • exponenetail loss: l e x p ( z ) = e x p ( z ) l_{exp}(z)= exp(-z)
  • logistic loss: l l o g ( z ) = l o g ( 1 + e x p ( z ) ) l_{log}(z)= log(1+exp(-z))
    在这里插入图片描述
    采用hinger loss,则
    min w , b      1 2 w 2 + C i = 1 m max ( 0 , 1 y i ( w T x i + b ) ) \min_{w,b} \;\; \frac{1}{2}||\boldsymbol w||^2 + C \sum_{i=1}^m \max (0, 1- y_i(\boldsymbol w^T \boldsymbol x_i + b))

引入松弛变量(slack variables)
min w , b , ξ i      1 2 w 2 2 + C i = 1 m ξ i \min_{w,b,\xi_i} \;\; \frac{1}{2}||\boldsymbol w||_2^2 +C\sum\limits_{i=1}^{m}\xi_i s . t .      y i ( w T x i + b ) 1 ξ i      , ξ i 0 ( i = 1 , 2 , . . . m ) s.t. \;\; y_i(\boldsymbol w^T \boldsymbol x_i + b) \geq 1 - \xi_i \;\; , \xi_i \geq 0 (i =1,2,...m)

这仍是一个二次规划问题,可通过拉格朗日乘子法得到其拉格朗日函数:
L ( w , b , ξ , α , μ ) = 1 2 w 2 2 + C i = 1 m ξ i i = 1 m α i [ y i ( w T x i + b ) 1 + ξ i ] i = 1 m μ i ξ i L(\boldsymbol w,b,\boldsymbol \xi,\boldsymbol \alpha,\boldsymbol \mu) = \frac{1}{2}||\boldsymbol w||_2^2 +C\sum\limits_{i=1}^{m}\xi_i - \sum\limits_{i=1}^{m}\alpha_i[y_i(\boldsymbol w^T \boldsymbol x_i + b) - 1 + \xi_i] - \sum\limits_{i=1}^{m}\mu_i\xi_i

其中, μ i 0 , α i 0 \mu_i \geq 0, \alpha_i \geq 0 均为拉格朗日系数。
优化目标变为:
min w , b , ξ      max α i 0 , μ i 0 L ( w , b , α , ξ , μ ) \min_{\boldsymbol w,b,\boldsymbol \xi}\;\; \max_{\alpha_i \geq 0, \mu_i \geq 0} L(\boldsymbol w,b,\boldsymbol \alpha, \boldsymbol \xi,\boldsymbol \mu)

该优化目标满足KTT条件,即
{ α i 0 ; μ i 0 ; y i f ( x i ) 1 + ξ i 0 ; ξ i 0 ; α i ( y i f ( x i ) 1 + ξ i ) = 0 μ i ξ i = 0        f ( x i ) = w T x i + b \begin{cases} \alpha_i \geq 0; \mu_i \geq 0; \\ \\ y_if(\boldsymbol x_i)-1+\xi_i \geq 0;\xi_i \geq 0; \\ \\ \alpha_i(y_if(\boldsymbol x_i)-1+\xi_i)=0 \\ \\ \mu_i \xi_i=0 \end{cases} \;\;\; f(\boldsymbol x_i) = \boldsymbol w^T \boldsymbol x_i + b

对偶问题为:
max α i 0 , μ i 0      min w , b , ξ L ( w , b , α , ξ , μ ) \max_{\alpha_i \geq 0, \mu_i \geq 0} \;\; \min_{\boldsymbol w,b,\boldsymbol \xi} L(\boldsymbol w,b,\boldsymbol \alpha, \boldsymbol \xi,\boldsymbol \mu)

先求优化函数对于 w , b , ξ \boldsymbol w,b,\boldsymbol \xi 的极小值, 接着再求拉格朗日乘子 α , μ \boldsymbol \alpha,\boldsymbol \mu 的极大值。

L ( w , b , α , ξ , μ ) L(\boldsymbol w,b,\boldsymbol \alpha, \boldsymbol \xi,\boldsymbol \mu) 关于 w , b , ξ \boldsymbol w,b,\boldsymbol \xi 的极小值可以通过分别求偏导得到:
L w = 0    w = i = 1 m α i y i x i \frac{\partial L}{\partial \boldsymbol w} = 0 \;\Rightarrow \boldsymbol w = \sum\limits_{i=1}^{m}\alpha_iy_i \boldsymbol x_i L b = 0    i = 1 m α i y i = 0 \frac{\partial L}{\partial b} = 0 \;\Rightarrow \sum\limits_{i=1}^{m}\alpha_iy_i = 0 L ξ = 0    C = α i + μ i \frac{\partial L}{\partial \boldsymbol \xi} = 0 \;\Rightarrow C = \alpha_i + \mu_i

将其代入 L ( w , b , α , ξ , μ ) L(\boldsymbol w,b,\boldsymbol \alpha, \boldsymbol \xi,\boldsymbol \mu) ,优化目标最终如下:

max α i = 1 m α i 1 2 i = 1 , j = 1 m α i α j y i y j x i T x j \max_{\boldsymbol \alpha} \sum\limits_{i=1}^{m}\alpha_i - \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_j \boldsymbol x_i^T \boldsymbol x_j s . t .    i = 1 m α i y i = 0 s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0 0 α i C 0 \leq \alpha_i \leq C

此时,优化函数仅有 α \boldsymbol \alpha 做为参数,可采用SMO(Sequential Minimal Optimization)求解。

2.2 正则化

l 0 / 1 {l}_{0/1} 是0/1损失函数替换为其他损失函数可以得到其他学习模型,如使用对率损失函数 l l o g l_{log} 替代,相当于使用对率回归模型(实际上,支持向量机与对率回归的优化目标相近,通常性能也相当。对率回归的优势在于输出具有自然的概率意义,即在给出预测标记的同时也给出了概率,而支持向量机不具有概率意义)。

这些模型的性质与所用的替代函数直接相关,且具有共性:

  • 第一项描述划分超平面的“间隔”大小
  • 另一项 i = 1 m l ( f ( x i ) , y i ) \sum_{i=1}^{m}l(f(\boldsymbol x_i),y_i) 描述训练集上的误差

更一般的形式如下: min f Ω ( f ) + C i = 1 m l ( f ( x i ) , y i ) \min_{f} \Omega(f) + C\sum_{i=1}^{m}l(f(\boldsymbol x_i),y_i)

  • Ω ( f ) \Omega(f) :结构风险(structural risk),描述模型 f f 的某些性质,为引入领域知识和用户意图提供了途径,有助于削减假设空间,降低过拟合风险。
  • i = 1 m l ( f ( x i ) , y i ) \sum_{i=1}^{m}l(f(\boldsymbol x_i),y_i) :经验风险(empirical risk),描述模型预测结果与训练数据的契合程度
  • C C :正则化常数,对上述两者进行折中

正则化可理解为一种“罚函数法”,即对不希望的结果施以惩罚,使优化过程趋于希望目标。从贝叶斯估计的角度来看,正则化项被认为提供了模型的先验概率。

在正则化问题中,C称为正则化常数, Ω ( f ) \Omega(f) 称为正则化项, L p L_p 范数是常用的正则化项。

  • L 2 L_2 范数 w 2 ||\boldsymbol w||_2 倾向于 w \boldsymbol w 的分量取值尽量平衡,即非零分量个数尽量稠密
  • L 0 L_0 范数 w 0 ||\boldsymbol w||_0 L 1 L_1 范数 w 1 ||\boldsymbol w||_1 倾向于 w \boldsymbol w 的分量取值尽量稀疏,即非零分量个数尽量少
发布了14 篇原创文章 · 获赞 17 · 访问量 798

猜你喜欢

转载自blog.csdn.net/apr15/article/details/104785624
今日推荐