SVM（二）：软间隔与正则化

2 软间隔与正则化

2.1 软间隔

硬间隔（hard margin）要求所有样本均满足约束： $y_i(\boldsymbol w^T \boldsymbol x_i + b) \geq 1 (i =1,2,...m)$ ，即所有样本都必须划分正确。

软间隔（soft margin）允许某些样本不满足约束，即允许支持向量机在一些样本上出错。

在最大化间隔同时，不满足约束的样本应尽可能少，优化目标如下：
$\min\;\; \frac{1}{2}||\boldsymbol w||^2 +C\sum\limits_{i=1}^{m} {l}_{0/1} (y_i(\boldsymbol w^T \boldsymbol x_i + b)-1)$ 其中 $C>0$ 是一个常数，为惩罚参数。当 $C$ 为无穷大时，会迫使所有样本满足约束。

${l}_{0/1}$ 是0/1损失函数：
$l_{0/1} = \begin{cases} 1 & { z < 0} \\ 0 & {otherwise } \end{cases}$ 由于 $l_{0/1}$ 非凸、非连续，常用其他函数，称为替代损失（surrogate loss），替代损失函数通常是凸的连续函数且是 $l_{0/1}$ 的上界：

hinge loss： $l_{hinge}(z) = max(0,1-z)$
exponenetail loss: $l_{exp}(z)= exp(-z)$
logistic loss: $l_{log}(z)= log(1+exp(-z))$

采用hinger loss，则
$\min_{w,b} \;\; \frac{1}{2}||\boldsymbol w||^2 + C \sum_{i=1}^m \max (0, 1- y_i(\boldsymbol w^T \boldsymbol x_i + b))$

引入松弛变量（slack variables）
$\min_{w,b,\xi_i} \;\; \frac{1}{2}||\boldsymbol w||_2^2 +C\sum\limits_{i=1}^{m}\xi_i$ $s.t. \;\; y_i(\boldsymbol w^T \boldsymbol x_i + b) \geq 1 - \xi_i \;\; , \xi_i \geq 0 (i =1,2,...m)$

这仍是一个二次规划问题，可通过拉格朗日乘子法得到其拉格朗日函数:
$L(\boldsymbol w,b,\boldsymbol \xi,\boldsymbol \alpha,\boldsymbol \mu) = \frac{1}{2}||\boldsymbol w||_2^2 +C\sum\limits_{i=1}^{m}\xi_i - \sum\limits_{i=1}^{m}\alpha_i[y_i(\boldsymbol w^T \boldsymbol x_i + b) - 1 + \xi_i] - \sum\limits_{i=1}^{m}\mu_i\xi_i$

其中， $\mu_i \geq 0, \alpha_i \geq 0$ 均为拉格朗日系数。
优化目标变为：
$\min_{\boldsymbol w,b,\boldsymbol \xi}\;\; \max_{\alpha_i \geq 0, \mu_i \geq 0} L(\boldsymbol w,b,\boldsymbol \alpha, \boldsymbol \xi,\boldsymbol \mu)$

该优化目标满足KTT条件，即
$\begin{cases} \alpha_i \geq 0; \mu_i \geq 0; \\ \\ y_if(\boldsymbol x_i)-1+\xi_i \geq 0;\xi_i \geq 0; \\ \\ \alpha_i(y_if(\boldsymbol x_i)-1+\xi_i)=0 \\ \\ \mu_i \xi_i=0 \end{cases} \;\;\; f(\boldsymbol x_i) = \boldsymbol w^T \boldsymbol x_i + b$

其对偶问题为：
$\max_{\alpha_i \geq 0, \mu_i \geq 0} \;\; \min_{\boldsymbol w,b,\boldsymbol \xi} L(\boldsymbol w,b,\boldsymbol \alpha, \boldsymbol \xi,\boldsymbol \mu)$

先求优化函数对于 $\boldsymbol w,b,\boldsymbol \xi$ 的极小值, 接着再求拉格朗日乘子 $\boldsymbol \alpha,\boldsymbol \mu$ 的极大值。

$L(\boldsymbol w,b,\boldsymbol \alpha, \boldsymbol \xi,\boldsymbol \mu)$ 关于 $\boldsymbol w,b,\boldsymbol \xi$ 的极小值可以通过分别求偏导得到：
$\frac{\partial L}{\partial \boldsymbol w} = 0 \;\Rightarrow \boldsymbol w = \sum\limits_{i=1}^{m}\alpha_iy_i \boldsymbol x_i$ $\frac{\partial L}{\partial b} = 0 \;\Rightarrow \sum\limits_{i=1}^{m}\alpha_iy_i = 0$ $\frac{\partial L}{\partial \boldsymbol \xi} = 0 \;\Rightarrow C = \alpha_i + \mu_i$

将其代入 $L(\boldsymbol w,b,\boldsymbol \alpha, \boldsymbol \xi,\boldsymbol \mu)$ ，优化目标最终如下：

$\max_{\boldsymbol \alpha} \sum\limits_{i=1}^{m}\alpha_i - \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_j \boldsymbol x_i^T \boldsymbol x_j$ $s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0$ $0 \leq \alpha_i \leq C$

此时，优化函数仅有 $\boldsymbol \alpha$ 做为参数，可采用SMO（Sequential Minimal Optimization）求解。

2.2 正则化

${l}_{0/1}$ 是0/1损失函数替换为其他损失函数可以得到其他学习模型，如使用对率损失函数 $l_{log}$ 替代，相当于使用对率回归模型（实际上，支持向量机与对率回归的优化目标相近，通常性能也相当。对率回归的优势在于输出具有自然的概率意义，即在给出预测标记的同时也给出了概率，而支持向量机不具有概率意义）。

这些模型的性质与所用的替代函数直接相关，且具有共性：

第一项描述划分超平面的“间隔”大小
另一项 $\sum_{i=1}^{m}l(f(\boldsymbol x_i),y_i)$ 描述训练集上的误差

更一般的形式如下： $\min_{f} \Omega(f) + C\sum_{i=1}^{m}l(f(\boldsymbol x_i),y_i)$

$\Omega(f)$ ：结构风险（structural risk），描述模型 $f$ 的某些性质，为引入领域知识和用户意图提供了途径，有助于削减假设空间，降低过拟合风险。
$\sum_{i=1}^{m}l(f(\boldsymbol x_i),y_i)$ ：经验风险（empirical risk），描述模型预测结果与训练数据的契合程度
$C$ ：正则化常数，对上述两者进行折中

正则化可理解为一种“罚函数法”，即对不希望的结果施以惩罚，使优化过程趋于希望目标。从贝叶斯估计的角度来看，正则化项被认为提供了模型的先验概率。

在正则化问题中，C称为正则化常数， $\Omega(f)$ 称为正则化项， $L_p$ 范数是常用的正则化项。

$L_2$ 范数 $||\boldsymbol w||_2$ 倾向于 $\boldsymbol w$ 的分量取值尽量平衡，即非零分量个数尽量稠密
$L_0$ 范数 $||\boldsymbol w||_0$ 和 $L_1$ 范数 $||\boldsymbol w||_1$ 倾向于 $\boldsymbol w$ 的分量取值尽量稀疏，即非零分量个数尽量少

机器学习Zero

发布了14 篇原创文章 · 获赞 17 · 访问量 798

私信关注