支持向量机（SVM）和python实现（二）

4. 松弛向量与软间隔

前面讨论的情况都是样本分布都可以被超平面完美分割的情况，但是在现实任务中，经常会有难以完美划分的情况，就算正好完美划分了样本点，也很难判断这个结果是不是过拟合造成的。
这里写图片描述
（图来自https://blog.csdn.net/zouxy09/article/details/17291543）
上左图中如果我们要考虑点A，得到的超平面就是红线那样，上右图中若是要考虑在class2中的红点，得到的超平面就是蓝线那样，如此精确的划分每个点很容易导致模型过拟合，为了缓解这个问题，我们引入软间隔的概念，软间隔允许某些样本不满足约束：

\begin{matrix} (4.1) & y_{i} (ω^{T} x_{i} + b) \geq 1 \end{matrix}

$y_{i}(\omega ^{T}\mathbf{x_{i}}+b)\geq 1\tag{4.1}$
于是我们修改了优化目标：

\begin{matrix} (4.2) & m i n . \frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{m} l_{0 / 1} (y_{i} (ω^{T} x_{i} + b) - 1) \end{matrix}

$min. \frac{1}{2}\left \| \omega \right \|^{2}+C\sum_{i=1}^{m}l_{0/1}(y_{i}(\omega ^{T}\mathbf{x_{i}}+b)-1)\tag{4.2}$
其中C>0是一个常数，

l_{0 / 1} (z)

$l_{0/1}(z)$ 是“0/1损失函数”

l_{0 / 1} (z) = {\begin{matrix} 1, & i f z < 0 \\ 0, & o t h e r w i s e \end{matrix}

$l_{0/1}(z)=\left\{\begin{matrix} 1, & if \ z<0\\ 0, & otherwise \end{matrix}\right.$
当C无穷大时，式(4.2)后面的部分迫使所有样本均满足式(4.1)的约束条件，式(4.2)则等价于(1.2)，也就是说C越大，拟合非线性的能力越强，同时过拟合的风险也越高。引入

l_{0 / 1} (z)

$l_{0/1}(z)$ 的目的是，我们只希望那些不满足(4.1)约束条件的点被算入优化目标中，但是

l_{0 / 1 (z)}

$l_{0/1(z)}$ 非凸，非连续，导致这样的目标函数不容易求解，我们可以使用近似的曲线替代，常用的损失函数为hinge函数：

l_{h i n g e} (z) = m a x (0, 1 - z)

$l_{hinge}(z)=max(0,1-z)$
若采用hinge损失函数，则式(4.2)变成了：

\begin{matrix} (4.3) & m i n . \frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{m} m a x (0, 1 - y_{i} (ω^{T} x_{i} + b)) \end{matrix}

$min. \frac{1}{2}\left \| \omega \right \|^{2}+C\sum_{i=1}^{m}max(0,1-y_{i}(\omega ^{T}\mathbf{x_{i}}+b))\tag{4.3}$
引入松弛变量

ξ_{i} \geq 0

$\xi _{i}\geq 0$ 后，原来的约束条件就变为：

\begin{matrix} (4.4) & {\begin{matrix} y_{i} (ω^{T} x_{i} + b) \geq 1 - ξ_{i} \\ ξ_{i} \geq 0 \end{matrix} \end{matrix}

$\left\{\begin{matrix} y_{i}(\omega ^{T}\mathbf{x_{i}}+b)\geq 1-\xi _{i} \\ \xi _{i}\geq 0 \end{matrix}\right.\tag{4.4}$
同时式(4.3)也可以改写为

\begin{matrix} (4.5) & m i n . \frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{m} ξ_{i} \end{matrix}

$min. \frac{1}{2}\left \| \omega \right \|^{2}+C\sum_{i=1}^{m}\xi _{i}\tag{4.5}$
我们重新引入拉格朗日乘子

α_{i} \geq 0 i = 1, 2, . . ., m

$\alpha _{i}\geq 0 \ \ \ \ i=1,2,...,m$ ，可得：

L (ω, b, α, ξ, β) = \frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{m} ξ_{i} + \sum_{i = 1}^{m} α_{i} (1 - ξ_{i} + y_{i} (ω^{T} φ (x_{i}) + b)) - \sum_{i = 1}^{m} β_{i} ξ_{i}

$L(\omega ,b,\mathbf{\alpha ,\xi ,\beta })=\frac{1}{2}\left \| \omega \right \|^{2}+C\sum_{i=1}^{m}\xi _{i}+\sum_{i=1}^{m}\alpha _{i}(1-\xi _{i}+y_{i}(\omega ^{T}\varphi (\mathbf{x_{i}})+b))-\sum_{i=1}^{m}\beta _{i}\xi _{i}$
对

ω, b, ξ_{i}

$\omega ,b,\xi_{i}$ 分别求偏导，得：

{\begin{matrix} ω = \sum_{i = 1}^{m} α_{i} y_{i} φ (x_{i}) \\ 0 = \sum_{i = 1}^{m} α_{i} y_{i} \\ C = α_{i} + β_{i} \end{matrix}

$\left\{\begin{matrix} \omega =\sum_{i=1}^{m}\alpha _{i}y_{i}\varphi (\mathbf{x_{i}})\\ 0=\sum_{i=1}^{m}\alpha _{i}y_{i}\\ C=\alpha _{i}+\beta _{i} \end{matrix}\right.$
将结果带入原式得对偶问题：

\begin{matrix} (4.6) & m a x . \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1, y = 1}^{m} α_{i} α_{j} y_{i} y_{j} κ (x_{i}, x_{j}) s . t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 0 \leq α_{i} \leq C \end{matrix}

$max. \sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1,y=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}\kappa (\mathbf{x_{i},x_{j}})\\ s.t. \ \ \sum_{i=1}^{m}\alpha _{i}y_{i}=0 \ \ \ \ \ 0\leq \alpha _{i}\leq C\tag{4.6}$
和前面说的KKT条件类似，这个对偶问题同样需要满足以下KKT条件：

\begin{matrix} (4.7) & {\begin{matrix} α_{i} \geq 0 & β_{i} \geq 0 \\ y_{i} f (x_{i}) - 1 + ξ_{i} \geq 0 \\ α_{i} (y_{i} f (x_{i}) - 1 + ξ_{i}) = 0 \\ ξ_{i} \geq 0 & β_{i} ξ_{i} = 0 \end{matrix} \end{matrix}

$\left\{\begin{matrix} \alpha _{i}\geq 0 & \beta _{i}\geq 0\\ y_{i}f(\mathbf{x_{i}})-1+\xi _{i}\geq 0 & \\ \alpha _{i}(y_{i}f(\mathbf{x_{i}})-1+\xi _{i})=0 & \\ \xi _{i}\geq 0& \beta _{i}\xi _{i}=0 \end{matrix}\right.\tag{4.7}$

5. SMO算法

SMO(Sequential Minimal Optimization)被用来求解SVM问题，该算法的思想是先固定 $\alpha _{i}$ 以外的参数，然后求 $\alpha _{i}$ 上的极值，由于存在(4.6)中的约束，我们可以先固定2个变量 $\alpha _{i}$ 和 $\alpha _{j}$ ,然后利用约束条件 $\sum_{i=1}^{m}\alpha _{i}y_{i}=0$ 可以用 $\alpha _{i}$ 代表 $\alpha _{j}$ ，然后更新 $\alpha _{i}$ 和 $\alpha _{j}$ ，再重新选择2个参数，直到收敛。
注意到只需选取的 $\alpha _{i}$ 和 $\alpha _{j}$ 中有一个不满足KKT(4.7)条件，目标函数(4.6)就会在迭代后变大，因此我们要根据KKT条件来选择要更新的 $\alpha _{i}$ 和 $\alpha _{j}$ ，下面我们分析一下如何选取：

当 $\alpha _{i}=0$ 时， $\beta _{i}=C$ ,则 $\xi _{i}=0$ ，得 $y_{i}f(\mathbf{x_{i}})\geq 1$
当 $\alpha _{i}=C$ 时， $\beta _{i}=0$ ,则 $\xi _{i}\geq0$ ，且 $y_{i}f(\mathbf{x_{i}})-1+\xi _{i}= 0$ ，得 $y_{i}f(\mathbf{x_{i}})\leq 1$
当 $0< \alpha _{i}< C$ 时， $0< \beta {i}< C$ ,则 $\xi _{i}=0$ ，且 $y_{i}f(\mathbf{x_{i}})-1+\xi _{i}= 0$ ，得 $y_{i}f(\mathbf{x_{i}})= 1$

我们在编程时只需要选择的 $\alpha _{i}$ 对应的 $y_{i},x_{i}$ 违背上面的约束就可以让目标函数变大。

假如我们根据违背KKT条件选择了 $\alpha _{1},\alpha _{2}$ ,则：

\begin{matrix} (5.1) & y_{1} α_{1} + y_{2} α_{2} = N N = - \sum_{i \neq 1, 2}^{m} y_{i} α_{i} \end{matrix}

$y_{1}\alpha _{1}+y_{2}\alpha _{2}=N\\ N=-\sum_{i\neq 1,2}^{m}y_{i}\alpha _{i}\tag{5.1}$
因为

y_{i} y_{i} = 1

$y_{i}y_{i}=1$ ,则有：

\begin{matrix} (5.2) & α_{1} = N y_{1} - y_{1} y_{2} α_{2} \end{matrix}

$\alpha _{1}=Ny_{1}-y_{1}y_{2}\alpha _{2}\tag{5.2}$
将

α_{i}

$\alpha _{i}$ 和

α_{j}

$\alpha _{j}$ 代入式(4.6)，得：

\begin{matrix} (5.3) & W (α_{1}, α_{2}) = α_{1} + α_{2} - \frac{1}{2} α_{1}^{2} y_{1}^{2} κ_{11} - \frac{1}{2} α_{2}^{2} y_{2}^{2} κ_{22} - \sum_{i = 3}^{m} α_{1} α_{i} y_{1} y_{i} κ (1, i) - \sum_{i = 3}^{m} α_{2} α_{i} y_{2} y_{i} κ (2, i) + C \end{matrix}

$W(\alpha _{1},\alpha _{2})=\alpha _{1}+\alpha _{2}-\frac{1}{2}\alpha _{1}^{2}y_{1}^{2}\kappa _{11}-\frac{1}{2}\alpha _{2}^{2}y_{2}^{2}\kappa _{22}-\sum_{i=3}^{m}\alpha _{1}\alpha _{i}y_{1}y_{i}\kappa (1,i)-\sum_{i=3}^{m}\alpha _{2}\alpha _{i}y_{2}y_{i}\kappa (2,i)+C\tag{5.3}$
C为一些常数的和
我们令

v_{1} = \sum_{i = 3}^{m} α_{1} α_{i} y_{1} y_{i} κ (1, i)

$v_{1}=\sum_{i=3}^{m}\alpha _{1}\alpha _{i}y_{1}y_{i}\kappa (1,i)$ ,

v_{2} = \sum_{i = 3}^{m} α_{2} α_{i} y_{2} y_{i} κ (2, i)

$v_{2}=\sum_{i=3}^{m}\alpha _{2}\alpha _{i}y_{2}y_{i}\kappa (2,i)$ ,则式(5.3)改为：

W (α_{1}, α_{2}) = α_{1} + α_{2} - \frac{1}{2} α_{1}^{2} y_{1}^{2} κ_{11} - \frac{1}{2} α_{2}^{2} y_{2}^{2} κ_{22} - α_{1} y_{1} v_{1} - α_{2} y_{2} v_{2} + C

$W(\alpha _{1},\alpha _{2})=\alpha _{1}+\alpha _{2}-\frac{1}{2}\alpha _{1}^{2}y_{1}^{2}\kappa _{11}-\frac{1}{2}\alpha _{2}^{2}y_{2}^{2}\kappa _{22}-\alpha _{1}y_{1}v_{1}-\alpha _{2}y_{2}v_{2}+C$
代入式(5.2)得

\begin{matrix} (5.4) & W (α_{2}) = - \frac{1}{2} y_{1}^{2} (N y_{1} - y_{1} y_{2} α_{2})^{2} κ_{1, 1} - \frac{1}{2} α_{2}^{2} y_{2}^{2} κ_{2, 2} - (N y_{1} - y_{1} y_{2} α_{2}) α_{2} y_{1} y_{2} κ_{1, 2} - (N y_{1} - y_{1} y_{2} α_{2}) y_{1} v_{1} - α_{2} y_{2} v_{2} + α_{1} + α_{2} + C = - \frac{1}{2} (N - y_{2} α_{2})^{2} κ_{1, 2} - \frac{1}{2} α_{2}^{2} κ_{1, 2} - (y_{2} N α_{2} - α_{2}^{2}) κ_{1, 2} - (N - y_{2} α_{2}) v_{1} - α_{2} y_{2} v_{2} + N y_{1} - y_{1} y_{2} α_{2} + α_{2} + C \end{matrix}

$W(\alpha _{2})=-\frac{1}{2}y_{1}^{2}(Ny_{1}-y_{1}y_{2}\alpha _{2})^{2}\kappa _{1,1}-\frac{1}{2}\alpha _{2}^{2}y_{2}^{2}\kappa _{2,2}-(Ny_{1}-y_{1}y_{2}\alpha _{2})\alpha _{2}y_{1}y_{2}\kappa _{1,2}-(Ny_{1}-y_{1}y_{2}\alpha _{2})y_{1}v_{1}-\alpha _{2}y_{2}v_{2}+\alpha _{1}+\alpha _{2}+C\\ =-\frac{1}{2}(N-y_{2}\alpha _{2})^{2}\kappa _{1,2}-\frac{1}{2}\alpha _{2}^{2}\kappa _{1,2}-(y_{2}N\alpha _{2}-\alpha _{2}^{2})\kappa _{1,2}-(N-y_{2}\alpha _{2})v_{1}-\alpha _{2}y_{2}v_{2}+Ny_{1}-y_{1}y_{2}\alpha _{2}+\alpha _{2}+C\tag{5.4}$
对(5.4)求导得0：

\begin{matrix} (5.5) & \frac{\partial W (α_{2})}{\partial α_{2}} = N y_{2} κ_{1, 1} - α_{2} κ_{1, 1} - α_{2} k_{2, 2} - y_{2} N κ_{1, 2} + 2 α_{2} κ_{1, 2} + y_{2} v_{1} - y_{2} v_{2} - y_{1} y_{2} + 1 = - (κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}) α_{2} + κ_{1, 1} N y_{2} - κ_{1, 2} N y_{2} + v_{1} y_{2} - v_{2} y_{2} - y_{1} y_{2} + 1 = 0 \end{matrix}

$\frac{\partial W(\alpha _{2})}{\partial \alpha _{2}}=Ny_{2}\kappa _{1,1}-\alpha _{2}\kappa _{1,1}-\alpha _{2}k_{2,2}-y_{2}N\kappa _{1,2}+2\alpha _{2}\kappa _{1,2}+y_{2}v_{1}-y_{2}v_{2}-y_{1}y_{2}+1\\ =-(\kappa _{1,1}+\kappa _{2,2}-2\kappa _{1,2})\alpha _{2}+\kappa _{1,1}Ny_{2}-\kappa _{1,2}Ny_{2}+v_{1}y_{2}-v_{2}y_{2}-y_{1}y_{2}+1=0\tag{5.5}$
由于

f (x) = \sum_{i = 1}^{m} α_{i} y_{i} κ (x_{i}, x) + b

$f(x)=\sum_{i=1}^{m}\alpha _{i}y_{i}\kappa (x_{i},x)+b$ ，则有：

v_{1} = \sum_{i = 3}^{m} α_{i} y_{i} κ_{i, 1} = f (x_{1}) - α_{1}^{o l d} y_{1} κ_{1, 1} - α_{2}^{o l d} y_{2} κ_{1, 2} - b v_{2} = f (x_{2}) - α_{1}^{o l d} y_{1} κ_{1, 2} - α_{2}^{o l d} y_{2} κ_{2, 2} - b

$v_{1}=\sum_{i=3}^{m}\alpha _{i}y_{i}\kappa _{i,1}=f(x_{1})-\alpha _{1}^{old}y_{1}\kappa _{1,1}-\alpha _{2}^{old}y_{2}\kappa _{1,2}-b\\ v_{2}=f(x_{2})-\alpha _{1}^{old}y_{1}\kappa _{1,2}-\alpha _{2}^{old}y_{2}\kappa _{2,2}-b$
又因为

α_{1}^{o l d} = (N - α_{2}^{o l d} y_{2}) y_{1}

$\alpha _{1}^{old}=(N-\alpha _{2}^{old}y_{2})y_{1}$ ,则：

v_{1} - v_{2} = f (x_{1}) - f (x_{2}) - κ_{1, 1} N + κ_{1, 2} N + (κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}) α_{2}^{o l d} y_{2}

$v_{1}-v_{2}=f(x_{1})-f(x_{2})-\kappa _{1,1}N+\kappa _{1,2}N+(\kappa _{1,1}+\kappa _{2,2}-2\kappa _{1,2})\alpha _{2}^{old}y_{2}$
代入(5.5)：

\begin{matrix} (5.6) & \frac{\partial W (α_{2})}{\partial α_{2}} = - (κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}) α_{2}^{n e w} + (κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}) α_{2}^{o l d} + y_{2} (y_{2} - y_{1} + f (x_{1}) - f (x_{2})) \end{matrix}

$\frac{\partial W(\alpha _{2})}{\partial \alpha _{2}}=-(\kappa _{1,1}+\kappa _{2,2}-2\kappa _{1,2})\alpha _{2}^{new}+(\kappa _{1,1}+\kappa _{2,2}-2\kappa _{1,2})\alpha _{2}^{old}+y_{2}(y_{2}-y_{1}+f(x_{1})-f(x_{2}))\tag{5.6}$
令

η = κ_{1, 1} + κ_{2, 2} - 2 κ_{1, 2}

$\eta =\kappa _{1,1}+\kappa _{2,2}-2\kappa _{1,2}$ ，

E = f (x) - y

$E=f(x)-y$ ，则：

\frac{\partial W (α_{2})}{\partial α_{2}} = - η α_{2}^{n e w} + η α_{2}^{o l d} + y_{2} (E_{2} - E_{1}) = 0

$\frac{\partial W(\alpha _{2})}{\partial \alpha _{2}}=-\eta \alpha _{2}^{new}+\eta \alpha _{2}^{old}+y_{2}(E_{2}-E_{1})=0$

\begin{matrix} (5.7) & α_{2}^{n e w} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{η} \end{matrix}

$\alpha _{2}^{new}=\alpha _{2}^{old}+\frac{y_{2}(E_{1}-E_{2})}{\eta }\tag{5.7}$
这样我们就获得了新的

α_{2}

$\alpha _{2}$ 值，但是不要忘记，

α

$\alpha$ 是存在约束的：

0 \leq α \leq C

$0\leq \alpha \leq C$
这里写图片描述

（图来自 https://blog.csdn.net/u011734144/article/details/81233553）
当

y_{1} \neq y_{2}

$y_{1}\neq y_{2}$ 时

α_{2}

$\alpha _{2}$ 的上下界为：

下界： $L=max(0,\alpha _{2}^{old}-\alpha _{1}^{old})$
上界： $H=min(C,C+\alpha _{2}^{old}-\alpha _{1}^{old})$

当 $y_{1}= y_{2}$ 时 $\alpha _{2}$ 的上下界为：

下界： $L=max(0,\alpha _{1}^{old}+\alpha _{2}^{old}-C)$
上界： $H=max(C,\alpha _{1}^{old}+\alpha _{2}^{old})$
这样我们就能获得约束后的 $\alpha _{2}^{new}$
$α_{2}^{n e w / c o n s t r a i n t} = {\begin{matrix} H & α_{2}^{n e w} > H \\ α_{2}^{n e w} & L \leq α_{2}^{n e w} \leq H \\ L & α_{2}^{n e w} < L \end{matrix}$ $\alpha _{2}^{new/constraint}=\left\{\begin{matrix} H & \alpha _{2}^{new}>H\\ \alpha _{2}^{new} & L\leq \alpha _{2}^{new}\leq H\\ L & \alpha _{2}^{new}<L \end{matrix}\right.$
然后我们就可以根据 $\alpha _{1}^{old}y_{1}+\alpha _{2}^{old}y_{2}=\alpha _{1}^{new}y_{1}+\alpha _{2}^{new}y_{2}$ 计算 $\alpha _{1}^{new}$ 了：
$α_{1}^{n e w} = a l p h a_{1}^{o l d} + y_{1} y_{2} (a l p h a_{2}^{o l d} - a l p h a_{2}^{n e w})$ $\alpha _{1}^{new}=alpha _{1}^{old}+y_{1}y_{2}(alpha _{2}^{old}-alpha _{2}^{new})$
未完待续