支持向量机（SVM）和python实现（一）

1. 问题的提出

若存在一个样本集，其中有两类数据，我们希望将他们分类

像上图(a)那样的样本集，SVM的目的就是企图获得一个超平面（在这个例子中超平面是一个直线），这个超平面可以完美的分割不同的数据集，我们用下面的线性方程来表示这个超平面：

ω^{T} x + b = 0

$\mathbf{\omega ^{T}x}+b=0$
对于二维空间的超平面，实际上就是：

[\begin{matrix} w 1 & w 2 \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] + b = 0

$\begin{bmatrix} w1 & w2 \end{bmatrix} \begin{bmatrix} x\\ y \end{bmatrix} +b=0$
我们再观察图(b)和(c)的两个直线，很明显b中的直线对样本集的划分更好一些，因为，在直线边缘的样本点离直线更远一些，这样就提高了样本划分的鲁棒性，所以我们就有了一个寻找超平面的最开始的理念：找到的这个超平面要离2组样本集尽量的远，即点到超平面的距离尽量大。
这里直接给出点到超平面的距离：

d = \frac{| ω^{T} x + b |}{‖ ω ‖}

$d=\frac{\left | \omega ^{T}\mathbf{x}+b \right |}{\left \| \omega \right \|}$
我们现在再给出样本的类别标签，红色点为-1，蓝色点为1，则有：

{\begin{matrix} ω^{T} x_{i} + b > 0 & y_{i} = 1 \\ ω^{T} x_{i} + b < 0 & y_{i} = - 1 \end{matrix}

$\left\{\begin{matrix} \omega ^{T}\mathbf{x_{i}}+b>0 & y_{i}=1\\ \omega ^{T}\mathbf{x_{i}}+b<0 & y_{i}=-1 \end{matrix}\right.$
如果我们要求再高一些，我们希望这些点到超平面的距离都要大于d，则有：

{\begin{matrix} (ω^{T} x_{i} + b) / ‖ ω ‖ \geq d & y_{i} = 1 \\ (ω^{T} x_{i} + b) / ‖ ω ‖ \leq d & y_{i} = - 1 \end{matrix}

$\left\{\begin{matrix} (\omega ^{T}\mathbf{x_{i}}+b)/\left \| \omega \right \|\geq d & y_{i}=1\\ (\omega ^{T}\mathbf{x_{i}}+b)/\left \| \omega \right \|\leq d & y_{i}=-1 \end{matrix}\right.$
不等式两边同时除以d，可以得到：

{\begin{matrix} ω_{d}^{T} x_{i} + b_{d} \geq 1 & y_{i} = 1 \\ ω_{d}^{T} x_{i} + b_{d} \leq - 1 & y_{i} = - 1 \end{matrix}

$\left\{\begin{matrix} \omega_{d} ^{T}\mathbf{x_{i}}+b_{d}\geq 1 & y_{i}=1\\ \omega_{d} ^{T}\mathbf{x_{i}}+b_{d}\leq -1 & y_{i}=-1 \end{matrix}\right.$
其中

ω_{d} = \frac{ω}{‖ ω ‖ d}, b_{d} = \frac{b}{‖ ω ‖ d}

$\omega _{d}=\frac{\omega }{\left \| \omega \right \|d}, b_{d}=\frac{b}{\left \| \omega \right \|d}$
实际上

ω_{d}^{T} x_{i} + b_{d} = 0

$\omega_{d} ^{T}\mathbf{x_{i}}+b_{d}=0$ 和

ω^{T} x_{i} + b = 0

$\omega ^{T}\mathbf{x_{i}}+b=0$ 是同样的超平面，既然如此我们就把

ω_{d}

$\omega _{d}$ 和

b_{d}

$b_{d}$ 继续叫做

ω

$\omega$ 和

b

$b$ ，那么我们就获得了SVM优化问题的约束条件:

\begin{matrix} (1.1) & {\begin{matrix} ω^{T} x_{i} + b \geq 1 & y_{i} = 1 \\ ω^{T} x_{i} + b \leq - 1 & y_{i} = - 1 \end{matrix} \end{matrix}

$\left\{\begin{matrix} \omega ^{T}\mathbf{x_{i}}+b\geq 1 & y_{i}=1\\ \omega ^{T}\mathbf{x_{i}}+b\leq -1 & y_{i}=-1 \end{matrix}\right. \tag{1.1}$

(图片来自https://www.cnblogs.com/freebird92/p/8909546.html)

如上图所示的距离超平面最近的几个训练样本点使(1.1)中的等号成立，这些点我们称为“支持向量”，两个异类支持向量到超平面的距离之和为 $\frac{2}{\left \| \omega \right \|^{2}}$ ，我们希望这个值越大越好，即 $\frac{1}{2}\left \| \omega \right \|^{2}$ 越小越好，所以我们的问题就变成了：

\begin{matrix} (1.2) & m i n \frac{1}{2} {‖ ω ‖}^{2} s . t . y_{i} (ω^{T} x_{i} + b) \geq 1, i = 1, 2, . . ., m . \end{matrix}

$min \frac{1}{2}\left \| \omega \right \|^{2} \\s.t.\ y_{i}(\omega ^{T}\mathbf{x_{i}}+b)\geq 1,\quad i=1,2,...,m.\tag{1.2}$

2. 对偶问题

式(1.2)是一个凸二次规划问题，我们可以使用拉格朗日乘子法获取其对偶问题来求解，引入拉格朗日乘子 $\alpha _{i}\geq 0 \quad i=1,2,...,m$ ,则式(1.2)写为：

\begin{matrix} (2.1) & L (ω, b, α) = \frac{1}{2} {‖ ω ‖}^{2} + \sum_{i = 1}^{m} α_{i} (1 - y_{i} (ω^{T} x_{i} + b)) \end{matrix}

$L(\omega ,b,\mathbf{\alpha })=\frac{1}{2}\left \| \omega \right \|^{2}+\sum_{i=1}^{m}\alpha _{i}(1-y_{i}(\omega ^{T}x_{i}+b))\tag{2.1}$
对

ω

$\omega$ ，b求偏导为0可得：

\begin{matrix} (2.2) & ω = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} 0 = \sum_{i = 1}^{m} α_{i} y_{i} \end{matrix}

$\omega =\sum_{i=1}^{m}\alpha _{i}y_{i}\mathbf{x_{i}} \qquad 0=\sum_{i=1}^{m}\alpha _{i}y_{i}\tag{2.2}$
将(2.2)带入(2.1)可得：

\begin{matrix} (2.3) & \begin{aligned} L (ω, b, α) & = \frac{1}{2} {‖ ω ‖}^{2} + \sum_{i = 1}^{m} α_{i} (1 - y_{i} (ω^{T} x_{i} + b)) \\ = \frac{1}{2} ω^{T} ω - ω^{T} \sum_{i = 1}^{m} α_{i} y_{i} x_{i} + \sum_{i = 1}^{m} α_{i} - \sum_{i = 1}^{m} α_{i} y_{i} b \\ = \frac{1}{2} ω^{T} (ω - 2 \sum_{i = 1}^{m} α_{i} y_{i} x_{i}) + \sum_{i = 1}^{m} α_{i} \\ = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1, j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned} \end{matrix}

$\begin{equation} \begin{split} L(\omega ,b,\mathbf{\alpha })&=\frac{1}{2}\left \| \omega \right \|^{2}+\sum_{i=1}^{m}\alpha _{i}(1-y_{i}(\omega ^{T}x_{i}+b))\\ &=\frac{1}{2}\omega ^{T}\omega -\omega ^{T}\sum_{i=1}^{m}\alpha _{i}y_{i}\mathbf{x_{i}}+\sum_{i=1}^{m}\alpha _{i}-\sum_{i=1}^{m}\alpha _{i}y_{i}b\\ &=\frac{1}{2}\omega ^{T}(\omega -2\sum_{i=1}^{m}\alpha _{i}y_{i}\mathbf{x_{i}})+\sum_{i=1}^{m}\alpha _{i}\\ &=\sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1,j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}\mathbf{x_{i}^{T}x_{j}} \end{split} \end{equation}\tag{2.3}$
最后的对偶问题为：

\begin{matrix} (2.4) & m a x . \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1, j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} s . t . α_{i} \geq 0 \sum_{i = 1}^{m} α_{i} y_{i} \end{matrix}

$max. \sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1,j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}\mathbf{x_{i}^{T}x_{j}}\\ s.t.\ \alpha _{i}\geq 0 \quad \sum_{i=1}^{m}\alpha _{i}y_{i}\tag{2.4}$
解出

α

$\alpha$ 后求出

ω

$\omega$ 和b就可以得到模型：

\begin{matrix} (2.5) & f (x) = ω^{T} x + b = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} x + b \end{matrix}

$f(\mathbf{x})=\omega ^{T}\mathbf{x}+b\\ =\sum_{i=1}^{m}\alpha _{i}y_{i}\mathbf{x_{i}x}+b \tag{2.5}$
因为式(1.2)含有不等式约束，因此对偶问题应满足KKT条件，这里稍微说一下KKT条件怎么获得的。

KKT条件

（图来自https://zhuanlan.zhihu.com/p/24638007）

不等式约束 $g(x)\leq0$ 即为图中的可行解区域，最优解 $x^{*}$ 的位置有两种情况：在可行区域边界上或者在可行区域内部。
在边界上：这种情况下 $g(x)=0$ ，目标函数 $f(x)$ 在可行解区域边缘更大，可行解区域其他地方更小，而 $g(x)$ 在可行解区域内小于0，外部大于0，意味着 $f(x)$ 的梯度方向与约束条件函数 $g(x)$ 的梯度方向相反，则在最优解处满足下式：

\nabla f (x^{*}) + λ \nabla g (x^{*}) = 0

$\nabla f(\mathbf{x^{*}})+\lambda \nabla g(\mathbf{x^{*}})=0$
根据上式可以推出当最优解在边界上时

λ > 0

$\lambda >0$
在区域内：这种情况相当于约束条件不存在，因此拉格朗日乘子

λ = 0

$\lambda =0$ ，

g (x) < 0

$g(x)<0$
这样就得出了KKT条件

{\begin{matrix} g (x) \leq 0 \\ λ \geq 0 \\ λ g (x) = 0 \end{matrix}

$\left\{\begin{matrix} g(\mathbf{x})\leq 0\\ \lambda \geq 0\\ \lambda g(\mathbf{x})=0 \end{matrix}\right.$
其中第一个式子是约束本身，第二个式子是对拉格朗日乘子的描述，第三个式子是综合上述2种情况后获得的表达。

现在我们再回到之前的对偶问题中，(2.4）需要满足的KKT条件为：

{\begin{matrix} α_{i} \geq 0 \\ y_{i} f (x_{i}) - 1 \geq 0 \\ α_{i} (y_{i} f (x_{i}) - 1) = 0 \end{matrix}

$\left\{\begin{matrix} \alpha _{i}\geq 0\\ y_{i}f(\mathbf{x_{i}})-1\geq 0\\ \alpha _{i}(y_{i}f(\mathbf{x_{i}})-1)=0 \end{matrix}\right.$
于是，对于任意训练样本，总有

α_{i} = 0

$\alpha _{i}= 0$ 或

y_{i} f (x_{i}) = 1

$y_{i}f(\mathbf{x_{i}})=1$ ，当

α_{i} = 0

$\alpha _{i}= 0$ 时，该样本不会对目标函数产生影响，若

α_{i} > 0

$\alpha _{i}> 0$ ，则必有

y_{i} f (x_{i}) = 1

$y_{i}f(\mathbf{x_{i}})=1$ ，此时对应样本位于最大间隔边界上，是一个支持向量。

3. 核函数

前面我们举的例子都是线性可分的，如果找不到一条直线将两个数据集分离的时候该怎么办呢？
这里写图片描述
（图片来自http://www.360doc.com/content/14/0526/16/10724725_381159791.shtml）
对于这样的问题，我们可以通过将样本点从原始空间映射到一个更高维的特征空间，使在这个新的特征空间内，样本点变得线性可分，就像上图描述的那样，我们用 $\varphi (\textbf{x})$ 来表示将x映射后的特征向量，于是我们就可以将模型写为：

\begin{matrix} (3.1) & f (x) = ω^{T} φ (x) + b = \sum_{i = 1}^{m} α_{i} y_{i} φ (x)^{T} φ (x_{i}) + b \end{matrix}

$f(\mathbf{x})=\omega ^{T}\varphi (\textbf{x})+b\\ =\sum_{i=1}^{m}\alpha _{i}y_{i}\varphi (\textbf{x})^{T}\varphi (\mathbf{x_{i}})+b \tag{3.1}$
对偶问题也描述为：

\begin{matrix} (3.2) & m a x . \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1, j = 1}^{m} α_{i} α_{j} y_{i} y_{j} φ (x_{i})^{T} φ (x_{j}) s . t . α_{i} \geq 0 \sum_{i = 1}^{m} α_{i} y_{i} \end{matrix}

$max. \sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1,j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}\varphi (\textbf{x}_{i})^{T}\varphi (\mathbf{x_{j}})\\ s.t.\ \alpha _{i}\geq 0 \quad \sum_{i=1}^{m}\alpha _{i}y_{i}\tag{3.2}$
求解(3.2)涉及到计算

φ (x_{i})^{T} φ (x_{j})

$\varphi (\textbf{x}_{i})^{T}\varphi (\mathbf{x_{j}})$ 考虑到样本x映射到特征空间后维数可能很高，因此直接计算

φ (x_{i})^{T} φ (x_{j})

$\varphi (\textbf{x}_{i})^{T}\varphi (\mathbf{x_{j}})$ 是很困难的，为了避免这种情况，我们引入下面这样的函数：

κ (x_{i}, x_{j}) =< φ (x_{i}) φ (x_{j}) >= φ (x_{i})^{T} φ (x_{j})

$\kappa (\mathbf{x_{i},x_{j}})=<\varphi (\mathbf{x_{i}})\varphi (\mathbf{x_{j}})>=\varphi (\mathbf{x_{i}})^{T}\varphi (\mathbf{x_{j}})$
未完待续。。。