前言

线性分类SVM是一种线性分类非常有效的方法，若分类问题是非线性，需要考虑对数据进行空间变换，将非线性分类问题转变为线性分类问题，使非线性SVM的学习转变为线性SVM的学习。

若使用映射 $\phi$ 将实例从原空间 $\mathcal X$ （一般为欧式空间 $\R^n$ 的子集）变换到新的高维特征空间 $\mathcal H$ （希尔伯特空间），使原空间中的非线性分类问题转变为新特征空间中的线性分类问题，则即可在新的特征空间中学习并使用线性分类模型。

由上节可知，线性SVM的对偶问题为
$\begin{aligned} \min\limits_{\bm\alpha}&\quad \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_j(\bm x_i \cdot \bm x_j) - \sum_{i=1}^N \alpha_i \\ \text{s.t,}&\quad\sum\limits_{i=1}^N\alpha_iy_i=0\\ &\quad0\leq\alpha_i\leq C,\quad i=1,2,\cdots,N\\ \end{aligned}$

可见实例特征之间的计算仅以内积的形式出现，这种形式使得空间变换与计算变得简单可行。因为不用求解实例特征映射（空间变换）以及映射后的实例之间的内积，而已函数的形式直接得到映射后的实例之间的内积（核技巧），如下

$\bm x \to \phi(\bm x), \bm y \to \phi(\bm y) \Rightarrow \phi(\bm x)\cdot\phi(\bm y)\qquad \phi(\bm x)\cdot\phi(\bm y) = K(\bm x, \bm y)$

本节主要介绍非线性SVM的分类问题、核函数的作用以及非线性SVM模型的求解过程。

基于核函数的非线性SVM

模型描述

数据集 $T=\{(\bm x_1,y_1), \cdots, (\bm x_N, y_N)\}$ 线性不可分，实例特征向量 $\bm x_i \in \mathcal{X}=\R^n$ ，实例类别 $y_i \in \mathcal{Y}=\{+1, -1\}$ 。若能用 $\R^n$ 中的一个超平面正确划分数据集，则该类分类问题为非线性可分问题。

解决思路之核技巧

通过非线性变换将输入空间（ $\R^n$ 的子集或离散集合）中的超曲面模型对应于特征空间（希尔伯特空间 $\mathcal{H}$ ）中的超平面模型，并在 $\mathcal{H}$ 中求解线性SVM，以得到非线性模型的解。

图1 非线性分类问题与核技巧

核函数

若原始空间是有限维（属性有限维），那么一定存在高维特征空间使样本可分。

设 $\phi(\bm x):\mathcal X \to \mathcal H$ 是从输入空间 $\mathcal X$ 到特征空间 $\mathcal H$ （高维）的映射，若对所有的 $\bm x, \bm z\in\mathcal X$ ，均有
$K(\bm x,\bm z)=\phi(\bm x)\cdot\phi(\bm z)$

则称 $K(\bm x,\bm z)$ 为核函数，特征空间 $\mathcal H$ 维度确定时，映射不唯一。

核技巧的想法

学习是隐式地在特征空间中进行，仅定义核函数 $K(\bm x,\bm z)$ ，而不显式定义特征空间 $\mathcal H$ 和映射 $\phi$ 。通常情况下，直接计算 $K(\bm x,\bm z)$ 比通过 $\phi(\bm x)\cdot\phi(\bm z)$ 计算 $K(\bm x,\bm z)$ 容易得多，具体见下面示例。

例输入空间 $\R^n$ ，核函数 $K(\bm x. \bm z)=(\bm x\cdot \bm z)^2$ ，试找出其相关的特征空间 $\mathcal H$ 和映射 $\phi(\bm x):\R^n\to\mathcal H$ .

解：取特征空间 $\mathcal H=\R^3$ ，记输入空间 $\R^n$ 中的两个实例 $\bm x=(x_1, x_2)^T$ ， $\bm z=(z_1, z_2)^T$ ，由于
$(\bm x \cdot \bm z)^2 = (x_1z_1+x_2z_2)^2=(x_1z_1)^2+2x_1z_1x_2z_2+(x_2z_2)^2$

可取映射 $\phi(\bm x)=(x_1^2,\sqrt 2x_1x_2, x_2^2)^T$ 或 $\phi(\bm x)=\dfrac{1}{\sqrt 2}(x_1^2-x_2^2, 2x_1x_2,x_1^2+x_2^2)^T$ ，易证 $\phi(\bm x)\cdot\phi(\bm z)=K(\bm x, \bm z)$ .
可见，不论通过哪一种映射变化，计算内积 $\phi(\bm x)\cdot\phi(\bm z)$ 的计算量都要比直接计算 $K(\bm x. \bm z)$ 大很多。

正定核

若已知映射 $\phi$ ，可通过 $\phi(\bm x)$ 与 $\phi(\bm z)$ 的内积求解核函数 $K(\bm x, \bm z)$ 。如何判断直接给定的 $K(\bm x, \bm z)$ 满足核函数的条件？
略

核函数的选择

由于核函数 $K(\bm x, \bm z)=\phi(\bm x\cdot\phi(\bm z)$ ，内积值应该与向量 $\bm x,\bm z$ 之间的距离成正比。
高斯核函数符合这一特征，即
$K(\bm x, \bm z)=\exp(-\frac{||\bm x- \bm z||^2}{2\sigma^2})$

模型建立与求解

使用核函数替代线性分类对偶问题中特征向量内积的计算方法，得非线性分类最优化问题

$\begin{aligned} \min\limits_{\bm\alpha}&\quad \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jK(\bm x_i \cdot \bm x_j) - \sum_{i=1}^N \alpha_i \\ \text{s.t,}&\quad\sum\limits_{i=1}^N\alpha_iy_i=0\\ &\quad0\leq\alpha_i\leq C,\quad i=1,2,\cdots,N\\ \end{aligned}$

求解约束方程得到拉格朗日乘子最优解， $\bm\alpha^*=(\alpha_1^*,\alpha_2^*, \cdots,\alpha_N^*)^T$ ，且 $\bm\alpha^*\neq\bm0$ 。

由线性分类模型可知 $\bm\omega^* = \displaystyle\sum\limits_{i=1}^N\alpha_i^*y_i\bm x_i$ ，然后选择 $\bm\alpha^*$ 中的一个正分量 $0\lt\alpha_i^*\lt C$ ，得
$b^*=y_j-\displaystyle\sum\limits_{i=1}^N\alpha_i^*y_iK(\bm x_i\cdot \bm x_j)$

因此，分离超平面 $\displaystyle\sum\limits_{i=1}^N\alpha_i^*y_iK(\bm x \cdot \bm x_i)+b^*=0$ ，分类决策函数 $f(\bm x)=\text{sign}\left(\displaystyle\sum\limits_{i=1}^N\alpha_i^*y_iK(\bm x \cdot \bm x_i)+b^*\right)$ 。

支持向量机SVM（三）：基于核函数的非线性SVM

文章目录

前言

基于核函数的非线性SVM

模型描述

解决思路之核技巧

核函数

正定核

核函数的选择

模型建立与求解

猜你喜欢