支持向量机(SVM)第二章----核函数

参考周老师的《机器学习》

在SVM第一章中，我们假设训练样本是线性可分的。当训练样本不能线性可分时，又该怎么办呢？别怕，核函数来啦。
下面这张图片左边是原始训练样本空间，通过将样本映射到一个三维空间后，我们发现可以找到一个超平面将他们正确分开，也就是说线性可分。因此，找到这样的一个高维映射成为关键的一环。

周老师的书里提到：如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本线性可分。

现在，我们先假设我们找到了这样的高维空间，把 $x$ 映射到 $\phi(x)$ 。那么在高维空间里进行的方法和我们第一章一模一样。

原始问题是：
$\min \frac{1}{2}||w||^2$
$s.t. y_i(w^T\phi(x_i)+b)\geq1, i=1,2,...,n$

对偶问题是：
$\max \sum_{i=1}^n\alpha_i - \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)$
$s.t. \alpha_i \geq 0,i=1,2,...,n$
$\sum_{i=1}^n\alpha_iy_i=0$

因此如何计算 $\phi(x_i)^T\phi(x_j)$ 成为关键性问题。上面我们提到：如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本线性可分。而这个高维特征空间维数可能很高，甚至是无限维，因此直接计算高维空间里的内积很困难。那我们另辟蹊径—-核函数来了！

核函数：
$k(x_i,x_j)=\phi(x_i)^T\phi(x_j)$

因此将上面的对偶问题重写为：
$\max \sum_{i=1}^n\alpha_i - \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jk(x_i,x_j)$
$s.t. \alpha_i \geq 0,i=1,2,...,n$
$\sum_{i=1}^n\alpha_iy_i=0$

最终模型是：
$f(x) = w^T\phi(x)+b = \sum_{i=1}^n\alpha_iy_i\phi(x_i)^T\phi(x)+b =\sum_{i=1}^n\alpha_iy_ik(x_i,x)+b$

什么样的函数可以做核函数呢？
Mercer定理：一个对称函数所对应的核矩阵半正定，它就可以作为核函数。
任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间RKHS”的特征空间。

注意：前面我们提到，如果原始空间是有限维，那么一定存在一个高维特征空间使样本可分。但是我们并不知道这个高维空间是什么，我们又知道一个核函数对应了一个特征空间，因此核函数的选择十分重要，如果核函数选的不合适，意味着无法在高维空间里线性可分。

核函数选择成为SVM的最大变数。

我们列出几种常用的核函数：

线性核 $k(x_i,x_j) = x_i^Tx_j$
多项式核 $k(x_i,x_j)=(x_i^Tx_j)^d$ ，其中 $d \geq 1为多项式的次数$
高斯核(亦称RBF核) $k(x_i,x_j)=exp(-\frac{||x_i-x_j||^2}{2\sigma^2})$ , $\sigma>0为高斯核的带宽$
拉普拉斯核 $k(x_i,x_j)=exp(-\frac{||x_i-x_j||}{\sigma})$ , $\sigma>0$
Sigmoid核 $k(x_i,x_j)=tanh(\beta x_i^Tx_j+\theta)$ , $tanh$ 为双曲正切函数， $\beta>0,\theta<0$

此外，还可以通过函数组合得到：

$k_1$ 和 $k_2$ 为核函数，对于任意正数 $\gamma_1,\gamma_2$ ，其线性组合 $\gamma_1k_1+\gamma_2k_2$ 也是核函数
$k_1$ 和 $k_2$ 为核函数， $k_1(x,z)k_2(x,z)$ 也为核函数
$k_1$ 为核函数，对于任意函数 $g(x)$ , $g(x)k_1(x,z)g(z)$ 也为核函数

支持向量机(SVM)第二章----核函数

猜你喜欢