机器学习技法笔记3：Kernel SVM

前两篇见：
机器学习技法笔记1：线性SVM
机器学习技法笔记2：SVM的对偶形式

3-1 Kernal Trick

上节课我们主要介绍了SVM的对偶形式，即dual SVM。Dual SVM也是一个二次规划问题，可以用QP来进行求解。之所以要推导SVM的对偶形式是因为：首先，它展示了SVM的几何意义；然后，从计算上，求解过程“好像” 与所在维度d^无关，规避了d^很大时难以求解的情况。但是，上节课的最后，我们也提到dual SVM的计算过程其实跟d^还是有关系的。 那么，能不能完全摆脱对d^的依赖，从而减少SVM计算量呢？这就是我们本节课所要讲的主要内容。
1、我们上节课推导的dual SVM是如下形式：
这里写图片描述

3、
至此，我们发现如果把特征转换和z空间计算内积这两个步骤合并起来，有可能会简化计算。因为我们只是推导了二阶多项式会提高运算速度，这个特例并不具有一般推论性。但是，我们还是看到了希望。
我们把合并特征转换和计算内积这两个步骤的操作叫做Kernel Function，用大写字母K表示。例如刚刚讲的二阶多项式例子，它的kernel function为：
这里写图片描述

3-2 Polynomial Kernel

1、我们刚刚通过一个特殊的二次多项式导出了相对应的kernel，其实二次多项式的kernel形式是多种的。例如，相应系数的放缩构成完全平方公式等。下面列举了几种常用的二次多项式kernel形式：
这里写图片描述
2、不同的转换，对应到不同的几何距离，得到不同的距离，这是什么意思呢？
举个例子，对于我们之前介绍的一般的二次多项式kernel，它的SVM margin 和对应的SV如下图（中）所示。
对于上面介绍的完全平方公式形式，自由度γ=0.001，它的SVM margin和对应的SV如下图（左）所示。比较发现，这种SVM margin比较简单一些。
对于自由度γ=1000，它的SVM margin和对应的SV如下图（右）所示。与前两种比较，margin和SV都有所不同
这里写图片描述

3-3 高斯形式的kernel

1、刚刚我们介绍的Q阶多项式kernel的阶数是有限的，即特征转换的d^是有限的。但是，如果是无限多维的转换Φ(x)，是否还能通过kernel的思想，来简化 SVM的计算呢？答案是肯定的。
这里写图片描述
可以看出，我们将高斯形式的kernel函数通过一系列的转换变成了两个转换函数内积的形式，而且这两个函数都是无限多次的，也就是转换均为无限维的更加普遍的形式为

通过上式可以看出，gSVM有n个高斯函数线性组合而成，其中n是SV的个数。而且，每个高斯函数的中心都是对应的SV。通常我们也把高斯核函数称为径向基函数（Radial Basis Function, RBF）。
高斯形式的SVM：找到进行线性组合的那些系数an，以及需要哪些支撑向量上的高斯函数。对应的原始形式其实就是将原来的x映射到z空间中去，维数为无限多维，然后找到一个最佳的分类面
这里写图片描述
3、
总结一下，kernel SVM可以获得large-margin的hyperplanes，并且可以通过高阶的特征转换使Ein尽可能地小。kernel的引入大大简化了dual SVM的计算量。而且，Gaussian kernel能将特征转换扩展到无限维，并使用有限个 SV数量的高斯函数构造出矩gSVM
这里写图片描述

3-4 几种kernel的对比

目前为止，我们已经介绍了几种kernel，下面来对几种kernel进行比较。
1、首先，Linear Kernel是最简单最基本的核，平面上对应一条直线，三维空间里对应一个平面。Linear Kernel可以使用上一节课介绍的Dual SVM中的QP 直接计算得到。
这里写图片描述

3、

4、其他的kernel
除了这三种kernel之外，我们还可以使用其它形式的kernel。首先，我们考虑kernel是什么？实际上kernel代表的是两笔资料x和x’，特征变换后的相似性即内积。但是不能说任何计算相似性的函数都可以是kernel。
这里写图片描述