机器学习技法笔记3:Kernel SVM

前两篇见:
机器学习技法笔记1:线性SVM
机器学习技法笔记2:SVM的对偶形式

3-1 Kernal Trick

上节课我们主要介绍了SVM的对偶形式,即dual SVM。Dual SVM也是一个 二次规划问题,可以用QP来进行求解。之所以要推导SVM的对偶形式是因 为:首先,它展示了SVM的几何意义;然后,从计算上,求解过程“好像” 与所在维度d^无关,规避了d^很大时难以求解的情况。但是,上节课的最 后,我们也提到dual SVM的计算过程其实跟d^还是有关系的。 那么,能不能完全摆脱对d^的依赖,从而减少SVM计算量呢?这就是我们本节课所要讲 的主要内容
1、 我们上节课推导的dual SVM是如下形式:
这里写图片描述
这里写图片描述
3、
至此,我们发现如果把特征转换和z空间计算内积这两个步骤合并起来,有可 能会简化计算。因为我们只是推导了二阶多项式会提高运算速度,这个特例并 不具有一般推论性。但是,我们还是看到了希望。
我们把合并特征转换和计算内积这两个步骤的操作叫做Kernel Function,用 大写字母K表示。例如刚刚讲的二阶多项式例子,它的kernel function为:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

3-2 Polynomial Kernel

1、 我们刚刚通过一个特殊的二次多项式导出了相对应的kernel,其实二次多项式 的kernel形式是多种的。例如,相应系数的放缩构成完全平方公式等。下面列 举了几种常用的二次多项式kernel形式:
这里写图片描述
2、 不同的转换,对应到不同的几何距离,得到不同的距离,这是什么意思呢?
举个例子,对于我们之前介绍的一般的二次多项式kernel,它的SVM margin 和对应的SV如下图(中)所示。
对于上面介绍的完全平方公式形式,自由度γ=0.001,它的SVM margin和对 应的SV如下图(左)所示。比较发现,这种SVM margin比较简单一些。
对于自由度γ=1000,它的SVM margin和对应的SV如下图(右)所示。与 前两种比较,margin和SV都有所不同
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

3-3 高斯形式的kernel

1、 刚刚我们介绍的Q阶多项式kernel的阶数是有限的,即特征转换的d^是有限 的。但是,如果是无限多维的转换Φ(x),是否还能通过kernel的思想,来简化 SVM的计算呢?答案是肯定的。
这里写图片描述
可以看出,我们将高斯形式的kernel函数通过一系列的转换变成了两个转换函 数内积的形式,而且这两个函数都是无限多次的,也就是转换均为无限维的 更加普遍的形式为
这里写图片描述
通过上式可以看出,gSVM有n个高斯函数线性组合而成,其中n是SV的个 数。而且,每个高斯函数的中心都是对应的SV。通常我们也把高斯核函数称为 径向基函数(Radial Basis Function, RBF)。
高斯形式的SVM:找到进行线性组合的那些系数an,以及需要哪些支撑向量 上的高斯函数。对应的原始形式其实就是将原来的x映射到z空间中去,维数 为无限多维,然后找到一个最佳的分类面
这里写图片描述
3、
总结一下,kernel SVM可以获得large-margin的hyperplanes,并且可以通 过高阶的特征转换使Ein尽可能地小。kernel的引入大大简化了dual SVM的 计算量。而且,Gaussian kernel能将特征转换扩展到无限维,并使用有限个 SV数量的高斯函数构造出矩gSVM
这里写图片描述
这里写图片描述
这里写图片描述

3-4 几种kernel的对比

目前为止,我们已经介绍了几种kernel,下面来对几种kernel进行比较。
1、 首先,Linear Kernel是最简单最基本的核,平面上对应一条直线,三维空间里 对应一个平面。Linear Kernel可以使用上一节课介绍的Dual SVM中的QP 直接计算得到。
这里写图片描述
这里写图片描述
这里写图片描述
3、
这里写图片描述
4、 其他的kernel
除了这三种kernel之外,我们还可以使用其它形式的kernel。首先,我们考 虑kernel是什么?实际上kernel代表的是两笔资料x和x’,特征变换后的 相似性即内积。但是不能说任何计算相似性的函数都可以是kernel。
这里写图片描述
这里写图片描述

猜你喜欢

转载自blog.csdn.net/wang18741337665/article/details/82428342
今日推荐