泛统计理论初探——非线性支持向量机探讨

数据挖掘-非线性支持向量机探讨

非线性支持向量机探讨
在之前的两篇支持向量机文章的介绍中,阐述了支持向量机的原理与线性的支持向量机的本质以及最大间隔的直观含义,在本文中,我们将继续观察支持向量机,当遇到线性不可分的数据时,介绍如何使用核技巧进行处理。


在这里插入图片描述
在这里插入图片描述

上图1可以理解为数据在直观上是线性不可分的,我们假设有一个超曲面是椭圆可以较好地分割数据。当它进行核技巧进行处理后,得到在新的空间中是如上图2。即核技巧将当前空间的超平面转化为新空间的一个超平面,在新空间中数据是线性可分的,所以这种核技巧其实是一种函数映射。 根据上面的图片我们理解,核函数通过一个函数把原空间的超曲面的分割变为新空间中的超平面,在表达上,摘自(《统计学习方法》 李航)如下式: 原始空间的椭圆超曲面表达式是

在这里插入图片描述
新空间的超平面表达式是:
在这里插入图片描述
而在此处的核函数表达式是:
在这里插入图片描述
而不是所有的函数都可以随意作为核函数,需要满足核函数对应的Gram矩阵是半正定矩阵,才能称为正定核,才能进一步作为核函数。常用的核函数有多项式核函数,高斯核函数,字符串核函数等。

综上所述,对于不可线性分割的数据集时,应该使用核函数进行映射处理,将原数据所在的欧式空间转为新数据所在的希尔伯特空间。通过映射后的新数据变得线性可分割,然后再使用之前线性支持向量机所使用的方法,找到最大的间隔,所对应的超平面即为最佳的分割,并且将核函数代入后,最终得到一个原空间的最佳分割的表达式。所以在实际比赛和项目中,需要首先观察数据的分布和构成,一般会先使用线性的支持向量机进行分割,当效果不好或者准确率不高时,可以使用核函数进行处理。由于支持向量机这种方法对于计算要求较高,但是其本身的分割效果其实还不错,初学者应该掌握内部的算法和思路,为后续学习深度学习打基础。

发布了23 篇原创文章 · 获赞 24 · 访问量 4516

猜你喜欢

转载自blog.csdn.net/qq_26727101/article/details/102529911