数据挖掘-非线性支持向量机探讨
非线性支持向量机探讨
在之前的两篇支持向量机文章的介绍中,阐述了支持向量机的原理与线性的支持向量机的本质以及最大间隔的直观含义,在本文中,我们将继续观察支持向量机,当遇到线性不可分的数据时,介绍如何使用核技巧进行处理。
新空间的超平面表达式是:
而在此处的核函数表达式是:
而不是所有的函数都可以随意作为核函数,需要满足核函数对应的Gram矩阵是半正定矩阵,才能称为正定核,才能进一步作为核函数。常用的核函数有多项式核函数,高斯核函数,字符串核函数等。
综上所述,对于不可线性分割的数据集时,应该使用核函数进行映射处理,将原数据所在的欧式空间转为新数据所在的希尔伯特空间。通过映射后的新数据变得线性可分割,然后再使用之前线性支持向量机所使用的方法,找到最大的间隔,所对应的超平面即为最佳的分割,并且将核函数代入后,最终得到一个原空间的最佳分割的表达式。所以在实际比赛和项目中,需要首先观察数据的分布和构成,一般会先使用线性的支持向量机进行分割,当效果不好或者准确率不高时,可以使用核函数进行处理。由于支持向量机这种方法对于计算要求较高,但是其本身的分割效果其实还不错,初学者应该掌握内部的算法和思路,为后续学习深度学习打基础。