机器学习(5)-- 支持向量机 SVM(一)

1. 支持向量机的基本原理

线性可区分

SVM -> support vector machine

考虑如下分类问题:
分类问题
可以看到,黑色和白色的点分别为两类,那么可以在平面找一条线,将两种点分割在直线的两端,如图的蓝色和红色的直线就是例子。这两个直线对数据集表现的都很好,不像绿色的线甚至无法分清训练数据的类别。那么对于新来的数据,我们可以根据其落在直线的那一侧来预测新数据的类型。然而对于不同的数据,蓝线和红线预测结果显然是不同的。那么哪一个更好一点呢,SVM所考虑的就是这个问题。
如下图:
svm
对于SVM来说,其思想认为下面的线要优于上面的线,用数学用于来表达的话就是下面的线距离其两侧最近的数据点较远,这个时候我们可以理解为其给新数据预测提供了更大的缓冲空间,也可以理解为,下面的线所遵循的方向,是两个数据集差异比较大的方向,沿着这个方向去预测更有可能预测正确。

线性不可区分

考虑更加符合真实世界的情况如下图:
不可区分
对于左侧的数据集,无法使用平面直线来进行区分,此时SVM的巧妙思想是将其映射到高纬度的空间,在高维空间,直线变成平面,而只要我们使用适当的增维方法,就有可能将性质相似的数据点映射到空间中的集中区域。此时只要按照上面的相同的思路,找到空间中的平面,就可以进行分类问题的预测。

小结

  • 如上面所述,SVM中,真正影响着分类预测结果的其实是离超平面最近的一组点,这组点分布在超平面上,我们称之为支撑向量,即 support vector
  • 由于其只关心在平面上的点,因此利用和保存数据集中少量的点即可。
  • 支撑向量的寻找变得尤为重要

下一篇介绍其数学推导和原理

猜你喜欢

转载自blog.csdn.net/qq_38876114/article/details/93778515