机器学习技法------SVM

文章目录

Large Margain Separating Hyperplane

Large Margain Separating Hyperplane

该节课的重点就是推导出 hard margin 的Linear SVM
在这里插入图片描述
对于线性分类器而言例如感知机模型如果测试数据和训练数据分布完全一致那么上述三个分类器对于分类结果不会产生区别但是在实际使用的过程中难免会有误差的存在因此对于误差的容忍度也是度量一个分类器的重要标准
对于上述不同的分类器对于数据的容忍度是不同的所谓容忍度是指分类器距离最近的样本之间的距离
换个角度如果要找一个分类器到所有的分类样本之间的距离都很大则该分类器和所有样本之间的Margin都很大,即这条线是很‘胖’的
在这里插入图片描述

接下来要做的是将上述语言转化为公式表达
max_w fat(f(w))
fat(f(w))= min_{n=1,2,3,4…n}distance(x_n,f(w))
上述式子只是增加了一个限制首先要保证的是正确性即:
Y=sign(Xw)

转化之后
在这里插入图片描述

假定我们已经拥有这样一个平面
w^Tx+b=0 求 distance（x,w,b）
在这里插入图片描述
假设x^’和x^’’ j均为平面上的点那么
w^Tx^’=-b 同理 w^Tx^‘’=-b
所以w^T(x^’-x^’’)=0 说明w垂直于平面上任意直线即 w为平面的法向量
而点到平面的距离为 (x-x^’) 投影到垂直于平面的方向即w的方向

又因为分割面能够正确分类所以 y（w^Tx+b）>0
因此可以将距离公式进一步转化

即
在这里插入图片描述

因为对于所有的x_n 样本为正的时候 w^Tx+b>0 样本为负的时候 w^Tx+b<0
此时如果我们同时缩放 w和b 那么就可以得到 w^Tx+b 大于任意一个数此时为了方便计算我们取
w^Tx+b >=1 也就是说在margin边界上的数据可以取到1 那么此时
在这里插入图片描述
对于所有的x min 取到最小值即为x是边界上的点这时最小值为 1/w
所以目标函数变成 max _b,w 1/||w|| 同时w^Tx+b>=1 所以y_n(w^Tx+b)>0自然就会成立

进一步简化constraint
因为
在这里插入图片描述
中存在一个min 使得该限制不好求解可以转化一下思路放宽一点限制即对于所有的x_n都存在

这个时候其实相当于放宽了条件限制即有可能出现所有的xn都大于1的情况使得不存在等于1的那个边界可是真的会存在这样的情况么举个例子
如果存在这种情况
在这里插入图片描述
缩放之后依旧满足大于等于1的限制但是max 1/||w|| 却变大了所以不可能出现

所有的结果都大于1并且在都大于1的情况下取到 1/||w|| 的最大值的
因此这时新的问题变成

最后将最佳化问题转化为最小化代价函数
在这里插入图片描述

求解：
QP二次规划求解
因为最小化的式子对于w和b而言是有限制的所以并不能很好的使用梯度下降的方法求解
这里要求解的式子是w的二次函数而限制是w和b的线性组合
Hard-margin 不可以有分不开的情况

在这里插入图片描述

这里需要回去复习一下VC dimension
SVM相比于PLA并不是所有的分割都有效是在分割基础之上增加了限制
这样导致了更少的dichotomy 根据VC dimension可知 Dichotomy越小 VC dimension越小 Ein和Eout接近的可能性越大
对于某个演算法的VC dimension 就是其最多能够shatter多少个点

在这里插入图片描述

这也就是说 SVM背后的基本保障：
减小了有效的VC dimension
可以控制复杂度可控的复杂度导致Eout 会接近Ein

下一讲会将线性的分类转化为非线性