机器学习技法第五周学习笔记

1.Soft-Margin SVM as Regularized Model
我们对hard-margin svm和soft-margin svm进行回顾,我们首先求出问题的基本式,然后转换成对偶式,最后对对偶式利用二次规划工具求解。
hard-margin svm的条件物理意义为希望数据能够全部分对即Ein=0.最小化式子的物理意义为希望使求出边界最大的分割线。
soft-margin svm的条件物理意义为希望数据能够全部分对,但是能够容忍一定的错误,并记录错误的大小。最小化式子的物理意义为希望使求出边界最大的分割线,但是同时错误最小。
最下面为推荐的两个库,是台湾大学制作的SVM库。
这里写图片描述
如果点离分割线的距离大于1即在边界外,那么此时没有分错ξ将会是等于0的,如果点离分割线的距离小于1但是大于0,那么数据也不会被分错,但是仍然会被扣分,此时ξ将不为0,如果点离分割线的距离小于0,那么数据会被分错,会被扣去较多的分。其中 y n ( w T z n + b ) 为点离分割线的距离。 1 y n ( w T z n + b ) 为点离线的最远边界的距离。
然后我们能够将数据整合成一个式子,如下如所示。
这里写图片描述
这个式子和L2 regularization是类似的,可以写成一个最小化式子和一个限制条件的和,并且求其最小值。
那么我们为什么不直接其进行求解呢?非要利用svm的解法求解呢?
很简单,因为这不是个QP问题,不能使用核技巧,并且max运算符不能够微分,所以很难求解。
这里写图片描述
我们将正则化和svm的关联进行总结。
一般的正则化:希望Ein最小,但是给一个限制条件,比如之前的正则化,我们希望Ein最小,但是我们通过条件限制了H的大小。
hard-margin SVM:我们希望所求边界最宽,给定限制条件Ein必须等于0。
L2 regularization:希望所求边界宽度和Ein的和最小,即Ein要小,w也要小。
soft-margin SVM: 在L2 regularization的基础上增加了一个调节因子C。
这里C相当于L1里面的λ。大的C和小的λ相当于小的正则化。
这里写图片描述
既然我们不能够用SVM的正则化形式求解,那么我们为什么要进行正则化呢?主要是因为这样我们能够用正则化形式将SVM与其他模型联合起来进行分析比较。

2.SVM versus Logistic Regression
现在我们就通过SVM的正则化形式将其与我们之前的几种分类算法进行比较。
首先是01错误(最基本的错误):
这里写图片描述
然后是SVM的错误,当ys大于1时错误为0当小于1时错误成线型。
这里写图片描述
然后是逻辑回归的错误:
这里写图片描述
对比三种错误曲线,SVM和LRE都是01错误的上限,并且最大值和最小值都相等。所以这两种错误相似。
三种错误的优缺点如下:
这里写图片描述
由上我们可知逻辑回归和svm的错误曲线是类似的,所以我们可以说逻辑回归是svm的近似,但是这个结论反过来正不正确呢?我们能不能用svm来对数据点为0或者1的概率进行预测呢?

3.SVM for Soft Binary Classification
这一节我们介绍怎么才能利用SVM对数据是0或者1的概率进行估计。
一个直观的想法是,我们直接对SVM求出的值带入逻辑斯函数求得概率,实际上这个方法求得的值很接近真实的值,但是这样我们失去了我们在逻辑回归中所推导出来的一些结果。
另一个直观的想法是我们利用svm求出的结果作为w0作为逻辑回归的递推初始值。
但是这个方法并不比直接使用逻辑回归简单,并且丧失了svm核函数的优势。
这里写图片描述
为了中和两种方法的优势,于是有人提出了第三种想法:
首先利用svm求出一个分数,然后对这个分数进行一阶逻辑回归。
通常的结果是A为正,B接近0,因为这样也体现除了svm和逻辑回归的接近程度。
这里写图片描述
那么这样做的道理是什么呢?
我们首先利用svm求得(b,w)这相当于将x转换到了一个z空间。相当于利用了svm核函数的优势。
然后对这个z空间的数据进行逻辑斯回归。
这样我们就中和了这两个方法的优势。
这个结果和svm的结果相似。
这里写图片描述

4.Kernel Logistic Regression
上述我们是首先将数据通过svm转换到z空间然后求解,这节我们将直接在z空间进行求解,而不需要svm的转换。
我们发现只要w能够由z线型表示,那么我们的结果用能使用核函数。而我们知道SVM,PLA和LogReg by SGD的w都是z的线型组合。
这里写图片描述
我们发现,只要w的求解满足L2正则化形式,那么我们的w就能被 z n 线型表示。
这里写图片描述
接下来我们用 kernel的方法来求解logistic Regression该方法称为Kernel Logistic Regression.
我们直接将w表示成 z n 的线型组合,然后直接带入原式利用帝都下降法求解。
这里写图片描述
上述模型的另一种解释:不是很懂这个幻灯片的意义。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/Du_Shuang/article/details/82118699
今日推荐