机器学习笔记 第六章支持向量机

6.1  间隔与支持向量

        给定训练样本集D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right \}y_{i}\in \left \{ -1,+1 \right \},分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。但能将训练样本分开的划分超平面可能有很多,该选哪一个呢?

        在样本空间中,划分超平面可通过如下线性方程来描述:

其中 w=(w_{1};w_{2};...;w_{d})为法向量,决定了超平面的方向;b为位移项,决定 了超平面与原点之间的距离。样本空间中任意点x到超平面(w,b)的距离可写为

        欲找到具有"最大间隔" 的划分超平面,也就是要找到约束的参数w和 b,使得\gamma最大,即

可重写为

        这就是支持向量机(简称 SVM)的基本型。凸二次规划问题,能用优化计算包求解,但可以有更高效的方法。

6.2  对偶问题

        \square第一步,引入拉格朗日乘子\alpha _{i}\geq 0得到拉格朗日函数

其中\alpha =(\alpha _{1};\alpha _{2};...;\alpha _{m})

        \square第二步,令L(w,b,\alpha )\omegab 的偏导为零可得

        \square第三步,回代可得

        最终模型为

注意到有不等式约束,因此上述过程需满足 KKT 条件,即要求

        于是,对任意训练样本(x_{i},y_{i}), 总有\alpha _{i}=0y_{i}f(x_{i})=1。若\alpha _{i}=0,则该样本就不会对 f(x) 有任何影响;若\alpha _{i}> 0,则必有y_{i}f(x_{i})=1,所对应的样本点位于最大间隔边界上,是一个支持向量。这显示出支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。

        解的稀疏性,训练完成后,最终模型仅与支持向量有关,支持向量机因此而得名。

6.3  核函数

        在现实任务中?原始样本空间内也许并不 存在一个能正确划分两类样本的超平面。对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得 样本在这个特征空间内线性可分。如图所示,若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面。如果原始空间是有限维, 即属性数有限,那么一定存在一个高维特征空间使样本可分。

        设样本x映射后的向量为\phi (x),划分为超平面为f(x)=w^{T}\phi (x)+b,原始问题为

其对偶问题是

预测函数为

        核函数的基本思路就是设计一个核函数

绕过显式考虑特征映射、以及计算高维内积的困难。由Mercer定理,若一个对称函数所对应的核矩阵半正定,则它就能作为核函数来使用。核函数选择成为决定支持向量机性能的关键。

6.4  软间隔与正则化

        现实中很难确定合适的核函数,使训练样本在特征空间中线性可分即便貌似线性可分,也很难断定是否因过拟合造成的,引入软间隔,允许在一些样本上不满足约束。

        软间隔优化的基本思路为最小化间隔的同时,让不满足约束

的样本尽可能少。

其中C>0是一个常数,\iota _{0/1}是“0/1损失函数”

        但是,0/1损失函数非凸、非连续,不易优化。

        采用替代损失函数,是在解决问题时的常见技巧,求解替代函数得到的解是否仍是原问题的解,理论上称为替代损失的“一致性”问题。

引入“松弛变量”\xi _{i}\geqslant 0,可重写为

        根据KKT条件可知,最终模型仅与支持向量有关,也即采用hinge损失函数后仍保持了SVM解的稀疏性。

        统计学习模型的更一般形式

        其中\Omega (f)称为"结构风险" ,用于描述模型 f 的某些性质;第\sum_{i=1}^{m}\iota (f(x_{i}),y_{i})称为"经验风险" ,用于描述模型与训练数据的契合程度。正则化可理解为“罚函数法”,通过对不希望的结果施以惩罚,使得优化过程趋向于希望目标。从贝叶斯估计的角度,则可认为是提供了模型的先验概率。

6.5  支持向量回归

        支持向量机回归的基本思路,允许模型输出与实际输出间存在2\epsilon的差别。.如图所示,这相当于以 f(x) 为中心,构建了一个宽度为2\epsilon的问隔带,若 训练样本落入此间隔带,则认为是被预测正确的。

        于是,支持向量回归(SVR)问题可形式化为

其中 C为正则化常数,\iota _{\epsilon }是图 6.7所示的\epsilon-不敏感损失函数

引入松弛变量\xi_{i}\hat{\xi }_{i},可重写为

对偶问题

SVR的解形如


参考文献:《机器学习》周志华

猜你喜欢

转载自blog.csdn.net/qq_53034510/article/details/140758708