6.1 间隔与支持向量
给定训练样本集,,分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。但能将训练样本分开的划分超平面可能有很多,该选哪一个呢?
在样本空间中,划分超平面可通过如下线性方程来描述:
其中 为法向量,决定了超平面的方向;b为位移项,决定 了超平面与原点之间的距离。样本空间中任意点到超平面的距离可写为
欲找到具有"最大间隔" 的划分超平面,也就是要找到约束的参数w和 b,使得最大,即
可重写为
这就是支持向量机(简称 SVM)的基本型。凸二次规划问题,能用优化计算包求解,但可以有更高效的方法。
6.2 对偶问题
第一步,引入拉格朗日乘子得到拉格朗日函数
其中。
第二步,令对 和 的偏导为零可得
第三步,回代可得
最终模型为
注意到有不等式约束,因此上述过程需满足 KKT 条件,即要求
于是,对任意训练样本, 总有或。若,则该样本就不会对 f(x) 有任何影响;若,则必有,所对应的样本点位于最大间隔边界上,是一个支持向量。这显示出支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。
解的稀疏性,训练完成后,最终模型仅与支持向量有关,支持向量机因此而得名。
6.3 核函数
在现实任务中?原始样本空间内也许并不 存在一个能正确划分两类样本的超平面。对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得 样本在这个特征空间内线性可分。如图所示,若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面。如果原始空间是有限维, 即属性数有限,那么一定存在一个高维特征空间使样本可分。
设样本映射后的向量为,划分为超平面为,原始问题为
其对偶问题是
预测函数为
核函数的基本思路就是设计一个核函数
绕过显式考虑特征映射、以及计算高维内积的困难。由Mercer定理,若一个对称函数所对应的核矩阵半正定,则它就能作为核函数来使用。核函数选择成为决定支持向量机性能的关键。
6.4 软间隔与正则化
现实中很难确定合适的核函数,使训练样本在特征空间中线性可分即便貌似线性可分,也很难断定是否因过拟合造成的,引入软间隔,允许在一些样本上不满足约束。
软间隔优化的基本思路为最小化间隔的同时,让不满足约束
的样本尽可能少。
其中是一个常数,是“0/1损失函数”
但是,0/1损失函数非凸、非连续,不易优化。
采用替代损失函数,是在解决问题时的常见技巧,求解替代函数得到的解是否仍是原问题的解,理论上称为替代损失的“一致性”问题。
引入“松弛变量”,可重写为
根据KKT条件可知,最终模型仅与支持向量有关,也即采用hinge损失函数后仍保持了SVM解的稀疏性。
统计学习模型的更一般形式
其中称为"结构风险" ,用于描述模型 的某些性质;第称为"经验风险" ,用于描述模型与训练数据的契合程度。正则化可理解为“罚函数法”,通过对不希望的结果施以惩罚,使得优化过程趋向于希望目标。从贝叶斯估计的角度,则可认为是提供了模型的先验概率。
6.5 支持向量回归
支持向量机回归的基本思路,允许模型输出与实际输出间存在2的差别。.如图所示,这相当于以 f(x) 为中心,构建了一个宽度为2的问隔带,若 训练样本落入此间隔带,则认为是被预测正确的。
于是,支持向量回归(SVR)问题可形式化为
其中 C为正则化常数,是图 6.7所示的-不敏感损失函数
引入松弛变量和,可重写为
对偶问题
SVR的解形如
参考文献:《机器学习》周志华