2 软间隔与正则化
2.1 软间隔
硬间隔(hard margin)要求所有样本均满足约束:
yi(wTxi+b)≥1(i=1,2,...m),即所有样本都必须划分正确。
软间隔(soft margin)允许某些样本不满足约束,即允许支持向量机在一些样本上出错。
在最大化间隔同时,不满足约束的样本应尽可能少,优化目标如下:
min21∣∣w∣∣2+Ci=1∑ml0/1(yi(wTxi+b)−1) 其中
C>0是一个常数,为惩罚参数。当
C为无穷大时,会迫使所有样本满足约束。
l0/1是0/1损失函数:
l0/1={10z<0otherwise由于
l0/1非凸、非连续,常用其他函数,称为替代损失(surrogate loss),替代损失函数通常是凸的连续函数且是
l0/1的上界:
- hinge loss:
lhinge(z)=max(0,1−z)
- exponenetail loss:
lexp(z)=exp(−z)
- logistic loss:
llog(z)=log(1+exp(−z))
采用hinger loss,则
w,bmin21∣∣w∣∣2+Ci=1∑mmax(0,1−yi(wTxi+b))
引入松弛变量(slack variables)
w,b,ξimin21∣∣w∣∣22+Ci=1∑mξi
s.t.yi(wTxi+b)≥1−ξi,ξi≥0(i=1,2,...m)
这仍是一个二次规划问题,可通过拉格朗日乘子法得到其拉格朗日函数:
L(w,b,ξ,α,μ)=21∣∣w∣∣22+Ci=1∑mξi−i=1∑mαi[yi(wTxi+b)−1+ξi]−i=1∑mμiξi
其中,
μi≥0,αi≥0 均为拉格朗日系数。
优化目标变为:
w,b,ξminαi≥0,μi≥0maxL(w,b,α,ξ,μ)
该优化目标满足KTT条件,即
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧αi≥0;μi≥0;yif(xi)−1+ξi≥0;ξi≥0;αi(yif(xi)−1+ξi)=0μiξi=0f(xi)=wTxi+b
其对偶问题为:
αi≥0,μi≥0maxw,b,ξminL(w,b,α,ξ,μ)
先求优化函数对于
w,b,ξ的极小值, 接着再求拉格朗日乘子
α,μ的极大值。
L(w,b,α,ξ,μ)关于
w,b,ξ的极小值可以通过分别求偏导得到:
∂w∂L=0⇒w=i=1∑mαiyixi
∂b∂L=0⇒i=1∑mαiyi=0
∂ξ∂L=0⇒C=αi+μi
将其代入
L(w,b,α,ξ,μ),优化目标最终如下:
αmaxi=1∑mαi−21i=1,j=1∑mαiαjyiyjxiTxj
s.t.i=1∑mαiyi=0
0≤αi≤C
此时,优化函数仅有
α做为参数,可采用SMO(Sequential Minimal Optimization)求解。
2.2 正则化
l0/1是0/1损失函数替换为其他损失函数可以得到其他学习模型,如使用对率损失函数
llog替代,相当于使用对率回归模型(实际上,支持向量机与对率回归的优化目标相近,通常性能也相当。对率回归的优势在于输出具有自然的概率意义,即在给出预测标记的同时也给出了概率,而支持向量机不具有概率意义)。
这些模型的性质与所用的替代函数直接相关,且具有共性:
- 第一项描述划分超平面的“间隔”大小
- 另一项
∑i=1ml(f(xi),yi)描述训练集上的误差
更一般的形式如下:
fminΩ(f)+Ci=1∑ml(f(xi),yi)
-
Ω(f):结构风险(structural risk),描述模型
f的某些性质,为引入领域知识和用户意图提供了途径,有助于削减假设空间,降低过拟合风险。
-
∑i=1ml(f(xi),yi):经验风险(empirical risk),描述模型预测结果与训练数据的契合程度
-
C:正则化常数,对上述两者进行折中
正则化可理解为一种“罚函数法”,即对不希望的结果施以惩罚,使优化过程趋于希望目标。从贝叶斯估计的角度来看,正则化项被认为提供了模型的先验概率。
在正则化问题中,C称为正则化常数,
Ω(f)称为正则化项,
Lp范数是常用的正则化项。
-
L2范数
∣∣w∣∣2倾向于
w的分量取值尽量平衡,即非零分量个数尽量稠密
-
L0范数
∣∣w∣∣0和
L1范数
∣∣w∣∣1倾向于
w的分量取值尽量稀疏,即非零分量个数尽量少