《机器学习技法》第2课笔记 对偶学习问题

课程来源:林轩田《机器学习技法》
课程地址: https://www.bilibili.com/video/av12469267/?p=1

1. 目标:希望能把转换空间后d+1维的问题,简化为N维的计算

2. 拉格朗日对偶问题:将有条件的最优化问题转换为无条件的最优化问题


3. 将SVM转换为对偶问题

4. 求解目标:

5. 对偶问题等于原问题的证明:
1)当yn*()不满足原条件时,得到的是正数,那么an取最大值是无限大;当yn*()满足原条件时,得到的是负数,an的最大值是0,那么此时的解救等于我们的优化目标:1/2*Wt*W


6. 转换成拉格朗日对偶问题
1)因为对于任意a'n,我们求出来的min肯定都比它大
2)因为是任意,所以取max也无所谓
3)这样子就把min和max对调了,同时min内部没有限制条件了

7. 拉格朗日强对偶问题的三个条件
1)凸函数
2)原问题有解(在这里就是svm一定存在一个可分超平面)
3)线性约束条件

8. 进一步简化掉b
1)因为是凸函数,要求最小值,此时求偏导为0
2)先对b求偏导,得到条件
3)将条件放在括号外,满足该条件时,发现可以消掉 累加an*yn*b

9. 进一步简化w
1)对w求偏导,得到条件
2)把条件放到括号外,括号内又同样可以消掉很多
3)这样括号内只要求an了

10. KKT最优条件(KKT是三个发明者名字):找到满足这些条件的解,一定也是原问题的解

11. 把对偶问题从max转换为min问题
变成了一个N与N+1维的QP问题

12. 写成QP问题的形式

13. 问题是Q很大,而且是密集矩阵。此时要使用专门为SVM设计的二次规划问题(QP)软件
1)不存进内存,需要用时再计算
2)加入条件减少问题复杂度

14. 求得了an,然后解w和b
1)w易求
2)注意,当an有大于0的,那么括号内就要为0,因此就能求得b。此时yn(wz+b)=1,物理含义就是支持向量那条线,此时的an就是那个支持向量上的值

15. 只有an>0的才是支持向量,然后带回去式子,当an=0,w和b就不用累加这一部分。因此只有支持向量才是需要计算的

16. SVM和PLA有相似的地方。其实分析下来,它们内在的联系,使用w向量来表征数据
1)SVM:靠近边界的点来表示数据
2)PLA:我常常犯错的点来表示数据

17. 原问题和对偶问题:把d空间的问题,转换为只跟样本量N有关的对偶问题

18. 但实际上,z和d有关,我们对于空间d的计算其实藏进Q里了。后续将讲解如何把这个Q的计算复杂度下降。

19. 总结

猜你喜欢

转载自blog.csdn.net/u013382288/article/details/80978438
今日推荐