机器学习笔记 第10课

继续学习有关学习理论方面的知识。

(1)依赖于浮点数为64位,可得到一个不是那么严格的结论,假设线性分类器共有d个参数,即m应与d成线性关系。代入样本复杂度表达式即可得。

(2)VC维的V和C分别代表两个人

VC维=3,代表存在一个假设可以使其分散大小为3的集合。并不是要求其对于所有大小为3的集合都可分割。要理解这里分散的意思。我认为VC所要解决的是假设空间若存在无限种假设的问题。解决的思路是VC维从无限种假设中进行分类从而提取出有限种有效的假设。即对于偏差\方差权衡公式,利用VC维替代假设空间个数,解除假设空间假设数目的约束。

Andrew得出一个结论是:训练样本的数量阶应和VC维的阶同阶。

对于大多数模型而言,模型训练的样本数量和模型的参数数量大概呈线性关系。

VC维的上界与特征的维度无关,对于线性分类器来说,只需考虑那些使分割间隔较大的分类器。

VC维暂且理解为一个假设空间的复杂度吧,也就是说VC维越多,代表假设越复杂(即二次分类器比线性分类器复杂),即假设能够shatter的点越多。还没有弄明白。具体参照:

http://www.flickering.cn/machine_learning/2015/04/vc%E7%BB%B4%E7%9A%84%E6%9D%A5%E9%BE%99%E5%8E%BB%E8%84%89/

(3)逻辑回归和SVM(凸)是对于ERM(非凸)的一种近似模拟,一种凸优化

接下来关于模型选择的内容

(4)hold out cross validation 七三开

k-fold cross validation k次求平均

leave one-out cross validation   when trainning examples are very few

接下来关于模型选择

(6)特征过多往往会产生过拟合的风险

前向搜索与后向搜索,比较好理解 (wrapper feature selection) 计算量很大

filter feature selection 对于每个特征i,都计算出其对于y的影响程度

对于文本分类问题,因为特征的表达常用0和1表示,所以常利用Mutual information(MI)作为计算公式,从MI的公式看出。

KL距离,用来衡量两种概率分布之间的差异,即衡量的是特征i的分布与y的分布的差异

猜你喜欢

转载自blog.csdn.net/OliverLee456/article/details/80685040