目录

1. 基础知识
计算学习理论:是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础
目的:分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计.
令h为x到y一一个映射,其泛化误差:
经验误差:
误差参数: 用表示预先设定的学得模型所应满足的误差要求
两个模型通过“不合”来度量它们的差别:
常用的不等式:
- jensen不等式:
- Hoeffding不等式:
- McDiarmid不等式:
2. PAC学习
概率近似正确学习理论:最基本的计算学习理论
“概念类”:所有我们希望学得的目标概念所构成的集合称为
“假设空间”:给定一个学习算法,它所考虑的所有可能概念的集合
“可分的”,“一致的”学习算法:目标概念c ∈ H,H中存在假设能将所有示例按与真实标记一致的方式完全分开
“不可分的”,“不一致的”学习算法:c不属于 H,H中不存在任何假设能将所有示例完全正确分开
由于各种因素的影响,算法得到的模型只能接近目标概念,而误差在一定范围内,如下定义
PAC辨识:
PAC可学习:
算法能从假设空间h中PAC辨识概念类c
PAC学习算法:
运行时间满足:
则称概念类C是高效PAC可学习的,称为概念类C的PAC学习算法.
样本复杂度m,满足:
m为学习算法的样本复杂度
PAC学习中一个关键因素是假设空间H的复杂度.
“恰PAC可学习”:H包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即H=c
H越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大. H有限时,我们称H为“有限假设空间”,否则称为“无限假设空间”.
3. 有限假设空间
3.1 可分情形
可分情形:假设空间包含所有可能的目标概念
学习策略:不断剔除不一样的假设,直到剩下一个目标概念,但现实中数据集一般有限
对PAC学习来说,只要训练集D的规模能使学习算法以概率1-找到目标假设的
近似即可.
先估计泛化误差大于但在训练集上仍表现完美的假设出现的概率.
由于D包含m个从D独立同分布采样而得的样例,因此, h 与D表现一致的概率为
我们事先并不知道学习算法会输出H中的哪个假设,但仅需保证泛化误差大于e,且在训练集上表现完美的所有假设出现概率之和不大于f即可,可得:
由此可知,有限假设空间H都是PAC可学习的,所需的样例数目如上式所示,输出假设h的泛化误差随样例数目的增多而收敛到0,收敛速率为O
3.2 不可分情形
对较为困难的学习问题,目标概念c往往不存在于假设空间H中
引理1:若训练集D包含m个从分布D上独立同分布采样而得的样本
推论1:上式以至少1-的概率成立
推论1表明,样例数目m较大时, h的经验误差是其泛化误差很好的近似
定理1:
可得:
不可知PAC可学习:
满足上式的假设h,则称假设空间H是不可知PAC可学习的
4. VC维
对无限假设空间的可学性进行研究,需要度量假设空间的复杂度,也就是考虑空间的“VC维”
给定假设空间和示例集,标记结果为:
随着m的增大,H中所有假设对D中的示例所能赋予标记的可能结果数也会增大.
增长函数:
增长函数描述了假设空间H的表示能力,由此反映出假设空间的复杂度.我们可利用增长函数来估计经验误差与泛化误差之间的关系
“对分”:对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为对D的一种.
“打散”:若假设空间H能实现示例集D上的所有对分,即,则称示例集D能被假设空间H
对假设空间有:
定义VC维:
计算H的VC维:若存在大小为d的示例集能被H打散,但不存在任何大小为d+1的示例集能被H打散,则H的VC维是d.
若对一个任意大小为3的示例集,不能进行对分,对大小为2的可以,则VC维为二
可以被线性划分的集合,最大是3
增长函数的上限:
最后可得:
推论2:
定理3:
由定理12.3可知,上式的泛化误差界只与样例数目m有关,收敛速率为O(),与数据分布D和样例集D无关.因此,基于VC维的泛化误差界是分布无关、数据独立的.
若h满足:
则称算法为满足经验风险最小化原则的算法.
定理4:任何VC维有限的假设空间H都是(不可知) PAC可学习
5. Rademacher复杂度
Rademacher复杂度:另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布.
假设h的经验误差:
经验误差最小的假设:
但现实任务中样例的标记有时会受到噪声影响
考虑随机变量,将上式重写为:
而期望值为:
函数空间F关于Z的经验Rademacher复杂度
函数空间F关于z上分布D的 Rademacher 复杂度
定理5:对实值函数空间:根据分布D从Z中独立同分布采样得到示例集,以至少1-的概率有:
定理6:对假设空间H:根据分布D从X中独立同分布采样得到示例集,以至少1-的概率有:
定理7:假设空间H的 Rademacher复杂度Rm(H)与增长函数满足:
最后可得:
也就是说,我们从Rademacher 复杂度和增长函数能推导出基于VC维的泛化误差界.
6. 稳定性
算法的“稳定性”:考察算法在输入发生变化时,输出是否会随之发生较大的变化.学习算法的输入是训练集,因此下面我们做训练集的两种变化.
表示移除D中第i个样例得到的集合
表示替换D中第主个样例得到的集合
- 泛化损失:
- 经验损失:
- 留一损失:
若算法满足:
则称算法关于损失函数满足均匀稳定性
若算法关于损失函数满足均匀稳定性,有
定理8:算法满足均匀稳定性,至少1-
的概率有:
对损失函数,若学习算法所输出的假设满足经验损失最小化,则称算法满足经验风险最小化原则,简称算法是ERM的.
关于学习算法的稳定性和可学习性,有如下定理:
若学习算法是ERM且稳定的,则假设空间H可学习.