12.1 基础知识
计算学习理论就是关于机器学习的理论基础,其作用就是分析学习任务的困难实质,通过分析结果来知道算法设计,并为学习算法提供理论保证。
给定样例集,
,假设为二分类问题,一般
。假定
中的所有样本服从隐含未知的分布
,D中所有样本都是独立同分布样本。令h为从
到
的一个映射,其泛化错误为
h在D上的经验误差为
h的经验误差的期望等于其泛化误差,并将和
分别简记为
和
。令
,
通常表示预先设定的学得模型所应满足的误差要求,也称之为“误差参数”。
接下来,我们将研究经验错误与泛化误差之间的逼近程度,如果h的经验误差为0,则称h与D一致,否则称其与D不一致。对于任意两个映射,可用下式度量
常用的不等式
Jensen不等式:对任意凸函数
,有
.
Hoeffding不等式:若
为m个独立随机变量,其满足
,则对任意
,有
McDiarmid不等式:若
为m个独立随机变量,且对任意
,f满足
则任意,有
12.2 PAC学习
若对任何样例有
成立,则称c为目标概念,所有目标概念所构成的集合称为“概念类”,用符号
表示。给定学习算法
,所考虑的所有可能概念集合称为假设空间,用
表示。如果目标概念
,那么
中存在假设能将所有示例按与真实标记一致的方式完全分开,则称其为“可分的”,也叫一致的;如果
,那么
中不存在任何假设能将所有示例完全正确分开,则称其为“不可分的”,也叫不一致的。
在实际训练中,我们无法精确地学到目标概念c,因为机器学习过程受到很多因素的制约。因此,我们是希望以较大的概率学得误差满足预设上限的模型。形式化地说,令表示置信度,可定义:
PAC辨识:对
,所有
和分布
,若存在学习算法
,其输出假设
满足
,
则称学习算法
能从假设空间
中PAC辨别概念类
。
PAC可学习:令m为分布
中采样的样例数目,
,若存在
和多项式函数
,使得对于任何
,
能从假设空间
中PAC辨识概念类
,则称概念类
是PAC可学习的。
PAC学习算法:若学习算法
是概念类
为PAC可学习的,且
的运行时间也是多项式函数
,则称
为概念类
的PAC学习算法。
样本复杂度:满足PAC学习算法
所需的
中最小的m,称为学习算法
的样本复杂度。
PAC学习中一个关键因素是假设空间的复杂度。当
,称为恰PAC可学习,意味着学习算法的能力与学习任务恰好匹配。然而,这种情况并不实际,因为先适应中我们对
一无所知,更别说恰好相同了。所以,更重要的是研究
,一般而言,
越大,那么其包含任意目标概念的可能性越大,但是找到某个目标概念的难度也越大,当
有限时,称
为“有限假设空间”,否则为“无限假设空间”。
12.3 有限假设空间
12.3.1 可分情形
可分情形意味着目标概念属于假设空间
,即
,假定包含m个样例的训练集D,找出满足误差参数的假设的学习策略:由于任何在训练集D上出现标记错误的假设肯定不是目标概念
,那么,我们保留与D一致的假设,剔除与D不一致的假设即可。当训练集D足够大,可不断提出不一致的假设,直到
中仅剩下一个假设为止,这就是目标概念
,但是,训练集规模有限,假设空间
可能存在不止一个与D一致的等效假设,无法根据D对它们的优劣作进一步区分。
对PAC学习来说,只要D的规模能使学习算法以概率
找到目标假设的
近似即可。假定h的泛化误差大于
,对分布
上随机采样得到的任何样例
,有
由于D包含m个独立同分布的样例,故h与D表现一致的概率为
由于事先并不知道会输出
中的哪个假设,但仅需保证泛化误差大于
,且表现完美的假设概率之和不大于
即可:
上式不大于,即
可得
因此,有限假设空间都是PAC可学习的,所需空间如上式所示。
12.3.2 不可分情形
目标概念c不存在于假设空间中怎么解决?假定任何
,
中的任一假设都会出现或多或少的错误。由Hoeffding不等式易知:
引理1:若训练集D中包含m个从分布
上独立分布采样的样例,
,对于任意
,有
:
推理1:同引理1相同条件下,下面式子以至少
的概率成立:
由推理1可知,m越大,则h的经验误差是其泛化误差很好的近似。对于有限假设空间,有
定理1:若
为有限假设空间,
,对于任意
,有
显然,当时,
无法学的c的近似
。但是,当
给定时,其中必存在一个泛化误差最小的假设,找出其
近似是一个较好的目标。
中泛化误差最小的假设是
,以此为目标可以把PAC学习推广到
的情况,这就叫不可知学习。故有
定义1:不可知PAC可学习,令m表示样例数目,
,对所有分布
,若存在
和
,使得对任何
,
能从
中输出满足下式的假设h:
则称假设空间
是不可知PAC可学习的。
12.4 VC维
假定和示例集
,
中每个假设h都能对D中示例赋予标记,标记结果为
当m增大时,中所有假设对D中的示例结果数也会增大。
定义2 对所有
,假设空间
的增长函数
为
其中,增长函数
表示
对m个示例所能赋予标记的最大可能结果数。显然,可能结果数越大,
的表示能力越强,故对学习任务的适应能力也越强。
我们可以用增长函数来估计经验误差与泛化误差之间的关系:
定理2 对假设空间
,
,
和任意
有
定义3 假设空间
的VC维是能被
打散的最大示例集的大小,即
表示存在大小为d的示例集能被
打散。因此,在数据分布未知的情况下,仍然能够计算出
的VC维。一般情况下,这样来计算
的VC维:如果存在大小为d的示例集能被
打散,但是又不存在任何为d+1的示例集能被
打散,则
的VC维是d。
由定义3可知,VC维与增长函数有密切联系,下面的引理给出了两者之间的定量关系
引理2 若假设空间
的VC维为的d,则对任意
有
推论1 若假设空间
的VC维为的d,则对任意整数
有
定理3 若
的VC维为d,则对任意
,
和
有
定理4 任何VC维有限的假设空间
都是(不可知)PAC可学习的。
12.5 Rademacher复杂度
给定训练集,假设h的经验误差为
其中体现了预测值
与样例真实标记
之间的一致性,经验误差最小的假设是
基于,可重写为
考虑到中所有假设,其期望为
其中。
考虑实值函数空间。令
,其中
,将上式中的
和
替换为
和
可得
定义4 函数空间
关于
的经验Rademacher复杂度
定义5 函数空间
关于
上分布
的Rademacher复杂度
基于Rademacher 复杂度可得关于函数空间 F的泛化误差界
定理5 对实值函数空间
,根据分布
从
中独立同分布采样得到l示例集
,对任意
,以至少
的概率有
对于二分类问题,有以下定理
定理6 对假设空间
,根据分布
从
中独立分布采样得到示例集
,
,
,对任意
,以至少
的概率有
基于Rademacher 复杂度的泛化误差界依赖于具体学习问题上的数据分布,有点类似于为该学习问题"量身定制"的,因此它通常比基于vc维的泛化误差 界更紧一些。关于Rademacher复杂度与增长函数,有如下定理:
定理7 假设空间
的Rademacher 复杂度
与增长函数
满足
由上述公式可得