机器学习笔记第十二章计算学习理论

12.1 基础知识

计算学习理论就是关于机器学习的理论基础，其作用就是分析学习任务的困难实质，通过分析结果来知道算法设计，并为学习算法提供理论保证。

给定样例集 $D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right \}$ ， $x_{i}\in \chi$ ，假设为二分类问题，一般 $y_{i}\in \gamma =\left \{ -1,+1 \right \}$ 。假定 $\chi$ 中的所有样本服从隐含未知的分布 $\ss$ $\Gamma$ ，D中所有样本都是独立同分布样本。令h为从 $\chi$ 到 $\gamma$ 的一个映射，其泛化错误为

$E(h;\Gamma )=P_{x\sim \Gamma }(h(x)\neq y),$

h在D上的经验误差为

$\hat{E}(h;\Gamma )=\frac{1}{m}\sum_{i=1}^{m}\prod_{}^{}(h(x)\neq y),$

h的经验误差的期望等于其泛化误差，并将 $E(h;\Gamma )$ 和 $\hat{E}(h;\Gamma )$ 分别简记为 $E(h)$ 和 $\hat{E}(h)$ 。令 $E(h)\leqslant \epsilon$ ， $\epsilon$ 通常表示预先设定的学得模型所应满足的误差要求，也称之为“误差参数”。

接下来，我们将研究经验错误与泛化误差之间的逼近程度，如果h的经验误差为0，则称h与D一致，否则称其与D不一致。对于任意两个映射 $h_{1},h_{2}\in \chi \rightarrow \gamma$ ，可用下式度量

$d(h_{1},h_{2})=P_{x\sim \Gamma }(h_{1}(x)\neq h_{2}(x)).$

常用的不等式

$\bullet$ Jensen不等式：对任意凸函数 $f(x)$ ，有

$f(E(x))\leqslant E(f(x))$ .

$\bullet$ Hoeffding不等式：若 $x_{1},x_{2},...,x_{m}$ 为m个独立随机变量，其满足 $0\leqslant x_{i}\leqslant 1$ ，则对任意 $\epsilon >0$ ，有

$P(\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}E(x_{i})\geqslant \epsilon )\leqslant exp(-2m\varepsilon ^{2}),$

$P(|\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}E(x_{i})|\geqslant \epsilon )\leqslant 2exp(-2m\varepsilon ^{2}),$

$\bullet$ McDiarmid不等式：若 $x_{1},x_{2},...,x_{m}$ 为m个独立随机变量，且对任意 $1\leqslant i\leqslant m$ ，f满足

$sup_{x_{1},...,x_{m},x'_{i}}|f(x_{1},...,x_{m})-f(x_{1},...,x_{i-1},x'_{i},x_{i+1},...,x_{m})|\leqslant c_{i},$

则任意 $\epsilon > 0$ ，有

$P(f(x_{1},...,x_{m})-E(f(x_{1},...,x_{m}))\geqslant \epsilon )\leqslant exp(\frac{-2\epsilon ^{2}}{\sum_{i}^{}c_{i}^{2}}),$

$P(|f(x_{1},...,x_{m})-E(f(x_{1},...,x_{m}))\geqslant |\epsilon )\leqslant 2exp(\frac{-2\epsilon ^{2}}{\sum_{i}^{}c_{i}^{2}}).$

12.2 PAC学习

若对任何样例 $(x,y)$ 有 $c(x)=y$ 成立，则称c为目标概念，所有目标概念所构成的集合称为“概念类”，用符号 $C$ 表示。给定学习算法 $\pounds$ ，所考虑的所有可能概念集合称为假设空间，用 $H$ 表示。如果目标概念 $c\in H$ ，那么 $H$ 中存在假设能将所有示例按与真实标记一致的方式完全分开，则称其为“可分的”，也叫一致的；如果 $c\notin H$ ，那么 $H$ 中不存在任何假设能将所有示例完全正确分开，则称其为“不可分的”，也叫不一致的。

在实际训练中，我们无法精确地学到目标概念c，因为机器学习过程受到很多因素的制约。因此，我们是希望以较大的概率学得误差满足预设上限的模型。形式化地说，令 $\delta$ 表示置信度，可定义：

$\bullet$ PAC辨识：对 $0<\epsilon ,\delta <1$ ，所有 $c\in C$ 和分布 $D$ ，若存在学习算法 $\pounds$ ，其输出假设 $h\in H$ 满足

$P(E(h)\leqslant \epsilon )\geqslant 1-\delta$ ，

则称学习算法 $\pounds$ 能从假设空间 $H$ 中PAC辨别概念类 $C$ 。

$\bullet$ PAC可学习：令m为分布 $D$ 中采样的样例数目， $0<\epsilon ,\delta <1$ ，若存在 $\pounds$ 和多项式函数 $poly(.,.,.,.)$ ，使得对于任何 $m\geqslant poly(1/\epsilon ,1/\delta ,size(x),size(c))$ ， $\pounds$ 能从假设空间 $H$ 中PAC辨识概念类 $C$ ，则称概念类 $C$ 是PAC可学习的。

$\bullet$ PAC学习算法：若学习算法 $\pounds$ 是概念类 $C$ 为PAC可学习的，且 $\pounds$ 的运行时间也是多项式函数 $poly(1/\epsilon ,1/\delta ,size(x),size(c))$ ，则称 $\pounds$ 为概念类 $C$ 的PAC学习算法。

$\bullet$ 样本复杂度：满足PAC学习算法 $\pounds$ 所需的 $m\geqslant poly(1/\epsilon ,1/\delta ,size(x),size(c))$ 中最小的m，称为学习算法 $\pounds$ 的样本复杂度。

PAC学习中一个关键因素是假设空间 $H$ 的复杂度。当 $H=C$ ，称为恰PAC可学习，意味着学习算法的能力与学习任务恰好匹配。然而，这种情况并不实际，因为先适应中我们对 $C$ 一无所知，更别说恰好相同了。所以，更重要的是研究 $H\neq C$ ，一般而言， $H$ 越大，那么其包含任意目标概念的可能性越大，但是找到某个目标概念的难度也越大，当 $|H|$ 有限时，称 $H$ 为“有限假设空间”，否则为“无限假设空间”。

12.3 有限假设空间

12.3.1 可分情形

可分情形意味着目标概念 $c$ 属于假设空间 $H$ ，即 $c\in H$ ，假定包含m个样例的训练集D，找出满足误差参数的假设的学习策略：由于任何在训练集D上出现标记错误的假设肯定不是目标概念 $c$ ，那么，我们保留与D一致的假设，剔除与D不一致的假设即可。当训练集D足够大，可不断提出不一致的假设，直到 $H$ 中仅剩下一个假设为止，这就是目标概念 $c$ ，但是，训练集规模有限，假设空间 $H$ 可能存在不止一个与D一致的等效假设，无法根据D对它们的优劣作进一步区分。

对PAC学习来说，只要D的规模能使学习算法 $\pounds$ 以概率 $1-\delta$ 找到目标假设的 $\epsilon$ 近似即可。假定h的泛化误差大于 $\epsilon$ ，对分布 $D$ 上随机采样得到的任何样例 $(x,y)$ ，有

$P(h(X)=y)=1-P(h(x)\neq y)=1-E(h)<1-\epsilon$

由于D包含m个独立同分布的样例，故h与D表现一致的概率为

$P(h(x_{1})=y_{1})\wedge ...\wedge(h(x_{m})=y_{m})=(1-P(h(x)\neq y))^{m}<(1-\epsilon )^{m}.$

由于事先并不知道 $\pounds$ 会输出 $H$ 中的哪个假设，但仅需保证泛化误差大于 $\epsilon$ ，且表现完美的假设概率之和不大于 $\delta$ 即可：

$P(h\in H:E(h)>\epsilon \wedge \hat{E}(h)=0)<|H|(1-\epsilon )^{m}<|H|e^{-m\epsilon },$

上式不大于 $\delta$ ，即

$|H|e^{-m\epsilon }\leqslant \delta ,$

可得

$m\geqslant \frac{1}{\epsilon }(ln|H|+ln\frac{1}{\delta }).$

因此，有限假设空间 $H$ 都是PAC可学习的，所需空间如上式所示。

12.3.2 不可分情形

目标概念c不存在于假设空间 $H$ 中怎么解决？假定任何 $h\in H,\hat{E}(h)\neq 0$ ， $H$ 中的任一假设都会出现或多或少的错误。由Hoeffding不等式易知：

引理1：若训练集D中包含m个从分布 $D$ 上独立分布采样的样例， $0<\epsilon <1$ ，对于任意 $h\in H$ ，有

$P(\hat{E}(h)-E(h)\geqslant \epsilon )\leqslant exp(-2m\epsilon ^{2}),$

$P(E(h)-\hat{E}(h)\geqslant \epsilon )\leqslant exp(-2m\epsilon ^{2}),$

$P(|\hat{E}(h)-E(h)|\geqslant \epsilon )\leqslant 2exp(-2m\epsilon ^{2}).$ :

推理1：同引理1相同条件下，下面式子以至少 $1-\delta$ 的概率成立：

$\hat{E}(h)-\sqrt{\frac{ln(2/\delta )}{2m}}\leqslant E(h)\leqslant \hat{E}(h)+\sqrt{\frac{ln(2/\delta )}{2m}}.$

由推理1可知，m越大，则h的经验误差是其泛化误差很好的近似。对于有限假设空间 $H$ ，有

定理1：若 $H$ 为有限假设空间， $0<\epsilon <1$ ，对于任意 $h\in H$ ，有

$P(|E(h)-\hat{E}(h)|\leqslant \sqrt{\frac{ln|H|+ln(2/\delta )}{2m}})\geqslant 1-\delta .$

显然，当 $c\notin H$ 时， $\pounds$ 无法学的c的近似 $\epsilon$ 。但是，当 $H$ 给定时，其中必存在一个泛化误差最小的假设，找出其 $\epsilon$ 近似是一个较好的目标。 $H$ 中泛化误差最小的假设是 $argmin_{h\in H}E(h)$ ，以此为目标可以把PAC学习推广到 $c\notin H$ 的情况，这就叫不可知学习。故有

定义1：不可知PAC可学习，令m表示样例数目， $0<\epsilon,\delta <1$ ，对所有分布 $D$ ，若存在 $\pounds$ 和 $poly(.,.,.,.)$ ，使得对任何 $m\geqslant poly(1/\epsilon ,1/\delta ,size(x),size(c))$ ， $\pounds$ 能从 $H$ 中输出满足下式的假设h：

$P(E(h)-min_{h'\in H}E(h')\leqslant \epsilon )\geqslant 1-\delta ,$

则称假设空间 $H$ 是不可知PAC可学习的。

12.4 VC维

假定 $H$ 和示例集 $D=\left \{ x_{1},x_{2},...,x_{m} \right \}$ ， $H$ 中每个假设h都能对D中示例赋予标记，标记结果为

$h|_{D}=\left \{ (h(x_{1}),h(x_{2}),...,h(x_{m})) \right \}.$

当m增大时， $H$ 中所有假设对D中的示例结果数也会增大。

定义2 对所有 $m\in N$ ，假设空间 $H$ 的增长函数 $\prod_{H}^{}(m)$ 为

$\prod_{H}^{}(m)=max_{x_{1},...,x_{m}\subseteq \chi }|\left \{ (h(x_{1}),...,h(x_{m}))|h\in H \right \}|.$

其中，增长函数 $\prod_{H}^{}(m)$ 表示 $H$ 对m个示例所能赋予标记的最大可能结果数。显然，可能结果数越大， $H$ 的表示能力越强，故对学习任务的适应能力也越强。

我们可以用增长函数来估计经验误差与泛化误差之间的关系：

定理2 对假设空间 $H$ ， $m\in N$ ， $0<\epsilon <1$ 和任意 $h\in H$ 有

$P(|E(h)-\hat{E}(h)|>\epsilon )\leqslant 4\prod_{2m}^{}(2m)exp(-\frac{m\epsilon ^{2}}{8}).$

定义3 假设空间 $H$ 的VC维是能被 $H$ 打散的最大示例集的大小，即

$VC(H)=max\left \{ m:\prod_{H}^{}(m)=2^{m} \right \}.$

$VC(H)=d$ 表示存在大小为d的示例集能被 $H$ 打散。因此，在数据分布未知的情况下，仍然能够计算出 $H$ 的VC维。一般情况下，这样来计算 $H$ 的VC维：如果存在大小为d的示例集能被 $H$ 打散，但是又不存在任何为d+1的示例集能被 $H$ 打散，则 $H$ 的VC维是d。

由定义3可知，VC维与增长函数有密切联系，下面的引理给出了两者之间的定量关系

引理2 若假设空间 $H$ 的VC维为的d，则对任意 $m\in N$ 有

$\prod_{H}^{}(m)\leqslant \sum_{i=0}^{d}\binom{m}{i}.$

推论1 若假设空间 $H$ 的VC维为的d，则对任意整数 $m\geqslant d$ 有

$\prod_{H}^{}(m)\leqslant (\frac{e\cdot m}{d})^{d}.$

定理3 若 $H$ 的VC维为d，则对任意 $m>d$ ， $0<\delta <1$ 和 $h\in H$ 有

$P(E(h)-\hat{E}(h)\leqslant \leqslant \sqrt{\frac{8dln\frac{2em}{d}+8ln\frac{4}{\delta }}{m}})\geqslant 1-\delta .$

定理4 任何VC维有限的假设空间 $H$ 都是（不可知）PAC可学习的。

12.5 Rademacher复杂度

给定训练集 $D=\left \{ (x_{1},y_{1}),(x_{2},x_{2}),...,(x_{m},x_{m}) \right \}$ ，假设h的经验误差为

$\hat{E}(h)=\frac{1}{m}\sum_{i=1}^{m}\prod (h(x_{i})\neq y_{i})$

$=\frac{1}{m}\sum_{i=1}^{m}\frac{1-y_{i}h(x_{i})}{2}$

$=\frac{1}{2}-\frac{1}{2m}\sum_{i=1}^{m}y_{i}h(x_{i}),$

其中 $\frac{1}{m}\sum_{i=1}^{m}y_{i}h(x_{i})$ 体现了预测值 $h(x_{i})$ 与样例真实标记 $y_{i}$ 之间的一致性，经验误差最小的假设是

$argmax_{h\in H}\frac{1}{m}\sum_{i=1}^{m}y_{i}h(x_{i}).$

基于 $\sigma _{i}$ ，可重写为

$sup_{h\in H}\frac{1}{m}\sum_{i=1}^{m}\sigma _{i}h(x_{i}).$

考虑到 $H$ 中所有假设，其期望为

$E_{\sigma }[sup_{h\in H}\frac{1}{m}\sum_{i=1}^{m}\sigma _{i}h(x_{i})].$

其中 $\sigma =\left \{ \sigma _{1},\sigma _{2},...,\sigma _{m} \right \}$ 。

考虑实值函数空间 $F:Z\rightarrow R$ 。令 $Z=\left \{ z_{1},z_{2},...,z_{m} \right \}$ ，其中 $z_{i}\in Z$ ，将上式中的 $\chi$ 和 $H$ 替换为 $Z$ 和 $F$ 可得

定义4 函数空间 $F$ 关于 $Z$ 的经验Rademacher复杂度

$\hat{R}(F)=E_{\sigma } [sup_{f\in F}\frac{1}{m}\sum_{i=1}^{m}\sigma _{i}h(z_{i})].$

定义5 函数空间 $F$ 关于 $Z$ 上分布 $D$ 的Rademacher复杂度

$R_{m}(F)=E_{Z\subseteq \mathbb{Z}:|Z|=m}[\hat{R}_{Z}(F)].$

基于Rademacher 复杂度可得关于函数空间 F的泛化误差界

定理5 对实值函数空间 $F:\mathbb{Z}\rightarrow [0,1]$ ，根据分布 $D$ 从 $\mathbb{Z}$ 中独立同分布采样得到l示例集 $Z=\left \{ z_{1},z_{2},...,z_{m} \right \},z_{i}\in \mathbb{Z},0<\delta <1$ ，对任意 $f\in F$ ，以至少 $1-\delta$ 的概率有

$E[f(z)]\leqslant \frac{1}{m}\sum_{i=1}^{m}f(z_{i})+2R_{m}(F)+\sqrt{\frac{ln(1/\delta )}{2m}},$

$E[f(z)]\leqslant \frac{1}{m}\sum_{i=1}^{m}f(z_{i})+2\hat{R}_{m}(F)+3\sqrt{\frac{ln(1/\delta )}{2m}}.$

对于二分类问题，有以下定理

定理6 对假设空间 $H:\chi \rightarrow \left \{ -1,+1 \right \}$ ，根据分布 $D$ 从 $\chi$ 中独立分布采样得到示例集 $D=\left \{ x_{1},x_{2},...,x_{m} \right \}$ ， $x_{i}\in \chi$ ， $0<\delta <1$ ，对任意 $h\in H$ ，以至少 $1-\delta$ 的概率有

$E(h)\leqslant \hat{E}(h)+R_{m}(H)+\sqrt{\frac{ln(1/\delta )}{2m}},$

$E(h)\leqslant \hat{E}(h)+\hat{R}_{m}(H)+3\sqrt{\frac{ln(2/\delta )}{2m}}.$

基于Rademacher 复杂度的泛化误差界依赖于具体学习问题上的数据分布，有点类似于为该学习问题"量身定制"的，因此它通常比基于vc维的泛化误差界更紧一些。关于Rademacher复杂度与增长函数，有如下定理:

定理7 假设空间 $H$ 的Rademacher 复杂度 $R_{m}(H)$ 与增长函数 $\prod_{H}(m)$ 满足

$R_{m}(H)\leqslant \sqrt{\frac{2ln\prod_{H}(m)}{m}}.$

由上述公式可得

$E(h)\leqslant \hat{E}(h)+\sqrt{\frac{2dln\frac{em}{d}}{m}}+\sqrt{\frac{ln(1/\delta )}{2m}},$