统计学习方法笔记(二)

1.4模型评估与模型选择

训练误差与测试误差

假设学习到的模型是：

$Y=\hat{f}(X)$

训练误差是模型关于训练数据集的平均损失:

$R_{emp}(\hat{f})=\frac{1}{N}\sum^N_{i=1}L(y_i,\hat{f}(x_i))$

测试误差是模型关于测试数据集的平均损失:

$e_{text}=\frac{1}{N^{'}}\sum^{N^{'}}_{i=1}L(y_i,\hat{f}(x_i))$

(N为训练样本容量，N^’^为测试样本容量)

测试误差反映了学习方法对未知测试数据集的预测能力，预测误差小的方法具有更好的预测能力。

过拟合与模型选择

过拟合：对已知数据集拟合很好，对未知数据预测很差。

模型选择：当选择的模型复杂度过大，会出现过拟合，故我们要选择复杂度适当的最优模型。

1.5正则化与交叉验证

正则化

正则化是在经验风险上加上一个正则化项，通过减小模型复杂度来防止过拟合，一般具有如下形式：

$min_{f\in\digamma}=\frac{1}{N}L(y_i,f(x_i))+\lambda{J(f)}$

交叉验证

在样本数据充足的情况下，随机将数据集切成三部分，分别为训练集，验证集，测试集。训练集用于训练模型；验证集用于模型的选择；测试集用于最终对学习方法的评估。

简单交叉验证：

随机将数据集分成两部分，一部分作为训练集，另一部分作为测试集。用训练集在各种条件下训练模型，在测试集上评价各个模型的测试误差，选出测试误差最小的模型。

S折交叉验证

随机将数据集切分成S个互不相交的大小相同的子集，利用S-个子集的数据训练模型，利用余下的子集测试模型，将这一过程对可能的S种选择重复进行，最后选出S种评测中平均测试误差最小的模型。

留一交叉验证：

S折交叉验证的特殊情形是S=N，称为留一交叉验证，在数据缺乏的情况下使用，N是给定数据集的容量。

1.6泛化能力

泛化误差

若学到的模型是 $\hat{f}$ ，那么以下模型是对未知数据预测的误差即为泛化误差。

$R{exp}(f)=E_p[L(Y,f(x))]=\int_{xy}L(y,f(x))P(x,y)dxdy$

泛化误差越小，学习方法越好，泛化误差即期望风险。

泛化误差上界

泛化能力分析是通过研究泛化误差的概率上界进行的，简称泛化误差上界。泛化误差上界是样本容量的函数，当样本容量增加时，泛化上界趋于0；且泛化误差是假设空间容量的函数，假设空间容量越大，模型越难学。

例(二分分类问题)：

已知：

T={ $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)})...(x^{(N)},y^{(N)})$ }

$(X,Y)\sim{P(X,Y)}$ ； $X\in{R^n}$ ， $Y\in$ {-1,+1}

$\digamma$ ={ $f_1,f_2...f_d$ }

损失函数是0-1损失，关于 $f$ 的期望风险和经验风险分别是:

$R(f)=E[L(Y,f(X))]$

$\hat{R}=\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))$

经验风险最小化函数是：

$f_N=argmin_{f\in\digamma}\hat{R}(f)$

$f_N$ 的泛化能力：

$R(f_N)=E[L(Y,f_N(X))]$

定理：对二分类问题，对任意一个函数 $f\in{\digamma}$ ,至少以概率 $1-\delta$ ,以下不等式成立：

$R(f)\le{\hat{R}(f)}+\varepsilon(d,N,\delta)$

$\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})}$

左边为泛化误差，右为泛化误差上界。