统计学习方法笔记(二)统计学习方法简介

模型评估与模型选择

训练误差与测试误差:

引入训练误差与测试误差的概念,当损失函数给定之后,训练误差与测试误差就成为学习方法评估的标准,需要注意的是,学习方法采用的损失函数未必就是评估时采用的损失函数,让两者一致是比较理想的。
假设学习到的模型是 Y = f ^ ( X )
1. 训练误差:是关于训练数据集的平均损失
R e m p ( f ^ ) = 1 N i = 1 N L ( y i , f ^ ( x i ) )
其中, N 是训练样本容量
2. 测试误差:是关于测试数据集的平均损失
e t e s t = 1 N i = 1 N L ( y i , f ^ ( x i ) )
其中, N 是测试样本容量
训练误差反映了给定问题学习的难易程度,而测试误差则反映了学习方法的准确度,因此,引入这两个概念是有意义的,是为了评估学习方法的好坏,通常将学习方法对未知数据的预测能力称为泛化能力。

过拟合与模型选择

过拟合现象:一味追求提高模型的对训练数据的预测能力,却使得所选模型的复杂度比真实模型更高,即模型包含的参数过多,以至于对已知数据的预测得很好,对未知数据预测的很差。
当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小后又增大。所以需要找到合适的模型选择方法,比较常用的有两种:正则化与交叉验证。
针对例题1.1的推导,可参考http://blog.csdn.net/xiaolewennofollow/article/details/46757657的文章

猜你喜欢

转载自blog.csdn.net/yeyustudy/article/details/79197157
今日推荐