李宏毅机器学习笔记(3): error

Error

1 初步分析

不同的model会产生不同的error,很多时候,更复杂的model会产生更复杂的error。error来源:变量与偏差。

通过训练数据,我们可以拟合模型得到估计值,但是估计值不等于实际值,两者之差即为误差,误差可能来源于偏差或者变量。

图 1-1 样本均值

样本均值:可以利用平均值估计,但是平均值很难等于实际估测值。

图1-2 无偏估计方差

而对方差也可以进行描述出样本的偏差的情况,方差越大,样本越分散。

图 1-3 有偏估计方差

图1-4 偏差与变量对误差影响

误差来源于两个地方,如图4,bias会导致实际估计值会离精确值偏离,variance会导致估计值较为分散。

2 varience

图2-1 不同模型对实际情况的影响

如图5 使用不同模型经过多次分析,发现,使用较为简单的模型,在实际情况下有较小的变量上的误差,收到来varience上的误差影响较小。而模型越复杂,受到来自varience上的误差影响较大。

3 bias

图3-1 bias对模型影响

 

较大bias在实际中,使用较为简单的模型,会导致偏差误差较大,即实际情况下据目标中心偏差较大。而复杂的模型,bias误差较小,据实际目标中心偏差较小。

4 欠拟合与过拟合

图4-1 过拟合与欠拟合

 

根据图4-1我们可知,当出现模型过于简单时,容易出现bias误差较大,而varience误差较小,我们称为欠拟合。而模型较为复杂,bias小,varience大,我们称此为过拟合。

如果,你的模型不能拟合较多的样本点,无法较好的适应模型,会发生欠拟合。而当你的模型几乎全部的包含了样本点,但是产生了拟合中的巨大的错误,很可能是过拟合。

对于欠拟合,你可以重新设计你的模型:

  1. 在输入中,增加新的因素
  2. 选择更为复杂的模型

对于varience大:

  1. 正则化:使曲线平滑
  2.  

 

图4-2 正则化使曲线更平滑

 

5 模型选择

选取平衡两者的模型。

实际情况下,可能有你的模型在测试集上误差不大,但实际情况下误差稍大。

图5-1通常建模型

 

通常,我们在模型设计时,会将训练数据分成两组,一组训练集,一组验证集(validation set),训练之后可以进行验证评估,我们称为交叉验证。。交叉验证, 重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。

 

图5-2 交叉验证

 

 

 

 

发布了14 篇原创文章 · 获赞 4 · 访问量 2794

猜你喜欢

转载自blog.csdn.net/wasser000/article/details/90033238
今日推荐