李宏毅机器学习笔记（3）： error

Error

1 初步分析

不同的model会产生不同的error，很多时候，更复杂的model会产生更复杂的error。error来源：变量与偏差。

通过训练数据，我们可以拟合模型得到估计值，但是估计值不等于实际值，两者之差即为误差，误差可能来源于偏差或者变量。

图 1-1 样本均值

样本均值：可以利用平均值估计，但是平均值很难等于实际估测值。

图1-2 无偏估计方差

而对方差也可以进行描述出样本的偏差的情况，方差越大，样本越分散。

图 1-3 有偏估计方差

图1-4 偏差与变量对误差影响

误差来源于两个地方，如图4，bias会导致实际估计值会离精确值偏离，variance会导致估计值较为分散。

2 varience

图2-1 不同模型对实际情况的影响

如图5 使用不同模型经过多次分析，发现，使用较为简单的模型，在实际情况下有较小的变量上的误差，收到来varience上的误差影响较小。而模型越复杂，受到来自varience上的误差影响较大。

3 bias

图3-1 bias对模型影响

较大bias在实际中，使用较为简单的模型，会导致偏差误差较大，即实际情况下据目标中心偏差较大。而复杂的模型，bias误差较小，据实际目标中心偏差较小。

4 欠拟合与过拟合

图4-1 过拟合与欠拟合

根据图4-1我们可知，当出现模型过于简单时，容易出现bias误差较大，而varience误差较小，我们称为欠拟合。而模型较为复杂，bias小，varience大，我们称此为过拟合。

如果，你的模型不能拟合较多的样本点，无法较好的适应模型，会发生欠拟合。而当你的模型几乎全部的包含了样本点，但是产生了拟合中的巨大的错误，很可能是过拟合。

对于欠拟合，你可以重新设计你的模型：

在输入中，增加新的因素
选择更为复杂的模型

对于varience大：

正则化：使曲线平滑

图4-2 正则化使曲线更平滑

5 模型选择

选取平衡两者的模型。

实际情况下，可能有你的模型在测试集上误差不大，但实际情况下误差稍大。

图5-1通常建模型

通常，我们在模型设计时，会将训练数据分成两组，一组训练集，一组验证集（validation set），训练之后可以进行验证评估，我们称为交叉验证。。交叉验证，重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。

图5-2 交叉验证

wasser000

发布了14 篇原创文章 · 获赞 4 · 访问量 2794

私信关注

李宏毅机器学习笔记（3）： error

猜你喜欢