Mechine Learning Yearning 28-32阅读笔记:学习曲线

28.诊断偏差和方差:学习曲线

将期望水平添加到学习曲线中,并通过样本数-误差
横轴训练集大小,纵轴error,绘制开发集误差(将训练误差也添加进去)

29.绘制训练错误曲线

训练集误差随训练集大小增加而增加:算法很难完全适应更多的样本。
这里写图片描述

30.解读学习曲线:高偏差

这里写图片描述
更多的训练数据,训练集error只会变得更大。因此训练错误曲线只会保持不动或变得更高,而开发集错误曲线通常要高于蓝色的训练集错误曲线。这个时候不可能通过增加数据量来使曲线下降。
上图是教科书式的高bias低variance(新定义的variance)

31.解读学习曲线:其他情况

这里写图片描述
低bias高variance
这里写图片描述
高bias高variance

32.画学习曲线

举例,样本数从10、20到100,你会发现曲线有噪声(高于或低于期望值)
当你的机器学习问题是高度偏态的(正负样本比例相差很大,例如80%都是负样本),或者类别太多(例如识别100个不同物种),那么你选出不具代表性的训练集的可能性就很大。
with replacement:即有放回的构建第二个数据集(大小),这种方法在实践中更常见
解决办法:

  • 有放回的随机构建3到10个大小为10的训练集,在每个数据集上训练一个模型,计算平均训练开发误差
  • 当你面对的是一个偏态的挥着是多分类的问题,选择一个有代表性的子集(各类比例和大训练集相同)

这些方法只在你的训练集较小且是偏态或多分类问题时比较有用。
为节省训练时间,你也可以非线性的增长训练集大小。

[1] 图片均来自github: xiaqunfeng/machine-learning-yearning

猜你喜欢

转载自blog.csdn.net/juranyaoyingwen/article/details/80480473