1、西瓜书笔记:绪论

学习周志华的机器学习随笔

第一章:绪论

模型:泛指从数据中学得的结果

1.2基本术语

进行机器学习需要有数据,记录的集合称为数据集。
记录,是关于一个事件或对象的描述,也称为示例或样本。
样本作为事物,有其属性,属性上的取值称为属性值,属性张成的空间称为属性空间。
训练模型,需要有标记(label)的数据,这种数据称为样例。
y是标记的集合,称为标记空间(label space)或输出空间。
模型建成后,对其进行预测的过程称为“测试”,被测试的样本称为“测试样本”。

预测离散值的学习任务,例如预测好瓜坏瓜,称为分类,同时”分类“还分为二分类和多分类。
预测连续值的学习任务,称为回归。
预测任务的实质是希望通过对训练集进行学习,从而可以建立一个从输入空间X到输出空间Y的映射。
聚类学习:通过学习没有标记的数据集,帮助我们了解数据的内在规律。按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不再同一个簇内的数据对象的差异性也尽可能的大。

学习模型适用于新样本的能力,称为泛化能力。

1.3假设空间

假设空间:在学习过程中,由所有假设组成的空间。
版本空间:与训练集一致的假设集合。

1.4归纳偏好
奥卡姆剃刀原则:若有多个假设与观察一致,则选择最简单的那个。

猜你喜欢

转载自blog.51cto.com/14492651/2550992