西瓜书阅读笔记1

什么是机器学习?

根据已有的知识经验,形成模型。并根据模型来感知未知的新事物的过程。

机器学习术语:

身高 体重 肤色
180 70
175 62
185 80

样本:上面表格中,每一行就是一个样本。一个样本包含了一种事物的完整属性,这些属性不重复。

数据集:所有的样本的总和,称为数据集。

特征:例如,身高就是一种特征,肤色也是一种特征。也可以称作属性。

特征值:具体对应特征上的特征值。

训练数据:用于生成模型的数据就是训练数据。

训练集:所有训练数据的总和构成训练集。

学习、训练、建模:通过数据生成模型的过程叫做训练。

标记:对于一个样本,给他一个称谓。或者打个标签。这个标签就是标记。这个标签可以是:好人或坏人。也可以是连续值:工资2500元。。。

回归问题:对于标签值是不可数的连续值的类型,属于回归问题。如预测工资。属于监督学习

分类问题:对于标签值是有限的离散类型的,属于分类问题。如区分好人坏人。属于监督学习

聚类:不涉及到预设标签的问题,让机器自己去发现不同样本之间的相似性,根据相似性划分类别。相似度高的划分为同一类。属于无监督学习

泛化能力:我们想要达到的目的是根据已有的数据获取数据的模型或者模式。根据已有的模型对未知数据进行处理(回归、分类或许聚类),具有较好的泛化能力指的是数据处理能力较高。

一般:训练数据量越大,模型的泛化能力越高。

归纳偏好原则

奥卡姆剃刀:若多个假设与观察一致,则选择最简单的那个。

当然,具体问题具体分析,任何算法不能说自己是最好的。没有最好的算法,只有最合适的。

猜你喜欢

转载自blog.csdn.net/Day_and_Night_2017/article/details/85059887