西瓜书第一章简要笔记

基本术语

样本：对于一个时间或对象的描述，称为一个样本或示例。

数据集：一组样本的集合，称为数据集。

属性：反映事件或对象在某方面的表现或性质的事项，称为属性或特征。

属性值：属性（特征）的取值，称为属性（特征）值。

属性空间：属性张成的空间，称为属性空间、样本空间或输入空间。空间中的每一个坐标轴都代表了一个属性。每个样本都可以在空间中找到自己的坐标位置，坐标的值即为样本各属性的值。由于空间中每个点都对应一个坐标向量，因此一个样本也可以称为一个特征向量。

训练：从数据中通过执行某个学习算法学得模型的过程称为学习或训练。

训练数据：训练过程中使用的数据称为训练数据。

训练样本：训练数据中的每一个样本称为训练样本或训练示例。

训练集：训练样本组成的集合称为训练集。

假设：学得模型对应的关于数据某种潜在的规律称为假设。

真相：数据的潜在规律称为真相或真实。

标记：要学得模型除了样本信息外，还需要训练样本的结果，样本的结果信息称为标记。

样例：有了标记信息的样本称为样例。

标记空间：所有标记的集合称为标记空间或输出空间。

测试：对学得的模型进行预测的过程称为测试。

测试样本：被预测的样本称为测试样本或测试示例。

测试标记：测试样本的的结果称为测试标记。

根据预测值的不同学习任务可分为分类任务和回归任务两种。

分类：预测值为离散值。其中对于只涉及两个类别的称为二分类任务，涉及多个类别时称为多分类任务。

回归：预测值是连续值。

聚类：对训练集中的数据进行分组。

簇：聚类后的组称为簇。

根据训练数据是否有标记信息，学习任务可大致分为监督学习和无监督学习。

监督学习：训练数据有标记信息，如分类、回归任务。

无监督学习：训练数据无标记信息，如聚类任务。

泛化：学得模型适用于新样本的能力成为泛化能力。

归纳：从具体的事实归结出一般性规律，即从特殊到一般的泛化。

演绎：从基础原理推演出具体状况，即从一般到特殊的特化。

假设空间：将样本的每个属性的可能取值进行组合得到的所有可能取值组成的集合为假设空间。

可以把学习过程看作在假设空间中搜索与训练集匹配的假设的过程。所谓匹配就是能够对训练集中的数据进行正确的判断。

版本空间：经过学习后得到的与训练集一致的假设集合称为版本空间。

归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好称为归纳偏好。对于一个新的样例可能存在多个与之匹配但输出结果完全不同的假设，如果没有归纳偏好，则无法产生确定的输出。算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。