西瓜书阅读笔记---第一章

  • 机器学习任务:

关于从数据中产生“模型”的算法,即“学习算法”

如何运用:有了学习算法,将经验数据传给学习算法后,产生相应模型;在面对新情况时,模型将会给出相应的判断。

  • 基本术语:

1.数据集:数据集中每条记录是关于一个事件或对象的描述,成为样本。

第一个样本:色泽=青绿;根蒂=蜷缩;敲声=浊响

第二个样本:色泽=乌黑;根蒂=稍蜷;敲声=沉闷

如表中数据集有四个样本。

属性(特征):反映事件或对象在某方面的表现或性质的事项。色泽,根蒂,敲声为属性。

属性值:属性的取值,青绿,蜷缩;浊响

属性空间:属性张成的空间。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间就是属性空间。

特征向量:每个西瓜都可在这个空间(属性空间)中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把这个坐标向量称为一个特征向量。

数学表达:D={x1,x2,...,xm} 表示包含 m 个样本的数据集,每个样本有d个属性描述(如上面西瓜数据使用了3个属性),则每个示例xi=(xi1;xi2;....;xid)是d维样本空间(属性空间)X中的一个向量,xi∈X,其中xij是xi在第j个属性上的取值。

  1. 学习(learning)或训练(training):从数据中学得模型的过程,这个过程通过执行每个学习算法来完成
  2. 训练数据(training data):训练过程中使用的数据
  3. 训练样本(training sample):训练数据中的每一个样本
  4. 训练集(traing set):训练样本的集合
  5. 假设(hypothesis):学得模型对应了关于数据的某种潜在规律(学到的规律)
  6. 真相(ground-truth):数据的潜在规律(潜在规律)

为了建立预测的模型,光有前面的示例数据是不行的,还需要得到训练样本的结果信息。上图中好瓜。

  1. 标记(label):示例的结果信息
  2. 样例(example):拥有标记信息的示例

(xi,yi)表示第i个样例,其中yi∈Y是示例xi的标记。

  1. 标记空间(label space)或输出空间:所有标记的集合,Y
  • 分类(classification)学习任务:预测的是离散值,如好瓜,坏瓜。

二分类(binary classification)任务:任务只有两个分类,通常另Y={−1,+1}

  •  
    • 正类(positive class)
    • 反类(negative class)
  • 多分类(multi-class classfication)任务:任务有多个类别,|Y|>2

回归(regression)学习任务:预测的是连续值,如西瓜成熟度0.95, 9.37,Y=ℝ,ℝ为实数

测试(testing):学得模型后,使用其进行预测的过程

测试样本(testing sample):被测试的样本

  • 聚类:对训练集中的数据进行分组
  1. 簇(cluster):聚类所分的组

综上,根据数据是否有标签可将学习任务分为两大类:

  • 监督学习(supervised learning):训练数据拥有标记信息的学习任务,回归、分类
  • 无监督学习(unsupervised learning):训练数据无标记信息的学习任务,聚类

泛华能力:学的模型适用于新样本的能力。目标是要学习得到具有较强泛华能力的模型。

  • 假设空间

 

监督学习的目的是在于学习一个有输入到输出的映射(模型)。模型为输入空间到输出空间的映射的集合,集合是假设空间。而模型的性能由VC 维所衡量。

我们可以把学习过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间极其规模大小就确定了。

这里,假设空间由形如(无好瓜)。可能取值所形成的假设组成。

                                      西瓜问题的假设空间

版本空间:与训练集一致的假设集合。

学习过程:首先对假设空间进行搜索。有许多策略对假设空间搜索,如自顶向下和自底向上。然后在搜索过程中只保留与训练集正例一致的假设。图为表的版本空间。
 

  • 归纳偏好

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必须有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。

如图,回归问题。训练样本为图中的每一个点,要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线。显然,这样的曲线具有无数条。而学习算法必须有某种偏好,才会产生“正确”模型。若认为相似的样本具有相似的输出,则会偏好A。

  1. 问题:如何选择那个模型更好呢?
    哪个更好其实是一个“价值观”的问题,“奥卡姆剃刀”是一种常用的基本原则:若多个假设与观察一致,选择最简单的那个。如我们认为“更平滑”为“更简单”,如下图,那我们应该选择A(实线)的模型,而不是B(虚线)
  2. 问题:刚刚根据“奥卡姆剃刀”原则选择A模型,但A模型一定就比B模型好嘛?万一出现下图的情况呢?

此时NFL定理(No Free Lunch Theorem :天下没有免费的午餐)给了我们启发:如果所有“问题”出现的机会相等、或所有问题同等重要(前提),学习算法的期望性能相等(结果)。
也就是说如果未来所有事情可能出现的所有情况都是等可能的,那预测就没有任何意义了

  • NFL定理给我们的启发:

    • 脱离具体问题,空泛谈论“什么学习算法更好”毫无意义
    • 算法的优劣是相对的
    • 学习算法的归纳偏好与实际问题匹配是解决问题的核心

课后习题:

1.1 只包含1和4两个样例的版本空间:

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
4 乌黑 稍蜷 沉闷

色泽 = × -》 根蒂 = 蜷缩 -》敲声-》浊响。色泽=×  -》 根蒂 = × -》敲声 --》》浊响。等共有3*3*3+1=28种。

1.2

答:表1.1包含4个样例,3种属性,版本空间中有3∗4∗4+1=49种假设。

猜你喜欢

转载自blog.csdn.net/weixin_41943868/article/details/87637311
今日推荐