西瓜书学习笔记——(1)绪论

这里写图片描述

前言

之前由于机器学习,人工智能,数据分析大火,为了顺应时代,于是找了几个国外的视频网站看了点相关的讲解,但由于本人英语水平有限,看起来太吃力,而且当时也没有Python的基础,听得晕头转向的。然后就买了两本书,打算进行系统性的学习。其中一本就是这本被大力推荐的西瓜书。刚拿到书,翻了一下,全是数学公式,好吧,这西瓜有点难啃,丢一边先学python。

现在python马马虎虎了,打算啃西瓜了。

引言

机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

这里写图片描述

经验就是数据,而机器学习就是让计算机从数据中产生出模型的算法,即学习算法。有了学习算法,我们就可以基于这些数据产生相应的模型。

基本术语

要进行机器学习,就先要有数据。

这里写图片描述

  • 数据集(data set):记录的集合
  • 示例(instance)或样本(sample):每一条记录都是关于一个事件或对象的描述
  • 属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质的事项,例如色泽,根蒂
  • 属性值(attribute value):属性上的取值,例如浅白

这里写图片描述

  • 样本空间(sample space)或属性空间(attribute space)或输入空间:属性张成的空间。如色泽、根蒂、敲声张成的用于描述西瓜的三维空间,每个西瓜都能在这个空间找到自己的坐标位置。
  • 特征向量(feature vector):空间中的每个示例

这里写图片描述

D={x1,x2,...,xm} 表示包含 m 个示例的数据集

这里写图片描述

每个示例有 d 个属性描述(如上面西瓜数据使用了3个属性),则每个示例 xi=(xi1;xi2;....;xid) d 维样本空间 X 中的一个向量, xiX ,其中 xij xi 在第 j 个属性上的取值

这里写图片描述

  • 学习(learning)或训练(training):从数据中学得模型的过程,这个过程通过执行每个学习算法来完成
  • 训练数据(training data):训练过程中使用的数据
  • 训练样本(training sample):训练数据中的每一个样本
  • 训练集(traing set):训练样本的集合
  • 假设(hypothesis):学得模型对应了关于数据的某种潜在规律
  • 真相(ground-truth):数据的潜在规律

为了建立预测的模型,光有前面的示例数据是不行的,还需要得到训练样本的结果信息。

这里写图片描述

  • 标记(label):示例的结果信息
  • 样例(example):拥有标记信息的示例

(xi,yi) 表示第 i 个样例,其中 yiY 是示例 xi 的标记

  • 标记空间(label space)或输出空间:所有标记的集合, Y

  • 分类(classification)学习任务:预测的是离散值,如好瓜,坏瓜

    • 二分类(binary classification)任务:任务只有两个分类,通常另 Y={1,+1}
      • 正类(positive class)
      • 反类(negative class)
    • 多分类(multi-class classfication)任务:任务有多个类别, |Y|>2
  • 回归(regression)学习任务:预测的是连续值,如西瓜成熟度0.95, 9.37, Y=R,R
  • 测试(testing):学得模型后,使用其进行预测的过程
  • 测试样本(testing sample):被测试的样本

这里写图片描述

  • 聚类(clustering):对训练集中的数据进行分组
  • 簇(cluster):聚类所分的组
  • 测试(testing):学得模型后,使用其进行预测的过程
  • 测试样本(testing sample):被测试的样本
  • 监督学习(supervised learning):训练数据拥有标记信息的学习任务,回归、分类
  • 无监督学习(unsupervised learning):训练数据无标记信息的学习任务,聚类
  • 泛化(generalization):学得模型适用于新样本的能力

假设空间

  • 归纳(induction):从特殊到一般的泛化过程,即从具体的事实归结出一般性规律
  • 演绎(deduction):从一般到特殊的特化过程,即从基础原理推演出具体状况

我们可以把学习过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的瓜正确判断正确的假设。假设的表示一旦确定,假设空间极其规模大小就确定了。

显示问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,我们称之为版本空间(version space)。

归纳偏好

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必须有其归纳偏好,否则它将被假设空间中刊社在训练集上等效的假设所迷惑,而无法产生确定的学习结果。

归纳偏好可看作是学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。

奥卡姆剃刀(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。

无论学习算法 La 多聪明、学习算法 Lb 多笨拙,他们的期望性能相同。

学习算法自身的归纳偏好与问题是否相配,往往会起到决定性作用。

发展历程

机器学习是人工智能研究发展到一定阶段的必然产物。

年代 时期 理论 代表作
1950~1970 推理期 赋予机器逻辑推理能力,机器就具有智能 “逻辑理论家”程序
1970 知识期 要使机器具有智能,就必须设法使机器拥有知识 知识工程
1980 学习期 机器自己学习知识 归纳逻辑程序设计(ILP)

机器学习分类:

  • 从样例中学习
  • 在问题求解和规划中学习
  • 通过观察和发现学习
  • 从指令中学习

从样例中学习主流:

  • 符号主义学习
    • 决策树:以信息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行判定的树形流程。
    • 基于逻辑的学习:著名代表是归纳逻辑程序设计(ILP),可看做机器学习与逻辑程序设计的交叉,它使用一阶逻辑(谓词逻辑)来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。
  • 基于神经网络的连接主义学习
    • 深度学习,狭义的说就是“很多层”的神经网络
  • 统计学习
    • 支持向量机(Support Vector Machine,简称SVM)

猜你喜欢

转载自blog.csdn.net/alistair_chow/article/details/77369490
今日推荐