学习笔记 | 机器学习-周志华 | 1

第一章 绪论

机器学习所研究的主要内容,是关于在计算机上从数据中产生 模型(model) 的算法,即 “学习算法”(learning algorithm) .

基本术语

假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂:稍蜷;敲声=沉闷), (色泽=浅自;根蒂t硬挺;敲声=清脆),……,每对括号内是一条记录,“=”,意思是"取值为"。

  1. 一组记录的集合称为一个"数据集" (data set).

  2. 其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个"示例" (instance) 或"样本" (sample).

  3. “色泽”“根蒂” “敲声”,称为"属性" (attribute) 或"特征" (feature).

  4. 属性上的取值,例如"青绿" “乌黑”,称为")副主值" (attribute value).

  5. 属性张成的空间称为"属性空间" (attribute space) 、 “样本空间”(sample space)或"输入空间"。如我们把"色泽" “根蒂” "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。

  6. 空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个"特征向量" (feature vector).

  7. 一般地,令 D = {x1,x2,x3,…,xm } 表示包含 m 个示例的数据集,每个示例由 d 个属性描述(例如上面的西瓜数据使用了 3 个属性),则每个示例Xi = (Xi1; Xi2; . . . ; Xid) 是 d 维样本空间 X 中的一个向量 , Xi ∈ X , 其中 Xij 是xi在第 j 个属性上的取值(例如上述第 3 个西瓜在第 2 个属性上的值是"硬挺" ), d 称为样样本xi的"维数" (dimensionality).

  8. 从数据中学得模型的过程称为"学习" (learning)或"训练" (training), 这个过程通过执行某个学习算法来完成.

  9. 训练过程中使用的数据称为"训练数据" (training data) ,其中每个样本称为一个"训练样本" (training sample), 训练样本组成的集合称为"训练集" (training set).

  10. 学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis).

  11. 这种潜在规律自身,则称为"真相"或"真实" (ground-truth),学习过程就是为了找出或逼近真相.

  12. 本书有时将模型称为"学习器" (learner),可看作学习算法在给定数据和参数空间上的实例化.

  13. 建立关于"预测" (prediction) 的模型,我们需获得训练样本的"结果"信息,例如" ((色泽:青绿;根蒂二蜷缩;敲声=浊响),好瓜)" .这里关于示例结果的信息,例如"好瓜",称为"标
    记" (label); 拥有了标记信息的示例,则称为"样例" (example).

  14. (xi , yi) 表示第 i 个样例 , 其中x∈Y 是示例 Xi 的标记 , Y 是所有标记的集合,亦称"标记空间" (label space)或"输出空间.

  15. 若我们欲预测的是离散值,例如"好瓜" “坏瓜”,此类学习任务称为"分类" (classification);

  16. 若欲预测的是连续值,例如西瓜成熟度 0.95 、 0.37 ,此类学习任务称为"回归" (regression).

  17. 对只涉及两个类别的"二分对只涉及两个类别的"二分
    类" (binary classification)任务,通常称其中一个类为 “正类” (positive class), 另一个类为"反类" (negative class); 涉及多个类别时,则称为"多分类" (multi-class classification) 任务.

  18. 一般地,预测任务是希望通过对训练集 {(x1, y1) , (x2 ,y2) ,…, (xm,ym)} 进行学习,建立一个从输入空间 X 到输出空间Y 的映射 f: X -> y. 对二分类任务,通常令 Y = {-1 ,+ 1} 或 {0, 1}; 对多分类任务, IYI >2; 对回归任务,Y=R,R为实数集.

  19. 学得模型后,使用其母行预测的过程称为"测试" (testing),被预测的样本称为测试样本" (testing sample). 例如在学得 f 后,对测试例 X , 可得到其预测标记 y = f(x).

  20. 还可以对西瓜做"聚类" (clustering) ,即将训练集中的西瓜分成若干组,每组称为一个"簇" (cluster); 这些自动形成的簇可能对应一些潜在的概念划分,例如"浅色瓜" “深色瓜”. 在聚类学习中,“浅色瓜” "本地瓜"这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息.

  21. 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类"监督学习"(supervised learning) 和"无监督学习" (unsupervised learning) ,分类和回归是前者的代表,而聚类则是后者的代表.

  22. 机器学习的目标是使学得的模型能很好地适用于"新样本",
    而不是仅仅在训练样本上工作得很好。

  23. 即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本.

  24. 学得模型适用于新样本的能力,称为"泛化" (generalization)能力.具有强泛化能力的模型能很好地适用于整个样本空间.

  25. 通常假设样本空间中全体样本服从一个未知"分布"(distribution) D , 我们获得的每个样本都是独立地从这个分布上采样获得的,即"独立同分布" (independent and identically distributed,简称 i.i.d.). 一般而言,训练样本越多,我们得到的关于 D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型.

猜你喜欢

转载自blog.csdn.net/zko1021/article/details/84666989
今日推荐