机器学习(一)基础术语概念

什么是机器学习？

　　机器学习是一门类似于人类根据生活中的经验预测之后可能会发生的结果的学科，好比我们从小可能接触到的谚语：燕子低飞蛇过道，大雨不久就来到。在这里，燕子低飞蛇过道就是人们在大雨前常常观察到的一种现象，久而久之人们便发现往往出现这种现象时，马上就会下起大雨————从而成为了人们生活中的一种经验。而即将到来的大雨，就是我们根据经验而产生的一种预测。机器学习研究的主要内容是关于在计算机上从数据中产生“模型”的算法，即学习算法。

　　机器学习也是，机器学习是通过收集到的数据（我们所观察到的现象），生成与之有关的模型（我们所得到的经验），然后预测相关的结果（马上就会下的大雨）。书中官方的描述是：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能上的改善，则我们就说关于T和P，该程序对E进行了学习。

基本术语：

　　美食大概是我们都馋涎的。以菜为例，比如说土豆烧牛肉，对于它我们可以有几点考虑，它的材料，味道，色泽等。我们就叫它们为土豆烧牛肉的属性或特征。而对于（材料=土豆和牛肉，味道=外焦里嫩，色泽=金黄）这样一组数据，我们称为一个示例或者样本，而当菜谱上所有的菜都如这样展开时，所构成的集合我们可以称之为数据集。在其中对于那些属性的具体取值，称为属性值。属性张成的空间我们称之为 “属性空间” ，“样本空间” 或 “输入空间”。例如：对于土豆烧牛肉，他有三个属性：材料，味道，色泽。我们可以以每个属性为一条坐标，生成一个三维的坐标空间。而对与菜谱中的每一道菜，我们都可以在这个形成的三维空间中找到他们各自的对应位置，因此，我们也称每一个示例为一个特征向量。

　　从数据中学到模型的过程称为 “学习” 或 “训练”，真个过程通过执行某个学习算法来实现。训练过程中使用的数据称为“训练数据”，其中每个样本称之为“训练样本”，所有训练样本组成的集合称之为“训练集”。

　　学得模型对应了关于数据的某种潜在的规律，因此称之为“假设”；这种潜在规律自身，则称之为“真相”，学习过程就是为了找出或者逼近真相。

　　因为我们最终是需要做一些类似于‘预测’性的东西，即帮我们判断在我们面前的菜是否可口，好吃。我们需要在之前的样本的基础上加上一点标注，即满足（（味道=外焦里嫩，色泽=金黄），可口），这里的可口叫做标记，而有标记的样本我们称之为样例。而有标记的训练集的机器学习方式我们称之为：监督学习。相反，没有标记的训练集的机器学习方式称之为：无监督学习。（分类和回归是监督学习的代表，聚类是无监督学习的代表）

　　一般的，用(xi,yi)表示第i个样例，其中yi€Y,是样本xi的标记，Y是所有标记的集合，亦称为“标记空间”（label space）或“输出空间”。

　　若我们想预测的是离散值，例如：好，坏，此类学习任务称为“分类”（classification）；若想预测的是连续值，例如人的身高增长程度0.95,0,28；此类学习任务称为“回归”（regression）。

　　学的模型后，使用其进行预测的过程称为“测试”（testing）。被预测的样本称为“测试样本”。例如在学得f后，对样例xi，可得其预测标记y=f(x).

　　学得模型，适用于新样本的能力，我们称之为 “泛化”（generalization）能力。具有强泛化能力的模型能很好的适用于整个样本空间。

机器学习(一)基础术语概念

猜你喜欢