绪论

    本系列笔记为学习周志刚老师的《机器学习》所做,如有错误,望不吝指教。

    在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。我们把经验数据提供给它,他就能基于这些数据产生产生模型;在面对新的情况时,模型会给我们提供相应的判断。

    如果说计算机科学是研究关于“算法”的学问,那么机器学习是研究关于“学习算法”的学问。


    1. 术语

    一组记录的集合称为一个“数据集”(data set)

    其中每一条记录是关于一个事件或对象的描述,称为“示例”(instance)或“样本”(sample)

    反映事件或对象在某方面的表现或性质的事项,称为“属性”(attribute)或“特征”(feature)

    属性上的取值,称为“属性值”(attribute value)

    属性张成的空间,称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”

    在这个空间中,每一个点对应一个坐标向量,因此把一个示例称为一个“特征向量”(feature vector)

    用  D = {x1, x2, x3, .... , xm}  表示包含m个示例的data set。 每个示例有 个属性,成为样本xi的“维数”(dimensionality)

    从数据中学的模型的过程称为“学习”(learning)或“训练”(training),这个过程中所使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集合”(training set)

    学得模型对应了关于数据的某种潜在的规律,称为“假设”(hypothesis);这种潜在的规律自身,则称为“真相”或“真实”(ground-truth)。学习过程就是为了找出或逼近真相。

    在此书中,有时将模型称为“学习机”(learner


    关于示例结果的信息,称为“标记”(label);拥有标记信息的示例,则称为“样例”(example)。一般用 (xi, yi)表示第 i 个样例,其中 yi ∈ Y  xi 的标记,Y 是所有标记的集合,即“标记空间”(label space)或“输出空间”

    若预测的是离散值(如“对”或“错”),此类学习任务称为“分类”(classification);若预测的是连续值(如完成度0.95,0.88),此类学习任务称为“回归”(regression)。对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个雷为“正类”(positive class),另一个为“反类”(negative class)或“负类”;涉及多个类别时,则称为“多分类”(multi-class classification)任务。

    学的模型后,使用其进行预测的过程称为“测试”(testing),被测试的样本称为“测试样本”。

    也可以做“聚类”(clustering),即将训练集中的样本分成若干组,每组称为一个“簇”(cluster);

   根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归属于监督学习,聚类属于无监督学习。

    学得模型适用于新样本的能力,称为“泛化”(generalization)。

    通常假设样本空间中全体样本服从一个未知“分布”(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distribution,简称 i.i.d.)。一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。


猜你喜欢

转载自blog.csdn.net/ringggr_h/article/details/80194543