1.机器学习(统计学习)简介

一、机器学习方法概论

统计学习或机器学习是一个范围宽广、内容繁多、应用广泛的邻域。

  1. 机器学习的对象:具有一定机器统计规律性的数据;
  2. 机器学习基本分类,可以划分为:
    * 监督学习:从已标记的训练数据来训练模型。主要有:分类任务、回归任务、序列标注任务。
    * 无监督学习:从未标记的训练数据中来训练模型。主要有:聚类任务、降维任务。
    * 强化学习:从系统与环境的大量交互知识中训练模型。
    * 还有半监督学习主动学习
  3. 机器学习根据算法类型,可以分为:
    * 传统机器学习:基于数学模型的机器学习方法。如SVM、逻辑回归、决策树等。这类算法基于严格的数学推理,具有可解释性强、运行速度快,可应用于小规模的数据集的特点。
    * 深度学习:基于神经网络学习方法。包括前馈神经网络、卷积神经网络、递归神经网络等。这一类算法基于神经网络,可解释性较差,强烈依赖于数据集规模。但是这类算法在语音、视觉、自然语言等领域非常成功。

二、机器学习基本术语

假设我们收集了一批西瓜的数据,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆)……每对括号内是一个西瓜的记录,定义:

  • 所有记录的集合为:数据集。
  • 每一条记录:一个实例(instance)或样本(sample)。
  • 例如:色泽=青绿,单个的特点为特征(feature)或属性(attribute)。
  • 例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响),即每个西瓜,为一个特征向量(feature vector)。
  • 一个样本的特征数:维数(dimensionality),该西瓜的维数为3,若当维数特征大时,则称为“维数灾难”。
  • 所有训练样本的集合为:训练集。
  • 所有测试样本的集合为:测试集。
  • 机器学习出来的模型适应于新样本的能力为:泛化能力(generalization),即特殊到一般。
  • 预测值为离散值的问题为:分类(classification)。例如:判断西瓜是否好坏。
  • 预测值为连续值的问题为:回归(regression)。例如:判断,根据历年来的人口数据,来判断未来人口的数量,人口数量为连续值。

三、机器学习三要素

机器学习三要素为:模型、策略、算法。

3.1模型

  1. 模型定义了解空间。监督学习中,模型就是要学习的条件概率分布或者决策函数。
  2. 解的表示一旦确定,解空间以及解空间的规模大小就确定了。
  3. 将学习过程看作一个在解空间中进行搜索的过程,搜索目标就是找到与训练集匹配的解。

3.2 策略

策略考虑的是按照什么样的准则学习,从而定义优化目标。

3.2.1 损失函数

对于给定输入的数据集x,由模型预测输出值 y ^ \hat{y} y^与真实值 y ~ \tilde{y} y~可能不一致。用一个损失函数(loss function)或者代价函数(cost function)来度量预测错误的程度。

常见的损失函数
损失函数
为了对经验风险函数进行一定的矫正,这就关系到监督学习的两个基本策略:经验风险最小化结构分析最小化
在这里插入图片描述

3.2.2 极大似然估计 - 经验风险最小化

极大似然估计就是经验风险最小化的例子。即:极大似然估计=经验风险最小化
在这里插入图片描述

3.2.3 最大后验估计 - 结构风险最小化

最大后验估计就是结构风险最小化的例子。即:最大后验估计 = 结构风险最小化。
在这里插入图片描述

3.3 算法

算法指学习模型的具体计算方法。通常采用数值计算的方法求解,如:梯度下降法。

四、模型评估与选择

导致过拟合的因素有许多,其中最常见的情况是由于学习能力过于强大,以至于把训练样本特殊的特性学到了,而欠拟合则通常是由于模型的学习能力弱所造成的。其中欠拟合容易克服,像深度神经网络增加训练轮数等,而过拟合则很麻烦。为了在学习时就要防止过拟合,进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。两种常用的模型选择方法:正则化和交叉验证

4.1 正则化

模型选择的典型方法是正则化(regularization)。正则化是结构风险最小化优化策略的实现,是在经验风险上加上正则化项(penalty term)

正则化一般具有如下形式:
正则化一般公式
其中,第1项是经验风险,第2项是正则化项, λ \lambda λ是调整两者之间关系的系数。

正则化可以取不同的形式。例如在回归问题中,损失函数是平均损失,正则化可以是参数向量的 L 2 L_{2} L2范数:

在这里插入图片描述

正则化也可以是 L 1 L_{1} L1范数:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_41044112/article/details/108012190
今日推荐