一、机器学习方法概论

统计学习或机器学习是一个范围宽广、内容繁多、应用广泛的邻域。

机器学习的对象：具有一定机器统计规律性的数据；
机器学习基本分类，可以划分为：
* 监督学习：从已标记的训练数据来训练模型。主要有：分类任务、回归任务、序列标注任务。
* 无监督学习：从未标记的训练数据中来训练模型。主要有：聚类任务、降维任务。
* 强化学习：从系统与环境的大量交互知识中训练模型。
* 还有半监督学习和主动学习。
机器学习根据算法类型，可以分为：
* 传统机器学习：基于数学模型的机器学习方法。如SVM、逻辑回归、决策树等。这类算法基于严格的数学推理，具有可解释性强、运行速度快，可应用于小规模的数据集的特点。
* 深度学习：基于神经网络学习方法。包括前馈神经网络、卷积神经网络、递归神经网络等。这一类算法基于神经网络，可解释性较差，强烈依赖于数据集规模。但是这类算法在语音、视觉、自然语言等领域非常成功。

二、机器学习基本术语

假设我们收集了一批西瓜的数据，例如：（色泽=青绿;根蒂=蜷缩;敲声=浊响)， (色泽=乌黑;根蒂=稍蜷;敲声=沉闷)， (色泽=浅自;根蒂=硬挺;敲声=清脆)……每对括号内是一个西瓜的记录，定义：

所有记录的集合为：数据集。
每一条记录：一个实例（instance）或样本（sample）。
例如：色泽=青绿，单个的特点为特征（feature）或属性（attribute）。
例如：（色泽=青绿;根蒂=蜷缩;敲声=浊响)，即每个西瓜，为一个特征向量（feature vector）。
一个样本的特征数：维数（dimensionality），该西瓜的维数为3，若当维数特征大时，则称为“维数灾难”。
所有训练样本的集合为：训练集。
所有测试样本的集合为：测试集。
机器学习出来的模型适应于新样本的能力为：泛化能力（generalization），即特殊到一般。
预测值为离散值的问题为：分类（classification）。例如：判断西瓜是否好坏。
预测值为连续值的问题为：回归（regression）。例如：判断，根据历年来的人口数据，来判断未来人口的数量，人口数量为连续值。

三、机器学习三要素

机器学习三要素为：模型、策略、算法。

3.1模型

模型定义了解空间。监督学习中，模型就是要学习的条件概率分布或者决策函数。
解的表示一旦确定，解空间以及解空间的规模大小就确定了。
将学习过程看作一个在解空间中进行搜索的过程，搜索目标就是找到与训练集匹配的解。

3.2 策略

策略考虑的是按照什么样的准则学习，从而定义优化目标。

3.2.1 损失函数

对于给定输入的数据集x，由模型预测输出值 $\hat{y}$ 与真实值 $\tilde{y}$ 可能不一致。用一个损失函数（loss function）或者代价函数（cost function）来度量预测错误的程度。

常见的损失函数 ：

为了对经验风险函数进行一定的矫正，这就关系到监督学习的两个基本策略：经验风险最小化和结构分析最小化。
在这里插入图片描述

3.2.2 极大似然估计 - 经验风险最小化

极大似然估计就是经验风险最小化的例子。即：极大似然估计=经验风险最小化。
在这里插入图片描述

3.2.3 最大后验估计 - 结构风险最小化

最大后验估计就是结构风险最小化的例子。即：最大后验估计 = 结构风险最小化。
在这里插入图片描述

3.3 算法

算法指学习模型的具体计算方法。通常采用数值计算的方法求解，如：梯度下降法。

四、模型评估与选择

导致过拟合的因素有许多，其中最常见的情况是由于学习能力过于强大，以至于把训练样本特殊的特性学到了，而欠拟合则通常是由于模型的学习能力弱所造成的。其中欠拟合容易克服，像深度神经网络增加训练轮数等，而过拟合则很麻烦。为了在学习时就要防止过拟合，进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。两种常用的模型选择方法：正则化和交叉验证。

4.1 正则化

模型选择的典型方法是正则化（regularization）。正则化是结构风险最小化优化策略的实现，是在经验风险上加上正则化项（penalty term）。

正则化一般具有如下形式：
正则化一般公式
其中，第1项是经验风险，第2项是正则化项， $\lambda$ 是调整两者之间关系的系数。

正则化可以取不同的形式。例如在回归问题中，损失函数是平均损失，正则化可以是参数向量的 $L_{2}$ 范数：

在这里插入图片描述

正则化也可以是 $L_{1}$ 范数：
在这里插入图片描述

1.机器学习（统计学习）简介

文章目录