经典机器学习算法：决策树

决策树简介

决策树

决策树（decision tree) 是一种基本的分类与回归方法。
决策树属于判别模型，也是非线性分类模型。

决策树模型

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类过程。

决策树学习算法包含特征选择、决策树的生成与决策树的剪枝三个步骤。

特征选择

信息熵（information entropy）

在信息论与概率统计中，熵（entropy)是表示随机变量不确定性的度量。值越大越不确定，越小越稳定。
$-\sum_{i=1}^np_i\log p_i$

信息增益（information gain）

特征A对训练数据集D的信息增益 $g (D, A)$ ，定义为集合D的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即
$g (D, A) = H (D) - H (D ∣ A)$

信息增益率（information gain ratio）

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。
$g_R(D,A) = \frac{g(D,A)}{H_A(D)}$
其中， $H_A(D) = -\sum_{i=1}^n \frac{|D_i|}{D} \log_2\frac{|D_i|}{D}$ ， $n$ 是特征 $A$ 取值的个数。

基尼指数（Gini index）

其实非常类似于熵的计算，分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数定义为
$-\sum_{k=1}^Kp_k(1- p_k )$
对于二分类问题，若样本点属于第1个类的概率为 $p$ ，概率分布的基尼指数定义为
$G i n i (p) = 2 p (1 - p)$

决策树的生成

（1）若 $D$ 中所有实例属于同一类 $C_k$ ，则T为单结点树，并将类 $C_k$ 作为该结点的类标记，返回 $T$ ；
（2）若 $A ＝ Ø$ ，则 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；
（3）否则，使用特征选择的方法选择增益最大的特征 $A_g$ ；
（4）如果 $A_g$ 的信息增益小于阈值，则置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；
（5）否则，对 $A_g$ 的每一可能值 $a_i$ ，依 $A_g＝a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树 $T$ ，返回 $T$ ；
（6）对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A- \{A_g\}$ 为特征集，递归地调用步（1）～步（5），得到子树 $T_i$ ，返回 $T_i$ 。

决策树与数据结构—树相关，因此可以采用递归算法进行生成决策树，所以看到看到有三个终止条件

决策树的剪枝

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的树往往会产生过拟合。

前剪枝

在决策树的生成步骤中，第（4）步：

（4）如果 $A_g$ 的信息增益小于阈值，则置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；

这里阈值的设置就起到了一个前剪枝的作用。

后剪枝

往往通过极小化决策树整体的损失函数或代价函数来实现。
设树 $T$ 的叶结点个数为 $∣ T ∣$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个， $k ＝ 1, 2, \dots, K$ ， $H_t(T)$ 为叶结点t上的经验熵， $\alpha≥0$ 为参数，则决策树学习的损失函数可以定义为
$C_\alpha(T) = \sum_{t=1}^{|T|}N_tH_t(T) + \alpha|T|$

其中经验熵为
$H_t(T) = -\sum_k \frac{N_{tk}}{Nt} \log \frac{N_{tk}}{Nt}$

在损失函数中，将右端的第1项记为
$\sum_{t=1}^{|T|}N_tH_t(T) = - \sum_{t=1}^{|T|} \sum_{k=1}^KN_{tk} \log \frac{N_{tk}}{Nt}$

这时有
$C_\alpha(T) = C(T) + \alpha|T|$

可以看到， $C (T)$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度， $∣ T ∣$ 表示模型复杂度，叶结点越多越复杂，该损失函数的极小化等价于正则化的极大似然估计。

输入：生成算法产生的整个树 $T$ ，参数 $\alpha$ ；
输出：修剪后的子树 $T_\alpha$ 。
（1）计算每个结点的经验熵。
（2）递归地从树的叶结点向上回溯。设一组叶结点回缩到其父结点之前与之后的整体树分别为 $T_B$ 与 $T_A$ ，其对应的损失函数值分别是 $C_\alpha(T_B)$ 与 $C_\alpha(T_A)$ ，如果则进行剪枝，即将父结点变为新的叶结点。
（3）返回（2），直至不能继续为止，得到损失函数最小的子树 $T_\alpha$ 。

决策树经典算法

ID3算法

对于ID3算法，我们选择信息增益去选择划分特征

C4.5算法

对于C4.5算法，我们选择信息增益比去选择划分特征

CART算法（classification and regression tree)

区别于前面两种算法，该算法生成的一定是二叉树，且适用于回归问题中。

在分类问题中，我们使用基尼指数去选择细粒度更低的特征内的属性去进行二分类划分，比如纹理是否清晰进行划分等等。

在回归问题中，我们会对所有连续输入变量(指每一个属性和每一个属性下对应的值）进行遍历所有输入变量，找到一个最优切分变量进行划分两个区域，通过使用平方误差进行特征选择。

一个回归树对应着输入空间（即feather space）的一个划分以及在划分的单元的输出值。
假设已将输入空间划分为 $M$ 个单元 $R_1,R_2,…,R_M$ ，并且在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，于是回归树模型可表示为
$\sum_{m=1}^M c_mI(x \in R_m)$

当输入空间的划分确定时，可以用平方误差
$\sum_{x_i\in R_m}(y_i - f(x_i))^2$ 来表示回归树对于训练数据的预测误差，用平方误差最小的准则求解每个单元上的最优输出值。易知，单元 $R_m$ 上的 $c_m$ 的最优值 ${\mathop{c}\limits^\wedge}_m$ 是 $R_m$ 上的所有输入实例 $x_i$ 对应的输出 $y_i$ 的均值，即
${\mathop{c}\limits^\wedge}_m = ave(y_i | x_i \in R_m)$