机器学习理论学习：决策树

一、决策树模型

1.1、决策树模型的学习

二、特征选择

决策树是一种基本的分类和回归方法。决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。

一、决策树模型

分类决策树模型是表示基于特征对实例进行分类的树形结构。决策树分类从根节点开始，先对实例的特征进行计算，根据结果将实力特征分配到子节点，这时每一个节点代表一个特征的取值。以此类推，直到叶子节点，最后将实例分配到叶节点中。

决策树可以转换成一个if-then规则的集合，也可以看作是定义在特征空间划分上的类的条件概率分布。

if-then规则

由决策树的根节点到叶子节点的每一条路径构建一条规则。路径上内部节点的特征对应着规则条件，而叶子节点的类对应规则的结论。if-then规则具有互斥且完备性，也就是说，每一个实例都被一条路径或规则覆盖，且只被一条路径或规则覆盖。

条件概率分布

决策树表示条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X表示特征的随机变量，Y表示类的随机变量，那么条件概率分布表示为P(Y|X)。决策树分类时将该节点实例强行分到条件概率大的那一类。

1.1、决策树模型的学习

决策树学习的本质是从数据中学习到一组分类规则。决策树学习旨在构建一个与训练数据拟合很好，并且复杂度小的决策树。因为从可能的决策树中直接选取最优决策树是NP完全问题。现实中采用启发式方法学习次优的决策树。

决策树学习的算法通常是一个递归地选择最优特征，并根据特征对数据进行分割，使得子数据集有一个最好的分类过程。开始，构建根节点，将所有的数据都放在根节点，选择一个最优特征，按照该特征将数据分割成子数据集，使得各个子集有一个当前条件下的最好分类。如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到对应叶节点中；如果还有子集未正确分类，那么对这些子集选择最优特征，继续进行分割，构建相应的节点。如此递归进行，直到所有数据集基本分类正确，或没有合适的特征为止。最后，每个子集都分到叶节点上。这就生成一颗决策树。

决策树学习算法包括3部分：特征选择、树的生成和树的剪枝。常用的算法有ID3、 C4.5和CART。

二、特征选择

特征选择在于选取对训练数据具有分类能力的特征，这样可以可以提高决策树的效率。特征选择是决定用哪个特征划分特征空间。通常选择的准测是信息增益或信息增益比。

2.1、信息增益

熵:表示随机变量X不确定性的度量。

假设离散随机变量X的概率分布为：

则X的熵定义为：

熵越大，随机变量的不确定性越大。一般 $\small 0\leq H(p)\leq log(n)$ 。

条件熵：表示已知随机变量X的条件下随机变量Y的不确定性。

设随机变量（X，Y）的联合分布为：

则已知条件X下Y的条件熵定义为：

一般，熵和条件熵由数据估计得到时也叫做经验熵和经验条件熵。

1、信息增益的定义

特征A对数据D的信息增益g(D,A)，定义为集合D的经验熵H(D)与给定条件D下特征A的经验条件熵H(D|A)之差，即

一般，信息增益也叫做互信息。决策树中的信息增益等价与训练集中的类与特征之间的互信息。信息增益选择特征的方法：对训练集（D）计算每个特征的信息增益，并比较其大小，选择信息增益最大的特征。

2、信息增益算法

输入：训练数据和特征A

输出：特征A对训练数据集D的信息增益g(D,A)

（1）数据D的经验熵：

（2）特征A对D的经验条件熵:

（3）计算信息增益：

2.2、信息增益比

以信息增益作为划分数据集的特征，存在选择取值较多的特征的问题，使用信息增益比可以对这种问题进行校正。

1、信息增益比定义

特征A对训练数据的信息增益比为其信息增益g(D,A)与训练数据D关于特征A的熵H(D)之比，即

其中，。

三、决策树的生成

3.1、ID3算法

ID3算法的核心是在决策树上使用信息增益准则选择特征，递归的构造决策树。具体方法：从根节点开始，计算节点所有可能的特征的信息增益，选择最大的特征作为节点的特征，由该特征的不同取值建立子节点；再对子节点调用以上方法，构建决策树；直到所有特征的信息增益很小或没有特征可选为止。最后构建得到一颗决策树。

ID3相当于使用极大似然进行概率模型的选择。