统计学习方法第二版学习笔记(四)决策树

4 决策树

可以认为是if-then规则的集合,具有可读性,分类速度快。
学习时,根据损失函数最小化的原则建立决策树模型。
决策树学习通常包括三个步骤:特征选择、决策树生成和决策树的修剪。

4.1 决策树模型

结点有两种类型:内部结点和叶节点,内部结点表示一个特征,叶节点表示一个类。
用决策树分类,从根节点开始,对某一个特征进行测试,依据结果将实例分配到其子节点,每一个子节点对应着该特征的一个取值。递归地对实例进行测试分配,直到达到叶节点。将实例分到对应的类中。

决策树还表示给定特征条件下类的条件概率分布,定义在特征空间的一个划分上。将特征空间划分为互不相交的单元或域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应划分中的一个单元。P(Y|X),Y取值于类集合,X取值于给定划分下单元的集合。各叶节点(单元)上的条件概率往往偏向某一个类,即属于某一个类的概率较大。分类时将实例强行分到条件概率大的一类去。

决策树学习本质上是从训练数据集中归纳出一组分类规则。能够对训练集正确分类的决策树可能有多个,我们需要一个与训练数据矛盾较小且具有很好的泛化能力的决策树。(从另一个角度看,决策树学习是由训练数据集估计条件概率模型。)
决策树学习用损失函数表示这一目标(正确切泛化)。决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。
从所有可能的决策树选择最优的是NP完全问题,所以通常使用启发式方法。
递归地选择最优的特征划分决策树可能对训练数据有很好的分类能力,但是容易过拟合。所以需要对已生成的树自下而上进行减枝,去掉过于细分的叶节点,使其回退到父节点,使其具有更好的泛化能力。
如果特征过多,可以在决策树学习开始的时候面对特征进行选择,只留下对训练数据有足够分类能力的特征。

4.2 特征选择

特征选择的准则是信息增益或信息增益比。
信息增益表示得知特征X的信息而使类Y的信息的不确定性减少的程度。g=H(D)-H(D|A)。
信息增益等价于训练数据集中类与特征的互信息。

以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。使用信息增益比,可以对这一问题进行校正,这是选择的另一准则。

4.3 决策树的生成

ID3算法:应用信息增益准则选择特征。选择信息增益最大的特征作为结点的特征,递归地生成决策树。
C4.5算法:使用信息增益比来选择特征。递归地生成。

4.4 决策树的剪枝

递归地产生的决策树和分类过于细致,容易过拟,解决这个问题的办法是考虑决策树的复杂度,对已经生成的决策树进行简化。
通过极小化决策树整体的损失函数或代价函数来实现。损失函数是预测误差和模型复杂度的和,既考虑了拟合程度,又考虑了复杂度,表示两者的平衡。
决策树生成学习局部的模型,决策树剪枝学习整体的模型。

4.5 CART算法

CART假设决策树是二叉树,决策树等价于递归地二分每个特征。
同样分为决策树生成和决策树剪枝两个过程。
决策树生成对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则。

猜你喜欢

转载自blog.csdn.net/tianyouououou/article/details/96438979