决策树核心内容

1. 分支原则

决策树分支原则主要有3个:
1. ID3(Iterative Dichotomiser,迭代二分器)。使用香农熵 E n t ( D ) = Σ p k l o g 2 p k ,信息增益表示为 G a i n ( D , a ) = E n t ( D ) Σ | D v | / | D | E n t ( D v ) ,其中 a 的取值为 { a 1 , a 2 , . . . , a V } 。分支原则选信息增益最大的。
2. C4.5(Classifier 4.5)。在ID3的基础上,计算 G a i n ( D , a ) / Σ ( | D v | / | D | l o g 2 ( | D v | / | D | ) ) ,称为信息增益率。分支原则选信息增益率最大的。
3. CART(Classification and Regression Tree,分类回归树)。使用Gini Index(基尼系数), G i n i ( D ) = Σ Σ p k p k = 1 Σ p k 2 ,分支原则选基尼系数最小的。

2. 剪枝原则

剪枝原则主要有2种:
1. 预剪枝:决策树生成过程中,根据验证集决定要不要分支。
2. 后剪枝:决策树完全生成之后,根据验证集决定要不要合并分支。

3. 其他问题

首先是连续值的处理方法:对所有样本按照大小进行排序,然后将相邻两个样本的中间值依次作为划分点进行分支。
然后是缺失值的处理方法:让同样的样本以不同的概率同时划分到子节点之中去即可。
然后是复杂的决策树方法:叶子节点可能是线性分类器,而不仅仅是分类值。

猜你喜欢

转载自blog.csdn.net/kittyzc/article/details/81912204