1. 分支原则
决策树分支原则主要有3个:
1. ID3(Iterative Dichotomiser,迭代二分器)。使用香农熵
,信息增益表示为
,其中
的取值为
。分支原则选信息增益最大的。
2. C4.5(Classifier 4.5)。在ID3的基础上,计算
,称为信息增益率。分支原则选信息增益率最大的。
3. CART(Classification and Regression Tree,分类回归树)。使用Gini Index(基尼系数),
,分支原则选基尼系数最小的。
2. 剪枝原则
剪枝原则主要有2种:
1. 预剪枝:决策树生成过程中,根据验证集决定要不要分支。
2. 后剪枝:决策树完全生成之后,根据验证集决定要不要合并分支。
3. 其他问题
首先是连续值的处理方法:对所有样本按照大小进行排序,然后将相邻两个样本的中间值依次作为划分点进行分支。
然后是缺失值的处理方法:让同样的样本以不同的概率同时划分到子节点之中去即可。
然后是复杂的决策树方法:叶子节点可能是线性分类器,而不仅仅是分类值。