决策树算法框架

（一）决策树主函数

各种决策树的主函数都大同小异，本质上是一个递归函数。该函数的主要功能是按照某种规则生长决策树的各个分支节点，并根据终止条件结束算法。一般来讲，主函数需要完成如下几个功能。

（1）输入需要分类的数据集和类别标签。

（2）根据某种分类规则得到最优的划分特征，并创建特征的划分节点----计算最优特征子函数。

（3）按照该特征的每个取值划分数据集为若干部分------划分数据集子函数。

（4）根据划分子函数的计算结果构建出新的节点，作为树生长出的新分支。

（5）检验是否符合递归的终止条件。

（6）将划分的新节点包含的数据集和类别标签作为输入，递归执行上述步骤。

计算最优特征子函数是除主函数外最重要的函数。每种决策树之所以不同，一般都是因为最优特征选择的标准上有所差异，不同的标准导致不同类型的决策树，例如ID3的最优特征选择是信息增益、C4.5是信息增益率、CART是节点方差的大小等。后面所讲的理论部分，都是针对特征选择标准而言的。

在算法逻辑上，一般选择最优特征需要遍历整个数据集，评估每个特征，找到最优的那一个特征返回。

划分数据集函数的主要功能是分隔数据集，有的需要删除某个特征轴所在的数据列，返回剩余的数据集；有的干脆将数据集一分为二，虽然实现有所不同，但基本含义都是一致的。

所有的机器学习算法都要用于分类或回归预测。决策树的分类器就是通过遍历整个决策树，使测试集数据找到决策树中叶子节点对应的类别标签。这个标签就是返回的结果。

上述四大部分构成了决策树算法的基本框架。