决策树算法框架

版权声明:未经博主允许不得转载 https://blog.csdn.net/qq_40962368/article/details/81054566

决策树算法框架

(一)决策树主函数

        各种决策树的主函数都大同小异,本质上是一个递归函数。该函数的主要功能是按照某种规则生长决策树的各个分支节点,并根据终止条件结束算法。一般来讲,主函数需要完成如下几个功能。

(1)输入需要分类的数据集和类别标签。

(2)根据某种分类规则得到最优的划分特征,并创建特征的划分节点----计算最优特征子函数。

(3)按照该特征的每个取值划分数据集为若干部分------划分数据集子函数。

(4)根据划分子函数的计算结果构建出新的节点,作为树生长出的新分支。

(5)检验是否符合递归的终止条件。

(6)将划分的新节点包含的数据集和类别标签作为输入,递归执行上述步骤。

(二)计算最优特征子函数

        计算最优特征子函数是除主函数外最重要的函数。每种决策树之所以不同,一般都是因为最优特征选择的标准上有所差异,不同的标准导致不同类型的决策树,例如ID3的最优特征选择是信息增益、C4.5是信息增益率、CART是节点方差的大小等。后面所讲的理论部分,都是针对特征选择标准而言的。

        在算法逻辑上,一般选择最优特征需要遍历整个数据集,评估每个特征,找到最优的那一个特征返回。

(三)划分数据集函数

        划分数据集函数的主要功能是分隔数据集,有的需要删除某个特征轴所在的数据列,返回剩余的数据集;有的干脆将数据集一分为二,虽然实现有所不同,但基本含义都是一致的。

(四)分类器

        所有的机器学习算法都要用于分类或回归预测。决策树的分类器就是通过遍历整个决策树,使测试集数据找到决策树中叶子节点对应的类别标签。这个标签就是返回的结果。

上述四大部分构成了决策树算法的基本框架。

猜你喜欢

转载自blog.csdn.net/qq_40962368/article/details/81054566