vip可见

CART生成

CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征

一个具体的例子

下面来看一个具体的例子。我们使用《数据挖掘十大算法之决策树详解(1)》中图4-6所示的数据集来作为示例,为了便于后面的叙述,我们将其再列出如下:

关于过拟合以及剪枝

决策树很容易发生过拟合,也就是由于对train数据集适应得太好,反而在test数据集上表现得不好。这个时候我们要么是通过阈值控制终止条件避免树形结构分支过细,要么就是通过对已经形成的决策树进行剪枝来避免过拟合。另外一个克服过拟合的手段就是基于Bootstrap的思想建立随机森林(Random Forest)。

若按婚姻状况属性来划分,属性婚姻状况有三个可能的取值{married,single,divorced},分别计算划分后的

{married} | {single,divorced}
{single} | {married,divorced}
{divorced} | {single,married}
的Gini系数增益。
当分组为{married} | {single,divorced}时,SlSl表示婚姻状况取值为married的分组,SrSr表示婚姻状况取值为single或者divorced的分组
Δ{婚姻状况}=0.42−410×0−610×[1−(36)2−(36)2]=0.12
Δ{婚姻状况}=0.42−410×0−610×[1−(36)2−(36)2]=0.12

当分组为{single} | {married,divorced}时,
Δ{婚姻状况}=0.42−410×0.5−610×[1−(16)2−(56)2]=0.053
Δ{婚姻状况}=0.42−410×0.5−610×[1−(16)2−(56)2]=0.053

当分组为{divorced} | {single,married}时,
Δ{

猜你喜欢

转载自blog.csdn.net/cpongo2/article/details/103400668