决策树(二)

  也可以说,信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即:

H(x)=-sum (p(x)log_{2}p(x) )

1.2 条件熵(可以理解为在给定某种条件下弄清这件事所需要的信息量,其中给定某种条件后给决策树补充了信息量)

   关于条件熵的两篇博客:文章1文章2文章3

   

对于条件熵的具体理解:

我们的条件熵的定义是:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望。

  1.3 信息增益

2.决策树的生成

决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树(即能对训练数据进行正确分类的决策树)可能有多个,也可能一个也没有。我们需要的是一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。

决策树学习的算法(生成决策树)通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。这样一来,对于每一次递归选择特征时就显得格外重要。

特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。那么此时通常特征选择的准则就是我们前面谈到的信息增益。

决策树的剪枝:

猜你喜欢

转载自blog.csdn.net/weixin_40849273/article/details/83269736
今日推荐