机器学习 算法基础 四 决策树

决策树的好处

训练速度快

如何建立树?

  1. N [ n 1 , n 2 , n 3 , . . . n n ] N r o o t 假设有N个样本:[n_1,n_2,n_3,...n_n]将N个节点都列为root节点

  2. ( ) N 1 N 2 N 1 + N 2 = N 现在给出分类的标准(切一刀分成两部分),讲样本分类成 左边有N_1个样本,右边有N_2个,则N_1+N_2=N,重点在于选择哪个特征将样本分类

  3. N 1 N 2 然后将N_1和N_2中的样本在根据指定分类标准进行分类

  4. 如此进行下去。


决策树前置知识

信息熵

在这里插入图片描述
在这里插入图片描述

  • 因为第二组更容易判断,所以第二组信息熵更低。

  • 两种情况下的信息熵:
x 0 1
P 1-p p
log P -log (1-p) -log p
  • 信息熵的定义
    E [ log P ] = ( 1 p ) log ( 1 p ) p log p = i = 1 n p i log p E[\log P]=-(1-p)*\log(1-p)-p*\log p=-\sum_{i=1}^{n}p_i*\log p

条件熵

在这里插入图片描述
联想全概率公式:x条件下y发生的概率等于x,y同时发生的概率初一x发生的概率。
P ( y x ) = P ( x , y ) P ( x ) P(y|x) = \frac{P(x,y)}{P(x)}
在这里插入图片描述
一个例子:
在这里插入图片描述

信息熵H(X)计算:
P ( X = ) = 1 2 , P ( X = ) = 1 4 , P ( X = I T ) = 1 4 P(X=数学)=\frac{1}{2} ,P(X=英语)=\frac{1}{4} ,P(X=IT)=\frac{1}{4}
H ( X ) = 1 2 log 2 1 2 1 4 log 2 1 4 1 4 log 2 1 4 H(X)=-\frac{1}{2}\log_2{\frac{1}{2}}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{4}\log_2\frac{1}{4}
H ( X ) = 0.5 + 0.5 + 0.5 = 1.5 H(X)=0.5+0.5+0.5=1.5

信息熵H(Y)计算:
P ( Y = F ) = 1 2 , P ( Y = M ) = 1 2 P(Y=F)=\frac{1}{2} ,P(Y=M)=\frac{1}{2}
H ( Y ) = 1 2 log 2 1 2 1 2 log 2 1 2 H(Y)=-\frac{1}{2}\log_2\frac{1}{2}-\frac{1}{2}\log_2\frac{1}{2}
H ( Y ) = 0.5 + 0.5 = 1 H(Y)=0.5+0.5=1

  • 带条件的信息熵:
    例1
    在这里插入图片描述
    例2在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

互信息

  • 两个独立时间的互信息为0在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

相对熵

在这里插入图片描述

从熵到决策树

所谓决策树,就是熵从根节点到叶子节点不断下降的一棵树。
在这里插入图片描述
在这里插入图片描述

CART(C&RT)

如下例中,根据年龄和性别分类,叶子节点为最终结果。
在这里插入图片描述
还是上例,在根据使用使用时间创建一个决策树:
在这里插入图片描述
现在得到两棵树,同时对两棵树的结果做和。得到新的结果,实际上多棵树就可以称为森林。
在这里插入图片描述

ID3

使用熵下降最快的特征。

C4.5 信息增益率

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

其他目标

在这里插入图片描述
在这里插入图片描述

在第一定义中:
Gini越大 贫富差距越大

在这里插入图片描述

在第二定义中
Gini->0 平均
Gini->1 最不平均


小结

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • N个样本N次采集,每次采样被采集到的概率为 1 N \frac{1}{N}
  • N次采样每次没有被采集到的概率为 1 1 N 1-\frac{1}{N}
  • N次采样都没有被采集到的概率为 1 1 N N (1-\frac{1}{N})^N
  • N次采样有被采集到的概率为 1 ( 1 1 N ) N 1-(1-\frac{1}{N})^N
    lim N 0 [ 1 ( 1 + 1 N ) N ] \lim_{N \rightarrow 0}[1-(1+\frac{1}{-N})^{-N}]
    1 1 e 63.2 % 1-\frac{1}{e}\approx 63.2\%
    约有63.2%的数据会参与建树,没有参与建树的36.8%的数据称为OOB可用于做测试数据。
    在这里插入图片描述

随机森林

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

发布了45 篇原创文章 · 获赞 2 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/qq_22096121/article/details/104256941