决策树之分类树快速理解

版权声明:本文为博主原创文章,未经博主允许不得转载 https://blog.csdn.net/qq_41011336/article/details/82528008

决策树就是一棵树,原始数据集就是树根,树根要分叉成树干,树干又要分叉成树枝,树枝再分叉…….,前面的分叉会对后面的分叉都有影响,因此越是前面的分叉越重要,第一次最重要。好,来考虑第一次分叉,分叉依据无非就是根据哪一个特征来分嘛,到底根据哪一个特征呢?这么多特征哪一个对于分类结果影响最大呢?
先来看这样一个表格
这里写图片描述
这就是一个数据集,只是特征向量的数目只有8条,可以看到已经分好类了,就是是否放贷,每一条特征向量都包含三个特征:有房?有工作?年收入

我们的问题是:哪个特征对分类结果的影响最大?换句话说,按照哪一个特征分类最准确,最接近实际分类结果?**
所以我们想:要是准确性能够量化就好了,怎么量化?伟大的香农做到了
来,我们翻一翻信息论:
1:信息熵
我们在中学学过熵的概念,就是描述事物的混乱程度,信息熵就是信息的混乱程度,专业点说就叫,信息的不确定性,当然啦,越低越好。摆出公式
这里写图片描述
如果待分类的事物X既可能属于A类也可能属于B类,概率分别为P(A),P(B),n就是X可能归属的类别数目,这里是2,P(X1)就是P(A),P(X2)就是P(B),信息熵就算出来了。
2:条件熵
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性,随机变量X给定的条件下随机变量Y的条件熵(conditional entropy) H(Y|X),定义X给定条件下Y的条件概率分布的熵对X的数学期望:
这里写图片描述
其中,这里写图片描述
这里的已知条件就是我依据的某个特征。
好,现在就ok了,计算,还是这张图
这里写图片描述
原始信息熵:是否放贷有5个是3个否,根据公式得
这里写图片描述
下面我们根据第一个特征来计算信息熵,我们看到,有房的4个人里面有3个可以放贷1个不放贷,没房的4个人里面2个可以放贷2个不能放贷。根据条件熵公式,
这里写图片描述
所以,根据是否有房这一特征来分类使得信息的不确定性降低了多少呢?
G = H - H1
这个G就称为信息增益,它就量化地表示了我根据某一个特征来分类导致信息发生的变化,其实是熵的减少或者数据无序度的减少量,G自然越大越好,G越大就表示根据这个特征来分类越准确。
算出每一个特征对应的信息增益G,选最大的就OK了。
好的,现在找到我们要的特征了,假设较F吧,我们就按照F来分叉,当然了F的取值可能有多种,有几种取值就有几个分支。这样每一个分支就对应一个新的数据集,此时的数据集就没有特征F了,OK?对于这个新数据集找到影响最大的特征F1,再分叉。每一个分支都这样干,以此类推。决策树就诞生了。

猜你喜欢

转载自blog.csdn.net/qq_41011336/article/details/82528008