【机器学习算法基础+实战系列】决策树算法

决策树是一种基本的分类和回归模型,也就是说既可以用于分类也可以用于回归。这里以分类为例。
决策树模型一种描述对实例依据特征进行分类的树形结构,它包含一个根节点,若干个内部节点和若干个叶节点。其中叶节点对应的是决策结果,也可以说是一个类,内部节点表示的是一个属性和特征。
决策树的学习算法包含三个步骤:特征选择,决策树的生成,决策树的剪枝

特征选择

特征选择在于选取对训练数据具有较好分类能力的特征,如果选取的特征进行分类的结果与随机分类的结果没有很大的差别,那么就不能说这个特征具有很好的分类能力。从经验上来讲,扔掉这些特征,对决策树的学习在精度上不会有影响。
通常特征选择的准则我们采取的是信息增益或者信息增益比。

信息增益:

首先我们给出熵的定义:熵表示的随机变量的不确定性。
\(X\) 是一个取有限个值的离散随机变量,其概率分布为:\[P(X=x_{i})=p_{i}, i = 1,2,3,...,n\]
则随机变量的熵定义为: \[ H(X) = -\sum_{i=1}^{n}p_{i}logp_{i}\]
通常条件下,式子中的对数我们以2或者e为底数。若\(p_{i} = 0, 则定义0log0=0\)。 由定义公式我们可以知道熵只依赖于X的分布,而与X的取值无关。所以我们也可以将这个式子改写成:\[ H(p) = -\sum_{i=1}^{n}p_{i}logp_{i}\]
熵越大,随机变量的不确定性就越大,从定义我们可以知道:\(0\leq H(p) \leq logn\)
接下来我们给出条件熵的定义。设有随机变量(X,Y),其联合概率分布是

猜你喜欢

转载自www.cnblogs.com/lzida9223/p/9256645.html