泛统计理论初探——决策树

数据挖掘-决策树

决策树算法
决策树是一种较为常见的算法,该方法在各个社科领域有较为频繁的使用。该方法的本质可以理解为,由多个特质变量的临界值构建得到的决策树,该决策树可以帮助决策者解决一些实际的问题。
在早期的决策树方法中,是使用熵值对变量的信息复杂度进行衡量并排序,信息量更复杂的变量会进入较前的序列,最终形成一个变量的序列,该序列的顺序即代表决策树的每一层的分类标准。当该序列形成后,即可把训练集数据代入这个序列,得到每个变量的分界值,然和通过变量的序列和变量的分界值构建出一棵可视化的决策树。在这个决策树上,为了防止决策树对于训练集数据的过拟合,还会进行剪枝,得到更为稳健的决策树。
在这里插入图片描述
根据初步的决策树方法,很多学者开始对决策树的算法进行优化。主要有以下三种优化方向。
(1)优化变量的排序方法
之前使用计算熵值的方法,在某种程度上可以通过计算基尼系数来对变量进行排序。众所周知。熵值是计算变量的信息熵,即对于-p*log§求和。而基尼系数的计算方法是对p(1-p)的求和。这种方法在一般的分类问题中,比信息熵的方法更能衡量最优指标的方法。所以一般在程序自带的算法包中,会默认使用以基尼系数为最优指标衡量的方法。
(2)构建决策树的方法
早期的决策树使用的是ID3算法,即基于信息增益的构建方法。而在后续的使用中,又有学者提出了C4.5算法,即基于信息增益比的构建方法。该方法相对于ID3算法更为准确的衡量了信息的重要性,排除了训练数据的经验熵对算法本身的影响,也能够在一定程度上减小了由于训练数据引起的过拟合问题。
(3)剪枝的方法
剪枝,顾名思义即代表剪去枝条叶子。在决策树算法中,常常由于训练数据生成的决策树会较大、较深。但是由于决策树较深后,会导致数据的过拟合,即在预测效果中,表现的很差,并且会导致决策树本身的不稳定,受到异常数据的影响较大。因此在这种情况下,需要对决策树进行剪枝。一般会将底层的节点进行修剪,因为底层的节点是信息熵最低的变量,从统计角度来看,即该变量是几乎不影响最终决策的,或去掉该变量对于决策树的整体预测能力影响不大,所以可以进行剪除。剪枝的顺序一般从下往上进行,而在算法包中,用户可以指定决策树的最大深度,进而限制由于训练数据导致的过拟合,加强决策树的稳定性和健壮性。
综上所述,决策树方法是一种较为经典并且可视化非常强的算法,该方法易于理解且计算较为迅速,不占用很多的计算资源。但是由于决策树容易受到训练数据的影响,因此会造成过拟合的问题,所以需要进行剪枝。而在后续的发展中,又加入了许多互相独立的决策树,即多棵决策树组成的随机森林,该方法的预测能力较强,能够解决许多预测问题。因此弄清决策树的原理,对后续随机森林方法的学习有较好的铺垫作用。

发布了23 篇原创文章 · 获赞 24 · 访问量 4522

猜你喜欢

转载自blog.csdn.net/qq_26727101/article/details/100620137