1. 决策树与CART

    分类决策树模型是一种描述对实例进行分类的树型结构。

    算法流程:递归的选取一个最优特征,根据该特征 对训练数据进行分割,使得各个子数据集有一个最好的分类过程。如果这些子集已经能够正确被分类了(就是说所有数据的类别都是一个), 就可以构建叶子节点,把 这些子集对应到叶子节点中去。不然,任然要选取新的最优特征,继续进行分割,直到所有的训练子集全都被正确分类,每个子集都被分配到了叶子节点上,就完成了决策树的构建。

    用决策树进行分类就是从根节点开始,对实例某一特征进行测试,根据测试结果,将实例分到其子节点,这个时候,每个子节点对应了 该特征的一个取值。这样递归的对实例进行测试分配,直到达到叶节点。将实例分配到叶节点对应的类中

    决策树学习的本质就是从训练数据集中归纳出一组规则,与训练数据矛盾最小,同时具有较好泛化能力。决策树学习就用极小化损失函数来实现这一个目标。

    过拟合解决方法:以上的决策树构建方法会对训练数据有很好地分类效果,但是可能产生过拟合, 因为过多的考虑了如何对训练数据进行正确分类。我们需要对已知的决策树进行自下而上的剪枝,去掉过于细分的叶节点,使其退回到父节点,甚至更高的节点,然后将父节点或者更高的节点作为叶子节点。

    概括来说,决策树算法包括:特征选择, 决策树生成, 剪

    特征选择:选取标准是 对训练数据具有分类能力的特征。如果根据一个特征进行分类的结果与随机分类的结果相差不大,那么扔掉这些特征也不会有太大的影响。

    特征选取的准则一般是 信息增益或者 信息增益比

    

    剪枝的过程

    首先根据生成算法得到的决策树, 计算每个节点的经验熵,递归的从叶节点往上缩。

        

    决策树的适用场景:

    因为决策树是基于特征选择不同预测结果的,所以如果对数据的特征有很好的理解的话可以使用决策树

    

    决策树的缺点:

    它是特比容易受到攻击的分类器,如果认为 的改变一些特征,分类器就容易产生误判。

    它有较为简单,所以决策树的更大的用处就是作为一些更有用的算法的基石。

    

    

猜你喜欢

转载自blog.csdn.net/vfi7018/article/details/82973028