1. 决策树与CART

分类决策树模型是一种描述对实例进行分类的树型结构。

算法流程：递归的选取一个最优特征，根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类过程。如果这些子集已经能够正确被分类了（就是说所有数据的类别都是一个），就可以构建叶子节点，把这些子集对应到叶子节点中去。不然，任然要选取新的最优特征，继续进行分割，直到所有的训练子集全都被正确分类，每个子集都被分配到了叶子节点上，就完成了决策树的构建。

用决策树进行分类就是从根节点开始，对实例某一特征进行测试，根据测试结果，将实例分到其子节点，这个时候，每个子节点对应了该特征的一个取值。这样递归的对实例进行测试分配，直到达到叶节点。将实例分配到叶节点对应的类中

决策树学习的本质就是从训练数据集中归纳出一组规则，与训练数据矛盾最小，同时具有较好泛化能力。决策树学习就用极小化损失函数来实现这一个目标。

过拟合解决方法：以上的决策树构建方法会对训练数据有很好地分类效果，但是可能产生过拟合，因为过多的考虑了如何对训练数据进行正确分类。我们需要对已知的决策树进行自下而上的剪枝，去掉过于细分的叶节点，使其退回到父节点，甚至更高的节点，然后将父节点或者更高的节点作为叶子节点。

概括来说，决策树算法包括：特征选择，决策树生成，剪枝

特征选择：选取标准是对训练数据具有分类能力的特征。如果根据一个特征进行分类的结果与随机分类的结果相差不大，那么扔掉这些特征也不会有太大的影响。

特征选取的准则一般是信息增益或者信息增益比