机器学习学习笔记.day4

周志华《机器学习》学习笔记

最近开始学习机器学习，参考书籍西瓜书，做点笔记。

第四章决策树

4.1 基本流程

决策树：

决策树学习的目的是为了产生一棵处理未见示例能力强的决策树；

决策树学习基本算法：决策树生成是一个递归的过程，有三种情况会导致递归返回：

1.当前结点包含的样本全都属于同一类别，此时不需要划分；

2.当前结点属性集为空，或者所有样本属性取值相同，此时把当前结点标记为叶结点，类别设定为样本最多的类别（后验分布）；

3.当前结点样本集为空，此时把当前结点标记为叶结点，类别设定为父结点样本最多的类别（先验分布）。

4.2 划分选择

信息熵：度量样本纯度的一种指标。

信息熵值越小，则D纯度越高，即熵越大，变量不确定性越大；

信息增益：；

一般而言，信息增益越大，用属性a进行划分所获得的信息纯度提升越大；

ID3决策树学习算法以信息增益为准则选择划分属性：

1.算出根结点包含D中所有样例的信息熵；

2.选择属性集合，根据属性值正例、反例所占比例，算出信息熵；

3.利用公式算出当前属性的信息增益；

4.对每个属性重复以上3步，并算出对应信息增益；

5.选择最大的作为划分属性，并将其作为新的D’。

增益率：

基尼系数：

基尼系数越小数据集D纯度越高。

4.3 剪枝处理

目的：处理过拟合；

预剪枝：在决策树生成过程中，对每个结点在规划前先进行估计，若当前节点的划分不能带来决策树泛化性能的提升，则停止划分，并将当前结点标记为叶结点；

优点：降低过拟合，减少时间；

缺点：会出现欠拟合。

后剪枝：先生成一课完整的决策树，再自底向上对非叶结点考察，如果将结点对应子树替换为叶结点能提升泛化性能，则替换为叶结点；

优点：欠拟合风险小，泛化性能优；

缺点：时间消耗大。

4.4 连续与缺失值

连续值：将属性取值从小到大排序，用t对样本集进行划分，不大于t的样本为子集D-，大于t的样本为子集D+，t由相邻两属性值求平均值得到，则t可得到属性值个数减1个；

缺失值：先找到属性对应属性值缺失的样例，并算出其信息熵，在算出对应属性值的信息熵，然后计算出信息增益，将得到的信息增益乘以无缺失样本所占比例，则算出样本集属性的信息增益（C4.5算法）。

4.5 多变量决策树

多变量决策树即在空间坐标中建立合适的线性分类器。

第四章决策树主要介绍决策树学习方法，其思想总体来说不难，把书中提到的算法思路、计算过程整理清楚，便能理解。

我的笔记做的比较粗糙，还请见谅。

有不正确或者不完整的地方，欢迎补充。