周志华《机器学习》 学习笔记
最近开始学习机器学习,参考书籍西瓜书,做点笔记。
第四章 决策树
4.1 基本流程
决策树:
决策树学习的目的是为了产生一棵处理未见示例能力强的决策树;
决策树学习基本算法:决策树生成是一个递归的过程,有三种情况会导致递归返回:
1.当前结点包含的样本全都属于同一类别,此时不需要划分;
2.当前结点属性集为空,或者所有样本属性取值相同,此时把当前结点标记为叶结点,类别设定为样本最多的类别(后验分布);
3.当前结点样本集为空,此时把当前结点标记为叶结点,类别设定为父结点样本最多的类别(先验分布)。
4.2 划分选择
信息熵:度量样本纯度的一种指标。
信息熵值越小,则D纯度越高,即熵越大,变量不确定性越大;
信息增益:;
一般而言,信息增益越大,用属性a进行划分所获得的信息纯度提升越大;
ID3决策树学习算法以信息增益为准则选择划分属性:
1.算出根结点包含D中所有样例的信息熵;
2.选择属性集合,根据属性值正例、反例所占比例,算出信息熵;
3.利用公式算出当前属性的信息增益;
4.对每个属性重复以上3步,并算出对应信息增益;
5.选择最大的作为划分属性,并将其作为新的D’。
增益率:
基尼系数:
基尼系数越小数据集D纯度越高。
4.3 剪枝处理
目的:处理过拟合;
预剪枝:在决策树生成过程中,对每个结点在规划前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分,并将当前结点标记为叶结点;
优点:降低过拟合,减少时间;
缺点:会出现欠拟合。
后剪枝:先生成一课完整的决策树,再自底向上对非叶结点考察,如果将结点对应子树替换为叶结点能提升泛化性能,则替换为叶结点;
优点:欠拟合风险小,泛化性能优;
缺点:时间消耗大。
4.4 连续与缺失值
连续值:将属性取值从小到大排序,用t对样本集进行划分,不大于t的样本为子集D-,大于t的样本为子集D+,t由相邻两属性值求平均值得到,则t可得到属性值个数减1个;
缺失值:先找到属性对应属性值缺失的样例,并算出其信息熵,在算出对应属性值的信息熵,然后计算出信息增益,将得到的信息增益乘以无缺失样本所占比例,则算出样本集属性的信息增益(C4.5算法)。
4.5 多变量决策树
多变量决策树即在空间坐标中建立合适的线性分类器。
第四章决策树主要介绍决策树学习方法,其思想总体来说不难,把书中提到的算法思路、计算过程整理清楚,便能理解。
我的笔记做的比较粗糙,还请见谅。