机器学习学习笔记.day4

周志华《机器学习》 学习笔记

最近开始学习机器学习,参考书籍西瓜书,做点笔记。


第四章 决策树

4.1 基本流程

决策树:


决策树学习的目的是为了产生一棵处理未见示例能力强的决策树;

决策树学习基本算法:决策树生成是一个递归的过程,有三种情况会导致递归返回:

    1.当前结点包含的样本全都属于同一类别,此时不需要划分;

    2.当前结点属性集为空,或者所有样本属性取值相同,此时把当前结点标记为叶结点,类别设定为样本最多的类别(后验分布);

    3.当前结点样本集为空,此时把当前结点标记为叶结点,类别设定为父结点样本最多的类别(先验分布)。

4.2 划分选择

信息熵:度量样本纯度的一种指标。

信息熵值越小,则D纯度越高,即熵越大,变量不确定性越大;

信息增益:

一般而言,信息增益越大,用属性a进行划分所获得的信息纯度提升越大;

ID3决策树学习算法以信息增益为准则选择划分属性:

    1.算出根结点包含D中所有样例的信息熵;

    2.选择属性集合,根据属性值正例、反例所占比例,算出信息熵;

    3.利用公式算出当前属性的信息增益;

    4.对每个属性重复以上3步,并算出对应信息增益;

    5.选择最大的作为划分属性,并将其作为新的D’。

增益率:

基尼系数:

基尼系数越小数据集D纯度越高。

4.3 剪枝处理

目的:处理过拟合;

预剪枝:在决策树生成过程中,对每个结点在规划前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分,并将当前结点标记为叶结点;

优点:降低过拟合,减少时间;

缺点:会出现欠拟合。

后剪枝:先生成一课完整的决策树,再自底向上对非叶结点考察,如果将结点对应子树替换为叶结点能提升泛化性能,则替换为叶结点;

优点:欠拟合风险小,泛化性能优;

缺点:时间消耗大。

4.4 连续与缺失值

连续值:将属性取值从小到大排序,用t对样本集进行划分,不大于t的样本为子集D-,大于t的样本为子集D+,t由相邻两属性值求平均值得到,则t可得到属性值个数减1个;

缺失值:先找到属性对应属性值缺失的样例,并算出其信息熵,在算出对应属性值的信息熵,然后计算出信息增益,将得到的信息增益乘以无缺失样本所占比例,则算出样本集属性的信息增益(C4.5算法)。

4.5 多变量决策树

多变量决策树即在空间坐标中建立合适的线性分类器。


第四章决策树主要介绍决策树学习方法,其思想总体来说不难,把书中提到的算法思路、计算过程整理清楚,便能理解。

我的笔记做的比较粗糙,还请见谅。

有不正确或者不完整的地方,欢迎补充。



猜你喜欢

转载自blog.csdn.net/qq_38550836/article/details/77938947
今日推荐