第四章 决策树(代码待补)

在这里插入图片描述

4.1

决策树停止生成的三个条件:
1.当前结点包含的样本全属于同一类别,无需划分
2.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
3.当前结点包含的样本集合为空,不能划分
而题目中特征向量完全相同但标记不同的,就属于第二种情况里的所有样本在所有属性上取值相同,无法划分,这时候会将样本数最多的类返回,以后训练数据用此决策树预测时都返回同一个类,因此若要保证训练误差为0,那么一定不能存在特征向量完全相同但类不同的数据,即不能存在冲突数据。(因为在用训练数据做测试时,特征向量相同一定会被归到一个类里,但是实际中他们特征向量相同,但类不同,这样就有了误差)

4.2

训练样本是有限的,并不能代表整个样本空间,因此单纯的使用最小训练误差只是对这个训练集数据效果不错,但是对整个样本空间的数据来讲是极其容易引起过拟合的。因为决策树里挑选划分特征是为了挑出对分类影响大的特征,但训练误差这个有很强的偶然性,不能代表一般规律。

4.3

4.4

4.5

4.6

4.7

4.8

4.9

在这里插入图片描述

4.10

发布了105 篇原创文章 · 获赞 8 · 访问量 4713

猜你喜欢

转载自blog.csdn.net/qq_34405401/article/details/104908262