【机器学习课程-华盛顿大学】:3 分类 3.4(2) 决策树处理丢失数据

1、丢失数据处理方法:丢弃

(1)丢弃缺失的数据点:这种方法要保证丢失的数据点不要太多,否则删除的太多



(2)丢弃缺失的特征:这种方法要保证丢失的特征点不要太多



优点:容易理解;容易在各种模型中实现

缺点:丢失数据将造成信息丢失;无法权衡到底是丢弃特征还是数据点;当预测数据也有丢失的时候,很难预测;


2、丢失数据处理方法:填充

(1)填充自己计算出现的值:最常出现的值,均值,中值等。


优点:容易理解;容易在各种模型中实现;可以在预测整个过程中任何时间用,预测数据有丢失也可以。

缺点:可能带来系统性错误。比如只有几个数据有性别属性,大部分数据都没有,直接填充将有问题。


3、丢失数据处理方法:将所有判断加上unknown这个分支


优点:任何时候都能用;预测精确度更高

缺点:需要修改模型,对决策树来说比较简单


4、当有丢失数据时,如何选择特征进行分割?

选择分类误差最小的一个进行分类。credit中先选出一个最小的,然后再跟其他特征比。


猜你喜欢

转载自blog.csdn.net/weixin_41770169/article/details/80679891
今日推荐