《数据挖掘-实用机器学习技术》读书笔记

  1. 1规则:1R

建立一个只对单个属性进行测试的规则,并进行不同的分支。每一个分支对应一个不同的属性值。分支的类就是训练数据在这个分支上出现最多的类。这种方法能够容易地计算出规则的误差率。只要计算在训练数据上产生的错误,即,统计不属于多数类的实例数量。

每个属性都能产生一个不同的规则集,每条规则对应这个属性的每个值。对每一个属性的规则集的误差率进行评估,从中选出性能最好的一个。一个属性对应一个规则集。

给出每个规则产生的错误分类的数量,以及整个规则集产生的错误分类的数量。1R选择所产生的规则集的错误数量最小的属性,就是第一和第三个规则集。

残缺值和数值属性。将残缺值作为一类。离散存在一个严重问题是,有可能形成大量的类别范畴。1R算法将自然地倾向于选择能被分类成很多范畴的属性,因为它会将数据集分类成很多部分,所以实例与它们各自所在部分的多数类同属一类的可能性增大。

至少包括3个样本数量的规则约束后,再进行不断分割,拥有相同的多数类时,可以合并。

今天我们学习到了1R方法,一个一层的决策树,它的叶子代表不同的类。一个表达力稍强的技术是对每类使用一个不同的规则。每一个规则是几个测试的逻辑与,每个测试与一个属性相对应。

         当一些属性拥有的可能值的数量很大,从而使分支的路径增加,产生出很多子节点时,计算信息增益会出现一个问题。当数据集的某个属性对于每一个实例存在一个不同属性值时,譬如,一个标识码属性。

         PRISM法来创建规则。

         关联规则

         项集问题

        

 

猜你喜欢

转载自blog.csdn.net/weixin_42039090/article/details/80738133
今日推荐