1.集成学习概述
从下图,我们可以对集成学习的思想做一个概括,对于训练集数据,我们可以训练若干个个体学习器(弱学习器),通过一定的结合策略,最终形成一个强学习器。
也就是说,集成学习由两个主要的问题需要解决,第一是如何得到若干个个体学习器,第二种是如何选择结合策略,将这些个体学习器结合起来。
2.集成学习之个体学习器
个体学习器的分类:
1)第一种是所有的个体学习器都是同一种类(或者说是同质的)。比如都是决策树个体学习器,或者说都是神经网络个体学习器。
2)第二种是所有的个体学习器都不是同一个种类的(或者说是异质的)。比如说对于一个分类问题,对训练集采用支持向量机、逻辑回归、朴素贝叶斯作为个体学习器,再通过某种结合策略组合成最终的分类学习器。
综上所述:
目前来说同质个体学习器的应用是最广泛的,一般我们常说的集成学习的方法都是指同质个体学习器。而同质个体学习器最广泛的是CART决策树和神经网络。
按照个体学习器之间是否存在依赖关系可以分为两类,一类是强依赖关系,即一系列学习器基本都需要串行生成