Reading_集成学习

参考文章:

1、集成学习原理小结
2、Python3《机器学习实战》学习笔记(十):提升分类器性能利器-AdaBoost ,Jack cui 的博客,也是大神
3、GBTD算法小结

定义
集成方法(ensemble method)通过组合多个基分类器(base classifier)来完成学习任务。
基分类器一般采用的是弱可学习(weakly learnable)分类器,通过集成方法,组合成一个强可学习(strongly learnable)分类器。
所谓弱可学习,是指学习的正确率仅略优于随机猜测的多项式学习算法(比如二分类上精度略高于50%);强可学习指正确率较高的多项式学习算法。
集成学习的泛化能力一般比单一的基分类器要好,这是因为大部分基分类器都分类错误的概率远低于单一基分类器的。【2】

主要待解决问题

  1. 如何得到若干个个体学习器
  2. 如何选择一种结合策略,将这些个体学习器集合成一个强学习器

集成方法分类: 同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类:

  1. Boosting系列 (存在依赖关系,需串行产生) 比如AdaBoost算法和提升树(boosting tree),梯度提升树(Gradient Boosting Decison Tree, 简称GBDT)
  2. Bagging系列 和随机森林(不存在依赖关系,可并行产生)

boosting方法原理图如下图所示:【1】
在这里插入图片描述
从图中可以看出,Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.,如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。
bagging方法原理图如下图所示:【1】
在这里插入图片描述

这里一般采用的是自助采样法(Bootstap sampling),即对于m个样本的原始训练集,我们每次先随机采集一个样本放入采样集,接着把该样本放回,也就是说下次采样时该样本仍有可能被采集到,这样采集m次,最终可以得到m个样本的采样集,由于是随机采样,这样每次的采样集是和原始训练集不同的,和其他采样集也是不同的,这样得到多个不同的弱学习器。
随机森林是bagging的一个特化进阶版,所谓的特化是因为随机森林的弱学习器都是决策树。所谓的进阶是随机森林在bagging的样本随机采样基础上,又加上了特征的随机选择,其基本思想没有脱离bagging的范畴。bagging和随机森林算法的原理在后面的文章中会专门来讲。【1】

  • Bagging + 决策树 = 随机森林
  • AdaBoost + 决策树 = 提升树
  • Gradient Boosting + 决策树 = GBDT 【2】

Adaboost算法小结

由上图可知,我们是先初始化样本权重,得到第一个分类器,然后计算误差率e,跟新分类器的权重阿发,然后再去跟新样本权重,循环往复。
一般的,boosting系列算法都要推导出下面四个问题:

1)如何计算学习误差率e?
2) 如何得到弱学习器权重系数α?
3)如何更新样本权重D?
4) 使用何种结合策略?

只要是boosting系列的算法,都要解决这4个问题。那么Adaboost是怎么解决的呢?【1】(本文先只考虑分类问题,感觉回归问题考的不多)
在这里插入图片描述
在这里插入图片描述
具体的图表示: 【2】
在这里插入图片描述

Adaboost的主要优点有:

扫描二维码关注公众号,回复: 3593389 查看本文章

1)Adaboost作为分类器时,分类精度很高
2)在Adaboost的框架下,可以使用各种回归分类模型来构建弱学习器,非常灵活。
3)作为简单的二元分类器时,构造简单,结果可理解。
4)不容易发生过拟合

Adaboost的主要缺点有:
1)对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性

梯度提升树(GBDT)算法小结

具体的推导和介绍见【3】

GBDT主要的优点有:

  1. 可以灵活处理各种类型的数据,包括连续值和离散值。
  2. 在相对少的调参时间情况下,预测的准确率也可以比较高。这个是相对SVM来说的。
  3. 使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

GBDT的主要缺点有:

  1. 由于弱学习器之间存在依赖关系,难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

猜你喜欢

转载自blog.csdn.net/weixin_39782583/article/details/83045888