这几个名词经常混淆，在调查了百度，wiki和一些网友的分享，特整理如下：

Boosting算法：

弱分类器：分类效果差，只是比随机猜测好一点。

强分类器：具有较高的识别率，较好的分类效果。（在百度百科中有提到要能在多项式时间内完成学习）

弱和强更大意义上是相对而言的，并没有严格的限定。比如准确率低于多少就是弱分类器，高于多少是强分类器，因具体问题而定。

1988年，有学者提出是否可以通过一些弱分类器来实现强分类器的分类效果。基于这个问题，之后两三年陆续的有早期的boosting算法被提出。Boosting系列算法，对于任意给定的弱分类器算法，都可以提升其分类效果。Boosting系列算法属于一个算法框架，与具体基分类器的学习方法独立。它会产生一系列的分类器（预测函数，基分类器），然后对所有分类器的结果进行加权融合。虽然单个基分类器的效果不好，但是经过多个基分类器的结果融合，可以获得更高的准确率。

主体思想：强分类器算法比较难以获得，而弱分类器较易获得。我们希望基于易得到的弱分类器，达到强分类器的识别效果。

boosting算法特点：

1. Boosting算法会对训练集进行操作以挑选训练子集训练基分类器，也就是说基分类器的训练集并不相同。

2. Boosting算法是对多个基分类器进行加权融合得到最终分类结果。准确率一般远高于单个的基分类器效果。

3. 基分类器的学习算法可以相同，也可以不同。常用的弱分类算法如决策树。

早期的Boosting算法存在缺陷，即需要事先知道弱学习算法的分类正确的下限，并不是自适应的，这限制了该算法在现实中的应用。这一缺陷在之后的adaptive boosting（AdaBoost）算法中被解决。

AdaBoost算法，全称adaptiveboosting算法。AdaBoost算法也属于boosting算法系列，但是无论效果还是应用能力都强于之前的早期boosting版本，因此应用更加广泛。Adaboost算法属于boosting系列算法中的代表性算法。

AdaBoost具体做法举例：

对于一个数据集，先用任一弱分类算法训练得到一弱分类器，根据对训练集分对分错情况，对训练集样本分配权重，分错的样本权重更高。根据这个权重对训练集进行挑选得到新的训练集，权重大的样本更可能被选到，以此来侧重对于之前分错的样本的训练，得到第二个分类器。以此类推，不断训练多个基分类器，最后根据各个基分类器的准确率赋予分类器权重。当需要判别时，加权投票得最终判断结果。

boosting系列算法的主要区别在于样本和分类器的权重计算。

总结：boosting是一大类算法，该类算法的核心是通过多个弱分类器实现强分类器的效果，具体做法则会涉及到训练集的选取，基分类器学习算法的选择，样本权重计算，分类器权重计算等。Adaboost属于boosting算法，其特点在于能够自适应的训练基分类器，侧重训练分错的样本，效果优于非自适应的早期boosting算法，应用最为广泛。

Bootstrap

一直也搞不明白bootstrap的具体含义，经过在网上查找多方资料，现整理如下：

Bootstrap并不是一种机器学习的训练算法，而是一种自助采样的算法，用小样本数据集估计整体的非参数方法。当数据的规模较小时，可以用来扩大数据规模，估计数据整体的分布情况（期望和方差）。

Bootstrap会通过对初始数据进行有放回的抽样，产生大量的伪样本，然后再对足够大量的伪样本进行分析，估计整体的数据分布。

下面这个链接说的很全面，而且有配图，可以更方便的理解：

点击打开链接

之前已经讲过Boosting系列算法，那么什么是bagging算法呢？两者有何区别？

Bagging

Bagging方式训练多个弱分类器，虽然单个弱分类效果不好，但是多个弱分类器加权融合，投票产生可以产生更准确的分类结果。

Bagging要求基分类器的学习算法不稳定，也就是当数据发生小变化时，训练的分类器会产生很大不同，依次来增加基分类器的多样性，使得分类系统更加稳定，泛化能力更强。

bagging与Boosting算法看起来相似，但是基分类器的训练方法完全不同，区别为：

Bagging算法的训练集往往是从原数据集中有放回的抽样得到的（原数据集的一部分），每个基分类器是相互独立的，并列的。因为每个基分类器训练方法独立且相同，所以最后分类器等权重投票。

而在boosting算法中，基分类器是依次训练的，因为分错的点在接下来的训练时会更加的被侧重，也就是说，每个基分类器的训练都是建立在之前基分类器的表现基础之上的。最后分类器加权投票。

相比之下，很明显boosting算法训练基分类器的思路比bagging更加精致一些，更加有针对性一些，但是也有学者反应其存在过拟合的问题。

总结boosting，Adaboost，Bootstrap和Bagging的含义和区别

这几个名词经常混淆，在调查了百度，wiki和一些网友的分享，特整理如下：

Boosting算法：

Bootstrap

Bagging

猜你喜欢