随机森林和adaboost的区别

1.随机森林:

   在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。在Bagging策略的基础上进行修改后的一种算法。

2.随机森林的特点

   从样本集中用Bootstrap采样选出n个样本;

   从所有属性中随机选择K个属性,选择出最佳分割属性作为节点创建决策树;

    重复以上两步m次,即建立m棵决策树;

    这m个决策树形成随机森林,通过投票表决结果决定数据属于那一类

3.随机森林的优缺点

  优点:

   1. 训练可以并行化,对于大规模样本的训练具有速度的优势;

   2. 由于进行随机选择决策树划分特征列表,这样在样本维度比较高的时候,仍然具有比较高 的训练性能;

   3. 给以给出各个特征的重要性列表;

   4. 由于存在随机抽样,训练出来的模型方差小,泛化能力强;

    5. RF实现简单;

    6. 对于部分特征的缺失不敏感。

  缺点:

    1. 在某些噪音比较大的特征上,RF模型容易陷入过拟合;

    2. 取值比较多的划分特征对RF的决策会产生更大的影响,从而有可能影响模型的效果

4.Adaboost算法

    Adaptive Boosting是一种迭代算法。每轮迭代中会在训练集上产生一个新的学 习器,然后使用该学习器对所有样本进行预测,以评估每个样本的重要性 (Informative)。换句话来讲就是,算法会为每个样本赋予一个权重,每次用

  训练 好的学习器标注/预测各个样本,如果某个样本点被预测的越正确,则将其权重 降低;否则提高样本的权重。权重越高的样本在下一个迭代训练中所占的比重就 越大,也就是说越难区分的样本在训练过程中会变得越重要;
     整个迭代过程直到错误率足够小或者达到一定的迭代次数为止

5.Adaboost算法的优缺点:

  优点:

   可以处理连续值和离散值; 模型的鲁棒性比较强; 解释强,结构简单。

  缺点:

    对异常样本敏感,异常样本可能会在迭代过程中获得较高的权重值,最终影响模型 效果

6.二者的区别

   adaboost:

     提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。

     加权多数表决的方法,加大分类误差率小的弱分类器的权值,使其在表决中起较大作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。

   随机森林:

     训练样本选取随机。虽然每一棵树的训练样本个数都是样本总数N,但是每一个样本的随机选取都是有放回的选取。这样,每一颗树的训练样本几乎都不相同。

     特征选取随机。假设训练数据有M个特征,随机森林的每一颗树只选取m(m< M)个特征用于构建决策树。每一颗树选取的特征可能都不完全相同。

  

猜你喜欢

转载自www.cnblogs.com/lvhongwi/p/12499634.html