随机森林简介

一.Bagging思想

1.随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类、回归等问题。

2.我们首先介绍下Bagging的思想,Bagging的策略是:          

        *从样本集中重采样(Bootstrap有放回有重复的采样)选出n个样本。          

        *对这n个样本训练一个弱分类器(可以是ID3、C4.5、CART、SVM、LR等方法)          

        *重复以上两个步骤m次,得到m个弱分类器。          

       *将数据放到这m个分类器,根据这m个分类器的投票结果来决定数据的预测结果。    

3.Bagging进行投票的方式是:对于分类任务是使用简单投票法,对于回归任务通常是使用简单平均法。

二.从Bagging到随机森林

4.随机森林是在Bagging基础上的改进,其对应的策略是:          

       *从样本集中使用Bootstrap采样选出n个样本。        

       *从所有属性中随机选择k个属性,之后再使用信息增益、基尼指数方法不断找到最佳分割属性建立CART决策树(也可以是svm、LR等),这里的k控制了随机性的引入程度。        

       *重复以上过程建立m个分类器,使用这些树形成随机森林,通过求均值来得到预测结果。

5.我们举一个使用RF做回归的例子(数据集如下图的散点分布情况):        

       *对数据集做100次booststrp,每次采样选区k个特征,每次得到一个数据集Di,Di长度为N.          

       *对每个Di,使用局部回归(Loess)训练模型,得到预测方程,即为下图中的一条曲线。          

       *将这些曲线值直接计算平均,可得到下图中的红线拟合线。      可以从图中发现,红线的拟合程度是最稳定的,有效的避免了过拟合。

二.随机森林特点

随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类、回归等问题。

随机森林有许多优点:          

(1)具有极高的准确率          

(2)两个随机性的引入,使得随机森林不容易过拟合,并且有很好的抗噪声能力。          

(3)能处理很高维度的数据,并且不用做特征选择          

(4)既能处理离散型数据,也能处理连续型数据,数据集无需规范化          

(5)训练速度快,可以得到特征重要性排序          

(6)容易实现并行化

随机森林的缺点:        

 (1)当随机森林中的决策树个数很多时,训练时需要的空间和时间会较大          

(2)随机森林模型还有许多不好解释的地方,有点算个黑盒模型

*代码演示

猜你喜欢

转载自blog.csdn.net/maqunfi/article/details/82219681