一.Bagging思想
1.随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类、回归等问题。
2.我们首先介绍下Bagging的思想,Bagging的策略是:
*从样本集中重采样(Bootstrap有放回有重复的采样)选出n个样本。
*对这n个样本训练一个弱分类器(可以是ID3、C4.5、CART、SVM、LR等方法)
*重复以上两个步骤m次,得到m个弱分类器。
*将数据放到这m个分类器,根据这m个分类器的投票结果来决定数据的预测结果。
3.Bagging进行投票的方式是:对于分类任务是使用简单投票法,对于回归任务通常是使用简单平均法。
二.从Bagging到随机森林
4.随机森林是在Bagging基础上的改进,其对应的策略是:
*从样本集中使用Bootstrap采样选出n个样本。
*从所有属性中随机选择k个属性,之后再使用信息增益、基尼指数方法不断找到最佳分割属性建立CART决策树(也可以是svm、LR等),这里的k控制了随机性的引入程度。
*重复以上过程建立m个分类器,使用这些树形成随机森林,通过求均值来得到预测结果。
5.我们举一个使用RF做回归的例子(数据集如下图的散点分布情况):
*对数据集做100次booststrp,每次采样选区k个特征,每次得到一个数据集Di,Di长度为N.
*对每个Di,使用局部回归(Loess)训练模型,得到预测方程,即为下图中的一条曲线。
*将这些曲线值直接计算平均,可得到下图中的红线拟合线。 可以从图中发现,红线的拟合程度是最稳定的,有效的避免了过拟合。
二.随机森林特点
随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类、回归等问题。
随机森林有许多优点:
(1)具有极高的准确率
(2)两个随机性的引入,使得随机森林不容易过拟合,并且有很好的抗噪声能力。
(3)能处理很高维度的数据,并且不用做特征选择
(4)既能处理离散型数据,也能处理连续型数据,数据集无需规范化
(5)训练速度快,可以得到特征重要性排序
(6)容易实现并行化
随机森林的缺点:
(1)当随机森林中的决策树个数很多时,训练时需要的空间和时间会较大
(2)随机森林模型还有许多不好解释的地方,有点算个黑盒模型