统计学习方法——第8章 提升方法(个人笔记)

统计学习方法——第8章 提升方法(个人笔记)

参考《统计学习方法》(第二版)李航

8.1 提升方法AdaBoost算法

8.1.1 提升方法的基本思路

基本思想:对于一个复杂任务,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。

最具代表性的是AdaBoost算法。

对于分类问题,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确地分类规则(强分类器)容易的多。提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器。

8.1.2 AdaBoost算法

算法 8.1(AdaBoost)

输入:训练数据集T=\left \{ (x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N) \right \},y_i=\left \{ -1,+1 \right \};

输出:最终分类器G(x)

(1)初始化训练数据的权值分布

D_1=(w_{11},\cdots,w_{1i},\cdots,w_{1N}),w_{1i}=\frac{1}{N},i=1,\cdots,N

(2)对m=1,\cdots,M,M个分类器

   (a)对使用具有权值分布D_m的训练数据集学习,得到基本分类器。

G_m(x):\left \{ -1,+1 \right \}

   (b)计算G_m(x)在训练数据集上的分类误差率

e_m=\sum_{i=1}^{N}P(G_m(x_i)\neq y_i)=\sum_{i=1}^{N}w_{mi}I(G_m(x_i)\neq y_i)

   (c)计算G_m(x)的系数

\alpha_m=\frac{1}{2}\log \frac{1-e_m}{e_m}

   (d)更新训练数据集的权值分布

D_{m+1}=(w_{m+1,1},\cdots,w_{m+1,N})

w_{m+1,i}=\frac{w_{mi}}{Z_m}\exp(-\alpha_my_iG_m(x_i)),i=1,\cdots,N

Z_m是规范化因子

Z_m=\sum_{i=1}^{N}w_{mi}\exp(-\alpha_my_iG_m(x_i))

(3)构建基本分类器的线性组合

f(x)=\sum_{m=1}^{M}\alpha_mG_m(x)

得到最终分类器

G(x)=sign(f(x)) \\ =sign(\sum_{m=1}^{M}\alpha_mG_m(x))

8.1.3 AdaBoost的例子

 

 

 

猜你喜欢

转载自blog.csdn.net/pk296256948/article/details/124665468
今日推荐