8.3.2 前向分步算法与 AdaBoost

由前向分步算法可以推导出 AdaBoost，用定理叙述这一关系。
定理 8.3 AdaBoost 算法是前向分步加法算法的特例。这时，模型是由基本分类器组成的加法模型，损失函数是指数函数。
证明前向分步算法学习的正加法模型，当基函数为基本分类器时，该加法模型等价于 AdaBoost 的最终分类器：

$\sum_{m=1}^M \alpha_m G_m(x) \tag{8.19}$

由基本分类器 $G_m(x)$ 及其系数 $\alpha_m$ 组成， $\cdots, M$ 。前向分步算法逐一学习基函数，这一过程与 AdaBoost 算法逐一学习基本分类器的过程一致。下面证明前向分步算法的损失函数是指数损失函数（exponential loss function）

$\exp(-y f(x))$

时，其学习的具体操作等价于 AdaBoost 算法学习的具体操作。

假设经过 $m - 1$ 轮迭代前向分步算法已经得到 $f_{m-1}(x)$ ：

$f_{m-1}(x) = f_{m-2}(x) + \alpha_{m-1} G_{m-1}(x)$

$\alpha_1 G_1(x) + \cdots + \alpha_{m-1} G_{m-1}(x)$

在第 $m$ 轮选择得到 $\alpha_m$ 、 $G_m(x)$ 和 $f_m(x)$ ：

$f_m(x) = f_{m-1}(x) + \alpha_m G_m(x)$

目标是使前向分步算法得到的 $\alpha_m$ 和 $G_m(x)$ 使 $f_m(x)$ 在训练数据集 $T$ 上的指数损失最小，即

$(\alpha_m, G_m(x)) = \arg \min_{\alpha, G} \sum_{i=1}^N \exp \left[ -y_i \left( f_{m-1}(x_i) + \alpha G(x_i) \right) \right] \tag{8.20}$

式（8.20）可以表示为

$(\alpha_m, G_m(x)) = \arg \min_{\alpha, G} \sum_{i=1}^N \tilde{w}_{mi} \exp(-y_i \alpha G(x_i)) \tag{8.21}$

其中， $\tilde{w}_{mi} = \exp(-y_i f_{m-1}(x_i))$ ，因为 $\tilde{w}_{mi}$ 已不依赖于 $G$ ，所以与最小化无关。 $\tilde{w}_{mi}$ 依赖于 $f_{m-1}$ ，随得每一轮迭代而发生改变。
现在证明使（8.21）达到最小的 $\alpha^*_m$ 和 $G^*_m(x)$ 就是 AdaBoost 算法所得得到的 $\alpha_m$ 和 $G_m(x)$ 。求解式（8.21）可分两步：
首先，求 $G^*_m(x)$ 对任意 $\alpha > 0$ ，使式（8.21）最小的 $G (x)$ 由下式得到：

$G^*_m(x) = \arg \min_G \sum_{i=1}^N w_{mi} I(y_i \ne G(x_i))$

其中， $\tilde{w}_{mi} = \exp(-y_i f_{m-1}(x_i))$
此处分类器 $G^*_m(x)$ 即为 AdaBoost 算法的基本分类器 $G_m(x)$ ，因为它是使第 $m$ 轮加权训练数据集分类误差最小的基本分类器。
然后，求 $\alpha_m^*$ 参式（8.11），式（8.21）中

$\sum_{i=1}^N \tilde{w}_{mi} \exp(-y_i \alpha G(x_i)) = \sum_{y_i = G_m(x_i)} \tilde{w}_{mi} e^{-\alpha} + \sum_{y_i \ne G_m(x_i)} \tilde{w}_{mi} e^\alpha$

$(e^\alpha - e^{-\alpha}) \sum_{i=1}^N \tilde{w}_{mi} I(y_i \ne G(x_i)) + e^{-\alpha} \sum_{i=1}^N \tilde{w}_{mi} \tag{8.22}$

将它求得的 $G^*_m(x)$ 代入式（8.22），对 $\alpha$ 求导并使导数数为0，即得到使式（8.21）最小的 $\alpha$ ：

$\alpha_m^* = \frac{1}{2} \log \frac{1 - e_m}{e_m}$

其中， $e_m$ 是分类误差率：

$e_m = \frac{\sum_{i=1}^N \tilde{w}_{mi} I (y_i \ne G_m(x_i))}{\sum_{i=1}^N \tilde{w}_{mi}}$

$\sum_{i=1}^N w_{mi} I(y_i \ne G_m(x_i)) \tag{8.23}$

这里的 $\alpha_m^*$ 与 AdaBoost 算法第 2(c) 步的 $\alpha_m$ 完全一致。
最后来看每一轮样本权值的更新。由

$f_m(x) = f_{m-1}(x) + \alpha_m G_m(x)$

以及 $\tilde{w}_{mi} = \exp(-y_i f_{m-1}(x_i))$ ，可得：

$\tilde{w}_{m+1, i} = \tilde{w}_{m,i} \exp(-y_i \alpha_m G_m(x))$

这与 AdaBoost 算法第 2(d) 步的样本权值的更新只相差规范化因子，因而等价。

公式8.22简化过程
 最小α公式如何通过简化得到的

8.3.2 前向分步算法与 AdaBoost

猜你喜欢