《8.3.2 前向分步算法与 AdaBoost》最小α公式如何通过简化得到的

本文是将文章《8.3.2 前向分步算法与 AdaBoost》中的公式单独拿出来做一个详细的解析，便于初学者更好的理解。

$\alpha_m^* = \frac{1}{2} \log \frac{1 - e_m}{e_m}$

我们从公式 $(8.22)$ 开始，详细列出将 $G_m^*(x)$ 代入后并一步步化简的过程。

公式 $(8.22)$

首先，公式 $(8.22)$ 的初始形式为：

$\sum_{i=1}^N w_{mi} \exp(-y_i \alpha G(x_i)) = (e^{\alpha} - e^{-\alpha}) \sum_{i=1}^N w_{mi} I(y_i \neq G(x_i)) + e^{-\alpha} \sum_{i=1}^N w_{mi}$

其中：

$G (x)$ 是一个弱分类器。
$w_{mi}$ 是样本 $x_i$ 的权重。
$I(y_i \neq G(x_i))$ 是指示函数，当 $y_i \neq G(x_i)$ 时取 1，否则取 0。

1. 将 $G_m^*(x)$ 代入公式 $(8.22)$

已知 $G_m^*(x)$ 是在第 $m$ 轮使分类误差最小的弱分类器，因此将 $G (x)$ 替换为 $G_m^*(x)$ ，公式变为：

$\sum_{i=1}^N w_{mi} \exp(-y_i \alpha G_m^*(x_i)) = (e^{\alpha} - e^{-\alpha}) \sum_{i=1}^N w_{mi} I(y_i \neq G_m^*(x_i)) + e^{-\alpha} \sum_{i=1}^N w_{mi}$

接下来我们简化公式中的各项。

2. 定义分类误差率 $e_m$

定义当前弱分类器 $G_m^*(x)$ 的加权分类误差率为：

$e_m = \sum_{i=1}^N w_{mi} I(y_i \neq G_m^*(x_i))$

在这个定义下，公式可以重写为：

$\sum_{i=1}^N w_{mi} \exp(-y_i \alpha G_m^*(x_i)) = (e^{\alpha} - e^{-\alpha}) e_m + e^{-\alpha} \sum_{i=1}^N w_{mi}$

3. 求解总权重和

权重 $w_{mi}$ 是在上一轮（即第 $m - 1$ 轮）归一化过的权重，因此满足：

$\sum_{i=1}^N w_{mi} = 1$

于是公式可以进一步简化为：

$\sum_{i=1}^N w_{mi} \exp(-y_i \alpha G_m^*(x_i)) = (e^{\alpha} - e^{-\alpha}) e_m + e^{-\alpha}$

4. 对 $\alpha$ 求导，找到最优 $\alpha_m$

我们希望找到一个最优的 $\alpha$ 值，使得上式的损失最小。为此，对 $\alpha$ 求导并令其等于 0。

将公式记为：

$f(\alpha) = (e^{\alpha} - e^{-\alpha}) e_m + e^{-\alpha}$

对 $f(\alpha)$ 关于 $\alpha$ 求导，得到：

$f'(\alpha) = e^{\alpha} e_m + e^{-\alpha} e_m - e^{-\alpha}$

令导数等于 0：

$e^{\alpha} e_m + e^{-\alpha} e_m - e^{-\alpha} = 0$

移项得到：

$e^{\alpha} e_m = e^{-\alpha} (1 - e_m)$

两边同时乘以 $e^{\alpha}$ 得：

$e^{2\alpha} e_m = 1 - e_m$

解出 $e^{\alpha}$ ：

$e^{\alpha} = \sqrt{\frac{1 - e_m}{e_m}}$

取对数，得到：

$\alpha_m = \frac{1}{2} \log \frac{1 - e_m}{e_m}$

最终结果

我们得到了最优的 $\alpha_m$ 值为：

$\alpha_m = \frac{1}{2} \log \frac{1 - e_m}{e_m}$

这个结果表明了在给定分类器 $G_m^*(x)$ 的情况下，权重 $\alpha_m$ 的计算公式。