假设前提：

所有训练数据点都线性可分的
初值 $(w_0, b_0) = \vec{0}$

证明前的一些定义

（1）令
$\hat w = (w^T, b)^T \ \ \ \ \ 向量一般默认为列向量 \\ \hat x = (x, 1)$
则
$\hat w \cdot \hat x = w \cdot x + b$
（2）
所有训练数据点都线性可分
$\Rightarrow \exists$ 一个超平面，使得所有训练数据集都被正确划分
令这个超平面为
$\hat w_{opt} \cdot \hat x = 0 且 ||\hat w_{opt}|| = 1 \tag {15}$
（3）令
$\gamma = min_i\{y_i(\hat w_{opt} \cdot \hat x_i)\} \tag {1}$
（4）令 $\hat w_k$ $为更新了k次之后的$ $\hat w$
（5）令
$R = max_{1 \le i \le n}||\hat x_i|| \tag {10}$

证明过程

超平面 $\hat w_{opt} \cdot \hat x = 0$ 将所有数据都完全正确的分开
$\Rightarrow \forall (\hat x_i, y_i)$ ，有 $y_i$ $与$ $\hat w_{opt} \cdot \hat x_i$ 符号相同，且两者都不为0
$\Rightarrow \forall (\hat x_i, y_i)$ $，有$ $y_i(\hat w_{opt} \cdot \hat x_i)>0$
以上结论结合公式（1）得：
$y_i(\hat w_{opt} \cdot \hat x_i) \ge \gamma \gt 0 \tag {2}$

假设算法已经更新了k次，则至少有一个样本点在超平面 $\hat w_{k-1} \cdot \hat x = 0$ 上分类错误
假设 $(x_i, y_i)$ 就是这个分类错误的点，则
$y_i(\hat w_{k-1} \cdot \hat x_i) < 0 \tag {9}$
且：
$\begin{cases} w_k = w_{k-1} + \eta y_ix_i \\ b_k = b_{k-1} + \eta y_i \end{cases} \tag {3}$
计算 $\hat w_{k}$ $与$ $\hat w_{k-1}$ 的关系：
$\hat w_k = (w_k, b_k) = (w_{k-1} + \eta y_ix_i, b_{k-1} + \eta y_i) \\ = (w_{k-1}, b_{k-1}) + (\eta y_ix_i, \eta y_i) = \hat w_{k-1} + \eta y_i (x_i, 1) = \hat w_{k-1} + \eta y_i \hat x_i$
得到：
$\hat w_k = \hat w_{k-1} + \eta y_i \hat x_i \tag {4}$
Note: 由公式（3）推公式（4）本来很简单，之前一直推不出来是因为我把公式（4） $\eta y_i \hat x_i$ $当成了一个数，用numpy里面向量和数值相加的公式来算公式（4）。实际上$ $\eta y_i \hat x_i$ 也是一个n+1的向量，应该使用向量的加法来计算公式（4）。

证明 $\hat w_k \cdot \hat w_{opt} \ge k \eta \gamma$ :
$\hat w_k \cdot \hat w_{opt} = (\hat w_{k-1} + \eta y_i \hat x_i) \cdot \hat w_{opt} \tag {5}$
$= \hat w_{k-1} \cdot \hat w_{opt} + \eta y_i \hat x_i \cdot \hat w_{opt} \tag {}$
$\ge \hat w_{k-1} \cdot \hat w_{opt} + \eta \gamma \tag {6}$
$\ge \hat w_{k-2} \cdot \hat w_{opt} + 2\eta \gamma$
$\cdots \tag {}$
$\ge \hat w_0 \cdot \hat w_{opt} + k\eta \gamma$
$\ge k\eta \gamma \tag {7}$
公式说明：

步骤（5）：由公式（4）得到
步骤（6）：由公式（2）得到
步骤（7）：假设初值 $(w_0, b_0) = \vec{0}$ ？
最终得到：
$\hat w_k \cdot \hat w_{opt} \ge k \eta \gamma \tag {8}$

证明 $||\hat w_k||^2 \le k \eta^2R^2$ ：
$||\hat w_k||^2 = ||\hat w_{k-1}||^2 + 2\hat w_{k-1}\eta y_i\hat x_i + (\eta y_i \hat x_i)^2 \tag {11}$
$\lt ||\hat w_{k-1}||^2 + 0 + \eta^2\hat x_i^2 \tag{12}$
$\le ||\hat w_{k-1}||^2 + \eta^2R^2 \tag{13}$
$\le ||\hat w_{k-2}||^2 + 2\eta^2R^2$
$\cdots$
$\le ||\hat w_{0}||^2 + k\eta^2R^2 \tag{13}$
$\le k\eta^2R^2$
公式说明：

步骤（11）：结合公式（4）得到
步骤（12）：结合公式（9）得到第二项小于，第三项中 $y_i^2=1$
步骤（13）：结合公式（10）得到
最终得到：
$||\hat w_k||^2 \le k \eta^2R^2 \tag {14}$

$公式（8）\Rightarrow k\eta\gamma \le \hat w_k \cdot \hat w_{opt}$
$\Rightarrow k^2\eta^2\gamma^2 \le ||\hat w_k||^2||\hat w_{opt}||^2$
$\Rightarrow k^2\eta^2\gamma^2 \le ||\hat w_k||^2 \le \eta^2R^2 \tag {16}$
$\Rightarrow k \le (\frac {R}{\gamma})^2$
公式说明：

步骤（16）：结合公式（15）

最终结论：
$k \le (\frac {R}{\gamma})^2$
命题得证

windmissing 博客专家

发布了407 篇原创文章 · 获赞 328 · 访问量 111万+

他的留言板关注

2-4 梯度下降法的收敛证明

假设前提：

证明前的一些定义

证明过程

猜你喜欢