最优化学习笔记(十六)——拟牛顿法(2)

Hessian矩阵逆矩阵的近似

一、拟牛顿法的基本思路

令 $\boldsymbol{H_0,H_1, H_2}, \dots$ 表示Hessian矩阵逆矩阵 $\boldsymbol{F}(\boldsymbol{x}^{(k)})^{-1}$ 的一系列近似矩阵。我们要讨论的是这些近似矩阵应该满足的条件，这是拟牛顿法的基础。首先，假定目标函数 $f$ 的Hessian矩阵 $\boldsymbol{F(x)}$ 是常数矩阵，与 $\boldsymbol{x}$ 无关，即目标函数是二次型函数， $\boldsymbol{F(x) = Q， Q=Q}^T$ 则：

g (k + 1) - g (k) = Q (x (k + 1) - x (k))

$\boldsymbol{g}^{(k+1)} - \boldsymbol{g}^{(k)} = \boldsymbol{Q}(\boldsymbol{x}^{(k+1)}- \boldsymbol{x}^{(k)})$
令

Δ g (k) = g (k + 1) - g (k) Δ x (k) = x (k + 1) - x (k)

$\Delta\boldsymbol{g}^{(k)} = \boldsymbol{g}^{(k+1)} - \boldsymbol{g}^{(k)} \\ \Delta\boldsymbol{x}^{(k)} = \boldsymbol{x}^{(k+1)}- \boldsymbol{x}^{(k)}$
可得

Δ g (k) = Q Δ x (k)

$\Delta\boldsymbol{g}^{(k)} = \boldsymbol{Q}\Delta\boldsymbol{x}^{(k)}$
记对称正定实矩阵

H0 $\boldsymbol{H_0}$ 作为近似矩阵的初始矩阵，在给定的

k $k$ 下，矩阵

Q−1 $\boldsymbol{Q}^{-1}$ 应该满足：

Q - 1 Δ g (i) = Δ x (i), 0 \leq i \leq k

$\boldsymbol{Q}^{-1}\Delta\boldsymbol{g}^{(i)} = \Delta\boldsymbol{x}^{(i)} , \quad 0 \le i \le k$
因此，近似矩阵

Hk+1 $\boldsymbol{H_{k+1}}$ 应该满足

H k + 1 Δ g (i) = Δ x (i), 0 \leq i \leq k

$\boldsymbol{H}_{k+1}\Delta\boldsymbol{g}^{(i)} = \Delta\boldsymbol{x}^{(i)} , \quad 0 \le i \le k$
如果共展开

n $n$ 次迭代，则共产生

n $n$ 个迭代方向

Δx(0),Δx(1),…,Δx(n−1) $\Delta\boldsymbol{x}^{(0)}, \Delta\boldsymbol{x}^{(1)}, \dots, \Delta\boldsymbol{x}^{(n-1)}$ 。由此可得

Hn $\boldsymbol{H}_{n}$ 应该满足条件：

H n Δ g (0) = Δ x (0) H n Δ g (1) = Δ x (1) ⋮ H n Δ g (n - 1) = Δ x (n - 1)

$\boldsymbol{H}_{n} \Delta\boldsymbol{g}^{(0)} = \Delta\boldsymbol{x}^{(0)} \\ \boldsymbol{H}_{n} \Delta\boldsymbol{g}^{(1)} = \Delta\boldsymbol{x}^{(1)} \\ \vdots \\ \boldsymbol{H}_{n} \Delta\boldsymbol{g}^{(n-1)} = \Delta\boldsymbol{x}^{(n-1)} \\$
将其改写为

H n [Δ g (0), Δ g (1), \dots, Δ g (n - 1)] = [Δ x (0), Δ x (1), \dots, Δ x (n - 1)]

$\boldsymbol{H}_{n} [\Delta\boldsymbol{g}^{(0)}, \Delta\boldsymbol{g}^{(1)}, \dots, \Delta\boldsymbol{g}^{(n-1)}]= [\Delta\boldsymbol{x}^{(0)}, \Delta\boldsymbol{x}^{(1)}, \dots, \Delta\boldsymbol{x}^{(n-1)}]$
矩阵

Q $\boldsymbol{Q}$ 能够满足：

Q [Δ x (0), Δ x (1), \dots, Δ x (n - 1)] = [Δ g (0), Δ g (1), \dots, Δ g (n - 1)]

$\boldsymbol{Q} [\Delta\boldsymbol{x}^{(0)}, \Delta\boldsymbol{x}^{(1)}, \dots, \Delta\boldsymbol{x}^{(n-1)}]= [\Delta\boldsymbol{g}^{(0)}, \Delta\boldsymbol{g}^{(1)}, \dots, \Delta\boldsymbol{g}^{(n-1)}]$
和

Q - 1 [Δ g (0), Δ g (1), \dots, Δ g (n - 1)] = [Δ x (0), Δ x (1), \dots, Δ x (n - 1)]

$\boldsymbol{Q}^{-1} [\Delta\boldsymbol{g}^{(0)}, \Delta\boldsymbol{g}^{(1)}, \dots, \Delta\boldsymbol{g}^{(n-1)}]= [\Delta\boldsymbol{x}^{(0)}, \Delta\boldsymbol{x}^{(1)}, \dots, \Delta\boldsymbol{x}^{(n-1)}]$
这说明，如果

[Δg(0),Δg(1),…,Δg(n−1)] $[\Delta\boldsymbol{g}^{(0)}, \Delta\boldsymbol{g}^{(1)}, \dots, \Delta\boldsymbol{g}^{(n-1)}]$ 非奇异，那么矩阵

Q−1 $\boldsymbol{Q}^{-1}$ 能够在

n $n$ 次迭代之后唯一确定，即

Q - 1 = H n = [Δ x (0), Δ x (1), \dots, Δ x (n - 1)] [Δ g (0), Δ g (1), \dots, Δ g (n - 1)] - 1

$\boldsymbol{Q}^{-1} = \boldsymbol{H}_{n} = [\Delta\boldsymbol{x}^{(0)}, \Delta\boldsymbol{x}^{(1)}, \dots, \Delta\boldsymbol{x}^{(n-1)}][\Delta\boldsymbol{g}^{(0)}, \Delta\boldsymbol{g}^{(1)}, \dots, \Delta\boldsymbol{g}^{(n-1)}]^{-1}$
由此，可得如果

Hn $\boldsymbol{H}_{n}$ 能够使得方程

HnΔg(i)=Δx(i),0≤i≤n−1 $\boldsymbol{H}_{n}\Delta\boldsymbol{g}^{(i)} = \Delta\boldsymbol{x}^{(i)} , \quad 0 \le i \le n-1$ 成立，那么利用迭代公式

x(k+1)=x(k)−αkHkgk,αk=argmina≥0f(x(k)−αHkgk) $\boldsymbol{x}^{(k+1)}=\boldsymbol{x}^{(k)} - \alpha_k \boldsymbol{H}_{k} \boldsymbol{g}_{k}, \alpha_k = \arg \min_{a \ge 0}f(\boldsymbol{x}^{(k)} - \alpha \boldsymbol{H}_{k} \boldsymbol{g}_{k})$ 求解

n $n$ 维二次优化问题，可得

x(n+1)=x(n)−αnHngn $\boldsymbol{x}^{(n+1)}=\boldsymbol{x}^{(n)} - \alpha_n \boldsymbol{H}_{n} \boldsymbol{g}_{n}$ ,这与牛顿法的迭代公式是一致的，说明能够在

n+1 $n+1$ 次迭代内完成求解。

二、拟牛顿法的的迭代公式

拟牛顿法的的迭代公式为：

d (k) = - H k g (k) α k = arg min a \geq 0 f (x (k) + α d (k)) x (k + 1) = x (k) + α k d (k)

$\boldsymbol{d}^{(k)} = - \boldsymbol{H}_{k}\boldsymbol{g}^{(k)} \\ \alpha_k = \arg \min_{a \ge 0}f(\boldsymbol{x}^{(k)} + \alpha \boldsymbol{d}^{(k)}) \\ \boldsymbol{x}^{(k+1)}=\boldsymbol{x}^{(k)} + \alpha_k\boldsymbol{d}^{(k)}$
其中，

H0,H1,H2,… $\boldsymbol{H_0,H_1, H_2}, \dots$ 是对称矩阵。
目标函数为二次型函数时，它们必须满足

H k + 1 Δ g (i) = Δ x (i), 0 \leq i \leq k

$\boldsymbol{H}_{k+1}\Delta\boldsymbol{g}^{(i)} = \Delta\boldsymbol{x}^{(i)} , \quad 0 \le i \le k$
其中，

Δx(i)=x(i+1)−x(i)=αid(k),Δg(i)=g(i+1)−g(i)=QΔx(i) $\Delta\boldsymbol{x}^{(i)} = \boldsymbol{x}^{(i+1)}- \boldsymbol{x}^{(i)} = \alpha_i \boldsymbol{d}^{(k)}, \Delta\boldsymbol{g}^{(i)} = \boldsymbol{g}^{(i+1)}- \boldsymbol{g}^{(i)} =\boldsymbol{Q}\Delta\boldsymbol{x}^{(i)}$
实际上，拟牛顿法也是一种共轭方法。

三、定理

将拟牛顿法应用到二次型问题中， Hessian矩阵为 $\boldsymbol{Q} = \boldsymbol{Q}^T$ ，对于 $0 \le k \le n-1$ , 有：

H k + 1 Δ g (i) = Δ x (i), 0 \leq i \leq k

$\boldsymbol{H}_{k+1}\Delta\boldsymbol{g}^{(i)} = \Delta\boldsymbol{x}^{(i)} , \quad 0 \le i \le k$ 其中 $\boldsymbol{H}_{k+1} = \boldsymbol{H}_{k+1}^T$ 。如果 $\alpha_i \ne 0, 0 \le i \le k$ , 那么 $\boldsymbol{d}^{(0)}，\boldsymbol{d}^{(1)}，\dots，\boldsymbol{d}^{(k+1)}$ 是 $\boldsymbol{Q}$ 共轭的。

由以上定理可知，对于 $n$ 维二次型问题，拟牛顿法最多经过 $n$ 部迭代即可求出最优解。注意，矩阵 $\boldsymbol{H}_{k}$ 并不能唯一确定，这就给计算矩阵 $\boldsymbol{H}_{k}$ 的自由发挥空间。