求解问题

二次型 (Quadratic form)是一个形如 $f(x) = \frac{1}{2}x^TAx - b^Tx + c$ 的标量二次方程，如果 $A$ 是一个 $n*n$ 对称正定阵，那么 $f(x)$ 的最小值在 $Ax=b$ 时取到。计算如下：

f^{'} (x) = A x - b = 0

$f'(x)=Ax-b=0$

换一种方式，如果 $x=A^{-1}b$ ，对任意 $e \neq 0$ ，都有 $f(x+e)>f(x)$ ，证明如下：

f (x + e) = \frac{1}{2} (x + e)^{T} A (x + e) - b^{T} (x + e) + c = \frac{1}{2} x^{T} A x - b^{T} x + c + e^{T} A x - b^{T} e + \frac{1}{2} e^{T} A e = f (x) + \frac{1}{2} e^{T} A e > f (x)

$f(x+e) = \frac{1}{2}(x+e)^TA(x+e)-b^T(x+e)+c \\ = \frac{1}{2}x^TAx - b^Tx + c + e^TAx - b^Te + \frac{1}{2}e^TAe \\ = f(x) + \frac{1}{2}e^TAe > f(x)$

因此，待求解的问题就是解 $Ax=b$ ，或者等价的，求解二次型方程 $f(x)$ 的最小值。

误差与残差

最速下降法迭代求解 $Ax=b$ 。定义第 $i$ 次迭代得到的解为 $x_{(i)}$ ，随着迭代次数 $i$ 的增加，如果算法收敛，则 $x_{(i)}$ 将趋向于正解 $x$ 。
定义第 $i$ 次迭代的误差(error)为迭代解和正解的差，即

e_{(i)} = x_{(i)} - x

$e_{(i)} = x_{(i)} - x$

定义第 $i$ 次迭代的残差(residual)为迭代解在方程中的偏差，即

r_{(i)} = b - A x_{(i)}

$r_{(i)} = b - Ax_{(i)}$

残差和误差之间的关系如下，

r_{(i)} = b - A x_{(i)} = b - A (x + e_{(i)}) = - A e_{(i)}

$r_{(i)} = b - Ax_{(i)} = b - A(x+e_{(i)}) = -Ae_{(i)}$

梯度下降法

梯度下降法(Gradient Descent)就是让下一次迭代沿着残差的方向进行，因为残差方向就是 $f(x)$ 在 $x_{(i)}$ 处的梯度方向，即

x_{(i + 1)} = x_{(i)} + α r_{(i)}

$x_{(i+1)} = x_{(i)} + \alpha r_{(i)}$

其中 $\alpha$ 表示迭代的步长。

最速梯度下降法

普通的梯度下降法将 $\alpha$ 作为可调参数；而最速下降法(Steepest Descent)希望能一直沿着该梯度方向，走到该方向上的最低点，因此在二次型的背景下，它可以求解出 $\alpha$ 。这里的变量是 $\alpha$ ，函数是 $f(x)$ ，求解最小值当然是导数等于0，即

\frac{d f (x)}{d α} = \frac{d f (x)}{d x} \cdot \frac{d x}{d α}

$\frac{df(x)}{d\alpha} = \frac{df(x)}{dx} \cdot \frac{dx}{d\alpha}$

代入 $x=x_{(i+1)}$ ，得到

\frac{d f (x_{(i + 1)})}{d α} = (A x_{(i + 1)} - b)^{T} \cdot r_{(i)} = (A x_{(i)} + α A r_{(i)} - b)^{T} \cdot r_{(i)} = α r_{(i)}^{T} A r_{(i)} - r_{(i)}^{T} r_{(i)} = 0

$\frac{df(x_{(i+1)})}{d\alpha} = (Ax_{(i+1)} - b)^T \cdot r_{(i)} \\ = (Ax_{(i)} + \alpha A r_{(i)} - b)^T \cdot r_{(i)} \\ = \alpha r_{(i)}^TAr_{(i)} - r_{(i)}^Tr_{(i)} = 0$

将 $r_{(i)}$ 简写为 $r$ ，得到

α = \frac{r^{T} r}{r^{T} A r}

$\alpha = \frac{r^Tr}{r^TAr}$

由此我们也能计算出下一次迭代中的残差项 $r_{(i+1)}$ ，

r_{(i + 1)} = b - A x_{(i + 1)} = b - A x_{(i)} - α A r_{(i)} = r_{(i)} - α A r_{(i)}

$r_{(i+1)} = b - Ax_{(i+1)} = b - Ax_{(i)} - \alpha A r_{(i)} = r_{(i)} - \alpha A r_{(i)}$

由于计算 $\alpha$ 时也需要计算 $A r_{(i)}$ ，因此迭代计算残差可以比直接计算要快。

收敛性证明

虽然直观上每一步都沿着梯度下降，而正定的二次型背景又决定了不会存在局部极值点或者鞍点，最速下降法似乎一定会收敛。但考虑严谨性，同时考虑收敛的效率，仍需证明它的收敛性。
由于 $A$ 对称正定，因此存在 $n$ 个互相正交的、单位长度的特征向量，记这些特征向量为 $v_j$ ，它们对应的特征值为 $\lambda_j$ （由正定性可知 $\lambda_j>0$ ）。
（以下出于简化考虑，第 $i$ 次迭代的下标将省略，非第 $i$ 次迭代的下标保留。）
将误差项 $e$ 表示为特征向量的线性组合，则

e = \sum_{j = 1}^{n} ξ_{j} v_{j}

$e = \sum_{j=1}^{n} \xi_j v_j$

那么由 $r=-Ae$ 可得，

r = - A e = - \sum_{j = 1}^{n} ξ_{j} A v_{j} = - \sum_{j = 1}^{n} ξ_{j} λ_{j} v_{j}

$r = -Ae = - \sum_{j=1}^{n} \xi_j A v_j = - \sum_{j=1}^{n} \xi_j \lambda_j v_j$

作为预备，解出

e^{T} e = \sum_{j} ξ_{j}^{2} e^{T} A e = \sum_{j} ξ_{j}^{2} λ_{j} r^{T} r = \sum_{j} ξ_{j}^{2} λ_{j}^{2} r^{T} A r = \sum_{j} ξ_{j}^{2} λ_{j}^{3}

$e^Te = \sum_{j} \xi_j^2 \\ e^TAe = \sum_{j} \xi_j^2 \lambda_j \\ r^Tr = \sum_{j} \xi_j^2 \lambda_j^2 \\ r^TAr = \sum_{j} \xi_j^2 \lambda_j^3$

寻找下一轮迭代误差和当前误差之间的关系：

| | e_{(i + 1)} | |_{A}^{2} = e_{(i + 1)}^{T} A e_{(i + 1)} = (e^{T} + α r^{T}) A (e + α r) = e^{T} A e + 2 α r^{T} A e + α^{2} r^{T} A r = e^{T} A e - 2 \frac{r^{T} r}{r^{T} A r} r^{T} r + (\frac{r^{T} r}{r^{T} A r})^{2} r^{T} A r = e^{T} A e - \frac{(r^{T} r)^{2}}{r^{T} A r} = | | e | |_{A}^{2} [1 - \frac{(r^{T} r)^{2}}{r^{T} A r \cdot e^{T} A e}] = | | e | |_{A}^{2} ω^{2}

$||e_{(i+1)}||_A^2 = e_{(i+1)}^T A e_{(i+1)} = (e^T+\alpha r^T) A (e+\alpha r) \\ = e^TAe + 2\alpha r^TAe + \alpha^2r^TAr \\ = e^TAe - 2 \frac{r^Tr}{r^TAr} r^Tr + (\frac{r^Tr}{r^TAr})^2r^TAr \\ = e^TAe - \frac{(r^Tr)^2}{r^TAr} \\ = ||e||_A^2 \left[ 1 - \frac{(r^Tr)^2}{r^TAr \cdot e^TAe} \right] \\ = ||e||_A^2 \omega^2$

其中， $\omega$ 决定了收敛速度，

ω^{2} = 1 - \frac{(r^{T} r)^{2}}{r^{T} A r \cdot e^{T} A e} = 1 - \frac{(\sum_{j} ξ_{j}^{2} λ_{j}^{2})^{2}}{(\sum_{j} ξ_{j}^{2} λ_{j}^{3}) \cdot (\sum_{j} ξ_{j}^{2} λ_{j})}

$\omega^2 = 1 - \frac{(r^Tr)^2}{r^TAr \cdot e^TAe} \\ = 1 - \frac{(\sum_{j} \xi_j^2 \lambda_j^2)^2}{(\sum_{j} \xi_j^2 \lambda_j^3) \cdot (\sum_{j} \xi_j^2 \lambda_j)}$

$\omega$ 的大小和矩阵 $A$ 自身性质相关，不加证明地给出

ω \leq \frac{κ - 1}{κ + 1}

$\omega \le \frac{\kappa-1}{\kappa+1}$

其中 $\kappa$ 为 $A$ 的条件数 (Condition number)，即 $\kappa=\lambda_{max}/\lambda_{min}$ ，条件数越大，矩阵性质越差，收敛速度越慢；条件数越小，矩阵性质越好，收敛越快。但无论如何， $\omega<1$ ，因此最速下降法在足够迭代次数下总是能收敛。

缺陷

如上所述，条件数过大时，最速下降法收敛速度很慢。比如，考虑一个很扁的椭圆（其长短轴分别为最大最小特征值，很扁说明条件数很大），如果起始点在长轴末端附近，则很容易走出“之”字形的路线，如下图所示。

最速下降法收敛慢的例子

下一节的共轭方向法将考虑解决这一问题。

参考文献

《An Introduction to the Conjugate Gradient Method Without the Agonizing Pain》

这篇参考文献的摘要和introduction非常有趣，怼人的部分摘录如下：

… Unfortunately, many textbook treatments of the topic are written with neither illustrations nor intuition, and their victims can be found to this day babbling senselessly in the corners of dusty libraries. For this reason, a deep, geometric understanding of the method has been reserved for the elite brilliant few who have painstakingly decoded the mumblings of their forebears …
… When I decided to learn the Conjugate Gradient Method (henceforth, CG), I read four different descriptions, which I shall politely not identify. I understood none of them. Most of them simply wrote down the method, then proved its properties without any intuitive explanation or hint of how anybody might have invented CG in the first place. This article was born of my frustration …

《共轭梯度法》读书笔记（一）——最速下降法