近端梯度下降算法(Proximal Gradient Algorithm)

摘要：介绍梯度下降算法，以及在 $f(x)$ 的梯度 $\bigtriangledown f(x)$ 满足L-Lipschitz条件下的梯度下降算法的意义，并由此展开的非光滑约束下的近端梯度下降算法，求解 $\min_x f^s(x)+f^n(x)$ 问题.

设函数 $f(x)$ 在有限区间 $[a,b]$ 上满足如下条件：

当 $x\in[a,b]$ 时， $f(x)\in[a,b]$ ，即 $a\leq f(x)\leq b$ ；

对任意的 $x_1，x_2\in[a,b]$ ， $|f(x_1)-f(x_2)|\leq L|x_1-x_2|$ 恒成立；

则称 $f(x)$ 在 $[a,b]$ 上满足L-Lipschitz条件， $L$ 称为Lipschitz常数.

可以发现，L-Lipschitz连续比一致连续更强，要求函数值在有限区间的变化幅度受到限制.

进一步的，如果函数 $f(x)$ 的梯度 $\bigtriangledown f(x)$ 满足L-Lipschitz连续，则其在给定点 $x^{(k)}$ 可以展开成如下二阶近似形式

\hat{f} (x; x^{(k)}) ≐ f (x^{(k)}) + < ▽ f (x^{(k)}, x - x^{(k)}) > + \frac{L}{2} | | x - x^{(k)} | |^{2}

$\hat{f}(x;x^{(k)})\doteq f(x^{(k)})+<\bigtriangledown f(x^{(k)},x-x^{(k)})>+\frac{L}{2}||x-x^{(k)}||^2$

展开，并将与 $x$ 无关的项记为 $\phi(x^{(k)})$ ，则可以进一步化简为

\hat{f} (x; x^{(k)}) = \frac{L}{2} | | x - (x^{(k)} - \frac{1}{L} ▽ f (x^{(k)})) | |^{2} + ϕ (x^{(k)})

$\hat{f}(x;x^{(k)})=\frac{L}{2}\bigg\lvert\bigg\lvert x-\left(x^{(k)}-\frac{1}{L}\bigtriangledown f(x^{(k)})\right)\bigg\rvert\bigg\rvert^2+\phi(x^{(k)})$

由图可知

\hat{f} (x; x^{(k)}) \geq f (x)

$\hat{f}(x;x^{(k)})\geq f(x)$

当且仅当 $x=x^{(k)}$ 时，取等号. $\hat{f}(x;x^{(k)})$ 实际上为原目标函数的二次上界.

令 $x^{(k+1)}=\arg\min_x \hat{f}(x;x^{(k)})$ ，则可以得到

x^{(k + 1)} = x^{(k)} - \frac{1}{L} ▽ f (x^{(k)})

$x^{(k+1)}=x^{(k)}-\frac{1}{L}\bigtriangledown f(x^{(k)})$

因此，在二阶近似的条件下，梯度下降可以理解为：

每一次迭代都在最小化目标函数在上一次迭代点处的二次上界.

收敛速度为 $O(\frac{1}{k})$ .

3. 引入非光滑约束后的近端梯度下降算法

考虑 $\min_x f^s(x)+f^n(x)$ ，其中 $f^s(x)$ 为可微凸函数，且其梯度 $\bigtriangledown f^s(x)$ 满足L-Lipschitz条件， $f^n(x)$ 为非光滑函数.
对光滑部分做如上二阶近似，得到

\hat{f} (x; x^{(k)}) = \frac{L}{2} | | x - (x^{(k)} - \frac{1}{L} ▽ f^{s} (x^{(k)})) | |^{2} + ϕ (x^{(k)}) + f^{n} (x)

$\hat{f}(x;x^{(k)})=\frac{L}{2}\bigg\lvert\bigg\lvert x-\left(x^{(k)}-\frac{1}{L}\bigtriangledown f^s(x^{(k)})\right)\bigg\rvert\bigg\rvert^2+\phi(x^{(k)})+f^n(x)$

令 $x^{(k+1)}=\arg\min_x \hat{f}(x;x^{(k)})$ ，则可以得到近端梯度下降的更新公式

x^{(k + 1)} = \arg min_{x} \frac{L}{2} | | x - (x^{(k)} - \frac{1}{L} ▽ f^{s} (x^{(k)})) | |^{2} + f^{n} (x)

$x^{(k+1)}=\arg\min_x \frac{L}{2}\bigg\lvert\bigg\lvert x-\left(x^{(k)}-\frac{1}{L}\bigtriangledown f^s(x^{(k)})\right)\bigg\rvert\bigg\rvert^2+f^n(x)$

而该更新公式可以通过如下近端问题高效求解：

p r o x_{μ f^{n} (x)} (z) = \arg min_{x} \frac{1}{2} | | x - z | |^{2} + μ f^{n} (x)

$prox_{\mu f^n(x)}(z)=\arg\min_x \frac{1}{2} ||x-z||^2+\mu f^n(x)$

即最小化 $\mu f^n(x)$ 加上一个独立的二次问题. 此时的收敛速率仍为 $O(\frac{1}{k})$ .

4. 三个近端梯度下降计算非光滑约束优化的例子

例1：

凸稀疏罚函数 $f^n(x)=||x||_1$ ，此时得到的近端优化问题为

$\arg min_{x} \frac{1}{2} | | x - z | |^{2} + μ | | x | |_{1}$ $\arg\min_x\frac{1}{2} ||x-z||^2+\mu ||x||_1$
求解得到 $z$ 的软阈值函数
$p r o x_{μ f^{n} (x)} (z) = S_{μ} (z) = s i g n (z) max {| z | - μ, 0}$ $prox_{\mu f^n(x)}(z)=S_\mu(z)=sign(z)\max\left\{|z|-\mu,0\right\}$
此时的该操作符能够将 $z$ 的所有元素向 $0$ 压缩，而且计算仅需线性时间.

例2：

取 $f^n(x)=||x||_0$ ，则得到 $z$ 的硬阈值函数

$p r o x_{μ f^{n} (x)} (z) = H_{μ} (z) = {\begin{cases} z | z | \geq μ \\ 0 o t h e r w i s e \end{cases}$ $prox_{\mu f^n(x)}(z)=H_\mu(z)=\begin{cases} z \quad|z|\geq\mu\\ 0 \quad otherwise \end{cases}$

例3：

取 $f^n(x)=\sum_i I_{\infty}[x_i \leq 0]$ ，则得到ReLU网的非线性变换

$p r o x_{μ f^{n} (x)} (z) = R e c (z) = max {z, 0}$ $prox_{\mu f^n(x)}(z)=Rec(z)=\max\left\{z,0\right\}$