优化问题综述(四)有约束最优化算法

最优化问题的三种情况

无约束条件：梯度下降法等（前面的文章已经有详细的描述）
等式约束条件：解决方法是消元法或者拉格朗日法。
不等式约束条件：一般用KKT（Karush Kuhn Tucker）条件对偶求解

等式约束条件下的优化算法

问题的数学描述： $min_x f(x),s.t.,h_i(x)=0,i=1,2,..,I$

消元法

根据约束条件消去一些未知数，使得问题变为无约束的优化问题，再用无约束条件的方法求解，但是有时候这样做很困难，甚至是做不到的。

拉格朗日法

拉格朗日函数为 $F(x)=f(x)+\sum_i\lambda_ih_i(x)$ ，对其求解偏导方程 $\frac{\partial F}{\partial x}=0,\frac{\partial F}{\partial \lambda_i}=0$ ,如果有 $I$ 个约束条件，就应该有 $I+1$ 个方程。求出的方程组的解就可能是最优化值，将结果带回原方程验证，如果符合要求就可得到解。

拉格朗日乘子法的证明

这里写图片描述
从几何的角度看，如果找到了一个极值点，必然有极值点所在的等高面 $f(x)=d$ 与约束曲面 $h_i(x)=0$ 是相切的。否则，必然还可以沿着约束曲线继续走，找到一个更低的点，这意味着，在极值点：

\nabla f (x) = - λ \nabla h (x)

$\nabla f(x)=-\lambda\nabla h(x)$

因为约束曲面的交线的法线在各个约束曲面法线所组成的超平面上

\nabla f (x) = - s u m_{i} λ_{i} \nabla h_{i} (x)

$\nabla f(x)=-sum_i\lambda_i\nabla h_i(x)$

因为拉格朗日函数为 $F(x)=f(x)+\sum_i\lambda_ih_i(x)$ ，那么有

\nabla_{x} F (x) = \nabla_{x} f (x) + s u m_{i} λ_{i} \nabla_{x} h_{i} (x) = 0

$\nabla_x F(x)=\nabla_x f(x)+sum_i\lambda_i\nabla_x h_i(x)=0$

\nabla_{λ_{i}} F (x) = h_{i} (x) = 0

$\nabla_{\lambda_i} F(x)=h_i(x)=0$

不等式约束条件下的优化算法

问题的数学描述： $min_x f(x),s.t.,h_k(x)=0,g_j(x)<0,k=1,2,..,K,j==1,2,..,J$

不考虑不等式约束的极小值出现在空间的位置有两种情况：

极小值本身就满足不等式约束，此时可以不用理会约束条件，直接求目标函数的极小值；
极小值本身不满足不等式约束，此时受约束的极值点所在的等高线必然与 $g(x)=0$ 曲线相切，否则可以找到更小的值，并且该极小值点关于约束函数的梯度 $\nabla_x g(x)$ 与关于目标函数的梯度 $\nabla_x f(x)$ 方向必定是相反的。

KKT条件

拉格朗日函数： $L(x,\lambda,\mu)=f(x)+\sum_{k}\lambda_kh_k(x)+\sum_{j}\lambda_jg_j(x),\mu_j\geq 0$

由前面的讨论可知

如果可行解落在约束边界上： $\nabla_x f(x)=-\mu \nabla_x g(x) \mu_j>0$
如果等式的极小值本身就满足不等式约束：此时约束不起作用 $\mu=0$

KKT条件是说最优值必须满足以下条件：

$\nabla_x L(x,\lambda,\mu) = 0$
$\mu_j g_j(x)=0$
$h_k(x)=0$
$g_j(x)\leq 0$
$\mu_j \geq 0$

等式约束很容易融入原本最小化问题，现在只考虑问不等式的约束，KKT中不等式约束必须满足：

{\begin{matrix} g_{j} (x) \leq 0 \\ μ_{j} \geq 0 \end{matrix}

$\left \{\begin{array}{}g_j(x)\leq 0 \\\mu_j \geq 0 \end{array} \right.$

那么有 $\mu_j g_j(x)\leq 0$ ，从而有 $max_{mu}L(x,\mu)=f(x)$ ，可知

m i n_{x} f (x) = m i n_{x} m a x_{m u} L (x, μ)

$min_xf(x)=min_xmax_{mu}L(x,\mu)$

对偶问题： $max_{mu}min_xL(x,\mu)=max_{mu}min_x[f(x)+\mu g(x)]$

μ g (x) = {\begin{matrix} 0 & g (x) = 0 o r μ = 0 \\ - \infty & g (x) < 0 a n d μ > 0 \end{matrix}

$\mu g(x)=\left \{\begin{array}{}0 && g(x)=0~ or~ \mu=0 \\ -\infty && g(x)<0~and~ \mu>0 \end{array} \right.$

因此当满足KKT条件时， $max_{mu}min_xL(x,\mu)=min_xf(x)$
KKT条件是个强对偶条件，满足则对偶问题等价于原问题。

对偶问题更一般的描述

原问题的最优解 $p^*=min_xmax_{\mu}L(x,\mu)=min_x\theta_p(x)$
对偶问题的最优解 $d^*=max_{\mu}min_xL(x,\mu)=max_{\mu}\theta_d(\mu)$
原问题与对偶问题的关系 $p^*\geq d^*$
证明： $\theta_p(x)=max_{\mu}L(x,\mu)\geq L(x,\mu)\geq min_xL(x,\mu)=\theta_d(\mu)$

推论：如果 $p^*= d^*$ ，那么原问题与对偶问题的解 $x,\mu$ 相同

更数学化的描述

L (x, λ, μ) = f (x) + \sum_{k} λ_{k} h_{k} (x) + s u m_{j} μ_{j} g_{j} (x), μ \geq 0

$L(x,\lambda,\mu)=f(x)+\sum_k \lambda_kh_k(x)+sum_j\mu_jg_j(x),\mu\geq 0$
定义域

D \times R^{K} \times R^{J}

$D\times R^K \times R^J$

G (λ, μ) = i n f_{x \in D} L (x, λ, μ)

$G(\lambda,\mu)=inf_{x\in D}L(x,\lambda,\mu)$

则原问题的对偶问题为 $max_{(\lambda,\mu)}G(\lambda,\mu),\mu\geq 0$
不论原问题是不是一个凸优化问题，其对偶问题是一个凸优化问题

例子

m i n_{x} f (x) = x^{2}, s . t ., g (x) = x - 5 \leq 0

$min_x f(x)=x^2,s.t.,g(x)=x-5\leq 0$

解：

L (x, μ) = x^{2} + 2 μ (x - 5)

$L(x,\mu)=x^2+2\mu(x-5)$

\nabla_{x} L (x, μ) = 2 x + 2 μ

$\nabla_x L(x,\mu)=2x+2\mu$

m i n_{x} m a x_{μ \geq 0} L (x, μ) = m a x_{μ \geq 0} m i n_{x} x^{2} + 2 μ (x - 5)

$min_xmax_{\mu\geq 0}L(x,\mu)=max_{\mu\geq 0}min_xx^2+2\mu(x-5)$

$min_xx^2+2\mu(x-5)$ 对应的 $x=-\mu$ ，值为 $-\mu^2-10\mu$ ，那么 $max_{\mu\geq 0}-\mu^2-10\mu=0$ ，对应的 $\mu=0$