抄书——最优化的理论与方法(5)——数学基础(凸集和凸函数)

以下内容主要抄自抄袁亚湘的《最优化理论与方法》的 1.3 凸集和凸函数


凸性(Convexity)在优化化理论和方法的研究中起着重要作用。

1.3.1 凸集

定义 1.3.1
设集合 S R n S\subset R^n ,如果对于任意 x 1 , x 2 S x_1,x_2\in S ,有
α x 1 + ( 1 α ) x 2 S , α [ 0 , 1 ] ( 1.3.1 ) \alpha x_1+(1-\alpha)x_2\in S,\quad \forall \alpha\in [0,1]\qquad(1.3.1)
则称 S S 凸集
这个定义表明,如果 x 1 , x 2 S x_1,x_2\in S ,则连接 x 1 x_1 x 2 x_2 的线段属于 S S
在这里插入图片描述
图1 凸集与非凸集(左边是凸集,右边是非凸集)
归纳地可以证明, R n R^n 的子集 S S 为凸集当且仅当对任意 x 1 , x 2 ,   , x m S x_1,x_2,\cdots,x_m \in S ,有
i = 1 m α i x i S , ( 1.3.2 ) with  i = 1 m α i = 1 , α i 0 , i = 1 ,   , m \sum_{i=1}^m \alpha_i x_i \in S,\qquad(1.3.2)\\ \text{with }\sum_{i=1}^m \alpha_i=1,\quad \alpha_i\ge 0, i=1,\cdots,m
(1.3.1)中的 x = α x 1 + ( 1 α ) x 2 x=\alpha x_1+(1-\alpha)x_2 称为 x 1 x_1 x 2 x_2 凸组合,(1.3.2)中的 x = α i x i x=\sum\alpha_i x_i 称为 x 1 ,   , x n x_1,\cdots,x_n 凸组合
例 1.3.2
超平面 H = { x   p T x = α , α R } H=\{ x\vert\ p^Tx=\alpha,\alpha\in R\} 是凸集,其中 p R n p\in R^n 是非零向量,称为超平面的法向量 α \alpha 为实数。
例 1.3.3
闭半空间 H = { x   p T x β } H^-=\{x \vert \ p^Tx\le \beta\} H + = { x   p T x β } H^+=\{x \vert \ p^Tx\ge \beta\} 为凸集。开半空间 H ˚ = { x   p T x < β } \mathring H^-=\{x \vert \ p^Tx\lt \beta\} H ˚ + = { x   p T x > β } \mathring H^+=\{x \vert \ p^Tx\gt \beta\} 为凸集。
例 1.3.4
射线 S = { x   x 0 + λ d ,   λ 0 } S=\{x\vert\ x_0+\lambda d,\ \lambda\ge 0\} 为凸集,其中, d d 是给定的任意非零向量, x 0 x_0 是定点。


对于任意 x 1 , x 2 S x_1,x_2 \in S 和每个数 λ [ 0 , 1 ] \lambda\in[0,1] ,有
x 1 = x 0 + λ 1 d , x 2 = x 0 + λ 2 d , λ 1 , λ 2 [ 0 , 1 ] x_1=x_0+\lambda_1 d,\quad x_2=x_0+\lambda_2 d,\quad \lambda_1,\lambda_2\in [0,1]
因而,
λ x 1 + ( 1 λ ) x 2 = x 0 + [ λ λ 1 + ( 1 λ ) λ 2 ] d λ λ 1 + ( 1 λ ) λ 2 0 \lambda x_1 + (1-\lambda)x_2=x_0+[\lambda\lambda_1+(1-\lambda)\lambda_2]d\\ \lambda\lambda_1+(1-\lambda)\lambda_2\ge 0
故, λ x 1 + ( 1 λ ) x 2 S \lambda x_1 + (1-\lambda)x_2 \in S .


此外,若 A A m × n m\times n 矩阵, b R n b\in R^n ,则集合
S = { x R n A x = b } S=\{x\in R^n \vert Ax=b\}
是凸集。
由有限个半闭空间的交组成的集合 S S 多面集,表达为
S = { x p i T x β i ,   i = 1 ,   , m } S=\{x\vert p_i^T x\le \beta_i,\ i=1,\cdots,m\}
其中 p i p_i 是非零向量, β i \beta_i 是实数。多面集是闭凸集。由于等式可以用两个不等式表示,所以下面的集合都是多面集的例子:
S = { x A x = b ,   x 0 } , S = { x A x 0 ,   x 0 } . S=\{x\vert A x=b,\ x\ge 0\},\\ S=\{x\vert A x\ge 0,\ x\ge 0\}.
下面的引理叙述了凸集的性质,即两个凸集的交集是凸集,两个凸集的代数和是凸集
引理 1.3.5
S 1 S_1 S 2 S_2 R n R^n 中的凸集,则
1) S 1 S 2 S_1\cap S_2 是凸集;
2) S 1 ± S 2 = { x 1 ± x 2   x 1 S 1 , x 2 S 2 } S_1 \pm S_2=\{ x_1\pm x_2 \vert\ x_1\in S_1, x_2 \in S_2\}
从这个引理可知,线性规划和二次规划中的可行域是凸集,因为它是超平面和半空间的交集

S R n S\subset R^n ,包含子集 S S 的所有凸集的交叫 S S 凸包,记作 c o n v ( S ) {conv}(S) ,它是包含 S S 的唯一的最小的凸集。凸包 c o n v ( S ) {conv}(S) S S 中元素的所有凸组合组成,
c o n v ( S ) = { x x = i = 1 m α i x i ,   x i S ,   i = 1 m α i = 1 ,   α i 0 , i = 1 ,   , m } ( 1.3.3 ) {conv}(S)=\left \{ x \left\vert x=\sum_{i=1}^m \alpha_i x_i,\ x_i\in S,\ \sum_{i=1}^m \alpha_i = 1,\ \alpha_i\ge 0, i=1,\cdots,m\right. \right\}\qquad(1.3.3)


R n R^n 的子集叫,如果它关于正的数乘运算是封闭的,即当 x K ,   λ > 0 x\in K,\ \lambda\gt 0 时, λ x K \lambda x \in K 。如果锥 K 也是凸集,则称之为凸锥。例如:
{ x = ( ξ 1 ,   , ξ n )     ξ 1 0 ,   , ξ n 0 } , { x = ( ξ 1 ,   , ξ n )     ξ 1 > 0 ,   , ξ n > 0 } , \{ x=(\xi_1,\cdots,\xi_n)\ \vert \ \xi_1\ge 0,\cdots,\xi_n \ge 0\},\\ \{ x=(\xi_1,\cdots,\xi_n)\ \vert \ \xi_1\gt 0,\cdots,\xi_n \gt 0\},

{ x R n     x T b i 0 , i I } \{ x\in R^n \ \vert \ x^Tb_i\le 0, i\in I\}
均是凸锥,在上式中, b i R n b_i\in R^n I I 是一个任意指标集。
R n R^n 的一个子集是凸锥当且仅当它关于加法和正的数乘运算是封闭的。包含凸集 C C 最小凸锥是
K = { λ x     λ > 0 , x C } K=\{\lambda x\ \vert\ \lambda \gt 0, x\in C\}


下面叙述开集、闭集、开凸集和闭凸集。
x R n x\in R^n ,开球 B ( x , r ) B(x,r) 定义为:
B ( x , r ) = { y R n     y x < r } B(x,r) = \{y\in R^n \ \vert \ \Vert y-x \Vert \lt r \}
这是一个以 x x 为中心,以 r r 为半径的开球
S R n S\subset R^n ,如果存在 r > 0 r\gt 0 ,使得 B ( x , r ) S B(x,r)\subset S ,则称 x R n x\in R^n S S 内点 S S 的所有内点的集合叫 S S 的内部,用 i n t ( S ) {int}(S) 表示。显然, i n t ( S ) S int(S)\subset S
如果子集 S S 的每一点都是 S S 的内点,即 i n t ( S ) = S int(S)=S ,则 S S 称为开子集。特别,空集 \varnothing n n 维空间 R n R^n (全集) 是 R n R^n 的开子集。它们既是开集,又是闭集。
S R n S\subset R^n ,如果
S B ( x , r ) ,   r > 0 S\cap B(x,r) \neq \varnothing, \ \forall r\gt 0
x x 称为属于S的闭包,即 x S x\in \overline S 。显然, S S S\subset \overline S
如果 S = S S=\overline S ,则 S S 称为闭子集。空集 \varnothing n n 维空间 R n R^n (全集) 是 R n R^n 的闭子集。直观地说,如果一个子集包含它所有的边界点,则它是闭的。例如:闭球 B ( x , r ) = { y R n   y x r } \overline B(x,r)=\{y\in R^n \vert \ \Vert y-x\Vert\le r\} 是闭集。
显然,一个子集是闭的,当且仅当它的补是开的
根据上述定义,闭包 S \overline S 可以写为:
S = { x R n     lim k x k x = 0 ,   x k S } \overline S = \{ x\in R^n \ \vert \ \lim_{k} \Vert x_k-x\Vert=0,\ x_k\in S\}


什么意思呢?即闭包 S \overline S 集合中的点 x x 与集合 S S 的距离为零。


S R n S\subset R^n 是凸集,若它是开的,则称为开凸集;若它是闭的,则称为闭凸集。

定理 1.3.6
如果 C R n C\subset R^n 是凸集,那么 C C 的闭包 C \overline C 也是凸集。


在凸集的研究中另一个有用的概念为凸集的极值点极值方向
定义 1.3.7
S R n S\subset R^n 是非空凸集, x S x\in S ,若 x x 不在 S S 中任何线段的内部,即,若假设 x = θ x 1 + ( 1 θ ) x 2 ,  and  x 1 , x 2 S , θ ( 0 , 1 ) x=\theta x_1+(1-\theta)x_2,\text{ and }x_1,x_2\in S,\theta \in (0,1) 必推出 x = x 1 = x 2 x=x_1=x_2 ,则称 x x 是凸集 S S 的极值点。
显然,多边形的顶点和圆周上的任意点都是极值点。

定义 1.3.8
S R n S\subset R^n 是闭凸集, d d 为非零向量,如果对每一个 x S , x + λ d S , λ 0 x\in S,x+\lambda d\in S,\forall \lambda\ge 0 则称向量 d d S S 的方向。又设 d 1 d_1 d 2 d_2 S S 的两个不同方向。如果 S S 的方向 d d 不能表示成该集合的两个不同方向的正的线性组合,即如果 d = λ 1 d 1 + λ 2 d 2 ,   λ 1 , λ 2 > 0 d=\lambda_1 d_1+\lambda_2 d_2,\ \lambda_1,\lambda_2 \gt 0 ,必可推出 d 1 = α d 2 d_1=\alpha d_2 ,则称 d d S S 极值方向
如下图:
在这里插入图片描述
图2 极值方向

考虑多面集
S = { x   A x = b , x 0 } S=\{x\vert \ Ax=b,x\ge 0\}
其中 A A m × n m\times n 矩阵, r a n k ( A ) = m , b R m {rank}(A)=m,b\in R^m 。不失一般性,设 A = [ B , N ] A=[B,N] ,其中 B B m × m m\times m 非奇异矩阵, N N m × ( n m ) m\times(n-m) 矩阵。设 x B , x N x_B,x_N 分别是对应于 B B N N 的向量,
A x = [ B    N ] [ x B x N ] = B x B + N x N = b Ax=[B \ \ N]\left[ \begin{array} {c} x_B \\ x_N\end{array} \right]= Bx_B + Nx_N=b
于是, x x 是多面集 S S 极值点的充分必要条件
x = [ x B x N ] = [ B 1 b 0 ] x=\left[ \begin{array} {c} x_B \\ x_N\end{array} \right]=\left[ \begin{array} {c} B^{-1}b \\ 0\end{array} \right]
其中, B 1 b 0 B^{-1}b \ge 0
d 0 d\neq0 S S 的一个方向,当且仅当 A d = 0 , d 0 Ad=0,d\ge0 d \overline d S S 的一个极值方向,当且仅当
B 1 a j 0 ,  对某个  a j  是 N 的列, d = α d = α ( B 1 a j e j ) B^{-1}a_j\le 0,\text{ 对某个 $a_j$ 是 N 的列,}\\ \text{} \\ \overline d=\alpha d=\alpha \left( \begin{array}{c} B^{-1}a_j \\ e_j \end{array}\right)
其中 α > 0 , e j R n m \alpha \gt 0, e_j \in R^{n-m} 是单位向量。


1.3.2 凸函数

定义 1.3.9
S R n S\subset R^n 是非空凸集, α ( 0 , 1 ) \alpha \in (0,1) f f 是定义在 S S 上的函数。如果对任意 x 1 , x 2 S x_1,x_2\in S ,有
f ( α x 1 + ( 1 α ) x 2 ) α f ( x 1 ) + ( 1 α ) f ( x 2 ) ( 1.3.4 ) f(\alpha x_1+(1-\alpha)x_2)\le \alpha f(x_1)+(1-\alpha) f(x_2) \qquad(1.3.4)
则称函数 f f S S 上的凸函数。如果当 x 1 x 2 x_1\neq x_2 时(1.3.4)中严格不等式成立,
f ( α x 1 + ( 1 α ) x 2 ) < α f ( x 1 ) + ( 1 α ) f ( x 2 ) ( 1.3.5 ) f(\alpha x_1+(1-\alpha)x_2)\lt \alpha f(x_1)+(1-\alpha) f(x_2) \qquad(1.3.5)
则称函数 f f S S 上的严格凸函数。如果存在一个常数 c > 0 c\gt 0 ,使得对任意 x 1 , x 2 S x_1,x_2\in S ,有
α f ( x 1 ) + ( 1 α ) f ( x 2 ) f ( α x 1 + ( 1 α ) x 2 ) + c α ( 1 α ) x 1 x 2 2 ( 1.3.6 ) \alpha f(x_1)+(1-\alpha) f(x_2)\ge f(\alpha x_1+(1-\alpha)x_2)+c\alpha(1-\alpha)\Vert x_1-x_2\Vert^2\qquad(1.3.6)
则称 f f S S 上是一致凸的
如果 f -f S S 上的凸(严格凸)函数,则称 f f S S 上的凹(严格凹)函数
在这里插入图片描述
图3 凸(凹)函数

凸函数有如下性质:
定理 1.3.10
1)设 f f 是定义在凸集 S S 上的凸函数,实数 α 0 \alpha \ge 0 ,则 α f \alpha f 也是定义在 S S 上的凸函数。
2)设 f 1 , f 2 f_1,f_2 是定义在凸集 S S 上的凸函数,则 f 1 + f 2 f_1+f_2 ,也是定义在 S S 上的凸函数。
3)设 f 1 , f 2 ,   , f m f_1,f_2,\cdots,f_m 是定义在凸集 S S 上的凸函数,实数 α 1 , α 2 ,   , α n 0 \alpha_1,\alpha_2,\cdots,\alpha_n \ge 0 ,则 i = 1 m α i f i \sum_{i=1}^m \alpha_i f_i 也是定义在 S S 上的凸函数。


即对正实数乘和加法是封闭的。


如果凸函数是可微的,我们可以用下面的特征描述凸函数,下面的定理刻画了凸函数的一阶特征。
定理 1.3.11
S R n S\subset R^n 是非空开凸集, f f 是定义在 S S 上的可微函数,则 f f 为凸函数的充分必要条件是:
f ( y ) f ( x ) + f ( x ) T ( y x ) , x , y S ( 1.3.7 ) f(y)\ge f(x)+\nabla f(x)^T(y-x),\quad \forall x,y\in S\qquad(1.3.7)
在这里插入图片描述
图4 凸函数的一阶特征


证明:
必要性:设 f f 是凸函数,于是对所有 α ,   0 α 1 \alpha,\ 0\le \alpha \le 1 ,有
f ( α y + ( 1 α ) x ) α f ( y ) + ( 1 α ) f ( x ) f(\alpha y + (1-\alpha)x) \le \alpha f(y) + (1-\alpha)f(x)
因此,对于 0 < α 1 0\lt \alpha \le 1
f ( x + α ( y x ) ) f ( x ) α f ( y ) f ( x ) \frac{f(x+\alpha(y-x))-f(x)}{\alpha}\le f(y)-f(x)
α 0 \alpha \to 0 ,得
f ( x ) T ( y x ) f ( y ) f ( x ) f ( y ) f ( x ) + f ( x ) T ( y x ) \nabla f(x)^T(y-x)\le f(y)-f(x)\\ \text{} \\ \Rightarrow f(y)\ge f(x)+\nabla f(x)^T(y-x)
充分性:今设(1.3.7)成立,任取 x 1 , x 2 S ,   0 α 1 x_1,x_2\in S, \ 0\le\alpha\le 1 ,令 x = α x 1 + ( 1 α ) x 2 x=\alpha x_1 + (1-\alpha)x_2 ,我们有
f ( x 1 ) f ( x ) + f ( x ) T ( x 1 x ) f ( x 2 ) f ( x ) + f ( x ) T ( x 2 x ) f(x_1)\ge f(x) + \nabla f(x)^T(x_1-x)\\ f(x_2)\ge f(x) + \nabla f(x)^T(x_2-x)
于是得到
α f ( x 1 ) + ( 1 α ) f ( x 2 ) f ( x ) + f ( x ) T [ α x 1 + ( 1 α ) x 2 x ] = f ( α x 1 + ( 1 α ) x 2 ) \alpha f(x_1) + (1-\alpha)f(x_2)\ge f(x)+\nabla f(x)^T[\alpha x_1+(1-\alpha)x_2-x]\\=f(\alpha x_1+(1-\alpha)x_2)
(对于一维凸函数,有
lim x α x 1 + ( 1 α ) x 2 f ( α x 1 + ( 1 α ) x 2 ) f ( x ) α x 1 + ( 1 α ) x 2 x = f ( α x 1 + ( 1 α ) x 2 ) \lim_{x\to \alpha x_1+(1-\alpha)x_2}\frac{f(\alpha x_1+(1-\alpha)x_2)-f(x)}{\alpha x_1+(1-\alpha)x_2-x} = f'(\alpha x_1+(1-\alpha)x_2)
这表明 f ( x ) f(x) 是凸函数。


凸函数的定义 1.3.9 表示了两点的线性插值大于函数值,即函数图形在弦之下。这个定理表明了根据局部导数的线性近似是函数的低估,即凸函数图形位于图形上任一点切线的上方。这样的切线(面)就称为凸函数的一个支撑超平面

下面,我们对于二次连续可微函数,考虑凸函数的二次特征。
定理 1.3.12
S R n S\in R^n 是非空开凸集, f f 是定义在 S S 上的二次可微函数,则 f f 凸函数充分必要条件是在 S S 的每一点Hesse 矩阵正半定


f f x x 处的 Hesse 矩阵定义为 n × n n\times n 矩阵,其第 i , j i,j 元素为:
[ 2 f ( x ) ] i j = 2 f ( x ) x i x j , 1 i , j n [\nabla^2 f(x)]_{ij}=\frac{\partial^2 f(x)}{\partial x_i \partial x_j},\quad 1\le i,j \le n


证明:
1)充分性
设 Hesse 矩阵 2 f ( x ) \nabla^2 f(x) 在每一点 x S x\in S 正半定。考虑 x , x S x, \overline x\in S ,由中值定理,有
f ( x ) = f ( x ) + f ( x ) T ( x x ) + 1 2 ( x x ) T 2 f ( x ^ ) ( x x ) f(x) = f(\overline x) + \nabla f(\overline x)^T(x-\overline x)+\frac12(x-\overline x)^T\nabla^2f(\widehat x)(x-\overline x)
其中, x ^ = x + θ ( x x ) , θ ( 0 , 1 ) \widehat x=\overline x+\theta(x-\overline x),\theta \in (0,1) 。注意到 x ^ S \widehat x\in S ,故由假设( 2 f ( x ) \nabla^2 f(x) 在每一点 x S x\in S 正半定)知:
f ( x ) f ( x ) + f ( x ) T ( x x ) f(x) \ge f(\overline x) + \nabla f(\overline x)^T(x-\overline x)
从而,根据定理 1.3.11 可知 f f 是凸函数。
2)必要性
f f 是凸函数,任取 x S \overline x\in S ,我们要证明 p T 2 f ( x ) p 0 , p R n p^T\nabla^2f(\overline x)p\ge 0,\forall p\in R^n ,即证明 2 f ( x ) \nabla^2f(\overline x) 正半定。由于 S S 是开集,必存在 δ > 0 \delta \gt 0 ,使当 λ < δ \vert \lambda \vert \lt \delta 时, x + λ p S \overline x+\lambda p\in S 。根据定理 1.3.11,有
f ( x + λ p ) f ( x ) + λ f ( x ) T p ( 1.3.8 ) f(\overline x +\lambda p)\ge f(\overline x) + \lambda \nabla f(\overline x)^Tp \qquad(1.3.8)
又由于 f ( x ) f(x) x \overline x 处二次可微,则
f ( x + λ p ) = f ( x ) + λ f ( x ) T p + λ 2 2 p T G ( x ) p + o ( λ p 2 ) ( 1.3.9 ) f(\overline x+\lambda p)=f(\overline x)+\lambda\nabla f(\overline x)^Tp+\frac{\lambda^2}2p^TG(\overline x)p+o(\Vert \lambda p\Vert^2)\qquad(1.3.9)
其中 G ( x ) G(\overline x) f f x \overline x 处的 Hesse 阵。将 (1.3.9) 代入 (1.3.8) 便得到
1 2 λ 2 p T G ( x ) p + o ( λ p 2 ) 0 \frac12 \lambda^2p^TG(\overline x)p+o(\Vert \lambda p\Vert^2)\ge 0
上式两边除以 λ 2 \lambda^2 ,并令 λ 0 \lambda\to 0 ,得
p T G ( x ) p 0 p^TG(\overline x)p\ge 0
必要性得证。 \square


定理 1.3.13
S R n S\subset R^n 为非空开凸集, f f 是定义在 S S 上的可微函数,则 f f 严格凸函数的充分必要条件是
f ( y ) > f ( x ) + f ( x ) T ( y x ) , y , x S , x y ( 1.3.10 ) f(y)\gt f(x)+\nabla f(x)^T(y-x),\quad \forall y,x\in S, x\neq y\qquad(1.3.10)
定理 1.3.14
S R n S\subset R^n 为非空开凸集, f f 是定义在 S S 上的二次可微函数,如果在每一点 x S x\in S Hesse 阵正定,则 f f 为严格凸函数,如果 f f 为严格凸函数,则 Hesse 矩阵在 S S 的每一点正半定

和凸函数关系密切的是水平集。下面的定理指出水平集是凸集。
定理 1.3.15
S R n S\subset R^n 为非空凸集, f f 是定义在 S S 上的凸函数, α \alpha 是一个实数,则水平集 L α = { x   x S , f ( x ) α } L_{\alpha}=\{x\vert \ x\in S,f(x)\le \alpha\} 是凸集。


证明:
x 1 , x 2 L α x_1,x_2 \in L_{\alpha} ,于是 x 1 , x 2 S , f ( x 1 ) α , f ( x 2 ) α x_1,x_2\in S,f(x_1)\le \alpha,f(x_2)\le\alpha
今设 λ ( 0 , 1 ) , x = λ x 1 + ( 1 λ ) x 2 \lambda\in(0,1),x=\lambda x_1+(1-\lambda)x_2 。由 S S 的凸性知道 x S x\in S ,又由于 f f 是凸函数,故有:
f ( x 1 ) > f ( x ) + f ( x ) T ( x 1 λ x 1 ( 1 λ ) x 2 ) = f ( x ) + f ( x ) T ( 1 λ ) ( x 1 x 2 ) f ( x 2 ) > f ( x ) + f ( x ) T ( x 2 λ x 1 ( 1 λ ) x 2 ) = f ( x ) f ( x ) T λ ( x 1 x 2 ) λ f ( x 1 ) + ( 1 λ ) f ( x 2 ) > f ( x ) f ( x ) < λ f ( x 1 ) + ( 1 λ ) f ( x 2 ) λ α + ( 1 λ ) α = α f(x_1)\gt f(x)+\nabla f(x)^T(x_1-\lambda x_1-(1-\lambda)x_2)\\ =f(x)+\nabla f(x)^T(1-\lambda)(x_1-x_2) \\ f(x_2)\gt f(x)+\nabla f(x)^T(x_2-\lambda x_1-(1-\lambda)x_2)\\ =f(x)-\nabla f(x)^T\lambda(x_1-x_2) \\ \to \lambda f(x_1)+(1-\lambda)f(x_2) \gt f(x) \\ \to f(x) \lt \lambda f(x_1)+(1-\lambda)f(x_2)\le \lambda \alpha + (1-\lambda) \alpha = \alpha
因此, x L α x\in L_{\alpha} ,从而 L α L_{\alpha} 是凸集。 \square


进一步,若 f f S S 上的连续凸函数,则显然水平集 L α L_{\alpha} 是闭凸集。

定理 1.3.16
f ( x ) f(x) S R n S\in R^n 上二次连续可微,且存在常数 m > 0 m\gt 0 ,使得:
u T 2 f ( x ) u m u 2 , x L ( x 0 ) , u R n ( 1.3.11 ) u^T\nabla^2f(x)u\ge m\Vert u\Vert^2,\quad \forall x\in L(x_0), u\in R^n\qquad(1.3.11)
则水平集 L ( x 0 ) = { x S   f ( x ) f ( x 0 ) } L(x_0)=\{x\in S\vert \ f(x)\le f(x_0)\} 有界闭凸集


证明:
因为:
u T 2 f ( x ) u m u 2 , x L ( x 0 ) , u R n ( 1.3.11 ) u^T\nabla^2f(x)u\ge m\Vert u\Vert^2,\quad \forall x\in L(x_0), u\in R^n\qquad(1.3.11)
所以, f ( x ) f(x) 每一点的 Hesse 矩阵正定, f ( x ) f(x) 为严格凸函数,由定理 1.3.15,可知,水平集 L ( x 0 ) L(x_0) 对于任意 x 0 R n x_0\in R^n 是闭凸集。
现在证明 L ( x 0 ) L(x_0) 有界性
因为水平集 L ( x 0 ) L(x_0) 是凸的,由(1.3.11),故 x , y L ( x 0 ) \forall x,y\in L(x_0)
m y x 2 ( y x ) T 2 f ( x + α ( y x ) ) ( y x ) m\Vert y-x \Vert^2 \le (y-x)^T\nabla^2f(x+\alpha(y-x))(y-x)
又由 Taylor 展开,(此处,我也不甚了了。)
f ( y ) = f ( x ) + f ( x ) T ( y x ) + 0 1 0 t ( y x ) T 2 f ( x + α ( y x ) ) ( y x ) d α d t   f ( x ) + f ( x ) T ( y x ) + 1 2 m y x 2 f(y) = f(x) + \nabla f(x)^T(y-x)+\int_0^1\int_0^t(y-x)^T\nabla^2f(x+\alpha(y-x))(y-x)d\alpha dt\\ \text{ } \\ \ge f(x) + \nabla f(x)^T(y-x) + \frac 12 m\Vert y-x\Vert^2
其中 m m x , y x,y 无关,因此对任意 y L ( x 0 ) , y x 0 y\in L(x_0),y\neq x_0
f ( y ) f ( x 0 ) f ( x 0 ) T ( y x 0 ) + 1 2 m y x 0 2   f ( x 0 ) y x 0 + 1 2 m y x 0 2 f(y)-f(x_0) \ge \nabla f(x_0)^T(y-x_0)+\frac12m\Vert y-x_0\Vert^2 \\ \text{ } \\ \ge-\Vert\nabla f(x_0)\Vert\cdot\Vert y-x_0\Vert+\frac12m\Vert y-x_0\Vert^2
上式的第二个不等式是因为 Cauchy-Schwarz 不等式: x T y x y \vert x^Ty\vert \le \Vert x\Vert\cdot \Vert y\Vert
又由于 f ( y ) f ( x 0 ) f(y)\le f(x_0) ,故
y x 0 2 m f ( x 0 ) \Vert y-x_0 \Vert \le \frac2m\Vert \nabla f(x_0) \Vert
这表明水平集 L ( x 0 ) = { x x S , f ( x ) f ( x 0 ) } L(x_0)=\{x\vert x\in S,f(x)\le f(x_0)\} 有界。 \qquad\square

最后,作为函数凸性的一个应用,我们给出 Minkowski 不等式的证明。
Minkowski 不等式
x + y p x p + y p \Vert x+y \Vert_p\le \Vert x\Vert_p+\Vert y\Vert_p

( i = 1 n x i + y i p ) 1 / p ( i = 1 n x i p ) 1 / p + ( i = 1 n y i p ) 1 / p \left( \sum_{i=1}^n\vert x_i+y_i\vert^p\right)^{1/p}\le \left( \sum_{i=1}^n\vert x_i\vert^p\right)^{1/p}+\left( \sum_{i=1}^n\vert y_i\vert^p\right)^{1/p}
其中, p 1 p\ge 1 .


证明:
如果 x x y y 为零向量,则不等式显然成立。故假定 x 0 , y 0 x\neq 0,y\neq 0 .
p = 1 p=1 ,由于 x i + y i x i + y i , i = 1 ,   , n \vert x_i+y_i\vert\le \vert x_i \vert+\vert y_i\vert, i=1,\cdots,n .
今设 p > 1 p\gt 1 ,考虑函数
ϕ ( t ) = t p , t > 0 ϕ ( t ) = p ( p 1 ) t p 2 \phi(t)=t^p,\quad t\gt 0\\ \Rightarrow\phi''(t)=p(p-1)t^{p-2}
故函数 ϕ ( t ) \phi(t) 严格凸。注意到:
x p x p + y p + y p x p + y p = 1 \frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}+\frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}=1
于是,由凸函数定义得到
( x p x p + y p x i x p + y p x p + y p y i y p ) p   x p x p + y p ( x i x p ) p + y p x p + y p ( y i y p ) p \left(\frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\frac{|x_i|}{\Vert x\Vert_p}+\frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\frac{|y_i|}{\Vert y\Vert_p}\right)^p \\ \text{ } \\ \le \frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\left( \frac{|x_i|}{\Vert x\Vert_p}\right)^p + \frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\left( \frac{|y_i|}{\Vert y\Vert_p}\right)^p
因此
i = 1 n ( x i + y i x p + y p ) p i = 1 n ( x i + y i x p + y p ) p p i = 1 n ( x p x p + y p ( x i x p ) p + y p x p + y p ( y i y p ) p ) x p x p + y p i = 1 n ( x i x p ) p + y p x p + y p i = 1 n ( y i y p ) p = x p x p + y p x p p x p p + y p x p + y p y p p y p p = 1 \sum_{i=1}^n\left(\frac{\vert x_i+y_i\vert}{\Vert x\Vert_p+\Vert y\Vert_p} \right)^p\le \sum_{i=1}^n\left(\frac{\vert x_i\vert+\vert y_i\vert}{\Vert x\Vert_p+\Vert y\Vert_p} \right)^p \\ \color{red}{因为p次函数是凸函数,所以}\color{black}\\ \le \sum_{i=1}^n\left(\frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p} \left(\frac{\vert x_i\vert}{\Vert x\Vert_p} \right)^p+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p} \left(\frac{\vert y_i\vert}{\Vert y\Vert_p} \right)^p\right)\\ \le \frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\sum_{i=1}^n \left(\frac{\vert x_i\vert}{\Vert x\Vert_p} \right)^p+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\sum_{i=1}^n \left(\frac{\vert y_i\vert}{\Vert y\Vert_p} \right)^p \\ = \frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\cdot\frac{\Vert x \Vert_p^p}{\Vert x \Vert_p^p}+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\cdot\frac{\Vert y \Vert_p^p}{\Vert y \Vert_p^p}=1
这样,
i = 1 n x i + y i p ( x p + y p ) p \sum^n_{i=1}\vert x_i+y_i\vert^p\le (\Vert x\Vert_p +\Vert y \Vert_p)^p
上式两边取p次根即得结果。 \qquad \square

猜你喜欢

转载自blog.csdn.net/StreamRock/article/details/85098617