以下内容主要抄自抄袁亚湘的《最优化理论与方法》的 1.3 凸集和凸函数
凸性(Convexity)在优化化理论和方法的研究中起着重要作用。
1.3.1 凸集
定义 1.3.1 设集合
S
⊂
R
n
S\subset R^n
S ⊂ R n ,如果对于任意
x
1
,
x
2
∈
S
x_1,x_2\in S
x 1 , x 2 ∈ S ,有
α
x
1
+
(
1
−
α
)
x
2
∈
S
,
∀
α
∈
[
0
,
1
]
(
1.3.1
)
\alpha x_1+(1-\alpha)x_2\in S,\quad \forall \alpha\in [0,1]\qquad(1.3.1)
α x 1 + ( 1 − α ) x 2 ∈ S , ∀ α ∈ [ 0 , 1 ] ( 1 . 3 . 1 ) 则称
S
S
S 是凸集 。 这个定义表明,如果
x
1
,
x
2
∈
S
x_1,x_2\in S
x 1 , x 2 ∈ S ,则连接
x
1
x_1
x 1 和
x
2
x_2
x 2 的线段属于
S
S
S 。 图1 凸集与非凸集(左边是凸集,右边是非凸集) 归纳地可以证明,
R
n
R^n
R n 的子集
S
S
S 为凸集当且仅当对任意
x
1
,
x
2
,
⋯
 
,
x
m
∈
S
x_1,x_2,\cdots,x_m \in S
x 1 , x 2 , ⋯ , x m ∈ S ,有
∑
i
=
1
m
α
i
x
i
∈
S
,
(
1.3.2
)
with
∑
i
=
1
m
α
i
=
1
,
α
i
≥
0
,
i
=
1
,
⋯
 
,
m
\sum_{i=1}^m \alpha_i x_i \in S,\qquad(1.3.2)\\ \text{with }\sum_{i=1}^m \alpha_i=1,\quad \alpha_i\ge 0, i=1,\cdots,m
i = 1 ∑ m α i x i ∈ S , ( 1 . 3 . 2 ) with i = 1 ∑ m α i = 1 , α i ≥ 0 , i = 1 , ⋯ , m (1.3.1)中的
x
=
α
x
1
+
(
1
−
α
)
x
2
x=\alpha x_1+(1-\alpha)x_2
x = α x 1 + ( 1 − α ) x 2 称为
x
1
x_1
x 1 和
x
2
x_2
x 2 的凸组合 ,(1.3.2)中的
x
=
∑
α
i
x
i
x=\sum\alpha_i x_i
x = ∑ α i x i 称为
x
1
,
⋯
 
,
x
n
x_1,\cdots,x_n
x 1 , ⋯ , x n 的凸组合 。 例 1.3.2 超平面
H
=
{
x
∣
p
T
x
=
α
,
α
∈
R
}
H=\{ x\vert\ p^Tx=\alpha,\alpha\in R\}
H = { x ∣ p T x = α , α ∈ R } 是凸集,其中
p
∈
R
n
p\in R^n
p ∈ R n 是非零向量,称为超平面的法向量 ,
α
\alpha
α 为实数。 例 1.3.3 闭半空间
H
−
=
{
x
∣
p
T
x
≤
β
}
H^-=\{x \vert \ p^Tx\le \beta\}
H − = { x ∣ p T x ≤ β } 和
H
+
=
{
x
∣
p
T
x
≥
β
}
H^+=\{x \vert \ p^Tx\ge \beta\}
H + = { x ∣ p T x ≥ β } 为凸集。开半空间
H
˚
−
=
{
x
∣
p
T
x
<
β
}
\mathring H^-=\{x \vert \ p^Tx\lt \beta\}
H ˚ − = { x ∣ p T x < β } 和
H
˚
+
=
{
x
∣
p
T
x
>
β
}
\mathring H^+=\{x \vert \ p^Tx\gt \beta\}
H ˚ + = { x ∣ p T x > β } 为凸集。 例 1.3.4 射线
S
=
{
x
∣
x
0
+
λ
d
,
λ
≥
0
}
S=\{x\vert\ x_0+\lambda d,\ \lambda\ge 0\}
S = { x ∣ x 0 + λ d , λ ≥ 0 } 为凸集,其中,
d
d
d 是给定的任意非零向量,
x
0
x_0
x 0 是定点。
对于任意
x
1
,
x
2
∈
S
x_1,x_2 \in S
x 1 , x 2 ∈ S 和每个数
λ
∈
[
0
,
1
]
\lambda\in[0,1]
λ ∈ [ 0 , 1 ] ,有
x
1
=
x
0
+
λ
1
d
,
x
2
=
x
0
+
λ
2
d
,
λ
1
,
λ
2
∈
[
0
,
1
]
x_1=x_0+\lambda_1 d,\quad x_2=x_0+\lambda_2 d,\quad \lambda_1,\lambda_2\in [0,1]
x 1 = x 0 + λ 1 d , x 2 = x 0 + λ 2 d , λ 1 , λ 2 ∈ [ 0 , 1 ] 因而,
λ
x
1
+
(
1
−
λ
)
x
2
=
x
0
+
[
λ
λ
1
+
(
1
−
λ
)
λ
2
]
d
λ
λ
1
+
(
1
−
λ
)
λ
2
≥
0
\lambda x_1 + (1-\lambda)x_2=x_0+[\lambda\lambda_1+(1-\lambda)\lambda_2]d\\ \lambda\lambda_1+(1-\lambda)\lambda_2\ge 0
λ x 1 + ( 1 − λ ) x 2 = x 0 + [ λ λ 1 + ( 1 − λ ) λ 2 ] d λ λ 1 + ( 1 − λ ) λ 2 ≥ 0 故,
λ
x
1
+
(
1
−
λ
)
x
2
∈
S
\lambda x_1 + (1-\lambda)x_2 \in S
λ x 1 + ( 1 − λ ) x 2 ∈ S .
此外,若
A
A
A 是
m
×
n
m\times n
m × n 矩阵,
b
∈
R
n
b\in R^n
b ∈ R n ,则集合
S
=
{
x
∈
R
n
∣
A
x
=
b
}
S=\{x\in R^n \vert Ax=b\}
S = { x ∈ R n ∣ A x = b } 是凸集。 由有限个半闭空间的交组成的集合
S
S
S 叫多面集 ,表达为
S
=
{
x
∣
p
i
T
x
≤
β
i
,
i
=
1
,
⋯
 
,
m
}
S=\{x\vert p_i^T x\le \beta_i,\ i=1,\cdots,m\}
S = { x ∣ p i T x ≤ β i , i = 1 , ⋯ , m } 其中
p
i
p_i
p i 是非零向量,
β
i
\beta_i
β i 是实数。多面集是闭凸集。由于等式可以用两个不等式表示,所以下面的集合都是多面集的例子:
S
=
{
x
∣
A
x
=
b
,
x
≥
0
}
,
S
=
{
x
∣
A
x
≥
0
,
x
≥
0
}
.
S=\{x\vert A x=b,\ x\ge 0\},\\ S=\{x\vert A x\ge 0,\ x\ge 0\}.
S = { x ∣ A x = b , x ≥ 0 } , S = { x ∣ A x ≥ 0 , x ≥ 0 } . 下面的引理叙述了凸集的性质,即两个凸集的交集是凸集,两个凸集的代数和是凸集
。 引理 1.3.5 设
S
1
S_1
S 1 和
S
2
S_2
S 2 是
R
n
R^n
R n 中的凸集,则 1)
S
1
∩
S
2
S_1\cap S_2
S 1 ∩ S 2 是凸集; 2)
S
1
±
S
2
=
{
x
1
±
x
2
∣
x
1
∈
S
1
,
x
2
∈
S
2
}
S_1 \pm S_2=\{ x_1\pm x_2 \vert\ x_1\in S_1, x_2 \in S_2\}
S 1 ± S 2 = { x 1 ± x 2 ∣ x 1 ∈ S 1 , x 2 ∈ S 2 } 从这个引理可知,线性规划和二次规划中的可行域是凸集,因为它是超平面和半空间的交集
。
设
S
⊂
R
n
S\subset R^n
S ⊂ R n ,包含子集
S
S
S 的所有凸集的交叫
S
S
S 的凸包 ,记作
c
o
n
v
(
S
)
{conv}(S)
c o n v ( S ) ,它是包含
S
S
S 的唯一的最小的凸集。凸包
c
o
n
v
(
S
)
{conv}(S)
c o n v ( S ) 由
S
S
S 中元素的所有凸组合
组成,
c
o
n
v
(
S
)
=
{
x
∣
x
=
∑
i
=
1
m
α
i
x
i
,
x
i
∈
S
,
∑
i
=
1
m
α
i
=
1
,
α
i
≥
0
,
i
=
1
,
⋯
 
,
m
}
(
1.3.3
)
{conv}(S)=\left \{ x \left\vert x=\sum_{i=1}^m \alpha_i x_i,\ x_i\in S,\ \sum_{i=1}^m \alpha_i = 1,\ \alpha_i\ge 0, i=1,\cdots,m\right. \right\}\qquad(1.3.3)
c o n v ( S ) = { x ∣ ∣ ∣ ∣ ∣ x = i = 1 ∑ m α i x i , x i ∈ S , i = 1 ∑ m α i = 1 , α i ≥ 0 , i = 1 , ⋯ , m } ( 1 . 3 . 3 )
R
n
R^n
R n 的子集叫锥 ,如果它关于正的数乘运算是封闭
的,即当
x
∈
K
,
λ
>
0
x\in K,\ \lambda\gt 0
x ∈ K , λ > 0 时,
λ
x
∈
K
\lambda x \in K
λ x ∈ K 。如果锥 K 也是凸集,则称之为凸锥 。例如:
{
x
=
(
ξ
1
,
⋯
 
,
ξ
n
)
∣
ξ
1
≥
0
,
⋯
 
,
ξ
n
≥
0
}
,
{
x
=
(
ξ
1
,
⋯
 
,
ξ
n
)
∣
ξ
1
>
0
,
⋯
 
,
ξ
n
>
0
}
,
\{ x=(\xi_1,\cdots,\xi_n)\ \vert \ \xi_1\ge 0,\cdots,\xi_n \ge 0\},\\ \{ x=(\xi_1,\cdots,\xi_n)\ \vert \ \xi_1\gt 0,\cdots,\xi_n \gt 0\},
{ x = ( ξ 1 , ⋯ , ξ n ) ∣ ξ 1 ≥ 0 , ⋯ , ξ n ≥ 0 } , { x = ( ξ 1 , ⋯ , ξ n ) ∣ ξ 1 > 0 , ⋯ , ξ n > 0 } , 和
{
x
∈
R
n
∣
x
T
b
i
≤
0
,
i
∈
I
}
\{ x\in R^n \ \vert \ x^Tb_i\le 0, i\in I\}
{ x ∈ R n ∣ x T b i ≤ 0 , i ∈ I } 均是凸锥,在上式中,
b
i
∈
R
n
b_i\in R^n
b i ∈ R n ,
I
I
I 是一个任意指标集。
R
n
R^n
R n 的一个子集是凸锥当且仅当它关于加法和正的数乘运算是封闭的
。包含凸集
C
C
C 的最小凸锥是
K
=
{
λ
x
∣
λ
>
0
,
x
∈
C
}
K=\{\lambda x\ \vert\ \lambda \gt 0, x\in C\}
K = { λ x ∣ λ > 0 , x ∈ C }
下面叙述开集、闭集、开凸集和闭凸集。 设
x
∈
R
n
x\in R^n
x ∈ R n ,开球
B
(
x
,
r
)
B(x,r)
B ( x , r ) 定义为:
B
(
x
,
r
)
=
{
y
∈
R
n
∣
∥
y
−
x
∥
<
r
}
B(x,r) = \{y\in R^n \ \vert \ \Vert y-x \Vert \lt r \}
B ( x , r ) = { y ∈ R n ∣ ∥ y − x ∥ < r } 这是一个以
x
x
x 为中心,以
r
r
r 为半径的开球 。 设
S
⊂
R
n
S\subset R^n
S ⊂ R n ,如果存在
r
>
0
r\gt 0
r > 0 ,使得
B
(
x
,
r
)
⊂
S
B(x,r)\subset S
B ( x , r ) ⊂ S ,则称
x
∈
R
n
x\in R^n
x ∈ R n 是
S
S
S 的内点 。
S
S
S 的所有内点的集合叫
S
S
S 的内部,用
i
n
t
(
S
)
{int}(S)
i n t ( S ) 表示。显然,
i
n
t
(
S
)
⊂
S
int(S)\subset S
i n t ( S ) ⊂ S 。 如果子集
S
S
S 的每一点都是
S
S
S 的内点,即
i
n
t
(
S
)
=
S
int(S)=S
i n t ( S ) = S ,则
S
S
S 称为开子集 。特别,空集
∅
\varnothing
∅ 和
n
n
n 维空间
R
n
R^n
R n (全集) 是
R
n
R^n
R n 的开子集。(它们既是开集,又是闭集。
) 设
S
⊂
R
n
S\subset R^n
S ⊂ R n ,如果
S
∩
B
(
x
,
r
)
≠
∅
,
∀
r
>
0
S\cap B(x,r) \neq \varnothing, \ \forall r\gt 0
S ∩ B ( x , r ) ̸ = ∅ , ∀ r > 0 则
x
x
x 称为属于S的闭包 ,即
x
∈
S
‾
x\in \overline S
x ∈ S 。显然,
S
⊂
S
‾
S\subset \overline S
S ⊂ S 。 如果
S
=
S
‾
S=\overline S
S = S ,则
S
S
S 称为闭子集 。空集
∅
\varnothing
∅ 和
n
n
n 维空间
R
n
R^n
R n (全集) 是
R
n
R^n
R n 的闭子集。直观地说,如果一个子集包含它所有的边界点,则它是闭的。例如:闭球
B
‾
(
x
,
r
)
=
{
y
∈
R
n
∣
∥
y
−
x
∥
≤
r
}
\overline B(x,r)=\{y\in R^n \vert \ \Vert y-x\Vert\le r\}
B ( x , r ) = { y ∈ R n ∣ ∥ y − x ∥ ≤ r } 是闭集。 显然,一个子集是闭的,当且仅当它的补是开的
。 根据上述定义,闭包
S
‾
\overline S
S 可以写为:
S
‾
=
{
x
∈
R
n
∣
lim
k
∥
x
k
−
x
∥
=
0
,
x
k
∈
S
}
\overline S = \{ x\in R^n \ \vert \ \lim_{k} \Vert x_k-x\Vert=0,\ x_k\in S\}
S = { x ∈ R n ∣ k lim ∥ x k − x ∥ = 0 , x k ∈ S }
什么意思呢?即闭包
S
‾
\overline S
S 集合中的点
x
x
x 与集合
S
S
S 的距离为零。
若
S
⊂
R
n
S\subset R^n
S ⊂ R n 是凸集,若它是开的,则称为开凸集;若它是闭的,则称为闭凸集。
定理 1.3.6 如果
C
⊂
R
n
C\subset R^n
C ⊂ R n 是凸集,那么
C
C
C 的闭包
C
‾
\overline C
C 也是凸集。
在凸集的研究中另一个有用的概念为凸集的极值点 和极值方向 。 定义 1.3.7 设
S
⊂
R
n
S\subset R^n
S ⊂ R n 是非空凸集,
x
∈
S
x\in S
x ∈ S ,若
x
x
x 不在
S
S
S 中任何线段的内部,即,若假设
x
=
θ
x
1
+
(
1
−
θ
)
x
2
,
and
x
1
,
x
2
∈
S
,
θ
∈
(
0
,
1
)
x=\theta x_1+(1-\theta)x_2,\text{ and }x_1,x_2\in S,\theta \in (0,1)
x = θ x 1 + ( 1 − θ ) x 2 , and x 1 , x 2 ∈ S , θ ∈ ( 0 , 1 ) 必推出
x
=
x
1
=
x
2
x=x_1=x_2
x = x 1 = x 2 ,则称
x
x
x 是凸集
S
S
S 的极值点。 显然,多边形的顶点和圆周
上的任意点都是极值点。
定义 1.3.8 设
S
⊂
R
n
S\subset R^n
S ⊂ R n 是闭凸集,
d
d
d 为非零向量,如果对每一个
x
∈
S
,
x
+
λ
d
∈
S
,
∀
λ
≥
0
x\in S,x+\lambda d\in S,\forall \lambda\ge 0
x ∈ S , x + λ d ∈ S , ∀ λ ≥ 0 ,则称向量
d
d
d 为
S
S
S 的方向 。又设
d
1
d_1
d 1 和
d
2
d_2
d 2 为
S
S
S 的两个不同方向。如果
S
S
S 的方向
d
d
d 不能表示成该集合的两个不同方向的正的线性组合,即如果
d
=
λ
1
d
1
+
λ
2
d
2
,
λ
1
,
λ
2
>
0
d=\lambda_1 d_1+\lambda_2 d_2,\ \lambda_1,\lambda_2 \gt 0
d = λ 1 d 1 + λ 2 d 2 , λ 1 , λ 2 > 0 ,必可推出
d
1
=
α
d
2
d_1=\alpha d_2
d 1 = α d 2 ,则称
d
d
d 为
S
S
S 的极值方向 。 如下图: 图2 极值方向
考虑多面集
S
=
{
x
∣
A
x
=
b
,
x
≥
0
}
S=\{x\vert \ Ax=b,x\ge 0\}
S = { x ∣ A x = b , x ≥ 0 } 其中
A
A
A 是
m
×
n
m\times n
m × n 矩阵,
r
a
n
k
(
A
)
=
m
,
b
∈
R
m
{rank}(A)=m,b\in R^m
r a n k ( A ) = m , b ∈ R m 。不失一般性,设
A
=
[
B
,
N
]
A=[B,N]
A = [ B , N ] ,其中
B
B
B 是
m
×
m
m\times m
m × m 非奇异矩阵,
N
N
N 是
m
×
(
n
−
m
)
m\times(n-m)
m × ( n − m ) 矩阵。设
x
B
,
x
N
x_B,x_N
x B , x N 分别是对应于
B
B
B 和
N
N
N 的向量,
A
x
=
[
B
N
]
[
x
B
x
N
]
=
B
x
B
+
N
x
N
=
b
Ax=[B \ \ N]\left[ \begin{array} {c} x_B \\ x_N\end{array} \right]= Bx_B + Nx_N=b
A x = [ B N ] [ x B x N ] = B x B + N x N = b 于是,
x
x
x 是多面集
S
S
S 的极值点的充分必要条件
是
x
=
[
x
B
x
N
]
=
[
B
−
1
b
0
]
x=\left[ \begin{array} {c} x_B \\ x_N\end{array} \right]=\left[ \begin{array} {c} B^{-1}b \\ 0\end{array} \right]
x = [ x B x N ] = [ B − 1 b 0 ] 其中,
B
−
1
b
≥
0
B^{-1}b \ge 0
B − 1 b ≥ 0 。
d
≠
0
d\neq0
d ̸ = 0 是
S
S
S 的一个方向,当且仅当
A
d
=
0
,
d
≥
0
Ad=0,d\ge0
A d = 0 , d ≥ 0 。
d
‾
\overline d
d 是
S
S
S 的一个极值方向 ,当且仅当
B
−
1
a
j
≤
0
,
对某个
a
j
是 N 的列,
d
‾
=
α
d
=
α
(
B
−
1
a
j
e
j
)
B^{-1}a_j\le 0,\text{ 对某个 $a_j$ 是 N 的列,}\\ \text{} \\ \overline d=\alpha d=\alpha \left( \begin{array}{c} B^{-1}a_j \\ e_j \end{array}\right)
B − 1 a j ≤ 0 , 对某个 a j 是 N 的列 , d = α d = α ( B − 1 a j e j ) 其中
α
>
0
,
e
j
∈
R
n
−
m
\alpha \gt 0, e_j \in R^{n-m}
α > 0 , e j ∈ R n − m 是单位向量。
1.3.2 凸函数
定义 1.3.9 设
S
⊂
R
n
S\subset R^n
S ⊂ R n 是非空凸集,
α
∈
(
0
,
1
)
\alpha \in (0,1)
α ∈ ( 0 , 1 ) ,
f
f
f 是定义在
S
S
S 上的函数。如果对任意
x
1
,
x
2
∈
S
x_1,x_2\in S
x 1 , x 2 ∈ S ,有
f
(
α
x
1
+
(
1
−
α
)
x
2
)
≤
α
f
(
x
1
)
+
(
1
−
α
)
f
(
x
2
)
(
1.3.4
)
f(\alpha x_1+(1-\alpha)x_2)\le \alpha f(x_1)+(1-\alpha) f(x_2) \qquad(1.3.4)
f ( α x 1 + ( 1 − α ) x 2 ) ≤ α f ( x 1 ) + ( 1 − α ) f ( x 2 ) ( 1 . 3 . 4 ) 则称函数
f
f
f 是
S
S
S 上的凸函数 。如果当
x
1
≠
x
2
x_1\neq x_2
x 1 ̸ = x 2 时(1.3.4)中严格不等式成立,
f
(
α
x
1
+
(
1
−
α
)
x
2
)
<
α
f
(
x
1
)
+
(
1
−
α
)
f
(
x
2
)
(
1.3.5
)
f(\alpha x_1+(1-\alpha)x_2)\lt \alpha f(x_1)+(1-\alpha) f(x_2) \qquad(1.3.5)
f ( α x 1 + ( 1 − α ) x 2 ) < α f ( x 1 ) + ( 1 − α ) f ( x 2 ) ( 1 . 3 . 5 ) 则称函数
f
f
f 是
S
S
S 上的严格凸函数 。如果存在一个常数
c
>
0
c\gt 0
c > 0 ,使得对任意
x
1
,
x
2
∈
S
x_1,x_2\in S
x 1 , x 2 ∈ S ,有
α
f
(
x
1
)
+
(
1
−
α
)
f
(
x
2
)
≥
f
(
α
x
1
+
(
1
−
α
)
x
2
)
+
c
α
(
1
−
α
)
∥
x
1
−
x
2
∥
2
(
1.3.6
)
\alpha f(x_1)+(1-\alpha) f(x_2)\ge f(\alpha x_1+(1-\alpha)x_2)+c\alpha(1-\alpha)\Vert x_1-x_2\Vert^2\qquad(1.3.6)
α f ( x 1 ) + ( 1 − α ) f ( x 2 ) ≥ f ( α x 1 + ( 1 − α ) x 2 ) + c α ( 1 − α ) ∥ x 1 − x 2 ∥ 2 ( 1 . 3 . 6 ) 则称
f
f
f 在
S
S
S 上是一致凸的 。 如果
−
f
-f
− f 是
S
S
S 上的凸(严格凸)函数,则称
f
f
f 是
S
S
S 上的凹(严格凹)函数 。 图3 凸(凹)函数
凸函数有如下性质: 定理 1.3.10 1)设
f
f
f 是定义在凸集
S
S
S 上的凸函数,实数
α
≥
0
\alpha \ge 0
α ≥ 0 ,则
α
f
\alpha f
α f 也是定义在
S
S
S 上的凸函数。 2)设
f
1
,
f
2
f_1,f_2
f 1 , f 2 是定义在凸集
S
S
S 上的凸函数,则
f
1
+
f
2
f_1+f_2
f 1 + f 2 ,也是定义在
S
S
S 上的凸函数。 3)设
f
1
,
f
2
,
⋯
 
,
f
m
f_1,f_2,\cdots,f_m
f 1 , f 2 , ⋯ , f m 是定义在凸集
S
S
S 上的凸函数,实数
α
1
,
α
2
,
⋯
 
,
α
n
≥
0
\alpha_1,\alpha_2,\cdots,\alpha_n \ge 0
α 1 , α 2 , ⋯ , α n ≥ 0 ,则
∑
i
=
1
m
α
i
f
i
\sum_{i=1}^m \alpha_i f_i
∑ i = 1 m α i f i 也是定义在
S
S
S 上的凸函数。
即对正实数乘和加法是封闭的。
如果凸函数是可微的,我们可以用下面的特征描述凸函数,下面的定理刻画了凸函数的一阶特征。 定理 1.3.11 设
S
⊂
R
n
S\subset R^n
S ⊂ R n 是非空开凸集,
f
f
f 是定义在
S
S
S 上的可微函数,则
f
f
f 为凸函数的充分必要条件是:
f
(
y
)
≥
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
,
∀
x
,
y
∈
S
(
1.3.7
)
f(y)\ge f(x)+\nabla f(x)^T(y-x),\quad \forall x,y\in S\qquad(1.3.7)
f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) , ∀ x , y ∈ S ( 1 . 3 . 7 ) 图4 凸函数的一阶特征
证明: 必要性:设
f
f
f 是凸函数,于是对所有
α
,
0
≤
α
≤
1
\alpha,\ 0\le \alpha \le 1
α , 0 ≤ α ≤ 1 ,有
f
(
α
y
+
(
1
−
α
)
x
)
≤
α
f
(
y
)
+
(
1
−
α
)
f
(
x
)
f(\alpha y + (1-\alpha)x) \le \alpha f(y) + (1-\alpha)f(x)
f ( α y + ( 1 − α ) x ) ≤ α f ( y ) + ( 1 − α ) f ( x ) 因此,对于
0
<
α
≤
1
0\lt \alpha \le 1
0 < α ≤ 1 ,
f
(
x
+
α
(
y
−
x
)
)
−
f
(
x
)
α
≤
f
(
y
)
−
f
(
x
)
\frac{f(x+\alpha(y-x))-f(x)}{\alpha}\le f(y)-f(x)
α f ( x + α ( y − x ) ) − f ( x ) ≤ f ( y ) − f ( x ) 令
α
→
0
\alpha \to 0
α → 0 ,得
∇
f
(
x
)
T
(
y
−
x
)
≤
f
(
y
)
−
f
(
x
)
⇒
f
(
y
)
≥
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
\nabla f(x)^T(y-x)\le f(y)-f(x)\\ \text{} \\ \Rightarrow f(y)\ge f(x)+\nabla f(x)^T(y-x)
∇ f ( x ) T ( y − x ) ≤ f ( y ) − f ( x ) ⇒ f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) 充分性:今设(1.3.7)成立,任取
x
1
,
x
2
∈
S
,
0
≤
α
≤
1
x_1,x_2\in S, \ 0\le\alpha\le 1
x 1 , x 2 ∈ S , 0 ≤ α ≤ 1 ,令
x
=
α
x
1
+
(
1
−
α
)
x
2
x=\alpha x_1 + (1-\alpha)x_2
x = α x 1 + ( 1 − α ) x 2 ,我们有
f
(
x
1
)
≥
f
(
x
)
+
∇
f
(
x
)
T
(
x
1
−
x
)
f
(
x
2
)
≥
f
(
x
)
+
∇
f
(
x
)
T
(
x
2
−
x
)
f(x_1)\ge f(x) + \nabla f(x)^T(x_1-x)\\ f(x_2)\ge f(x) + \nabla f(x)^T(x_2-x)
f ( x 1 ) ≥ f ( x ) + ∇ f ( x ) T ( x 1 − x ) f ( x 2 ) ≥ f ( x ) + ∇ f ( x ) T ( x 2 − x ) 于是得到
α
f
(
x
1
)
+
(
1
−
α
)
f
(
x
2
)
≥
f
(
x
)
+
∇
f
(
x
)
T
[
α
x
1
+
(
1
−
α
)
x
2
−
x
]
=
f
(
α
x
1
+
(
1
−
α
)
x
2
)
\alpha f(x_1) + (1-\alpha)f(x_2)\ge f(x)+\nabla f(x)^T[\alpha x_1+(1-\alpha)x_2-x]\\=f(\alpha x_1+(1-\alpha)x_2)
α f ( x 1 ) + ( 1 − α ) f ( x 2 ) ≥ f ( x ) + ∇ f ( x ) T [ α x 1 + ( 1 − α ) x 2 − x ] = f ( α x 1 + ( 1 − α ) x 2 ) (对于一维凸函数,有
lim
x
→
α
x
1
+
(
1
−
α
)
x
2
f
(
α
x
1
+
(
1
−
α
)
x
2
)
−
f
(
x
)
α
x
1
+
(
1
−
α
)
x
2
−
x
=
f
′
(
α
x
1
+
(
1
−
α
)
x
2
)
\lim_{x\to \alpha x_1+(1-\alpha)x_2}\frac{f(\alpha x_1+(1-\alpha)x_2)-f(x)}{\alpha x_1+(1-\alpha)x_2-x} = f'(\alpha x_1+(1-\alpha)x_2)
x → α x 1 + ( 1 − α ) x 2 lim α x 1 + ( 1 − α ) x 2 − x f ( α x 1 + ( 1 − α ) x 2 ) − f ( x ) = f ′ ( α x 1 + ( 1 − α ) x 2 ) ) 这表明
f
(
x
)
f(x)
f ( x ) 是凸函数。
凸函数的定义 1.3.9 表示了两点的线性插值大于函数值,即函数图形在弦之下。这个定理表明了根据局部导数的线性近似是函数的低估
,即凸函数图形位于图形上任一点切线的上方。这样的切线(面)就称为凸函数的一个支撑超平面 。
下面,我们对于二次连续可微函数,考虑凸函数的二次特征。 定理 1.3.12 设
S
∈
R
n
S\in R^n
S ∈ R n 是非空开凸集,
f
f
f 是定义在
S
S
S 上的二次可微函数,则
f
f
f 是凸函数 的充分必要条件
是在
S
S
S 的每一点Hesse 矩阵正半定 。
f
f
f 在
x
x
x 处的 Hesse 矩阵定义为
n
×
n
n\times n
n × n 矩阵,其第
i
,
j
i,j
i , j 元素为:
[
∇
2
f
(
x
)
]
i
j
=
∂
2
f
(
x
)
∂
x
i
∂
x
j
,
1
≤
i
,
j
≤
n
[\nabla^2 f(x)]_{ij}=\frac{\partial^2 f(x)}{\partial x_i \partial x_j},\quad 1\le i,j \le n
[ ∇ 2 f ( x ) ] i j = ∂ x i ∂ x j ∂ 2 f ( x ) , 1 ≤ i , j ≤ n
证明: 1)充分性 设 Hesse 矩阵
∇
2
f
(
x
)
\nabla^2 f(x)
∇ 2 f ( x ) 在每一点
x
∈
S
x\in S
x ∈ S 正半定。考虑
x
,
x
‾
∈
S
x, \overline x\in S
x , x ∈ S ,由中值定理,有
f
(
x
)
=
f
(
x
‾
)
+
∇
f
(
x
‾
)
T
(
x
−
x
‾
)
+
1
2
(
x
−
x
‾
)
T
∇
2
f
(
x
^
)
(
x
−
x
‾
)
f(x) = f(\overline x) + \nabla f(\overline x)^T(x-\overline x)+\frac12(x-\overline x)^T\nabla^2f(\widehat x)(x-\overline x)
f ( x ) = f ( x ) + ∇ f ( x ) T ( x − x ) + 2 1 ( x − x ) T ∇ 2 f ( x
) ( x − x ) 其中,
x
^
=
x
‾
+
θ
(
x
−
x
‾
)
,
θ
∈
(
0
,
1
)
\widehat x=\overline x+\theta(x-\overline x),\theta \in (0,1)
x
= x + θ ( x − x ) , θ ∈ ( 0 , 1 ) 。注意到
x
^
∈
S
\widehat x\in S
x
∈ S ,故由假设(
∇
2
f
(
x
)
\nabla^2 f(x)
∇ 2 f ( x ) 在每一点
x
∈
S
x\in S
x ∈ S 正半定)知:
f
(
x
)
≥
f
(
x
‾
)
+
∇
f
(
x
‾
)
T
(
x
−
x
‾
)
f(x) \ge f(\overline x) + \nabla f(\overline x)^T(x-\overline x)
f ( x ) ≥ f ( x ) + ∇ f ( x ) T ( x − x ) 从而,根据定理 1.3.11 可知
f
f
f 是凸函数。 2)必要性 设
f
f
f 是凸函数,任取
x
‾
∈
S
\overline x\in S
x ∈ S ,我们要证明
p
T
∇
2
f
(
x
‾
)
p
≥
0
,
∀
p
∈
R
n
p^T\nabla^2f(\overline x)p\ge 0,\forall p\in R^n
p T ∇ 2 f ( x ) p ≥ 0 , ∀ p ∈ R n ,即证明
∇
2
f
(
x
‾
)
\nabla^2f(\overline x)
∇ 2 f ( x ) 正半定。由于
S
S
S 是开集,必存在
δ
>
0
\delta \gt 0
δ > 0 ,使当
∣
λ
∣
<
δ
\vert \lambda \vert \lt \delta
∣ λ ∣ < δ 时,
x
‾
+
λ
p
∈
S
\overline x+\lambda p\in S
x + λ p ∈ S 。根据定理 1.3.11,有
f
(
x
‾
+
λ
p
)
≥
f
(
x
‾
)
+
λ
∇
f
(
x
‾
)
T
p
(
1.3.8
)
f(\overline x +\lambda p)\ge f(\overline x) + \lambda \nabla f(\overline x)^Tp \qquad(1.3.8)
f ( x + λ p ) ≥ f ( x ) + λ ∇ f ( x ) T p ( 1 . 3 . 8 ) 又由于
f
(
x
)
f(x)
f ( x ) 在
x
‾
\overline x
x 处二次可微,则
f
(
x
‾
+
λ
p
)
=
f
(
x
‾
)
+
λ
∇
f
(
x
‾
)
T
p
+
λ
2
2
p
T
G
(
x
‾
)
p
+
o
(
∥
λ
p
∥
2
)
(
1.3.9
)
f(\overline x+\lambda p)=f(\overline x)+\lambda\nabla f(\overline x)^Tp+\frac{\lambda^2}2p^TG(\overline x)p+o(\Vert \lambda p\Vert^2)\qquad(1.3.9)
f ( x + λ p ) = f ( x ) + λ ∇ f ( x ) T p + 2 λ 2 p T G ( x ) p + o ( ∥ λ p ∥ 2 ) ( 1 . 3 . 9 ) 其中
G
(
x
‾
)
G(\overline x)
G ( x ) 是
f
f
f 在
x
‾
\overline x
x 处的 Hesse 阵。将 (1.3.9) 代入 (1.3.8) 便得到
1
2
λ
2
p
T
G
(
x
‾
)
p
+
o
(
∥
λ
p
∥
2
)
≥
0
\frac12 \lambda^2p^TG(\overline x)p+o(\Vert \lambda p\Vert^2)\ge 0
2 1 λ 2 p T G ( x ) p + o ( ∥ λ p ∥ 2 ) ≥ 0 上式两边除以
λ
2
\lambda^2
λ 2 ,并令
λ
→
0
\lambda\to 0
λ → 0 ,得
p
T
G
(
x
‾
)
p
≥
0
p^TG(\overline x)p\ge 0
p T G ( x ) p ≥ 0 必要性得证。
□
\square
□
定理 1.3.13 设
S
⊂
R
n
S\subset R^n
S ⊂ R n 为非空开凸集,
f
f
f 是定义在
S
S
S 上的可微函数,则
f
f
f 为严格凸函数
的充分必要条件是
f
(
y
)
>
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
,
∀
y
,
x
∈
S
,
x
≠
y
(
1.3.10
)
f(y)\gt f(x)+\nabla f(x)^T(y-x),\quad \forall y,x\in S, x\neq y\qquad(1.3.10)
f ( y ) > f ( x ) + ∇ f ( x ) T ( y − x ) , ∀ y , x ∈ S , x ̸ = y ( 1 . 3 . 1 0 ) 定理 1.3.14 设
S
⊂
R
n
S\subset R^n
S ⊂ R n 为非空开凸集,
f
f
f 是定义在
S
S
S 上的二次可微函数,如果在每一点
x
∈
S
x\in S
x ∈ S ,Hesse 阵正定 ,则
f
f
f 为严格凸函数,但
如果
f
f
f 为严格凸函数,则 Hesse 矩阵在
S
S
S 的每一点正半定 。
和凸函数关系密切的是水平集 。下面的定理指出水平集是凸集。 定理 1.3.15 设
S
⊂
R
n
S\subset R^n
S ⊂ R n 为非空凸集,
f
f
f 是定义在
S
S
S 上的凸函数,
α
\alpha
α 是一个实数,则水平集
L
α
=
{
x
∣
x
∈
S
,
f
(
x
)
≤
α
}
L_{\alpha}=\{x\vert \ x\in S,f(x)\le \alpha\}
L α = { x ∣ x ∈ S , f ( x ) ≤ α } 是凸集。
证明: 设
x
1
,
x
2
∈
L
α
x_1,x_2 \in L_{\alpha}
x 1 , x 2 ∈ L α ,于是
x
1
,
x
2
∈
S
,
f
(
x
1
)
≤
α
,
f
(
x
2
)
≤
α
x_1,x_2\in S,f(x_1)\le \alpha,f(x_2)\le\alpha
x 1 , x 2 ∈ S , f ( x 1 ) ≤ α , f ( x 2 ) ≤ α 。 今设
λ
∈
(
0
,
1
)
,
x
=
λ
x
1
+
(
1
−
λ
)
x
2
\lambda\in(0,1),x=\lambda x_1+(1-\lambda)x_2
λ ∈ ( 0 , 1 ) , x = λ x 1 + ( 1 − λ ) x 2 。由
S
S
S 的凸性知道
x
∈
S
x\in S
x ∈ S ,又由于
f
f
f 是凸函数,故有:
f
(
x
1
)
>
f
(
x
)
+
∇
f
(
x
)
T
(
x
1
−
λ
x
1
−
(
1
−
λ
)
x
2
)
=
f
(
x
)
+
∇
f
(
x
)
T
(
1
−
λ
)
(
x
1
−
x
2
)
f
(
x
2
)
>
f
(
x
)
+
∇
f
(
x
)
T
(
x
2
−
λ
x
1
−
(
1
−
λ
)
x
2
)
=
f
(
x
)
−
∇
f
(
x
)
T
λ
(
x
1
−
x
2
)
→
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
>
f
(
x
)
→
f
(
x
)
<
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
≤
λ
α
+
(
1
−
λ
)
α
=
α
f(x_1)\gt f(x)+\nabla f(x)^T(x_1-\lambda x_1-(1-\lambda)x_2)\\ =f(x)+\nabla f(x)^T(1-\lambda)(x_1-x_2) \\ f(x_2)\gt f(x)+\nabla f(x)^T(x_2-\lambda x_1-(1-\lambda)x_2)\\ =f(x)-\nabla f(x)^T\lambda(x_1-x_2) \\ \to \lambda f(x_1)+(1-\lambda)f(x_2) \gt f(x) \\ \to f(x) \lt \lambda f(x_1)+(1-\lambda)f(x_2)\le \lambda \alpha + (1-\lambda) \alpha = \alpha
f ( x 1 ) > f ( x ) + ∇ f ( x ) T ( x 1 − λ x 1 − ( 1 − λ ) x 2 ) = f ( x ) + ∇ f ( x ) T ( 1 − λ ) ( x 1 − x 2 ) f ( x 2 ) > f ( x ) + ∇ f ( x ) T ( x 2 − λ x 1 − ( 1 − λ ) x 2 ) = f ( x ) − ∇ f ( x ) T λ ( x 1 − x 2 ) → λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) > f ( x ) → f ( x ) < λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) ≤ λ α + ( 1 − λ ) α = α 因此,
x
∈
L
α
x\in L_{\alpha}
x ∈ L α ,从而
L
α
L_{\alpha}
L α 是凸集。
□
\square
□
进一步,若
f
f
f 是
S
S
S 上的连续凸函数,则显然水平集
L
α
L_{\alpha}
L α 是闭凸集。
定理 1.3.16 设
f
(
x
)
f(x)
f ( x ) 在
S
∈
R
n
S\in R^n
S ∈ R n 上二次连续可微,且存在常数
m
>
0
m\gt 0
m > 0 ,使得:
u
T
∇
2
f
(
x
)
u
≥
m
∥
u
∥
2
,
∀
x
∈
L
(
x
0
)
,
u
∈
R
n
(
1.3.11
)
u^T\nabla^2f(x)u\ge m\Vert u\Vert^2,\quad \forall x\in L(x_0), u\in R^n\qquad(1.3.11)
u T ∇ 2 f ( x ) u ≥ m ∥ u ∥ 2 , ∀ x ∈ L ( x 0 ) , u ∈ R n ( 1 . 3 . 1 1 ) 则水平集
L
(
x
0
)
=
{
x
∈
S
∣
f
(
x
)
≤
f
(
x
0
)
}
L(x_0)=\{x\in S\vert \ f(x)\le f(x_0)\}
L ( x 0 ) = { x ∈ S ∣ f ( x ) ≤ f ( x 0 ) } 是有界闭凸集 。
证明: 因为:
u
T
∇
2
f
(
x
)
u
≥
m
∥
u
∥
2
,
∀
x
∈
L
(
x
0
)
,
u
∈
R
n
(
1.3.11
)
u^T\nabla^2f(x)u\ge m\Vert u\Vert^2,\quad \forall x\in L(x_0), u\in R^n\qquad(1.3.11)
u T ∇ 2 f ( x ) u ≥ m ∥ u ∥ 2 , ∀ x ∈ L ( x 0 ) , u ∈ R n ( 1 . 3 . 1 1 ) 所以,
f
(
x
)
f(x)
f ( x ) 每一点的 Hesse 矩阵正定,
f
(
x
)
f(x)
f ( x ) 为严格凸函数,由定理 1.3.15,可知,水平集
L
(
x
0
)
L(x_0)
L ( x 0 ) 对于任意
x
0
∈
R
n
x_0\in R^n
x 0 ∈ R n 是闭凸集。 现在证明
L
(
x
0
)
L(x_0)
L ( x 0 ) 的有界性
。 因为水平集
L
(
x
0
)
L(x_0)
L ( x 0 ) 是凸的,由(1.3.11),故
∀
x
,
y
∈
L
(
x
0
)
\forall x,y\in L(x_0)
∀ x , y ∈ L ( x 0 ) ,
m
∥
y
−
x
∥
2
≤
(
y
−
x
)
T
∇
2
f
(
x
+
α
(
y
−
x
)
)
(
y
−
x
)
m\Vert y-x \Vert^2 \le (y-x)^T\nabla^2f(x+\alpha(y-x))(y-x)
m ∥ y − x ∥ 2 ≤ ( y − x ) T ∇ 2 f ( x + α ( y − x ) ) ( y − x ) 又由 Taylor 展开,(此处,我也不甚了了。)
f
(
y
)
=
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
+
∫
0
1
∫
0
t
(
y
−
x
)
T
∇
2
f
(
x
+
α
(
y
−
x
)
)
(
y
−
x
)
d
α
d
t
≥
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
+
1
2
m
∥
y
−
x
∥
2
f(y) = f(x) + \nabla f(x)^T(y-x)+\int_0^1\int_0^t(y-x)^T\nabla^2f(x+\alpha(y-x))(y-x)d\alpha dt\\ \text{ } \\ \ge f(x) + \nabla f(x)^T(y-x) + \frac 12 m\Vert y-x\Vert^2
f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + ∫ 0 1 ∫ 0 t ( y − x ) T ∇ 2 f ( x + α ( y − x ) ) ( y − x ) d α d t ≥ f ( x ) + ∇ f ( x ) T ( y − x ) + 2 1 m ∥ y − x ∥ 2 其中
m
m
m 与
x
,
y
x,y
x , y 无关,因此对任意
y
∈
L
(
x
0
)
,
y
≠
x
0
y\in L(x_0),y\neq x_0
y ∈ L ( x 0 ) , y ̸ = x 0 ,
f
(
y
)
−
f
(
x
0
)
≥
∇
f
(
x
0
)
T
(
y
−
x
0
)
+
1
2
m
∥
y
−
x
0
∥
2
≥
−
∥
∇
f
(
x
0
)
∥
⋅
∥
y
−
x
0
∥
+
1
2
m
∥
y
−
x
0
∥
2
f(y)-f(x_0) \ge \nabla f(x_0)^T(y-x_0)+\frac12m\Vert y-x_0\Vert^2 \\ \text{ } \\ \ge-\Vert\nabla f(x_0)\Vert\cdot\Vert y-x_0\Vert+\frac12m\Vert y-x_0\Vert^2
f ( y ) − f ( x 0 ) ≥ ∇ f ( x 0 ) T ( y − x 0 ) + 2 1 m ∥ y − x 0 ∥ 2 ≥ − ∥ ∇ f ( x 0 ) ∥ ⋅ ∥ y − x 0 ∥ + 2 1 m ∥ y − x 0 ∥ 2 上式的第二个不等式是因为 Cauchy-Schwarz 不等式:
∣
x
T
y
∣
≤
∥
x
∥
⋅
∥
y
∥
\vert x^Ty\vert \le \Vert x\Vert\cdot \Vert y\Vert
∣ x T y ∣ ≤ ∥ x ∥ ⋅ ∥ y ∥ 。 又由于
f
(
y
)
≤
f
(
x
0
)
f(y)\le f(x_0)
f ( y ) ≤ f ( x 0 ) ,故
∥
y
−
x
0
∥
≤
2
m
∥
∇
f
(
x
0
)
∥
\Vert y-x_0 \Vert \le \frac2m\Vert \nabla f(x_0) \Vert
∥ y − x 0 ∥ ≤ m 2 ∥ ∇ f ( x 0 ) ∥ 这表明水平集
L
(
x
0
)
=
{
x
∣
x
∈
S
,
f
(
x
)
≤
f
(
x
0
)
}
L(x_0)=\{x\vert x\in S,f(x)\le f(x_0)\}
L ( x 0 ) = { x ∣ x ∈ S , f ( x ) ≤ f ( x 0 ) } 有界。
□
\qquad\square
□
最后,作为函数凸性的一个应用,我们给出 Minkowski 不等式的证明。 Minkowski 不等式 :
∥
x
+
y
∥
p
≤
∥
x
∥
p
+
∥
y
∥
p
\Vert x+y \Vert_p\le \Vert x\Vert_p+\Vert y\Vert_p
∥ x + y ∥ p ≤ ∥ x ∥ p + ∥ y ∥ p 即
(
∑
i
=
1
n
∣
x
i
+
y
i
∣
p
)
1
/
p
≤
(
∑
i
=
1
n
∣
x
i
∣
p
)
1
/
p
+
(
∑
i
=
1
n
∣
y
i
∣
p
)
1
/
p
\left( \sum_{i=1}^n\vert x_i+y_i\vert^p\right)^{1/p}\le \left( \sum_{i=1}^n\vert x_i\vert^p\right)^{1/p}+\left( \sum_{i=1}^n\vert y_i\vert^p\right)^{1/p}
( i = 1 ∑ n ∣ x i + y i ∣ p ) 1 / p ≤ ( i = 1 ∑ n ∣ x i ∣ p ) 1 / p + ( i = 1 ∑ n ∣ y i ∣ p ) 1 / p 其中,
p
≥
1
p\ge 1
p ≥ 1 .
证明: 如果
x
x
x 或
y
y
y 为零向量,则不等式显然成立。故假定
x
≠
0
,
y
≠
0
x\neq 0,y\neq 0
x ̸ = 0 , y ̸ = 0 . 若
p
=
1
p=1
p = 1 ,由于
∣
x
i
+
y
i
∣
≤
∣
x
i
∣
+
∣
y
i
∣
,
i
=
1
,
⋯
 
,
n
\vert x_i+y_i\vert\le \vert x_i \vert+\vert y_i\vert, i=1,\cdots,n
∣ x i + y i ∣ ≤ ∣ x i ∣ + ∣ y i ∣ , i = 1 , ⋯ , n . 今设
p
>
1
p\gt 1
p > 1 ,考虑函数
ϕ
(
t
)
=
t
p
,
t
>
0
⇒
ϕ
′
′
(
t
)
=
p
(
p
−
1
)
t
p
−
2
\phi(t)=t^p,\quad t\gt 0\\ \Rightarrow\phi''(t)=p(p-1)t^{p-2}
ϕ ( t ) = t p , t > 0 ⇒ ϕ ′ ′ ( t ) = p ( p − 1 ) t p − 2 故函数
ϕ
(
t
)
\phi(t)
ϕ ( t ) 严格凸。注意到:
∥
x
∥
p
∥
x
∥
p
+
∥
y
∥
p
+
∥
y
∥
p
∥
x
∥
p
+
∥
y
∥
p
=
1
\frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}+\frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}=1
∥ x ∥ p + ∥ y ∥ p ∥ x ∥ p + ∥ x ∥ p + ∥ y ∥ p ∥ y ∥ p = 1 于是,由凸函数定义得到
(
∥
x
∥
p
∥
x
∥
p
+
∥
y
∥
p
∣
x
i
∣
∥
x
∥
p
+
∥
y
∥
p
∥
x
∥
p
+
∥
y
∥
p
∣
y
i
∣
∥
y
∥
p
)
p
≤
∥
x
∥
p
∥
x
∥
p
+
∥
y
∥
p
(
∣
x
i
∣
∥
x
∥
p
)
p
+
∥
y
∥
p
∥
x
∥
p
+
∥
y
∥
p
(
∣
y
i
∣
∥
y
∥
p
)
p
\left(\frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\frac{|x_i|}{\Vert x\Vert_p}+\frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\frac{|y_i|}{\Vert y\Vert_p}\right)^p \\ \text{ } \\ \le \frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\left( \frac{|x_i|}{\Vert x\Vert_p}\right)^p + \frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\left( \frac{|y_i|}{\Vert y\Vert_p}\right)^p
( ∥ x ∥ p + ∥ y ∥ p ∥ x ∥ p ∥ x ∥ p ∣ x i ∣ + ∥ x ∥ p + ∥ y ∥ p ∥ y ∥ p ∥ y ∥ p ∣ y i ∣ ) p ≤ ∥ x ∥ p + ∥ y ∥ p ∥ x ∥ p ( ∥ x ∥ p ∣ x i ∣ ) p + ∥ x ∥ p + ∥ y ∥ p ∥ y ∥ p ( ∥ y ∥ p ∣ y i ∣ ) p 因此
∑
i
=
1
n
(
∣
x
i
+
y
i
∣
∥
x
∥
p
+
∥
y
∥
p
)
p
≤
∑
i
=
1
n
(
∣
x
i
∣
+
∣
y
i
∣
∥
x
∥
p
+
∥
y
∥
p
)
p
因
为
p
次
函
数
是
凸
函
数
,
所
以
≤
∑
i
=
1
n
(
∥
x
∥
p
∥
x
∥
p
+
∥
y
∥
p
(
∣
x
i
∣
∥
x
∥
p
)
p
+
∥
y
∥
p
∥
x
∥
p
+
∥
y
∥
p
(
∣
y
i
∣
∥
y
∥
p
)
p
)
≤
∥
x
∥
p
∥
x
∥
p
+
∥
y
∥
p
∑
i
=
1
n
(
∣
x
i
∣
∥
x
∥
p
)
p
+
∥
y
∥
p
∥
x
∥
p
+
∥
y
∥
p
∑
i
=
1
n
(
∣
y
i
∣
∥
y
∥
p
)
p
=
∥
x
∥
p
∥
x
∥
p
+
∥
y
∥
p
⋅
∥
x
∥
p
p
∥
x
∥
p
p
+
∥
y
∥
p
∥
x
∥
p
+
∥
y
∥
p
⋅
∥
y
∥
p
p
∥
y
∥
p
p
=
1
\sum_{i=1}^n\left(\frac{\vert x_i+y_i\vert}{\Vert x\Vert_p+\Vert y\Vert_p} \right)^p\le \sum_{i=1}^n\left(\frac{\vert x_i\vert+\vert y_i\vert}{\Vert x\Vert_p+\Vert y\Vert_p} \right)^p \\ \color{red}{因为p次函数是凸函数,所以}\color{black}\\ \le \sum_{i=1}^n\left(\frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p} \left(\frac{\vert x_i\vert}{\Vert x\Vert_p} \right)^p+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p} \left(\frac{\vert y_i\vert}{\Vert y\Vert_p} \right)^p\right)\\ \le \frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\sum_{i=1}^n \left(\frac{\vert x_i\vert}{\Vert x\Vert_p} \right)^p+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\sum_{i=1}^n \left(\frac{\vert y_i\vert}{\Vert y\Vert_p} \right)^p \\ = \frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\cdot\frac{\Vert x \Vert_p^p}{\Vert x \Vert_p^p}+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\cdot\frac{\Vert y \Vert_p^p}{\Vert y \Vert_p^p}=1
i = 1 ∑ n ( ∥ x ∥ p + ∥ y ∥ p ∣ x i + y i ∣ ) p ≤ i = 1 ∑ n ( ∥ x ∥ p + ∥ y ∥ p ∣ x i ∣ + ∣ y i ∣ ) p 因 为 p 次 函 数 是 凸 函 数 , 所 以 ≤ i = 1 ∑ n ( ∥ x ∥ p + ∥ y ∥ p ∥ x ∥ p ( ∥ x ∥ p ∣ x i ∣ ) p + ∥ x ∥ p + ∥ y ∥ p ∥ y ∥ p ( ∥ y ∥ p ∣ y i ∣ ) p ) ≤ ∥ x ∥ p + ∥ y ∥ p ∥ x ∥ p i = 1 ∑ n ( ∥ x ∥ p ∣ x i ∣ ) p + ∥ x ∥ p + ∥ y ∥ p ∥ y ∥ p i = 1 ∑ n ( ∥ y ∥ p ∣ y i ∣ ) p = ∥ x ∥ p + ∥ y ∥ p ∥ x ∥ p ⋅ ∥ x ∥ p p ∥ x ∥ p p + ∥ x ∥ p + ∥ y ∥ p ∥ y ∥ p ⋅ ∥ y ∥ p p ∥ y ∥ p p = 1 这样,
∑
i
=
1
n
∣
x
i
+
y
i
∣
p
≤
(
∥
x
∥
p
+
∥
y
∥
p
)
p
\sum^n_{i=1}\vert x_i+y_i\vert^p\le (\Vert x\Vert_p +\Vert y \Vert_p)^p
i = 1 ∑ n ∣ x i + y i ∣ p ≤ ( ∥ x ∥ p + ∥ y ∥ p ) p 上式两边取p次根即得结果。
□
\qquad \square
□