抄书——最优化的理论与方法（5）——数学基础（凸集和凸函数）

以下内容主要抄自抄袁亚湘的《最优化理论与方法》的 1.3 凸集和凸函数

凸性（Convexity）在优化化理论和方法的研究中起着重要作用。

1.3.1 凸集

定义 1.3.1
设集合 $S\subset R^n$ ，如果对于任意 $x_1,x_2\in S$ ，有
$\alpha x_1+(1-\alpha)x_2\in S,\quad \forall \alpha\in [0,1]\qquad(1.3.1)$
则称 $S$ 是凸集。
这个定义表明，如果 $x_1,x_2\in S$ ，则连接 $x_1$ 和 $x_2$ 的线段属于 $S$ 。
在这里插入图片描述
图1 凸集与非凸集（左边是凸集，右边是非凸集）
归纳地可以证明， $R^n$ 的子集 $S$ 为凸集当且仅当对任意 $x_1,x_2,\cdots,x_m \in S$ ，有
$\sum_{i=1}^m \alpha_i x_i \in S,\qquad(1.3.2)\\ \text{with }\sum_{i=1}^m \alpha_i=1,\quad \alpha_i\ge 0, i=1,\cdots,m$
(1.3.1)中的 $x=\alpha x_1+(1-\alpha)x_2$ 称为 $x_1$ 和 $x_2$ 的凸组合，(1.3.2)中的 $x=\sum\alpha_i x_i$ 称为 $x_1,\cdots,x_n$ 的凸组合。
例 1.3.2
超平面 $H=\{ x\vert\ p^Tx=\alpha,\alpha\in R\}$ 是凸集，其中 $p\in R^n$ 是非零向量，称为超平面的法向量， $\alpha$ 为实数。
例 1.3.3
闭半空间 $H^-=\{x \vert \ p^Tx\le \beta\}$ 和 $H^+=\{x \vert \ p^Tx\ge \beta\}$ 为凸集。开半空间 $\mathring H^-=\{x \vert \ p^Tx\lt \beta\}$ 和 $\mathring H^+=\{x \vert \ p^Tx\gt \beta\}$ 为凸集。
例 1.3.4
射线 $S=\{x\vert\ x_0+\lambda d,\ \lambda\ge 0\}$ 为凸集，其中， $d$ 是给定的任意非零向量， $x_0$ 是定点。

对于任意 $x_1,x_2 \in S$ 和每个数 $\lambda\in[0,1]$ ，有
$x_1=x_0+\lambda_1 d,\quad x_2=x_0+\lambda_2 d,\quad \lambda_1,\lambda_2\in [0,1]$
因而，
$\lambda x_1 + (1-\lambda)x_2=x_0+[\lambda\lambda_1+(1-\lambda)\lambda_2]d\\ \lambda\lambda_1+(1-\lambda)\lambda_2\ge 0$
故， $\lambda x_1 + (1-\lambda)x_2 \in S$ .

此外，若 $A$ 是 $m\times n$ 矩阵， $b\in R^n$ ，则集合
$S=\{x\in R^n \vert Ax=b\}$
是凸集。
由有限个半闭空间的交组成的集合 $S$ 叫多面集，表达为
$S=\{x\vert p_i^T x\le \beta_i,\ i=1,\cdots,m\}$
其中 $p_i$ 是非零向量， $\beta_i$ 是实数。多面集是闭凸集。由于等式可以用两个不等式表示，所以下面的集合都是多面集的例子：
$S=\{x\vert A x=b,\ x\ge 0\},\\ S=\{x\vert A x\ge 0,\ x\ge 0\}.$
下面的引理叙述了凸集的性质，即两个凸集的交集是凸集，两个凸集的代数和是凸集。
引理 1.3.5
设 $S_1$ 和 $S_2$ 是 $R^n$ 中的凸集，则
1） $S_1\cap S_2$ 是凸集；
2） $S_1 \pm S_2=\{ x_1\pm x_2 \vert\ x_1\in S_1, x_2 \in S_2\}$
从这个引理可知，线性规划和二次规划中的可行域是凸集，因为它是超平面和半空间的交集。

设 $S\subset R^n$ ，包含子集 $S$ 的所有凸集的交叫 $S$ 的凸包，记作 ${conv}(S)$ ，它是包含 $S$ 的唯一的最小的凸集。凸包 ${conv}(S)$ 由 $S$ 中元素的所有凸组合组成，
${conv}(S)=\left \{ x \left\vert x=\sum_{i=1}^m \alpha_i x_i,\ x_i\in S,\ \sum_{i=1}^m \alpha_i = 1,\ \alpha_i\ge 0, i=1,\cdots,m\right. \right\}\qquad(1.3.3)$

$R^n$ 的子集叫锥，如果它关于正的数乘运算是封闭的，即当 $x\in K,\ \lambda\gt 0$ 时， $\lambda x \in K$ 。如果锥 K 也是凸集，则称之为凸锥。例如：
$\{ x=(\xi_1,\cdots,\xi_n)\ \vert \ \xi_1\ge 0,\cdots,\xi_n \ge 0\},\\ \{ x=(\xi_1,\cdots,\xi_n)\ \vert \ \xi_1\gt 0,\cdots,\xi_n \gt 0\},$
和
$\{ x\in R^n \ \vert \ x^Tb_i\le 0, i\in I\}$
均是凸锥，在上式中， $b_i\in R^n$ ， $I$ 是一个任意指标集。
$R^n$ 的一个子集是凸锥当且仅当它关于加法和正的数乘运算是封闭的。包含凸集 $C$ 的最小凸锥是
$K=\{\lambda x\ \vert\ \lambda \gt 0, x\in C\}$

下面叙述开集、闭集、开凸集和闭凸集。
设 $x\in R^n$ ，开球 $B(x,r)$ 定义为：
$B(x,r) = \{y\in R^n \ \vert \ \Vert y-x \Vert \lt r \}$
这是一个以 $x$ 为中心，以 $r$ 为半径的开球。
设 $S\subset R^n$ ，如果存在 $r\gt 0$ ，使得 $B(x,r)\subset S$ ，则称 $x\in R^n$ 是 $S$ 的内点。 $S$ 的所有内点的集合叫 $S$ 的内部，用 ${int}(S)$ 表示。显然， $int(S)\subset S$ 。
如果子集 $S$ 的每一点都是 $S$ 的内点，即 $int(S)=S$ ，则 $S$ 称为开子集。特别，空集 $\varnothing$ 和 $n$ 维空间 $R^n$ （全集）是 $R^n$ 的开子集。（它们既是开集，又是闭集。）
设 $S\subset R^n$ ，如果
$S\cap B(x,r) \neq \varnothing, \ \forall r\gt 0$
则 $x$ 称为属于S的闭包，即 $x\in \overline S$ 。显然， $S\subset \overline S$ 。
如果 $S=\overline S$ ，则 $S$ 称为闭子集。空集 $\varnothing$ 和 $n$ 维空间 $R^n$ （全集）是 $R^n$ 的闭子集。直观地说，如果一个子集包含它所有的边界点，则它是闭的。例如：闭球 $\overline B(x,r)=\{y\in R^n \vert \ \Vert y-x\Vert\le r\}$ 是闭集。
显然，一个子集是闭的，当且仅当它的补是开的。
根据上述定义，闭包 $\overline S$ 可以写为：
$\overline S = \{ x\in R^n \ \vert \ \lim_{k} \Vert x_k-x\Vert=0,\ x_k\in S\}$

什么意思呢？即闭包 $\overline S$ 集合中的点 $x$ 与集合 $S$ 的距离为零。

若 $S\subset R^n$ 是凸集，若它是开的，则称为开凸集；若它是闭的，则称为闭凸集。

定理 1.3.6
如果 $C\subset R^n$ 是凸集，那么 $C$ 的闭包 $\overline C$ 也是凸集。

在凸集的研究中另一个有用的概念为凸集的极值点和极值方向。
定义 1.3.7
设 $S\subset R^n$ 是非空凸集， $x\in S$ ，若 $x$ 不在 $S$ 中任何线段的内部，即，若假设 $x=\theta x_1+(1-\theta)x_2,\text{ and }x_1,x_2\in S,\theta \in (0,1)$ 必推出 $x=x_1=x_2$ ，则称 $x$ 是凸集 $S$ 的极值点。
显然，多边形的顶点和圆周上的任意点都是极值点。

定义 1.3.8
设 $S\subset R^n$ 是闭凸集， $d$ 为非零向量，如果对每一个 $x\in S,x+\lambda d\in S,\forall \lambda\ge 0$ ，则称向量 $d$ 为 $S$ 的方向。又设 $d_1$ 和 $d_2$ 为 $S$ 的两个不同方向。如果 $S$ 的方向 $d$ 不能表示成该集合的两个不同方向的正的线性组合，即如果 $d=\lambda_1 d_1+\lambda_2 d_2,\ \lambda_1,\lambda_2 \gt 0$ ，必可推出 $d_1=\alpha d_2$ ，则称 $d$ 为 $S$ 的极值方向。
如下图：
在这里插入图片描述
图2 极值方向

考虑多面集
$S=\{x\vert \ Ax=b,x\ge 0\}$
其中 $A$ 是 $m\times n$ 矩阵， ${rank}(A)=m,b\in R^m$ 。不失一般性，设 $A=[B,N]$ ，其中 $B$ 是 $m\times m$ 非奇异矩阵， $N$ 是 $m\times(n-m)$ 矩阵。设 $x_B,x_N$ 分别是对应于 $B$ 和 $N$ 的向量，
$Ax=[B \ \ N]\left[ \begin{array} {c} x_B \\ x_N\end{array} \right]= Bx_B + Nx_N=b$
于是， $x$ 是多面集 $S$ 的极值点的充分必要条件是
$x=\left[ \begin{array} {c} x_B \\ x_N\end{array} \right]=\left[ \begin{array} {c} B^{-1}b \\ 0\end{array} \right]$
其中， $B^{-1}b \ge 0$ 。
$d\neq0$ 是 $S$ 的一个方向，当且仅当 $Ad=0,d\ge0$ 。 $\overline d$ 是 $S$ 的一个极值方向，当且仅当
$B^{-1}a_j\le 0,\text{ 对某个 $a_j$ 是 N 的列,}\\ \text{} \\ \overline d=\alpha d=\alpha \left( \begin{array}{c} B^{-1}a_j \\ e_j \end{array}\right)$
其中 $\alpha \gt 0, e_j \in R^{n-m}$ 是单位向量。

1.3.2 凸函数

定义 1.3.9
设 $S\subset R^n$ 是非空凸集， $\alpha \in (0,1)$ ， $f$ 是定义在 $S$ 上的函数。如果对任意 $x_1,x_2\in S$ ，有
$f(\alpha x_1+(1-\alpha)x_2)\le \alpha f(x_1)+(1-\alpha) f(x_2) \qquad(1.3.4)$
则称函数 $f$ 是 $S$ 上的凸函数。如果当 $x_1\neq x_2$ 时(1.3.4)中严格不等式成立，
$f(\alpha x_1+(1-\alpha)x_2)\lt \alpha f(x_1)+(1-\alpha) f(x_2) \qquad(1.3.5)$
则称函数 $f$ 是 $S$ 上的严格凸函数。如果存在一个常数 $c\gt 0$ ，使得对任意 $x_1,x_2\in S$ ，有
$\alpha f(x_1)+(1-\alpha) f(x_2)\ge f(\alpha x_1+(1-\alpha)x_2)+c\alpha(1-\alpha)\Vert x_1-x_2\Vert^2\qquad(1.3.6)$
则称 $f$ 在 $S$ 上是一致凸的。
如果 $-f$ 是 $S$ 上的凸（严格凸）函数，则称 $f$ 是 $S$ 上的凹（严格凹）函数。
在这里插入图片描述
图3 凸（凹）函数

凸函数有如下性质：
定理 1.3.10
1）设 $f$ 是定义在凸集 $S$ 上的凸函数，实数 $\alpha \ge 0$ ，则 $\alpha f$ 也是定义在 $S$ 上的凸函数。
2）设 $f_1,f_2$ 是定义在凸集 $S$ 上的凸函数，则 $f_1+f_2$ ，也是定义在 $S$ 上的凸函数。
3）设 $f_1,f_2,\cdots,f_m$ 是定义在凸集 $S$ 上的凸函数，实数 $\alpha_1,\alpha_2,\cdots,\alpha_n \ge 0$ ，则 $\sum_{i=1}^m \alpha_i f_i$ 也是定义在 $S$ 上的凸函数。

即对正实数乘和加法是封闭的。

如果凸函数是可微的，我们可以用下面的特征描述凸函数，下面的定理刻画了凸函数的一阶特征。
定理 1.3.11
设 $S\subset R^n$ 是非空开凸集， $f$ 是定义在 $S$ 上的可微函数，则 $f$ 为凸函数的充分必要条件是：
$f(y)\ge f(x)+\nabla f(x)^T(y-x),\quad \forall x,y\in S\qquad(1.3.7)$
在这里插入图片描述
图4 凸函数的一阶特征

证明：
必要性：设 $f$ 是凸函数，于是对所有 $\alpha,\ 0\le \alpha \le 1$ ，有
$f(\alpha y + (1-\alpha)x) \le \alpha f(y) + (1-\alpha)f(x)$
因此，对于 $0\lt \alpha \le 1$ ，
$\frac{f(x+\alpha(y-x))-f(x)}{\alpha}\le f(y)-f(x)$
令 $\alpha \to 0$ ，得
$\nabla f(x)^T(y-x)\le f(y)-f(x)\\ \text{} \\ \Rightarrow f(y)\ge f(x)+\nabla f(x)^T(y-x)$
充分性：今设（1.3.7）成立，任取 $x_1,x_2\in S, \ 0\le\alpha\le 1$ ，令 $x=\alpha x_1 + (1-\alpha)x_2$ ，我们有
$f(x_1)\ge f(x) + \nabla f(x)^T(x_1-x)\\ f(x_2)\ge f(x) + \nabla f(x)^T(x_2-x)$
于是得到
$\alpha f(x_1) + (1-\alpha)f(x_2)\ge f(x)+\nabla f(x)^T[\alpha x_1+(1-\alpha)x_2-x]\\=f(\alpha x_1+(1-\alpha)x_2)$
（对于一维凸函数，有
$\lim_{x\to \alpha x_1+(1-\alpha)x_2}\frac{f(\alpha x_1+(1-\alpha)x_2)-f(x)}{\alpha x_1+(1-\alpha)x_2-x} = f'(\alpha x_1+(1-\alpha)x_2)$ ）
这表明 $f(x)$ 是凸函数。

凸函数的定义 1.3.9 表示了两点的线性插值大于函数值，即函数图形在弦之下。这个定理表明了根据局部导数的线性近似是函数的低估，即凸函数图形位于图形上任一点切线的上方。这样的切线（面）就称为凸函数的一个支撑超平面。

下面，我们对于二次连续可微函数，考虑凸函数的二次特征。
定理 1.3.12
设 $S\in R^n$ 是非空开凸集， $f$ 是定义在 $S$ 上的二次可微函数，则 $f$ 是凸函数的充分必要条件是在 $S$ 的每一点Hesse 矩阵正半定。

$f$ 在 $x$ 处的 Hesse 矩阵定义为 $n\times n$ 矩阵，其第 $i,j$ 元素为：
$[\nabla^2 f(x)]_{ij}=\frac{\partial^2 f(x)}{\partial x_i \partial x_j},\quad 1\le i,j \le n$

证明：
1）充分性
设 Hesse 矩阵 $\nabla^2 f(x)$ 在每一点 $x\in S$ 正半定。考虑 $x, \overline x\in S$ ，由中值定理，有
$f(x) = f(\overline x) + \nabla f(\overline x)^T(x-\overline x)+\frac12(x-\overline x)^T\nabla^2f(\widehat x)(x-\overline x)$
其中， $\widehat x=\overline x+\theta(x-\overline x),\theta \in (0,1)$ 。注意到 $\widehat x\in S$ ，故由假设（ $\nabla^2 f(x)$ 在每一点 $x\in S$ 正半定）知：
$f(x) \ge f(\overline x) + \nabla f(\overline x)^T(x-\overline x)$
从而，根据定理 1.3.11 可知 $f$ 是凸函数。
2）必要性
设 $f$ 是凸函数，任取 $\overline x\in S$ ，我们要证明 $p^T\nabla^2f(\overline x)p\ge 0,\forall p\in R^n$ ，即证明 $\nabla^2f(\overline x)$ 正半定。由于 $S$ 是开集，必存在 $\delta \gt 0$ ，使当 $\vert \lambda \vert \lt \delta$ 时， $\overline x+\lambda p\in S$ 。根据定理 1.3.11，有
$f(\overline x +\lambda p)\ge f(\overline x) + \lambda \nabla f(\overline x)^Tp \qquad(1.3.8)$
又由于 $f(x)$ 在 $\overline x$ 处二次可微，则
$f(\overline x+\lambda p)=f(\overline x)+\lambda\nabla f(\overline x)^Tp+\frac{\lambda^2}2p^TG(\overline x)p+o(\Vert \lambda p\Vert^2)\qquad(1.3.9)$
其中 $G(\overline x)$ 是 $f$ 在 $\overline x$ 处的 Hesse 阵。将 (1.3.9) 代入 (1.3.8) 便得到
$\frac12 \lambda^2p^TG(\overline x)p+o(\Vert \lambda p\Vert^2)\ge 0$
上式两边除以 $\lambda^2$ ，并令 $\lambda\to 0$ ，得
$p^TG(\overline x)p\ge 0$
必要性得证。 $\square$

定理 1.3.13
设 $S\subset R^n$ 为非空开凸集， $f$ 是定义在 $S$ 上的可微函数，则 $f$ 为严格凸函数的充分必要条件是
$f(y)\gt f(x)+\nabla f(x)^T(y-x),\quad \forall y,x\in S, x\neq y\qquad(1.3.10)$
定理 1.3.14
设 $S\subset R^n$ 为非空开凸集， $f$ 是定义在 $S$ 上的二次可微函数，如果在每一点 $x\in S$ ，Hesse 阵正定，则 $f$ 为严格凸函数，但如果 $f$ 为严格凸函数，则 Hesse 矩阵在 $S$ 的每一点正半定。

和凸函数关系密切的是水平集。下面的定理指出水平集是凸集。
定理 1.3.15
设 $S\subset R^n$ 为非空凸集， $f$ 是定义在 $S$ 上的凸函数， $\alpha$ 是一个实数，则水平集 $L_{\alpha}=\{x\vert \ x\in S,f(x)\le \alpha\}$ 是凸集。

证明：
设 $x_1,x_2 \in L_{\alpha}$ ，于是 $x_1,x_2\in S,f(x_1)\le \alpha,f(x_2)\le\alpha$ 。
今设 $\lambda\in(0,1),x=\lambda x_1+(1-\lambda)x_2$ 。由 $S$ 的凸性知道 $x\in S$ ，又由于 $f$ 是凸函数，故有：
$f(x_1)\gt f(x)+\nabla f(x)^T(x_1-\lambda x_1-(1-\lambda)x_2)\\ =f(x)+\nabla f(x)^T(1-\lambda)(x_1-x_2) \\ f(x_2)\gt f(x)+\nabla f(x)^T(x_2-\lambda x_1-(1-\lambda)x_2)\\ =f(x)-\nabla f(x)^T\lambda(x_1-x_2) \\ \to \lambda f(x_1)+(1-\lambda)f(x_2) \gt f(x) \\ \to f(x) \lt \lambda f(x_1)+(1-\lambda)f(x_2)\le \lambda \alpha + (1-\lambda) \alpha = \alpha$
因此， $x\in L_{\alpha}$ ，从而 $L_{\alpha}$ 是凸集。 $\square$

进一步，若 $f$ 是 $S$ 上的连续凸函数，则显然水平集 $L_{\alpha}$ 是闭凸集。

定理 1.3.16
设 $f(x)$ 在 $S\in R^n$ 上二次连续可微，且存在常数 $m\gt 0$ ，使得：
$u^T\nabla^2f(x)u\ge m\Vert u\Vert^2,\quad \forall x\in L(x_0), u\in R^n\qquad(1.3.11)$
则水平集 $L(x_0)=\{x\in S\vert \ f(x)\le f(x_0)\}$ 是有界闭凸集。

证明：
因为：
$u^T\nabla^2f(x)u\ge m\Vert u\Vert^2,\quad \forall x\in L(x_0), u\in R^n\qquad(1.3.11)$
所以， $f(x)$ 每一点的 Hesse 矩阵正定， $f(x)$ 为严格凸函数，由定理 1.3.15，可知，水平集 $L(x_0)$ 对于任意 $x_0\in R^n$ 是闭凸集。
现在证明 $L(x_0)$ 的有界性。
因为水平集 $L(x_0)$ 是凸的，由（1.3.11），故 $\forall x,y\in L(x_0)$ ，
$m\Vert y-x \Vert^2 \le (y-x)^T\nabla^2f(x+\alpha(y-x))(y-x)$
又由 Taylor 展开，(此处，我也不甚了了。)
$f(y) = f(x) + \nabla f(x)^T(y-x)+\int_0^1\int_0^t(y-x)^T\nabla^2f(x+\alpha(y-x))(y-x)d\alpha dt\\ \text{ } \\ \ge f(x) + \nabla f(x)^T(y-x) + \frac 12 m\Vert y-x\Vert^2$
其中 $m$ 与 $x,y$ 无关，因此对任意 $y\in L(x_0),y\neq x_0$ ，
$f(y)-f(x_0) \ge \nabla f(x_0)^T(y-x_0)+\frac12m\Vert y-x_0\Vert^2 \\ \text{ } \\ \ge-\Vert\nabla f(x_0)\Vert\cdot\Vert y-x_0\Vert+\frac12m\Vert y-x_0\Vert^2$
上式的第二个不等式是因为 Cauchy-Schwarz 不等式： $\vert x^Ty\vert \le \Vert x\Vert\cdot \Vert y\Vert$ 。
又由于 $f(y)\le f(x_0)$ ，故
$\Vert y-x_0 \Vert \le \frac2m\Vert \nabla f(x_0) \Vert$
这表明水平集 $L(x_0)=\{x\vert x\in S,f(x)\le f(x_0)\}$ 有界。 $\qquad\square$

最后，作为函数凸性的一个应用，我们给出 Minkowski 不等式的证明。
Minkowski 不等式：
$\Vert x+y \Vert_p\le \Vert x\Vert_p+\Vert y\Vert_p$
即
$\left( \sum_{i=1}^n\vert x_i+y_i\vert^p\right)^{1/p}\le \left( \sum_{i=1}^n\vert x_i\vert^p\right)^{1/p}+\left( \sum_{i=1}^n\vert y_i\vert^p\right)^{1/p}$
其中， $p\ge 1$ .

证明：
如果 $x$ 或 $y$ 为零向量，则不等式显然成立。故假定 $x\neq 0,y\neq 0$ .
若 $p=1$ ，由于 $\vert x_i+y_i\vert\le \vert x_i \vert+\vert y_i\vert, i=1,\cdots,n$ .
今设 $p\gt 1$ ，考虑函数
$\phi(t)=t^p,\quad t\gt 0\\ \Rightarrow\phi''(t)=p(p-1)t^{p-2}$
故函数 $\phi(t)$ 严格凸。注意到：
$\frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}+\frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}=1$
于是，由凸函数定义得到
$\left(\frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\frac{|x_i|}{\Vert x\Vert_p}+\frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\frac{|y_i|}{\Vert y\Vert_p}\right)^p \\ \text{ } \\ \le \frac{\Vert x\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\left( \frac{|x_i|}{\Vert x\Vert_p}\right)^p + \frac{\Vert y\Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\left( \frac{|y_i|}{\Vert y\Vert_p}\right)^p$
因此
$\sum_{i=1}^n\left(\frac{\vert x_i+y_i\vert}{\Vert x\Vert_p+\Vert y\Vert_p} \right)^p\le \sum_{i=1}^n\left(\frac{\vert x_i\vert+\vert y_i\vert}{\Vert x\Vert_p+\Vert y\Vert_p} \right)^p \\ \color{red}{因为p次函数是凸函数，所以}\color{black}\\ \le \sum_{i=1}^n\left(\frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p} \left(\frac{\vert x_i\vert}{\Vert x\Vert_p} \right)^p+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p} \left(\frac{\vert y_i\vert}{\Vert y\Vert_p} \right)^p\right)\\ \le \frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\sum_{i=1}^n \left(\frac{\vert x_i\vert}{\Vert x\Vert_p} \right)^p+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\sum_{i=1}^n \left(\frac{\vert y_i\vert}{\Vert y\Vert_p} \right)^p \\ = \frac{\Vert x \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\cdot\frac{\Vert x \Vert_p^p}{\Vert x \Vert_p^p}+\frac{\Vert y \Vert_p}{\Vert x\Vert_p+\Vert y\Vert_p}\cdot\frac{\Vert y \Vert_p^p}{\Vert y \Vert_p^p}=1$
这样，
$\sum^n_{i=1}\vert x_i+y_i\vert^p\le (\Vert x\Vert_p +\Vert y \Vert_p)^p$
上式两边取p次根即得结果。 $\qquad \square$