UA MATH567 高维统计IV Lipschitz组合2 Spherical Distribution的Lipschitz函数 Isoperimetric不等式

UA MATH567 高维统计IV Lipschitz组合2 Spherical Distribution的Lipschitz函数

这一讲我们先介绍最简单的高维分布,也就是球面分布的Lipschitz函数的concentration。

我们在上上部分随机向量第三讲介绍过这个分布, X ∼ U n i f ( n S n − 1 ) X \sim Unif(\sqrt{n}S^{n-1}) XUnif(n Sn1),其中 S n − 1 S^{n-1} Sn1表示 n n n维空间中的单位球面,这个符号说明 X X X在半径在 n \sqrt{n} n 的球面上服从均匀分布,它是零均值各向同性的,并且当 n n n足够大时, N ( 0 , I n ) ≈ U n i f ( n S n − 1 ) N(0,I_n) \approx Unif(\sqrt{n}S^{n-1}) N(0,In)Unif(n Sn1)

定理 球面分布的Lipschitz函数是亚高斯的
X ∼ U n i f ( n S n − 1 ) X \sim Unif(\sqrt{n}S^{n-1}) XUnif(n Sn1) f : n S n − 1 → R f:\sqrt{n}S^{n-1} \to \mathbb{R} f:n Sn1R是Lipschitz函数,则 ∃ C > 0 \exists C>0 C>0
∥ f ( X ) − E f ( X ) ∥ ψ 2 ≤ C ∥ f ∥ L i p \left\| f(X) - Ef(X) \right\|_{\psi_2} \le C \left\| f \right\|_{Lip} f(X)Ef(X)ψ2CfLip

其中 ∥ f ∥ L i p \left\| f \right\|_{Lip} fLip f f fLipschitz范数

评注
根据亚高斯性, ∃ c > 0 \exists c>0 c>0
P ( ∣ f ( X ) − E f ( X ) ∣ ≥ t ) ≤ 2 e − c t 2 / ∥ f ∥ L i p 2 P(|f(X) - Ef(X)| \ge t) \le 2e^{-ct^2/\left\| f \right\|_{Lip}^2} P(f(X)Ef(X)t)2ect2/fLip2

与前两部分的结论相比,这个结果说明随机向量的Lipschitz函数具有与线性函数类似的concentration property。

这个定理的证明有一点点复杂,需要用到一些其他的结果,这里先介绍一下要用到的结论:

Isoperimetric不等式1 欧氏空间中,给定体积则表面积最小的一定是球体,基于这个观察我们有:
A ϵ = { x ∈ R n : ∃ y ∈ A , ∥ x − y ∥ 2 ≤ ϵ } = A + ϵ B 2 n A_{\epsilon} = \{x \in \mathbb{R}^n:\exists y \in A,\left\| x-y\right\|_2 \le \epsilon\} = A + \epsilon B_2^n Aϵ={ xRn:yA,xy2ϵ}=A+ϵB2n

第二个等号后的 B 2 n B_2^n B2n表示 n n n维单位球, + + +表示Minkowski和,这个结论看似显然但证明复杂,所以这里不展示。

Isoperimetric不等式2 球面上封闭曲线围成的面积一定时,封闭曲线为圆形需要的长度最短,基于这个观察我们有:
A ϵ = { x ∈ S n − 1 : ∃ y ∈ A , ∥ x − y ∥ 2 ≤ ϵ } A_{\epsilon} = \{x \in S^{n-1}:\exists y \in A,\left\| x-y\right\|_2 \le \epsilon\} Aϵ={ xSn1:yA,xy2ϵ}

A ϵ A_{\epsilon} Aϵ S n − 1 S^{n-1} Sn1与过球心的某个圆锥的交集,进一步地,如果定义 σ \sigma σ为normalized area,使得 ∀ A ⊂ S n − 1 , σ ( A ) \forall A \subset S^{n-1}, \sigma(A) ASn1,σ(A)表示将球面缩放为 S n − 1 S^{n-1} Sn1后, A A A对应的面积,如果 σ ( A ) ≥ 1 / 2 \sigma(A) \ge 1/2 σ(A)1/2,则
σ ( A ϵ ) ≥ 1 − e − c ϵ 2 , ∃ c > 0 \sigma(A_{\epsilon}) \ge 1-e^{-c\epsilon^2},\exists c>0 σ(Aϵ)1ecϵ2,c>0

证明
H H H表示下半球面:
H = { x = ( x 1 , ⋯   , x n ) ∈ n S n − 1 : x 1 ≤ 0 } H=\{x=(x_1,\cdots,x_n) \in \sqrt{n}S^{n-1}:x_1 \le 0\} H={ x=(x1,,xn)n Sn1:x10}

根据 σ \sigma σ的定义, σ ( H ) = 1 / 2 \sigma(H)=1/2 σ(H)=1/2,引入随机向量 X ∼ U n i f ( n S n − 1 ) X \sim Unif(\sqrt{n}S^{n-1}) XUnif(n Sn1),于是
σ ( H ϵ ) = P ( X ∈ H ϵ ) ≥ P ( X ∈ n S n − 1 ∩ { x 1 ≤ ϵ / 2 } ) = P ( X 1 ≤ ϵ / 2 ) ≥ 1 − e − c ϵ 2 , ∃ c > 0 \sigma(H_{\epsilon}) = P(X \in H_{\epsilon}) \ge P(X \in \sqrt{n}S^{n-1} \cap \{x_1 \le \epsilon/\sqrt{2}\}) \\ = P(X_1 \le \epsilon/\sqrt{2}) \ge 1-e^{-c\epsilon^2},\exists c>0 σ(Hϵ)=P(XHϵ)P(Xn Sn1{ x1ϵ/2 })=P(X1ϵ/2 )1ecϵ2,c>0

因为 X 1 X_1 X1是亚高斯的。因为 σ ( A ) ≥ 1 / 2 \sigma(A) \ge 1/2 σ(A)1/2,于是 σ ( A ϵ ) ≥ σ ( H ϵ ) ≥ 1 − e − c ϵ 2 \sigma(A_{\epsilon}) \ge \sigma(H_{\epsilon}) \ge 1-e^{-c\epsilon^2} σ(Aϵ)σ(Hϵ)1ecϵ2

说明
H ϵ = { x ∈ n S n − 1 : ∃ y ∈ H , ∥ x − y ∥ 2 ≤ ϵ } H_{\epsilon}=\{x \in\sqrt{n} S^{n-1}:\exists y \in H,\left\| x-y\right\|_2 \le \epsilon\} Hϵ={ xn Sn1:yH,xy2ϵ}

因为 X X X限制在 n S n − 1 \sqrt{n} S^{n-1} n Sn1上,要使 X X X H H H上的点最近距离不超过 ϵ \epsilon ϵ,一种可行的操作是限制一个坐标使其不超过 ϵ / 2 \epsilon/\sqrt{2} ϵ/2 ,于是
H ϵ ⊃ n S n − 1 ∩ { x 1 ≤ ϵ / 2 } H_{\epsilon} \supset \sqrt{n}S^{n-1} \cap \{x_1 \le \epsilon /\sqrt{2}\} Hϵn Sn1{ x1ϵ/2 }


下面我们开始证明那个定理:

证明
假设 ∥ f ∥ L i p = 1 \left\| f\right\|_{Lip}=1 fLip=1,不然我们总是可以分析 f / ∥ f ∥ L i p f/\left\| f\right\|_{Lip} f/fLip

第一步:说明 f ( X ) − M f(X)-M f(X)M是亚高斯的,其中 M M M f ( X ) f(X) f(X)的中位数,也就是
P ( f ( X ) ≥ M ) ≥ 1 / 2 , P ( f ( X ) ≤ M ) ≥ 1 / 2 P(f(X) \ge M) \ge 1/2,P(f(X) \le M) \ge 1/2 P(f(X)M)1/2,P(f(X)M)1/2

定义
A = { x ∈ n S n − 1 : f ( x ) ≤ M } A = \{x \in \sqrt{n}S^{n-1}:f(x) \le M\} A={ xn Sn1:f(x)M}


σ ( A ) = P ( X ∈ A ) = P ( f ( X ) ≤ M ) ≥ 1 / 2 \sigma(A) = P(X \in A) = P(f(X) \le M) \ge 1/2 σ(A)=P(XA)=P(f(X)M)1/2

根据Isoperimetric不等式2,
σ ( A t ) ≥ 1 − e − c t 2 , ∃ c > 0 \sigma(A_t) \ge 1-e^{-ct^2},\exists c>0 σ(At)1ect2,c>0

因为 x ∈ A t x \in A_t xAt说明 ∃ y ∈ A \exists y \in A yA, ∥ x − y ∥ 2 ≤ t \left\| x-y \right\|_2 \le t xy2t,根据Lipschitz函数的定义:
f ( x ) − f ( y ) ≤ ∥ f ∥ L i p ∥ x − y ∥ 2 ≤ t f(x)-f(y) \le \left\| f \right\|_{Lip}\left\| x-y \right\|_2 \le t f(x)f(y)fLipxy2t

y ∈ A y \in A yA说明 f ( y ) ≤ M f(y) \le M f(y)M,所以
f ( x ) ≤ f ( y ) + t ≤ M + t f(x) \le f(y)+t \le M+t f(x)f(y)+tM+t

因此

P ( f ( X ) − M ≤ t ) ≥ P ( X ∈ A t ) = σ ( A t ) ≥ 1 − e − c t 2 P(f(X)-M \le t) \ge P(X \in A_t)=\sigma(A_t) \ge 1-e^{-ct^2} P(f(X)Mt)P(XAt)=σ(At)1ect2

类似地,对于 f ( X ) − M ≥ − t f(X)-M \ge -t f(X)Mt,我们有
P ( f ( X ) − M ≥ − t ) ≥ 1 − e − c t 2 P(f(X)-M \ge -t) \ge 1-e^{-ct^2} P(f(X)Mt)1ect2

所以
P ( ∣ f ( X ) − M ∣ ≥ t ) ≤ 2 e − c t 2 P(|f(X)-M| \ge t) \le 2e^{-ct^2} P(f(X)Mt)2ect2

第二步:使用centering技巧,假设 X X X是亚高斯随机变量,则 X − E X X-EX XEX也是亚高斯随机变量,并且存在常数 C C C使得
∥ X − E X ∥ ψ 2 ≤ C ∥ X ∥ ψ 2 \left\| X-EX \right\|_{\psi_2} \le C\left\| X \right\|_{\psi_2} XEXψ2CXψ2

因为 f ( X ) − M f(X)-M f(X)M是亚高斯的,于是 f ( X ) − M − E [ f ( X ) − M ] = f ( X ) − E f ( X ) f(X)-M-E[f(X)-M]=f(X)-Ef(X) f(X)ME[f(X)M]=f(X)Ef(X)也是亚高斯的,证毕。

猜你喜欢

转载自blog.csdn.net/weixin_44207974/article/details/112167414