UA MATH567 高维统计IV Lipschitz组合2 Spherical Distribution的Lipschitz函数
这一讲我们先介绍最简单的高维分布,也就是球面分布的Lipschitz函数的concentration。
我们在上上部分随机向量第三讲介绍过这个分布, X ∼ U n i f ( n S n − 1 ) X \sim Unif(\sqrt{n}S^{n-1}) X∼Unif(nSn−1),其中 S n − 1 S^{n-1} Sn−1表示 n n n维空间中的单位球面,这个符号说明 X X X在半径在 n \sqrt{n} n的球面上服从均匀分布,它是零均值各向同性的,并且当 n n n足够大时, N ( 0 , I n ) ≈ U n i f ( n S n − 1 ) N(0,I_n) \approx Unif(\sqrt{n}S^{n-1}) N(0,In)≈Unif(nSn−1)。
定理 球面分布的Lipschitz函数是亚高斯的
X ∼ U n i f ( n S n − 1 ) X \sim Unif(\sqrt{n}S^{n-1}) X∼Unif(nSn−1), f : n S n − 1 → R f:\sqrt{n}S^{n-1} \to \mathbb{R} f:nSn−1→R是Lipschitz函数,则 ∃ C > 0 \exists C>0 ∃C>0
∥ f ( X ) − E f ( X ) ∥ ψ 2 ≤ C ∥ f ∥ L i p \left\| f(X) - Ef(X) \right\|_{\psi_2} \le C \left\| f \right\|_{Lip} ∥f(X)−Ef(X)∥ψ2≤C∥f∥Lip
其中 ∥ f ∥ L i p \left\| f \right\|_{Lip} ∥f∥Lip是 f f f的Lipschitz范数。
评注
根据亚高斯性, ∃ c > 0 \exists c>0 ∃c>0
P ( ∣ f ( X ) − E f ( X ) ∣ ≥ t ) ≤ 2 e − c t 2 / ∥ f ∥ L i p 2 P(|f(X) - Ef(X)| \ge t) \le 2e^{-ct^2/\left\| f \right\|_{Lip}^2} P(∣f(X)−Ef(X)∣≥t)≤2e−ct2/∥f∥Lip2
与前两部分的结论相比,这个结果说明随机向量的Lipschitz函数具有与线性函数类似的concentration property。
这个定理的证明有一点点复杂,需要用到一些其他的结果,这里先介绍一下要用到的结论:
Isoperimetric不等式1 欧氏空间中,给定体积则表面积最小的一定是球体,基于这个观察我们有:
A ϵ = { x ∈ R n : ∃ y ∈ A , ∥ x − y ∥ 2 ≤ ϵ } = A + ϵ B 2 n A_{\epsilon} = \{x \in \mathbb{R}^n:\exists y \in A,\left\| x-y\right\|_2 \le \epsilon\} = A + \epsilon B_2^n Aϵ={
x∈Rn:∃y∈A,∥x−y∥2≤ϵ}=A+ϵB2n
第二个等号后的 B 2 n B_2^n B2n表示 n n n维单位球, + + +表示Minkowski和,这个结论看似显然但证明复杂,所以这里不展示。
Isoperimetric不等式2 球面上封闭曲线围成的面积一定时,封闭曲线为圆形需要的长度最短,基于这个观察我们有:
A ϵ = { x ∈ S n − 1 : ∃ y ∈ A , ∥ x − y ∥ 2 ≤ ϵ } A_{\epsilon} = \{x \in S^{n-1}:\exists y \in A,\left\| x-y\right\|_2 \le \epsilon\} Aϵ={
x∈Sn−1:∃y∈A,∥x−y∥2≤ϵ}
则 A ϵ A_{\epsilon} Aϵ是 S n − 1 S^{n-1} Sn−1与过球心的某个圆锥的交集,进一步地,如果定义 σ \sigma σ为normalized area,使得 ∀ A ⊂ S n − 1 , σ ( A ) \forall A \subset S^{n-1}, \sigma(A) ∀A⊂Sn−1,σ(A)表示将球面缩放为 S n − 1 S^{n-1} Sn−1后, A A A对应的面积,如果 σ ( A ) ≥ 1 / 2 \sigma(A) \ge 1/2 σ(A)≥1/2,则
σ ( A ϵ ) ≥ 1 − e − c ϵ 2 , ∃ c > 0 \sigma(A_{\epsilon}) \ge 1-e^{-c\epsilon^2},\exists c>0 σ(Aϵ)≥1−e−cϵ2,∃c>0
证明
用 H H H表示下半球面:
H = { x = ( x 1 , ⋯ , x n ) ∈ n S n − 1 : x 1 ≤ 0 } H=\{x=(x_1,\cdots,x_n) \in \sqrt{n}S^{n-1}:x_1 \le 0\} H={
x=(x1,⋯,xn)∈nSn−1:x1≤0}
根据 σ \sigma σ的定义, σ ( H ) = 1 / 2 \sigma(H)=1/2 σ(H)=1/2,引入随机向量 X ∼ U n i f ( n S n − 1 ) X \sim Unif(\sqrt{n}S^{n-1}) X∼Unif(nSn−1),于是
σ ( H ϵ ) = P ( X ∈ H ϵ ) ≥ P ( X ∈ n S n − 1 ∩ { x 1 ≤ ϵ / 2 } ) = P ( X 1 ≤ ϵ / 2 ) ≥ 1 − e − c ϵ 2 , ∃ c > 0 \sigma(H_{\epsilon}) = P(X \in H_{\epsilon}) \ge P(X \in \sqrt{n}S^{n-1} \cap \{x_1 \le \epsilon/\sqrt{2}\}) \\ = P(X_1 \le \epsilon/\sqrt{2}) \ge 1-e^{-c\epsilon^2},\exists c>0 σ(Hϵ)=P(X∈Hϵ)≥P(X∈nSn−1∩{
x1≤ϵ/2})=P(X1≤ϵ/2)≥1−e−cϵ2,∃c>0
因为 X 1 X_1 X1是亚高斯的。因为 σ ( A ) ≥ 1 / 2 \sigma(A) \ge 1/2 σ(A)≥1/2,于是 σ ( A ϵ ) ≥ σ ( H ϵ ) ≥ 1 − e − c ϵ 2 \sigma(A_{\epsilon}) \ge \sigma(H_{\epsilon}) \ge 1-e^{-c\epsilon^2} σ(Aϵ)≥σ(Hϵ)≥1−e−cϵ2
说明
H ϵ = { x ∈ n S n − 1 : ∃ y ∈ H , ∥ x − y ∥ 2 ≤ ϵ } H_{\epsilon}=\{x \in\sqrt{n} S^{n-1}:\exists y \in H,\left\| x-y\right\|_2 \le \epsilon\} Hϵ={
x∈nSn−1:∃y∈H,∥x−y∥2≤ϵ}
因为 X X X限制在 n S n − 1 \sqrt{n} S^{n-1} nSn−1上,要使 X X X与 H H H上的点最近距离不超过 ϵ \epsilon ϵ,一种可行的操作是限制一个坐标使其不超过 ϵ / 2 \epsilon/\sqrt{2} ϵ/2,于是
H ϵ ⊃ n S n − 1 ∩ { x 1 ≤ ϵ / 2 } H_{\epsilon} \supset \sqrt{n}S^{n-1} \cap \{x_1 \le \epsilon /\sqrt{2}\} Hϵ⊃nSn−1∩{
x1≤ϵ/2}
下面我们开始证明那个定理:
证明
假设 ∥ f ∥ L i p = 1 \left\| f\right\|_{Lip}=1 ∥f∥Lip=1,不然我们总是可以分析 f / ∥ f ∥ L i p f/\left\| f\right\|_{Lip} f/∥f∥Lip,
第一步:说明 f ( X ) − M f(X)-M f(X)−M是亚高斯的,其中 M M M是 f ( X ) f(X) f(X)的中位数,也就是
P ( f ( X ) ≥ M ) ≥ 1 / 2 , P ( f ( X ) ≤ M ) ≥ 1 / 2 P(f(X) \ge M) \ge 1/2,P(f(X) \le M) \ge 1/2 P(f(X)≥M)≥1/2,P(f(X)≤M)≥1/2
定义
A = { x ∈ n S n − 1 : f ( x ) ≤ M } A = \{x \in \sqrt{n}S^{n-1}:f(x) \le M\} A={
x∈nSn−1:f(x)≤M}
则
σ ( A ) = P ( X ∈ A ) = P ( f ( X ) ≤ M ) ≥ 1 / 2 \sigma(A) = P(X \in A) = P(f(X) \le M) \ge 1/2 σ(A)=P(X∈A)=P(f(X)≤M)≥1/2
根据Isoperimetric不等式2,
σ ( A t ) ≥ 1 − e − c t 2 , ∃ c > 0 \sigma(A_t) \ge 1-e^{-ct^2},\exists c>0 σ(At)≥1−e−ct2,∃c>0
因为 x ∈ A t x \in A_t x∈At说明 ∃ y ∈ A \exists y \in A ∃y∈A, ∥ x − y ∥ 2 ≤ t \left\| x-y \right\|_2 \le t ∥x−y∥2≤t,根据Lipschitz函数的定义:
f ( x ) − f ( y ) ≤ ∥ f ∥ L i p ∥ x − y ∥ 2 ≤ t f(x)-f(y) \le \left\| f \right\|_{Lip}\left\| x-y \right\|_2 \le t f(x)−f(y)≤∥f∥Lip∥x−y∥2≤t
y ∈ A y \in A y∈A说明 f ( y ) ≤ M f(y) \le M f(y)≤M,所以
f ( x ) ≤ f ( y ) + t ≤ M + t f(x) \le f(y)+t \le M+t f(x)≤f(y)+t≤M+t
因此
P ( f ( X ) − M ≤ t ) ≥ P ( X ∈ A t ) = σ ( A t ) ≥ 1 − e − c t 2 P(f(X)-M \le t) \ge P(X \in A_t)=\sigma(A_t) \ge 1-e^{-ct^2} P(f(X)−M≤t)≥P(X∈At)=σ(At)≥1−e−ct2
类似地,对于 f ( X ) − M ≥ − t f(X)-M \ge -t f(X)−M≥−t,我们有
P ( f ( X ) − M ≥ − t ) ≥ 1 − e − c t 2 P(f(X)-M \ge -t) \ge 1-e^{-ct^2} P(f(X)−M≥−t)≥1−e−ct2
所以
P ( ∣ f ( X ) − M ∣ ≥ t ) ≤ 2 e − c t 2 P(|f(X)-M| \ge t) \le 2e^{-ct^2} P(∣f(X)−M∣≥t)≤2e−ct2
第二步:使用centering技巧,假设 X X X是亚高斯随机变量,则 X − E X X-EX X−EX也是亚高斯随机变量,并且存在常数 C C C使得
∥ X − E X ∥ ψ 2 ≤ C ∥ X ∥ ψ 2 \left\| X-EX \right\|_{\psi_2} \le C\left\| X \right\|_{\psi_2} ∥X−EX∥ψ2≤C∥X∥ψ2
因为 f ( X ) − M f(X)-M f(X)−M是亚高斯的,于是 f ( X ) − M − E [ f ( X ) − M ] = f ( X ) − E f ( X ) f(X)-M-E[f(X)-M]=f(X)-Ef(X) f(X)−M−E[f(X)−M]=f(X)−Ef(X)也是亚高斯的,证毕。