UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理

UA MATH567 高维统计IV Lipschitz组合8 随机投影与John-Lindenstrauss引理

John-Lindenstrauss引理

这一讲我们介绍一个Lipschitz函数法处理随机向量的技术的应用。假设在一个机器学习问题中,我们有 N N N个样本,每个样本有 n n n个feature,但是 n n n非常大,直接用这么多feature训练模型不但浪费算力而且影响模型精度,所以我们想做一个投影 P P P,把这组 n n n维的feature投影到一个 m m m维的子空间,我们希望投影前后任意两个样本点的差别不会被放大或者缩小,用数学来描述就是假设 x , y x,y x,y这两个 n n n维向量分别表示一个样本,则给定一个很小的正数 ϵ \epsilon ϵ,使得
( 1 − ϵ ) ∥ x − y ∥ 2 ≤ ∥ P x − P y ∥ 2 ≤ ( 1 + ϵ ) ∥ x − y ∥ 2 (1-\epsilon)\left\| x-y \right\|_2 \le\left\| Px-Py \right\|_2 \le (1+\epsilon)\left\| x-y \right\|_2 (1ϵ)xy2PxPy2(1+ϵ)xy2

其中 P x , P y ∈ R m Px,Py \in \mathbb{R}^m Px,PyRm,站在理论机器学习研究者的角度,我们比较关心的一个问题是最小能把feature的维数压缩到多少?J-L引理认为基于Haar测度的随机投影下最小的维数是 O ( ln ⁡ N ) O(\ln N) O(lnN)


John-Lindenstrauss引理
X \mathcal{X} X表示 N N N个样本, X ⊂ R n \mathcal{X} \subset \mathbb{R}^n XRn ∀ ϵ > 0 \forall \epsilon>0 ϵ>0 ∃ C > 0 \exists C>0 C>0, ∀ m ≥ ( C / ϵ 2 ) log ⁡ N \forall m \ge (C/\epsilon^2) \log N m(C/ϵ2)logN,如果 E ∼ U n i f ( G n , m ) E \sim Unif(G_{n,m}) EUnif(Gn,m),存在random projection
Q = n m P E Q = \sqrt{\frac{n}{m}}P_E Q=mn PE

使得下面的事件概率不小于 1 − 2 e − c ϵ 2 m 1-2e^{-c\epsilon^2m} 12ecϵ2m
( 1 − ϵ ) ∥ x − y ∥ 2 ≤ ∥ Q x − Q y ∥ 2 ≤ ( 1 + ϵ ) ∥ x − y ∥ 2 (1-\epsilon)\left\| x-y \right\|_2 \le\left\| Qx-Qy \right\|_2 \le (1+\epsilon)\left\| x-y \right\|_2 (1ϵ)xy2QxQy2(1+ϵ)xy2

也就是approximate isometry成立。关于Grassman流形上的均匀分布 U n i f ( G n , m ) Unif(G_{n,m}) Unif(Gn,m)可以参考上一讲

Random Projection

在分析J-L引理前,我们先了解一下随机投影。

引理:随机投影的性质
假设 P P P是从 R n \mathbb{R}^n Rn E E E上的投影,其中 E ∼ U n i f ( G n , m ) E \sim Unif(G_{n,m}) EUnif(Gn,m),则 ∀ z ∈ R , ϵ > 0 \forall z \in \mathbb{R},\epsilon>0 zR,ϵ>0

  1. E ∥ P z ∥ 2 2 = m n ∥ z ∥ 2 \sqrt{E\left\| Pz \right\|_2^2} = \sqrt{\frac{m}{n}} \left\| z\right\|_2 EPz22 =nm z2
  2. with probability at least 1 − 2 e − c ϵ 2 m 1-2e^{-c\epsilon^2m} 12ecϵ2m, ( 1 − ϵ ) m n ∥ z ∥ 2 ≤ ∥ P z ∥ 2 ≤ m n ( 1 + ϵ ) ∥ z ∥ 2 (1-\epsilon)\sqrt{\frac{m}{n}} \left\| z\right\|_2 \le\left\| Pz \right\|_2 \le \sqrt{\frac{m}{n}} (1+\epsilon)\left\|z \right\|_2 (1ϵ)nm z2Pz2nm (1+ϵ)z2

评注
基于这个引理,要说明J-L引理是非常容易的。定义 X − X = { x − y : x , y ∈ X } \mathcal{X}-\mathcal{X} = \{x-y:x,y \in \mathcal{X}\} XX={ xy:x,yX}

∀ z ∈ X − X \forall z \in \mathcal{X}-\mathcal{X} zXX,with probability at least 1 − 2 e − c ϵ 2 m 1-2e^{-c\epsilon^2m} 12ecϵ2m, ( 1 − ϵ ) m n ∥ z ∥ 2 ≤ ∥ P z ∥ 2 ≤ m n ( 1 + ϵ ) ∥ z ∥ 2 (1-\epsilon)\sqrt{\frac{m}{n}} \left\| z\right\|_2 \le\left\| Pz \right\|_2 \le \sqrt{\frac{m}{n}} (1+\epsilon)\left\|z \right\|_2 (1ϵ)nm z2Pz2nm (1+ϵ)z2

定义 Q = n m P Q=\sqrt{\frac{n}{m}}P Q=mn P,则
( 1 − ϵ ) ∥ z ∥ 2 ≤ ∥ Q z ∥ 2 ≤ ( 1 + ϵ ) ∥ z ∥ 2 (1-\epsilon) \left\| z\right\|_2 \le\left\| Qz \right\|_2 \le (1+\epsilon)\left\|z \right\|_2 (1ϵ)z2Qz2(1+ϵ)z2

要对所有的 z z z都成立,则对应的概率至少为
1 − 2 ∣ X − X ∣ e − c ϵ 2 m ≥ 1 − 2 N 2 e − c ϵ 2 m = 1 − 2 e ln ⁡ N 2 − c ϵ 2 m 1-2|\mathcal{X}-\mathcal{X}|e^{-c\epsilon^2m} \ge 1-2N^2e^{-c\epsilon^2m} = 1-2e^{\ln N^2-c\epsilon^2m} 12XXecϵ2m12N2ecϵ2m=12elnN2cϵ2m

如果 m ≥ ( C / ϵ 2 ) log ⁡ N m \ge (C/\epsilon^2) \log N m(C/ϵ2)logN,则
1 − 2 e ln ⁡ N 2 − c ϵ 2 m ≥ 1 − 2 e ( 2 / C − c ) ϵ 2 m 1-2e^{\ln N^2-c\epsilon^2m} \ge 1-2e^{(2/C-c)\epsilon^2m} 12elnN2cϵ2m12e(2/Cc)ϵ2m

换一个常数就是J-L的形式了。

证明
不妨设 ∥ z ∥ 2 = 1 \left\|z \right\|_2=1 z2=1,我们要讨论的是 z z z为确定的向量, P P P是一个随机投影(with Haar measure),第一条性质要解决的是期望,它等价于把 z z z当作 S n − 1 S^{n-1} Sn1上的均匀分布,把 P P P当成一个确定的投影,甚至为了简单起见,假设 P P P就是一个coordinate map,也就是除了前 m m m个坐标外,其他坐标都是0,则 E ∥ P z ∥ 2 2 = E ∑ i = 1 m Z i 2 = m n E \left\| Pz \right\|_2^2 = E \sum_{i=1}^m Z_i^2 = \frac{m}{n} EPz22=Ei=1mZi2=nm

定义 f ( x ) = ∥ P x ∥ 2 f(x) = \left\|Px\right\|_2 f(x)=Px2,这是一个Lipschitz范数为1的Lipschitz函数,于是
∣ f ( x ) − f ( y ) ∣ ∥ x − y ∥ 2 = ∣ ∥ P x ∥ 2 − ∥ P y ∥ 2 ∣ ∥ x − y ∥ 2 ≤ ∥ P ( x − y ) ∥ 2 ∥ x − y ∥ 2 ≤ 1 \frac{|f(x)-f(y)|}{\left\| x-y\right\|_2} = \frac{|\left\|Px\right\|_2-\left\|Py\right\|_2|}{\left\| x-y\right\|_2} \le \frac{\left\| P(x-y) \right\|_2}{\left\| x-y\right\|_2} \le 1 xy2f(x)f(y)=xy2Px2Py2xy2P(xy)21

因为球面分布的Lipschitz函数是亚高斯的,于是
P ( ∣ ∥ P X ∥ 2 − E ∥ P X ∥ 2 ∣ ≥ t ) ≤ 2 e − c n t 2 P(|\left\|PX\right\|_2-E\left\|PX\right\|_2| \ge t) \le 2e^{-cnt^2} P(PX2EPX2t)2ecnt2

这里指数上有个 n n n是因为这个分布是 S n − 1 S^{n-1} Sn1,相比 n S n − 1 \sqrt{n}S^{n-1} n Sn1少了一个scalar,所以在指数上添一个 ( n ) 2 (\sqrt{n})^2 (n )2,另外就是在证明这个结果的时候我们用的是 f ( X ) − M f(X)-M f(X)M是亚高斯的,然后根据centering技巧得到 f ( X ) − E f ( X ) f(X)-Ef(X) f(X)Ef(X),这里可以用另一个centering技巧,即 f ( X ) − E f ( X ) 2 f(X)-\sqrt{Ef(X)^2} f(X)Ef(X)2 也是亚高斯的(事实上可以用任意Lp范数),于是
P ( ∣ ∥ P X ∥ 2 − E ∥ P X ∥ 2 2 ∣ ≥ t ) ≤ 2 e − c n t 2 P(|\left\|PX\right\|_2-\sqrt{E\left\|PX\right\|_2^2}| \ge t) \le 2e^{-cnt^2} P(PX2EPX22 t)2ecnt2

t = ϵ m / n t=\epsilon\sqrt{m/n} t=ϵm/n ,引理得证。

猜你喜欢

转载自blog.csdn.net/weixin_44207974/article/details/112167504