UA MATH567 高维统计 专题1 Supervised PCA Regression概述

UA MATH567 高维统计 专题1 Supervised PCA Regression概述

相关结果

考虑经典的回归问题 y = X β + ϵ , X ∈ R p , ϵ ∼ N ( 0 , σ 2 I n ) y=X\beta+\epsilon,X \in \mathbb{R}^p,\epsilon \sim N(0,\sigma^2I_n) y=Xβ+ϵ,XRp,ϵN(0,σ2In),根据Gauss-Markov定理,在满足定理的假设时,OLS估计量具有非常好的渐近性质,但是当 p p p n n n非常接近或者模型存在比较强的多重共线性时,OLS是nonstable估计。

PCA Regression是一种改进OLS不稳定性的模型,它分为下面几个步骤:

  1. 计算 X X X的principle component(PC),选择前几个主成分作为新的regressor
  2. 用新的regressor做OLS

PCA方法使得PC互相正交,这样新的OLS就没有多重共线性的;OLS的另一种不稳定性主要来自 ( X T X ) − 1 (X^TX)^{-1} (XTX)1的计算,但因为正交性,PC的这一步计算只需要计算对角阵的逆,所以从计算上讲PCA Regression更稳定。PCA Regression的缺陷是PCA是非监督学习,是对特征 X X X进行降维的;而我们最终目标是要用 X X X Y Y Y回归,这是一种监督学习,直接把这两步串起来我们没有办法确保特征 X X X的PC与 Y Y Y之间的dependence与 X X X Y Y Y之间的dependence仍然是完全一致的。

另一种改进多重共线性的方法是Penalized Regression,比如Ridge Regression:
arg min ⁡ β 1 n ∑ i = 1 n ( y i − x i T β ) 2 + λ ∥ β ∥ 2 2 \argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|^2_2 βargminn1i=1n(yixiTβ)2+λβ22

这个方法的优点是我们能拿到岭回归估计量的表达式,
β ^ r i d g e = ( X T X / n + λ I ) − 1 X T y \hat \beta_{ridge}=(X^TX/n+\lambda I)^{-1}X^Ty β^ridge=(XTX/n+λI)1XTy

即使 p p p n n n接近,因为 λ I \lambda I λI的存在,计算矩阵的逆时也不会不稳定(不会是non-singular矩阵);需要注意的是岭回归是有偏的,它只能做proportional shrinkage,不能处理sparsity的问题。作为另一种常用的shrinkage estimation,LASSO可以把一些系数shrink到0,因此它能处理sparsity。
arg min ⁡ β 1 n ∑ i = 1 n ( y i − x i T β ) 2 + λ ∥ β ∥ 1 \argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|_1 βargminn1i=1n(yixiTβ)2+λβ1

它在计算上比岭回归更复杂,但这二十年来,统计学家开发了许多用来计算LASSO,所以现在已经不是个问题了。关于sparsity,通常用的假设是 ∣ { j : β j ≠ 0 } ∣ < < p |\{j:\beta_j \ne 0\}|<<p { j:βj=0}<<p,但是如果 p > n p>n p>n,并且没有sparsity,那就没有能处理的方法了。

Supervised PCA Regression

综合PCA Regression与Penalized Regression的特点,我们可以设计Supervised PCA Regression,假设 X X X是centered design matrix,引入 Σ ^ = X T X / n \hat \Sigma = X^TX/n Σ^=XTX/n δ ^ = X T y / n \hat \delta = X^Ty/n δ^=XTy/n,定义
Σ ^ ρ = Σ ^ + ρ δ ^ δ ^ T \hat \Sigma_{\rho}=\hat \Sigma + \rho \hat \delta \hat \delta ^T Σ^ρ=Σ^+ρδ^δ^T

这个值形式上与样本协方差类似,但他包含了feature与label共同的信息,我们提取它的主成分,然后用来做PCA,这就是Supervised PCA Regression。如果 ρ → 0 \rho \to 0 ρ0,这就是一个PCA regression,如果 ρ → ∞ \rho \to \infty ρ,这就是一个marginal regression。Marginal Regression的含义是分别对每一个feature做一元回归:
y 1 = x 1 β 1 + ϵ 1 y 2 = x 2 β 2 + ϵ 2 ⋯ y p = x p β p + ϵ p y_1 = x_1\beta_1+\epsilon_1 \\ y_2 = x_2 \beta_2 + \epsilon_2 \\ \cdots \\ y_p=x_p\beta_p+\epsilon_p y1=x1β1+ϵ1y2=x2β2+ϵ2yp=xpβp+ϵp

这种模型在variable screening中有一些应用,并且在需要初值的迭代算法中可以作为系数的初始值。

下面我们再介绍一些Supervised PCA Regression的特点。假设
Σ = E X T X , δ = E X T y \Sigma=EX^TX,\delta = EX^Ty Σ=EXTX,δ=EXTy


β = Σ − 1 δ \beta = \Sigma^{-1}\delta β=Σ1δ

如果 Σ \Sigma Σ的特征值为 λ 1 ≥ ⋯ ≥ λ k > λ k + 1 = ⋯ = λ d \lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_d λ1λk>λk+1==λd,那么做谱分解
Σ = ∑ i = 1 k ( λ i − λ d ) ξ i ξ i T + λ d I d \Sigma = \sum_{i=1}^k(\lambda_i - \lambda_d)\xi_i\xi_i^T+\lambda_d I_d Σ=i=1k(λiλd)ξiξiT+λdId

根据 Σ − 1 Σ = I d \Sigma^{-1}\Sigma=I_d Σ1Σ=Id,我们可以得到 ∃ a i , a 0 \exists a_i,a_0 ai,a0
Σ − 1 = ∑ i = 1 k a i ξ i ξ i T + a 0 I d \Sigma^{-1} = \sum_{i=1}^k a_i \xi_i\xi_i^T+a_0I_d Σ1=i=1kaiξiξiT+a0Id

于是
β = Σ − 1 δ = ∑ i = 1 k a i ( ξ i T δ ) ξ i + λ d δ ∈ s p a n ( ξ 1 , ⋯   , ξ k , δ ) \beta = \Sigma^{-1}\delta=\sum_{i=1}^ka_i(\xi_i^T\delta)\xi_i+\lambda_d \delta \in span(\xi_1,\cdots,\xi_k,\delta) β=Σ1δ=i=1kai(ξiTδ)ξi+λdδspan(ξ1,,ξk,δ)

Σ ρ = Σ + ρ δ δ T \Sigma_{\rho}=\Sigma+\rho \delta \delta^T Σρ=Σ+ρδδT的前 k + 1 k+1 k+1个主成分张成的子空间就是 s p a n ( ξ 1 , ⋯   , ξ k , δ ) span(\xi_1,\cdots,\xi_k,\delta) span(ξ1,,ξk,δ),这说明用 Σ ρ \Sigma_{\rho} Σρ的前 k + 1 k+1 k+1个主成分对特征空间进行降维是不存在信息损失的。而Davis-Kahan定理又能保证 Σ ^ ρ \hat \Sigma_{\rho} Σ^ρ Σ ρ \Sigma_{\rho} Σρ是足够接近的,所以在以上的理论分析支撑下,我们可以认可Supervised PCA Regression。但关于这个模型的统计理论还有一些问题需要解决:

  1. Supervised PCA Regression系数估计量的统计性质;
  2. 关于特征值的假设 λ 1 ≥ ⋯ ≥ λ k > λ k + 1 = ⋯ = λ d \lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_d λ1λk>λk+1==λd,如果不成立是否还有降维没有信息损失的性质?

猜你喜欢

转载自blog.csdn.net/weixin_44207974/article/details/112914230