【温故而知新】PCA

给定数据集:X=(x_1, x_2, ..., x_N) =\begin{bmatrix}x_{11} & x_{21} & ... & x_{N1}\\ x_{12} & x_{22} & ... & x_{N2} \\ ... \\ x_{1p} & x_{2p} & ... & x_{Np} \end{bmatrix}_{p*N}, 其中x_i \in \mathbb{R}^p, i =1,2,...,N

                    X^T=(x_1, x_2,...,x_N)^T=\begin{bmatrix}x_1^T \\ x_2^T \\ ... \\x_N^T \end{bmatrix}=\begin{bmatrix}x_{11} & x_{12} & ... & x_{1p} \\ x_{21} & x_{22} & ... & x_{2p} \\ ... \\x_{N1} & x_{N2} & ... & x_{Np} \end{bmatrix}_{N*p}

样本均值和样本方差的矩阵表达 

样本均值:\bar{x}=\frac{1}{N}\sum_{i=1}^Nx_i=\frac{1}{N}(x_1, x_2, ..., x_N)\begin{bmatrix} 1 \\ 1 \\ ... \\ 1 \end{bmatrix}_{N*1}

                  \bar{X}_{p*1}=\frac{1}{N}\sum_{i=1}^Nx_i=\frac{1}{N}X^T1_N, 这里记1_N=\begin{bmatrix}1 \\ 1 \\ ... \\ 1 \end{bmatrix}

样本方差:S_{p*p}=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T

                          =\frac{1}{N}(x_1-\bar{x}, x_2-\bar{x}, ..., x_N-\bar{x})\begin{bmatrix}(x_1-\bar{x})^T \\ (x_2-\bar{x})^T \\ ... \\ (x_N-\bar{x})^T \end{bmatrix}

(x_1-\bar{x}, x_2-\bar{x}, ..., x_N-\bar{x})=(x_1, x_2, ..., x_N)-(\bar{x}, \bar{x}, ..., \bar{x})

                                                =(x_1, x_2, ..., x_N)-\bar{X}(1, 1, ..., 1)                                                   

                                                = X^T-\bar{X}1_N^T

                                                =X^T-\frac{1}{N}X^T1_N1_N^T=X^T(1_N-\frac{1}{N}1_N1_N^T)

                                               =X^T(I_N-\frac{1}{N}1_N1_N^T)

                       \begin{bmatrix}(x_1-\bar{x})^T \\ (x_2-\bar{x})^T \\ ... \\ (x_N-\bar{x})^T \end{bmatrix}=(x_1-\bar{x}, x_2-\bar{x}, ..., x_N-\bar{x})^T

                                              =\left \{X^T(I_N-\frac{1}{N}1_N1_N^T) \right \}^T

                                              =(I_N-\frac{1}{N}1_N1_N^T)^TX

H=(I_N-\frac{1}{N}1_N1_N^T)H称之为centering matrix, 则S=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T=\frac{1}{N}X^THH^TX

讨论H:centering matrix的性质:

H=(I_N-\frac{1}{N}1_N1_N^T)可知,

                         H^2=H\cdot H=(I_N-\frac{1}{N}1_N1_N^T)(I_N-\frac{1}{N}1_N1_N^T)

                                               =I_N-\frac{2}{N}1_N1_N^T+\frac{1}{N^2}1_N1_N^T1_N1_N^T

                                               =I_N-\frac{1}{N}\begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}

                                               =(I_N-\frac{1}{N}1_N1_N^T)=H 

                   1_N1_N^T=\begin{bmatrix}1 \\ 1 \\ ... \\ 1 \end{bmatrix} \begin{bmatrix}1 & 1 & ... & 1 \end{bmatrix} =\begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}

                  1_N1_N^T1_N1_N^T=\begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}\cdot \begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}=\begin{bmatrix}N & N & ... & N \\ N & N & ... & N \\ ... & ... \\ N & N & ... & N \end{bmatrix}

综上可知,S=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T=\frac{1}{N}X^THH^TX=\frac{1}{N}X^THX

最大投影方差角度

PCA的核心思想:将一组可能线性相关的变量通过正交变换成一组线性无关的变量;

  • 一个中心:原始特征空间的重构(相关到无关)
  • 两个基本点:
    • 最大投影方差
    • 最小重构距离                        

首先,对所有数据样本进行去中心化,即x_i-\bar{x}, 同时令投影方向\left \| u_1 \right \|=1, 则投影方差:\left [ (x_i-\bar{x})\cdot u_1 \right ]\left [ (x_i-\bar{x})\cdot u_1 \right ]^T, 此处(x_i-\bar{x})\cdot u_1 \right \in\mathbb{R}

损失函数J(u_1)=\frac{1}{N}\sum_{i=1}^N \left [ (x_i-\bar{x})\cdot u_1 \right ]^2  , 同时s.t. \;\; u_1^Tu_1=1

                         =\frac{1}{N}\sum_{i=1}^N \left \{ u_1^T(x_i-\bar{x})(x_i-\bar{x})^T u_1 \right \}, 因为(x_i-\bar{x})\cdot u_1 \right \in\mathbb{R},所以可写成这样

                        = u_1^T\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T u_1

                        =u_1^T\cdot S\cdot u_1

综上可知,

                  \left\{\begin{matrix} \hat{u_1}=\arg \max u_1^TSu_1 \\ \\s.t.\; \; u_1^Tu_1=1 \; \; \; \; \; \; \; \; \;\end{matrix}\right. 

拉格朗日函数:L(u_1, \lambda)=u_1^TSu_1+\lambda(1-u_1^Tu_1)

\frac{\partial L}{\partial u_1}=2S u_1-\lambda\cdot 2u_1=0,可得Su_1=\lambda u_1,这里u_1为eign-vector,\lambda为eign-value;

 

最小重构距离角度

 首先,对所有样本进去中心化,即\tilde{x_i}=x_i-\bar{x}, 同时令投影方向\left \| u_i \right \|=1, i=1, 2, ...,p,

考虑二维的重构向量:x_i^{'} =(\tilde{x_i}u_1)\cdot u_1+(\tilde{x_i}^T u_2)\cdot u_2, 其中\tilde{x_i}u_1为投影标量,u_1为方向向量;如下图所示:

更一般的情况, \tilde{x_i} \in \mathbb{R}^p, 则重构向量:x_i^{'} =\sum_{i=1}^p(\tilde{x_i}^Tu_k)\cdot u_k

降维后,\tilde{x_i} \in \mathbb{R}^q\;\;\;\;\;(q<p), 则重构向量:\hat{x_i} =\sum_{i=1}^q(\tilde{x_i}^Tu_k)\cdot u_k, 降维是丢掉了一部分信息

重构距离为:J=\frac{1}{N}\sum_{i=1}^N \left \| x_i^{'}-\hat{x_i} \right \|

                         =\frac{1}{N}\sum_{i=1}^N \left \| \sum_{k=q+1}^{p} (\tilde{x_i}^Tu_k)\cdot u_k \right \|

                         =\frac{1}{N}\sum_{i=1}^N \sum_{k=q+1}^{p} (\tilde{x_i}^Tu_k)^2

                         =\frac{1}{N}\sum_{i=1}^N \sum_{k=q+1}^{p} ((x_i-\bar{x})^Tu_k)^2, 由上J(u_1)=\frac{1}{N}\sum_{i=1}^N \left [ (x_i-\bar{x})\cdot u_1 \right ]^2=u_1^T\cdot S\cdot u_1可知,

                         =\sum_{k=q+1}^{p} u_k^T\cdot S\cdot u_k \;\;\;\;\;(s.t.\;\;u_k^Tu_k=1)

综上可知,

                \left\{\begin{matrix} u_k=\arg \min_{u_k} \sum_{k=q+1}^p u_k^TSu_k\\ \\ s.t.\; \; u_k^Tu_k=1 \; \; \; \; \; \; \; \; \;\; \;\; \;\; \;\; \;\; \;\; \;\; \;\; \;\end{matrix}\right.

由拉格朗日函数同理可得,Su_k=\lambda u_k

u_k=\arg \min_{u_k}\sum_{k=q+1}^{p}u_k^TSu_k=\arg\min_{u_k}\sum_{k=q+1}^p\lambda_k, 找出对重构距离影响最小的(p-q)个维度。

SVD 角度

S=GKG^T,GG^T=I,

K=\begin{bmatrix}k_1 & & & \\ & k_2 & & \\ & & ... & \\ & & & k_p \end{bmatrix}

HX=U\sum V^T, SVD分解,其中:U^TU=I, \;\;\;\;\; V^TV=VV^T=I,     \sum是对角矩阵;

S_{p*p}=\frac{1}{N}X^THX=X^TH^THX=(HX)^THX=(U\sum V^T)^T(U\sum V^T)

                                                       =V\sum U^T\cdot U\sum V^T=V(\sum)^2V^T

综合S=GKG^TS=V(\sum)^2V^T, 可知,

                                                        V=G, \;\; (\sum)^2=K

T_{N*N}=HXX^TH=HXX^TH^T=HX(HX)^T=(U\sum V^T)(U\sum V^T)^T

                                                         =U\sum V^T\cdot V\sum U^T=U(\sum)^2U^T

TS有相同的特征值:(U^TU=I\sum为特征值构成的对角矩阵)。

S \rightarrow 特征分解 \rightarrow得到方向(主成分) \rightarrow 由HX\cdot V求做坐标【备注:(x_i-\bar{x})u_1, (xi-\bar{x})=HX, G=V

T \rightarrow 特征分解 \rightarrow 直接求得坐标

HX\cdot V=U\sum V^T\cdot V=U\sum

T=U(\sum)^2U^T可知,

          TU\sum=U(\sum)^2U^TU\sum=U(\sum)^3=(U\sum)\cdot (\sum)^2, 其中(U\sum)=U_i(\sum)^2为特征值\lambda_i^2组成的对角矩阵。

U\sum为T的特征向量U_i组成的矩阵,Tu_i=\lambda u_i 直接求T的特征向量,就可以直接得到坐标;

N >> p 时,分解 S, 当p >> N 时,分解T

完,

发布了481 篇原创文章 · 获赞 40 · 访问量 46万+

猜你喜欢

转载自blog.csdn.net/caicaiatnbu/article/details/104202153