1.从协方差矩阵开始——协防差矩阵和样本阵的关系

定义1： 协方差
Cov $(X,Y) =E\{[X-E(X)][Y-E(Y)]\} \\ =E(XY)-2E(X)E(Y)+E(X)E(Y)\\ =E(XY)-E(X)E(Y)$

意义： 度量各个维度偏离其均值的程度。协方差的值如果为正值，则说明两者是正相关的(从协方差可以引出“相关系数”的定义)，结果为负值就说明负相关的，如果为0，也是就是统计上说的“相互独立”。
引自：https://blog.csdn.net/GoodShot/article/details/79940438。可以参考其中配图。

注1： Cov $(X,X) =E(X^2)-(E(X))^2=D(X)$ 样本X自身协方差为其方差。

定义2： 样本方差
$\sigma^2 = \frac{\sum^{m}_{i=1}{(X_i-\bar{X})^2}}{m-1}$ , 其中 $\bar{X} = \frac{\sum^{m}_{i=1}X_i}{m}$ , 为 $\{X_i\}$ 的均值。

定义3： 样本协方差
Cov $(X,Y) =\frac{\sum^{m}_{i=1}(X_i-\bar{X})(Y_i-\bar{Y})}{m-1}$

显然有Cov $(X,Y)$ = Cov $(Y,X)$ 。
那么，对于只有两个特征 $X$ 和 $Y$ 的情况(即 $X$ 、 $Y$ 两个维度)，可以有协方差矩阵
$\bold{C}_{X,Y}= \begin{pmatrix} \rm{Cov(X,X)} & \rm{Cov(X,Y)} \\ \rm{Cov(Y,X)} & \rm{Cov(Y,Y)} \end{pmatrix}$ 。

对于有三个特征 $X$ 、 $Y$ 和 $Z$ 的情况(即 $X$ 、 $Y$ 和 $Z$ 三个维度)，有协方差矩阵
$\bold{C}_{X,Y,Z}= \begin{pmatrix} \rm{Cov(X,X)} & \rm{Cov(X,Y)} & \rm{Cov(X,Z)}\\ \rm{Cov(Y,X)} & \rm{Cov(Y,Y)} & \rm{Cov(Y,Z)}\\ \rm{Cov(Z,X)} & \rm{Cov(Z,Y)} & \rm{Cov(Z,Z)} \end{pmatrix}$ 。

注2： 可见，协方差矩阵 $\bold{C}$ 是一个实对称矩阵。关于实对称矩阵的主要性质如下：
1.实对称矩阵A的不同特征值对应的特征向量是正交的。
2.实对称矩阵A的特征值都是实数，特征向量都是实向量。
3.n阶实对称矩阵A必可对角化，且相似对角阵上的元素即为矩阵本身特征值。
4.若λ0具有k重特征值　必有k个线性无关的特征向量，或者说必有秩r(λ0E-A)=n-k，其中E为单位矩阵。

故，协方差矩阵 $\bold{C}$ 可以正交分解为对角阵。

定理 1： 有实对称矩阵 $\bold{A} \in \mathbb{R^{n\times n}}$ ，则一定存在正交阵 $\bold{U}$ ，使 $\bold{U}^{\rm{T}} \bold{A} \bold{U} = \bold{U}^{-1} \bold{A} \bold{U} = \Lambda=$ diag $(\lambda_1,\lambda_2,\dots,\lambda_n)$

电脑莫名其妙重启了。。。继续撸。。。
以下以 $X=(x_1,x_2,\dots,x_m)，m\in\mathbb{N}$ 为例，进行说明。其中， $x_i$ 是 $X$ 的第 $i$ 个特征。

注3： 在我们处理数据 $X$ 以前，我们要做的是数据中心化，这是后续工作的前提。
设 $X$ 为有 $n$ 个特征， $m$ 个样本的数据
$X = \begin{pmatrix} x_{1,1}-\mu_1 &x_{1,2}-\mu_2 &\dots &x_{1,n}-\mu_n \\ x_{2,1}-\mu_1 &x_{2,2}-\mu_2 &\dots &x_{2,n}-\mu_n \\ \dots &\dots &\dots &\dots\\ x_{m,1}-\mu_1 &x_{m,2}-\mu_2 &\dots &x_{m,n}-\mu_n \end{pmatrix}$ ，其中 $\mu_i$ 为第 $i$ 个特征的均值。

此时 $x_{\bullet,j}$ 为0均值样本， $\mu_j = 0$ 。

对于 $X$ 中的任意两个特征 $x_i$ 和 $x_j$ ，记
$c_{i,j}=$ Cov $(x_i,x_j) \\ =E\{[x_i-\mu_i][x_j-\mu_j]\}=E\{x_ix_j\}\\ =\frac{1}{m}\sum^{m}_{l=1}x_{\bullet,i}x_{\bullet,j}\\ =\frac{1}{m}X^{\rm{T}}_{\bullet,i}X_{\bullet,j}$
其中， $X_{\bullet,i}$ 是样本 $X_{m\times n}$ 中的第 $i$ 列。

所以，样本 $X$ 的协方差矩阵
$\rm{C_X}$ $=\{c_{i,j}\}=\frac{1}{m}X^{\rm{T}}X$ （注：如果是无偏估计，则为 $\frac{1}{m-1}$ ）。

扣题：上式就是协方差阵和样本阵的关系。

2.求映射阵 $\bold{Q}_{n \times k}$ 使由 $n$ 维降维至 $k$ 维

设目标为降维的矩阵为 $\bold{Y}$ ，映射阵为 $\bold{Q}$ ，有关系
$\bold{Y}_{m\times n}=\bold{X}_{m\times n}\bold{Q}_{n\times n}$

降维的话， $\bold{Y}_{m\times k}=\bold{X}_{m\times n}\bold{Q}_{n\times k}$

降维的原则： 新的到的 $\bold{Y}$ 的方差尽可能大，协方差尽可能小。

根据上一节最后一个公式，设 $\rm{C_Y}$ 为样本 $Y$ 的协方差矩阵，有

$\rm{C_Y}$ $=\frac{1}{m}\bold{Y}^{\rm{T}}\bold{Y}\\ =\frac{1}{m}(\bold{XQ})^{\rm{T}} \bold{XQ}\\ =\frac{1}{m}\bold{Q}^{\rm{T}}\bold{X}^{\rm{T}}\bold{XQ}\\ =\bold{Q}^{\rm{T}} \rm{C_X} \bold{Q}$

考虑到定理1中是对称矩阵可以正交分解，故令 $\bold{Q}=\bold{U}$ ，有

$\rm{C_Y}$ $=\bold{Q}^{\rm{T}} \rm{C_X} \bold{Q} =\bold{U}^{\rm{T}} \rm{C_X} \bold{U}\\ =\Lambda=$ diag $(\lambda_1,\lambda_2,\dots,\lambda_n)$

在此，我们不妨假设 $\lambda_1 \geq \lambda_2\geq \dots \geq \lambda_n$ ，对应的特征向量为 $u_1,u_2,\dots,u_n$ 。即， $\lambda_i$ 已经排列好大小。则取前 $k$ 个特征向量，组成 $\bold{Q}_{n\times k} = (u_1,u_2,\dots,u_k)$ ，其中 $0 < k<n$ 。

扣题： $\bold{Y}_{m\times k}=\bold{X}_{m\times n}\bold{Q}_{n\times k}$ 实现了数据的降维。

3.数据的复原（重构）

$\bold{X'}_{m\times n}=\bold{Y}_{m\times k}(\bold{Q}_{n \times k})^{\rm{T}}$ 即是数据的重构！
注意： 由 $Y=XQ$ 得出 $X=YQ^{T}$ 的结论是错误的。应为 $X'=YQ^{T}$ ， $X$ 为中心化之后的原始数据， $X‘$ 才是重构后的复原数据。

以下图为例，进行说明。图片引自https://blog.csdn.net/hustqb/article/details/78394058
在这里插入图片描述
X中心化后得到 $X = ((-1,-2),(-1.0),(0,0),(0,1),(2,1))_{5 \times 2}$ 5个样本，红色星号。降维后得到 $Y=(y1,y2,y3,y4,y5)_{5 \times 1}^T$ 5个数，是1维数据，不是点。蓝色斜线为 $u_1=(u_{1,1},u_{1,2})^T$ 为 $C_X$ 最大特征值 $\lambda_1$ 对应的特征向量。 $Q = (u_1)_{2\times 1}$ 。
此时的Y，已经损失了部分信息——损失了绿色的截线长度的信息， $YQ^T$ 也不能重新获得这些信息。 $YQ^T$ 仅仅是将Y={y1,y2,y3,y4,y5}这5个数映射在方向 $u_1=(u_{1,1},u_{1,2})^T$ 上，形成排列在一条线上的5个点—— $X'$ ，而不是原先成散布状的原始数据 $X$ 。

PCA图像压缩入门——学习笔记

PCA图像压缩入门——学习笔记

1.从协方差矩阵开始——协防差矩阵和样本阵的关系

2.求映射阵 Q n × k \bold{Q}_{n \times k} Qn×k​使由 n n n维降维至 k k k维

3.数据的复原（重构）

猜你喜欢

2.求映射阵 $\bold{Q}_{n \times k}$ 使由 $n$ 维降维至 $k$ 维