PCA(主成分分析)原理涉及到的线性代数理论(二):协方差矩阵

目录

引言

一、方差与协方差

1.1 方差

1.2 协方差的含义

1.3 协方差的描述

二、协方差矩阵


引言

接着上一篇:PCA(主成分分析)原理涉及到的线性代数理论(一):特征值与特征向量、特征值分解

协方差在线性代数中很常见的,后面也引申出了协方差矩阵。举个例子:我们知道逛淘宝的访客量越大,总体成交量也会越多,就像双十一那天,访客多到挤爆阿里的服务器,而那一天的成交额也是一年中最多的。但我们不能说“访问量”和“成交量”存在某种绝对的关系,因为并不是所有人逛完淘宝最后都会下单的。本文中讲到的协方差表达的就是这种不存在绝对性的相互关系。


一、方差与协方差

1.1 方差

方差\sigma^{2}:各变量值X_{i}与平均数\bar{X}离差平方的平均数,基本表达式如下:

                                                                           \sigma^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}{n-1}

方差用来度量随机变量和其数学期望(即均值)之间的偏离程度,或者叫做离散程度。方差越大,数据越离散,反之方差越小,数据就越集中。

1.2 协方差的含义

协方差(Covariance)也有类似于方差的概念,事实上方差就是比较特殊的协方差,要清楚两者之间存在什么样的关系,还是先来了解一下协方差吧。首先贴上协方差Cov(X,Y)的表达式:

                                                             Cov(X,Y)=\frac{\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{n-1}

(为啥是除以n-1,而不是n,请自行百度了解哈!)

对比一下方差和协方差的表达式,很明显可得:\sigma^{2}=Cov(X,X)

可以看出,协方差是对二维数据XY的描述;而方差其实是X=Y时的协方差,是对一维数据X内部的统计描述,这也是为什么说方差是特殊的协方差。

上面说了,方差是用来度量一维数据内部的离散程度,那协方差又有什么意义呢?毋庸置疑,既然是对二维数据的描述,那协方差肯定可以作为对二维数据XY之间存在某种关系的度量。

为此阐述一下协方差的意义:协方差在概率论和统计学中用于衡量两个变量(维度)偏离其均值的程度。如果协方差为正值,则说明两者是正相关的,如果为负值就说明是负相关的,如果为0,也就是统计上说的“相互独立”。(其实这么说还是不够严谨的,不过先暂时这么理解哈)

1.3 协方差的描述

为了方便后面的理解,先将表达式改写为数学期望的形式,其实这也是协方差的定义:

                                                          Cov(X,Y)=E[(X-E[X])(Y-E(Y)]

从这个定义可以看出,如果两个变量的变化趋势一致,即其中一个大于/小于自身的期望值,另外一个也大于/小于自身的期望值,那么两个变量之间的协方差就是正值(符号相同的两个数相乘得正数); 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值(符号不同的两个数相乘得负数)。

下面用图文结合的方式,形象表达该定义的内涵。(以下整理好的一些内容参考了该博客

在概率论中,两个随机变量 XY之间的相互关系,大致分为3种情况:正相关负相关不相关(参考下图)

  • XY 的联合分布如下图时,可以看出大致上有: X越大 ,Y也越大; X越小 ,Y也越小。这种情况则称为正相关

                                             

  • XY 联合分布如下图时,可以看出大致上有: X越大 ,Y反而越小; X越小 ,Y反而越大。这种情况则为负相关

                                             

  • XY 联合分布如下图时, 既不是X越大Y也越大,也不是X越大 Y反而越小。这种情况则为不相关

                                             

怎样将这3种相关情况,用一个简单的数字表达出来呢?

上面三个图中都分为了四个区域,数学期望E(X)E(Y)所在的直线作为这四个区域的分割线,所以这四个区域有如下的描述:

区域(1)中:有 X>E(X)Y>E(Y),所以[X-E(X)][Y-E(Y)]>0

区域(2)中:有 X<E(X)Y>E(Y),所以[X-E(X)][Y-E(Y)]<0

区域(3)中:有 X<E(X)Y<E(Y),所以[X-E(X)][Y-E(Y)]>0

区域(4)中:有 X>E(X)Y<E(Y),所以[X-E(X)][Y-E(Y)]<0

XY正相关时,它们的分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以按总体平均来说有[X-E(X)][Y-E(Y)]>0(见正相关那个图)

XY负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以按总体平均来说有[X-E(X)][Y-E(Y)]<0 (见负相关那个图)

XY不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,所以按总体平均来说有[X-E(X)][Y-E(Y)]=0 (见不相关那个图)

我们知道数学期望可以理解为均值,上述中的“按总体平均”的意思其实就是求[X-E(X)][Y-E(Y)]的数学期望,因此可以引申出协方差的定义:Cov(X,Y)=E[(X-E[X])(Y-E(X)],由此也可得到如下结论:

Cov(X,Y)>0XY正相关;

Cov(X,Y)<0XY负相关;

Cov(X,Y)=0XY不相关。

(补充一点:协方差作为描述XY相关程度的量,在同一物理量纲(单位)之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异,为此引申出了相关系数的概念,可自行百度皮尔逊相关系数


二、协方差矩阵

协方差只能衡量两个维度之间的相互关系,但现实中的数据往往是多维的,针对多维数据也就有了协方差矩阵的概念。定义如下:

假设有这样的n维随机变量X=(X_{1},X_{2},...,X_{n})^T,计算该变量中各维度两两之间的协方差,由这些协方差所构成的n\times n矩阵,即为协方差矩阵。

根据上述协方差的定义,那么各维度两两之间的协方差可表示为:c_{ij}=Cov(X_{i},X_{j})=E[(X_{i}-E[X_{i}])(X_{j}-E(X_{j})]

假设c_{ij}是协方差矩阵中的每一个元素的表示,那么协方差矩阵C可表示为:

            C=(c_{ij})_{n\times n}=\begin{bmatrix} c_{11} &c_{12} & \cdots &c_{1n} \\ c_{21}& c_{22} & \cdots & c_{2n}\\ \vdots &\vdots& \ddots &\vdots\\ c_{n1}& c_{n2} & \cdots & c_{nn} \end{bmatrix}=\begin{bmatrix} Cov(X_{1},X_{1}) &Cov(X_{1},X_{2}) & \cdots &Cov(X_{1},X_{n}) \\ Cov(X_{2},X_{1})& Cov(X_{2},X_{2}) & \cdots&Cov(X_{2},X_{n})\\ \vdots &\vdots& \ddots &\vdots\\ Cov(X_{n},X_{1})& Cov(X_{n},X_{2}) &\cdots&Cov(X_{n},X_{n}) \end{bmatrix}

上面说了,方差可以理解为两个维度相等时的协方差,即Cov(X_{i},X_{j})中的X_{i}=X_{j},由此可以看出协方差矩阵对角线上的元素其实就是各维度上随机变量的方差

另外很明显的是,协方差是一个实对称矩阵,所以它也具有实对称矩阵的性质:

(1)实对称矩阵不同特征值对应的特征向量必然正交。

(2)设特征值\lambda重数为r,则必然存在r个线性无关的特征向量对应于\lambda,因此可以将这r个特征向量单位正交化。

由这两条性质可知,一个nn列的实对称矩阵一定可以找到n个单位正交特征向量,设这n个特征向量为e_{1},e_{2},\cdots ,e_{n},我们将其按列组成正交矩阵E

                                                                             E=\left \{ e_{1},e_{2},\cdots ,e_{n}\right \}

则对协方差矩阵C有如下结论:

                                                                           E^TCE=\Lambda =\begin{bmatrix} \lambda_{1} &0 &\cdots &0 \\ 0&\lambda_{2} &\cdots & 0\\ \vdots & \vdots & \ddots &\vdots \\ 0& 0 & \cdots &\lambda_{n} \end{bmatrix}

其中\Lambda为对角矩阵,其对角元素为各特征向量对应的特征值。

(关于这部分的证明不赘述,可参考相关线性代数的“实对称矩阵对角化”的内容哦,为什么要提这个呢?因为PCA里面会运用到。)

(还要特别注意的一点:协方差矩阵计算的是各个维度(列)之间的协方差,而不是各个样本(行)之间的协方差)


引用及参考:

[1] 《工程数学线性代数第六版》

[2] 协方差的意义

(欢迎转载,转载请注明出处)  

猜你喜欢

转载自blog.csdn.net/qq_42267603/article/details/88814671
今日推荐