透彻理解协方差与协方差矩阵


本篇内容主要是对于基本书籍教材协方差相关章节所写的学习笔记,结合自己的理解尽可能表述得通俗易懂,主要思路内容取自《程序员的数学之概率统计》。

基础预备知识

协方差简介

先来直接看协方差的定义式,所有其他关于协方差的公式都是基于如下定义式的推导:

Cov [ X , Y ] = E [ ( X μ ) ( Y ν ) ] \operatorname{Cov}[X, Y] = \mathrm{E}[(X-\mu)(Y-\nu)]

其中, μ = E ( X ) , ν = E ( Y ) \mu=E(X),\nu=E(Y) 。接下来理解其包含怎样的含义。这里的X和Y都是随机变量,由于他们随机,所以取值时有时会大于期望值有时会小于期望值。为了表示随机变量和其平均水平(期望)相差多少,就有了 X μ X-\mu Y ν Y-\nu 这样类似的表达式。由此,协方差的定义式说明了如下现象。

当协方差值为正时, X μ X-\mu Y ν Y-\nu 符号相同,即:

  • 如果一方的取值大于期望值,那么另一方取值大于期望值的概率就更大

  • 如果一方的取值小于期望值,那么另一方取值小于期望值的概率就更大

当协方差值为负时, X μ X-\mu Y ν Y-\nu 符号相反,即:

  • 如果一方的取值大于期望值,那么另一方取值小于期望值的概率就更大

  • 如果一方的取值小于期望值,那么另一方取值大于期望值的概率就更大

所以协方差为正,那么两个随即变量正相关;为负,则是负相关;为零,那么就不具有相关性。用图表示如下:

在这里插入图片描述

需要注意的是,协方差是受变量缩放比例影响的。也就是说协方差的大小并不能说明问题,因为两个随机变量缩放同样倍数,协方差值也就跟着变动倍数的平方。如果想要通过数值来判断倾向,就计算相关系数。其概念在此不再展开。

协方差和相关系数都有其局限性,例如学校的教室空座和自行车库空位正相关,但是两者并没有直接关联,只是因为两者都和学生人数存在直接关联,所以两者体现出了正相关特性。

协方差矩阵简介

假设有n个随机变量 X , X 1 , , X n X,X_1,\dots,X_n ,该如何了解这些变量之间的相关性?如何判断在某个变量增大时,另一个变量是否具有增大或减小的倾向?了解协方差基本定义的人应该知道最简单的方法就是计算所有变量对的协方差,并将其整理成一个n乘n的表格,之后分析表格中的数据,逐一判断变量之间的关系。这样的思路虽然简单,但是不仅操作麻烦,还不容易产生全局的理解。为了形成整体的理解,就不能把目光局限于表格中的具体的数值,而应该关注整张表的情况。由此就引入了协方差矩阵的概念,协方差矩阵呈如下的形式(当n=3时):

( V [ X 1 ] Cov [ X 1 , X 2 ] Cov [ X 1 , X 3 ] Cov [ X 1 , X 2 ] V [ X 2 ] Cov [ X 2 , X 3 ] Cov [ X 1 , X 3 ] Cov [ X 2 , X 3 ] V [ X 3 ] ) \left(\begin{array}{ccc} \mathrm{V}\left[X_{1}\right] & \operatorname{Cov}\left[X_{1}, X_{2}\right] & \operatorname{Cov}\left[X_{1}, X_{3}\right] \\ \operatorname{Cov}\left[X_{1}, X_{2}\right] & \mathrm{V}\left[X_{2}\right] & \operatorname{Cov}\left[X_{2}, X_{3}\right] \\ \operatorname{Cov}\left[X_{1}, X_{3}\right] & \operatorname{Cov}\left[X_{2}, X_{3}\right] & \mathrm{V}\left[X_{3}\right] \end{array}\right)

我们考虑整张表也就是协方差矩阵该与怎样的图像对应,去除具体元素的影响,通过图形的方式反映问题的本质。这就是协方差矩阵的核心

观察协方差矩阵不难发现,这是一个对称阵,对角线元素都大于0。一般协方差矩阵的标记符用 Σ \Sigma 表示。

协方差矩阵的向量表述

如果把开头提到的n个随机变量用列向量的形式表示,就可引出协方差矩阵的向量形式表述。设n个随机变量纵向排列如下:

X = ( X 1 X 2 X n ) X =\left(\begin{array}{c} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \end{array}\right)

那么协方差矩阵就可以表示为(下面的V表示协方差矩阵而不是方差,因为里面是向量而不是单个随机变量):

V [ X ] = E [ ( X μ ) ( X μ ) T ] \mathrm{V}[\boldsymbol{X}]=\mathrm{E}\left[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{T}\right]

这里 μ = E ( X ) \mu=E(X) 。具体证明很简单,还是以n=3为例,此时 μ \mu 值如下:

μ = ( μ 1 μ 2 μ 3 ) E [ ( X 1 X 2 X 3 ) ] = E [ X ] \boldsymbol{\mu}=\left(\begin{array}{l} \mu_{1} \\ \mu_{2} \\ \mu_{3} \end{array}\right) \equiv \mathrm{E}\left[\left(\begin{array}{l} X_{1} \\ X_{2} \\ X_{3} \end{array}\right)\right]=\mathrm{E}[\boldsymbol{X}]

由此可以如下步骤逐步推出 V [ X ] V[X]

E [ ( X μ ) ( X μ ) T ] = E [ ( X 1 μ 1 X 2 μ 2 X 3 μ 3 ) ( X 1 μ 1 , X 2 μ 2 , X 3 μ 3 ) ] = E [ ( ( X 1 μ 1 ) 2 ( X 1 μ 1 ) ( X 2 μ 2 ) ( X 1 μ 1 ) ( X 3 μ 3 ) ( X 2 μ 2 ) ( X 1 μ 1 ) ( X 2 μ 2 ) 2 ( X 2 μ 2 ) ( X 3 μ 3 ) ( X 3 μ 3 ) ( X 1 μ 1 ) ( X 3 μ 3 ) ( X 2 μ 2 ) ( X 3 μ 3 ) 2 ) ] = ( V [ X 1 ] Cov [ X 1 , X 2 ] Cov [ X 1 , X 3 ] Cov [ X 1 , X 2 ] V [ X 2 ] Cov [ X 2 , X 3 ] Cov [ X 1 , X 3 ] Cov [ X 2 , X 3 ] V [ X 3 ] ) = V [ X ] \begin{array}{l} \mathrm{E}\left[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{T}\right] \\ =\mathrm{E}\left[\left(\begin{array}{c} X_{1}-\mu_{1} \\ X_{2}-\mu_{2} \\ X_{3}-\mu_{3} \end{array}\right)\left(X_{1}-\mu_{1}, X_{2}-\mu_{2}, X_{3}-\mu_{3}\right)\right] \\ =\mathrm{E}\left[\left(\begin{array}{cccc} \left(X_{1}-\mu_{1}\right)^{2} & \left(X_{1}-\mu_{1}\right)\left(X_{2}-\mu_{2}\right) & \left(X_{1}-\mu_{1}\right)\left(X_{3}-\mu_{3}\right) \\ \left(X_{2}-\mu_{2}\right)\left(X_{1}-\mu_{1}\right) & \left(X_{2}-\mu_{2}\right)^{2} & \left(X_{2}-\mu_{2}\right)\left(X_{3}-\mu_{3}\right) \\ \left(X_{3}-\mu_{3}\right)\left(X_{1}-\mu_{1}\right) & \left(X_{3}-\mu_{3}\right)\left(X_{2}-\mu_{2}\right) & \left(X_{3}-\mu_{3}\right)^{2} \end{array}\right)\right] \\ = \left(\begin{array}{ccc} \mathrm{V}\left[X_{1}\right] & \operatorname{Cov}\left[X_{1}, X_{2}\right] & \operatorname{Cov}\left[X_{1}, X_{3}\right] \\ \operatorname{Cov}\left[X_{1}, X_{2}\right] & \mathrm{V}\left[X_{2}\right] & \operatorname{Cov}\left[X_{2}, X_{3}\right] \\ \operatorname{Cov}\left[X_{1}, X_{3}\right] & \operatorname{Cov}\left[X_{2}, X_{3}\right] & \mathrm{V}\left[X_{3}\right] \end{array}\right)=\mathrm{V}[X] \end{array}

必备的基本结论

假设有一个取值恒定的列向量a,那么a与X的内积的期望值如下:

E [ a X ] = E [ a T X ] = a T E [ X ] = a E [ X ] \mathbf{E}[\boldsymbol{a} \cdot \boldsymbol{X}]=\mathrm{E}\left[\boldsymbol{a}^{T} \boldsymbol{X}\right]=\boldsymbol{a}^{T} \mathrm{E}[\boldsymbol{X}]=\boldsymbol{a} \cdot \mathrm{E}[\boldsymbol{X}]

上面这个等式的证明过程很简单,只需要写出其中元素即可证明上式成立,证明过程如下:

{ E [ a T X ] = E [ ( a 1 , , a n ) ( X 1 X n ) ] = E [ a 1 X 1 + + a n X n ] = a 1 E [ X 1 ] + + a n E [ X n ] a T E [ X ] = ( a 1 , , a n ) E [ ( X 1 X n ) ] = ( a 1 , , a n ) ( E [ X 1 ] E [ X n ] ) = a 1 E [ X 1 ] + + a n E [ X n ] \left\{\begin{aligned} \mathrm{E}\left[\boldsymbol{a}^{T} \boldsymbol{X}\right] &=\mathrm{E}\left[\left(a_{1}, \cdots, a_{n}\right)\left(\begin{array}{c} X_{1} \\ \vdots \\ X_{n} \end{array}\right)\right]=\mathrm{E}\left[a_{1} X_{1}+\cdots+a_{n} X_{n}\right]=a_{1} \mathrm{E}\left[X_{1}\right]+\cdots+a_{n} \mathrm{E}\left[X_{n}\right] \\ a^{T} \mathrm{E}[X] &=\left(a_{1}, \cdots, a_{n}\right) \mathrm{E}\left[\left(\begin{array}{c} X_{1} \\ \vdots \\ X_{n} \end{array}\right)\right]=\left(a_{1}, \cdots, a_{n}\right)\left(\begin{array}{c} \mathrm{E}\left[X_{1}\right] \\ \vdots \\ \mathrm{E}\left[X_{n}\right] \end{array}\right)=a_{1} \mathrm{E}\left[X_{1}\right]+\cdots+a_{n} \mathrm{E}\left[X_{n}\right] \end{aligned}\right.

对于取值确定的矩阵A(A有m行n列),下面的等式依然成立

E ( A X ) = A E ( X ) E(AX)=AE(X)

证明过程还是通过写出其中元素来证明,证明过程如下:

{ E [ A X ] = E [ ( a 1 T a m T ) ( X ) ] = E [ ( a 1 T X a m T X ) ] = ( E [ a 1 T X ] E [ a m T X ] ) = ( a 1 T E [ X ] a m T E [ X ] ) A E [ X ] = ( a 1 T a m T ) E [ ( X ) ] = ( a 1 T E [ X ] a m T E [ X ] ) \left\{\begin{array}{l} \mathrm{E}[A \boldsymbol{X}]=\mathrm{E}\left[\left(\begin{array}{c} \boldsymbol{a}_{1}^{T} \\ \vdots \\ \boldsymbol{a}_{m}^{T} \end{array}\right)(\boldsymbol{X})\right]=\mathrm{E}\left[\left(\begin{array}{c} \boldsymbol{a}_{1}^{T} \boldsymbol{X} \\ \vdots \\ \boldsymbol{a}_{m}^{T} \boldsymbol{X} \end{array}\right)\right]=\left(\begin{array}{c} \mathrm{E}\left[\boldsymbol{a}_{1}^{T} \boldsymbol{X}\right] \\ \vdots \\ \mathrm{E}\left[\boldsymbol{a}_{m}^{T} \boldsymbol{X}\right] \end{array}\right)=\left(\begin{array}{c} \boldsymbol{a}_{1}^{T} \mathrm{E}[\boldsymbol{X}] \\ \vdots \\ \boldsymbol{a}_{m}^{T} \mathrm{E}[\boldsymbol{X}] \end{array}\right) \\ A \mathrm{E}[\boldsymbol{X}]=\left(\begin{array}{c} \boldsymbol{a}_{1}^{T} \\ \vdots \\ \boldsymbol{a}_{m}^{T} \end{array}\right) \mathrm{E}[(\boldsymbol{X})]=\left(\begin{array}{c} \boldsymbol{a}_{1}^{T} \mathrm{E}[\boldsymbol{X}] \\ \vdots \\ \boldsymbol{a}_{m}^{T} \mathrm{E}[\boldsymbol{X}] \end{array}\right) \end{array}\right.

现在,把X替换成矩阵R,矩阵R的取值随机,其期望由其元素决定。这时等式依然成立

E ( A R ) = A E ( R ) E(AR)=AE(R)

证明过程如下(假设R有k个列向量):
{ E ( A R ) = E [ A ( R 1 , , R k ) ] = E [ ( A R 1 , , A R k ) ] = ( E ( A R 1 ) , , E ( A R k ) ) = ( A E ( R 1 ) , , A E ( R k ) ) A E ( R ) = A ( E ( R 1 ) , , E ( R k ) ) = ( A E ( R 1 ) , , A E ( R k ) ) \left\{\begin{aligned} E(AR)&=E[A(R_1,\dots,R_k)]=E[(AR_1,\dots,AR_k)]\\ &=(E(AR_1),\dots,E(AR_k))=(AE(R_1),\dots,AE(R_k))\\ AE(R)&=A(E(R_1),\dots,E(R_k))=(AE(R_1),\dots,AE(R_k)) \end{aligned}\right.
而对于下面这种情况,取值确定的矩阵B,等式需要稍微更改:

E [ R B ] = E [ R ] B E[RB]=E[R]B

这很简单,因为矩阵不满足交换律。综上,对于取值确定的矩阵A和B,就有以下变形:

E [ A R B ] = A E [ R ] B E[ARB]=AE[R]B

至此,记住该部分的结论,这是后面结论成立的基础。

通过图形解释协方差矩阵

协方差矩阵的变量变换

如果要直观理解协方差矩阵,就不能把目光放在矩阵里面的单个元素上,而是需要从整体的视角看待协方差矩阵,以图形的形式解释协方差的概念。变量变换是实现这个目标的核心,这里就会用到前面必备的基本结论章节已经证明过的一些结论。

设X是n元随机向量,X的期望值向量 μ = E [ X ] \mu=E[X] ,X的协方差矩阵则为:

V [ X ] = E [ ( X μ ) ( X μ ) T ] \mathrm{V}[\boldsymbol{X}]=\mathrm{E}\left[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{T}\right]

对于标量a,有

V [ a X ] = a 2 V [ X ] V[aX]=a^2V[X]

对于取值确定的列向量a,有

V [ a T X ] = a T V [ X ] a V[a^TX]=a^TV[X]a

证明过程如下(已知 E [ a T X ] = a T E [ X ] = a T μ E[a^TX]=a^TE[X]=a^T\mu ):

V [ a T X ] = E [ ( a T X a T μ ) ( a T X a T μ ) T ] = E [ a T ( X μ ) ( X μ ) T a ] = a T E [ ( X μ ) ( X μ ) T ] a = a T V [ X ] a \begin{aligned} \mathrm{V}[a^T \boldsymbol{X}] &=\mathrm{E}\left[(a^T \boldsymbol{X}-a^T \boldsymbol{\mu})(a^T \boldsymbol{X}-a^T \boldsymbol{\mu})^{T}\right]=\mathrm{E}\left[a^T(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{T}a\right]\\&=a^T \mathrm{E}\left[(\boldsymbol{X}-\boldsymbol{\mu})(\boldsymbol{X}-\boldsymbol{\mu})^{T}\right]a \\&= a^T \mathrm{V}[\boldsymbol{X}]a \end{aligned}

对于取值确定的矩阵A,有

V [ A X ] = A V [ X ] A T \mathrm{V}[A \boldsymbol{X}]=A \mathrm{V}[\boldsymbol{X}] A^{T}

证明过程如下(已知 E [ A X ] = A E [ X ] = A μ E[AX]=AE[X]=A\mu ):

V [ A X ] = E [ ( A X A μ ) ( A X A μ ) T ] = E [ { A ( X μ ) } { A ( X μ ) } T ] = E [ { A ( X μ ) } { ( X μ ) T A T } ] = E [ A { ( X μ ) ( X μ ) T } A T ] = A E [ ( X μ ) ( X μ ) T ] A T = A V [ X ] A T \begin{aligned} \mathrm{V}[A X] &=\mathrm{E}\left[(A X-A \mu)(A X-A \mu)^{T}\right] \\ &=\mathrm{E}\left[\{A(X-\mu)\}\{A(X-\mu)\}^{T}\right] \\ &=\mathrm{E}\left[\{A(X-\mu)\}\left\{(X-\mu)^{T} A^{T}\right\}\right] \\ &=\mathrm{E}\left[A\left\{(X-\mu)(X-\mu)^{T}\right\} A^{T}\right] \\ &=A E\left[(X-\mu)(X-\mu)^{T}\right] A^{T} \\ &=A V[X] A^{T} \end{aligned}

任意方向的发散程度

协方差矩阵 V [ X ] V[X] 中,对角线上的元素分别为 V [ X 1 ] , V [ X 2 ] , , V [ X n ] V[X_1],V[X_2],\dots,V[X_n] 。为了便于画出来,看当n=2的情况, V [ X 1 ] V[X_1] 表示横向的发散情况, V [ X 2 ] V[X_2] 表示纵向的发散情况,由下图可直观描述:
在这里插入图片描述
那么对于其他方向上的发散情况该如何计算呢?其实协方差矩阵中已经包含了任意方向的发散信息。设长度为1的向量u表示某一特定的方向,其就是普通向量,取值恒定,如下图所示:
在这里插入图片描述
把随机向量X投影至u方向所在的直线上,并得到点Z。设Z的长度是由原点至投影处的距离,和u同向取正号,反向取负号。这时候目标就变为了求Z的方差 V [ Z ] V[Z]
已知 Z = u T X Z=u^TX ,所以问题转变为:假设有一个长度为1的向量u,求 V [ u T X ] V[u^TX] 的值。使用前面必备基本结论部分中的变换规则,可得
V [ u T X ] = u T V [ X ] u \mathrm{V}\left[\boldsymbol{u}^{T} \boldsymbol{X}\right]=\boldsymbol{u}^{T} \mathrm{V}[\boldsymbol{X}] \boldsymbol{u}
通过这样的变换,就可以依据协方差矩阵求出任意方向的发散程度了。

发布了34 篇原创文章 · 获赞 51 · 访问量 4535

猜你喜欢

转载自blog.csdn.net/nstarLDS/article/details/104797269