协方差矩阵概念

方差与协方差

方差 s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n-1} s2=n1i=1n(xixˉ)2

针对一维样本集合,求出的协方差就是方差,即方差是协方差的一种集合,意义和方差一样,都是反映集合中各元素的离散度。

协方差 cov ⁡ x y = ∑ i = 0 n ( x i − μ x ) ( y i − μ y ) ( n − 1 ) \operatorname{cov}_{x y}=\frac{\sum_{i=0}^{n}\left(x_{i}-\mu_{x}\right)\left(y_{i}-\mu_{y}\right)}{(n-1)} covxy=(n1)i=0n(xiμx)(yiμy)

针对二维样本集合,求出的协方差就是反映的是两个维度之间的相关性,正相关负相关或无相关

如果协方差结果为正值,则说明两者是正相关的,如果结果为负值,则说明两者是负相关的,如果结果为0,则表示两者之间没有关系。
协方差只是说明了线性相关的方向问题,即从正无穷到负无穷,不能说明相关的程度,因为这个值可能很大也可能很小,所以还引出了相关系数=两个维度的协方差/(两个维度的标准差),其值始终在-1到1之间变化。

协方差矩阵

针对多维样本集合,求出的是各个维度总体的相关性,针对各维度之间的关系,所以二维以上计算协方差用的就是协方差矩阵

举个栗子: 假设要分析学生学科成绩之间的相关性,其成绩结果如下:
 Student   Math   English   Art  1 90 60 90 2 90 90 30 3 60 60 60 4 60 60 90 5 30 30 30 \begin{array}{|c|c|c|c|} \hline \text { Student } & \text { Math } & \text { English } & \text { Art } \\ \hline 1 & 90 & 60 & 90 \\ \hline 2 & 90 & 90 & 30 \\ \hline 3 & 60 & 60 & 60 \\ \hline 4 & 60 & 60 & 90 \\ \hline 5 & 30 & 30 & 30 \\ \hline \end{array}  Student 12345 Math 9090606030 English 6090606030 Art 9030609030
我们可以将成绩集合变为一个矩阵A: [ 90 60 90 90 90 30 60 60 60 60 60 90 30 30 30 ] \left[\begin{array}{lll} 90 & 60 & 90 \\ 90 & 90 & 30 \\ 60 & 60 & 60 \\ 60 & 60 & 90 \\ 30 & 30 & 30 \end{array}\right] 909060603060906060309030609030 ,同时对每个学科求平均值的矩阵 A ^ \hat A A^ [ 66 60 60 66 60 60 66 60 60 66 60 60 66 60 60 ] \left[\begin{array}{lll} 66 & 60 & 60 \\ 66 & 60 & 60 \\ 66 & 60 & 60 \\ 66 & 60 & 60 \\ 66 & 60 & 60 \end{array}\right] 666666666660606060606060606060
通过样本的值减去自身样本的均值,可以得到差值的矩阵B: [ 24 0 30 24 30 − 30 − 6 0 0 − 6 0 30 − 36 − 30 − 30 ] \left[\begin{array}{ccc}24 & 0 & 30 \\ 24 & 30 & -30 \\ -6 & 0 & 0 \\ -6 & 0 & 30 \\ -36 & -30 & -30\end{array}\right] 242466360300030303003030

通过协方差的公式,可以求得协方差的矩阵C: [ E 11 E 12 E 13 E 21 E 22 E 23 E 31 E 32 E 33 ] \left[\begin{array}{ccc}E11 & E12 & E13 \\ E21& E22 & E23 \\ E31 & E32 & E33\end{array}\right] E11E21E31E12E22E32E13E23E33

上述式中:
E 11 = [ 24 ∗ 24 + 24 ∗ 24 + ( − 6 ) ∗ ( − 6 ) + ( − 6 ) ∗ ( − 6 ) + ( − 36 ) ∗ ( − 36 ) ] / 5 E11 = [24*24 + 24*24 + (-6)*(-6)+(-6)*(-6)+ (-36)*(-36)]/5 E11=[2424+2424+(6)(6)+(6)(6)+(36)(36)]/5
E 23 = [ 0 ∗ 30 + 30 ∗ ( − 30 ) + 0 ∗ 0 + 0 ∗ 30 + ( − 30 ) ∗ ( − 30 ) ] / 5 = 0 E23 = [0*30 + 30*(-30) + 0*0+0*30+ (-30)*(-30)]/5 = 0 E23=[030+30(30)+00+030+(30)(30)]/5=0

则有协方差矩阵C= [ 504 360 180 360 360 0 180 0 720 ] \left[\begin{array}{ccc}504 & 360 & 180 \\ 360& 360 & 0 \\ 180& 0 & 720\end{array}\right] 50436018036036001800720

有全部数据,就除以n
如果是抽的样,就除以n-1,因为要剔除系统误差。

参考

https://www.bilibili.com/video/BV1Vt4y1U73Dspm_id_from=333.880.my_history.page.click&vd_source=ea898b2446d3b66d130103f5905dfcd6

猜你喜欢

转载自blog.csdn.net/weixin_45626706/article/details/126570981