协方差、协方差矩阵

在机器学习中，理解协方差矩阵的关键在于牢记它计算的是同一个样本不同特征维度之间的协方差，而不是不同样本之间。

拿到样本矩阵之后，我们首先要明确一行是样本还是特征维度。
一般来说，样本矩阵中一行是一个样本，一列为一个特征维度。所以要按列计算均值（期望），再按行计算出协方差矩阵，把每一行的协方差矩阵相加再除以行数（即样本数），得到样本矩阵的协方差矩阵

在这里插入图片描述

一、协方差

在这里插入图片描述
从公式上看，协方差是两个变量与自身期望做差再相乘，然后对乘积取期望。
也就是说，当其中一个变量的取值大于自身期望，另一个变量的取值也大于自身期望时，即两个变量的变化趋势相同，此时，两个变量之间的协方差取正值。
反之，即其中一个变量大于自身期望时，另外一个变量小于自身期望，那么这两个变量之间的协方差取负值。
协方差的正负性反映了两个变量的变化趋势是否一致。

二、协方差矩阵

在现实生活中，我们在描述一个物体时，并不会单单从一个或两个维度去描述，比如说，在描述一个学生的学习成绩时，就会从他的语文、数学、英语、物理、化学等等很多个维度去描述。在进行多维数据分析时，不同维度之间的相关程度就需要协方差矩阵来描述，维度之间的两两相关程度就构成了协方差矩阵，而协方差矩阵主对角线上的元素即为每个维度上的数据方差。
协方差矩阵必然是一个实对称矩阵，其主对角线元素为方差，其余为协方差。
在这里插入图片描述

三、协方差矩阵的线性变换

协方差代表了不同维度之间的相关关系，如果说某些维度之间没有相关关系，则协方差为0，那么，以2维数据为例，我们来看一下，当不同维度之间数据没有相关关系时，即协方差矩阵为单位阵时，数据分布的整体形状。
**加粗样式**
当数据协方差矩阵为单位阵时，该组数据被称为白数据，白数据在很多场合都有应用，比如在数据传输加密中，将原始数据转化成白数据，切断不同维度之间的关联关系，在访问数据时，再对数据进行解密。现在我们一起来看一下，怎么将白数据转化成真实观察数据的线性变换。

M表示变换后得到的数据，D来表示白数据：
在这里插入图片描述

在这里插入图片描述

babychrislee3

发布了65 篇原创文章 · 获赞 4 · 访问量 2381

私信关注