皮尔逊相关系数丨Pearson’s correlation coefficient

皮尔逊相关系数丨Pearson’s correlation coefficient

前言：计算EEG信号相关系数，由于一些论文公式看不懂，总结下相关知识！

什么是相关系数

相关系数( Correlation coefficient ) ：考察两个事物（在数据里我们称之为变量）之间的相关程度。
这里写图片描述

如果有两个变量： $x,y$ ，最终计算出的相关系数的含义可以有如下理解：

左图（1）：当 $x$ 的值增大（减小）， $y$ 值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。

中图（2）：当相关系数为0时， $x$ 和 $y$ 两变量无关系。

右图（3）：当 $x$ 的值增大（减小）， $y$ 值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。

相关系数绝对值	相关强度
0.8~1.0	极强相关
0.6~0.8	强相关
0.4~0.6	中等程度相关
0.2~0.4	弱相关
0.0~0.2	极弱相关或无相关

什么是皮尔逊相关

皮尔森相关系数（Pearson correlation coefficient）也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ，是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用 $r$ 表示，其中 $n$ 为样本量，分别为两个变量的观测值和均值。 $r$ 描述的是两个变量间线性相关强弱的程度。 $r$ 的绝对值越大表明相关性越强。

皮尔逊公式推导

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商。

(1)式可以写为：

\begin{matrix} (2) & ρ_{x y} = \frac{C o v (X, Y)}{σ_{X} σ_{Y}} = \frac{E ((X - μ X) (Y - μ Y))}{σ_{X} σ_{Y}} \end{matrix}

$\rho_{xy}=\frac{Cov(X,Y)}{\sigma_{X}\sigma_{Y}}=\frac{E((X-\mu{X})(Y-\mu{Y}))}{\sigma_{X}\sigma_{Y}}\tag{2}$
又因：

E (x) = \sum_{i = 1}^{n} x_{i} P (x_{i})

$E(x)=\sum_{i=1}^n{x_iP(x_i)}$ ，

σ_{X} = \sqrt{D (x)} = \sqrt{E ((x - E (x))^{2})} = \sqrt{E (X^{2}) - E^{2} (X)}

$\sigma_{X}= \sqrt{D(x)}=\sqrt{E((x-E(x))^2)}=\sqrt{E(X^2)-E^2(X)}$ ，

μ_{X} = E X

$\mu_{X}=EX$

推导1：定义了总体相关系数，常用希腊小写字母 $\rho$ 作为符号代表。估算样本的协方差和标准差，可得到皮尔逊相关系数，常用英文小写字母 $r$ 代表：

\begin{matrix} (3) & r = \frac{\sum_{i = 1}^{n} (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{\sqrt{\sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}} \sqrt{\sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2}}} \end{matrix}

$r=\frac{\sum_{i=1}^{n}({X_i-\bar{X}})({Y_i-\bar{Y}})}{\sqrt{\sum_{i=1}^{n}{(X_i-\bar{X})^2}}\sqrt{\sum_{i=1}^{n}{(Y_i-\bar{Y})^2}}}\tag{3}$
推导2：

r

$r$ 亦可由

(X_{i}, Y_{i})

$(X_i,Y_i)$ 样本点的标准分数均值估计，样本方差

S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}

$S^2=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\bar{X})^2}$ ，令样本标准差和总体标准差相同

S = σ

$S=\sigma$ 得到与上式等价的表达式：

\begin{matrix} (4) & r = \frac{1}{n - 1} \sum_{i = 1}^{n} (\frac{X_{i} - \bar{X}}{σ_{X}}) (\frac{Y_{i} - \bar{Y}}{σ_{Y}}) \end{matrix}

$r=\frac{1}{n-1}\sum_{i=1}^{n}{(\frac{X_i-\bar{X}}{\sigma_{X}})(\frac{Y_i-\bar{Y}}{\sigma_{Y}})}\tag{4}$
其中

\frac{X_{i} - \bar{X}}{σ_{X}}

$\frac{X_i-\bar{X}}{\sigma_{X}}$ 、

\bar{X}

$\bar{X}$ 、

σ_{X}

$\sigma_{X}$ 分别是对

X_{i}

$X_i$ 样本的标准分数、样本平均值和样本标准差。

推导3：：由 $E((X-EX)(Y-EY))=E(XY)-E(X)E(Y)$ ，故相关系数也可以表示成：

\begin{matrix} (5) & ρ_{x y} = \frac{E (X Y) - E (X) E (Y)}{\sqrt{E (X^{2}) - (E (X))^{2}} \sqrt{E (Y^{2}) - (E (Y))^{2}}} \end{matrix}

$\rho_{xy}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-(E(X))^2}\sqrt{E(Y^2)-(E(Y))^2}}\tag{5}$
对于样本皮尔逊相关系数：

\begin{matrix} (6) & r_{x y} = \frac{\sum x_{i} y_{i} - n \bar{x} \bar{y}}{(n - 1) S_{x} S_{y}} = \frac{n (\sum x_{i} y_{i}) - (\sum x_{i}) (\sum y_{i})}{\sqrt{[n \sum x_{i}^{2} - (\sum x_{i})^{2}] [n \sum y_{i}^{2} - (\sum y_{i})^{2}]}} \end{matrix}

$r_{xy}=\frac{\sum{x_iy_i}-n\bar{x}\bar{y}}{(n-1)S_xS_y}=\frac{n(\sum{x_iy_i})-(\sum{x_i})(\sum{y_i})}{\sqrt{[n\sum{x_i^2}-(\sum{x_i})^2][n\sum{y_i^2}-(\sum{y_i})^2]}}\tag{6}$
此公式也是统计学常用计算相关性公式之一。

推导4：有关信号处理的皮尔逊相关性会出现这样一个式子，Pearson的相关系数测量了时域的线性相关。在两个信号之间 $x(t)$ 和 $y(t)$ 在零延迟。对于零均值，单位方差信号定义为:：

\begin{matrix} (7) & r_{x y} = \frac{1}{n} \sum_{i = 1}^{n} x (i) y (i) \end{matrix}

$r_{xy}=\frac{1}{n}\sum_{i=1}^{n}x(i)y(i) \tag{7}$
按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数，Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似的处理) ;

其中总体Z分数： $Z=\frac{X-\mu}{\sigma}$ ，样本Z分数： $Z=\frac{X-\bar{X}}{S}$

此处摘自:皮尔逊相关系数

我没太搞懂这一块，大家有没有什么高见？

\begin{aligned} (10) & r_{x y} & = \frac{1}{n} \sum Z_{x} Z_{y} \\ (11) & = \frac{1}{n} \sum (\frac{X - \bar{X}}{S_{x}}) (\frac{Y - \bar{Y}}{S_{y}}) \\ (12) & = \frac{1}{n} \sum \frac{(X - \bar{X}) (Y - \bar{Y})}{S_{x} S_{y}} \\ (13) & = \frac{\sum (X - \bar{X}) (Y - \bar{Y})}{n (\sqrt{\frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}}) (\sqrt{\frac{1}{n} \sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2})}} \\ (14) & = \frac{\sum (X - \bar{X}) (Y - \bar{Y})}{(\sqrt{\sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}}) (\sqrt{\sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2})}} \end{aligned}

$\begin{align} r_{xy}&=\frac{1}{n}\sum{Z_xZ_y}\\ &=\frac{1}{n}\sum(\frac{X-\bar{X}}{S_x})(\frac{Y-\bar{Y}}{S_y})\\ &=\frac{1}{n}\sum\frac{(X-\bar{X})(Y-\bar{Y})}{S_xS_y}\\ &=\frac{\sum(X-\bar{X})(Y-\bar{Y})}{n(\sqrt{\frac{1}{n}\sum_{i=1}^{n}{(X_i-\bar{X})^2}})(\sqrt{\frac{1}{n}\sum_{i=1}^{n}{(Y_i-\bar{Y})^2})}}\\ &=\frac{\sum(X-\bar{X})(Y-\bar{Y})}{(\sqrt{\sum_{i=1}^{n}{(X_i-\bar{X})^2}})(\sqrt{\sum_{i=1}^{n}{(Y_i-\bar{Y})^2})}}\\ \end{align}$

总结：上述推导的四个皮尔逊公式是等价的，读者可自行选择使用！

皮尔逊相关系数的适用范围

当两个变量的标准差都不为零时，相关系数才有定义，皮尔逊相关系数适用于：

两个变量之间是线性关系，都是连续数据。
两个变量的总体是正态分布，或接近正态的单峰分布。
两个变量的观测值是成对的，每对观测值之间相互独立。

皮尔逊使用例子

如何找到皮尔逊相关系数，样本如下：

数量	年龄（x）	葡萄糖含量（y）
1	43	99
2	21	65
3	25	79
4	42	75
5	57	87
6	59	81

步骤1：使一个图表。使用给定的数据，并添加三个多列： $xy$ ， $x^2$ ， $y^2$ 并求出。

数量	年龄（x）	葡萄糖含量（y）	$xy$	$x^2$	$y^2$
1	43	99	4257	1849	9801
2	21	65	1365	441	4225
3	25	79	1975	625	6241
4	42	75	3150	1764	5625
5	57	87	4959	3249	7569
6	59	81	4779	3481	6561

步骤2：计算出 $\sum$ 总和。

数量	年龄（x）	葡萄糖含量（y）	$xy$	$x^2$	$y^2$
1	43	99	4257	1849	9801
2	21	65	1365	441	4225
3	25	79	1975	625	6241
4	42	75	3150	1764	5625
5	57	87	4959	3249	7569
6	59	81	4779	3481	6561
$\sum$	247	486	20485	11409	40022

步骤3：使用下面公式计算结果：

\begin{aligned} (39) & r_{x y} & = \frac{n (\sum x_{i} y_{i}) - (\sum x_{i}) (\sum y_{i})}{\sqrt{[n \sum x_{i}^{2} - (\sum x_{i})^{2}] [n \sum y_{i}^{2} - (\sum y_{i})^{2}]}} \\ (40) & = \frac{6 (20485) - (247 * 486)}{\sqrt{[6 (11429) - (247)^{2}] [6 (40022) - (486)^{2}]}} \\ (41) & = \frac{2868}{5413.27} \\ (42) & = 0.529809 \end{aligned}

$\begin{align} r_{xy}&=\frac{n(\sum{x_iy_i})-(\sum{x_i})(\sum{y_i})}{\sqrt{[n\sum{x_i^2}-(\sum{x_i})^2][n\sum{y_i^2}-(\sum{y_i})^2]}}\\ &=\frac{6(20485)-(247*486)}{\sqrt{[6(11429)-(247)^2] [6(40022)-(486)^2]}}\\ &=\frac{2868}{5413.27}\\ &=0.529809\\ \end{align}$

结果：相关系数的范围是从-1到1。我们的结果是0.5298或52.98％，这意味着变量具有适度的正相关性。

Matlab 代码

使用上述数据进行测试，代码如下：

x=[43,21,25,42,57,59];
y=[99,65,79,75,87,81];
c=corr(x',y','type','pearson');

运行结果： $c$ =0.529808901890174
与上述结果相同！

致谢链接

维基百科
 统计学
 百度百科
 皮尔逊相关系数
 Z分数