机器学习数学基础十：相关分析

●衡量变量之间相关程度的一个量值
●相关系数r的数值范围是在-1到+1之间
●相关系数r的正负号表示变化方向。“+”号表示变化方向一致，即正相关;“-”号表示变化方向相反，即负相关
●r的绝对值表示变量之间的密切程度(即强度)。绝对值越接近1，表示两个变量之间关系越密切;越接近0，表示两个变量之间关系越不密切
●相关系数的值，仅仅是一个比值。它不是由相等单位度量而来(即不等距)，也不是百分比，因此，不能直接作加、减、乘、除运算
●相关系数只能描述两个变量之间的变化方向及密切程度，并不能揭示两者之间的内在本质联系，即存在相关的两个变量，不一定存在因果关系

二，皮尔森相关系数

1，连续变量的相关分析

●连续变量即数据变量，它的取值之间可以比较大小，可以用加减法计算出差异的大小。如“年龄”、“收入”、 “成绩”等变量。
●当两个变量都是正态连续变量，而且两者之间呈线性关系时，通常用Pearson相关系数来衡量

2，协方差：

协方差是一个反映两个随机变量相关程度的指标，如果-个变量跟随着另一个变量同时变大或者变小，那么这两个变量的协方差就是正值

虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关，小于0的时候表示两者负相关)，但是协方差值的大小并不能很好地度量两个随机变量的关联程度。

在二维空间中分布着--些数据，我们想知道数据点坐标X轴和Y轴的相关程度，如果X与Y的相关程度较小但是数据分布的比较离散，这样会导致求出的协方差值较大，用这个值来度量相关程度是不合理的

3，pearson相关系数

为了更好的度量两个随机变量的相关程度，引入了Pearson相关系数，其在协方差的基础上除以了两个随机变量的标准差

pearson是-一个介于-1和1之间的值，当两个变量的线性关系增强时，相关系数趋于1或-1;当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0;如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0;如果相关系数等于0，表明它们之间不存在线性相关关系。

4，相关系数的显著性检验：

三，斯皮尔曼等级相关

当测量得到的数据不是等距或等比数据，而是具有等级顺序的数据;或者得到的数据是等距或等比数据，但其所来自的总体分布不是正态的，不满足求皮尔森相关系数(积差相关)的要求。这时就要运用等级相关系数。

计算得出，他们的皮尔森相关系数r=1，P-vlaue=0，从以上可以直观看出，如果两个基因的表达量呈线性关系，则具有显著的皮尔森相关性。

以上是两个基因呈线性关系的结果。如果两者呈非线性关系，例如幂函数关系(曲线关系)，那又如何呢?我们再试试。

两个基因A、D，他们的关系是D=A^10，在8个样本中的表达量值如下:

可以看到，基因A、D相关系数，无论数值还是显著性都下降了。皮尔森相关系数是一种线性相关系数，因此如果两个变量呈线性关系的时候，具有最大的显著性。对于非线性关系(例如A、D的幂函数关系)，则其对相关性的检测功效会下降。这时我们可以考虑另外-一个相关系数计算方法:斯皮尔曼等级相关。

当两个变量值以等级次序排列或以等级次序表示时，两个相应总体并不一定呈正态分布，样本容量也不一定大于30，表示这两变量之间的相关，称为Spearman等级相关。

简单点说，就是无论两个变量的数据如何变化，符合什么样的分布，我们只关心每个数值在变量内的排列顺序。如果两个变量的对应值，在各组内的排序顺位是相同或类似的，则具有显著的相关性。

这里斯皮尔曼等级相关的显著性显然高于皮尔森相关。这是因为虽然两个基因的表达量是非线性关系，但两个基因表达量在所有样本中的排列顺序是完全相同的，因为具有极显著的斯皮尔曼等级相关性。

四，肯德尔和谐系数

当多个(两个以上)变量值以等级次序排列或以等级次序表示，描述这几个变量之间的一致性程度的量，称为肯德尔和谐系数。它常用来表示几个评定者对同一组学生成绩用等级先后评定多次之间的一致性程度。

●N-被评的对象数;.
●K-评分者人数或评分所依据的标准数;
●S-每个被评对象所评等级之和Ri与所有这些和的平均数的离差平方和

●mi为第i个评价者的评定结果中有重复等级的个数。
●nij为第i个评价者的评定结果中第j个重复等级的相同等级数。
●对于评定结果无相同等级的评价者，Ti=0，因此只须对评定结果有相同等级的评价者计算Ti。

实例1:同一评价者无相同等级评定时

某校开展学生小论文比赛，请6位教师对入选的6篇论文评定得奖等级，结果如下表所示，试计算6 位教师评定结果的kandall和谐系数。

实例2:同一评价者有相同等级评定时

3名专家对6篇心理学论文的评分经等级转换如下表所示，试计算专家评定结果的肯德尔和谐系数

肯德尔和谐系数的显著性检验

评分者人数(k)在3-20之间，被评者(N)在3-7之间时，可查《肯德尔和谐系数(W)显著性临界值表》，检验W是否达到显著性水平。若实际计算的S值大于k、N相同的表内临界值，则W达到显著水平。
当K=6 N=6，查表得检验水平分别为a = 0.01，a= 0.05的临界值各为S0.01 = 282.4，S0.05=221.4，均小于实算的S=546，故W达到显著水平，认为6位教师对6篇论文的评定相当一致。

当被评者n>7时，则可用如下的x2统计量对W是否达到显著水平作检验。