为什么马氏距离是与尺度无关的

原文链接： https://www.cnblogs.com/likai198981/p/3167928.html

为什么马氏距离是与尺度无关的？

根据上面1所描述，当计算两点的相似度（也可以说是距离的时候），第一步是首先标准化，化成与尺度无关的量，再计算它的距离。但是如果是单纯使每个变量先标准化，然后再计算距离，可能会出现某种错误，原因是可能在有些多维空间中，某个两个维之间可能是线性相关的，如下图所示(引用自：http://xgli0910.blog.163.com/blog/static/46962168201021932741868/）：

马氏距离的一些想法 - scau200630760309 - jianghaijin的博客

黄色部分为样品点，可以知道x1与x2是线性相关的，根据正态分布，对于中心点u，与A与B的标准距离应该是相同的，而马氏距离能做到这一点，但欧氏距离做不到，如下图所示：

马氏距离的一些想法 - scau200630760309 - jianghaijin的博客

由上图看到，如果使用欧氏距离，A点与B点距离中心点相同，但是又可以看出，A点处于样品集的边缘了，再外出一点就成异常点了。因此我们使用欧氏距离计算的时候，不能有效地区分出异常数据，看不出两变量之间的相似性与差异性，而上图中，A与B对于全体样品来说，差异性是够大的了。

为了解决这个问题，我们可以通过旋转坐标轴的方法，如下图所示：

马氏距离的一些想法 - scau200630760309 - jianghaijin的博客

可以看到y1与y2是线性无关的，因此我们可以通过对线性无关的分量进行标准化后，再求得距离是合理的。其实通过旋转坐标轴的方式，相当于对x进行相应的线性变换：Y = PX,使Y里面的各分变量变成线性无关的。设马氏距离的一些想法 - scau200630760309 - jianghaijin的博客是随机向量=[x1,x2,...xp]的协方差矩阵，它有特征值-特征向量对(λ1,e1)， (λ2,e2)，.....(λp,ep)，其中λ1>=λ2>=....>=λp，则第i主成分由