连续空间和离散空间的距离基础

一、闵可夫斯基(Minkowski)距离(明氏距离):适用于多维连续空间中两个点位置的判断。每个空间内的数值必须是连续的。这一类距离包括:Euclidean欧几里得距离(欧氏距离),曼哈顿(Manhattan)距离,切比雪夫距离

连续n维空间中的2点:, 之间的明氏距离为

时即为曼哈顿距离,当时为欧氏距离,当时即为切比雪夫距离

明氏的缺点:

①各个分量的单位必须是等价的,量纲不相等,就无法适用;

②没有考虑各个分量的分布(期望,方差等)可能是不同的,理解为权重;

③各个维度必须是互相独立的,也就是“正交”的。

二、基于明氏距离的缺点,就诞生了马氏(Mahalanobis)距离,用样本总体协方差解决了所有问题,首先求样本的整体均值,再求样本的协方差矩阵Σ,然后的马氏距离就是,如果协方差是单位或者对角矩阵证明数据之间是正交的,马氏距离就是欧氏距离。

马氏距离的优点:

它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

②马氏距离还可以排除变量之间的相关性的干扰。

扫描二维码关注公众号,回复: 14689951 查看本文章

马氏距离的优点:

夸大了变化微小的变量的作用。

②马氏距离并不总是能顺利计算出(满秩方矩阵才可逆,不一定满秩),其次计算过程中,要求总体样本数大于样本的维数(秩<=min(p,n)),否则得不到总体样本协方差矩阵的逆矩阵。协方差矩阵存在不稳定性,虽然得不到的概率很小。

③如果样本的维数非常大,那么计算它的协方差矩阵是十分耗时。

三、以上都是连续空间上的距离,在离散空间的距离介绍下杰卡德(Jaccard)距离

Jaccard相似指数计算方式为:,用2个集合的交集个数/2个集合的并集个数计算得出,用来度量两个集合之间的相似性,。

Jaccard距离计算方式:,用来度量两个集合之间的差异性。

其应用主要在二元变量的距离(Binary Variables Distance)

二元变量又分为对称二元变量和不对称二元变量。对称二元变量是指两个状态有相同的权重,比如性别,男性和女性就是对称二元变量。不对称二元变量时指两个状态的输出不是同样重要的,比如艾滋病阴性和阳性,阳性出现的几率更小。在非对称二元变量情况下,常用1表示稀有的状态,负匹配的数目被认为是不重要的,因此被忽略。

对称二元变量下的相异性:,Jaccard距离为:

不对称二元变量下的相异性:,Jaccard距离为:

猜你喜欢

转载自blog.csdn.net/lizhyangmm/article/details/127224084