Aperçu des métriques de distance

De nombreux algorithmes, qu'ils soient supervisés ou non, utilisent des mesures de distance. Ces métriques, comme la distance euclidienne ou la similarité cosinus, peuvent souvent être trouvées dans des algorithmes comme k-NN, UMAP, HDBSCAN, etc.

Comprendre les domaines de mesure de distance est plus important que vous ne le pensez. Prenez k-NN comme exemple, une technique souvent utilisée dans l'apprentissage supervisé. Par défaut, il utilise généralement la distance euclidienne. C'est une grande distance en soi.

Mais que se passe-t-il si vos données sont de grande dimension ? La distance euclidienne est-elle toujours valide ? Ou si vos données contiennent des informations géospatiales ? Peut-être que la distance haversine est un meilleur choix !

Savoir quand utiliser quelle métrique de distance peut vous aider à passer d'un modèle mal classé à un modèle précis.

Dans cet article, nous examinerons un certain nombre de mesures de distance et explorerons comment et quand les utiliser au mieux. Plus important encore, je parlerai de leurs inconvénients afin que vous sachiez quand éviter certaines mesures.

Remarque : Pour la plupart des mesures de distance, des articles exhaustifs peuvent et ont été écrits sur leurs cas d'utilisation, leurs avantages et leurs inconvénients. Je vais essayer de couvrir autant que je peux, mais je pourrais manquer quelque chose! Considérez donc cet article comme un aperçu de ces méthodes.

Distance euclidienne

Nous commençons par la métrique de distance la plus courante, la distance euclidienne. La mesure de distance est mieux interprétée comme la longueur du segment de ligne reliant deux points.

La formule est très simple car la distance est calculée à partir des coordonnées cartésiennes de ces points à l'aide du théorème de Pythagore.

défaut

Bien qu'il s'agisse d'une mesure de distance couramment utilisée, la distance euclidienne n'est pas invariante à l'échelle, ce qui signifie que la distance calculée peut être faussée en fonction des unités des entités. Généralement, les données doivent être normalisées avant d'utiliser cette métrique de distance.

De plus, la distance euclidienne devient moins utile à mesure que la dimensionnalité des données augmente. Cela a à voir avec la malédiction de la dimensionnalité, qui est le fait que les espaces de grande dimension ne se comportent pas comme prévu en 2D ou 3D.

Exemple

La distance euclidienne fonctionne très bien lorsque vous avez des données de faible dimension et que la magnitude des vecteurs est importante. Des méthodes telles que k-NN et HDBSCAN donnent d'excellents résultats si vous utilisez la distance euclidienne sur des données de faible dimension.

Bien que de nombreuses autres mesures aient été développées pour combler les lacunes de la distance euclidienne, elle reste l'une des distances les plus couramment utilisées pour de bonnes raisons. Il est très intuitif à utiliser, facile à mettre en œuvre et a montré d'excellents résultats dans de nombreux cas d'utilisation.

Similitude cosinus Similitude cosinus

La similarité cosinus est souvent utilisée comme méthode pour résoudre des problèmes de distance euclidienne de grande dimension. La similarité cosinus est le cosinus de l'angle entre deux vecteurs. Si les vecteurs sont normalisés pour être tous de longueur 1, le produit interne des vecteurs est également le même.

Deux vecteurs ayant exactement la même direction ont une similitude cosinus de 1, tandis que deux vecteurs opposés ont une similitude de -1. Notez que leur taille n'a pas d'importance car il s'agit d'une mesure d'orientation.

défaut

Un inconvénient majeur de la similarité cosinus est qu'elle ne prend pas en compte la magnitude des vecteurs, seulement leur orientation. En pratique, cela signifie que les différences de valeur ne sont pas correctement prises en compte. En prenant un système de recommandation comme exemple, la similarité cosinus ne tient pas compte des différences d'échelles de notation entre les différents utilisateurs.

Exemple

La similarité cosinus est souvent utilisée lorsque nous ne nous préoccupons pas de la taille des vecteurs de données de grande dimension dont nous disposons. Pour l'analyse de texte, cette mesure est très couramment utilisée lorsque les données sont représentées par le nombre de mots. Par exemple, lorsqu'un mot apparaît plus fréquemment dans un document qu'un autre, cela ne signifie pas nécessairement qu'un document est plus pertinent pour ce mot. Il se peut que les fichiers soient de longueur inégale et que le nombre soit moins important. Ensuite, nous ferions mieux d'utiliser la similarité cosinus en ignorant la magnitude.

Distance de Hamming

La distance de Hamming est le nombre de valeurs distinctes entre deux vecteurs. Il est généralement utilisé pour comparer deux chaînes binaires de même longueur. Il peut également être utilisé sur des chaînes pour comparer la similarité entre elles en comptant le nombre de caractères différents.

défaut

Comme on pouvait s'y attendre, il est difficile d'utiliser la distance de Hamming lorsque les longueurs des deux vecteurs ne sont pas égales. Afin de voir où il y a un décalage, vous pouvez comparer des vecteurs de même longueur.

De plus, les valeurs réelles ne sont pas prises en compte tant qu'elles sont différentes ou égales. Par conséquent, il n'est pas recommandé d'utiliser cette métrique de distance lorsque la magnitude est une métrique importante.

Exemple

Les cas d'utilisation typiques incluent la correction/détection d'erreurs lorsque les données sont transmises sur des réseaux informatiques. Il peut être utilisé pour déterminer le nombre de distorsions dans un mot binaire afin d'estimer l'erreur.

De plus, vous pouvez utiliser la distance de Hamming pour mesurer la distance entre les variables catégorielles.

Manhattan Distance

La distance de Manhattan, souvent appelée distance de taxi ou distance de pâté de maisons, calcule la distance entre les vecteurs à valeurs réelles. Imaginez des vecteurs décrivant des objets sur une grille uniforme (comme un échiquier). La distance de Manhattan est la distance entre deux vecteurs s'ils ne peuvent se déplacer qu'à angle droit. Le mouvement diagonal n'est pas impliqué dans le calcul de la distance. 

défaut

Bien que la distance de Manhattan semble fonctionner dans des données de grande dimension, elle est moins intuitive que la distance euclidienne, en particulier lorsqu'elle est utilisée dans des données de grande dimension.

De plus, comme ce n'est pas le chemin le plus court possible, il est plus susceptible de donner une valeur de distance plus élevée que la distance euclidienne. Bien que cela ne pose pas nécessairement de problème, c'est quelque chose que vous devriez considérer.

Exemple

Manhattan semble bien fonctionner lorsque le jeu de données a des attributs discrets et/ou binaires car il prend en compte les chemins qui peuvent réellement être empruntés parmi les valeurs de ces attributs. Prenez la distance euclidienne comme exemple, cela fera une ligne droite entre deux vecteurs, mais en pratique c'est impossible.

Distance de Tchebychev

La distance de Chebyshev est définie comme la différence maximale entre deux vecteurs dans n'importe quelle dimension de coordonnées. En d'autres termes, c'est la distance maximale le long d'un axe. En raison de sa nature, on l'appelle souvent la distance du plateau, car le nombre minimum de coups d'un roi aux échecs pour passer d'une case à une autre est égal à la distance de Chebyshev. 

défaut

Chebyshev est souvent utilisé pour des cas d'utilisation très spécifiques, ce qui le rend difficile à utiliser comme mesure de distance générale comme la distance euclidienne ou la similarité cosinus, il est donc recommandé de ne l'utiliser que si vous êtes absolument sûr qu'il convient à votre cas d'utilisation. .

Exemple

Comme mentionné précédemment, la distance Chebyshev peut être utilisée pour extraire le nombre minimum de mouvements requis pour se déplacer d'une case à une autre. En outre, cela peut être une approche utile dans les jeux qui permettent un mouvement illimité dans huit directions.

En pratique, la distance Chebyshev est souvent utilisée dans la logistique d'entrepôt car elle est très similaire au temps nécessaire à une grue pour déplacer un objet.

Distance de Minkowski (Distance min) Minkowski

 

La distance de Minkowski est plus compliquée que la plupart des distances. C'est une métrique utilisée dans les espaces vectoriels normés (espaces de nombres réels à n dimensions), ce qui signifie qu'elle peut être utilisée dans n'importe quel espace où la distance peut être exprimée comme un vecteur avec une longueur.

Cette mesure comporte trois exigences :

  1. Vecteur zéro : un vecteur zéro a une longueur nulle et tous les autres vecteurs ont une longueur positive. Par exemple, si nous voyageons d'un endroit à un autre, la distance est toujours positive. Cependant, si nous voyageons d'un endroit au nôtre, cette distance est nulle.

  2. Facteur scalaire : lorsqu'un vecteur est multiplié par un nombre positif, sa longueur change tout en conservant sa direction. Par exemple, si nous parcourons une certaine distance dans une direction et ajoutons la même distance, la direction ne changera pas.

  3. Inégalité triangulaire - La distance la plus courte entre deux points est une ligne droite.

La formule de la distance de Minkowski est la suivante :

La chose la plus intéressante à propos de cette métrique de distance est l'utilisation du paramètre p. Nous pouvons utiliser ce paramètre pour manipuler la métrique de distance afin qu'elle soit très similaire aux autres métriques.

Les valeurs p courantes sont :

p=1 - Distance Manhattan

p=2 - Distance euclidienne

p=∞ - Distance de Tchebychev

défaut

Minkowski a les mêmes inconvénients que les métriques de distance qu'ils représentent, il est donc important d'avoir une bonne compréhension des métriques telles que les distances de Manhattan, Euclidienne et Chebyshev.

De plus, travailler avec le paramètre p peut en fait être fastidieux, car selon votre cas d'utilisation, trouver la valeur correcte peut être très inefficace en termes de calcul.

Exemple

La bonne chose à propos de p est que vous pouvez le parcourir et trouver la métrique de distance qui convient le mieux à votre cas d'utilisation. Il vous permet une grande flexibilité dans les métriques de distance, ce qui est un énorme avantage si vous êtes très familier avec p et de nombreuses métriques de distance.

Indice Jaccard

L'indice Jaccard (Intersection over Union IOU) est une mesure utilisée pour calculer la similarité et la diversité d'un ensemble d'échantillons. C'est la taille de l'intersection divisée par la taille de l'union des ensembles d'échantillons.

En fait, il s'agit du nombre total d'entités similaires dans les ensembles divisé par le nombre total d'entités. Par exemple, si deux collections ont 1 entité en commun et un total de 5 entités distinctes, alors l'indice Jaccard sera 1/5 = 0,2.

Pour calculer la distance de Jaccard, il suffit de soustraire l'exposant de Jaccard de 1 :

défaut

Le principal inconvénient de l'index Jaccard est qu'il est fortement influencé par la taille des données. Les grands ensembles de données peuvent avoir un impact important sur l'exposant, car les grands ensembles de données peuvent augmenter considérablement l'union tout en maintenant l'intersection constante.

Exemple

Les index Jaccard sont généralement utilisés dans les applications qui fonctionnent avec des données binaires ou binaires. Lorsque vous disposez d'un modèle d'apprentissage en profondeur qui prédit un segment d'image (par exemple, une voiture), vous pouvez utiliser l'indice Jaccard pour calculer la précision du segment prédit en fonction de la véritable étiquette.

De même, il peut également être utilisé dans l'analyse de similarité de texte pour mesurer le degré de chevauchement de mots entre les documents. Par conséquent, il peut être utilisé pour comparer des ensembles de schémas.

Distance Haversine (haversine)

La distance Haversine fait référence à la longitude et à la latitude entre deux points sur la sphère. Elle est très similaire à la distance euclidienne en ce sens qu'elle calcule la ligne la plus courte entre deux points. La principale différence est qu'aucune ligne droite n'est possible, car l'hypothèse ici est que les deux points se trouvent sur une sphère. 

défaut

Un inconvénient de cette mesure de distance est qu'elle suppose que les points se trouvent sur une sphère. En pratique, c'est rarement le cas, par exemple, la Terre n'est pas parfaitement ronde, ce qui peut rendre les calculs difficiles dans certains cas. Au lieu de cela, regardez la distance de Vincenty, qui suppose une ellipse.

Exemple

Comme vous vous en doutez, la distance Haversine est souvent utilisée pour la navigation. Par exemple, vous pouvez l'utiliser pour calculer la distance de vol entre deux pays. Notez que ce n'est pas un bon ajustement si la distance elle-même n'est pas si grande. La courbure n'a pas beaucoup d'effet.

Indice de Sørensen-Dice

 

L'indice de Sørensen-Dice est très similaire à l'indice de Jaccard, qui mesure la similarité et la diversité de l'ensemble d'échantillons. Bien qu'ils soient calculés de manière similaire, l'indice de Sørensen-Dice est un peu plus intuitif, car il peut être considéré comme le pourcentage de chevauchement entre deux ensembles, qui est une valeur comprise entre 0 et 1. whaosoft  aiot  http://143ai.com 

Cet exposant est important dans les métriques de distance car il permet une meilleure utilisation des métriques sans v.

L'indice DICE est une mesure utilisée pour calculer la similarité et la diversité d'un ensemble d'échantillons. C'est la taille de l'intersection divisée par la taille de l'union des ensembles d'échantillons.

En fait, il s'agit du nombre total d'entités similaires dans les ensembles divisé par le nombre total d'entités. Par exemple, si deux ensembles ont une entité en commun, et un total de 5 entités distinctes, alors l'indice DICE sera 1/5 = 0,2.

défaut

Comme l'indice de Jaccard, ils exagèrent tous les deux des ensembles avec peu ou pas de valeur de vérité. Il contrôle le score moyen multigroupe et pondère chaque élément de manière inversement proportionnelle à la taille de l'ensemble associé, plutôt que de les traiter de manière égale.

Exemple

Le cas d'utilisation est similaire à l'index Jaccard. Vous le trouverez couramment utilisé dans les tâches de segmentation d'images ou l'analyse de similarité de texte.

REMARQUE : Il existe beaucoup plus de mesures de distance que les 9 mentionnées ici. Si vous recherchez des mesures plus intéressantes, je vous recommande d'examiner l'une des suivantes : Mahalanobis, Canberra, Braycurtis et KL-divergence.

 

Je suppose que tu aimes

Origine blog.csdn.net/qq_29788741/article/details/132200006
conseillé
Classement