Veuillez indiquer la source de la réimpression originale de Yunzhi QMS
Auteur : Wang Hongshi
1. Qu'est-ce qu'un nuage de points
Le nuage de points (Scatter Plot ou Scatter Chart), également appelé nuage de points, comme son nom l'indique, est un graphique composé de quelques points dispersés. La position de ces points est déterminée par leurs valeurs X et Y. Par conséquent, il est également appelé nuage de points XY. Il affiche toutes les données sous forme de points sur le système de coordonnées cartésiennes pour montrer le degré d'interaction entre les variables, et la position du point est déterminée par la valeur de la variable.
Lors de l'analyse de données indépendantes, vous pouvez utiliser l'histogramme et Plato pour trouver directement le point d'amélioration, mais lorsque vous souhaitez analyser la corrélation entre les deux variables X et Y, vous devez utiliser le nuage de points. Tels que la température de trempe et la dureté de l'acier, le couple et la résistance à la traction des vis, la température et la viscosité de l'huile, la teneur en plomb et la résistance aux radiations dans le verre, etc.
Les gens utilisent souvent des diagrammes de dispersion pour exprimer la relation entre deux variables continues X et Y. Chaque point de la figure représente chaque échantillon dans l'ensemble de données cible. La distribution des points de données sur le plan de coordonnées cartésien et la variable dépendante varie avec le général tendance de la variable. À partir de cette tendance, la fonction appropriée peut être sélectionnée pour s'adapter à la distribution empirique. Dans le même temps, certaines lignes droites et courbes sont souvent ajustées dans le diagramme de dispersion pour représenter certains modèles, puis trouver la relation fonctionnelle entre les variables.
2. Le rôle du nuage de points
Un nuage de points affiche une série sous la forme d'un ensemble de points, avec des valeurs représentées par la position des points sur le graphique et des catégories représentées par des marqueurs distincts sur le graphique. Les nuages de points sont souvent utilisés pour comparer des données agrégées entre catégories. Il existe de nombreuses applications. Deux applications courantes sont résumées ci-dessous.
2.1 Analyse de régression
Le diagramme de dispersion est utilisé dans l'analyse de régression. Le diagramme de distribution des points de données sur le plan du système de coordonnées cartésien. Le diagramme de dispersion indique la tendance générale de la variable dépendante changeant avec la variable indépendante. Sur cette base, une fonction appropriée peut être sélectionnés pour s'adapter aux points de données.
Après l'analyse de régression, le nuage de points peut prédire et analyser des objets liés, nous permettant de découvrir la relation cachée entre les variables, puis de prendre des décisions scientifiques au lieu de l'ambiguïté. Par exemple, le diagramme de dispersion des prix des logements ci-dessous peut nous montrer intuitivement la hausse des prix des logements dans différentes villes et fournir un soutien important pour les ajustements ultérieurs de la politique des prix des logements.
2.2 Analyse de corrélation
Le nuage de points est utilisé dans l'analyse de corrélation. Deux ensembles de données sont utilisés pour former plusieurs points de coordonnées, et la distribution des points de coordonnées est examinée pour déterminer s'il existe une certaine relation entre les deux variables ou pour résumer le modèle de distribution des points de coordonnées.
En examinant la distribution des points de données sur un nuage de points, nous pouvons déduire des corrélations entre les variables. S'il n'y a pas de corrélation entre les variables, le nuage de points apparaîtra sous forme de points discrets distribués de manière aléatoire. S'il existe une certaine corrélation, la plupart des points de données seront relativement denses et présents dans une certaine tendance.
La valeur fondamentale du nuage de points réside dans la découverte de la relation entre les variables. Ne comprenez pas simplement cette relation comme une relation de régression linéaire. Il existe de nombreuses relations entre les variables, telles que la relation linéaire, la relation exponentielle, la relation logarithmique, etc. Bien sûr, aucune relation n'est également une relation importante.
La relation de corrélation des données est principalement divisée en : corrélation positive (deux valeurs variables augmentent en même temps), corrélation négative (une valeur variable augmente et l'autre valeur variable diminue), corrélation non corrélée, linéaire, corrélation exponentielle, etc. , qui sont affichés sur le diagramme de dispersion La distribution approximative est indiquée dans la figure ci-dessous. Les points éloignés du groupe de points sont appelés points aberrants ou points anormaux.
Du point de vue du PDCA, l'application du nuage de points se résume comme suit :
3. Déformation du nuage de points
Basé sur différents scénarios d'application, le nuage de points présente de nombreuses déformations, et plusieurs déformations courantes sont répertoriées ci-dessous.
- Matrice de nuages de points
Lorsque vous souhaitez examiner la corrélation entre plusieurs variables en même temps, il est très difficile de dessiner un simple diagramme de dispersion entre elles une par une. À ce stade, la matrice de nuages de points peut être utilisée pour dessiner les nuages de points entre les variables respectives en même temps, de sorte que la corrélation principale entre plusieurs variables puisse être rapidement trouvée, ce qui est particulièrement important lors de l'exécution d'une régression linéaire multiple. La matrice de nuages de points ci-dessous montre la relation entre les totaux de points de l'équipe, les victoires, le taux de réussite des passes et les tirs au but.
- Nuage de points 3D
Bien que la relation entre plusieurs variables puisse être observée en même temps dans la matrice du nuage de points, certaines informations importantes peuvent être manquées si l'observation deux par deux du nuage de points plan est effectuée. Le nuage de points tridimensionnel consiste à étudier la relation entre les variables dans l'espace tridimensionnel déterminé par les trois variables. Étant donné que les trois variables sont considérées en même temps, les informations qui ne peuvent pas être trouvées dans le graphique bidimensionnel peuvent souvent être trouvé. Le nuage de points en trois dimensions ci-dessous montre la relation entre le total des points, les victoires et les tirs cadrés de l'équipe.
- graphique à bulles
Un graphique à bulles peut être utilisé pour montrer la relation entre trois variables. Les données disposées en colonnes sur une feuille de calcul (valeurs x répertoriées dans la première colonne, valeurs y correspondantes et valeurs de taille de bulle dans les colonnes adjacentes) peuvent être tracées dans un graphique à bulles.
Les graphiques à bulles sont similaires aux graphiques en nuage de points, sauf qu'ils permettent d'inclure une variable de taille supplémentaire dans le graphique. En effet, c'est comme tracer un graphique de trois variables en deux dimensions. Les bulles sont représentées par des marqueurs de tailles variables (indiquant une importance relative).
4. Application du nuage de points
L'application de nuages de points présente de nombreux avantages, et les points couramment utilisés sont résumés comme suit :
- La relation entre la cause et le résultat peut être trouvée : collectez les données de la cause et les données du résultat, et comparez-les.
- Dessinez un diagramme de dispersion pour voir les résultats en un coup d'œil : dans le diagramme de dispersion, les points de données de la cause et de l'effet sont représentés par les coordonnées X et Y.
- On peut juger s'il existe ou non une relation : la relation entre les deux ensembles de données peut être clairement comprise à partir du nuage de points.
Remarque : Si les données collectées ne peuvent pas être jugées sur le graphique, elles doivent d'abord être séparées de la couche, puis cliquées pour dessiner un graphique en nuage de points.
Les données répertoriées dans le tableau suivant sont le tableau d'enregistrement de la température de trempe X et de la dureté Y d'une certaine pièce d'acier collectée. Existe-t-il une corrélation entre les deux variables température de trempe X et dureté Y ?
Si vous ne regardez que les données du tableau ci-dessus, pouvez-vous voir quelles sont les caractéristiques des données ci-dessus ? Certainement pas, mais nous le traçons sous forme de nuage de points, et les données ont clairement une certaine tendance.
Ce sera plus évident si nous y ajoutons une ligne de tendance.