Rapport final sur l'analyse des clusters de langage R et l'analyse des composantes principales

1. Résumé des points de connaissances appris ce semestre

Dans le cours d'analyse statistique multivariée ce semestre, j'ai appris deux méthodes importantes d'analyse de données : l'analyse groupée et l'analyse en composantes principales (ou analyse factorielle). Grâce à ces études, j’ai une compréhension plus approfondie des aspects suivants.

  1. Analyse groupée : l'analyse groupée est une méthode d'apprentissage non supervisée utilisée pour diviser les individus d'un ensemble de données en différents groupes ou grappes, de sorte que les individus au sein d'un même groupe présentent des similitudes et que les individus entre différents groupes présentent des similitudes et des différences. J'ai appris les principes de base des algorithmes de clustering, notamment les mesures de distance, les algorithmes de clustering (tels que les K-means, le clustering hiérarchique, etc.) et les indicateurs permettant d'évaluer les résultats du clustering (tels que le coefficient de silhouette, l'indice de Davies-Bouldin, etc.) . Grâce à des opérations pratiques et à des analyses de cas, j'ai mieux compris les scénarios d'application de l'analyse de cluster, tels que la segmentation du marché, l'analyse des réseaux sociaux, etc.

  2. Analyse en composantes principales (ou analyse factorielle) : L'analyse en composantes principales est une technique de réduction de dimensionnalité utilisée pour extraire les caractéristiques les plus pertinentes des données de grande dimension afin de mieux comprendre et interpréter les données. J'ai appris les principes et les étapes de base de l'analyse en composantes principales, y compris la décomposition des valeurs propres, la sélection et l'interprétation des composantes principales, les scores des composantes principales, etc. Parallèlement, j'ai également découvert l'analyse factorielle en tant qu'extension de l'analyse en composantes principales pour explorer les structures factorielles latentes sous-jacentes. Grâce à l'analyse de cas réels et d'ensembles de données, j'ai mieux compris l'application de l'analyse en composantes principales et de l'analyse factorielle dans la réduction de la dimensionnalité des données et l'interprétation des variables.

Au cours du processus d'apprentissage, j'ai découvert qu'il existe des concepts faciles à confondre entre l'analyse typologique et l'analyse en composantes principales (ou analyse factorielle), tels que la similarité et la différence des données, les valeurs propres et les vecteurs propres, les composantes et facteurs principaux, etc. Afin de comprendre les différences et les liens entre ces concepts, j'ai lu des manuels et des articles pertinents, fait référence à des exemples et des analyses de cas, et discuté et communiqué avec mes camarades de classe. Grâce à ces efforts, je suis progressivement devenu clair sur le sens et l’application de ces concepts.

2. Recherche de problèmes

Fond de recherche

Dans le secteur des télécommunications, le taux de désabonnement des clients, également appelé taux de désabonnement, constitue un défi important. Le taux de désabonnement fait référence aux clients qui ont quitté ou ont cessé d'utiliser les services d'une entreprise. La perte de clients est un problème important pour les entreprises de télécommunications, car il coûte plus cher de perdre des clients existants que d'en attirer de nouveaux. Par conséquent, comprendre les causes du désabonnement des clients et prévoir les modèles de désabonnement des clients est d’une grande importance pour les entreprises de télécommunications.

Objectifs de recherche

Le but de cette étude est d'analyser l'ensemble des données de désabonnement des clients des télécommunications en appliquant des techniques telles que l'analyse de cluster, l'analyse des composantes principales ou l'analyse factorielle pour révéler les similitudes entre les groupes de clients, les principaux facteurs d'influence et les modèles possibles. Les objectifs spécifiques comprennent :

  • Identifiez différents groupes de clients : grâce à l'analyse des clusters, les clients sont divisés en différents groupes pour découvrir des segments de clientèle potentiels. Cela aide les opérateurs de télécommunications à comprendre les différences de comportement et de besoins des différents groupes.

-Déterminer les principaux facteurs d'influence : Identifier les variables qui ont le plus d'influence sur le taux de désabonnement des clients grâce à l'analyse en composantes principales ou à l'analyse factorielle. Cela permet d'identifier les facteurs clés et de développer des stratégies en conséquence pour réduire le taux de désabonnement des clients.

  • Fournir une aide à la décision : fournissez aux entreprises de télécommunications des informations et une aide à la décision concernant le taux de désabonnement des clients en analysant les ensembles de données sur le taux de désabonnement des clients. Cela peut les aider à développer des stratégies marketing personnalisées et des plans de fidélisation de la clientèle pour différents segments de clientèle.

Importance

Cette recherche revêt une grande importance pour le secteur des télécommunications, car elle aide les entreprises à mieux comprendre le comportement, les besoins et les préférences des clients. Grâce à l'analyse cluster, les entreprises peuvent fournir des produits et services personnalisés basés sur les caractéristiques de différents groupes de clients, augmentant ainsi la satisfaction et la fidélité des clients. L'analyse en composantes principales, ou analyse factorielle, peut aider les entreprises à déterminer quels facteurs sont les plus importants afin de pouvoir cibler plus spécifiquement les mesures de fidélisation de la clientèle. De plus, en prévoyant avec précision le taux de désabonnement des clients, les entreprises peuvent prendre des mesures en temps opportun et prendre des mesures pour fidéliser les clients existants et réduire les risques commerciaux.

3. Ensemble de données

Le Telco Churn Dataset est un ensemble de données du secteur des télécommunications utilisé pour étudier les problèmes de désabonnement des clients. Cet ensemble de données contient des informations client sur la société de télécommunications Telco et est conçu pour aider les chercheurs et les analystes à comprendre les modèles et les facteurs d'influence du taux de désabonnement des clients.

L'ensemble de données contient 7 043 observations (lignes) et 21 variables (colonnes), fournissant plusieurs aspects d'informations sur chaque client, notamment des informations personnelles, des abonnements aux services, des informations sur le compte et l'état des paiements.

Vous trouverez ci-dessous un tableau des variables et des descriptions pour l'ensemble de données de désabonnement Telco :

Nom de variable décrire
N ° de client Identifiant unique du client
genre Sexe du client
Citoyen senior Indique s'il s'agit d'un client âgé, 1 signifie oui, 0 signifie non
Partenaire Le client a-t-il un partenaire ?
Personnes à charge Le client a-t-il des membres de sa famille ?
mandat La durée du contrat entre le client et l'entreprise (en mois)
Service téléphonique Si le client s'abonne au service téléphonique
PlusieursLignes Si le client s'abonne à des services multilignes
Service Internet Le type de service Internet auquel le client est abonné
Sécurité en ligne Si le client s'abonne à des services de sécurité en ligne
Sauvegarde en ligne Si le client s'abonne aux services de sauvegarde en ligne
Protection des appareils Si le client s'abonne aux services de protection des appareils
Support technique Si le client s'abonne aux services d'assistance technique
StreamingTV Si le client s'abonne à un service de streaming TV
Films en streaming Si le client s'abonne au service de films en streaming
Contracter Type de contrat du client
Facturation sans papier Si le client choisit la facturation sans papier
Mode de paiement Mode de paiement du client
Frais mensuels Coût mensuel client
Charges totales Valeur totale d'accumulation des coûts du client
Baratte Si le client a été perdu, « Oui » signifie que le client a été perdu, « Non » signifie que le client n'a pas été perdu.

Cet ensemble de données fournit des informations détaillées pour étudier le problème de désabonnement des clients et peut être utilisé pour effectuer diverses tâches d'analyse et de modélisation, telles que l'analyse de cluster, l'analyse des composantes principales, l'analyse factorielle et la construction de modèles de prévision du désabonnement des clients. L'analyse de cet ensemble de données peut aider les entreprises de télécommunications à identifier les segments de clientèle potentiels, à comprendre les besoins et les comportements des clients et à développer des stratégies correspondantes pour réduire le taux de désabonnement des clients, améliorer la satisfaction des clients et développer durablement l'activité.

4. Analyse en composantes principales

L'idée de l'analyse en composantes principales est de mapper les données originales de grande dimension sur un nouvel espace de basse dimension par transformation linéaire, afin de maximiser la variance des données dans le nouvel espace. Plus précisément, l'analyse en composantes principales trouve un nouvel ensemble de variables (appelées composantes principales) qui sont des combinaisons linéaires des variables d'origine et sont indépendantes les unes des autres en calculant la matrice de covariance ou la matrice de corrélation de l'ensemble de données. Ces composantes principales sont classées en fonction de la taille de la variance. Par conséquent, les premières composantes principales peuvent expliquer la majeure partie de la variance des données, tandis que la variance contenue dans les composantes principales suivantes diminue progressivement.

Les étapes de l’analyse en composantes principales sont les suivantes :

  • Données standardisées : si chaque variable des données originales a des échelles différentes, les données doivent être standardisées afin que chaque variable ait la même échelle.
  • Calculer la matrice de covariance : sur la base des données standardisées, calculez la matrice de covariance ou la matrice de corrélation entre les variables.
  • Calculer les valeurs propres et les vecteurs propres : effectuez une décomposition en valeurs propres ou une décomposition en valeurs singulières sur la matrice de covariance pour obtenir les valeurs propres et les vecteurs propres correspondants.
  • Sélectionnez les composantes principales : en fonction de la taille des valeurs propres, sélectionnez les vecteurs propres correspondant aux k valeurs propres les plus grandes comme composantes principales.
  • Transformation des données : projetez les données originales sur les composants principaux sélectionnés pour obtenir une nouvelle représentation des données de faible dimension.
library(tidyverse)
theme_set(theme(plot.title = element_text(hjust = 0.5)))
data <- read.csv("WA_Fn-UseC_-Telco-Customer-Churn.csv",stringsAsFactors = TRUE)
data <- data %>% select(-customerID) %>% drop_na() 
# 将因子变量转换为数字变量
df <- data %>% mutate_if(is.factor, as.numeric)
# 计算相关系数矩阵
cor_matrix <- cor(df)
# 绘制相关系数图
library(corrplot)
corrplot(cor_matrix, method = "circle",  tl.cex = 0.7)

Sur la base du coefficient de corrélation entre chaque variable de la matrice des coefficients de corrélation et le « Churn » (désabonnement des clients), les conclusions suivantes peuvent être tirées :

  • Le coefficient de corrélation entre le sexe et le taux de désabonnement des clients est proche de zéro, ce qui indique que le sexe a un faible impact sur le taux de désabonnement des clients, c'est-à-dire qu'il n'y a pas de relation linéaire évidente entre le sexe et le taux de désabonnement des clients.

  • Le coefficient de corrélation entre SeniorCitizen et le taux de désabonnement des clients est positif, ce qui indique que les clients plus âgés sont plus susceptibles de se désinscrire.

  • Les coefficients de corrélation entre les partenaires et les personnes à charge et le taux de désabonnement des clients sont tous deux négatifs, ce qui indique que les clients sans partenaires ni personnes à charge sont plus susceptibles de se désintéresser.

  • Parmi les différents services, ceux qui présentent une corrélation plus élevée avec le taux de désabonnement des clients sont OnlineSecurity, OnlineBackup, DeviceProtection et TechSupport. Les valeurs négatives du coefficient de corrélation indiquent que les clients sans ces services sont plus susceptibles de se désinscrire.

  • Le coefficient de corrélation entre le type de contrat (Contrat) et le taux de désabonnement des clients est négatif, ce qui indique que les clients qui choisissent des contrats de paiement mensuel (Mois en mois) sont plus susceptibles de se désister. En revanche, les clients qui choisissent des contrats à long terme (Un an, Deux ans) les clients sont plus stables.

  • Le coefficient de corrélation entre le choix de la facturation électronique (facturation sans papier) et le taux de désabonnement des clients est positif, ce qui indique que les clients qui choisissent la facturation électronique sont plus susceptibles de se désinscrire.

  • Le coefficient de corrélation entre le mode de paiement (PaymentMethod), les frais mensuels (MonthlyCharges) et le total des frais (TotalCharges) et le taux de désabonnement des clients est d'environ 0,1, ce qui indique qu'ils ont un faible impact sur le taux de désabonnement des clients.

library(psych)

# 执行主成分分析
pca_result <- principal(df)

# 提取主成分分析结果的特征值
eigenvalues <- pca_result$values

# 计算方差解释比例
variance_explained <- eigenvalues / sum(eigenvalues)

# 绘制碎石图
plot(1:length(variance_explained), variance_explained, type = "b", pch = 19, xlab = "主成分个数", ylab = "方差解释比例", main = "主成分分析的碎石图")

Insérer la description de l'image ici

Sur la base du point d'inflexion du tracé d'éboulis et de la proportion de la variance globale expliquée par les composantes principales (environ 80 %), le nombre de composantes principales a été choisi comme étant 3.

# 执行主成分分析并设置3个主成分
pca_result <- principal(df, nfactors = 3)
pca_result$loadings

Après avoir effectué une analyse en composantes principales, nous pouvons extraire les résultats des composantes principales et les interpréter. Voici les résultats extraits des principales composantes et leur interprétation :

  • Les chargements de la composante principale 1 (RC1) sont de 3,958, la proportion de variance expliquée est de 0,198 et la proportion de variance accumulée est de 0,198.
  • Les chargements de la composante principale 2 (RC2) sont de 2,828, la proportion de variance expliquée est de 0,141 et la proportion de variance cumulée est de 0,339.
  • Les chargements de la composante principale 3 (RC3) sont de 1,569, la proportion de variance expliquée est de 0,078 et la proportion de variance accumulée est de 0,418.

Ces données nous indiquent dans quelle mesure la variance est expliquée par chaque composante principale et quelle proportion de la variance cumulée représente. Dans cet exemple, la composante principale 1 (RC1) explique environ 19,8 % de la variance, la composante principale 2 (RC2) explique environ 14,1 % de la variance et la composante principale 3 (RC3) explique environ 7,8 % de la variance. La proportion de variance cumulée représente la somme des proportions de variance expliquées par les n premières composantes principales. Pour 3 composantes principales, la proportion de variance cumulée est de 41,8 %.

# 获取主成分权重
weights <- pca_result$weights


# 计算每个样本的主成分得分
scores <- as.matrix(df) %*% weights

# 计算每个样本的总主成分得分
total_scores <- rowSums(scores)

# 将总的主成分得分添加到数据框中
data$score <- total_scores

5. Analyse groupée

Tout d’abord, sélectionnez les variables qui doivent être regroupées et prétraitez les données. Ensuite, nous utilisons l'algorithme de clustering K-means pour regrouper les données standardisées et choisissons le nombre de clusters comme étant 3.

df1 <- data %>% filter(Churn == "Yes")  %>%  select(-Churn,-score)
df2 <- df1 %>% mutate_if(is.factor, as.numeric)  


scaled_data <- scale(df2)

# 执行聚类分析
k <- 3  # 设置聚类数目
set.seed(123)
kmeans_result <- kmeans(scaled_data, centers = k)

# 提取聚类结果
cluster_labels <- kmeans_result$cluster

# 将聚类结果添加到原始数据集
clustered_data <- bind_cols(df1, cluster = cluster_labels)
cluster1_data <- clustered_data %>% filter(cluster == 1)
summary(cluster1_data)

Insérer la description de l'image ici

Les résultats de l’analyse de la catégorie de cluster 1 sont les suivants :

  • sexe : il y a 113 clients féminins et 142 clients masculins dans la catégorie 1 du cluster.
  • SeniorCitizen : dans la catégorie 1 du cluster, environ 21,6 % des clients sont des personnes âgées.
  • Partenaire : Il y a 82 clients dans la catégorie 1 du cluster qui n'ont pas de conjoint et 173 clients qui ont un conjoint.
  • Personnes à charge : Dans la catégorie 1 du cluster, il y a 178 clients sans personnes à charge et 77 clients avec personnes à charge.
  • Mandat : ​​La durée moyenne de renouvellement des clients de la catégorie 1 du cluster est d'environ 53,6 mois, avec une valeur minimale de 14 mois et une valeur maximale de 72 mois.

Voici les statistiques pour les autres variables de la catégorie de cluster 1 :

  • PhoneService : 12 clients n’ont pas de service téléphonique et 243 clients ont un service téléphonique.
  • MultipleLines : 58 clients ne disposent pas de services multilignes et 185 clients disposent de plusieurs lignes.
  • Service Internet : 53 clients sont en DSL, 195 clients sont en fibre et 7 clients n'ont pas de service Internet.
  • Répartition et description d'autres variables (OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies, Contract, PaperlessBilling, PaymentMethod, MonthlyCharges, TotalCharges).
cluster2_data <- clustered_data %>% filter(cluster == 2)
summary(cluster2_data)

Insérer la description de l'image ici

Insérer la description de l'image ici

Sur la base des informations que vous avez fournies, les résultats de l'analyse de la catégorie de cluster 2 sont les suivants :

  • sexe : il y a 454 clients féminins et 447 clients masculins dans la catégorie 2 du cluster.
  • SeniorCitizen : dans la catégorie 2 du cluster, environ 15,4 % des clients sont des personnes âgées.
  • Partenaire : Il y a 687 clients dans la catégorie 2 du cluster qui n'ont pas de conjoint et 214 clients qui ont un conjoint.
  • Personnes à charge : dans la catégorie 2 du cluster, il y a 740 clients sans personnes à charge et 161 clients avec personnes à charge.
  • Mandat : ​​La durée moyenne de renouvellement des clients de la catégorie 2 du cluster est d'environ 7,092 mois, avec une valeur minimale de 1 mois et une valeur maximale de 61 mois.

Voici les statistiques pour les autres variables de la catégorie de cluster 2 :

  • PhoneService : 145 clients n’ont pas de service téléphonique et 756 clients ont un service téléphonique.
  • MultipleLines : 605 clients ne disposent pas de services multilignes et 151 clients disposent de plusieurs lignes.
  • Service Internet : 378 clients sont sur DSL, 419 clients sur fibre et 104 clients n'ont pas de service Internet.
  • Répartition et description d'autres variables (OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies, Contract, PaperlessBilling, PaymentMethod, MonthlyCharges, TotalCharges).
cluster3_data <- clustered_data %>% filter(cluster == 3)
summary(cluster3_data)

Insérer la description de l'image ici
Insérer la description de l'image ici

Les résultats de l’analyse de la catégorie de cluster 3 sont les suivants :

  • sexe : il y a 372 clients féminins et 341 clients masculins dans la catégorie 3 du cluster.
  • SeniorCitizen : dans la catégorie 3 du cluster, environ 39,55 % des clients sont des personnes âgées.
  • Partenaire : Il y a 431 clients dans la catégorie 3 du cluster qui n'ont pas de conjoint et 282 clients qui ont un conjoint.
  • Personnes à charge : dans la catégorie 3 du cluster, il y a 625 clients sans personnes à charge et 88 clients avec personnes à charge.
  • Mandat : ​​La durée moyenne de renouvellement des clients de la catégorie 3 du cluster est d'environ 19 mois, avec une valeur minimale de 1 mois et une valeur maximale de 66 mois.

Voici les statistiques pour les autres variables de la catégorie de cluster 3 :

  • PhoneService : 13 clients n’ont pas de service téléphonique et 700 clients ont un service téléphonique.
  • MultipleLines : 186 clients ne disposent pas de services multilignes et 514 clients disposent de plusieurs lignes.
  • Service Internet : 28 clients sont en DSL, 683 clients sont en fibre et 2 clients n'ont pas de service Internet.
  • Répartition et description d'autres variables (OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies, Contract, PaperlessBilling, PaymentMethod, MonthlyCharges, TotalCharges).

Je suppose que tu aimes

Origine blog.csdn.net/weixin_54707168/article/details/132661078
conseillé
Classement