[Exploration de données] Notes d'étude


<Prétraitement des données>

  • Agrégation : combinez plusieurs échantillons ou fonctionnalités (réduisez la taille de l'échantillon, convertissez l'échelle, plus stable)
  • Échantillonnage : prélèvement d'un échantillon
  • Réduction de dimensionnalité : représentation d'échantillons dans l'espace de position (PCA, SVD)
  • Sélection des fonctionnalités : sélectionnez les fonctionnalités importantes (Lasso)
  • Création de fonctionnalités : reconstruction de fonctionnalités utiles (transformation Fouter)
  • discrétisation
    • Le processus de conversion d'attributs continus en attributs discrets
    • Couramment utilisé pour la classification
  • dualisation
    • Mapper des attributs continus ou catégoriels à une ou plusieurs variables binaires
    • Analyse de corrélation
    • Convertissez les attributs continus en attributs catégoriels et convertissez les attributs catégoriels en un ensemble de variables binaires
  • transformation de variables
    • Convertit la valeur d'un attribut donné
    • Méthode de transformation linéaire (fonction simple)
  • Standardiser
    • normalisation min-max (normalisation)
    • Normalisation du score z (normalisation à moyenne nulle)
    • Normalisation de la mise à l'échelle décimale

<plateforme d'apprentissage automatique sklearn>

Bibliothèque d'apprentissage MLlib :

  • Algorithmes couverts : algorithme de classification, algorithme de clustering, algorithme de régression, algorithme de réduction de dimensionnalité
  • Utilisation principale de Scikit-learn :
    • Notation symbolique : données d'entraînement, étiquettes d'ensemble d'entraînement, données de test, étiquettes d'ensemble de test, données complètes, données étiquetées
    • Division des données :
      • train_test_split(x,y,aléatoire)
      • mélanger = Vrai
    • prétraitement des données
    • Algorithmes d'apprentissage supervisé (classification,
      • régression logistique
      • Machines à vecteurs de support
      • Bayes naïf

Chapitre 3 Analyse de régression

3.1 Concepts de base de l'analyse de régression

  • analyse de régression
  • Divisé par le nombre de variables impliquées : régression unaire, analyse de régression multiple
  • Selon le nombre de variables dépendantes : analyse de régression simple, analyse de régression multiple
  • Selon le type de relation entre la variable indépendante et la variable dépendante : analyse de régression linéaire, analyse de régression non linéaire.
  • Problèmes résolus par analyse de régression :
    • Corrélation entre variables : relation déterministe, relation non déterministe
    • Prédire ou contrôler la valeur d'une ou plusieurs variables
  • Étapes de l'analyse de régression
    • Variables déterminantes : facteurs d'influence pertinents (variables indépendantes), principaux facteurs d'influence
    • Construire un modèle prédictif : calcul de statistiques historiques pour les variables indépendantes et dépendantes
    • Effectuer une analyse de corrélation : le degré de corrélation entre les variables et les prédicteurs
    • Calculer l'erreur de prédiction : peut-elle être utilisée pour des prédictions réelles
    • Déterminer la valeur prédite : effectuer une analyse complète de la valeur prédite

3.2 Régression linéaire univariée

Test F, test T

  • Y = a + bX + ε
  • Caractéristiques du modèle :
    • Y est une fonction linéaire de X plus un terme d'erreur
    • La partie linéaire reflète les changements de Y dus aux changements de X
    • L'erreur choisie ε est une variable aléatoire
    • Pour une valeur donnée de X, la valeur attendue de Y est E(Y) = a+bX
  • Équation de régression:
  • Résolution d’équations de régression et tests de modèles :
    • Moindres carrés (résolution d'équations), somme résiduelle des carrés
    • Test d'adéquation (test sur modèle)
    • Test de signification de la relation linéaire : test du niveau de signification équation de régression (test de signification des paramètres de régression), ESS, RSS
    • Exemple de régression linéaire univariée
    • Critères d'évaluation r 2

3.3 Régression linéaire multiple

  • Y = a + b 1 X 1 + b 2 X 2 + … + b n X n
  • Caractéristiques du modèle :
    • Y a une relation linéaire avec X 1 X 2 X 3 …X 4
    • Chaque valeur d'observation Y i (i=1,2,3,…) est indépendante les unes des autres
    • Erreur aléatoire ε~N(0,q 2 )
  • Résolution d'équations de régression polynomiale à l'aide de la méthode des moindres carrés
  • Test d'adéquation
  • Test de signification des paramètres de régression
  • Exemple de régression linéaire multiple

3.4 Régression polynomiale

  • Équation de régression polynomiale (non linéaire → linéaire)
  • Exemple d'équation de régression polynomiale
    • Résolution d'équations de régression polynomiale
    • Test F d’équation de régression
    • Test t de l'équation de régression polynomiale

Critères d'évaluation de la régression

  • Erreur quadratique moyenne (MSE)
  • Erreur quadratique moyenne (RMSE)
  • Erreur absolue moyenne (MAE)
  • Choisir MSE ou MAR ?

Je suppose que tu aimes

Origine blog.csdn.net/Lenhart001/article/details/132691343
conseillé
Classement