Tâche de contrôle des risques financiers-04 4 Modélisation et ajustement des paramètres

1 Objectifs d'apprentissage

  1. Apprendre les modèles d'apprentissage automatique couramment utilisés dans le domaine du sous-contrôle financier
  2. Apprendre le processus de modélisation et le processus de réglage des paramètres des modèles d'apprentissage automatique
    1. Effectuez les tâches d'apprentissage correspondantes

2 Présentation

  1. Modèle de régression logistique :
    a. Comprendre le modèle de régression logistique ;
    b. Application du modèle de régression logistique ;
    c. Avantages et inconvénients de la régression logistique ;
  2. Modèle arborescent :
    a. Comprendre le modèle arborescent ;
    b. L'application du modèle arborescent ;
    c. Les avantages et les inconvénients du modèle arborescent ;
  3. Modèle intégré
    A. Modèle intégré Modèle de forêt aléatoire basé sur l'idée de bagging
    B. Modèle intégré Modèle XGBoost basé sur l'idée de boosting Modèle LightGBM Modèle CatBoost
  4. Comparaison de modèles et évaluation des performances :
    a. Modèle de régression/modèle arborescent/modèle intégré ;
    b. Méthode d'évaluation du modèle ;
    c. Résultats de l'évaluation du modèle ;
  5. Réglage du modèle :
    a. Méthode de réglage glouton ;
    b. Méthode de réglage de la grille ;
    c. Méthode de réglage bayésien ;

3 Principes liés au modèle

3.1 逻辑回归模型https://blog.csdn.net/han_xiaoyang/article/details/49123419
4.3.2 决策树模型https://blog.csdn.net/c406495762/article/details/76262487
4.3.3 GBDT模型https://zhuanlan.zhihu.com/p/45145899
4.3.4 XGBoost模型https://blog.csdn.net/wuzhongqiang/article/details/104854890
4.3.5 LightGBM模型https://blog.csdn.net/wuzhongqiang/article/details/105350579
4.3.6 Catboost模型https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA
4.3.7 时间序列模型(选学)RNN:https://zhuanlan.zhihu.com/p/45289691LSTM:https://zhuanlan.zhihu.com/p/83496936
4.3.8 推荐教材:
《机器学习》 https://book.douban.com/subject/26708119/
《统计学习方法》 https://book.douban.com/subject/10590856/
《面向机器学习的特征工程》 https://book.douban.com/subject/26826639/
《信用评分模型技术与应用》https://book.douban.com/subject/1488075/
《数据化风控》https://book.douban.com/subject/30282558/

4 Comparaison de modèles et évaluation des performances

4.1 Régression logistique

  1. Avantages
    a. La vitesse de formation est rapide. Lors de la classification, la quantité de calcul est uniquement liée au nombre de caractéristiques ; b. C'est
    simple et facile à comprendre, et l'interprétabilité du modèle est très bonne. Du poids des caractéristiques , nous pouvons voir l'impact de différentes caractéristiques sur le résultat final. Influence ;
    c. Il convient aux problèmes de classification binaire et n'a pas besoin de mettre à l'échelle les caractéristiques d'entrée ;
    d. L'occupation des ressources mémoire est faible et seules les valeurs des caractéristiques ​de chaque dimension doivent être stockées ;
  2. Inconvénients
    a. La régression logistique doit prétraiter les valeurs manquantes et les valeurs aberrantes [reportez-vous à l'ingénierie des fonctionnalités de la tâche 3] ; b
    . La régression logistique ne peut pas être utilisée pour résoudre des problèmes non linéaires, car la surface de décision de la logistique est linéaire ;
    c. C'est plus adapté aux données multicolinéaires Sensible, et il est difficile de traiter le problème du déséquilibre des données ;
    d. Le taux de précision n'est pas très élevé, car la forme est très simple, il est difficile de s'adapter à la distribution réelle des données ;

4.2 Modèle d'arbre de décision

  1. Avantages
    a. Simple et intuitif, l'arbre de décision généré peut être visualisé
    b. Les données ne nécessitent pas de prétraitement, de normalisation ou de données manquantes
    c. Peut gérer à la fois des valeurs discrètes et continues
  2. Inconvénients
    a. L'algorithme de l'arbre de décision est très facile à surajuster, ce qui entraîne une faible capacité de généralisation (un élagage approprié peut être effectué)
    b. L'algorithme glouton est utilisé et il est facile d'obtenir une solution optimale locale

4.3 Méthode d'ensemble du modèle intégré (méthode d'ensemble)

En combinant plusieurs apprenants pour terminer la tâche d'apprentissage, grâce à la méthode d'ensemble, plusieurs apprenants faibles peuvent être combinés en un classificateur fort, de sorte que la capacité de généralisation de l'apprentissage d'ensemble est généralement meilleure que celle d'un seul classificateur.

Les méthodes d'intégration comprennent principalement le Bagging et le Boosting, qui combinent tous deux des algorithmes de classification ou de régression existants d'une certaine manière pour former une classification plus puissante. Les deux méthodes sont des méthodes d'intégration de plusieurs classificateurs dans un seul classificateur, mais les méthodes d'intégration sont différentes et finalement des effets différents sont obtenus. Les modèles intégrés courants basés sur l'idée de Baggin incluent : la forêt aléatoire, les modèles intégrés basés sur l'idée de Boosting : Adaboost, GBDT, XgBoost, LightGBM, etc.

La différence entre Baggin et Boosting se résume comme suit :
  1. Sélection de l'échantillon : l'ensemble d'entraînement de la méthode Bagging est sélectionné à partir de l'ensemble d'origine avec remplacement, de sorte que les ensembles d'entraînement sélectionnés à partir de l'ensemble d'origine sont indépendants pour chaque tour ; tandis que la méthode Boosting nécessite que l'ensemble d'entraînement de chaque tour reste inchangé, seulement Le poids de chaque échantillon dans l'ensemble d'apprentissage est modifié dans le classifieur. Les poids sont ajustés en fonction des résultats du classement du tour précédent.
  2. Poids de l'échantillon : la méthode Bagging utilise un échantillonnage uniforme, de sorte que le poids de chaque échantillon est égal ; tandis que la méthode Boosting ajuste en permanence le poids de l'échantillon en fonction du taux d'erreur, plus le taux d'erreur est élevé, plus le poids est élevé.
  3. Sur la fonction de prédiction : toutes les fonctions de prédiction dans la méthode Bagging ont des poids égaux ; tandis que dans la méthode Boosting, chaque classificateur faible a un poids correspondant, et le classificateur avec une petite erreur de classification aura un poids supérieur
  4. Calcul parallèle : chaque fonction de prédiction dans la méthode Bagging peut être générée en parallèle ; tandis que chaque fonction de prédiction dans la méthode Boosting ne peut être générée que séquentiellement, car ce dernier paramètre du modèle nécessite le résultat du tour précédent du modèle.

4.4 Méthode d'évaluation du modèle

Pour le modèle, son erreur sur l'ensemble d'apprentissage est appelée erreur d'apprentissage ou erreur empirique, et l'erreur sur l'ensemble de test est appelée erreur de test.

Pour nous, nous sommes plus préoccupés par la capacité d'apprentissage du modèle pour les nouveaux échantillons, c'est-à-dire que nous espérons apprendre les lois générales de tous les échantillons potentiels autant que possible grâce à l'apprentissage des échantillons existants, et si le modèle apprend la formation S'il est trop bon, il est possible de prendre certaines caractéristiques des échantillons d'apprentissage eux-mêmes comme caractéristiques communes à tous les échantillons potentiels, et nous aurons alors le problème du surajustement.

Par conséquent, nous divisons généralement l'ensemble de données existant en deux parties, l'ensemble d'apprentissage et l'ensemble de test. L'ensemble d'apprentissage est utilisé pour former le modèle, et l'ensemble de test est utilisé pour évaluer la capacité du modèle à discriminer de nouveaux échantillons.

Pour la division des ensembles de données, nous devons généralement nous assurer que les deux conditions suivantes sont remplies :
  1. La distribution de l'ensemble d'apprentissage et de l'ensemble de test doit être cohérente avec la distribution réelle de l'échantillon, c'est-à-dire que l'ensemble d'apprentissage et l'ensemble de test doivent être garantis comme étant indépendamment et identiquement distribués par rapport à la distribution réelle de l'échantillon ;
  2. L'ensemble d'apprentissage et l'ensemble de test doivent être mutuellement exclusifs
Il existe trois méthodes pour diviser les ensembles de données : la méthode d'exclusion, la méthode de validation croisée et la méthode d'auto-assistance, qui sont présentées une par une ci-dessous :
  1. ① Méthode d'implantation
    La méthode d'implantation consiste à diviser directement l'ensemble de données D en deux ensembles mutuellement exclusifs, dont l'un est utilisé comme ensemble d'apprentissage S et l'autre comme ensemble de test T. Il convient de noter que la cohérence de la distribution des données doit être assurée autant que possible lors de la division, c'est-à-dire pour éviter l'impact sur le résultat final dû à l'introduction d'écarts supplémentaires lors du processus de division des données. Afin d'assurer la cohérence de la distribution des données, nous utilisons généralement un échantillonnage stratifié pour échantillonner les données.
    Conseils : généralement, environ 2/3 à 4/5 des échantillons de l'ensemble de données D sont utilisés comme ensemble d'apprentissage, et le reste est utilisé comme ensemble de test.
  2. ②Méthode de validation
    croisée La validation croisée en K divise généralement l'ensemble de données D en k parties, dont k-1 est utilisé comme ensemble d'apprentissage, et le reste est utilisé comme ensemble de test, de sorte que k ensembles de formation/ ensembles de tests peuvent être obtenus, qui peuvent être effectués k fois Formation et test, le retour final est la moyenne des résultats de test k. La division des ensembles de données dans la validation croisée est toujours basée sur un échantillonnage stratifié.
    Pour la méthode de validation croisée, la sélection de la valeur k détermine souvent la stabilité et la fidélité des résultats de l'évaluation. Habituellement, la valeur k est sélectionnée pour être 10. Lorsque k = 1, nous l'appelons la méthode de non-participation. .
  3. ③ Méthode d'auto-assistance
    Nous prenons un échantillon de l'ensemble de données D à chaque fois en tant qu'élément de l'ensemble d'apprentissage, puis replaçons l'échantillon et répétons ce comportement m fois, afin d'obtenir un ensemble d'apprentissage de taille m, dans qui il y a des échantillons apparaissent à plusieurs reprises, et certains échantillons n'apparaissent pas, et nous utilisons les échantillons qui ne sont pas apparus comme ensemble de test.
    La raison d'un tel échantillonnage est qu'environ 36,8 % des données de D ne sont pas apparues dans l'ensemble d'apprentissage. La méthode hold-out et la méthode de validation croisée utilisent un échantillonnage stratifié pour l'échantillonnage et la division des données, tandis que la méthode bootstrap utilise un échantillonnage répété avec remplacement pour l'échantillonnage des données.
Résumé de la partition de l'ensemble de données
  1. Lorsque la quantité de données est suffisante, la méthode d'implantation ou la méthode de validation croisée k-fold est généralement utilisée pour diviser l'ensemble d'apprentissage/test ;
  2. Utilisez la méthode bootstrap lorsque l'ensemble de données est petit et qu'il est difficile de diviser efficacement l'ensemble d'apprentissage/test ;
  3. Lorsque l'ensemble de données est petit et peut être efficacement divisé, il est préférable d'utiliser la méthode sans un pour la division, car cette méthode est la plus précise.

4.5 Critères d'évaluation du modèle

Pour ce concours, nous avons choisi auc comme norme d'évaluation du modèle. Des normes d'évaluation similaires incluent ks, f1-score, etc. Pour l'introduction et la mise en œuvre spécifiques, vous pouvez revoir le contenu dans la tâche 1.

Voyons ce qu'est exactement auc ?

Dans la régression logistique, un seuil est généralement fixé pour la définition des cas positifs et négatifs. Ceux qui sont supérieurs au seuil sont positifs et ceux qui sont inférieurs au seuil sont négatifs. Si nous réduisons ce seuil, plus d'échantillons seront identifiés comme des classes positives, augmentant le taux de reconnaissance des classes positives, mais en même temps, plus de classes négatives seront identifiées à tort comme des classes positives. Afin de visualiser ce phénomène, ROC est introduit.

Les points correspondants dans l'espace ROC sont calculés en fonction des résultats de la classification et la courbe ROC est formée en reliant ces points. L'abscisse est le taux de faux positifs (FPR : taux de faux positifs) et l'ordonnée est le taux de vrais positifs (TPR : taux réel). Dans des circonstances normales, cette courbe doit être au-dessus de la ligne reliant (0,0) et (1,1), comme indiqué sur la figure :
insérez la description de l'image ici

Quatre points dans la courbe ROC :

  1. Point (0,1) : c'est-à-dire FPR=0, TPR=1, ce qui signifie que FN=0 et FP=0, tous les échantillons sont correctement classés ;
  2. Point (1,0) : c'est-à-dire FPR=1, TPR=0, le pire classificateur, évitant toutes les réponses correctes ;
  3. Point (0,0) : c'est-à-dire FPR=TPR=0, FP=TP=0, le classifieur prédit chaque instance comme une classe négative ;
  4. Point (1,1) : le classificateur prédit chaque instance comme une classe positive

En résumé : plus la courbe ROC est proche du coin supérieur gauche, meilleures sont les performances du classificateur et meilleures sont ses performances de généralisation. Et d'une manière générale, si le ROC est lisse, alors on peut fondamentalement juger qu'il n'y a pas beaucoup de surajustement.

Mais pour deux modèles, comment jugeons-nous quel modèle a les meilleures performances de généralisation ? Ici, nous avons principalement les deux méthodes suivantes :

Si la courbe ROC du modèle A recouvre entièrement la courbe ROC du modèle B, alors on pense que le modèle A est meilleur que le modèle B ;

Si les deux courbes se croisent, on peut juger en comparant l'aire de la courbe délimitée par le ROC et les axes X et Y. Plus l'aire est grande, meilleures sont les performances du modèle. On appelle cette aire AUC (aire sous courbe ROC )

(je ne comprends pas encore le code...)

Je suppose que tu aimes

Origine blog.csdn.net/BigCabbageFy/article/details/108783152
conseillé
Classement