Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!

Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!

Quiconque s'engage dans l'économétrie prête attention à ce compte

Manuscrit: [email protected]

Tous les programmes de code, macro et micro bases de données et divers logiciels de la méthodologie du cercle économétrique sont placés dans la communauté Bienvenue dans la communauté du cercle économétrique pour échanges et visites.
Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!

En ce qui concerne l'application de l'apprentissage automatique à l'analyse métrologique, les chercheurs peuvent se référer aux articles suivants: 1. Le module de régression métrologique en Python et un aperçu de tous les modules, 2. Une collection de ressources de code logiciel de métrologie spatiale (Matlab / R / Python / SAS / Stata), Ne plus se sentir seul en raison des effets spatiaux, 3. Régression, classification et clustering: trois directions pour disséquer les avantages et les inconvénients des algorithmes d'apprentissage automatique (implémentés en Python et R), 4. Machine Learning Book One, Data Exploitation minière, raisonnement et prédiction, 5. De la régression linéaire à l'apprentissage automatique, une image pour vous aider à consulter la littérature, un résumé des 6.11 méthodes d'analyse multivariée liées à l'apprentissage automatique, 7. l'apprentissage automatique et l'économétrie des mégadonnées, vous devez lire ceci, 8. Recommandations de livres sur l'apprentissage automatique et l'économétrie, des classiques dignes de mention, 9. Les dernières tendances dans l'application de l'apprentissage automatique en micrométrie: mégadonnées et inférence causale, 10. Les dernières tendances dans l'application de l'apprentissage automatique en micrométrie: modèles de régression, 11 . Machines L'impact de l'apprentissage sur l'économétrie, un rapport exclusif à la réunion annuelle de l'AEA, 12. L'apprentissage automatique, qui peut être différent des statistiques mathématiques, 13. La collection de raccourcis la plus complète de l'histoire des logiciels Python, Stata et R ! , 14. Comparaison de Python et Stata, R, SAS, SQL dans le traitement des données, y compris le code et l'explication détaillée, 15. Python pour les exemples de méthodes d'inférence causale, l'interprétation et le code, 16. Étapes, outils, méthodes d'analyse de texte et comment faire visualisation? 17. L'application de l'analyse de données volumineuses de texte dans l'économie et la finance, la revue de littérature la plus complète, 18. Fonctions de texte et expressions régulières, l'analyse de texte n'est pas détaillée, 19. La plus complète: l'application de l'apprentissage en profondeur dans le domaine de l'économie et gestion financière Les universitaires jeunes et d'âge moyen ne peuvent s'empêcher de prêter attention au résumé de la situation actuelle et des perspectives d'avenir! 20.Top Frontier: L'apprentissage automatique en agriculture et économie appliquée, sa comparaison avec l'économétrie, vous serez absent si vous ne le lisez pas ou non!

Auparavant, nous avons présenté ① «Les méthodes d'apprentissage automatique sont apparues dans les principales revues telles que AER, JPE, QJE, etc.!», ② Frontière: Résumé de la classification des applications de l'apprentissage automatique en économie financière et énergétique, ③Lasso, régression de crête, estimation nette élastique Interprétation du processus d'implémentation et exemples dans le logiciel ", ④Analyse en profondeur des méthodes de régression (OLS, RIDGE, ENET, LASSO, SCAD, MCP, QR), ⑤Méthodes de régression haute dimension: Are Ridge, Lasso, Elastic Net utilisé, ⑥Opération de régression par Lasso Des guides, des données, des procédures et des interprétations sont disponibles, ⑦Sept techniques de régression couramment utilisées, comment choisir correctement le modèle de régression ?, ⑧Solutions pour la colinéarité, problèmes excessifs / non reconnus, ⑨Plusieurs développements récents et perspectives de l'économétrie et de l'économie expérimentale, Nouveaux développements en économétrie, pour référence, etc., a suscité de grandes répercussions parmi les collègues universitaires.

Les méthodes d'apprentissage automatique sont progressivement apparues dans les principales revues de sciences sociales telles que la gestion économique, telles que AER, JPE, QJE, JOF et d'autres revues. Afin de mieux comprendre les dernières tendances d'application de l'apprentissage automatique à l'étranger, nous présentons «L'apprentissage automatique: une méthode économétrique appliquée» aux chercheurs. Il est conseillé aux chercheurs intéressés par les méthodes d'apprentissage automatique d'étudier attentivement cet article très important et complet. br /> ** ** texte
en bas du contenu du texte, auteur: Wei Zi Yi, Université Dongbei des Finances et de l'Économie, Communications E-mail: [email protected]
Machine Learning: une application des méthodes économétriques

Mullainathan, Sendhil et Jann Spiess. 2017. «Machine Learning: An Applied Econometric Approach.» Journal of Economic Perspectives, 31 (2): 87-106.
摘要

Les machines font de plus en plus des choses «intelligentes». Les algorithmes de reconnaissance faciale utilisent un grand ensemble de données de photos étiquetées comme ayant un visage ou non pour estimer une fonction qui prédit la présence y d'un visage à partir des pixels x. Cette similitude avec l'économétrie soulève des questions: comment ces nouveaux outils empiriques cadrent-ils avec ce que nous savons? En tant qu'économistes empiriques, comment pouvons-nous les utiliser? Nous présentons une façon de penser le machine learning qui lui donne sa place dans la boîte à outils économétrique. L'apprentissage automatique fournit non seulement de nouveaux outils, mais il résout un problème différent. Plus précisément, l'apprentissage automatique tourne autour du problème de la prédiction, tandis que de nombreuses applications économiques tournent autour de l'estimation des paramètres. L'application de l'apprentissage automatique à l'économie nécessite donc de trouver des tâches pertinentes. Les algorithmes d'apprentissage automatique sont désormais techniquement faciles à utiliser: vous pouvez télécharger des packages pratiques en R ou Python. Cela augmente également le risque que les algorithmes soient appliqués naïvement ou que leur sortie soit mal interprétée. Nous espérons les rendre conceptuellement plus faciles à utiliser en fournissant une compréhension plus précise de la façon dont ces algorithmes fonctionnent, où ils excellent et où ils peuvent trébucher - et donc où ils peuvent être le plus utilement appliqués.
Du point de vue de l'utilisation efficace de l'apprentissage automatique en économétrie, l'auteur de ce document propose que l'apprentissage automatique n'est pas seulement un nouvel outil dans la boîte à outils d'économétrie, mais que l'apprentissage supervisé résout également le problème de prédiction: comment prédire y à partir de x. L'avantage de l'apprentissage automatique est qu'il peut découvrir des lois généralisées à partir de données et peut découvrir des structures complexes qui ne sont pas pré-spécifiées. Cela permet d'éviter un simple surajustement, d'ajuster un modèle complexe et flexible à partir des données et de faire fonctionner le modèle bien en dehors de l'échantillon. Dans le même temps, l'article fait également un résumé détaillé du principe de fonctionnement de l'apprentissage automatique et de son application combinée avec l'économétrie. L'intégration des deux nous aidera à élargir la portée et la profondeur de nos recherches.
Le principe de fonctionnement de l'apprentissage automatique
Tout d' abord, l'auteur compare l'apprentissage automatique à la méthode OLS familière de mesure en utilisant un exemple de prédiction de la valeur d'une maison. Sélectionnez 10 000 maisons sélectionnées au hasard dans l'échantillon métropolitain de l'American Housing Survey de 2011 comme échantillon de formation et sélectionnez des informations sur la maison et son emplacement (comme le nombre de pièces, la superficie de base, etc.) comme variables. Un total de 150 les variables sont sélectionnées. Pour différentes méthodes de prédiction, l'auteur a analysé l'effet de prédiction de la valeur maison de 41 808 échantillons conservés séparés du même échantillon en évaluant chaque méthode. Les résultats sont présentés dans le tableau suivant:
Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!
Remarque: pour toutes les informations détaillées sur l'échantillon de recherche empirique, vous peut se référer à:
http://e-jep.org .
Deux résultats dans le tableau ci-dessus:

  1. Souligne la nécessité de sélectionner des échantillons retenus pour l'évaluation. Pour certains algorithmes d'apprentissage automatique (comme la forêt aléatoire), cet algorithme est particulièrement sujet au surajustement.
  2. Dans l'évaluation des échantillons retenus, même lorsque la taille de l'échantillon est modérée et que le nombre de covariables est limité, les algorithmes d'apprentissage automatique tels que les forêts aléatoires peuvent faire mieux que les moindres carrés ordinaires.
    Une. Des moindres carrés linéaires à l'arbre de régression.
    Dans le problème ci-dessus, pour la régression des moindres carrés ordinaires, lorsque l'on considère l'interaction entre les variables (comme l'augmentation de la valeur de la cheminée peut varier avec le nombre de pièces à vivre), nous devons effectuer manuellement le calcul détermine quelles interactions sont incluses dans la régression (car si vous incluez toutes les variables de régression avec plus de termes appariés que de points de données). Lorsque le problème passe de la valeur maison à un problème de reconnaissance de visage plus complexe, la fonction de combinaison efficace des pixels sera hautement non linéaire et interactive, et la faisabilité de l'utilisation de la régression des moindres carrés ordinaire sera considérablement réduite.
    De plus, l'auteur utilise l'arbre de régression comme exemple pour décrire la recherche automatique de l'apprentissage automatique pour l'interaction. Comme le montre la figure ci-dessous, l'arbre de régression mappe chaque vecteur des caractéristiques de la maison aux valeurs prédites. La fonction de prédiction prend la forme d'un arbre, qui est divisé en deux à chaque nœud. À chaque nœud de l'arbre, la valeur d'une seule variable (comme le nombre de toilettes) détermine s'il faut considérer le nœud enfant à gauche (moins de deux toilettes) ou le nœud enfant à droite (deux ou plus). La valeur prédite est renvoyée lorsqu'elle atteint le plus terminal, la feuille, et chaque feuille correspond au produit de la variable fictive (telle que l'image la plus à gauche, la valeur du coefficient est de 9,2).
    Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!
    deux. Le surajustement et ses solutions
    Considérez, s'il y a un arbre assez profond, alors chaque observation restera dans ses propres feuilles. Ensuite, pour l'ensemble d'échantillons donné, ce sera un ajustement parfait. Mais en même temps, c'est aussi un surajustement parfait.
    Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!
    À partir de la figure ci-dessus, nous pouvons voir que pour la figure la plus à gauche, il existe une certaine distance entre la valeur estimée et la valeur réelle, et l'effet d'ajustement n'est pas satisfaisant. En ce qui concerne le graphique à l'extrême droite, bien que chaque point d'échantillonnage soit sur la courbe, parce que la forme de la fonction est trop compliquée, il n'est pas possible d'avoir une bonne estimation pour les points en dehors du point d'échantillonnage, et un surajustement se produit.
    Le plus grand attrait du machine learning réside dans ses dimensions élevées: des formes fonctionnelles flexibles nous permettent de nous adapter à diverses structures de données. Mais cette flexibilité offre aussi tellement de possibilités que le simple choix de la fonction la plus appropriée pour l'échantillon serait un mauvais choix. Alors, comment l'apprentissage automatique effectue-t-il des prédictions hors échantillon?
    La première partie de la solution est la régularisation. En prenant l'arbre de régression comme exemple, nous pouvons choisir le meilleur arbre parmi les arbres avec une certaine profondeur au lieu de choisir le "meilleur" arbre parmi tous les arbres. Plus l'arbre est peu profond, plus l'ajustement dans l'échantillon est mauvais: il y a de nombreuses observations sur chaque feuille, et aucune des observations ne peut bien s'adapter, mais cela signifie également que le degré de surajustement est faible. La profondeur de l'arbre est un exemple de régulariseur, qui peut mesurer la complexité de la fonction, et en sélectionnant de manière appropriée le niveau de régularisation, l'occurrence d'un surajustement peut être évitée.
    Alors, comment choisir le niveau de régularisation? Cela implique la deuxième partie de l'ajustement de l'expérience. L'essence du surajustement est que nous voulons que la fonction de prédiction fonctionne aussi bien à l'extérieur de l'échantillon qu'à l'intérieur de l'échantillon. Grâce à un ajustement empirique, une expérience hors échantillon a été créée dans l'échantillon d'origine. Ajuster une partie des données et voir quel niveau de régularisation peut permettre à une autre partie des données d'obtenir les meilleures performances. De plus, l'efficacité de ce procédé peut être améliorée par recoupement: l'échantillon est divisé en K sous-échantillons de taille égale. Un seul sous-échantillon est conservé comme données pour le modèle de vérification, et les autres échantillons K-1 sont utilisés pour l'apprentissage. La validation croisée est répétée K fois et chaque sous-échantillon est validé une fois. Enfin, nous sélectionnons le paramètre avec la meilleure performance moyenne estimée.
    De plus, l'auteur résume le modèle de type F et son régulariseur R (f) de différents algorithmes de prédiction.
    Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!
    Le choix d'une fonction de prédiction implique deux étapes:
    prendre la complexité comme condition, choisir la meilleure fonction de perte minimale dans l'échantillon.

Utilisez des ajustements empiriques pour estimer le niveau optimal de complexité.

Trois. Le rôle directeur de l'économétrie
nécessite donc une réflexion et un choix sur la manière de choisir la fonction appropriée et de la régulariser lors de l'utilisation de méthodes d'apprentissage automatique. Les résultats de nombreuses théories économétriques récentes ont complété la théorie de l'apprentissage automatique, révélant les performances comparatives de différents outils de régularisation.
Par exemple, pour la superficie de la pièce, ne devrait considérer que la superficie totale ou la superficie de chaque pièce, si le traitement logarithmique doit être utilisé pour les variables, ou la normalisation, etc. Ces choix sur la façon de présenter les éléments feront que le type de modèle et le régularisateur s'influencent mutuellement: le modèle linéaire peut facilement obtenir la surface de chaque pièce à partir de la surface et du nombre de pièces, tandis que l'arbre de régression nécessite de nombreux nœuds divisés . Dans un modèle de prévision traditionnel, changer la forme d'un ensemble de variables ne change pas à lui seul la prévision, car le type de modèle sélectionné à partir de celui-ci ne change pas. Cependant, à tout niveau de régularisation donné, le type de modèle peut changer, entraînant des changements dans la valeur prévue. Par exemple, si nous pensons que le nombre de salles de bains par chambre est important dans le processus de tarification, la création de cette variable réduira considérablement les coûts de complexité.
Dans le même temps, une évaluation fiable de la performance prédictive est sans engagement, et cela nécessite également une forte garantie d'économétrie. Dans l'exemple du prix du logement, la division de l'échantillon en échantillons d'apprentissage et en échantillons de rétention est conforme au principe d'économétrie: toutes les données impliquées dans l'ajustement de la fonction de prédiction (y compris la validation croisée utilisée pour vérifier l'algorithme) ne sont pas utilisées pour évaluer la fonction de prédiction générée .
Par conséquent, la théorie économétrique joue ici un double rôle. Premièrement, l'économétrie peut guider les choix de conception, tels que la vérification croisée de la sélection des plis et des types de modèles. Ces directives de sélection peuvent aider à améliorer la qualité des prédictions et des fonctions de test basées sur celles-ci. Deuxièmement, pour une fonction de prédiction ajustée donnée, elle doit être capable de déduire le degré d'ajustement estimé. La rétention d'échantillons nous permet de tester par rapport à la valeur prédite de la fonction ajustée.
quatre. Les inconvénients de
l'apprentissage automatique L'avantage de l'apprentissage automatique est qu'il peut s'adapter à de nombreux modèles différents. Mais cela conduit également à une faiblesse fatale: plus de modèles signifie que deux modèles avec des paramètres complètement différents peuvent produire des résultats de prédiction similaires. Ainsi, la façon dont l'algorithme choisit entre deux fonctions complètement différentes se résume à un problème de tirage au sort. Par conséquent, la façon dont nous choisissons entre deux modèles différents mérite d'être étudiée.
La régularisation aggrave également ce problème. Tout d'abord, nous choisirons un modèle relativement simple mais erroné; deuxièmement, il peut entraîner des écarts de variables manquantes, et lorsque la régularisation exclut certaines variables, il peut conduire à des écarts dans les estimations des paramètres.
Comment appliquer l'apprentissage automatique
À travers ce qui précède, nous pouvons savoir que l'avantage de l'apprentissage automatique est qu'il fournit une méthode de prédiction puissante, flexible et de haute qualité, mais sa faiblesse est qu'il est difficile de vérifier les hypothèses, car l'apprentissage automatique ne le permet pas. produire la stabilité des paramètres de base. Par conséquent, l'apprentissage automatique a une grande valeur d'application dans l'amélioration et la prédiction des images.
1. Les nouvelles données De

nos jours, le «big data» est devenu un mot chaud: d'une part, il met l'accent sur les changements d'échelle des données, et d'autre part, la nature de ces données a également subi des changements tout aussi importants. L'apprentissage automatique peut gérer des données non conventionnelles de haute dimension qui sont difficiles pour les méthodes d'estimation standard, y compris des images et des informations linguistiques qui ne sont généralement même pas considérées comme des données utilisables. La littérature pertinente est organisée comme suit:
Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!

2. Estimation et prédiction Le
deuxième type d'application est la tâche d'estimation et de prédiction. Par exemple, pour comprendre le processus de régression en deux étapes dans le cas de variables instrumentales linéaires:
effectuez d'abord une régression sur la variable instrumentale z:

Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!

  1. Ensuite, la régression sur l'image de la valeur ajustée
    Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!
    prend généralement la première étape comme étape d'estimation. Mais c'est en fait une tâche de prévision: seule la prévision entre dans la deuxième étape. Les coefficients de la première étape ne sont qu'une façon d'atteindre ces valeurs ajustées. L'écart limité de l'échantillon dans les variables instrumentales est le résultat d'un surajustement. Le surajustement signifie que l'image des valeurs ajustées dans l'échantillon capte non seulement des images, mais aussi des images bruyantes. En conséquence, l'image est biaisée vers x, de sorte que l'image de valeur estimée de la deuxième étape est donc biaisée vers l'estimation des moindres carrés ordinaires de x et y. Les documents pertinents sont organisés comme suit:
    Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!
    3. La
    littérature connexe sur la prévision des politiques est la suivante:
    Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!
    4. La
    littérature connexe sur la théorie des tests est la suivante:
    Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!
    Conclusion
    Pour les empiristes, les modes d'analyse fondée sur la théorie et fondée sur les données coexistent toujours. Les méthodes d'évaluation fondées sur la théorie reposent principalement sur des modèles d'estimation de raisonnement déductif théorique descendant. Par exemple, l'application de l'économie tourne principalement autour de l'estimation des paramètres: une bonne estimation des paramètres qui dépendent et expliquent la relation entre les variables. La plupart des méthodes d'évaluation basées sur les données laissent simplement parler les données. L'apprentissage automatique fournit un outil puissant pour entendre plus clairement le contenu des données. Différent de l'estimation des paramètres, l'apprentissage automatique fait partie de la boîte à outils de prévision en économétrie et est plus adapté aux tâches de prévision en économie. Ces deux méthodes ne sont pas en conflit. La théorie peut guider les variables à manipuler dans les expériences; mais lors de l'analyse des résultats, l'apprentissage automatique peut aider à gérer plusieurs résultats et à estimer les effets de traitements hétérogènes.
    À long terme, de nouveaux outils empiriques peuvent contribuer à élargir les types de problèmes que nous étudions. En fin de compte, les outils d'apprentissage automatique peuvent élargir la portée de notre travail, non seulement en fournissant de nouvelles données ou de nouvelles méthodes, mais aussi en nous permettant de nous concentrer sur de nouveaux problèmes.
    Top, le machine learning est une méthode économétrique appliquée, et je ne comprends pas le danger d’être éliminé à l’avenir!
    Appuyez longuement sur le code QR ci-dessus pour lire le texte original de Machine Learning: An Applied Econometric Approach

Pour une compilation de certaines méthodes de mesure, les chercheurs peuvent se référer aux articles suivants: ① "200 articles utilisés dans la recherche empirique, une boîte à outils pour les chercheurs en sciences sociales", ② 50 articles d'expérience célèbres couramment utilisés dans la rédaction d'articles empiriques, une série à lire absolument pour les étudiants ③L'album d'articles sur des sujets chinois sur l'ARE au cours des 10 dernières années. ④AEA a annoncé les dix principaux sujets de recherche qui ont reçu le plus d'attention en 2017-19, vous donnant la direction de la sélection des sujets. meilleures revues chinoises en 2020, il suffit d'écrire l'article Ceux-ci, ⑥La feuille de route des «moments forts» au cours des 30 dernières années, RCT, DID, RDD, LE, ML, DSGE et d'autres méthodes Plus tard, nous avons introduit une collection d'articles sélectionnés en utilisant les données CFPS, CHFS, CHNS pour la recherche empirique! , ② Ces 40 micro-bases de données suffisent pour que vous obteniez un doctorat. Quoi qu'il en soit, en comptant sur ces bibliothèques pour devenir professeur, ③ La collection la plus complète de touches de raccourci de l'histoire des logiciels Python, Stata et R! , ④ 100 articles sélectionnés albums sur la conception de régression de point d'arrêt (floue)! , ⑤ 32 articles sélectionnés de DID sur la méthode de la double différence! , ⑥ 33 articles sélectionnés de SCM sur la méthode de contrôle de synthèse! ⑦Compilation des 80 derniers articles sur le commerce international de la Chine! ⑧Compilation de 70 articles économiques récents sur l'écologie environnementale de la Chine! ⑨Une collection d'articles sélectionnés utilisant la recherche empirique de la base de données CEPS, CHARLS, CGSS, CLHLS! ⑩Compilation des 50 derniers articles en utilisant le système GMM pour mener des recherches empiriques!

Les articles en lien court suivants appartiennent à une collection, vous pouvez les collecter et les lire, sinon vous ne les trouverez plus à l'avenir.
En 2,5 ans, près de 1000 articles de mesure non pondérés dans le cercle économétrique,

Vous pouvez rechercher tout problème lié à la mesure directement dans la barre de menu officielle du compte,

Cercle d'économétrie

Je suppose que tu aimes

Origine blog.51cto.com/15057855/2675646
conseillé
Classement