Évaluer la précision du modèle (chapitre 4 de la prévision: principes et pratique)

4.1 Diagnostic des résidus
Une bonne méthode de prédiction produira des résidus avec les attributs suivants:
1. Les résidus ne sont pas pertinents
S'il y a une corrélation entre les résidus, il y aura des informations laissées dans les résidus, qui seront utilisées dans le calcul Prévisions.
2. La moyenne des résidus est nulle
Si la moyenne des résidus n'est pas nulle, la prédiction est biaisée.

Toute méthode de prédiction qui ne satisfait pas à ces attributs peut être améliorée (comment améliorer les résidus pour se conformer à cette loi) . Cependant, cela ne signifie pas que la méthode de prédiction satisfaisant ces attributs ne peut pas être améliorée. Pour le même ensemble de données, il peut y avoir plusieurs méthodes de prédiction différentes, qui satisfont toutes ces attributs. Afin de voir si une méthode utilise toutes les informations disponibles, il est important de vérifier ces attributs, mais ce n'est pas un bon moyen de choisir une méthode de prédiction.

Améliorer la méthode résiduelle:

  1. Si la moyenne des résidus est m, alors il suffit d'ajouter m et tous les problèmes de prédiction et de biais sont résolus
  2. Les correctifs de corrélation seront abordés au chapitre 10

En plus de ces attributs de base, il est utile (mais pas nécessaire) que le résidu ait les deux attributs suivants.
3. Le résidu a une variance constante
4. Le résidu est normalement distribué

Ces deux attributs facilitent le calcul de l'intervalle de prédiction. Cependant, le besoin de méthodes de prédiction qui ne satisfont pas à ces caractéristiques ne peut être satisfait. Parfois, l'application de la transformation Box-Cox peut aider ces attributs, mais en général, vous ne pouvez pratiquement rien faire pour vous assurer que les résidus ont une variance constante et une distribution normale. Au lieu de cela, une autre méthode pour obtenir l'intervalle de prédiction est nécessaire.
Ex: Prédire le cours de clôture quotidien de Google
Pour les cours des actions et les indices, la meilleure méthode de prédiction est généralement la méthode naïve. En d'autres termes, chaque prédiction est égale à l'observation précédente, ou Insérez la description de l'image icipour que le résidu puisse être simplement équivalent à la différence entre deux observations consécutives Insérez la description de l'image ici
Insérez la description de l'image ici
Insérez la description de l'image ici
. La figure 4.2 montre le résidu obtenu en utilisant la méthode naïve pour prédire la série. Les importants résidus positifs sont le résultat de hausses de prix inattendues en juillet.
Insérez la description de l'image ici
Insérez la description de l'image ici
Ces graphiques montrent que les prédictions produites par la méthode naïve peuvent expliquer toutes les informations disponibles; la figure 4.2 montre que le résidu moyen est proche de 0, et il n'y a pas de corrélation significative dans la séquence résiduelle; en outre, le graphique du temps résiduel (figure 4.2) montre également que Une valeur aberrante, la variation du résidu reste presque la même dans toutes les données historiques, de sorte que le résidu peut être considéré comme une valeur constante. La conclusion ci-dessus peut également être lue sur l'histogramme, maisL'histogramme indique que les résidus peuvent ne pas être distribués normalement, et même si les valeurs aberrantes sont ignorées, la queue droite semble trop longue. Par conséquent, la prédiction utilisant la méthode naïve peut être très bonne, mais l'intervalle de prédiction calculé en supposant une distribution normale peut ne pas être précis.

Test d'autocorrélation de Portmanteau
'En plus d'afficher le graphique ACF, vous pouvez également Insérez la description de l'image icieffectuer un test d'autocorrélation formel en considérant l' ensemble des valeurs dans son ensemble, plutôt que de les considérer séparément.

Insérez la description de l'image ici: Le coefficient de retard d'autocorrélation est k.
Lorsque nous regardons le graphique ACF pour déterminer si chaque pic est dans la limite requise, nous effectuons implicitement plusieurs tests d'hypothèse, et chaque test a une faible probabilité de donner un faux positif. Après avoir effectué suffisamment de tests, il est probable qu'il y aura au moins un faux positif, nous pouvons donc conclure que le résidu a une certaine autocorrélation résiduelle, mais ce n'est pas le cas.

Pour surmonter ce problème, nous testons si les premières autocorrélations h sont significativement différentes du processus de bruit blanc attendu. Un ensemble de tests d'autocorrélation sont appelés tests de portemanteau.

Le test de Box-Pierce est l'un de ces tests, qui est basé sur les données statistiques suivantes
Insérez la description de l'image ici

h représente son plus grand décalage, et T représente le nombre total de points d'observation. Si chacun Insérez la description de l'image iciétait proche de zéro, le Q sera faible. Si une partie de la Insérez la description de l'image icigrande (positive ou négative), alors Q sera immense. Nous recommandons que pour les données non saisonnières, h = 10 ou pour les données saisonnières, h = 2m, où m représente la période saisonnière. MaisParce que quand h est grand, le résultat n'est pas bon, donc si la valeur de h dépasse T / 5, alors on prend h = T / 5.

Test de Ljung-Box : un test pertinent mais plus précis,
Insérez la description de l'image ici
une grande valeur Insérez la description de l'image iciindique ici que l'autocorrélation n'est pas issue d'une séquence de bruit blanc.

Comment définir ce qui précède: si l'autocorrélation provient de la séquence de bruit blanc, alors Q et les Insérez la description de l'image icideux ont (hK) degrés de liberté avec une distribution chi carré Insérez la description de l'image ici, et K représente le nombre de paramètres du modèle. S'ils sont calculés à partir de données brutes (et non à partir des résidus du modèle), définissez K = 0.
Pour l'exemple de cours de bourse de Google, le modèle naïf n'a pas de paramètres, donc k = 0 est également le cas dans ce cas.

4.2 Évaluation de l'
ensemble de formation et de test de précision des prévisions Il
est très important d'évaluer la précision des prévisions à l'aide de prévisions réelles. Par conséquent, la taille du résidu n'est pas une indication fiable de l'ampleur de l'erreur réelle de prédiction. La précision de la prédiction ne peut être déterminée qu'en considérant la performance du modèle sur les nouvelles données qui ne sont pas utilisées lors de l'ajustement du modèle .

Lors de la sélection d'un modèle, il est généralement divisé en formation et test. Les données de formation sont utilisées pour estimer tous les paramètres de la méthode de prédiction et les données de test sont utilisées pour évaluer sa précision. Étant donné que les données de test ne sont pas utilisées pour déterminer les prévisions, elles peuvent indiquer dans quelle mesure le modèle prédit de nouvelles données.
Insérez la description de l'image ici
L'ensemble de tests représente généralement environ 20% de l'échantillon total.Il convient de noter
que
 Le modèle avec de bonnes données d'entraînement peut ne pas être en mesure de bien prédire  Le modèle a suffisamment de paramètres pour former un bon modèle
 Le modèle est sur-ajusté et méconnaissable Le modèle du système dans les données est tout aussi mauvais

Les données d'apprentissage peuvent également être appelées données dans l'échantillon; l'ensemble de test peut également être appelé données hors échantillon.

Erreur de prévision: la différence entre la valeur observée et sa valeur prédite;L'erreur ici ne signifie pas une erreur, mais une partie imprévisible de l'observation, Il peut être écrit comme Insérez la description de l'image ici
, son ensemble de formation est Insérez la description de l'image ici, l'ensemble de test estInsérez la description de l'image ici

Remarque: L'erreur de prédiction diffère du résidu de deux manières: le résidu
est calculé sur l'ensemble d'apprentissage et l'erreur est calculée sur l'ensemble de test.
Le résidu est basé sur une prédiction en une seule étape et l'erreur de prédiction peut impliquer une prédiction en plusieurs étapes

Nous pouvons mesurer la précision des prédictions en résumant les erreurs de prédiction, en d'autres termes,La précision des prévisions est déterminée en mesurant l'erreur de prévision.

L'erreur de
prédiction d'erreur dépendante de l'échelle est la même que la plage de données; Insérez la description de l'image icila mesure de précision basée sur est mise à l'échelle de sorte qu'elle ne peut pas être utilisée pour comparer entre différentes séries.
Les deux mesures d'échelle les plus couramment utilisées sont basées sur l'erreur absolue ou l'erreur carrée:
Insérez la description de l'image ici

(? Quelle est l'erreur de mesure de l'échelle, est-elle placée sur la même échelle)
Lorsque l'on compare une seule série temporelle ou plusieurs méthodes de prédiction de séries temporelles avec la même unité, le MAE est plus populaire car il est facile à comprendre et à calculer. • La minimisation de la méthode de prédiction MAE se traduira par une prédiction médiane, tandis que la minimisation du RMSE entraînera une prédiction de la moyenne.

erreur en pourcentage (erreurs de pourcentage) pour
cent d' erreur est déterminé par la formule suivante Insérez la description de l'image ici
, son avantage est pas une unité, il est souvent utilisé pour prédire la comparaison des performances entre les ensembles de données, la mesure la plus couramment utilisée pour l'
Insérez la description de l'image ici
erreur de pourcentage trois défauts:
l à Insérez la description de l'image icil'époque, L'erreur en pourcentage apparaîtra comme des défauts infinis ou incertains, ou lorsque Yt est proche de 0, l'erreur en pourcentage aura également des problèmes de valeur extrêmes.
(Comment comprendre) Un autre inconvénient de l'erreur en pourcentage est qu'ils supposent que l'unité de mesure a un point zéro significatif . Par exemple, lors de la mesure de la précision des prévisions de température en degrés Fahrenheit ou Celsius, l'erreur en pourcentage n'a pas de sens car la température a un point zéro arbitraire.
 Les pénalités en pourcentage d'erreur pour les erreurs négatives sont supérieures aux pénalités pour les erreurs positives . Cela a conduit Armstrong à proposer ** 'MAPE symétrique' (sMAPE) ** pour correction
Insérez la description de l'image ici

Erreur d'échelle (erreurs échelonnées)
Elle peut être utilisée comme méthode alternative d'utilisation du pourcentage d'erreur dans différentes unités . Elle peut être basée sur la formation MAE de la méthode de prédiction simple pour mettre à l'échelle l'erreur.
Pour les séries chronologiques non saisonnières, un moyen efficace de définir l'erreur proportionnelle consiste à utiliser la prédiction naïve.
Insérez la description de l'image ici
Étant donné que le numérateur et le dénominateur impliquent tous deux la valeur proportionnelle des données d'origine, cela Insérez la description de l'image icin'a rien à voir avec la taille des données; si une erreur d'échelle est meilleure que la prédiction naïve moyenne, alors Son erreur de mise à l'échelle est inférieure à 1; inversement, si une erreur de mise à l'échelle est pire que la prédiction naïve moyenne, son erreur de mise à l'échelle est supérieure à 1.

Pour les séries chronologiques saisonnières, des prévisions saisonnières naïves peuvent être utilisées pour définir l'erreur proportionnelle:Insérez la description de l'image ici

Erreur proportionnelle absolue moyenne:
Insérez la description de l'image ici

4.3 Validation croisée des séries chronologiques Validation croisée des séries chronologiques
: dans ce processus, il y aura un ensemble d'ensembles de tests, chaque ensemble de tests contiendra un point d'observation unique; l'ensemble d'apprentissage correspondant ne contient que les observations qui se sont produites avant les observations qui ont formé l'ensemble de tests. Par conséquent, aucune des observations futures ne peut être utilisée pour construire des prédictions. Comme il est impossible d'obtenir des prédictions fiables basées sur un petit ensemble d'apprentissage, les premières observations ne sont pas considérées comme des ensembles de tests.
Le bleu ci-dessous représente l'ensemble d'entraînement et le rouge représente l'ensemble d'essai:
Insérez la description de l'image ici

La précision de la prédiction est calculée en faisant la moyenne de l'ensemble de testCe processus est parfois appelé «évaluation de l'origine des prévisions glissantes» car «l'origine» sur laquelle la prédiction est basée défilera dans le temps.

Lorsque vous utilisez la prédiction de séries chronologiques, la prédiction en une seule étape peut ne pas être aussi importante que la prédiction en plusieurs étapes; dans ce cas, nous pouvons modifier le processus de validation croisée en fonction de l'origine de la prédiction glissante pour permettre l'utilisation d'erreurs en plusieurs étapes.
La figure suivante montre que nous générons une prédiction en 4 étapes correspondant à l'ensemble d'apprentissage et à l'ensemble de tests
Insérez la description de l'image ici
. Un bon moyen de sélectionner le meilleur modèle de prédiction consiste à trouver le modèle avec le RMSE minimum calculé à l'aide de la validation croisée de séries chronologiques.

Publié 69 articles originaux · loué 11 · 20 000+ vues

Je suppose que tu aimes

Origine blog.csdn.net/weixin_41636030/article/details/103109477
conseillé
Classement