4.1 Diagnostic des résidus
Une bonne méthode de prédiction produira des résidus avec les attributs suivants:
1. Les résidus ne sont pas pertinents
S'il y a une corrélation entre les résidus, il y aura des informations laissées dans les résidus, qui seront utilisées dans le calcul Prévisions.
2. La moyenne des résidus est nulle
Si la moyenne des résidus n'est pas nulle, la prédiction est biaisée.
Toute méthode de prédiction qui ne satisfait pas à ces attributs peut être améliorée (comment améliorer les résidus pour se conformer à cette loi) . Cependant, cela ne signifie pas que la méthode de prédiction satisfaisant ces attributs ne peut pas être améliorée. Pour le même ensemble de données, il peut y avoir plusieurs méthodes de prédiction différentes, qui satisfont toutes ces attributs. Afin de voir si une méthode utilise toutes les informations disponibles, il est important de vérifier ces attributs, mais ce n'est pas un bon moyen de choisir une méthode de prédiction.
Améliorer la méthode résiduelle:
- Si la moyenne des résidus est m, alors il suffit d'ajouter m et tous les problèmes de prédiction et de biais sont résolus
- Les correctifs de corrélation seront abordés au chapitre 10
En plus de ces attributs de base, il est utile (mais pas nécessaire) que le résidu ait les deux attributs suivants.
3. Le résidu a une variance constante
4. Le résidu est normalement distribué
Ces deux attributs facilitent le calcul de l'intervalle de prédiction. Cependant, le besoin de méthodes de prédiction qui ne satisfont pas à ces caractéristiques ne peut être satisfait. Parfois, l'application de la transformation Box-Cox peut aider ces attributs, mais en général, vous ne pouvez pratiquement rien faire pour vous assurer que les résidus ont une variance constante et une distribution normale. Au lieu de cela, une autre méthode pour obtenir l'intervalle de prédiction est nécessaire.
Ex: Prédire le cours de clôture quotidien de Google
Pour les cours des actions et les indices, la meilleure méthode de prédiction est généralement la méthode naïve. En d'autres termes, chaque prédiction est égale à l'observation précédente, ou pour que le résidu puisse être simplement équivalent à la différence entre deux observations consécutives
. La figure 4.2 montre le résidu obtenu en utilisant la méthode naïve pour prédire la série. Les importants résidus positifs sont le résultat de hausses de prix inattendues en juillet.
Ces graphiques montrent que les prédictions produites par la méthode naïve peuvent expliquer toutes les informations disponibles; la figure 4.2 montre que le résidu moyen est proche de 0, et il n'y a pas de corrélation significative dans la séquence résiduelle; en outre, le graphique du temps résiduel (figure 4.2) montre également que Une valeur aberrante, la variation du résidu reste presque la même dans toutes les données historiques, de sorte que le résidu peut être considéré comme une valeur constante. La conclusion ci-dessus peut également être lue sur l'histogramme, maisL'histogramme indique que les résidus peuvent ne pas être distribués normalement, et même si les valeurs aberrantes sont ignorées, la queue droite semble trop longue. Par conséquent, la prédiction utilisant la méthode naïve peut être très bonne, mais l'intervalle de prédiction calculé en supposant une distribution normale peut ne pas être précis.
Test d'autocorrélation de Portmanteau
'En plus d'afficher le graphique ACF, vous pouvez également effectuer un test d'autocorrélation formel en considérant l' ensemble des valeurs dans son ensemble, plutôt que de les considérer séparément.
: Le coefficient de retard d'autocorrélation est k.
Lorsque nous regardons le graphique ACF pour déterminer si chaque pic est dans la limite requise, nous effectuons implicitement plusieurs tests d'hypothèse, et chaque test a une faible probabilité de donner un faux positif. Après avoir effectué suffisamment de tests, il est probable qu'il y aura au moins un faux positif, nous pouvons donc conclure que le résidu a une certaine autocorrélation résiduelle, mais ce n'est pas le cas.
Pour surmonter ce problème, nous testons si les premières autocorrélations h sont significativement différentes du processus de bruit blanc attendu. Un ensemble de tests d'autocorrélation sont appelés tests de portemanteau.
Le test de Box-Pierce est l'un de ces tests, qui est basé sur les données statistiques suivantes
h représente son plus grand décalage, et T représente le nombre total de points d'observation. Si chacun était proche de zéro, le Q sera faible. Si une partie de la
grande (positive ou négative), alors Q sera immense. Nous recommandons que pour les données non saisonnières, h = 10 ou pour les données saisonnières, h = 2m, où m représente la période saisonnière. MaisParce que quand h est grand, le résultat n'est pas bon, donc si la valeur de h dépasse T / 5, alors on prend h = T / 5.
Test de Ljung-Box : un test pertinent mais plus précis,
une grande valeur indique ici que l'autocorrélation n'est pas issue d'une séquence de bruit blanc.
Comment définir ce qui précède: si l'autocorrélation provient de la séquence de bruit blanc, alors Q et les deux ont (hK) degrés de liberté avec une distribution chi carré
, et K représente le nombre de paramètres du modèle. S'ils sont calculés à partir de données brutes (et non à partir des résidus du modèle), définissez K = 0.
Pour l'exemple de cours de bourse de Google, le modèle naïf n'a pas de paramètres, donc k = 0 est également le cas dans ce cas.
4.2 Évaluation de l'
ensemble de formation et de test de précision des prévisions Il
est très important d'évaluer la précision des prévisions à l'aide de prévisions réelles. Par conséquent, la taille du résidu n'est pas une indication fiable de l'ampleur de l'erreur réelle de prédiction. La précision de la prédiction ne peut être déterminée qu'en considérant la performance du modèle sur les nouvelles données qui ne sont pas utilisées lors de l'ajustement du modèle .
Lors de la sélection d'un modèle, il est généralement divisé en formation et test. Les données de formation sont utilisées pour estimer tous les paramètres de la méthode de prédiction et les données de test sont utilisées pour évaluer sa précision. Étant donné que les données de test ne sont pas utilisées pour déterminer les prévisions, elles peuvent indiquer dans quelle mesure le modèle prédit de nouvelles données.
L'ensemble de tests représente généralement environ 20% de l'échantillon total.Il convient de noter
que
Le modèle avec de bonnes données d'entraînement peut ne pas être en mesure de bien prédire Le modèle a suffisamment de paramètres pour former un bon modèle
Le modèle est sur-ajusté et méconnaissable Le modèle du système dans les données est tout aussi mauvais
Les données d'apprentissage peuvent également être appelées données dans l'échantillon; l'ensemble de test peut également être appelé données hors échantillon.
Erreur de prévision: la différence entre la valeur observée et sa valeur prédite;L'erreur ici ne signifie pas une erreur, mais une partie imprévisible de l'observation, Il peut être écrit comme
, son ensemble de formation est , l'ensemble de test est
Remarque: L'erreur de prédiction diffère du résidu de deux manières: le résidu
est calculé sur l'ensemble d'apprentissage et l'erreur est calculée sur l'ensemble de test.
Le résidu est basé sur une prédiction en une seule étape et l'erreur de prédiction peut impliquer une prédiction en plusieurs étapes
Nous pouvons mesurer la précision des prédictions en résumant les erreurs de prédiction, en d'autres termes,La précision des prévisions est déterminée en mesurant l'erreur de prévision.
L'erreur de
prédiction d'erreur dépendante de l'échelle est la même que la plage de données; la mesure de précision basée sur est mise à l'échelle de sorte qu'elle ne peut pas être utilisée pour comparer entre différentes séries.
Les deux mesures d'échelle les plus couramment utilisées sont basées sur l'erreur absolue ou l'erreur carrée:
(? Quelle est l'erreur de mesure de l'échelle, est-elle placée sur la même échelle)
Lorsque l'on compare une seule série temporelle ou plusieurs méthodes de prédiction de séries temporelles avec la même unité, le MAE est plus populaire car il est facile à comprendre et à calculer. • La minimisation de la méthode de prédiction MAE se traduira par une prédiction médiane, tandis que la minimisation du RMSE entraînera une prédiction de la moyenne.
erreur en pourcentage (erreurs de pourcentage) pour
cent d' erreur est déterminé par la formule suivante
, son avantage est pas une unité, il est souvent utilisé pour prédire la comparaison des performances entre les ensembles de données, la mesure la plus couramment utilisée pour l'
erreur de pourcentage trois défauts:
l à l'époque, L'erreur en pourcentage apparaîtra comme des défauts infinis ou incertains, ou lorsque Yt est proche de 0, l'erreur en pourcentage aura également des problèmes de valeur extrêmes.
(Comment comprendre) Un autre inconvénient de l'erreur en pourcentage est qu'ils supposent que l'unité de mesure a un point zéro significatif . Par exemple, lors de la mesure de la précision des prévisions de température en degrés Fahrenheit ou Celsius, l'erreur en pourcentage n'a pas de sens car la température a un point zéro arbitraire.
Les pénalités en pourcentage d'erreur pour les erreurs négatives sont supérieures aux pénalités pour les erreurs positives . Cela a conduit Armstrong à proposer ** 'MAPE symétrique' (sMAPE) ** pour correction
Erreur d'échelle (erreurs échelonnées)
Elle peut être utilisée comme méthode alternative d'utilisation du pourcentage d'erreur dans différentes unités . Elle peut être basée sur la formation MAE de la méthode de prédiction simple pour mettre à l'échelle l'erreur.
Pour les séries chronologiques non saisonnières, un moyen efficace de définir l'erreur proportionnelle consiste à utiliser la prédiction naïve.
Étant donné que le numérateur et le dénominateur impliquent tous deux la valeur proportionnelle des données d'origine, cela n'a rien à voir avec la taille des données; si une erreur d'échelle est meilleure que la prédiction naïve moyenne, alors Son erreur de mise à l'échelle est inférieure à 1; inversement, si une erreur de mise à l'échelle est pire que la prédiction naïve moyenne, son erreur de mise à l'échelle est supérieure à 1.
Pour les séries chronologiques saisonnières, des prévisions saisonnières naïves peuvent être utilisées pour définir l'erreur proportionnelle:
Erreur proportionnelle absolue moyenne:
4.3 Validation croisée des séries chronologiques Validation croisée des séries chronologiques
: dans ce processus, il y aura un ensemble d'ensembles de tests, chaque ensemble de tests contiendra un point d'observation unique; l'ensemble d'apprentissage correspondant ne contient que les observations qui se sont produites avant les observations qui ont formé l'ensemble de tests. Par conséquent, aucune des observations futures ne peut être utilisée pour construire des prédictions. Comme il est impossible d'obtenir des prédictions fiables basées sur un petit ensemble d'apprentissage, les premières observations ne sont pas considérées comme des ensembles de tests.
Le bleu ci-dessous représente l'ensemble d'entraînement et le rouge représente l'ensemble d'essai:
La précision de la prédiction est calculée en faisant la moyenne de l'ensemble de testCe processus est parfois appelé «évaluation de l'origine des prévisions glissantes» car «l'origine» sur laquelle la prédiction est basée défilera dans le temps.
Lorsque vous utilisez la prédiction de séries chronologiques, la prédiction en une seule étape peut ne pas être aussi importante que la prédiction en plusieurs étapes; dans ce cas, nous pouvons modifier le processus de validation croisée en fonction de l'origine de la prédiction glissante pour permettre l'utilisation d'erreurs en plusieurs étapes.
La figure suivante montre que nous générons une prédiction en 4 étapes correspondant à l'ensemble d'apprentissage et à l'ensemble de tests
. Un bon moyen de sélectionner le meilleur modèle de prédiction consiste à trouver le modèle avec le RMSE minimum calculé à l'aide de la validation croisée de séries chronologiques.