Thursday, February 9, 2017

Autoregressive Moving Average Ppt

Modèles de moyenne mobile intégrée Autoregressive (ARIMA) 1. Présentation sur le thème: Modèles de moyenne mobile intégrée Autoregressive (ARIMA) 1. Transcription de la présentation: 2 2 - Techniques de prévision basées sur le lissage exponentiel - Aspects généraux pour les modèles ci-dessus: La somme de deux composantes distinctes (déterministe aléatoire) - Le bruit aléatoire: généré par des chocs indépendants du processus - En pratique: les observations successives montrent la dépendance série 3 - Les modèles ARIMA sont également connus sous le nom de méthode Box-Jenkins - très populaires. Adapté à presque toutes les séries chronologiques à plusieurs reprises générer des prévisions plus précises que d'autres méthodes. - limitations: S'il n'y a pas assez de données, ils peuvent ne pas être mieux à la prévision que les techniques de décomposition ou de lissage exponentiel. Nombre recommandé d'observations au moins Faible stationnarité est requise - Égalité entre les intervalles 3 Modèles ARIMA 7 7 Filtre linéaire - C'est un processus qui convertit l'entrée xt en sortie yt - La conversion implique des valeurs passées, actuelles et futures de l'entrée en La forme d'une sommation avec des poids différents - Time invariant ne dépendent pas du temps - Physically réalisable: la sortie est une fonction linéaire des valeurs actuelles et passées de l'entrée - Stable si dans les filtres linéaires: la stationnarité de la série temporelle d'entrée est également Reflétée dans la sortie 9 Une série chronologique qui remplit ces conditions tend à revenir à sa moyenne et à fluctuer autour de cette moyenne avec une variance constante. Note: La stationnarité stricte requiert, en plus des conditions de faible stationnarité, que la série temporelle doive remplir d'autres conditions concernant sa distribution, y compris l'asymétrie, la kurtosis, etc. 9 - Prendre des instantanés du processus à différents moments observer son comportement: Le temps linéaire et stationnaire - Une force de décélération lentement croissante ACF suggère des déviations par rapport à la stationnarité Déterminer la stationnarité 12 Moyenne mobile de l'infini Entrée xt stationnaire THEN, le processus linéaire avec la série de temps de bruit blanc t est stationnaire 12 Sortie yt stationnaire, avec t chocs aléatoires indépendants, E (t) 0 14 14 La moyenne mobile infini sert de classe générale de modèles pour toute série temporelle stationnaire THEOREM (Monde 1938): N'importe quelle série temporelle faiblement stationnaire déterministe yt peut être représentée comme où INTERPRETATION Une série temporelle stationnaire peut être vue Comme la somme pondérée des perturbations actuelles et passées 15 15 Moyenne mobile infini: - Impratique pour estimer les poids infinis - Useless en pratique, sauf cas particuliers: i. Modèles de moyenne mobile à ordres finis (MA). Poids pondérés à 0, à l'exception d'un nombre fini de poids ii. Modèles autorégressifs d'ordre fini (AR): les poids sont générés en utilisant seulement un nombre fini de paramètres iii. Méthode moyenne mobile (MA) de processus finis Processus moyen mobile d'ordre q (MA (q)) MA (q). (Q) Autocorrélation de MA (q) Variation de MA (q) Autocorelation de MA (q) 17 t bruit blanc 18 18 Fonction ACF: Aide à identifier le modèle MA (K) pas toujours zéro après le lag q devient très petit en valeur absolue après le décalage q 19 Premier ordre Processus de déplacement moyen MA (1) Autocovariance de MA (q) Autocorelation de MA (q) 19 q1 20 20 - Variance moyenne. Stable - Courtes distances où les observations successives tendent à se suivre - Autocorrélation positive - Observations oscillent successivement - Autocorrélation négative 21 Ordre Second Ordre Moyenne MA (2) Autocovariance de MA (q) Autocorelation de MA (q) 21 23 Processus Autoregressif Ordre Fini 23 - Théorème des mondes: nombre infini de poids, non utile dans la prévision de modélisation - Processus MA de l'ordre fini: estimer un nombre fini de poids, placer l'autre égal à zéro Plus ancienne perturbation obsolète pour la prochaine observation seulement nombre fini de perturbations contribuent au courant Valeur des séries temporelles - Tenir compte de toutes les perturbations du passé. Utiliser des modèles autorégressifs estiment infiniment beaucoup de poids qui suivent un modèle distinct avec un petit nombre de paramètres 24 Premier processus Autoregressive Ordre, AR (1) Supposons. Les contributions des perturbations qui sont dans le passé sont petites comparées aux perturbations plus récentes que le processus a expérimentées. Réfléchir aux magnitudes décroissantes des contributions des perturbations du passé, à travers un ensemble de poids infiniment nombreux dans des grandeurs descendantes, telles que The Poids dans les perturbations à partir de la perturbation actuelle et revenir dans le passé: 24 Modèle de décomposition exponentielle 25 Processus autorégressif d'ordre 1 AR (1) AR (1) stationnaire si 25 où POURQUOI AUTOREGRESSIVE. 26 AR moyenne (1) Fonction d'autocovariance AR (1) Fonction d'autocorrélation AR (1) 26 L'ACF pour un processus AR (1) stationnaire a une forme de décroissance exponentielle 28 Processus Autoregressif de Deuxième Ordre, AR (2) 28 Ce modèle peut être représenté Dans la forme infinie MA fournissent les conditions de stationnarité pour yt en termes de 1 2 WHY 1. Infinite MA Apply 31 31 Solutions L'équation de différence linéaire de second ordre La solution. En fonction des 2 racines m1 et m2 de AR (2) stationnaire: Condition de stationnarité pour les conjugués complexes aib: AR (2) représentation MA infini: 32 32 Fonction moyenne d'autocovariance Pour k0: Pour k0: équations de Yule-Walker 0: Yule Equations de Walker 0: Equations de Yule-Walker 0: Equations de Yule-Walker title32 Fonction d'autocovariance moyenne Pour k0: Pour k0: équations de Yule-Walker 33 33 Fonction d'autocorrélation Solutions A. Résoudre récursivement les équations de Yule-Walker B. Solution générale Les racines m 1 m 2 associées au polynôme 34 34 Cas I: m 1, m 2 racines réelles distinctes c 1, c 2 constantes: peut être obtenu à partir de (0), (1) stationnarité: forme ACF: mélange de 2 exponentiellement Termes de désintégration par exemple Modèle AR (2) Il peut être vu comme un modèle RA ajusté (1) pour lequel une seule expression de décroissance exponentielle comme dans AR (1) ne suffit pas pour décrire le modèle dans l'ACF et ainsi, une expression de décroissance additionnelle est ajoutée En introduisant le second terme de délai y t-2 35 35 Cas II: m 1, m 2 conjugués complexes sous la forme c 1, c 2 constantes particulières forme ACF: facteur d'amortissement sinusoïdal humide R période de fréquence 37 37 processus AR (2) : Yt 40.4yty t-2 et Racines du polynôme: forme ACF réelle: mélange de 2 termes de décroissance exponentielle 38 38 Processus AR (2): yt 40.8yty t-2 et Racines du polynôme: conjugués complexes Forme ACF: sinusoïde amortie (P) stationnaire Si les racines du polynôme sont inférieures à 1 en valeur absolue AR (P) absolue absolue infinie MA représentation Sous la condition précédente 43 43 ACF p th ordre équations de différence linéaire AR (p). - satisfait les équations de Yule-Walker - ACF peut être trouvée à partir des p racines du polynôme associé, par ex. Racines réelles distinctes. - En général, les racines ne seront pas ACF réel. Mélange de décomposition exponentielle et sinusoïde amortie 44 44 ACF - MA (q) processus: outil utile pour identifier l'ordre de processus décroche après lag k - AR (p) processus: mélange de décomposition exponentielle sinusoïdales amorties Manque de fournir des informations sur la commande De AR 45 45 Fonction d'autocorrélation partielle Considérer. - trois variables aléatoires X, Y, Z - Simulation de régression de X sur ZY sur Z Les erreurs sont obtenues à partir de 46 46 Corrélation partielle entre XY après ajustement pour Z: Corrélation entre XY La corrélation partielle peut être considérée comme la corrélation entre deux variables après En fonction du facteur commun qui les affecte 47 47 Fonction d'autocorrélation partielle (PACF) entre yty tk L'autocorrélation entre yty tk après ajustement pour y t-1, y t-2, y tk Processus AR (p): PACF entre yty tk Pour kp doit être égal à zéro Considérons - une série temporelle stationnaire yt pas nécessairement un processus AR - Pour toute valeur fixe k, les équations de Yule-Walker pour l'ACF d'un processus AR (p) p doivent être égales à zéro Considérons - une série temporelle fixe yt Pas nécessairement un processus AR - Pour toute valeur fixe k, les équations de Yule-Walker pour l'ACF d'un processus AR (p) 48 48 Notation matricielle Solutions Pour tout k donné, k 1,2, le dernier coefficient est appelé autocorrélation partielle Coefficient de décroissance AR (2) MA (1) MA (2) Dégradation du motif AR (p) Processus: Identifier l'ordre d'un processus AR en utilisant le PACF 1) AR (2) Découpe après le 2 e décalage 50 50 Invertibilité des modèles MA Processus de moyenne mobile inverse: Le processus MA (q) est inversible s'il a une représentation infinie absolue en AR infini. On peut montrer: La représentation AR infini pour (Q) 51 51 Obtenir Nous avons besoin Condition de l'inversibilité Les racines du polynôme associé sont inférieures à 1 en valeur absolue Un processus MA (q) inversible peut alors être écrit comme un processus AR infini 52 52 PACF d'une MA (q) (ARMA) Process ARMA (p, q) Modèle ARMA (p, q) Ajustez le modèle de décroissance exponentielle en ajoutant un modèle de décomposition exponentielle Quelques termes 54 54 Stationarité du processus ARMA (p, q) Relatif à la composante AR ARMA (p, q) stationnaire si les racines du polynôme inférieur à un en valeur absolue ARMA (p, q) a une représentation MA infini 55 55 Invertibilité du processus ARMA (p, q) Invertibilité du processus ARMA lié au composant MA Vérification à travers les racines du polynôme Si les racines inférieures à 1 en valeur absolue alors ARMA (p, q) est inversible a une représentation infinie Coefficients: 60 60 Processus non stationnaire Pas de niveau constant, présentent un comportement homogène dans le temps yt est homogène, non stationnaire si - Il n'est pas stationnaire - Son première différence, wtyt - y t-1 (1-B) yt ou des différences d'ordre supérieur wt (1- (P, d, q) Si la différence d, wt (1-B) dyt produit un ARMA stationnaire (p, q) Le processus ARIMA (p, d, q) 61 61 Le processus de marche aléatoire ARIMA (0,1,0) Le modèle non stationnaire le plus simple La première différence élimine la dépendance sérielle donne un processus de bruit blanc 62 62 yt 20y t-1 et Evidence of non - Processus stationnaire - échantillon ACF. Mort lentement - échantillon PACF: significatif au premier lag - échantillon Valeur PACF au décalage 1 proche de 1 première différence - schéma temporel de w t. Stationnaire-échantillon ACF PACF: ne montrent aucune valeur significative - Utiliser ARIMA (0,1,0) 63 63 Le processus de marche aléatoire ARIMA (0,1,1) La représentation AR infini, dérivée de: ARIMA (0,1,1 (IMA (1,1)): exprimée en moyenne mobile pondérée exponentielle (EWMA) de toutes les valeurs passées 64 64 ARIMA (0,1,1) - La moyenne du processus se déplace vers le haut dans le temps - échantillon ACF: matrices Relativement lent - Exemple de PACF: 2 valeurs significatives aux décalages 1 2 - La première différence semble stationnaire - Exemple ACF PACF: un modèle MA (1) serait approprié pour la première différence, son ACF coupe après le premier décalage : AR (2) Vérifiez les racinesAutoregressive Integrated Moving Average (ARIMA) Connue sous le nom de méthode Box-Jenkins. Présentation sur le thème: Moyenne mobile autorégressive intégrée (ARIMA) Connue sous le nom de méthode Box-Jenkins. La méthodologie d'ARIMA met l'accent non seulement sur la construction d'équations simples ou sur des modèles d'équations simultanées, mais aussi sur l'analyse des propriétés probabilistes ou stochastiques des séries temporelles économiques sur leur Propre ensemble de données. Contrairement aux modèles de régression dans lesquels Yi est expliqué par k régresseur X 1, X 2, X 3. X k les modèles de séries temporelles de type BJ permettent à Y i d'être expliqué par des valeurs passées ou retardées de Y lui-même et une erreur stochastique termes. Pour cette raison, les modèles ARIMA sont parfois appelés un modèle théorique parce qu'ils ne sont pas dérivés de toute théorie économique et les théories économiques sont souvent la base des modèles d'équations simultanées. Notez que l'accent mis sur ce sujet est sur les modèles ARIMA univariés, car il s'agit d'une seule série temporelle. Mais peut être étendu aux modèles ARIMA multivariés. 3 Travaillons avec les données de séries chronologiques du PIB pour les États-Unis données dans le tableau. Un graphique de cette série temporelle est donné dans les figures 1 (PIB non différencié) et 2 (premier PIB différencié). Le PIB en forme de niveau est non stationnaire, mais dans (la première) forme différente, il est stationnaire. Si une série temporelle est immobile, elle peut s'adapter au modèle ARIMA de diverses manières. Un processus autorégressif (AR) Soit Y t le PIB au temps t. Si nous modélisons Y t comme (Y t -) 1 (Y t-1) ut où est la moyenne de Y et où ut est un terme d'erreur aléatoire non corrélé avec une moyenne nulle et une variance constante 2 (c'est-à-dire un bruit blanc) On dit que Y t suit un processus stochastique autorégressif de premier ordre ou AR (l) 4 Ici, la valeur de Y au temps t dépend de sa valeur dans la période de temps précédente et d'un terme aléatoire les valeurs Y sont exprimées comme étant des écarts par rapport à Leur valeur moyenne. En d'autres termes, ce modèle indique que la valeur de prévision de Y à l'instant t est simplement une certaine proportion (l) de sa valeur au temps (t-1) plus un choc aléatoire ou une perturbation au temps t encore que les valeurs de Y soient exprimées autour de leur valeurs moyennes. Mais dans le modèle, (Y t -) 1 (Y t-1) 2 (Y t-2) u t Y t suit un processus autorégressif de second ordre ou AR (2). La valeur de Y à l'instant t dépend de sa valeur dans les deux périodes de temps précédentes, les valeurs Y étant exprimées autour de leur valeur moyenne. En général, (Y t -) 1 (Y t-1) 2 (Y t-2). P (Y t-p) u t Ici, Y t est un ordre p autorégressif ou AR (p), processus. Supposons que nous modélisons Y comme suit: Y t 0 u t 1 u t-1 où est une constante et u t comme précédemment, est le terme d'erreur stochastique de bruit blanc. Ici, Y au temps t est égal à une constante plus une moyenne mobile des termes d'erreur courants et passés. Ainsi, dans le cas présent, Y suit une moyenne mobile du premier ordre ou un processus MA (1). Mais si Y reprend l'expression Y t 0 u t 1 u t-1 2 u t-2 alors c'est un processus MA (2). En général, Yt 0 u t 1 u t-1 2 u t-2. Q u t-q est un processus MA (q). En bref, un processus de moyenne mobile est simplement une combinaison linéaire de termes d'erreur de bruit blanc. 6 Un processus ARRE (Autoregressive and Moving Average) Il est fort probable que Y ait des caractéristiques de AR et de MA et qu'il soit donc ARMA. Ainsi, Y t suit un processus ARMA (1, 1) s'il peut être écrit comme Y t 1 Y t-1 0 u t 1 u t-1 car il ya un terme autorégressif et un terme moyen mobile et représente un terme constant. En général, dans un processus ARMA (p, q), il y aura p termes autorégressifs et q moyenne mobile. Processus de moyenne mobile intégrée autorégressive (ARIMA) De nombreuses séries chronologiques économiques sont non stationnaires, c'est-à-dire intégrées. 7 Si une série temporelle est intégrée de l'ordre 1, c'est-à-dire qu'elle est I (1), ses premières différences sont I (0), c'est-à-dire stationnaires. De même, si une série temporelle est I (2), sa seconde différence est I (0). En général, si une série temporelle est I (d), après avoir différencié d fois, on obtient une série I (0). Par conséquent, si dans une série de temps d fois différence le rendre stationnaire, alors il est ARIMA (p, d, q) modèle est appelé un modèle de la série temporelle moyenne mobile intégrée autorégressive. Où p désigne le nombre de termes autorégressifs, d le nombre de fois où la série doit être différenciée avant qu'elle ne devienne stationnaire, et q le nombre de termes de moyenne mobile. Une série temporelle ARIMA (2,1,2) doit être différenciée une fois (d 1) devient stationnaire et elle a deux AR et deux termes MA. Le point important à noter est que pour utiliser la méthode de Box-Jenkins, nous devons avoir soit une série chronologique stationnaire, soit une série temporelle qui est stationnaire après une ou plusieurs différenciations. La raison de l'hypothèse de stationnarité peut être expliquée comme suit: L'objectif de B-J Box-Jenkins est d'identifier et d'estimer un modèle statistique qui peut être interprété comme ayant généré les données de l'échantillon. Si ce modèle estimé doit ensuite être utilisé pour la prévision, il faut supposer que les caractéristiques de ce modèle sont constantes dans le temps, et particulièrement sur les périodes de temps futures. Ainsi, la raison pour laquelle on exige des données stationnaires est que tout modèle qui est déduit de ces données peut être interprété comme stationnaire ou stable, fournissant ainsi une base valide pour la prévision. 9 LA MÉTHODOLOGIE BOX-JENKINS (BJ) En examinant une série chronologique, comme la série du PIB des États-Unis, Comment savoir si elle suit un processus purement AR (et si oui, quelle est la valeur de p) ou un processus purement MA (et si oui, quelle est la valeur de q) ou un processus ARMA (et si oui, Sont les valeurs de p et q) ou un processus ARIMA. Dans ce cas, nous devons connaître les valeurs de p, d et q. La méthodologie BJ répondant à ces questions. La méthode consiste en quatre étapes: Étape 1. Identification: C'est-à-dire, trouver les valeurs appropriées de p, d et q en utilisant le corrélogramme et le corrélogramme partiel et Augmenté Dickey Fuller Test. Etape 2. Estimation: Après avoir identifié les valeurs p et q appropriées, l'étape suivante consiste à estimer les paramètres des termes autorégressifs et des moyennes mobiles inclus dans le modèle. Parfois, ce calcul peut être fait par des moindres carrés simples, mais nous devrons parfois recourir à des méthodes d'estimation non linéaires (en paramètre). Puisque cette tâche est maintenant couramment gérée par plusieurs paquets statistiques, nous n'avons pas à nous soucier des mathématiques réelles de l'estimation. Étape 3. Vérification de diagnostic: Après avoir choisi un modèle ARIMA particulier et avoir estimé ses paramètres, nous verrons ensuite si le modèle choisi correspond assez bien aux données, car il est possible qu'un autre modèle ARIMA fasse le travail aussi bien. 12 C'est pourquoi la modélisation ARIMA de Box-Jenkins est plus un art qu'une science, une grande habileté est nécessaire pour choisir le modèle ARIMA approprié. Un test simple du modèle choisi est de voir si les résidus estimés à partir de ce modèle sont le bruit blanc si elles sont, nous pouvons accepter l'ajustement particulier si non, nous devons recommencer. Ainsi, la méthodologie BJ est un processus itératif. Étape 4. Prévision: Une des raisons de la popularité de la modélisation ARIMA est son succès dans la prévision. Dans de nombreux cas, les prévisions obtenues par cette méthode sont plus fiables que celles obtenues à partir de la modélisation économétrique traditionnelle, en particulier pour les prévisions à court terme. Examinons ces quatre étapes en détail. Tout au long, nous utiliserons les données du PIB données dans le tableau. 13 IDENTIFICATION Les principaux outils d'identification sont la fonction d'autocorrélation (ACF), la fonction d'autocorrélation partielle (PACF) et le corrélogramme résultant, qui sont simplement les tracés des ACF et des PACFs par rapport à la longueur du retard. Le concept d'autocorrélation partielle est analogue au concept de coefficient de régression partielle. Dans le modèle de régression multiple à k variables, le kème coefficient de régression k mesure le taux de variation de la valeur moyenne de la régression et d'un changement d'unité dans le kème régresseur X k, en maintenant l'influence de tous les autres régresseurs constante. 14 De façon similaire, l'autocorrélation partielle kk mesure la corrélation entre les observations de (séries chronologiques) qui sont k périodes de temps séparées après avoir contrôlé pour des corrélations à des décalages intermédiaires (c'est-à-dire un retard inférieur à k). En d'autres termes, l'autocorrélation partielle est la corrélation entre Y t et Y t-k après élimination de l'effet des Y intermédiaires. Dans la figure, nous montrons le corrélogramme et le corrélogramme partiel de la série du PIB. De ce chiffre, deux faits se démarquent: Premièrement, l'ACF diminue très lentement et ACF jusqu'à 23 retards sont individuellement statistiquement significativement différents de zéro, car ils sont tous en dehors des 95 limites de confiance. Deuxièmement, après le premier décalage, le PACF chute de façon spectaculaire, et tous les PACF après le décalage 1 sont statistiquement insignifiants. Étant donné que la série chronologique du PIB des États-Unis n'est pas stationnaire, nous devons la rendre stationnaire avant de pouvoir appliquer la méthode de Box-Jenkins. Dans la figure suivante, nous avons représenté les premières différences du PIB. Contrairement à la figure précédente, nous n'observons aucune tendance dans cette série, suggérant peut-être que la série temporelle du PIB différenciée est stationnaire. Une application formelle du test racine unitaire de Dickey-Fuller montre que c'est bien le cas. Maintenant, nous avons un modèle différent de ACF et PACE Les ACFs aux lags 1, 8 et 12 semblent statistiquement différents de zéro. Environ 95 limites de confiance pour k sont et Mais pour tous les autres décalages ne sont pas statistiquement différents de zéro. Cela est également vrai pour les autocorrélations partielles. 18 Maintenant, comment le corrélogramme donné dans la figure nous permettent de trouver le modèle ARMA de la série chronologique du PIB Nous considérerons seulement la première série différenciée du PIB parce qu'elle est stationnaire. Une façon d'accomplir cela est d'examiner l'ACF et le PACF et le corrélogramme associé d'un certain nombre de processus ARMA, tels que AR (l), AR (2), MA (1), MA (2), ARMA (1, 1), ARIMA (2, 2), et ainsi de suite. Puisque chacun de ces processus stochastiques présente des schémas typiques d'ACF et de PACF, si la série chronologique étudiée correspond à l'un de ces modèles, nous pouvons identifier la série temporelle avec ce processus. Bien sûr, nous devrons appliquer des tests de diagnostic pour savoir si le modèle ARMA choisi est raisonnablement exact. 19 Ce que nous prévoyons de faire est de donner des directives générales (voir le tableau), les références peuvent donner les détails des différents processus stochastiques. Les ACF et les PACF des processus AR (p) et MA (q) ont des motifs opposés dans AR (p) cas où le CA décline géométriquement ou exponentiellement mais le PACF coupe après un certain nombre de décalages alors que le contraire se produit à un MA Q) processus. Tableau: Modèles théoriques de l'ACF et du PACF Type de modèle Modèle typique du modèle ACFTypical de PACF AR (p) Décompose de façon exponentielle ou avec un schéma d'onde sinusoïdale amortie ou les deux Signaux significatifs à travers les décalages p MA (q) Q) Décomposition exponentielle 20 ARIMA Identification du PIB des États-Unis: Le corrélogramme et le corrélogramme partiel du PIB américain stationnaire (après la première différence) pour 1991-IV donné dans la figure montrée Les autocorrélations diminuent jusqu'au décalage 4, sauf aux décalages 8 et 12, les autres ne sont statistiquement pas différents de zéro (les lignes continues représentées sur cette figure donnent les limites de confiance approximatives de 95). Les autocorrélations partielles avec les pointes au décalage 1, 8 et 12 semblent statistiquement significatives, mais les autres ne le sont pas si le coefficient de corrélation partielle était significatif seulement au décalage 1, on aurait pu l'identifier comme un modèle AR (l). Supposons donc que le processus qui a généré le PIB (premier différencié) est au plus un processus AR (12). Nous n'avons pas à inclure tous les termes AR à 12, seulement les termes AR aux décalages 1, 8 et 12 sont significatifs. 21 ESTIMATION DU MODÈLE ARIMA Soit les premières différences du PIB américain. Ensuite, notre modèle provisoirement identifié est l'utilisation d'Eviews, nous avons obtenu les estimations suivantes: t (7.7547) (3.4695) () () R 2 d 22 CONTRÔLE DIAGNOSTIQUE Comment savons-nous que le modèle ci-dessus est un ajustement raisonnable aux données Un simple Diagnostic est d'obtenir des résidus à partir du modèle ci-dessus et d'obtenir ACF et PACF de ces résidus, disons, jusqu'à lag 25. L'estimé AC et PACF sont montrés à la figure. Comme le montre cette figure, aucune des autocorrélations et autocorrélations partielles n'est individuellement statistiquement significative. La somme des autocorrélations au 25 carré, comme le montrent les statistiques de Box-Pierce Q et Ljung-Box LB, n'est pas statistiquement significative. Le corrélogramme de l'autocorrélation et de l'autocorrélation partielle donne que les résidus estimés sont purement aléatoires. Par conséquent, il n'est peut-être pas nécessaire de rechercher un autre modèle ARIMA. 24 PRÉVISIONS Supposons que, sur la base du modèle ci-dessus, nous souhaitons prévoir le PIB pour les quatre premiers trimestres de 2000. Mais dans le modèle ci-dessus, la variable dépendante est la variation du PIB par rapport au trimestre précédent. Par conséquent, si nous utilisons le modèle ci-dessus, nous pouvons obtenir les prévisions de variation du PIB entre le premier trimestre de 1992 et le quatrième trimestre de 1991, le deuxième trimestre de 1992 par rapport au premier trimestre de 1992, etc. PIB plutôt que ses changements, nous pouvons annuler la transformation de première différence que nous avions utilisée pour obtenir les changements. (Plus techniquement, nous intégrons les séries de premier ordre.) 25 Pour obtenir la valeur de prévision du PIB (non du PIB) pour. Nous réécrivons le modèle comme Y 1992, I - Y 1991, IV l Y 1991, IV Y 1991, III 8 Y 1989, IV Y 1989, III 12 Y 1988, IV Y 1988, III u 1992-I C'est-à-dire Y 1992, Les valeurs de l, 8 et 12 sont déjà indiquées dans le tableau ci-dessous. Connus à partir de la régression estimée. La valeur de u-1992-I est supposée nulle. Par conséquent, nous pouvons facilement obtenir la valeur de prévision de Y 1992-I. 26 L'estimation numérique de cette valeur de prévision est Y 1992, I () Y 1991, IV Y 1991, III () Y 1989, IV - () Y 1989, III () Y 1988, IV () Y 1988, III u 1992 Ainsi, la valeur prévisionnelle du PIB pour 1992-I est d'environ 4877 milliards de dollars (en dollars de 1987). La valeur réelle du PIB réel pour 1992-I était le milliard de l'erreur de prévision était une surestimation de 3 milliards. Moyenne mobile de l'évolution ARMA (p, q) Modèles pour l'analyse des séries chronologiques - Partie 1 Dans le dernier article, nous avons examiné randonnées aléatoires et blanc Le bruit comme modèles de série chronologique de base pour certains instruments financiers, tels que les cours quotidiens d'actions et les indices boursiers. Nous avons constaté que dans certains cas un modèle de marche aléatoire était insuffisant pour capturer le comportement d'autocorrélation complet de l'instrument, ce qui motive des modèles plus sophistiqués. Dans les deux prochains articles, nous allons discuter de trois types de modèle, à savoir le modèle autorégressif (AR) d'ordre p, le modèle de moyenne mobile (MO) d'ordre q et le modèle de la moyenne mobile déplacée (ARMA) mixte de l'ordre p , Q. Ces modèles nous aideront à tenter de saisir ou d'expliquer davantage la corrélation sérielle présente dans un instrument. En fin de compte, ils nous fourniront un moyen de prévoir les prix futurs. Cependant, il est bien connu que les séries chronologiques financières possèdent une propriété connue sous le nom de regroupement de la volatilité. Autrement dit, la volatilité de l'instrument n'est pas constante dans le temps. Le terme technique de ce comportement est connu sous le nom d'hétéroscédasticité conditionnelle. Comme les modèles AR, MA et ARMA ne sont pas conditionnellement hétéroscédasticisés, c'est-à-dire qu'ils ne tiennent pas compte de la volatilité, nous aurons besoin d'un modèle plus sophistiqué pour nos prédictions. De tels modèles incluent le modèle Hectoroskedastic conditionnel (ARCH) et le modèle Hectoroskedastic conditionnel (GARCH), et les nombreuses variantes de celui-ci. GARCH est particulièrement bien connu en finance quantitative et est principalement utilisé pour des simulations de séries chronologiques financières comme moyen d'estimer le risque. Cependant, comme avec tous les articles QuantStart, je veux construire ces modèles à partir de versions plus simples afin que nous puissions voir comment chaque nouvelle variante change notre capacité de prédiction. Malgré le fait que AR, MA et ARMA sont des modèles de séries temporelles relativement simples, ils sont à la base de modèles plus compliqués tels que la moyenne mobile intégrée (ARIMA) et la famille GARCH. Il est donc important que nous les étudions. Une de nos premières stratégies de négociation dans la série d'articles de séries chronologiques sera de combiner ARIMA et GARCH afin de prévoir les prix n périodes à l'avance. Cependant, nous devrons attendre jusqu'à ce que nous ayons discuté à la fois ARIMA et GARCH séparément avant de les appliquer à une véritable stratégie. Comment allons-nous? Dans cet article, nous allons présenter quelques nouveaux concepts de séries chronologiques qui ont besoin des autres méthodes, La stationnarité et le critère d'information Akaike (AIC). À la suite de ces nouveaux concepts, nous suivrons le modèle traditionnel pour l'étude de nouveaux modèles de séries temporelles: Rationale - La première tâche est de fournir une raison pour laquelle ils étaient intéressés par un modèle particulier, comme quants. Pourquoi introduisons-nous le modèle de la série chronologique Quels effets peut-il capturer Que gagnons-nous (ou perdons) en ajoutant une complexité supplémentaire Définition - Nous devons fournir la définition mathématique complète (et la notation associée) du modèle de série chronologique afin de minimiser Toute ambiguïté. Propriétés de second ordre - Nous allons discuter (et dans certains cas dériver) les propriétés du second ordre du modèle de série chronologique, qui comprend sa moyenne, sa variance et sa fonction d'autocorrélation. Correlogramme - Nous utiliserons les propriétés du second ordre pour tracer un corrélogramme d'une réalisation du modèle de série chronologique afin de visualiser son comportement. Simulation - Nous simulerons les réalisations du modèle de la série temporelle et ensuite adaptons le modèle à ces simulations pour nous assurer d'avoir des implémentations précises et de comprendre le processus d'ajustement. Données financières réelles - Nous allons adapter le modèle de la série chronologique aux données financières réelles et considérer le corrélogramme des résidus afin de voir comment le modèle tient compte de la corrélation sérielle dans la série originale. Prédiction - Nous allons créer des prévisions n-step ahead du modèle de série chronologique pour des réalisations particulières afin de produire finalement des signaux de trading. Presque tous les articles que j'écris sur les modèles de séries chronologiques vont tomber dans ce modèle et il nous permettra de comparer facilement les différences entre chaque modèle que nous ajoutons plus de complexité. Nous allions commencer par regarder la stationnarité stricte et l'AIC. Strictement stationnaire Nous avons fourni la définition de stationnarité dans l'article sur la corrélation sérielle. Toutefois, étant donné que nous allons entrer dans le domaine de nombreuses séries financières, avec diverses fréquences, nous devons nous assurer que nos modèles (éventuels) tiennent compte de la volatilité variable dans le temps de ces séries. En particulier, nous devons considérer leur hétéroscédasticité. Nous rencontrerons cette question lorsque nous essaierons d'adapter certains modèles à des séries historiques. Généralement, on ne peut pas tenir compte de la totalité de la corrélation sérielle dans les résidus des modèles ajustés sans tenir compte de l'hétéroscédasticité. Cela nous ramène à la stationnarité. Une série n'est pas stationnaire dans la variance si elle a une volatilité variable dans le temps, par définition. La stationnalité stricte de la série A est rigoureusement stationnaire si la distribution statistique conjointe des éléments x, ldots, x est la même que celle de xm, ldots, xm, Pour tout ti, m. On peut penser à cette définition simplement que la distribution de la série temporelle est inchangée pour tout changement abrégé dans le temps. En particulier, la moyenne et la variance sont constantes dans le temps pour une série strictement stationnaire et l'autocovariance entre xt et xs (disons) ne dépend que de la différence absolue de t et s, t-s. Nous reviendrons sérieusement stationnaire dans les futurs postes. Critère d'information Akaike J'ai mentionné dans les articles précédents que nous aurions éventuellement besoin d'examiner comment choisir entre les meilleurs modèles distincts. This is true not only of time series analysis, but also of machine learning and, more broadly, statistics in general. The two main methods we will use (for the time being) are the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (as we progress further with our articles on Bayesian Statistics ). Well briefly consider the AIC, as it will be used in Part 2 of the ARMA article. AIC is essentially a tool to aid in model selection. That is, if we have a selection of statistical models (including time series), then the AIC estimates the quality of each model, relative to the others that we have available. It is based on information theory. which is a highly interesting, deep topic that unfortunately we cant go into too much detail about. It attempts to balance the complexity of the model, which in this case means the number of parameters, with how well it fits the data. Lets provide a definition: Akaike Information Criterion If we take the likelihood function for a statistical model, which has k parameters, and L maximises the likelihood. then the Akaike Information Criterion is given by: The preferred model, from a selection of models, has the minium AIC of the group. You can see that the AIC grows as the number of parameters, k, increases, but is reduced if the negative log-likelihood increases. Essentially it penalises models that are overfit . We are going to be creating AR, MA and ARMA models of varying orders and one way to choose the best model fit a particular dataset is to use the AIC. This is what well be doing in the next article, primarily for ARMA models. Autoregressive (AR) Models of order p The first model were going to consider, which forms the basis of Part 1, is the Autoregressive model of order p, often shortened to AR(p). In the previous article we considered the random walk . where each term, xt is dependent solely upon the previous term, x and a stochastic white noise term, wt: The autoregressive model is simply an extension of the random walk that includes terms further back in time. The structure of the model is linear . that is the model depends linearly on the previous terms, with coefficients for each term. This is where the regressive comes from in autoregressive. It is essentially a regression model where the previous terms are the predictors. Autoregressive Model of order p A time series model, , is an autoregressive model of order p . AR(p), if: begin xt alpha1 x ldots alphap x wt sum p alphai x wt end Where is white noise and alphai in mathbb , with alphap neq 0 for a p-order autoregressive process. If we consider the Backward Shift Operator . (see previous article ) then we can rewrite the above as a function theta of : begin thetap ( ) xt (1 - alpha1 - alpha2 2 - ldots - alphap ) xt wt end Perhaps the first thing to notice about the AR(p) model is that a random walk is simply AR(1) with alpha1 equal to unity. As we stated above, the autogressive model is an extension of the random walk, so this makes sense It is straightforward to make predictions with the AR(p) model, for any time t, as once we have the alphai coefficients determined, our estimate simply becomes: begin hat t alpha1 x ldots alphap x end Hence we can make n-step ahead forecasts by producing hat t, hat , hat , etc up to hat . In fact, once we consider the ARMA models in Part 2, we will use the R predict function to create forecasts (along with standard error confidence interval bands) that will help us produce trading signals. Stationarity for Autoregressive Processes One of the most important aspects of the AR(p) model is that it is not always stationary. Indeed the stationarity of a particular model depends upon the parameters. Ive touched on this before in a previous article . In order to determine whether an AR(p) process is stationary or not we need to solve the characteristic equation . The characteristic equation is simply the autoregressive model, written in backward shift form, set to zero: We solve this equation for . In order for the particular autoregressive process to be stationary we need all of the absolute values of the roots of this equation to exceed unity. This is an extremely useful property and allows us to quickly calculate whether an AR(p) process is stationary or not. Lets consider a few examples to make this idea concrete: Random Walk - The AR(1) process with alpha1 1 has the characteristic equation theta 1 - . Clearly this has root 1 and as such is not stationary. AR(1) - If we choose alpha1 frac we get xt frac x wt. This gives us a characteristic equation of 1 - frac 0, which has a root 4 gt 1 and so this particular AR(1) process is stationary. AR(2) - If we set alpha1 alpha2 frac then we get xt frac x frac x wt. Its characteristic equation becomes - frac ( )( ) 0, which gives two roots of 1, -2. Since this has a unit root it is a non-stationary series. However, other AR(2) series can be stationary. Second Order Properties The mean of an AR(p) process is zero. However, the autocovariances and autocorrelations are given by recursive functions, known as the Yule-Walker equations. The full properties are given below: begin mux E(xt) 0 end begin gammak sum p alphai gamma , enspace k 0 end begin rhok sum p alphai rho , enspace k 0 end Note that it is necessary to know the alphai parameter values prior to calculating the autocorrelations. Now that weve stated the second order properties we can simulate various orders of AR(p) and plot the corresponding correlograms. Simulations and Correlograms Lets begin with an AR(1) process. This is similar to a random walk, except that alpha1 does not have to equal unity. Our model is going to have alpha1 0.6. The R code for creating this simulation is given as follows: Notice that our for loop is carried out from 2 to 100, not 1 to 100, as xt-1 when t0 is not indexable. Similarly for higher order AR(p) processes, t must range from p to 100 in this loop. We can plot the realisation of this model and its associated correlogram using the layout function: Lets now try fitting an AR(p) process to the simulated data weve just generated, to see if we can recover the underlying parameters. You may recall that we carried out a similar procedure in the article on white noise and random walks . As it turns out R provides a useful command ar to fit autoregressive models. We can use this method to firstly tell us the best order p of the model (as determined by the AIC above) and provide us with parameter estimates for the alphai, which we can then use to form confidence intervals. For completeness, lets recreate the x series: Now we use the ar command to fit an autoregressive model to our simulated AR(1) process, using maximum likelihood estimation (MLE) as the fitting procedure. We will firstly extract the best obtained order: The ar command has successfully determined that our underlying time series model is an AR(1) process. We can then obtain the alphai parameter(s) estimates: The MLE procedure has produced an estimate, hat 0.523, which is slightly lower than the true value of alpha1 0.6. Finally, we can use the standard error (with the asymptotic variance) to construct 95 confidence intervals around the underlying parameter(s). To achieve this, we simply create a vector c(-1.96, 1.96) and then multiply it by the standard error: The true parameter does fall within the 95 confidence interval, as wed expect from the fact weve generated the realisation from the model specifically. How about if we change the alpha1 -0.6 As before we can fit an AR(p) model using ar : Once again we recover the correct order of the model, with a very good estimate hat -0.597 of alpha1-0.6. We also see that the true parameter falls within the 95 confidence interval once again. Lets add some more complexity to our autoregressive processes by simulating a model of order 2. In particular, we will set alpha10.666, but also set alpha2 -0.333. Heres the full code to simulate and plot the realisation, as well as the correlogram for such a series: As before we can see that the correlogram differs significantly from that of white noise, as wed expect. There are statistically significant peaks at k1, k3 and k4. Once again, were going to use the ar command to fit an AR(p) model to our underlying AR(2) realisation. The procedure is similar as for the AR(1) fit: The correct order has been recovered and the parameter estimates hat 0.696 and hat -0.395 are not too far off the true parameter values of alpha10.666 and alpha2-0.333. Notice that we receive a convergence warning message. Notice also that R actually uses the arima0 function to calculate the AR model. As well learn in subsequent articles, AR(p) models are simply ARIMA(p, 0, 0) models, and thus an AR model is a special case of ARIMA with no Moving Average (MA) component. Well also be using the arima command to create confidence intervals around multiple parameters, which is why weve neglected to do it here. Now that weve created some simulated data it is time to apply the AR(p) models to financial asset time series. Financial Data Amazon Inc. Lets begin by obtaining the stock price for Amazon (AMZN) using quantmod as in the last article : The first task is to always plot the price for a brief visual inspection. In this case well using the daily closing prices: Youll notice that quantmod adds some formatting for us, namely the date, and a slightly prettier chart than the usual R charts: We are now going to take the logarithmic returns of AMZN and then the first-order difference of the series in order to convert the original price series from a non-stationary series to a (potentially) stationary one. This allows us to compare apples to apples between equities, indices or any other asset, for use in later multivariate statistics, such as when calculating a covariance matrix. If you would like a detailed explanation as to why log returns are preferable, take a look at this article over at Quantivity . Lets create a new series, amznrt. to hold our differenced log returns: Once again, we can plot the series: At this stage we want to plot the correlogram. Were looking to see if the differenced series looks like white noise. If it does not then there is unexplained serial correlation, which might be explained by an autoregressive model. We notice a statististically significant peak at k2. Hence there is a reasonable possibility of unexplained serial correlation. Be aware though, that this may be due to sampling bias. As such, we can try fitting an AR(p) model to the series and produce confidence intervals for the parameters: Fitting the ar autoregressive model to the first order differenced series of log prices produces an AR(2) model, with hat -0.0278 and hat -0.0687. Ive also output the aysmptotic variance so that we can calculate standard errors for the parameters and produce confidence intervals. We want to see whether zero is part of the 95 confidence interval, as if it is, it reduces our confidence that we have a true underlying AR(2) process for the AMZN series. To calculate the confidence intervals at the 95 level for each parameter, we use the following commands. We take the square root of the first element of the asymptotic variance matrix to produce a standard error, then create confidence intervals by multiplying it by -1.96 and 1.96 respectively, for the 95 level: Note that this becomes more straightforward when using the arima function, but well wait until Part 2 before introducing it properly. Thus we can see that for alpha1 zero is contained within the confidence interval, while for alpha2 zero is not contained in the confidence interval. Hence we should be very careful in thinking that we really have an underlying generative AR(2) model for AMZN. In particular we note that the autoregressive model does not take into account volatility clustering, which leads to clustering of serial correlation in financial time series. When we consider the ARCH and GARCH models in later articles, we will account for this. When we come to use the full arima function in the next article, we will make predictions of the daily log price series in order to allow us to create trading signals. SampP500 US Equity Index Along with individual stocks we can also consider the US Equity index, the SampP500. Lets apply all of the previous commands to this series and produce the plots as before: We can plot the prices: As before, well create the first order difference of the log closing prices: Once again, we can plot the series: It is clear from this chart that the volatility is not stationary in time. This is also reflected in the plot of the correlogram. There are many peaks, including k1 and k2, which are statistically significant beyond a white noise model. In addition, we see evidence of long-memory processes as there are some statistically significant peaks at k16, k18 and k21: Ultimately we will need a more sophisticated model than an autoregressive model of order p. However, at this stage we can still try fitting such a model. Lets see what we get if we do so: Using ar produces an AR(22) model, i. e. a model with 22 non-zero parameters What does this tell us It is indicative that there is likely a lot more complexity in the serial correlation than a simple linear model of past prices can really account for. However, we already knew this because we can see that there is significant serial correlation in the volatility. For instance, consider the highly volatile period around 2008. This motivates the next set of models, namely the Moving Average MA(q) and the Autoregressive Moving Average ARMA(p, q). Well learn about both of these in Part 2 of this article. As we repeatedly mention, these will ultimately lead us to the ARIMA and GARCH family of models, both of which will provide a much better fit to the serial correlation complexity of the Samp500. This will allows us to improve our forecasts significantly and ultimately produce more profitable strategies. Click Below To Learn More About. The information contained on this web site is the opinion of the individual authors based on their personal observation, research, and years of experience. The publisher and its authors are not registered investment advisers, attorneys, CPAs or other financial service professionals and do not render legal, tax, accounting, investment advice or other professional services. The information offered by this web site is general education only. Because each individuals factual situation is different the reader should seek his or her own personal adviser. Neither the author nor the publisher assumes any liability or responsibility for any errors or omissions and shall have neither liability nor responsibility to any person or entity with respect to damage caused or alleged to be caused directly or indirectly by the information contained on this site. Use at your own risk. Additionally, this website may receive financial compensation from the companies mentioned through advertising, affiliate programs or otherwise. Rates and offers from advertisers shown on this website change frequently, sometimes without notice. While we strive to maintain timely and accurate information, offer details may be out of date. Visitors should thus verify the terms of any such offers prior to participating in them. The author and its publisher disclaim responsibility for updating information and disclaim responsibility for third-party content, products, and services including when accessed through hyperlinks andor advertisements on this site.


No comments:

Post a Comment