Tuesday 16 May 2017

Autoregressive Gleitende Mittlere Autokorrelation

Zweck: Überprüfung der Zufallszahlen Autokorrelationsdiagramme (Box und Jenkins, S. 28-32) sind ein gängiges Werkzeug zur Überprüfung der Zufälligkeit in einem Datensatz. Diese Zufälligkeit wird durch Berechnen von Autokorrelationen für Datenwerte bei variierenden Zeitverzögerungen ermittelt. Wenn sie zufällig sind, sollten solche Autokorrelationen nahezu null für irgendwelche und alle zeitlichen Verzögerungen sein. Wenn nicht-zufällig, dann werden eine oder mehrere der Autokorrelationen signifikant ungleich Null sein. Darüber hinaus werden Autokorrelationsdiagramme in der Modellidentifikationsstufe für autoregressive, gleitende mittlere Zeitreihenmodelle von Box-Jenkins verwendet. Autokorrelation ist nur ein Maß der Zufälligkeit Beachten Sie, dass unkorreliert nicht unbedingt zufällig bedeutet. Daten mit signifikanter Autokorrelation sind nicht zufällig. Daten, die keine signifikante Autokorrelation aufweisen, können jedoch auf andere Weise noch nicht-zufällig auftreten. Autokorrelation ist nur ein Maß der Zufälligkeit. Im Rahmen der Modellvalidierung (die der primäre Typ der Zufälligkeit ist, die wir im Handbuch behandeln) ist die Überprüfung auf Autokorrelation typischerweise ein ausreichender Test der Zufälligkeit, da die Residuen von schlechten Anpassungsmodellen dazu tendieren, nicht-subtile Zufälligkeit zu zeigen. Einige Anwendungen erfordern jedoch eine strengere Bestimmung der Zufälligkeit. In diesen Fällen wird eine Batterie von Tests, die eine Überprüfung auf Autokorrelation einschließen kann, angewandt, da Daten in vielen verschiedenen und oft subtilen Arten nicht-zufällig sein können. Ein Beispiel dafür, wo eine strengere Überprüfung der Zufälligkeit erforderlich ist, wäre das Testen von Zufallszahlengeneratoren. Beispiel-Diagramm: Autokorrelationen sollten nahe-Null für die Zufälligkeit sein. Dies ist bei diesem Beispiel nicht der Fall, so dass die Zufallsannahme fehlschlägt. Dieses Beispiel-Autokorrelationsdiagramm zeigt, dass die Zeitreihe nicht zufällig ist, sondern vielmehr einen hohen Grad an Autokorrelation zwischen benachbarten und nahe benachbarten Beobachtungen aufweist. Definition: r (h) versus h Autokorrelationsdiagramme werden durch vertikale Achse gebildet: Autokorrelationskoeffizient, wobei C h die Autokovarianzfunktion ist und C 0 die Varianzfunktion ist. Beachten Sie, dass R h zwischen -1 und 1 liegt Folgende Formel für die Autokovarianz-Funktion Obwohl diese Definition weniger Vorspannung hat, hat die (1 / N) - Formulierung einige wünschenswerte statistische Eigenschaften und ist die am häufigsten in der Statistikliteratur verwendete Form. Siehe Seiten 20 und 49-50 in Chatfield für Details. Horizontale Achse: Zeitverzögerung h (h 1, 2, 3.) Die obige Zeile enthält auch mehrere horizontale Bezugslinien. Die Mittellinie ist auf Null. Die anderen vier Zeilen sind 95 und 99 Konfidenzbänder. Beachten Sie, dass es zwei verschiedene Formeln für die Erzeugung der Vertrauensbänder gibt. Wenn das Autokorrelationsdiagramm verwendet wird, um auf Zufälligkeit zu testen (dh es gibt keine Zeitabhängigkeit in den Daten), wird die folgende Formel empfohlen: wobei N die Stichprobengröße ist, z die kumulative Verteilungsfunktion der Standardnormalverteilung und (alpha ) Ist das Signifikanzniveau. In diesem Fall haben die Vertrauensbänder eine feste Breite, die von der Probengröße abhängt. Dies ist die Formel, die verwendet wurde, um die Vertrauensbänder im obigen Diagramm zu erzeugen. Autokorrelationsdiagramme werden auch in der Modellidentifikationsstufe für die Montage von ARIMA-Modellen verwendet. In diesem Fall wird für die Daten ein gleitendes Durchschnittsmodell angenommen und die folgenden Konfidenzbänder erzeugt: wobei k die Verzögerung, N die Stichprobengröße, z die kumulative Verteilungsfunktion der Standardnormalverteilung und (alpha) ist Das Signifikanzniveau. In diesem Fall nehmen die Vertrauensbänder zu, wenn die Verzögerung zunimmt. Das Autokorrelationsdiagramm kann Antworten auf die folgenden Fragen liefern: Sind die Daten zufällig Ist eine Beobachtung, die mit einer angrenzenden Beobachtung in Beziehung steht, ist eine Beobachtung, die mit einer zweimal entfernten Beobachtung zusammenhängt (usw.) Ist die beobachtete Zeitreihe weißes Rauschen Ist die beobachtete Zeitreihe sinusförmig Ist die beobachtete Zeitreihe autoregressiv Was ist ein geeignetes Modell für die beobachtete Zeitreihe Ist das Modell gültig und ausreichend Ist die Formel ss / sqrt gültig Bedeutung: Sicherstellung der Gültigkeit der technischen Ergebnisse Randomness (zusammen mit festem Modell, fester Variation und fester Verteilung) Ist eine der vier Annahmen, die typischerweise allen Messprozessen zugrunde liegen. Die Zufallsannahme ist aus den folgenden drei Gründen von entscheidender Bedeutung: Die meisten standardmäßigen statistischen Tests hängen von der Zufälligkeit ab. Die Gültigkeit der Testresultate steht in direktem Zusammenhang mit der Gültigkeit der Zufallsannahme. Viele häufig verwendete statistische Formeln hängen von der Zufallsannahme ab, wobei die häufigste Formel die Formel zur Bestimmung der Standardabweichung des Stichprobenmittels ist: wobei s die Standardabweichung der Daten ist. Obwohl stark verwendet, sind die Ergebnisse aus der Verwendung dieser Formel ohne Wert, es sei denn, die Zufälligkeitsannahme gilt. Für univariate Daten ist das Standardmodell Wenn die Daten nicht zufällig sind, ist dieses Modell falsch und ungültig, und die Schätzungen für die Parameter (wie die Konstante) werden unsinnig und ungültig. Kurz, wenn der Analytiker nicht auf Zufälligkeit prüft, dann wird die Gültigkeit vieler statistischer Schlüsse verdächtig. Das Autokorrelationsdiagramm ist eine hervorragende Möglichkeit, auf solche Zufälligkeit zu prüfen. RIMA steht für Autoregressive Integrated Moving Average Modelle. Univariate (Einzelvektor) ARIMA ist eine Prognosemethode, die die zukünftigen Werte einer Serie, die vollständig auf ihrer eigenen Trägheit basiert, projiziert. Seine Hauptanwendung liegt im Bereich der kurzfristigen Prognose mit mindestens 40 historischen Datenpunkten. Es funktioniert am besten, wenn Ihre Daten eine stabile oder konsistente Muster im Laufe der Zeit mit einem Minimum an Ausreißern zeigt. Manchmal nennt man Box-Jenkins (nach den ursprünglichen Autoren), ARIMA ist in der Regel überlegen exponentielle Glättung Techniken, wenn die Daten relativ lange und die Korrelation zwischen vergangenen Beobachtungen ist stabil. Wenn die Daten kurz oder stark flüchtig sind, kann eine gewisse Glättungsmethode besser ablaufen. Wenn Sie nicht über mindestens 38 Datenpunkte verfügen, sollten Sie eine andere Methode als ARIMA betrachten. Der erste Schritt bei der Anwendung der ARIMA-Methodik ist die Überprüfung der Stationarität. Stationarität impliziert, dass die Reihe auf einem ziemlich konstanten Niveau über Zeit bleibt. Wenn ein Trend besteht, wie in den meisten wirtschaftlichen oder geschäftlichen Anwendungen, dann sind Ihre Daten nicht stationär. Die Daten sollten auch eine konstante Varianz in ihren Schwankungen im Laufe der Zeit zeigen. Dies ist leicht zu sehen mit einer Serie, die stark saisonal und wächst mit einer schnelleren Rate. In einem solchen Fall werden die Höhen und Tiefen der Saisonalität im Laufe der Zeit dramatischer. Ohne dass diese Stationaritätsbedingungen erfüllt sind, können viele der mit dem Prozess verbundenen Berechnungen nicht berechnet werden. Wenn eine grafische Darstellung der Daten Nichtstationarität anzeigt, dann sollten Sie die Serie unterscheiden. Die Differenzierung ist eine hervorragende Möglichkeit, eine nichtstationäre Serie in eine stationäre zu transformieren. Dies geschieht durch Subtrahieren der Beobachtung in der aktuellen Periode von der vorherigen. Wenn diese Transformation nur einmal zu einer Reihe erfolgt, sagen Sie, dass die Daten zuerst unterschieden wurden. Dieser Prozess im Wesentlichen eliminiert den Trend, wenn Ihre Serie wächst mit einer ziemlich konstanten Rate. Wenn es mit steigender Rate wächst, können Sie das gleiche Verfahren anwenden und die Daten erneut differenzieren. Ihre Daten würden dann zweite differenziert werden. Autokorrelationen sind Zahlenwerte, die angeben, wie sich eine Datenreihe mit der Zeit auf sich bezieht. Genauer gesagt misst es, wie stark Datenwerte bei einer bestimmten Anzahl von Perioden auseinander über die Zeit miteinander korreliert werden. Die Anzahl der Perioden wird in der Regel als Verzögerung bezeichnet. Zum Beispiel misst eine Autokorrelation bei Verzögerung 1, wie die Werte 1 Periode auseinander in der Reihe miteinander korreliert sind. Eine Autokorrelation bei Verzögerung 2 misst, wie die Daten, die zwei Perioden voneinander getrennt sind, über die gesamte Reihe miteinander korrelieren. Autokorrelationen können im Bereich von 1 bis -1 liegen. Ein Wert nahe 1 gibt eine hohe positive Korrelation an, während ein Wert nahe -1 impliziert eine hohe negative Korrelation. Diese Maßnahmen werden meist durch grafische Darstellungen, sogenannte Korrelagramme, ausgewertet. Ein Korrelationsdiagramm zeigt die Autokorrelationswerte für eine gegebene Reihe bei unterschiedlichen Verzögerungen. Dies wird als Autokorrelationsfunktion bezeichnet und ist bei der ARIMA-Methode sehr wichtig. Die ARIMA-Methodik versucht, die Bewegungen in einer stationären Zeitreihe als Funktion der so genannten autoregressiven und gleitenden Durchschnittsparameter zu beschreiben. Diese werden als AR-Parameter (autoregessiv) und MA-Parameter (gleitende Mittelwerte) bezeichnet. Ein AR-Modell mit nur einem Parameter kann als geschrieben werden. X (t) A (1) X (t-1) E (t) wobei X (t) Zeitreihen A (1) der autoregressive Parameter der Ordnung 1 X (t-1) (T) der Fehlerterm des Modells Dies bedeutet einfach, daß jeder gegebene Wert X (t) durch eine Funktion seines vorherigen Wertes X (t-1) plus einen unerklärlichen Zufallsfehler E (t) erklärt werden kann. Wenn der geschätzte Wert von A (1) 0,30 betrug, dann wäre der aktuelle Wert der Reihe mit 30 seines vorherigen Wertes 1 verknüpft. Natürlich könnte die Serie auf mehr als nur einen vergangenen Wert bezogen werden. Zum Beispiel ist X (t) A (1) X (t-1) A (2) X (t-2) E (t) Dies zeigt an, dass der aktuelle Wert der Reihe eine Kombination der beiden unmittelbar vorhergehenden Werte ist, X (t-1) und X (t-2) zuzüglich eines Zufallsfehlers E (t). Unser Modell ist nun ein autoregressives Modell der Ordnung 2. Moving Average Models: Eine zweite Art von Box-Jenkins-Modell wird als gleitendes Durchschnittsmodell bezeichnet. Obwohl diese Modelle dem AR-Modell sehr ähnlich sind, ist das Konzept dahinter ganz anders. Bewegliche Durchschnittsparameter beziehen sich auf das, was in der Periode t stattfindet, nur auf die zufälligen Fehler, die in vergangenen Zeitperioden aufgetreten sind, dh E (t-1), E (t-2) usw. anstatt auf X (t-1), X T-2), (Xt-3) wie in den autoregressiven Ansätzen. Ein gleitendes Durchschnittsmodell mit einem MA-Begriff kann wie folgt geschrieben werden. X (t) - B (1) E (t-1) E (t) Der Begriff B (1) wird als MA der Ordnung 1 bezeichnet. Das negative Vorzeichen vor dem Parameter wird nur für Konventionen verwendet und in der Regel ausgedruckt Automatisch von den meisten Computerprogrammen. Das obige Modell sagt einfach, dass jeder gegebene Wert von X (t) direkt nur mit dem Zufallsfehler in der vorherigen Periode E (t-1) und mit dem aktuellen Fehlerterm E (t) zusammenhängt. Wie im Fall von autoregressiven Modellen können die gleitenden Durchschnittsmodelle auf übergeordnete Strukturen mit unterschiedlichen Kombinationen und gleitenden mittleren Längen erweitert werden. Die ARIMA-Methodik erlaubt es auch, Modelle zu erstellen, die sowohl autoregressive als auch gleitende Durchschnittsparameter zusammenführen. Diese Modelle werden oft als gemischte Modelle bezeichnet. Obwohl dies für eine kompliziertere Prognose-Tool macht, kann die Struktur tatsächlich simulieren die Serie besser und produzieren eine genauere Prognose. Pure Modelle implizieren, dass die Struktur nur aus AR oder MA-Parameter besteht - nicht beides. Die Modelle, die von diesem Ansatz entwickelt werden, werden in der Regel als ARIMA-Modelle bezeichnet, da sie eine Kombination aus autoregressiver (AR), Integration (I) verwenden, die sich auf den umgekehrten Prozess der Differenzierung bezieht, um die Prognose zu erzeugen. Ein ARIMA-Modell wird üblicherweise als ARIMA (p, d, q) angegeben. Dies ist die Reihenfolge der autoregressiven Komponenten (p), der Anzahl der differenzierenden Operatoren (d) und der höchsten Ordnung des gleitenden Mittelwerts. Beispielsweise bedeutet ARIMA (2,1,1), dass Sie ein autoregressives Modell zweiter Ordnung mit einer gleitenden mittleren Komponente erster Ordnung haben, deren Serie einmal differenziert wurde, um die Stationarität zu induzieren. Auswahl der richtigen Spezifikation: Das Hauptproblem in der klassischen Box-Jenkins versucht zu entscheiden, welche ARIMA-Spezifikation zu verwenden - i. e. Wie viele AR - und / oder MA-Parameter eingeschlossen werden sollen. Dies ist, was viel von Box-Jenkings 1976 dem Identifikationsprozeß gewidmet wurde. Es hing von der graphischen und numerischen Auswertung der Stichprobenautokorrelation und der partiellen Autokorrelationsfunktionen ab. Nun, für Ihre grundlegenden Modelle, ist die Aufgabe nicht allzu schwierig. Jeder hat Autokorrelationsfunktionen, die eine bestimmte Weise aussehen. Allerdings, wenn Sie gehen in der Komplexität, die Muster sind nicht so leicht zu erkennen. Um es schwieriger zu machen, stellen Ihre Daten nur eine Probe des zugrundeliegenden Prozesses dar. Das bedeutet, dass Stichprobenfehler (Ausreißer, Messfehler etc.) den theoretischen Identifikationsprozess verzerren können. Daher ist die traditionelle ARIMA-Modellierung eher eine Kunst als eine Wissenschaft.2.1 Gleitende Durchschnittsmodelle (MA-Modelle) Zeitreihenmodelle, die als ARIMA-Modelle bekannt sind, können autoregressive Begriffe und / oder gleitende Durchschnittsterme enthalten. In Woche 1 erlernten wir einen autoregressiven Term in einem Zeitreihenmodell für die Variable x t ist ein verzögerter Wert von x t. Beispielsweise ist ein autoregressiver Term der Verzögerung 1 x t-1 (multipliziert mit einem Koeffizienten). Diese Lektion definiert gleitende Durchschnittsterme. Ein gleitender Durchschnittsterm in einem Zeitreihenmodell ist ein vergangener Fehler (multipliziert mit einem Koeffizienten). Es sei n (0, sigma2w) überschritten, was bedeutet, daß die wt identisch unabhängig voneinander verteilt sind, jeweils mit einer Normalverteilung mit dem Mittelwert 0 und der gleichen Varianz. Das durch MA (1) bezeichnete gleitende Durchschnittsmodell der 1. Ordnung ist (xt mu wt theta1w) Das durch MA (2) bezeichnete gleitende Durchschnittsmodell der zweiten Ordnung ist (xt mu wt theta1w theta2w) Das gleitende Mittelmodell der q-ten Ordnung , Mit MA (q) bezeichnet, ist (xt mu wt theta1w theta2w dots thetaqw) Hinweis. Viele Lehrbücher und Softwareprogramme definieren das Modell mit negativen Vorzeichen vor den Begriffen. Dies ändert nicht die allgemeinen theoretischen Eigenschaften des Modells, obwohl es die algebraischen Zeichen der geschätzten Koeffizientenwerte und (nicht quadrierten) Ausdrücke in Formeln für ACFs und Abweichungen umwandelt. Sie müssen Ihre Software überprüfen, um zu überprüfen, ob negative oder positive Vorzeichen verwendet worden sind, um das geschätzte Modell korrekt zu schreiben. R verwendet positive Vorzeichen in seinem zugrunde liegenden Modell, wie wir hier tun. Theoretische Eigenschaften einer Zeitreihe mit einem MA (1) Modell Beachten Sie, dass der einzige Wert ungleich Null im theoretischen ACF für Verzögerung 1 ist. Alle anderen Autokorrelationen sind 0. Somit ist ein Proben-ACF mit einer signifikanten Autokorrelation nur bei Verzögerung 1 ein Indikator für ein mögliches MA (1) - Modell. Für interessierte Studierende, Beweise dieser Eigenschaften sind ein Anhang zu diesem Handout. Beispiel 1 Angenommen, dass ein MA (1) - Modell x t 10 w t .7 w t-1 ist. Wobei (wt overset N (0,1)). Somit ist der Koeffizient 1 0,7. Die theoretische ACF wird durch eine Plot dieser ACF folgt folgt. Die graphische Darstellung ist die theoretische ACF für eine MA (1) mit 1 0,7. In der Praxis liefert eine Probe gewöhnlich ein solches klares Muster. Unter Verwendung von R simulierten wir n 100 Abtastwerte unter Verwendung des Modells x t 10 w t .7 w t-1, wobei w t iid N (0,1) war. Für diese Simulation folgt ein Zeitreihen-Diagramm der Probendaten. Wir können nicht viel von dieser Handlung erzählen. Die Proben-ACF für die simulierten Daten folgt. Wir sehen eine Spitze bei Verzögerung 1, gefolgt von im Allgemeinen nicht signifikanten Werten für Verzögerungen nach 1. Es ist zu beachten, dass das Beispiel-ACF nicht mit dem theoretischen Muster des zugrunde liegenden MA (1) übereinstimmt, was bedeutet, dass alle Autokorrelationen für Verzögerungen nach 1 0 sein werden Eine andere Probe hätte eine geringfügig unterschiedliche Probe ACF wie unten gezeigt, hätte aber wahrscheinlich die gleichen breiten Merkmale. Theroretische Eigenschaften einer Zeitreihe mit einem MA (2) - Modell Für das MA (2) - Modell sind die theoretischen Eigenschaften die folgenden: Die einzigen Werte ungleich Null im theoretischen ACF sind für die Lags 1 und 2. Autokorrelationen für höhere Lags sind 0 , So zeigt ein Beispiel-ACF mit signifikanten Autokorrelationen bei Lags 1 und 2, aber nicht signifikante Autokorrelationen für höhere Lags ein mögliches MA (2) - Modell. Iid N (0,1). Die Koeffizienten betragen 1 0,5 und 2 0,3. Da es sich hierbei um ein MA (2) handelt, wird der theoretische ACF nur bei den Verzögerungen 1 und 2 Werte ungleich Null aufweisen. Werte der beiden Nicht-Autokorrelationen sind A-Kurve des theoretischen ACF. Wie fast immer der Fall ist, verhalten sich Musterdaten nicht ganz so perfekt wie die Theorie. Wir simulierten n 150 Beispielwerte für das Modell x t 10 w t .5 w t-1 .3 w t-2. Wobei wt iid N (0,1) ist. Die Zeitreihenfolge der Daten folgt. Wie beim Zeitreihenplot für die MA (1) Beispieldaten können Sie nicht viel davon erzählen. Die Proben-ACF für die simulierten Daten folgt. Das Muster ist typisch für Situationen, in denen ein MA (2) - Modell nützlich sein kann. Es gibt zwei statistisch signifikante Spikes bei Lags 1 und 2, gefolgt von nicht signifikanten Werten für andere Lags. Beachten Sie, dass aufgrund des Stichprobenfehlers das Muster ACF nicht genau dem theoretischen Muster entsprach. ACF für allgemeine MA (q) - Modelle Eine Eigenschaft von MA (q) - Modellen besteht im Allgemeinen darin, dass Autokorrelationen ungleich Null für die ersten q-Lags und Autokorrelationen 0 für alle Lags gt q existieren. Nicht-Eindeutigkeit der Verbindung zwischen Werten von 1 und (rho1) in MA (1) Modell. Im MA (1) - Modell für einen Wert von 1. Die reziproke 1/1 gibt den gleichen Wert für Als Beispiel, verwenden Sie 0.5 für 1. Und dann 1 / (0,5) 2 für 1 verwenden. Youll erhalten (rho1) 0,4 in beiden Fällen. Um eine theoretische Einschränkung als Invertibilität zu befriedigen. Wir beschränken MA (1) - Modelle auf Werte mit einem Absolutwert von weniger als 1. In dem gerade angegebenen Beispiel ist 1 0,5 ein zulässiger Parameterwert, während 1 1 / 0,5 2 nicht. Invertibilität von MA-Modellen Ein MA-Modell soll invertierbar sein, wenn es algebraisch äquivalent zu einem konvergierenden unendlichen Ordnungs-AR-Modell ist. Durch Konvergenz meinen wir, dass die AR-Koeffizienten auf 0 sinken, wenn wir in der Zeit zurückgehen. Invertibilität ist eine Einschränkung, die in Zeitreihensoftware programmiert ist, die verwendet wird, um die Koeffizienten von Modellen mit MA-Begriffen abzuschätzen. Sein nicht etwas, das wir in der Datenanalyse überprüfen. Zusätzliche Informationen über die Invertibilitätsbeschränkung für MA (1) - Modelle finden Sie im Anhang. Fortgeschrittene Theorie Anmerkung. Für ein MA (q) - Modell mit einem angegebenen ACF gibt es nur ein invertierbares Modell. Die notwendige Bedingung für die Invertierbarkeit ist, daß die Koeffizienten solche Werte haben, daß die Gleichung 1- 1 y-. - q y q 0 hat Lösungen für y, die außerhalb des Einheitskreises liegen. R-Code für die Beispiele In Beispiel 1 wurde der theoretische ACF des Modells x t 10 w t aufgetragen. 7w t-1. Und dann n 150 Werte aus diesem Modell simuliert und die Abtastzeitreihen und die Abtast-ACF für die simulierten Daten aufgetragen. Die R-Befehle, die verwendet wurden, um den theoretischen ACF aufzuzeichnen, waren: acfma1ARMAacf (mac (0,7), lag. max10) 10 Verzögerungen von ACF für MA (1) mit theta1 0,7 lags0: 10 erzeugt eine Variable namens lags, die im Bereich von 0 bis 10 liegt (H0) fügt dem Diagramm eine horizontale Achse hinzu Der erste Befehl bestimmt den ACF und speichert ihn in einem Objekt Genannt acfma1 (unsere Wahl des Namens). Der Plotbefehl (der dritte Befehl) verläuft gegen die ACF-Werte für die Verzögerungen 1 bis 10. Der ylab-Parameter bezeichnet die y-Achse und der Hauptparameter einen Titel auf dem Plot. Um die Zahlenwerte der ACF zu sehen, benutzen Sie einfach den Befehl acfma1. Die Simulation und Diagramme wurden mit den folgenden Befehlen durchgeführt. (N150, list (mac (0.7))) Simuliert n 150 Werte aus MA (1) xxc10 addiert 10, um Mittelwert 10. Simulationsvorgaben bedeuten 0. Plot (x, typeb, mainSimulated MA (1) Acf (x, xlimc (1,10), mainACF für simulierte Probendaten) In Beispiel 2 wurde der theoretische ACF des Modells xt 10 wt. 5 w t-1 .3 w t-2 aufgetragen. Und dann n 150 Werte aus diesem Modell simuliert und die Abtastzeitreihen und die Abtast-ACF für die simulierten Daten aufgetragen. Die verwendeten R-Befehle waren acfma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 Plot (lags, acfma2, xlimc (1,10), ylabr, typh, main ACF für MA (2) mit theta1 0,5, (X, x) (x, x) (x, x, x, y) (1) Für interessierte Studierende sind hier Beweise für die theoretischen Eigenschaften des MA (1) - Modells. Variante: (Text (xt) Text (mu wt theta1 w) 0 Text (wt) Text (theta1w) sigma2w theta21sigma2w (1theta21) sigma2w) Wenn h 1 der vorhergehende Ausdruck 1 w 2. Für irgendeinen h 2 ist der vorhergehende Ausdruck 0 Der Grund dafür ist, dass, durch Definition der Unabhängigkeit der wt. E (w k w j) 0 für beliebige k j. Da w w die Mittelwerte 0, E (w j w j) E (w j 2) w 2 haben. Für eine Zeitreihe, Wenden Sie dieses Ergebnis an, um den oben angegebenen ACF zu erhalten. Ein invertierbares MA-Modell ist eines, das als unendliches Ordnungs-AR-Modell geschrieben werden kann, das konvergiert, so daß die AR-Koeffizienten gegen 0 konvergieren, wenn wir unendlich zurück in der Zeit bewegen. Gut zeigen Invertibilität für die MA (1) - Modell. Wir setzen dann die Beziehung (2) für wt-1 in Gleichung (1) (3) ein (zt wt theta1 (z-therma1w) wt theta1z - theta2w) Zum Zeitpunkt t-2. Gleichung (2) wird dann in Gleichung (3) die Gleichung (4) für wt-2 ersetzen (zt wt theta1 z - theta21w wt theta1z - theta21 (z - theta1w) wt theta1z - theta12z theta31w) Unendlich), erhalten wir das unendliche Ordnungsmodell (zt wt theta1 z - theta21z theta31z - theta41z Punkte) Beachten Sie jedoch, dass bei 1 1 die Koeffizienten, die die Verzögerungen von z vervielfachen (unendlich) in der Größe zunehmen, Zeit. Um dies zu verhindern, benötigen wir 1 lt1. Dies ist die Bedingung für ein invertierbares MA (1) - Modell. Unendlich Ordnung MA Modell In Woche 3, gut sehen, dass ein AR (1) Modell in ein unendliches order MA Modell umgewandelt werden kann: (xt - mu wt phi1w phi21w Punkte phik1 w Punkte sum phij1w) Diese Summation der Vergangenheit weißer Rauschbegriffe ist bekannt Als die kausale Darstellung eines AR (1). Mit anderen Worten, x t ist eine spezielle Art von MA mit einer unendlichen Anzahl von Begriffen, die in der Zeit zurückgehen. Dies wird als unendliche Ordnung MA oder MA () bezeichnet. Eine endliche Ordnung MA ist eine unendliche Ordnung AR und jede endliche Ordnung AR ist eine unendliche Ordnung MA. Rückruf in Woche 1, stellten wir fest, dass eine Anforderung für eine stationäre AR (1) ist, dass 1 lt1. Berechnen Sie die Var (x t) mit der kausalen Darstellung. Dieser letzte Schritt verwendet eine Grundtatsache über geometrische Reihen, die (phi1lt1) erforderlich sind, ansonsten divergiert die Reihe. NavigationARMA und ARIMA (Box-Jenkins) Modelle ARMA und ARIMA (Box-Jenkins) Modelle In den vorangegangenen Abschnitten haben wir gesehen, wie der Wert einer univariaten Zeitreihe zum Zeitpunkt t. X t. Kann mit einer Vielzahl von gleitenden Durchschnittsausdrücken modelliert werden. Wir haben auch gezeigt, dass Komponenten wie Trends und Periodizität in der Zeitreihe explizit modelliert und / oder getrennt werden können, wobei die Daten in Trend-, Saison - und Restkomponenten zerlegt werden. Wir haben auch gezeigt, in den früheren Diskussionen über Autokorrelation. Dass die vollständigen und partiellen Autokorrelationskoeffizienten äußerst nützlich sind, um Muster in Zeitreihen zu identifizieren und zu modellieren. Diese beiden Aspekte der Zeitreihenanalyse und Modellierung können in einem allgemeineren und oftmals sehr effektiven Gesamtmodellierungsrahmen kombiniert werden. In seiner Grundform wird dieser Ansatz als ARMA-Modellierung bezeichnet (autoregressiver gleitender Durchschnitt) oder wenn die Differenzierung in die Prozedur, die ARIMA - oder die Box-Jenkins-Modellierung, nach den beiden Autoren, die für ihre Entwicklung von zentraler Bedeutung waren, enthalten ist (siehe Box amp Jenkins, 1968) BOX1 und Box, Jenkins amp Reinsel, 1994 BOX2). Es gibt keine feste Regel bezüglich der Anzahl von Zeitperioden, die für eine erfolgreiche Modellierungsübung erforderlich sind, aber für komplexere Modelle und für ein größeres Vertrauen in Pass - und Validierungsverfahren werden häufig Reihen mit 50 Zeitschritten empfohlen. ARMA-Modelle kombinieren Autokorrelationsverfahren (AR) und gleitende Mittelwerte (MA) zu einem zusammengesetzten Modell der Zeitreihe. Bevor wir untersuchen, wie diese Modelle kombiniert werden können, untersuchen wir jeweils einzeln. Wir haben bereits gesehen, dass gleitende Durchschnittsmodelle (MA) verwendet werden können, um eine gute Anpassung an einige Datensätze bereitzustellen, und Variationen dieser Modelle, die eine doppelte oder dreifache exponentielle Glättung beinhalten, können Trend und periodische Komponenten in den Daten behandeln. Darüber hinaus können solche Modelle verwendet werden, um Prognosen zu erstellen, die das Verhalten früherer Perioden nachahmen. Eine einfache Form solcher Modelle, die auf früheren Daten basiert, kann folgendermaßen geschrieben werden: Wo die Betai-Terme die auf vorherige Werte in der Zeitreihe angewendeten Gewichte sind, ist es üblich, Betai & sub1; ohne Verlust der Allgemeinheit zu definieren. Somit gilt für ein Verfahren erster Ordnung q 1 und wir haben das Modell: d. h. der gleitende Mittelwert wird als ein gewichteter Mittelwert der aktuellen und unmittelbaren Vergangenheitswerte geschätzt. Dieses Mittelungsverfahren ist in gewissem Sinne ein pragmatischer Glättungsmechanismus ohne direkte Verbindung zu einem statistischen Modell. Jedoch können wir ein statistisches (oder stochastisches) Modell angeben, das die Prozeduren der gleitenden Mittelwerte in Verbindung mit zufälligen Prozessen umfasst. Wenn wir eine Menge von unabhängigen und identisch verteilten Zufallsvariablen (ein Zufallsprozeß) mit Nullmittelwert und bekannter fester Varianz zulassen, dann können wir den Prozeß als einen gleitenden Durchschnitt der Ordnung q in folgenden Worten beschreiben: klar den Erwartungswert von xt unter Dieses Modell ist 0, also ist das Modell nur gültig, wenn das xt bereits auf einen Nullmittelwert eingestellt wurde oder wenn eine feste Konstante (der Mittelwert der xt) zur Summe addiert wird. Es ist auch offensichtlich, dass die Varianz von xt einfach ist: Die obige Analyse kann erweitert werden, um die Kovarianz cov (x t xtk) auszuwerten, die Ausbeuten ergibt: Beachten Sie, dass weder der Mittelwert noch die Kovarianz (oder Autokovarianz) Bei der Verzögerung k ist eine Funktion der Zeit t. So dass der Prozess ist zweiter Ordnung stationär. Der obige Ausdruck ermöglicht es, einen Ausdruck für die Autokorrelationsfunktion (acf) zu erhalten: Wenn k 0 rho k 1 und für k gt q rho k 0. Ferner ist die acf symmetrisch und rho k rho - k. Die ACF kann für ein MA-Verfahren erster Ordnung berechnet werden: Die autoregressive oder AR-Komponente eines ARMA-Modells kann in der Form geschrieben werden: wobei die Terme in Autokorrelationskoeffizienten an den Lags 1,2 sind. P und zt ein Restfehlerterm ist. Es sei angemerkt, dass dieser Fehlerausdruck speziell die aktuelle Zeitperiode t betrifft. Also gilt für ein Verfahren erster Ordnung p 1 und wir haben das Modell: Diese Ausdrücke geben an, dass der geschätzte Wert von x zum Zeitpunkt t durch den unmittelbar vorhergehenden Wert von x (dh zum Zeitpunkt t -1) multipliziert mit einem Maß, alpha, bestimmt wird . Des Ausmaßes, in dem die Werte für alle Wertepaare zu Zeitperioden voneinander abweichen, korreliert (d. h. ihre Autokorrelation) plus einem Restfehlerterm, z. Zum Zeitpunkt t. Aber das ist genau die Definition eines Markov-Prozesses. So ist ein Markov-Prozess ein autoregressiver Prozess erster Ordnung. Wenn alpha & sub1; das Modell besagt, daß der nächste Wert von x einfach der vorhergehende Wert plus ein zufälliger Fehlerterm ist und daher ein einfacher 1D-Zufallsweg ist. Wenn mehr Ausdrücke enthalten sind, schätzt das Modell den Wert von x zum Zeitpunkt t durch eine gewichtete Summe dieser Ausdrücke zuzüglich einer Zufallsfehlerkomponente. Wenn wir den zweiten Ausdruck oben in den ersten Satz setzen, haben wir: und wiederholte Anwendung dieser Substitution ergibt sich: Wenn nun alpha lt1 und k groß sind, kann dieser Ausdruck in umgekehrter Reihenfolge mit abnehmenden Ausdrücken und mit Beitrag aus dem Ausdruck geschrieben werden In x auf der rechten Seite des Ausdrucks verschwindend klein, so haben wir: Da die rechte Seite dieses Ausdrucks xt als Summe eines gewichteten Satzes von vorherigen Werten, hier zufälligen Fehlertermen, klar ist, Dieses AR-Modell ist in der Tat eine Form des MA-Modells. Und wenn wir annehmen, daß die Fehlerterme null mittlere und konstante Varianz haben, so haben wir, wie im MA-Modell, den Erwartungswert des Modells auch als 0, wobei angenommen wird, daß die xt so eingestellt sind, daß sie einen Nullmittelwert mit der Varianz bereitstellen Wenn diese Summe endlich ist und einfach 1 / (1 - alpha) ist, so haben wir: Wie bei dem obengenannten MA-Modell kann diese Analyse erweitert werden, um die Kovarianz cov (xt · tk) von a zu evaluieren (1), so ergibt sich: Dies zeigt, dass für ein autoregressives Modell erster Ordnung die Autokorrelationsfunktion (acf) ist Einfach definiert durch sukzessive Potenzen der Autokorrelation erster Ordnung, mit der Bedingung alpha lt1. Für alpha gt0 ist dies einfach eine rasch abnehmende oder exponentialartige Kurve, die gegen Null strebt oder für lt0 eine dämpfende Oszillationskurve, die wiederum gegen Null geht. Wenn angenommen wird, dass die Zeitreihe stationär ist, kann die obige Analyse auf Autokorrelationen zweiter und höherer Ordnung erweitert werden. Um ein AR-Modell einem beobachteten Datensatz anzupassen, versuchen wir, die Summe der quadratischen Fehler (eine kleinste Quadrate-Anpassung) unter Verwendung der kleinsten Anzahl von Ausdrücken zu minimieren, die eine zufriedenstellende Anpassung an die Daten liefern. Modelle dieser Art werden als autoregressiv beschrieben. Und können sowohl auf Zeitreihen als auch auf räumliche Datensätze angewendet werden (siehe weiter, räumliche Autoregressionsmodelle). Obwohl in der Theorie ein autoregressives Modell eine gute Anpassung an einen beobachteten Datensatz bereitstellen könnte, würde es im allgemeinen eine vorherige Entfernung von Trend - und periodischen Komponenten erfordern und selbst dann eine große Anzahl von Ausdrücken benötigen, um eine gute Anpassung an die Daten zu gewährleisten. Durch die Kombination der AR-Modelle mit MA-Modellen können wir jedoch eine Familie von gemischten Modellen herstellen, die in einer Vielzahl von Situationen eingesetzt werden können. Diese Modelle sind als ARMA - und ARIMA-Modelle bekannt und werden in den folgenden Unterabschnitten beschrieben. In den beiden vorangegangenen Abschnitten haben wir den MA-Modus q: und das AR-Modell der Ordnung p eingeführt: Wir können diese beiden Modelle kombinieren, indem wir sie einfach als Modell der Ordnung (p. Q) zusammenfassen, wobei wir p AR-Terme haben Und q MA-Ausdrücke: Im Allgemeinen kann diese Form des kombinierten ARMA-Modells verwendet werden, um eine Zeitreihe mit weniger Ausdrücken insgesamt als ein MA - oder ein AR-Modell selbst zu modellieren. Sie drückt den Schätzwert zum Zeitpunkt t als Summe von q Gliedern aus, die die mittlere Veränderung der Zufallsvariation über q Vorperioden (die MA-Komponente) plus die Summe von p AR-Terme darstellen, die den aktuellen Wert von x als die gewichtete Summe berechnen Der p letzten Werte. Diese Form des Modells geht jedoch davon aus, dass die Zeitreihe stationär ist, was selten der Fall ist. In der Praxis gibt es Trends und Periodizität in vielen Datensätzen, so dass es notwendig ist, diese Effekte zu entfernen, bevor solche Modelle. Die Entfernung wird typischerweise durchgeführt, indem in das Modell eine anfängliche Differenzierungsstufe, typischerweise einmal, zweimal oder dreimal, aufgenommen wird, bis die Reihe zumindest annähernd stationär ist und keine offensichtlichen Trends oder Periodizitäten aufweist. Wie bei den MA - und AR-Prozessen wird der Differenzierungsprozeß durch die Reihenfolge der Differenzierung, z. B. 1, 2, 3, beschrieben. Zusammengenommen bilden diese drei Elemente ein Tripel: (S. d. Q), das die Art des angewandten Modells definiert. In dieser Form wird das Modell als ARIMA-Modell beschrieben. Der Buchstabe I in ARIMA bezieht sich auf die Tatsache, dass der Datensatz anfangs differenziert wurde (siehe Differenzierung), und wenn die Modellierung abgeschlossen ist, müssen die Ergebnisse dann summiert oder integriert werden, um die endgültigen Schätzungen und Prognosen zu erstellen. Die ARIMA-Modellierung wird nachfolgend diskutiert. Wie im vorigen Unterabschnitt erwähnt, bietet das Kombinieren der Differenzierung einer nichtstationären Zeitreihe mit dem ARMA-Modell eine starke Modellfamilie, die in einer Vielzahl von Situationen angewendet werden kann. Die Entwicklung dieser erweiterten Modellform ist vor allem auf die G E P Box und G M Jenkins zurückzuführen, so dass ARIMA-Modelle auch als Box-Jenkins-Modelle bekannt sind. Der erste Schritt des Box-Jenkins-Verfahrens besteht darin, die Zeitreihe bis zum Stillstand zu differenzieren, so dass Trend - und Saisonkomponenten entfernt werden. In vielen Fällen reicht eine ein - oder zweistufige Differenzierung aus. Die differenzierten Reihen sind kürzer als die Quellenreihe durch c Zeitschritte, wobei c der Bereich der Differenzierung ist. Anschließend wird ein ARMA-Modell an die resultierende Zeitreihe angepasst. Da ARIMA Modelle drei Parameter haben, gibt es viele Varianten zu den möglichen Modellen, die montiert werden könnten. Allerdings kann die Entscheidung darüber, was diese Parameter sein sollen, von einer Reihe von Grundprinzipien geleitet werden: (i) Das Modell sollte so einfach wie möglich sein, dh möglichst wenige Begriffe enthalten, was wiederum die Werte von p und q bedeutet Sollte klein sein (ii) die Anpassung an historische Daten sollte so gut wie möglich sein, dh die Größe der quadrierten Differenzen zwischen dem geschätzten Wert in einem vergangenen Zeitraum und dem tatsächlichen Wert sollte minimiert werden (Prinzip der kleinsten Quadrate) - die Residuen Aus dem ausgewählten Modell können dann untersucht werden, um festzustellen, ob die verbleibenden Residuen signifikant von 0 verschieden sind (siehe weiter unten) (iii) die gemessene partielle Autokorrelation bei den Lags 1,2,3. Sollte eine Angabe der Reihenfolge der AR-Komponente geben, dh der für q (iv) gewählte Wert der Form der Autokorrelationsfunktion (acf) kann den Typ des erforderlichen ARIMA-Modells vorschlagen Interpretation der Form der acf in Bezug auf die Modellauswahl. ARIMA Modelltyp Auswahl mit acf Form Serie ist nicht stationär. Standard-ARIMA-Modelle werden oft durch das Dreifache beschrieben: (S. d. Q) wie oben erwähnt. Diese definieren die Struktur des Modells in der Reihenfolge der AR, Differenzierung und MA-Modelle verwendet werden. Es ist auch möglich, ähnliche Parameter für die Saisonalität in die Daten aufzunehmen, obwohl solche Modelle komplexer zu passen und zu interpretieren sind. Der Kuttel (P. D. Q) wird im allgemeinen verwendet, um solche Modellkomponenten zu identifizieren. In dem unten dargestellten Screenshot von SPSS wird der Dialog zur manuellen Auswahl von nicht saisonalen und saisonalen Strukturelementen angezeigt (ähnliche Einrichtungen sind in anderen integrierten Paketen wie SAS / ETS verfügbar). Wie zu sehen ist, ermöglicht es der Dialog auch, die Daten zu transformieren (typischerweise zur Unterstützung der Varianzstabilisierung) und um den Benutzern zu ermöglichen, eine Konstante in dem Modell (die Voreinstellung) aufzunehmen. Dieses spezielle Software-Tool ermöglicht es, daß Ausreißer bei Bedarf detektiert werden können, gemß einer Reihe von Erfassungsverfahren, aber in vielen Fällen werden Ausreißer untersucht und eingestellt oder entfernt und ersetzte Werte, die geschätzt werden, vor einer solchen Analyse. SPSS Time Series Modellierer: ARIMA-Modellierung, Expertenmodus Eine Anzahl von ARIMA-Modellen kann manuell oder über einen automatisierten Prozess (zB ein schrittweises Verfahren) an die Daten angepasst werden Fit und sparsam. Der Modellvergleich verwendet typischerweise eine oder mehrere der in diesem Handbuch früher beschriebenen informationstheoretischen Maßnahmen - AIC, BIC und / oder MDL (die R-Funktion, arima (), stellt die AIC-Messung bereit, während SPSS eine Reihe von Anpassungsmaßnahmen bereitstellt, Enthalten eine Version der BIC-Statistik andere Werkzeuge variieren in den Maßnahmen - Minitab, die eine Reihe von TSA-Methoden, nicht enthalten AIC / BIC-Statistiken). In der Praxis kann eine breite Palette von Maßnahmen (dh neben / zusätzlich zu den Maßnahmen auf der Basis der kleinsten Quadrate zur Bewertung der Modellqualität verwendet werden, zB der mittlere absolute Fehler und der maximale absolute Fehler sinnvoll sein, Eine Reihe von Softwarepaketen kann auch eine Gesamtmessung der Autokorrelation vorsehen, die in den Resten nach dem Einbau des Modells verbleiben kann Eine häufig angewandte Statistik ist auf Ljung und Box (1978 LJU1) zurückzuführen, Und ist von der Form: wobei n die Anzahl der Abtastwerte (Datenwerte), ri die Abtastautokorrelation bei der Verzögerung i ist und k die Gesamtzahl der Verzögerungen ist, über die die Berechnung ausgeführt wird Eine Chi-Quadrat-Verteilung mit k-m Freiheitsgraden, wobei m die Anzahl der Parameter ist, die bei der Anpassung des Modells verwendet werden, mit Ausnahme aller konstanten Term - oder Prädiktorvariablen (dh einschließlich der pd q-Tripel) Zeigt, dass die Residuen nach dem Einbau des Modells noch signifikante Autokorrelation aufweisen, was darauf hindeutet, dass ein verbessertes Modell gesucht werden sollte. Beispiel: Modellierung des Wachstums von Fluggastzahlen Im Folgenden finden Sie ein Beispiel für die automatisierte Anpassung von SPSS an die in diesem Handbuch vorgestellten Box-Jenkins-Reinsel-Testdaten der Fluggastzahlen REI1. Anfangs war keine Spezifikation der Termine, die Monate innerhalb von Jahren angegeben wurden. Das Modell, das durch den automatisierten Prozess ausgewählt wurde, war ein ARIMA Modell (0,1,12), dh der Prozess identifizierte korrekt, dass die Serie eine Ebene der Differenzierung benötigte und ein gleitendes Durchschnittsmodell mit einer Periodizität von 12 und keine Autokorrelationskomponente anpaßte Daten. Das Modell passte einen R 2 - Wert von 0,966, der sehr hoch ist, und einen maximalen absoluten Fehler (MAE) von 75. Die visuelle Anpassung des Modells an die Daten sieht hervorragend aus, aber die graphische Darstellung der restlichen Autokorrelation nach dem Einbau und Ljung - Box-Test zeigt, dass signifikante Autokorrelation bleibt, was darauf hinweist, dass ein verbessertes Modell möglich ist. Automatisierte ARIMA - Anpassung an International Airline Passagiere: Monatliche Gesamtsumme, 1949-1960 Um dies zu untersuchen, wurde ein überarbeitetes Modell auf Basis der Diskussion dieses Datensatzes von Box und Jenkins (1968) und der aktualisierten Ausgabe von Chatfields (1975 CHA1) Die er Minitab verwendet, um seine Analyse zu illustrieren (6. Auflage, 2003). Die Zeitreihe wurde mit einer Periodizität von 12 Monaten und einem ARIMA-Modell mit Komponenten (0,1,1), (0,1,1) definiert. Graphisch sind die Ergebnisse sehr ähnlich dem obigen Diagramm, aber bei diesem Modell ist das R-Quadrat 0,991, die MAE41 und die Ljung-Box-Statistik ist nicht mehr signifikant (12,6, mit 16 Freiheitsgraden). Das Modell ist somit eine Verbesserung gegenüber der ursprünglichen (automatisch generierten) Version, die aus einer nicht saisonalen MA und einer saisonalen MA-Komponente, einer autoregressiven Komponente und einer Differenzierungsstufe für saisonale und nicht saisonale Strukturen besteht. Ob Armatur manuell oder automatisiert, ein ARIMA Modell kann ein gutes Rahmenwerk für die Modellierung einer Zeitreihe liefern, oder es kann sein, dass alternative Modelle oder Ansätze ein zufriedenstellenderes Ergebnis liefern. Oft ist es schwierig, im Voraus zu wissen, wie gut jedes gegebene Prognosemodell sein wird, da es nur im Licht seiner Fähigkeit ist, zukünftige Werte der Datenreihe vorherzusagen, dass es wirklich beurteilt werden kann. Oft wird dieser Prozeß durch Anpassen des Modells an vergangene Daten mit Ausnahme der letzten Zeitperioden (auch als Holdout-Abtastwerte bezeichnet) angenähert, und dann unter Verwendung des Modells, um diese bekannten zukünftigen Ereignisse vorherzusagen, aber auch dies bietet nur ein begrenztes Vertrauen in seine zukünftige Gültigkeit. Längerfristige Prognosen können mit solchen Methoden äußerst unzuverlässig sein. Es ist klar, dass das oben beschriebene internationale Luftverkehrsstatistikmodell nicht in der Lage ist, die Passagierzahlen bis in die 1990er Jahre und darüber hinaus korrekt vorherzusagen, noch den 5-jährigen Rückgang der US-amerikanischen Fluggastzahlen nach dem 11. September 2001. Ebenso kann ein ARIMA-Modell auf historische Werte von Börsenkursen oder Indexwerten (zB die NYSE - oder FTSE-Indizes) angepasst werden und wird typischerweise eine hervorragende Anpassung an die Daten liefern (was einen R-Quadrat-Wert von besser als 0,99 ergibt) Die oft nur wenig genutzt werden, um zukünftige Werte dieser Kurse oder Indizes vorherzusagen. Typischerweise werden ARIMA-Modelle zur Prognose eingesetzt, insbesondere im Bereich der makro - und mikroökonomischen Modellierung. Sie können jedoch in einem breiten Spektrum von Disziplinen angewendet werden, entweder in der hier beschriebenen Form oder mit zusätzlichen Vorhersagevariablen, von denen angenommen wird, dass sie die Zuverlässigkeit der Prognosen verbessern. Letztere sind wichtig, da die gesamte Struktur der oben diskutierten ARMA-Modelle von vorherigen Werten und unabhängigen Zufallsereignissen über die Zeit abhängt, nicht von erklärenden oder ursächlichen Faktoren. Daher werden ARIMA-Modelle nur die bisherigen Muster reflektieren und erweitern, die in Prognosen durch Faktoren wie das makroökonomische Umfeld, Technologieverschiebungen oder längerfristige Ressourcen - und / oder Umweltveränderungen modifiziert werden müssen. BOX1 Kasten G E P, Jenkins G M (1968). Einige jüngste Fortschritte in der Prognose und Kontrolle. (1994) Zeitreihenanalyse, - prognose und - steuerung. Zeitschrift für anorganische und allgemeine Chemie. 3. Aufl. Prentice Hall, Englewood Cliffs, NJ CHA1 Chatfield C (1975) Die Analyse der Zeitreihen: Theorie und Praxis. Chapman und Hall, London (siehe auch, 6. Aufl. 2003) LJU1 Ljung G M, Box G E P (1978) Über einen Maßstab für einen Mangel an Fit in Time Series Models. Biometrika, 65, 297303 NIST / SEMATECH e-Handbuch der statistischen Methoden, www. itl. nist. gov/div898/handbook/ Abschnitt 6.4: Einführung in die Zeitreihen. RE: Reinsel-GC-Datensätze für Box-Jenkins Modelle: www. stat. wisc. edu/Autoregressive Moving Average ARMA (p, q) Modelle für die Zeitreihenanalyse - Teil 2 Von Michael Halls-Moore am 24. August 2015 Im Teil 1 betrachteten wir das Autoregressive Modell der Ordnung p, auch als AR (p) - Modell bekannt. Wir führten es als eine Erweiterung des Zufallsmodells ein, um eine weitere serielle Korrelation in finanziellen Zeitreihen zu erläutern. Schließlich erkannten wir, dass es nicht genügend flexibel war, um alle Autokorrelationen in den Schlusskursen der Amazon Inc. (AMZN) und des SampP500 US Equity Index wirklich zu erfassen. Der Hauptgrund dafür ist, dass beide Vermögenswerte bedingt heteroskedastisch sind. Was bedeutet, dass sie nicht-stationär sind und Perioden variierender Varianz oder Volatilitäts-Clustering aufweisen, was von dem AR (p) - Modell nicht berücksichtigt wird. In künftigen Artikeln werden wir schließlich die Autoregressive Integrated Moving Average (ARIMA) Modelle sowie die bedingt heteroskedastischen Modelle der ARCH - und GARCH-Familien aufbauen. Diese Modelle werden uns unsere ersten realistischen Versuche zur Prognose von Vermögenspreisen bieten. In diesem Artikel werden wir jedoch die Moving Average der Ordnung q-Modell, bekannt als MA (q) einzuführen. Dies ist ein Teil des allgemeineren ARMA-Modells und als solches müssen wir es verstehen, bevor wir weitergehen. Ich empfehle Ihnen, lesen Sie die vorherigen Artikel in der Zeitreihe Analyse-Sammlung, wenn Sie dies nicht getan haben. Sie können alle hier gefunden werden. Moving Average (MA) Modelle der Ordnung q Begründung Ein Moving Average-Modell ähnelt einem autoregressiven Modell, mit der Ausnahme, dass es sich nicht um eine lineare Kombination aus vergangenen Zeitreihenwerten handelt, sondern um eine lineare Kombination der vergangenen weißen Rauschterme. Intuitiv bedeutet dies, dass das MA-Modell solche zufälligen weißen Rauschschocks direkt bei jedem aktuellen Wert des Modells sieht. Dies steht im Gegensatz zu einem AR (p) - Modell, wo die weißen Rauschschocks nur indirekt gesehen werden. Über Regression auf frühere Ausdrücke der Reihe. Ein wesentlicher Unterschied besteht darin, dass das MA-Modell nur die letzten q-Schocks für ein bestimmtes MA (q) - Modell sehen wird, während das AR (p) - Modell alle vorherigen Schocks berücksichtigt, wenn auch in einer abnehmend schwachen Weise. Definition Mathematisch ist das MA (q) ein lineares Regressionsmodell und ist ähnlich strukturiert nach AR (p): Moving Average Modell der Ordnung q Ein Zeitreihenmodell ist ein gleitendes Durchschnittsmodell der Ordnung q. MA (q), wenn: Anfang xt wt beta1 w ldots betaq w end Wo ist weißes Rauschen mit E (wt) 0 und Varianz sigma2. Wenn wir den Backward Shift Operator betrachten. (Siehe vorhergehender Artikel), so können wir die obigen Funktionen als Funktion phi folgendermaßen umschreiben: begin xt (1 beta1 beta2 2 ldots betaq q) wt phiq () wt end Wir werden in späteren Artikeln die phi-Funktion nutzen. Eigenschaften der zweiten Ordnung Wie bei AR (p) ist der Mittelwert eines MA (q) - Verfahrens gleich Null. Dies ist leicht zu sehen, da der Mittelwert einfach eine Summe von Mitteln von weißen Rauschtermen ist, die alle selbst Null sind. Anfang Text enspace sigma2w (1 beta21 ldots beta2q) Ende Text enspace rhok links 1 Text enspace k 0 Summe beta beta / sumq beta2i Text enspace k 1, ldots, q 0 Text enspace k gt q Ende rechts. Wo beta0 1. Wurden jetzt einige simulierte Daten generieren und verwenden, um correlograms zu erstellen. Dies wird die obige Formel für rhok etwas konkreter machen. Simulationen und Correlogramme MA (1) Beginnen wir mit einem MA (1) - Prozess. Wenn wir beta1 0.6 setzen, erhalten wir das folgende Modell: Wie bei den AR (p) - Modellen im vorherigen Artikel können wir R verwenden, um eine solche Reihe zu simulieren und dann das Korrelogramm zu zeichnen. Da wir in der vorigen Zeitreihenanalyse eine Reihe von Übungen durchführen, werde ich den R-Code vollständig schreiben, anstatt ihn aufzuteilen: Die Ausgabe ist wie folgt: Wie wir oben in der Formel für rhok gesehen haben , Für k gt q sollten alle Autokorrelationen Null sein. Da q 1 ist, sollten wir einen signifikanten Peak bei k1 und dann danach signifikante Peaks sehen. Aufgrund der Stichprobenvorhersage sollten wir jedoch erwarten, dass 5 (marginal) signifikante Peaks auf einer Stichproben-Autokorrelationskurve zu sehen sind. Genau das zeigt uns das Korrelogramm. Wir haben einen signifikanten Peak bei k1 und dann unbedeutende Peaks für k gt 1, mit Ausnahme von k4, wo wir einen marginell signifikanten Peak haben. Tatsächlich ist dies eine nützliche Möglichkeit, zu sehen, ob ein MA (q) - Modell geeignet ist. Durch Betrachten des Korrelogramms einer bestimmten Reihe können wir sehen, wie viele sequenzielle Nicht-Null-Verzögerungen existieren. Wenn q solche Lags existieren, dann können wir legitimerweise versuchen, ein MA (q) - Modell an eine bestimmte Serie anzupassen. Da wir Beweise aus unseren simulierten Daten eines MA (1) - Prozesses haben, sollten wir nun versuchen, ein MA (1) - Modell an unsere simulierten Daten anzupassen. Leider gibt es keinen äquivalenten ma Befehl zum autoregressiven Modell ar Befehl in R. Stattdessen müssen wir den allgemeineren arima Befehl benutzen und die autoregressiven und integrierten Komponenten auf Null setzen. Dazu erstellen wir einen 3-Vektor und setzen die ersten beiden Komponenten (die autogressiven und integrierten Parameter) auf Null: Wir erhalten eine nützliche Ausgabe aus dem Befehl arima. Erstens können wir sehen, dass der Parameter als Hut 0.602 geschätzt wurde, der sehr nahe am wahren Wert von beta1 0,6 liegt. Zweitens sind die Standardfehler bereits für uns berechnet, so dass es einfach ist, Konfidenzintervalle zu berechnen. Drittens erhalten wir eine geschätzte Varianz, Log-Likelihood und Akaike Information Criterion (notwendig für Modellvergleich). Der Hauptunterschied zwischen arima und ar ist, dass arima einen Intercept-Term schätzt, da er den Mittelwert der Serie nicht subtrahiert. Daher müssen wir vorsichtig sein, wenn wir Vorhersagen mit dem Befehl arima durchführen. Nun wieder auf diesen Punkt später. Wie ein schneller Check wurden, um Konfidenzintervalle für Hut zu berechnen: Wir können sehen, dass die 95 Konfidenzintervall den wahren Parameterwert von beta1 0,6 enthält und so können wir beurteilen, das Modell eine gute Passform. Offensichtlich sollte das erwartet werden, da wir die Daten an erster Stelle simuliert haben. Wie ändern sich die Dinge, wenn wir das Vorzeichen von beta1 auf -0.6 ändern, können wir die gleiche Analyse durchführen: Die Ausgabe ist wie folgt: Wir können sehen, dass wir bei k1 einen signifikanten Wert haben Peak im Korrelogramm, mit der Ausnahme, dass es eine negative Korrelation zeigt, wie sie von einem MA (1) - Modell mit negativem ersten Koeffizienten erwartet wird. Wiederum sind alle Peaks jenseits von k1 unbedeutend. Ermöglicht ein MA (1) - Modell und schätzen den Parameter: Hut -0.730, was eine kleine Unterbewertung von beta1 -0.6 ist. Schließlich lässt sich das Konfidenzintervall berechnen: Wir können sehen, dass der wahre Parameterwert von beta1-0.6 innerhalb des 95 Konfidenzintervalls enthalten ist, was uns den Beweis für ein gutes Modell passt. MA (3) Durchläuft das gleiche Verfahren für ein MA (3) - Verfahren. Diesmal sollten signifikante Peaks bei k in und unbedeutende Peaks für kgt 3 erwartet werden. Wir verwenden die folgenden Koeffizienten: beta1 0,6, beta2 0,4 und beta3 0,2. Wir können einen MA (3) Prozess von diesem Modell simulieren. Ive erhöhte die Anzahl der zufälligen Proben auf 1000 in dieser Simulation, was es leichter macht, die wahre Autokorrelationsstruktur zu sehen, und zwar auf Kosten der Herstellung der Originalreihe schwerer zu interpretieren: Die Ausgabe ist wie folgt: Wie erwartet sind die ersten drei Spitzen signifikant . Jedoch ist so das vierte. Aber wir können legitim vorschlagen, dass dies auf eine Stichprobe zurückzuführen ist, da wir erwarten, dass 5 der Peaks signifikant über kq liegen. Nun kann ein MA (3) - Modell an die Daten angepasst werden, um die Parameter zu probieren und zu schätzen: Die Schätzwerte Hut 0,544, Hut 0,345 und Hut 0,228 liegen nahe bei den wahren Werten von beta10,6, beta20,4 bzw. beta30,3. Wir können auch Konfidenzintervalle mit den jeweiligen Standardfehlern erzeugen: In jedem Fall enthalten die 95 Konfidenzintervalle den wahren Parameterwert und wir können schließen, dass wir, wie zu erwarten, gut mit unserem MA (3) - Modell übereinstimmen. Finanzdaten In Teil 1 betrachteten wir Amazon Inc. (AMZN) und den SampP500 US Equity Index. Wir passten das AR (p) - Modell an beide an und fanden, dass das Modell nicht in der Lage war, die Komplexität der seriellen Korrelation effektiv zu erfassen, vor allem im Guss des SampP500, wo Langzeitgedächtniseffekte zu sein scheinen. Ich wont plot die Diagramme wieder für die Preise und Autokorrelation, statt Ill weisen Sie auf die vorherige Post. Amazon Inc. (AMZN) Beginnen wir mit dem Versuch, eine Auswahl von MA (q) - Modellen an AMZN, nämlich mit q in passen. Wie in Teil 1, verwenden Sie quantmod, um die täglichen Preise für AMZN herunterzuladen und sie dann in ein Protokoll umzuwandeln, um Strom von Schlusskursen zurückzugeben: Jetzt können wir den Befehl arima verwenden, um MA (1), MA zu passen (2) und MA (3) - Modellen und schätzen dann die Parameter von jedem. Für MA (1) haben wir: Wir können die Residuen der täglichen Logarithmen und des angepassten Modells darstellen: Beachten Sie, dass wir einige signifikante Peaks bei den Lags k2, k11, k16 und k18 haben, was anzeigt, dass das MA (1) - Modell ist Unwahrscheinlich, dass eine gute Passform für das Verhalten der AMZN-Log-Rückkehr, da dies nicht aussehen wie eine Verwirklichung von weißem Rauschen. Lets try ein MA (2) - Modell: Beide Schätzungen für die Beta-Koeffizienten sind negativ. Wir können die Residuen wieder zeichnen: Wir können sehen, dass es fast Null Autokorrelation in den ersten paar Verzögerungen. Allerdings haben wir fünf marginale signifikante Peaks bei den Verzögerungen k12, k16, k19, k25 und k27. Dies ist naheliegend, dass das MA (2) - Modell viel von der Autokorrelation erfasst, aber nicht alle Langzeitspeicher-Effekte. Wie sieht es mit einem MA (3) - Modell aus? Wiederum können die Residuen geplottet werden: Das MA (3) Residualplot sieht fast identisch mit dem MA (2) - Modell aus. Dies ist nicht verwunderlich, wie das Hinzufügen eines neuen Parameters zu einem Modell, scheinbar erklärt hat viel von den Korrelationen bei kürzeren Verzögerungen, aber das hat nicht viel Einfluss auf die längerfristigen Verzögerungen. Alle diese Beweise deuten darauf hin, dass ein MA (q) - Modell ist unwahrscheinlich, dass es nützlich sein, zu erklären, alle der seriellen Korrelation in Isolation. Zumindest für AMZN. SampP500 Wenn Sie sich erinnern, in Teil 1 sahen wir, dass die erste Reihenfolge differenzierte tägliche Log Rückkehr Struktur des SampP500 besaß viele signifikante Peaks bei verschiedenen Lags, sowohl kurz als auch lang. Dies zeigte sowohl die bedingte Heteroskedastizität (d. H. Die Volatilitäts-Clusterbildung) als auch die Langzeitspeicher-Effekte. Es führte zu dem Schluss, dass das AR (p) - Modell nicht ausreicht, um die gesamte vorhandene Autokorrelation zu erfassen. Wie wir oben gesehen haben, reicht das MA (q) - Modell nicht aus, um zusätzliche Serienkorrelationen in den Resten des eingebauten Modells auf die differenzierten täglichen Log-Preisreihen erster Ordnung zu erfassen. Wir werden nun versuchen, das MA (q) - Modell an den SampP500 anzupassen. Man könnte fragen, warum wir dies tun, wenn wir wissen, dass es unwahrscheinlich, dass eine gute Passform ist. Das ist eine gute Frage. Die Antwort ist, dass wir genau sehen müssen, wie es nicht eine gute Passform ist, denn dies ist der ultimative Prozess, dem wir folgen werden, wenn wir auf sehr viel anspruchsvollere Modelle stoßen, die möglicherweise schwerer zu interpretieren sind. Lets beginnen mit dem Erhalten der Daten und wandeln es in eine erste Reihe differenzierte Reihe von logarithmisch umgewandelt täglichen Schlusskurse wie im vorherigen Artikel: Wir werden jetzt ein MA (1), MA (2) und MA (3) - Modell zu passen Die Serie, wie wir oben für AMZN. Beginnen wir mit MA (1): Machen wir eine Auftragung der Residuen dieses angepassten Modells: Der erste signifikante Peak tritt bei k2 auf, aber es gibt viel mehr bei k in. Dies ist eindeutig keine Verwirklichung von weißem Rauschen und deshalb müssen wir das MA (1) - Modell als eine für den SampP500 geeignete Potenz ablehnen. (2) Wiederum lassen sich die Residuen dieses angepassten MA (2) - Modells machen: Während der Peak bei k2 verschwunden ist (wie wir es erwarten), bleiben wir mit den signifikanten Peaks bei Viele längere Verzögerungen in den Resten. Noch einmal, finden wir das MA (2) - Modell ist nicht eine gute Passform. Für das MA (3) - Modell ist zu erwarten, dass bei k3 weniger serielle Korrelation als bei der MA (2) zu sehen ist, doch sollten wir auch hier keine Reduzierung weiterer Verzögerungen erwarten. Schließlich lässt sich eine Auftragung der Residuen dieses angepassten MA (3) - Modells machen: Genau das sehen wir im Korrelogramm der Residuen. Daher ist die MA (3), wie bei den anderen Modellen oben, nicht gut für den SampP500 geeignet. Die nächsten Schritte Weve untersuchte nun zwei große Zeitreihenmodelle im Detail, nämlich das autogressive Modell der Ordnung p, AR (p) und dann den Moving Average der Ordnung q, MA (q).


No comments:

Post a Comment