Saturday 28 October 2017

Arima Moving Average


Autoregressive Integrert Moving Gjennomsnitt - ARIMA DEFINITION av Autoregressive Integrert Moving Average - ARIMA En statistisk analysemodell som bruker tidsseriedata for å forutsi fremtidige trender. Det er en form for regresjonsanalyse som søker å forutsi fremtidige bevegelser langs den tilsynelatende tilfeldige spasertur tatt av aksjer og finansmarkedet ved å undersøke forskjellene mellom verdier i serien i stedet for å bruke de faktiske dataverdiene. Lags av differenced serien er referert til som autoregressive og lags innenfor prognosen data refereres til som glidende gjennomsnitt. BREAKER NED Autoregressive Integrert Flytende Gjennomsnitt - ARIMA Denne modelltypen kalles generelt ARIMA (p, d, q), med heltallene som refererer til autoregressive. integrert og bevegelige gjennomsnittlige deler av datasettet, henholdsvis. ARIMA modellering kan ta hensyn til trender, sesongmessighet. sykluser, feil og ikke-stasjonære aspekter ved et datasett når man lager prognoser. Innføring i ARIMA: nonseasonal modeller ARIMA (p, d, q) prognoser likning: ARIMA-modeller er i teorien den mest generelle klassen av modeller for å forutse en tid Serier som kan gjøres for å være 8220stationary8221 ved differensiering (om nødvendig), kanskje i forbindelse med ikke-lineære transformasjoner som logging eller deflatering (om nødvendig). En tilfeldig variabel som er en tidsserie er stasjonær hvis dens statistiske egenskaper er konstante over tid. En stasjonær serie har ingen trend, dens variasjoner rundt sin gjennomsnitt har en konstant amplitude, og den svinger på en konsistent måte. det vil si at kortsiktige tilfeldige tidsmønstre alltid ser like ut i statistisk forstand. Den sistnevnte tilstanden betyr at dets autokorrelasjoner (korrelasjoner med sine egne tidligere avvik fra gjennomsnittet) forblir konstante over tid, eller tilsvarende, at dets effektspektrum forblir konstant over tid. En tilfeldig variabel av dette skjemaet kan ses som en kombinasjon av signal og støy, og signalet (hvis det er tydelig) kan være et mønster av rask eller saksom gjennomsnittlig reversering eller sinusformet svingning eller rask veksling i skiltet , og det kan også ha en sesongbestemt komponent. En ARIMA-modell kan ses som en 8220filter8221 som forsøker å skille signalet fra støyen, og signalet blir deretter ekstrapolert inn i fremtiden for å oppnå prognoser. ARIMA-prognose-ligningen for en stasjonær tidsserie er en lineær (dvs. regresjonstype) ekvation hvor prediktorene består av lag av de avhengige variable ogor lagene av prognosefeilene. Det er: Forutsigbar verdi for Y en konstant og en vektet sum av en eller flere nylige verdier av Y og eller en vektet sum av en eller flere nylige verdier av feilene. Hvis prediktorene kun består av forsinkede verdier av Y. Det er en ren autoregressiv (8220self-regressed8221) modell, som bare er et spesielt tilfelle av en regresjonsmodell, og som kunne være utstyrt med standard regresjonsprogramvare. For eksempel er en førsteordens autoregressiv (8220AR (1) 8221) modell for Y en enkel regresjonsmodell der den uavhengige variabelen bare er Y forsinket med en periode (LAG (Y, 1) i Statgraphics eller YLAG1 i RegressIt). Hvis noen av prediktorene er lags av feilene, er en ARIMA-modell det IKKE en lineær regresjonsmodell, fordi det ikke er mulig å spesifisere 8220last period8217s error8221 som en uavhengig variabel: feilene må beregnes fra tid til annen når modellen er montert på dataene. Fra et teknisk synspunkt er problemet med å bruke forsinkede feil som prediktorer at modellen8217s spådommer ikke er lineære funksjoner av koeffisientene. selv om de er lineære funksjoner av tidligere data. Så koeffisienter i ARIMA-modeller som inkluderer forsinkede feil må estimeres ved ikke-lineære optimaliseringsmetoder (8220hill-klatring8221) i stedet for bare å løse et system av ligninger. Akronymet ARIMA står for Auto-Regressive Integrated Moving Average. Lags av den stationære serien i prognosekvotasjonen kalles kvotoregressivequot-termer. Lags av prognosefeilene kalles quotmoving averagequot vilkår, og en tidsserie som må differensieres for å bli stillestående, sies å være en quotintegratedquot-versjon av en stasjonær serie. Tilfeldige gange og tilfeldige trendmodeller, autoregressive modeller og eksponentielle utjevningsmodeller er alle spesielle tilfeller av ARIMA-modeller. En nonseasonal ARIMA-modell er klassifisert som en quotARIMA (p, d, q) kvotemodell hvor: p er antall autoregressive termer, d er antall ikke-sekundære forskjeller som trengs for stasjonar, og q er antall forsinkede prognosefeil i prediksjonsligningen. Forutsigelsesligningen er konstruert som følger. Først, la y betegne den d forskjellen på Y. Det betyr: Merk at den andre forskjellen på Y (d2-saken) ikke er forskjellen fra 2 perioder siden. Snarere er det den første forskjellen-av-første forskjellen. som er den diskrete analogen til et andre derivat, det vil si den lokale akselerasjonen av serien i stedet for sin lokale trend. Når det gjelder y. Den generelle prognosekvasjonen er: Her er de bevegelige gjennomsnittsparametrene (9528217s) definert slik at deres tegn er negative i ligningen, etter konvensjonen innført av Box og Jenkins. Noen forfattere og programvare (inkludert R programmeringsspråket) definerer dem slik at de har pluss tegn i stedet. Når faktiske tall er koblet til ligningen, er det ingen tvetydighet, men det er viktig å vite hvilken konvensjon programvaren bruker når du leser utgangen. Ofte er parametrene benevnt der av AR (1), AR (2), 8230 og MA (1), MA (2), 8230 etc. For å identifisere den aktuelle ARIMA modellen for Y. begynner du ved å bestemme differensordren (d) trenger å stasjonærisere serien og fjerne bruttoegenskapene til sesongmessighet, kanskje i forbindelse med en variansstabiliserende transformasjon som logging eller deflating. Hvis du stopper på dette punktet og forutsier at den forskjellige serien er konstant, har du bare montert en tilfeldig tur eller tilfeldig trendmodell. Den stasjonære serien kan imidlertid fortsatt ha autokorrelerte feil, noe som tyder på at noen antall AR-termer (p 8805 1) og eller noen nummer MA-termer (q 8805 1) også er nødvendig i prognosekvasjonen. Prosessen med å bestemme verdiene p, d og q som er best for en gitt tidsserie, vil bli diskutert i senere avsnitt av notatene (hvis koblinger er øverst på denne siden), men en forhåndsvisning av noen av typene av nonseasonal ARIMA-modeller som ofte oppstår, er gitt nedenfor. ARIMA (1,0,0) førstegangs autoregressiv modell: Hvis serien er stasjonær og autokorrelert, kan den kanskje forutsies som et flertall av sin egen tidligere verdi, pluss en konstant. Forutsigelsesligningen i dette tilfellet er 8230 som er Y regressert i seg selv forsinket med en periode. Dette er en 8220ARIMA (1,0,0) constant8221 modell. Hvis gjennomsnittet av Y er null, vil ikke det konstante begrepet bli inkludert. Hvis hellingskoeffisienten 981 1 er positiv og mindre enn 1 i størrelsesorden (den må være mindre enn 1 i størrelsesorden dersom Y er stasjonær), beskriver modellen gjennomsnittsreferanseadferd hvor neste periode8217s verdi skal anslås å være 981 1 ganger som langt unna gjennomsnittet som denne perioden8217s verdi. Hvis 981 1 er negativ, forutser det middelreferanseadferd med skifting av tegn, dvs. det forutsier også at Y vil være under gjennomsnittlig neste periode hvis den er over gjennomsnittet denne perioden. I en andre-ordregivende autoregressiv modell (ARIMA (2,0,0)), ville det være et Y t-2 begrep til høyre også, og så videre. Avhengig av tegnene og størrelsene på koeffisientene, kunne en ARIMA (2,0,0) modell beskrive et system hvis gjennomsnitts reversering foregår i sinusformet oscillerende mote, som bevegelse av en masse på en fjær som er utsatt for tilfeldige støt . ARIMA (0,1,0) tilfeldig tur: Hvis serien Y ikke er stasjonær, er den enkleste modellen for den en tilfeldig turmodell, som kan betraktes som et begrensende tilfelle av en AR (1) modell der autoregressive koeffisienten er lik 1, det vil si en serie med uendelig sakte gjennomsnittlig reversering. Forutsigelsesligningen for denne modellen kan skrives som: hvor den konstante sikt er den gjennomsnittlige perioden til periode-endringen (dvs. den langsiktige driften) i Y. Denne modellen kan monteres som en ikke-avskjæringsregresjonsmodell der Første forskjell på Y er den avhengige variabelen. Siden den inneholder (bare) en ikke-soneforskjell og en konstant periode, er den klassifisert som en quotARIMA (0,1,0) modell med constant. quot. Den tilfeldig-walk-uten-drift-modellen ville være en ARIMA (0,1, 0) modell uten konstant ARIMA (1,1,0) forskjellig førsteordens autoregressiv modell: Hvis feilene i en tilfeldig turmodell er autokorrelert, kan problemet løses ved å legge til et lag av den avhengige variabelen til prediksjonsligningen - - dvs ved å regresse den første forskjellen på Y i seg selv forsinket med en periode. Dette vil gi følgende prediksjonsligning: som kan omarrangeres til Dette er en førsteordens autoregressiv modell med en rekkefølge av ikke-soneforskjeller og en konstant term, dvs. en ARIMA (1,1,0) modell. ARIMA (0,1,1) uten konstant enkel eksponensiell utjevning: En annen strategi for korrigering av autokorrelerte feil i en tilfeldig gangmodell er foreslått av den enkle eksponensielle utjevningsmodellen. Husk at for noen ikke-stationære tidsserier (for eksempel de som viser støyende svingninger rundt et sakte varierende gjennomsnitt), utfører ikke den tilfeldige turmodellen så vel som et glidende gjennomsnittsverdier av tidligere verdier. Med andre ord, i stedet for å ta den nyeste observasjonen som prognosen for neste observasjon, er det bedre å bruke et gjennomsnitt av de siste observasjonene for å filtrere ut støy og mer nøyaktig anslå det lokale gjennomsnittet. Den enkle eksponensielle utjevningsmodellen bruker et eksponentielt vektet glidende gjennomsnitt av tidligere verdier for å oppnå denne effekten. Forutsigelsesligningen for den enkle eksponensielle utjevningsmodellen kan skrives i en rekke matematisk ekvivalente former. hvorav den ene er den såkalte 8220error correction8221 skjemaet, der den forrige prognosen er justert i retning av feilen den gjorde: Fordi e t-1 Y t-1 - 374 t-1 per definisjon kan dette omskrives som : som er en ARIMA (0,1,1) - out-konstant prognosekvasjon med 952 1 1 - 945. Dette betyr at du kan passe en enkel eksponensiell utjevning ved å angi den som en ARIMA (0,1,1) modell uten konstant, og den estimerte MA (1) - koeffisienten tilsvarer 1-minus-alfa i SES-formelen. Husk at i SES-modellen er gjennomsnittsalderen for dataene i 1-periode fremover prognosene 1 945. Det betyr at de vil ha en tendens til å ligge bak trender eller vendepunkter med ca 1 945 perioder. Det følger at gjennomsnittlig alder av dataene i 1-periode fremover prognosene for en ARIMA (0,1,1) uten konstant modell er 1 (1 - 952 1). For eksempel, hvis 952 1 0,8 er gjennomsnittsalderen 5. Når 952 1 nærmer seg 1, blir ARIMA (0,1,1) uten konstant modell et veldig langsiktig glidende gjennomsnitt og som 952 1 nærmer seg 0 blir det en tilfeldig tur uten drivmodell. What8217s den beste måten å korrigere for autokorrelasjon: legge til AR-vilkår eller legge til MA-vilkår I de to foregående modellene ble problemet med autokorrelerte feil i en tilfeldig turmodell løst på to forskjellige måter: ved å legge til en forsinket verdi av differensierte serier til ligningen eller legge til en forsinket verdi av prognosen feil. Hvilken tilnærming er best En tommelfingerregel for denne situasjonen, som vil bli nærmere omtalt senere, er at positiv autokorrelasjon vanligvis behandles best ved å legge til et AR-uttrykk for modellen og negativ autokorrelasjon vanligvis behandles best ved å legge til en MA term. I forretnings - og økonomiske tidsserier oppstår negativ autokorrelasjon ofte som en artefakt av differensiering. (Generelt reduserer differensiering positiv autokorrelasjon og kan til og med føre til en bryter fra positiv til negativ autokorrelasjon.) Så, ARIMA (0,1,1) modellen, der differensiering er ledsaget av en MA-term, brukes hyppigere enn en ARIMA (1,1,0) modell. ARIMA (0,1,1) med konstant enkel eksponensiell utjevning med vekst: Ved å implementere SES-modellen som en ARIMA-modell, får du faktisk en viss fleksibilitet. Først og fremst er estimert MA (1) - koeffisient tillatt å være negativ. Dette tilsvarer en utjevningsfaktor som er større enn 1 i en SES-modell, som vanligvis ikke er tillatt i SES-modellprosedyren. For det andre har du muligheten til å inkludere en konstant periode i ARIMA-modellen hvis du ønsker det, for å estimere en gjennomsnittlig ikke-null trend. ARIMA-modellen (0,1,1) med konstant har prediksjonsligningen: Forventningene for en periode fremover fra denne modellen er kvalitativt lik SES-modellen, bortsett fra at bane av de langsiktige prognosene vanligvis er en skrånende linje (hvis skråning er lik mu) i stedet for en horisontal linje. ARIMA (0,2,1) eller (0,2,2) uten konstant lineær eksponensiell utjevning: Linjære eksponentielle utjevningsmodeller er ARIMA-modeller som bruker to ikke-soneforskjeller i sammenheng med MA-termer. Den andre forskjellen i en serie Y er ikke bare forskjellen mellom Y og seg selv forsinket av to perioder, men det er den første forskjellen i den første forskjellen - dvs. Y-endringen i Y i periode t. Således er den andre forskjellen på Y ved periode t lik (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. En annen forskjell på en diskret funksjon er analog med et andre derivat av en kontinuerlig funksjon: den måler kvoteringsberegningsquot eller kvoturvitaquot i funksjonen på et gitt tidspunkt. ARIMA-modellen (0,2,2) uten konstant forutser at den andre forskjellen i serien er lik en lineær funksjon av de to siste prognosefeilene: som kan omarrangeres som: hvor 952 1 og 952 2 er MA (1) og MA (2) koeffisienter. Dette er en generell lineær eksponensiell utjevningsmodell. i hovedsak det samme som Holt8217s modell, og Brown8217s modell er et spesielt tilfelle. Den bruker eksponensielt vektede glidende gjennomsnitt for å anslå både et lokalt nivå og en lokal trend i serien. De langsiktige prognosene fra denne modellen konvergerer til en rett linje hvis skråning avhenger av den gjennomsnittlige trenden observert mot slutten av serien. ARIMA (1,1,2) uten konstant fuktet trend lineær eksponensiell utjevning. Denne modellen er illustrert i de tilhørende lysbildene på ARIMA-modellene. Den ekstrapolerer den lokale trenden i slutten av serien, men flater ut på lengre prognoshorisonter for å introdusere et konservatismedokument, en praksis som har empirisk støtte. Se artikkelen om hvorfor Damped Trend worksquot av Gardner og McKenzie og quotgolden Rulequot-artikkelen av Armstrong et al. for detaljer. Det er generelt tilrådelig å holde fast i modeller der minst en av p og q ikke er større enn 1, dvs. ikke prøv å passe på en modell som ARIMA (2,1,2), da dette sannsynligvis vil føre til overfitting og kvadrat-faktorquot problemer som er omtalt nærmere i notatene om den matematiske strukturen til ARIMA-modellene. Implementering av regneark: ARIMA-modeller som de som er beskrevet ovenfor, er enkle å implementere på et regneark. Forutsigelsesligningen er bare en lineær ligning som refererer til tidligere verdier av originale tidsserier og tidligere verdier av feilene. Dermed kan du sette opp et ARIMA prognose regneark ved å lagre dataene i kolonne A, prognoseformelen i kolonne B, og feilene (data minus prognoser) i kolonne C. Forutsigelsesformelen i en typisk celle i kolonne B ville ganske enkelt være et lineært uttrykk som refererer til verdier i forrige rader med kolonne A og C, multiplisert med de relevante AR - eller MA-koeffisientene lagret i celler andre steder på regnearket. Generelle sesongbaserte ARIMA-modeller: (0,1,1) x (0,1,1 ). Oversikt over sesongbaserte ARIMA-modellering: Den sesongmessige delen av en ARIMA-modell har samme struktur som den ikke-sesongmessige delen: den kan ha en AR-faktor, en MA-faktor, og en rekkefølge av differensiering. I den sesongmessige delen av modellen opererer alle disse faktorene på tvers av lagringssekvenser (antall perioder i en sesong). En sesongbasert ARIMA-modell er klassifisert som en ARIMA-modell (p, d, q) x (P, D, Q), hvor Pnumber av sesongbaserte autoregressive (SAR) termer, Dommerber av sesongmessige forskjeller, Qnumber av sesongmessige glidende gjennomsnittlige (SMA) termer Ved å identifisere en sesongbasert modell, er det første trinnet å avgjøre om en sesongforskjell er nødvendig, i tillegg til eller kanskje i stedet for en sesongmessig forskjell. Du bør se på tidsserier og ACF - og PACF-tomter for alle mulige kombinasjoner av 0 eller 1 ikke-sesongmessig forskjell og 0 eller 1 sesongmessig forskjell. Forsiktig: bruk aldri mer enn en sesongmessig forskjell, eller mer enn to totale forskjeller (sesongmessig og sesongbasert kombinert). Hvis sesongmønsteret er både sterkt og stabilt over tid (f. eks. Høyt om sommeren og lavt om vinteren eller omvendt), bør du sannsynligvis bruke en sesongmessig forskjell uansett om du bruker en sesongmessig forskjell, siden dette vil hindre sesongmønsteret fra å kvote seg i de langsiktige prognosene. La oss legge til dette i vår liste over regler for å identifisere modeller Regel 12: Hvis serien har et sterkt og konsistent sesongmønster, bør du bruke en ordre med sesongmessig differensiering - men bruk aldri mer enn én rekkefølge av sesongforskjeller eller mer enn 2 Ordrer av total differensiering (seasonalnonseasonal). Signaturen til ren SAR eller ren SMA-oppførsel er lik signaturen til ren AR eller ren MA-oppførsel, bortsett fra at mønsteret vises over flere lag S i ACF og PACF. For eksempel har en ren SAR (1) prosess spikes i ACF på lags s, 2s, 3s, etc. mens PACF slår av etter lag s. Omvendt har en ren SMA (1) prosess spikes i PACF ved lags s, 2s, 3s, etc. mens ACF slår av etter lag s. En SAR-signatur oppstår vanligvis når autokorrelasjonen i sesongperioden er positiv e, mens en SMA-signatur vanligvis oppstår når sesongens autokorrelasjon er negativ. dermed: Regel 13: Hvis autokorrelasjonen i sesongperioden er positiv. vurder å legge til et SAR-uttrykk i modellen. Hvis autokorrelasjonen i sesongperioden er negativ. vurdere å legge til et SMA-uttrykk i modellen. Forsøk å unngå å blande SAR - og SMA-vilkår i samme modell, og unngå å bruke mer enn en av de samme. Vanligvis er et SAR (1) eller SMA (1) begrep tilstrekkelig. Du vil sjelden oppleve en ekte SAR (2) eller SMA (2) prosess, og enda mer sjelden har det nok data til å estimere 2 eller flere sesongkoeffisienter uten at estimeringsalgoritmen kommer inn i en kvoteringsløkkel. Selv om en sesongmessig ARIMA-modell synes å ha bare noen få parametere, husk at tilbakestillingen krever estimering av en eller to sesonger verdt av implisitte parametere for å initialisere den. Derfor bør du ha minst 4 eller 5 årstider med data for å passe til en sesongbasert ARIMA-modell. Sannsynligvis er den mest brukte sesongbaserte ARIMA modellen modellen (0,1,1) x (0,1,1) - dvs. en MA (1) xSMA (1) modell med både sesongmessig og en sesongmessig forskjell. Dette er i hovedsak en kvoteasonal eksponentiell smoothingquot-modell. Når årlige ARIMA-modeller er montert på loggede data, kan de spore et multipliserende sesongmønster. Eksempel: Revidert AUTOSALE-serie Husk at vi tidligere hadde prognose for detaljhandelstilsynsserien ved å bruke en kombinasjon av deflasjon, sesongjustering og eksponensiell utjevning. La oss nå prøve å montere den samme serien med sesongbaserte ARIMA-modeller, ved å bruke den samme datautvalget fra januar 1970 til mai 1993 (281 observasjoner). Som før vil vi jobbe med deflatert automatisk salg - dvs. Vi vil bruke serien AUTOSALECPI som input variabel. Her er tidsseriens plott og ACF - og PACF-plott av den opprinnelige serien, som er oppnådd i prognoseprosedyren ved å plotte quotresidualsquot av en ARIMA (0,0,0) x (0,0,0) modell med konstant: The quotsuspension bridgequot mønster i ACF er typisk for en serie som er både ikke-stationær og sterkt sesongmessig. Det er klart at vi trenger minst en ordre av differensiering. Hvis vi tar en ikke-sesongmessig forskjell, er de tilsvarende tomter som følger: Differensierte serier (residualene av en tilfeldig gang med vekstmodell) ser mer eller mindre stille ut, men det er fortsatt veldig sterk autokorrelasjon i sesongperioden (lag 12). Fordi sesongmønsteret er sterkt og stabilt, vet vi (fra regel 12) at vi vil bruke en rekkefølge av sesongforskjeller i modellen. Her ser du hvordan bildet ser ut etter en sesongmessig forskjell: Den sesongforskjellige serien viser et veldig sterkt mønster av positiv autokorrelasjon, som vi husker fra vårt tidligere forsøk på å passe en sesongbasert tilfeldig turmodell. Dette kan være et quotAR signaturequot - eller det kan signalere behovet for en annen forskjell. Hvis vi tar både en sesongmessig og ikke-sesongmessig forskjell, blir følgende resultater oppnådd: Dette er selvsagt residuene fra den sesongbaserte tilfeldige trendmodellen som vi monterte på automatisk salgsdata tidligere. Vi ser nå telltale tegn på mild overdifferensiering. De positive toppene i ACF og PACF er blitt negative. Hva er den riktige rekkefølgen av differensier En annen informasjon som kan være nyttig er en beregning av feilstatistikken til serien på hvert nivå av differensiering. Vi kan beregne disse ved å tilpasse de tilsvarende ARIMA-modellene der det bare brukes differensiering: De minste feilene, både i estimeringsperioden og i valideringsperioden, er oppnådd ved modell A, som bruker en forskjell på hver type. Dette, sammen med utseendet på tomtene ovenfor, tyder sterkt på at vi skal bruke både sesongmessig og ikke-sesongmessig forskjell. Legg merke til at, med unntak av den gratuløse konstante sikt, er modell A den årlige tilfeldige trenden (SRT) - modellen, mens modell B er bare den årlige random-walk-modellen (SRW). Som vi nevnte tidligere ved sammenligning av disse modellene, ser SRT-modellen seg bedre ut enn SRW-modellen. I analysen som følger, vil vi prøve å forbedre disse modellene ved å legge til sesongmessige ARIMA vilkår. Gå tilbake til toppen av siden. Den ofte brukte ARIMA-modellen (0,1,1) x (0,1,1): SRT-modell pluss MA (1) og SMA (1) termer Gå tilbake til det siste settet av tomter over, merk det med en forskjell på hver type er det en negativ spike i ACF ved lag 1 og også en negativ spike i ACF ved lag 12. mens PACF viser et mer gradvis quotdecayquot mønster i nærheten av begge disse lagene. Ved å bruke våre regler for å identifisere ARIMA-modeller (spesielt regel 7 og regel 13), kan vi nå konkludere med at SRT-modellen skulle bli forbedret ved å legge til en MA (1) og en SMA (1) term. Også ved regel 5 utelukker vi konstanten da to ordrer med differensiering er involvert. Hvis vi gjør alt dette, får vi ARIMA-modellen (0,1,1) x (0,1,1). som er den mest brukte sesongbaserte ARIMA-modellen. Forutsigelsesligningen er: hvor 952 1 er MA (1) koeffisienten og 920 1 (kapital theta-1) er SMA (1) koeffisienten. Legg merke til at dette bare er den sesongbaserte tilfeldige trendmodellen som er fancied-up ved å legge til multipler av feilene ved lags 1, 12 og 13. Merk også at koeffisienten av lag-13-feilen er produktet av MA (1) og SMA (1) koeffisienter. Denne modellen er konseptuelt lik Winters modellen i den grad den effektivt bruker eksponensiell utjevning til nivå, trend og sesongmessighet på en gang, selv om den hviler på mer solide teoretiske grunnlag, særlig med hensyn til beregning av konfidensintervaller for langsiktige prognoser. Dens gjenværende tomter i dette tilfellet er som følger: Selv om en liten mengde autokorrelasjon forblir ved lag 12, er det generelle utseendet på tomtene godt. Modelleringsresultatene viser at estimert MA (1) og SMA (1) koeffisienter (oppnådd etter 7 iterasjoner) faktisk er signifikante: Prognosene fra modellen ligner de sesongbaserte tilfeldige trendmodellene - dvs. de plukker opp sesongmønsteret og den lokale trenden i slutten av serien - men de er litt jevnere i utseende, siden både sesongmønsteret og trenden er effektivt i gjennomsnitt (i eksponensiell utjevning) få årstider: Hva er denne modellen virkelig å gjøre Du kan tenke på det på følgende måte. Først beregner det forskjellen mellom hver måned8217s verdi og et 8220 eksponentielt vektet historisk gjennomsnitt8221 for den måneden som beregnes ved å anvende eksponensiell utjevning til verdier som ble observert i samme måned i tidligere år, hvor utjevningen bestemmes av SMA (1 ) koeffisient. Deretter gjelder det enkel eksponensiell utjevning til disse forskjellene for å forutsi avviket fra det historiske gjennomsnittet som vil bli observert neste måned. Verdien av SMA (1) - koeffisienten nær 1,0 antyder at mange årstider med data blir brukt til å beregne det historiske gjennomsnittet for en gitt måned i året. Husk at en MA (1) koeffisient i en ARIMA (0,1,1) modell tilsvarer 1-minus-alfa i den tilsvarende eksponensielle utjevningsmodellen, og at gjennomsnittsalderen for dataene i en eksponentiell utjevningsmodellprognose er 1 apha. SMA (1) koeffisienten har en lignende tolkning i forhold til gjennomsnitt over sesongene. Her antyder verdien av 0,91 at gjennomsnittsalderen for dataene som brukes til å estimere det historiske sesongmønsteret, er litt mer enn 10 år (nesten halvparten av datasettet), noe som betyr at et nesten konstant sesongmønster antas. Den mye mindre verdien av 0,5 for MA (1) - koeffisienten antyder at relativt liten utjevning gjøres for å estimere gjeldende avvik fra det historiske gjennomsnittet for samme måned, så neste måned8217s forutsagte avvik fra dens historiske gjennomsnitt vil være nær avvikene fra det historiske gjennomsnittet som ble observert de siste månedene. ARIMA-modellen (1,0,0) x (0,1,0) med konstant: SRW-modell pluss AR (1) - begrepet Den forrige modellen var en sesongbasert tilfeldig trend (SRT) - modell finjustert ved tillegg av MA 1) og SMA (1) koeffisienter. En alternativ ARIMA modell for denne serien kan oppnås ved å erstatte en AR (1) term for ikke-soneforskjellen - dvs. ved å legge til et AR (1) - uttrykk i Seasonal Random Walk (SRW) - modellen. Dette vil gjøre det mulig for oss å bevare sesongmønsteret i modellen mens du senker den totale mengden differensier, og derved øker stabiliteten til trendprojeksjonene hvis ønskelig. (Husk at med en sesongmessig forskjell alene, viser serien en sterk AR (1) signatur.) Hvis vi gjør dette, får vi en ARIMA (1,0,0) x (0,1,0) modell med konstant, som gir følgende resultater: AR (1) - koeffisienten er faktisk svært signifikant, og RMSE er bare 2,06, sammenlignet med 3,00 for SRW-modellen (modell B i sammenligningsrapporten ovenfor). Forutsigelseslikningen for denne modellen er: Den ekstra termen på høyre side er et flertall av sesongforskjellen observert i den siste måneden, noe som medfører at korrigeringen av prognosen for effekten av et uvanlig godt eller dårlig år blir korrigert. Her angir 981 1 AR (1) koeffisienten, hvis estimerte verdi er 0,73. For eksempel, hvis salget i forrige måned var X dollar foran salget ett år tidligere, så ble mengden 0,73X lagt til prognosen for denne måneden. 956 angir CONSTANT i prognosekvasjonen, hvis estimerte verdi er 0,20. Den estimerte MEAN, hvis verdi er 0.75, er gjennomsnittsverdien av den sesongmessige differensierte serien, som er den årlige trenden i de langsiktige prognosene for denne modellen. Konstanten er (per definisjon) lik gjennomsnittstiderne 1 minus AR (1) koeffisienten: 0,2 0,75 (1 8211 0,73). Prognosepotet viser at modellen faktisk gjør en bedre jobb enn SRW-modellen for sporing av sykliske endringer (dvs. uvanlig gode eller dårlige år): MSE for denne modellen er imidlertid fortsatt betydelig større enn det vi fikk for ARIMA (0, 1,1) x (0,1,1) modell. Hvis vi ser på gjenstander av rester, ser vi rom for forbedring. Residensene viser fortsatt et tegn på konjunktivariasjon: ACF og PACF antyder behovet for både MA (1) og SMA (1) koeffisienter: En forbedret versjon: ARIMA (1,0,1) x (0,1,1) med konstant Hvis vi legger til de angitte MA (1) og SMA (1) vilkårene til foregående modell, får vi en ARIMA (1,0,1) x (0,1,1) modell med konstant, hvis prognosekvasjon er Dette er nesten det samme som ARIMA-modellen (0,1,1) x (0,1,1), bortsett fra at den erstatter den ikke-soneforskjellen med en AR (1) sikt (en kvoteforskjell) og den inneholder en konstant term som representerer langsiktig trend. Derfor antar denne modellen en mer stabil trend enn ARIMA-modellen (0,1,1) x (0,1,1), og det er den viktigste forskjellen mellom dem. De modellmessige resultatene er som følger: Legg merke til at estimert AR (1) koeffisient (981 1 i modellligningen) er 0,96, som ligger svært nær 1,0, men ikke så nær som å foreslå at den absolutt burde erstattes med en første forskjell: Standardfeilen er 0,02, så det er omtrent 2 standardfeil fra 1.0. Den andre statistikken til modellen (estimert MA (1) og SMA (1) koeffisientene og feilstatistikken i estimerings - og valideringsperioder) er ellers nesten identiske med de for ARIMA (0,1,1) x (0,1 , 1) modell. (De estimerte MA (1) og SMA (1) koeffisientene er 0,45 og 0,91 i denne modellen vs 0,48 og 0,91 i den andre.) Estimert MEAN på 0,68 er den forventede langsiktige trenden (gjennomsnittlig årlig økning). Dette er i hovedsak den samme verdien som ble oppnådd i den (1,0,0) x (0,1,0) med konstante modellen. Standardfeilen på estimert gjennomsnitt er 0,26, så forskjellen mellom 0,75 og 0,68 er ikke signifikant. Hvis konstanten ikke var inkludert i denne modellen, ville den være en dempet trendmodell: Trenden i de langsiktige prognosene vil gradvis bli flatt ut. Poengprognosene fra denne modellen ser ganske lik den av modellen (0,1,1) x (0,1,1), fordi den gjennomsnittlige trenden ligner den lokale trenden i slutten av serien. Imidlertid utvides konfidensintervaller for denne modellen noe mindre raskt på grunn av antakelsen om at trenden er stabil. Legg merke til at konfidensgrensene for de toårige prognosene nå ligger innenfor de horisontale gridlinjene ved 24 og 44, mens de av modellen (0,1,1) x (0,1,1) ikke var: Sesongbaserte ARIMA mot eksponensiell utjevning og sesongjustering: Nå kan vi sammenligne ytelsen de to beste ARIMA-modellene mot enkle og lineære eksponensielle utjevningsmodeller ledsaget av multiplikativ sesongjustering og Winters-modellen, som vist i lysbildene på prognoser med sesongjustering: Feilestatistikken for De foreløpige prognosene for alle modellene er ekstremt tett i dette tilfellet. Det er vanskelig å velge en 8220winner8221 basert på disse tallene alene. Gå tilbake til toppen av siden. Hva er avvikene blant de ulike sesongmodellene De tre modellene som bruker multiplikativ sesongjustering håndterer sesongmessigheten på en eksplisitt måte - dvs. sesongbestemte indekser brytes ut som en eksplisitt del av modellen. ARIMA-modellene håndterer sesongmessigheten på en mer implisitt måte - vi kan ikke se i ARIMA-utgangen hvordan gjennomsnittet i desember sier, er forskjellig fra gjennomsnittet juli. Avhengig av om det anses viktig å isolere sesongmønsteret, kan dette være en faktor i å velge mellom modeller. ARIMA-modellene har fordelen at når de er initialisert, har de færre kvoteringskvoter enn eksponentielle utjevnings - og justeringsmodeller, og som sådan kan de være mindre tilbøyelige til å overføre dataene. ARIMA-modellene har også en mer solid underliggende teori med hensyn til beregning av konfidensintervall for lengre horisontprognoser enn de andre modellene. Det er flere dramatiske forskjeller mellom modellene med hensyn til oppførselen av prognosene og konfidensintervaller for prognoser mer enn en periode inn i fremtiden. Dette er hvor forutsetningene som er gjort med hensyn til endringer i trend og sesongmønster, er svært viktige. Mellom de to ARIMA-modellene estimerer en (modell A) en tidsvarierende trend, mens den andre (modell B) inkorporerer en langsiktig gjennomsnittlig trend. (Vi kunne, hvis vi ønsket, flate ut den langsiktige trenden i modell B ved å undertrykke den konstante sikt.) Blant modellene for eksponensiell utjevning og pluss justering antar en (modell C) en flat trend, mens den andre ( modell D) antar en tidsvarierende trend. Winters-modellen (E) påtar seg også en tidsvarierende trend. Modeller som antar en konstant trend, er relativt mer selvsikker i sine langsiktige prognoser enn modeller som ikke gjør det, og dette vil vanligvis reflekteres i hvilken grad konfidensintervall for prognoser blir bredere ved lengre prognosehorisont. Modeller som ikke antar tidsvarierende trender har generelt smalere konfidensintervaller for lengre horisontprognoser, men smalere er ikke bedre med mindre denne antakelsen er riktig. De to eksponensielle utjevningsmodellene kombinert med sesongjustering antar at sesongmønsteret har holdt seg konstant i løpet av de 23 årene i dataprøven, mens de andre tre modellene ikke gjør det. I den grad det sesongmessige mønsteret står for det meste av måneden til månedsvarianter i dataene, er det viktig å forutse hva som skjer flere måneder inn i fremtiden. Hvis sesongmønsteret antas å ha endret seg sakte over tid, ville en annen tilnærming være å bare bruke en kortere datahistorikk for å tilpasse modellene som anslår faste sesongindekser. For rekordet, her er prognosene og 95 konfidensgrenser for mai 1995 (24 måneder fremover) som er produsert av de fem modellene: Poengprognosene er faktisk overraskende nær hverandre i forhold til bredden av alle konfidensintervallene. SES-punktprognosen er den laveste, fordi den er den eneste modellen som ikke antar en oppadgående trend på slutten av serien. ARIMA-modellen (1,0,1) x (0,1,1) c har de smaleste konfidensgrenser, fordi den antar mindre tidsvariasjon i parametrene enn de andre modellene. Dessuten er prognoseprognosen litt større enn de andre modellene, fordi den ekstrapolerer en langsiktig trend i stedet for en kortsiktig trend (eller null trend). Winters-modellen er minst stabilt av modellene, og prognosen har derfor de største konfidensgrensene, som det fremgår av de detaljerte prognosen for modellene. Og prognosene og sikkerhetsgrensene for ARIMA-modellen (0,1,1) x (0,1,1) og de av LES sesongjusteringsmodellen er nesten identiske. For å logge eller ikke logge noe som vi ennå ikke har gjort, men kan ha, inkluderer en loggtransformasjon som en del av modellen. Sesongbaserte ARIMA-modeller er iboende additivmodeller, så hvis vi ønsker å fange et multipliserende sesongmønster. Vi må gjøre det ved å logge dataene før du monterer ARIMA-modellen. (I Statgraphics, ville vi bare måtte spesifisere kvadratisk Logquot som et modelleringsalternativ - ikke så mye). I dette tilfellet synes deflationstransformasjonen å ha gjort en tilfredsstillende jobb med å stabilisere amplitudene til sesongmessige sykluser, så det gjør ikke synes å være en overbevisende grunn til å legge til en loggtransformasjon så langt som langsiktige trender er bekymret. Hvis residuene viste en markant økning i variansen over tid, kan vi bestemme noe annet. Det er fortsatt spørsmål om feilen i disse modellene har en konsistent variasjon i løpet av måneder på året. Hvis de ikke gjør det, kan konfidensintervaller for prognoser ha en tendens til å være for bred eller for smal etter sesongen. Rest-vs-time-plottene viser ikke et åpenbart problem i denne forbindelse, men for å være grundig, ville det være fint å se feilvariasjonen i måneden. Hvis det faktisk er et problem, kan en loggformasjon reparere den. Gå tilbake til toppen av siden.

No comments:

Post a Comment