Econometrische modelselectie: een combinatie tussen AIC en BIC
Faculteit Economie en Bedrijfskunde, Universiteit van AmsterdamEconometrie Bachelorscriptie Door: Koen Merks, 10103384 Begeleider: dr. P.H.F.M. van Casteren
28 juni 2016
Samenvatting
Dit artikel onderzoekt door middel van verschillende Monte-Carlosimulaties of het modelse-lectiecriterium SIICω een beter model selecteert dan de modelselectiecriteria AIC of BIC. De
datagenererende processen die in de Monte-Carlosimulaties gebruikt worden zijn een AR(1) model, een ARMA(1,1) model en een AR(5) model. Met het onderzoeken van verschillende waarden van de sample size en van verschillende maximale orde van de te schatten modellen, wordt duidelijk dat SIICω niet vaak het beste model selecteert. En tevens selecteert SIICω zelden het slechtste
model. Hierdoor blijkt SIICω een verbetering te zijn voor de modelselectiecriteria AIC en BIC,
Verklaring eigen werk
Hierbij verklaar ik, Koen Merks, dat ik deze scriptie zelf geschreven heb en dat ik de volledige verant-woordelijkheid op me neem voor de inhoud ervan.
Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd.
De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het in-leveren van de scriptie, niet voor de inhoud.
Inhoudsopgave
1 Inleiding 2
2 Modelselectiemethoden 3
2.1 Belangrijke bestaande theorie¨en . . . 4
2.2 Vergelijking van AIC en BIC . . . 6
2.3 Krimp-parameter ω . . . 7 2.4 SIICω . . . 9 3 Monte-Carlosimulatie 10 4 Resultaten en analyse 11 4.1 AR(1) model . . . 12 4.2 ARMA(1,1) model . . . 14 4.3 AR(5) model . . . 16 4.4 Opvallende resultaten . . . 19 5 Conclusie 19 Literatuur 22 Bijlage 23
1
Inleiding
Het selecteren van het beste model is een belangrijk onderdeel van de econometrie. Als op basis van geobserveerde data een model geschat moet worden, kan ervoor gekozen worden om zo veel mogelijk parameters op te nemen. Door het opnemen van veel variabelen wordt het grootste deel van de geob-serveerde data in de betreffende steekproef door het model verklaard (hoge fit). Wel moeten dan de verklarende variabelen een verband met de te verklaren variabele hebben. Neem het loon als voor-beeld. De hoogte van het loon hangt af van de scholing die een persoon genoten heeft, het aantal jaar werkervaring, in welk (deel van het) land de persoon geboren is en zo zijn er nog meer variabelen te bedenken, die van invloed kunnen zijn op de hoogte van iemands loon. Wordt bijvoorbeeld gekeken naar welke middelbare school iemand is gegaan, dan bestaat een grote kans dat deze keuze is be¨ınvloed door de vriendengroep van deze persoon op de basisschool. Dat een verband bestaat tussen het kiezen van een middelbare school en de vriendenkring kan worden aangetoond worden, net als het verband dat de middelbare schoolkeuze van een persoon invloed heeft op de hoogte van het loon. Immers iemand die naar het vwo is gegaan zal waarschijnlijk meer verdienen dan iemand die naar het vmbo ging. Kan er dan ook worden gezegd dat de keuze van vrienden op de basisschool invloed heeft op de hoogte van het loon? Nee, er is geen direct verband tussen deze twee variabelen. Het opnemen van veel variabelen kan leiden tot het opnemen van verklarende variabelen die geen verband hebben met de verklaarde variabele.
Bij het selecteren van modellen zijn de zuiverheid en de variantie van het model belangrijk. Zoals in het voorbeeld hierboven duidelijk werd, zorgen veel parameters in het geschatte model voor een hoge variantie, maar ook voor een hoge zuiverheid. Een geschat model met weinig parameters zorgt voor een lage variantie, en is over het algemeen onzuiver. Bij modelselectie zal een afweging gemaakt moeten worden tussen de variantie en de zuiverheid van het geschatte model. Dit is een bekend en lastig probleem. Er zijn veel verschillende methoden voor het selecteren van een model. Omdat de uitwerking van de methoden vrij verschillend zijn is het belangrijk om te weten welk van deze metho-den geprefereerd wordt.
Het uitvoeren van F-toetsen met een onbetrouwbaarheidsdrempel (α) van 5 procent om te beslissen over het wel of niet opnemen van regressoren ziet Van Casteren (1996) als de traditionele methode. Voor het geval dat het gaat over het wel of niet opnemen van ´e´en regressor reduceert de F-toets tot een t-toets. Een andere methode is gebaseerd op het feit dat de verwachting van de residuele variantie minimaal is voor een waar model. Hierbij is een waar model een model waarin alle relevante variabelen zijn opgenomen. Het Akaike’s Information Criterion (AIC) kan niet ontbreken in de methoden voor modelselectie. Akaike (1974) heeft deze methode gebaseerd op de informatietheorie. Het geeft een relatieve schatting van de informatie die uit de data verloren gaat door het schatten van een model die deze data probeert te genereren. Van Casteren (1996) noemt nog een aantal vergelijkbare
models-electiecriteria, zoals Amemiya’s Prediction Criterion (PC) en Mallow’s CP. Het Bayesian Information
Criterion (BIC) door Schwarz (1978) gebruikt de Bayesiaanse aanpak. Het BIC selecteert asympto-tisch het model dat de hoogste kans heeft een waar model van minimale omvang te zijn. Volgens Van Casteren (1996) is het nadeel van deze methode dat het gebaseerd is op de assumptie dat er een eindig waar model bestaat. Er moet dus een (bijna) waar alternatief model zijn voordat dit zinvol is. Of deze assumptie in de praktijk gerechtvaardigd is, is vaak onduidelijk.
Deze verschillende methoden voor modelselectie hebben allemaal hun voor- en nadelen. Om te bepalen welk van deze methoden de voorkeur verdient voert Van Casteren (1996) een krimp-parameter ω in. Deze ω is zeer bepalend voor de afweging tussen de variantie en zuiverheid van een criterium. De waarde voor ω kan voor bijna ware concurrerende modellen het beste dicht bij 0 liggen, terwijl als de concurrerende modellen nogal strijdig met de werkelijkheid zijn kan beter een ω dicht bij 1 worden gekozen. Als het onderscheid tussen de concurrerende modellen en de werkelijkheid moeilijk te maken is, dan beveelt Van Casteren (1996) een ω in het midden tussen 0 en 1 aan.
In dit onderzoek zal de krimp-parameter ω verder onder de loep worden genomen, door te ki-jken in hoeverre het mogelijk is om met deze krimp-parameter in de praktijk een beter voorspellend autoregressief model te selecteren dan AIC en BIC. Omdat geldt dat 0 < ω ≤ 1 zijn er veel verschil-lende waarden van de krimp-parameter mogelijk. Of de shrinkage aanpak van Van Casteren (1996) in de praktijk goed werkt, wordt met een simulatie onderzocht. In de volgende paragraaf worden de bestaande methoden AIC en BIC besproken en met elkaar vergeleken, om zo de theorie achter de krimp-parameter ω te bespreken. Vervolgens wordt in paragraaf 3 de simulatie besproken die in dit artikel gebruikt wordt. Hierna worden in paragraaf 4 de resultaten weergegeven en geanalyseerd. In paragraaf 5 wordt uiteindelijk de conclusie getrokken.
2
Modelselectiemethoden
Dit hoofdstuk bespreekt de belangrijkste theorie¨en op het gebied van modelselectiecriteria. Eerst worden AIC en BIC besproken. Vervolgens wordt in dit artikel bekeken of de krimp-parameter ω van Van Casteren (1996) in de praktijk goed werkt. Hiervoor is het van belang dat de theorie¨en waarop ω is gebaseerd besproken worden. Het afleiden van ω valt buiten de kaders van dit artikel.
In modelselectie wordt een afweging gemaakt tussen de onzuiverheid en de variantie van een geschat model. Door weinig variabelen op te nemen in het geschatte model kan er underfitting ontstaan. Door het ontbreken van mogelijk belangrijke variabelen wordt er te weinig gekeken naar de onderlinge verbanden van de opgenomen variabelen. Dit kan vervolgens zorgen voor een onzuiver geschat model. Het toevoegen van te veel variabelen aan het geschatte model kan underfitting oplossen, echter dit kan leiden tot overfitting. Bij overfitting worden niet noodzakelijke variabelen opgenomen in het model. Hierdoor kan de variantie van het geschatte model onnodig groot worden. Overfitting in modelselectie
komt volgens Cawley en Talbot (2010) het vaakst voor als de steekproef van de data klein is en het aantal variabelen relatief groot is. Het grootste probleem in modelselectie is het afwegen van underfitting en overfitting van een geschat model, om zo een zuiver model te selecteren met een lage variantie.
2.1 Belangrijke bestaande theorie¨en
Een van de belangrijkste theorie¨en in modelselectie is het AIC. Deze maakt gebruik van de Kullback-Leibler (K-L) information. Kullback en Kullback-Leibler (1951) beginnen met het concept dat f de realiteit of waarheid aanduidt. Vervolgens duiden ze g als een benaderend model aan, een kansverdeling. De K-L information I(f, g) is de verloren informatie als model g gebruikt wordt om f te benaderen. Voor continue functies wordt dit weergeven als de integraal:
I(f, g) = Z
f (x)log( f (x) g(x|θ))dx.
De K-L information kan ook op de volgende manieren geschreven worden:
I(f, g) = Z f (x)log(f (x))dx − Z f (x)log(g(x|θ))dx of
I(f, g) = Ex[log(f (x))] − Ex[log(g(x|θ))],
waarbij de verwachtingen worden genomen naar de werkelijkheid (f ). Het beste model is het model dat het minste informatie verliest ten opzichte van de andere modellen die bekeken worden. Dit is hetzelfde als het minimaliseren van I(f, g) over g. Volgens Burnham en Anderson (2004) geldt dat bij data-analyse waarbij de modelparameters geschat moeten worden, vaak een substanti¨ele onzekerheid is bij het schatten van deze parameters. Modellen waarin de parameters worden geschat onderscheiden zich van het geval dat de modelparameters bekend zijn. Dit onderscheid heeft effect op hoe de K-L information gebruikt moet worden als een basis voor modelselectie.
Het kritieke punt voor het verkrijgen van een streng modelselectiecriterium dat gebaseerd is op K-L information was volgens Akaike (1973) het schatten van EyEx[log(g(x|ˆθ(y)))]. Hierbij is Ex[log(g(x|ˆθ(y)))]
hetzelfde als Ex[log(g(x|θ))], waarin θ vervangen is door de maximum likelihood estimator (MLE) van
θ gebaseerd op het geschatte model g en data y. Een formele relatie tussen de K-L information en de likelihood theorie werd gevonden door Akaike (1973). Hij komt tot de conclusie dat de maximum log-likelihood waarde een onzuivere verwachting van EyEx[log(g(x|ˆθ(y)))] is, en dat deze
onzuiver-heid ongeveer gelijk is aan p, het aantal geschatte parameters in het benaderende model g. Dit is volgens Burnham en Anderson (2004) een asymptotisch resultaat van fundamenteel belang. Hierdoor is het mogelijk om schattingen (zoals de maximum likelihood of least squares) en modelselectie onder
een en hetzelfde optimalisatiekader te combineren. Door beide technieken te combineren ontstond het Akaike’s Information Criterion:
AIC = −2ln(l(ˆθ|data)) + 2p. (1) Hier is p het aantal vrije parameters die geschat moeten worden en l(ˆθ|data) is de maximum likelihood waarde.
De AIC-waarden zijn niet interpreteerbaar. Dit komt omdat de waarden worden be¨ınvloed door de grootte van de steekproef en omdat de waarden willekeurige constanten bevatten. Daarom worden de AIC-termen herschaald naar ∆i= AICi− AICmin. Hierbij is AICmin de minimale waarde van AICi.
Door deze transformatie krijgt het beste model de waarde ∆i = 0, terwijl de overige modellen een
positieve waarde zullen hebben. ∆i is het ervaren informatieverlies als een model gi wordt gekozen
in plaats van het beste model gmin. Doordat de ∆0is makkelijk te interpreteren zijn en makkelijk met
elkaar te vergelijken zijn, kunnen verschillende modellen snel geordend worden. Hoe groter ∆i is, hoe
minder plausibel het is dat het benaderende model i het best benaderende model van alle kandidaten is.
Een andere belangrijke theorie in modelselectie is BIC. Het BIC kan worden beschouwd als het Bayesiaanse alternatief voor AIC. In het geval van lineaire gemengde modellen geldt dat, als de con-stante 2 in de strafterm van AIC vervangen wordt door ln(n), waarbij n de steekproefgrootte is, dan transformeert het AIC in het BIC. Net als bij AIC wordt het model met de laagste BIC-waarde gepref-ereerd. Een lagere BIC-waarde impliceert: minder verklarende variabelen, een betere fit of beide. Een van de mogelijke Bayesiaanse manieren van modelselectie is gebaseerd op het vergelijken van de kans, dat elk van de mogelijke modellen het werkelijke model is dat de geobserveerde data genereert. De BIC-schatter gebruikt alleen de uitkomst van de MLE. Het BIC wordt gegeven door:
BIC = −2ln(l(ˆθ|data)) + p ∗ ln(n). (2)
Hierbij is p wederom het aantal vrije parameters die geschat moeten worden en l(ˆθ|data) de maximum likelihood waarde. Volgens Kass en Wasserman (1995) is het BIC bedoeld om de log marginal likeli-hood van een model te benaderen. Het model selecteren waarvoor de BIC-waarde het laagst is, staat gelijk aan het model selecteren dat de grootste kans heeft het werkelijke model te zijn. Bij BIC is de aanname dat het werkelijke model in de set van kandidaatmodellen zit belangrijk. De strafterm van het BIC zorgt ervoor dat BIC vaak kleinere modellen dan AIC selecteert. Volgens Kuha(2004) kan het BIC niet een volledig Bayesiaanse modelvergelijking vervangen, maar een simpel criterium zoals BIC kan wel nuttig zijn.
De methoden verschillen alleen in de strafterm van elkaar. Het BIC straft het toevoegen van pa-rameters strenger dan AIC. Dit hangt af van de steekproefgrootte en de relatieve omvang van zowel de steekproefgrootte als het aantal variabelen in het model. Bij BIC zal hierdoor eerder underfitting
plaatsvinden bij het selecteren van een model en bij AIC zal er eerder sprake zijn van overfitting, omdat bij AIC het voorspellend vermogen van het model wordt beloond. In beide gevallen is het cruciale probleem dat het model een familie van verdelingen is met verschillende waarden voor de parameters. Sommige van deze waarden van de parameters zijn beter dan de constante waarden die in kleine modellen gebruikt worden, maar veel zijn ook slechter. Een groter model zorgt uiteindelijk voor meer keuze van de verdelingen, maar heeft ook meer kans in zich om de foute keuze te maken. Als de waarde van de aanvullende parameters niet goed zijn vastgesteld, dan is de keuze om het simpelere model te kiezen de juiste.
2.2 Vergelijking van AIC en BIC
De veronderstellingen en prestaties van zowel AIC als BIC worden door Kuha (2004) vergeleken. Hiervoor wordt allereerst een ∆-selectiecriterium opgesteld, met M1 een genest model in M2;
2[l(ˆθ2) − l(ˆθ1)] − a(p2− p1). (3)
Hierbij is 2[l(ˆθ2) − l(ˆθ1)] de likelihoodratio statistic die asymptotisch is verdeeld als χ2 met p2 − p1
vrijheidsgraden wanneer M1 het werkelijke model is en a een bekende positieve hoeveelheid is. Het
eerste gedeelte van (3) laat zien hoe goed de modellen passen in de werkelijke data, dit is vooral gunstig voor grotere modellen. Het tweede gedeelte van (3) kijkt naar de complexiteit van een model. De twee verschillende delen van het ∆-selectiecriterium veranderen dan in tegengestelde richtingen. Hierdoor is het ∆-selectiecriterium van Kuha (2004) een goede weergave van de afweging tussen de goodness of fit en de complexiteit van een model. De strafterm compenseert voor grote modellen het gedrag van de significantietesten, terwijl de kleinere modellen eerder verworpen zullen worden op basis van meerdere variabelen. Het AIC en BIC hebben volgens Kuha (2004) hetzelfde doel: namelijk het identificeren van een goed model. Het verschil zit in de specificatie van wat beide methoden een goed model vinden. Het vergelijken van AIC en BIC verschaft nuttige informatie over modelselectie. Deze informatie wordt op twee manieren verkregen: in het geval dat AIC en BIC hetzelfde model kiezen of in het geval dat de methoden een ander model kiezen.
Het doel van AIC is volgens Kuha (2004) niet dat er een werkelijk model wordt ge¨ıdentificeerd, maar juist dat een simpeler model wordt gekozen dat een goede schatting van het werkelijke model is. Een duidelijke strategie voor modelvergelijking is het kiezen van het model dat het dichtst bij het werkelijke model ligt, oftewel een kleine waarde voor ∆i heeft. Ondanks dat AIC en BIC vaak heel goed zijn in
het schatten of benaderen van hun doel, is dit uiteindelijk minder interessant dan de vraag hoe goed beide methoden het doen in de praktijk. Kuha (2004) meet dit door het succes van AIC en BIC om consistent goede modellen voor geobserveerde data te selecteren. Hiervoor geldt dat het BIC als doel heeft het model te selecteren met de hoogste kans dat dit het werkelijke model is, ervan uitgaande
dat een van de modellen dit werkelijke model is. Het AIC daarentegen gaat ervan uit dat geen van de onderzochte modellen waar is. Het AIC gebruikt de verwachte voorspelling van toekomstige data als maatstaf voor het adequaat zijn van een model. Kortom, de twee criteria die worden overwogen zijn: het identificeren van het werkelijke model en het voorspellen van nieuwe data. Voor het identificeren van het werkelijke model is consistentie belangrijk. Consistentie betekent in dit geval dat de kans, dat het werkelijke model geselecteerd wordt uit een set van de kandidaatmodellen, naar 1 convergeert als het aantal waarnemingen stijgt, als een van de kandidaatmodellen het werkelijke model is. Dit betekent dat de strafterm een snel genoeg stijgende functie van n is. Hierdoor is AIC niet consistent, want de kans bestaat dat AIC een te groot model kiest. Het AIC richt zich op de asymptotische effici¨entie. Het AIC kijkt vooral naar oneindige ware modellen, zelfs als een model eindig lijkt kan het zijn dat het model niet correspondeert met een eindige versie van de kandidaatmodellen. In dit geval zal een mod-elselectiecriterium asymptotisch effici¨ent zijn als de least expected mean squared error of predictions van modellen geselecteerd wordt in grote steekproeven. Hier is AIC asymptotisch effici¨ent terwijl BIC dit niet is. Als het werkelijke model in de kandidaatmodellen wordt opgenomen geldt dat BIC vaak beter zal werken dan AIC. Echter, het kan ook voorkomen dat in kleinere steekproeven AIC ook goed werkt. Als beide hetzelfde model selecteren is de modelselectie het makkelijkst. Volgens Kuha (2004) zijn AIC en BIC het best gezamenlijk te gebruiken. Als door AIC een ander model wordt geselecteerd dan door BIC, wordt er vanwege het gezamenlijke gebruik van de modelselectiecriteria vaak slechtere modellen uitgesloten. Vooral als het niet duidelijk is of het werkelijke model eindig of oneindig is, is het verstandig om een combinatie van modelselectiemethoden te gebruiken.
2.3 Krimp-parameter ω
Nu AIC en BIC zijn besproken kunnen we de krimp-schatter ω introduceren. Van Casteren (1996) clustert verschillende modelselectiemethoden (waaronder AIC en BIC) aan de hand van de kritieke F-waarde van elke methode. Vervolgens introduceert hij ω om een familie van criteria te krijgen die corresponderen met een kritieke F-waarde van 1 + ω1. Omdat moet gelden 0 < ω ≤ 1 bevat deze familie van criteria drie van de vier opgestelde clusters. Elk lid van deze familie kan onder bepaalde omstandigheden optimaal zijn. Ook hoeft de kritieke F-waarde van 1 +ω1 niet beperkt te worden tot die van de verschillende clusters. Hierdoor kunnen de bestaande methoden verbeterd worden.
Van Casteren (1996) veronderstelt dat het lineaire regressiemodel
yi = x0iβ + εi (i = 1, 2, 3, . . .)
een foutloze weergave van de werkelijkheid is. Hierbij zijn β en xivectoren van constanten en is εi witte
zijn, echter dit sluit niet uit dat enkele parameters gelijk aan nul kunnen zijn. Er zijn twee mogelijke doelstellingen bij het kiezen van een schatter: de schatter van Xβ zo goed mogelijk te schatten of een nog niet waargenomen waarde van y zo goed mogelijk te voorspellen op basis van gegeven regressoren-waarden. Volgens Van Casteren (1996) zijn er twee doelstellingsfuncties mogelijk:
ρM E = E[(Xβ − X ˆβ(1))0(Xβ − X ˆβ(1))/n] = E[(β − ˆβ(1))0(n−1X0X)(β − ˆβ(1))]
en
ρP = σ2+ E[(β − ˆβ(1))0xpx0p(β − ˆβ(1))].
Hier geldt dat ˆβ(1)de geschatte co¨effici¨enten van het geschatte model weergeeft. Door te veronderstellen dat xp onafhankelijk is van y en dat E[xpx0p] = n−1X0X, geldt dat
ρP = σ2+ ρM E.
Als ρP geminimaliseerd moet worden, moet ρM E dat ook; het maakt dus niet uit welke
doelstellings-functie geminimaliseerd wordt.
Voordat de doelstellingsfunctie gebruikt kan worden moet deze omgezet worden in een toepasbaar criterium. Het ligt voor de hand om vervolgens voor ieder model de waarde van de doelstellingsfunctie zo goed mogelijk te schatten. De waarde van de functie is niet van belang, maar juist de verschillen in de waarden van alternatieve modellen zijn van belang. Om ω af te leiden, volgt Van Casteren (1994, Hoofdstuk 8) Akaike. Door een Taylor reeks van de K-L information op te stellen, vindt hij het be-naderingsverlies en benaderingsrisico. Het benaderingsrisico wordt opgesteld door twee niet negatieve componenten, hieruit volgt het SIICω. Door gebruik te maken van likelihood ratio statistic vindt Van
Casteren (1994, Hoofdstuk 8) een zuivere schatting voor ζ.
ζ = −2 ∗ ln(la lb
) + pa− pb, (4)
hierbij zijn la en lb de maximum likelihood waarden en pa en pb het aantal parameters in de twee
modellen. Vervolgens leidt Van Casteren(1994) ω af tot:
ω∗N N = ζ 2 ζ2+ 4 ∗ ζ + 2(p b− pa) (5) en ωN N E∗ = 1 1 + 6/(pb− pa) . (6)
In de eerste formule drukt de toevoeging van het subscript NN de beperking tot geneste modellen en normaliteit uit. In de tweede formule staat de E voor het evenwichtige, onbevooroordeelde
uit-gangspunt. Geconcludeerd kan worden dat het elimineren van slechte modellen makkelijker is dan het selecteren van het beste model onder goede kandidaatmodellen.
De modelselectiecriteria brengen afwegingen tot stand tussen de omvang van het model en de omvang van de fouten. De marginale substitutieverhouding kan volgens Van Casteren (1996) ge¨ınterpreteerd worden als de mate van zuinigheid van een criterium. Deze zuinigheid wordt bepaald door ω en de schatter van σ2. Een lagere waarde voor ω leidt tot een zuiniger criterium en een hogere schatting van σ2 heeft hetzelfde effect. Uit de resultaten van de Monte-Carlosimulatie van Van Casteren (1996) wordt duidelijk welke ω het beste is om de doelfuncties te minimaliseren. Uit de resultaten is het niet mogelijk om een optimale waarde voor ω te vinden. Dit komt omdat ω afhangt van het datagener-erende proces en van het aantal waarnemingen. Hierdoor is het niet mogelijk om ´e´en waarde van ω te noemen, die in alle gevallen superieur is. Om op basis van het experiment een optimale waarde te vinden, weegt Van Casteren (1996) alle 18 cases uit zijn onderzoek. Hierbij krijgen alle processen hetzelfde gewicht, net zoals de verschillende waarden van n hetzelfde gewicht krijgen. Na het wegen van de cases concludeert hij dat voor de optimale waarde voor ω in het algemeen ergens in het midden tussen 0 en 1 gekozen moet worden (gemotiveerd door de optimalisatie van ω, de twee tegengestelde asymptotische analyses en de Monte-Carlosimulatie).
2.4 SIICω
Via de krimp-schatting is een generalisatie gegeven van de aanpak van Amemiya (1980). Een soort-gelijke aanpak kan volgens Van Casteren (1996, p. 126) worden toegepast op de aanpak bij het afleiden van AIC. De modellen moeten dan geschat worden via de maximum likelihood. Het gegeneraliseerde criterium is dan:
SIICω = −2ln(maximumlikelihood) + (1 + 1/ω)(aantalvrijeparameters).
Dit criterium dient vervolgens geminimaliseerd te worden over alle alternatieve modellen. Het valt op dat het SIICω gelijk is aan AIC als 1 + 1/ω = 2 oftewel als geldt dat ω = 1, SIICω is gelijk aan BIC
als 1 + 1/ω = ln(n). Hierbij is n het aantal waarnemingen. Als n → ∞ dan geldt dat ln(n) → ∞, dus als n → ∞ moet gelden dat 1 + 1/ω → ∞. Dit laatste gebeurt alleen als ω → 0 gaat. Wat opvalt is dat dit de ondergrens is van de krimp-parameter ω. De bovengrens van ω wordt bereikt als de SIICω gelijk
is aan AIC. Als de modellen genest zijn kan geconcludeerd worden dat de SIICω een combinatie van
AIC en BIC is, met 0 < ω ≤ 1. Er geldt dat, het model dat door BIC gekozen wordt minder of evenveel variabelen heeft als het model dat door SIICω geselecteerd is. En het model dat SIICω selecteert,
heeft evenveel of minder variabelen dan het model dat geselecteerd wordt door AIC. Hierdoor wordt gekeken naar de optimale waarde van ω. Door eerst AIC en BIC een model te laten selecteren, kan door middel van de maximum likelihood van de twee geselecteerde modellen, de waarde van ζ geschat
worden door (4). Hierbij is model a genest in model b, dus model b heeft meer variabelen als model a (model b is het model dat door AIC wordt gekozen en model a wordt door BIC gekozen). Doordat ζ geschat kan worden, kunnen vervolgens ωN N∗ (5) en ω∗N N E (6) berekend worden. De waarde van ωN N∗ of ωN N E∗ kan dan in de SIICω ingevuld worden, om zo opnieuw een model te selecteren dat tussen de
modelkeuzes van AIC en BIC ligt. De SIICω is dan een combinatie van AIC en BIC.
3
Monte-Carlosimulatie
Om te bekijken hoe de SIICω in de praktijk presteert ten opzichte van AIC en BIC wordt gebruik
gemaakt van een Monte-Carlosimulatie. Bij deze simulatietechniek wordt het proces niet ´e´en keer maar vele malen gesimuleerd met elke keer andere startcondities. Tijdens deze simulatie wordt er gekeken naar een autoregressief (AR) model. Een AR(p) model met ware orde p∗ heeft de vorm:
yt= c + φ1yt−1+ . . . + φpyt−p∗+ ε∗t, ε∗t ∼ N (0, σ
2), t = 1, . . . , n,
de ε∗t’s zijn onafhankelijk, c de constante en y1, . . . , yn de geobserveerde data.
Voor σ wordt de waarde 1 gekozen Hierdoor worden de ε∗t’s getrokken uit de standaard normale
verdeling. De storingstermen moeten normaal verdeeld zijn, omdat anders de ωN N∗ niet toegepast kan worden. Om het datagenererende proces volledig te specificeren moeten er verschillende parameter-structuren worden gecre¨eerd, waarbij gelet moet worden dat beide typen asymptotiek in de Monte-Carlosimulatie vertegenwoordigd zijn. Er moet dus een ARMA model zijn dat leidt tot ω → 1 en een AR model moet er voor zorgen dat ω → 0 gaat. Bij een AR(1) model met constante kan er geen underfitting plaatsvinden. In dit geval zullen AIC en BIC vaker hetzelfde model kiezen. Als AIC en BIC hetzelfde model selecteren leidt dit tot dezelfde waarden voor pa, pb en de RSS van beide
mod-ellen. Hierdoor wordt (pb− pa) gelijk aan 0, evenals (y0May − y0Mby). Dit leidt tot ˆζ = 0, waardoor
ωN N∗ gelijk is aan 0. Als ω → 0 dan lijkt de selectiemethode van de SIICω meer op BIC. Op deze
manier is er een parameterstructuur die kijkt naar de asymptotiek dat de optimale ω → 0 als n → 0. Voor het andere type asymptotiek moet er een groot verschil zijn tussen het aantal parameters van de geselecteerde modellen van AIC en BIC. Het AIC straft het aantal parameters minder streng dan BIC. Als een ARMA model gebruikt wordt voor het datagenererende proces en deze benaderd wordt door een AR model, wordt nooit het werkelijke model gevonden. Het AIC selecteert dan grotere modellen als BIC en dit zorgt ervoor dat optimale ω → 1 zal gaan. Naast dat beide typen asymptotiek worden vertegenwoordigd in de Monte-Carlosimulaties, wordt ook gekeken naar een tussenliggende param-eterstructuur: AR(5) model met een constante. Alle parameterstructuren moeten zodanig opgesteld worden, dat het datagenererende proces stationair is. Als het proces niet-stationair is zal yt naar ∞
exploderen.
steekproe-fomvang n worden gekeken, namelijk: n = 50, n = 100 en n = 250. De AR modellen die gebruikt worden hebben, in tegenstelling tot regressiemodellen, een variabele effectieve steekproefomvang. Dit heeft vervolgens invloed op het aantal vrijheidsgraden. Omdat geldt dat yteen functie van de oneindig
vroegere fouten ε∗t is, hangt de variability van yt volgens McQuarrie en Tsai (1998) af van de
vari-ability van alleen ε∗t.
In elk van de 10.000 herhalingen van de Monte-Carlosimulatie wordt met zowel AIC als BIC een model geselecteerd. Volgens Van Casteren (1996) kan hiermee de ω berekend worden via (5) of (6). De waarde voor ω wordt ingevoerd in SIICω, die vervolgens een model selecteert. Het datagenererende
proces genereert zowel de estimation sample (grootte van n) en de validation sample (grootte van 12). De estimation sample wordt gebruikt om AIC, BIC en SIICω een model te laten selecteren. Met de
geselecteerde modellen zal vervolgens een 1-step, 4-step en 12-step ahead forecasts worden gemaakt. Bij de 4- en 12-step ahead forecasts wordt ook gekeken naar de tussenliggende waarden. Bij de 1-step ahead forecast wordt dus alleen eerste waarde uit de validation sample met de voorspelde waarde van de modellen vergeleken, terwijl bij de 4-step ahead forecast de eerste 4 waarden en bij de 12-step ahead forecast alle 12 waarden vergeleken worden met de voorspelde waarden van de geselecteerde modellen. Vervolgens wordt per forecast de gemiddelde Mean Squared Prediction Error (MSPE) per model uitgerekend, zodat deze met elkaar vergeleken kunnen worden. Het modelselectiecriterium dat het laagste gemiddelde van MSPE’s oplevert, is het beste modelselectiecriterium van de drie.
4
Resultaten en analyse
Door gebruik te maken van de Monte-Carlosimulatie die in de vorige paragraaf besproken is, wordt gekeken naar de voorspellende kwaliteiten van de modellen die geselecteerd worden door de SIICω
methode. Ook wordt gekeken naar het voorspellend vermogen van de modellen die AIC en BIC se-lecteren. Dit wordt aan de hand van de MSPE bepaald:
1 m m X h=1 (yn+h− ˆyn+h)2.
Voor het voorspellend vermogen van de modellen op korte termijn wordt gekeken naar de MSPE van de 1-step ahead forecast. Voor de middellange termijn wordt gekeken naar de gemiddelde MSPE van de 1-step ahead forecast tot en met 4-step ahead forecast. De reden dat naar dit het laatst genoemde gemiddelde wordt gekeken, is omdat in de praktijk de tussenliggende voorspelfouten ook belangrijk zijn als vier perioden vooruit voorspeld worden. Een model dat elke periode matig voorspelt en alleen de vierde periode goed voorspelt, is minder betrouwbaar dan een model dat gemiddeld een lage MSPE heeft voor de eerste vier voorspelfouten. Voor het voorspellend vermogen op de lange termijn wordt gekeken naar de voorspelfouten van de 1-step ahead forecast tot en met de 12-step ahead forecast.
Als AIC en BIC een even groot model selecteren, zal deze simulatie niet mee worden genomen in het voorspellend vermogen van modellen die geselecteerd worden door AIC, BIC en SIICω. Alle drie
de methoden kiezen dan namelijk hetzelfde model. Dan zijn zowel ω∗N N als ω∗N N E gelijk aan 0 en haalt dit de gemiddelde waarde van ω’s onnodig omlaag. Het is dan niet interessant om hier verder naar te kijken.
4.1 AR(1) model
Allereerst wordt gekeken naar de resultaten die gevonden zijn uit de Monte-Carlosimulatie waarbij het datagenererend proces een autoregressief model van de orde 1 (AR(1)) is. Het AR(1) model dat gebruikt is voor het simuleren van de estimation en validation sample is:
yt= 1 + 0.98yt−1+ εt.
In dit model is een constante opgenomen en een witte ruis storingsterm εt∼ N (0, 1).
Het eerste wat duidelijk wordt uit tabel 1, is dat ωN N∗ afhangt van de grootte van de estimation
Tabel 1: Resultaten van de Monte-Carlosimulatie, met DGP = AR(1) lichtblauw geeft minimale waarde, rood geeft maximale waarde voor de verschillende MSPE per combinatie sample size en mate van overfitting.
sample (n) en de mate van overfit die toegestaan is (uitgedrukt door de waarde van o). Hoe groter de sample size, hoe lager de verschillende gemiddelde waarden van ωN N∗ worden. Dat ω∗N N be¨ınvloed wordt door de mate van overfit is geen verrassing. Bij een AR(1) model is het namelijk niet mogelijk om een kleiner model te selecteren en is underfit dus niet mogelijk. Omdat BIC vaker een kleiner model kiest, is dit voor BIC een voordeel. Echter, omdat AIC juist vaker een te groot model selecteert is dit een nadeel voor AIC. De waarde van o geeft dus de maximale orde van het te schatten model aan. Dit beperkt de modelselectie van AIC, terwijl het wegnemen van de mogelijkheid tot underfitting BIC beperkt. Hierdoor zal de orde van het model dat door AIC geselecteerd wordt met maximaal o verschillen van de orde die door BIC wordt geselecteerd. De ω’s worden - mede - bepaald door het verschil in parameters van de geselecteerde modellen. Dus als de mate van overfit bij een AR(1) model klein wordt gemaakt, zullen de waarden van de ω’s dichter bij nul komen te liggen. Als deze laag worden genomen zal AIC vaak het grootst mogelijke model selecteren. Hierdoor zal de gemiddelde waarde van ωN N∗ en van ω∗N N E naar nul gaan als de mate van overfit kleiner wordt. Een andere verklaring voor een lage gemiddelde waarde van ω∗N N is het feit dat het BIC vaker het juiste model specificeert als er geen underfit mogelijk is. Het SIICω zou dan meer richting het BIC moeten gaan. Dit gebeurt als
1 + ω∗1 N N
→ ln(n). Dit laatste gebeurt als de waarde van ω∗
N N → 0. Hierdoor is het gunstig als de
gemiddelde waarden van ωN N∗ laag zijn.
Een ander resultaat uit tabel 1 is dat de mate van overfit invloed heeft op hoe vaak het AIC het werkelijke model selecteert. Voor een waarde van o = 2 selecteert het AIC 73.91% - 77.64%, maar als de waarde van o wordt verhoogd naar 10, ligt dit percentage nog maar tussen de 49.43% en 68.16%. Duidelijk wordt ook dat hoe groter de sample size, hoe vaker het AIC het werkelijke model selecteert, ook als de mate van overfit groot is. Ditzelfde effect treedt op bij zowel BIC als SIICω. Het is ook
duidelijk te zien dat BIC vaker het werkelijke model selecteert dan SIICω dit doet. Het aantal keer
dat SIICω het werkelijk model selecteert ligt tussen de aantallen van AIC en BIC. Omdat de SIICω
een combinatie van AIC en BIC is en BIC met meer dan 84.66% het werkelijke model selecteert, zal SIICω soms AIC volgen met het selecteren van een model. Hierdoor is het niet opmerkelijk dat deze
waarden tussen die van AIC en BIC liggen.
Als wordt gekeken naar de waarden van MSPE, dan is duidelijk te zien dat het BIC modellen selecteert die een kleinere voorspellingsfout hebben. Dit geldt voor alle termijnen. Verder valt op dat als de sample size groter wordt en de mate van overfit kleiner, dat dan de waarden van de MSPE’s van AIC en SIICω dichter bij die van BIC in de buurt komen. De reden dat AIC vaker modellen
selecteert die grotere voorspellingsfouten hebben op alle drie de termijnen is omdat, in tegenstelling tot BIC, AIC het model overfit. Aangezien de voorspellingsfouten niet worden mee genomen als zowel AIC als BIC hetzelfde model selecteren, zullen de modellen van AIC die wel meegenomen worden bij het berekenen van de MSPE groter zijn dan het werkelijke model. Dit leidt tot een hogere gemiddelde MSPE.
Ook de waarden van de gemiddelde MSPE’s van SIICω liggen tussen die van AIC en BIC in. Dit
komt wederom omdat SIICω een combinatie van AIC en BIC is. Dit wordt ook weergeven door de
percentages in tabel 1. De waarden geven het verschil tussen de MSPE’s van SIICω en de laagste
MSPE’s weer, gedeeld door het verschil tussen de maximale MSPE en de minimale MSPE. Uit tabel 1 komt duidelijk naar voren dat SIICω richting het optimale modelselectiecriterium (in dit geval het
BIC) neigt. Als de percentages kleiner zijn dan 100% werkt SIICω beter dan AIC of BIC. Omdat
SIICω ook wel eens een model selecteert wat qua grootte tussen de geselecteerde modellen van AIC
en BIC in ligt, zal SIICω net als AIC vaker het model overfitten.
4.2 ARMA(1,1) model
Als tweede wordt gekeken naar een Monte-Carlosimulatie, waarbij de data is gegenereerd door een ARMA(1,1) proces. In een ARMA(1,1) proces zit niet alleen een vertraging in het autoregressieve deel van het model, maar ook een vertraging in de storingsterm εt. Omdat wordt geprobeerd om een
ARMA(1,1) proces uit te drukken in een AR(p) proces, zit het werkelijke model niet in de set van kandidaatmodellen. Dit is voordelig voor AIC, aangezien overfitting in deze instantie niet mogelijk is en nadelig voor BIC, omdat BIC er van uit gaat dat het werkelijke model in de set van kandidaatmodellen zit. Omdat het werkelijke model niet in de set met kandidaatmodellen zit stelt o niet meer de mate van overfit in deze resultaten voor; er kan namelijk geen overfit plaatsvinden. De waarde van o geeft nu het maximaal aantal vertragingen van de te schatten AR modellen aan. Het ARMA(1,1) model dat gebruikt is in het datagenererende proces is:
yt= 1 + 0.98yt−1+ εt+ 0.98εt−1.
Ook in dit model is een constante op genomen en zijn εt, εt−1∼ N (0, 1) witte ruis storingstermen.
Het meest opvallende en ook het meest logische uit tabel 2 is dat de verschillende modelselectiecriteria geen enkele keer het werkelijke model selecteren. Dit is natuurlijk ook te verwachten als het werkelijke model niet in de set met kandidaatmodellen zit. Ook zijn de gemiddelde waarden van ωN N∗ voor o = 10 hoger dan die uit tabel 1. Waar in tabel 1 het BIC duidelijk een voordeel had ten opzichte van het AIC, is nu het AIC in het voordeel. Ideaal zou zijn dat het SIICω meer naar de kant van AIC neigt
als er geen overfitting kan plaatsvinden. Het SIICω zou gelijk zijn aan het AIC als 1 + ω∗1
N N = 2. Dit
gebeurt als ωN N∗ = 1. Echter, in tabel 2 is te zien dat de gemiddelde waarden van ωN N∗ niet boven de 0.4536 uit komen. Dit komt omdat AIC beperkt wordt door de waarden van o. Als een Monte-Carlosimulatie wordt uitgevoerd met n = 250 en o = 30, dan stijgt de gemiddelde waarde van ωN N∗ zoals in tabel 3 te zien is. De maximale orde van de te schatten modellen is duidelijk van belang voor de waarde van ωN N∗ . Als gekozen wordt voor o = 30 levert deze simulatie een gemiddelde waarde van ωN N∗ = 0.603707.
Tabel 2: Resultaten van de Monte-Carlosimulatie, met DGP = ARMA(1,1) lichtblauw geeft minimale waarde, rood geeft maximale waarde voor de verschillende MSPE per combinatie sample size en mate van overfitting.
Tabel 3: Resultaten van de Monte-Carlosimulatie, met DGP = ARMA(1,1) lichtblauw geeft minimale waarde, rood geeft maximale waarde voor de verschillende MSPE per combinatie sample size en mate van overfitting.
Als naar de waarden van MSPE gekeken wordt, valt nu op dat AIC vaker een beter voorspellend vermogen heeft. SIICωheeft ´e´en keer de laagste MSPE en drie keer de hoogste MSPE waarde. Ook zijn
de waarden van BIC en SIICω zes keer gelijk, en hebben dan beide de hoogste MSPE. In tabel 3 heeft
SIICω op korte termijn de laagste MSPE. Als naar de percentages wordt gekeken wordt duidelijk dat
als o = 2 dat SIICωnaar BIC neigt. SIICωvolgt dus in dit geval het verkeerde modelselectiecriterium.
Verder valt uit tabel 2 op, dat de MSPE’s van SIICω vaker het hoogst zijn. En dat hoe groter de
estimation sample wordt, hoe beter het voorspellend vermogen van alle drie de modelselectiecriteria worden. Uit tabel 2 wordt ook duidelijk dat de waarden van de gemiddelde MSPE van alle drie de
modelselectiecriteria steeds dichter bij elkaar liggen als de sample size groter wordt. Wat verder opvalt is dat, BIC op de middel- en lange termijn bij een o = 5 en o = 10 een lagere gemiddelde MSPE heeft dan AIC. Het lijkt er dus op dat voor een kleine sample size een kleiner model een beter voorspellend vermogen heeft dan een groter model. Dit resultaat komt eveneens terug als naar een sample size van 100 gekeken wordt. Bij n = 100 volgt uit tabel 2 dat de SIICω bij o = 5 het beste voorspellende
vermogen heeft op de middellange termijn. Op het moment dat de n = 250, is duidelijk te zien dat AIC een beter voorspellend vermogen heeft dan BIC. De uitzondering is hier de middellange en lange termijn als o = 10. Het zorgt er voor dat BIC, verrassend genoeg, het best voorspellend vermogen heeft voor de middel- en lange termijn in geval van o = 10 bij alle verschillende waarden voor n. In tabel 3 is goed te zien dat de SIICω beter werkt dan bij de simulaties met lagere waarden van o. Het
voorspellend vermogen van de modellen geselecteerd door zowel AIC als SIICω worden benadeeld
door de waarde van o.
Als de resultaten uit tabel 2 worden vergeleken met die uit tabel 1 zijn er duidelijke verschillen. Allereerst zijn de waarden van de MSPE van middellange en lange termijn in tabel 2 groter dan in tabel 1. Ook is in tabel 2 een duidelijk verschil tussen de korte en middellange termijn te zien. Het voorspellen van de data, door de modellen die geselecteerd door AIC, BIC en SIICω, op langere
termijn is duidelijk lastiger als het datagenererende proces gebaseerd is op een ARMA(1,1) model dan wanneer dit gebaseerd is op een AR(1) model. Dit is conform de verwachting als het werkelijke model niet in de set van kandidaatmodellen zit.
4.3 AR(5) model
Na gekeken te hebben naar een datagenererend proces waarbij geen underfitting mogelijk is (AR(1)) en een datagenererend proces waarbij geen overfitting mogelijk is (ARMA(1,1)), wordt nu gekeken naar een datagenererend proces, dat gebaseerd is op een autoregressief model van de orde 5 (AR(5)). Bij het AR(5) is zowel overfitting als underfitting mogelijk. Hierdoor kunnen AIC en BIC eerlijk met elkaar vergeleken worden. Het AR(5) model dat is gebruikt om de data te genereren is:
yt= 1 + 0.306yt−1+ 0.217yt−2+ 0.177yt−3+ 0.153yt−4+ 0.137yt−5+ εt.
Hierbij is εt∼ N (0, 1) een witte ruis storingsterm. De co¨effici¨enten zijn zodanig gekozen dat er geen
groot verschil tussen de verschillende vertragingen is, maar wel zo dat de co¨effici¨enten niet allemaal even groot zijn. Op deze manier is underfit mogelijk, maar wordt het selecteren van een te klein model niet uitgelokt. De co¨effici¨enten lopen af om overfit tegen te gaan. Het doel van de Monte-Carlosimulatie met het AR(5) model is om de werking van SIICω te doorgronden als er zowel overfit als underfit kan
plaatsvinden.
Tabel 4: Resultaten van de Monte-Carlosimulatie, met DGP = AR(5) lichtblauw geeft minimale waarde, rood geeft maximale waarde voor de verschillende MSPE per combinatie sample size en mate van overfitting.
Het AIC selecteert het werkelijke model als o = 2: 12,54% van de simulaties. Als o = 10, is dit nog maar 7.26% van de simulaties. Terwijl dit in tabel 1 nog gelijk was aan 49.43% bij o = 10, en 73,91% als o = 2. Bij BIC zijn de percentages voor o = 2 en o = 5 respectievelijk 3,87% en 3,74%, terwijl dit bij het AR(1) model, waar geen underfit mogelijk was, gelijk is aan 91.56% en 84.66%. Ook SIICω selecteert
minder vaak het werkelijke model als het datagenererende proces een AR(5) model is. Verder valt op dat bij SIICω de mate van overfit minder uit maakt bij het selecteren van het werkelijke model.
Ondanks dat dit redelijk constant is voor de verschillende waarden voor n, is dit wel veel lager dan de waarden uit tabel 1. Duidelijk wordt dat naarmate n groter wordt alle drie de modelselectiecriteria beter in staat zijn het beste model te selecteren. Alhoewel de percentages een stuk lager zijn dan in tabel 1, is wel duidelijk te zien dat het voorspellende vermogen van AIC, BIC en SIICω op lange
termijn beter is dan in tabel 1.
Ook wordt uit tabel 4 duidelijk dat AIC in 22 van de 27 simulaties een lagere MSPE heeft als BIC en SIICω. In de overige vijf gevallen is de MSPE van de modellen geselecteerd door BIC het laagst.
ook geen enkele keer het hoogst. Dit laatste zorgt ervoor dat SIICω minder vaak het slechtste model
selecteert dan AIC of BIC. Omdat in de praktijk het werkelijke model niet bekend is, zou SIICω
een veiligere keus zijn voor modelselectie. Dit komt omdat bij modelselectie met AIC en BIC geen garantie bestaat dat het geselecteerde model niet het slechtste model is. De SIICω beperkt dus het
risico dat het slechtst voorspellende model geselecteerd wordt als er overfitting en underfitting kan plaatsvinden.
Uit tabel 4 lijkt SIICω beter te werken naarmate de sample size groter wordt. Daarom wordt
gekeken naar een Monte-Carlosimulatie waarbij n gelijk is aan 1000. Uit tabel 5 volgt dat voor n = Tabel 5: Resultaten van de Monte-Carlosimulatie, met DGP = AR(5) lichtblauw geeft minimale waarde, rood geeft maximale waarde voor de verschillende MSPE per combinatie sample size en mate van overfitting.
1000 SIICω het goed doet. Ook wordt er in deze simulatie door BIC en SIICω in meer dan 90%
van de gevallen het werkelijke model geselecteerd. De MSPE’s van SIICω liggen nu ook dichter bij de
minimale MSPE’s. Hieruit wordt duidelijk dat SIICω bij een grote sample size beter werkt.
Om te kijken of de benadering van ω invloed heeft op de resultaten worden ω∗N N en ω∗N N E met Tabel 6: Resultaten van de Monte-Carlosimulatie, met DGP = AR(5) lichtblauw geeft minimale waarde, rood geeft maximale waarde voor de verschillende MSPE per combinatie sample size en mate van overfitting.
elkaar vergeleken. Hiervoor wordt gekeken naar een Monte-Carlosimulatie met o = 10 en n = 250. In tabel 6 is duidelijk te zien dat de MSPE’s van ωN N E∗ groter of gelijk zijn aan die van ω∗N N. Omdat het modelselectiecriterium wordt beoordeeld op het voorspellende vermogen, wordt ωN N∗ geprefereerd.
4.4 Opvallende resultaten
Uit de resultaten blijkt duidelijk dat de SIICω in bijna geen enkel geval zorgt voor de laagste waarde
van de gemiddelde MSPE. In de Monte-Carlosimulatie waar de data wordt gegenereerd door een AR(1) model, was - zoals verwacht - het BIC het beste modelselectiecriterium. In de Monte-Carlosimulatie waar een ARMA(1,1) de basis vormt voor het datagenererend proces valt op, dat ondanks het feit dat underfitting niet mogelijk is bij o = 10, BIC op (middel)lange termijn beter voorspelt dan AIC en SIICω. Voor overige waarden van o ´en op korte termijn gaat de voorkeur uit naar AIC. Dus bij
beide asymptotieken van SIICω voorspelt het modelselectiecriterium, dat verwacht werd het beste te
voorspellen, meestal ook het beste.
Vooral in de laatste Monte-Carlosimulatie, AR(5), kan gekeken worden of SIICω goed werkt in de
praktijk, omdat er nu zowel under- als overfitting plaats kan vinden. Uit de resultaten in tabel 4 blijkt dat AIC een beter voorspellend vermogen te hebben dan de SIICω. Ook selecteert het AIC vaker
het werkelijke model dan SIICω en BIC. Opvallend is dat bij alle drie de Monte-Carlosimulaties het
SIICω voor een grote n dicht in de buurt komt van de minimale waarde van de MSPE van zowel AIC
als BIC, terwijl in tabel 1 en tabel 2 vaak een duidelijk verschil te zien is tussen de waarden van de gemiddelde MSPE van AIC en BIC. Bij de Monte-Carlosimulatie met een AR(5) model als datagener-erend proces, komt SIICω niet als beste modelselectiecriterium uit de resultaten. Maar, belangrijker,
SIICω doet het beter dan het modelselectiecriterium dat modellen selecteert die de hoogste MSPE’s
leveren. Dit wordt in tabel 5 aangetoond als n = 1000.
In tabel 4 wordt duidelijk dat SIICω op alle termijnen gemiddeld slechter voorspelt dan AIC en
BIC. In het geval van een kleine estimation sample moet BIC geprefereerd worden. Bij een grote estimation sample komt het AIC beter uit de resultaten. Wat nog meer opvalt is dat als o = 10 en er gekeken wordt naar de middellange en lange termijn voorspellingen de voorkeur naar BIC gaat. Uit tabel 5 volgt dat voor een grote sample size, SIICω steeds beter werkt.
De keuze voor het benaderen van ω wordt duidelijk in paragraaf 4.3. ωN N E∗ zorgt dat SIICω minder
vaak een model van een andere orde selecteert en hogere waarden voor de MSPE’s heeft dan ω∗N N. Aangezien de verschillende modelselectiecriteria worden beoordeeld op hun voorspellend vermogen wordt ωN N∗ geprefereerd om ω te benaderen.
5
Conclusie
De SIICω is door Van Casteren (1996) gebaseerd op twee belangrijke theorie¨en in modelselectie,
namelijk AIC en BIC. Door de krimp-parameter ω die loopt van 0 tot en met 1 heeft de SIICω een
boven- en een ondergrens. De bovengrens wordt bereikt als ω = 1. In dit geval geldt dat 1 +ω1 = 2. In dit geval is het SIICω gelijk aan het AIC. Als geldt dat 1 +ω1 = ln(n) dan geldt dat SIICω gelijk is
aan BIC. De vergelijking 1 +ω1 = ln(n) is te schrijven als ω = ln(n)−11 . Als n → ∞ dan gaat ω → 0 en is daarmee de ondergrens van ω. SIICω selecteert een model dat minimaal even veel parameters heeft
als het model dat door BIC wordt geselecteerd en SIICω selecteert een model dat maximaal hetzelfde
aantal parameters heeft als het model geselecteerd door AIC.
Of dit in de praktijk ook daadwerkelijk gebeurt, kan pas worden gesteld als eerst naar de asympto-tische situaties gekeken wordt. Als eerst wordt naar de situdatie gekeken waarbij de optimale ω → 0 gaat. Deze asymptotische situatie wordt gesimuleerd door een datagenererend proces op basis van yt= 1 + 0.98yt−1+ εt. Hierbij is ε ∼ N (0, 1) een witte ruis storingsterm. Het werkelijke model is een
AR(1) model waarbij geen underfitting kan plaatsvinden. In theorie zal BIC in deze situatie het beste model selecteren. Uit de resultaten in tabel 1 blijkt dit in de Monte-Carlosimulatie ook het geval te zijn.
De andere asymptotiek, waarbij de optimale ω → 1, wordt weergeven door een ARMA(1,1) model. De data in deze Monte-Carlosimulatie wordt gegenereerd door yt= 1 + 0.98yt−1+ εt+ 0.98εt−1. Hier
is ε ∼ N (0, 1) wederom een witte ruis storingsterm. AIC, BIC en SIICω proberen het ARMA(1,1)
model te benaderen als een AR(p) model. Hierdoor bevindt het werkelijke model zich niet in de set met kandidaatmodellen. In theorie zal het AIC in dit geval het beste model selecteren. De resultaten in tabel 2 laten zien dat AIC vaak het beste model selecteert. Echter, dit is niet zo overtuigend als BIC in de eerste tabel. Dit komt mogelijk omdat vooral het AIC beperkt wordt door de maximale orde van het te schatten model (o). Als de estimation sample groter wordt in deze Monte-Carlosimulatie is in tabel 2 duidelijk te zien dat AIC vaker het beste model selecteert.
Het valt op dat in tabel 1 het SIICω neigt een model te selecteren dat lijkt op het door BIC
geselecteerde model. En in tabel 2 is duidelijk te zien dat SIICω neigt een model te selecteren dat
lijkt op het door AIC geselecteerde model. In beide asymptotische situaties wil SIICω dus het model
selecteren dat in theorie het beste resultaat zal opleveren. Daarom wordt ook gekeken naar een Monte-Carlosimulatie waarin zowel under- als overfitting mogelijk is. Dit wordt mogelijk gemaakt door een AR(5) model, yt= 1 + 0.306yt−1+ 0.217yt−2+ 0.177yt−3+ 0.153yt−4+ 0.137yt−5+ εt, data te laten
genereren. In theorie zou het SIICω in dit geval een groter of gelijk model dan BIC selecteren en een
kleiner of gelijk model dan AIC, als BIC het werkelijke model underfit en AIC het werkelijke model overfit. De resultaten in tabel 4 tonen dat, alhoewel de waarden voor SIICω dicht bij het minimum
liggen, SIICωhet niet beter doet dan AIC of in sommige gevallen BIC. De resultaten van deze
Monte-Carlosimulatie zijn goed voor SIICω, SIICω doet het namelijk in geen enkel geval het slechtst. Als
bij modelselectie vooral niet het slechtste model geselecteerd mag worden, zou het best voor SIICω
gekozen kunnen worden.
In alle drie de Monte-Carlosimulaties selecteert SIICω het model dat dicht in de buurt van het
beste model ligt. Een reden waarom SIICω niet het beste model selecteert kan de manier zijn, waarop
van AIC en BIC zou kiezen, is te zien dat SIICω vaak een model selecteert dat door of AIC of BIC
wordt geselecteerd als de ω wordt berekent door ωN N∗ . Of dit bij een andere ω minder vaak gebeurt, wordt daarom gekeken naar ωN N E∗ . Uit tabel 6 is te zien dat SIICω met ω∗N N E minder vaak een ander
model selecteert. Ook zorgt dit voor hogere waarden voor de gemiddelde MSPE van SIICω. Omdat
het voorspellend vermogen van de modelselectiecriteria doorslaggevend is, voor welk criterium het best geschatte model selecteert wordt de ωN N∗ geprefereerd voor het berekenen van de SIICω-waarden.
Als laatste wordt gekeken naar de resultaten van een Monte-Carlosimulatie bij een sample size van 1.000. Eerdere resultaten suggereerden dat SIICω het steeds beter gaat doen als de sample size groter
wordt. De resultaten bevestigen dit vermoeden. Het verschil tussen de MSPE van SIICω en de laagste
MSPE wordt steeds kleiner. Hierdoor wordt duidelijk dat SIICω goed werkt als er een grote sample
size is.
De resultaten tonen dat de SIICω een model selecteert dat lijkt op het model dat geselecteerd wordt
door het modelselectiecriterium dat in theorie het beste zou moeten presteren. Op basis van de resul-taten uit de tabellen die verkregen zijn door Monte-Carlosimulaties met elk een ander datagenererend proces wordt duidelijk dat SIICω het minst vaak het slechtste model selecteert. Daarom is SIICω
een betrouwbaarder modelselectiecriterium dan AIC of BIC. Ondanks dat SIICω niet altijd het beste
model selecteert, wordt het duidelijk dat SIICω wel modellen selecteert die hierbij in de buurt zitten.
Als in de praktijk niet duidelijk is wat het werkelijke model is geniet SIICω de voorkeur boven AIC
Literatuur
Akaike, H. (1974). A New Look at the Statistical Model Identification. IEEE Transactions on Au-tomatic Control, AC-19 (6), 716-723.
Amemiya, T. (1980). Selection of Regressors. International Economic Review, 21 (2), 331-354.
Burnham, K. P. en Anderson, D. R. (2004). Multimodel Inference: Understanding AIC and BIC in Model Selection. Sociological Methods & Research, 33, 261-304.
Casteren, P. H. F. M. van (1994). Statistical Model Selection Rules. Amstelveen, The Netherlands.
Casteren, P. H. F. M. van (1996). Pleidooi voor een nieuw criterium voor het selecteren van regres-soren. Kwantitatieve methoden, 17 (52), 101-129.
Cawley, G. C. en Talbot, N. L. C. (2010). On Over-fitting in Model Selection and Subsequent Se-lection Bias in Performance Evaluation. Journal of Machine Learning Research, 11, 2079-2107.
Kass, R. E., en Wasserman, L. (1995). A reference Bayesian test for nested hyporheses and its rela-tionship to the Schwarz criterion. Journal of the American Statistical Association, 90, 928-934.
Kuha, J. (2004). AIC and BIC: Comparisons of Assumptions and Performance. Sociological Methods & Research, 33 (2), 188-229.
Kullback, S. en Leibler, R.A. (1951). On information and Sufficiency. The Annals of Mathematical Statistics, 22 (1), 79-86.
McQuarrie, A. D. R. en Tsai, C.-L. (1998). Regression and Time Series Model Selection. Singapore: World Scientific.
Bijlage
Monte-Carlosimulatie script: clearvars
%rng(1); %gebruiken voor het vergelijken van omega_NN en omega_NNE
TrueMdl=arima(’Constant’,1,’AR’,[0.306 0.217 0.177 0.153 0.137],’MA’,0 ... ,’Variance’,1);
%het werkelijk model kan hierin gesecificeert worden n=250; %grootte estimation sample
m=10000; %aantal simulaties
%simuleren van Validation en Estimation sample y=simulate(TrueMdl,n+12,’NumPaths’,m);
ValSample=zeros(12,m); EstSample=zeros(n,m); for j=1:m
ValSample(:,j)=y(n+1:n+12,j); %Validation Sample EstSample(:,j)=y(1:n,j); %Estimation Sample end
p = length(TrueMdl.AR); %grootte AR(p) model q = length(TrueMdl.MA); %grootte AR(q) model o = 30; %maximale overfitting
mp = p+q+o; %maximale orde van de geschatte modellen RSS=zeros(mp,m);
k=zeros(mp,m); for t=1:m
for i=1:mp
Y = zeros(length(EstSample((mp+1):end,1)),1); Y(:,1)=EstSample(mp+1:end,t); %vector y_t X = zeros(length(Y),i+1);
X(:,1) = ones(length(Y),1); %constante aan matrix X toevoegen for j=1:i
X(1:length(EstSample(mp+1-j:end-j,t)),j+1) = EstSample(... mp+1-j:end-j,t); %matrix X
end
%opstellen van de Matrix M_1=I-X_1*(X_1’*X_1)*X_1’ M=eye(length(Y))-(X*(X’*X)^(-1)*X’);
RSS(i,t)=Y’*M*Y; %Residuelen kwadraten som opstellen k(i,t)=2+i; %aantal parameters per geschat model end
end
%AIC&BIC matrix maken
AIC=n*log(RSS/n)+2*k; %AIC per geschat model berekenen BIC=n*log(RSS/n)+log(n)*k;%BIC per geschat model berekenen O=zeros(3,m);
%omega_NN berekenen zetahat=NaN(1,m); w=NaN(1,m); for j=1:m if O(2,j) < O(1,j) zetahat(1,j)=-2*log((RSS(O(1,j),j)/n)/(RSS(O(2,j),j)/n))+O(1,j)-O(2,j); else zetahat(1,j)=0; end if zetahat(1,j)<0 zetahat(1,j)=0; end if O(2,j) < O(1,j) w(1,j)=(zetahat(1,j)^2)/(zetahat(1,j)^2+4*zetahat(1,j)+2*... (k(O(1,j),j)-k(O(2,j),j))); else w(1,j)=0; end end %omega_NNE berekenen % for j=1:m % if O(2,j) < O(1,j) % w(1,j)= 1/(1+6/(O(1,j)-O(2,j))); % else % w(1,j) = 0; % end % end
%SIIC matrix maken SIIC=NaN(mp,m); for j=1:m for i=1:mp if w(1,j) > 1/(log(n) -1) SIIC(i,j)=n*log(RSS(i,j)/n)+((1+1/w(1,j))*k(i,j)); else SIIC(i,j)=n*log(RSS(i,j)/n)+log(n)*k(i,j); end end end
[S,O(3,:)]=min(SIIC); %dmv SIIC beste geschat AR model berekenen %voorspellingen van de door AIC geselecteerde modellen
yA=zeros(12,m); for t=1:m
i=O(1,t);
Y = zeros(length(EstSample((i+1):end,1)),1); Y(:,1)=EstSample(i+1:end,t); %vector y_t
X(:,1) = ones(length(Y),1); for j=1:i
X(1:length(EstSample(i+1-j:end-j,t)),j+1) = EstSample(... i+1-j:end-j,t); %matrix X
end
phiAIC=(X’*X)^(-1)*X’*Y; %vector met cofficinten van AR model z=zeros(1,length(phiAIC));
if length(phiAIC) > 2
z(1,1)=1; %eerste waarde is 1 vanwege constante for e=2:length(phiAIC)
%vector met y_n-1 etc.
z(1,e)=EstSample(end-(e-2),t); end
for sd=1:12
yA(sd,t) = z*phiAIC;
for tl=1:(length(phiAIC)-2)
%waarden schuiven een plek op in de vector
z(1,length(phiAIC)+1-tl)=z(1,length(phiAIC)-tl); end
%tweede waarde in vector wordt de laatste voorspelling die gedaan is z(1,2)=yA(sd,t); end elseif length(phiAIC) ==2 z(1,1)=1; z(1,2)=EstSample(end,t); for sd=1:12 yA(sd,t) = z*phiAIC;
%tweede waarde in vector wordt de laatste voorspelling die gedaan is z(1,2)=yA(sd,t);
end end end
%voorspellingen van de door BIC geselecteerde modellen yB=zeros(12,m);
for t=1:m
i=O(2,t);
Y = zeros(length(EstSample((i+1):end,1)),1); Y(:,1)=EstSample(i+1:end,t); %vector y_t X = zeros(length(Y),i+1); X(:,1) = ones(length(Y),1); for j=1:i X(1:length(EstSample(i+1-j:end-j,t)),j+1) = EstSample(... i+1-j:end-j,t); %matrix X end
z=zeros(1,length(phiBIC)); if length(phiBIC) > 2
z(1,1)=1;
for e=2:length(phiBIC)
%vector met y_n-1 etc. eerste waarde is 1 vanwege constante z(1,e)=EstSample(end-(e-2),t);
end
for sd=1:12
yB(sd,t) = z*phiBIC;
for tl=1:(length(phiBIC)-2)
%waarden schuiven een plek op in de vector z(1,length(phiBIC)+1-tl)=z(1,length(phiBIC)-tl); end
%tweede waarde in vector wordt de laatste voorspelling die gedaan is z(1,2)=yB(sd,t); end elseif length(phiBIC) ==2 z(1,1)=1; z(1,2)=EstSample(end,t); for sd=1:12 yB(sd,t) = z*phiBIC;
%tweede waarde in vector wordt de laatste voorspelling die gedaan is z(1,2)=yB(sd,t);
end end end
%voorspellingen van de door SIIC geselecteerde modellen yS=zeros(12,m);
for t=1:m
i=O(3,t);
Y = zeros(length(EstSample((i+1):end,1)),1); Y(:,1)=EstSample(i+1:end,t); %vector y_t X = zeros(length(Y),i+1); X(:,1) = ones(length(Y),1); for j=1:i X(1:length(EstSample(i+1-j:end-j,t)),j+1) = EstSample(... i+1-j:end-j,t); %matrix X end
%vector met cofficinten van het geselecteerde AR model phiSIIC=(X’*X)^(-1)*X’*Y;
z=zeros(1,length(phiSIIC)); if length(phiSIIC) > 2
z(1,1)=1;
z(1,e)=EstSample(end-(e-2),t); end
for sd=1:12
yS(sd,t) = z*phiSIIC;
for tl=1:(length(phiSIIC)-2)
%waarden schuiven een plek op in de vector
z(1,length(phiSIIC)+1-tl)=z(1,length(phiSIIC)-tl); end
%tweede waarde in vector wordt de laatste voorspelling die gedaan is z(1,2)=yS(sd,t); end elseif length(phiSIIC) ==2 z(1,1)=1; z(1,2)=EstSample(end,t); for sd=1:12 yS(sd,t) = z*phiSIIC;
%tweede waarde in vector wordt de laatste voorspelling die gedaan is z(1,2)=yS(sd,t);
end end end
%SPE per voorspelling
SPEA=zeros(3,m); SPEB=zeros(3,m); SPES=zeros(3,m); for t=1:m
%alleen voorspellingen waar AIC en BIC een verschillend model kiezen if w(1,t) > 0 for i=1:12 SPEA(i,t)=(ValSample(i,t)-yA(i,t)).^2; SPEB(i,t)=(ValSample(i,t)-yB(i,t)).^2; SPES(i,t)=(ValSample(i,t)-yS(i,t)).^2; end end end SPEA=SPEA(:,any(SPEA)); SPEB=SPEB(:,any(SPEB)); SPES=SPES(:,any(SPES));
%Mean Squared Prediction Errors voor 1,4 en 12 staps voorspellingen MSPE(1,1)=mean(mean(SPEA(1,:))); MSPE(1,2)=mean(mean(SPEB(1,:))); MSPE(1,3)=mean(mean(SPES(1,:))); MSPE(2,1)=mean(mean(SPEA(1:4,:))); MSPE(2,2)=mean(mean(SPEB(1:4,:))); MSPE(2,3)=mean(mean(SPES(1:4,:)));
MSPE(3,3)=mean(mean(SPES));
MSPE(1,4)=((MSPE(1,3)-min(MSPE(1,1:3)))/(max(MSPE(1,1:3))-min(MSPE(1,1:3))))*100; MSPE(2,4)=((MSPE(2,3)-min(MSPE(2,1:3)))/(max(MSPE(2,1:3))-min(MSPE(2,1:3))))*100; MSPE(3,4)=((MSPE(3,3)-min(MSPE(3,1:3)))/(max(MSPE(3,1:3))-min(MSPE(3,1:3))))*100; fprintf(’Bij %.0f simulaties met %.0f waarnemingen uit een AR(%.0f) model\n’...
, m, n, TrueMdl.P)
printmat(MSPE, ’Mean Squared Prediction Errors’,... ’1-staps 4-staps 12-staps’, ’AIC BIC SIIC %’)
fprintf(’De gemiddelde waarde van omega is: %f\n’,mean(w(w>0)))
fprintf(’AIC selecteert het juiste model %.0f keer\n’,sum(O(1,:)==... length(TrueMdl.AR)))
fprintf(’BIC selecteert het juiste model %.0f keer\n’,sum(O(2,:)==... length(TrueMdl.AR)))
fprintf(’SIIC selecteert het juiste model %.0f keer\n’,sum(O(3,:)==... length(TrueMdl.AR)))
fprintf(...
’Aantal keer dat SIIC een ander model dan AIC of BIC selecteert: %.0f\n’... , m-sum((O(1,:)==O(3,:)|O(2,:)==O(3,:))))
fprintf(...
’Aantal keer dat het verschil tussen de orde van AIC en BIC > 1 is: %.0f\n’,... m-(sum((O(1,:)==O(2,:)+1))+sum((O(1,:)==O(2,:)))))