• No results found

Combinatie van AIC en BIC : een analyse van een selectiecriterium op basis van een krimpschatter

N/A
N/A
Protected

Academic year: 2021

Share "Combinatie van AIC en BIC : een analyse van een selectiecriterium op basis van een krimpschatter"

Copied!
30
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Combinatie van AIC en BIC

Een analyse van een selectiecriterium op basis van een krimpschatter

Samenvatting

AIC en BIC zijn goede modelselectiecriteria. Echter, vooraf is het moeilijk te zeggen welke van beide criteria gebruikt moet worden om het optimale model te kiezen. In deze scriptie is een afleiding gegeven voor een theoretische tussenweg tussen beide criteria, het SIIC. Aan de hand van kleine modellen en kleine steekproeven is de werking in de praktijk getest. Met steekproeven die voldoende groot zijn, verschuift SIIC naar het selectiecriterium, AIC of BIC, dat de kleinste gemiddelde kwadra-tische voorspelfout heeft.

Bob van den Hoogen Studentnummer: 10420169

Bachelorscriptie BSc Econometrie

Faculteit Economie en Bedrijfskunde, Universiteit van Amsterdam

Begeleider: dhr. dr. P.H.F.M van Casteren

(2)

Hierbij verklaar ik, Bob van den Hoogen, dat ik deze scriptie zelf geschreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan. Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd. De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.

(3)

Inhoudsopgave

1 Inleiding 1

2 Een nieuw criterium 3

2.1 Afleiding AIC & BIC . . . 3

2.2 Parameterselectie . . . 5

2.3 Omzetting naar selectiecriterium . . . 6

2.4 Krimpschatting . . . 6

2.5 Set Independent Information Criterion . . . 9

2.6 Asymptotiek . . . 10

3 Empirisch experiment 12 3.1 Datagenerend proces . . . 12

4 Resultaten & Analyse 13 4.1 Resultaten . . . 13 4.1.1 Resultaten voor βj = 1/j2 . . . 14 4.1.2 Resultaten voor βj = 1/j . . . 15 4.1.3 Resultaten voor βj = 1. . . 16 4.2 Analyse . . . 18 5 Conclusie 20 6 Literatuurlijst 22 I R-code

(4)

1

Inleiding

Het kiezen van het optimale model binnen statistisch onderzoek om een bepaalde dataset te beschrij-ven is een aanhoudend probleem. Aangezien er steeds meer grote sets aan data beschikbaar zijn, wordt het kiezen van een model steeds belangrijker. Dat wil zeggen dat er steeds meer parameters toegevoegd kunnen worden om een afhankelijke variabele te omschrijven of te voorspellen. Het op-nemen van een groot aantal parameters kan echter leiden tot een complexere beschrijving van de waarheid. Daarentegen kan het weglaten van parameters leiden tot een niet-zuivere weergave van de realiteit.

Een afweging moet worden gemaakt tussen modellen die individuele parameters al dan niet opnemen voor het beschrijven van de data. Het opnemen van veel parameters kan leiden tot overfit-ting, waar het model complexer van wordt. Een optimaal model beschrijft de data dermate goed, dat bij het opnemen of weglaten van een parameter de winst of het verlies aan informatie niet opweegt tegen hetzij het toenemen in complexiteit hetzij het toenemen in vertekening (bias). Wanneer een optimaal model gekozen moet worden, worden twee of meerdere modellen met elkaar vergeleken en tegen elkaar afgewogen. Deze afweging kan worden gemaakt aan de hand van selectiecriteria.

Een eenvoudige manier om te kiezen voor het al dan niet opnemen van ´e ´en parameter is het gebruik van een t-toets of een F-toets voor meerdere parameters. In statistisch onderzoek wordt echter vaak gebruik gemaakt van de arbitraire betrouwbaarheid van 5%. Derhalve is de uitkomst van deze toetsen ook arbitrair.

Een tweede methode is om de adjusted R2(R-squared) van een probleem te analyseren (Theil,

1961, pp. 212-214). Dit criterium geeft aan hoe groot het deel van de variantie is dat verklaard wordt door de opgenomen regressoren. Het doel hierbij is om de R-squared te maximaliseren. Echter, deze methode excludeert geen irrelevante regressoren en leidt daarom vaak tot overfitting van het model. De meest populaire selectiecriteria zijn misschien wel het Akaike Information Criterion (AIC) en het Schwarz Bayesian Information Criterion (BIC, ook wel SBIC) beschreven door Akaike (1974) en Schwarz (1978) respectievelijk. Kuha (2004, p.225) toont aan dat deze criteria allebei goed gegronde methoden zijn voor het kiezen van een model, hoewel ze andere doelfuncties hebben. Hoewel de criteria niet altijd uitsluitsel geven over welk model gekozen moet worden, geven ze volgens hem wel grenzen aan waarbinnen het optimale model ligt. Hierbij neigt het AIC naar het kiezen van een groter model en het BIC naar een kleiner model. Ergo, er is behoefte aan een methode die deze criteria combineert om een beter model te kunnen kiezen.

Om een beter passend model te kiezen, wordt in dit onderzoek uitgegaan van de methode van Amemiya (1980), een verbetering van Mallows (1973). Deze methode gaat uit van het kiezen

(5)

van het model met de gemiddelde kwadratische voorspelfouten (mean squared prediction error ) en komt grofweg overeen met het AIC. Van Casteren (1996) toont al aan dat deze methode verbeterd kan worden door de invoering van een krimpschatter met bijbehorende krimpparameter ω. Met de invoering van deze parameter wordt in theorie een optimale tussenpositie voor AIC en BIC gevonden. Met de invoering van de krimpparameter worden twee criteria afgeleid, zijnde het Set-Dependent Mean Estimation and Prediction Criterion (SDMEP) en het Set-Independent Mean Estimation and Prediction Criterion (SIMEP). Deze zijn beide afhankelijk van de krimpparameter ω. Van Casteren (1996) introduceert ook een derde informatiecriterium, het Set Independent Information Criterion (SIIC), maar besteedt er verder nauwelijks aandacht aan.

SIIC is een criterium dat volgens Van Casteren (1996) minder aantrekkelijk is dan SIMEP en SDMEP, daar deze gebaseerd is op een minder aantrekkelijke schatting van σ2. Echter, het criterium geeft in theorie wel een tussenoplossing van AIC en BIC. In hoeverre werkt het SIIC behalve in theorie ook in de praktijk? Deze vraag wordt beantwoord in dit onderzoek. In hoofdstuk 2 wordt een afleiding gegeven van het SIIC van Van Casteren (1996) en wordt gedemonstreerd hoe dit criterium zich verhoudt tot AIC en BIC. Hierbij wordt aangetoond dat het daadwerkelijk een theoretische tussen-oplossing geeft. Vervolgens wordt in hoofdstuk 3 een Monte-Carlosimulatie opgezet voor het toetsen van de werking van SIIC in de praktijk. Hoofdstuk 4 geeft de resultaten van de simulatie. Tot slot worden de belangrijkste conclusies gegeven in hoofdstuk 5.

(6)

2

Een nieuw criterium

In deze paragraaf wordt eerst een afleiding gegeven van AIC en BIC. Van beide wordt de doelfunc-tie gegeven en het gebruik in de praktijk onderbouwd. Daarna wordt er een onderbouwing gegeven voor het gebruik van het SIIC. Vervolgens wordt deze afgeleid aan de hand van AIC en een krimp-schatter met bijbehorende krimpparameter ω op basis van pleidooi voor een nieuw criterium voor het selecteren van regressoren (Van Casteren, 1996). Dit criterium dient als doelfunctie voor het kiezen van een model.

2.1 Afleiding AIC & BIC

Om een model te beoordelen op basis van hoe goed het de data beschrijft, moeten we weten wat de schattingsfout van het model is. Laat θ0 de daadwerkelijke set van parameters van de

werke-lijkheid voorstellen en laat ˆθ de schatter zijn van de set parameters voor het te beoordelen model. De schattingsfout, ook wel de afstand, van ˆθ ten opzichte van θ0 is te beschrijven door middel van

de Kullback-Leibler distance (Kullback & Leibler, 1951). De Kullback-Leibler (hierna K-L) afstand is een maatstaf voor het verlies aan informatie tussen het ware model en het geschatte model. In de praktijk is het ware model echter niet bekend. Toch kan de K-L afstand goed gebruikt worden voor het vergelijken van modellen. Laat θ en ˆθ zoals hierboven. De K-L afstand is dan gedefinieerd als volgt: KL(θ0, ˆθ) = Z f (x) · log f (x) g(x|θ)dx = Z f (x) · log f (x)dx − Z f (x) · log g(x|θ)dx = E[log f (x)] − Z f (x) · log g(x|θ)dx

Waar x de beschikbare data zijn en f (x) en g(x|θ) de dichtheidsfuncties zijn van x op basis van θ0 en ˆθ respectievelijk. Aangezien de verwachting van log f (x) onbekend is, kunnen we op deze

manier geen gebruik maken van de K-L afstand. Echter, de afstand kan wel gebruikt worden voor het vergelijken van twee modellen op basis van de relatieve schattingsfout ten opzichte van het ’ware’ model. Het model met de kleinste afstand representeert dan het beste de data. De eerste term is een constante en om die reden irrelevant voor de modelselectie als zodanig. Derhalve is het doel om de tweede term, met wisseling van teken, te maximaliseren. Akaike (1974) toont aan dat KL(θ0, ˆθ)geschat kan worden door de parameters θ0en ˆθte vervangen door de Maximum Likelihood

Estimators (MLE), mits er een correctie wordt ingevoerd. In eerste instantie volgt dan de volgende schatting:

(7)

d KLM LE(θ0, ˆθ) = 1 n X log L(x|ˆθ) = l(ˆθ) n

Vervolgens wordt de correctie doorgevoerd, omdat bij het vervangen van de MLE vertekening op-treedt. Akaike (1974) toont aan dat de vertekening ongeveer overeenkomt met kn. Hierin stelt k het aantal regressoren in het te beoordelen model voor en n het aantal waarnemingen. De volgende schatting volgt dan:

KLM LE(θ0, ˆθ) =

l(ˆθ)

n −

k n

De laatste stap voor het verkrijgen van het AIC is KL vermenigvuldigen met −2n. Akaike kiest voor deze vermenigvuldiging met −2n, omdat ∆AIC dan lijkt op de LR-statistic en een χ2(g)-verdeling

volgt waarin g staat voor het aantal opgelegde restricties. Voor de keuze van het model is de ver-menigvuldiging niet van belang. Derhalve volgt het criterium:

AIC = −2 · l(ˆθ) + 2k = −2 · log (maximum likelihood) + 2k (1) Hoewel BIC een ander doel heeft dan AIC verschillen ze als criterium niet veel. Ook BIC is gebaseerd op de MLE, maar heeft een andere correctie voor de vertekening:

BIC = −2 · l(ˆθ) + k log n = −2 · log (maximum likelihood) + k log n (2) Deze correctie is groter voor log n > 2 en straft op die manier grotere modellen harder af dan AIC.

Hannan & Quinn (1979) tonen aan dat een criterium met een strafmaat alleen consistent kan zijn als de strafmaat een snel genoeg stijgende functie is in n. AIC is daarom per definitie geen consistent criterium. Consistentie betekent hier dat als n naar oneindig gaat, de kans op het selecteren van het juiste model naar 1 gaat, ervan uitgaande dat het ware model zich onder de kandidaat modellen bevindt. BIC daarentegen is wel een consistent selectiecriterium (Nishii, 1984).

Kuha (2004) toont aan dat AIC en BIC beide goede modelselectiecriteria zijn. Hij noemt daarbij wel dat er absoluut ruimte is voor een verbeterd criterium. AIC kiest door de strafterm, die niet toe-neemt in n, vaak voor een groter model en veroorzaakt overfitting. Aan de andere kant is de aanname dat BIC ervan uit gaat dat het ware model zich onder de kandidaatsmodellen bevindt niet altijd een re-alistische. Bovendien is BIC niet effici ¨ent als het gaat om gemiddelde kwadratische schattingsfouten (Vrieze, 2012, pp.233-234).

Als AIC en BIC hetzelfde model selecteren, lijkt het aannemelijk dat dit daadwerkelijk het opti-male model is (onder de kandidaatsmodellen). Als ze echter niet hetzelfde model kiezen, ontstaat

(8)

er wel een interval waarbinnen het optimale model zich bevindt, aldus Kuha (2004). Op die manier vallen veel kandidaatsmodellen af en moet er een nieuwe selectie plaatsvinden onder de overge-bleven modellen. AIC en BIC zullen hierover geen uitsluitsel meer kunnen geven. Er is derhalve behoefte aan een nieuw criterium.

2.2 Parameterselectie

In dit onderzoek wordt het volgende model beschouwd als een werkelijke weergave van de werke-lijkheid:

y = Xβ + 

Hierbij is X een matrix van vectoren van constanten en i onderling onafhankelijk verdeeld met

verwachting 0 en variantie σ2. Wanneer we β willen schatten ligt het voor de hand om dit te doen

aan de hand van de kleinstekwadratenschatter. Hierbij wordt β geschat door ˆβ = (X0X)−1X0y. Het bovenstaande model houdt er echter geen rekening mee dat er ook β’s gelijk aan 0 kunnen zijn. Aangezien gestreefd wordt naar een zo spaarzaam mogelijk model is het re ¨eel om een matrix X1⊆ X te kiezen. Hierbij worden niet de k regressoren uit X meegenomen, maar slechts k1

regres-soren uit X1 met k1 ≤ k. Hieruit volgt de schatter ˆβ1= (X10X1)−1X10y. De bijbehorende schatter voor

Xβ wordt door Van Casteren (1996, p.104-105) gegeven door X ˆβ(1)= X1βˆ1

Het probleem rijst nu dat gekozen moet worden welke regressoren deel uit maken van X1 . Van

Casteren (1996) doet dit op basis van de gemiddelde kwadratische schattingsfout. Doelstelling is om de verwachte waarde van het verlies te minimaliseren. Deze verwachting wordt als volgt gegeven:

ρM E= E[(Xβ − X ˆβ1)0(Xβ − X ˆβ1)/n] (3)

Hierbij staat ME voor Mean Estimation. ρM E hangt af van de onbekende β en derhalve is deze

verwachting als zodanig niet te gebruiken als selector voor het beste model X1.

Van Casteren (1996) gaat verder met een andere doelfunctie: het voorspellen van een nog niet waargenomen waarde van yi, zijnde yp. Hij laat zien dat de kwaliteit van de nieuwe voorspeller x0pβˆ1

gegeven wordt door de verliesfunctie:

ρp= E[(yp− x0pβˆ1)] = σ2+ E[(β − ˆβ(1))0xpx0p(β − ˆβ(1))] (4)

Onder de aanname dat xp onafhankelijk is van y en ˆβ(1)en dat E[xpx0p] = n1X

(9)

ρp = σ2+ ρM E (5)

Minimalisatie van ρp correspondeert met minimalisatie van ρM E, aangezien σ2 een constante is.

Voor dit minimum geldt dat de optimale keuze voor X1 gevonden is. In de volgende paragraaf wordt

ρp omgezet in een selectiecriterium.

2.3 Omzetting naar selectiecriterium

Onder de aannames zoals in de vorige paragraaf beschreven, wordt in deze paragraaf een selec-tiecriterium afgeleid aan de hand van Van Casteren (1996). Hij hanteert de onconditionele verdeling van ˆβ(1). Laat nu M1 = I − X1(X10X1)−1X10 en X2 de matrix van regressoren, met bijbehorende

co ¨effici ¨entenvector β2, zijn die wel in X zitten, maar niet opgenomen zijn in X1. Laat bovendien de

vertekening gegeven zijn door γ1 = β02X20M1X2β2. Dan is ρpals volgt te schrijven:

ρp= σ2+ σ2k1/n + γ1/n (6)

Hierin staan de termen voor de variantie van yp, de gemiddelde variantie van x0pβˆ(1)en de gemiddelde

kwadratische vertekening van x0pβˆ(1), respectievelijk.

Voor het kiezen van het model is het doel uiteraard om deze verliesfunctie te minimaliseren. Wanneer getwijfeld wordt tussen twee modellen is het ook goed mogelijk om het verschil in verlies te analyseren. Laat nu Xa, Xb ∈ {X1}, dan volgt nu de nieuwe doelfunctie:

∆ρp = σ2(ka− kb)/n + (γa− γb)/n (7)

Wanneer ∆ρp > 0, dient de voorkeur uit te gaan naar Xb en vice versa. Bij de a priori keuze voor

regressoren voor Xa en Xb is bekend hoeveel regressoren ka en kb zijn meegenomen. Het

pro-bleem laat zich derhalve vereenvoudigen tot een schatting voor σ2 en een schatting voor δ = γa− γb

conditioneel op σ2.

2.4 Krimpschatting

Voor het schatten van ∆ρpwordt in deze paragraaf een schatting gevonden voor δ = γa− γb, zijnde ˆδ.

Vervolgens wordt deze schatter verbeterd met de introductie van de krimpschatter. De bijbehorende optimale krimpparameter wordt tot slot teruggebracht tot een uitdrukking die berekend kan worden wanneer kaen kb bekend zijn.

(10)

Een uitdrukking voor de schatting van γ wordt gevonden door E[y0M1y] om te schrijven (Van

Casteren, 1996). Er volgt ˆγ1= y0M10y − σ2(n − k1), welke een zuivere schatter is voor γ1 conditioneel

op σ2. Hieruit volgt onmiddellijk dat ˆ

δ = (y0May − y0Mby) + σ2(kb− ka) = (RSSa− RSSb) + σ2(kb− ka) (8)

conditioneel op σ2 een zuivere schatter is voor δ. Thompson (1968) en Van Casteren (1996) tonen aan dat er een verbetering voor ˆδ bestaat indien er gegronde argumenten zijn om aan te nemen dat de afstand tussen δ en een zekere δ0 klein is in verhouding tot de variantie van ˆδ. Van Casteren

(1996) stelt dat deze aanname gegrond is aangezien in de praktijk gezocht wordt naar modellen met een kleine vertekening γ. Derhalve zal δ dicht bij δ0= 0liggen.

Laat nu ω de krimpschatter zijn, met 0 < ω ≤ 1. Wanneer nu gebruik gemaakt wordt van ωˆδ in plaats van ˆδ, geldt dit als een generalisatie van ˆδ(voor ω = 1 geldt immers ωˆδ = ˆδ). Deze verbetering wordt duidelijk wanneer gekeken wordt naar de minimalisatie van de kwadratische schattingsfout.

E[(ωˆδ − δ)2] = ω2 V ar(ˆδ) + (1 − ω)2δ2

Minimalisatie voor deze verwachting, gegeven V ar(ˆδ)en δ, betekent het gelijkstellen van de afgeleide naar ω aan 0. Dit geeft de volgende waarde voor ω:

ω∗ = δ

2

δ2+ V ar(ˆδ) (9)

Dit is echter nog steeds een uitdrukking waar niet mee gewerkt kan worden. De schatter ω∗δˆ is onbekend, omdat ω∗ onbekend is. Van Casteren (1996, p.108) veronderstelt nu dat Xa ⊂ Xb (Xa is

genest in Xb), met als gevolg dat ka < kb. Er geldt nu δ ≥ 0 en zodoende heeft ˆδ/σ2+ ka− kb een

niet-centrale χ2-verdeling met k

b− ka vrijheidsgraden en niet-centraliteitsparameter δ/σ2 ≥ 0 (Van

Casteren, 1994, pp.154-155). Hieruit volgt de variantie van ˆδ:

V ar(ˆδ) = σ4V ar(ˆδ/σ2+ kb− ka) = 4σ2δ + 2σ4(kb− ka) (10)

Nu wordt een uitdrukking voor ω∗ afgeleid, met betrekking tot geneste modellen en normaliteit door (10) in te vullen in (9): ωN N∗ = δ 24 δ24+ 4δ/σ2− 2(k b− ka) (11)

(11)

Met deze uitdrukking kan gewerkt worden wanneer δ en σ2 geschat worden. Voor de schatting van δ wordt de uitdrukking voor ˆδ in (8) gebruikt. Daar Kuha (2004) aantoont dat AIC en BIC een interval geven waarbinnen het optimale model ligt, wordt ˆδ bepaald aan de hand van het aantal parame-ters van de modellen welke gekozen zijn aan de hand van de respectievelijke selectiecriteria. De afleiding van SIIC in de volgende paragraaf is gebaseerd op een variantie die gelijk is aan de residu-ele kwadratensom van het model bij AIC gedeeld door het aantal observaties. Deze wordt derhalve gebruikt voor de schatting van σ2.

Teneinde een tweede en eenvoudigere uitdrukking te vinden voor ω, betoogt Van Casteren (1996) dat het een redelijk uitgangspunt is om ∆ρp = 0 te hanteren. Mocht men er op voorhand

al van uitgaan dat dan wel ∆ρp > 0dan wel ∆ρp < 0, dan is men bevooroordeeld tot ´e ´en van beide

modellen. ∆ρp= 0betekent vanwege (7) dat δ = σ2(kb− ka). Substitutie leidt tot:

ωN N E∗ = 1 1 + 6/(kb− ka)

(12)

Van Casteren (1996) stelt voor om ω te kiezen op basis van een maximaal verschil in aantal parameters van 6. Hij toont dan aan dat 0.14 < ω < 0.5 met een ongewogen gemiddelde van ¯ω = 0.35. Daar komt nog bij dat hij oppert om a priori kb−kate wegen en een ω te bepalen. In dit onderzoek

wordt er a priori niet van uitgegaan dat het verschil in parameters vaak kleiner zal zijn dan 6, omdat het niet nodig is om dat aan te nemen voor deze aanpak. Het a priori wegen van kb− kawordt wel

gedaan aan de hand van de modellen gekozen door AIC en BIC. ω wordt op dezelfde manier bepaald aan de hand van het aantal parameters van de modellen welke gekozen zijn aan de hand van AIC en BIC.

Substitutie van ωˆγ1 voor γ1 geeft de volgende uitdrukking voor ρp en vervolgens ∆ρp waarin δ

wordt geschat door ωˆδ:

ρ0p = σ2+ σ2k1/n + ωˆγ1/n

= σ2[1 − ω + (1 + ω)k1/n] + ωy0M1y/n (13)

∆ρ0p = σ2(ka− kb)/n + ω(ˆγa− ˆγb)/n (14)

Deze uitdrukking voor ∆ρpis er nog steeds een die niet gebruikt kan worden, aangezien σ2onbekend

is. De laatste stap voor een werkbare uitdrukking is het schatten van σ2. Dit wordt in de volgende paragraaf gedaan.

(12)

2.5 Set Independent Information Criterion

Na het afleiden van een uitdrukking voor de krimpschatter van ω∗N N E in (12), moet de uitdrukking voor ∆ρp in (14) nog op ´e ´en plek verbeterd worden: σ2 moet geschat worden.

Wanneer ω berekend is op basis van de keuze voor modellen van AIC en BIC, valt het minima-liseren van (13) te interpreteren als de afweging tussen k1 en yM1y. Deze keuze wordt gemaakt op

basis van de gradi ¨ent van ρ0p, namelijk die van de marginale substitutieverhouding

∂ρ0p/ ∂k1 ∂ρ0 p / ∂y0M1y = (1 + 1 ω)σ 2 (15)

en de tekens van de afgeleiden die beiden positief zijn (Van Casteren, 1996). σ2 wordt nu geschat door de MLV (Maximum Likelihood Value) y0M1y/n(onder de aanname dat i normaal verdeeld is),

dat wil zeggen:

∂ρ0p / ∂k1 ∂ρ0p/ ∂y0M1y = (1 + 1 ω)y 0M 1y/n (16)

Corresponderend wordt het nieuwe criterium afgeleid op basis van ρ0p behorend bij (16):

SIICω = n log(yM1y/n) + (1 +

1 ω)k1 = −2 log(M LV ) + (1 + 1

ω)k1 (17)

Een nieuw criterium verwant aan AIC en BIC is nu gevonden. Wanneer nu 1 + ω1 = 2 =⇒ ω = 1 is SIICω gelijk aan AIC en wanneer 1 + ω1 = log n komt SIICω overeen met BIC, aldus Van Casteren

(1996).

In theorie is er nu een tussenweg gevonden voor AIC en BIC. Onder de aannames gegeven in voorgaande paragrafen zou SIICωeen model moeten selecteren dat ligt in het interval gegeven door

AIC en BIC. Na de selectie door AIC en BIC wordt een ω bepaald aan de hand van de uitdrukking (11) en (12). Deze ω worden vervolgens gebruikt voor het berekenen van SIICω. Voor deze ω moet

bovendien gelden:

1

log n − 1 ≤ ω ≤ 1 (18)

Geldt dit niet, dan heeft dat als gevolg dat SIICωeen kleiner model zou prefereren dan BIC. Wanneer

AIC en BIC niet hetzelfde model selecteren, is de kleinste waarde die ω in (12) aan kan nemen wan-neer de door AIC en BIC geselecteerde modellen slechts 1 parameter verschillen (de modellen zijn immers genest). Deze waarde is 1+6/11 = 0.14en kan bij benadering niet door log n−11 overschreden

(13)

worden wanneer n > 3439. Wanneer het aantal waarnemingen onder 3439 ligt, moet hier derhalve rekening mee worden gehouden.

2.6 Asymptotiek

Van Casteren (1996) leidt nog twee selectie criteria af, zijnde SDMEPωen SIMEPω. Deze twee criteria

zijn beide afhankelijk van een andere schatter voor σ2, maar wel op eenzelfde manier afgeleid als

SIICω. Om die reden kan SIICω op dezelfde wijze behandeld worden, aldus Van Casteren (1996,

p.112). Derhalve volgt SIICωdezelfde asymptotiek als AIC, BIC of een combinatie van beiden. Deze

paragraaf geeft aan hoe SIIC zich asymptotisch kan gedragen.

Wanneer het minimaal ware model eindig en vast is en dus het aantal relevante regressoren ook eindig is en onafhankelijk van n, nadert de kans op overfitting naar 0, mits limn→∞ωn= 0(Van

Casteren, 1994, pp.137-138, 147-148). Deze limiet kan bereikt worden wanneer AIC en BIC hetzelfde model selecteren vanwege de gebruikte schatter voor ω in (12). Deze schatter is niet afhankelijk van het aantal waarnemingen, maar enkel van het aantal parameters in de modellen, die gekozen zijn aan de hand van AIC en BIC. Zoals aangegeven in de vorige paragraaf neemt ω, wanneer de geselecteerde modellen door AIC en BIC ongelijk zijn, nooit een waarde aan kleiner dan 0.14. Wanneer AIC en BIC wel hetzelfde model kiezen, dan kan deze limiet bereikt worden. Dit is echter een onzinnig geval, daar er dan geen selectieprobleem bestaat. Derhalve is SIIC voor die uitdrukking van ω niet consistent.

Voor de uitdrukking voor ω in (11) wordt deze limiet bereikt wanneer ˆδ → 0. Stel nu dat ka< kb,

wat redelijk is aangezien AIC naar een groter model neigt dan BIC. De modellen voldoen dan aan de volgende vergelijkingen:

n log RSSb+ 2kb < n log RSSa+ 2ka

n log RSSb+ log n · kb > n log RSSa+ log n · ka

Hieruit volgen de volgende verhoudingen:

RSSa

RSSb

< e2n(ka−kb), RSSa

RSSb

> nen(ka−kb)

Gevolg hiervan is dat de verhouding ˆδ2/σ2 voldoet aan de volgende vergelijking:

δ σ2 = (

RSSa

RSSb

(14)

Daar ka < kb, gaat e2n(ka−kb) naar 0 als n → ∞. Derhalve geldt ook (e2n(ka−kb)− 1)n → −∞ en

kb− ka< 0. Ergo, ˆ δ

σ2 → 0, omdat wanneer ˆδ < 0, we ˆδ = 0nemen en bovendien geldt σ2> 0.

De asymptotische kans op underfitting daarentegen nadert naar 0 wanneer limn→∞1n = 0. Dit

geldt wederom indien het minimaal ware model eindig en vast is en dus het aantal relevante regres-soren ook eindig is en onafhankelijk van n. Deze limiet zal om dezelfde reden wel bereikt worden voor uitdrukking (12). Wanneer n → ∞ en min ωn = 0.14 volgt nωn → ∞ en bijgevolg limn→∞1n = 0

voor alle ωn. Voor uitdrukking (11) geldt dat de minimale waarde die ωn kan aannemen gelijk is aan 1

log n−1. Derhalve moet gelden dat de grootste waarde van de limiet als volgt weergeven kan worden:

limn→∞n 11 log n−1

= limn→∞log n−1n = 0. Ergo, de asymptotische kans op underfitting is gelijk aan 0.

De tweede vorm van asymptotiek heeft betrekking op het geval dat het aantal relevante re-gressoren oneindig is of nadert naar oneindig wanneer n → ∞, aldus Van Casteren (1996, p.117). Hij concludeert dat SDMEPω en SIMEPω onder bepaalde assumpties optimale criteria zijn wanneer

ω = 1, wat derhalve ook geldt voor SIICω. Aan deze voorwaarde wordt voldaan voor uitdrukking (12)

wanneer het verschil in relevante regressoren tussen de modellen nadert naar oneindig. Voor uit-drukking (11) wordt hieraan voldaan wanneer de verhouding tussen δ en σ2 voldoende groot wordt. Echter, in het geval dat ω = 1 is het criterium volgens (1) en (17) gelijk aan AIC. Volgens Vrieze (2012) is AIC asymptotisch optimaal onder de aanname dat het ware model zich niet bevindt on-der de kandidaatsmodellen. Om diezelfde reden en onon-der overeenkomstige assumpties is SIICωook

asymptotisch optimaal.

Al met al is SIICω een middenweg tussen AIC en BIC. De asymptotische kans op overfitting blijft

echter wel bestaan, wanneer AIC en BIC een ander model selecteren. De werking van het criterium moet daarom nader onderzocht worden in de praktijk. Het volgende hoofdstuk geeft een opzet voor een empirisch onderzoek naar de werking van SIICωop basis van een datagenererend proces.

(15)

3

Empirisch experiment

Zoals afgeleid in het voorgaande hoofdstuk, is SIIC een theoretische combinatie van de selectiecri-teria AIC en BIC. Nu rest nog om in de praktijk te toetsen of dit daadwerkelijk een verbetering is ten opzichte van AIC en BIC. Dit hoofdstuk licht de werking van SIIC toe aan de hand van een Monte-Carlosimulatie.

3.1 Datagenerend proces

In navolging van McQuarrie & Tsai (1998, p.371-377), die een vergelijkbaar onderzoek hebben gedaan naar de werking van selectiecriteria, worden data gegenereerd aan de hand van het vol-gende regressiemodel:

yi = β1xi,1+ · · · + βkxi,k+ i , i ∼ N (0, σ2) i = 1, ..., n (19)

Hierin zijn de i’s onafhankelijke storingstermen.

Om de werking te testen op meerdere regressiemodellen, het is immers interessant om te weten in welke situaties SIIC goed werkt, wordt gevarieerd in het aantal trekkingen, de co ¨effici ¨enten van βk,

het aantal co ¨effici ¨enten k en de correlatie tussen de regressoren xi,j. De regressoren xi,j worden

gegeneerd door een trekking te doen uit de standaardnormale verdeling. De correlatie tussen de xi,j

wordt gerealiseerd door een trekking voor xi,j+1|xi,j te doen. De correlatieco ¨effici ¨ent ρ bepaalt de

mate van de onderlinge correlatie.

Over de werking voor SIIC in zowel grote als kleine steekproeven kan een uitspraak gedaan worden bij verschillende steekproefgrootten. Dit onderzoek bevat slechts twee kleinere steekproef-grootten. n neemt de waarden 25 en 100 aan. Deze data worden bovendien getrokken op basis van twee verschillende correlaties: geen correlatie (ρx = 0) en hoge correlatie (ρx = 0.9). De β’s worden

overeenkomstig gekozen met McQuarrie & Tsai (1998, p.371). Er worden drie situaties beschouwd, namelijk: βj = 1/j2, βj = 1/j en βj = 1.

Voor het toetsen van beide vormen van asymptotiek, moet naast de steekproefgrootte ook het aantal regressoren in het ware model vari ¨eren. Wederom wordt in dit onderzoek slechts gekeken naar een klein en eindig aantal parameters in het ware model, conform de eerste vorm van asymptotiek. Derhalve wordt ook gekeken voor k = 3 en k = 6, wederom in navolging van McQuarrie & Tsai (1998, p.371). Om voor zowel AIC als BIC situaties te cre ¨eren waarin de data beter past bij het ene criterium dan het andere, wordt een maximale overfitting ge¨ıntroduceerd. Deze maximale overfitting ozal de waarden 0 en 2 aannemen. Wanneer o = 0 heeft het grootst mogelijke model dat gekozen

(16)

kan worden k parameters. Bovendien heeft het grootst mogelijke model k + 2 parameters wanneer 0 = 2.

Getracht wordt om uitspraak te doen over de werking van SIIC aangaande alle combinaties van de hierboven genoemde variabelen. Het totaal aantal combinaties komt zodoende neer op 48. Per combinatie worden 10000 herhalingen gedaan.

Teneinde een indicatie te kunnen geven van de werking van SIIC worden er vervolgens opnieuw data trekkingen gedaan zoals eerder beschreven. Deze data worden gebruikt om de voorspelkwaliteit van de gekozen modellen te testen. De voorspelkwaliteit wordt gekenmerkt door de grootte van de gemiddelde kwadratische schattingsfout van het model. Deze gemiddelde kwadratische schattings-fout wordt gegeven door: n1 Pn

i=1[(yi− ˆbi· xi)2]. Met yi en xi de waarden uit de voorspel steekproef

en ˆbide voorspelde waarden van de parameters aan de hand van de estimation sample.

Voor alle combinaties en alle herhalingen worden eerst twee modellen gekozen aan de hand van AIC en BIC. De modellen die de kleinste residuele kwadratensommen hebben, worden gebruikt voor het aantal parameters dat nodig is in de schatting van ωN N E∗ in uidrukking (12). Bovendien worden deze residuele kwadratensommen gebruikt voor de schatting van δ en σ2om zo een invulling te geven aan de uitdrukking in (11). Verder in dit onderzoek wordt SIICNN aangeduidt als het SIIC waarbij gebruik gemaakt is van ω∗N N en derhalve SIICNNE als het SIIC waarbij gebruik gemaakt is van ωN N E∗ . In het volgende hoofdstuk worden de resultaten van dit experiment gegeven, met betrekking to beide schattingen voor ω.

4

Resultaten & Analyse

In dit hoofdstuk worden de resultaten gegeven en geanalyseerd van de Monte-Carlosimulatie, die beschreven is in het vorige hoofdstuk. Er wordt een verklaring gegeven voor de werking bij de ver-schillende waarden voor de variabelen. Voor het simuleren van de data is gebruik gemaakt van het statistische softwarepakket R. De gehanteerde code is bijgevoegd in appendix 1.

4.1 Resultaten

In deze paragraaf worden de resultaten gegeven van de simulatie, waarbij iedere subparagraaf de resultaten voor de waarden van de regressoren βj representeert.

(17)

4.1.1 Resultaten voor βj = 1/j2

Tabellen 1 en 2 geven aan hoe de gemiddelde kwadratische schattingsfouten (MSE) van SIICNN en SIICNNE, respectievelijk, zich verhouden tot de MSE van AIC en BIC. Dat wil zeggen dat wan-neer de waarde naar 0 gaat, SIIC relatief goed presteert ten opzichte van AIC en BIC en wanwan-neer deze waarde naar 1 gaat relatief slecht. Overschrijding aan zowel onderkant of bovenkant berusten op toeval, omdat de verwachting dat SIIC beter danwel slechter presteert dan AIC en BIC niet re ¨eel is.

Tabel 1: Relatieve prestatie MSE van SIICNN bij βj = 1/j2 o 0 2 k 3 1,061 1,010 0,103 0,320 25 n 0,622 0,646 0,527 0,423 100 6 0,807 0,895 0,639 0,853 25 0,000 0,000 0,279 0,295 100 0 0.9 0 0.9 ρ

Tabel 2: Relatieve prestatie MSE van SIICNNE bij βj = 1/j2 o 0 2 k 3 1,000 1,000 0,000 0,000 25 n 1,000 1,000 0,985 1,019 100 6 1,000 1,000 1,000 1,000 25 0,000 0,000 0,000 0,000 100 0 0.9 0 0.9 ρ

Bij een steekproefgrootte van 25 is ω∗N N E = log n−11 , voor alle gevallen van k, 0 en ρ. Daarom is SIICNNE dan ook gelijk aan BIC. Dit resulteert in dat SIICNNE slechts het beste of het slechtste model kiest en dus voor n = 25 de waarden 0 en 1 kan aannemen. Echter, ook bij een steekproef-grootte van 100 varieert de relatieve MSE van SIICNN ook nauwelijks.

Tabel 3: Gemiddelden van ˆωN N bij βj = 1/j2 o 0 2 k 3 0,8765 0,8927 0,8051 0,8411 25 n 0,7320 0,8599 0,6562 0,7644 100 6 0,9764 0,9048 0,8778 0,8251 25 1,0000 1,0000 0,8317 0,8480 100 0 0.9 0 0.9 ρ

(18)

SIICNN daarentegen wijkt veel vaker af van AIC en BIC. In het geval dat er geen overfitting mogelijk is, presteert SIICNN toch niet naar behoren. De relatieve prestatie ligt voor alle gevallen boven 0.5, behalve bij n = 100 en k = 6, waar AIC en BIC altijd hetzelfde model kiezen. Wanneer deze relatieve prestatie boven 0.5 ligt, zou een straf op het aantal opgenomen regressoren dat exact tussen de straffen van AIC en BIC in ligt dus wenselijker zijn.

Echter, wanneer het geval van overfitting in ogenschouw wordt genomen, blijkt dat SIICNN re-latief redelijk presteert. Zeker in het geval van n = 100.

Tabel 4: Totalen kleinste gemiddelde kwadratische schattingsfout bij βj = 1/j2

Frequentie Percentage

AIC 142383 88,99%

BIC 138825 86,77%

SIICNN 139455 87,16%

SIICNNE 138833 86,77%

Bij kwadratisch afnemende co ¨effici ¨enten van de regressoren blijkt uit tabel 4 dat AIC het beste presteert. Dat criterium kiest in 88, 99% van de 160.000 gevallen voor het model dat de kleinste gemid-delde kwadratische voorspelfouten oplevert. Uit de tabel valt ook op te maken dat er vaak geen se-lectieprobleem meer is na het selecteren van een model met AIC en BIC, aangezien de som van de kolom ’totaal’ 160.000 ruim overstijgt. SIICNNE en BIC presteren nagenoeg gelijk. Dit is vanwege de definitie voor ωN N E∗ in uitdrukking (12).

4.1.2 Resultaten voor βj = 1/j

Onderstaande tabellen 5 en 6 geven wederom weer hoe de MSE van respectievelijk SIICNN en SIICNNE zich verhoudt tot de MSE’s van AIC en BIC. Echter, in dit geval is βj = 1/j.

SIICNNE volgt wederom vaak BIC. Uit Tabel 8 blijkt dat BIC het af moet leggen tegen AIC op basis van voorspelkwaliteit. Gevolg is dat de waarden van de relatieve prestatie van SIICNNE dicht bij 1 liggen.

Wederom presteert AIC als beste. Ook SIICNN presteert weer beter dan BIC. Hoewel het ver-schil klein is, presteert ook SIICNNE hier beter dan BIC. Bij lineair afnemende co ¨effici ¨enten is er bovendien veel vaker een selectieprobleem dan bij kwadratisch afnemende co ¨effici ¨enten. Dit is te zien aan de sommen van de kolom frequenties, die aanzienlijk kleiner is bij lineaire co ¨effici ¨enten (559.496 tegen 490.028) .

(19)

Tabel 5: Relatieve prestatie MSE van SIICNN bij βj = 1/j o 0 2 k 3 0,963 0,990 0,955 1,022 25 n 0,521 0,569 -1,023 0,398 100 6 0,866 0,961 0,961 1,030 25 0,488 0,587 0,417 0,522 100 0 0.9 0 0.9 ρ

Tabel 6: Relatieve prestatie MSE van SIICNNE bij βj = 1/j o 0 2 k 3 1,000 1,000 1,000 1,000 25 n 1,000 1,000 0,856 0,986 100 6 1,000 1,000 0,998 1,000 25 0,945 0,997 0,900 0,984 100 0 0.9 0 0.9 ρ

Tabel 7: Gemiddelden van ˆωN N bij βj = 1/j o 0 2 k 3 0,8728 0,8939 0,7999 0,8352 25 n 0,9323 0,8990 0,7916 0,7956 100 6 0,7494 0,8151 0,7125 0,7686 25 0,6166 0,6539 0,5756 0,6140 100 0 0.9 0 0.9 ρ

Tabel 8: Kleinste gemiddelde kwadratische schattingsfout bij βj = 1/j

Frequentie Percentage AIC 142574 89,11% BIC 113348 70,84% SIICNN 120584 75,37% SIICNNE 113522 70,95% 4.1.3 Resultaten voor βj = 1

Tabellen 10 en 11 geven de relatieve prestaties van SIICNN en SIICNNE ten opzichte van AIC en BIC op basis van de gemiddelde kwadratische schattingsfout bij βj = 1.

Wanneer we de prestaties van SIICNN en SIICNNE willen analyseren, is het gebruik van tabel 9 hier noodzakelijk. Uit die tabel blijkt dat er zelden een selectieprobleem bestaat. Wederom volgt

(20)

Tabel 9: Totalen kleinste gemiddelde kwadratische schattingsfout bij βj = 1 Totaal Percentage AIC 146574 91,61% BIC 151334 94,58% SIICNN 150097 93,81% SIICNNE 151334 94,58%

SIICNNE louter BIC. Dit resulteert derhalve nogmaals in waarden 0 en 1 voor de relatieve prestatie. SIICNN lijkt wederom beter te presteren, zeker wanneer er overfitting mogelijk is. Verder lijkt BIC bij constante co ¨effici ¨enten aanzienlijk beter te presteren. Echter, opvallend hier is dat AIC, wanneer er geen overfitting mogelijk is, altijd het beste model kiest. Daar het niet het doel van dit onderzoek is om de werking van AIC en BIC uit te lichten, wordt hier niet verder op ingegaan.

Tabel 10: Relatieve prestatie MSE van SIICNN bij βj = 1 o 0 2 k 3 0,981 0,991 0,026 0,936 25 n 0,000 0,000 0,283 0,294 100 6 0,840 0,890 0,538 0,845 25 0,000 0,000 0,292 0,294 100 0 0.9 0 0.9 ρ

Tabel 11: Relatieve prestatie MSE van SIICNN bij βj = 1 o 0 2 k 3 1,000 1,000 0,000 1,000 25 n 0,000 0,000 0,000 0,000 100 6 1,000 1,000 1,000 1,000 25 0,000 0,000 0,000 0,000 100 0 0.9 0 0.9 ρ

Tabel 12: Gemiddelden van ˆωN N bij βj = 1 o 0 2 k 3 0,9924 0,9640 0,8996 0,8823 25 n 1,0000 1,0000 0,8326 0,8495 100 6 0,9784 0,9073 0,8729 0,8276 25 1,0000 1,0000 0,8330 0,8407 100 0 0.9 0 0.9 ρ

(21)

In de volgende paragraaf worden de hiervoor gegeven resultaten geanalyseerd.

4.2 Analyse

In de vorige paragraaf zijn de resultaten van de Monte-Carlosimulatie gegeven. In de subparagrafen zijn de prestaties van SIICNN en SIICNNE ten opzichte van AIC en BIC gegeven voor βj = 1/j2,

βj = 1/j en βj = 1respectievelijk. Het doel van deze paragraaf is om die prestaties te analyseren.

Wanneer de co ¨effici ¨enten van de regressoren constant zijn, is SIICNNE een weinig nuttig cri-terium dat het in alle gevallen voor hetzelfde model kiest als BIC. AIC en BIC kiezen, blijkens tabel 9, geregeld voor hetzelfde model. Daar ω altijd gelijk is aan het minimum uit (18), zitten deze gekozen modellen in aantal parameters vaak dicht bij elkaar.

Bij afnemende co ¨effici ¨enten valt op dat SIICNNE een weinig zinvol criterium is. Daar de re-latieve prestatie danwel 0 is, danwel 1, danwel heel dicht bij 1, geeft aan dat het criterium vooral BIC volgt en zelden naar AIC trekt, ook als die beter lijkt te zijn. Een mogelijke verklaring hiervoor is dat SIICNNE gebruik maakt van een schatter voor ω, die enkel afhangt van het verschil in parameters in de modellen zoals geselecteerd door AIC en BIC. In dit onderzoek is het grootste mogelijke model dat geselecteerd kan worden slechts 8 parameters. Derhalve is het maximale verschil in parameters gelijk aan 7. Immers, het geval dat het model slechts bestaat uit een constante is niet opgenomen. Dit geval met het maximale verschil, is een zeer onwaarschijnlijk geval. AIC en BIC zijn immers beide beproefde selectiecriteria en zullen derhalve eerder dichterbij elkaar liggen. Bovendien moet het ver-schil in parameters voor het geval van n = 25 minstens 5 zijn om een ω te krijgen die voldoet aan (18). Derhalve kiest SIICNNE voor n = 25 bij k = 3 altijd een ω, zodanig dat SIICNNE = BIC. Bovendien is het zeer onwaarschijnlijk dat het verschil in parameters bij k = 6 groter is dan 5. Bijgevolg is dat ook dan SIICNNE meestal gelijk is aan BIC.

Bij de grotere steekproef van n = 100 gelden dezelfde bezwaren tegen het gebruik van SIICNNE. Hoewel de ondergrens voor ω uit (18) nu lager ligt, moet het verschil in parameters nog steeds minstens 3 bedragen. De kans dat AIC en BIC modellen selecteren met 3 parameters verschil is wel groter, maar bij een grootst mogelijk model van 8, nog steeds onwaarschijnlijk. ωbN N E lijkt te

weinig dynamisch in de waarden die het aan kan nemen. De stapsgewijze schatting resulteert in een criterium dat zelden anders presteert dan BIC in het geval van kleine modellen en steekproeven. Tabellen 2 en 6 voldoen aan deze verwachting. Verder dient nog genoemd te worden dat SIICNNE minder slecht presteert wanneer er geen multicollineariteit bestaat (ρ = 0) dan wanneer deze hoog is (ρ = 0.9). Dit valt te verklaren doordat overfitting in dit geval minder ernstige gevolgen heeft, daar het effect van de vorige regressor doorwerkt. Bij kleine steekproeven en kleine modellen is SIICNNE

(22)

een niet aan te raden selectiecriterium.

SIICNN lijkt veel beter te presteren dan het vereenvoudigde SIICNNE. Bij kwadratisch afne-mende co ¨effici ¨enten werkt SIICNN opvallend goed wanneer het model klein is en de kans op over-fitting bestaat. Dit lijkt een logisch gevolg van de definitie van de co ¨effici ¨enten en van AIC en BIC. Daar AIC vaak neigt naar overfitting, is de kans dat AIC een te groot model kiest in dit geval re ¨eel. Immers, de kleinste co ¨effici ¨ent heeft een relatief kleine invloed op de waarde van y. Deze invloed kan bij toeval opgevangen worden door de regressoren waarvoor geldt β = 0 wanneer ρ = 0.9. BIC heeft daarentegen een grotere straf op het opnemen van regressoren. Bijgevolg is dat regressoren met kleine co ¨effici ¨enten sneller weggelaten worden. Derhalve ontstaat er een groter interval aan modellen waarbinnen zich mogelijk een beter model bevindt. Voor k = 6 en o = 0 worden de co ¨effici ¨enten zo klein dat AIC zelden een te klein model zal kiezen. ωN N ligt in die gevallen dan ook relatief dicht bij 1.

Voor k = 3 en o = 0 is het dan ook waarschijnlijk dat de gevallen waarin SIICNN beter presteert dan AIC en BIC ontstaan zijn door toeval in de storingsterm. Tabel 1 laat zien dat SIICNN relatief redelijk presteert wanneer overfitting mogelijk is. Opvallend hierbij is dat deze relatieve prestatie beter wordt wanneer BIC het beter doet dan AIC. Bovendien volgt uit tabel 4 dat SIICNN het regelmatig beter doet dan BIC. Verder laat tabel 1 geen duidelijk verschil in prestatie zien voor de verschillende waarden van ρ. In een vervolgonderzoek zou daarom gekozen kunnen worden voor meerdere waarden van ρ teneinde meer te weten te komen over de invloed van multicollineariteit.

Lineair afnemende co ¨effici ¨enten geven een ander beeld van SIICNN. Het criterium presteert eigenlijk heel matig. De relatieve prestatie komt nauwelijks onder een waarde van 0.5. Dit betekent dat een strafterm, gebaseerd op het gemiddelde van de straftermen van AIC en BIC, in theorie niet slechter zou moeten presteren. Het krimpen van de schatter ω lijkt dus niet goed genoeg te werken. SIICNN volgt daarbij ook nog te vaak BIC. Daar AIC het in dit geval vele malen beter doet dan BIC lijkt SIICNN hier niet een geschikt criterium.

Opvallend verschijnsel hier is dat multicollineariteit een negatieve invloed heeft op de relatieve prestatie van SIICNN. De werking hier, ten opzichte van de kwadratisch afnemende co ¨effici ¨enten, valt te verklaren doordat, door het sneller afnemen van de co ¨effici ¨enten, de invloed van multicollineariteit ook minder hard doorwerkt op de volgende regressor.

Waar BIC bij de afnemende co ¨effici ¨enten regelmatig beter presteert dan AIC, is dat bij de con-stante co ¨effici ¨enten nooit het geval wanneer overfitting niet mogelijk is. AIC kiest hier altijd voor het optimale model. Dit valt te verklaren doordat alle regressoren relatief grote co ¨effici ¨enten hebben. Het weglaten van een regressor leidt dan ook met waarschijnlijkheid tot een grote vertekening. Opvallend hier is wederom dat SIICNN vooral BIC volgt. De krimpmethode heeft derhalve niet het gewenste effect, daar AIC in de kleine steekproeven beter presteert.

(23)

Wanneer overfitting wel mogelijk is, presteert SIICNN relatief goed wanneer de steekproefgrootte toeneemt. Dit is deels wel te verklaren door het feit dat BIC weer overwegend wordt gevolgd. Multi-collineariteit lijkt hier wederom een negatieve invloed te hebben op de prestatie van SIICNN.

In dit onderzoek is een beperkt aantal gevallen onderzocht waarin de prestaties van SIICNN en SIICNNE ten opzichte van AIC en BIC werden onderzocht. Voor kleine steekproeven is het weinig zinvol om SIICNNE verder te onderzoeken. Op basis van de definities van AIC en BIC die nauw aan elkaar verwant zijn, is SIICNNE, vanwege de definitie van de bijbehorende krimpschatter, nauwe-lijks tot geen verbetering ten opzichte van de bestaande criteria. Het is echter niet uitgesloten dat SIICNNE wel goed werkt wanneer de steekproeven van aanzienlijke omvang zijn. Zoals eerder be-sproken is vanaf 3439 waarnemingen de krimpschatter ˆωN N E niet langer onderhevig aan de

onder-grens, opgelegd door de steekproefgrootte. Vervolgonderzoek zou moeten uitwijzen of SIICNNE in grote steekproeven een beter selectiecriterium is.

Bovendien is er in dit onderzoek slechts gebruik gemaakt van kleine ware modellen (k ∈ {3, 6}). Voor vervolgonderzoek lijkt het dan ook zinvol om naast de eerder betuigde variaties in multicollineariteit en steekproefgrootte, SIICNN en SIICNNE te onderzoeken aan de hand van grotere ware modellen.

Aan de hand van bovenstaande resultaten en analyse worden in het volgende hoofdstuk de belangrijkste conclusies getrokken.

5

Conclusie

Er zijn vele methoden bekend voor het selecteren van het juiste model om data zo goed mogelijk te begrijpen. De keuze voor het al dan niet opnemen van een parameter in een model wordt traditioneel gemaakt aan de hand van de t-toets (of de F-toets voor meerdere parameters). Het bezwaar bij deze methode is de arbitraire keuze voor een significantieniveau van 5%.

Theil (1961) beschrijft een methode gebaseerd op het minimaliseren van adjusted R2. Bij deze

methode worden geen irrelevante regressoren weggelaten en kan dit leiden tot overfitting.

Populaire modelselectiecriteria zijn het AIC en het BIC, waarbij gebruik gemaakt wordt van de MLE. Van Casteren (1996) betoogt dat er een verbetering op deze methoden bestaat door ze te combineren. Het SIIC is een selectiecriterium dat de krachten van AIC en BIC bundelt. Daar AIC een kleine straf heeft op het toevoegen van een parameter aan het model en BIC een grote, is het in theorie mogelijk dat SIIC, door gebruik van een krimpschatter, een gulden middenweg is tussen beide methoden, wanneer er aan de hand van AIC en BIC geen uitsluitsel over een optimaal model is gegeven. Echter, de vraag is of deze combinatie in de praktijk ook daadwerkelijk een verbetering is.

(24)

Uit dit onderzoek is gebleken dat SIIC voor kleine steekproeven en kleine modellen een verbe-tering kan zijn op AIC en BIC. Hierbij dient vermeld te worden dat de schatting van de krimpparameter van belang is voor de werking. In kleine modellen en kleine steekproeven is de schatting voor deze parameter ω weinig zinvol, aangezien deze zelden anders gekozen wordt dan minimaal. Dit betekent dat SIIC dan gelijk is aan BIC. Echter wanneer er een betere schatter gebruikt wordt voor ω, kan SIIC een mooie tussenweg zijn tussen AIC en BIC. Deze verbetering wordt beter duidelijk wanneer de kans op overfitting bestaat.

Ook is in dit onderzoek de invloed van multicollineariteit onderzocht, zij het minimaal. Daar alleen het geval waarin overfitting mogelijk is re ¨eel is voor de praktijk, lijkt multicollineariteit een negatieve invloed te hebben op het criterium. Hierbij dient vermeld te worden dat met slechts 2 waarden voor ρ dit verder onderzocht moet worden.

Belangrijke bevinding is dat naarmate de steekproeven groter worden, SIIC meer verschuift naar het optimale criterium voor dat specifieke geval, zijnde AIC of BIC. Bij nog grotere steekproeven (zoals in big data) zou SIIC dan een mooie tussenoplossing zijn voor AIC en BIC. Ook dit moet verder onderzocht worden.

(25)

6

Literatuurlijst

Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19 (6), 716-723.

Amemiya, T. (1980). Selection of Regressors. International Economic Review, 21 (2), 331-354. Casteren, P.H.F.M. van (1994). Statistical Model Selection Rules. Proefschrift, Vrije Universiteit,

Amsterdam

Casteren, P.H.F.M. van (1996). Pleidooi voor een nieuw criterium voor het selecteren van regressoren. Kwantitatieve methoden, 17 (52), 101-129.

Hannan, E. & Quinn, B. (1979). The determination of the order of an autoregression. Journal of the Royal Statistical Society, Series B, 41, 190-195.

Kuha, J. (2004). AIC and BIC: Comparisons of Assumptions and Performance. Sociological methods & research, 33 (2), 188-229.

Kullback, S. & Leibler, R.A. (1951). On information and sufficiency. Annals of Mathematical Statistics. 22 (1): 79-86.

Mallows, C.L. (1973). Some Comments on Cp. Technometrics, 15, 661-675.

McQuarrie, A. & Tsai, C. (1998). Regression and time series model selection. Danvers, MA: World Scientific.

Nishii, R. (1984). Asymptotic properties of criteria for selection of variables in multiple regression. Annals of Statistics, 12, 758-765.

Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461-464. Theil, H. (1961). Economic Forecasting and Policy, North Holland, Amsterdam.

Thompson, J.R. (1968). Some Shrinkage Techniques for Estimating the Mean. Journal of the American Statistical Association, 63 (321), 113-122.

Vrieze, S (2012). Model Selection and Psychological Theory: A Discussion of the Differences Between the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC). Psychological Methods, 17 (2), 228-243.

(26)

I

R-code

library(gtools)

# Lege arrays die gevuld worden met de voorspelfouten. errorAICs <- c()

errorBICs <- c() errorSIICNNs <- c() errorSIICNNEs <- c()

# Lege arrays die gevuld worden met de schattingen voor omega omegasNN <- c()

omegasNNE <- c()

# De te veranderen variabelen voor de verschillende simulaties obs <- 25 numpar <- 5 realmod <- 3 sims <- 10000 x <- c(1:numpar) # Coefficienten, hier b_j = 1/j^2 bj <- rep(0,realmod)

for (i in 1:realmod) { bj[i] = 1/(i^2) }

for (sim in 1:sims) {

# Correlatie coefficient rho <- 0

# Data

(27)

for (i in 2:numpar) {

X <- cbind(X,rho * X[,i-1] + rnorm(obs)) }

# Storingsterm eps <- rnorm(obs)

# Het ’ware’ model

y <- X[,1:realmod] %*% bj[1:realmod] + eps model = data.frame(X[,c(1:numpar)],y)

# Start waarden voor AIC, BIC, SIIC AICpars <- c(rep(0,numpar)) BICpars <- c(rep(0,numpar)) AICmin <- 1e6 BICmin <- 1e6 SIICparsNN <- c(rep(0,numpar)) SIICparsNNE <- c(rep(0,numpar)) SIICminNN <- 1e6 SIICminNNE <- 1e6

# Voor elke parameter for (i in 1:numpar) {

# Voor iedere combinatie van parameters

for (j in 1:nrow(combinations(n=numpar,r=i,v=x))) {

# Schattingen

temppars <- combinations(n=numpar,r=i,v=x)[j,] correctmatrix <- X[,temppars]

est <- lm(y ~ 0 + correctmatrix, data=model)

# Bewaar de minimale waarde van AIC en BIC en bijbehorend model if (AIC(est) < AICmin) {

(28)

AICpars <- c(rep(0,numpar)) AICpars[c(temppars)] <- est$coefficients AICmin <- AIC(est) RSSAIC <- sum(est$residuals^2) AICsize <- length(temppars) } if (BIC(est) < BICmin) { BICpars <- c(rep(0,numpar)) BICpars[c(temppars)] <- est$coefficients BICmin <- BIC(est) RSSBIC <- sum(est$residuals^2) BICsize <- length(temppars) } } } # Krimpschatters # Schatting omegaNNE

omegaNNE <- max(1/(1+6/(AICsize-BICsize)), 1 / (log(obs) - 1)) omegasNNE <- append(omegasNNE,omegaNNE)

# Schatting omegaNN variance <- RSSAIC/obs

delta <- max(RSSBIC - RSSAIC + variance*(BICsize-AICsize),0)

omegaNN <- ifelse(delta == 0, 1, max( 1 / (log(obs) - 1),(delta^2/variance^2)/(delta^2/variance^2 + 4*delta/variance+ 2*(AICsize-BICsize)))) omegasNN <- append(omegasNN,omegaNN)

#SIIC, op gelijke wijze als AIC en BIC for (i in BICsize:AICsize) {

for (j in 1:nrow(combinations(n=numpar,r=i,v=x))) { temppars <- combinations(n=numpar,r=i,v=x)[j,] correctmatrix <- cbind(X[,temppars])

(29)

#Maximum likelihood estimator MLE <- as.numeric(logLik(est))

#Definitie van SIICNN

SIICNN <- -2*MLE + (1 + 1/omegaNN)*(ncol(correctmatrix)) if (SIICNN < SIICminNN) { SIICparsNN <- c(rep(0,numpar)) SIICparsNN[c(temppars)] <- est$coefficients SIICminNN<- SIICNN RSSSIICNN <- sum(est$residuals^2) }

#Definitie van SIICNNE

SIICNNE <- -2*MLE + (1 + 1/omegaNNE)*(ncol(correctmatrix)) if (SIICNNE < SIICminNNE) { SIICparsNNE <- c(rep(0,numpar)) SIICparsNNE[c(temppars)] <- est$coefficients SIICminNNE <- SIICNNE RSSSIICNNE <- sum(est$residuals^2) } } }

# Data estimation sample {

estms <- 100

Xp<- cbind(rnorm(estms)) for (i in 2:numpar) {

Xp <- cbind(Xp,rho * Xp[,i-1] + rnorm(estms)) }

# Storingsterm

(30)

# Het ’ware’ model

yp <- Xp[,1:realmod] %*% bj[1:realmod] + epsp }

# Voorspellingen met bijbehorende voorspelfouten {

ypAIC <- Xp %*% AICpars

errorAIC <- sum((ypAIC-yp)^2)/obs

errorAICs <- append(errorAICs, errorAIC)

ypBIC <- Xp %*% BICpars

errorBIC <- sum((ypBIC-yp)^2)/obs

errorBICs <- append(errorBICs, errorBIC)

ypSIICNN <- Xp %*% SIICparsNN

errorSIICNN <- sum((ypSIICNN-yp)^2)/obs

errorSIICNNs <- append(errorSIICNNs, errorSIICNN)

ypSIICNNE <- Xp %*% SIICparsNNE

errorSIICNNE <- sum((ypSIICNNE-yp)^2)/obs

errorSIICNNEs <- append(errorSIICNNEs, errorSIICNNE) }

Referenties

GERELATEERDE DOCUMENTEN

Since the pCABOL multilayers deliver more transfection agents, transfection efficiency can be maintained over higher cell seeding density (Figure 8.1b) and so higher

Primary school teachers perceptions of inclusive education in Victoria, Australia. Implementing inclusive education in South Africa: Teachers attitudes

To achieve this aim, the following objectives were set: to determine the factors that play a role in the pricing of accommodation establishments; to determine

Asked why their demands turned political, many participants echoed Maluleke’s (2016) assertion that the shutting down of universities in the context of student protests

Soos ook in die literatuur aangedui is daar in dié studie bevind dat studente steeds deur middel van afstandsleer ʼn kwalifikasie kan verwerf ongeag uitdagings om tyd in te ruim

By contrast, we designed [X]Changing Perspectives ([X]CP): an interactive table-system for multi-stakeholder collaboration around public issues.. The system aims, not to

Key words: public participation, ward committees, conceptual framework, Northwest 405 Municipality, municipal affairs, democracy, local government, local

Omdat bij injectiespuiten, gevuld met ijkgas, een afwijking werd gevonden van 20-30% te laag en in Tabel X voor monster B met de injectiespuit circa 30% lager wordt gevonden dan