Modelselectie : een overzicht van de verschillende modelselectie criteria

(1)

Modelselectie

Een overzicht van de verschillende modelselectie criteria

Naam: Tom Oreel

Begeleider: Lourens Waldorp Studentennummer: 10188991 Mail: tom.oreel@studen.uva.nl Datum: 30 juni 2014

(2)

Abstract

Modellen zijn theoretische constructen, bestaande uit parameters, die het gedrag van een

(psychologisch) proces beschrijven. Goede modellen kunnen, gegeven een geringe steekproef, goed onderscheid maken tussen ruis en informatie. Criteria zijn ontwikkeld om modellen te selecteren op deze eigenschap. Criteria hebben de eigenschap om het model te kiezen die goed de steekproef kan verklaren en zowel rekening houd met complexiteit. Tussen deze twee factoren moeten criteria een balans weten te vinden want. Complexe modellen hebben namelijk de eigenschap om te over-fitten, en veel ruis zullen bevatten. Terwijl te simpele modellen daarentegen te weinig informatie tot zich kunnen nemen. Elk criterium heeft hierdoor andere balans tussen de twee factoren, waardoor deze verschillend presteren per omstandigheid. Aan de hand van simulaties wordt gevonden dat de AICc bij kleinere streekproeven, beter presteert dan de AIC en BIC.

Introductie

De psychologie als wetenschap heeft zich de afgelopen decennia steeds meer georiënteerd op de empirische methode. Behandelmethoden worden bijvoorbeeld niet meer uitgedacht en getest in de denkstoel zoals in tijden van Freud. Vandaag de dag moeten deze uitgebreid worden getoetst voordat deze toegepast kunnen worden in de praktijk. Dit heeft onder andere te maken met het feit dat verzekeringsmaatschappijen alleen die behandelmethodes willen betalen die effectief zijn bewezen in het onderzoek. Men wil toetsbare uitspraken maken binnen de psychologie. De sociale/psychologische constructen moeten daardoor kwantificeerbaar worden gemaakt, zodat vergelijken mogelijk is. Wanneer testen/vergelijken van kwantificeerbare constructen mogelijk is, kunnen er uitspraken of voorspellingen over populaties worden gemaakt. Uitspraken of

voorspellingen kunnen gemaakt worden aan de hand van modellen. Deze modellen kunnen onder andere psychologische processen beschrijven. Modellen zijn theoretische constructen die een (psychologisch) proces beschrijven aan de hand van enkele variabelen. Bijvoorbeeld het General

(3)

wanneer men voor een bepaalde tijd stress ervaart (Selye, 1973). Het model beschrijft de

fysiologische reacties van stress in drie fases, deze zijn afhankelijk van de duur en frequentie van de stress-prikkels, die het organisme ervaart.

Modellen beschrijven het gedrag van een afhankelijke variabele (bv. Fysiologische reacties). Het gedrag van de afhankelijke variabele wordt bepaald aan de hand van een samenstelling

parameters, deze parameters hebben elk een andere groeifactor of coëfficiënt (bv. Duur en intensiteit van stressprikkel). De waardes die deze parameters aannemen zijn factoren die invloed uitoefenen op het gedrag van het systeem (afhankelijk variabele). Voorbeelden van parameters binnen het General Adaptation Syndrome model zijn ‘stressprikkel’, ‘duur van de stressprikkel’ en ‘resistentie tegen stress’. De coëfficiënt van deze parameters geven de richting van de invloed van de parameters op de afhankelijke variabelen. De resistentie van stress heeft bijvoorbeeld een negatieve invloed op het ontstaan van een fysiologische stress-respons, terwijl de intensiteit van stress juist een positieve invloed op het ontstaan van een fysiologische stress-respons heeft. Aan de hand van deze unieke samenstelling van parameters en coëfficiënten geven deze modellen een systematische beschrijving van de afhankelijke variabele. Deze beschrijving heeft vaak als doel, om analyse of voorspellingen te maken over de populatie. In het voorbeeld van het General Adaptation Syndrome

model kan men het verloop van de lichaamsreacties beschrijven.

Deze modellen worden opgesteld door de empirische methode. De grootste uitdaging van het construeren en selecteren van modellen, is dat onderzoekers deze modellen moeten schatten uit een beperkte hoeveelheid data. In het grootste deel van het onderzoek naar modellen wordt de data verkregen door middel van (eindige) steekproeven. Bijvoorbeeld door het afnemen van IQ-testen bij een groep van 500 eerste-jaarstudenten psychologie (between subject). Met deze data wil men vervolgens kunnen generaliseren naar grotere populaties, zoals alle personen tussen 18 en 25 jaar. Tevens zou men ook bij één proefpersoon herhaaldelijk (within subject) een meting kunnen

verrichten, om de ‘populatie’ van die ene proefpersoon te onderzoeken. Gezien het feit dat men met steekproeven geen oneindigheid aan data kan verzamelen, moet men schattingen verkrijgen uit een

(4)

geringe hoeveelheid data. Omdat steekproeven maar een kleine fractie weergeven van de oneindige populatie, kan een steekproef nooit alle informatie bevatten. Hierdoor trekt men herhaaldelijk random steekproeven uit de populatie, zo tracht men net genoeg informatie op te vangen om iets van de populatie te kunnen zien. Omdat de steekproeven nooit de hele populatie kunnen bevatten, hebben alle steekproeven altijd een bepaalde mate van ruis. Ruis is effect wat niet veroorzaakt is door de populatie, maar door toevalligheden binnen de steekproef. Wanneer men bijvoorbeeld de ochtend na het psychologie-gala onderzoek doet naar psychologiestudenten, zal men geen duidelijk beeld krijgen van hun geheugen taakjes. Een aanzienlijk deel van de studenten is namelijk brak van de nacht ervoor. Het effect van ruis op de steekproef kan zoveel vermindert worden door grote willekeurigheid en vergroting van de waarnemingen. In het voorbeeld van de psychologiestudenten zou men het effect van ruis kunnen verminderen door de steekproef te vergroten, onderzoek ook alle rechtenstudenten. Hierdoor zal het effect van de ruis worden verkleind, gezien de

rechtenstudenten waarschijnlijk minder brakke mensen bevatten. Dus hoe kleiner de steekproef, hoe groter de ruis zal zijn. De ruisfactor speelt een grote rol binnen de psychologie, steekproeven zijn over het algemeen kleiner en personen kunnen veel verschillen in gesteldheid (bv. Brakke en niet brakke mensen) (Schmidt & Hunter, 1996). Goede modellen bevatten alleen informatie, en geen ruis. De steekproeven moeten daardoor weinig ruis bevatten, daarnaast moeten de model selectie methoden gespitst zijn op het selecteren van modellen die zo min mogelijk ruis bevatten. Hierdoor kunnen er modellen worden opgesteld, die zo veel mogelijk informatie bevatten en zo weinig mogelijk ruis. In dit geval is het mogelijk om uitspraken of voorspellingen te maken over de oneindige populatie. Voor de selectie van modellen betekent dit, dat de steekproef van voldoende grootte moet zijn. Om vervolgens die modellen te selecteren die de steekproef goed kunnen

verklaren en daarnaast zo simpel mogelijk blijven. Simpele modellen zijn namelijk minder vatbaar om ruis op te vangen, waardoor deze beter onderscheid maken tussen ruis en informatie.

Voorafgaand aan de modelselectie stelt een onderzoeker een aantal modellen (hypotheses) op, waarvan wordt gedacht dat deze informatie over de populatie kunnen beschrijven. Vervolgens

(5)

worden de parameters van elk model geschat, bijvoorbeeld met de Maximum Likelihood functie. Hierbij worden de parameters geschat aan de hand hun verwachte waarde met de steekproef te vergelijken. Deze goodness of fit methoden schatten hoe goed de voorspellingen van het geschatte model overeenkomen met de data uit de steekproef (Myung & Pitt, 1998). Na het schatten van de verschillende modellen op de steekproef, geeft elk model per parameters andere bijbehorende coëfficiënten. Hierdoor geeft elk model ook andere voorspellingen omtrent de afhankelijke variabele. Met voorspellingen wordt bedoelt dat het model de data van een nieuwe steekproef kan voorspellen voorspeld aan de hand van de vindingen uit de vorige steekproef. Nu men een reeks verschillende modellen heeft verkregen uit de steekproef, wil men vervolgens het beste model uit deze reeks selecteren. De modellen die het beste de steekproef kunnen verklaren, en daarnaast zo simpel mogelijk zijn, worden geprefereerd. Dit proces van het vergelijken van meerdere modellen op hun prestaties noemt men modelselectie.

Het doel van modelselectie is om, gegeven een eindige hoeveelheid data, modellen te selecteren die zo veel mogelijk informatie geven over de populatie waarin men geïnteresseerd is. Hiervoor moeten modellen goed de steekproef kunnen verklaren, en daarnaast zo simpel mogelijk blijven (Forster & Sober, 1994). Gegeven het feit dat een steekproef ruis bevat, moeten modellen niet elk detail uit de steekproef opnemen (Burnham & Anderson, 2004). Tevens moeten

steekproeven zo groot mogelijk zijn, om de invloed van ruis op de data te verkleinen. Hoe kleiner de steekproef, hoe minder de informatie van de populatie naar voren komt. Omdat steekproeven altijd ruis zullen bevatten is een goed model, een model dat goed onderscheid maakt tussen ruis en informatie (Burnham & Anderson, 2004).

Criteria

Voor het selecteren van het meest degelijke model, gegeven een eindige hoeveelheid data, wordt gebruik gemaakt van zogeheten criteria. Veelgebruikte criteria binnen de psychologie zijn de AIC, BIC en RMSEA (Aikaike, 1973; Schwarz & Gideon, 1978). Deze criteria zijn ontwikkeld om het model te

(6)

kiezen dat waarschijnlijk het beste onderscheid maakt tussen informatie en ruis, en zodoende het beste uitspraken maakt over de populatie. Dit lossen criteria op door het meest waarschijnlijke, en daarnaast het meest simpele model te selecteren. Dus het model die het beste de data (informatie) beschrijft en daarnaast zo simpel mogelijk blijft.

Criteria kunnen alleen modellen met elkaar vergelijken. Bij modelselectie wordt een reeks modellen meegegeven, waarna de criteria een rangorde geven in adequaatheid van de modellen. Ter illustratie worden modellen getest die voorspellingen maken over reactietijd. Bij het eerste model wordt een toename in reactietijd (y), een toename van de leeftijd (x1) en een afname van

drankconsumptie (x2). Een dergelijk model ziet er als volgt uit:y = x1 – x2. Daarnaast is de onderzoeker geïnteresseerd in andere factoren/parameters die de toename van reactietijd wellicht nog beter kunnen verklaren dan alleen x1 en x2. In dit geval stelt de onderzoekers een reeks vergelijkbare modellen op. Zoals een model die extra parameters zoals drugsgebruik (x3) en IQ (x4) opneemt in zijn functie. Na het testen van deze modellen op de data, kunnen deze reeks modellen vervolgens met criteria zoals de AIC en BIC met elkaar worden vergeleken. Hierbij komen vervolgens één of meerdere modellen uit de test als de beste. Deze modellen bevatten volgens de criteria relatief het meeste informatie en minste ruis van de reeks modellen.

Modellen moeten de data verklaren en zo simpel mogelijk blijven om via een steekproef met ruis, goed onderscheid te maken van ruis en informatie. Hierdoor berekenen criteria de grootste waarschijnlijkheid van de data, gegeven het model, en straffen extra complexiteit in een model af. Complexiteit van modellen staat voor het aantal parameters en de functionele vorm van deze

parameters. Functionele vorm is het gedrag van de parameters door het bevatten van exponenten of machten. Een voorbeeld van een complexe model: Mc = X1 + X2^2 + X3^(e^x – 1) + X4^(e^4 – 0.1). Een voorbeeld van een simpel model is: Ms = X1 + X2. Zoals is te zien, bevatten complexere modellen meer parameters, en hebben complexere modellen een hogere functionaliteit. Complexe modellen met veel parameters en een grote functionele vorm hebben de neiging om meer detail in data op te vangen. Hierdoor wordt de steekproef beter verklaard, omdat er wellicht ruis wordt beschreven, dit

(7)

effect noemt men over-fitting. Wanneer een model over-fit, maakt het model slecht onderscheid tussen ruis en informatie, waardoor de voorspellende kracht van het model verslechterd (Myung & Pitt, 1998). Om het probleem te illustreren, zou men in het meest extreme geval voor elk datapuntje in de steekproef een parameter opstellen. Het extreem complexe model zal daardoor een perfecte fit op de steekproef hebben. Het model beschrijft de populatie zeer matig. Waardoor het ook slechte voorspellingen kan maken over toekomstige steekproeven. Voor de criteria vraagt dit om een balans tussen de goodness of fit en de complexiteit van modellen. Een model mag niet te goed fitten, waardoor het complexiteit in modellen af straft. Tevens houden sommige criteria, zoals de AICc, ook rekening met de steekproefgrootte. Hoe groter de steekproef, hoe duidelijker de informatie van de populatie naar voren komt. Bij kleine steekproeven is de invloed van ruis groter, waardoor over-fitting een nog groter gevaar vormt.

Gegeven het gemak waarop criteria zijn toe te passen in de praktijk, maakt dat deze zeer populair binnen het onderzoek. Ondanks de grote hoeveelheid gebruikers van deze criteria, lijken veel gebruikers niet precies te begrijpen wat deze criteria inhouden (Myung & Pitt, 1998). Wetende dat verschillende factoren een rol spelen bij een adequate selectie, pakken de criteria dit elk op een andere manier aan. Hierdoor verschillen de prestaties onderling van elkaar. In het volgende stuk zullen de criteria worden onderzocht, zowel hun theoretische achtergrond als hun prestaties op verschillende soorten data.

Theorie achter modelselectie

Het doel bij modelselectie is om, gegeven een eindige hoeveelheid data, modellen te selecteren die goed onderscheid maken tussen ruis en informatie zodat effecten uit de populatie zo goed mogelijk beschrijven. Men wil met deze modellen via een steekproef de patronen van de populatie opvangen. De patronen van de algehele populatie zouden in theorie gedefinieerd kunnen worden in een allesomvattend model. Een alles omvattend model f(x) met een aantal parameters die de data in de populatie perfect beschrijven. Dit zou men kunnen zien als het model waarop alle data is gebaseerd,

(8)

een model die elke tendens in de data kan verklaren. In algemene termen heet dit de populatie, in de modelselectie literatuur noemt men dit het operating model of true model (Zucchinni, 2000; Coenen & Huls, 2008). Dit operating model is in de praktijk onbekend, het is namelijk onmogelijk om zo veel en goed mogelijk informatie te verzamelen om een operating model op te stellen. Een onderzoeker stelt daarom een set modellen op, waarin hopelijk het operating model tussen zit, of een benadering van het operating model. Deze modellen noemt men approximating models en de reeks modellen noemt men ook wel de approximating family of models (Zucchini, 2000). Deze opgestelde modellen fit men vervolgens op de data uit de steekproef, waaruit een set modellen ontstaat met elk een andere samenstelling van parameter. Om te bepalen welke van deze modellen het operating model het best benaderd, poogt men te kijken naar de discrepancy due to approximation tussen het

operating model en het approximating model. Deze discrepantie staat voor het verschil tussen het operating model en het gefitte model. Hoe groter deze discrepantie tussen het approximating model

en het operating model hoe slechter het approximating model. Zoals bleek, is het operating model niet bekend, waardoor de discrepancy due to approximation niet is te verkrijgen. De kunst is daarom om een adequate schatting te krijgen van de discrepantie tussen het operating model en het

approximating model. Hiervoor schakelt men de hulp in van statistische methoden, namelijk de

methoden van de criteria om modellen te selecteren op hun kwaliteit omtrent het schatten van de populatie door ruis en informatie van elkaar te onderscheiden. Kortom, een selectie criterium is een methode voor het schatten van de discrepantie tussen het approximating model en de operating

model (Zucchinni, 2000). Om een schatting te maken met een criterium, moet men het criterium

twee variabelen meegeven. Een model uit de approximating family, en de data uit de steekproef. Hoe lager de uitkomst van deze criteria, hoe beter in het model in het scheiden van informatie en ruis en hoe beter in het schatten van de operating model, oftewel de populatie.

(9)

Kullback-Leibler

Door de discrepantie tussen het operating model en het gebruikte model te schatten, bepalen criteria in theorie hoe goed een model het operating model benaderd. Binnen de informatietheorie bestaat er een functie voor deze discrepantie. De Kullback-Leibler divergentie geeft relatieve schatting voor het informatie verlies van een opgesteld model in vergelijking met het ware model. Ondanks het ware (operating) model in praktijk onbekend is, kan men de K-L discrepantie goed gebruiken om twee modellen met elkaar te vergelijken. De K-L discrepantie is daarom de bakermat van veel criteria. In essentie zou men de K-L discrepantie kunnen zien als verwant aan de maximum

likelihood estimator, namelijk als minimum discrepancy estimator voor het schatten van de minimale

geschatte afstand tussen twee modellen.

De Kullback-Leibler discrepantie,

𝐼 (𝑓, 𝑔) = � 𝑓(𝑥) log(𝑓(𝑥))𝑑𝑥 − � 𝑓(𝑥) log(𝑔(𝑥|θ))𝑑𝑥

Of

𝐼(𝑓, 𝑔) = 𝐸𝑓�log�𝑓(𝑥)�� − 𝐸𝑓[log 𝑔(𝑥|θ))]

Hierin staat de verwachting/expected (𝐸𝑓[log 𝑔(𝑥|θ))] voor de verwachtte waarde van het model, deze moet geschat worden. De 𝐸𝑓�log�𝑓(𝑥)�� staat voor de verwachting van de waarheid, deze is een constante (C). De waarheid is namelijk iets dat zich contant gedraagt over te tijd. Daaruit ontstaat:

𝐶 = 𝐸𝑓[log 𝑔(𝑥|θ))]

Omdat de waarheid een constante is, hoeft dus alleen𝐸𝑓[log 𝑔(𝑥|θ))] te worden geschat op de reeks modellen, om het ‘ware’ model te schatten. Ondanks het ware, oftewel het operating model niet te verkrijgen is, blijkt de Kullback-Leibler divergentie een goede ‘tool’ te zijn voor het schatten

(10)

van het informatie verlies tussen twee modellen. In plaats van het vergelijken tussen het ware en een ander model, kan men de zelf opgestelde modellen met elkaar vergelijken aan de hand van de K-L discrepantie. Akaike (1973) vond dat de parameters (θ) binnen de K-L discrepantie kon worden vervangen door een Maximum Likelihood schatter van de parameters θ � waaruit 𝐸𝑦𝐸𝑥[log 𝑔(𝑥|θ � ))] ontstaat. 𝑦 is hierin de data, 𝑥 is de verwachte data, gegeven het model ((𝑔(𝑥|θ � )), verkregen uit de

Maximum Likelihood schatter. Door deze ontdekking is het mogelijk aan de hand van eigen gevonden data en parameters, een relatieve schatting van het informatie verlies van het model te maken (Burnham & Anderson, 2004). Hierdoor zijn veel van de modelselectie criteria, zoals AIC, AICc, BIC en TIC, gebaseerd op de Kullback-Leibler divergentie.

Hieronder volgt een korte beschrijving voor de AIC. Door 𝐸𝑦𝐸𝑥[log 𝑔(𝑥|θ � ))] te corrigeren voor grotere samples ontstaat:

log �ℒ(𝜃��𝑑𝑎𝑡𝑎)� − 𝐾

Waarbij K een correctie term is voor complexiteit, K staat voor het aantal parameters in het model. Deze K is ontstaan doordat K gelijk bleek te zijn aan de schattingsbias van 𝐸𝑦𝐸𝑥[log 𝑔(𝑥|θ � (y)))] (Burnham en Anderson, 2002). De schatting van de Maximum log-Likelihood had namelijk een bias die 𝐸𝑦𝐸𝑥[log 𝑔(𝑥|θ � (y)))] benaderde. Door deze functie vervolgens met onbekende reden te vermenigvuldigen met -2 ontstond de AIC:

𝐴𝐼𝐶 = −2 log �ℒ(𝜃��𝑑𝑎𝑡𝑎)� + 2𝑘

Vanuit deze AIC zijn vervolgens veel andere criteria, zoals de BIC en AICc, ontstaan. Hieruit is te zien dat veel van de criteria zijn gebaseerd op de Kullback-Leibler divergentie.

Deze Kullback-Leibler divergentie geeft een relatieve schatting van de informatie die verloren gaat bij een model ten opzichte van de realiteit (Kullbeck & Leibler, 1951). Het beste model verliest in vergelijking met de andere modellen de minste informatie. De waarden die de Kullbeck-Leibler

(11)

informatie verlies tussen twee modellen. Gezien de criteria zijn gebaseerd op de K-L discrepantie, zijn ook de criteria relatieve schatters van de discrepantie met het gefitte model en de data. Hierdoor kunnen criteria alleen worden gebruikt om modellen met elkaar vergelijken. Het model met de laagste criteria waarde wordt gezien als het beste model, ongeacht de exacte waarde van de uitkomst. Hierbij maakt het niet uit of de gevonden waarde uit de criteria 15 is, of 800. Het gaat alleen om het verschil tussen de gevonden waarden. Dit wetende kunnen criteria alleen

vergelijkingen maken tussen modellen. Het blijft echter onmogelijk om te bepalen of het model de populatie echt goed weerspiegeld, of dat het model niets minder is dan de minst slechte van alle slechte modellen. Een criterium is hierdoor geen een exacte schatter tussen het model en het

operating model. Dit is een filosofisch punt waar onderzoekers zich extra bewust van moeten zijn,

wanneer deze de resultaten interpreteren.

Goodness of fit

Criteria geven een relatieve schatting van de adequaatheid van modellen, door te kijken hoe goed deze onderscheid maken tussen ruis en informatie. Hierbij wordt er onder andere gekeken hoe goed de modellen de steekproef kunnen verklaren. Dit noemt men de goodness of fit van het model. Een model moet een goede beschrijvingen kunnen geven over de steekproef, om informatie van de populatie te kunnen bevatten. Om deze eigenschap te verwerken in de modelselectie, bevatten criteria een factor voor de goodness of fit.

De goodness of fit berekent de waarschijnlijkheid van het model, gegeven steekproef. Voor de goodness of fit maken criteria, zoals AIC, AICc, BIC en TIC, gebruik van de Likelihood functie. De

Likelihood functie vergelijkt de voorspelbaarheid van het nul-model, met het andere alternatieve

model, op de gevonden data. Een nul-model is een model met parameter die gefixeerd zijn op nul, waardoor deze slecht/niet zal voorspellen. Het alternatieve model is het opgestelde model waarin men geïnteresseerd is. Het null-model zal altijd slecht presenten, waardoor het als ijkpunt wordt gebruik om de prestaties van het alternatieve model te testen. De Maximale Likelihood-functie zoekt

(12)

naar een maximale afstand tussen de twee modellen in het verklaren van de steekproef. Dit proces is van essentieel belang om de populatie te kunnen schatten, gezien de steekproef informatie van de populatie bevat. Zoals eerder duidelijk werd, bevatten alle steekproeven, vergeleken met elkaar, net iets andere waarden. Een model met een perfecte Maximale Likelihood kan de steekproef 100% beschrijven, maar zal ernstig aan het over-fitten. Het model maakt geen goed onderscheid tussen ruis en informatie. Waardoor het model geen wetenschappelijke waarde, er is niet mee te voorspellen.

Simulatie

Om het probleem van over-fitting te illustreren, wordt, aan de hand van simulaties, de invloed van complexiteit en ruis op de goodness of fit onderzocht. Om dit te operationaliseren, wordt er gebruik gemaakt van simulatie data in R (zie appendix voor de code). Data worden gesimuleerd aan de hand van één model, die er als volgt uit ziet: mt = b0 + b1*x1 + b2*x2^2 + b3*x3^3 + eps. De x-en zijn de parameters, de b’s zijn de coëfficiënten, en de eps is de error term. Al deze objecten worden random getrokken uit een normaal verdeelde data. Model mt kan men zien als het operating model, waaruit alle data wordt gesimuleerd. Vervolgens zullen er vier modellen worden gefit op de gesimuleerde data. Deze bestaan uit twee simpele modellen: (1)m1 = x1; (2)m2 = x1 + x2^2, een juist model: (3)m3 = x1 + x2^2 + x3^3, en een te complex model: (4)m4 = x1 + x2^2 + x3^3 + x4^4. Vervolgens zal er aan de hand van de R-squared worden gekeken welk model het beste fit. De R-squared berekent de afstand tussen de voorspellingen van het model met de steekproef, in dit geval de gesimuleerde data. Hoe kleiner deze R-square, hoe hoger de goodness of fit van het model. Elke simulatie wordt honderd keer uitgevoerd, waarbij de steekproefgrootte is gefixeerd op 50 en de variantie varieert van 1 t/m 6 in stappen van 1. Verwacht wordt dat de fit tussen het goede model (m3) en het

complexere model (m4) niet veel zal verschillen. Het complexe model (m4) is op dat moment aan het

over-fitten, de extra parameters zijn ruis aan het verklaren. Daarnaast wordt verwacht dat de twee

simpelere modellen (m1, m2) slechter zullen fitten dan het juiste model (m3). Deze twee modellen bevatten te weinig parameters om alle informatie op te vangen. Uit de simulaties kwam naar voren

(13)

dat het juiste en complexe model amper verschillen in goodness of fit, waardoor er kan worden geconcludeerd dat er sprake is van over-fitting van het complexe model. Tevens kwam naar voren dat de variante (ruis) een negatieve invloed heeft op de goodness of fit van alle vier modellen. Zie tabel 1 voor de resultaten.

Complexity Models Variance _{= 1} Variance _{= 2} Variance _{= 3} Variance _{= 4} Variance _{= 5} Variance _{= 6} Simpel m1 0.23 0.49 0.59 0.58 0.48 0.48 Simpel m2 0.58 0.68 0.70 0.64 0.52 0.48 Correct m3 0.90 0.92 0.83 0.72 0.58 0.53 Complex m4 0.98 0.92 0.83 0.72 0.59 0.53

Tabel 1: De R-squared van de vier modellen, verschillend in complexiteit, bij een toename van variantie

Deze resultaten laten zien dat alleen de goodness of fit gevoelig is voor over-fitting bij te complexe modellen. Bij modelselectie kan dus niet alleen naar de goodness of fit worden gekeken. Hiervoor is, naast de goodness of fit, een andere factor waar rekening mee gehouden moet worden Een model mag niet te veel parameters bevatten, zodat de hoge goodness of fit van complexe modellen wordt afgestraft. Extra parameters kunnen in veel gevallen zorgen voor een hogere

Maximale Likelihood, omdat de extra parameters de ruis in de steekproef ook verklaren. Dit complex

model lijkt goed te fitten op de data, maar maakt slecht onderscheid tussen ruis en informatie. Modellen moeten voldoen aan simpliciteit en zuinigheid (Jeffreys, 1957). Daarom bestaan criteria naast een goodness of fit maat, ook een (straf)maat voor complexiteit.

Complexiteit

Om via een eindige steekproef, goed onderscheid te maken tussen ruis en informatie, moet een model zo simpel mogelijk blijven. Criteria moeten daarom extra rekening houden met de

complexiteit van het model. Wanneer twee modellen nagenoeg dezelfde goodness of fit hebben, moet het simpele model worden geprefereerd boven het complexere model. Men is zich al langer tijd bewust van het idee van simpliciteit en zuinigheid, het principe van simpelheid komt voort uit het

(14)

oude Occam’s Razor principe uit de kennistheorie. Hierin wordt vermeld dat men, bij het kiezen van hypothesen die even goed voorspellen, moet kiezen voor de hypothese met de minste aannames. “Shave away all but what is necessary” (Burnham & Anderson, 2002). Hoewel simpliciteit en zuinigheid belangrijk wordt geacht binnen de gehele wetenschap, is het extra belangrijk binnen de modelselectie (Forster & Sober, 1994). Complexere modellen met veel parameters zijn geneigd om te fitten op irrelevante effecten, zoals ruis, waardoor deze minder goed zijn in hun voorspellende waarde (Myung & Pitt, 1998). Criteria bevatten daarom een strafmaat voor het toevoegen van extra parameters, hoe meer parameters, hoe hoger het criterium zal scoren. Gezien de laagste criterium score wordt geprefereerd, zal een toevoeging van de parameters de preferentie van het model laten afnemen.

Deze strafmaat zal worden geïllustreerd aan de hand van de AIC. De AIC is een veelgebruikt criterium binnen de modelselectie. De strafmaat voor complexiteit is als volgt verwerkt in het criterium:

𝐴𝐼𝐶 = 2𝑘 − 2ln (𝐿)

De k is het aantal parameters van het model, L is de Maximale Likelihood functie. Het model met de laagste AIC waarde wordt meestal geprefereerd. Een toename van de Maximale Likelihood zal de AIC laten afnemen, een toename van de parameters (k) zal de AIC weer laten toenemen. Deze lineare toename via de k-term, is nadelig voor het complexe model, waardoor de k-term gezien wordt als een strafmaat binnen de AIC. De BIC, een ander veelgebruikt criterium binnen onderzoek bevat de strafmaat van complexiteit op vergelijkbare wijze.

𝐵𝐼𝐶 = −2𝑙𝑛(𝐿) + 𝐾𝑙𝑜𝑔(𝑛)

Bij de BIC neemt de strafmaat voor het aantal parameters (K) niet lineair toe, zoals bij de AIC. De strafmaat neemt afhankelijk van de verhouding van het aantal parameters en de steekproefgrootte linearitmisch toe. Linearitmische toename, bij de BIC, is groter dan een lineaire, bij de AIC, waardoor de strafmaat voor het aantal parameters bij de BIC strenger dan voor de AIC. Wanneer de

(15)

steekproefgrootte toeneemt, zal de invloed van de strafmaat bij de BIC echter afnemen. Gegeven steekproefgrootte en variantie met elkaar verbonden zijn (Law of large numbers), is dit een verstandige keuze. Een grote variantie/kleine steekproef, heeft een negatieve invloed op de

goodness of fit van de modellen.

Bias versus variance trade-off

Criteria lossen het over-fittings probleem onder andere op door een strafmaat voor complexiteit van modellen. Simpele modellen maken beter onderscheid tussen informatie en ruis, waardoor deze beter uitspraken over de populatie kunnen maken. Echter, men moet ook oppassen om een model niet te simpel té maken. Té simpele modellen zullen informatie van de populatie over het hoofd zien. Het gevolg hiervan is dat deze modellen te weinig potentie hebben om accuraat te voorspellen. Een daling van de parameters zal in sommige gevallen leiden tot een daling van de goodness of fit. Het model zal informatie uit de steekproef niet op zich nemen. Als gevolg van een daling van de goodness

of fit, stijgt ook de waarde van de AIC en BIC (zie formule).

Simpele modellen zijn door hun simpele lineaire structuur, zeer ongevoelig voor parameter variatie (Li, Lweandowsky & DeBrunner, 1996). Hierdoor kan er informatie, waarin men

geïnteresseerd is, over het hoofd worden gezien. Daardoor wordt de populatie niet goed

opgevangen in een model. Complexere modellen kunnen daar in tegen meer variatie van de data opvangen. Door hun exponenten en machtsfuncties hebben complexe modellen variërende structuur hebben. Hierdoor is een complex model gevoeliger voor het opvangen van parameter variatie

(Myung & Pitt, 1998). Door deze variërende parameter waarden kunnen complexe modellen in sommige gevallen groter detail vastleggen. Ter illustratie, uit onderzoek naar reactietijd, vind men dat mensen een toename van reactietijd tussen de 0 en 30 jaar laten zien, gevolgd door een afname van de reactietijd na het 30e_{levensjaar. Een lineair model, zou in dit effect (stijging gevolgd door een}

daling) niet kunnen opvangen. Wanneer dit het geval zou zijn, geeft een (simpel) lineair model te weinig informatie over de populatie. Een (complexer) polynoom model zou dit effect wel kunnen

(16)

opvangen in de data, waardoor dit complexere model de populatie beter benaderd. Een probleem is natuurlijk dat men het ‘echte’ effect nooit zeker kan weten. De data zijn verkregen uit een

steekproef, en complexere modellen lopen risico om ruis op te vangen (Myung & Pitt, 1998; Zucchini, 2000).

Wat hieruit geconcludeerd kan worden is dat criteria een balans moeten vinden tussen complexiteit versus simpelheid, door de strafmaat voor extra parameters niet te groot te maken. Dit probleem van complexiteit versus simpelheid noemt men in de literatuur de bias versus variance

trade-off (Burnham & Anderson, 2004). Modellen die een lage bias hebben zijn meestal complexere

modellen, deze kunnen de gevonden dataset tot in groter detail beschrijven. Echter, deze

complexere modellen vangen automatisch meer ruis/variantie uit de steekproef op, wat voorspellen minder accuraat kan maken. Modellen met een hogere bias zijn vaker simpele modellen, deze modellen beschrijven de gevonden data in minder groot detail. Deze simpele modellen zijn echter minder gevoelig voor ruis/variantie (Forster 2000, 2001). Gezien deze trade-off, moeten criteria rekening houden met een goede balans tussen bias en instabiliteit bij het selecteren van modellen. De strafmaat voor complexiteit mag niet te groot worden.

Binnen deze trade-off speelt de hoeveelheid ruis in de waarneming en de complexiteit van een model een grote rol. Ruis hangt in zeker mate af van de steekproefgrootte, hierdoor zal

steekproefgrootte een prominente rol (Law of large numbers) spelen in het selecteren van modellen. Kleinere steekproeven bevatten minder informatie over de populatie, waardoor ruis een grote invloed heeft op de data. Modellen zullen daardoor sneller over-fitten op kleine steekproeven.

(17)

Invloed steekproefgrootte op modelselectie

De hoeveelheid ruis/variantie speelt een grote rol bij modelselectie. Hoe meer ruis in een steekproef, hoe lastiger om het juiste model te selecteren. De ruis kan namelijk worden verklaard door

‘overbodige’ parameters, waardoor modellen met onterechte parameters, onterecht worden geselecteerd. Het gevolg: Deze modellen maken slechte voorspellingen over toekomstige

waarnemingen. Logischerwijs zal de steekproefgrootte een prominente rol spelen bij modelselectie. Meer waarnemingen betekend minder invloed van ruis, en visa versa. De data zullen bij een toename van de waarnemingen minder gevoelig worden voor toevallige afwijkingen, waardoor deze steeds meer op de populatie gaat lijken. Hierdoor zal er bij een grotere steekproef beter onderscheid gemaakt kunnen worden tussen ruis en informatie, wat schatten van het juiste model makkelijker maakt. Het gevolg hiervan is dat modelselectie lastiger is bij kleinere steekproeven. Criteria zullen hiervoor rekening moeten houden, gezien het feit dat men in de praktijk maar een geringe hoeveelheid data tot zijn beschikking heeft.

Het veelgebruikte criteria AIC blijkt zeer gevoelig te zijn voor over-fitting bij kleine

steekproeven (Burnham & Anderson, 2004). De AIC heeft namelijk geen term voor steekproefgrootte in zijn functie, waardoor er geen rekening wordt gehouden met de hoeveelheid waarnemingen.

𝐴𝐼𝐶 = −2 log �ℒ(𝜃��𝑑𝑎𝑡𝑎)� + 2𝑘

Als reactie hierop is de AICc is ontwikkeld, deze houdt rekening met de verhouding parameters en hoeveelheid waarnemingen (McQuarrie & Tsai, 1998). Deze AICc ziet er als volgt uit:

𝐴𝐼𝐶𝑐 = 𝐴𝐼𝐶 + 2𝑘(𝑘 + 1)_{𝑛 − 𝑘 − 1}

Hoe groter het aantal parameters ten opzichte van de steekproefgrootte, hoe slechtere fit van het model. Stel, model A heeft vijf parameters, en deze probeert men te fitten op 30 waarnemingen. De waarde van de laatste term is dan: (2*5(5+1))/(30-5-1) = 3. Model B heeft 7 parameters, en dezelfde aantal waarnemingen. De waarde van laatste term is dan: (2*7(7+1))/(30-7-1) = 3.81. Uit dit

(18)

voorbeeld is op te maken dat de AICc toe zal nemen bij een toename van de verhouding parameters ten opzichte van de waarnemingen. Toename van de AICc is slecht, gezien de laagste AICc wordt geprefereerd. Wanneer de steekproefgrootte ten opzichte van de parameters stijgt, zal de AICc echter steeds meer op de oude AIC gaan lijken, waardoor deze strafmaat als ware weg valt. Zoals er is te zien, zal bij een toename van de n (steekproefgrootte) ten opzichte van k, de waarde van de breuk steeds kleiner worden, waardoor deze steeds meer op de AIC gaat lijken. Dit is een logisch effect, bij grote steekproeven bestaat er weinig invloed van ruis, waardoor men aan de AIC alleen genoeg heeft. De BIC is ook aangepast voor steekproefgrootte. Deze functie ziet er als volgt uit:

𝐵𝐼𝐶 = −2𝑙𝑛(𝐿) + 𝐾𝑙𝑜𝑔(𝑛)

De strafmaat bestaat uit een verhouding van het aantal parameters en waarnemingen. Wanneer de strafmaat van de AICc en de BIC worden geplot, ten opzichte van een gefixeerde k en een variërende n van 20 naar 50, komen de grafieken uit figuur 1 naar voren:

Figuur 1: Links de strafmaat van de AICc en rechts de strafmaat van de BIC geplot op een variërende n bij een gefixeerde k.

Zoals is te zien in de grafiek, zijn de twee strafmaten gespiegeld van elkaar. Gezien de strafmaat bij de BIC wordt opgeteld, en bij de AIC wordt afgetrokken, is dat een logisch effect. Wat ook goed is te zien aan de grafiek in figuur 1, is dat de effecten van de strafmaten afvlakken bij een toename van de steekproefgrootte.

Ondanks het feit dat verschillende criteria anders zullen reageren op het aantal waarnemingen lijken veel gebruikers hiervan zich niet bewust van de mate waarop. Dat men

(19)

bijvoorbeeld beter geen gebruik moet maken van de AIC bij kleine steekproeven, is zeer belangrijk om adequaat modellen te selecteren. Gezien de steekproefgrootte binnen de psychologie vaak aan de kleine kant is, zouden onderzoekers binnen de psychologie juist extra voorzichtig moeten omspringen met het gebruik van de AIC. Gegeven de voorgaande aspecten van steekproefgrootte omtrent criteria, is het interessant om nogmaals data te simuleren om de prestaties van de criteria te onderzoeken. Bij deze simulaties zal worden gevarieerd in steekproefgrootte.

Simulatie

Voor deze simulatie zal net als de voorgaande simulatie een operating model worden opgesteld, waaruit de data wordt gegenereerd (zie appendix voor de code). Dit model ziet er als volgt uit: 𝑀𝑡 = 𝑥 + 𝑥2+ 𝑥3+ 𝑁(0, 𝜎2). De x-en zijn de parameters, deze zijn random getrokken uit een normaalverdeling met elk een ander gemiddelde. De laatste term is de error term, deze zorgt voor een spreiding van de data met een gemiddelde van nul en een afwijking van 𝜎2_{, deze error is in de} simulatie gefixeerd op drie. Op de gesimuleerde data zullen vervolgens meerdere modellen worden gefit. Deze bestaan uit twee te simpele modellen: (1)m1 = x1; (2)m2 = x1 + x2^2, een juist model: (3)m3 = x1 + x2^2 + x3^3, en een te complex model: (4)m4 = x1 + x2^2 + x3^3 + x4^4. Tevens wordt er gevarieerd in steekproefgrootte, van 10 t/m 110 in stappen van 1. Elke iteratie van de

steekproefgrootte wordt duizend keer gesimuleerd. Bij elke simulatie zal vervolgens worden gekeken hoe vaak een criterium het juiste model selecteert uit de set modellen. De volgende criteria worden onderzocht: AIC, BIC en AICc. Verwacht wordt dat de AIC het minst goed zal presteren bij kleinere steekproeven, maar dat dit effect afneemt naarmate de steekproefgrootte toe neemt. Van de AICc wordt verwacht dat het beste presteert bij kleine steekproeven. De resultaten zijn te vinden in figuur 2.

(20)

Figuur 2: De steekproefgrootte geplot op het percentage correcte selectie, van de AIC, BIC en AICc

Zoals in de grafieken uit figuur 2 is te zien, heeft de steekproefgrootte een positieve invloed op de selectie van het juiste model bij de AIC en BIC. Op de prestaties van de AICc heeft

Steekproefgrootte echter een negatieve invloed. De AICc heeft bij kleine steekproeven (<60) het hoogste percentage correct. Bij grotere steekproeven (>60) heeft de BIC het hoogste percentage correct. De AIC en BIC hebben bij kleinere steekproeven ongeveer hetzelfde percentage correct. Tegen verwachting in, presteerde de BIC even goed als de AIC bij kleine steekproeven. Gezien de term voor steekproefgrootte binnen de BIC, werd verwacht dat deze beter zou presteren dan de AIC bij kleinere steekproeven. Tot slot is te zien dat bij een toename van de steekproefgrootte, het percentage correct zich stabiliseert bij de drie criteria. De BIC heeft de hoogste gestabiliseerde waarde, waardoor deze bij grotere steekproeven het beste presteert. De AIC en AICc presteren ongeveer even goed bij grotere steekproeven.

Multiple Working Hypotheses

Een volgend punt binnen de modelselectie waarmee men rekening moet houden, is het feit dat er, binnen de modelselectie niet zoiets bestaat als een nulhypothese. Men test een aantal aannemelijke modellen op een beperkte steekproef, waarna men de meest aannemelijke hypothese/model

(21)

selecteert. Elk opgesteld model kan de data in zekere mate verklaren, waardoor men niet kan spreken van een nulhypothese. Het testen van mogelijk werkende modellen, wordt ook wel de

multiple working hypothesis genoemd (Chamberlin, 1965). Een aandachtspunt aan deze multiple working hypothesis is dat het aantal hypotheses/modellen klein moet worden gehouden (Burnham &

Anderson, 2004). Bij het opstellen van honderden (mogelijk werkende) modellen vergroot men de kans dat op toeval enkele modellen onjuist geselecteerd worden als ‘goed’. Het omgekeerde kan ook het geval zijn, dat goede modellen worden afgewezen. Kortom, binnen de modelselectie, moet men zowel zuinig omgaan met parameters, als met het opstellen van modellen.

Conclusie

Bij modelselectie moeten criteria gegeven een eindige hoeveelheid data, het model selecteren die het beste onderscheid kan maken tussen ruis en informatie. Dit doen criteria door een balans te vinden tussen de goodness of fit en de complexiteit van het model. Dit pakken de verschillende criteria elk op een andere manier aan, hierdoor is er enige expertise nodig voor het begrijpen van de criteria. Tevens speelt steekproefgrootte een grote rol bij de prestaties van de criteria, kleine

steekproeven maken de AIC en BIC slechter presteren. De AICc presteert het beste bij kleine steekproeven. Hiervoor kan men het beste rekening houden, door zo veel mogelijk data te verzamelen, om zo de gebreken van sommige criteria te omzeilen. Onderzoekers moeten tevens accepteren dat het onmogelijk blijft om een exacte schatter te vinden, of een model écht een goed model is blijft tot op de dag van vandaag onmogelijk. Tot slot is het van groot belang om naast het simpel houden van de modellen, ook de totale reeks te testen modellen, zo klein mogelijk houden. Gezien de steekproeven binnen de psychologie van geringe grote zijn en vol met ruis zitten, zouden onderzoekers naar sociale constructen zich erg bewust moeten zijn van de gebreken van de criteria bij modelselectie.

(22)

Discussie

Het eerste punt van discussie gaat over de prestaties van de BIC bij kleine steekproeven. Gezien de BIC ook rekening hield met de steekproefgrootte, werd verwacht dat deze in ieder geval beter zou presteren dan de AIC bij kleine steekproeven. Gezien de AIC geen rekening houdt met

steekproefgrootte en BIC wel. Dit werd ecther niet gevonden in de simulatie data. Wat wellicht een oorzaak van dit effect is, is het feit dat de vier modellen zeer kleine aantallen parameters hadden. Zelfs het meest complexe model uit de set, had maar vier parameters. Door een relatief lage K (aantal parameters) in de term 𝐾𝑙𝑜𝑔(𝑛), is de invloed van n (steekproefgrootte) nihil. Voor volgende simulatie studies, is het wellicht beter om complexere SEM-modellen op te stellen, deze hebben over het algemeen veel meer parameters, waardoor de invloed van steekproefgrootte binnen de 𝐾𝑙𝑜𝑔(𝑛) veel groter zal zijn.

Een discussiepunt wat hieruit voort vloeit is de keuze van modellen in de simulaties. Er is gekozen voor relatief simpele modellen, parameters aantallen varieerde van één naar vier. Veel modellen binnen de psychologie zijn complexer van aard, waardoor de resultaten wellicht geen realistisch beeld geven van de effecten van de invloeden van steekproefgrootte en ruis op de modelselectie. In vervolgonderzoek zou men beter complexe SEM-modellen opstellen, om te onderzoeken of de gevonden effecten nog steeds aanwezig zijn.

Tevens zou men in vervolg onderzoek, een grotere set van criteria kunnen onderzoeken, AIC BIC en AICc zij namelijk niet de enige criteria waar gebruik van wordt gemaakt bij modelselectie. Wanneer men meer criteria onderzoekt, zal er een beter overzicht ontstaan van de prestaties van de criteria ten opzichte van de steekproefgrootte. Wellicht zijn er patronen te herkennen in de

verschillende criteria. Aan de hand van deze patronen kan men wellicht beter begrip ontwikkelen van de invloed van steekproefgrootte op de prestaties van criteria.

(23)

Literatuur

Burnham, K. P., & Anderson, D. R. (2004). "Multimodel inference understanding AIC and BIC in model selection." Sociological methods & research 33.2: 261-304.

Chamberlin, T. C. (1965). The method of multiple working hypotheses. Science, 148 (3671), 754-759. Coenen, M. &, Huls, T. (2008). Modelselectie: AIC en BIC. Nijmegen, juli 2008.

Forster, M. R. (2000). Key concepts in model selection: Performance and generalizability. Journal of

mathematical psychology, 44(1), 205-231.

Forster, M., & Sober, E. (1994). "How to tell when simpler, more unified, or less ad hoc theories will provide more accurate predictions." The British Journal for the Philosophy of Science 45.1: 1-35. Jeffery, H. (1957). Scientific inference (2nd_{ed.). London: Oxford University Press.}

Kullback, S., & Leibler, R. A. (1951). On information and sufficiency. The Annals of Mathematical

Statistics, 79-86.

Li, S. C., Lewandowsky, S., & DeBrunner, V. E. (1996). Using parameter sensitivity and interdependence to predict model scope and falsifiability. Journal of Experimental Psychology: General, 125(4), 360. McQuarrie, A. D., & Tsai, C. L. (1998). Regression and time series model selection (Vol. 43).Singapore: World

Scientific.

Myung, I. J. (2000). The importance of complexity in model selection. Journal of Mathematical

Psychology, 44(1), 190-204.

Myung, I. J., & Pitt, M. A. (1998). Issues in selecting mathematical models of cognition. Localist

connectionist approaches to human cognition, 327-355.

Schmidt, F. L., & Hunter, J. E. (1996). "Measurement error in psychological research: Lessons from 26 research scenarios." Psychological Methods 1.2 (1996): 199.

Schwarz, G. (1978). "Estimating the dimension of a model." The annals of statistics 6.2: 461-464. Selye, H. (1973). The Evolution of the Stress Concept: The originator of the concept traces its

development from the discovery in 1936 of the alarm reaction to modern therapeutic applications of syntoxic and catatoxic hormones. American scientist, 692-699.

Zucchini, W. (2000). An Introduction to Model Selection. Journal of Mathematical Psychology 44, 41-61.

(24)

Appendix ########################SIMULATION 1######################## install.packages('AICcmodavg') install.packages('BMS') install.packages('SpatialExtremes') install.packages('ggplot2') library('AICcmodavg') library('BMS') library('SpatialExtremes') library('ggplot2')

#empty vector for final results aic_result <- c()

bic_result <- c() aicc_result <- c()

#increment samplesize from 10 to 100 in steps of 1 sampleStep <- seq(10, 110, by = 1)

#iterate over sampleStep for(n in sampleStep){

#number of simulation per iteration nsim <- 100 #parameter variance sigma <- 2 #error of m3 sigma2 <- 2

#empty vectors for output aic1 <- c() aic2 <- c() aic3 <- c() aic4 <- c() RMSEA1 <- c() RMSEA2 <- c() RMSEA3 <- c() RMSEA4 <- c() bic1 <- c() bic2 <- c() bic3 <- c() bic4 <- c() rsq1 <- c() rsq2 <- c() rsq3 <- c() rsq4 <- c() aicc1 <- c()

(25)

aicc2 <- c() aicc3 <- c() aicc4 <- c()

#iterate over number of simulation (nsim) for (sim in 1 : nsim){

x1 <- rnorm(n, 0, sigma) x2 <- 0.5 * x1 + rnorm(n,3,sigma) x3 <- 0.65 * x2 + rnorm(n,10,sigma) x4 <- 0.4 * x1 + rnorm(n,25,sigma) #lambda's b0 <- 6 b1 <- 5 b2 <- 0.8 b3 <- 0.04 b4 <- 1

#VARIANCE ERROR THAT WILL BE MANIPULATED #sigma <- 0

MeanError <- 0

eps <- rnorm(n, MeanError, sigma)

#operating model

m3 <- b0 + b1*x1 + b2*x2^2 + b3*x3^3 + eps

#making data in matrix of true model simdata = data.frame(x1,x2,x3,m3)

#fitting different models on the data fit1 = lm(m3 ~ x1, data = simdata)

fit2 = lm(m3 ~ x1 + x2^2, data = simdata)

fit3 = lm(m3 ~ x1 + x2^2 + x3^3, data = simdata)

fit4 = lm(m3 ~ x1 + x2^2 + x3^3 + x4^4, data = simdata)

#for every iteration, add output of different criteria to the empty vectors rsq1[sim] <- summary(fit1)$r.squared rsq2[sim] <- summary(fit2)$r.squared rsq3[sim] <- summary(fit3)$r.squared rsq4[sim] <- summary(fit4)$r.squared #RMSEA1[sim] <- sqrt( ( ((summary(fit1)$df[2])*(summary(fit1)$f[1])) / summary(fit1)$df[2] - 1) / n ) #RMSEA2[sim] <- sqrt( ( ((summary(fit2)$df[2])*(summary(fit2)$f[1])) / summary(fit2)$df[2] - 1) / n ) #RMSEA3[sim] <- sqrt( ( ((summary(fit3)$df[2])*(summary(fit3)$f[1])) / summary(fit3)$df[2] - 1) / n )

(26)

#RMSEA4[sim] <- sqrt( ( ((summary(fit4)$df[2])*(summary(fit4)$f[1])) / summary(fit4)$df[2] - 1) / n ) aic1[sim] <- AIC(fit1) aic2[sim] <- AIC(fit2) aic3[sim] <- AIC(fit3) aic4[sim] <- AIC(fit4) bic1[sim] <- BIC(fit1) bic2[sim] <- BIC(fit2) bic3[sim] <- BIC(fit3) bic4[sim] <- BIC(fit4) aicc1[sim] <- AICc(fit1) aicc2[sim] <- AICc(fit2) aicc3[sim] <- AICc(fit3) aicc4[sim] <- AICc(fit4) }

##########ANALYSING THE SIMULATION OUTPUT############ aic_three_min_one <- c() aic_three_min_two <- c() aic_three_min_four <- c() bic_three_min_one <- c() bic_three_min_two <- c() bic_three_min_four <- c() aicc_three_min_one <- c() aicc_three_min_two <- c() aicc_three_min_four <- c()

#get the difference between the selection criteria. Positive difference means good model selected.

for ( i in 1 : length(aic1)){ #aic differences

aic_three_min_one[i] <- aic3[i] - aic1[i] aic_three_min_two[i] <- aic3[i] - aic2[i] aic_three_min_four[i] <- aic3[i] - aic4[i]

#bic differences

bic_three_min_one[i] <- bic3[i] - bic1[i] bic_three_min_two[i] <- bic3[i] - bic2[i] bic_three_min_four[i] <- bic3[i] - bic4[i] #AICc differences

(27)

aicc_three_min_two[i] <- aicc3[i] - aicc2[i] aicc_three_min_four[i] <- aicc3[i] - aicc4[i]

}

#empty vectors for comparisons aic_ratio1 <- c() aic_ratio2 <- c() aic_ratio3 <- c() bic_ratio1 <- c() bic_ratio2 <- c() bic_ratio3 <- c() aicc_ratio1 <- c() aicc_ratio2 <- c() aicc_ratio3 <- c()

#iterate over every comparison between the criteria values for ( i in 1 : nsim){ #aic comparisons if (aic_three_min_one[i] < 0){ aic_ratio1[i] <- 1 } else { aic_ratio1[i] <- 0 } if (aic_three_min_two[i] < 0){ aic_ratio2[i] <- 1 } else { aic_ratio2[i] <- 0 } if (aic_three_min_four[i] < 0){ aic_ratio3[i] <- 1 } else { aic_ratio3[i] <- 0 } #bic comparions if (bic_three_min_one[i] < 0){ bic_ratio1[i] <- 1 } else { bic_ratio1[i] <- 0 } if (bic_three_min_two[i] < 0){ bic_ratio2[i] <- 1 } else { bic_ratio2[i] <- 0 } if (bic_three_min_four[i] < 0){

(28)

bic_ratio3[i] <- 1 } else { bic_ratio3[i] <- 0 } #AICc comparison if (aicc_three_min_one[i] < 0){ aicc_ratio1[i] <- 1 } else { aicc_ratio1[i] <- 0 } if (aicc_three_min_two[i] < 0){ aicc_ratio2[i] <- 1 } else { aicc_ratio2[i] <- 0 } if (aicc_three_min_four[i] < 0){ aicc_ratio3[i] <- 1 } else { aicc_ratio3[i] <- 0 } }

#aic percentages good

aic_percentage3_and_1 = (sum(aic_ratio1)/(nsim)) * 100 aic_percentage3_and_2 = (sum(aic_ratio2)/(nsim)) * 100 aic_percentage3_and_4 = (sum(aic_ratio3)/(nsim)) * 100

#bic percentages good

bic_percentage3_and_1 = (sum(bic_ratio1)/(nsim)) * 100 bic_percentage3_and_2 = (sum(bic_ratio2)/(nsim)) * 100 bic_percentage3_and_4 = (sum(bic_ratio3)/(nsim)) * 100

#rquared percentages good

rsq1_percentage = sum(rsq1)/nsim rsq2_percentage = sum(rsq2)/nsim rsq3_percentage = sum(rsq3)/nsim rsq4_percentage = sum(rsq4)/nsim

#AICc percentages good

aicc_percentage3_and_1 = (sum(aicc_ratio1)/(nsim)) * 100 aicc_percentage3_and_2 = (sum(aicc_ratio2)/(nsim)) * 100 aicc_percentage3_and_4 = (sum(aicc_ratio3)/(nsim)) * 100 #interesting comparions aic_percentage3_and_4 bic_percentage3_and_4 aicc_percentage3_and_4

#results for every samplesize

aic_result[n] <- aic_percentage3_and_4 bic_result[n] <- bic_percentage3_and_4

(29)

aicc_result[n] <- aicc_percentage3_and_4 #R2 values #rsq1_percentage #rsq2_percentage #rsq3_percentage #rsq4_percentage } ?plot() #plotting results

plot(sampleStep,aic_result[sampleStep], main='AIC', xlab='Sample size', ylab='percentage correct')

plot(sampleStep,bic_result[sampleStep], main='BIC', xlab='Sample size', ylab='percentage correct')

plot(sampleStep,aicc_result[sampleStep], main='AICc', xlab='Sample size', ylab='percentage correct')

par(mfcol=c(2,2), mar=c(4,4,0.5,0.5), oma=c(1.5,2,1,1))

plot(sampleStep,aic_result[sampleStep], main='AIC', xlab='Sample size', ylab='percentage correct')

plot(sampleStep,bic_result[sampleStep], main='BIC', xlab='Sample size', ylab='percentage correct')

plot(sampleStep,aicc_result[sampleStep], main='AICc', xlab='Sample size', ylab='percentage correct')

Het meta criterium

(30)

Naam: Tom Oreel

Begeleider: Lourens Waldorp Studentennummer: 10188991 Mail: tom.oreel@studen.uva.nl Datum: 30 juni 2014

Introductie.

De vraag, waar onderzoekers mee te maken hebben bij het selecteren van modellen, is welk model het meest waarschijnlijk is gegeven een geringe hoeveelheid data. Omdat deze geringe hoeveelheid data altijd een bepaalde mate van ruis bevat, moeten modellen goed onderscheid kunnen maken tussen ruis en informatie. Wanneer een model alleen de informatie uit de steekproef weet te halen, kan het goede uitspraken maken over de populatie. Wanneer een model ruis bevat, kan het slecht uitspraken doen over de volgende steekproef, en dus slecht voorspellen. Voor het onderscheid maken tussen ruis en informatie, moeten modellen ten eerste goed op de data fitten en ten tweede zo simpel mogelijk blijven. Simpele modellen hebben minder kans om te over-fitten op de data. Selectie criteria hebben de eigenschap om een model te selecteren op deze twee eigenschappen. Criteria berekenen de goodness of fit van een model, en bevatten een strafmaat voor complexiteit. De goodness of fit berekend de waarschijnlijkheid van de data gegeven het model, de strafmaat voor complexiteit straft extra parameters. Een model met veel parameters kan een hogere goodness of fit

(31)

hebben omdat deze de ruis uit de steekproef verklaard. Hierdoor is een strafmaat voor complexiteit nodig om het over-fitten te voorkomen (Coenen & Huls, 2008). Criteria hebben elk een andere manier om deze balans te verwerken in hun functies, waardoor deze anders presteren per

omstandigheid. Daarnaast kwam uit simulaties kwam tevens naar voren dat bij kleine steekproeven de AICc vaker het correcte model selecteerde dan de AIC en BIC (Hurvich & Tsai 1989). De AIC en BIC bleek bij kleine steekproeven vaker geneigd te zijn om te complexe modellen te verkiezen boven het correcte model. Gelijksoortig resultaat is in andere simulatie studies ook naar voren gekomen (Myung & Pitt, 1998).

Onderzoeksvraagstelling

Criteria presteren per steekproefgrootte verschillend ten opzichte van elkaar (Myung & Pitt, 1998). Een vraag die hieruit voortvloeide, is of het mogelijk is om een model te ontwikkelen op de simulatie data van de criteria. Met dit model zou het mogelijk moeten zijn om, gegeven de steekproefgrootte, de prestaties van de criteria te voorspellen. Dit model geeft als output een cijfer, gegeven de verschillende criteria, en de grootte van de steekproef. Het doel van dit model is, om op een systematische manier te herkennen welke criterium of criteria de onderzoeker beter links kan laten liggen. Vandaag de dag, maakt men deze keuze op theoretische kennis over de criteria.

Gezien in de simulaties een bepaald patroon naar voren kwam over prestaties van de criteria, zou men wellicht deze patronen kunnen opvangen in een model. Dit model zou men vervolgens kunnen verwerken in een software pakket van bijvoorbeeld R of SPSS. Dit maakt het mogelijk om naast de output van de verschillende criteria, waarschuwingen gegeven, die vertellen welke criteria er waarschijnlijk slecht of goed zullen presteren. Uit literatuuronderzoek kwam naar voren dat een dergelijk ‘meta-criterium’ nog niet bestaat. Voor de prestaties van de criteria wordt verwacht dat de onderzoeker enige theoretische kennis heeft over welke criteria beter wel of niet gebruikt moeten worden (Zucchini, 2000). Daarnaast kan men aan de hand van de output van talloze criteria redelijk goed bepalen welk model het beste uit de test komt. Wanneer bijvoorbeeld zes van de acht criteria

(32)

berekenen dat model X het best presteert, dan is de beslissing om dit model te verkiezen in de meeste gevallen de beste keuze. Het zijn echter de ambigue situaties waarin men gebruik zou kunnen maken van dit ‘meta-criterium’. Wanneer bijvoorbeeld drie criteria model A prefereren, en vijf criteria model B.In deze situatie kan het ‘meta-criterium’ bijvoorbeeld voorspellen dat twee van die drie criteria die model A prefereerde, zeer matig zullen presteren, gegeven de gebruikte data. Dan zou de keuze om model B te selecteren boven model A wellicht met meer zekerheid gaan dan voorheen.

Methode

Voordat er een model gefit kan worden op de prestaties van de criteria, moet er data gesimuleerd worden. Alleen bij simulaties kan er met 100% zekerheid worden gezegd wat het juiste model is, vandaar dat er gebruik wordt gemaakt van simulatie data. De simulaties zullen uitgevoerd worden in R. De eerste stap is het opstellen van een ‘populatie’ model, waaruit de data gesimuleerd zal worden. Dit model ziet er als volgt uit: 𝑀𝑡 = 𝜃1𝑥 + 𝜃2𝑥2+ 𝜃3𝑥3+ 𝑁(0, 𝜎2). De laatste term is de error term, deze wordt gesimuleerd uit een normale verdeling met een gemiddelde van nul en een standaarddeviatie van 𝜎. De 𝜃’s zijn de coëfficiënten van de parameters, die zullen gefixeerd zijn. De 𝑥-en zijn de parameters, waaruit de data wordt gesimuleerd en worden elk random getrokken uit een normale verdeling, met verschillende gemiddelden. Op de data die uit dit model wordt gegenereerd, zullen vervolgens meerdere modellen worden gefit, waarvan één model het juiste model zal zijn. Deze modellen zien er als volgt uit: 𝑀1= 𝑥, 𝑀2= 𝑥 + 𝑥2_{, 𝑀3}_{= 𝑥 + 𝑥}2_{+ 𝑥}3_, 𝑀4= 𝑥 + 𝑥2+ 𝑥3+ 𝑥4. Zoals is te zien, is model 𝑀3 het juiste mode. Dit model moet geselecteerd worden door de criteria om goed te presteren. De criteria die worden toegepast zijn: AIC, BIC, AICc, TIC, RMSEA, CV, CFI en BMS worden toegepast. Tevens zal er gevarieerd worden in

steekproefgrootte. Omdat steekproefgrootte een grote rol speelt bij modelselectie zal deze variëren van 0 t/m 200 in stappen van 1. Elk van deze stap zal vervolgens 10000 keer worden gesimuleerd, om zo veel mogelijk data te verzamelen. Vervolgens zal er per simulatie gekeken worden of het criterium

(33)

model 𝑀3 verkiest boven de andere drie modellen. Hoe vaak dit gebeurt zal in procenten worden uitgedrukt, dan krijgt men bijvoorbeeld bij de AIC en percentage van 69% juist bij eens

steekproefgrootte van 29, en een percentage van 71% bij eens teekproefgrootte van 34. Deze resultaten zien er als volgt uit:

Op deze dataset zal vervolgens per criterium een model worden gefit. Dit model maakt uitspraken over de percentages correct per steekproefgrootte. Omdat er gebruik wordt gemaakt van simulatie data, zal de dataset uit een grote hoeveelheid data bestaan, die teven allemaal uit dezelfde (normaal verdeelde) populatie zijn getrokken. Hierdoor zal de cross-validation methode, de beste methode zijn om een model te fitten op de data. Het voordeel van deze methode is dat het geschatte model, getest kan worden op een compleet andere dataset. Gezien de data door simulatie compleet

onafhankelijk van elkaar zal zijn, zal dit geen probleem opleveren. Bij de cross-validation methode zal de dataset random worden opgesplitst in een trainings en een holdout set. Op de training set wordt een model gefit, die vervolgens zal worden getest op de holdout set (Kohavi, 1995). Dit opsplitsen en testen van de data zal meerdere malen worden herhaald, waaruit vervolgens een gemiddelde wordt brekend. Dit gemiddelde staat voor de curve/model die bij het criterium past. Over-fitting zal weinig invloed hebben, gezien de voorspellingen van het model uit de trainings set ,wordt getest op een compleet onafhankelijke holdout set. Het nadeel van deze methode, is dat het enige tijd zal duren om te berekenen (Gong, 1989).

(34)

Na de cross-validation methode is er een model ontstaan die bij elk criterium een verwacht percentage per steekproefgrootte. Een volgende stap wat aflezen van het meta-criterium makkelijker zou kunnen maken, is het opstellen van één 5-puntsschaal die een oordeel geeft aan het geschatte percentage. Deze schaal bevat de volgende punten: “Zeer slecht”, “Slecht”, “Matig”, “Voldoende”, “Goed”. Aan de hand van deze schaal kan de gebruiker bepalen hoe adequaat het gebruik van een criterium waarschijnlijk zal worden. De exacte cutoff per punt in de schaal zullen bepaald moeten worden uit de resultaten, een adequate systematische methode hiervoor is vooralsnog onbekend. De onderzoeker moet dus op eigen oordeel de cut-off bepalen, “Goed” valt bijvoorbeeld in de range van 90%-100%, en “Voldoende” in 80%-90%, etc.

Verwachtingen

Uit de analyse wordt verwacht dat er een model ontstaat, die gegeven de steekproefgrootte elk criterium een oordeel geeft. Verwacht wordt dat er bij kleine steekproeven (bijvoorbeeld n=20), sommige criteria (bv. de BIC) een slecht of matig oordeel zullen krijgen, terwijl andere criteria (bv. de AICc) een goed of voldoende oordeel zal krijgen. Dit ‘meta-criterium’ maakt het duidelijker voor de onderzoeker welk criterium wel of juist niet gebruikt kan worden. Samen met theoretische kennis van de criteria, en dit “meta criterium”, zal het modelselectie nog efficiënter maken dan voorheen.

(35)

Literatuur

Coenen, M. &, Huls, T. (2008). Modelselectie: AIC en BIC. Nijmegen, juli 2008.

Gong, G. (1986). Cross-validation, the jackknife, and the bootstrap: excess error estimation in forward logistic regression. Journal of the American Statistical Association, 81(393), 108-113. Hurvich, C. M., & Tsai, C. L. (1989). Regression and time series model selection in small

samples. Biometrika, 76(2), 297-307.

Kohavi, R. (1995, August). A study of cross-validation and bootstrap for accuracy estimation and model selection. In IJCAI (Vol. 14, No. 2, pp. 1137-1145).

Myung, I. J., & Pitt, M. A. (1998). Issues in selecting mathematical models of cognition. Localist

connectionist approaches to human cognition, 327-355.

Zucchini, W. (2000). An Introduction to Model Selection. Journal of Mathematical Psychology 44, 41-61.

(36)