Invloed van het aantal folds op de prestatie van diverse cross-validatie methodes bij tijdreeksen

(1)

Faculteit Economie en Bedrijfskunde, Amsterdam School of Economics Bachelorscriptie Econometrie

Invloed van het aantal folds op de prestatie

van diverse cross-validatie methodes bij

tijdreeksen

Lars Beentjes

11052678 25 juni 2018 Begeleider: Dr. B.M. (Bram) Wouters

(2)

Verklaring eigen werk

Hierbij verklaar ik, Lars Beentjes, dat ik deze scriptie zelf geschreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan. Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd. De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.

(3)

Inhoudsopgave

1 Inleiding 1

2 Cross-validatie methodes voor tijdreeksen 3

2.1 Criteria bij het evalueren van modellen . . . 3

2.1.1 Complexiteit van modellen . . . 3

2.1.2 Generaliseerbaarheid van modellen . . . 4

2.2 Standaard k -fold cross-validatie . . . 4

2.3 Toepassing van standaard cross-validatie op tijdreeksen . . . 5

2.4 Andere methodes voor de evaluatie van tijdreeksen . . . 6

2.4.1 Out-of-sample . . . 6 2.4.2 Non-dependent cross-validatie . . . 7 2.4.3 Blocked cross-validatie . . . 7 2.5 Aantal folds . . . 8 2.6 Schattingsfouten . . . 9 2.6.1 Schaalafhankelijke fouten . . . 9 2.6.2 Percentage fouten . . . 9 2.6.3 Relatieve fouten . . . 10 2.6.4 Relatieve maten . . . 10

3 Structuur van de Monte Carlo experimenten 12 3.1 Data genererend proces . . . 12

3.2 Toegepaste modelselectie procedures . . . 13

3.3 Schattingsfouten . . . 13

4 Resultaten en analyse 15 4.1 RMSE schattingsfouten . . . 15

4.2 Onderlinge prestatie bij geschatte AR(p) modellen . . . 17

(4)

1 Inleiding

Met de explosief toenemende beschikbaarheid van data groeit ook de belangstelling naar de analyse van tijdreeksen. Het modelleren van tijdreeksen vormt daarom een van de tien meest voorname problemen op het gebied van datamining, aldus Yang en Wu (2006). Tijdreeksen zijn de metingen van een grootheid, die op chronologische wijze zijn gerangschikt. Diverse processen in uiteenlopende vakgebieden worden be-schreven door tijdreeksen en vormen de aanleiding voor talloze wetenschappelijke onderzoeken. Voorbeelden hiervan zijn de prijs van aandelen in de economie, de hartslag van een mens in de geneeskunde, de kracht van aardbevingen in de seismo-logie en de luchttemperatuur in de meteoroseismo-logie.

Binnen de analyse van tijdreeksen is een belangrijk deel weggelegd voor het voor-spellen van tijdreeksen. Hierbij wordt ook wel gesproken over auto-regressie, wegens het voorspellen van een waarde van een variabele uit historische waarden van de-zelfde variabele. Het beoordelen van de voorspelkwaliteit van tijdreeksmodellen is cruciaal voor het maken van een keuze tussen verscheidene modellen en/of betrok-ken parameters. Deze beoordeling geschiedt op diverse criteria, waarvan de gene-raliseerbaarheid van een model algemeen als belangrijkste factor wordt beschouwd. Een belangrijk probleem dat zich voordoet bij het vergelijken van de generaliseer-baarheid van verschillende tijdreeksmodellen is dat er geen consensus bestaat over de juiste methode voor het schatten van de generalisatiefout.

Een traditionele manier voor het schatten van de generalisatiefout is de out-of-sample methode. Deze methode kenmerkt zich door het reserveren van een einddeel van de tijdreeks voor de evaluatie van het model en staat om die reden ook bekend als de last block methode. Echter, het gebruik van deze methode kan ontoereikend zijn in het geval van een gelimiteerde dataset of bij het schatten van een veelvoud aan parameters.

Een andere gevestigde en veel beschreven methode is cross-validatie (Stone, 1974). Cross-validatie is bij data-analyse momenteel een van de meest gebruikte

(5)

procedures voor modelselectie en het schatten van de voorspelkwaliteit en wordt daarom ook bij het evalueren van tijdreeksen veelvuldig toegepast. De standaard k -fold cross-validatie kenmerkt zich door het op willekeurige wijze opdelen van de beschikbare data in k gelijke delen. Hierna wordt elk van deze delen een keer als testdata gebruikt op de uit k-1 delen bestaande trainingsdata. Theoretische pro-blemen bij de toepassing van cross-validatie op tijdreeksen zijn seriecorrelatie van de data en mogelijke non-stationariteit volgens Bergmeir, Hyndman en Koo (2015). Deze problemen kunnen leiden tot onzuivere modelselectie en vormen de reden voor diverse aanpassingen op de standaard validatie. Zo zijn uit de standaard validatie de gerelateerde varianten blocked validatie en non-dependent cross-validatie ontstaan.

In diverse onderzoeken waarin cross-validatie methodes met elkaar worden ver-geleken in toepassing op tijdreeksen is uit gewoonte het aantal folds k =5 of k =10 gekozen, waarbij mogelijk voorbij wordt gegaan aan een verschillend effect van het aantal folds op de prestatie van specifieke cross-validatie methodes. Zo gebruiken Bergmeir en Benítez (2012) in een uitgebreid onderzoek naar de prestatie van meer-dere cross-validatie methodes steeds voor elk van deze k =5.

Naar aanleiding van deze standaard keuzes voor hetzelfde aantal folds van ver-schillende cross-validatie methodes, zoals door Bergmeir en Benítez (2012), is het doel van deze scriptie om te bepalen wat de invloed is van het aantal gekozen folds op de prestatie van diverse cross-validatie methodes in toepassing op tijdreeksen.

De opbouw van dit artikel kenmerkt zich als volgt. In hoofdstuk 2 wordt op basis van relevante literatuur onderzocht wat de voor- en nadelen van diverse cross-validatie methodes zijn en hoe deze zich verhouden tot het aantal gekozen folds. In hoofdstuk 3 wordt de aanpak voor een simulatie van drie modelselectie procedures met een wisselend aantal folds beschreven. Hoofdstuk 4 voorziet in de resultaten van de simulatie en een analyse hiervan. Tot slot wordt in hoofdstuk 5 een conclusie getrokken en verder onderzoek voorgesteld.

(6)

2 Cross-validatie methodes voor tijdreeksen

De evaluatie van voorspellende modellen berust op meerdere criteria en kent diverse methodes. Een alom toegepaste evaluatiemethode binnen de analyse van tijdreeksen is cross-validatie. Hiervan bestaan verschillende varianten met elk andere voor- en nadelen, waarvan het effect met een aantal schattingsfouten bepaald kan worden.

2.1 Criteria bij het evalueren van modellen

Bij het evalueren en vergelijken van diverse regressie- en tijdreeksmodellen zijn ver-schillende factoren van belang, waarvan complexiteit en generaliseerbaarheid de voornaamste zijn.

2.1.1 Complexiteit van modellen

Bij traditionele regressie-analyse en modelselectie is het gebruikelijk om de com-plexiteit van modellen in ogenschouw te nemen, omdat complexere modellen in het algemeen een mindere generaliseerbaarheid opleveren. Bepalend voor de model-complexiteit is het aantal parameters dat een model vereist. Bij het opnemen van parameters in het model vormt het principe van spaarzaamheid het uitgangspunt. Oftewel, een spaarzaam model bevat niet meer dan het strikt noodzakelijke aantal parameters voor het verklaren van de data.

Voor het bepalen van de op te nemen parameters in het model bestaan er diverse selectiecriteria die het model beoordelen op het aantal opgenomen parameters en de mate waarin deze de data verklaren. Twee bekende selectiecriteria zijn Akaike’s Information Criterion (AIC) van Akaike (1974) en Bayesian Information Criterion (BIC) van Schwarz (1978). Arlot en Celisse (2010) vergelijken cross-validatie met informatiecriteria zoals AIC en BIC. Zij geven de voorkeur aan het gebruik van cross-validatie, omdat deze methode breder toepasbaar is en betere resultaten oplevert in gevallen waarbij modelassumpties mogelijk onjuist zijn.

(7)

2.1.2 Generaliseerbaarheid van modellen

De generaliseerbaarheid van een model geldt in het algemeen als de zwaarstwegende factor bij de evaluatie van regressies en classificaties. De generaliseerbaarheid van een model is een maat voor de voorspelprestatie van het model op basis van nog niet eerder gebruikte data. Om die reden wordt voor het maken van een schatting van deze voorspelprestatie vaak gebruikt gemaakt van data die niet is gebruikt bij het bouwen van het model. Hierover stellen Bergmeir en Benítez (2012) dat er zich twee problemen voordoen bij het apart gebruiken van data voor het trainen en testen van een model.

Het eerste probleem dat zij noemen is dat de testdata verwijderd dient te worden uit de trainingsdata. Hierdoor is het waarschijnlijk dat het model mindere voorspel-lingen oplevert dan wanneer het met alle beschikbare data getraind wordt. Hiermee hangt samen dat de schatting van de voorspelprestatie van een model minder ade-quaat is wanneer de hoeveelheid testdata beperkt is. Dit effect is extra groot in het geval van weinig beschikbare data.

Een tweede probleem dat zij aankaarten is dat de beschikbare data slechts een mogelijke uitkomst is van een stochastisch proces. Hierdoor is ook de geschatte voorspelfout slechts een uitkomst van een stochastische variabele met diverse moge-lijke uitkomsten en een bepaalde kansdichtheid. Een nadelig gevolg hiervan is dat de eigenschappen van de testdata en trainingsdata kunnen verschillen, waardoor mogelijk een vertekende schatting van de voorspelprestatie van een model ontstaat.

2.2 Standaard k -fold cross-validatie

Bij regressie-analyse en classificatie is de toepassing van k -fold cross-validatie (Stone, 1974) een veelgebruikte manier om de bovengenoemde problemen omtrent het ana-lyseren van de generaliseerbaarheid van een model te bestrijden. Bij k -fold cross-validatie wordt het geheel aan beschikbare data willekeurig opgedeeld in k deelver-zamelingen th (h = 1, 2, ..., k) van gelijke grootte. Het model wordt vervolgens k

(8)

keren getraind, waarbij iedere keer een andere deelverzameling th als testdata dient

voor het bepalen van de schattingsfout. De trainingsdata bestaat uit de andere k-1 deelverzamelingen. Het gemiddelde van de k onafhankelijke schattingsfouten vormt de uiteindelijke schattingsfout van het model.

Het voordeel van cross-validatie is dat alle data wordt gebruikt voor zowel het trainen en het testen van een model. Door het gemiddelde te nemen van de k onaf-hankelijke schattingen ontstaat een kleinere variantie van de schattingsfout dan bij het eenmalige gebruik van elkaar uitsluitende testen trainingsdata. Blum, Kalai en Langford (1999) bewijzen theoretisch dat k -fold cross-validatie een nauwkeurigere evaluatie van de generaliseerbaarheid van een model oplevert dan bij een single-holdout schatting voor k groter dan twee gekozen.

In het geval k gelijk is aan de totale aantal waarnemingen in de dataset, komt deze methode overeen met leave-one-out cross-validatie. Daarom kan leave-one-out cross-validatie als een speciaal geval van k -fold cross-validatie worden beschouwd.

2.3 Toepassing van standaard cross-validatie op tijdreeksen

Standaard cross-validatie is niet geschikt voor autoregressieve modellen zoals tijd-reeksen, waarbij toekomstige waarden van een variabele geschat worden op basis van bepaalde voorafgaande waarden van dezelfde variabele. De onafhankelijkheid van de testen trainingsdata wordt beschouwd als een belangrijke assumptie van crossvalidatie. Zo stellen Opsomer, Wang en Yang (2001) dat de toepassing van k -fold cross-validatie niet slaagt bij tijdreeksen wanneer er correlatie bestaat tussen de storingstermen in de trainingsdata en de testdata. Echter, Bergmeir, Hyndman en Koo (2015) tonen op basis van theoretische inzichten aan dat het gebruik van k -fold cross-validatie bij tijdreeksen in de meeste praktische toepassingsgevallen gerecht-vaardigd is. Zij concluderen dat in gevallen van volledig autoregressieve modellen en een juiste specificatie van de vertragingstermen geen problemen ontstaan. Ook laten zij door middel van een simulatie zien dat k -fold cross-validatie beter presteert

(9)

dan out-of-sample evaluatie en diverse andere methodes ontworpen voor tijdreeksen. Bij het modelleren van tijdreeksen dient mogelijke non-stationariteit in acht te worden genomen. Hierdoor wordt het probleem van afhankelijkheid van de data bij de toepassing van cross-validatie beter handelbaar, omdat de basiseigenschap-pen van de tijdreeks gelijk blijven. Met de toepassing van gangbare statistische en econometrische technieken kan non-stationariteit in een tijdreeks worden ontdekt en verwijderd. Zo kan het gebruik van een Dickey-Fuller test aantonen of een tijdreeks al dan niet stationair is en met een bewerkingsmethode als het ARIMA model kan de data worden ontdaan van non-stationaire eigenschappen.

2.4 Andere methodes voor de evaluatie van tijdreeksen

De problemen bij het gebruik van standaard cross-validatie door de onderlinge af-hankelijkheid van de data hebben geleid tot diverse aangepaste vormen van deze methode en het gebruik van alternatieve methodes zoals out-of-sample evaluatie. Andere methodes gerelateerd aan cross-validatie en specifiek bedoeld voor de eva-luatie van tijdreeksen zijn gebaseerd op het weglaten van afhankelijke delen uit de data of het in achtereenvolgende blokken opdelen van de data.

2.4.1 Out-of-sample

Out-of-sample evaluatie geldt als een bekende procedure voor het schatten van de voorspelkwaliteit van standaard regressiemodellen en het testen van modelassump-ties, daarom wordt deze methode ook regelmatig toegepast op tijdreeksen. Kenmer-kend voor de out-of-sample methode is dat een deel van de data aan het einde van de tijdreeks wordt gereserveerd voor het testen van het model. Volgens onder andere Inoue en Kilian (2006) heeft dit als keerzijde dat niet alle beschikbare data in het model verwerkt wordt, waardoor belangrijke informatie mogelijk verloren gaat.

(10)

2.4.2 Non-dependent cross-validatie

Een gebruikelijke aanpak voor het bestrijden van de correlatie bij het evalueren van tijdreeksen is het verwijderen van de afhankelijke delen van de data. Bij non-dependent cross-validatie worden onder de aanname van stationariteit uit de trai-ningsdata ook de delen van de data verwijderd die niet onafhankelijk zijn van de data gebruikt voor het testen van het model. Deze methode staat ook bekend onder de naam modified cross-validatie en wordt onder andere door McQuarrie en Tsai (1998) beschreven. Gebaseerd op dezelfde aanpak bestaan er een aantal nauw sa-menhangende methodes zoals time series cross-validation (Hart, 1994) en h-block cross-validatie (Burman, Chow en Nolan, 1994).

Een ongunstige eigenschap van non-dependent cross-validatie is dat deze niet op elk model toegepast kan worden. Zo stellen Bergmeir en Benítez (2012) dat de methode alleen kan worden toegepast wanneer het aantal relevante vertragingster-men in het model klein zijn en wanneer het aantal folds hoog is. Als niet aan deze voorwaarden wordt voldaan, blijft er namelijk te weinig data over voor het trainen van het model en in extreme gevallen verdwijnt alle trainingsdata.

Uit onderzoek van Bergmeir, Hyndman en Koo (2015) blijkt dat non-dependent cross-validatie ten opzichte van k -fold cross-validatie, leave-one-out cross-validatie en out-of-sample evaluatie zodanig slecht presteert dat deze niet is opgenomen in de Monte Carlo simulaties.

2.4.3 Blocked cross-validatie

Bergmeir en Benítez (2012) stellen blocked cross-validatie voor als oplossing voor het verlies van veel data bij methodes zoals non-dependent cross-validatie. Door het kiezen van een blok sequentiële testdata beperkt deze methode het dataverlies, omdat alleen aan de randen van het blok de data verloren gaat. Blocked validatie komt sterk overeen met de door Racine (2000) voorgestelde hv -block cross-validatie methode, die asymptotisch consistent is voor stationaire processen.

(11)

Bergmeir, Constantini en Benítez (2014) stellen dat blocked cross-validatie te preferen is boven out-of-sample evaluatie. Zij laten theoretisch zien dat blocked cross-validatie een lagere variantie van de schattingsfout oplevert dan out-of-sample evaluatie. Dit heeft als gunstig gevolg dat de generaliseerbaarheid van een model preciezer kan worden geschat.

2.5 Aantal folds

Wanneer cross-validatie als modelselectie procedure in onderzoeken wordt toegepast, is het gebruikelijk om het aantal folds gelijk te stellen aan k =5 of k =10 (Hastie, Friedman en Tibshirani, 2001). Dit aantal wordt bevestigd door Rodríguez, Pérez en Lozano (2010), die de prestatie van k -fold cross-validatie onderzoeken en aanra-den om k =5 of k =10 te kiezen. Zij stellen dat voor deze waaraanra-den de beste balans tussen de onzuiverheid van de schattingsfouten en de vereiste rekenkracht van het simulatieprogramma ontstaat. Uit hun resultaten blijkt ook dat de geschatte voor-spelfouten van 10-fold cross-validatie sterk overeenkomen met die van leave-one-out cross-validatie. Jiang en Wang (2017) kiezen ervoor de prestatie van 5-fold blocked cross validatie te vergelijken met die van een nieuwe modelselectie procedure, Markov cross-validatie, om de relatieve prestatie hiervan te bepalen.

Tussen het gekozen aantal folds en het aantal waarnemingen in de folds bestaat een omgekeerd evenredig verband. Dit betekent dat het veranderen van het aantal folds een verschillend effect heeft op de diverse cross-validatie methodes. Zo gaat er bij non-dependent cross-validatie meer data verloren dan bij blocked cross-validatie als het aantal folds stijgt. Ook speelt de lengte van de gehele tijdreeks een rol bij het effect van het ophogen van het aantal folds, omdat bij een langere tijdreeks het aantal datapunten in de folds groter is.

(12)

2.6 Schattingsfouten

Voor het objectief evalueren en vergelijken van de nauwkeurigheid van verschillende voorspelmethodes zijn schattingsfouten nodig. Hyndman en Koehler (2006) geven een uitgebreid overzicht van bestaande schattingsfouten voor het beoordelen van tijdreeksvoorspellingen en classificeren deze in de volgende vier groepen:

2.6.1 Schaalafhankelijke fouten

In deze categorie wordt het gemiddelde (M) of de mediaan (MD) van de absolute fout AEt = |yt− ˆyt| of van de kwadratische fout SEt = (yt− ˆyt)2 genomen. Deze

bewerkingen leiden tot de gemiddelde absolute fout (MAE), de mediaan van de absolute fout (MDAE), het gemiddelde van de kwadratische fout (MSE) of de wortel van de gemiddelde kwadratische fout:

RMSE = v u u t 1 n n X t=1 (yt− ˆyt)2 (1)

Hierbij is ytde werkelijke waarde, ˆytde voorspelde waarde en n het totaal aantal

waarnemingen in de testset. Het nadeel van schaalafhankelijke fouten is dat ze niet gebruikt kunnen worden voor het vergelijken van verschillend geschaalde tijdreeksen.

2.6.2 Percentage fouten

Percentage fouten (PE) worden geschaald door een referentiewaarde, waardoor de fout niet meer schaalafhankelijk is:

PEt= 100

yt− ˆyt

yt

(2)

Door dezelfde bewerkingen als bij schattingsfouten ontstaan bijvoorbeeld het ge-middelde van de absolute percentage fout (MAPE), de wortel van de gege-middelde kwadratische percentage fout (RMSPE), en de mediaan van de gemiddelde

(13)

percen-tage fout: MDAPE = mediaan t=1,...,n 100 yt− ˆyt yt (3)

Deze categorie van fouten levert problemen op wanneer yt gelijk is aan nul. In

dit geval kan bijvoorbeeld de MAPE niet berekend worden, omdat de noemer nul is.

2.6.3 Relatieve fouten

Voor het schalen van een fout kan ook de schattingsfout (yt− ˆytB) van een

bench-markmethode gebruikt worden. Zo ontstaat de relatieve fout:

REt=

yt− ˆyt

yt− ˆytB

(4)

Uit bewerkingen van relatieve fouten kunnen bijvoorbeeld de gemiddelde abso-lute relatieve fout (MRAE) en de mediaan van de absoabso-lute relatieve fout ontstaan:

MDRAE = mediaan t=1,...,n yt− ˆyt yt− ˆytB (5)

Ook geldt voor deze categorie fouten het nadeel dat ze onbruikbaar kunnen worden. Dit gebeurt wanneer de voorspelling van de benchmarkmethode juist is, waardoor de noemer gelijk wordt aan nul.

2.6.4 Relatieve maten

Een oplossing voor het probleem van nulwaardes en verschillend geschaalde tijd-reeksen is het gebruik van relatieve maten. Bij deze voorspelfouten wordt niet voor elke voorspelwaarde afzonderlijk een fout berekend, maar wordt de gemiddelde fout

(14)

vergeleken met die van een benchmarkmethode:

RELMAE = M AE M AEB

(6)

Een nadeel van relatieve maten is dat vertekende uitkomsten kunnen ontstaan als de gekozen benchmarkmethode niet representatief genoeg is.

(15)

3 Structuur van de Monte Carlo experimenten

De opzet van dit onderzoek is in lijn met dat van Bergmeir, Constantini en Benítez (2014), waarin zij voor de analyse van diverse cross-validatie methodes een Monte Carlo simulatie uitvoeren. Bij een Monte Carlo simulatie wordt een proces een groot aantal keren gesimuleerd met steeds andere startcondities, waardoor een verdelings-functie van de mogelijke uitkomsten ontstaat. De Monte Carlo simulatie bestaat in dit geval uit 1000 afzonderlijke simulaties, die worden uitgevoerd met de program-meertaal R (R Core Team, 2018).

Eerst worden met een data genererend proces tijdreeksen met een lengte van 200 datapunten gecreëerd, waarna deze worden opgesplitst in een in-set en een out -set. De in-set bestaat uit 70% van de data en is bestemd voor het voorspellen van de tijdreeks. De overige 30% van de data is genomen uit het eind van de tijdreeks en vormt de out -set, die aanvankelijk als de onbekende toekomst van de tijdreeks wordt beschouwd.

Vervolgens bepalen de verschillende modelselectie procedures op welke wijze de in-set wordt verdeeld in een trainingset en een testset. Zo kan het met de trainings-data gebouwde model worden geëvalueerd met de testtrainings-data en ontstaat de geschatte schattingsfout cSF. Hierna wordt alle data van de in-set gebruikt voor het trai-nen van een model, dat wordt getest met de out -set. Deze evaluatie leidt tot de werkelijke schattingsfout SF.

3.1 Data genererend proces

De datapunten in de tijdreeks worden gegenereerd uit een stabiel AR(3) proces:

yt= φ1yt−1+ φ2yt−2+ φ3yt−3+ t (7)

Voor het bepalen van de coëfficienten van het AR(3) model worden de wortels van de karakteristieke polynoom willekeurig getrokken uit een uniforme verdeling in

(16)

het interval [−rmax, −1.1] ∪ [1.1, rmax], met in dit geval rmax = 5. De tijdreeks wordt

hierna genormaliseerd, zodat E(yt) = 0 en VAR(yt) = 1.

Vervolgens worden op de gegenereerde tijdreeksen lineaire autoregressies geschat met AR(1) tot en met AR(5) modellen. Het doel hiervan is te bepalen hoe de verschillende modelselectie procedures onderling presteren wanneer de voorspellende modellen bijna of volledig gelijk zijn aan die van het data genererende proces, AR(3).

3.2 Toegepaste modelselectie procedures

Bij de experimenten worden de schattingsfouten van de modelselectie procedures k -fold cross-validatie, blocked cross-validatie en out-of-sample met elkaar vergeleken. Bij de k -fold cross-validatie worden de folds op willekeurige wijze gekozen uit de tijdreeks. In het geval van blocked cross-validatie worden de folds niet willekeurig gekozen, maar in aan elkaar grenzende blokken. Bij out-of-sample wordt de grootte van de testset ook bepaald op basis van k. De grootte van de testset is gelijk aan die van een fold, waardoor bij een stijgende k de testset kleiner wordt en de trainingset in evenredige mate groter wordt.

Het aantal folds wordt gevarieëerd en begint met k =2, waarna dit aantal na elke simulatie met een stap verhoogd wordt tot en met k =23. Het aantal folds loopt op tot en met deze waarde, omdat na k =23 de berekening van de schattingsfouten op een complexere manier geschiedt en meer rekenkracht vereist. Uiteindelijk ontstaat zo een verloop van de prestaties van de drie verschillende modelselectie procedures.

3.3 Schattingsfouten

Voor het bepalen van de prestatie van verschillende modelselectie procedures is het van belang om te beoordelen hoe goed SF wordt geschat door cSF. Met de toepas-sing van de verschillende modelselectie procedures worden de training- en testset gekozen uit de data. Op basis van de trainingset worden AR(1) tot en met AR(5) modellen geschat. Met deze geschatte modellen worden de datapunten uit de testset

(17)

voorspeld. Het verschil tussen de voorspelde waarde en de werkelijke waarde, cSF, wordt uitgedrukt in de RMSE, omdat verschillende waarden van deze schattingsfout eenvoudig met elkaar vergeleken kunnen worden vanwege de schaalafhankelijkheid en de positieve uitkomsten. Hetzelfde proces wordt herhaald met de in-set als trai-ningset en de out -set als testset. Hiermee wordt de werkelijke schattingsfout SF berekend, die ook wordt uitgedrukt in de RMSE.

De mate waarin de geschatte schattingsfout cSF de werkelijke schattingsfout SF benadert, wordt bepaald door de gemiddelde absolute geschatte voorspelfout (MA-PAE): MAPAE = 1 m m X j=1 SFcj( bφ−t, xt) − SFj( bφ,xet) (8)

Hierbij is m het aantal Monte Carlo simulaties, bφ = ( bφ0, bφ1, ..., bφp)0 is de met

waar-nemingen van de in-set geschatte vector coëfficienten van het AR(p) model. bφ−t

is een soortgelijke vector, bestaande uit coëfficienten van het AR(p) model die zijn geschat op basis van de waarnemingen uit de trainingset. xt = (yt−1, yt−2, ..., yt−p)0

is een vector met de relevante p vertragingstermen afkomstig uit de testset en de vectorx_et= (eyt−1,eyt−2, ...,yet−p)

0

bestaat uit de relevante p vertragingstermen uit de out -set.

Deze waarde van de MAPAE is geen maat voor de prestatie van het voorspel-lende model, maar beoordeelt hoe goed een specifieke modelselectie procedure de generaliseerbaarheid van een model bepaalt. Om te bepalen of de schattingsfou-ten worden overschat of onderschat wordt ook de gemiddelde geschatte voorspelfout (MPAE) berekend: MPAE = 1 m m X j=1 c SFj( bφ−t, xt) − SFj( bφ,xet) (9)

(18)

4 Resultaten en analyse

Met een Monte Carlo simulatie van 1000 herhalingen zijn de waardes voor de schat-tingsfouten MAPAE en MPAE van de RMSE berekend op basis van geschatte AR(p) modellen met een verschillend aantal vertragingstermen.

4.1 RMSE schattingsfouten

Figuur 1: De MAPAE voor de schattingsfout RMSE

In Figuur 1 zijn de uitkomsten van de MAPAE van de RMSE zichtbaar voor de drie modelselectie procedures met het aantal folds oplopend van k =2 tot k =23 voor een geschat AR(3) model. Te zien is dat de MAPAE van k -fold cross-validatie daalt wanneer het aantal folds stijgt. Door het toenemende aantal folds wordt de beschikbare trainingset van k -fold cross-validatie groter, dit resulteert in een betere prestatie. Voor blocked cross-validatie geldt ook dat de trainingset groter wordt wanneer het aantal folds toeneemt. Echter, bij deze modelselectie procedure speelt ook mee dat door het toenemen van het aantal folds de blokgrootte van de folds afneemt, waardoor het kenmerkende voordeel van aan elkaar gesloten datapunten steeds minder wordt en als gevolg daarvan de MAPAE toch daalt wanneer het aantal

(19)

folds stijgt. Tot k =15 is de MAPAE van blocked cross-validatie voor elke k ongeveer gelijk aan 0.07, daarna wordt deze steeds groter.

De veel gekozen waarden k =5 en k =10 leveren voor blocked cross-validatie beiden de beste prestatie op, ook presteert blocked cross-validatie hier aanzienlijk beter dan k -fold cross-validatie en out-of-sample. Dit resultaat is in lijn met dat van Bergmeir, Costantini, en Benítez (2014), die stellen dat blocked cross-validatie te prefereren is boven out-of-sample in toepassing op tijdreeksen. Ook bevestigen de resultaten dat Jiang en Wang (2017) een juiste keuze maken door 5-fold blocked cross-validatie als state-of-the-art-methode te gebruiken voor het bepalen van de relatieve prestatie van een andere modelselectie procedure.

Wanneer voor out-of-sample de testset evenredig met de grootte van de folds ge-kozen wordt, blijkt dat de MAPAE toeneemt naarmate het aantal folds stijgt. Door het groter worden van het aantal folds wordt de testset steeds kleiner, waardoor de generaliseerbaarheid van de schattingsfout afneemt en out-of-sample slechter pres-teert.

(20)

Het verloop van de MPAE van de RMSE komt zoals in Figuur 2 zichtbaar is, over-een met de uitkomsten van de MAPAE. Voor over-een stijgend aantal folds neemt de MPAE van k -fold cross-validatie af van 0.27 voor k =2 tot 0.05 voor k =22, wat bete-kent dat de de overschatting van de schattingsfout minder wordt wanneer het aantal folds stijgt. Voor zowel blocked cross-validatie als voor out-of-sample blijkt dat de MPAE vanaf een lage waarde rondom 0, die duidt op een sterke prestatie, steeds meer negatief wordt wanneer het aantal folds stijgt. Dit betekent dat deze beide modelselectieprocedures te maken hebben met een groeiende onderschatting van de werkelijke schattingsfout wanneer het aantal folds stijgt.

4.2 Onderlinge prestatie bij geschatte AR(p) modellen

Figuur 3: De MAPAE van de RMSE voor AR(p) modellen

In Figuur 3 is de MAPAE van de RMSE voor k -fold cross-validatie, blocked cross-validatie en out-of-sample zichtbaar voor de geschatte AR(p) modellen met p = 1, ..., 5. Te zien is dat de mate waarin het aantal vertragingstermen van het schattende model overeenkomt met dat van het data genererende model, geen in-vloed heeft op de relatieve prestatie van de drie modelselectie procedures. Op te

(21)

merken is ook dat voor k -fold cross-validatie het geschatte AR(1) model een betere prestatie oplevert dan de rest van de geschatte modellen.

Verder valt bij blocked cross-validatie en out-of-sample op dat deze de beste pres-taties hebben als het geschatte model volledig of bijna gelijk is aan het werkelijke data genererende model, in dit geval AR(3). Als voorbeeld hiervan is in Figuur 4 voor blocked cross-validatie de MAPAE van de RMSE zichtbaar voor alle geschatte AR(p) modellen met p = 1, ..., 5. Voor iedere fold zijn de prestaties van de blocked cross-validatie voor elk geschat model in relatief opzicht vrijwel gelijk verdeeld. Zo is gemiddeld genomen voor AR(1) de MAPAE constant het hoogst, gevolgd door AR(5). De MAPAE waardes van de geschatte AR(2), AR(3) en AR(4) modellen zijn structureel het laagst en liggen voor elk aantal folds dicht bij elkaar.

(22)

5 Conclusie

In deze scriptie is de invloed van het aantal gekozen folds op de prestatie van k -fold cross-validatie, blocked cross-validatie en out-of-sample evaluatie in een specifieke toepassing op tijdreeksen onderzocht. Met Monte Carlo simulaties zijn de MAPAE en de MPAE van de RMSE berekend met verschillende geschatte AR(p) modellen om zo de generaliseerbaarheid van de drie modelselectie procedures te bepalen voor k =2 oplopend tot en met k =23. Gebleken is dat blocked cross-validatie het beste presteert van drie modelselectie procedures en dat deze prestatie afneemt wanneer het aantal folds hoger dan k =10 gekozen wordt. Voor k -fold cross-validatie geldt dat deze steeds beter presteert naarmate het aantal folds toeneemt. Als voor out-of-sample evaluatie de testset evenredig met de grootte van een fold wordt gekozen neemt de prestatie hiervan af naarmate het aantal folds stijgt. Ook blijkt dat als het aantal vertragingstermen van het schattende model niet overeenkomt met dat van het data genererende model, de relatieve prestatie van de drie de modelselectie procedures gelijk blijft.

Aanvullend onderzoek met een hoger oplopend aantal folds, andere lengtes van tijdreeksen, extra modelselectie procedures zoals non-dependent cross-validatie en een uitgebreider data genererend proces met complexere gemodelleerde tijdreeksen, zoals bijvoorbeeld ARMA(p,q) modellen, is vereist om algemene conclusies te kun-nen trekken over de invloed van het aantal folds op de prestatie van cross-validatie methodes.

(23)

Bibliografie

Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans-actions on Automatic Control, 19 (6), 716-723.

Arlot, S., & Celisse, A. (2010). A survey of cross-validation procedures for model selection. Statistics Surveys, 4, 40-79.

Bergmeir, C., & Benítez, J. M. (2012). On the use of cross-validation for time series predictor evaluation. Information Sciences, 191, 192-213.

Bergmeir, C., Costantini, M., & Benítez, J. M. (2014). On the usefulness of cross-validation for directional forecast evaluation. Computational Statistics & Data Analysis, 76, 132-143.

Bergmeir, C., Hyndman, R. J., & Koo, B. (2015). A note on the validity of cross-validation for evaluating time series prediction. Monash University Department of Econometrics and Business Statistics Working Paper, 10, 15.

Blum, A., Kalai, A., & Langford, J. (1999, July). Beating the hold-out: Bounds for k-fold and progressive cross-validation. In Proceedings of the twelfth annual conference on Computational learning theory (pp. 203-208).

Burman, P., Chow, E., & Nolan, D. (1994). A cross-validatory method for depen-dent data. Biometrika, 81 (2), 351-358.

Hart, J. D. (1994). Automated kernel smoothing of dependent data by using time series cross-validation. Journal of the Royal Statistical Society. Series B (Me-thodological), 529-542.

Hastie, T., Friedman, J., & Tibshirani, R. (2001). Model assessment and selection. In The Elements of Statistical Learning (pp. 193-224). Springer, New York, NY. Hyndman, R. J., & Koehler, A. B. (2006). Another look at measures of forecast

accuracy. International Journal of Forecasting, 22 (4), 679-688.

Inoue, A., & Kilian, L. (2006). On the selection of forecasting models. Journal of Econometrics, 130 (2), 273-306.

Jiang, & Wang. (2017). Markov cross-validation for time series model evaluations. Information Sciences, 375 (C), 219-233.

McQuarrie, A. D., & Tsai, C. L. (1998). Regression and time series model selection. World Scientific Publishing.

Opsomer, J., Wang, Y., & Yang, Y. (2001). Nonparametric regression with correla-ted errors. Statistical Science, 134-153.

Racine, J. (2000). Consistent cross-validatory model-selection for dependent data: hv-block cross-validation. Journal of Econometrics, 99 (1), 39-61.

Rodríguez, J. D., Pérez, A., & Lozano, J. A. (2010). Sensitivity analysis of k-fold cross validation in prediction error estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32 (3), 569-575.

R Core Team (2018). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

(24)

Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6 (2), 461-464.

Shao, J. (1993). Linear model selection by cross-validation. Journal of the Ameri-can Statistical Association, 88 (422), 486-494.

Stone, M. (1974). Cross-validation and multinomial prediction. Biometrika, 61 (3), 509-515.

Yang, Q., & Wu, X. (2006). 10 challenging problems in data mining research. International Journal of Information Technology & Decision Making, 5 (04), 597-604.