Probleem van onzekerheid : analyse van de bruikbaarheid van cross-validation wanneer er sprake is van volatiliteitsclustering

(1)

Probleem van onzekerheid

Analyse van de bruikbaarheid van cross-validation wanneer er sprake is van

volatiliteitsclustering

Stijn Lubben

10810498

Student aan de universiteit van Amsterdam

26 juni 2018

Begeleider: Bram Wouters Bachelorscriptie Econometrie

Studiejaar: 2017/2018

Abstract

In dit onderzoek wordt achterhaald wat de nadelige gevolgen zijn van volatiliteitsclustering op de bruikbaarheid van cross-validation(CV). CV is een evaluatiemethode om te onderzoeken hoe

accuraat modellen werken. Bij dit onderzoek worden er eerst verschillende methodes van cross-validation toegepast op stationaire tijdreeksen. Met behulp van schatters kan achterhaald

worden hoe goed de verschillende methodes van CV werken op de gesimuleerde tijdreeksen. Vervolgens worden er tijdreeksen gesimuleerd die volatiliteitsclustering bevatten door middel van GARCH-modellen. Bij zo een clustering zijn er periodes van hoge volatiliteit en periodes van lage

volatiliteit. Deze data wordt met behulp van dezelfde schatters verklaard. Dan worden de resultaten van verschillende methodes van CV bij de stationaire tijdreeksen en bij de GARCH-modellen met elkaar vergeleken. Vervolgens wordt er onderzocht of de problemen substantieel zijn toegenomen en geconcludeerd of CV nog steeds bruikbaar is, wanneer de data

(2)

Statement of Originality

This document is written by Student Stijn Lubben who declares to take full responsibility for the contents of this document.

I declare that the text and the work presented in this document are original and that no sources other than those mentioned in the text and its references have been used in creating it.

The Faculty of Economics and Business is responsible solely for the supervision of completion of the work, not for the contents.

(3)

Inhoudsopgave

1 Inleiding

2 Theoretisch achtergrond

2.1 Tijdreeksen 2.2 Verschillende methodes 2.3 Schatters

2.4 Onderzoeken naar cross-validation 2.5 Volatiliteitsclustering

2.6 Theorie

3 Onderzoeksopzet en data

3.1 Co¨effici¨enten

3.2 Modellen vergelijken

4 Resultaten en analyse

4.1 AR(3)-model 4.2 AR(3)-GARCH(1,1)-model

5 Conclusie

Bibliografie

(4)

1 Inleiding

De perfecte voorspelling van de toekomst zou ideaal zijn. Bedrijven kunnen dan kostenverlagend produceren wat uiteindelijk leidt tot een betere economie. Individuen zouden dan ook bijvoor-beeld door in de juiste aandelen te investeren er op vooruit kunnen gaan. Jammer genoeg bestaat het perfecte model niet om de juiste voorspellingen te doen maar met behulp van goede meth-odes is het mogelijk om het perfecte model te kunnen benaderen. Voor een voorspelling van de toekomst worden meestal tijdreeksen gebruikt. Veelvoorkomend wordt dit gedaan door middel van een ARMA-model waarmee er rekening gehouden wordt met vertragingen van de afhankelijke vari-abele en de storingen. Hiermee wordt een zo goed mogelijke fit gemaakt over de gehele data die beschikbaar is. Wanneer tijdreeksen stationair zijn, kunnen er redelijk goede voorspellingen worden gedaan. Alleen de uitschieters kunnen niet goed voorspeld worden.

Om verschillende modellen met elkaar te kunnen vergelijken, zijn er evaluatiemethodes nodig. Traditioneel worden verschillende modellen voor tijdreeksen beoordeeld door middel van de out-of-sample(OOS) methode (Tashman, 2000). Hierbij wordt de data in twee groepen opgesplitst waarbij de eerste set meestal groter is dan de laatste. Het model wordt dan getraind op de eerste dataset en de laatste dataset wordt gebruikt om het model te kunnen testen. Naast OOS is ook cross-validation(CV) een veel voorkomende methode om verschillende modellen te analyseren. Hierbij wordt de data opgedeeld in een trainingsset en een testset. Dit wordt dan meerdere keren herhaald tot dat elk datapunt ´e´en keer in de testset is geweest (Bergmeir & Ben´ıtez, 2012). Er zijn verschil-lende vormen van CV. Voorbeelden van veel voorkomende methodes van cross-validation zijn k-fold CV, de geblokte k-fold CV en de onafhankelijke CV. Bij k-fold CV (Bergmeir, Hyndman, & Koo, 2018) wordt eerst de data willekeurig in k datasets verdeeld. Hiervan worden k-1 datasets gebruikt om het model te trainen en dit wordt getest op de overige set. Dit wordt dan k keer herhaald zodat elke waarneming eenmalig in de testset terecht komt. Het nadeel van k-fold CV bij tijdreeksen is dat er correlatie is tussen de trainingsset en testset. Dit zou mogelijk voor problemen kunnen zorgen. Een ander methode van cross-validation is de geblokte k-fold CV (Bergmeir & Ben´ıtez, 2012). Het verschil met de normale k-fold CV is dat de data in k aaneengesloten blokken wordt verdeeld in plaats van willekeurig. Dit zorgt ervoor dat er alleen correlatie is tussen de trainingsset en het begin en einde van de testset. Een methode van CV die nog minder last heeft van correlatie is de onafhankelijke CV (Racine, 2000). Hier worden steeds h waarnemingen weggehaald voor en

(5)

na de testset om de correlatie tussen de trainingsset en testset te verkleinen. Het nadeel hiervan is wel dat er waarnemingen verloren gaan waardoor het model onjuist kan worden voorspeld. Om de verschillende modellen met elkaar te kunnen vergelijken, zijn een aantal schatters nodig. Dit onderzoek maakt gebruikt van de RMSE en de MAE, die ook door Bergmeir et al.(2018) werden gebruikt.

Bij tijdreeksen is er wel eens sprake van volatiliteitsclustering. Hierbij zijn er periodes van hoge en van lage volatiliteit. De variantie is dan niet elke periode hetzelfde. Dit komt bijvoorbeeld doordat er op bepaalde markten veel onzekerheid is (Francq, Horv´ath ,& Zako¨ıan, 2016). Dit zou voor problemen kunnen zorgen bij OOS en CV. Daarom wordt er in dit onderzoek geanalyseerd wat de bruikbaarheid is van cross-validation wanneer er sprake is van volatiliteitsclustering.

Om dit te onderzoeken wordt eerst in hoofdstuk 2 de theorie vermeld over cross-validation, tijdreeksen en volatiliteitsclustering. Vervolgens in hoofdstuk 3 wordt de gebruikte data en de on-derzoeksmethode weergegeven. In hoofdstuk 4 worden de resultaten geven en nader geanalyseerd. Tenslotte wordt er in hoofdstuk 5 een conclusie gegeven van dit onderzoek.

(6)

2 Theoretische achtergrond

Om te onderzoeken wat de nadelige gevolgen zijn van volatiliteitsclustering op CV wordt eerst de theorie vermeld over tijdreeksen, CV, en volatiliteitsclustering. Eerst worden tijdreeksen in sectie 2.1 nader toegelicht. Dan komen de verschillende methodes van CV en OOS aanbod in sectie 2.2. Om de methodes met elkaar te kunnen vergelijken zijn schatters nodig die in sectie 2.3 ter sprake komen. Sectie 2.4 gaat in de op voorgaande onderzoeken naar cross-validation met tijdreeksen. Sectie 2.5 wordt de definitie van volatiliteitsclustering weergegeven. Tenslotte in sectie 2.6 wordt er samenvatting gegeven over de theorie.

2.1 Tijdreeksen

Tijdreeksen zijn erg belangrijk om voorspellingen over de toekomst te kunnen doen. Om de ver-loop van tijdreeksen te kunnen verklaren, is stationariteit vereist. Wanneer dit niet het geval is, wordt de reeks kunstmatig stationair gemaakt om er een verband in te kunnen onderzoeken (Ives, Abbott, & Ziebarth, 2010). Tijdreeksen zijn anders dan cross-sectie data omdat de datapunten niet onafhankelijk zijn van elkaar. De waarde van vandaag is vaak gecorreleerd met de waarde van gisteren. Hierdoor worden tijdreeksen vaak gemodelleerd met behulp van een AR, MA of ARMA-model. Bij een AR-model wordt er rekening gehouden met vertragingen van de afhanke-lijke variabele. Bij een MA-model is er juist sprake van vertraging in de storingen. De storingen tussen verschillende periodes zijn dan gecorreleerd. Bij een ARMA-model zijn er vertragingen in zowel de afhankelijke variabele als in de storingen. Een ARMA-model wordt vaak aangeduid met een ARMA(p,q)-model waarbij de p staat voor het aantal vertragingen van de afhankelijke variabele en q voor het aantal vertragingen in de storingen. Wanneer de varianties niet elke periode gelijk is maar ze wel met elkaar gecorreleerd zijn, dan zijn er GARCH-modellen nodig. Dit is ook het geval bij volatiliteitsclustering. Hoe dit precies werkt, wordt vermeld in sectie 2.5.

2.2 Verschillende methodes

Voor het evalueren van tijdreeksmodellen wordt traditioneel de out-of-sample(OOS) methode ge-bruikt (Tashman, 2000). Naast OOS is ook cross-validation(CV) een veelvoorkomende methode om tijdreeksmodellen te analyseren. Er zijn veel verschillende vormen van CV maar er worden drie verschillende soorten nader toegelicht in dit onderzoek. Dit zijn de k-fold CV (Bergmeir & Ben´ıtez,

(7)

2012), de geblokte k-fold CV (Bergmeir, Hyndman, & Koo, 2018) en de onafhankelijke CV (Racine, 2000). Sommige methodes hebben ook weer meerdere vormen zoals OOS en de onafhankelijk CV. De verschillende vormen van cross-validation en de out-of sample methode worden in de volgende subparagrafen verder uiteengezet.

2.2.1 Out-of-sample

De out-of-sample(OOS) methode wordt traditioneel gebruikt om tijdreeksmodellen te kunnen vergeli-jken. Bij OOS worden alleen datapunten die voor de desbetreffende testset zijn gebeurd, gebruikt in de trainingsset. De drie meest voorkomende methodes van OOS zijn met fixed, window of rolling origin (Tashman, 2000). Bij de OOS-methode met fixed origin wordt de laatste set met datapunten gebruikt als testset en dan wordt er eenmalig een model getraind met de overige datapunten. Bij OOS met behulp van windows wordt de data eerst in w blokken verdeeld. Dan wordt de eerste dataset gebruikt als trainingsset en de tweede als testset. Vervolgens komt er steeds een nieuwe set bij die de testset wordt. De oude testset komt bij de trainingsset erbij. Zo komen er w-1 verschil-lende iteraties waar een gemiddelde over genomen wordt. De OOS-methode met rolling origin is gelijk aan de methode met windows maar dan is w gelijk aan het totaal aantal datapunten.

2.2.2 K-fold CV

Naast OOS wordt ook regelmatig cross-validation(CV) gebruikt om verschillende tijdreeksmodellen met elkaar te kunnen vergelijken. CV is een veel voorkomende methode om te onderzoeken welk model de data het beste beschrijft. Het wordt voornamelijk gebruikt om de juiste modellen te vinden waarmee voorspellingen worden gedaan. Daarnaast wordt CV ook gebruikt om te evalueren hoe goed bestaande modellen werken in de praktijk (Bergmeir & Ben´ıtez, 2012). Er zijn veel verschillende vormen van CV. De eerste vorm van cross-validation in dit onderzoek is de k-fold CV. Bij k-fold CV (Bergmeir & Ben´ıtez, 2012) worden alle datapunten in willekeurig k datasets verdeeld. E´en dataset is dan de testset en de overige k-1 sets vormen de trainingsset. Met de trainingsset wordt dan een model gefit die op de overige dataset wordt getest. Dit wordt dan k keer herhaald voor steeds een andere testset. De schatters worden dan iedere keer berekend en gedeeld door k om het gemiddelde te nemen. Bij tijdreeksen is er sprake van correlatie tussen verschillende datapunten. Hierdoor is er ook correlaties tussen de trainingsset en de testset bij k-fold CV. Dit kan er voor zorgen dat er sprake is van overfitting wat leidt tot fouten in de schatters. Bij overfitting

(8)

wordt de trainingsset te goed voorspeld maar de lineaire lijn niet. Er is altijd een verschil tussen de trainingsset en de testset. Hierdoor zal het model niet goed de testset verklaren. Wanneer k groter wordt dan zal de correlatie tussen de trainingsset en testset minder worden. Het nadeel van een te grote k is dat de rekenkracht te snel toeneemt. Hierom wordt er vaak een k gekozen tussen de vijf en de tien (Bergmeir & Ben´ıtez, 2012).

2.2.3 Geblokte k-fold CV

De tweede vorm van CV die behandeld wordt, is de geblokte k-fold CV. Bij geblokte k-fold cross-validation (Bergmeir et al., 2018) wordt de data in k gelijke chronologische blokken verdeeld. Ver-volgens wordt er net als bij normale k-fold CV steeds ´e´en blok als testset gebruikt en de overige als trainingsset. Dit wordt dan k keer herhaald zodat alle datasets eenmalig als testset fungeren. Het voordeel van geblokte k-fold CV ten opzichte van normale k-fold CV is dat er alleen correlatie is aan het begin en einde van de testset met de trainingsset. Het middelste gedeelte van het blok zal niet gecorreleerd zijn met de trainingsset. Wanneer k groter wordt dan zal de correlatie juist weer gaan toenemen omdat het middelste gedeelte van een blok kleiner wordt. Als k gelijk is aan het aantal datapunten dan is geblokte k-fold CV gelijk aan de normale k-fold CV.

2.2.4 De onafhankelijke CV

De derde methode is de onafhankelijk geblokte CV (Racine, 2000). Hier wordt net als bij geblokte k-fold CV de data in k gelijke blokken verdeeld. Alleen bij elke testset worden voor én na de testset h datapunten weggehaald om de correlatie tussen punten in de trainingsset en testset te verkleinen. Het voordeel is dat het model met gebruikte waarnemingen beter geschat wordt, omdat er minder correlatie is. Alleen het nadeel is wel dat er een aantal waarnemingen verloren gaan. De moeilijkheidsgraad van de onafhankelijk geblokte CV is dus ook om de juiste h te vinden waarvoor de methode het beste resultaat geeft. Naast de onafhankelijk geblokte CV is er ook de onafhankelijke CV (Bergmeir et al, 2018). Bij deze methode wordt net als bij k-fold CV de data in willekeurig k datasets verdeeld. Vervolgens zijn er weer k-1 datasets in de trainingsset en steeds één dataset in de testset. Het verschil met k-fold CV is dat er iedere keer bij de waarnemingen er steeds h waarnemingen worden weggehaald. Hierdoor zal er geen correlatie zijn tussen de trainingsset en testset maar er gaan nog meer waarnemingen verloren dan bij de onafhankelijk geblokte CV.

(9)

2.3 Schatters

Om te onderzoeken hoe accuraat de verschillende methodes werken en om verschillende modellen met elkaar te kunnen vergelijken zijn schatters nodig. Bij schatters wordt er vaak gebruikgemaakt van de grootte van fouten. De schatters die hiervoor gebruikt kunnen worden, zijn ook benoemd door Bergmeir en Ben´ıtez (2012). Het model wordt geschat wat leidt tot ˆyt. Het verschil tussen

echte waarde yten ˆytwordt het residu genoemd. Voorbeelden van schatters die gebruikmaken van

het residu zijn de absolute of kwadratische fouten. Dit wordt dan voor alle waarnemingen berekend en daar wordt dan het gemiddelde van genomen. Het gemiddelde door middel van de absolute en kwadratische fouten worden respectievelijk afgekort met MAE en MSE. De RMSE wordt vaker gebruikt en dat is de wortel van MSE.

RM SE = v u u t 1 n n X t=1 (yt− ˆyt)2 M AE = 1 n n X t=1 |yt− ˆyt|

Andere schatters die vaak worden gebruikt, zijn percentage schatters. Een voorbeeld is de MAPE. M AP E = 1 n n X t=1 |100yt− ˆyt yt |

Wanneer hier niet het gemiddelde maar de mediaan wordt gebruikt, wordt het afgekort met MDAPE. Het nadeel van MAPE is wel dat sommige waarden erg hoog kunnen worden wanneer yt

in de buurt komt van nul. Een andere schatter die hier minder last van heeft is de sMAPE. sM AP E = 1 n n X t=1 |100yt− ˆyt mt | Hier is mtgelijk aan |yt|+| ˆ

yt|

2 .

Er wordt ook gebruikgemaakt van relatieve fouten en schatters. Een voorbeeld van een relatieve fout is de REt.

REt=

yt− ˆyt

(10)

Hier is ˆytBverkregen door de na¨ıve verwachting dat yt+1= yt. Het gemiddelde van alle RE’s wordt

de MRAE genoemd en de mediaan van de RE’s wordt afgekort met MDRAE. Een andere relatieve schatter is de RELMAE.

RELM AE = M SE M SEB

Hier wordt de schatter van de kwadratische fouten van het model gedeeld door de MSE onder na¨ıeve verwachtingen. Het is mogelijk dat verschillende schatters voor verschillende conclusies zorgen over welke methode het beste werkt. Om een algemene conclusie te geven over de beste methode zijn er meerdere schatters nodig.

Dit onderzoek maakt net als Bergmeir et al.(2018) ook gebruik van de prediction error(PE). Hier wordt in eerste instantie een percentage aan het eind van de data weggelaten. Dat percentage is in dit onderzoek gelijk aan 30%. De data wordt dan met de eerste 70% getraind en getest op de overige 30% met behulp van schatters. Voor elke verschillende methode wordt dan de ˆP E berekend met de eerste 70% van de gehele data. Dan wordt de absolute verschillen(MAPAE) genomen tussen PE en de ˆP E en ook normale verschillen(MPAE). De MAPAE wordt gebruikt om te onderzoeken welk model het beste werkt en de MPAE is bedoeld om te ontdekken of er sprake is van bias.

2.4 Onderzoeken naar cross-validation

Er zijn voorgaande onderzoeken geweest naar tijdreeksanalyse door middel van cross-validation. Bergmeir en Ben´ıtez (2012) evalueren tijdreeksen met behulp van verschillende methodes van cross-validation. In hun onderzoek gebruikten zij gesimuleerde data om de verschillende methodes met elkaar te kunnen vergelijken. Later gebruikten zij ook empirische data van de Santa Fe forecast-ing competitie en de NNGC1 competition. Om de verschillende methodes te kunnen vergelijken gebruikten zij vier schatters. Dit waren de RELMAE, MDAPE, MDRAE en de RMSE. De verschil-lende methodes van CV in hun onderzoek zijn k-fold CV , geblokte k-fold CV, de onafhankelijke CV, het laatste blok, het tweede blok en de tweede fold CV. Bij het laatste of tweede blok worden de schatters maar eenmalig berekend met het respectievelijke blok als testset. Bij de tweede fold CV worden eenmalig de schatters berekend met de tweede fold als testset. Zij maakten gebruik van de 5-fold omdat er geen vreemde afhankelijkheid in data was gevonden. Uiteindelijk konden zij geen duidelijke verschillen vinden tussen de verschillende methodes. Een mogelijk verklaring hiervoor is wel dat de gebruikte data te stationair is en weinig fluctueert. Hierdoor is er niet genoeg verschil

(11)

aanneembaar tussen het begin en het einde van de tijdreeks. Zij verwachten wel dat de geblokte CV een beter resultaat geeft wanneer er meer fluctuaties zijn.

Een ander onderzoek naar CV met tijdreeksmodellen is gedaan door Bergmeir, Hyndman en Koo (2018). Hun doel was om te onderzoeken hoe accuraat verschillende CV methodes werken wanneer er alleen gebruikt wordt gemaakt van autoregressieve(AR) modellen. Zij maakten onder-scheid tussen vier verschillende methodes. Dit waren de 5-fold CV, leave-one-out (LOOCV), de onafhankelijke CV en OOS met fixed origin. LOOCV is gelijk aan k-fold CV met k gelijk aan het aantal waarnemingen. Dus er wordt steeds ´e´en waarneming niet meegenomen in de trainingsset en vervolgens wordt er getest op die waarneming. Bergmeir et al. (2018) simuleerden een AR(3), MA(1) en AR(12)-model en gingen die testen met de modellen AR(1) tot en met AR(5). De schat-ters die zij gebruikten voor de evaluatie zijn RMSE en de MAE. Dit deden ze eerst met behulp van de PE. De vijf modellen werd getraind op de eerste 70% en daarna getest op de laatste 30%. Vervolgens werden de ˆP E’s berekend met behulp van de verschillende methodes en modellen over de eerste 70%. Vervolgens werden de absolute en normale verschillen genomen van de PE enP E.ˆ Zij hebben uit de theorie gevonden dat de normale k-fold cross-validation alleen bruikbaar is als de epsilons niet gecorreleerd zijn. Uit de Monte Carlo experimenten van Bergmeir et al. (2018) concluderen zij dat cross-validation betere resultaten geeft dan OOS. Vervolgens bij empirische data zorgt CV wel eens voor overfitting waardoor het minder goed kan werken wanneer het model niet meerdere keren wordt getraind. Bij overfitting wordt de trainingsset te goed voorspeld waardoor het verschil met de testset te groot wordt.

(12)

2.5 Volatiliteitsclustering

De voorgaande onderzoeken houden geen rekening met het geval van volatiliteitsclustering. Bij volatiliteitsclustering (Xue & Gen¸cay , 2012) zorgt een bepaalde schok voor hoge fluctuaties en duurt het een tijd totdat de residuen weer kleiner worden. Er zijn dan periodes van hoge volatiliteit en periodes van lage volatiliteit. Dit gebeurt wel eens in de economie nadat er onzekerheid is over bijvoorbeeld een bepaald product of bedrijf. Dit duurt dan een tijd totdat het weer hersteld is en op de normale wisseling van de prijs komt. Een ARMA-model kan hier niet heel veel rekening mee houden dus wordt er vaak een gebruikgemaakt van een AR-GARCH(p,q)-model. Dit model houdt naast vertragingen van de afhankelijke variabele ook rekening mee dat de variantie niet elke periode hetzelfde is (Francq, Horv´ath ,& Zako¨ıan, 2016). De variantie hangt dan af van de kwadraat van de epsilons en varianties van de voorgaande periodes. De variantie van een GARCH-model ziet er als volgt uit:

σ2_t = ω + q X i=1 αi2t−1+ p X i=1 βiσt−12

Hier staat q voor het aantal periodes dat de variantie afhangt van de epsilons van de voorgaande periodes. De p staat voor het aantal periodes dat er correlatie is tussen de varianties. Om er voor te zorgen dat de variantie niet blijft groeien, moet de som van α’s en β’s kleiner zijn dan één. Daarnaast moeten alle α’s en β’s strikt groter zijn dan nul. Om α en β nog redelijk te kunnen variëren, wordt er vaak gebruikgemaakt van een univariate GARCH-model (Francq, Horváth ,& Zako¨ıan, 2011). Dit is gelijk aan een GARCH(1,1)-model waarbij er dus één α en één β wordt gebruikt die beiden tussen nul en één liggen. Daarnaast is nog steeds de restrictie dat de som van α en β kleiner moet zijn dan één.

Volatiliteitsclustering kan voor problemen zorgen bij cross-validation. Doordat er periodes zijn met verschillende volatiliteit, is het moeilijker om de data te voorspellen. Er zullen altijd verschillen zijn in volatiliteit tussen de trainingsset en testset. Bij de geblokte cross-validation kan het voor problemen zorgen omdat er wel eens een overgang van lage volatiliteit naar hoge volatiliteit in ´e´en blok te vinden is. Hierdoor kan er een te groot verschil zijn tussen de trainingsset en testset. Wat precies de nadelige gevolgen zijn van volatiliteitsclustering op de bruikbaarheid van CV wordt in dit onderzoek nader onderzocht.

(13)

2.6 Theorie

Kortom, cross-validation (CV) is een veel voorkomende manier om modellen te evalueren. Doordat datapunten van tijdreeksen gecorreleerd zijn, zullen er verschillen zijn tussen de verschillende meth-odes van CV. Traditioneel wordt de out-of-sample(OOS) methode vaak gebruikt om tijdreeksmod-ellen te beoordelen omdat hier alleen datapunten worden gebruikt die voor de waarnemingen uit de testset hebben plaatsgevonden. Bij k-fold CV wordt de data in k stukken verdeeld waarvan k-1 datapunten de trainingsset is en de overige datapunten de testset. Er wordt dan gemodelleerd op de trainingsset en op de overige set getest. Dit wordt k keer herhaald voor elke testset. Hierdoor kan er te veel correlatie zijn tussen de trainingsset en testset. Een methode die hier minder last van heeft is de geblokte k-fold CV. Hier is de data in k gelijke chronologische blokken verdeeld. Hierdoor is er alleen correlatie bij de begin- en eindpunten van de testen trainingsset. De (geblokte) on-afhankelijk CV haalt steeds waarnemingen rond de testset weg waardoor er helemaal geen correlatie meer is tussen testen trainingsset. Door middel van een aantal schatters worden de verschillende methodes met elkaar vergeleken. Voorgaande onderzoeken hebben aangetoond dat cross-validation een bruikbaar middel is om modellen van tijdreeksen te evalueren wanneer er geen correlaties is tussen de epsilons. Deze onderzoeken hielden alleen geen rekening met volatiliteitsclustering. Bij volatiliteitsclustering zijn er periodes van hoge en van lage volatiliteit. Dit kan leiden tot extra storingen in de gebruikte modellen waardoor het mogelijk minder bruikbaar is. Daarom wordt dit probleem verder onderzocht in dit onderzoek. De methode hoe dit is onderzocht wordt in het volgende hoofdstuk nader toegelicht.

(14)

3 Onderzoeksopzet en data

Het uitgangspunt van dit onderzoek is het onderzoek van Bergmeir et al. (2018). Zij simuleerden 1000 keer een AR(3)-model met elke simulatie 200 datapunten. Ze gingen het testen met behulp van AR(1) tot en met AR(5)-modellen. Dit wordt in eerste instantie overgedaan voor drie verschillende methodes met ook 1000 simulaties. Elke simulatie heeft alleen een grootte van 500 datapunten omdat deze later vergeleken worden met simulaties met volatiliteitsclustering. De verwachting is dat er meer datapunten nodig zijn voor volatiliteitsclustering omdat er periodes zijn van verschillende varianties en het dan moeilijker is om het juiste model te trainen. De verschillende methodes die gebruikt worden, zijn de out-of-sample(OOS) methode, k-fold cross-validation en geblokte k-fold cross-validation. Bij OOS wordt er alleen gebruikgemaakt van de methode met fixed origin, waarin eenmalig het einde van de data als testset wordt gebruikt. OOS met rolling en window origin worden niet gebruikt omdat met alleen fixed origin het resultaat beter te vergelijken is met Bergmeir et al. (2018). Daarnaast is uit theorie niet ontdekt dat de andere twee vormen van OOS significant betere resultaten geven. De waarde voor k is net als bij Bergmeir et al. (2018) gelijk aan vijf. Dit onderzoek maakt geen gebruikgemaakt van de onafhankelijke en leave-one-out CV(LOOCV). De onafhankelijke CV wordt niet gebruikt omdat die in het onderzoek van Bergmeir et al. (2018) al veel slechtere resultaten had dan de overige methodes. De leave-one-out CV wordt ook niet gebruikt omdat de resultaten erg vergelijkbaar waren met de 5-fold CV en de rekenkracht die nodig is voor LOOCV, is veel groter dan bij 5-fold CV. In tegenstelling tot Bergmeir et al.(2018) wordt er wel gebruikgemaakt van de geblokte CV. De verwachting is dat de geblokte CV beter werkt dan k-fold CV omdat er minder correlatie is tussen de trainingsset en de testset. Dit zou voor betere resultaten kunnen zorgen. Voordat er onderscheid gemaakt wordt tussen de verschillende methodes, worden de PE’s eerst berekend voor de verschillende modellen. Dit wordt gedaan door de modellen te trainen op de eerste 70% van de data en dat te testen op de laatste 30% . Het testen wordt gedaan door middel van schatters. De schatters die daarvoor gebruikt worden zijn gelijk aan het onderzoek van Bergmeir et al. (2018). Dit zijn de RMSE en de MAE. Daarna wordenP E’s berekend voor de verschillende methodes met dezelfde schatters. Ten slotte wordenˆ de absolute verschillen (MAPAE) en de normale verschillen(MPAE) berekend tussen PE en P E.ˆ Ook worden de standaard deviaties berekend om te beoordelen of de de MAPAE’s van een bepaalde methode ook significant het laagst zijn. Naast de simulaties van de AR(3)-modellen, genereerden

(15)

Bergmeir et al. (2018) ook MA(1) en AR(12)-modellen. Dit onderzoek maakt niet gebruik van deze modellen omdat deze modellen geen volatiliteitsclustering bevatten. Om de gevolgen van volatiliteitsclustering te kunnen bepalen, worden naast AR(3)-modellen ook AR(3)-GARCH(1,1)-modellen gesimuleerd. Dit onderzoek maakt gebruik van het univariate GARCH-model omdat dan de α en β meer kunnen variëren. Deze simulaties worden dan niet alleen door AR(1) tot en met AR(5)-modellen getest maar ook door AR(1)-GARCH(1,1) tot en met AR(5)-GARCH(1,1). De berekening van de schatters is hier vergelijkbaar met het de simulaties van de AR(3). Voor de simulaties van AR(3) en AR(3)-GARCH(1,1)-modellen worden steeds nieuwe coëfficiënten gebruikt. Hoe deze coëfficiënten tot stand komen, wordt in de volgende paragraaf nader toegelicht. Hoe de modellen en methodes met elkaar vergeleken worden, staat beschreven in sectie 3.2.

3.1 Co¨

effici¨

enten

Ten eerste zijn er stationaire AR(3)-co¨effici¨enten nodig voor het data genererend proces. Dit wordt gedaan door eerst drie random getallen te nemen tussen 1.1 en 15 of -1.1 en -15 en daar worden dan de inverse van genomen. Deze getallen worden afgekort met a1 tot en met a3. Dit zorgt voor

3 getallen tussen 0 en 1 of tussen 0 en -1 en die niet te dicht bij de randen liggen. De co¨effici¨enten c1 tot en met c3 worden dan als volgt berekend:

c1= a1+ a2+ a3

c2= −(a1∗ a2+ a1∗ a3+ a2∗ a3)

c3= a1∗ a2∗ a3

Deze drie coëfficiënten zorgen ervoor dat voor elke simulatie er nieuwe AR(3)-coëfficiënten worden gegenereerd waarbij het model stationair is.

Naast de AR(3)-co¨effici¨enten zijn er ook waardes nodig voor α en β van de AR(3)-GARCH(1,1) modellen. De variabelen α en β zorgen er respectievelijk voor dat σ2

t afhangt van 2t−1 en σ2t−1.

De som van α en β moet kleiner zijn dan één en beide waardes moeten groter zijn dan nul voor correcte GARCH-modellen. Om hiervoor te zorgen worden dat beide variabelen hieraan voldoen, worden ze uniform getrokken tussen 0.1 en 0.5. Hiermee liggen ze beide niet te dicht bij nul en is de som nooit groter of gelijk aan één.

(16)

3.2 Modellen en methodes vergelijken

Om de modellen met elkaar te kunnen vergelijken worden de schatter RMSE en MAE gebruikt. In eerste instantie kunnen de PE’s worden gebruikt om te oordelen welk model het juiste is. Voor dat specifieke model is de PE het laagst. Dat zou dan in eerste instantie de AR(3) moeten zijn en het tweede deel is dat dan AR(3)-GARCH(1,1). De PE’s zijn ook nodig om de verschillende methodes met elkaar te kunnen vergelijken. Elke methode zorgt voor een eigen ˆP E en het verschil wordt dan berekend ten opzichte van de PE. Wanneer een methode accuraat werkt dan zijn deze verschillen zo laag mogelijk voor alle modellen. Dit wordt dan onderzocht voor de drie verschillende methodes en worden vervolgens met elkaar vergeleken. De absolute verschillen(MAPAE) tussen PE enP E worden gebruikt om de verschillende methodes met elkaar te vergelijken. De normaleˆ verschillen kunnen gebruikt worden om te oordelen of de verwachte waarde wel gelijk is aan nul en dat er dus geen sprake is bias. Vervolgens worden de standaard deviatie berekend die nodig zijn voor de stochastische test. Met behulp van een t-test wordt onderzocht of de methode met de laagste waardes ook significant beter is dan de overige methodes. De resultaten en analyse worden weergegeven in hoofdstuk 4.

(17)

4 Resultaten en analyse

Eerst wordt de data gesimuleerd met een AR(3)-model met de resultaten en analyse in sectie 4.1. Vervolgens wordt de data gesimuleerd met volatiliteitsclustering. De resultaten en analyse hiervan staan vermeld in sectie 4.2. Ten slotte wordt er een conclusie gegeven over de bruikbaarheid van CV na constatering van volatiliteitsclustering.

4.1 AR(3)-model

Als eerst worden de AR(3)-modellen gesimuleerd met behulp van de reeds genoemde co¨effici¨enten. Daarvan worden eerst de PE’s berekend voor de vijf verschillende modellen. De resultaten en analyse hiervan staan in 4.1.1. Vervolgens worden de verschillen genomen tussen PE en P E dieˆ weergegeven worden in sectie 4.1.2.

4.1.1 PE van AR(3)-simulaties

De resultaten van de PE’s van de AR(3)-simulaties staan in tabel 1. Hier is de eerste kolom met waardes gelijk aan de berekende PE’s door middel van de RMSE. De tweede kolom met waardes zijn met behulp van de MAE.

Table 1: PE’s van AR(3) simulaties RMSE MAE AR(1) 0.7696888 0.6160322 AR(2) 0.7475564 0.5979490 AR(3) 0.7468353 0.5974469 AR(4) 0.7478664 0.5983198 AR(5) 0.7488067 0.5991314

Voor beide schatters is de waarde van de AR(3)-modellen het laagst. Omdat de data ook gesimuleerd wordt door AR(3)-modellen is het ook wel te verwachten dat de PE’s het laagst zijn voor juist dat specifieke model. Vervolgens worden de P E’s berekend voor de drie verschillendeˆ methodes. Dan worden de verschillen genomen tussen PE en P E. De resultaten en analyse vanˆ deze verschillen worden weergegeven in de volgende subparagraaf.

(18)

4.1.2 Verschillende evaluatiemethodes voor AR(3)-simulaties

Vervolgens zijn de PE’s nodig om de MAPAE, de standaard deviatie en de MPAE te berekenen van de verschillende modellen en methodes. Dit wordt weer gedaan met de schatters RMSE en de MAE. In tabel 2 zijn de resultaten hiervan te zien. Het eerste blok is van de out-of-sample methode. De eerste kolom geeft de absolute verschillen(MAPAE) weer tussen PE enP E met deˆ schatter RMSE. De tweede kolom geeft de standaard deviatie weer van deze schatter. De derde kolom zijn de normale verschillen(MPAE) met behulp van de schatter RMSE. De vierde,vijfde en zesde kolom zijn ook respectievelijk MAPAE, standaard deviatie en MPAE maar dan met behulp van de schatter MAE. Vervolgens staan in het tweede blok de waardes voor k-fold CV en in het derde blok de waardes van de geblokte k-fold CV.

Table 2: Simulaties met AR(3) Out-of-sample

MAPAE(RMSE) s.d.(RMSE) MPAE(RMSE) MAPAE(MAE) s.d.(MAE) MPAE(MAE) AR(1) 0.0668351656 0.0031998500 -0.0006789416 0.0569961689 0.0022334675 -0.0006247331 AR(2) 0.0621315416 0.0026390644 -0.0005826032 0.0525843590 0.0018933528 -0.0012389066 AR(3) 0.0619661165 0.0026436873 0.0000402511 0.0523578371 0.0019300091 -0.0014092418 AR(4) 0.0621604854 0.0026926262 -0.0008671086 0.0525215981 0.0019521958 -0.0012214130 AR(5) 0.0624604546 0.0026902957 -0.0021368589 0.0527512270 0.0019439789 -0.0014522543 K-fold cross-validation

MAPAE(RMSE) s.d.(RMSE) MPAE(RMSE) MAPAE(MAE) s.d.(MAE) MPAE(MAE) AR(1) 0.23977328 0.04094642 -0.22440636 0.19359769 0.02639956 -0.18088188 AR(2) 0.25754348 0.04539609 -0.24815015 0.20815231 0.02941728 -0.20028764 AR(3) 0.25967464 0.04586840 -0.24989904 0.20986057 0.02971142 -0.20218851 AR(4) 0.26022527 0.04601302 -0.25163594 0.21037971 0.02974830 -0.20274314 AR(5) 0.26111077 0.04620789 -0.25360973 0.21116215 0.02986363 -0.20359012

K-fold geblokte cross-validation

MAPAE(RMSE) s.d.(RMSE) MPAE(RMSE) MAPAE(MAE) s.d.(MAE) MPAE(MAE) AR(1) 0.04694063 0.001400201 0.002333427 0.03967580 0.001003573 0.001274543 AR(2) 0.04276109 0.001195483 0.001897693 0.03595635 0.0008467682 0.0008242386 AR(3) 0.04253833 0.001203475 0.002245371 0.03588379 0.0008.490679 0.0005644456 AR(4) 0.04282259 0.001213640 0.001005812 0.03609573 0.0008476673 0.0003801375 AR(5) 0.04279154 0.001223041 -0.002993492 0.03604367 0.0008.441584 0.00008417871

(19)

Uit deze resultaten volgt dat de geblokte CV de laagste waarden van de MAPAE heeft van zowel de RMSE als de MAE. De k-fold CV zorgt voor de hoogste waardes. De standaard deviaties zijn allemaal relatief laag. De MPAE’s van de k-fold CV voor de beide schatters liggen niet dicht bij nul waardoor er geconcludeerd kan worden dat er bias aanwezig is bij de k-fold CV. Hierdoor lijkt k-fold CV minder bruikbaar voor tijdreeksmodellen. De geblokte CV en OOS hebben wel waardes van de MPAE dicht bij nul. Of de geblokte CV ook significant lagere waardes heeft van de MAPAE dan OOS wordt in de tabel 3 weergegeven. Hier is de eerste kolom met waardes gelijk aan de t-statistic met behulp van de RMSE. De tweede kolom bevat hiervan de p-waardes. De derde en vier kolom geven de t-statistic en p-waarde weer voor berekeningen door middel van de schatter MAE.

Table 3: De t-statistic en p-waarde van AR(3)-simulaties

RMSE MAE

t-statistic p-waarde t-statistic p-waarde AR(1) -14.20834 0.00 -153.3739 0.00 AR(2) -16.20303 0.00 -203.3567 0.00 AR(3) -16.14307 0.00 -204.9033 0.00 AR(4) -15.93380 0.00 -205.6042 0.00 AR(5) -16.08197 0.00 -207.4474 0.00

Uit p-waardes kan geconcludeerd worden dat ˆP E’s door de geblokte CV dichter bij de PE zitten dan bij OOS. Dat betekent dat de geblokte CV accurater werkt wanneer de modellen gegeneerd worden door stationaire tijdreeksen. Hoe goed de geblokte CV en de andere twee methodes werken bij tijdreeksen met volatiliteitsclustering wordt in sectie 4.2 duidelijk.

4.2 AR(3)-GARCH(1,1)-model

De data wordt nu gegenereerd door middel van een AR(3)-GARCH(1,1)-model. Daarvan worden weer eerst de PE’s berekend maar dan nu voor de tien verschillende modellen. De resultaten en analyse hiervan staan in subsectie 4.2.1. Vervolgens worden de verschillen tussen P E en PEˆ weergegeven in subsectie 4.2.2. Tenslotte wordt er een conclusie gegeven over de bruikbaarheid van cross-validation en OOS wanneer er sprake is van volatiliteitsclustering.

(20)

4.2.1 PE met volatiliteitsclustering

Om een eerste indruk te geven over de gevolgen van volatiliteitsclustering, worden de PE’s gepro-duceerd. De resultaten zijn weergegeven in tabel 4.2.1. Hier staat GARCH steeds voor GARCH(1,1). De eerste kolom met waardes zijn weer gelijk aan de waardes van de RMSE. De tweede kolom is dan weer voor de MAE.

Table 4: PE’s van AR(3)-GARCH(1,1)-simulaties RMSE MAE AR(1) 1.802403 1.383271 AR(2) 1.728224 1.326720 AR(3) 1.725798 1.324853 AR(4) 1.728714 1.327051 AR(5) 1.732151 1.330003 AR(1)GARCH 1.800691 1.381269 AR(2)GARCH 1.752382 1.345120 AR(3)GARCH 1.741628 1.336721 AR(4)GARCH 1.744096 1.338595 AR(5)GARCH 1.746314 1.340523

Het eerste wat op valt uit deze resultaten is dat deze PE’s een stuk hoger liggen dan bij de simulaties van AR(3)-modellen. De RMSE’s en MAE’s van de voorspelde AR-modellen zijn bijna allemaal net iets lager dan de gesimuleerde AR-GARCH-modellen. Alleen AR(1) geeft hogere waardes voor beide schatters dan bij AR(1)-GARCH. Voor beide schatters is wel AR(3) het laagst van de AR-modellen en AR(3)-GARCH het laagst met de GARCH-modellen. Dus het juiste model wordt niet gekozen door middel van de PE’s maar het aantal vertragingen wel. Deze PE’s worden vervolgens gebruikt om te vergelijken met deP E’s van de verschillende methodes. De resultatenˆ en analyse staan in de volgende subparagraaf.

(21)

4.2.2 Verschillende evaluatiemethodes met volatiliteitsclustering

Naast de PE’s worden ook de MAPAE en de MPAE gebruikt voor de analyse van de bruikbaarheid van CV nadat er sprake is van volatiliteitsclustering. Net als bij AR-modellen worden de verschillen berekend tussen PE en P E met behulp van de schatter RMSE en MAE. Dit wordt gedaan voorˆ de tien verschillende voorspelde modellen. De resultaten hiervan van zijn geproduceerd in tabel 5. Zo staan er weer in de eerste, tweede en derde kolom de waardes van respectievelijk de MAPAE, de standaard deviatie en de MPAE van de RMSE. De laatste drie kolom bevatten dezelfde drie berekeningen maar dan met behulp van de schatter MAE. Zo zijn er drie blokken met eerst OOS, daarna k-fold CV en als laatste de geblokte k-fold CV.

Het eerste wat op valt uit de resultaten van tabel 5 is dat alle waardes van de drie verschillende methodes gestegen zijn ten opzichte van de simulaties zonder volatiliteitsclustering. Doordat er veel verschillen zijn, wordt elke methode apart behandeld.

Bij OOS zijn de MAPAE’s van zowel de RMSE en MAE flink toegenomen. Maar het groot-ste verschil tussen AR-simulaties en de AR-GARCH-simulaties is dat de standaard deviaties erg zijn toegenomen. Hierdoor lijkt OOS niet erg bruikbaar voor simulaties met volatiliteitsclustering omdat de verschillen groot kunnen zijn per simulatie. De MPAE’s van beide schatters zijn wel dicht bij nul dus er is geen sprake van bias.

De waardes van k-fold CV zijn het hoogst van de drie methodes. Ten eerste zijn MAPAE’s voor de verschillende modellen veel te hoog om bruikbaar te zijn. Daarnaast zijn de standaard deviatie met behulp van de RMSE vier keer groter dan de MAPAE. Bij de schatter MAE is deze factor ongeveer gelijk aan drie. Ook zijn de MPAE’s van beide schatters niet in de buurt van nul waardoor er geconcludeerd kan worden dat er sprake is van bias. Al met al is k-fold cross-validation niet bruikbaar wanneer er sprake is van volatiliteitsclustering.

De geblokte k-fold CV heeft de laagste waardes voor de MAPAE van de drie methodes. De standaard deviaties zijn ook kleiner bij de geblokte k-fold CV. Daarnaast zijn de MPAE’s van de beide schatters dicht bij nul waardoor er geen sprake is van bias. Van de drie methodes lijkt de geblokte k-fold het beste te werken wanneer de data volatiliteitsclustering bevat. Of de waardes van de geblokte k-fold CV ook significant lager zijn wordt na tabel 6 duidelijk.

(22)

Table 5: Simulaties met AR(3)-GARCH(1,1) Out-of-sample

RMSE MAE

MAPAE s.d. MPAE MAPAE s.d. MPAE

AR(1) 0.3549125194 0.2301579882 0.0261825267 0.2446271031 0.0734719975 0.0019271203 AR(2) 0.3352976950 0.2109525860 0.0263511488 0.2303768468 0.0668413884 0.0018121790 AR(3) 0.3352857437 0.2081184972 0.0267396735 0.2309876639 0.0654176924 0.0002279908 AR(4) 0.3361910919 0.2079620277 0.0230673721 0.2315827964 0.0658484462 -0.0006742578 AR(5) 0.3367574088 0.2082078336 0.0193291638 0.2320162111 0.0652803530 -0.0010055948 AR(1)GARCH 0.3583836504 0.2501720321 0.0235197468 0.2757570992 0.1240905301 -0.2176050119 AR(2)GARCH 0.3382804351 0.2199607993 0.0242202223 0.2573862976 0.1024963341 -0.1952924828 AR(3)GARCH 0.3374921313 0.2181340808 0.0331016968 0.2534144574 0.0972576077 -0.1913100136 AR(4)GARCH 0.3390331941 0.2209613195 0.0306901499 0.2548310421 0.0980184508 -0.1928414718 AR(5)GARCH 0.3394983277 0.2187103832 0.0283505101 0.2552909308 0.0977056806 -0.1939580029 K-fold cross-validation RMSE MAE

AR(1) 0.9921537 3.9611839 -0.8843481 0.7316203 2.2098308 -0.6696190 AR(2) 1.0545191 4.4550515 -0.9637972 0.7798828 2.5017577 -0.7311017 AR(3) 1.0612439 4.4983056 -0.9684385 0.7858098 2.5328988 -0.7373302 AR(4) 1.0629334 4.5035603 -0.9729511 0.7885739 2.5466629 -0.7399760 AR(5) 1.0652974 4.5343237 -0.9787210 0.7907691 2.5659375 -0.7420534 AR(1)GARCH 0.9938219 3.9549184 -0.8856261 0.7326959 2.2114804 -0.6711587 AR(2)GARCH 1.0269322 4.0422725 -0.9389208 0.7594634 2.2671510 -0.7118176 AR(3)GARCH 1.0410241 4.1949422 -0.9433735 0.7711504 2.3742241 -0.7244016 AR(4)GARCH 1.0428673 4.1859704 -0.9475999 0.7737540 2.3803622 -0.7271293 AR(5)GARCH 1.0455154 4.2185921 -0.9532203 0.7763052 2.4011249 -0.7301189

K-fold geblokte cross-validation

RMSE MAE

AR(1) 0.243737211 0.115750095 0.034661715 0.161981825 0.034318965 0.007961193 AR(2) 0.231525387 0.112543857 0.032433528 0.154087895 0.032121325 0.005679821 AR(3) 0.232127279 0.111813729 0.032615328 0.154775523 0.031988695 0.004128316 AR(4) 0.233258152 0.113957601 0.028426658 0.155900821 0.032847896 0.003038319 AR(5) 0.233916427 0.114038582 0.025005064 0.156419111 0.032636996 0.003183898 AR(1)GARCH 0.246097598 0.120107003 0.033069922 0.163367797 0.035065708 0.006193366 AR(2)GARCH 0.233792016 0.111573962 0.030987321 0.155575319 0.032610738 0.004924495 AR(3)GARCH 0.232594021 0.109398503 0.040164655 0.154821883 0.032095233 0.004007089 AR(4)GARCH 0.234205373 0.112575203 0.037112786 0.156386982 0.032928960 0.003403071 AR(5)GARCH 0.234111862 0.111282315 0.034862768 0.156197249 0.032487907 0.003542057

(23)

Table 6: De t-statistic en p-waarde van AR(3)-GARCH(1,1)-simulaties

RMSE MAE

t-Statistic p-waarde t-Statistic p-waarde AR(1) -0.9604770 0.1685237 -2.408152 0.008106821 AR(2) -0.9220611 0.1783596 -2.375025 0.008867773 AR(3) -0.9225921 0.1782212 -2.382471 0.008691472 AR(4) -0.9032565 0.1833037 -2.304013 0.010713095 AR(5) -0.9018087 0.1836878 -2.316301 0.010371634 AR(1)GARCH -0.9348835 0.1750370 -2.365533 0.009097063 AR(2)GARCH -0.9364947 0.1746223 -2.382954 0.008680150 AR(3)GARCH -0.9588624 0.1689299 -2.439132 0.007447796 AR(4)GARCH -0.9311804 0.1759925 -2.367111 0.009058595 AR(5)GARCH -0.9470190 0.1719289 -2.408137 0.008107153

Wanneer er uit wordt gegaan van een p-waarde van 0.05 dan kan er geconcludeerd worden dat de RMSE’s van de geblokte CV niet significant lager zijn dan OOS. De waardes van de MAE hebben wel allemaal een p-waarde die lager is dan 0.05. Maar door de relatief hoge standaard deviatie bij voornamelijk de RMSE kan er worden geconcludeerd dat ook de geblokte CV niet erg bruikbaar is met betrekking tot data met volatiliteitsclustering.

Kortom, De prediction errors zijn erg hoog wanneer er sprake is van volatiliteitsclustering. Het juiste model wordt door PE’s ook niet voorspeld. Daarnaast hebben de drie verschillende methodes hoge waardes van de MAPAE en standaard deviatie van beide schatters. Vooral k-fold is niet bruikbaar omdat de MPAE niet in de buurt ligt van nul en er dus bias is. Maar ook door de hoge waardes zijn OOS en geblokte CV niet toepasbaar met deze data. Al met al kan er geconcludeerd worden dat OOS en de verschillende vormen van cross-validation niet bruikbaar zijn, wanneer er sprake is van volatiliteitsclustering.

(24)

5 Conclusie

In dit onderzoek stond centraal wat de nadelige gevolgen zijn van volatiliteitsclustering op cross-validation(CV). Eerst werden stationaire tijdreeksen gesimuleerd. Daarbij bleek dat de geblokte k-fold CV het meest bruikbaar was en vervolgens de OOS met fixed origin. De k-fold CV was minder bruikbaar omdat er sprake was van bias. Vervolgens werd de data gesimuleerd met behulp van een AR(3)-GARCH(1,1)-model. Hier bleek in eerste instantie dat de waarden van de PE’s niet het laagst waren voor het juiste model. Het aantal vertragingen werden wel goed voorspeld. Vervolgens bleken hier ook de absolute verschillen tussen PE en P E het laagst voor de geblokteˆ k-fold CV. Alleen was de standaard deviatie bij voornamelijk de RMSE relatief groot. Hierdoor waren de absolute verschillen door middel van RMSE bij de geblokte k-fold CV niet significant kleiner dan die van OOS. Al met al kon er worden geconcludeerd dat de OOS en de twee methodes van cross-validation niet bruikbaar zijn wanneer er sprake is van volatiliteitsclustering.

In dit onderzoek werden alleen data gesimuleerd. Het is mogelijk dat in de praktijk volatiliteitsclus-tering in minder mate voorkomt. Daarom is er een kans dat cross-validation wel bruikbaar is op empirische data wanneer er sprake is van verandering van volatiliteit. Daarnaast is het misschien nodig om een hoge waarde voor k te nemen. Dit zorgt ervoor dat er minder correlatie is tussen de trainingsset en de testset. Ook zijn er ook andere methodes van cross-validation of OOS die misschien wel een beter resultaat geven bij deze gesimuleerde data. Andere mogelijkheden zijn om het aantal simulaties of datapunten te vergroten. Dit onderzoek is ook gedaan met lagere aantal simulaties en datapunten en daar kwamen dezelfde conclusies uit. Ook is het mogelijk dat cross-validation beter werkt bij multivariate GARCH-modellen of met andere waardes voor alpha en beta. Kortom k-fold CV, geblokte k-fold CV en OOS met fixed origin zijn niet bruikbaar voor gesimuleerde univariate GARCH-modellen.

(25)

Bibliografie

- Bergmeir, C., Ben´ıtez, J.M. (2012). On the use of cross-validation for time series predictor eval-uation. Information Sciences , 191 (22), 192 – 213. Data Mining for Software Trustworthiness. - Bergmeir, C., Hyndman, R.J., Koo, B. (2018). A note on the validity of cross-validation for evaluating autoregressive time series prediction. Computational Statistics & Data Analysis. , 120, 70 – 83.

- Francq, C., Horv´ath, L., Zako¨ıan, J. (2011). Merits and Drawbacks of Variance Targeting in GARCH Models . Journal of Financial Econometrics, 9 (4), 353-382.

- Francq, C., Horv´ath, L., Zako¨ıan, J. (2016). variance Targeting Estimation of Multivariate GARCH Models. Journal of Financial Econometrics, 14 (2), 353-382.

- Ives, R., Abbott, K.C., Ziebarth, N.L. (2010). Analysis of ecological time series with ARMA(p,q) models. Ecology, 91 (3), 858-871.

- Miccich`e, S. (2013). Empirical relationship between stocks’ cross-correlation and stocks’ volatility clustering. Journal of Statistical Mechanics: Theory and Experiment,2013 (05), P05015, 1-17. . - Racine, J. (2000). A consistent validatory method for dependent data: hv-block cross-validation. Journal of Econometrics, 99, 39 – 61.

- Tashman, L.J. (2000). Out-of-sample tests of forecasting accuracy: a tutorial and review. Inter-national Journal of Forecasting, 16 (4), 437 - 450.

- Xue, Y., Gen¸cay, R. (2012). Trading frequency and volatility clustering. Journal of Banking & Finance, 36 (3), 760 - 773.