• No results found

Cross-validation voor wisselkoersmodellen : cross-validation evaluatie versus out-of-sample evaluatie

N/A
N/A
Protected

Academic year: 2021

Share "Cross-validation voor wisselkoersmodellen : cross-validation evaluatie versus out-of-sample evaluatie"

Copied!
42
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Cross-validation voor wisselkoersmodellen Cross-validation evaluatie versus out-of-sample evaluatie

Hidde Top

Bachelorscriptie Econometrie Universiteit van Amsterdam Academisch jaar: 2017/2018 Studentnummer: 11043229 Begeleider: Bram Wouters

(2)

Inhoudsopgave

1 Inleiding 2 2 Tijdreeks evaluatiemethoden 4 2.1 Tijdreeksmodellen . . . 4 2.2 Out-of-sample evaluatie . . . 5 2.3 Cross-validation . . . 7 2.4 Evaluatiecriteria . . . 9 3 Onderzoeksopzet 13 3.1 Gesimuleerd onderzoek . . . 13 3.2 Empirisch onderzoek . . . 15

3.2.1 Algemene precisie evaluatiemehoden . . . 15

3.2.2 Precisie afwijkende modellen . . . 16

4 Resulaten en analyse 17 4.1 Resultaten gesimuleerde data . . . 17

4.2 Resultaten empirische data . . . 18

4.2.1 Informatiecriteria . . . 19

4.2.2 Evaluatiemethoden . . . 19

4.2.3 Precisie afwijkende modellen . . . 22

5 Conclusie en aanbevelingen 23 Bibliografie 24 Bijlagen 27 Bijlage I . . . 27 Bijlage II . . . 28 Bijlage III . . . 31 Bijlage IV . . . 33 Bijlage V . . . 36

(3)

1

Inleiding

Elke dag wordt er gemiddeld 5.1 biljoen dollar omgezet in de handel in va-lutaparen (Bank for International Settlements, 2016, p. 4). Dat is ongeveer zeven keer de waarde van alle producten en diensten die Nederland in een jaar produceert. Door de enorme omzet van de handel in valuta, is er veel aandacht voor het voorspellen van wisselkoersen. Voor het voorspellen van wisselkoersen worden tijdreeksmodellen gebruikt. De prestaties en betrouw-baarheid van deze voorspellingen moeten echter wel gecontroleerd en getest worden.

De manier waarop verschillende tijdreeksmodellen getest en vergeleken kunnen worden, is onderwerp van discussie. De, bij niet tijdsafhankelijke econometrische modellen gebruikte, cross-validation (CV) techniek kan vol-gens velen niet toegepast worden op tijdreeksmodellen (Bergmeir & Benitez, 2012, p. 197). Cross-validation deelt de dataset op in meerdere blokken van willekeurige volgorde (de blokken bestaan niet per se uit aaneensluitende datapunten). Met een deel van deze blokken wordt het model allereerst ge-traind, ofwel geschat, om het vervolgens op de overige blokken te testen op betrouwbaarheid. Deze procedure wordt meerdere keren herhaald, waarbij elk blok eenmaal het testblok is en de rest van de tijd een trainingsblok. Dit wordt K-fold cross-validation genoemd, waarbij de K staat voor het aantal blokken waarin de data is opgedeeld. Omdat elk blok eenmaal het testblok is, wordt de cross-validation K-maal uitgevoerd, oftewel in K-folds. Wanneer er in de literatuur van cross-validation wordt gesproken, gaat het in de regel om K-fold cross-validation.

Cross-validation zou problemen op kunnen leveren vanwege eventuele niet-stationariteit en afhankelijkheid van de datapunten in het trainingsblok van datapunten in het testblok (Arlot & Celisse, 2010, pp. 65-66). Door schijnbare moeilijkheden van het toepassen van cross-validation, wordt vaak de voorkeur gegeven aan out-of-sample evaluatie (OOS)(Tashman, 2000, p. 438; Bergmeir, Hyndman, & Koo, 2015, p. 3). Met out-of-sample evaluatie wordt het tijdreeksmodel getraind op de eerste T datapunten, om het model vervolgens te testen met de de overige n − T datapunten, waarbij n het to-taal aan datapunten is. Out-of-sample evaluatie wordt alom gebruikt in de evaluatie van wisselkoersmodellen (Zie bijvoorbeeld: Meese & Rogoff, 1983; Meese & Rogoff, 1988; Meese, 1990; Mark, 1995; Berkowitz & Giorgianni, 2001).

(4)

de volledige dataset voor zowel het trainen als het testen van de data, waar OOS alleen het laatste deel gebruikt om te testen. Daarom kan de voor-spelling met OOS sterk afhangen van bepaalde karakteristieken die alleen in de trainingsdata voorkomen (Bergmeir, Hyndman, & Koo, 2015).

De hierboven genoemde problemen bij CV zijn aangepakt door bijvoor-beeld niet-afhankelijke cross-validation uit te voeren. Dan worden de data-punten rond het blok met testdata weggelaten uit de training voor het model. Op die manier wordt voorkomen dat er getest wordt op data die afhankelijk is van trainingsdata. Hierbij ontstaan echter problemen wanneer er gebruik wordt gemaakt van een kleine dataset of een klein aantal folds; dan kan de weggelaten data een te groot deel van het totaal opslokken (Racine, 2000).

Een andere uitbreiding van CV is om de blokken van trainings- en test-data niet uit willekeurige punten te laten bestaan, maar uit aaneensluitende datapunten. Hiermee wordt de afhankelijkheid van datapunten die later in het testblok liggen, voorkomen. Dit wordt geblokte K-fold cross-validation genoemd.

Er is vergelijkend onderzoek gedaan naar de prestaties van OOS en CV. CV komt in verschillende onderzoeken naar voren als de best presterende methode vergeleken met OOS (Bergmeir & Benitez, 2012; Bergmeir, Con-stantini, & Benitez, 2014; Bergmeir, Hyndman, & Koo, 2015). Echter is er geen onderzoek gedaan naar de prestaties van CV evaluatie op wisselko-ersmodellen. In dit onderzoek worden de prestaties van out-of-sample eval-uatie vergeleken met die van cross-validation evaleval-uatie en specifiek op em-pirische data van wisselkoersen. Er wordt onderzocht of het gebruik van CV leidt tot betere model keuze dan het gebruik van OOS.

Om een beter theoretisch inzicht te krijgen in de prestaties van CV en OOS wordt er eerst onderzocht hoe beide methoden presteren met ges-imuleerde data. In zo’n gecontroleerde omgeving is het eenvoudig vast te stellen welke evaluatiemethode het beste werkt. Het empirische onderzoek van Bergmeir, Hyndman en Koo (2015) wordt, met enkele toevoegingen, herhaald. Daarna worden de evaluaties van CV en OOS van verschillende tijdreeksmodellen die wisselkoersen voorspellen, vergeleken. Het is niet de bedoeling van dit onderzoek om een beter voorspellend model van wisselko-ersen te vervaardigen. Het doel is om meer inzicht te krijgen in de prestaties van beide evaluatie technieken op specifieke empirische data.

Als laatste wordt de precisie van de evaluatiemethoden onderzocht als het werkelijke model ver weg ligt van het geschatte model. Dit wordt gedaan met de best presterende out-of-sample en de best preterende cross-validation

(5)

evaluatiemethode uit het empirische deel van dit onderzoek.

In het tweede deel van deze scriptie wordt de theoretische achtergrond van tijdreeksmodellen, CV en OOS verder uitgediept. In hoofdstuk 3 wordt de onderzoeksmethode toegelicht. Dit wordt gevolgd door een uiteenzetting van de resultaten en analyse daarvan. In het laatste hoofdstuk worden conclusies uit de analyse getrokkken.

2

Tijdreeks evaluatiemethoden

Voor het maken van een voorspelling is een correct model nodig. Het evalueren van de voorspelling van verschillende modellen is daarom cruci-aal. Aangezien in dit onderzoek tijdreeksmodellen het onderwerp zijn, zal er eerst een korte uiteenzetting van tijdreeksmodellen worden gegeven. Ver-volgens wordt er dieper ingegaan op CV en OOS. Met die kennis worden de evaluatiecriteria uitgelegd: hoe wordt er bepaald welke evaluatiemethode het beste presteert?

2.1

Tijdreeksmodellen

Een tijdreeks is een reeks aan datapunten die is geordend op chronol-ogische volgorde. Een voorbeeld hiervan is een beurskoers. Elke seconde verschiet de koers van een fonds. Wanneer de verschillende koerswaarden op elke tijdseenheid achter elkaar worden gezet, ontstaat de karakteristieke beursgrafiek. Het koersverloop van een bepaald aandeel kan beschreven wor-den met een tijdreeksmodel. In een tijdreeksmodel wordt de huidige koers, bijvoorbeeld tijdstip t, verklaard uit waarden uit het verleden en er komt een innovatieterm bij:

yt = φyt−1+ t

Met ytde beurskoers op tijdstip t, φ de parameter die gevoeligheid van yt

voor yt−1 weergeeft, yt−1 de lagterm en t de innovatie. Dit is een voorbeeld

van een simpel lineair tijdreeksmodel, deze vorm wordt het autoregressieve model genoemd. Als er een enkele lagterm gebruikt wordt om tijdstip t te verklaren, wordt er gesproken van een AR(1)-model. Wanneer er p lagtermen gebruikt worden, heet het een AR(p) model (Heij, De Boer, Fransen, Kloek & Van Dijk, 2004, pp. 538-541).

(6)

Naast het AR()-model wordt er in de tijdreeksanalyse veel gebruik gemaakt van het moving-average model, ofwel MA()-model. Met het MA()-model wordt de beurskoers op tijdstip t niet bepaald door de beurskoers in de vorige tijdperioden en een enkele innovatie, maar dan worden er lagtermen genomen van de voorgaande innovaties:

yt= t+ θt−1

Wederom geldt dat het bovenstaande een MA(1)-model is, er is maar een enkele lagterm gebruikt. Bij p lagtermen wordt er gesproken van een MA(p)-model (Heij et al., 2004, pp. 542-544).

In dit onderzoek wordt er uitsluitend gebruikgemaakt van AR(p)-modellen. Er wordt een AR()-model gesimuleerd en op de empirische data wordt er een AR()-model geschat.

Een belangrijk concept in de tijdreeksanalyse is stationariteit. Stationar-iteit houdt in dat de basiskarakteristieken van de tijdreeks niet veranderen met de tijd. Een reeks is stationair wanneer de willekeurige tijdspunten xt, ..., xn dezelfde verdeling hebben als een andere willekeurige greep uit de

reeks, bijvoorbeeld xt−k, ...xn−k (Heij et al., 2004, p. 536).

Stationariteit is een belangrijk begrip voor zowel het modelleren als het evalueren van modellen. Een evaluatie techniek kan een slechte schatting opleveren als er geen rekening wordt gehouden met eventuele non-stationariteit. Voor het testen op stationariteit kan er gebruik worden gemaakt van de Dickey-Fuller-unitroottest. Die test of er een eenheidswortel in het model zit. Zo ja, dan is er geen sprake van stationariteit (Heij et al., 2004, pp. 597-599).

2.2

Out-of-sample evaluatie

Door het grote belang van wisselkoersen in de internationale economie, is er veel aandacht uitgegaan naar het voorspellen van deze wisselkoersen. In het onderzoek naar de voorspelbaarheid van wisselkoersen is het gebruik van out-of-sample technieken wijdverspreid voor modelselectie (Zie bijvoorbeeld: Meese & Rogoff, 1983; Meese & Rogoff, 1988; Meese, 1990; Mark, 1995; Berkowitz & Giorgianni, 2001).

Er zijn verschillende manieren om out-of-sample toe te passen. De meest eenvoudige is om de dataset in twee delen van verschillende lengte op te delen. Bijvoorbeeld 70% om 30%, waarbij de eerste 70% wordt gebruikt om

(7)

het model te ’trainen’, ofwel schatten, en de rest van de data wordt gebruikt om het getrainde model te testen. De testdata is dus het ’out-of-sample’ deel. Dit wordt ’fixed-origin’ out-of-sample genoemd. Deze eenvoudige manier van het evalueren van voorspellingen wordt echter niet veel gebruikt in toegepast onderzoek(Bergmeir & Benitez, 2012, 194). De keuze van de grootte van de trainings- en testset kan namelijk onevenredig veel invloed hebben op de voorspellende kwaliteit van het model. Uitschieters in de trainingsset kunnen bijvoorbeeld het model een scheve schatting opleveren. Ook worden seizoenseffecten niet meegenomen wanneer er arbitrair een scheiding tussen training en testdata wordt gemaakt.

Om de problemen met fixed-origin op te lossen, zijn er een aantal aan-passingen voorgesteld. Drie variaties op de eenvoudige out-of-sample meth-ode zijn het meest voorkomend: recalibration’, ’rolling-origin-update’ en ’rolling-window evaluation’.

Rolling-origin out-of-sample houdt in dat het trainingsdeel van de dataset dynamisch is. Bij fixed-origin is het laatste punt van de trainingsset de ’origin’, punt T. Vanaf de origin worden alle voorspellingen in de testset gedaan. Bij rolling-origin worden de voorspellingen net als bij fixed-origin allereerst alleen vanaf T gemaakt. Echter, daarna volgen ook voorspellingen vanaf T+1 tot en met n-1, waarbij n de grootte van de volledige dataset is.

Er zijn twee variaties van de rolling-origin-techniek: ’rolling-origin-recalibration’ en ’rolling-origin-update’. Met ’rolling-origin-recalibration’ wordt het model herijkt met elke stap van T+1 tot n-1. Dit betekent dat het model volledig opnieuw geschat wordt bij elke stap dat de trainingsdata uitgebreid wordt.

Met ’rolling-origin-update’ worden de nieuwe punten in de trainings-data, T+1 tot n-1, niet gebruikt om het model opnieuw te schatten. Er wordt vastgehouden aan het model dat geschat is op basis van de eerste T datapunten. De punten van T+1 tot n-1 worden alleen gebruikt om het model te ’updaten’; het aantal lags van het eerste geschatte model wordt niet aangepast, alleen de waarden van de bijbehorende co¨effici¨enten worden aangepast (Bergmeir & Benitez, 2012, p. 194).

Het herijken van het model bij elke uitbreiding van de trainingsset levert in de meeste gevallen een betere schatting op. Echter, het kost veel comput-erkracht om het model bij elke nieuwe stap opnieuw te schatten. Daarom is het gebruik van ’rolling-origin-update’ universeler. Het model wordt eenma-lig door een onderzoeker geschat waarna er updates worden uitgevoerd met nieuwe datapunten (Tashman, 2000, p. 440).

(8)

be-langrijk verschil: het gebruikte aantal trainingsdatapunten blijft gelijk. Wan-neer datapunt T+1 wordt toegevoegd aan de trainingsset, valt het eerste datapunt weg. Zodat de ’window’ waarmee het model geschat wordt, gelijk blijft.

In tegenstelling tot wat Bergmeir en Benitez (2012, p.194) stellen, wordt in empirisch onderzoek naar wisselkoersen rolling-window evaluation het meeste gebruikt (Meese & Rogoff, 1988, p. 940). Om die reden gaat de aandacht ook uit naar rolling-window evaluation in dit onderzoek.

2.3

Cross-validation

Cross-validation wordt als evaluatietechniek in econometrische modellen veel gebruikt. Bij het evalueren van tijdreeksmodellen is de toepassing van cross-validation recenter in zwang geraakt. Het verschil tussen OOS en CV zit in het gebruik van trainings- en testsets. Waar de trainingsset en testset bij OOS elkaar chronologisch opvolgen, wordt er bij CV gebruikgemaakt van willekeurige trainings- en testsets. Om die reden werd CV ook lang gezien als niet toepasbaar op tijdreeks modellen; het zou niet mogelijk zijn om het model te trainen met data die chronologisch later komen en te testen op oudere data.

De aandacht voor CV-evaluatie voor tijdreeksmodellen is de laatste jaren toegenomen. Er is onderzoek gedaan naar de voordelen en nadelen van CV en OOS (Bergmeir & Benitez, 2012; Bergmeir, Constantini, & Benitez, 2014; Bergmeir, Hyndman, & Koo , 2015). In deze onderzoeken worden verschil-lende cross-validation vormen vergeleken met rolling-origin, rolling-window en simpele OOS. In de inleiding is er ingegaan op de verschillende manieren waarop CV is verbeterd dan wel aangepast om bijvoorbeeld problemen met afhankelijkheid te voorkomen. Hierna wordt er dieper ingegaan op de theo-retische bruikbaarheid van de verschillende cross-validation technieken.

De eerste aanpassing op K-fold CV is dat er oplossingen zijn aangedra-gen voor de eventuele afhankelijkheid van de trainings- en testdata. Wan-neer bijvoorbeeld datapunt n-3 gebruikt wordt in de training, kan dat punt afhangen van voorgaande datapunten. Bijvoorbeeld afhankelijk van de vorige twee datapunten,n-4 en n-5 in een AR(2)-model. Dit zorgt er voor dat met CV het model ’overfitted’ is (Arlot & Celisse, 2010, p.66). De afhankelijkheid wordt voorkomen door voor en na de trainings- en testset de afhankelijke dat-apunten weg te laten. Dit wordt non-dependent cross-validation genoemd (Bergmeir & Benitez, 2012, p.199).

(9)

De voorgenoemde oplossing levert echter ook weer problemen op. Een groot deel van de data verloren kan namelijk verloren gaan. Wanneer er met een kleine dataset wordt gewerkt of met een klein aantal folds, valt een groot deel van de data weg. Dan blijft er niet genoeg data over om het model goed mee te trainen. Non-dependent cross-validation is daarom maar in enkele gevallen te gebruiken; bij grote datasets, als er met een groot aantal folds wordt gewerkt of als het aantal lags van het model laag is (Bergmeir & Benitez, 2012, p.199).

Om te voorkomen dat er te veel data wegvalt voor het trainen en testen heeft Racine (2000) voorgesteld om de data bij K-fold cross-validation in chronologisch geordende blokken op te delen. Dit is niet standaard bij het gebruik van K-fold CV. Normaliter wordt de dataset ook in verschillende blokken opgedeeld. Echter, deze blokken bestaan niet uit aaneengesloten datapunten. Het kunnen willekeurige punten zijn die een blok vormen (Arlot & Celisse, 2010, p.54). Bij de hv-block cross-validation methode van Racine (2000) bestaan de blokken wel uit aaneengesloten en chronologisch opvol-gende datapunten. De methode van Racine wordt in het vervolg geblokte K-fold CV genoemd.

Door de data in aaneengesloten blokken op te delen wordt het probleem met afhankelijkheid deels ondervangen. De datapunten die later in het blok zitten, zijn niet meer afhankelijk van punten buiten het blok. De eerste data-punten in het blok zouden uiteraard nog wel afhankelijk zijn. Daarom worden de afhankelijke datapunten voor en na de trainings- en testsets verwijderd. Door de data in aaneengesloten blokken op te delen wordt er minder data verwijderd (Racine, 2000, pp. 45-47).

Net als bij OOS, levert non-stationariteit problemen op bij het uitvoeren van CV. De testset kan andere karakteristieken hebben dan de data waarop getraind wordt, waardoor er geen goede voorspelling gemaakt kan worden. Door zowel te trainen als te testen op alle data en een gemiddelde te nemen van de uitkomsten is de invloed op CV kleiner. Toch is het van belang dat er alleen gewerkt wordt met stationaire tijdreeksen (Bergmeir & Benitez, 2012, p.198).

Wanneer er gebruikgemaakt wordt van K-fold cross-validation rijst de vraag wat het aantal folds, K, dient te zijn. De meest uitgebreide manier is om het aantal folds gelijk te stellen aan het aantal datapunten. Elk punt wordt dan eenmaal gebruikt voor testen, dit wordt leave-one-out cross-validation (LOOCV) genoemd. LOOCV vergt echter veel computerkracht. Molinaro, Simon en Pfeiffer (2005) laten zien dat het gebruik van tien folds

(10)

de precisie van LOOCV benadert. Door het gemiddelde te nemen van tien verschillende error schattingen wordt de bias geminimaliseerd.

De kritiek op verschillende evaluatiemethoden kan samengevat worden onder twee noemers: adequaatheid en diversiteit. Adequaatheid betekent dat er voor elke horizon, ofwel testperiode, genoeg voorspellingen moeten zijn. Diversiteit houdt in dat de voorspelling die gedaan wordt, niet afhangt van speciale gebeurtenissen in de tijdreeks (Bergmeir & Benitez, 2012, p.193). Bij wisselkoersdata is de adequaatheid geen probleem. Data van wisselko-ersen zijn tegenwoordig per seconde verkrijgbaar. Daarnaast wordt er bijna 24 uur per dag en 7 dagen per week gehandeld in valuta, waardoor er geen gebrek aan datapunten is. Ook is er over lange perioden wisselkoersdata beschikbaar, bij belangrijke valuta in ieder geval. Waardoor er meerdere, lange, testperioden gebruikt kunnen worden.

Diversiteit levert echter meer problemen op. De wisselkoers van valuta hangt sterk af van uitzonderlijke gebeurtenissen. Zoals de Nixon-shock waar-bij de dollar losgekoppeld werd van goud of de Volcker-shock waarwaar-bij de Fed-voorzitter de rentestand sterk opwaarts bijstelde. Wanneer er een on-verwachte schok in een tijdreeks zit, kan dit betekenen dat de reeks niet stationair is. Stationariteit is cruciaal voor het kunnen evalueren van een geschat model met OOS (Inoue & Killian, 2006, p. 274). Dit geldt echter ook voor evaluatie met CV. Wanneer de innovaties in het laatste datablok een andere verdeling hebben, is het testen op dit blok niet betrouwbaar. Het model is getraind op data die een bepaalde verdeling heeft, hiermee is geen goede voorspelling te geven van data uit een andere verdeling.

2.4

Evaluatiecriteria

Wanneer een van de evaluatiemethoden is toegepast, moet er een manier zijn om te vergelijken welke het meest precies is. De methoden en schatters die in dit onderzoek zijn gebruikt worden hierna uiteengezet.

De dataset wordt allereerst opgedeeld in twee delen: de ’bekende’ data, y en de ’onbekende’ data, ˜y. Het totaal aantal datapunten is N , de ’bekende’ data loopt tot n en de ’onbekende’ data van n + 1 tot N . Er wordt gewerkt met een AR(p)-model dat er als volgt uit ziet:

yt= φ0+ φ1yt−1+ φ2yt−2+ ... + φpyt−p+ t

Waarbij yi, ∀i ∈ n de waarden van de tijdreeks zijn, φj, j = 0, ..., p de

(11)

t ∼ IID(0, σ2). De bovenstaande uitdrukking kan herschreven worden als:

yt= φ0xt+ t

Met φ0 = (φ0, φ1, ..., φp)0 en xt = (yt−1, yt−2, ..., yt−p). Het doel is om een

voorspelling te doen van ˜y met een model dat geschat is op y. Het geschatte model ziet er als volgt uit:

yt= ˆφ0xt

Waarbij ˆφ = [Pn

t=1xtx0t] −1[Pn

t=1xtyt]. Met het geschatte model kan er

vervolgens een voorspelling worden gedaan over toekomstige (onbekende) data ˜y. Daaruit kan een ’Prediction Error’ worden berekend, in dit geval de ’mean squared error’:

PE = E[˜y − ˆφ0x]˜2

De prediction error is het verschil tussen de schatting op basis van de bekende data en de eigenlijke onbekende data. In realiteit wordt er OOS of CV toegepast, waardoor niet de gehele bekende dataset beschikbaar is om het model mee te schatten. Wanneer een model met bijvoorbeeld OOS wordt ge¨evalueerd, ziet de PE er als volgt uit:

d P E = n1 Pn t=1(ytt− ˆφ−t 0 xtt)2 Met ˆφ−t = [Pnj=1,j6=txTjxTj0]−1[ Pn j=1,j6=txTjyjT] ˆ

φ−t is hier de OOS schatter van φ. De trainingsdataset is hier xTj, yTj

ofwel xj, yj; j 6= t en de testdataset is xtt, ytt. Het model is geschat met alle

punten in de bekende dataset behalve xt

t, vervolgens wordt er getest op xtt.

xt

t kan in dit geval ook een blok van data voorstellen en het is in het geval

van OOS het laatste datablok. Wanneer er over CV wordt gesproken, kan xtt een willekeurig datapunt of datablok zijn, dit hoeft niet de laatste te zijn.

Er wordt onderzocht hoe goed P E, P E benadert. Er wordt namelijkd

niet gezocht naar het beste model, maar naar de evaluatiemethode die het model kiest dat de realiteit het beste benadert. Met andere woorden: de evaluatiemethode met een P E die het dichtste bij P E ligt, werkt het beste.d

Daarom is er een maat nodig voor het vinden van dit verschil, wat in het vervolg de voorspellingsmaat wordt genoemd. Een voorbeeld van een voor-spellingsmaat is het absolute verschil, ’absolute error’:

(12)

V PAE = |P E( ˆd φ

−t, xt) − P E( ˆφ, ˜x)|

Er wordt gewerkt met een zogenoemde Monte Carlo simulatie. Dat wil zeggen dat er meerdere trekkingen worden gedaan uit een bepaalde verdeling om verschillende tijdreekspaden te bepalen. Neem bijvoorbeeld een geschat AR(1)-model, de innovaties hebben een bepaalde verdeling, vaak t ∼ IID(0, σ2).

Nu kan er met het vastgestelde AR()-modellen meerdere paden van de tij-dreeks gesimuleerd worden. De eerste punten van de tijtij-dreeks worden als volgt bepaald:

y1 = φy0+ 1

y2 = φy1+ 2

...

yn= φyn−1+ n

Hierbij worden de innovaties 1, 2, ..., n gesimuleerd, willekeurig gekozen

door het algoritme. Met Monte Carlo simulatie wordt uit de verdeling van de innovaties een x aantal vectoren van innovaties getrokken. Met deze ver-schillende vectoren worden dan ook verver-schillende paden van hetzelfde AR(1)-model gesimuleerd.

Omdat er met meerdere simulaties van hetzelfde model wordt gewerkt, is er een gemiddelde te nemen van het verschil tussen de P E en de P E. Ditd

geeft de volgende voorspellingsmaat, de ’mean absolute error’: V PM AE = 1

m

Pm

k=1|P Edk( ˆφ−t, xt) − P Ek( ˆφ, ˜x)|

Waarbij m het aantal Monte-Carlotrekkingen is.

Er kan ook een voorspellingsmaat berekend worden zonder de absolute waarde te nemen. Uit de waarde die uit de berekening volgt, is de bias van de geschatte PE af te lezen. Of P E groter of juist kleiner is dan de P E. Ditd

wordt simpelweg de ’mean error’ genoemd. V PM E = 1

m

Pm

k=1(P Edk( ˆφ−t, xt) − P Ek( ˆφ, ˜x))

Er is uitgebreide discussie over de te kiezen ’error-measure’ als prediction error (Bergmeir & Benitez, 2012, pp. 195-196). Aangezien dit onderzoek een deel van het onderzoek van Bergmeir, Hyndman en Koo (2015) nabootst, is er gekozen om dezelfde error-measure te gebruiken. Zij gebruiken de ’root mean squared error’(RMSE) en de ’mean absolute error’ (MAE) voor het berekenen van de prediction error.

(13)

P ERM SE =q1 n Pn t=1(˜yt− ˆφ0x˜t)2 P EM AE = 1 n Pn t=1|˜yt− ˆφ0x˜t|

Als voorspellingsmaat gebruiken Bergmeir, Hyndman en Koo (2015) de ’mean absolute error’ (MAE) en de ’mean error’ (ME). MAE en ME worden ook in dit onderzoek gebruikt als voorspellingsmaat.

V PM AE = 1 m Pm k=1|P Edk( ˆφ−t, xt) − P Ek( ˆφ, ˜x)| V PM E = m1 Pm k=1(P Edk( ˆφ−t, xt) − P Ek( ˆφ, ˜x))

Naast de door Bergmeir, Hyndman en Koo (2015) gebruikte evaluatiecri-teria te gebruiken, is er nog ´e´en toegevoegd. De RMSE en de MAE zijn namelijk schaalafhankelijk. Een functie is schaalonafhankelijk wanneer dezelfde resultaten worden behaald met x als met cx, waarbij c een willekeurige con-stante is.

Door het gebrek aan schaalbaarheid van de genoemde evaluatiecriteria kunnen de RMSE en de MAE niet gebruikt worden voor het vergelijken van heterogene tijdreeksen. Om die reden is bij het empirisch onderzoek gebruik gemaakt van meerdere evaluatiecriteria. Om schaalafhankelijkheid te voorkomen, kan er gebruik gemaakt worden van de ’percentage error’:

P EP E = 100y˜t− ˆφ0x˜t

˜ yt

Het gemiddelde en de absolute waarde nemen van de ’percentage error’ lijdt tot de ’mean absolute percentage error’ (MAPE):

P EM AP E = n1 Pn t=1|100 ˜ yt− ˆφ0x˜t ˜ yt |

De PE en MAPE kunnen echter ook weer problemen opleveren. In ti-jdreeksen is het namelijk niet ongebruikelijk dat er waarden in zitten die dicht bij nul liggen of nul zijn. Waarden die dicht bij nul liggen, laten de PE en MAPE tot oneindig lopen. En wanneer de noemer nul is, zijn de PE en MAPE ongedefinieerd. ’Symmetrische’ evaluatiecriteria bieden een oplossing voor dit probleem (Bergmeir & Benitez, 2012, pp. 195-196):

P EsM AP E = n1 Pn t=1100| ˜ yt− ˆφ0x˜t lt | met lt= |˜yt|+|˜xt| 2

(14)

De bovenstaande uitdrukkingen met P E zijn uiteraard te veralgememis-eren naar P E.d

Aangezien in dit onderzoek gebruik wordt gemaakt van wisselkoersdata, zal de waarde nul erg ongebruikelijk zijn in de data. Toch is er voor gekozen om het empirisch onderzoek meer te generaliseren en wordt ook de sMAPE gebruikt. Bij de gesimuleerde data is het niet nodig om ook de sMAPE toe te passen, de data is daar namelijk homogeen. Dus treden de problemen met eventuele heterogeniteit niet op.

Ook is er voor de empirische data gebruik gemaakt van een extra voor-spellingsmaat. Om de resultaten te veralgemeniseren en het schaaleffect van de RMSE en MAE te ondervangen, is er gekozen voor een relatieve voor-spellingsmaat:

V PREL = |P E−P E|c

|P E|

Aangezien V PREL niet schaalafhankelijk is, is het niet nodig om V PREL

met sMAPE te combineren. Deze combinatie is om die reden niet gebruikt in dit onderzoek.

3

Onderzoeksopzet

Om de prestaties van out-of-sample en cross-validation te vergelijken is er zowel empirisch als experimenteel onderzoek gedaan. Met het experi-mentele onderzoek is een deel van het werk van Bergmeir, Hyndman en Koo (2015) nagebootst en enigszins uitgebreid. In dit onderzoek zijn dezelfde evaluatiemethoden vergeleken op gesimuleerde data. Daarnaast zijn de eval-uatiemethoden toegepast op empirische data van vijf verschillende wisselko-ersen.

3.1

Gesimuleerd onderzoek

OOS en CV zijn bedoeld om het beste voorspellende model uit verschil-lende mogelijkheden te kiezen. In de werkelijkheid is het namelijk vaak on-bekend welk model de data het beste benadert. Het is daarom lastig om een goede vergelijking te maken van OOS en CV zonder eerst te weten wat de valkuilen zijn van beide methoden. Zo kunnen beide methoden intrin-sieke vooringenomenheid hebben die de evaluatie van een onzuiver resultaat

(15)

voorzien. Er wordt om die reden eerst met gesimuleerde data de prestaties van de verschillende evaluatiemethoden onderzocht.

Met de gesimuleerde data is er zekerheid over het gesimuleerde model. In onderzoek is er een AR(3)-model gesimuleerd met de programmeertaal R. Dit model is van de volgende vorm:

yt = φ1yt−1+ φ2yt−2+ φ3yt−3+ t

Dit model wordt met het Monte Carlo principe m keer opnieuw ges-imuleerd, elke keer worden de co¨effici¨enten φ1, φ2 en φ3 opnieuw willekeurig

gecre¨eerd. Het simuleren van de co¨effici¨enten kan gedaan worden door voor elke co¨effici¨ent een willekeurig trekking te doen. Echter ontstaan er dan prob-lemen met de stationariteit van het model, dan zou er bij elke combinatie van co¨effici¨enten getest moeten worden op stationariteit. Daarom is er voor gekozen om wortels van de karakteristieke polynoom van het AR()-proces uit een uniforme verdeling te trekken [−5; −1.1] ∧ [1.1; 5]. Omdat deze wortels altijd buiten de eenheidscirkel liggen, kunnen stationaire co¨effici¨enten met eenvoudige algebra hieruit berekend worden.

Het minimum en maximum van de uniforme verdeling is gekozen aan de hand van het onderzoek van Bergmeir, Constantini en Benitez (2014, p. 10), zij hanteren de waarde vijf. De gehele bovenstaande methode is gelijk aan de methode die wordt beschreven door Bergmeir en Benitez (2012, pp. 201-202).

De eerste zeven waarnemingen van de gesimuleerde data worden als ’Burn-in’ periode gebruikt en worden verwijderd uit de dataset. De data wordt ver-volgens genormaliseerd: het gemiddelde wordt op nul gesteld en de standaard afwijking op ´e´en.

Op de gesimuleerde data worden vijf verschillende AR()-modellen geschat, van AR(1) tot AR(5). Deze schatting wordt gedaan met ’ordinary least squares’. Dit gebeurt voor elk van de evaluatiemethoden, OOS, rolling-window OOS, LOOCV, k-fold CV en geblokte k-fold CV, op de eigen train-ingsset. Met de geschatte co¨effici¨enten kan vervolgens de P E van elke eval-d

uatiemethode berekend worden en worden vergeleken met de P E.

In navolging van Bergmeir, Hyndman en Koo (2015) worden er 1000 Monte Carlo simulaties gedaan, waarin er 200 datapunten worden gesimuleerd. Het gebruikte aantal folds bij (geblokte) K-fold CV is vijf en de ratio tussen geobserveerde en niet geobserveerde data is 0.7. Dit houdt in dat 140 dat-apunten als geobserveerd worden beschouwd en 60 als niet geobserveerd, of onbekend.

(16)

Omdat in onderzoek naar wisselkoersen veelal gebruik wordt gemaakt van window OOS als evaluatiemethode, is in dit onderzoek ook rolling-window OOS toegepast op de gesimuleerde data, in tegenstelling tot wat Bergmeir, Hyndman en Koo (2015) hebben gedaan. Dan kan er een betere vergelijking worden gemaakt tussen de verschillende evaluatiemethoden.

3.2

Empirisch onderzoek

In het empirische onderzoek wordt er in eerste instantie van dezelfde code gebruik gemaakt als bij het gesimuleerde onderzoek. Er wordt nu geen data gesimuleerd, maar de code van de evaluatiemethoden is hetzelfde.

Er wordt gewerkt met vijf verschillende valutaparen, namelijk; USD/GBP, USD/CHF, USD/JPY, GBP/CHF en GBP/NOK. Waarbij de USD de Amerikaanse dollar is, GBP de Britse pond, CHF de Zwitserse franc, JPY de Japanse yen en NOK de Noorse kroon. De data van de dollar paren is afkomstig uit de database van de St. Louis Federal Reserve Bank

(https://fred.stlouisfed.org/) en de data van de paren met de pond is afkom-stig van de Britse centrale bank

(http://www.bankofengland.co.uk/boeapps/iadb/Rates.asp).

De data van de verschillende wisselkoersen hebben verschillende loopti-jden. Deze verschillende looptijden hebben geen invloed op de resultaten. Een tijdreeks dient een minimum aantal datapunten te hebben om eventuele seizoenseffecten goed te kunnen weergeven. De kortste reeks, GBP/NOK, is drie en een half jaar lang. Dit is lang genoeg om terugkerende trends te ondervangen.

In bijlage I zijn tevens de grafieken van de tijdreeksen te zien. Het is van belang dat de reeksen stationair zijn. Daarom is er gezocht naar stationaire reeksen in de data van de wisselkoersen. Voor de geselecteerde perioden zijn alle wisselkoersreeksen stationair (Bijlage II).

3.2.1 Algemene precisie evaluatiemehoden

De methode die is toegepast op de gesimuleerde data, is ook op de em-pirische data toegepast om de meest preciese evaluatiemethode te vinden. De data wordt allereerst opgedeeld in een geobserveerd en niet-geobserveerd deel, met een ratio van 0.7. Vervolgens wordt de P E berekend op basisd

van de geobserveerde data en met de niet-geobserveerde data wordt de P E berekend.

(17)

Het doel van het onderzoek is niet om een beter wisselkoers model te vin-den, maar de toepasbaarheid van cross-validation op wisselkoersdata wordt onderzocht. Om die reden is het bepalen van het model met de standaard informatiecriteria gedaan; de AIC(Akaike) en BIC(Bayesiaanse). De infor-matiecriteria bepalen niet samen het beste model. Beide inforinfor-matiecriteria kiezen een aantal lags voor het te schatten AR()-model.

Op beide geschatte modellen worden de evaluatiemethoden toegepast. De P E en P E worden bepaald met drie verschillende evaluatiecriteria: ded

RMSE, de MAE en de sMAPE. Het verschil tussen P E en P E wordt ver-d

volgens met twee verschillende voorspellingmaten berekend: de V PAE en de

V PREL.

3.2.2 Precisie afwijkende modellen

In het eerste deel van het empirische onderzoek wordt er alleen gekeken naar de precisie van de evaluatiemethoden bij een enkel gekozen model, met ofwel AIC of BIC gekozen. In de werkelijkheid is het vaak onduidelijk welk model de realiteit het beste benadert. Het vinden van dit werkelijke model is de uiteindelijke toepassing van de evaluatiemethoden.

Aangezien de evaluatiemethoden worden gebruikt om het werkelijke model te vinden, is het goed om te weten hoe de methoden presteren in de nabi-jheid van het werkelijke model. In andere woorden; hoe presteren de eval-uatiemethoden wanneer het geschatte model ver weg ligt van het werkelijke model?

Een probleem met het testen van de voorgenoemde precisie is het vinden van het werkelijke model. In het eerste deel van het empirische onderzoek is het aantal lags gekozen met de AIC en BIC. In dit deel kunnen die in-formatiecriteria niet worden gebruikt. Door AIC of BIC te gebruiken zou er impliciet aangenomen worden dat AIC of BIC altijd het werkelijke model kiest. Daarmee wordt het gebruik van de evaluatiemethoden overbodig, deze zouden dan alleen AIC en BIC kunnen benaderen.

Om tot een vergelijking te kunnen komen, is er voor gekozen om de eval-uatiemethoden die het beste presteren in het eerste deel van het empirische onderzoek, het aantal lags te laten kiezen van het werkelijke model. Dit wordt gedaan door de P E te berekenen van 20 verschillende AR()-modellen. Deze modellen lopen van AR(1) tot AR(20). Het model met de laagste waarde voor PE, wordt aangenomen als het werkelijke model. Dit gebeurt voor elke wisselkoers individueel.

(18)

Na het vaststellen van de P E, wordt de P E berekend over wederom 20d

verschillende AR()-modellen, lopend van AR(1) tot AR(20). Ook dit gebeurt voor alle vijf wisselkoersen individueel. Vervolgens kunnen de voorspellings-maten per P E berekend worden. Deze wordt berekend door de vastgestelded

P E af te trekken van P E, hiervan wordt de absolute waarde genomen. Omd

schaaleffecten te voorkomen in de P E en P E, worden deze berekend met ded

sMAPE.

4

Resulaten en analyse

Om de resultaten van het empirische onderzoek te kunnen interpreteren, worden eerst de resultaten van de gesimuleerde data besproken. De lessen die getrokken worden uit de resultaten van de gesimuleerde data dienen als ijkpunt voor de resultaten van de empirische data.

4.1

Resultaten gesimuleerde data

In tabel 1 (Bijlage III) zijn de resultaten te zien van de toepassing van de verschillende evaluatiemethoden op gesimuleerde data. Daarnaast zijn de resultaten van Bergmeir, Hyndman en Koo (2015, p. 14) toegevoegd als vergelijkingsmateriaal, te zien in figuur 1 (Bijlage III). De resultaten van de laastgenoemde onderzoekers zijn nagebootst, met de toevoeging van rolling-window OOS.

In de twee tabellen is te zien dat LOOCV en geblokte K-fold CV con-sistent en significant preciezere schattingen maken dan OOS en RWOOS. In tabel 2 (Bijlage III) zijn de uitkomsten van t-tests te zien. Er is voor de evalu-atiecriteria RMSE en MAE een t-test uitgevoerd op de paren OOS-LOOCV en OOS-geblokte fold CV en RWOOS-LOOCV en RWOOS-geblokte K-fold CV. De t-waarden zijn dusdanig hoog dat de p-waarden nul zijn. De gesimuleerde resultaten komen overeen met de resultaten van Bergmeir, Hyn-dman en Koo (2015).

RWOOS is niet onderzocht door de voorgenoemde onderzoekers. In tabel 1 (Bijlage III) is te zien dat zowel voor de RMSE als de MAE, RWOOS een meer precieze schatting maakt dan OOS. Echter is RWOOS minder precies in het vinden van het juiste model. Waar OOS duidelijk rond AR(3) de laagste waarden aanneemt, neemt de precisie bij RWOOS af naarmate er met meer lags geschat wordt.

(19)

Men zou verwachten dat RWOOS een betere modelkeuze maakt dan OOS. Dat dit niet het geval is kan meerdere redenen hebben. Allereerst kan het aan de gesimuleerde data liggen. De co¨effici¨enten van de tweede en derde lag in het gesimuleerde AR(3)-model kunnen relatief klein zijn vergeleken met de eerste co¨effici¨ent. Daarom kan de evaluatiemethode relatief goede schattingen doen met een AR(1)-model. Dit heeft echter een kleine invloed. Door de data 1000 keer te simuleren, zullen de coe¨efficienten gemiddeld een goede verhouding hebben. Daarnaast hebben de andere evaluatiemethoden wel de laagste schatting bij het AR(3)-model. Daar blijken dus geen problemen uit. De tweede oorzaak kan uiteraard de methode van rolling-window OOS zijn. De bias, af te lezen aan de resultaten onder ME, is bij RWOOS groter dan bij elke methode behalve K-fold CV. RWOOS heeft een duidelijke posi-tieve bias. De posiposi-tieve bias volgt uit de berekening van de voorspellingsmaat:

d

P E − P E. Dat de bias positief is, houdt in dat P E consistent groter is dand

P E. Dat P E groter is, betekent dat de error die wordt berekend metd P Ed

relatief groot is. Hieruit kan worden opgemaakt dat RWOOS een minder zuivere schatting maakt.

De resultaten van OOS, LOOCV en geblokte K-fold CV komen overeen met de resultaten van Bergmeir, Hyndman en Koo (2015). LOOCV en geblokte K-fold CV maken de meest precieze schattingen. LOOCV is, zoals werd verwacht, marginaal meer precies. Dit weegt echter niet op tegen de ex-tra computerkracht die er voor LOOCV nodig is. Ook valt op dat K-fold CV het minste presteert van alle evaluatiemethoden. Omdat het op tijdreeksen is toegepast, is het niet verwonderlijk dat K-fold CV minder presteert.

4.2

Resultaten empirische data

De resultaten van de gesimuleerde data kunnen vergeleken worden met de resultaten van de empirische data. De ondervindingen van het gesimuleerde onderzoek dienen als ijkpunt waar de empirische data aan getoetst kunnen worden. De resultaten van van het empirische onderzoek zijn in tabel 3 tot 7 (Bijlage IV) weergegeven.

Om het onderzoek te veralgemeniseren is er gebruik gemaakt van meerdere informatiecriteria en evaluatiecriteria. Aangezien de twee informatiecrite-ria grote invloed kunnen hebben op de resultaten, zal de invloed hiervan allereerst kort besproken worden. Om vervolgens over te gaan op de besprek-ing van de resultaten van de evaluatiemethoden en de precisie met afwijkende modellen.

(20)

4.2.1 Informatiecriteria

In tabel 8 (Bijlage IV) zijn het aantal gekozen lags per wisselkoers per informatiecriterium uit te lezen. Er valt op dat BIC vaker een kleiner aantal lags kiest. Dit is een bekend fenomeen. Door de berekening van de BIC is de ’straf’ op het kiezen van meer complexe modellen, ofwel modellen met meer lags, zwaarder. Hierdoor kiest BIC vaker een model met minder lags. Omdat het aantal gebruikte datapunten groot is, is de kans groter dat AIC een te complex model kiest en dat de BIC te weinig lags kiest (Burnham & Anderson, 2004).

Daarnaast is te zien dat voor GBP/NOK en GBP/CHF door beide in-formatiecriteria ´e´en lag is gekozen. In werkelijkheid zal niet alleen het voor-gaande datapunt van invloed zijn op de huidige wisselkoers. Omdat er gew-erkt wordt met AR()-modellen, is het lastiger om een precies aantal lags te kiezen. Andere invloeden worden namelijk niet meegenomen.

Wanneer er alleen gekeken wordt naar de valutaparen die voor AIC en BIC een verschillend aantal lags heeft, dan blijkt dat er een marginaal verschil in resultaat zit. Het verschil in aantal lags is bij het paar USD/CHF het grootste. De resultaten zijn echter in dezelfde orde van grootte.

4.2.2 Evaluatiemethoden

Met de kennis van de gesimuleerde data en de invloed van de informatiecri-teria, kan er worden overgegaan naar een complete beoordeling van de ver-schillende evaluatiemethoden.

Het eerste wat opvalt is de slechte precisie van K-fold CV, te zien in tabel 3 tot 7 in bijlage IV. Voor elke wisselkoers presteert K-fold CV het minst goed. Echter zitten er wel grote verschillen in de precisie per wisselkoers; bij USD/JPY is de precisie duidelijker minder dan bij USD/CHF. Een verklaring van dit verschil in precisie kan de autocorrelatie van de residuen zijn.

Autocorrelatie van de residuen kan het gevolg zijn van het niet opnemen van bepaalde verklarende variabelen in het model. De autocorrelatie van de residuen van de vijf tijdreeksen is getest met een Portmanteau Q test, deze test lijkt op de Ljung-Box test. Met deze test wordt er gekeken of de gekwadrateerde residuen van de tijdreeks ’white noise’ zijn. Zo niet, dan is er sprake van autocorrelatie.

De resultaten van de Portmanteau Q test zijn weergegeven in tabel 9 in Bijlage IV. Een hogere PQ waarde betekent minder autocorrelatie tussen de

(21)

residuen van de tijdreeks. Hoe lager de autocorrelatie van de residuen, des te slechter K-fold CV presteert.

Een ander opmerkelijk resultaat is dat bij de USD/JPY en GBP/CHF OOS een meer precieze schatting maakt dan LOOCV en geblokte K-fold CV. Dit ligt niet in de lijn der verwachting. De oorzaak hiervan kan gevonden worden in de gebruikte data.

Allereerst is er wederom gekeken naar het effect van de eventuele auto-correlatie van de residuen. De resultaten van de Portmanteau Q test zijn weergegeven in tabel 9 in Bijlage IV. Uit de resultaten blijkt dat er in de reeksen USD/JPY en GBP/CHF minder autocorrelatie zit dan in de reeksen USD/CHF en GBP/NOK. Dit zou tot de conclusie kunnen leiden dat CV beter werkt op data met autocorrelatie van de residuen. Echter weerspreekt de reeks USD/GBP dit; er is nagenoeg geen autocorrelatie aanwezig, toch presteert geblokte K-fold CV beter.

Omdat de Portmanteau Q test inconclusief is, is er vervolgens onder-zocht of er andere resultaten worden behaald met een andere lengte van de reeksen USD/JPY en GBP/CHF. Het blijkt dat wanneer deze reeksen wor-den beperkt tot 1000 datapunten, LOOCV en geblokte K-fold CV wel beter presteren dan OOS. Dit ligt beter in de lijn van de theorie en leidt tot een belangrijk inzicht: de prestaties van de evaluatiemethoden hangen sterk af van bepaalde karakteristieken van de dataset.

Om inzicht te krijgen in de bepalende karakteristieken is de relatieve standaard afwijking berekend van alle vijf tijdreeksen. In dit onderzoek wordt bij OOS getest op de laatste 10% van de geobserveerde dataset, waarmee de

d

P E wordt berekend. P E wordt vervolgens vergeleken met de P E van ded

niet-geobserveerde data. Daarom is de standaard afwijking van de testset vergeleken met de standaard afwijking van van de niet-geobserveerde data, dit zijn de delen van de data die de resultaten bepalen.

In tabel 10 (Bijlage IV) zijn de relatieve standaard afwijkingen te zien van alle vijf wisselkoersen. Dit is berekend door de standaard afwijking van de testset te delen door de standaard afwijking van de niet-geobserveerde data. De standaard afwijkingen zijn gedeeld door het gemiddelde van de gebruikte data, om schaalproblemen te voorkomen. Hoe verder de waarde van ´e´en verwijderd is, hoe groter het verschil in variantie. Een waarde onder ´

e´en betekent dat de variantie in de niet-geobserveerde data groter is dan de variantie in de testset.

Uit de resultaten valt op te maken dat de relatieve standaard afwijk-ing van de testsets van de twee afwijkende wisselkoersen beduidend lager is

(22)

dan de standaard afwijking van de niet-geobserveerde data. Ook de reeksen USD/GBP en GBP/NOK laten een verschil zien, echter is dit minder groot. Er kan geconcludeerd worden dat de relatieve standaard afwijking invloed heeft op de precisie van de evaluatiemethoden. Hoe groter de het verschil in variantie, hoe beter OOS presteert.

Bij de wisselkoersen USD/GBP, USD/CHF en GBP/NOK laten LOOCV en geblokte K-fold CV de beste prestatie zien (tabel 3,5 en 6, Bijlage IV). Echter zit er een duidelijk verschil in de keuze voor methoden tussen USD/GBP aan de ene kant en USD/CHF en GBP/NOK aan de andere kant. Bij de reeks USD/GBP geeft geblokte K-fold CV de meest precieze schatting, terwijl bij de andere twee reeksen LOOCV over het algemeen het beste presteert. Uit tabel 11 van bijlage IV is op te merken dat dit niet ligt aan de relatieve variantie van de geobserveerde en niet-geobserveerde data.

Aangezien er met verschillende evaluatiecriteria en geschatte modellen gewerkt is, kan er een gemiddelde worden verkregen van de resultaten bij elke wisselkoers per evaluatiemethoden. Door het verschil tussen RMSE en MAE tegenover de sMAPE, kan er niet zonder meer een gemiddelde worden genomen van deze evaluatiecriteria samen. De sMAPE presteert ook duidelijk anders dan de overige evaluatiecriteria. Daarnaast kunnen de prestaties van de voorspellingsmaten niet gebundeld en gemiddeld worden; de V PREL is geschaald,terwijl de V PAE dat niet is. De gemiddelden van de resultaten van zowel AIC als BIC van de drie wisselkoersen per methode zijn te zien in tabel 12 (Bijlage IV), tussen haakjes staan de standaardafwijkingen erachter.

In tabel 12 is te zien dat LOOCV voor USD/GBP minder presteert dan geblokte K-fold CV. LOOCV presteert voor de reeksen GBP/NOK en USD/CHF beter. De standaard afwijkingen zijn voor LOOCV over het al-gemeen ook lager, wat meer bewijs is voor de betere prestatie van LOOCV. Wanneer alleen wordt gekeken naar de sMAPE van LOOCV, valt op dat dat wederom USD/GBP en USD/CHF ongeveer dezelfde precisie hebben, terwijl de resultaten voor GBP/NOK hiervan af wijken. Bij geblokte K-fold CV liggen USD/CHF en GBP/NOK weer dichterbij elkaar.

Een reden voor de bovenstaande verschillen kan de standaard afwijking van de gehele dataset zijn, geschaald met het gemiddelde van de volledige dataset. De standaard afwijkingen van USD/GBP, USD/CHF en GBP/NOK zijn respectievelijk: 0.0908, 0.0379 en 0.0291. Hoe hoger de standaard afwi-jking, hoe beter geblokte K-fold CV presteert ten opzichte van LOOCV. Terwijl bij een lagere standaard afwijking LOOCV een meer precieze

(23)

schat-ting maakt. Deze schatschat-ting van LOOCV is wel minder goed dan de schatschat-ting van geblokte K-fold CV bij een lagere standaard afwijking, zie hiervoor tabel 12 (Bijlage IV).

Dit kan verklaard worden door het eventuele ’over-fitten’ van LOOCV. Bij een lagere standaard afwijking is LOOCV geneigd om het model te precies te schatten, ofwel dat te veel karakteristieken van de trainingsset mee worden genomen in de schatting. Door het gebruik van blokken heeft geblokte K-fold CV hier minder last van; er wordt minder precies geschat op de trainingsset. De prestaties van RWOOS zijn minder dan die van OOS, in tegenstelling tot wat er gevonden is bij het gesimuleerde onderzoek. RWOOS presteert alleen beter dan OOS voor het paar GBP/NOK. Echter presteert LOOCV over het geheel in dat geval beter.

4.2.3 Precisie afwijkende modellen

Uit de vorige paragraaf valt te concluderen dat OOS beter presteert dan RWOOS. Daarnaast zijn de prestaties van LOOCV meer onderhevig aan ’over-fitting’ dan geblokte K-fold CV en er is meer rekenkracht nodig voor het uitvoeren van LOOCV. Daarom is er voor het laatste deel van dit onderzoek besloten om geblokte K-fold CV te vergelijken met OOS als het gaat om precisie van afwijkende geschatte modellen.

De resultaten van het laatste deel van dit onderzoek zijn te vinden in Bijlage V. Allereerst zijn in tabel 13 en 14 de resultaten weergegeven. Een meer overzichtelijke weergave is te zien in de grafieken van figuur 2 en 3. Hierin is op de horizontale as het aantal lags weergeven met op de verticale as de waarde van V PAE behorend bij dat aantal lags. Het gekozen aantal

lags voor het werkelijke model, gekozen door P E, is te zien in tabel 15. Het eerste opvallende resultaat is de keuze voor ´e´en lag voor de wisselko-ers USD/GBP. Ook als de er gekozen kan worden uit de modellen AR(1) tot en met AR(100), wordt er ´e´en lag gekozen door de P E voor USD/GBP. Op zichzelf is dit geen opvallend resultaat, vergeleken met de andere wisselko-ersen daarentegen wel. De keuze voor ´e´en lag vertaalt zich ook in de precisie van zowel OOS als geblokte K-fold CV voor modellen die ver van AR(1) af liggen. Alle modellen zijn meer precies dan AR(1), terwijl juist die gekozen is door de P E.

Ook de wisselkoers USD/JPY laat geen duidelijke afname van precisie zien wanneer het werkelijke model verder afligt van het geschatte model, ter-wijl het aantal gekozen lags niet sterk verschilt met de overige drie

(24)

wisselko-ersen. Er zit wel een verschil in de prestatie van OOS en geblokte K-fold CV als het gaat om het beste model te vinden. Bij OOS is bij 17 lags duidelijk de laagste waarde te zien. Echter ligt bij geblokte K-fold CV de laagste waarde bij vijf lags.

De wisselkoersen USD/CHF, GBP/NOK en GBP/CHF presteren naar verwachting, de precisie neemt duidelijk af wanneer het geschatte model verder weg ligt van het werkelijke model. De standaard afwijkingen van de V PAE van het geschatte model ten opzichte van de V PAE van het werkelijke

model zijn te zien in tabel 16 (Bijlage V). Voor elke wisselkoers is de stan-daard afwijking lager voor geblokte K-fold CV dan voor OOS. Op GBP/CHF na, daar is de standaard afwijking van OOS licht lager.

Er valt te concluderen dat geblokte K-fold CV meer precies is dan OOS wanneer het geschatte model verschilt van het werkelijke model. De inter-pretatie van dit resultaat is dubbel. Aan de ene kant betekent dit dat de precisie van geblokte K-fold CV beter intact blijft; wanneer onverhoopt het verkeerde model gekozen wordt, werkt het nog steeds. Aan de andere kant geeft OOS beter weer w´a´ar het beste model zich bevindt.

5

Conclusie en aanbevelingen

Er is onderzocht of verschillende cross-validation methoden een meer pre-ciese modelkeuze maken dan out-of-sample technieken. Hiervoor zijn de methoden eerst op gesimuleerde data toegepast en vervolgens zijn dezelfde technieken op empirische data toegepast. CV technieken zouden een meer preciese modelkeuze kunnen maken doordat er gebruik wordt gemaakt van alle data om te trainen en te testen. In tegenstelling tot OOS methoden waarbij er een specifiek deel van de data wordt gebruikt om te testen en de rest om te trainen.

De resultaten van de gesimuleerde data komen overeen met de verwacht-ing. LOOCV en geblokte K-fold CV maken de meest precieze schatting en kiezen het beste model. RWOOS maakt een meer precieze schatting dan OOS, maar kiest daarbij niet het beste model. Dit is een waardevol inzicht voor de resultaten van de empirische data, aangezien in het onderzoek naar wisselkoersen veelal gebruik wordt gemaakt van RWOOS.

De resultaten van de empirische data liggen niet geheel in lijn der verwacht-ing. Voor twee wisselkoersen presteert OOS beter dan LOOCV en geblokte K-fold CV. De reden hiervan is de relatieve standaard afwijking van de

(25)

test-set ten opzichte van de niet-geobserveerde data. Hoe groter het verschil in variantie, hoe beter OOS presteert. Dit is voor vervolg onderzoek waardevol; hoewel de niet-geobserveerde data normaal toekomstige data is en daarmee onbekend, is het goed om de relatieve standaard afwijkingen in de gaten te houden. Dan kunnen de resultaten van OOS en CV toepassingen beter worden geinterpreteerd.

Daarnaast is gebleken dat de standaard afwijking ook een rol speelt in de prestaties van LOOCV en geblokte K-fold CV. Naast het praktische nut van geblokte K-fold CV, het heeft minder computerkracht nodig, is het minder geneigd om te ’over-fitten’. Daarom is het raadzaam om geblokte K-fold CV te gebruiken voor tijdreeksen met een hogere standaard afwijking. Wanneer er gewerkt wordt met een tijdreeks met een relatief lage standaard afwijking, presteert LOOCV beter.

Ook blijkt dat RWOOS niet beter presteert dan OOS en de CV tech-nieken, K-fold CV daargelaten. In de literatuur over wisselkoersmodellen wordt er juist veelal gebruik gemaakt van RWOOS. In volgend onderzoek kan ik daarom aanbevelen dat, afhankelijk van de gebruikte data, OOS, LOOCV of geblokte K-fold CV wordt gebruikt.

Als laatste is de precisie van OOS en geblokte K-fold CV op afwijkende modellen onderzocht. Over het algeheel kan er geconcludeerd worden dat geblokte K-fold CV een meer precieze schatting doet.

Alle bevindingen die in de drie delen van dit onderzoek zijn gedaan, lei-den tot de conclusie dat geblokte K-fold CV een betere techniek is voor modelkeuze dan OOS of RWOOS bij AR()-modellen geschat op wisselko-ersen. In specifieke gevallen is LOOCV beter dan geblokte K-fold CV. De resultaten zijn echter ook te generaliseren; bij andere tijdreeksen en modellen zijn de bevindingen ook van invloed.

De bovenstaande conclusies zijn waardevol voor vervolg onderzoek. Er zijn namelijk een aantal aspecten van wisselkoersmodellen onderbelicht gebleven. In dit onderzoek zijn alleen AR()-modellen gebruikt om een wisselkoersmodel te schatten. In de werkelijkheid is niet alleen de historische koers, maar zijn ook andere economische en financiele graadmeters van invloed op de appre-ciatie en depreappre-ciatie van valuta’s. Daarom raadt ik aan dat er wordt onder-zocht hoe de verschillende evaluatiemethoden werken als er wordt gewerkt met multivariate modellen zoals VAR()-modellen.

(26)

Bibliografie

Arlot, S. en Celisse, A. (2010). A survey of cross-validation procedures for model selection. Statistics Surveys, 4, 40-79.

Bank for International Settlements. (2016). Triennial Central Bank Sur-vey: Foreign exchange turnover in April 2016. Gevonden op de BIS website: https://www.bis.org/publ/rpfx16fx.pdf.

Bergmeir, C. en Benitez, J. M. (2012). On the use of cross-validation for time series predictor evaluation. Information Sciences, 191, 192 – 213. Bergmeir, C. Constantini, M. en Benitez, J.M. (2014). On the usefulness of cross-validation for directional forecast evaluation. Computational Statis-tics & Data analysis, 76, 132-143.

Bergmeir, C., Hyndman, R.J., en Koo, B. (2015). A note on the validity of cross-validation for evaluating autoregressive time series prediction. Com-putational Statistics & Data Analysis, 120, 70 – 83.

Berkowitz, J. en Giorgianni, L. (2001). Long-horizon exchange rate pre-dictability? The Review of Economics and Statistics, 83(1), 81-91.

Burnham, K.P. en Anderson, D. R. (2004). Multimodel inference, under-standing AIC and BIC in model selection. Sociological Methods & Research, 33 (2), 261-304.

Heij, C., de Boer, P., Franses, H.P., Kloek, T., van Dijk, H.K. (2004). Econo-metric Methods with Applications in Business and Economics. New York: Oxford University Press.

Hyndman, R.J. en Koehler, A.B. (2006). Another look at measures of fore-cast accuracy. International Journal of Forefore-casting, 22 (4), 679–688.

Inoue, A. en Kilian, L. (2006). On the selection of forecasting models. Jour-nal of Econometrics, 130 (2), 273-306.

(27)

long-horizon predictability. American Economic Review, 85 (1), 201-218.

Meese, R. A. en Rogoff, K. (1983). Empirical exchange rate models of the seventies: Do they fit out-of-sample? Journal of International Economics, 14, 3-24.

Meese, R. A. en Rogoff, K. (1988). Was it Real? The exchange rate-interest differential relation over the modern floating-rate period. Journal of Finance, 43 (4), 933-948.

Meese, R.A. (1990). Currency fluctuations in the post-Bretton Woods era. Journal of Economic Perspectives, 4 (1), 117-134.

Molinaro, A.M., Simon, R. en Pfeiffer, R.M. (2005). Prediction error esti-mation: a comparison of resampling methods. Bioinformatics, 21 (15), 3301-3307.

Racine, J. (2000). A consistent cross-validatory method for dependent data: hv-block cross-validation. Journal of Econometrics, 99 (1), 39–61.

Tashman, L. (2000) Out-of sample tests of forecasting accuracy: an anal-ysis and review. International Journal of Forecasting, 16 (4), 437-450.

(28)

Bijlagen

Bijlage I: Grafieken en looptijden van de wisselkoersen

(29)

(a) USD/GBP: 01/01/1987 - 01/01/2016 (b) USD/CHF: 01/01/2012 - 05/25/2018 (c) USD/JPY: 01/01/1996 - 01/01/2008 (d) GBP/NOK: 01/01/2010 - 01/07/2013 (e) GBP/CHF: 01/01/1997 - 01/01/2008

(30)

Bijlage II: Dickey-Fullertest voor stationariteit

Op elk wisselkoers paar is een Dickey-Fuller-unitroottest uitgevoerd. Bij elk paar wordt de nulhypothese van autocorrelatie verworpen voor het 10% en 5% kritieke waardeniveau. Alleen de GBP/CHF valt net buiten de 5% grens.

(f) Dickey Fuller voor USD/GBP (g) Dickey Fuller voor USD/CHF

(31)
(32)

Bijlage III: Resultaten gesimuleerde data

Hieronder staan de resultaten van het onderzoek naar gesimuleerde data en de resultaten van Bergmeir, Hyndman en Koo (2015).

Tabel 1: Resultaten gesimuleerde data

AR() RMSE MAE

OOS V PM AE V PM E V PM AE V PM E AR(1) 0.1165 -0.0080 0.0999 -0.0039 AR(2) 0.1084 -0.0084 0.0928 -0.0058 AR(3) 0.1105 -0.0072 0.0943 -0.0046 AR(4) 0.1118 -0.0066 0.0956 -0.0036 AR(5) 0.1119 -0.0059 0.0956 -0.0026 RWOOS AR(1) 0.0873 0.0155 0.0726 0.0091 AR(2) 0.0861 0.0305 0.0717 0.0216 AR(3) 0.0937 0.0469 0.0772 0.0353 AR(4) 0.1065 0.0691 0.0869 0.0534 AR(5) 0.1204 0.0916 0.0979 0.0719 LOOCV AR(1) 0.0789 -0.0077 0.0664 -0.0108 AR(2) 0.0723 -0.0126 0.0617 -0.0141 AR(3) 0.0728 -0.0174 0.0620 -0.0176 AR(4) 0.0746 -0.0226 0.0633 -0.0217 AR(5) 0.0759 -0.0280 0.0646 -0.0258 5-fold CV AR(1) 0.2374 0.2016 0.1958 0.1658 AR(2) 0.2512 0.2250 0.2077 0.1852 AR(3) 0.2552 0.2289 0.2111 0.1890 AR(4) 0.2577 0.2305 0.2133 0.1906 AR(5) 0.2590 0.2318 0.2142 0.1919 geblokte 5-fold CV AR(1) 0.0828 -0.0088 0.0694 -0.0052 AR(2) 0.0755 -0.0074 0.0639 -0.0044 AR(3) 0.0762 -0.0062 0.0642 -0.0031 AR(4) 0.0772 -0.0055 0.0651 -0.0022 AR(5) 0.0775 -0.0048 0.0657 -0.0015

(33)

Tabel 2: t-waarden van t-tests op de resultaten van het gesimuleerde onder-zoek. De p-waarden staan tussen haakjes.

LOOCV geblokte 5-fold CV RMSE OOS 14.54199 (0) 13.33856 (0)

RWOOS 9.0490 (0) 8.0207 (0) MAE OOS 14.4186 (0) 13.5297 (0)

RWOOS 8.0357(0) 7.5038 (0)

(34)

Bijlage IV: Resultaten empirische data

Hieronder staan de tabellen met de resultaten van het empirische onderzoek uiteengezet in een tabel per wisselkoers. Daarnaast zijn er een aantal verk-larende tabllen te vinden die meer inzicht geven in de verkregen resultaten.

Tabel 3: Resultaten voor USD/GBP

Methode V PAE V PREL

AIC

RMSE MAE sMAPE RMSE MAE

OOS 0.00032 0.00020 0.04589 0.03044 0.02492 RWOOS 0.00065 0.00010 0.07508 0.06051 0.01291 LOOCV 0.00035 0.00021 0.02333 0.03300 0.02559 10-fold CV 0.19004 0.15336 9.20443 17.672 19.02536 B 10-fold CV 0.00034 0.00003 0.00934 0.03123 0.00335 BIC OOS 0.00035 0.00020 0.04540 0.03230 0.02538 RWOOS 0.00070 0.00015 0.07671 0.06491 0.01810 LOOCV 0.00033 0.00018 0.02184 0.03109 0.02298 10-fold CV 0.19088 0.15402 9.23713 17.79915 19.18659 B 10-fold CV 0.00033 0.00004 0.00822 0.03086 0.00530

Tabel 4: Resultaten voor USD/JPY

Methode V PAE V PREL

AIC

RMSE MAE sMAPE RMSE MAE

OOS 0.01829 0.01328 0.006544 0.02174 0.01890 RWOOS 0.09330 0.02758 0.04921 0.11090 0.03926 LOOCV 0.20152 0.11054 0.06830 0.23954 0.15735 10-fold CV 12.25946 9.7079 8.17214 14.57223 13.81921 B 10-fold CV 0.20887 0.14555 0.09846 0.24827 0.20719 BIC OOS 0.01713 0.01479 0.00462 0.02038 0.02104 RWOOS 0.08834 0.02416 0.04578 0.10515 0.03438 LOOCV 0.20595 0.11364 0.07108 0.24513 0.16169 10-fold CV 12.24225 9.68369 8.15364 14.57157 13.77846 B 10-fold CV 0.20986 0.14624 0.09902 0.24979 0.20808

(35)

Tabel 5: Resultaten voor USD/CHF

Methode V PAE V PREL

AIC

RMSE MAE sMAPE RMSE MAE

OOS 0.00046 0.00027 0.03371 0.02684 0.01642 RWOOS 0.00109 0.00105 0.09283 0.06347 0.06282 LOOCV 0.00007 0.00041 0.02919 0.00381 0.02435 10-fold CV 0.03434 0.02526 2.81057 1.99206 1.51695 B 10-fold CV 0.00073 0.00015 0.09395 0.04213 0.00873 BIC OOS 0.00141 0.00122 0.12784 0.0672 0.05966 RWOOS 0.00059 0.00059 0.04247 0.02825 0.02881 LOOCV 0.00017 0.00059 0.02616 0.00821 0.02888 10-fold CV 0.03742 0.02706 3.03183 1.78802 1.32281 B 10-fold CV 0.00039 0.00014 0.07917 0.01842 0.00708

Tabel 6: Resultaten voor GBP/NOK

Methode V PAE V PREL

AIC

RMSE MAE sMAPE RMSE MAE

OOS 0.00963 0.01136 0.05911 0.04193 0.05069 RWOOS 0.00621 0.00741 0.0059 0.02702 0.03304 LOOCV 0.00516 0.00344 0.00618 0.02245 0.01535 10-fold CV 0.22316 0.14113 1.53099 0.97129 0.62951 B 10-fold CV 0.0126 0.01125 0.09174 0.05483 0.05018 BIC OOS 0.00963 0.01136 0.05911 0.04193 0.05069 RWOOS 0.00621 0.00741 0.0059 0.02702 0.03304 LOOCV 0.00516 0.00344 0.00618 0.02245 0.01535 10-fold CV 0.22316 0.14113 1.53099 0.97129 0.62951 B 10-fold CV 0.0126 0.01125 0.09174 0.05483 0.05018

(36)

Tabel 7: Resultaten voor GBP/CHF

Methode V PAE V PREL

AIC

RMSE MAE sMAPE RMSE MAE

OOS 0.00078 0.00005 0.00739 0.04612 0.00331 RWOOS 0.00079 0.00135 0.05296 0.04645 0.08903 LOOCV 0.00282 0.00169 0.05237 0.16614 0.11124 10-fold CV 0.14953 0.11843 4.9679 8.8001 7.8185 B 10-fold CV 0.00372 0.00268 0.09424 0.21874 0.17693 BIC OOS 0.00078 0.00005 0.00739 0.04612 0.00331 RWOOS 0.00079 0.00135 0.05296 0.04645 0.08903 LOOCV 0.00282 0.00169 0.05237 0.16614 0.11124 10-fold CV 0.14953 0.11843 4.9679 8.8001 7.8185 B 10-fold CV 0.00372 0.00268 0.09424 0.21874 0.17693

Tabel 8: Gekozen aantal lags door AIC en BIC voor het te fitten model AIC BIC USD/GBP 5 2 USD/JPY 4 1 USD/CHF 11 2 GBP/NOK 1 1 GBP/CHF 1 1

Tabel 9: Resultaten Portmanteau Q test voor autocorrelatie van de residuen. Test voor 4 lags.

PQ-waarde P-waarde USD/GBP 567 0 USD/JPY 394 0 USD/CHF 13.3 0.01 GBP/NOK 13.8 0.01 GBP/CHF 106 0

(37)

Tabel 10: Verhouding standaard afwijking tussen laatste blok en ongeob-serveerde data per wisselkoers. De standaard afwijkingen zijn gedeeld door de gemiddelden om schaalproblemen te voorkomen.

Verhouding standaard afwijking

USD/GBP 0.5669

USD/JPY 0.2148

USD/CHF 1.0747

GBP/NOK 0.4461

GBP/CHF 0.2597

Tabel 11: Verhouding standaard afwijking tussen geobserveerde en ongeob-serveerde data. De standaard afwijkingen zijn gedeeld door de gemiddelden om schaalproblemen te voorkomen.

Verhouding standaard afwijking

USD/GBP 0.9532

USD/JPY 1.0806

USD/CHF 0.9646

GBP/NOK 0.9800

GBP/CHF 1.0492

Tabel 12: Gemiddelden, van zowel AIC als BIC, van de resultaten van RMSE en MAE per voorspellingsmaat.

V PAE V PREL

LOOCV geblokte K-fold

CV

LOOCV geblokte K-fold

CV

USD/GBP 0.00027(0.00008) 0.00019(0.00017) 0.03300(0.00467) 0.03123(0.01545) USD/CHF 0.00031(0.00023) 0.00035(0.00028) 0.00381(0.01217) 0.04213(0.01615) GBP/NOK 0.0043(0.00099) 0.06355(0.05883) 0.02245(0.0041) 0.05483(0.00268)

(38)

Bijlage V: Resultaten precisieschatting

Tabel 13: V PAE van geblokte K-fold CV voor 20 verschillende AR()-modellen

# lags USD/GBP USD/JPY USD/CHF GBP/NOK GBP/CHF

1 0.00889 0.1099 0.53335 0.5162 0.19309 2 0.00053 0.11948 0.70171 0.54459 0.19541 3 0.00162 0.11507 0.63321 0.51526 0.18185 4 0.00383 0.10907 0.82886 0.49081 0.18637 5 0.00054 0.10772 0.73496 0.2951 0.16818 6 0.00318 0.11854 0.67123 0.28775 0.15455 7 0.00013 0.11071 0.54912 0.40513 0.17021 8 0.00095 0.11864 0.53171 0.45133 0.15809 9 0.00039 0.11405 0.53025 0.43523 0.15411 10 0.00423 0.1131 0.45954 0.32777 0.13668 11 0.00344 0.12471 0.32083 0.32711 0.14195 12 0.00328 0.11596 0.31361 0.4993 0.13972 13 0.00357 0.12391 0.36206 0.53697 0.13851 14 0.0047 0.12869 0.26979 0.50203 0.12238 15 0.00608 0.12308 0.21791 0.39344 0.10441 16 0.00613 0.12374 0.16841 0.30686 0.11137 17 0.00739 0.1117 0.15474 0.15412 0.11418 18 0.00351 0.12367 0.13345 0.14707 0.10468 19 0.00236 0.12371 0.0919 0.25008 0.10773 20 0.0041 0.12991 0.1272 0.28772 0.11229

(39)

Tabel 14: V PAE van OOS voor 20 verschillende AR()-modellen

# lags USD/GBP USD/JPY USD/CHF GBP/NOK GBP/CHF

1 0.04759 0.01551 0.54281 0.48356 0.10624 2 0.03771 0.0248 0.75039 0.51319 0.1133 3 0.03921 0.02295 0.65719 0.48615 0.09944 4 0.04138 0.01715 0.90681 0.43921 0.10733 5 0.03602 0.01246 0.82354 0.24412 0.08662 6 0.03335 0.02453 0.71648 0.2474 0.06907 7 0.03602 0.01369 0.56914 0.34466 0.08743 8 0.03852 0.01809 0.51488 0.37449 0.08714 9 0.03647 0.01875 0.53878 0.36324 0.07529 10 0.03184 0.01425 0.44647 0.26066 0.0606 11 0.03369 0.03058 0.2606 0.27507 0.06396 12 0.0341 0.01886 0.24217 0.42075 0.06429 13 0.03465 0.02412 0.33682 0.40593 0.06032 14 0.03246 0.02458 0.20448 0.38238 0.0461 15 0.03196 0.02069 0.15406 0.24205 0.02515 16 0.02914 0.02197 0.10019 0.1285 0.03578 17 0.02782 0.00586 0.05438 0.02633 0.0423 18 0.032 0.01742 0.03878 0.03965 0.03303 19 0.03327 0.01778 0.01899 0.0906 0.03618 20 0.02952 0.02759 0.02596 0.14435 0.03469

(40)

Figuur 2: Resultaten van tabel 13 weergegeven in grafieken.

(a) USD/GBP (b) USD/CHF en GBP/NOK

(41)

Figuur 3: Resultaten van tabel 14 weergegeven in grafieken.

(a) USD/GBP (b) USD/JPY

(c) USD/CHF en GBP/NOK (d) GBP/CHF

Tabel 15: Aantal lags voor het werkelijke model, gekozen door P E per wis-selkoers.

USD/GBP USD/JPY USD/CHF GBP/NOK GBP/CHF

(42)

Tabel 16: Standaard afwijkingen van V PAE van niet werkelijke model ten

opzichte van werkelijke model waarde V PAE.

USD/GBP USD/JPY USD/CHF GBP/NOK GBP/CHF Geblokte K-fold CV 0.00417 0.01274 0.40501 0.27297 0.05157

Referenties

GERELATEERDE DOCUMENTEN

Winterswijk’, dat volledig gefinancierd werd door externe bronnen, maar ook volume 2 (dat eigenlijk eind 2002 het.. licht had moeten zien) kwam uit

Voordat het zover is, krijgen we eerst een uitvoerige terugblik te verwerken, waarin Joops hele levensverhaal uit de doeken wordt gedaan: zijn ongelukkige jeugd op het landgoed

Voor daders wordt ook gekeken naar de procedurele rechtvaardigheid, ‘justice restoration’ en therapeutic jurisprudence, waarbij bij dat laatste schaamte en

For instance, in the regression situation with square error loss, the oracle risk may well be of order O(1/n) if one of the estimators corresponds to a finite-dimensional model

Publisher’s PDF, also known as Version of Record (includes final page, issue and volume numbers) Please check the document version of this publication:.. • A submitted manuscript is

Een deel van de afvoer die verzameld wordt in Salland stroomt in deze situatie dus niet meer door de Weteringen naar het Zwarte Water maar het achterliggende gebied in.. De hoogte van

Dat het gebied dat vroeger Mandatory Palestine was al vijftig jaar de facto, uiteindelijk onder Israëlische staats- macht valt, en dat er inmiddels meer dan 600 000 kolonis- ten

If an honest measure of prediction error is needed, the model selection is performed as described in the exam- ples, the best model is fitted to the complete data, and finally a