• No results found

Vergelijken van de nauwkeurigheid van voorspellingstechnieken met betrekking tot de olieprijzen in Iran

N/A
N/A
Protected

Academic year: 2021

Share "Vergelijken van de nauwkeurigheid van voorspellingstechnieken met betrekking tot de olieprijzen in Iran"

Copied!
20
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Faculteit Economie en Bedrijfskunde, Amsterdam School of Economics Bachelorscriptie

Vergelijken van de nauwkeurigheid van voorspellingstechnieken met betrekking tot de olieprijzen in Iran

Sina Emami (10458654)

December- 2016

(2)

Verklaring eigen werk

Hierbij verklaar ik, Sina Emami, dat ik deze scriptie zelf geschreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan. Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd. De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.

(3)

Inhoudsopgave

1 Introductie 4 2 Literatuuronderzoek 6 2.1 Voorgaande literatuur . . . 6 2.2 Tijdreeksmodel . . . 6 2.3 De ’model averaging’-technieken . . . 7

2.3.1 Equal weights averaging . . . 7

2.3.2 Mallows Model Averaging . . . 8

2.3.3 Bayesian Model Averaging . . . 8

2.3.4 Bates-Granger Averaging . . . 9 2.3.5 Information criterion . . . 9 2.3.6 Granger-Ramanathan averaging . . . 10 3 Onderzoeksopzet 11 3.1 Data . . . 11 3.2 Karakteristieken . . . 11 3.3 Modelspecificatie en methode . . . 13 4 Resultaten en analyses 15 4.1 Resultaten . . . 15 4.2 Analyses . . . 17 5 Conclusie 19 6 Referenties 20

(4)

1

Introductie

In de afgelopen jaren is er veel aandacht besteed aan de analyse van hydrologische systemen, pro-gressie is gemaakt in het ontwikkelen van modellen om hydrologische kwantiteiten nauwkeurig te voorspellen. Voorspellingen geconditioneerd op een enkel geselecteerd model negeren de modelonze-kerheid en leiden tot onderschatting van onzemodelonze-kerheid wanneer conclusies over kwantiteiten worden gemaakt (Raftery, Madigan en Hoeting 1997). Volgens Wagener en Gupta (2005) is het nodig dat deze onzekerheden worden beschouwd in het onderzoek om de kwaliteit en nauwkeurigheid van hy-drologische modelvoorspellingen te verbeteren.

De recente literatuur besteedt veel aandacht aan technieken die deze modelonzekerheden beschou-wen en de nauwkeurigheid van voorspellingsmodellen verbeteren. ’Model averaging’ is een techniek die daardoor is ontstaan en gebruikt wordt in de statistische literatuur. Deze techniek heeft in de recente literatuur populariteit gekregen als alternatief voor modelselectie. Het wordt onder andere veel gebruikt in hydrologische, atmosferische en statistische literatuur om modelonzekerheden in de analyse van milieusystemen te behandelen en een zo nauwkeurig mogelijk voorspellingverdeling af te leiden voor modeluitkomsten (Diks Vrugt 2010). Volgens hen is het idee van ’model averaging’ dat met verschillende voorspellingsmodellen, elk met eigen sterktes en zwaktes, het mogelijk is om ze te combineren tot een gecombineerd model, waarbij de voorspelling van het gecombineerde model minstens even goed is als elke individuele voorspelling.

Aan de hand van de desbetreffende ’model-averaging’-techniek worden bepaalde gewichten toe-gekend aan de voorspellingsmodellen. Er zijn verschillende technieken die elk een andere methode hebben voor het afleiden van deze gewichten. ’Bayesian model averaging’ (BMA) stelt de gewich-ten gelijk aan de geconditioneerde kansdichtheden van de voorspellingsmodellen, hierdoor staan de gewichten representatief voor de mate waarin relatief wordt bijgedragen aan de voorspellings-nauwkeurigheid van de modellen. Raftery et al. (2005) onderzoeken de voorspellings-nauwkeurigheid van BMA-voorspellingen aan de hand van temperatuurdata in de Pacific Northwest. Zij tonen aan dat met deze data BMA beter presteert dan de individuele modellen. Ook Vrugt en Diks (2010) hebben verschillende technieken vergeleken, voor hydrologische data, aan de hand van de RMSE-waarde.

Hansen introduceert voorspellingscombinaties aan de hand van het ’Mallows Model Averaging’ en vergelijkt deze met andere methodes. Hierbij worden de voorspellingsgewichten bepaald aan de hand van ’Mallows criterion’. Hij maakt in zijn onderzoek gebruik van gesimuleerde data en komt tot de conclusie dat MMA nauwkeurigere resultaten geeft dan andere voorspellingsmethoden (2008). In dit onderzoek is het doel om te bepalen welke ’model averaging’-techniek het best presteert en de meest nauwkeurige puntvoorspellingen maakt van tijdreeksdata. De prestaties van de ver-schillende technieken worden vergeleken door de ’Mean absolute error’ (MAE) en de ’Root mean squared error’ (RMSE) te bepalen voor elke techniek. Het onderzoek wordt uitgevoerd aan de hand van dagelijkse tijdreeksdata van de olieprijzen in Iran. De data loopt van één januari 2010 tot en met 28 oktober 2016, verkregen van de site www.datastream.com. De data wordt verdeeld in twee periodes, de eerste is de kalibratieperiode en de tweede periode is de evaluatieperiode. Vier verschillende tijdreeksmodellen worden opgesteld, deze worden getoetst op correcte specificatie en eventueel gecorrigeerd. De parameters van het desbetreffende model worden geschat met de data uit de kalibratieperiode, vervolgens worden de observaties in de evaluatieperiode voorspeld met de geschatte parameters. De nauwkeurigheid van de voorspellingen wordt dan geëvalueerd door het te vergelijking met de daadwerkelijke waarnemingen uit de evaluatieperiode. Indien een techniek gewichten heeft waarmee de ’mean absolute error’ wordt geminimaliseerd, dan wordt deze techniek geprefereerd. Verschillende ’model averaging’-technieken worden vergeleken in dit model, op hun voorspellingsnauwkeurigheid; ’Bayesian model averaging’ (BMA) (Raftery et al. 2005; Raftery et al. 1997; Hoeting et al. 1999), ’Equal weights averaging’ (EWA) (Winter en Nychka 2009), ’Information

(5)

criterion averaging’ (AIC en BIC) (Buckland et al. 1997), ’Mallows model averaging’ (MMA) (Han-sen 2007; Han(Han-sen 2008) en tot slot ’Bates-Granger model averaging’ (BGA) (Bates and Granger 1969).

De opbouw van het onderzoek ziet er als volgt uit. In Sectie 2 wordt het concept van ’model aver-aging’ beschreven en waarom deze techniek wordt gebruikt. Vervolgens worden verschillende ’model averaging’-technieken aan de hand van literatuuronderzoek in detail behandeld en uitgelegd. Sectie 3 beschrijft de data, de gebruikte modellen en de methode van het onderzoek. In Sectie 4 worden de resultaten en analyses van het onderzoek beschreven en besproken. Het bevat de resultaten van de vergelijking tussen de verschillende technieken gebaseerd op de verkregen modellen in de vorige sectie. Sectie 5 bevat de conclusie van dit onderzoek.

(6)

2

Literatuuronderzoek

Deze sectie geeft achtergrondinformatie over ’model averaging’. Ook worden de methoden benoemd in de bovengenoemde literatuur besproken en met elkaar vergeleken. Verder worden de verschillende technieken die dit onderzoek gebruikt, beschreven.

2.1 Voorgaande literatuur

Om te beginnen is ’Model averaging’ een alternatieve techniek voor ’model selection’. In dit deel wordt uitgelegd wat ’model averaging’ inhoudt en waarom het gebruikt wordt.

Het doel van modelselectie is om één enkel model te kiezen uit een set van kandidaatmodellen in de beginfase van de analyse en deze te beschouwen als het beste model. Met dit gekozen model worden alle schattingen en conclusies, geconditioneerd op het model, afgeleidt. De eigenschappen van de verkregen schatters zijn afhankelijk op de wijze waarop het model is gekozen en de stochas-tische vorm van model. Het probleem bij een individueel gekozen model is de modelonzekerheid die dit levert. Als er één model wordt gekozen, wordt de meegenomen modelonzekerheid genegeerd en onderschat (Raftery et al. 2005). Dit leidt tot overschatting van de betrouwbaarheid in de voorspel-lingscapaciteit van het model (Vrugt Robinson 2007)

Een ’model averaging’-techniek bepaalt gewichten afhankelijk van de gebruikte techniek. De ge-wichten worden toegekend aan de beschikbare set van modellen, hieruit wordt één enkel gecombineerd model verkregen. Hierdoor worden de modelonzekerheden meegenomen en de schattingsvariantie ge-reduceerd. Het doel van deze techniek is om met het gecombineerd model zo nauwkeurig mogelijke voorspellingen te verkrijgen (Hansen 2007, Diks Vrugt 2010).

Er zijn veel recente onderzoeken gedaan naar de verschillende ’model averaging’-technieken. Zo onderzoeken Winter en Nychka de voorspellingsprestatie van de EWA-techniek en vergelijken deze met de prestaties van de individuele modellen (2004). Zij gebruiken verschillende klimaatmodellen om de wintertemperatuur in Amerika te voorspellen. Hun onderzoekt geeft de conclusie dat EWA beter presteert dan de individuele modellen indien deze modellen niet te veel met elkaar correspon-deren.

Hansen vergelijkt, op basis van twee simulaties, de verschillende technieken (2008). Hij gebruikt tijdreeksmodellen en laat de paramaters variëren om verschillende modellen te krijgen waarvan een combinatie wordt gemaakt. Hansen onderzoekt de technieken MMA, AIC, BIC, BGA en GRA (2008). Hij concludeert dat ’Mallows Model Averaging’ beter presteert in vergelijking met de andere technieken.

Diks en Vrugt (2010) bestuderen de verschillende technieken met behulp van twee verschillende casussen, waarin ze hydrologische waterscheidingmodellen gebruiken om de dagelijkse waterstroom en waterdruk te voorspellen. Zij vergelijken BMA, MMA, AIC, BIC, EWA, GRA en BGA en con-cluderen dat de technieken met een restrictie op de gewichten het slechtst presteren, dit zijn AIC, BIC, EWA en BGA. De overige modellen presteren gelijkwaardig aan elkaar.

In de volgende deelsectie worden de technieken die in dit onderzoek worden gebruikt, toegelicht. Ook worden de afleidingen van de bijbehorende gewichten beschreven.

2.2 Tijdreeksmodel

Gesteld wordt Ytals variabele voor de observaties van de dagelijkse olieprijzen in Iran met t=1,...,n, waarbij n staat voor het aantal observaties. In dit onderzoek worden met behulp van de olieprijsdata

(7)

verschillende tijdreeksmodellen als voorspellers gemaakt. Er zijn m verschillende modellen beschik-baar, deze modellen hebben elk voorspellers Xm,t met m=1,...,M voor elke variabele Yt. Met de

beschikbare informatie van de voorspellers wordt een voorspelling gemaakt van Yt. De verschillende voorspellers krijgen bepaalde gewichten om zo een gecombineerde voorspelling van Yt te maken. Deze combinatie wordt met het volgende lineaire model beschreven:

Yt= M

X

m=1

wmXm,t+ εt.

Hierin zijn de storingen εt ’white noise’ verdeeld met idealiter een verwachting gelijk aan nul en een onbekende variantie.

E[εt] = 0, V AR[εt] = σ2.

In dit onderzoek wordt de data verdeeld in een kalibratieperiode en een evaluatieperiode. De ge-wichten wm worden geschat aan de hand van de kalibratieset, de evaluatieset wordt gebruikt om de nauwkeurigheid van het verkregen model te testen. De ’mean absolute error’ (MAE) wordt hier gebruikt om die nauwkeurigheid te testen. Verschillende technieken uit de literatuur, die in dit on-derzoek gebruikt worden, en de uitdrukkingen voor de bijbehorende gewichten worden gedetailleerd besproken in de volgende deelsectie.

2.3 De ’model averaging’-technieken

2.3.1 Equal weights averaging

Winter en Nychka (2004) onderzoeken aan de hand van ’Equal Weights Averaging’ (EWA) of een gecombineerd model met gelijke gewichten beter of slechter presteert dan het best presterende in-dividueel model. Alle modellen krijgen gelijke gewichten waarvan de grootte afhankelijk is van het aantal gewichten. Indien er m = 1, ...., M individuele modellen zijn gedefinieerd als Xt(m), dan wor-den de volgende gewichten toegekend aan ieder model om een gecombineerde voorspeller te krijgen:

wm = 1 M, met X m wm = 1 en wm> 1.

Dit resulteert in de volgende voorspeller:

Ytewa = 1 M M X m=1 Xm,t.

Met de ’Mean squared error’, M SE(X, Y ) = T1 PT

t=1(Xt − Yt)2, hebben Winter en Nychka de

modellen met hun gemiddelde vergeleken (2004). Dit is een sterke meting van nauwkeurigheid aangezien modelvoorspellingen, Xt ∈ (X1, ..., Xt), direct vergeleken worden met de geobserveerde

variabelen, Yt∈ (Y1, ..., Yt). Ze concluderen dat het gemiddelde van modellen beter presteert dan de

(8)

2.3.2 Mallows Model Averaging

Hansen introduceert de voorspellingscombinatie gebaseerd op de methode van ’Mallows Model Aver-aging’ (MMA), waarbij de gewichten verkregen worden uit het minimaliseren van ’Mallows crite-rion’. Het criterium van Mallow is een zuivere schatter van de ’Mean Squared Error’ (MSE) en de combinatie van deze gewichten leidt volgens hem asymptotisch tot voorspellingen met de kleinste MSE-waarden. Hieruit volgt dat de MMA-methode asymptotisch optimaal is ten opzichte van an-dere ’model average’-technieken, in de zin van de ’mean squared error’, aldus Hansen (2007,2008). Het MMA-criterium is de gecorrigeerde som van de kwadratenresiduen:

Cn(w) = n X t=1 (Yt− w0Xt)2+ 2 M X m=1 wmkmS2.

Hierin staat km voor het aantal parameters van model m en is S2 een schatting van de variantie

σ2 van de residuen t. De gewichten gebaseerd op Mallows criterium, zijn de gewichten w welk Cn(w) minimaliseren. Deze gewichten zijn alleen bruikbaar indien de elementen niet-negatief zijn

en sommeren tot één, de gewichten hebben een restrictie tot de verzameling Rm:

H = ( w ∈ [0, 1]M : M X m=1 wm = 1 ) .

De definitie van Mallows criterium zoals gebruikt in dit onderzoek is: ˆ

w = argminwCn(w) met de restrictie w ∈ H.

Deze vergelijking is niet analytisch op te lossen en wordt bepaald met behulp van een algoritme. Hansen vergelijkt de voorspellingsmethodes aan de hand van de ’Mean Squared Forecast Error’, (MSFE). Hij concludeert dat MMA op basis van de kleinste MSFE de andere technieken domineert (2008).

2.3.3 Bayesian Model Averaging

Een andere techniek die veel gebruikt wordt, is ’Bayesian Model Averaging’ (BMA). Hierbij wordt met restricties een gemiddelde gemaakt van de kansdichtheidfuncties van de voorspellingen, geba-seerd op elke individuele voorspelling. De bijbehorende gewichten zijn de geschatte kansdichtheden van de modellen die de mate van voorspellingsnauwkeurigheid van elk model weergeven in de evalu-atieperiode, ten opzichte van andere modellen. Raftery et al. gebruiken ’Bayesian model averaging’ om de temperatuur van oppervlaktes en de waterdruk op zee te voorspellen (2005). Ook Vrugt en Robinson onderzoeken de voorspellingsnauwkeurigheid van BMA aan de hand van waterstroomdata (2007). Er zijn veel verschillende BMA-technieken (Hoeting et al. 1999), in dit onderzoek wordt BMA in het lineaire regressiemodel gebruikt, zoals beschreven wordt door Diks en Vrugt (2010). De gewichten die zij gebruiken in de lineaireregressie, worden verkregen door de geconditioneerde Bayesian-kansdichtheid te maximaliseren. Deze gewichten hebben net als bij MMA een restrictie tot de verzameling Rm: H = ( w ∈ [0, 1]M : M X m=1 wm = 1 ) .

(9)

De optimale gewichten zijn de gewichten die de volgende vergelijking maximaliseert:  ˆ wBM AH lin, σ  = argmaxw n X t=1 loght(Yt) ! , met de restrictie w ∈ H waarin ht(Yt) = (2πσ2)− m 2 exp −(Yt− PM m=1wmXm,t)2 (2σ2) ! .

De maximalisatie is wederom niet analytisch te berekenen en wordt met behulp van een algoritme berekend.

2.3.4 Bates-Granger Averaging

Met de restrictie dat de individuele voorspellers zuiver moeten zijn, maken Bates en Granger ook gewichten om ’model averaging’ toe te passen (1969). Indien een individueel model onzuiver is, wordt deze gecorrigeerd voor de onzuiverheid (1969). Zij introduceren ’Bates-Granger Averaging’ (BGA), waarbij het idee is dat voorspellers met kleinere waarden voor de ’mean-squared errors’ grotere gewichten krijgen. Dit hebben zij gedaan door elk individueel model een gewicht te geven aan de hand van de storingsvariantie σm2. Dit leidt tot de gewichten w = (σ12

1, ....,

1 σ2 M

), waarbij er m=1,...,M individuele modellen zijn. De voorspellingsvarianties σ2m zijn onbekend en worden geschat. De gebruikte schatter is ˆσm2, dit is de steekproefvariantie in de kalibratieperiode van de voorspellingsstoringen em,t= Xm,t−Yt. Dit resulteert tot de volgende gewichten die gebruikt worden

voor de methode van Bates en Gragner (1969), welke ook door Diks en Vrugt gebruikt worden (2010):

ˆ wBGA,m= 1 ˆ σ2 m PM n=1σˆ12 n . 2.3.5 Information criterion

Buckland et al. (1997) hebben de techniek ’Information Criterion Averaging’ onderzocht, waarbij de gewichten voor de modellen worden bepaald aan de hand van de ’Information criterion’. Dit onderzoek gebruikt deze techniek met dezelfde gewichten als afgeleid door Buckland et al. (1997).

ˆ wm = exp(−Im 2 ) PM n=1exp( −In 2 ) , m = 1, ..., M.

Hierin staat Im voor de ’Information criterion’ die de fit van model m beschrijft, deze is als volgt

gedefinieerd,

Im= −2log(Lm) + q(pm),

waar Lm staat voor de ’likelihood’-functie van model m die wordt afgeleid door de ’maximum like-lihood’ van de schatters te substitueren. De tweede term van het criterium, q(pm), staat voor een

(10)

correctie stijgend in het aantal parameters, pm, of het aantal observaties. Deze correctie wordt voor elk model m geschat, in dit onderzoek gebeurt dat met twee verschillende vormen van correcties, zoals ook gebruikt in Bucklandt et al. (1997) en Diks en Vrugt(2010). De eerste is de ’Akaike’s In-formation Criterion’ (AIC) met de correctie q(p) = 2p, de tweede is de ’Bayes InIn-formation Criterion’ (BIC) met de correctie q(p) = plog(n), waar n staat voor het aantal observaties in de kalibratiesteek-proef. Er ontstaan twee vectoren van gewichten die worden onderscheiden als, ˆwAICen ˆwBIC. Diks

en Vrugt stellen dat de storingen van de modellen normaal verdeeld zijn om het criterium analytisch op te kunnen lossen (2010). In dit onderzoek wordt dat ook gesteld, waardoor de ’likelihood’ voor model i gerelateerd is aan zijn te schatten voorspellingsstoring ˆσm2, via −2log(Li) = nlog ˆσm2 + n.

2.3.6 Granger-Ramanathan averaging

De laatste methode die onderzocht wordt is ’Granger-Ramanathan averaging’. Granger en Rama-nathan (1984) hebben deze techniek geïntroduceerd. Zij stellen voor om OLS te gebruiken voor het schatten van de gewichten om een gecombineerde voorspelling te maken, gegeven de modellen. De gewichtenvector wordt verkregen door OLS toe te passen op de vergelijking die de combinatie van modellen voorstelt waarmee de waarnemingen worden geschat; Yt = PMm=1wmXm,t + t. De

optimale gewichten volgens deze methode zijn: ˆ

wGRA = (XTX)−1XTY.

(11)

3

Onderzoeksopzet

Deze sectie geeft informatie over de verkregen data van www.datastream.com. De karakteristie-ken van de data worden uitgelegd. Ook worden de modellen die gebruikt worden voor de ’model averaging’-technieken beschreven en uitgelegd. Verder wordt beschreven welke meting wordt ge-bruikt voor de mate van nauwkeurigheid van de technieken.

3.1 Data

De data gebruikt in dit onderzoek is dagelijkse data van de Iraanse olieprijzen afkomstig van www.datastream.com. De prijzen zijn gedefinieerd als dollar per BBL, één BBL bevat 160 liter olie. De observaties lopen van één januari 2010 tot en met 28 oktober 2016. Dit zijn in totaal 1780 observaties. Deze observaties worden, zoals eerder vermeld, verdeeld in twee periodes. De kalibra-tieperiode bestaat uit de eerste 1200 waarnemingen en de evaluakalibra-tieperiode bestaat uit de resterende 580 waarnemingen. Met de kalibratieperiode worden de benodigde parameters en gewichten geschat om vervolgens voorspellingen te maken van de evaluatieperiode. Deze voorspellingen worden verge-leken met de werkelijke observaties om de mate van nauwkeurigheid te bepalen.

3.2 Karakteristieken

In deze deelsectie worden de karakteristieken van de data besproken. De plot van de tijdreeksdata wordt besproken en de SPACF (sample partial autocorrelation function) wordt bekeken. Ook wordt er een ’Dickey-Fuller unit root’-test uitgevoerd om te testen voor stationariteit en trends in de data. In Figuur 1a is een plot te zien van de dagelijkse olieprijzen van januari 2010 tot en met 28 otkober 2016. Om fluctuaties stabieler te maken is het logaritme genomen (Logolie(t)) en afgebeeld in Figuur 1b. Er is geen deterministische trend te zien in de plot. Om te bepalen of de data een stochastische trend heeft wordt een ’Augmented Dickey-Fuller test’ (ADF-test) uitgevoerd en bepaald of er eventueel gecorrigeerd moet worden voor deze trend.

In Figuur 3a is waar te nemen dat na de eerste vertraging alle waarden van de ’Sample partioal autocorrelations’ (SPACF) binnen de betrouwbaarheidsinterval liggen en de waarden convergeren naar nul voor hogere vertragingen. De SPACF-waarden geven een vermoeden dat de data een eenheidswortel heeft en niet stationair is. De data wordt getest op een eenheidswortel met een ADF-test. Uit de resultaten van deze test blijkt dat de data een eenheidswortel bevat zoals te zien is in tabel 1. De nulhypothese van een eenheidswortel wordt bij drie verschillende kritieke waarden niet verworpen. Om de data te corrigeren en stationair te maken, worden de dagelijkse verschillen in olieprijzen afgeleid (Dlogolie(t)). Deze verschillen worden ook getest met de ADF-test om te bepalen of er nog een eenheidswortel in de data zit. In Tabel 1 is het resultaat hiervan te zien, voor alledrie de kritieke waarden wordt de nulhypothese verworpen, dit betekent dat de data niet meerdere eenheidswortels bevat. Ook de SPACF-waarden zijn in figuur 3b weergeven waarin te zien is dat alle waarden binnen de betrouwbaarheidsintervallen liggen. De dagelijkse verschillen in olieprijzen is een stationaire tijdreeks en bevat geen stochastische trends. In Figuur 2 is de plot van deze verschillen weergeven, hierin is te zien dat de waarnemingen fluctueren rond een vast gemiddelde en stationair zijn.

(12)

0 200 400 600 800 1000 1200 1400 1600 1800 20 40 60 80 100 120 140 (a) 0 200 400 600 800 1000 1200 1400 1600 1800 3 3.2 3.4 3.6 3.8 4 4.2 4.4 4.6 4.8 5 (b)

Figuur 1: Dagelijkse olieprijzen in Iran januari 2010- november 2016 (a), Logaritme van dagelijkse olieprijzen in Iran januari 2010 - november 2016 (b)

0 200 400 600 800 1000 1200 1400 1600 1800 −8 −6 −4 −2 0 2 4 6

(13)

Lag

0 2 4 6 8 10 12 14 16 18 20

Sample Partial Autocorrelations

-0.2 0 0.2 0.4 0.6 0.8

1 Sample Partial Autocorrelation Function

(a) SPACF waarden voor Logolie(t)

0 2 4 6 8 10 12 14 16 18 20 −0.2 0 0.2 0.4 0.6 0.8 Lag

Sample Partial Autocorrelations

Sample Partial Autocorrelation Function

(b) SPACF waarden voor Dlogolie(t) Figuur 3

Augmented Dickey-Fuller test

t-statistiek 1% kritieke waarde 5% kritieke waarde 10% kritieke waarde

Loglie(t) -0.6962 -3.4372 -2.8645 -2.5684

Dlogolie(t) -29.5180 -3.4372 -2.8645 -2.5684

Tabel 1

3.3 Modelspecificatie en methode

Deze sectie van het onderzoek beschrijft de gebruikte voorspellingsmodellen. Dit onderzoek gebruikt vier verschillende variaties van ARMA(p, q)-tijdreeksmodellen, dit zijn combinaties van AR(p)- en MA(q)-modellen, om de dagelijkse verschillen in olieprijzen te voorspellen. Hierin staan de parame-ters p en q voor het aantal vertragingen van respectievelijk de te verklaren variabele en de storingen. Een AR(p)-model verklaart de dagelijks olieprijzen aan de hand van eerdere waargenomen olieprijzen en ziet er als volgt uit:

yt= α + φ1yt−1+ φ2yt−2+ · · · + φpyt−p+ εt, (t = 1, 2, · · ·, n).

(14)

uit:

yt= α + εt+ θ1εt−1+ θ2εt−2+ · · · + θqεt−q, (t = 1, 2, · · ·, n).

Het eerste model dat wordt gebruikt in dit onderzoek is een ARMA(0,0)-model waarin geen vertragingen worden gebruikt en de te verklaren variabele alleen afhankelijk is van een constante. Dit resulteert in het volgende model:

∆yt= α + εt.

Hierin staat ytvoor de olieprijs op dag t en ∆yt= yt−yt−1is het dagelijks verschil in olieprijzen. Als

tweede model wordt een ARMA(1,0)-model met nul vertragingen in de storingen en één vertraging in de te verklaren variabele gebruikt. Dit staat gelijk aan een AR(1)-model waarbij het dagelijkse verschil in olieprijzen wordt verklaard door één vertraging en ziet er als volgt uit:

∆yt= α + φ1∆yt−1+ εt.

Het volgende model is een ARMA(12,0)-model waarbij een gekwadrateerde vertraging als ver-klarende variabele wordt gebruikt:

∆yt= α + φ1∆yt−12 + εt.

Als laaste voorspellingsmodel gebruikt dit onderzoek een ARMA(2,2)-model. Dit model wordt als volgt geformuleerd:

∆yt= α + φ1∆yt−1+ φ2∆yt−2+ εt+ θ1εt−1+ θ2εt−2.

De parameters van de modellen worden met data in de kalibratieperiode geschat aan de hand van ’Maximum likelihood estimation’ (MLE). Vervolgens worden de gewichten van de ’model averaging’-technieken afgeleid en toegepast op de desbetreffende voorspellingen van de modellen in de evalu-atieperiode. De methode waarmee de kwaliteit van de technieken wordt vergeleken, is de ’Mean absolute error’ (MAE):

M AE = 1 n n X m=1 | ˆYm− Ym|

deze methode neemt het gemiddelde van de verschillen tussen de voorspellers en de werkelijke waar-nemingen. Technieken met kleinere waarden voor de MAE hebben nauwkeurigere voorspellingen. Ook wordt de ’Root mean squared error’ (RMSE) van elk model bepaald en vervolgens vergeleken met de resultaten van de MAE-waarden.

RM SE = v u u t 1 n n X m=1 ( ˆYm− Ym)2 !

De resultaten en analyses, gemaakt met de besproken modellen, worden in de volgende sectie beschreven.

(15)

4

Resultaten en analyses

In deze sectie worden de definitieve modellen en de analyses met deze modellen besproken. Deze sectie bevat de resultaten verkregen door het toepassen van de verschillende ’model averaging’-technieken op de modellen. Alle resultaten en analyses zijn gemaakt met berekeningen in Matlab.

4.1 Resultaten

De parameters van de vier tijdreeksmodellen worden geschat met ’Maximum likelihood estimation’. Voor de schatting van de parameters wordt de data uit de kalibratieperiode gebruikt. Deze peri-ode bestaat uit de eerste 1200 waarnemingen van de dataset bestaand uit 1780 observaties van de dagelijkse olieprijzen in Iran van één januari 2010 tot en met 28 oktober 2016. De resterende 580 waarnemingen worden gebruikt in de evaluatieperiode. Met de geschatte parameters worden met elk model apart 580 statische één-staps voorspellingen gemaakt tot de laatste dag van de oorspron-kelijke dataset. Voor elk model wordt individueel de voorspellingsnauwkeurigheid afgeleid door de voorspellingen te vergelijken met de werkelijke data in de evaluatieperiode. Vervolgens worden de modellen gecombineerd tot een enkel model aan de hand van de verschillende ’model averaging’-technieken. De verkregen voorspellingen worden wederom vergeleken met de werkelijke observaties in de evaluatieperiode.

In Tabel 2 zijn de geëvalueerde coëfficiënten van de variabelen in de modellen weergeven. Ook zijn de AIC- en BIC-waarden van de verschillende modellen weergeven. Deze waarden geven de kwaliteit van het geschatte model ten op zichte van de data weer. Het ARMA(12,0)-model heeft de laagste AIC-waarde, terwijl het ARMA(0,0) de laagste BIC-waarde heeft. De hoogste BIC-waarde heeft het ARMA(2,2)-model, terwijl het ARMA(0,0)- en ARIMA(1,0)-model een gelijkwaardig hoogste AIC-waarde hebben.

Model α φ1 φ2 θ1 θ2 AIC BIC

ARMA(0,0) 2.4208e-04 0 0 0 0 -6.6768e+03 -6.6666e+03

ARMA(1,0) 2.3227e-04 0.0412 0 0 0 -6.6768e+03 -6.6615e+03

ARMA(12,0) 0.0003 -0.3239 0 0 0 -6.6854e+03 -6.6596e+03

ARMA(2,2) 3.2770e-04 0.6707 -0.9557 -0.6551 0.9516 -6.6794e+03 -6.6489e+03

Tabel 2

Elk model wordt getest op seriële correlatie in de residuen. Dit wordt gedaan aan de hand van de ’Ljung-Box’-test. In de nulhypothese van deze test wordt gesteld dat de residuen niet gecorreleerd zijn over de tijd en het model goed gespecifieerd is. In Tabel 3 zijn de resultaten van deze test te zien voor alle modellen. Af te lezen is dat de nulhypothese bij geen enkel model verworpen wordt. Er is dus geen sprake van correlatie tussen de residuen en de modellen zijn correct gespecifieerd.

(16)

Ljung-Box test t-statistiek 5% kritieke waarde p-waarden ARMA(0,0) 14.6366 31.4104 0.7968 ARMA(1,0) 12.6429 31.4104 0.8922 ARMA(12,0) 14.6323 31.4104 0.7970 ARMA(2,2) 12.3098 31.4104 0.9050 Tabel 3

Vervolgens worden de gewichten voor elk ’model-averaging’-techniek berekend zoals in het theo-retisch kader is besproken. Voor de ingewikkeldere technieken MMA en BMA waarbij respectievelijk een minimalisatie en maximalisatie te pas komen, zijn twee verschillende gewichtenvectoren bere-kend. De gewichten zijn bepaald met een restrictie en zonder een restrictie. MMA∆ en BMA∆ zijn de gewichten waarbij de restrictie ∆ staat voor :

∆ = ( w ∈ [0, 1]M : M X m=1 wm = 1 ) .

De gewichten zijn dan groter of gelijk aan nul en kleiner of gelijk aan één, terwijl de som van de gewichten gelijk is aan één. De bepaling van gewichten bij de resterende technieken, met uitzondering van ’Granger-Ramanathan’, voldoen allemaal aan deze restrictie.

In Tabel 4 is een overzicht te zien van alle gewichten berekend voor elke techniek. Ook zijn de individuele voorspellingen van de modellen weergeven in de laatste 3 rijen waarin X1, X2, X3 en X4 respectievelijk staan voor de voorspellingen van de ARMA(0,0), ARMA(1,0), ARMA(12,0) en ARMA(2,2) modellen. In de laatste twee kolommen van tabel 4 zijn de geëvalueerde MAE- en RMSE-waarden weergeven van alle technieken en individuele voorspellingen. Deze resultaten worden besproken in de volgende sectie.

(17)

Methode ∆ wˆ1 wˆ2 wˆ3 wˆ4 MAE RMSE EWA 1 0.2500 0.2500 0.2500 0.2500 0.0198 0.0272 BGA 1 0.2494 0.2494 0.2494 0.2517 0.0198 0.0272 AIC 1 0.1605 0.1633 0.0615 0.6146 0.0198 0.0272 BIC 1 0.9008 0.0719 0.0217 0.0001 0.0197 0.0272 MMA∆ 1 0.1519 0.1777 0.0694 0.6009 0.0198 0.0272 MMA 0 4.9337 0.3447 -11.2446 0.6111 0.0199 0.0271 GRA 0 0.0000 0.6324 0.3372 0.7867 0.0199 0.0272 BMA∆ 1 0.0000 0.2403 0.0000 0.7597 0.0198 0.0272 BMA 0 -0.8504 0.6335 0.3553 0.7871 0.0198 0.0272 X1 - 1 0 0 0 0.0197 0.0272 X2 - 0 1 0 0 0.0197 0.0271 X3 - 0 0 1 0 0.0197 0.0272 X4 - 0 0 0 1 0.0199 0.0273 Tabel 4 4.2 Analyses

In deze sectie worden de resultaten van dit onderzoek geanalyseerd. Wanneer de voorspellingsnauw-keurigheid van de individuele modellen beschouwd worden, is in Tabel 4 te zien dat de ARMA(0,0), ARMA(1,0) en ARMA(12,0) een gelijkwaardige MAE-waarde hebben van 0.0197. Het ARMA(2,2)-model heeft met een klein verschil de hoogste MAE- en RMSE-waarde van respectievelijk 0.0199 en 0.0273. Dit model heeft de minst nauwkeurige voorspellingen aangezien het de hoogste waarden geeft. De resterende drie verschillen gekeken naar de MAE-waarde niet met elkaar, maar hebben niet dezelfde RMSE-waarde. De laagste RMSE-waarde geeft het ARMA(1,0) model met een waarde van 0.0271. Dit model geeft dus volgens de RMSE de meest nauwkeurige voorspellingen.

Als gekeken wordt naar de MAE- en RMSE-waarden van de technieken is te zien dat hier ook nauwelijks verschil is met de individuele voorspellingen. Geen enkele techniek levert nauwkeuri-gere voorspellingen dan de best presterende individuele modellen. Alleen de BIC-techniek levert een MAE-waarde gelijk aan die van de drie best presterende modellen, maar heeft niet de laagste RMSE-waarde. Deze techniek geeft bijna alle gewicht aan het ARMA(0,0)-model en bijna geen gewicht aan het ARMA(2,2)-model waardoor het slechts presterende model wordt uitgesloten. MMA zonder restrictie en GRA geven de hoogste MAE-waarden en presteren volgens die waarden het slechtst. Opvallend is dat de MMA-techniek zonder restrictie wel de laagste RMSE-waarde van 0.0271 geeft gelijk aan de laagste RMSE-waarde van de individuele modellen. Gezien de twee methoden voor

(18)

meting van nauwkeurigheid zijn de resultaten bij deze techniek tegenstrijdig. Verder is er in dit onderzoek geen variatie in nauwkeurigheid. De rest van de technieken hebben dezelfde MAE- en RMSE-waarden die tussen de best en slechts presterende individuele modellen liggen. Geen enkele techniek behalve BIC geeft een nauwkeurigheid die minstens zo goed is als de best presterende indi-viduele modellen. Een techniek als EWA die onafhankelijk van de modellen gelijke gewichten geeft aan elk model presteert niet slechter dan een ingewikkelde techniek waarbij een maximalisatie of minimalisatiefunctie wordt gebruikt. Ook BGA waarbij gewichten afhankelijk zijn van de variantie geeft even nauwkeurige voorspellingen als de ingewikkeldere technieken. Dit betekent dat technieken waarbij de gewichten op een een simpele wijze verkregen worden zoals EWA en BGA niet slechter presteren dan de ingewikkeldere technieken zoals BMA en MMA, maar in dit onderzoek gelijkwaar-dig. Het blijkt dat de ’model averaging’-technieken de nauwkeurigheid van voorspellingen in dit onderzoek niet bevorderen en met uitzondering van de BIC-techniek ze allemaal minder nauwkeurig zijn.

(19)

5

Conclusie

In de recente statistische literatuur zijn vaak verschillende voorspellingsmodellen met elkaar gecom-bineerd om een voorspelling te maken van data. Deze manier van voorspellen heet ’model averaging’ en wordt veel gebruikt in de analyse van hydrologische systemen. Er zijn verschillende technieken die behoren tot ’model averaging’, deze technieken worden in de literatuur vergeleken waar verschil-lende resultaten uit zijn ontstaan. Het idee van deze methode is dat niet enkel het model met de beste nauwkeurigheid wordt gebruikt, maar dat alle beschikbare modellen worden gebruikt. Dit om alle modelonzekerheden mee te nemen in de voorspellingen waardoor eventueel betere resultaten verkregen worden. Vervolgens wordt er gekeken of dit resulteert in nauwkeurigere voorspellingen ten op zichte van het meest nauwkeurige individueel model.

Ook dit onderzoek heeft de nauwkeurigheid van deze technieken vergeleken. Dagelijkse tijd-reeksdata van de olieprijzen in Iran worden gebruikt om ’model averaging’-technieken te vergelijken. Het doel is geweest om te onderzoeken welke techniek de meest nauwkeurige voorspellingen geeft in vergelijking met de andere technieken en de individuele modellen. Gebeleken is dat de ’model averaging’-technieken niet beter presteren dan de individuele modellen en dat veel technieken gelijk-waardig aan elkaar presteren.

In dit onderzoek zijn vier verschillende voorspellingsmodellen gebruikt voor de data. Deze vier modellen zijn variaties van ARIMA(p,q)-modellen waarbij er is gevarieerd in de vertragingen om verschillende modellen te krijgen. De dagelijkse verschillen in logaritmische olieprijzen zijn gebruikt om voorspellingen te maken met deze modellen. Deze modellen zijn geschat met de data uit de kalibratieperiode, waarna voor elk model voorspellingen worden gemaakt van de data in de evalu-atieperiode. Vervolgens zijn de gewichten van elke techniek berekend met de beschreven theorie. De gewichten zijn toegekend aan de vier verschillende voorspellingen om voor elk techniek een ge-combineerde voorspelling te verkrijgen. Deze voorspellingen zijn aan de hand van MAE- en RMSE-waarden op nauwkeurigheid vergeleken.

Uit de resultaten is gebleken dat er weinig tot geen variatie is in de voorspellingsnauwkeurigheid van de individuele modellen en technieken. Geen enkele techniek heeft beter gepresteerd dan de best presterende individuele modellen. Alleen de BIC-techniek heeft gelijkwaardige nauwkeurigheid. De meeste technieken hebben dezelfde MAE- en RMSE- waarden. In dit onderzoek is te zien dat simpelere technieken zoals EWA en BGA niet slechter presteren dan ingewikkeldere technieken als BMA en MMA, waarbij de afleiding van gewichten meer werk nodig heeft, maar ook niet beter.

Aan een te kort aan variatie in voorspellingen is gebleken dat verdere onderzoek nodig is om de ’model averaging’-technieken te beoordelen. De waarden voor de data gebruikt in dit onderzoek zijn heel klein waardoor verschillen in voorspellingen klein worden. Dit zou kunnen betekenen dat de manier waarop de data gebruikt is niet geschikt is voor het doel van dit onderzoek. Aangezien de ge-bruikte modellen ook niet veel verschillen in voorspellingen, zouden er andere variaties en eventuele uitbreidingen op de gebruikte modellen gedaan kunnen worden voor verder onderzoek. Zo heeft dit onderzoek geen gebruikt gemaakt van een extra verklarende variabele. Op basis van economische theorie zou wellicht ook een verklarende variabele gebruikt kunnen worden om de olieprijzen met een beter model te kunnen verklaren en zodoende tot betere voorspellingen te leiden. Dit allemaal om betere resultaten te krijgen en zo krachtigere conclusies te kunnen trekken over de verschillende ’model averaging’-technieken.

(20)

6

Referenties

Bates, J. M., Granger, C. W. (1969). The combination of forecasts. Journal of the Operational Research Society, 20 (4), 451-468.

Buckland, S. T., Burnham, K. P., & Augustin, N. H. (1997). Model selection: an integral part of inference. Biometrics, 53 (2), 603-618.

Diks, C. G., & Vrugt, J. A. (2010). Comparison of point forecast accuracy of model averaging me-thods in hydrologic applications. Stochastic Environmental Research and Risk Assessment, 24 (6), 809-820.

Granger, C. W., Ramanathan, R. (1984). Improved methods of combining forecasts. Journal of Forecasting, 3 (2), 197-204.

Hansen, B.E.. (2007). Least squares model averaging, Econometrica, 75 (4), 1175-1189.

Hansen, B. E. (2008). Least-squares forecast averaging. Journal of Econometrics, 146 (2), 342-350.

Hoeting, J. A., Madigan, D., Raftery, A. E., & Volinsky, C. T. (1999). Bayesian model avera-ging: a tutorial. Statistical science, 14 (4) 382-401.

Johnson, J. B., & Omland, K. S. (2004). Model selection in ecology and evolution. Trends in ecology evolution, 19 (2), 101-108.

Raftery, A. E., Madigan, D., & Hoeting, J. A. (1997). Bayesian model averaging for linear re-gression models. Journal of the American Statistical Association, 92 (437), 179-191.

Raftery, A. E., Gneiting, T., Balabdaoui, F., & Polakowski, M. (2005). Using Bayesian model averaging to calibrate forecast ensembles. Monthly Weather Review, 133(5), 1155-1174.

Vrugt, J. A., & Robinson, B. A. (2007). Treatment of uncertainty using ensemble methods: Com-parison of sequential data assimilation and Bayesian model averaging. Water Resources Research, 43 (1), 1-15.

Wagener, T., & Gupta, H. V. (2005). Model identification for hydrological forecasting under uncer-tainty. Stochastic Environmental Research and Risk Assessment, 19 (6), 378-387.

Winter, C. L., & Nychka, D. (2010). Forecasting skill of model averages. Stochastic Environmental Research and Risk Assessment, 24 (5), 633-638.

Referenties

GERELATEERDE DOCUMENTEN

Hij houdt zich bij het verzamelen, controleren en transporteren van materialen, machines en gereedschappen aan procedures en voorschriften, zodat het werk veilig en volgens

De abstracte zekerheden van de mathematica, zo blijkt, zijn voor Swift het middel om aan de perikelen van het aardse leven te ontkomen: de scheiding van zijn ouders, de

instandhouding  stimuleren  en  de  conflicten  met  ander  landgebruik  reduceren.  De  aanwezigheid  van  bevers  in  geschikte  zones  kan  bovendien  winst 

This graph time point is taken from when the GNPs were added to the cells….……….72 Figure 5-7: Normalised calculated cytotoxicity using xCELLigence data of the GNPs to the

The model SR spectrum from electron – positron pairs produced in cascades near but on field lines inside of the return current layer, and resonantly absorbing radio photons, very

Apart from three pages of introducing and contextualising the study (which will be responded to in the discussion) the History MTT in this section largely covers content

Sesessie of afskeiding was die strewe, veral onder Nasionaliste, om die Unie van Suid-Afrika uit die Britse Gemenebes van Nasies los te maak.. Vir baie

Model 3 obtained the largest overall score and is, therefore, recommended as the final Section 12L modelling option according to the methodology for case study A.. Figure 3: