Afstudeerseminar Econometrie
Lente 2015/2016
Blok 2 semester 2/3
Selectiemethode voor ‘high-dimensional data’
met instrumentele variabelen.
29 juni 2016
Narender Latchmansingh
(10073264)
Begeleiders:
drs. N. Bruin
Hierbij verklaar ik, Narender Latchmansingh, dat ik deze scriptie zelf geschreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan.
Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd.
De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.
Inhoudsopgave
blz.
1. Inleiding 4
2. Literatuurbespreking 5
3. Onderzoeksmethode en werkwijze 10
4. Resultaten van het onderzoek 12
5. Analyse van de resultaten 16
6. Conclusie en discussie 17
7. Samenvatting 18
Bibliografie 19
Bijlage 1 Tabel met variabelen 20
Bijlage 2 Geselecteerde variabelen in het model met transformaties 21 Bijlage 3 mse plots in het model zonder transformaties 22 Bijlage 4 Geselecteerde variabelen in het model zonder transformaties 23
1 Inleiding
Door de toenemende technologische ontwikkelingen van de afgelopen eeuw is het steeds makkelijker geworden om grote hoeveelheden data te verzamelen. Dit wordt ook wel ‘high-dimensional data’ (HDD) of ‘big data’ genoemd. Denk hierbij aan marktonderzoek via het internet, registratiesystemen in een bedrijf of de systemen die de koersen op de beurs volgen. Deze grote hoeveelheden data zijn enorm waardevol, maar kunnen tevens
misleidende informatie opleveren. Het is daarom van groot belang dat er een juiste selectie gemaakt wordt van variabelen uit de beschikbare data, om tot een betrouwbaar resultaat te komen.
Regressiemodellen worden veelal gebruikt om data te analyseren. Het model moet een weerspiegeling zijn van de werkelijkheid, waarbij een eindig aantal regressoren invloed hebben op de afhankelijke variabele. Als alle factoren uit de grote dataset gebruikt worden zal dit hoogstwaarschijnlijk een ‘overfitted’ model opleveren. Tevens zouden variabelen met elkaar kunnen correleren en kan er sprake zijn van endogeniteit, welke een onbetrouwbaar model oplevert. In dit geval is het model niet correct gespecificeerd om te fungeren als een weerspiegeling van de werkelijkheid.
Het selecteren van de juiste variabelen voor regressiemodellen met HDD is dus van groot belang. Omtrent dit probleem wordt er in deze scriptie twee wetenschappelijke
artikelen als basis gebruikt. Het eerste artikel van Belloni, Chernozhukov en Hansen (2014, p. 29) betreft de introductie van een nieuw selectie-algoritme voor HDD, de ‘double selection procedure’ (DSP). Het tweede artikel van Anderson, Dalgaard en Selaya (2016) vergelijkt de economische groei voor verschillende landen rondom de evenaar en voor landen die er verder vanaf liggen. In deze scriptie is de DSP toegepast op de data van het artikel Anderson, Dalgaard en Selaya, met als doel deze selectie procedure te toetsen in de praktijk.
De komende paragrafen zijn als volgt opgebouwd. In paragraaf 2 is de inhoud van bovengenoemde en gerelateerde artikelen beschreven. Vervolgens bevat paragraaf 3 de onderzoeksmethodiek en de uitvoering. In paragraaf 4 worden de resultaten van het
onderzoek getoond en volgt de analyse hierop in paragraaf 5. Paragraaf 6 bevat vervolgens de conclusie en deze scriptie wordt afgesloten met een samenvatting in paragraaf 7.
2 Literatuurbespreking
In de inleiding zijn drie problemen benoemd van regressiemodellen met HDD. Dit zijn namelijk overfitting, endogeniteit en multicollineariteit. In deze paragraaf wordt ingegaan op de selectie van de variabelen voor een HDD model dat rekening houdt met bovengenoemde problemen. Hieronder volgt een bespreking van de achtergrondartikelen betreffende HDD regressiemodellen wat resulteert in een algemene selectieprocedure voor HDD.
Zoals beschreven is het belangrijk om een model zodanig op te stellen dat er geen sprake is van overfitting, endogeniteit of multicollineariteit. Doordat HDD veel variabelen bevat is er al snel sprake van overfitting, multicollineariteit en endogeniteit, wanneer het model al deze variabelen gebruikt. Dit kan vertekende coëfficiënten opleveren bij het
schatten van het onderling effect van deze variabelen. Overfitting wordt voorkomen door een kleiner aantal variabelen op te nemen in het model, waarbij de belangrijke variabelen
vanzelfsprekend nog wel geselecteerd blijven. Multicollineariteit kan beperkt worden door de correlaties van alle variabelen te analyseren. Daarnaast wordt een model met endogene variabelen verbeterd door het gebruik van instrumenten.
Een veelgebruikte procedure voor data met veel variabelen is ‘ridge-regression’. Hierbij worden de 'ordinary least squares' (OLS) coëfficiënten beperkt in grootte zodat
onbelangrijke variabelen een kleiner effect hebben op de afhankelijke variabele. De volgende vergelijking in matrixnotatie hoort hierbij:
y = βX + ϵ s.t. β´β ≤ t (1)
Hierin is y een vector met de afhankelijke n observaties, X een n bij k matrix van alle variabelen en de te schatten vector met k coëfficiënten van alle regressoren. Verder is ϵ een vector met n storingstermen en t een beperkte waarde voor de som van de
coëfficiëntkwadraten. Verder nemen we aan dat de covarianties orthonormaal zijn. Kuhn-Tucker minimalisatie van de kwadratische som van de storingstermen resulteert in:
𝛽̂ = arg min
𝑏 ( 𝑦 − 𝑏𝑋)′(𝑦 − 𝑏𝑋) + 𝜆 ||𝑏||
2 (2)
De λ in deze vergelijking staat voor een ‘penalty-factor’ die de regressorcoëfficiënten b beperkt in grootte. Voor een gekozen waarde λ levert dit de geschatte coëfficiënten:
𝛽̂ = (𝑋’𝑋 + 𝜆𝐼𝑘) −1𝑋’𝑦 (3)
Dit model levert alsnog schattingen op voor alle variabelen die opgenomen zijn in het HDD model waarbij het aantal variabelen niet gereduceerd worden. Ridge-regression is dan ook weliswaar geen procedure om verschillende variabelen te selecteren, maar het geeft onbelangrijke variabelen een kleiner gewicht. Grafisch is dit te beschrijven als de OLS uitkomstenruimte die wordt beperkt door een ellipsoïde in het k-dimensionaal vlak gecreëerd
door de som van de coëfficiëntkwadraten. Variabelen die zowel collineair als endogeen zijn blijven alsnog aanwezig in het model.
Tibshirani (1996, p. 267) introduceerde een nieuwe selectiemethode met de naam ‘least absolute shrinkage and selection operator’ (LASSO). De methode kan gezien worden als een uitbreiding van ridge-regression waarbij variabelen in dit geval wel geëlimineerd worden en overige variabelen meer of minder aandeel krijgen door een ‘penalty-factor’ λ. De LASSO-vergelijking ziet er als volgt uit:
𝑦 = 𝛽𝑋 + 𝜖 𝑠. 𝑡. ∑|𝛽𝑗| ≤ 𝑡
𝑘 𝑗=1
(4)
Hierbij zijn de variabelen op dezelfde manier gedefinieerd als bij ridge-regression. Waarbij in dit geval gebruik wordt gemaakt van een beperking van de som van absolute
regressiecoëfficiënten βj. Een grotere waarde van λ zorgt hierbij voor een model met werkelijk minder variabelen. Het optimaliseren van dit probleem gebeurt door het
minimaliseren van de kwadratische som van storingstermen gegeven de beperking. Hier wordt de Kuhn-Tucker optimalisatie beschreven door:
𝛽̂ = arg min
𝑏 ( 𝑦 − 𝑏𝑋)′(𝑦 − 𝑏𝑋) + 𝜆 ∑|𝑏𝑗| 𝑘 𝑗=1
(5)
Grafisch gezien zorgen de absolute waarde ervoor dat de OLS uitkomstenruimte wordt beperkt door een veelvlak in de k-dimensionale ruimte. Hierbij zal de optimale schatter 𝛽̂ zowel in de hoekpunten van het veelvlak komen te liggen als op de assen van de variabelen, waardoor deze variabelen een coëfficiënt van nul krijgen. Deze variabelen kunnen we dan dus elimineren uit het model. De keuze van de juiste waarde van λ is hierbij essentieel. Tibshirani (1996) adviseert om aan de hand van ‘kfold-crossvalidation’ een optimale λ te
kiezen waarbij de voorspelfout minimaal is. Obuchi en Kabashima (2016) beschrijven deze relatie tussen de optimale λ en het model met de kleinste voorspelfout. Hiervoor introduceren zij de ‘leave one out estimator’(LOOE) om snel deze optimale waarde voor λ te berekenen. In het onderzoek van deze scriptie wordt de optimale λ iteratief bepaald aan de hand van kfold-crossvalidation en niet met LOOE.
Crossvalidation (Picard & Cook, 1984, pp. 575 - 583) is een methode om de
voorspelkracht van het wiskundige model te analyseren. Hiervoor worden de dataobservaties gesplitst in p partities, waarbij p-1 partities worden gebruikt om het model te schatten. Dit wordt ook wel de ‘train’-fase genoemd. Vervolgens wordt met deze geschatte parameters het model voorspeld, ook wel de ‘test’-fase genoemd. Ten slot wordt met de resterende partitie de voorspelfout en de ‘mean squared error’ (msej) berekend. Dit proces word p keer
herhaald zodat elke partitie (j = 1,2… p) eenmaal als testverzameling heeft gefungeerd. De voorspelkracht is dan het gemiddelde van al deze msej. Voor een dataverzameling met
afhankelijke vector variabele ymet de bijbehorende n bij k data matrix X worden de observaties dan verdeeld volgens:
𝑦 = (𝑦𝑡𝑟𝑎𝑖𝑛
𝑦𝑡𝑒𝑠𝑡) 𝑒𝑛 𝑋 = (
𝑋𝑡𝑟𝑎𝑖𝑛
𝑋𝑡𝑒𝑠𝑡) (6)
Hierbij bestaan zowel ytrain als Xtrain uit p-1 partities en ytest en Xtest uit de je partitie. Allereerst
worden de parameters geschat van het model:
𝑦𝑡𝑟𝑎𝑖𝑛= 𝑓(𝛽|𝑋𝑡𝑟𝑎𝑖𝑛) + 𝜀 (7)
Dit levert de schattingen: 𝛽̂ = 𝑎𝑟𝑔 𝑚𝑖𝑛
𝑏 ( 𝑦𝑡𝑟𝑎𝑖𝑛− 𝑓(𝑏|𝑋𝑡𝑟𝑎𝑖𝑛))′(𝑦𝑡𝑟𝑎𝑖𝑛− 𝑓(𝑏|𝑋𝑡𝑟𝑎𝑖𝑛)) (8)
Vervolgens wordt de msej berekend aan de hand van de testverzameling:
𝑚𝑠𝑒𝑗= (𝑦𝑡𝑒𝑠𝑡− 𝑓(𝛽̂|𝑋𝑡𝑒𝑠𝑡))′(𝑦𝑡𝑒𝑠𝑡− 𝑓(𝛽̂|𝑋𝑡𝑒𝑠𝑡)) (9) De schattingen in vergelijkingen (7), (8) en (9) worden herhaald ∀j = 1, …,p en vervolgens wordt van al deze msej het gemiddelde genomen:
𝑚𝑠𝑒 = 1
𝑝∑ 𝑚𝑠𝑒𝑗
𝑝
𝑗=1
(10)
Een kleinere waarde voor het mse geeft hierbij een kleinere voorspelfout en een grotere voorspelkracht.
Hoewel de LASSO-methode een betrouwbare selectie geeft voor het voorspellen van de afhankelijke variabele, is het minder goed in staat om dit voor een HDD model met endogene variabelen en instrumenten te doen. Hiervoor is een nieuwe selectiemethode ontwikkeld door Belloni, Chernozhukov en Hansen (2014, p. 29). Zij beschrijven dat de LASSO-methode gebaseerd is op het geven van een goede voorspelkwaliteit. Hierbij word er niet rekening gehouden met endogeniteit. In het artikel wordt daarom de zogenoemde
‘double-selection-procedure’ geïntroduceerd die de LASSO-methode en de ‘two stage least squares’(2SLS) methode combineert. Het gedeeltelijk lineaire model dat zij als uitgangspunt nemen is het volgende:
𝑦𝑖 = 𝑑𝑖𝛼 + 𝑔(𝑧𝑖) + 𝜁𝑖 𝐸[𝜁𝑖|𝑑𝑖] = 0 (11)
𝑑𝑖 = 𝑚(𝑧𝑖) + 𝑣𝑖 𝐸[𝑣𝑖|𝑧𝑖] = 0 (12) Hier is yi de verklarende variabele, waarbij het effect α geschat kan worden door regressie van de variabele di op yi met de controle variabelen zi. De storingstermen ζi en vi nemen we aan als normaal verdeeld met een variantie σζ2 en respectievelijk een variantie σv2. Er is
sprake van endogeniteit als de storingstermen ζi en vi correleren: 𝐸[𝜁𝑖|𝑣𝑖] ≠ 0.En word er gebruik gemaakt van instrumenten zi om de endogeniteit te verminderen.De functies g(zi) en
m(zi) worden lineair benaderd volgens 𝑔(𝑧𝑖) ≈ 𝑥′𝑖𝛽𝑦+ 𝑟𝑦𝑖 en 𝑚(𝑧𝑖) ≈ 𝑥′𝑖𝛽𝑑+ 𝑟𝑑𝑖 met de
benaderingsfouten ryi en rdi. Na substitutie hiervan in de vergelijkingen (11) en (12) volgt: 𝑦𝑖 = 𝑑𝑖𝛼 + (𝑥′𝑖𝛽𝑦+ 𝑟𝑦𝑖) + 𝜁𝑖 𝐸[𝜁𝑖|𝑑𝑖] = 0 (13)
𝑑𝑖 =(𝑥′𝑖𝛽𝑑+ 𝑟𝑑𝑖) + 𝑣𝑖 𝐸[𝑣𝑖|𝑧𝑖] = 0 (14) Verdere substituties van β = αβd + βy , ri = αrd + ry en ϵi = αvi + ζi in de vergelijkingen (13) en (14) resulteert in de gereduceerde vorm:
𝑦𝑖= 𝑥′𝑖𝛽 + 𝑟𝑖+ 𝜖𝑖 (15)
𝑑𝑖 = 𝑥′𝑖𝛽𝑑+ 𝑟𝑑𝑖+ 𝑣𝑖 (16)
Op deze vergelijkingen is het nu makkelijker de kwadratensom te minimaliseren nadat er een juiste keuze aan variabelen is gekozen. Laat I1 de verzameling aan instrumenten zijn die na selectie voortkomen uit de data van de koppels di en xi. Laat verder I2 de verzameling aan controle variabelen zijn die na selectie voortkomen uit de data van de koppels yi en xi. Dan volgt de ‘post-double-selection’ schatter van α door 2STS toe te passen van de afhankelijke variabele yi op de variabelen I2 en endogene variabele di met bijbehorende instrumenten I1.
Voor de selectie van de controle variabelen wordt LASSO toegepast met een strafterm 𝛾𝑖 = √𝐸[𝑥𝑖𝑗𝜖𝑖𝑗] waarbij deze strafterm bestendig is tegen heteroskedasticiteit.
Wanneer lasso iteratief wordt uitgevoerd word ϵij initialiseert door een matrix met voor alle k
kolommen de vector. Hiermee word de strafterm berekent voor de eerste lasso iteratie. Voor de volgende iteraties worden voor ϵij de matrix gebruikt dat bestaat uit k kolommen met in
ieder kolom de voorspelfout van de vorige lasso selectie en regressie. Wanneer de strafterm klein genoeg is word de iteraties gestopt.
Voor het lineaire regressiemodel y = Xb + ϵ volgt dan de optimale coëfficiëntenschatters: 𝛽̂ = arg min 𝑏 ( 𝑦 − 𝑏𝑋)′(𝑦 − 𝑏𝑋) + 𝜆 ∑|𝑏𝑗| 𝛾𝑗 𝑘 𝑗=1 (17)
De vergelijkingen (11) en (12) zijn van deze vorm, waardoor LASSO geschikt is voor deze beide vergelijkingen om de variabelen te selecteren. De double-selection-procedure omvat drie stappen. Allereerst worden met LASSO de instrumentele variabelen I1 geselecteerd voor het voorspellen van di.Vervolgens worden nogmaals met LASSO additionele controle
variabelen I2 gekozen voor het voorspellen van yi op di. Als laatste wordt het effect α geschat door de 2SLS regressie toe te passen van de afhankelijke variabele yi op di met de
instrumentele variabelen I1 en de overige controle variabelen I2.
Andersen, Dalgaard en Selaya (2016) hebben onderzoek verricht naar de effecten van inkomensverschillen tussen landen die dichtbij en ver van de evenaar liggen. Zij
beschrijven dat er een algemeen bekend causaal verband bestaat tussen de afstand van de evenaar en de economische activiteit in deze regio’s(Masters & McMillan, 2001, p. 167). Op
plaatsen verder van de evenaar is er namelijk meer sprake van economische activiteit dan rondom de evenaar. De hoeveelheid aan ultravioletstraling (UV) lijkt hierbij een grote impact te hebben op het inkomen met een correlatie van -0.95. Er zijn goede redenen dat
ultravioletstraling wel indirect impact heeft op de economische ontwikkeling via bepaalde ziektes. Zo benoemen Anderson, Dalgaard en Selaya (2016) dat er overtuigende epidemische bewijzen zijn voor een causaal verband tussen ultravioletstraling en de verschillende ziektebeelden(Lucas e.a., 2008, p. 654). In het bijzonder zijn dit de verschillende vormen van kanker en chronische aandoeningen van het oog. Anderson, Dalgaard en Selaya maken gebruik van een nieuwe variabele ‘fertility transition’ (fertd) in hun onderzoek. Dit is het jaar dat in een land het gemiddeld aantal nakomelingen binnen een gezin van een hoog aantal naar een significant laag aantal verschuift. Een hoog aantal nakomelingen kan gezien worden als een regio waarbij de kinderen de ouders bijstaan in het leven, werk en oudedagsvoorziening. Daarnaast wordt een regio met een laag aantal
nakomelingen geassocieerd met een hogere economische ontwikkeling. De verschillende jaren waarop een land kan overgaan van een hoog aantal nakomelingen naar een laag aantal nakomelingen kan op deze manier worden uitgedrukt als een inkomensverdeling. Verder hebben bepaalde oogaandoeningen, die ontstaan zijn door ultravioletstraling, effect op het tijdstip waarop overgang in het aantal nakomelingen plaatsvindt (Cervellati & Sunde, 2013, p. 189). In het bijzonder gaat het hier om cataract, dat beter bekend is als de
oogaandoening staar. Zo heeft een regio met een hoog percentage aan cataract een veel lagere ‘return to skill’. Een werknemer die veel zijn ogen veelvuldig nodig heeft zal
vermoedelijk in productiviteit achteruit gaan wanneer zijn zicht verslechtert. Het artikel beschrijft dus de effecten op de landelijke productie achtereenvolgens door het tijdstip van een gemiddelde daling van het aantal nakomelingen in het land, gevolgd door de
hoeveelheid incidenten aan cataract en als laatste door de hoeveelheid ultravioletstraling. Hierbij wordt er als eerste getest of de hoeveelheid aan ultravioletstraling het tijdstip van deze grote afname in nakomelingen kan voorspellen. Ten tweede of de invloed van
ultravioletstraling indirect wordt doorgegeven door de hoeveelheid incidenten van cataract en indirect door het tijdstip van de daling in het aantal nakomelingen. In het bijzonder worden er 2STLS-schattingen gedaan voor het effect van het afnamejaar in het aantal nakomelingen en de aanwezigheid van de hoeveelheid gevallen van cataract op het reëel bnp. Hierbij wordt er getest of het effect van cataract vermindert of wegvalt doordat het gehele effect al indirect is opgenomen in het tijdstip dat het aantal nakomelingen significant is afgenomen. Dit zou de voorspelling P4 uit hun artikel moeten bevestigen, namelijk dat de hoeveelheid aan
ultravioletstraling geen voorspelkracht heeft op het reële BNP wanneer de variabele voor het afnamejaar in het aantal nakomelingen en de variabele voor de hoeveelheid cataract wordt opgenomen in het model. Het resultaat van hun schattingen bevestigt hun voorspelling P4,
aangezien de geschatte coëfficiënt van de variabele voor cataract hierbij niet significant verschilt van nul. Concluderend betekent dit dat zowel de ultraviolette straling als de aanwezigheid van cataract geen direct effect heeft op het reëel BNP. De theoretische effecten zijn in figuur 1 samengevat.
Figuur 1 Het indirect effect van de variabelen
In de volgende paragraaf is gebruik gemaakt van het artikel en de data van Andersen, Dalgaard en Selaya (2016) om dezelfde causale verbanden te bestuderen aan de hand van de DSP. Dit zal resulteren in schattingen die vervolgens vergeleken kunnen worden met de resultaten van Andersen, Dalgaard en Selaya (2016).
3 Onderzoeksmethode en werkwijze
Van de 2SLS-schatting uit het artikel van Andersen, Dalgaard en Selaya (2016)is in deze paragraaf opnieuw een model opgezet met behulp van de DSP. Hieronder wordt eerst de data beschreven, vervolgens zal wiskundige model worden getoond en tenslotte wordt de uitvoering van het onderzoek beschreven.
De data bestaat uit 147 observaties van verschillende landen die gerandomiseerd zijn. Na het verwijderen van observaties die niet compleet zijn blijven er nog 120 observaties over. Allereerst is de verklarende variabele de logaritme van het reëel Bruto Nationaal Product per werkende(log(Rbnpi)) van ieder afzonderlijk land. Deze cijfers zijn afkomstig van de Penn World Tables. De instrumentele variabele voor de maat van de hoeveelheid aan ultravioletstraling aanwezig per land in logaritme is log(uvi). De data hiervan is afkomstig uit databases van de NASA. De hierbij behorende endogene variabele voor de hoeveelheid aan cataract in elk land is ook in logaritme (log(cati)). De eminente variabele is het jaar van significante afname in hoeveelheid nakomelingen per gezin in het land (fertdi). Voor de rest zijn er nog 16 overige controle variabelen over. Hiervan zijn er 5 dummy variabelen voor het continent van elk land. Hiervan blijken er 2 variabelen hoog gecorreleerd met de andere 3 dummy variabelen. Deze twee zijn om die reden uit de data verwijderd, waardoor er nog 14 controle variabelen over blijven. De belangrijkste variabelen zijn uiteindelijk log(cati) en fertdi. Een overzicht van alle gebruikte variabelen is te vinden in bijlage 1.
Het aantal aan variabelen zijn, naast deze 14, uitgebreid door hierop transformaties toe te passen. Er zijn tweede orde en derde orde polynomen van log(cati) toegevoegd en verder zijn de variabelen uitgebreid met kruistermen van deze hele collectie aan variabelen.
UV-R
+
Cataract
+
Fertd
-
Reëel
bnp
Dit levert dan 109 variabelen op. Na het elimineren van multicollineariteit en partiele correlatie zijn er dan nog 67 controle variabelen over en een constante.
Het wiskundige model ziet er als volgt uit:
𝑙𝑜𝑔(𝑟𝐵𝑁𝑃)𝑖 = 𝑙𝑜𝑔 (𝑐𝑎𝑡)𝑖𝛼𝑐𝑎𝑡+ (𝑥′𝑖𝛽𝑦+ 𝑟𝑦𝑖) + 𝜁𝑖 𝐸[𝜁𝑖|𝑑𝑖] = 0 (18)
𝑙𝑜𝑔 (𝑐𝑎𝑡)𝑖 = 𝑙𝑜𝑔(𝑢𝑣)𝑖′𝛽𝑢𝑣 + (𝑥′𝑖𝛽𝑑+ 𝑟𝑑𝑖) + 𝑣𝑖 𝐸[𝑣𝑖|𝑧𝑖] = 0 (19)
Analoog aan vergelijkingen (15) en (16) volgt hieruit de volgende vergelijkingen:
𝑙𝑜𝑔(𝑟𝐵𝑁𝑃)𝑖 = 𝑥′𝑖𝛽 + 𝑟𝑖+ 𝜁𝑖 (20)
𝑙𝑜𝑔 (𝑐𝑎𝑡)𝑖 = 𝑥′𝑖𝛽𝑑+ 𝑟𝑑𝑖+ 𝑣𝑖 (21) Op deze twee vergelijkingen kan de DSP toegepast worden. Allereerst is er een selectie van instrumentele variabelen gevonden door LASSO toe te passen op vergelijking (19). Voor het gebruik van LASSO is de optimale waarde van λ bepaald door 1 fold-crossvalidation waarbij de dataverzameling wordt opgesplitst in 96 observaties om te trainen en 24 observaties om te testen. Voor alle waarden λ = 0.1, 0.2, 0.3, … 99.9, 100 is de voorspelfout mse berekend en is λd gekozen dat de kleinste mse heeft opgeleverd. Met deze geselecteerde variabelen I1 en de daarbij horende schatters van βd is log(cat)i geschat. Voor de tweede stap is de data van de endogene variabele log(cati) aangepast met zijn schatting uit vergelijking (19) voor het toepassen op vergelijking (18). Vervolgens is met deze nieuwe aanpassing en al de andere beginvariabelen weer LASSO en 1 fold-crossvalidatie toegepast op vergelijking (18) wat een optimale λy oplevert met de geselecteerde variabelen I2. Als laatste is er in de derde stap 2SLS toegepast met de afhankelijke variabele log(Rbnpi) op de endogene variabele
log(cati) verenigd met I2 en als instrumenten de variabelen in de verzameling I1.
Bovenstaande berekeningen zijn tevens toegepast op de data waarbij geen transformaties zijn opgenomen. In de volgende paragraaf worden de resultaten van dit onderzoek
besproken.
4 Resultaten en analyse van het onderzoek
In deze paragraaf vind u de resultaten van het onderzoek. In de eerste stap van de DSP is er LASSO uitgevoerd op vergelijking (19). In figuur 2 is de grafiek weergegeven van de mse waarden ∀λ = 0.1, 0.2, … 99.9, 100 op logaritmische schaal na het uitvoeren van 1 fold-crossvalidation.
Figuur 2 Mse voor verschillende waarden van λ voor de eerste stap
De mse met de kleinste waarde is 7.9228, hierbij hoort een λ1 van 8.2. LASSO selecteert hiervoor de instrumenten I1 met in totaal 21 variabelen. Er zijn 14 kruisvariabelen gekozen, 2 tweede-orderpolynomen en 1 kruisvariabele met een derdemachtspolynoom. LASSO heeft verder de variabele loglat niet geselecteerd en 5 niet getransformeerde variabelen
behouden.
In de tweede stap is er LASSO en 1 fold-crossvalidatie uitgevoerd op vergelijking (19). In figuur 3 is de grafiek voor deze stap weergegeven. De minimale mse waarde is 13.4789 met een bijbehorende optimale λ2 = 47.3. LASSO selecteert in deze stap 8
variabelen I2. Deze bevat 1 kruisvariabele en 7 niet getransformeerde variabelen. Verder zijn er 7 oorspronkelijke variabelen niet geselecteerd, ook niet als transformatie. In bijlage 2 zijn alle geselecteerde variabelen weergegeven.
Figuur 3 Mse voor verschillende waarden van λ voor de tweede stap
Voor de derde stap is er 2SLS regressie uitgevoerd van yi op de variabelen in I2 met als endogene variabelelog(cat) en zijn instrumenten I1.
In tabel 1 zijn de eerste en tweede stap 2SLS-regressie schattingen weergegeven. Kolom 1 bevat de geschatte coëfficiënten uit het artikel van Anderson, Dalgaard en Selaya (2016). De kolommen 2 en 3 bevatten de geschatte coëfficiënten van de DSP welke zijn toegepast op de data van Anderson, Dalgaard en Selaya (2016). In kolom 2 is dit zonder transformaties en is in kolom 3 is dit op de data met transformaties. Het model van kolom 2 bestaat uit een relatief klein aantal variabelen en kan daarom niet worden beschouwd als HDD. De DSP is niet bedoeld voor een dergelijk model. Niettemin zijn de geschatte coëfficiënten wel weergegeven. Verder zijn voor dit model in bijlage 3 de mse grafieken weergegeven en in bijlage 4 de geselecteerde variabelen. In deze scriptie zal niet te diep worden ingegaan op dit model. In het verloop van deze tekst zullen de drie modellen van ieder kolom aangeduid worden met model 1, model 2 of model 3.
Tabel 1 De resultaten van de tweede en eerste stap
Tweede stap (1) (2) (3)
Afhankelijke variabele: log reëel bnp per werkende
fertilityd -0.015 -0.01829 -0.02039 [0.0053] [0.0058] [0.0060] logcataract -0.53 -0.52582 -0.22587 [0.36] [0.24951] [0.13221] cont_america 0.044 -0.01109 0.25471 [0.51] [0.43252] [0.23978] cont_asia 0.32 0.28675 [0.49] [0.50829] cont_europe -0.87 -1.02932 -0.78907 [1.01] [0.82068] [0.43320] loglat -0.08 -0.00771 0.08318 [0.12] [0.13488] [0.14093] logelev 0.13 [0.11] temp 0.014 [0.034] prec 0.044 0.02472 [0.26] [0.21658] distc -0.75 -0.79896 [0.25] [0.30180] distr -0.15 [0.17] logarea -0.032 -0.00143 -0.03270 [0.051] [0.05418] [0.05648] NeoTran -0.042 -0.00026 0.11758 [0.056] [0.06286] [0.04059] ln_agsuit -0.31 -0.32744 [0.074] [0.08340] kg_tropsub -0.56 [0.340] areaweig -0.0014 -0.00331 [0.024] [0.01734] areaweight * prec 0.00637 [0.01235] const 48.11175 50.30901 [11.11406] [12.18003] observaties 120 96 96 aantal variabelen 16 12 8
De resultaten van de eerste stap
Endogene variabele: logcataract
Loguvpopw (instrument) -1.34292 1.70549 1.24374
[0.4601] [0.4609] [0.5683]
R2 eerste stap 0.8407 0.8145 0.8438
aantal controle variabelen 15 11 20
5 Analyse van de resultaten
De eerste stap van 2SLS en de DSP hebben betrekking op de endogeniteit van de variabele
log(cat). Aan de hand van sterke instrumenten wordt het onderliggend effect op log(cat)
gefilterd, waardoor er in de tweede stap het ware effect van log(cat) wordt verkregen. De verklaringsgraad van alle drie de modellen zijn vrij hoog(>0.81). Dit geeft aan dat er sprake is van sterke instrumenten die de indirecte effecten filteren. Bij de DSP met transformaties is deze waarde tevens net wat hoger dan in het model van Anderson, Dalgaard en Selaya (2016). De instrumenten bestaan hier voornamelijk uit de getransformeerde kruisvariabelen. De grotere keuze aan variabelen heeft in dit geval gezorgd voor een selectie van sterkere instrumenten.
Gebieden met hoge aanwezigheid van ultraviolette straling zou gepaard moeten gaan met een hoog aantal incidenten van cataract in dat gebied. Het endogene effect van
ultraviolette straling op cataract zou dus positief moeten zijn. Voor alle drie de modellen zijn de schattingen significant verschillend van nul. In model 1 is hier sprake van een negatief effect van 1.34% in aantal incidenten cataract als er 1% meer ultraviolette straling aanwezig is. Dit spreekt de theorie tegen over het effect van ultraviolette straling op de hoeveelheid cataract. Overigens heeft in model 2 en 3 het effect wel de juiste teken met een stijging van 1.71% en respectievelijk 1.24 % in de hoeveelheid incidenten van cataract als de
hoeveelheid ultraviolette straling stijgt met 1%.
De tweede stap in het model heeft betrekking op het verklaren van de afhankelijke variabele log(Rbnp) aan de hand van overige variabelen, met in het bijzonder de variabelen
log(cat) en fertd. Ook in dit geval zijn de schattingen van de coëfficiënten van de variabele fertd significant verschillend van 0. En tevens zijn de effecten in alle drie de modellen
negatief. Dit is in lijn met de besproken theorie. Als het tijdstip van een significant
gemiddelde daling van het aantal nakomelingen 1 jaar later plaatsvind, zal dit voor model 1, 2 en 3 een daling betekenen van respectievelijk 0.015%, 0.0183% en 0.0204% in het reëel bnp. De waarden verschillen niet zo zeer veel van elkaar. De standaard error van fertd in model 3 is tevens wel groter dan in model 1.
In de besproken theorie zou er een positief effect moeten zijn van de hoeveelheid cataract op de fertd en dat zou weer een negatief effect moeten hebben op het reëel bnp(zie figuur 1). In figuur 3 is het directe effect van log(cat) voor alle drie de modellen negatief en voor model 1 en 3 verschilt dit niet significant van nul. Deze cijfers geven aan dat voor model 1 en 3 er geen direct effect is op het reëel bnp. En voor model 2 zou 1% stijging in het aantal incidenten van cataract de reëel bnp doen dalen met -0.53%. De uitkomst van model 1 en 3 is in lijn met de besproken theorie. Aangezien fertd ook opgenomen is in deze modellen word het effect van cataract door fertd geabsorbeerd en heeft log(cat) een indirect effect op
log(Rbnp) waardoor er geen direct effect is op log(Rbnp). In model 1 en 3 zijn de geschatte
coëfficiënten -0.53 en respectievelijk -0.226 met standaard fouten 0.36 en 0.132. Model 3 geeft in dit geval een betere schatter voor log(cat). Met de aanname dat het direct effect nul moet zijn, ligt de geschatte effect dichter bij nul dan in model 1 en is tevens de standaardfout kleiner in model 3. Het effect van model 3 trekt meer naar nul en ligt geconcentreerder rondom zijn schatting.
6 Conclusie en discussie
In het beschreven onderzoek is van een dataverzameling met een klein aantal variabelen een grotere data verzameling gegenereerd door transformaties. Hierdoor valt de nieuwe data verzameling onder HDD. Aangezien de selectiemogelijkheden zijn uitgebreid is het mogelijk om een beter model te selecteren dan het originele model. De DSP is op deze data
toegepast waarbij er relevante instrumenten en relevante controle variabelen gekozen zijn. De overige variabelen hebben verder geen relevante voorspelkracht in het onderliggende 2SLS-model en zijn geëlimineerd. Het totaal aan controle variabelen in model 3 is minder dan in model 1. DSP is dus in staat om het model werkelijk te doen krimpen. Daarnaast heeft het vele originele variabelen verworpen en getransformeerde variabelen geselecteerd die normaal niet aanwezig zouden zijn geweest. Dit heeft de DSP mogelijk gemaakt om sterkere instrumenten te kiezen voor het filteren van endogeniteit.
In het originele model spreekt het effect van de belangrijkste instrument (log(uv)) op de endogene variabele(log(cat)) de economische theorie tegen. Na het toepassen van de DSP verandert het teken van dit effect in de richting dat aansluit met de economische theorie. Het is aannemelijk dat de DSP in dit geval in staat is geweest om het indirect effect beter te schatten. In de tweede stap van de DSP blijken de geschatte effecten nagenoeg hetzelfde te zijn als in het originele model. Alhoewel de DSP heeft geresulteerd in een kleinere standaardafwijking en wordt het effect dichter heeft geschat rond 0 voor de indirecte variabele log(cat), zoals in lijn met de economische theorie.
Het onderzoek in deze scriptie heeft geen meerwaarde geleverd voor het verkrijgen van betere schattingen dan het onderzoek van Andersen, Dalgaard en Selaya (2016). Wel is op te merken dat de DSP na de transformaties van de variabelen even goede schattingen opleveren met een gereduceerd model en met een andere selectie van variabelen.
Concluderend betekent dit dat de DSP een minstens evengoed selectie maakt van
variabelen waar veel controle variabelen en instrumenten uit te kiezen zijn. Het belangrijkste van deze procedure is dat het hoge kwaliteit instrumenten en structurele regressoren
De resultaten van het in deze scriptie beschreven onderzoek zou op verschillende manieren verbeterd kunnen worden. Allereerst hebben we in dit onderzoek gebruik gemaakt van een dataverzameling met 120 variabelen. De DSP is juist ontworpen voor HDD. Het aantal observaties van 120 is dan vrij laag als er gestart wordt met 147 variabelen. Verder is er voor het selecteren van λ gebruikt gemaakt van 1 fold- crossvalidatie. De kracht van kfold-crossvalidatie zit hem juist in het middelen over elke fold. Dit zouden betere voorspelfouten kunnen opleveren, waardoor een andere waarde λ optimaal is en andere variabelen
geselecteerd zouden worden..
7 Samenvatting
In deze scriptie is aandacht besteed aan verschillende selectie procedures voor HDD. Ridge regression en LASSO zijn hiervoor twee bekende methodes. Voor data met onderliggende endogeniteit en het gebruik van instrumenten zijn deze twee methoden niet geschikt. Belloni, Chernozhukov en Hansen (2014) introduceren in hun artikel hiervoor de ‘double selection-procedure’(DSP), dat gebaseerd is op de LASSO-methode. In deze scriptie word de DSP toegepast op het wetenschappelijke artikel van Andersen, Dalgaard en Selaya. Zij doen in dat artikel onderzoek naar de effecten van cataract, ultraviolette straling en het aantal nakomelingen per gezin op het reële bnp. De DSP resulteert hierbij niet in afwijkende schatters ten opzichte van het artikel van Andersen, Dalgaard en Selaya. Wel levert het met een andere selectie van getransformeerde variabelen dezelfde schattingen. Het belangrijkste van deze procedure is dat DSP hoge kwaliteit instrumenten en structurele regressoren selecteert dat rekening houdt met de voorspellingskracht en robuust zijn voor niet-lineare transformaties van de instrumenten.
Bibliografie
Anderson, T. B., Dalgaard, C. en Selaya, P. (2016). Climate and the emergence of global income differences. Review of Economic Studies, 0, 1-30. doi:10.1093/restud/rdw006. Belloni, A., Chernozhukov, V. en Hansen, C. (2014). Inference on treatmenteffects after selecting
among high-dimensional controls, Review of Economic Studies, 81, 608-650. Belloni, A., Chernozhukov, V. en Hansen, C. (2014). High-dimensional methods and
inference on structural and treatment effects, The Journal of Economic Perspectives,
28,(2), 29-50.
Cervellati, M. en Sunde, U. (2013). The economic and demographic transition, mortality and comparative development. American Economic Journal: Macroeconomics, 7, (3), 189-225. Lucas, R.E.M., e.a. (2008). Estimating the global disease burden due to ultraviolet radiation
exposure. International Journal of Epidemiology, 37, 654-667.
Masters, W. en McMillan, M. (2001). Climate and scale in economic growth. Journal of Economic
Growth, 6, 3, 167 – 168.
Obuchi, T. en Kabashima, Y. (2016). Cross validation in lasso and it’s acceleration. Journal
of Statistical Mechanics: Theory and Experiment, 2016, 5.
doi:10.1088/1742-5468/2016/05/053304.
Picard, R. en Cook, D. (1984). Cross-validation of regression models. Journal of the American
Statistical Association. 79, 387, 575 – 583.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal
Bijlage 1 Tabel met variabelen
Variabele Beschrijving
areaweig Aantal dagen dat het vriest met oppervlakte als gewicht
const Constante term
cont_africa Continent: Afrika cont_america Continent: America
cont_asia Continent: Azië
cont_europe Continent: Europe cont_oceania Continent: Oceanië
distc Gemiddelde afstand naar de kust
distr Gemiddelde afstand naar de rivieren
fertilityd fertd Overgangsjaar van significante verandering in aantal nakomelingen kg_tropsub Percentage aan land in tropische en subtropische gebieden
ln_agsuit Natuurlijke logaritme van de index voor geschiktheid van landbouw logarea Natuurlijke logaritme van de oppervlakte in vierkante km
logcataract log(cat) Natuurlijke logaritme van het aantal incidenten van cataract logelev Natuurlijke logaritme van de hoogte van het land
loglat Natuurlijke logaritme van de absolute breedtegraad in graden logrgdpwok log(Rbnp) Natuurlijke logaritme van het reel bnp per werkende in 2004 loguvpopw log(uv) Natuurlijke logaritme van de hoeveelheid ultraviolette straling. NeoTran De tijd na de Neolithische revolutie
prec Gemiddelde hoeveelheid neerslag per jaar temp Gemiddelde temperatuur in graden Celsius
Bijlage 2 Geselecteerde variabelen in het model met transformaties
Tabel 3 Geselecteerde variabelen in het model met transformaties
eerste stap tweede stap
loguvpopw areaweig*distr areaweig*kg_tropsub areaweig*ln_agsuit areaweig*neotran areaweig*prec areaweig*temp cont_america cont_asia cont_europe distr*temp kg_tropsub*distc kg_tropsub*distr kg_tropsub*neotran ln_agsuit ln_agsuit*prec logarea*loguvpopw^3 logelev^2 neotran*logelev prec*logelev temp^2 logcataract areaweig*prec cont_america cont_europe fertilityd logarea loglat neotran
Bijlage 3 mse plots in het model zonder transformaties
Figuur 4 mse voor verschillende waarden van λ voor de eerste stap
Bijlage 4 Geselecteerde variabelen in het model zonder transformaties
Tabel 4 Geselecteerde variabelen in het model met transformaties
eerste stap tweede stap
loguvpopw areaweig cont_america cont_asia cont_europe distc distr kg_tropsub ln_agsuit logelev prec temp logcataract areaweig cont_america cont_asia cont_europe distc fertilityd ln_agsuit logarea loglat neotran prec