• No results found

Robuustheidscheck met High-Dimensional Methods : een toepassing op de handelsexplosie tussen 1870 en 1913

N/A
N/A
Protected

Academic year: 2021

Share "Robuustheidscheck met High-Dimensional Methods : een toepassing op de handelsexplosie tussen 1870 en 1913"

Copied!
22
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Universiteit van Amsterdam

Faculteit Economie en Bedrijfskunde

Bachelorscriptie Econometrie

Studiejaar 2015-2016

Robuustheidscheck met

High-Dimensional Methods

Een toepassing op de handelsexplosie tussen 1870 en 1913

Auteur:

Rob Schuitemaker

Studentnummer: 10575200

Begeleider:

dr. N.P.A. van Giersbergen

22 juni 2016

Abstract

Double selection is a procedure to draw valid inferences on treatment variables when the use of many variables is allowed. Lasso is used to regularize this big set of variables by selecting only the most important ones. In this paper the double selection method is applied to the gravity equation of bilateral trade in levels and the differenced equation of Jacks en Pendakur (2010), in which they examine the role of the maritime transport revolution in the growth of international trade between 1870 and 1913. The goal is to check if their results are robust to variable selection. Both explanatory variables and instruments are selected in order to deal with the endogeneity of the treatment variable. The results show that their initial regressors do not get selected. Most selected variables are transformations in which other effects appear that Jacks and Pendakur do not take into account, such as trend effects or non-linear effects. More importantly, the insignificance of the treatment variable changes when the parameters of Lasso are varied.

(2)

Inhoudsopgave

1 Inleiding 1

2 Modellen met treatment variables 2

2.1 Instrumenten en controlevariabelen . . . 3

2.2 De Lassomethode . . . 4

2.3 Double selection . . . 4

2.4 Groei van internationale handel . . . 6

3 Toepassing van high-dimensional methods 8 3.1 Methode . . . 8

3.2 Data . . . 10

4 Resultaten en analyse 10 4.1 Gravitatiemodel in levels . . . 11

4.2 Variatie van penalty level λ . . . 14

4.3 Gravitatiemodel in verschillen . . . 16

5 Conclusie 18

Bibliografie 19

Verklaring eigen werk

Hierbij verklaar ik, Rob Schuitemaker, dat ik deze scriptie zelf ge-schreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan.

Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd.

De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.

(3)

1

Inleiding

In 2012 werden er dagelijks 2.5 triljoen bytes data gecre¨erd. Dit getal is op zichzelf niet veel-zeggend, maar krijgt pas duiding als het tastbaar wordt gemaakt. Zo kunnen er met deze data honderd miljoen blu-raydisks worden gevuld, die opgestapeld even groot zijn als vierhonderd keer de Eiffeltoren. Er wordt gesteld dat in de laatste jaren ongeveer negentig procent van alle data is gegenereerd, waardoor de ontwikkelingen op het gebied van big data in een stroomver-snelling zijn geraakt (Wall, 2014). Alleen de beschikbaarheid van big data is niet voldoende. De data is onmogelijk te interpreteren zonder het gebruik van speciale methodes, zogenaamde high-dimensional methods. High-dimensional methods bieden de econometrist nieuwe mogelijk-heden om, bijvoorbeeld, variabelen te selecteren. De economische theorie blijft de leidraad bij het kiezen van verklarende variabelen, maar geeft vaak geen duidelijkheid over de functionele vorm van de gekozen variabelen. Zo stelt de standaard loonvergelijking dat werkervaring een van de factoren is die invloed hebben op het loon, maar het is open voor interpretatie of dit effect, bijvoorbeeld, kwadratisch is of een wisselwerking vormt met een andere variabele. Het is voor de onderzoeker niet haalbaar om al die mogelijkheden, waarop een variabele in het model kan worden opgenomen, stuk voor stuk na te gaan. Een gevoeligheidsanalyse wordt vaak gebruikt om het model te controleren, maar echte voldoening geeft dit niet (Belloni, Chernozhukov & Hansen, 2014b, pp. 608-609).

High-dimensional methods bieden de onderzoeker meer mogelijkheden om het selectiepro-bleem te overkomen. Belloni et al. (2014b) ontwikkelen een methode om de regressor waarin ze ge¨ınteresseerd zijn, oftewel de treatment variable, te schatten met behulp van high-dimensional data. Tot dan toe waren de methoden in staat om goede voorspellingen te doen, maar leidde het schatten en toetsen van modelparameters tot incorrecte conclusies. Belloni et al. (2014b, pp. 610, 616) selecteren eerst controlevariabelen die nuttig zijn voor het voorspellen van de treatment variable en doen vervolgens hetzelfde voor de afhankelijke variabele. In tegenstelling tot enkelvoudige selectie geeft double selection wel correcte schattingen en betrouwbaarheids-intervallen.

Het gebruik van high-dimensional data is niet alleen een nuttige aanvulling voor verder onderzoek, maar kan ook ingezet worden om de robuustheid van de resultaten uit eerder onder-zoek te controleren. Belloni, Chernozhukov en Hansen (2014a) laten zien hoe double selection op een grote verzameling controlevariabelen een ander licht werpt op andere onderzoeken. Donohue en Levitt (2001) onderzoeken of de legalisatie van abortus aan het begin van de jaren zeventig effect heeft gehad op de afnemende criminaliteit in de Verenigde Staten. Zij vinden significante resultaten dat 15-25 procentpunten van de daling in misdaadcijfers verklaard wordt door de legalisatie van abortus. Na het toepassen van double selection zijn de co¨effici¨enten echter niet meer significant. Donohue en Levitt nemen op basis van een gevoeligheidsanalyse aan dat de omitted-variables bias de resultaten niet substantieel be¨ınvloedt, maar die aanname is derhalve ongegrond.

Het doel van dit onderzoek is om de resultaten van Jacks en Pendakur (2010) te con-troleren door double selection toe te passen. De internationale handel is sinds het eind van de negentiende eeuw sterk toegenomen, maar een eenduidige verklaring voor deze stijging is er niet. Jacks en Pendakur onderzoeken in hoeverre dalende vrachtkosten voor het verschepen van goederen een verklaring zijn voor de toenemende handel door data van eind negentiende tot begin twintigste eeuw te gebruiken. Zij richten zich op een periode voor de

(4)

wereldoorlo-gen, omdat er toen nog nauwelijks sprake was van goederenvervoer via de lucht. Vanwege de geografische ligging nemen Jacks en Pendakur het Verenigd Koninkrijk als uitgangspunt, om-dat zij louter ge¨ınteresseerd zijn in de handel over zee. Zij schatten een gravitatiemodel voor tweezijdige handelsstromen met instrumentele variabelen (IV), omdat zij veronderstellen dat vrachtprijzen endogeen zijn. Zij vinden dat het effect van vrachtprijzen op handelsstromen niet significant is. Vervolgens onderzoeken zij welke factoren de ‘handelsexplosie’ wel kunnen verkla-ren door nu een gravitatievergelijking in eerste verschillen te schatten. De resultaten laten zien dat zo’n driekwart van de verandering in handelsvolumes verklaard wordt door de groei van economie¨en. Het onderzoek in dit artikel richt zich op de volgende centrale vraag. Hoe robuust zijn de resultaten van Jacks en Pendakur (2010) als high-dimensional methods worden gebruikt om variabelen te selecteren?

De meeste high-dimensional methods hebben regularisatie als doel. Immers, het gebruik van een groot aantal variabelen is vaak geen optie voor de econometrist, omdat dit impre-cieze schattingen geeft. In dit onderzoek wordt Lasso ingezet om variabelen te selecteren die belangrijk zijn om op te nemen als controlevariabelen of om in te zetten als instrumenten. De Lassomethode maakt de co¨effici¨enten in absolute waarde kleiner, waardoor de variabelen met weinig voorspelkracht op nul worden gezet en alleen de belangrijkste worden geselecteerd. Aangezien de vrachtprijzen endogeen zijn, moeten er zowel instrumenten als controlevariabelen geselecteerd worden via de doubleselectionmethode. Daartoe wordt de vergelijking van Jacks en Pendakur (2010) herschreven tot een systeem van twee vergelijkingen, waardoor Lasso twee keer kan worden ingezet voor het selecteren van variabelen. Vervolgens kan er IV worden gedaan, waarbij in de eerste stap de geselecteerde instrumenten en de geselecteerde controlevariabelen worden ingezet om de endogeniteit van de treatment variable te behandelen en in de tweede stap de afhankelijke variabele wordt geregresseerd op de schatting van de treatment variable en de geselecteerde controlevariabelen. Het tweede deel van het onderzoek richt zich op de andere gravitatievergelijking, die bedoeld is om te onderzoeken wat de drijvende krachten waren achter de groei van de handel tussen 1870 en 1913. Wederom wordt het model beperkt door de endo-geniteit van vrachtprijzen, waardoor dit model ook met IV wordt geschat nadat er variabelen geselecteerd zijn. Dit onderzoek maakt gebruik van dezelfde data als Jacks en Pendakur (2010), zodat hun resultaten vergeleken kunnen worden met de resultaten die volgen door het gebruik van high-dimensional methods.

Dit paper is als volgt georganiseerd. Het tweede hoofdstuk geeft een uiteenzetting van de literatuur met betrekking tot treatment variables. Eerst worden modellen besproken met ofwel veel instrumenten, ofwel veel controlevariabelen. Daarna komen de Lassomethode en de dou-bleselectionmethode aan bod en ten slotte wordt het onderzoek van Jacks en Pendakur (2010) behandeld. Het derde hoofdstuk richt zich op de opzet van het onderzoek en is onderverdeeld in de methode en de data. In hoofdstuk 4 worden de resultaten gepresenteerd en geanalyseerd. Het laatste hoofdstuk geeft de conclusie, waarin de bevindingen en beperkingen van het onderzoek nogmaals aan bod komen.

2

Modellen met treatment variables

Dit onderzoek focust zich op het schatten en toetsen van treatment variables. Wanneer het selecteren van variabelen alleen wordt gedaan op basis van de afhankelijke variabele, kan omitted

(5)

variables bias ervoor zorgen dat het fout gaat bij het schatten van de treatment variable. In dit hoofdstuk wordt aan de hand van de literatuur het probleem benoemd en uitgelegd hoe dit kan worden opgelost. De slotparagraaf richt zich op het onderzoek van Jacks en Pendakur (2010).

2.1

Instrumenten en controlevariabelen

Wanneer een regressor endogeen is, dan geeft ordinary least squares (OLS) inconsistente schat-tingen. Het endogeniteitsprobleem kan ondermijnd worden met behulp van instrumenten. Door middel van two-stage least squares, oftewel IV, wordt de endogene variabele geschat met in-strumenten, waarna de schatting op de plek komt van de endogene variabele, waardoor IV een consistente schatter oplevert (Heij, Boer, Franses, Kloek & Dijk, 2004, pp. 396-400). High-dimensional methods kunnen bij IV op twee manieren worden ingezet. De eerste optie is om ze te gebruiken om instrumenten te selecteren om de endogeniteit aan te pakken. De tweede optie is om regressoren te selecteren die in het algemene model moeten worden opgenomen.

Als er een groot aantal instrumenten beschikbaar is, kan er gewoon IV worden toegepast. Om dit te verduidelijken beschouwen Belloni et al. (2014a, pp. 33-34) het volgende model:

yi = αdi+ εi voor i = 1, ..., n

di = zi0Π + ri+ vi ,

(1)

waar E[εi|zi] = E[vi|zi, ri] = 0 en endogeniteit wordt veroorzaakt door E[εivi] 6= 0. Hier is di

een endogene variabele, ri is een benaderingsfout en zi is een vector met p instrumenten, waarbij

p > n is toegestaan. Het gebruik van alle instrumenten geeft geen significante schattingen of is, in het geval p > n, zelfs niet mogelijk. Daarom worden er eerst s instrumenten geselecteerd

met behulp van Lasso, waarbij s  p. In de eerste stap van IV wordt di geregresseerd op de

geselecteerde instrumenten om vervolgens in de tweede stap α te schatten. Deze tweede stap is immuun voor selectiefouten, want als een geldig instrument met kleine co¨effici¨ent onterecht wordt weggelaten in de eerste stap heeft dit geen substantieel effect op de schatter van α, zolang andere instrumenten met grote co¨effici¨enten wel opgenomen worden. Een intu¨ıtieve representatie van de relatie wordt gegeven door:

zi ⇒ di ⇒ yi .

Om het effect van di op yi te schatten, volstaat het om alleen op zi selectie toe te passen.

Het probleem treedt juist op als er sprake is van een model met veel controlevariabelen. Belloni et al. (2014a) beschouwen het model:

yi = αdi+ x0iθy+ ry,i+ ζi voor i = 1, ..., n , (2)

waar E[ζi|di, xi, ry,i] = 0. Wederom is di de treatment variable en ry,ieen benaderingsfout, maar

nu is xi een vector met p controlevariabelen, waar p groter mag zijn dan n. Op basis van Imbens

(2004, p. 7) wordt er aangenomen dat di exogeen is conditioneel op de controlevariabelen. Deze

aanname van randomly assignment geldt alleen als de gekozen verzameling controlevariabelen voldoende groot is. De economische theorie noemt een aantal variabelen die belangrijk kunnen zijn, maar dan is nog niet duidelijk hoe belangrijk een bepaalde variabele is en in welke vorm die in het model zou moeten worden opgenomen. Een gevoeligheidsanalyse, waarbij onderzocht wordt hoe gevoelig de schattingen zijn voor veranderingen in de controlevariabelen, is een

(6)

methode om de exogeniteitsaanname te controleren. (Belloni et al., 2014b, pp. 608-609). Belloni et al. (2014a) laten zien hoe Lasso ingezet kan worden om controlevariabelen te selecteren en zodoende geen ‘groffe’ methode als een gevoeligheidsanalyse nodig hebben.

2.2

De Lassomethode

De Least Absolute Shrinkage and Selection Operator (Lasso) laat sommige co¨effici¨enten krim-pen en zet andere op nul. Ten eerste kan de nauwkeurigheid van de voorspellingen worden verbeterd. OLS heeft namelijk een kleine bias, maar een grote variantie. Door het laten krim-pen of weglaten van bepaalde variabelen wordt de bias iets groter, maar neemt de variantie af, zodat de voorspellingen nauwkeuriger worden. Ten tweede blijven alleen de sterkste effecten behouden, waardoor de resultaten beter te interpreteren zijn.

Stel er is data (x0i, yi) voor i = 1, ..., n beschikbaar en waar x0i = (xi,1, ..., xi,p) de

re-gressoren zijn. Neem aan dat de rere-gressoren gestandaardiseerd zijn, zodat P

ixi,j/n = 0 en

P ix

2

i,j/n = 1. De Lassoschatter ( ˆα, ˆβ), waar ˆβ = ( ˆβ1, ..., ˆβp)0, is gedefinieerd als:

( ˆα, ˆβ) = arg min α,β ( n X i=1  yi− α − p X j=1 βjxi,j 2 ) onder de restrictie: p X j=1 |βj| ≤ t , (3)

waarbij t ≥ 0 de inkrimping van de schattingen reguleert (Tibshirani, 1996, pp. 267-268). Belloni et al. (2014a) nemen een variant op bovenstaande Lassoschatter, namelijk:

ˆ β = arg min b n X i=1  yi− p X j=1 xi,jbj 2 + λ p X j=1 |bj|γj , (4)

waar λ > 0 het penalty level is en γj de penalty loadings zijn. Merk op dat de restrictie in

formule (3) equivalent is aan het toevoegen van de strafterm λP

j|bj|γj in (4). In feite neemt λ

in formule (4) de rol van t in (3) over. De penalty loadings moeten mogelijke niet-normaliteit en heteroscedastische storingen behandelen. Zonder deze gewichten is het niet mogelijk om dezelfde convergentiesnelheid te krijgen. Eerst wordt er een ruwe schatting gemaakt van de gewichten om vervolgens via iteraties de ‘ideale’ gewichten te krijgen (Belloni, Chen, Chernozhukov & Hansen, 2012, pp. 2379-2380). Na het bereiken van convergentie kunnen de variabelen geselecteerd worden, waarvan de co¨effici¨enten niet op nul gezet zijn. Zoals gezegd, zijn deze variabelen richting nul ‘gestuurd’, daarom is het zaak om de geselecteerde variabelen hierna nog te schatten met OLS (Belloni et al., 2014a, pp. 32-33).

2.3

Double selection

Een logische volgende stap zou zijn om deze zogenaamde Post-Lassomethode toe te passen op

vergelijking (3). De co¨effici¨ent α van treatment variable di zou dan buiten de penalty term moet

worden gelaten. Immers, di wordt altijd in het model opgenomen, aangezien het doel is om α

te schatten en te toetsen. Als een variabele sterk gecorreleerd is met di, is het waarschijnlijk

dat Lasso deze variabele op nul zet. De variabele voegt namelijk weinig voorspelkracht toe, waardoor Lasso deze variabele eerder als overbodig ziet. Het gevolg is dat er omitted-variables bias ontstaat als de co¨effici¨ent van deze variabele wel ongelijk aan nul is. Dit is de voornaamste

(7)

reden om double selection toe te passen. Ten eerste negeert enkelvoudige selectie de relatie

tussen treatment variable di en controlevariabelen xi. Ten tweede richt het structurele model

(2) zich op het schatten van di gegeven xi, terwijl men ge¨ınteresseerd is in het voorspellen van

yi gegeven di ´en xi, want dan kunnen er high-dimensional methods worden toegepast (Belloni

et al., 2014a, p. 36).

Belloni et al. (2014a) introduceren daarom een gereduceerde vormvergelijking van de relatie tussen de treatment variable en de controlevariabelen:

di = x0iθd+ rd,i+ vi , (5)

waar E[vi|xi, rd,i] = 0 en rd,i weer een benaderingsfout is. Zij schrijven ook vergelijking (2) in

gereduceerde vorm door substitutie van (5). Het systeem van vergelijkingen wordt:

yi = x0i(αθd+ θy) + (αrd,i+ ry,i) + (αvi+ ζi) = x0iπ + rc,i+ εi (6)

di = x0iθd+ rd,i+ vi , (7)

waar E[εi|xi, rc,i] = 0 en rc,i de samengestelde benaderingsfout is. Als er alleen

variabelese-lectie wordt gedaan over vergelijking (6), worden de variabelen met de grootste co¨effici¨enten

geselecteerd. Oftewel, de variabelen die het belangrijkst zijn voor het voorspellen van yi met

xi worden meegenomen. Grote waarden van θd zijn echter ook van belang, omdat ze belangrijk

zijn voor het voorspellen van di. Deze co¨effici¨enten kunnen echter niet ge¨ıdentifieerd worden in

de samengestelde vector π. Een minder grote co¨effici¨ent in π kan dan niet worden geselecteerd,

ondanks een grote co¨effici¨ent van θd. Andersom kan er ook omitted-variables bias optreden

als er alleen variabelen geselecteerd worden voor vergelijking (7). Samenvattend bestaat de doubleselectionmethode uit drie stappen:

1. Het selecteren van controlevariabelen xd,i die nuttig zijn voor het voorspellen van

treat-ment variable di.

2. Het selecteren van extra controlevariabelen xy,i die nuttig zijn voor het voorspellen van

yi.

3. Het schatten van het treatment effect α door een OLS-regressie van yi op di, xd,i en xy,i,

oftewel: yi = αdi+ x0d,iθd+ x0y,iθy + ηi.

Belloni et al. (2014b, pp. 613-633) laten zien dat de eigenschappen van de schatter van α, zeg ˆα,

uniform geldig zijn. Bovendien staat de doubleselectionschatter imperfecte variabeleselectie toe.

Zij tonen aan dat hun theoretische resultaten geldig zijn, door de verdeling van ˆα te simuleren

en door de prestaties van double selection te analyseren via Monte-Carlosimulaties.

Belloni et al. (2014a, pp. 45-48) leggen aan de hand van een voorbeeld uit hoe double se-lection ingezet kan worden als de treatment variable endogeen is en de aanname dat exogeniteit wordt verkregen als er geconditioneerd wordt op de controlevariabelen, niet geldt. Het idee is om de selectieprocedures voor instrumenten en controlevariabelen te combineren en vervolgens IV uit te voeren met de geselecteerde variabelen als controlevariabelen. Op dezelfde manier is het ook mogelijk om high-dimensional data te gebruiken bij het artikel van Jacks en Pendakur (2010).

(8)

2.4

Groei van internationale handel

Jacks en Pendakur (2010) onderzoeken wat de drijvende kracht is achter de stijging in han-delsvolumes in de negentiende en twintigste eeuw. Hun aanpak richt zich in eerste instantie op de kosten van internationale scheepvaart door maritieme vrachtprijzen te gebruiken. De eerste gedachte is om data van de periode na de Tweede Wereldoorlog te analyseren, maar Jacks en Pendakur richten zich juist op een periode voor de wereldoorlogen, namelijk van 1870 tot 1913. Zij beargumenteren dat dit een ideaal testgebied is, omdat de vrachtprijzen met gemiddeld vijftig procent daalden door groei van de productiviteit in de scheepsvaartindustrie, terwijl de wereldwijde handel met zo’n vierhonderd procent steeg. Bovendien was de bijdrage van het luchtverkeer aan de internationale handel voor de Eerste Wereldoorlog verwaarloosbaar klein. Als de laatste periode onderzocht zou worden, zou het aandeel van het luchtverkeer buiten be-schouwing moeten worden gelaten. Dit aandeel was echter geen constante factor, maar groeide van vrijwel niets aan het begin van de negentiende eeuw tot ongeveer een derde van de totale handel in 2000, waardoor het moeilijker is om zuivere data te krijgen.

Aangezien Jacks en Pendakur (2010) ge¨ınteresseerd zijn in het effect van maritieme vracht-prijzen moet er overwogen worden welke data voor internationale handel geschikt is. Een da-ling van de maritieme vrachtprijzen lijkt namelijk geen effect te hebben op, bijvoorbeeld, het wegvervoer tussen landen. Om geen rekening te hoeven houden met zulke factoren wordt het Verenigd Koninkrijk als uitgangspunt genomen. De definitie is dat alle handel over water moet gaan, waardoor dit land door de geografische ligging een goede kandidaat is. Er wordt ge-bruikgemaakt van een standaard gravitatiemodel, dat bilaterale handelsstromen relateert aan nationaal inkomen, populatie, afstand en buurmanschap. Dit standaardmodel is een loglineaire vergelijking P Xi,j = β0GDPiβ1GDP β2 j D β3 i,je β4P T Ai,jeβ5Ai,jε i,j , (8)

waar εi,j een lognormaalverdeelde storingsterm is. Verder is P Xi,j de nominale bilaterale

han-delsstroom van exporteur i naar importeur j, GDPi is het bruto binnenlands product (bbp)

van land i en Di,j is de afstand tussen de economische centra van land i en j. P T Ai,j en Ai,j

zijn dummyvariabelen voor respectievelijk het bestaan van een handelsovereenkomst en een gedeelde landsgrens (Baier & Bergstrand, 2001, pp. 3-4).

Jacks en Pendakur (2010, pp. 747-748) gebruiken een variant op dit standaardmodel:

T radeU K,i,t = αfU K,i,t+ XU K,i,tβ + δt+ θi+ εi,t , (9)

waar U K staat voor het Verenigd Koninkrijk, i voor het land waarmee handel wordt gedreven

en t voor jaren. T radeU K,i,t wordt berekend als (log(ExportU K,i,t) + log(ImportU K,i,t))/2 en is

vergelijkbaar met P Xi,j uit (8), maar nu wordt ook het jaar in ogenschouw genomen. Merk op

dat hier zowel inkomende als uitgaande goederenstromen worden meegenomen. De index voor

vrachtkosten fU K,i,t om ´e´en ton van een bepaalde grondstof te verschepen, is de belangrijkste

toevoeging van Jacks en Pendakur aan dit model. Er wordt een semiparametrisch model ingezet

om deze index te schatten. XU K,i,t is een vector met covariaten, die nuttig zijn bij een

gravita-tiemodel. Zo komt het bbp daarin terug, maar de afstandsvariabele niet; de afstand wordt al meegenomen in de berekening van de vrachtkostenindex.

Jacks en Pendakur (2010, pp. 750-751) geloven dat vrachtprijzen niet exogeen zijn. Ten eerste zijn vrachtprijzen niets anders dan prijzen voor transportdiensten en bijgevolg een functie van het scheepsvaartaanbod en het gevraagde handelsvolume. Ten tweede is het handelsvolume

(9)

een functie van de handelsprijzen en de hoeveelheid verscheepte goederen. Dit betekent dat handelsvolumes en vrachtprijzen tegelijkertijd worden bepaald. Om dit endogeniteitsprobleem aan te pakken, gebruiken zij verschillende instrumenten:

• Het natuurlijke logaritme (log) van Noorse zeelieden wordt ingezet als instrument. Lonen vormen een significant deel van de variabele kosten van zeevaart. De Britse lonen zijn niet geschikt, omdat die invloed hebben op de Britse economie en zo ook op de import. Met

andere woorden, de Britse lonen correleren mogelijk met de storingsterm van T radeU K,i,t.

Het inhuren van Noorse zeelieden op handelsschepen was gebruikelijk in veel landen, waardoor ze wel correleren met de vrachtprijzen, maar niet met de afhankelijke variabele. • De log van de prijzen van steenkool en vis en het gemiddelde en de variantie van barome-trische druk in vier kwadranten rond het Verenigd Koninkrijk zijn bedoeld om rekening te houden met klimaateffecten. De gedachte hierbij is dat slecht weer een tegengesteld effect heeft op de hoogte van vrachtprijzen.

• De log van de gemiddelde tonnage van zeil- en stoomschepen, die geregistreerd zijn in het Verenigd Koninkrijk, moet de exogene technologische verandering van de scheepsvaartin-dustrie opvangen.

• De log van de ´e´en en twee keer vertraagde nettotonnage van Britse zeil- en stoomschepen dienen als maat voor capaciteitsbeperkingen, die zeker invloed hebben op de vrachtprijzen. Er worden vertragingen opgenomen om de simultaniteit tussen nettotonnage (dat is het aanbod) en vrachtprijzen te vermijden.

Verder worden interactietermen opgenomen van de bovenstaande instrumenten met de afstand tussen havens, waarbij gekozen wordt voor de afstand tussen Londen en de belangrijkste haven van het andere land. De daling in vrachtprijzen is namelijk afhankelijk van de afstand tussen havens.

Nadat Jacks en Pendakur (2010, pp. 751-752) IV hebben toegepast op vergelijking (9), blijkt de co¨effici¨ent van vrachtprijzen klein en niet-significant te zijn. Oftewel, er is onvoldoende statistisch bewijs dat de maritieme transportrevolutie een drijvende kracht was achter de groei van de internationale handel in de periode 1870-1913. Zij vragen zich daarom af welke factoren wel belangrijk waren. Baier en Bergstrand (2001, pp. 11-13) doen een vergelijkbaar onderzoek, behalve dat zij zich richten op een periode na de Tweede Wereldoorlog. Zij hanteren het volgende model:

∆ log Xi,jcif = β0+ β1∆ log(Yi+ Yj) + β2∆ log(sisj) + β3∆ log(1 + ai,j) + β4∆ log(1 + ti,j)

+ β5∆ log Yj+ β6∆ log([PiF/F C j ][P F j /P C j ] −1/σ

) + β7log(P Xi,j,1958−60) + εi,j , (10)

waar εi,j normaal verdeeld is. Xi,j is de re¨ele handelsstroom tussen land i en j, Yi is het re¨ele

bbp van land i en si is het aandeel van land i in de som van de bbp’s van land i en j, oftewel

si = Yi/(Yi+ Yj). Verder is ai,j een factor voor veranderingen in transportkosten, ti,j een factor

voor veranderingen in transportprijzen, PiF en PiC zijn prijsindices, σ is een nog te schatten

parameter en P Xi,j,1958−60is hetzelfde als in vergelijking (8), maar dan toegespitst op de periode

1958-1960.

(10)

verschillen tussen jaren maken zij gebruik van de verschillen tussen perioden van tien jaar. Zij schatten het model:

∆10T radeU K,i,t= β1∆10log F reightU K,i,t+ β2∆10(log GDPU K,t+ log GDPi,t)

+ β3∆10log  GDPU K,t GDPU K,t+ GDPi,t ∗ GDPi,t GDPU K,t+ GDPi,t  + β4∆10log 

averagehT arif f revenue

Imports i

U K,i,t 

+ β5∆10Goldi,t + β6∆10(Exchange rate volatilityU K,i,t) + εi,t , (11)

waar ∆10 de notatie is voor de verandering over een tienjarige periode. Aangezien de

verande-ring in Freight (vrachtprijzen) endogeen is, worden de instrumenten ook in die vorm gebruikt. De tweede en derde term aan de rechterkant van de vergelijking zijn bedoeld om respectievelijk inkomensgroei en inkomensconvergentie te modelleren. De vierde term meet de verandering in gemiddelde tarieven, de vijfde de verandering in de goudstandaard en de zesde de verande-ring in de volatiliteit van de wisselkoers. Wederom blijkt de co¨effici¨ent van de vrachtprijzen niet-verschillend van nul te zijn, terwijl de meeste andere regressoren dat wel zijn; alleen de goudstandaard is niet significant op een niveau van 5%. Jacks en Pendakur schatten dat 76% van de verandering in handelsvolumes wordt verklaard door de groei van het bbp. Het andere grote effect is inkomensconvergentie, dat 18% van de groei voor zijn rekening neemt. Daarente-gen zijn de effecten van de tarieven (-1.4%) en de volatiliteit van de wisselkoers (2.3%) relatief klein. Net als eerdere onderzoeken vinden zij dat de inkomensontwikkeling de motor is achter de groei van de internationale handel.

De bilaterale handelsvergelijkingen (9) en (11) worden gebruikt in het onderzoek, maar deze vergelijkingen zijn nog niet op voorhand geschikt voor high-dimensional methods.

3

Toepassing van high-dimensional methods

Nu de theorie achter double selection en Lasso is uitgeleged en de opzet en resultaten van Jacks en Pendakur (2010) zijn besproken, wordt de aandacht gericht op de opzet van het eigen onderzoek. Eerst wordt uitgelegd hoe double selection toegepast kan worden op de modellen van Jacks en Pendakur en vervolgens wordt de data besproken.

3.1

Methode

In dit onderzoek worden de resultaten van Jacks en Pendakur getoetst op robuustheid. Waar Jacks en Pendakur (2010, pp. 754-755) hun schattingen controleren met behulp van een ge-voeligheidsanalyse, daar wordt dat hier gedaan door variabelen te selecteren die nuttig zijn voor het voorspellen van de afhankelijke variabele. Om high-dimensional methods te kunnen toepassen, is het zaak de handelingen van Jacks en Pendakur duidelijk te hebben. Zij schatten

vergelijking (9) met IV, waarbij de vrachtprijzen endogeen zijn. Dat wil zeggen dat eerst fU K,i,t

wordt geschat met de instrumenten als regressoren. Vervolgens komt de schatting ˆfU K,i,t op de

plaats van fU K,i,t in (9), waarna er OLS wordt uitgevoerd. Echter, bij double selection gaat het

selecteren van variabelen nog vooraf aan de daadwerkelijke IV-schatting. De volgende stappen worden gezet:

(11)

1. Vergelijking (9) wordt in een gewijzigde vorm opgeschreven:

T radeU K,i,t = αfU K,i,t+ x0U K,i,tπs+ εi,t , (12)

waar xU K,i,teen samengestelde vector is van covariaten uit de matrix XU K,i,t, de

controle-variabelen δt en θi en uitgebreid is met transformaties van deze variabelen. De index U K

is bedoeld om aan te geven dat het Verenigd Koninkrijk het land is waarop het onderzoek zich richt, maar deze index is niet variabel, terwijl de indexen i en t dat wel zijn.

2. Er wordt een gereduceerde vormvergelijking opgesteld voor fU K,i,t, dat is de endogene

treatment variable uit vergelijking (12), met instrumenten zU K,i,t en extra variabelen

xU K,i,t:

fU K,i,t= zU K,i,t0 δ1+ x0U K,i,tπf + ζi,t . (13)

De instrumentenvector zU K,i,t bestaat uit de 22 initi¨ele instrumenten van Jacks en

Pen-dakur en is aangevuld met transformaties van deze instrumenten, zoals kwadratische termen en vertragingen.

3. Ook vergelijking (12) wordt in gereduceerde vorm geschreven, want het is de bedoeling

om de belangrijkste variabelen voor het schatten van T radeU K,i,t te leren kennen. De

treatment variable is dan een beperkende factor en kan worden weggewerkt door

verge-lijking (13) in (12) te substitueren. De term z0U K,i,tδ1 wordt echter weggelaten, omdat de

instrumenten zU K,i,t niet belangrijk zijn bij het voorspellen van T radeU K,i,t.

T radeU K,i,t= αfU K,i,t+ x0U K,i,tπs+ εi,t

= α(x0U K,i,tπf + ζi,t) + x0U K,i,tπs+ εi,t

= x0U K,i,t(πfα + πs) + (αζi,t+ εi,t)

= x0U K,i,tπ + ηi,t . (14)

4. Er worden variabelen geselecteerd door Lasso toe te passen op vergelijking (13) en (14).

Vervolgens worden de geselecteerde variabelen uit de vector zU K,i,t gebruikt als

instru-menten bij IV op vergelijking (12), waarbij xU K,i,tbestaat uit de geselecteerde

controleva-riabelen. Overigens worden ook de geselecteerde regressoren opgenomen als instrumenten vanwege hun exogeniteit.

In het tweede deel van hun onderzoek proberen Jacks en Pendakur (2010) de verandering in handelsvolumes te verklaren als gevolg van veranderingen in verschillende economische vari-abelen. Opnieuw moet het model geschikt worden gemaakt voor high-dimensional methods, waarbij dezelfde aanpak wordt gehanteerd als hiervoor:

1. Vergelijking (11) wordt herschreven door opnieuw gebruik te maken van xU K,i,t, omdat

dezelfde variabelen ook in het tweede model worden ingezet.

∆10T radeU K,i,t= µ∆10fU K,i,t+ ∆10x0U K,i,tγs+ νi,t , (15)

waar ∆10 staat voor tienjarige verschillen. Overigens worden de vrachtprijzen in het

theo-retische model met log weergeven, maar in de berekeningen wordt de log weggelaten. Jacks en Pendakur doen dit vermoedelijk, omdat het gros van de instrumenten al op voorhand getransformeerd zijn met het natuurlijk logaritme en daarom geen transformatie nodig hebben.

(12)

2. De gereduceerde vorm voor fU K,i,t is qua opzet gelijk:

∆10fU K,i,t= ∆10w0U K,i,tδ2+ ∆10x0U K,i,tγf + ξi,t . (16)

De instrumentenvector wU K,i,t bestaat in dit geval uit negen variabelen. Ten opzichte

van zU K,i,t worden er geen nieuwe instrumenten ge¨ıntroduceerd; wel worden er een aantal

weggelaten. Wederom wordt de instrumentenvector wU K,i,tuitgebreid met transformaties.

3. Vergelijking (16) wordt in (15) gesubstitueerd:

∆10T radeU K,i,t= µ∆10fU K,i,t+ ∆10x0U K,i,tγs+ νi,t

= µ(∆10x0U K,i,tγf + ξi,t) + ∆10x0U K,i,tγs+ νi,t

= ∆10x0U K,i,t(γs+ µγf) + (µξi,t+ νi,t)

= ∆10xU K,i,tγ + ωi,t , (17)

waarbij de instrumenten weer worden weggelaten, zodat er alleen controlevariabelen voor

∆10T radeU K,i,t geselecteerd kunnen worden.

4. Er wordt Lasso toegepast op vergelijking (16) en (17), waarna de geselecteerde instru-menten en regressoren worden gebruikt bij een IV-schatting op vergelijking (15).

3.2

Data

Het onderzoek van Jacks en Pendakur (2010, pp. 746-749) is geconcentreerd op het Verenigd Koninkrijk en 21 landen waarmee het handel dreef. Men richt zich op de periode van 1870 tot 1913, maar de dataset is niet compleet voor elke land. Australazi¨e, Denemarken, India, Noorwegen en Zweden hebben bbp- en vrachtdata beschikbaar vanaf 1884 en Argentini¨e, Chili, Colombia en de Filipijnen pas vanaf 1900. Bovendien zijn er vanaf 1907 geen data beschikbaar voor Canada en Uruguay. De data van de resterende landen en het Verenigd Koninkrijk zelf zijn wel volledig. Verder wordt er rekening gehouden met veranderingen in de steekproef. Tussen 1870 en 1875 vond ruim zeventig procent van de totale handel van het Verenigd Koninkrijk met deze 21 landen plaats. Dit percentage stijgt weliswaar licht tot maximaal 76%, maar de grote verandering is te zien bij het aandeel van het Verenigd Koninkrijk met de werelhandel. Ondanks een halvering van 30% naar 15% tussen 1870 en 1913 is het geruststellend dat de verhouding tussen de steekproef en de wereldhandel ook sterk daalde, namelijk van 21% naar 11%. Jacks en Pendakur schatten een index voor vrachtprijzen aan de hand van data van 5247 verschepingen van veertig verschillende goederen tussen het Verenigd Koninkrijk en de landen uit de steekproef. Dit onderzoek beschouwt hun schattingen van de index voor vrachtprijzen als gegeven en maakt verder gebruik van dezelfde data. Nu de methode en de data zijn beschreven, kan de stap naar het feitelijke onderzoek worden gezet.

4

Resultaten en analyse

In dit hoofdstuk wordt het onderzoek uitgevoerd, waarbij de resultaten aan bod komen en worden geanalyseerd. De meeste aandacht gaat uit naar het eerste gravitatiemodel van Jacks en Pendakur (2010), waarbij ook het effect van vari¨erende penalty levels apart wordt onderzocht. Ten slotte wordt het tweede gravitatiemodel besproken.

(13)

4.1

Gravitatiemodel in levels

Het eerste deel van dit onderzoek concentreert zich op het eerste onderzoek van Jacks en Pen-dakur (2010), waarin zij onderzoeken in hoeverre de maritieme handelsrevolutie een verklaring vormt voor de groei van de internationale handel. Om het effect van deze revolutie te meten worden de maritieme vrachtprijzen als treatment variable ingezet. Het endogeniteitsprobleem maakt een eenvoudige OLS-schatting onmogelijk, waardoor ook de doubleselectionmethode wordt bemoeilijkt. Zodoende worden er in de gereduceerde vormvergelijking van de vracht-prijzen (13) zowel controlevariabelen voor in het algemene model (12) geselecteerd als ook instrumenten om de endogeniteit aan te pakken. Er wordt een grote verzameling met potenti¨ele

regressoren xU K,i,t en potenti¨ele instrumenten zU K,i,t gecre¨erd. De vector xU K,i,t bestaat uit de

log van de som van de bbp’s (log gdpsum), een maat voor de inkomensgelijkheid (log sprod), de gemiddelde tarieven (log avertar), de goudstandaard (gold ), de volatiliteit van de wissel-koers (ervol ) en transformaties van deze vijf variabelen. Net als Belloni et al. (2014b) worden

de originele variabelen in xU K,i,t samen met zU K,i,t, waarvan de instrumenten beschreven zijn

in paragraaf 2.4, getransformeerd door eerste verschillen, kwadraten, interacties, vertragingen, gemiddelden en initi¨ele waarden te nemen en deze transformaties verder uit te breiden door ze te combineren met een gewone en gekwadrateerde trend (zie Tabel 1). De gemiddelden en initi¨ele waarden zonder trend worden echter niet meegenomen. Jacks en Pendakur (2010) schat-ten namelijk een model met fixed effects. Dat wil zeggen dat de observaties worden gecorrigeerd voor het gemiddelde per groep, waardoor tijdsinvariante variabelen, zoals gemiddelden, altijd de waarde nul hebben en zodoende perfect lineair zijn met de constante. Deze transformaties

breiden xU K,i,t uit tot 174 variabelen en zU K,i,t tot 1404 variabelen. De goudstandaard is

van-wege het 0-1-karakter niet geschikt voor elke transformatie en wordt daarom alleen in levels, eerste verschillen en gemiddelden opgenomen.

Een eerste intu¨ıtieve stap is om T radeU K,i,tte regresseren op een constante, fU K,i,ten alle

controlevariabelen van xU K,i,t. Vanzelfsprekend levert dit geen significantie op en bovendien is

er niet gecorrigeerd voor de endogeniteit van de vrachtprijzen. Een R2 van 0.990 laat zien dat

vrijwel alle variatie in de afhankelijke variabele wordt opgevangen door de regressoren. Interes-santer is het feit dat verschillende transformaties, met name transformaties van het bbp en de wisselkoers, buiten het model worden gelaten als gevolg van multicollineariteit. Daarom wordt er eerst naar de correlatiematrix gekeken om hoge, positieve correlatieco¨effici¨enten te onderzoe-ken. Het eerste wat opvalt, zijn de hoge correlaties tussen een variabele met trend en dezelfde variabele met kwadratische trend. Het gros van deze correlaties is groter dan 0.9, waardoor de kwadratische trend vermoedelijk weinig aan het model zal toevoegen en bovendien zorgt voor grotere standaardfouten door collineariteit. Dit vermoeden wordt bevestigd na toepassing

van Lasso op vergelijking (13) en (14). Er worden dertien variabelen van xU K,i,t en zeven van

zU K,i,t geselecteerd, waarvan er slechts drie een kwadratische trend hebben. Er wordt besloten de kwadratische trend weg te laten, omdat eventuele trendeffecten al kunnen worden omvat

door een gewone trend. Een groot deel van de vectoren xU K,i,t en zU K,i,t wordt in beslag

geno-men door interactietergeno-men, maar alleen interactietergeno-men in level en in level met trend worden geselecteerd. Zodoende worden de interactietermen in eerste verschillen en dezelfde interactie-termen gecombineerd met de trend buiten beschouwing gelaten, mede om de processnelheid te bevorderen.

Na het toepassen van Lasso op de gereduceerde vormvergelijking van T radeU K,i,t worden

(14)

Tabel 1: Transformaties van regressoren en instrumenten

Transformatie Notatie variabelen

Originele regressoren log (gdpsum), log (sprod), log (avertar), gold, ervol

Originele instrumenten log (steamtonnage), log (sailtonnage), dist × log (steamtonnage),

dist × log (sailtonnage), log (wages), log (coal), log (f ish), dist × log (wages), dist × log (coal), dist × log (f ish), log (steamtonnage), log (sailtonnage), dist × log (steamtonnage), dist × log (sailtonnage), country mean, country stdev, dist × country mean, dist × country stdev

Levels × t log (gdpsum) × t, ..., dist × country stdev × t

Levels × t2 log (gdpsum) × t2, ..., dist × country stdev × t2

Kwadraten log (gdpsum)2, ..., (dist × country stdev)2

Kwadraten × t log (gdpsum)2× t, ..., (dist × country stdev)2× t

Kwadraten × t2 log (gdpsum)2

× t2, ..., (dist × country stdev)2× t2

Eerste verschillen ∆ log (gdpsum), ..., ∆(dist × country stdev) Eerste verschillen2 (∆ log (gdpsum))2, ..., (∆(dist × country stdev))2

Interactietermen log (gdpsum) × log (sprod), ..., gold × ervol, log (steamtonnage)

× log (sailtonnage), ..., (dist × country mean) × (dist × country stdev) ∆Interactietermen ∆ log (gdpsum) × ∆ log (sprod), ...,

∆(dist × country mean) × ∆(dist × country stdev)

Vertraging log (gdpsum)−1, ..., (dist × country stdev)−1

Vertraging2 (log (gdpsum)−1)2, ..., ((dist × country stdev)−1)2

Dubbele vertraging log (gdpsum)−2, ..., (dist × country stdev)−2

Dubbele vertraging2 (log (gdpsum)−2)2, ..., ((dist × country stdev) −2)2

Gemiddelden × t (×t2) log (gdpsum) × t, ..., dist × country stdev × t

Gemiddelden2× t (×t2) log (gdpsum)2× t, ..., dist × country stdev2× t

Initi¨ele waarden × t (×t2) log (gdpsum)

0× t, ..., (dist × country stdev)0× t

Initi¨ele waarden2× t (×t2) log (gdpsum)2

0× t, ..., (dist × country stdev) 2 0× t

∆Initi¨ele waarden × t (×t2) (∆ log (gdpsum))0× t, ..., (∆(dist × country stdev))0× t

∆Initi¨ele waarden2× t (×t2) (∆ log (gdpsum))2

0× t, ..., (∆(dist × country stdev))20× t

Opmerkingen: Iedere transformatie wordt ook vermenigvuldigd met een trend (t) en gekwadrateerde trend, behalve de vertragingen. De toevoeging ∆ duidt op eerste verschillen en dist is een indicatie voor afstand. De transformaties van log (steamtonnage) en log (sailtonnage) worden vanuit levels getransformeerd, waar Jacks en Pendakur (2010) alleen ´e´en en twee keer vertraagde versies gebruiken.

uit xU K,i,t en zes variabelen uit zU K,i,t. Aangezien er meerdere transformaties van,

bijvoor-beeld, log (sprod) en ervol zijn geselecteerd, wordt er eerst gecontroleerd op collineariteit. Een intu¨ıtieve test geeft aan dat alle negentien variabelen op een bepaalde manier hinder ondervin-den als gevolg van collineariteit. Om hier een beter beeld van te krijgen, wordt er gekeken naar de Variance Inflation Factor (VIF). Een vuistregel is dat er sprake is van significante

multi-collineariteit als VIF > 10. Alleen log (gdpsum)2, log (gdpsum) × log (avertar), gold × ervol ×

t, (∆ log (sprod))2

0 × t, (∆ log (avertar))20 × t, (∆ervol)20 × t, country mean20 × t en (∆(dist ×

log (wages))2

0×t hebben een VIF ≤ 10. In combinatie met de correlatiematrix, waarbij co¨effici¨enten

(15)

T ab el 2: Regressieresultaten -Gra vitatiemo del in lev els IV sc hattin ge n Jac ks en P endakur Double selection A B C D c = 1 .1 , α = 0 .1 / log (n ) c = 1 .1 , α = 0 .05 c = 1 .5 , α = 0 .1 / log (n ) T r ade U K ,i,t Co ¨ef. St.dev. P Co ¨ef. St.dev. P Co ¨ef. St.dev. P Co ¨ef. St.dev. P fU K ,i,t -0.0146 0.1754 0.934 0.7206 0.2506 0.004 0.4934 0.1875 0.009 0.2773 0.2100 0.186 log (g dpsum ) 0.5470 0.1532 0.000 log (spr o d ) 0 .8 498 0.1529 0.000 log (av er tar ) -0.2211 0.061 8 0.000 gold 0.2178 0.0358 0.000 ervol -1.5656 0.8346 0.061 log (g dpsum ) × log (av er tar ) -0.0041 0.0060 0.495 -0.0065 0.0052 0.210 log (spr o d ) × er v ol 0.0081 0.2667 0.976 log (av er tar ) × g ol d 0.0833 0.0167 0.000 0.0777 0.0151 0.000 0.0616 0.0144 0.000 log (g dpsum ) × log (av er tar ) × t -0.0011 0.0074 0.882 -0.0005 0.0065 0.935 g ol d × er v ol × t -1.3700 3.9340 0.728 -1.6414 4.0029 0.682 log (g dpsum ) 2 0.0371 0.0091 0.000 0.0320 0.0073 0.000 0.0278 0.0062 0.000 log (spr o d ) 2 -0.0700 0.0305 0.022 -0.0807 0.0279 0.004 -0.0773 0.0273 0.005 ervol 2 0 × t 325.5971 155.0793 0 .0 36 284.9966 13 6.1874 0.036 -112.2932 95.5309 0.240 (∆ log (spr od )) 2 0 × t 6.6045 24.8307 0.790 (∆ log (av er tar )) 2 0 × t 33.2357 4.0336 0.000 33.4457 3.6368 0.000 24.1518 3.7346 0.000 (∆ er v ol ) 2 0 × t -1690.1460 707.577 2 0.017 -1816.9040 643.2938 0.000 de cade 1870 − 79 0.0280 0.1246 0.822 -0.1228 0.01269 0.333 -0.0440 0.1113 0.692 0.0691 0.1255 0.582 de cade 1880 − 89 -0.0050 0.0920 0.956 -0.0967 0.0883 0.273 -0.0515 0.0789 0.514 0.0052 0.08 23 0.950 de cade 1890 − 99 -0.0278 0.0669 0.678 -0.1119 0.0653 0.087 -0.0858 0.599 0.152 -0.06 13 0.0595 0.303 de cade 1900 − 09 -0.0004 0.0457 0.993 -0.0054 0.0418 0.898 -0.0114 0.0377 0.763 -0.0257 0.0363 0.479 Observ aties 653 65 0 650 6 50 Extra instrumen ten 22 6 9 7 R 2 0.4837 0.582 7 0 .6 151 0.6158 First-stage R 2 0.8423 0.844 5 0 .8 567 0.8448 Robuust first-stage F (P-w aarde) 7.44 (0.000) 6.70 (0.000) 7.97 (0.000) 7.23 (0.000) First-stage F (P-w aarde) 5.49 (0.000) 18.34 (0.000) 19.67 (0.000) 19.35 (0.000) Hansen J test (P-w aard e ) 29.87 (0.095) 11.67 (0.040) 35.61 (0.000) 11.15 (0.084)

(16)

weg te laten. Het eerste wat opvalt, is een correlatieco¨effici¨ent van 0.999 tussen log (sprod)2 en

log (sprod)2−1 met respectievelijk VIF’s van 459.81 en 454.06. Ondanks een iets grotere VIF valt

de keuze op log (sprod)2, omdat deze variabele dichter bij het origineel van Jacks en Pendakur

(2010) ligt. Ook een correlatie van 0.955 tussen de interactietermen log (gdpsum) × gold en log (avertar) × gold mag niet genegeerd worden. Er wordt besloten om laatstgenoemde te

hou-den vanwege een kleinere VIF. Verder zijn ervol0× t en ervol02× t onderling sterk gecorreleerd.

De voorkeur gaat uit naar ervol0× t, omdat die meer lineair is, hoewel ervol02× t een lagere VIF

heeft. Ook de extra instrumenten hebben onderling hoge correlaties, maar dit kan genegeerd worden, aangezien de eerste stap van IV puur gericht is op het voorspellen. Vervolgens wordt een

regressie uitgevoerd van T radeU K,i,top fU K,i,t, de geselecteerde variabelen van xU K,i,ten

dummy-variabelen per decennium, waarbij log (steamtonnage) × log (sailtonnage), log (sailtonnage) ×

(dist × log (sailtonnage)) × t, country mean20× t, (∆(dist × log (wages)))2

0× t, log (wages) ×

log (steamtonnage) en log (steamtonnage)−1 van zU K,i,texclusief worden ingezet als

instrumen-ten voor fU K,i,t. In overeenstemming met Jacks en Pendakur (2010) wordt er gebruik gemaakt

van eerste orde autoregressieve en heteroscedastische, robuuste standaardfouten en fixed effects per land.

De resultaten van Jacks en Pendakur blijken gevoelig voor veranderingen in de regressoren en instrumenten. Zij concluderen immers op basis van een niet-significante co¨effici¨ent (P-waarde 0.934) dat de vrachtprijzen weinig hebben bijgedragen aan de toename van handelsvolumes. Echter, na het selecteren van variabelen wordt de co¨effici¨ent van de vrachtprijzen wel significant. Bovendien heeft de co¨effici¨ent het verkeerde teken, want Jacks en Pendakur (2010, pp. 746-747) beargumenteren immers dat als de maritieme transportrevolutie een effect zou hebben gehad op de handelsgroei tussen 1870 en 1913, dit een tegengesteld effect moet zijn geweest. Verder valt op dat de originele regressoren van Jacks en Pendakur niet geselecteerd worden, maar wel getransformeerd terugkeren. Dit duidt erop dat er onderliggende effecten zijn waar zij geen rekening mee houden, zoals trend- en kruiseffecten. Zij gebruiken verschillende criteria om hun instrumenten te controleren. De Hansen J test met P-waarde 0.095 > 0.05 laat zien dat hun extra instrumenten niet lijden aan overidentificatie, maar dit is wel het geval bij de resultaten uit Tabel 2B gezien een P-waarde van 0.04. De Hansen J test kan er ook op wijzen dat de instrumenten niet exogeen zijn, waardoor er twijfels moeten worden gezet bij de significante schatting van de vrachtprijzen in Tabel 2B. Hoewel de instrumenten wel relevant zijn gezien de

significantie van de first-stage F -statistic. De R2 van de first-stage is met 0.845 groot en

verge-lijkbaar met de verklaringsgraad van Jacks en Pendakur, terwijl ook de correlatieco¨effici¨enten

tussen fU K,i,t en de instrumenten voldoende groot zijn. Wellicht wordt de exogeniteit van de

instrumenten niet verworpen bij andere schattingen. In de volgende paragraaf wordt dat on-derzocht door de aandacht te vestigen op de penalty term van de Lassoschatting, die hierboven nog buiten beschouwing is gelaten.

4.2

Variatie van penalty level λ

De Lassomethode draait om het straffen van de OLS-co¨effici¨enten. Zoals besproken in sectie 2.2 hangt de penaltyterm af van twee parameters, namelijk penalty loadings en penalty level. Belloni et al. (2014b, p. 628) nemen als penalty level λ = 2cσp2n log (2p/α), waarbij c > 1, σ het noise level, α ∈ (0, 1), p het aantal beschikbare variabelen en n het aantal observaties is. In overeenstemming met Belloni, Chernozhukov en Hansen wordt in dit onderzoek

(17)

gebruikge-maakt van c = 1.1, σ = 1 en α = 0.1/ log (n) = 0.015. Door de parameters c en α te vari¨eren kan er onderzocht worden welke variabelen dan wel worden geselecteerd, welke juist niet meer en wat het effect is op de schattingen. Eerst wordt α verhoogd tot 0.05 en vervolgens c tot 1.5. Aangezien α in de noemer staat, leidt deze verhoging ertoe dat λ kleiner wordt, waardoor de verwachting is dat er meer variabelen geselecteerd zullen worden. Lasso selecteert opnieuw

dertien variabelen uit xU K,i,t, maar nu negen uit zU K,i,t. De transformatie log (sprod) × ervol

komt erbij als regressor, maar dit gaat ten kost van (∆ log (sprod))20 × t. De selectie van

zU K,i,twordt uitgebreid met (log (steamtonnage))2× t, log (sailtonnage) × country mean × t en

(∆(dist × log (sailtonnage)))2

0× t. Er moet weer gecorrigeerd worden voor multicollineariteit.

Wanneer dezelfde drie variabelen als in de regressie van Tabel 2B worden weggelaten, zijn alle VIF’s kleiner dan 10 en de sterkste correlaties verdwenen.

Ondanks dat de selectie van variabelen een aantal veranderingen heeft ondergaan, leidt dit niet tot grote veranderingen in de resultaten, die gerapporteerd zijn in Tabel 2C. De co¨effici¨ent van de vrachtprijzen is nog steeds verschillend van nul, maar is wel sterk gedaald van 0.721 naar 0.493. Dit resultaat kan echter niet gebruikt worden als bewijs dat de resultaten van Jacks en Pendakur niet robuust zijn voor variabeleselectie. De Hansen J test is namelijk door de uitbrei-ding van de geselecteerde instrumenten alleen maar meer significant geworden. Er zijn ook geen

grote veranderingen in de first-stage R2 en F -statistics. Het toevoegen van log (sprod) × ervol

en het weglaten van (∆ log (avertar))20×t lijkt de resultaten nauwelijks te be¨ınvloeden. Er vindt

namelijk geen verandering van significantie plaats, maar de toevoeging van log (sprod) × ervol heeft er waarschijnlijk wel toe geleid dat de co¨effici¨enten van de geselecteerde transformaties van ervol sterk zijn veranderd.

Naast α kan c vrij gekozen worden, mits c > 1. Aangezien c = 1.1 betrekkelijk laag staat, wordt er onderzocht in hoeverre de resultaten veranderen als c wordt verhoogd tot c = 1.5 en α weer de originele waarde aanneemt. Naar verwachting vallen er meer variabelen weg dan erbij

komen. Dit is zeker het geval bij de selectie uit xU K,i,t, waar, vergeleken met de eerste

regres-sie, zes transformaties niet meer worden geselecteerd. De andere Lassoschatting selecteert ten

opzichte van de resultaten uit Tabel 2B country stdev0× t en (dist × country stdev)0× t als

nieuwe instrumenten, maar (∆(dist × log (wages)))2

0× t keert niet meer terug. Om

multicolline-ariteit te voorkomen, worden de geselecteerde transformaties ervol0× t en log (gdpsum) × gold

weggelaten. Deze keer is de co¨effici¨ent van de maritieme vrachtprijzen wel niet-significant, zoals dat ook het geval is bij Jacks en Pendakur. De Hansen J test heeft een waarde van 11.15, die met een P-waarde van 0.08 net niet significant is. In overeenstemming met Jacks en Pendakur mag er nu wel gezegd worden dat de instrumenten exogeen zijn. De relevantie blijkt uit de significante F-toets, waardoor de schatting van de vrachtprijzen in dit geval wel bruikbaar zijn.

Wederom wordt er een hoge R2 en first-stage R2 gevonden. Vergeleken met de regressie van

Tabel 2B is bij de transformaties alleen de significantie van ervol20× t veranderd. De resultaten

uit de kolommen B, C en D van Tabel 2 laten zien dat de resultaten van Jacks en Pendakur afhankelijk zijn van de gekozen variabelen. Kleine veranderingen in de strafterm hebben grote

gevolgen voor de grootte en de significantie van fU K,i,t. De instrumenten van Jacks en Pendakur

voldoen net aan de exogeniteitseis, maar als er variabeleselectie wordt toegepast is dit in twee van de drie gevallen niet meer het geval. Dit laat zien dat de variabelen die het belangrijkst

zijn bij het voorspellen van fU K,i,t mogelijk niet exogeen zijn, maar dat de minder belangrijke

variabelen er alsnog voor zorgen dat de 22 instrumenten gezamenlijk aan de eis voldoen. Kij-kend naar de verschillende selecties lijkt country stdev de gemene deler te zijn, die juist in de schattingen van Tabel 2B en 2C ontbreekt. Bovendien worden de regressoren geen enkele

(18)

keer in level geselecteerd. Dat wil zeggen dat transformaties belangrijker worden geacht bij het

voorspellen van T radeU K,i,t, dan wel fU K,i,t, waardoor er twijfels ontstaan rondom de resultaten

van Jacks en Pendakur. Zij houden bijvoorbeeld geen rekening met niet-lineaire effecten, terwijl die er wel zijn gezien de selectie van kwadratische en interactietermen.

4.3

Gravitatiemodel in verschillen

In hun tweede model doen Jacks en Pendakur (2010) een regressie in verschillen, waarbij wordt

gekeken naar veranderingen over een periode van tien jaar. Zo wordt ∆10T radeU K,i,t verkregen

door T radeU K,i,t te verminderen met T radeU K,i,t−10. Zij baseren hun model op een algemeen

gravitatiemodel voor bilaterale handel met de verandering in vrachtprijzen, de inkomensgroei, de inkomensconvergentie, de verandering in gemiddelde tarieven, de verandering in de goudstan-daard en de verandering in de volatiliteit van de wisselkoers als regressoren. Als instrumenten voor de verandering in vrachtprijzen gebruiken ze dezelfde instrumenten als in de eerste schat-ting, behalve dat ze nu in verschillen met tien jaar geleden worden ingezet. De instrumenten

log (sailtonnage) en log (steamtonnage), die beide ´e´en en twee keer vertraagd waren, worden

in deze regressie helemaal niet meer meegenomen, terwijl vijf andere instrumenten alleen als interactie met de afstand behouden blijven. Op basis van significante resultaten concluderen zij dat de groei en convergentie van inkomens de drijvende krachten waren achter de sterke han-delsgroei tussen 1870 en 1913. Echter, wanneer hetzelfde onderzoek opnieuw wordt uitgevoerd, worden grote verschillen in de geschatte co¨effici¨enten geconstateerd. Navraag leert dat de gerap-porteerde resultaten in Tabel 5A van Jacks en Pendakur (2010) onjuist zijn. De belangrijkste consequentie van deze herschatting, waarvan de resultaten vermeld zijn in Tabel 3A, is dat de

co¨effici¨ent van ∆10growth niet meer significant is met een P-waarde van 0.114, terwijl Jacks

en Pendakur juist vonden dat deze variabele goed was voor 76.4% van de handelsgroei. In het vervolg van dit onderzoek wordt er verder gewerkt met de resultaten van deze herschatting.

De regressoren en instrumenten worden op dezelfde wijze getransformeerd als in Tabel 1. De eerste verschillen worden echter weggelaten, omdat de regressoren en instrumenten van origine al in verschillen worden opgenomen. Zodoende vallen ook de interactietermen en initi¨ele waarden in eerste verschillen weg. Jacks en Pendakur (2010) maken nu geen gebruik van fixed effects, waardoor variabelen met constante waarden in dit model wel betekenis hebben. Daarom worden er ook transformaties van gemiddelden en initi¨ele waarden zonder trend ingezet. Alleen

het gemiddelde en de interactietermen van de variabele ∆10gold worden opgenomen, omdat

an-dere transformaties weinig betekenis hebben bij deze variabele, die alleen de waarden -1, 0 en 1

aanneemt. Resumerend bestaat ∆10xU K,i,t uit 114 variabelen en ∆10wU K,i,t uit 228 variabelen.

Bij de eerste Lassoschatting wordt opnieuw gekozen voor c = 1.1 en α = 0.1/ log (n). On-danks hoge correlaties tussen een variabele met trend en dezelfde variabele met gekwadrateerde trend wordt besloten de selectie niet in te perken door de gekwadrateerde trend weg te laten. Vooral omdat het aantal variabelen aanzienlijk kleiner is dan in het voorgaande model, waardoor

de ‘rekensnelheid’ geen belemmering meer vormt. Lasso selecteert vijf variabelen uit ∆10xU K,i,t

en drie uit ∆10wU K,i,t, namelijk (dist×∆10log (wages))×t2, (dist×∆10log (steamtonnage))2×t

en (dist × ∆10log (f ish))20. Kijkend naar de correlatiematrix valt op dat er weinig grote

cor-relatieco¨effici¨enten zijn, ondanks dat meerdere geselecteerde variabelen met inkomensgroei, in-komensconvergentie en tarieven te maken hebben. Bovendien zijn alle VIF’s kleiner dan 3. De

(19)

Tabel 3: Regressieresultaten - Gravitatiemodel in verschillen

IV schattingen

Jacks en Pendakur Double selection

A B C

c = 1.1, α = 0.1/ log (n) c = 1.1, α = 0.10 ∆10T radeU K,i,t Co¨ef. St.dev. P Co¨ef. St.dev. P Co¨ef. St.dev. P

∆10fU K,i,t -0.2010 0.2348 0.392 -0.2443 0.1623 0.132 -0.0711 0.1763 0.687 ∆10growth 0.3902 0.2466 0.114 ∆10converg 1.0132 0.1894 0.000 ∆10avertar -0.2322 0.0829 0.005 -0.1989 0.0848 0.019 -0.1580 0.0778 0.042 ∆10gold 0.0824 0.0461 0.074 ∆10ervol -2.3620 0.9854 0.017 ∆10growth × t 0.3309 0.2398 0.168 (∆10converg)2× t2 -2.0247 0.9424 0.032 ∆10growth × ∆10converg × t 8.3916 2.3630 0.000 8.4100 2.2578 0.000 ∆10growth × ∆10gold × t2 2.1981 0.4693 0.000 2.1059 0.4068 0.000 ∆10ervol -4.7388 11.8236 0.689 ∆10converg × t -0.5556 0.5429 0.306 0.1955 0.4782 0.683 ∆10ervol × t2 -21.8690 20.0186 0.275 (∆10avertar)20 1.2413 0.4352 0.004 0.8848 0.3776 0.019 Observaties 463 463 443 Extra instrumenten 9 3 4 R2 0.3161 0.3358 0.3990 First-stage R2 0.6957 0.6898 0.7413 Robuust first-stage F (P-waarde) 4.46 (0.000) 30.54 (0.000) 32.31 (0.000) First-stage F (P-waarde) 11.95 (0.000) 79.12 (0.000) 83.77 (0.000) Hansen J test 12.74 (0.121) 2.687 (0.261) 1.27 (0.736)

selectie van ∆10xU K,i,t, waarbij alle geselecteerde variabelen worden ingezet als instrumenten

voor de endogene treatment variable ∆10fU K,i,t. Evenals Jacks en Pendakur (2010) wordt er

een niet-significante co¨effici¨ent voor ∆10fU K,i,tgevonden. De enige variabele die zonder

transfor-matie terugkeert, is ∆10avertar en heeft bovendien een co¨effici¨ent die significant is en redelijk

overeenkomt met de schatting van Tabel 3A. Op ∆10ervol na worden de andere regressoren wel

als transformatie opgenomen. Er is geen sprake van overidentificatie bij de extra instrumenten gezien de niet-significante P-waarde van de Hansen J test en bovendien wijzen de significante

F -statistics op kwalitatief sterke instrumenten. Verder zijn de first-stage R2 en algemene R2

vergelijkbaar met die van Jacks en Pendakur.

Daarnaast wordt er onderzocht wat de gevolgen zijn als er voor een relatief hoge α wordt gekozen, zoals α = 0.10. Een verhoging van λ leidt er namelijk al snel toe dat er geen instrumen-ten meer geselecteerd worden, waardoor een verandering van c geen optie is. De verwachting dat er meer variabelen geselecteerd worden, blijkt gegrond. Deze keer worden er tien variabelen uit ∆10xU K,i,t geselecteerd en vier uit ∆10wU K,i,t. Bij de variabelen die uitsluitend als instrumenten

worden gebruikt, komt (dist × ∆10log (steamtonnage))−1 erbij. Er blijkt sterke correlatie te

zijn tussen ∆10converg en ∆10converg × t. De laatstgenoemde heeft de grootste VIF, maar

toch wordt deze transformatie opgenomen. Er blijkt dat de collineariteit uit het model verdwe-nen is als een van de twee variabelen wordt verwijderd en dan gaat de voorkeur uit naar de

(20)

trendterm, aangezien die ook in Tabel 3B is opgenomen. De schattingen, die vermeld zijn in Tabel 3C, lijken weinig aan de resultaten van Tabel 3B toe te voegen. Hoewel er deze keer wel twee transformaties van de wisselkoers geselecteerd worden, zijn beide co¨effici¨enten niet ver-schillend van nul. Bovendien zijn de variabelen die in Tabel 3B significant waren dat nog steeds

en hetzelfde geldt voor de niet-significante variabelen. Wel is de selectie van (∆10converg)2× t2

een nuttige toevoeging gezien de significante co¨effici¨ent. Het is opvallend dat van de originele

regressoren alleen ∆10avertar wordt geselecteerd, wat suggereert dat er onderliggende effecten

zijn waar het model van Jacks en Pendakur (2010) geen rekening mee houdt, zoals interactie- of trendeffecten. In alle schattingen van Tabel 3 zijn de gebruikte instrumenten relevant en exogeen gezien de niet-significantie van de Hansen J test en de significantie van de first-stage F -statistic. Deze resultaten laten zien dat het nuttig is om variabelen te selecteren met high-dimensional methods. Ten eerste moet er geconcludeerd worden dat het model van Jacks en Pendakur (2010) gevoelig is voor veranderingen in de variabelen. Zo wordt er geconstateerd dat er veel varia-belen met een trend worden geselecteerd. Hier hebben zij echter geen rekening mee gehouden. Hetzelfde geldt voor niet-lineaire variabelen, zoals interactietermen en kwadraten. Bovendien

wordt van de originele regressoren alleen ∆10avertar geselecteerd, hoewel alle regressoren toch

een of meerdere keren terugkeren als transformatie. Ten slotte, er kan gekozen worden uit 228

instrumenten om de endogeniteit van ∆10fU K,i,t te behandelen, maar niet meer dan vier

in-strumenten worden belangrijk genoeg geacht om daadwerkelijk op te nemen, terwijl Jacks en Pendakur er negen gebruiken, waarvan er geen enkele zonder transformatie wordt opgenomen na variabeleselectie. Al deze signalen leiden tot de conclusie dat ook het gravitatiemodel in verschillen niet robuust is voor variabeleselectie, ondanks dat er minder afwijkingen worden geconstateerd dan bij het model in levels.

5

Conclusie

Dit paper richtte zich op het toepassen van double selection. De laatste jaren is de hoeveel-heid data in de wereld sterk gegroeid. Deze zogenaamde big data biedt de onderzoeker meer mogelijkheden, maar is vaak ongestructureerd en moeilijk te interpreteren. Daarom zijn er high-dimensional methods nodig om van deze data gebruik te kunnen maken. Belloni et al. (2014b) ontwikkelden een methode die nuttig is als er sprake is van een treatment variable. Deze doubleselectionmethode selecteert met behulp van Lasso variabelen die belangrijk zijn bij het voorspellen van zowel de afhankelijke variabele als de treatment variable. Lasso voegt een strafterm toe aan de standaard OLS-schatting waardoor de co¨effici¨enten richting nul worden gestuurd. Zodoende worden alleen de grootste co¨effici¨enten meegenomen, omdat de co¨effici¨ent van de minder belangrijke variabelen op nul wordt gezet. Het artikel van Jacks en Pendakur (2010) vormde het uitgangspunt voor het onderzoek. Zij deden onderzoek naar de groei van de internationale handel aan het eind van de negentiende en begin van de twintigste eeuw. Zij constateerden dat de groei in handelsvolumes gepaard ging met dalende maritieme vrachtprij-zen. De resultaten lieten echter zien dat de vrachtprijzen geen significant effect hebben gehad. Aan de hand van een vergelijking in verschillen probeerden zij de belangrijkste factoren achter de handelsgroei in kaart te brengen. De groei en convergentie van inkomens konden de handels-groei juist wel verklaren.

(21)

getracht werd antwoord te vinden op de vraag: hoe robuust zijn de resultaten van Jacks en Pendakur (2010) als high-dimensional methods worden gebruikt om variabelen te selecteren? Er is gebleken dat de resultaten aanzienlijk veranderen als er variabeleselectie wordt toegepast, waardoor er geconcludeerd moet worden dat beide modellen niet robuust zijn. Waar Jacks en Pendakur in hun eerste model een niet-significante co¨effici¨ent voor de maritieme vrachtprijzen vonden, daar was er na toepassing van double selection wel sprake van significantie. Echter, wanneer de hoogte van penalty level λ werd veranderd via de parameters c en α met als gevolg dat er andere variabelen geselecteerd werden, werden opnieuw andere resultaten verkregen. Dit werd gezien als een extra signaal dat de opgenomen variabelen grote invloed hebben op de schatting van de vrachtprijzen. In twee van de drie gevallen waren de instrumenten niet meer exogeen, waaruit werd geconcludeerd dat de instrumenten die het belangrijkst zijn bij het voorspellen van de vrachtprijzen mogelijk niet exogeen zijn. Bovendien werden de originele regressoren van Jacks en Pendakur niet geselecteerd, maar enkel transformaties, hetgeen op het bestaan van onderliggende effecten wees waar zij geen rekening mee hebben gehouden.

Het tweede model bleek een verhaal apart, aangezien een herschatting van hetzelfde model andere resultaten opleverde. De belangrijkste consequentie was dat de co¨effici¨ent van inkomens-groei niet-significant werd, waardoor het te betwijfelen is of het effect op de handelsinkomens-groei wel 76 procent is, zoals Jacks en Pendakur (2010) schatten. Opnieuw selecteerde double selection vooral transformaties van de originele regressoren, maar er werd geen afwijking in de co¨effici¨ent van de verandering van de vrachtprijzen geconstateerd, waarbij de instrumenten nu wel

rele-vant ´en exogeen bleken te zijn. Zodoende is dit model meer robuust voor variabeleselectie, maar

worden de originele resultaten van Jacks en Pendakur alleszins verkregen.

Het gebruik van high-dimensional methods om variabelen te selecteren is nuttig om bij-voorbeeld onderliggende effecten te ontdekken, zoals trendeffecten. Echter, transformaties zijn in het algemeen moeilijker te interpreteren dan de originele variabelen. Zo is het gemakkelijker om conclusies te trekken uit de resultaten van Tabel 3A dan van Tabel 3B, die zijn verkregen via double selection. Verder is gebleken dat de hoogte van het strafniveau veel invloed heeft op welke variabelen er geselecteerd worden en bijgevolg op de resultaten. Er is geen vaste regel voor de bepaling van λ, waardoor het aankomt op de keuze van de onderzoeker. Een goede methode om λ te kiezen is door gebruik te maken van cross-validation, waardoor er meer ro-buustheid wordt toegevoegd in het geval er veel kleine co¨effici¨enten worden verwacht, maar dit ligt buiten het bereik van dit onderzoek (Belloni et al., 2014b, p. 628). Ten slotte is het zaak in acht te nemen dat transformaties van dezelfde variabele vaak sterk gecorreleerd zijn met elkaar, waardoor multicollineariteit de resultaten sterk kan be¨ınvloeden als er niet voor gecorrigeerd wordt.

Bibliografie

Baier, S. L. & Bergstrand, J. H. (2001). The growth of world trade: tariffs, transport costs, and income similarity. Journal of International Economics, 53 (1), 1-27.

Belloni, A., Chen, D., Chernozhukov, V. & Hansen, C. (2012). Sparse Models and Methods for Optimal Instruments with an Application to Eminent Domain. Econometrica, 80 (6), 2369-2429.

(22)

Belloni, A., Chernozhukov, V. & Hansen, C. (2014a). High-Dimensional Methods and Inference on Structural and Treatment Effects. The Journal of Economic Perspectives, 28 (2), 29-50.

Belloni, A., Chernozhukov, V. & Hansen, C. (2014b). Inference on Treatment Effects after Selection among High-Dimensional Controls. Review of Economic Studies, 81 (2), 608-650.

Donohue, J. J. & Levitt, S. D. (2001). The Impact of Legalized Abortion on Crime. The Quarterly Journal of Economics, 116 (2), 379-420.

Heij, C., Boer, P. de, Franses, P. H., Kloek, T. & Dijk, H. K. van (2004). Econometric Methods with Applications in Business and Economics. Croydon: Oxford University Press.

Imbens, G. W. (2004). Nonparametric Estimation of Average Treatment Effects Under Exo-geneity: A Review. The Review of Economics and Statistics, 86 (1), 4-29.

Jacks, D. S. & Pendakur, K. (2010). Global Trade and the Maritime Transport Revolution. The Review of Economics and Statistics, 92 (4), 745-755.

Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B , 58 (1), 267-288.

Wall, M. (2014). Big Data: Are you ready for blast-off ?. BBC. Op 7 juni 2016 verkregen van http://www.bbc.com/news/business-26383058

Referenties

GERELATEERDE DOCUMENTEN

Kumxholo wombongo othi: 'Kuyasetyezelwana'; kwiphepha 40, nalapha umbhali uvelisa udano olungazenzisiyo kuba izinto ebelindele ukuba zenzeke azenzeki.. Amathuba emisebenzi

De kans is immers groot dat in 2020 de internationale productie, inclusief de steeds maar stijgende importen, voor een groot deel in of door Nederland verhan- deld zullen worden

Voor de ‘blijvers’ blijven nog veel vragen overeind, zowel voor de korte als voor de lange termijn.. Duidelijkheid in het te voeren beleid is een

It is evident that BEd Accounting students need to be confident of their ability to work with calculations, as many topics illustrated in the examples indicate that most

Aantal kolgansdagen per maand in de winter 2012/13 voor vier soorten ganzen en alle soorten samen, verdeeld over aangewezen foerageergebied (linker panelen, donkergrijs),

Een ‘horizontale knip’ in de pakketten: een basisbeheer bestaande uit maatregelen die voor alle weidevogels door heel Nederland heen goed zijn, met aanvullend daarop pakketten

- Door slim samenvoegen van een aantal melkveebedrijven is een hoog ambitieniveau in nesten per 100 hectare te reali- seren voor lage kosten en met nieuwe vormen van inkomen?. -

Wanneer de ventilatoren draaien zal er een overdruk boven het produkt ontstaan waardoor lucht door de open spaties zal dringen, Ten gevolge van de zuigende werking van de