• No results found

Selectiemethode voor instrumentele variabelen : methode van Han (2008) geëvalueerd met Monte Carlosimulaties

N/A
N/A
Protected

Academic year: 2021

Share "Selectiemethode voor instrumentele variabelen : methode van Han (2008) geëvalueerd met Monte Carlosimulaties"

Copied!
31
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Selectiemethode voor instrumentele

variabelen —

Methode van Han (2008) ge¨

evalueerd

met Monte Carlosimulaties

Glenn Taylor

Afstudeerscriptie voor de Bachelor Econometrie Universiteit van Amsterdam

Faculteit Economie en Bedrijfskunde Amsterdam School of Economics Auteur: Glenn Taylor Studentnr: 10056254

Email: glenn.taylor@live.nl Datum: 26 juni 2015

(2)
(3)

Inhoudsopgave

1 Inleiding 1

2 Theoretisch Kader 3

2.1 Probleem bij endogeniteit in OLS . . . 3

2.2 Sargantoets . . . 3

2.2.1 Probleem overidentificatietesten . . . 4

2.3 Selectiemethode van Han (2008) . . . 4

2.4 Alternatieve selectiemethoden . . . 5

2.4.1 LASSO . . . 5

2.4.2 Adaptive LASSO . . . 6

2.5 Vergelijken selectiemethoden . . . 6

3 Onderzoeksopzet 7 3.1 Data Generating Process (DGP) van de Monte Carlosimulatie . . 7

3.2 Verwijderen instrumenten . . . 8 4 Resultaten en Analyse 10 4.1 Vier instrumenten . . . 10 4.1.1 Situatie I . . . 10 4.1.2 Situatie II . . . 11 4.1.3 Situatie III . . . 12 4.2 Vijf instrumenten . . . 12

4.2.1 Enkel endogeen instrument . . . 12

4.2.2 Twee endogene instrumenten . . . 13

5 Toename aantal instrumenten 16 5.1 Enkel endogeen instrument . . . 16

5.1.1 Tien instrumenten . . . 16

5.1.2 Twintig instrumenten . . . 16

5.2 Twee endogene instrumenten . . . 17

5.2.1 Tien instrumenten . . . 17

6 Conclusie 18

Bibliografie 20

Appendix A 23

(4)

De selectiemethode die Han (2008) beschrijft behandelt ´e´en specifieke situatie, vier aanwezige instrumenten waarvan ´e´en endogeen instrument. In deze scriptie wordt de selectiemethode getest met behulp van Monte Carlosimulaties door verschillende aantallen instrumenten te kiezen en covariantiefactor tussen de instrumenten aan te passen. De kans dat invalide instrumenten worden verwijdert is alleen bekeken bij een regressie met ´e´en endogene verklarende variabele, situaties met meerdere endogene verklarende variabelen zijn daargelaten voor verder onderzoek.

De Monte Carlosimulaties zijn opgedeeld in drie situaties I, II en III, waarbij de parameters voor de covariantie tussen de instrumenten en de covariantie tussen de storingen zijn aangepast. Deze situaties zijn bekeken voor drie gevallen waarbij het aantal instrumenten variabel is. De verschillen tussen situatie II en III zijn dusdanig klein dat na de resultaten voor vier instrumenten alleen met situatie I en II wordt getest.

In het eerste geval, vier instrumenten waarvan ´e´en invalide, verwijdert de selectiemethode van Han het invalide in meer dan 60 procent van alle gevallen. Voor een grote steekproefomvang verwijdert de selectiemethode van Han in 98 procent van de gevallen het invalide instrument.

In het tweede geval, vijf instrumenten waarvan ´e´en invalide, zijn de uitkomsten vergelijkbaar met het eerste geval. De kans op verwijdering van het invalide instrument komt in bijna alle situaties overeen.

Het derde geval, vijf instrumenten waarvan twee endogeen, heeft kleine verschil-len ten opzichte de eerste twee gevalverschil-len. De Sargantoets verwerpt de exogeniteit van alle instrumenten vrijwel altijd bij een grote steekproefomvang. Echter wordt er bijna altijd ´e´en invalide instrument verwijderd, maar daarna verwerpt de Sargan-toets in 50 procent van de gevallen de exogeniteit van de gehele set instrumenten terwijl er nog een endogeen instrument aanwezig is. De selectiemethode van Han presteert in dit geval minder goed dan in het eerste en tweede geval.

De selectiemethode van Han (2008) verwijdert het endogene instrument, voor een kleine steekproefomvang, met een kans van slechts 50 procent. De covarian-tiefactor tussen de instrumenten heeft een negatief verband met de kans dat het invalide instrument wordt verwijderd. Als de covariantiefactor toeneemt is de kans op verwijdering van het invalide instrument kleiner.

De selectiemethode geeft de beste uitkomsten als er slechts ´e´en invalide instru-ment aanwezig is, de steekproefomvang groot is en de covariantiefactor klein. Als er meerdere endogene instrumenten aanwezig zijn, is de kans op verwijdering van alle endogene instrumenten klein, er wordt ´e´en invalide instrument verwijderd en vervolgens verwerpt de Sargantoets de exogeniteit van de gehele set instrumenten niet. De overgebleven set instrumenten bevat een endogeen instrument.

Ten slotte is bekeken dat als het aantal instrumenten toeneemt, de selectieme-thode makkelijker het invalide instrument verwijderd. Dit is niet het geval en er wordt geconcludeerd dat de selectiemethode van Han (2008) niet in staat is om in het meerendeel van de gevallen het endogene instrument te verwijderen uit de aanwezige set instrumenten, en dus slecht presteert.

Trefwoorden: exogeniteit, overidentificatie test, Sargantoets, instrumentele vari-abelen, Monte Carlosimulatie, selectiemethode

(5)

Hoofdstuk 1

Inleiding

Beleidsmaatregelen zijn vrijwel altijd endogeen met betrekking tot hun doelstellin-gen. In dat geval vereist een analyse van hun effectiviteit in het model instrumentele variabelen. Deze moeten voldoende gecorreleerd zijn met de beleidsvariabelen, maar exogeen zijn met betrekking tot de storingsterm. De bekendste toets op exogeniteit van instrumentele variabelen is de Sargantoets gepubliceerd door Sar-gan (1953). Een subsetversie wordt gebruikt als een onderzoeker twijfelt bij een specifieke subset van instrumenten en zeker is van de validiteit van de overige instrumenten, deze test wordt ook wel de C-test genoemd door Eigenbaum et al. (1988) en later door Hayashi (2000).

Han (2008) constateert echter een klein probleem met het gebruik van overiden-tificatie testen zoals de Sargantoets. Het probleem is dat wanneer de nulhypothese van exogeniteit voor alle instrumenten verwerpt, de storingen zijn gecorreleerd met de instrumenten, de uitkomst van de test niet aantoont welke instrumenten endogeen zijn. Endogene instrumenten zijn meestal af te leiden uit de theoreti-sche kennis, maar anders proberen onderzoekers alle mogelijke combinaties van instrumenten uit totdat de maximale verzameling van exogene instrumenten is gevonden. Bij de aanwezigheid van grote hoeveelheden instrumenten geeft een onderzoeker g´e´en voorkeur aan deze techniek. Een eenvoudige selectiemethode die valide instrumenten bepaalt is een oplossing voor dit probleem.

Een eenvoudige selectiemethode wordt door Han (2008) voorgestelt. Han (2008) stelt een alternatieve schatter voor die consistent is mits ten minste 50 procent van de gebruikte instrumenten valide is. Han (2008) beschrijft een selectiemethode waarbij een overidentificatie test en de afwijking van de mediaan van de IV schat-ters worden gebruikt om invalide instrumenten te vinden. De overidenticatie test, bijvoorbeeld de Sargantoets beschreven door Sargan (1958), test de nulhypothese van exogeniteit van de gehele set instrumenten. Als de nulhypothese wordt ver-worpen dan wordt het instrument met de grootste IV schatter afwijking van de mediaan van alle aparte IV schatters, uit de verzameling instrumenten verwijderd. Deze techniek wordt herhaald totdat de exogeniteit van alle instrumenten niet wordt verworpen en de verzameling van instrumentele variabelen exogeen is.

Han (2008) geeft geen simulatieresultaten om het gedrag van zijn selectie-methode in eindige steekproef te illustreren. Dit is een probleem omdat niet is bewezen of de voorgestelde selectiemethode altijd de valide instrumenten selecteert en de invalide instrumenten verwijderd. De selectiemethode van Han (2008) wordt met behulp van Monte Carlosimulatie bekeken op het selecteren van valide instru-menten, hierbij wordt gekeken naar verschillende aantallen aanwezige instrumenten. Op basis van deze simulatie wordt geanalyseerd in welke situaties de voorgestelde

(6)

selectiemethode de valide instrumenten selecteert. Dit wordt bekeken aan de hand van het aanpassen van parameterwaarden, zoals de covariantiewaarden, het aantal beschikbare instrumenten en de steekproefgrootheden.

De toevoeging van deze studie aan huidig onderzoek is, om te bekijken in welke situaties de voorgestelde selectiemethode van Han (2008) de valide instrumenten selecteert voor een regressie met ´e´en endogene verklarende variabele. Daarnaast wordt onderzocht of deze selectiemethode bij meerdere endogene instrumenten kan worden gebruikt.

In het volgende hoofdstuk wordt besproken wat de methode van Han (2008) inhoudt en komen verschillende andere selectiemethoden aan bod. In hoofdstuk 3 wordt de onderzoeksopzet beschreven en wordt verder ingegaan op het gebruik van Monte Carlosimulatie. De resultaten van de Monte Carlosimulaties worden gepresenteerd in hoofdstuk 4 en de uikomsten geanalyseerd. Vervolgens wordt hoofdstuk 5 nieuwe gevallen behandeld waarbij het totaal aantal instrumenten op tien en twintig wordt gezet om te bekijken of de selectiemethode in deze gevallen beter het invalide instrument verwijderd. Ten slotte wordt in hoofdstuk 6 gecon-cludeerd in welke situaties en voor welke gevallen de methode van Han (2008) de valide instrumenten selecteert en de invalide instrumenten verwijdert.

(7)

Hoofdstuk 2

Theoretisch Kader

Het theoretisch kader vormt de achtergrond informatie voor de selectiemethode van Han (2008) en bevat informatie uit publicaties over alternatieve selectiemethoden, daarnaast bevat het hoofdstuk problemen over exogeniteit van verklarende varia-belen en toegevoegde instrumenten en wordt de Monte Carlosimualtie uitgelicht.

2.1

Probleem bij endogeniteit in OLS

Tijdens het opzetten van een OLS-regressies worden aannames verondersteld, waaronder exogeniteit van de verklarende variabelen volgens onderstaande formule:

E[X(y − Xb)] = E[Xε] = 0 (2.1)

Als de verklarende variabele niet exogeneen is met betrekking tot de storingsterm, moeten instrumentele variabelen worden toegevoegd aan het model. Het toevoegen van instrumenten werd als eerste ge¨ıntroduceerd door Reiersol (1941) en is later verder uitgewerkt door verschillende auteurs waaronder Durbin (1954).

Door instrumenten toe te voegen wordt het effect van de endogeniteit van de verklarende variabelen geneutraliseerd en geven de uitkomsten voor de parameters een betere weergave van de werkelijkheid. Buse (1992) stelt, met behulp van resultaten van Monte Carlosimulaties, dat er geen relatie is tussen de mate van onzuiverheid en het aantal toegevoegde instrumenten. Dit zou betekenen dat met een grote hoeveelheid instrumenten een juiste schatting gemaakt kan worden. Echter, verschillende publicaties zoals Bound, Jaeger and Baker (1995) en Staiger and Stock (1997) beschrijven het probleem dat optreedt als instrumentele variabelen (zwak) gecorreleerd zijn met de verklarende variabelen. Bound et al. (1995) stellen dat door het toevoegen van een grote hoeveelheid instrumenten, die samen de variantie van een endogene variabele proberen te verklaren, de schatting eerder verslechtert dan verbetert. Daarom is het van groot belang dat de set valide instrumenten wordt gevonden om onjuiste schattingen te voorkomen.

2.2

Sargantoets

Een techniek om de valide instrumenten te vinden is voorgesteld door Sargan (1958). Instrumenten zijn exogeen als geldt dat:

E[g(Zi, θ0)] = E[Zi0(y − Y θ0)] = E[Zi0ε] = σZε = 0 (2.2)

(8)

Sargan (1958) stelt een overidentificatie test voor die de nulhypothese van exogeni-teit toetst. Als de Sargantoets de nulhypothese van exogeniexogeni-teit verwerpt, is een of meer van de aanwezige instrumenten endogeen. Variaties hierop worden gegeven door Hansen (1982) via de Hansen- of J-test voor overidentificatie. De Sargantoets wordt tijdens dit onderzoek gebruikt om de nulhypothese van exogeniteit voor alle instrumenten te toetsen.

De Sargantoets gebruikt de Two Stage Least Squaresmethode (2SLS-methode) om te bekijken of de instrumenten endogeen zijn. De 2SLS-methode vindt een IV schatter waarmee het residu wordt gevonden volgens onderstaande formule:

ˆ

X = Z(Z0Z)−1Z0X (2.3) bIV = ( ˆX0X)ˆ −1Xˆ0y (2.4)

eIV = y − XbIV (2.5)

De Sargantoets gebruikt vergelijking 2.5 om de R2 te vinden voor nR2 die asymp-totisch een χ2(m − k) verdeling heeft, waarbij m het aantal instrumenten en k het

aantal regressoren. De Sargantoets vindt R2 als volgt:

R2 = e 0 IVZ(Z 0Z)−1Z0e IV e0 IVeIV (2.6)

De Sargantoets verwerpt de nulhypothese van exogeniteit voor alle aanwezige instrumenten als:

nR2 > χ2(m − k) (2.7)

2.2.1

Probleem overidentificatietesten

Parente and Santos Silva (2012) stelt dat de overidentificatie test weinig informatie geeft over het vermogen van de instrumenten om de parameter van belang te identificeren, waardoor er een onjuiste uitkomst van de parameterwaarde kan worden verkregen. Dit gegeven kan ervoor zorgen dat na het toepassen van de selectiemethode van Han (2008) op grote hoeveelheden instrumenten, verkeerde parameterwaarden worden gevonden. Dit kan een probleem zijn omdat onderzoe-kers in die situatie conclusies trekken op basis van onjuiste parameterwaarden.

Een aanvullend probleem wordt door Parente and Santos Silva (2012) geschetst dat de uitkomst van een overidentificatie test zoals de Sargantoets, niet afhangt van de aanwezigheid van voldoende valide instrumenten. De uitkomsten van Parente and Santos Silva (2012) en reeds voorgesteld door Hausman (1983) geven aan dat de overidentificatie testen beter kunnen worden gebruikt om de samenhang tussen instrumenten te bekijken in plaats van de validiteit van de instrumenten te controleren.

2.3

Selectiemethode van Han (2008)

Han (2008) stelt een selectiemethode voor die het idee gebruikt van de Jong and Han (2002). De Jong and Han (2002) stellen dat de GMM-schatter een natuurlijke robuustheid heeft tegen uitschieters, dat wil zeggen invalide momentcondities. Invalide momentcondities geven aan dat de instrumenten in kwestie endogeen zijn. De Jong and Han (2002) stellen dat voor lineaire modellen de GMM schatter consistent is, zelfs als sommige instrumenten endogeen zijn. Dit resultaat wordt

(9)

selectiemethode voor instrumentele variabelen – Glenn Taylor 5

gebruikt om endogene instrumenten te vinden uit een grote hoeveelheid aanwezige endogene en exogene instrumenten.

De methode van Han (2008) stelt dat als de nulhypothese van exogeniteit voor de totale set instrumenten wordt verworpen, dat voor elk instrument apart een IV schatter wordt geconstrueerd met behulp van vergelijking 2.3 en 2.4. Vervolgens wordt de mediaan van deze IV schatters berekend en het instrument dat behoort bij de IV schatter met de grootste afwijking van de mediaan wordt uit de set instrumenten verwijderd. Daarna wordt de Sargantoets opnieuw toegepast op de set aanwezige instrumenten. Als de Sargantoets de exogeniteit van de gehele set instrumenten verwerpt wordt de bovenstaande routine herhaald.

De routine stopt als de exogeniteit van alle instrumenten niet wordt verworpen en de set instrumenten exogeen is ´of wanneer er slechts 2 instrumenten over zijn en de exogeniteit van deze nog steeds wordt verworpen. Dan liggen beide IV schatters even ver van de mediaan en kan er geen instrument verwijderd worden. Als deze situatie optreedt, wordt de conclusie getrokken dat de verzameling van instrumen-ten endogeen is en is de methode van Han (2008) geen valide instrumeninstrumen-ten kan selecteren.

Han (2008) beschrijft alleen een selectiemethode met ´e´en endogeen instrument en laat in het midden of deze methode toepasbaar is op modellen met meerdere endogene instrumenten. Bassett and Koenker (1978) beschrijven de literatuur van de kleine absolute afwijkingen, maar de instrumenten zijn vaak afhankelijk van elkaar en daarom kunnen onderzoekers de techniek van Bassett and Koenker (1978) niet gebruiken.

Het aantal verklarende variabelen dat bij de methode van Han (2008) endogeen kan worden gebruikt, is gelijk gesteld aan ´e´en. Han (2007) stelt voor om bij k aantal endogene verklarende variabelen gebruik te maken van de mediaan van de qk IV schatters, waarvan elk de IV schatter is gebruik makend van k instru-menten, exact ge¨ıdentificeerde variabelen. Dit voorstel kan gebruikt worden bij onderzoeken die regressies bevatten met meerdere endogene verklarende variabelen.

2.4

Alternatieve selectiemethoden

In de afgelopen jaren zijn verschillende selectiemethoden geplubiceerd die het selecteren van valide instrumenten vergemakkelijken en de kans op het verwijderen van een valide instrument verkleinen. De voor- en nadelen van elke selectiemethode worden kort toegelicht.

2.4.1

LASSO

De selectiemethode ’least absolute shrinkage and selection operator’ (LASSO) is bedacht door Tibshirani (1995). De LASSO-methode minimaliseert de kwadratische som van de residuen waarvan de som van de absolute waarde van de co¨efficienten kleiner is dan een constante. Tibshirani (1995) stelt dat onderzoekers vaak niet tevreden zijn met OLS schattingen vanwege twee redenen. De juistheid van de schattingen die vaak kan worden vergroot door verschillende co¨efficienten op nul te zetten. De tweede reden is de interpretatie van de schattingen, die onduidelijker worden bij groot aantal verklarende variabelen.

De twee technieken om OLS regressies te verbeteren zijn subset selectie en de ’rigde’ regressie techniek. Subset selectie zorgt ervoor dat verschillende co¨efficienten

(10)

gelijk aan nul worden gestelt maar is niet stabiel. De ridge regressie is stabiel maar zet geen van de co¨effcienten gelijk aan nul. Tibshirani (1995) gebruikt deze twee technieken samen voor de LASSO-vergelijking, waarbij xij de verklarende

variabelen zijn:

ˆ

β(lasso) = arg minβ(y −

p X j=1 xjβj)2+ λ p X j=2 |βj| (2.8)

Voordelen van de LASSO-methode zijn dat niet expliciet gebruik wordt gemaakt van de OLS schatters, deze kunnen zich in situaties waar correlatie groot is slecht gedragen. Daarnaast maakt de LASSO-methode gebruik van de positieve onderdelen van twee verschillende methoden en voegt deze samen om tot een betere methode te komen.

2.4.2

Adaptive LASSO

Zou (2006) stelt een alternative methode voor gebaseerd op de LASSO-methode van Tibshirani (1995), de adaptieve LASSO-methode. In deze methode worden adaptieve gewichten gebruikt om een straf te geven aan verschillende co¨efficienten. Zou (2006) toont aan dat adaptieve LASSO oracle properties bezit; dat wil zeggen, adaptieve LASSO presteert dusdanig goed alsof het model van te voren bekend was. De vergelijking voor de apatieve LASSO wordt gegeven door:

ˆ β∗(n) = arg minβ(y − p X j=1 xjβj)2+ λ p X j=2 ˆ wj|βj| (2.9)

Adaptieve LASSO kan in meerdere situaties dan de LASSO worden gebruikt om endogene instrumenten te vinden in een verzameling van invalide en valide instrumenten.

2.5

Vergelijken selectiemethoden

Als alternatief voor de methode van Han (2008), vergelijken Caner, Maasoumi and Riquelme (2014) verschillende momentenselectie technieken, in combinatie met een modelselectie techniek, om de valide instrumenten te vinden. Caner et al. (2014) stellen dat voor de momentselectie techniek het beste ongestrafte General Method of Moments (GMM) of de momentgemiddelden van Okui (2011) kunnen worden gebruikt samen met Adaptive LASSO voor de modelselectie. Dit resulteert in de kleinste gemiddelde gekwadrateerde fout voor de schatters.

Het voordeel van de selectiemethode van Han (2008), ten opzichte van de selec-tiemethoden die worden vergeleken door Caner et al. (2014), is dat de methode van Han (2008) relatief simpel is. Het nadeel is dat ten minste 50 procent van de aanwezige instrumenten vooraf bekend en exogeen moeten zijn.

(11)

Hoofdstuk 3

Onderzoeksopzet

In dit hoofdstuk wordt beschreven welke vergelijkingen en methoden zullen worden gebruikt die in hoofdstuk 2 zijn beschreven. Daarnaast is beschreven welke para-meters zijn gebruikt tijdens de Monte Carlosimulatie, zoals de steekproefgrootheid, mate van endogeniteit en aantal instrumenten.

Het probleem dat Parente and Santos Silva (2012) schetsen zal tijdens dit onderzoek geen focus hebben, deze ligt op de selectiemethode voor instrumenten en niet op de juistheid van de uitkomsten van de parameterwaarden. De uitkomsten van de parameterwaarden worden aan de desbetreffende onderzoeker gelaten om te bekijken op juistheid.

Het gegeven van Han (2008) van qk IV schatters wordt gebruikt tijdens het verwijderen van instrumenten in regressies met meerdere endogene verklarende variabelen, in deze studie wordt alleen gekeken een regressie met een enkele endo-gene verklarende variabelen.

3.1

Data Generating Process (DGP) van de Monte

Carlosimulatie

De opzet van Monte Carlosimulaties vindt zijn oorsprong bij Metropolis and Ulam (1948), zij stellen een methode voor die gebruik maakt van een algoritme dat random een enkelvoudige aselecte steekproef genereert. De Monte Carlosimulatie zorgt er vervolgens voor dat dit algoritme meerdere keren wordt herhaald, in dit DGP-model 10000 keer, met grote hoeveelheden data als uitkomst. Deze uitkomst zal gebruikt worden om de selectiemethode te analyseren en conclusies te trekken.

Voor de Monte Carlosimulaties is het volgende lineaire model gebruikt:

Y = Xθ + ε (3.1)

X = Zπ + u (3.2)

waarbij Y een n x 1 vector, X een n x p van p − 1 exogene verklarende variabelen en ´e´en endogene verklarende variabele, Z een n x q matrix van q instrumenten en ε ´en u onbekende willekeurige variabelen die gecorreleerd zijn met elkaar. De variantie van ε is gelijk aan 1.2 welke is gebaseerd op Caner et al. (2014) en de variantie in herleide vorm van u is gelijk aan 1. De θ en π zijn de schatters die worden gevonden de regressie 3.1 en 3.2.

In appendix A is het R-script gepresenteerd waarmee de Monte Carlosimulatie is uitgevoerd. In het script is het eerste geval weergegeven waarbij het aantal

(12)

aanwezige instrumenten q = 4 is, waarvan 3 valide en 1 invalide instrument. In de Monte Carlosimulatie wordt begonnen met een vast aantal instrumenten, q = 4, waarvan 3 valide instrumenten vooraf bekend zijn. Er wordt getest op het verwijderen van het invalide instrument. Vervolgens worden situaties getest met een groter aantal instrumenten q = 5, waarbij het aantal valide instrumenten telkens si = {3, 4}.

Daarnaast is de mate van endogeniteit aangepast met de parameter Szz. waarbij

Szz de covariantiefactor tussen de instrumenten is. In de DGP van de Monte

Carlosimulaties worden verschillende combinaties van parameters bekeken, deze zijn weergegeven in tabel 3.1. De uitkomsten hiervan worden met elkaar vergeleken.

Tabel 3.1: Verschillende testwaarden variabele situatie I situatie II situatie III

d 0.2 0.2 0.2

Szz 0.5 1 1

Szu 0.5 0.5 0.9

De omvang van de verschillende steekproeven voor deze drie combinaties varieert tussen n = {50, 100, 250}. Er is gekozen voor verschillende steekproefomvangen omdat een grotere steekproefomvang een kleinere standaarddeviatie geeft in de gevonden θ-schatter, daarnaast wordt verwacht dat een grotere steekproefomvang beter valide instrumenten kan selecteren en invalide instrumenten kan verwijderen. Als situatie I met situatie II wordt vergeleken wordt verwacht dat de methode van Han makkelijker de valide instrumenten herkent en de invalide instrumenten verwijderd in situatie I omdat de correlatie voor invalide instrumenten met ε groter is. Dit betekent dat de methode makkelijker invalide instrumenten kan onderscheiden van valide instrumenten.

De verwachting bij situatie III is dat de selectiemethode van Han moeilijker valide instrumenten vindt vanwege de toename in de covariantie tussen de storingen. Daarnaast wordt in de resultaten en analyse gekeken naar de root mean squared error (RMSE) die is afgeleid van de mean squared error (MSE) en wordt berekend met formule 3.3. De RMSE wordt gebruikt om het verschil te meten tussen de verkregen ˆθ-waarden en de daadwerkelijk θ = 0.5 die in tabel 1 gegeven. Met de RMSE-waarde wordt de accuraatheid van de schatters bekeken, hoe kleiner de RMSE, hoe accurater de schatters dus hoe beter de methode van Han werkt.

RM SE = q M SE(ˆθ) = q E((ˆθ − θ)2) (3.3)

3.2

Verwijderen instrumenten

Drie gevallen zijn behandeld waarbij het aantal aanwezige instrumenten en het aantal endogene instrumenten verschilt. De drie situaties die in sectie 3.1 zijn beschreven worden voor elk geval getest. Aan hand van de uitkomsten voor het eerste geval met vier aanwezige instrumenten, kan besloten worden om alle situaties te blijven testen of door minimale verschillen naar een situatie te laten vervallen te gaan. De verschillende gevallen zijn in tabel 3.2 weergegeven.

De verwachting is dat de selectiemethode van Han bij geval 1 en 2 makkelijk het endogene instrument verwijdert omdat er maar ´e´en endogeen instrument

(13)

selectiemethode voor instrumentele variabelen – Glenn Taylor 9

Tabel 3.2: Gevallen bekeken per situatie aantal instrumenten 4 5 5 waarvan endogeen 1 1 2

is, in vergelijking met derde geval is de verwachting dat de kans kleiner is dat de selectiemethode de twee endogene instrumenten verwijdert omdat het aantal endogene instrumenten groter is geworden. Ten slotte is de verwachting dat de selectiemethode in tweede geval in vergelijking met het eerste geval makkelijker het invalide instrument verwijdert omdat het aantal aanwezige valide instrumenten groter is geworden.

De resultaten presenteren hoe vaak van de 10000 simulaties de routine van Han begint aan de selectie van instrumenten, de kans dat een invalide of valide instrument wordt verwijderd, het aantal keer dat de selectiemethode van Han de set tot twee instrumenten terugbrengt en de Sargantoets de exogeniteit van overgebleven twee instrumenten nog steeds verwerpt. De ˆθ-schatter met de routine van Han wordt vergeleken met de ˆθ-schatter zonder de routine van Han en de RMSE wordt bekeken.

De verwachting is dat als de exogeniteit van de twee instrumenten door de Sargantoets wordt verworpen, in alle gevallen het invalide instrument niet zal zijn verwijderd uit de verzameling instrumenten.

De verwachting is dat de RMSE kleiner is bij een grote steekproefomvang en dat de ˆθHan het dichtste bij de echte θ-waarde 0.5 ligt bij een grote steekproefomvang.

(14)

Resultaten en Analyse

In dit hoofdstuk zijn de resultaten voor de verschillende gevallen en situaties zoals beschreven in hoofdstuk 3 te zien. Per sectie is het aantal instrumenten variabel, namelijk q = (4, 5), en het aantal endogene instrumenten wordt aangepast in het sectue 4.3.2. Na elk geval wordt een korte analyse gegeven over de gevonden waarden.

4.1

Vier instrumenten

Ten eerste zijn de uitkomsten voor het geval met vier instrumenten gegeven waarbij drie valide en ´e´en invalide instrumenten. Per situatie, zoals is beschreven in tabel 3.1, zijn de uitkomsten gepresenteerd.

4.1.1

Situatie I

De resultaten voor situatie I zijn weergeven in tabel 4.1. In situatie I is te zien dat de ˆθHan voor een grote steekproefomvang dicht bij de echte θ-schatter ligt.

Tabel 4.1: Situatie I voor 4 instrumenten

n = 50 n = 100 n = 250 Routine van Han begint niet 7611 5546 1181 Routine van Han begint aan selectie 2389 4454 8819 Verwijdering van instrument (in procenten)

1 13.4 8.6 3.1

2 14.1 9.0 3.1

3 15.2 10.3 3.1

4 (endogeen) 67.2 83.2 96.2

Routine van Han komt tot 2 instrumenten 237 keer 299 keer 478 keer Exogeniteit 2 instrumenten verworpen 2 keer - -Overgebleven instrumenten 3 en 4 - -Uitkomsten

ˆ

θ zonder routine van Han 0.553 0.551 0.551 ˆ

θHan 0.544 0.531 0.504

RMSE 0.085 0.066 0.038

(15)

selectiemethode voor instrumentele variabelen – Glenn Taylor 11

De RMSE ligt voor elke steekproefomvang onder de 0.1 wat aangeeft dat de ˆ

θ-schatters in het model slechts kleine afwijkingen vertonen. Er valt op dat, voor een kleine steekproefomvang, de methode van Han in 76 procent van de gevallen geen selectie uitvoert maar dat als de steekproefomvang toeneemt, het aantal keer dat de Sargantoets de exogeniteit van de totale set instrumenten verwerpt toeneemt. Darnaast stijgt het percentage dat het endogene instrument wordt verwijderd naar 96 procent.

Bij een kleine steekproefomvang komt het twee maal voor dat als de selectie-methode van Han tot 2 instrumenten komt ´en de Sargantoets de exogeniteit van de twee instrumenten verwerpt. In beide gevallen zit het endogene instrument nog in de set instrumenten, wat klopt met de verwachting. Als de steekproefomvang toeneemt komt de methode vaker tot 2 instrumenten, maar wordt geen enkele keer de exogeniteit van de twee instrumenten verworpen.

Ten slotte is het verschil tussen de ˆθ-schatter met en zonder de methode van Han groter naar mate de steekproefomvang groter wordt.

4.1.2

Situatie II

In tabel 4.2 zijn de uitkomsten weergegeven waarbij de covariantiefactor tussen de instrumenten Szz gelijk is gesteld aan 1. Gelijk valt op dat de RMSE voor

elke steekproefomvang kleiner is dan in situatie I. Echter de kans dat een valide instrument wordt verwijderd is groter, maar ook is de kans dat het endogene instrument wordt verwijderd uit de verzameling instrumenten kleiner.

De routine van Han begint minder vaak aan de selectie van instrumenten dan in situatie I. Ondanks dat dit aan onze verwachting voldoet is opvallend dat bij een steekproefomvang van 250 de selectie in slechts 54 procent van alle simulaties begint.

Tabel 4.2: Situatie II voor 4 instrumenten

n = 50 n = 100 n = 250 Routine van Han begint niet 8656 7657 4544 Routine van Han begint aan selectie 1344 2343 5456 Verwijdering van instrument (in procenten)

1 16.9 12.3 6.4

2 18.1 12.7 6.1

3 18.4 12.8 6.1

4 (endogeen) 55.4 67.9 86.5

Exogeniteit 2 instrumenten is verworpen 1 keer - -Overgebleven instrumenten 3 en 4 - -Uitkomsten

ˆ

θ zonder routine van Han 0.526 0.526 0.525 ˆ

θHan 0.524 0.522 0.512

RMSE 0.053 0.042 0.030

Ten slotte is het verschil tussen de ˆθ-schatters zonder routine en met de routina van Han klein en zelfs als de steekproefomvang toeneemt, is het verschil niet erg groot terwijl de RMSE wel klein is. De RMSE is klein omdat het verschil tussen de ˆθ-schatter zonder de routine en de echte θ-schatter (0.5) al klein is.

(16)

4.1.3

Situatie III

Ten slotte zijn de uitkomsten voor situatie III in tabel 4.3 weergegeven, hierbij is de covariantie tussen de storingen verhoogd naar Szu= 0.9 en de covariantiefactor

Szz gelijk aan 1. Er is vrijwel geen verandering te zien ten opzichte van situatie II.

Het aantal keer dat de selectie begint is vrijwel gelijk aan situatie II als ook de kans van het verwijderen van zowel valide als invalide instrumenten. De uitkomsten van de ˆθ-schatters komen zelfs.

Hieruit concluderen we dat situatie II en situatie III dusdanig overeen komen dat er geen andere conclusie kunnen worden getrokken en in de gevallen voor vijf instrumenten worden alleen situatie I en II getest.

Tabel 4.3: Situatie III voor 4 instrumenten

n = 50 n = 100 n = 250 Routine van Han begint niet 8619 7601 4439 Routine van Han begint aan selectie 1381 2399 5561 Verwijdering van instrument (in procenten)

1 18.3 12.7 6.4

2 18.9 13.1 6.1

3 18.8 13.1 6.2

4 (endogeen) 53.8 67.4 86.4

Exogeniteit 2 instrumenten is verworpen 2 - -Overgebleven instrumenten 3 en 4 - -Uitkomsten

ˆ

θ zonder routine van Han 0.528 0.526 0.526 ˆ

θHan 0.526 0.522 0.511

RMSE 0.053 0.042 0.029

4.2

Vijf instrumenten

In deze sectie zijn twee verschillende gevallen behandeld voor vijf instrumenten. In het eerste geval is ´e´en van de vijf instrumenten endogeen. In het tweede geval zijn twee van de vijf instrumenten endogeen. Voor beide gevallen wordt gekeken naar hoe vaak de methode van Han aan de selectie begint, welke instrumenten worden verworpen, de gevonden ˆθ-schatter en de RMSE.

4.2.1

Enkel endogeen instrument

Zoals in de vorige sectie is geconcludeerd zijn alleen situatie I en II behandeld vanwege de grote overeenkomsten tussen situatie II en III.

Situatie I

Tabel 4.4 bevat de uitkomsten van situatie I. Tabel 4.4 bevat grote overeenkomsten met tabel 4.1. De routine van Han begint de selectie net zo vaak voor verschillende steekproefomvangen als in het eerste geval, de kans dat het endogene instrument wordt verwijderd is ook hetzelfde.

(17)

selectiemethode voor instrumentele variabelen – Glenn Taylor 13

Echter valt op dat de routine van Han in slechts 5 gevallen tot 2 instrumenten komt en dat de Sargantoets de exogeniteit van de twee overgebleven instrumenten nooit verwerpt. Het verschil tussen de ˆθ-schatter met en zonder de routine van Han is iets kleiner dan in tabel 4.1. Daarentegen in de RMSE wel kleiner dan in geval 1, dit komt opnieuw doordat de ˆθ-schatter zonder de routine van Han dichter bij de echte θ-schatter ligt.

Tabel 4.4: Situatie I voor 5 instrumenten

n = 50 n = 100 n = 250 Routine van Han begint niet 7903 5794 1305 Routine van Han begint aan selectie 2097 4206 8695 Verwijdering van instrument (in procenten)

1 13 6.1 2.7

2 13.4 7.6 2.7

3 12.8 7.7 2.6

4 13.2 7.1 2.5

5 (endogeen) 64.3 71.6 96.2

Routine van Han komt tot 2 instrumenten 5 - -Exogeniteit 2 instrumenten verworpen - - -Uitkomsten

ˆ

θ zonder routine van Han 0.543 0.541 0.541 ˆ

θHan 0.538 0.526 0.504

RMSE 0.072 0.056 0.032

Situatie II

In tabel 4.5 zijn de resultaten van situatie II weergegeven. Tussen situatie I en II zijn dezelfde verschillen te zien als bij het geval met vier instrumenten. Zoals verwacht komen deze waarden nagenoeg overeen met die uit tabel 4.2. De uitkomsten zijn daarom niet verder besproken.

4.2.2

Twee endogene instrumenten

Ten slotte is het geval bekeken met vijf instrumenten waarvan twee endogeen. Situatie I en II zijn opnieuw behandeld en situatie III is weggelaten.

Situatie I

In tabel 4.6 zijn de uitkomsten van het derde geval te zien. De routine van Han begint voor een kleine steekproefomvang in slechts 33 procent van de gevallen, maar als de steekproefomvang toeneemt stijgt dit percentage naar 98 procent.

Bij een kleine steekproefomvang is te zien dat de kans op het verwijderen van een endogeen instrument bijna niet verschilt van de kans op verwijderen van een exogeen instrument. Naar mate de steekproefomvang toeneemt wordt dit verschil groter en alleen bij een omvang van 250 is dit verschil groot genoeg om te zeggen dat de methode van Han de valide instrumenten behoudt en de invalide instrumenten verwijderdt.

(18)

Tabel 4.5: Situatie II voor 5 instrumenten

n = 50 n = 100 n = 250 Routine van Han begint niet 8809 7814 4799 Routine van Han begint aan selectie 1191 2186 5201 Verwijdering van instrument (in procenten)

1 17.2 8.7 5.3

2 15.2 10.7 5.4

3 14.6 10.4 5.0

4 17.7 10.9 4.7

5 (endogeen) 51.3 69.2 86.7

Routine van Han komt tot 2 instrumenten - - -Exogeniteit 2 instrumenten verworpen - - -Uitkomsten

ˆ

θ zonder routine van Han 0.522 0.520 0.520 ˆ

θHan 0.520 0.517 0.509

RMSE 0.045 0.035 0.025

Het verschil tussen de ˆθ-schatter met en zonder de routine van Han is bij de grootste steekproefomvang 0,72. Echter is voor alle steekproefomvangen de RMSE groter dan bij de gevallen met ´e´en endogeen instrument, maar dit voldoet aan de verwachting.

Tabel 4.6: Situatie I voor 5 instrumenten waarvan 2 endogeen

n = 50 n = 100 n = 250 Routine van Han begint niet 6625 3300 148 Routine van Han begint aan selectie 3375 6700 9852 Verwijdering van instrument (in procenten)

1 18.4 13.6 7.3

2 20.1 14.6 7.5

3 19.9 13.9 7.3

4 (endogeen) 36.0 50.8 81.2

5 (endogeen) 37.6 49.4 81.2

Routine van Han komt tot 2 instrumenten - - -Exogeniteit 2 instrumenten verworpen - - -Uitkomsten

ˆ

θ zonder routine van Han 0.583 0.581 0.581 ˆ

θHan 0.577 0.558 0.509

RMSE 0.106 0.090 0.057

Situatie II

In tabel 4.7 zijn de uitkomsten gegeven waarbij de covariantiefactor tussen de instrumenten Szz gelijk is gezet aan 1. De routine van Han begint voor een

(19)

selectiemethode voor instrumentele variabelen – Glenn Taylor 15

Dit percentage neemt toe voor n = 250 tot 75 procent.

De kans op verwijderen van een exogeen of endogeen instrument in nagenoeg even groot. Bij een grote steekproefomvang wordt in slechts 54 procent van de gevallen het endogene instrument verwijderd.

Hoewel de RMSE kleiner is dan in situatie I, is het verschil tussen de ˆθ-schatter met en zonder de routine van Han erg klein.

In situatie II kan voor een kleine steekproefomvang de selectiemethode van Han net zo goed niet worden toegepast, het verschil in uiteindelijke gevonden ˆθ-schatter is slechts 0,001.

Tabel 4.7: Situatie II voor 5 instrumenten waarvan 2 endogeen

n = 50 n = 100 n = 250 Routine van Han begint niet 8349 6698 2504 Routine van Han begint aan selectie 1751 3302 7496 Verwijdering van instrument (in procenten)

1 19.0 15.1 11.8

2 19.9 16.8 12.0

3 19.8 15.9 11.9

4 (endogeen) 29.6 38.1 54.6

5 (endogeen) 28.7 37.9 53.9

Routine van Han komt tot 2 instrumenten - - -Exogeniteit 2 instrumenten verworpen - - -Uitkomsten

ˆ

θ zonder routine van Han 0.541 0.540 0.540 ˆ

θHan 0.540 0.537 0.525

(20)

Toename aantal instrumenten

Het vermoeden bestaat dat als het totaal aantal instrumenten toeneemt, bij een gelijkblijvend aantal endogene instrumenten, de methode van Han steeds beter de invalide instrumenten kan verwijderen. Hieronder zijn voor situatie I een aantal gevallen behandeld waarbij het aantal instrumenten gelijk is aan q = {10, 20} en het aantal endogene instrumenten gelijk is aan si = {1, 2}. De tabellen van situatie I worden hieronder weergegeven, elke sectie behandeld een ander aantal endogene instrumenten.

5.1

Enkel endogeen instrument

In eerste instantie is onderzocht of het vermoeden juist is voor het geval met een enkel endogeen instrument. Eerst zien we het situatie I bij tien instrumenten, deze uitkomsten worden vervolgens vergeleken met de uitkomsten voor twintig instrumenten.

5.1.1

Tien instrumenten

Direct is te zien dat het aantal keer dat de methode van Han aan de selectie begint nagenoeg hetzelfde blijft als het geval van vier instrumenten. Vervolgens is in tabel 5.1 het aantal instrumenten opgedeeld in exogeen en endogeen, waarbij het percentage van exogeen het gemiddelde is van alle exogene instrumenten. Daar is geen duidelijke verbetering te zien maar zelfs een kleine verslechtering. Alleen de RMSE ligt dichter bij nul maar dit komt omdat de ˆθ-waarde zonder routine van Han dichter bij 0.5 ligt.

5.1.2

Twintig instrumenten

In de vorige sectie is te zien dat bij een toenemend aantal instrumenten en gelijkblijvend aantal endogene instrumenten, de methode van Han slechter presteert. De uitkomsten van tabel 5.2 zijn evenredig met de resultaten in tabel 5.1.

De methode van Han begint is steeds minder gevallen aan de selectie ´en als de methode begint, dan is de kans op verwijdering van het endogene instrument kleiner. Bij een grote steekproefomvang 92 procent tegenover 96 procent in de situatie met vier instrumenten. De methode van Han werkt minder goed dan bij een groter aantal instrumenten bij een gelijkblijvend aantal endogene instrumenten.

(21)

selectiemethode voor instrumentele variabelen – Glenn Taylor 17

Tabel 5.1: Situatie I voor 10 instrumenten waarvan 2 endogeen

n = 50 n = 100 n = 250 Routine van Han begint niet 8660 6775 2145 Routine van Han begint aan selectie 1340 3225 7855 Verwijdering van instrument (in procenten)

Exogeen 11.9 5.9 1.4

Endogeen 53.8 76.7 96.7

Uitkomsten ˆ

θ zonder routine van Han 0.524 0.522 0.521 ˆ

θHan 0.523 0.516 0.505

RMSE 0.044 0.033 0.020

Tabel 5.2: Situatie I voor 20 instrumenten waarvan 1 endogeen

n = 50 n = 100 n = 250 Routine van Han begint niet 9517 8095 3547 Routine van Han begint aan selectie 483 1905 6453 Verwijdering van instrument (in procenten)

Exogeen 12.4 7.0 1.6

Endogeen 40.6 62.3 92.7

Uitkomsten ˆ

θ zonder routine van Han 0.514 0.512 0.511 ˆ

θHan 0.514 0.511 0.505

RMSE 0.029 0.021 0.013

5.2

Twee endogene instrumenten

Ten slotte is bekeken of er andere conclusies kunnen worden getrokken over het DGP’s met twee endogene instrumenten. Hiervoor wordt alleen gekeken naar tien instrumenten en dit wordt vergeleken met het geval van vijf instrumenten.

5.2.1

Tien instrumenten

De tabel met uitkomsten is terug te vinden in appendix B. Alle waarden komen overeen met de waarden uit tabel 4.6. Het aantal keer dat de routine van Han begint aan de selectie is hetzelfde en het percentage van verwijdering van het endogene instrument komen overeen. De RMSE is kleiner omdat de ˆθ-waarde zonder de routine van Han dichter bij 0.5 ligt. De methode van Han is niet beter voor een groter aantal instrumenten, ook niet als het aantal endogene instrumenten toeneemt.

(22)

Conclusie

De selectiemethode die Han (2008) voorstelt begint met het toepassen van de Sargantoets. Als de exogeniteit van de gehele set instrumenten wordt verworpen, wordt voor elk instrument een aparte IV schatter opgesteld. De mediaan van de IV schatters wordt berekend en het instrument dat bij de IV schatter hoort die de grootste afwijking heeft van de mediaan wordt uit de verzameling instrumenten verwijderd. Deze techniek wordt herhaald totdat de Sargantoets de exogeniteit van alle instrumenten niet verwerpt of dat er maar twee instrumenten over zijn. In de laatste situatie liggen beide IV schatters even ver van de mediaan en kan er geen zuivere ˆθ-schatter worden berekend.

Verschillende gevallen zijn behandeld waarbij het aantal instrumenten en het aantal endogene instrumenten varieert mits minimaal 50 procent van deze in-strumenten exogeen is, wat is vereist voor de selectiemethode van Han. De selectiemethode is alleen getest voor een regressie met ´e´en endogene verklarende variabele.

Situatie I, met een kleine covariantiefactor tussen de instrumenten, verwijderde voor elk aantal instrumenten het beste de invalide instrumenten. Naar mate de steekproefomvang groter wordt, is de selectiemethode beter in het herkennen van de invalide en valide instrumenten. Hierdoor neemt het percentage waarmee het invalide instrument wordt verwijderd toe tot 96 procent.

Situatie II, met een grote covariantiefactor tussen de instrumenten, herkent invalide instrumenten slechter dan situatie I. De grootste kans dat een invalide instrument wordt verwijderd is bij een grote steekproefomvang, die kans is gelijk aan 86 procent.

Bij verschillende aantallen instrumenten komen de resultaten van de ˆθ-schatters overeen. Voor een kleine steekproefomvang is de kans op verwijderding van het endogene instrument klein, maar mate de steekproefomvang toeneemt duikt de RMSE onder de 0.05 en verwijdert de methode van Han de invalide instrumenten beter, tot een percentage van 96 procent.

Als het aantal instrumenten toeneemt naar tien of twintig verwerpt de Sar-gantoets de exogeniteit van de gehele set instrumenten in het overgrote deel van de 10000 herhalingen niet, zelfs als er een invalide instrument aanwezig zijn. De kans dat de exogeniteit wordt verworpen wordt kleiner naar mate het totale aantal instrumenten toeneemt bij een gelijkblijvend aantal endogene instrumenten.

De selectiemethode van Han werkt alleen als de steekproefomvang groot, de covariantiefactor tussen de instrumenten klein en het aantal endogene instrumenten klein is. Dit zal in de praktijk, bij aanwezigheid van een grote set beschikbare instrumenten, vrijwel nooit het geval zijn en de conclusie wordt getrokken dat de

(23)

selectiemethode voor instrumentele variabelen – Glenn Taylor 19

selectiemethode van Han in het meerendeel van de gevallen niet in staat is om een endogeen instrument te verwijderen uit de aanwezige set instrumenten en presteert de selectiemethode van Han slecht.

(24)

Bassett Jr, G., and Koenker, R. (1978). Asymptotic theory of least absolute error regression. Journal of the American Statistical Association, 73(363), 618-622.

Bound, J., Jaeger, D. A., and Baker, R. M. (1995). Problems with instrumental variables estimation when the correlation between the instruments and the endogenous explanatory variable is weak. Journal of the American statistical association, 90(430), 443-450.

Buse, A. (1992). The bias of instrumental variable estimators. Econometrica: Journal of the Econometric Society, 173-180.

Caner, M., E. Maasoumi and J. Andres Riquelme (2014). Moment and IV selection approaches: A Comparative Simulation Study.

De Jong, R., Han, C., (2002). The properties of Lp-GMM estimators. Econometric Theory 18 (02), 491-504.

Durbin, J. (1954). Errors in variables. Revue de l’Institut international de statistique, 23-32.

Eichenbaum, M. S., L. P. Hansen, and K. J. Singleton. (1988). A time series analysis of representative agent models of consumption and leisure. Quarterly Journal of Economics 103 (1): 51–78.

Han, C. (2008). Detecting invalid instruments using L 1-GMM. Economics Letters, 101(3), 285-287.

Hansen, L. P. (1982). Large sample properties of generalized method of moments estimators. Econometrica: Journal of the Econometric Society, 1029-1054. Hausman, J. A. (1983). Specification and estimation of simultaneous equation

models. Handbook of econometrics, 1(1), 391-448.

Hayashi, F. 2000. Econometrics. 2000. Princeton, New Jersey: Princeton University Press. 218-234.

Metropolis, N., and Ulam, S. (1949). The monte carlo method. Journal of the American statistical association, 44 (247), 335-341.

Okui, R., (2011). ”Instrumental variable estimation in the presence of many moment conditions,”Journal of Econometrics, 165 (1), 70-86.

Parente, P.M.D.C. and J.M.C. Santos Silva, (2012). A cautionary note on tests of overidentifying restrictions, Economics Letters.

Reiersøl, O. (1941). Confluence analysis by means of lag moments and other methods of confluence analysis. Econometrica: Journal of the Econometric Society, 1-24.

Sargan, J. D., (1958). ”The Estimation of Economic Relationships Using Instru-mental Variables”,Econometrica: Journal of the Econometric Society, 393–415. Staiger, D. O., and Stock, J. H. (1994). Instrumental variables regression with

weak instruments.

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B (Methodological), 267-288.

(25)

selectiemethode voor instrumentele variabelen – Glenn Taylor 21

Zou, H. (2006). The adaptive lasso and its oracle properties. Journal of the American statistical association, 101 (476), 1418-1429.

(26)
(27)

selectiemethode voor instrumentele variabelen – Glenn Taylor 23

Appendix A

reps <- as.integer(10000) # Aantal simulatiereplicaties seed <- as.integer(1111) # Waarde van de seed set.seed(seed) # Instellen van de seed RES <- matrix(nrow=reps,ncol=1,data=0) # Resultatenmatrix

RESzonder <- matrix(nrow=reps,ncol=1,data=0) #Resultatenmatrix zonder methode van Han # Data Settings

n_ <- as.integer(c(50, 100, 250)) # Drie verschillende waardes voor steekproefomvang pcoeff_ <- c(.2,2) # Twee mogelijke coefficienten voor de instrumenten d <- 0.2 # Correlatie voor invalide instrumentenmet epsilon theta <- .5 # Echte waarde van theta

# Covariance Settings

Szz_ <- c(0.5,1) # Covariantie factor voor instrumenten (constant) [.5, 1] Sue_ <- c(0.5, 0.9) # Covariantie tussen storingen (.5, .9)

sig2e <- 1.2 # Variantie epsilon

sig2u <- 1 # RVariantie u (herleide vorm) n = n_[1] # Steekproefomvang

pcoeff = pcoeff_[2] # Coefficient voor de instrumenten Szz = Szz_[1] # Covariantie instrumenten

Sue = Sue_[1] # Covariantie storingen

print(paste("Process started at:", Sys.time()," for Szz=", Szz, ", pcoeff=", pcoeff, ", n=", n)) ptm <- proc.time()

# Kies aantal instrumenten

q <- as.integer(4) # Totaal aantal instrumenten

s <- as.integer(3) # Aantal instrumenten waarvan je zeker weet dat ze valide zijn (Z1) si <- as.integer(1) # Aantal invalide instrumenten

qs <- as.integer(q-s) # Aantal instrumenten dat je wil toetsen (Z2) sv <- as.integer(qs-si) # Aantal onbekende valide instrumenten # Hulpvariabelen werkt <- as.integer(0) aaaa <- matrix(nrow=1,ncol=1,data=0) cccc <- matrix(nrow=reps,ncol=2,data=0) c <- as.integer(1) cc <- as.integer(0) geensel <- as.integer(0) # Nu volgen twee functies

# Generate Covariance Matrix --- # gensigma: generates the covariance matrix for each setup

# ARGUMENTS:

# q: Total Number of Moments # s: Known valid moments # si: Invalid Moments

# d: Correlation for invalid moments

# Szz: Covariance between instruments (constant) # covuv: Covariance between u,v

(28)

# local: Indicator for fixed or local-to-zero moments # RETURN: (q+2) covariance matrix

gensigma <- function(q, s, si, d, Szz, Sue){

qs <- q-s # Moments to be tested sv <- qs-si # Valid moments (half of them) covze <- c(rep(0, s+sv), rep(d, si) ) # cov of the s+sv valid and covzz <- Szz * diag(q)

sigma <- cbind(rbind(covzz, covze, 0), t(cbind(t(covze),sig2e,Sue)), rbind(Szero=matrix(nrow=q,ncol=1,data=0),Sue,sig2u))

return(sigma) }

cholsigma <- chol(gensigma(q, s, si, d, Szz, Sue)) # Cholesky decompositie, nodig voor genereren van de data

# Generate Data --- # gendata: generates the structured first step data

# ARGUMENTS:

# n: Number of Observations # q: Total number of moments # s: known valid moments # pcoeff: Coeff of valid moments # strong: Coeff of the strong moments

# cholsigma: Cholesky decomposition of the covariance matrix # theta: True theta parameter

# het: Heteroskedastic errors

# RETURN: list of the response, covariates and instruments matrices gendata <- function(n, q, s, pcoeff, cholsigma, theta){

qs <- as.integer(q-s) # Moments to be tested sv <- as.integer(qs-si) # Valid moments (half of them) M <- matrix(rnorm(n*{q+2}),n, q+2)

M <- M%*%cholsigma Z <- M[, seq_len(q)] e <- M[,{q+1}] u <- M[,{q+2}]

# Generate response variables pi <- rep(pcoeff,s+qs)

Y2 <- as.vector(Z%*%pi + u) # Reduced Form equation Y1 <- as.vector(Y2*theta + e) # Structural equation # THE DATA HAVE BEEN GENERATED!

result <- list(Y1 = Y1, Y2=Y2, Z = Z) }

# Begin van de simulatie for (i in 1:reps){

DM <- gendata(n, q, s, pcoeff, cholsigma, theta) # Aanmaken van data in replicatie i

Y <- DM$Y1 # Variabelen aanmaken op basis van datamatrix X <- cbind(matrix(nrow=n,ncol=1,data=1),DM$Y2) # Toevoegen van constante aan X

(29)

selectiemethode voor instrumentele variabelen – Glenn Taylor 25

Z <- DM$Z

Z1 <- cbind(matrix(nrow=n,ncol=1,data=1),Z[,1:q]) # Toevoegen van constante aan Z1 Z <- as.matrix(as.data.frame(Z1)) # Z matrix

thatHan <- matrix(nrow=2,ncol=1, data=0)

PzY <- Z%*%solve(t(Z)%*%Z)%*%t(Z)%*%Y

PzX <- Z%*%solve(t(Z)%*%Z)%*%t(Z)%*%X # Nodig voor uitrekenen IV-schatter

that = solve(t(PzX)%*%PzX)%*%t(PzX)%*%PzY # IV-schatter

res <- Y-X%*%that #residu'en op basis van IV schatter

Sargan <- as.numeric(n%*%t(res)%*%Z%*%solve(t(Z)%*%Z)%*%t(Z)%*%res/(t(res)%*%res)) kwaarde <- qchisq(0.95,q-1) #aantal instrumenten - regressoren = (q-1) aantal vrijheidsgraden

w <- as.integer(0)

qh <- as.integer(q) #nieuwe variabele voor aantal instrumenten qs <- as.integer(q-s) #terugzetten naar beginwaarde

thatzonder <- that

for (k in 1:q+1) #namen aan kolommen geven {

colnames(Z)[k] <- as.integer(k-1) }

while (w!=1) #begin methode van Han { if (Sargan < kwaarde) { thatHan <- that w <- as.integer(1) werkt <- werkt+1 if (qh==q) {geensel <- geensel+1} if (qh==2) { cccc[c,1] <- colnames(Zh)[2] cccc[c,2] <- colnames(Zh)[3] c <- c+1 if (colnames(Zh)[3]==4) cc <- cc+1} } else { schattersaparttijd <- matrix(nrow=qh,ncol=1,data=0) if (qh==2) {w <- as.integer(1) thatHan <- that cccc[c,1] <- colnames(Zh)[2] cccc[c,2] <- colnames(Zh)[3]

(30)

c <- c+1 } for (j in 1:qh) { if (qh==q) {Zt <- cbind(matrix(nrow=n,ncol=1,data=1), Z[,(j+1)])} #Z is nx(q+1) matrix else {Zt <- cbind(matrix(nrow=n,ncol=1,data=1), Zh[,(j+1)])}

PztY <- Zt%*%solve(t(Zt)%*%Zt)%*%t(Zt)%*%Y #PztY (nx1) matrix PztX <- Zt%*%solve(t(Zt)%*%Zt)%*%t(Zt)%*%X #PztX (nx2) matrix schattersaparttijd2 = solve(t(PztX)%*%PztX)%*%t(PztX)%*%PztY #2x1 matrix schattersaparttijd[j,1] <- schattersaparttijd2[2,1] #pak het tweede element }

medHan <- median(schattersaparttijd)

schattersapart <- abs(schattersaparttijd-medHan)

maxw <- as.numeric(which.max(schattersapart)) #zoekt de maximale waarde if (qh==q) {aaaa <- cbind(aaaa,colnames(Z)[maxw+1]) Zh <- Z[,-(maxw+1)]} else { if (qh>2) {aaaa <- cbind(aaaa,colnames(Zh)[maxw+1]) Zh <- Zh[,-(maxw+1)]} }

#Z is nx(q+1) matrix van constante + alle instrumenten #hier Zh nx(qh)

PzhY <- Zh%*%solve(t(Zh)%*%Zh)%*%t(Zh)%*%Y PzhX <- Zh%*%solve(t(Zh)%*%Zh)%*%t(Zh)%*%X

that = solve(t(PzhX)%*%PzhX)%*%t(PzhX)%*%PzhY #nieuwe that resh <- Y-X%*%that #residu op basis van nieuwe IV schatter

Sargan <- as.numeric(n%*%t(resh)%*%Zh%*%solve(t(Zh)%*%Zh)%*%t(Zh)%*%resh/(t(resh)%*%resh)) if (qh>2) { w <- as.integer(0) qh <- qh-1}

kwaarde <- qchisq(0.95,(qh-1)) #nieuwe kritieke waarde } RES[i,1] <- thatHan[2] RESzonder[i,1] <- thatzonder[2] } medthatHan <- median(RES) medthatzonder <- median(RESzonder) RMSE <- sqrt(mean((RES-theta)^2)) bbbb <- rle(sort(aaaa))

welkinstr <- data.frame(instrument=bbbb$values, n=bbbb$lengths) welkinstr <- welkinstr[-1,]

(31)

Appendix B

Tabel 6.1: Situatie I voor 10 instrumenten waarvan 2 endogeen

n = 50 n = 100 n = 250 Routine van Han begint niet 7519 3868 146 Routine van Han begint aan selectie 2481 6132 9854 Verwijdering van instrument (in procenten)

Exogeen 11.9 6.5 1.8

Endogeen 40.7 53.9 83.4

Uitkomsten ˆ

θ zonder routine van Han 0.544 0.542 0.541 ˆ

θHan 0.541 0.530 0.507

RMSE 0.057 0.045 0.023

Referenties

GERELATEERDE DOCUMENTEN

In een eerste spoor vraagt men zich af welke ingrepen op het niveau van de algemene aanpak een bijdrage kunnen leveren om het welbevinden en de betrokkenheid te verhogen voor

De bestaande theorieën over de prijsstellingsproblematiek worden geken­ merkt door het feit dat daarin naast een gedragshypothese, waarin bijvoor­ beeld wordt

Dit kan zijn omdat deze actoren een belangrijke bijdrage kunnen leveren aan de totstandkoming van het project, of omdat de actoren juist veroorzaker kunnen zijn van stagnatie als

+HWRSYRHGLQJVJHGUDJ 2QGHUVWHXQLQJHQFRQWUROH &RQFHSWXDOLVHULQJYDQRQGHUVWHXQLQJHQFRQWUROH 2SYRHGLQJVSUDNWLMNHQYHUVXVRSYRHGLQJVVWLMO 'HEHWHNHQLVFRPSRQHQWLQGHRSYRHGLQJ 2SYRHGLQJVGRHOHQ

Voor het niet alleen aanvoelen maar ook doorgronden van wat je cliënt ervaart, gebruiken we meerdere instrumenten, onder andere Tekst – Boodschap – Realiteit – Diagnose en

Mail ze dan naar Aduis (info@aduis.nl) en wij plaatsen deze dan als downlaod op onze web

De ________ worden met de handen be- speeld en hebben hun oorsprong in Cuba en worden voornamelijk gebruikt in de Latijns-. Amerikaanse dans en

In Europa zijn als gevolg van endogene krachten een aantal gebergten ontstaan van verschillende ouderdom.. Exogene krachten zorgen voor de afbraak van