• No results found

Selectiemethodes voor instrumentele variabelen : een vergelijking tussen de LASSO en de C-test

N/A
N/A
Protected

Academic year: 2021

Share "Selectiemethodes voor instrumentele variabelen : een vergelijking tussen de LASSO en de C-test"

Copied!
32
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

SELECTIEMETHODES VOOR

INSTRUMENTELE

VARIABELEN

Een vergelijking tussen de LASSO en de C-test

Bachelorscriptie

Auteur:

Nousjka de Lange

Studentnummer:

10220917

Opleiding:

Econometrie en Operationele Research

Opleidingsinstituut:

Universiteit van Amsterdam

Begeleider:

Milan Pleus

(2)

Inhoud

1. Inleiding ... 3 2. Theoretisch kader ... 5 2.1 Algemene modellen ... 5 2.2 Introductie IV-methode ... 5 2.3 Toepassing IV-methode ... 6

2.4 Incrementele Sargan/C test ... 7

2.5 LASSO ... 8

2.6 Vergelijking LASSO en C-test ... 10

3. Onderzoeksmethode ... 11

3.1 Monte Carlosimulaties ... 11

3.2 Toepassing LASSO en C-test ... 13

4. Resultaten ... 14

4.1 Aantal instrumenten in Z2: 2 ... 14

4.1.1 Aantal valide instrumenten: 1 ... 14

4.1.2 Aantal valide instrumenten: 2 ... 16

4.2 Aantal instrumenten in Z2: 8 ... 16

4.2.1 Aantal valide instrumenten: 0 ... 16

4.2.2 Aantal valide instrumenten: 2 ... 18

4.2.3 Aantal valide instrumenten: 4 ... 19

4.2.4 Aantal valide instrumenten: 6 ... 19

4.2.5 Aantal valide instrumenten: 8 ... 19

5. Conclusie ... 20

Literatuurlijst ... 22

(3)

3

1. Inleiding

Bij het meten van het effect van politiegeweld per stad op het aantal misdaden per stad, zou je verwachten dat politiegeweld een negatief effect heeft op het aantal misdaden. Het tegenovergestelde komt echter uit het onderzoek; politiegeweld heeft een positief effect heeft op het aantal misdaden. Dit komt doordat steden met hoge misdaadcijfers ook veel meer politiegeweld gebruiken. Dit onderzoek van Levitt (2004) kampt met een probleem wat endogeniteit wordt genoemd; een correlatie tussen de random variantie in de verklarende variabele (in dit geval het politiegeweld) en de variantie in de residuen. Omdat het effect hier twee kanten op werkt, is het moeilijk om het directe effect van X op y te bepalen.

De Ordinary Least Squaresschatter (OLS) is een veelgebruikte techniek die in het geval van endogeniteit niet meer consistent is en daarom onbruikbaar is (Bowden & Turkington, 2007). Om dit op te lossen wordt veel gebruikgemaakt van de methode van instrumentele variabele (IV). Hierbij wordt gebruikgemaakt van instrumenten die exogeen zijn zodat er een causaal verband kan worden geschat. Tevens moeten de instrumenten gecorreleerd zijn met de endogene variabelen zodat ze hier het effect van op kunnen vangen. Sommige exogene variabelen kunnen door middel van economische theorie gevonden worden, maar vaak moet er een test aan te pas komen.

In dit onderzoek zijn twee veelgebruikte methodes voor het vinden van de instrumenten vergeleken en besproken. De eerste is de incrementele Sargan test, welke ook wel de C-test genoemd wordt. Deze test is het verschil van twee Sargan-testen en test of een bepaalde set van variabelen exogeen of endogeen is. De tweede methode is de LASSO-methode, ook wel de Least Absolute

Shrinkage and Selection Operator genoemd. Deze methode speelt in op de

gebreken van OLS zoals moeilijk interpreteerbare modellen en

onnauwkeurigheden van de voorspellingen en is tevens in staat om specifieke valide variabelen te selecteren. De LASSO is een vrij nieuwe techniek waarvan de werking nog niet met veel andere technieken vergeleken is. In dit onderzoek zijn simulaties gedaan onder verschillende omstandigheden om zo te vergelijken welke techniek beter presteert in welke situatie. Aan het eind van dit onderzoek is dan meer inzicht verkregen in hoe de LASSO methode en de C-test zich tot

(4)

4 elkaar verhouden.

Om de twee methodes te vergelijken zijn er een aantal Monte

Carlosimulaties gedaan analoog aan de simulaties in het onderzoek van Caner

(2014). Er is gevarieerd tussen het aantal valide momenten, de zogenoemde

tuningparameter bij de Lasso, significantieniveaus bij de Sargantoets en andere situaties welke later in dit verslag besproken zullen worden.

Allereerst wordt in hoofdstuk 2 een algemene introductie van het model waarmee gewerkt is gegeven. In de eerste paragraaf van dit hoofdstuk worden de algemene modellen uit dit onderzoek geïntroduceerd. Vervolgens wordt in paragraaf 2.2 besproken wat de IV-methode precies inhoudt en in paragraaf 2.2 wanneer deze methode toegepast wordt. In 2.4 wordt de eerste test uit dit

onderzoek, namelijk de C-test, geïntroduceerd en de werking hiervan besproken. De paragraaf daarna, paragraaf 2.5, introduceert de LASSO met bijbehorende modellen. De laatste paragraaf van hoofdstuk 2 vergelijkt de LASSO en C-test en beargumenteert wanneer verwacht wordt dat één van de twee methodes beter presteert. In hoofdstuk 3 wordt de onderzoeksopzet toegelicht. Hierin staat hoe de simulaties opgebouwd zijn, welke varianten bekeken zijn en hoe met de resultaten gekeken is naar welke methode het beste werkt. Hoofdstuk 4

beschrijft de analyse van alle resultaten van de simulaties. Het laatste hoofdstuk van bevat tenslotte de uiteindelijke conclusie.

(5)

5

2. Theoretisch kader

In dit hoofdstuk worden allereerst de algemene modellen beschreven. In

paragraaf 2.2 wordt de IV-methode geïntroduceerd, gevolgd door een paragraaf waarin de toepassing van de IV-methode wordt besproken. In paragraaf 2.4 en 2.5 wordt achtereenvolgend de C-test en de LASSO-methoden toegelicht met bijbehorende toetsingscriteria. Er wordt afgesloten met een paragraaf waarin de twee methodes vergeleken worden.

2.1 Algemene modellen

Er is uitgegaan van een lineair model van de vorm:

𝑦 = 𝑋𝛽 + 𝑢 (1)

Hierin is y de n x 1 vector van waarnemingen voor de afhankelijke variabelen, X een n x k matrix met daarin n waarnemingen voor k verklarende variabelen en β de k x 1 vector van onbekende parameters. De storingsterm u in dit model is dan:

𝑢 = 𝑦 − 𝑋𝛽. (2)

De OLS-schatter wordt vervolgens verkregen door de gekwadrateerde storingstermen u te minimaliseren met betrekking tot β. De schatter die dan gevonden wordt van β is:

𝛽̂ = (𝑋′𝑋)−1𝑋′𝑦 (3) Volgens Heij et al (2004, p. 125) moet deze schatter aan een aantal

voorwaarden voldoen zodat de schatter consistent is. Als niet aan deze

voorwaarden voldaan is, heeft dat vergaande gevolgen voor de consistentie van de schatter en zijn de t-testen en F-testen niet meer geldig.

2.2 Introductie IV-methode

Eén van de meest voorkomende problemen bij de OLS-methode is dat één of meerdere variabelen gecorreleerd zijn met de storingstermen, en daarom endogeen zijn. Hierdoor is de OLS-schatter niet meer consistent. Een

(6)

6 variabelen (IV). Deze schatter is wel consistent, mits er goede instrumenten gebruikt zijn. Deze IV-methode wordt ook wel de Two Stage Least Squares genoemd omdat de schatter gevonden kan worden door het doen van twee regressies (Heij et al, 2004, p. 400).

De eerste stap van de Two Stage Least Squares is een regressie van X op Z. Hiermee worden alle variabelen in X verklaard door Z. De matrix Z is een n x

L matrix met instrumenten. De regressie is gedaan in het volgende model:

𝑋 = 𝑍𝛿 + 𝑣 (4)

De voorspelde waarde van X ziet er dan als volgt uit:

𝑋̂ = (𝑍′𝑍)−1𝑍′𝑋 (5)

Hiermee is X verklaard door alleen maar exogene variabelen uit Z en kan de volgende stap gedaan worden. Deze stap is een regressie van y op 𝑋̂. De IV-schatter van β die dan gevonden wordt is:

𝛽̂𝐼𝑉= (𝑋′𝑃𝑧 𝑋)−1𝑋′𝑃𝑧 𝑦 𝑚𝑒𝑡 𝑃𝑧= 𝑍(𝑍′𝑍)−1𝑍′ (6)

Als instrumenten zijn de variabelen die gecorreleerd zijn met de endogene variabelen uit het model maar niet gecorreleerd zijn met de storingstermen gebruikt (Baum et al, 2003). Dit soort instrumenten worden valide instrumenten genoemd. De matrix Z van instrumenten kan worden gesplitst in [Z1 Z2] waarvan

Z1 de L1 instrumenten zijn die sowieso valide zijn en Z2 de L2 instrumenten zijn

waarvan niet zeker is of ze valide zijn of niet. Verderop in dit onderzoek is onderzocht hoe de validiteit van de instrumenten uit Z2 getest kan worden.

2.3 Toepassing IV-methode

Voordat overgegaan wordt op de IV-methode, moet eerst vastgesteld worden of de OLS wel echt inconsistent is. Als de residuen namelijk homoscedastisch zijn en alle variabelen exogeen, dan is OLS de meest efficiënte schatter en is de IV-methode niet nodig. Voor het testen van de heteroscedasticiteit zijn een hoop mogelijkheden, denk bijvoorbeeld aan de Breusch-Pagan test (Pagan and Hall, 1983) of de White-test (White, 1982). Het testen van de consistentie van de OLS kan gedaan worden met de Durbin-Wu-Hausman test (Hausman, 1978) voor endogene regresoren. Op deze testen wordt in dit onderzoek niet verder ingegaan omdat dit buiten het doel van het onderzoek ligt.

(7)

7 Als blijkt dat de OLS inconsistent is, kan overgegaan worden op de IV-methode. De werking van deze methode is gebaseerd op een set goede

instrumenten. Goede instrumenten zijn instrumenten die ten eerste relevant zijn, oftewel variabelen die gecorreleerd zijn met de endogene variabelen. Dit kan eenvoudig getest worden door een regressie te doen van de endogene variabelen op alle instrumenten uit Z. Vervolgens zijn er verschillende methodes om de correlatie te testen. Zo gebruikt Bound et al. (1995) de R2 uit deze regressie en Shea (1997) een partiele R2 .

Een tweede voorwaarde is dat de instrumenten niet gecorreleerd zijn met de residuen. Om dit te testen zijn er meerdere methodes, waarvan er twee uitgebreid besproken en vergeleken zijn in dit onderzoek. De eerste is de incrementele Sargan-test, ook wel de C-test, en de tweede is de LASSO-methode.

2.4 Incrementele Sargan/C test

De instrumenten die gebruikt zijn voor de IV-methode kunnen getest worden op validiteit met de Sargan-test uit Sargan (1958). Deze test heeft als voorwaarde dat de residuen homoscedastisch zijn. De Sargan-statistiek is gegeven door

Baum et al (2003):

𝑆 =

𝑢̂′𝑃𝑧 𝑢̂ 𝑢̂′𝑢̂/𝑛

𝑑

→ 𝜒

2𝐿−𝐾 (7)

Hierin staat 𝑢̂ voor de IV–residuen. Deze test heeft als nulhypothese dat alle instrumenten uit Z valide zijn en is asymptotisch chi-kwadraat verdeeld met L-K vrijheidsgraden. Met deze statistiek wordt echter de hele set van variabelen getest terwijl men vaak maar een subset van de variabelen wil testen. Er is meestal al een vermoeden over welke instrumenten wel exogeen zijn, en daarom buiten beschouwing gelaten kunnen worden. De Sargan-test heeft een andere variant die dit wel kan: de incrementele Sargan-test.

Deze test is bekend onder meerdere namen, maar in dit onderzoek is verwezen naar de C-test net als in Baum et al (2003). De test is het verschil van twee Sargan-statistieken. De eerste test is een Sargan-test op de gehele set instrumenten Z. De tweede test gaat alleen over een subset van instrumenten waarvan zeker is dat ze valide zijn, in dit geval Z1, en zijn de andere

(8)

8 instrumenten uit Z2 weggelaten. De residuen uit de IV-regressie op Z1 zijn

aangeduid met 𝑢̂1. De C-test heeft dan de vorm:

C =

𝑢̂’P𝑧𝑢̂ 𝑢̂′𝑢̂/𝑛

𝑢̂1’P𝑍1 𝑢̂1 𝑢̂1′𝑢̂1/𝑛

𝑑

→ 𝜒

2L2 (8)

Het verschil van de twee statistieken is weer asymptotisch chi-kwadraat verdeeld met als vrijheidsgraden het aantal variabelen dat buiten beschouwing is gelaten, L2 in dit geval. De nulhypothese van deze test is dat de weggelaten instrumenten

uit Z2 goede instrumenten zijn (Baum et al, 2003). Een alternatieve vorm die in Baum et al (2003) genoemd wordt, is bovenstaande test waarin 𝑢̂1′𝑢̂1/𝑛

vervangen is door 𝑢̂′𝑢̂/𝑛. Als schatter van de standaardafwijking voor de tweede

regressie wordt nu ook van de residuen uit de gehele set gebruikgemaakt. Beide varianten zijn in dit onderzoek bekeken.

2.5 LASSO

De tweede manier om valide momenten te detecteren die behandeld zijn, is de LASSO-methode. Deze methode is voorgesteld in Tibshirani (1995) en is bedacht als oplossing voor twee problemen die bij de OLS veel voorkomen. De eerste die genoemd wordt in Tibshirani (1995) is het feit dat de schatters vaak zuiver zijn maar onnauwkeurig, oftewel grote varianties hebben. Het tweede

veelvoorkomende probleem is dat de modellen vaak moeilijk te interpreteren zijn vanwege het grote aantal schatters. Tibshirani (1995) stelt hierom de LASSO voor wat staat voor least absolute shrinkage and selection operator. Bij deze methode worden de coëfficiënten van een aantal regresoren naar 0 ‘gekrompen’. Dit wordt gedaan door, op dezelfde manier als bij de OLS, de gekwadrateerde residuensom te minimaliseren. Alleen wordt dit bij de LASSO met een restrictie gedaan voor de absolute som van de coëfficiënten. Deze moet namelijk kleiner of gelijk zijn aan de zogenoemde ‘tuning’ parameter (Tibshirani 1995). De schatter van 𝛽 die hier uit komt is dan:

𝛽̂ = arg min{ ∑(𝑦𝑖− ∑ 𝛽𝑗 𝑗 𝑥𝑖𝑗)2 𝑁 𝑖=1 } 𝑚𝑒𝑡 𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑖𝑒 ∑|𝛽𝑗| ≤ 𝑡 𝑗 (9)

Hierin is 𝑥𝑖𝑗 de waarde van de variabele j in de waarneming i. De restrictie kan

met behulp van de Lagrange methode worden opgenomen in de formule, waardoor (9) geschreven kan worden als:

(9)

9 𝛽̂ = arg min{ ∑(𝑦𝑖− ∑ 𝛽𝑗 𝑗 𝑥𝑖𝑗)2 𝑁 𝑖=1 − 𝜆 ∑|𝛽𝑗| 𝑗 } (10)

Afhankelijk van hoe deze parameter gekozen wordt, zal het aantal coëfficiënten dat op 0 wordt gezet toe of afnemen. In dit onderzoek is niet verder ingegaan op de vraag waarom de coëfficiënten krimpen bij deze restrictie, meer informatie hierover is te vinden in Tibshirani (1995). Als de t groter is dan de som van de coëfficiënten uit de OLS, dan zijn de schatters ook gelijk aan de OLS-schatters omdat dan gelijk al aan de restrictie is voldaan (Hsu et al, 2007). Het mag duidelijk zijn dat de keuze van t erg veel invloed heeft op de uitkomst van deze LASSO. Er zijn verschillende methodes om de hoogte van t te bepalen.

Tibshirani (1995) noemt er drie: de cross-validatiemethode, gegeneraliseerde

cross-validatiemethode en een analytische zuivere schatter van risico. De methode welke hierboven is beschreven is een toepassing van de LASSO om de coëfficiënten te schatten. De LASSO leent zich ook voor een ander doeleinde; namelijk dat van het detecteren van de valide instrumenten uit Z2.

Hiervoor zijn twee aannames gedaan met betrekking tot het model uit (1) en de instrumenten Z:

𝐸[𝑍1′(𝑦 − 𝑋𝛽)] = 0 (11)

𝐸[𝑍2(𝑦 − 𝑋𝛽) − 𝜃] = 0 (12)

Zoals eerder genoemd, wordt er vanuit gegaan dat alle instrumenten in Z1

exogeen zijn en daarmee voldoen aan de eerste vergelijking. Met behulp van de IV-methode kan β geschat worden met alleen Z1. Dat geeft de volgende

consistente schatter:

𝛽̂1= (𝑋′𝑃𝑧1 𝑋)

−1

𝑋′𝑃

𝑧1 𝑦 (13)

Nu β geschat is, kunnen de IV-residuen ook als volgt geschat worden:

𝑢̂1= 𝑦 − 𝑋𝛽̂1 (14)

Hierna wordt een nieuw model gespecificeerd, waarin de residuen uit de vorige regressie verklaard worden door Z2, oftewel:

(10)

10 Vervolgens wordt de residuele kwadratensom van dit model geminimaliseerd naar 𝛾 met een restrictie op de absolute som van de parameters in 𝛾. Het minimalisatieprobleem is dan als volgt:

min 𝛾 (𝑢̂1− 𝑍2𝛾) ′(𝑢̂ 1− 𝑍2𝛾) + 𝜆 ∑ |𝛾𝑗 𝐿2 𝑗=1 | (16)

De geschatte coëfficiënten van de instrumenten uit Z2 die hier op 0 zijn gezet,

horen bij de valide instrumenten. Deze instrumenten uit Z2 zijn de instrumenten

die gebruikt kunnen worden voor bijvoorbeeld de IV-methode.

2.6 Vergelijking LASSO en C-test

Beide methodes vereisen dat er eerst een set Z1 gespecificeerd wordt van

instrumenten die duidelijk valide zijn. Vervolgens worden de methodes op de set Z2 toegepast. De C-test zal dan de hele set wel of niet verwerpen en dus een

schatting maken op basis van Z1 of heel de set Z. Een groot voordeel van de

LASSO is dat deze methode specifieke variabelen uit Z2 kan aanwijzen als valide

variabelen. De coëfficiënten die op 0 worden gezet zijn volgens de LASSO de valide instrumenten die het beste gebruikt kunnen worden bij het schatten van een model. Bij de LASSO wordt geen significantieniveau gekozen en dit is daarom geen formele test. Bij de C-test wordt wel een significantieniveau gekozen voor het verwerpen van de nulhypothese.

Als Z2 uit één instrument bestaat, zijn de twee methodes goed te

vergelijken. Met de C-test zal dit instrument bestempeld worden als wel of niet valide en ook de LASSO zal hier duidelijkheid in verschaffen. Echter vereist de LASSO dat Z2 uit minstens twee instrumenten bestaat met als gevolg dat deze

situatie niet te testen is. Wel zal bij de simulaties gevarieerd worden in het aantal instrumenten van Z2.

Als Z2 uit een aantal valide en een aantal invalide momenten bestaat, zal

de C-test de hele set als wel of niet valide bestempelen, het is dan nog

onduidelijk of alle instrumenten invalide zijn of dat dit er maar een paar zijn. Het grote voordeel van de LASSO is dat deze de specifieke instrumenten uitzoekt die invalide zijn. Als ondanks dit voordeel blijkt dat de C-test beter presteert, dan is er nooit reden toe om de LASSO te gebruiken.

(11)

11 steekproeven. De LASSO heeft namelijk de moeilijke taak om specifieke

variabelen te selecteren en zal daarom gebaat zijn bij grotere steekproeven. Ook de C-test zal beter presteren in grotere steekproeven. Onder de alternatieve hypothese, de hypothese waarin Z2 invalide wordt bevonden, gaat de

verwerpingskans namelijk voor grote steekproeven naar 1. Dat betekend dat als de instrumenten in Z2 niet valide zijn, de C-test dit bij grotere steekproeven

beter kan zien. Als de steekproef groot genoeg is zal de C-test dus altijd de nulhypothese verwerpen.

3. Onderzoeksmethode

In dit hoofdstuk wordt besproken hoe het onderzoek opgezet is. Allereerst wordt in paragraaf 3.1 toegelicht hoe met Monte Carlosimulaties data wordt

gegenereerd met verschillende waardes voor de variabelen. In paragraaf 3.2 wordt vervolgens besproken hoe de LASSO en C-test op deze gegenereerde data zijn toegepast en welke criteria zijn gebruikt om de twee methodes te

vergelijken.

3.1 Monte Carlosimulaties

Er zijn Monte Carlosimulaties gedaan in het model uit (1) en (4) in hoofdstuk 2.

𝑦 = 𝑋𝛽 + 𝑢 (1)

𝑋 = 𝑍𝛿 + 𝑣 (4)

De instellingen voor het genereren van de data hiervoor zijn voor een deel analoog aan die uit het onderzoek van Caner et al (2014). De werkelijke parameter β is gelijk gezet aan 0.5 met als gevolg dat de matrix X uit één

endogene variabele bestaat en een constante. Vervolgens is er data gegenereerd uit een normale verdeling met verwachting 0 en de volgende (L+2)x(L+2)

covariantiematrix voor Z, u en v: Σ = [ 𝜎𝑧𝑧2 𝑰𝑳 𝝈𝒛𝒖′ 𝟎𝑳 𝝈𝒛𝒖 𝜎𝑢2 𝜎𝑢𝑣 𝟎𝑳 𝜎𝑢𝑣 𝜎𝑣2 ] (17)

(12)

12 Hierin is 𝜎𝑧𝑧2 𝑰

𝑳 een diagonaalmatrix van LxL met de varianties van de

instrumenten uit Z. Er zijn twee varianties bekeken: 0.5 en 1. Verder zijn op de diagonaal 𝜎𝑢2 en 𝜎𝑣2 te vinden welke respectievelijk de varianties voor de storingen

u en v uit (1) en (4) zijn. Deze varianties staan vast op 0,5 en 1. De covariantie

tussen u en v is gegeven door 𝜎𝑢𝑣. Om een sterke en zwakke correlatie tussen de storingen te onderzoeken is gekozen om 𝜎𝑢𝑣= {0.2, 0.5} te zetten. Bij deze

covarianties horen correlaties tussen u en v van ongeveer 0.28 en 0.71 welke de zwakke en sterke correlatie vertegenwoordigen. De Lx1 vector 𝝈𝒛𝒖 bestaat uit de

covarianties tussen de L instrumenten en de structurele storingstermen. Deze vector is gegenereerd met constante correlaties D=0.2 voor de invalide

instrumenten en 0 voor de valide instrumenten.

Er zijn simulaties uitgevoerd waarin het aantal instrumenten varieert. Grofweg zijn er twee situaties bekeken:

1) Z2 bestaat uit twee instrumenten

2) Z2 bestaat uit acht instrumenten

In de eerste situatie zijn vervolgens weer twee situaties bekeken; die waarin één van de twee instrumenten valide is en die waarin allebei de instrumenten valide zijn. In de tweede situatie is gevarieerd in het aantal valide variabelen. Dit zal variëren van 0 t/m 8 valide instrumenten in stapjes van twee. De LASSO zal hoogstwaarschijnlijk minder vaak invalide variabelen selecteren dan de C-test.

In beide situaties is gevarieerd met de eerder genoemde covarianties. Tot slot is gevarieerd met sterke en zwakke instrumenten, welke duiden op een sterke en zwakke identificatie tussen de instrumenten uit Z en de variabelen in X. In het geval van sterke instrumenten zijn alle covarianties gelijk aan 2. In het geval van zwakke instrumenten uit Z2 hebben alleen de valide variabelen uit Z1

een covariantie van 2 gekregen en hebben alle instrumenten uit Z2 een

covariantie van 0.2 gekregen. In de tweede situatie is ook gekeken naar wat de invloed is van de sterkte van de instrumenten uit Z1. Elke simulatie bestaat uit

(13)

13

3.2 Toepassing LASSO en C-test

Na elke simulatie is zowel de LASSO als de C-test gebruikt voor het selecteren van de juiste instrumenten. De LASSO selecteert een aantal instrumenten, welke vervolgens gebruikt zijn voor het schatten van β, waarvan de werkelijke waarde in deze simulatie op 0.5 staat. De C-test verwerpt of behoudt de héle set Z2 en

gebruikt deze vervolgens als instrumenten om β te schatten. De LASSO neemt naast de instrumenten uit Z1 eventueel een aantal instrumenten uit Z2 mee

waarvan hij denkt dat ze valide zijn.

Voor beide methodes is de Root Mean Squared Error (RMSE) van de uiteindelijke schatter over de 10000 replicaties berekend. De RMSE statistiek is als volgt: 𝑅𝑀𝑆𝐸 = √(1 𝑅∑ (𝛽 𝑅 𝑖=1 −𝛽̂𝑖)2)

Hierin staat R voor het aantal replicaties van de simulatie, welke standaard op 10000 staat. Na elke replicatie wordt β geschat en wordt de gekwadrateerde fout berekend. Na 10000 replicaties kan hiermee de RMSE berekend worden. De methode met de laagste RMSE zal β het beste schatten en is dan ook de

methode die wordt geprefereerd. Naast de RMSE zijn voor elke methode ook de gemiddelde schatting van β, de gemiddelde variantie van β en de gemiddelde fout van de schatting in de resultaten opgenomen.

(14)

14

4. Resultaten

In dit hoofdstuk worden de meest relevante resultaten van de simulaties

besproken. In paragraaf 4.1 de eerste situatie besproken, namelijk die waarbij Z2

uit twee instrumenten bestaat. In paragraaf 4.2 wordt de andere situatie besproken waarin Z2 uit acht instrumenten bestaat.

In de sub paragrafen wordt besproken hoe gevarieerd is in het aantal valide instrumenten waaruit de set bestaat. In beide gevallen zijn de twee verschillende C-testen en de LASSO vergeleken op basis van hun RMSE, gemiddelde en

variantie van β en hun onzuiverheid. Alle resultaten zijn afgerond op 4 decimalen, tenzij dit geen duidelijk onderscheid gaf. In het lichtgrijs zijn de resultaten gearceerd welke de laagste RMSE hebben.

4.1 Aantal instrumenten in Z2: 2 4.1.1

Aantal valide instrumenten: 1

Als eerste is gekeken naar de situatie waarin Z2 uit twee instrumenten bestaat

waarvan er één valide is. De C-test kan er hier voor kiezen om de hele set Z2

mee te nemen, en dus één invalide instrument mee te nemen. Het alternatief is dat de hele set Z2 niet wordt meegenomen, met als gevolg dat er één valide

instrument niet wordt meegenomen. De C-test kan in dit geval dus niet, zoals de LASSO, optimaal kiezen.

De instrumenten uit Z1 zijn hier zwak gecorreleerd met de variabele uit X.

De RMSE is berekend voor de LASSO-methode, de C-test waarin als schatter voor de standaardafwijking in het tweede deel van de test 𝑢̂1 is gebruikt (in de tabellen met C-test (u1) aangeduid) en de C-test waarin 𝑢̂ is gebruikt (aangeduid met C-test(u) ). Alle resultaten zijn te vinden in tabel 1.

Allereerst valt op dat als de instrumenten uit Z2 sterk zijn, de RMSE altijd

lager is dan wanneer ze zwak zijn. Doordat de instrumenten sterk zijn, en dus beter gecorreleerd met de variabele uit X, kan deze beter verklaard worden. Verder valt op dat voor een grote steekproef de RMSE altijd lager wordt. Dit is logisch omdat er voor een grotere steekproef simpelweg een betere afweging gemaakt kan worden over welke instrumenten wel of niet meegenomen zouden moeten worden. Wat ook duidelijk wordt uit de resultaten, is dat een variantie

(15)
(16)

16 van de instrumenten van 1 altijd een lagere RMSE geeft dan bij een variantie van 0.5.

Tot slot valt het op dat wanneer de variantie van de instrumenten gelijk is aan 0.5 en de instrumenten in Z2 zwak zijn, de LASSO altijd een lagere RMSE

heeft. Wanneer hier de variantie niet 0.5 maar 1 is, is de LASSO alleen in de grootste steekproef de beste methode. Als de instrumenten uit Z2 sterk zijn,

presteert één van de C-testen het vaakst het beste.

4.1.2

Aantal valide instrumenten: 2

Ook als Z2 uit twee valide instrumenten valt op dat er een groot verschil is tussen

het wel of niet sterk zijn van de instrumenten. De resultaten hiervan zijn te vinden in tabel 2. Verder is het in deze situatie heel duidelijk dat de C-test (u) bijna overal het beste presteert. Alleen wanneer de covariantie tussen de

storingen 0.5 is presteert de andere C-test beter. Omdat alle variabelen in de set valide zijn, kan de C-test geen variabelen vergeten mee te nemen. De C-test neemt dus vaak de hele set mee, wat in dit geval het juiste is om te doen. Waarschijnlijk heeft de LASSO nog een aantal momenten waarop hij één van de twee variabelen weglaat, en hierdoor een mindere schatting maakt dan de C-test. Ook valt op dat beide methodes altijd een lagere RMSE hebben wanneer er twee valide instrumenten zijn. Dit komt omdat er in totaal meer valide

instrumenten zijn om mee te schatten waardoor de schatting van β beter wordt.

4.2 Aantal instrumenten in Z2: 8

In deze paragraaf is onderzocht welke methode de laagste RMSE heeft als Z2 uit

acht instrumenten bestaat. Er is gevarieerd van 0 t/m 8 valide instrumenten in stapjes van twee. Daarnaast is er gekeken naar of het feit dat Z1 uit zwakke of

sterke instrumenten bestaat, invloed heeft op de resultaten. Vanwege

ruimtegebrek zijn de resultaten uit deze paragraaf terug te vinden in de bijlages.

4.2.1 Aantal valide instrumenten: 0

Er is een duidelijk verschil tussen de RMSE van de twee verschillende situaties waarin de sterkte van Z1 varieert. Die waarin de instrumenten uit Z1 sterk zijn

(17)
(18)

18 De instrumenten uit Z1 worden namelijk altijd meegenomen in de schatting.

Ongeacht de werking van de LASSO en de C-test, zal Z1 bestaan uit instrumenten

die β beter kunnen schatten wat in een lagere RMSE resulteert.

Wat daarnaast opvalt voor het geval waarin er 0 valide instrumenten zijn, is dat de daadwerkelijke keuze voor een methode niet veel afhangt van de sterkte van de instrumenten uit Z1. Ook is duidelijk dat als de instrumenten in Z2

sterk zijn, de C-test (u) bijna overal de laagste RMSE heeft. Met 0 valide instrumenten heeft de C-test namelijk de mogelijkheid om precies het goede aantal valide instrumenten mee te nemen. De LASSO heeft deze mogelijkheid altijd, maar kiest blijkbaar nog af en toe een instrument wat niet valide is en krijgt daarmee een lagere RMSE. Als de instrumenten in Z2 daarentegen zwak

zijn, scoort de LASSO vaak beter.

4.2.2 Aantal valide instrumenten: 2

De resultaten in het geval dat er 2 van de 8 valide instrumenten zijn, verschillen nauwelijks van de situatie waarin er 0 valide instrumenten zijn. Als de

instrumenten in Z1 sterk zijn, zijn alle RMSE lager dan wanneer deze

instrumenten zwak zijn. Ook hier is het zo dat als de instrumenten in Z2 sterk

zijn, de C-test(u) de laagste RMSE heeft. Een ander opvallend verschijnsel is dat de keuze van de hoogte van de covariantie tussen de storingen weinig verschil lijkt te brengen in de resultaten. Wel is duidelijk te zien dat wanneer de variantie van de instrumenten 0.5 is, alle RMSE hoger zijn dan wanneer de variantie 1 is. Een hogere variantie van de instrumenten zorgt er dus blijkbaar voor dat beide methodes betere keuzes kunnen maken.

Als de instrumenten van Z1 sterk zijn en de instrumenten in Z2 zwak zijn,

zijn de methodes verdeeld met hun RMSE. In de grootste steekproef heeft de LASSO echter altijd de voorkeur. In de gevallen waarin de instrumenten uit Z1

zwak zijn of de instrumenten uit Z2 sterk zijn, hebben de twee verschillende

C-testen de laagste RMSE. Het lijkt hier weinig uit te maken met welke

standaardafwijking is gecorrigeerd. Dit zal veelal niet uitmaken voor het wel of niet verwerpen van de nulhypothese, en dus tot dezelfde uitkomst leiden.

(19)

19

4.2.3 Aantal valide instrumenten: 4

Ook hier zijn de resultaten weer erg vergelijkbaar met de vorige twee situaties. Wanneer de instrumenten uit Z1 zwak zijn, zijn de RMSE veel hoger dan wanneer

ze sterk zijn. Voor de sterkte van de instrumenten in Z2 geldt hetzelfde; sterkere

instrumenten zorgt voor een lagere RMSE. Net als in de vorige situaties, is de LASSO in de grootste steekproef de geprefereerde methode als de instrumenten in Z2 zwak zijn. Als de instrumenten uit Z2 sterk zijn, is de C-test(u) vaak de

methode met de laagste RMSE. Ook hier is er weinig verschil te zien voor de verschillende covarianties tussen de storingen, en lijkt de variantie van de

instrumenten de grootste invloed te hebben. Bij een hogere variantie van 1, zijn de instrumenten onderling meer gecorreleerd en kunnen ze elkaar beter

verklaren waardoor de RMSE lager wordt.

4.2.4 Aantal valide instrumenten: 6

De resultaten wanneer 6 van de 8 instrumenten valide zijn, verschillen wederom weinig van de andere situaties. Net als in de andere situaties wordt duidelijk dat de LASSO vaak de beste methode is als de instrumenten uit Z2 zwak zijn en is de

C-test(u) de vaak de beste methode als de instrumenten sterk zijn.

4.2.5 Aantal valide instrumenten: 8

Als laatste is bekeken welke methode het beste β kan schatten als alle 8 instrumenten valide zijn. De C-test heeft nu weer de mogelijkheid om een perfecte selectie te doen, namelijk door de hele set Z2 mee te nemen. In de

andere situaties was het zo dat als de instrumenten uit Z1 sterk waren en de

instrumenten uit Z2 zwak waren, de LASSO in ieder geval in de grootste

steekproef de laagste RMSE had. Nu lijkt het er echter op dat dat de C-test is. In de varianten van sterke en zwakke instrumenten is de C-test(u) overduidelijk de geprefereerde methode.

(20)

20

5. Conclusie

Om het probleem van endogeniteit tussen variabelen op te lossen, wordt veel gebruikt gemaakt van de IV-methode. Deze methode vereist een

instrumentenmatrix Z met instrumenten die valide zijn. Er zijn veel testen om uit te zoeken of de instrumenten valide zijn. Twee van de belangrijkste testen zijn de incrementele Sargan test, ook wel de test genoemd, en de LASSO. De C-test is het verschil van twee Sargan-statistieken en kan een hele set van instrumenten wel of niet verwerpen. De schatting van de parameter wordt dan gedaan met of zonder deze hele set. Een groot nadeel aan deze test is dat als de instrumenten niet allemaal valide dan wel allemaal invalide zijn, de C-test

sowieso een aantal instrumenten ten onrechte weglaat of meeneemt. Een methode die dit probleem niet heeft, is de LASSO-methode. Deze methode laat een aantal coëfficiënten krimpen en degene die dan op 0 komen te staan zijn de instrumenten die valide zijn. Deze test kan dus een aantal variabelen selecteren en doet op basis van deze instrumenten de schatting van de parameter.

De twee methodes hebben allebei hun voor- en nadelen, maar zijn nog niet eerder vergeleken met elkaar. In het uitgevoerde onderzoek zijn Monte Carlosimulaties gedaan met 10000 replicaties, waarin voor verschillende instellingen de RMSE van de beide methodes werden vergeleken. Zo is er gevarieerd met de hoogte van de covariantie tussen de storingen, de variantie van de instrumenten, de sterkte van de instrumenten uit Z2, het aantal valide

instrumenten, het aantal instrumenten in Z2 en tot slot ook in de sterkte van de

instrumenten uit Z1 wanneer Z2 uit 8 instrumenten bestond.

In de situatie waarin Z2 uit twee instrumenten bestond en er één valide

instrument was, viel op dat als Z2 zwak was de LASSO vaak de beste methode

was. Als de variantie van de instrumenten 0.5 was, kwam de LASSO altijd beter naar voren. Als de variantie gelijk aan 1 was, was de LASSO alleen in de grootste steekproef de beste methode. Als Z2 daarentegen sterk was, werd altijd voor één

van de twee C-testen gekozen.

Wanneer er 2 valide instrumenten zaten in Z2 kwam de C-test overal beter

naar voren. In deze situatie kan de C-test namelijk precies het goede aantal instrumenten kiezen, iets wat met 1 valide instrument niet mogelijk is. Er wordt dan altijd een instrument te veel of te weinig meegenomen. Blijkbaar is de LASSO minder goed in staat om ervoor te kiezen om beide instrumenten mee te

(21)

21 nemen en maakt deze hierin vaker een verkeerde beslissing.

Als er 8 instrumenten in Z2 zaten, waarvan 0 valide, dan bleek dat als deze

instrumenten sterk waren, de voorkeur altijd naar de C-test ging. Als ze zwak waren ging de voorkeur vaak naar de LASSO. Ook als er 2 valide instrumenten waren werd in dezelfde situatie voor de C-test gekozen. Echter werd nu alleen voor de LASSO gekozen wanneer Z2 zwak en tegelijkertijd de instrumenten uit Z1

sterk waren. Als hier niet aan voldaan werd ging de voorkeur vaak naar één van de twee C-testen.

De resultaten waarin er 4 of 6 valide instrumenten waren zorgden voor vergelijkbare resultaten. Alleen de situatie waarin alle 8 instrumenten valide waren, zorgde voor een ander resultaat. Hier werd namelijk bijna nooit voor de LASSO gekozen, maar altijd voor één van de twee C-testen. Net als in het geval waarin er 2 van de 2 instrumenten valide waren, blijkt hier weer dat de C-test beter presteert. De test heeft hier weer de mogelijkheid om precies het goede aantal instrumenten mee te nemen.

Wat over het algemeen opviel in de resultaten was dat sterke instrumenten altijd tot lagere RMSE leidden. Dit geldt voor zowel de

instrumenten in Z2 als die in Z1. Dit is niet meer dan logisch, Z1 wordt immers

altijd meegenomen in de schatting en elk instrument uit Z2 dat wordt

meegenomen heeft meer waarde als deze sterk is. Daarnaast viel op dat als de variantie van de instrumenten uit Z2 1 was, de RMSE ook lager was dan wanneer

deze 0.5 was. Tot slot bleek dat de hoogte van de covariantie tussen de storingen eigenlijk geen invloed had op de resultaten.

(22)

22

Literatuurlijst

Baum, C. F., Schaffer, M. E., & Stillman, S. (2003). Instrumental variables and GMM: Estimation and testing. Stata journal, 3(1), 1-31.

Bound, J., Jaeger, D. A., & Baker, R. M. (1995). Problems with instrumental variables estimation when the correlation between the instruments and the endogenous explanatory variable is weak. Journal of the American statistical

association, 90(430), 443-450.

Bowden, R. J., & Turkington, D. A. (1990). Instrumental variables (Vol. 8). Cambridge University Press.

Breusch, T. S., & Pagan, A. R. (1979). A simple test for heteroscedasticity and random coefficient variation. Econometrica: Journal of the Econometric Society, 1287-1294.

Caner, M., Maasoumi, E., & Riquelme, J. A. (2014). Moment and IV Selection Approaches: A Comparative Simulation Study.

Hausman, J. A. (1978). Specification tests in econometrics. Econometrica:

Journal of the Econometric Society, 1251-1271.

Heij, C., De Boer, P., Franses, P. H., Kloek, T., & Van Dijk, H. K.

(2004).Econometric methods with applications in business and economics. Oxford University Press.

Hsu, N. J., Hung, H. L., & Chang, Y. M. (2008). Subset selection for vector autoregressive processes using lasso. Computational Statistics & Data

Analysis, 52(7), 3645-3657.

Levitt, S. D. (2004). Understanding why crime fell in the 1990s: Four factors that explain the decline and six that do not. Journal of Economic perspectives, 163-190.Shea, J. (1997). Instrument relevance in multivariate linear models: A simple measure. Review of Economics and Statistics, 79(2), 348-352.

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of

the Royal Statistical Society. Series B (Methodological), 267-288.

White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity. Econometrica: Journal of the

(23)

23

Bijlagen

Tabel 3a: Situatie 2

8 instrumenten, 0 valide, instrumenten Z1 sterk =0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE n=50 LASSO 0,5016 0,9586 0,0016 0,05989 0,5141 0,9283 0,0141 0,0630 C-test (u1) 0,5016 0,9587 0,0016 0,05990 0,5128 0,9326 0,0128 0,06121 C-test (u) 0,5016 0,9587 0,0016 0,05990 0,5128 0,9326 0,0128 0,06119 n=100 LASSO 0,5004 0,9811 0,0004 0,04171559 0,5056 0,9725 0,0056 0,04222 C-test (u1) 0,5004 0,9811 0,0004 0,04171562 0,5056 0,9726 0,0056 0,04220 C-test (u) 0,5004 0,9811 0,0004 0,04171562 0,5056 0,9726 0,0056 0,04220 n=250 LASSO 0,5001 0,9929 0,0001 0,0260 0,5021 0,9899 0,0021 0,0263 C-test (u1) 0,5001 0,9929 0,0001 0,0260 0,5021 0,9899 0,0021 0,0263 C-test (u) 0,5001 0,9929 0,0001 0,0260 0,5021 0,9899 0,0021 0,0263 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE n=50 LASSO 0,5030 0,9567 0,0030 0,0431 0,5153 0,9448 0,0153 0,0510 C-test (u1) 0,5025 0,9574 0,0025 0,0430 0,5115 0,9612 0,0115 0,0462 C-test (u) 0,5025 0,9575 0,0025 0,0429 0,5116 0,9600 0,0116 0,0458 n=100 LASSO 0,5005 0,9800 0,0005 0,0296 0,5047 0,9834 0,0047 0,0323 C-test (u1) 0,5004 0,9801 0,0004 0,0295 0,5030 0,9887 0,0030 0,0298342 C-test (u) 0,5004 0,9801 0,0004 0,0295 0,5030 0,9887 0,0030 0,0298315 n=250 LASSO 0,5000 0,9931 0,0000 0,0182737 0,5010 0,9970 0,0010 0,0185 C-test (u1) 0,5000 0,9931 0,0000 0,0182739 0,5010 0,9971 0,0010 0,0184 C-test (u) 0,5000 0,9931 0,0000 0,0182739 0,5010 0,9971 0,0010 0,0184 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE n=50 LASSO 0,5043 0,9555 0,0043 0,0425 0,5015 0,9890 0,0015 0,0364 C-test (u1) 0,5060 0,9540 0,0060 0,0426 0,5015 0,9687 0,0015 0,0282 C-test (u) 0,5060 0,9540 0,0060 0,0426 0,5017 0,9671 0,0017 0,0273 n=100 LASSO 0,5027 0,9770 0,0027 0,029372 0,5012 0,9943 0,0012 0,0249 C-test (u1) 0,5034 0,9763 0,0034 0,02939 0,5010 0,9843 0,0010 0,0193 C-test (u) 0,5034 0,9763 0,0034 0,029374 0,5011 0,9840 0,0011 0,0192 n=250 LASSO 0,5008 0,9922 0,0008 0,01804 0,5003 0,9987 0,0003 0,0152 C-test (u1) 0,5011 0,9919 0,0011 0,01799 0,5004 0,9947 0,0004 0,01194 C-test (u) 0,5011 0,9919 0,0011 0,01798 0,5004 0,9946 0,0004 0,01188 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE n=50 LASSO 0,5035 0,9543 0,0035 0,0429 0,5161 0,9312 0,0161 0,0512 C-test (u1) 0,5032 0,9551 0,0032 0,0431 0,5121 0,9507 0,0121 0,0465 C-test (u) 0,5031 0,9551 0,0031 0,0430 0,5122 0,9495 0,0122 0,0461 n=100 LASSO 0,5007 0,9794 0,0007 0,02952 0,5049 0,9788 0,0049 0,0322 C-test (u1) 0,5006 0,9795 0,0006 0,02951 0,5032 0,9849 0,0032 0,029813 C-test (u) 0,5006 0,9795 0,0006 0,02951 0,5032 0,9849 0,0032 0,029810 n=250 LASSO 0,5001 0,9929 0,0001 0,0182723 0,5011 0,9957 0,0011 0,0185 C-test (u1) 0,5001 0,9929 0,0001 0,0182724 0,5011 0,9958 0,0011 0,0184 C-test (u) 0,5001 0,9929 0,0001 0,0182724 0,5011 0,9958 0,0011 0,0184

Zwakke identificatie Sterke identificatie Zwakke identificatie Sterke identificatie Zwakke identificatie Sterke identificatie Zwakke identificatie Sterke identificatie

(24)

24

Tabel 3b: Situatie 2

8 instrumenten, 0 valide, instrumenten Z1 zwak

=0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,7400 0,9624 0,2400 0,6245 0,6971 0,5534 0,1971 0,2373 C-test (u1) 0,7261 1,0207 0,2261 0,6778 0,6960 0,5689 0,1960 0,2384 C-test (u) 0,7260 1,0207 0,2260 0,6777 0,6960 0,5689 0,1960 0,2384 n=100 LASSO 0,6035 0,9973 0,1035 0,4360 0,6857 0,5969 0,1857 0,23083 C-test (u1) 0,6035 0,9977 0,1035 0,4366 0,6848 0,6020 0,1848 0,23076 C-test (u) 0,6035 0,9977 0,1035 0,4366 0,6848 0,6020 0,1848 0,23076 n=250 LASSO 0,5357 1,0025 0,0357 0,2676 0,6541 0,6691 0,1541 0,2094 C-test (u1) 0,5357 1,0025 0,0357 0,2676 0,6537 0,6703 0,1537 0,2092 C-test (u) 0,5357 1,0025 0,0357 0,2676 0,6537 0,6703 0,1537 0,2092 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,6910 0,9648 0,1910 0,4961 0,6012 1,1124 0,1012 0,1641 C-test (u1) 0,6465 1,0027 0,1465 0,4852 0,6007 1,1186 0,1007 0,1637 C-test (u) 0,6479 0,9989 0,1479 0,4818 0,6006 1,1074 0,1006 0,1624 n=100 LASSO 0,5638 0,9975 0,0638 0,3188 0,5945 1,1727 0,0945 0,1619 C-test (u1) 0,5486 1,0025 0,0486 0,30051 0,5942 1,1829 0,0942 0,16263 C-test (u) 0,5486 1,0025 0,0486 0,30048 0,5942 1,1828 0,0942 0,16261 n=250 LASSO 0,5172 1,0032 0,0172 0,1866 0,5775 1,1450 0,0775 0,1453 C-test (u1) 0,5170 1,0033 0,0170 0,1863 0,5773 1,1476 0,0773 0,1454 C-test (u) 0,5170 1,0033 0,0170 0,1863 0,5773 1,1476 0,0773 0,1454 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,6613 0,9059 0,1613 0,3702 0,5173 1,7289 0,0173 0,1613 C-test (u1) 0,6592 0,8759 0,1592 0,3204 0,5052 1,1454 0,0052 0,0822 C-test (u) 0,6667 0,8646 0,1667 0,3108 0,5048 1,0678 0,0048 0,0654 n=100 LASSO 0,5830 0,9459 0,0830 0,2501 0,5150 1,7578 0,0150 0,1596 C-test (u1) 0,5852 0,9241 0,0852 0,2026 0,5051 1,2145 0,0051 0,0889 C-test (u) 0,5895 0,9192 0,0895 0,1991 0,5039 1,1421 0,0039 0,0745 n=250 LASSO 0,5301 0,9811 0,0301 0,1543 0,5110 1,7693 0,0110 0,1571 C-test (u1) 0,5336 0,9695 0,0336 0,1225 0,5027 1,2649 0,0027 0,0935 C-test (u) 0,5356 0,9673 0,0356 0,1216 0,5025 1,2086 0,0025 0,0836 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,7842 0,7130 0,2842 0,4900 0,6096 1,0259 0,1096 0,1661 C-test (u1) 0,7399 0,8340 0,2399 0,5533 0,6083 1,0329 0,1083 0,1653 C-test (u) 0,7246 0,8364 0,2246 0,5299 0,6083 1,0265 0,1083 0,1646 n=100 LASSO 0,5869 0,9188 0,0869 0,3081 0,6025 1,1170 0,1025 0,1675 C-test (u1) 0,5784 0,9296 0,0784 0,3043 0,6020 1,1265 0,1020 0,1680 C-test (u) 0,5779 0,9299 0,0779 0,3034 0,6020 1,1265 0,1020 0,1680 n=250 LASSO 0,5271 0,9768 0,0271 0,185662 0,5848 1,1075 0,0848 0,1518 C-test (u1) 0,5271 0,9769 0,0271 0,185665 0,5845 1,1101 0,0845 0,1519 C-test (u) 0,5271 0,9769 0,0271 0,185665 0,5845 1,1101 0,0845 0,1519 Sterke identificatie Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

Zwakke identificatie

(25)

25

Tabel 4a: Situatie 2

8 instrumenten, 2 valide, instrumenten Z1 sterk

=0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5020 0,9572 0,0020 0,06023 0,5133 0,9547 0,0133 0,0648 C-test (u1) 0,5013 0,9578 0,0013 0,06020 0,5101 0,9660 0,0101 0,0620 C-test (u) 0,5013 0,9578 0,0013 0,06018 0,5101 0,9660 0,0101 0,0619 n=100 LASSO 0,5007 0,9811 0,0007 0,041459 0,5051 0,9836 0,0051 0,0424 C-test (u1) 0,5005 0,9813 0,0005 0,041461 0,5044 0,9869 0,0044 0,0420 C-test (u) 0,5005 0,9813 0,0005 0,041461 0,5044 0,9869 0,0044 0,0420 n=250 LASSO 0,5002 0,9920 0,0002 0,02585 0,5019 0,9935 0,0019 0,0265 C-test (u1) 0,5001 0,9921 0,0001 0,02586 0,5016 0,9948 0,0016 0,0261 C-test (u) 0,5001 0,9921 0,0001 0,02586 0,5016 0,9948 0,0016 0,0261 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5038 0,9555 0,0038 0,04326 0,5125 0,9652 0,0125 0,0476 C-test (u1) 0,5043 0,9556 0,0043 0,04332 0,5139 0,9664 0,0139 0,0459 C-test (u) 0,5043 0,9556 0,0043 0,04325 0,5144 0,9642 0,0144 0,0455 n=100 LASSO 0,5009 0,9802 0,0009 0,0295 0,5045 0,9902 0,0045 0,0318 C-test (u1) 0,5005 0,9804 0,0005 0,029422 0,5028 0,9955 0,0028 0,029902 C-test (u) 0,5005 0,9804 0,0005 0,029419 0,5028 0,9954 0,0028 0,029904 n=250 LASSO 0,5001 0,9924 0,0001 0,01821 0,5009 0,9985 0,0009 0,0185 C-test (u1) 0,5000 0,9924 0,0000 0,01822 0,5008 0,9992 0,0008 0,0184 C-test (u) 0,5000 0,9924 0,0000 0,01822 0,5008 0,9992 0,0008 0,0184 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5030 0,9545 0,0030 0,0601 0,5143 0,9412 0,0143 0,0645 C-test (u1) 0,5024 0,9555 0,0024 0,0603 0,5112 0,9543 0,0112 0,0621 C-test (u) 0,5023 0,9556 0,0023 0,0602 0,5112 0,9543 0,0112 0,0620 n=100 LASSO 0,5013 0,9799 0,0013 0,0415 0,5057 0,9774 0,0057 0,0424 C-test (u1) 0,5011 0,9802 0,0011 0,0415 0,5050 0,9810 0,0050 0,0420 C-test (u) 0,5011 0,9802 0,0011 0,0415 0,5050 0,9810 0,0050 0,0420 n=250 LASSO 0,5004 0,9916 0,0004 0,0258 0,5020 0,9914 0,0020 0,0265 C-test (u1) 0,5003 0,9918 0,0003 0,0259 0,5018 0,9927 0,0018 0,0261 C-test (u) 0,5003 0,9918 0,0003 0,0259 0,5018 0,9927 0,0018 0,0261 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5046 0,9523 0,0046 0,0432 0,5135 0,9542 0,0135 0,0479 C-test (u1) 0,5054 0,9520 0,0054 0,0436 0,5147 0,9554 0,0147 0,0462 C-test (u) 0,5053 0,9520 0,0053 0,0435 0,5151 0,9529 0,0151 0,0458 n=100 LASSO 0,5011 0,9793 0,0011 0,0295 0,5048 0,9861 0,0048 0,0318 C-test (u1) 0,5008 0,9798 0,0008 0,029418 0,5031 0,9924 0,0031 0,02991 C-test (u) 0,5008 0,9798 0,0008 0,029416 0,5031 0,9922 0,0031 0,02990 n=250 LASSO 0,5002 0,9922 0,0002 0,01821 0,5010 0,9975 0,0010 0,0185 C-test (u1) 0,5001 0,9923 0,0001 0,01822 0,5009 0,9981 0,0009 0,0184 C-test (u) 0,5001 0,9923 0,0001 0,01822 0,5009 0,9981 0,0009 0,0184

Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

(26)

26

Tabel 4b: Situatie 2

8 instrumenten, 2 valide, instrumenten Z1 zwak

=0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,7256 1,0220 0,2256 0,6374 0,6525 1,0709 0,1525 0,23853 C-test (u1) 0,6913 1,0930 0,1913 0,6871 0,6517 1,0793 0,1517 0,23854 C-test (u) 0,6907 1,0916 0,1907 0,6852 0,6517 1,0792 0,1517 0,23851 n=100 LASSO 0,5975 1,0171 0,0975 0,4345 0,6420 1,1005 0,1420 0,2302 C-test (u1) 0,5902 1,0224 0,0902 0,4323 0,6420 1,0989 0,1420 0,2298 C-test (u) 0,5902 1,0224 0,0902 0,4323 0,6420 1,0989 0,1420 0,2298 n=250 LASSO 0,5333 1,0100 0,0333 0,2703 0,6175 1,0778 0,1175 0,2062 C-test (u1) 0,5307 1,0115 0,0307 0,2674 0,6176 1,0769 0,1176 0,2061 C-test (u) 0,5307 1,0115 0,0307 0,2674 0,6176 1,0769 0,1176 0,2061 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,6679 0,9850 0,1679 0,4659 0,5788 1,3720 0,0788 0,1642 C-test (u1) 0,6635 1,0074 0,1635 0,4806 0,5782 1,3102 0,0782 0,1564 C-test (u) 0,6690 0,9983 0,1690 0,4729 0,5770 1,2728 0,0770 0,1519 n=100 LASSO 0,5639 1,0054 0,0639 0,3156 0,5726 1,4378 0,0726 0,1627 C-test (u1) 0,5462 1,0135 0,0462 0,3017 0,5726 1,4396 0,0726 0,1627 C-test (u) 0,5463 1,0133 0,0463 0,3014 0,5726 1,4384 0,0726 0,1626 n=250 LASSO 0,5161 1,0063 0,0161 0,1873 0,5590 1,3749 0,0590 0,1466 C-test (u1) 0,5146 1,0074 0,0146 0,1860 0,5589 1,3747 0,0589 0,1465 C-test (u) 0,5146 1,0074 0,0146 0,1860 0,5589 1,3747 0,0589 0,1465 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,8605 0,6756 0,3605 0,5974 0,6663 1,6412 0,1663 0,3191 C-test (u1) 0,8397 0,7769 0,3397 0,6901 0,6646 1,6480 0,1646 0,31851 C-test (u) 0,8309 0,7779 0,3309 0,6780 0,6647 1,6480 0,1647 0,31854 n=100 LASSO 0,6595 0,8671 0,1595 0,4258 0,6554 1,0294 0,2415 C-test (u1) 0,6522 0,8821 0,1522 0,4330 0,6554 1,0265 0,1554 0,2409 C-test (u) 0,6522 0,8821 0,1522 0,4329 0,6554 1,0265 0,1554 0,2409 n=250 LASSO 0,5539 0,9588 0,0539 0,2662 0,6319 1,0208 0,1319 0,2204 C-test (u1) 0,5511 0,9624 0,0511 0,2640 0,6318 1,0198 0,1318 0,2201 C-test (u) 0,5511 0,9624 0,0511 0,2640 0,6318 1,0198 0,1318 0,2201 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,7640 0,7635 0,2640 0,4699 0,5875 1,3149 0,0875 0,1667 C-test (u1) 0,7541 0,8473 0,2541 0,5480 0,5851 1,2567 0,0851 0,1585 C-test (u) 0,7500 0,8414 0,2500 0,5332 0,5845 1,2207 0,0845 0,1548 n=100 LASSO 0,5897 0,9288 0,0897 0,3099 0,5807 1,4075 0,0807 0,1684 C-test (u1) 0,5763 0,9456 0,0763 0,3046 0,5803 1,4080 0,0803 0,1681 C-test (u) 0,5762 0,9454 0,0762 0,3037 0,5803 1,4068 0,0803 0,1679 n=250 LASSO 0,5265 0,9813 0,0265 0,1861 0,5661 1,3649 0,0661 0,1536 C-test (u1) 0,5248 0,9837 0,0248 0,1854 0,5660 1,3647 0,0660 0,1535 C-test (u) 0,5248 0,9837 0,0248 0,1854 0,5660 1,3647 0,0660 0,1535 Sterke identificatie Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

Zwakke identificatie

(27)

27

Tabel 5a: Situatie 2

8 instrumenten, 4 valide, instrumenten Z1 sterk

=0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5026 0,9579 0,0026 0,06076 0,5113 0,9798 0,0113 0,0640 C-test (u1) 0,5022 0,9585 0,0022 0,0609 0,5107 0,9874 0,0107 0,0633 C-test (u) 0,5021 0,9585 0,0021 0,06079 0,5110 0,9863 0,0110 0,0629 n=100 LASSO 0,5010 0,9795 0,0010 0,04140 0,5044 0,9915 0,0044 0,0424 C-test (u1) 0,5005 0,9799 0,0005 0,04141 0,5032 0,9962 0,0032 0,041931 C-test (u) 0,5005 0,9799 0,0005 0,04141 0,5032 0,9961 0,0032 0,041932 n=250 LASSO 0,5002 0,9923 0,0002 0,02565 0,5015 0,9976 0,0015 0,0261 C-test (u1) 0,5001 0,9924 0,0001 0,02567 0,5011 0,9993 0,0011 0,0259 C-test (u) 0,5001 0,9924 0,0001 0,02567 0,5011 0,9993 0,0011 0,0259 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5038 0,9566 0,0038 0,0432 0,5093 0,9828 0,0093 0,0442 C-test (u1) 0,5056 0,9560 0,0056 0,0434 0,5151 0,9703 0,0151 0,0430 C-test (u) 0,5055 0,9560 0,0055 0,0433 0,5155 0,9683 0,0155 0,0426 n=100 LASSO 0,5015 0,9787 0,0015 0,02951 0,5042 0,9938 0,0042 0,0306 C-test (u1) 0,5013 0,9789 0,0013 0,02954 0,5041 0,9962 0,0041 0,0300 C-test (u) 0,5013 0,9789 0,0013 0,02953 0,5041 0,9960 0,0041 0,0299 n=250 LASSO 0,5001 0,9925 0,0001 0,01813 0,5008 1,0000 0,0008 0,01829 C-test (u1) 0,5000 0,9926 0,0000 0,01814 0,5005 1,0014 0,0005 0,01831 C-test (u) 0,5000 0,9926 0,0000 0,01814 0,5005 1,0014 0,0005 0,01831 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5041 0,9546 0,0041 0,0605 0,5126 0,9684 0,0126 0,0640 C-test (u1) 0,5035 0,9557 0,0035 0,0611 0,5118 0,9771 0,0118 0,0634 C-test (u) 0,5034 0,9558 0,0034 0,0609 0,5122 0,9755 0,0122 0,0630 n=100 LASSO 0,5016 0,9781 0,0016 0,04136 0,5049 0,9866 0,0049 0,0423 C-test (u1) 0,5010 0,9789 0,0010 0,04140 0,5038 0,9920 0,0038 0,041914 C-test (u) 0,5010 0,9789 0,0010 0,04140 0,5038 0,9919 0,0038 0,041912 n=250 LASSO 0,5005 0,9918 0,0005 0,0256 0,5017 0,9958 0,0017 0,0261 C-test (u1) 0,5003 0,9921 0,0003 0,0257 0,5013 0,9979 0,0013 0,0259 C-test (u) 0,5003 0,9921 0,0003 0,0257 0,5013 0,9979 0,0013 0,0259 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5052 0,9530 0,0052 0,0432 0,5102 0,9748 0,0102 0,0443 C-test (u1) 0,5074 0,9511 0,0074 0,0438 0,5159 0,9598 0,0159 0,0433 C-test (u) 0,5073 0,9512 0,0073 0,0437 0,5164 0,9572 0,0164 0,0429 n=100 LASSO 0,5018 0,9775 0,0018 0,0294 0,5045 0,9900 0,0045 0,0306 C-test (u1) 0,5016 0,9778 0,0016 0,0295 0,5044 0,9927 0,0044 0,0300 C-test (u) 0,5016 0,9778 0,0016 0,0295 0,5044 0,9924 0,0044 0,0299 n=250 LASSO 0,5002 0,9923 0,0002 0,01812 0,5009 0,9991 0,0009 0,01828 C-test (u1) 0,5001 0,9924 0,0001 0,01813 0,5006 1,0007 0,0006 0,01831 C-test (u) 0,5001 0,9924 0,0001 0,01813 0,5006 1,0007 0,0006 0,01831

Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

(28)

28

Tabel 5b: Situatie 2

8 instrumenten, 4 valide, instrumenten Z1 zwak

=0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,7044 1,0535 0,2044 0,6145 0,6069 1,4409 0,1069 0,2370 C-test (u1) 0,6744 1,1420 0,1744 0,6957 0,6068 1,4120 0,1068 0,2318 C-test (u) 0,6764 1,1366 0,1764 0,6907 0,6068 1,3965 0,1068 0,2296 n=100 LASSO 0,5901 1,0309 0,0901 0,4278 0,5988 1,4323 0,0988 0,2248 C-test (u1) 0,5741 1,0461 0,0741 0,4336 0,5989 1,4300 0,0989 0,22422 C-test (u) 0,5742 1,0460 0,0742 0,4336 0,5989 1,4298 0,0989 0,22420 n=250 LASSO 0,5306 1,0163 0,0306 0,2679 0,5806 1,3868 0,0806 0,2052 C-test (u1) 0,5256 1,0198 0,0256 0,2661 0,5807 1,3851 0,0807 0,2049 C-test (u) 0,5256 1,0198 0,0256 0,2661 0,5807 1,3851 0,0807 0,2049 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,6401 1,0030 0,1401 0,4311 0,5552 1,5608 0,0552 0,1629 C-test (u1) 0,6695 1,0052 0,1695 0,4540 0,5525 1,3606 0,0525 0,1389 C-test (u) 0,6787 0,9870 0,1787 0,4370 0,5525 1,3029 0,0525 0,1323 n=100 LASSO 0,5623 1,0081 0,0623 0,3041 0,5505 1,5982 0,0505 0,1597 C-test (u1) 0,5556 1,0144 0,0556 0,3024 0,5504 1,5760 0,0504 0,1572 C-test (u) 0,5573 1,0131 0,0573 0,3015 0,5505 1,5613 0,0505 0,1557 n=250 LASSO 0,5151 1,0091 0,0151 0,1855 0,5404 1,5232 0,0404 0,1455 C-test (u1) 0,5120 1,0115 0,0120 0,1856 0,5403 1,5222 0,0403 0,1454 C-test (u) 0,5120 1,0115 0,0120 0,1856 0,5403 1,5222 0,0403 0,1454 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,8547 0,7267 0,3547 0,5832 0,6220 1,3300 0,1220 0,2370 C-test (u1) 0,8361 0,8820 0,3361 0,7406 0,6207 1,2943 0,1207 0,2301 C-test (u) 0,8308 0,8785 0,3308 0,7288 0,6212 1,2847 0,1212 0,2289 n=100 LASSO 0,6536 0,8963 0,1536 0,4244 0,6143 1,3412 0,1143 0,2289 C-test (u1) 0,6354 0,9256 0,1354 0,4330 0,6140 1,3391 0,1140 0,2282 C-test (u) 0,6353 0,9257 0,1353 0,4329 0,6140 1,3391 0,1140 0,2282 n=250 LASSO 0,5520 0,9693 0,0520 0,2655 0,5945 1,3547 0,0945 0,2158 C-test (u1) 0,5461 0,9771 0,0461 0,2638 0,5945 1,3529 0,0945 0,2155 C-test (u) 0,5461 0,9771 0,0461 0,2638 0,5945 1,3529 0,0945 0,2155 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,7378 0,8139 0,2378 0,4403 0,5638 1,5580 0,0638 0,1676 C-test (u1) 0,7581 0,8358 0,2581 0,4981 0,5590 1,3371 0,0590 0,1416 C-test (u) 0,7641 0,8146 0,2641 0,4782 0,5584 1,2645 0,0584 0,1340 n=100 LASSO 0,5948 0,9303 0,0948 0,3016 0,5590 1,5857 0,0590 0,1650 C-test (u1) 0,5873 0,9443 0,0873 0,3066 0,5578 1,5615 0,0578 0,1620 C-test (u) 0,5888 0,9415 0,0888 0,3040 0,5583 1,5470 0,0583 0,1606 n=250 LASSO 0,5255 0,9862 0,0255 0,1846 0,5475 1,5574 0,0475 0,1547 C-test (u1) 0,5222 0,9909 0,0222 0,1850 0,5475 1,5567 0,0475 0,1545 C-test (u) 0,5222 0,9909 0,0222 0,1850 0,5475 1,5567 0,0475 0,1545 Sterke identificatie Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

Zwakke identificatie

(29)

29

Tabel 6a: Situatie 2

8 instrumenten, 6 valide, instrumenten Z1 sterk

=0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5038 0,9580 0,0038 0,0603 0,5075 0,9915 0,0075 0,0587 C-test (u1) 0,5063 0,9572 0,0063 0,0609 0,5152 0,9820 0,0152 0,0587 C-test (u) 0,5062 0,9572 0,0062 0,0608 0,5157 0,9795 0,0157 0,0568 n=100 LASSO 0,5018 0,9793 0,0018 0,0415 0,5034 0,9971 0,0034 0,0405 C-test (u1) 0,5015 0,9795 0,0015 0,0416 0,5044 0,9999 0,0044 0,0417 C-test (u) 0,5015 0,9795 0,0015 0,0416 0,5045 0,9996 0,0045 0,0416 n=250 LASSO 0,5004 0,9928 0,0004 0,02566 0,5010 1,0003 0,0010 0,0252 C-test (u1) 0,5001 0,9930 0,0001 0,02572 0,5006 1,0025 0,0006 0,0259 C-test (u) 0,5001 0,9930 0,0001 0,02572 0,5006 1,0025 0,0006 0,0259 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5031 0,9576 0,0031 0,0427 0,5056 0,9899 0,0056 0,0399 C-test (u1) 0,5053 0,9567 0,0053 0,0428 0,5119 0,9701 0,0119 0,0357 C-test (u) 0,5052 0,9567 0,0052 0,0428 0,5123 0,9682 0,0123 0,0352 n=100 LASSO 0,5019 0,9788 0,0019 0,0295 0,5031 0,9967 0,0031 0,0282 C-test (u1) 0,5029 0,9784 0,0029 0,0296 0,5068 0,9910 0,0068 0,0275 C-test (u) 0,5029 0,9784 0,0029 0,0296 0,5070 0,9905 0,0070 0,0273 n=250 LASSO 0,5002 0,9928 0,0002 0,0181 0,5007 1,0009 0,0007 0,0177 C-test (u1) 0,5002 0,9929 0,0002 0,0182 0,5008 1,0022 0,0008 0,018274 C-test (u) 0,5002 0,9929 0,0002 0,0182 0,5008 1,0022 0,0008 0,018273 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5069 0,9528 0,0069 0,0602 0,5093 0,9831 0,0093 0,0586 C-test (u1) 0,5098 0,9503 0,0098 0,0617 0,5166 0,9708 0,0166 0,0582 C-test (u) 0,5097 0,9504 0,0097 0,0614 0,5172 0,9683 0,0172 0,0573 n=100 LASSO 0,5029 0,9771 0,0029 0,0415 0,5041 0,9934 0,0041 0,0405 C-test (u1) 0,5022 0,9780 0,0022 0,0417 0,5049 0,9960 0,0049 0,0417 C-test (u) 0,5022 0,9780 0,0022 0,0416 0,5051 0,9955 0,0051 0,0416 n=250 LASSO 0,5008 0,9921 0,0008 0,02565 0,5013 0,9990 0,0013 0,0252 C-test (u1) 0,5003 0,9927 0,0003 0,02572 0,5008 1,0016 0,0008 0,0259 C-test (u) 0,5003 0,9927 0,0003 0,02572 0,5008 1,0016 0,0008 0,0259 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5052 0,9539 0,0052 0,0429 0,5065 0,9851 0,0065 0,0401 C-test (u1) 0,5082 0,9512 0,0082 0,0433 0,5128 0,9623 0,0128 0,0361 C-test (u) 0,5081 0,9512 0,0081 0,0432 0,5133 0,9601 0,0133 0,0356 n=100 LASSO 0,5026 0,9770 0,0026 0,0295 0,5035 0,9940 0,0035 0,0282 C-test (u1) 0,5036 0,9760 0,0036 0,0297 0,5071 0,9864 0,0071 0,0275 C-test (u) 0,5036 0,9760 0,0036 0,0297 0,5074 0,9858 0,0074 0,0274 n=250 LASSO 0,5005 0,9924 0,0005 0,0181 0,5008 1,0001 0,0008 0,0177 C-test (u1) 0,5003 0,9926 0,0003 0,0182 0,5009 1,0015 0,0009 0,0183 C-test (u) 0,5003 0,9926 0,0003 0,0182 0,5009 1,0015 0,0009 0,0183

Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

(30)

30

Tabel 6b: Situatie 2

8 instrumenten, 6 valide, instrumenten Z1 zwak

=0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,6744 1,0608 0,1744 0,5687 0,5609 1,6954 0,0609 0,2391 C-test (u1) 0,6926 1,1126 0,1926 0,6491 0,5559 1,4472 0,0559 0,1981 C-test (u) 0,7029 1,0797 0,2029 0,6104 0,5558 1,3888 0,0558 0,1887 n=100 LASSO 0,5825 1,0360 0,0825 0,4040 0,5566 1,6441 0,0566 0,2218 C-test (u1) 0,5745 1,0578 0,0745 0,4343 0,5565 1,6109 0,0565 0,2167 C-test (u) 0,5773 1,0557 0,0773 0,4331 0,5562 1,5980 0,0562 0,2146 n=250 LASSO 0,5285 1,0189 0,0285 0,2565 0,5449 1,5708 0,0449 0,2027 C-test (u1) 0,5206 1,0270 0,0206 0,2654 0,5447 1,5700 0,0447 0,2025 C-test (u) 0,5206 1,0270 0,0206 0,2654 0,5447 1,5700 0,0447 0,2025 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,6061 1,0147 0,1061 0,3933 0,5314 1,6837 0,0314 0,1624 C-test (u1) 0,6446 0,9885 0,1446 0,3821 0,5275 1,3006 0,0275 0,1160 C-test (u) 0,6537 0,9726 0,1537 0,3625 0,5274 1,2183 0,0274 0,1039 n=100 LASSO 0,5549 1,0092 0,0549 0,2790 0,5288 1,7023 0,0288 0,1581 C-test (u1) 0,5812 0,9976 0,0812 0,2806 0,5276 1,5287 0,0276 0,1391 C-test (u) 0,5849 0,9946 0,0849 0,2778 0,5280 1,4647 0,0280 0,1316 n=250 LASSO 0,5150 1,0097 0,0150 0,1787 0,5224 1,6052 0,0224 0,1435 C-test (u1) 0,5145 1,0126 0,0145 0,18476 0,5223 1,5879 0,0223 0,1417 C-test (u) 0,5146 1,0126 0,0146 0,18475 0,5221 1,5823 0,0221 0,1410 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,8466 0,7702 0,3466 0,5594 0,5757 1,5899 0,0757 0,2316 C-test (u1) 0,8518 0,8537 0,3518 0,6737 0,5670 1,3830 0,0670 0,1960 C-test (u) 0,8605 0,8401 0,3605 0,6662 0,5673 1,3295 0,0673 0,1876 n=100 LASSO 0,6580 0,9034 0,1580 0,4024 0,5715 1,6036 0,0715 0,2261 C-test (u1) 0,6367 0,9432 0,1367 0,4306 0,5706 1,5694 0,0706 0,2206 C-test (u) 0,6419 0,9373 0,1419 0,4299 0,5703 1,5534 0,0703 0,2183 n=250 LASSO 0,5535 0,9729 0,0535 0,2555 0,5587 1,6253 0,0587 0,2198 C-test (u1) 0,5413 0,9907 0,0413 0,2643 0,5586 1,6252 0,0586 0,2197 C-test (u) 0,5413 0,9907 0,0413 0,2643 0,5586 1,6252 0,0586 0,2197 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,7044 0,8588 0,2044 0,4063 0,5406 1,7038 0,0406 0,1666 C-test (u1) 0,7352 0,8369 0,2352 0,4234 0,5314 1,2765 0,0314 0,1160 C-test (u) 0,7472 0,8140 0,2472 0,4058 0,5319 1,2040 0,0319 0,1057 n=100 LASSO 0,5949 0,9341 0,0949 0,2812 0,5372 1,6975 0,0372 0,1617 C-test (u1) 0,6171 0,9150 0,1171 0,2890 0,5332 1,5112 0,0332 0,1408 C-test (u) 0,6230 0,9073 0,1230 0,2856 0,5332 1,4515 0,0332 0,1339 n=250 LASSO 0,5275 0,9861 0,0275 0,1779 0,5295 1,6939 0,0295 0,1561 C-test (u1) 0,5246 0,9923 0,0246 0,1845 0,5292 1,6793 0,0292 0,1546 C-test (u) 0,5250 0,9919 0,0250 0,1845 0,5290 1,6735 0,0290 0,1539 Sterke identificatie Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

Zwakke identificatie

(31)

31

Tabel 7a: Situatie 2

8 instrumenten, 8 valide, instrumenten Z1 sterk

=0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5031 0,9590 0,0031 0,0600 0,5009 0,9908 0,0009 0,0516 C-test (u1) 0,5044 0,9584 0,0044 0,05979 0,5009 0,9702 0,0009 0,0398 C-test (u) 0,5043 0,9584 0,0043 0,05977 0,5011 0,9686 0,0011 0,0387 n=100 LASSO 0,5024 0,9790 0,0024 0,04143 0,5012 0,9951 0,0012 0,0351 C-test (u1) 0,5029 0,9788 0,0029 0,04139 0,5010 0,9852 0,0010 0,0274 C-test (u) 0,5029 0,9788 0,0029 0,04137 0,5010 0,9848 0,0010 0,0270 n=250 LASSO 0,5006 0,9929 0,0006 0,0255 0,5002 0,9990 0,0002 0,0215 C-test (u1) 0,5009 0,9928 0,0009 0,025404 0,5003 0,9950 0,0003 0,0169 C-test (u) 0,5009 0,9928 0,0009 0,025405 0,5004 0,9950 0,0004 0,0168 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5014 0,9589 0,0014 0,0424 0,5004 0,9905 0,0004 0,0365 C-test (u1) 0,5020 0,9585 0,0020 0,04233 0,5004 0,9701 0,0004 0,0282 C-test (u) 0,5020 0,9585 0,0020 0,04232 0,5005 0,9684 0,0005 0,0273 n=100 LASSO 0,5013 0,9791 0,0013 0,02933 0,5007 0,9950 0,0007 0,0248 C-test (u1) 0,5016 0,9789 0,0016 0,029273 0,5005 0,9851 0,0005 0,0193 C-test (u) 0,5016 0,9789 0,0016 0,029271 0,5005 0,9848 0,0005 0,0191 n=250 LASSO 0,5003 0,9929 0,0003 0,01803 0,5001 0,9989 0,0001 0,0152 C-test (u1) 0,5004 0,9928 0,0004 0,017967 0,5002 0,9950 0,0002 0,01194 C-test (u) 0,5004 0,9928 0,0004 0,017968 0,5002 0,9950 0,0002 0,01187 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5089 0,9522 0,0089 0,0603 0,5029 0,9881 0,0029 0,0513 C-test (u1) 0,5122 0,9493 0,0122 0,0607 0,5031 0,9677 0,0031 0,0398 C-test (u) 0,5122 0,9493 0,0122 0,0606 0,5035 0,9658 0,0035 0,0387 n=100 LASSO 0,5052 0,9751 0,0052 0,04161 0,5021 0,9936 0,0021 0,0351 C-test (u1) 0,5067 0,9737 0,0067 0,0417 0,5020 0,9836 0,0020 0,0273 C-test (u) 0,5066 0,9737 0,0066 0,04165 0,5021 0,9832 0,0021 0,0272 n=250 LASSO 0,5017 0,9915 0,0017 0,02552 0,5005 0,9986 0,0005 0,0216 C-test (u1) 0,5023 0,9909 0,0023 0,02547 0,5008 0,9944 0,0008 0,0169 C-test (u) 0,5023 0,9909 0,0023 0,02546 0,5008 0,9943 0,0008 0,0168 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5043 0,9555 0,0043 0,0425 0,5015 0,9890 0,0015 0,0364 C-test (u1) 0,5060 0,9540 0,0060 0,0426 0,5015 0,9687 0,0015 0,0282 C-test (u) 0,5060 0,9540 0,0060 0,0426 0,5017 0,9671 0,0017 0,0273 n=100 LASSO 0,5027 0,9770 0,0027 0,029372 0,5012 0,9943 0,0012 0,0249 C-test (u1) 0,5034 0,9763 0,0034 0,02939 0,5010 0,9843 0,0010 0,0193 C-test (u) 0,5034 0,9763 0,0034 0,029374 0,5011 0,9840 0,0011 0,0192 n=250 LASSO 0,5008 0,9922 0,0008 0,01804 0,5003 0,9987 0,0003 0,0152 C-test (u1) 0,5011 0,9919 0,0011 0,01799 0,5004 0,9947 0,0004 0,01194 C-test (u) 0,5011 0,9919 0,0011 0,01798 0,5004 0,9946 0,0004 0,01188

Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

(32)

32

Tabel 7b: Situatie 2

8 instrumenten, 8 valide, instrumenten Z1 zwak

=0.2

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,6216 1,0569 0,1216 0,5014 0,5160 1,7658 0,0160 0,2349 C-test (u1) 0,6095 1,0104 0,1095 0,4161 0,5045 1,1446 0,0045 0,1147 C-test (u) 0,6134 0,9903 0,1134 0,3775 0,5035 1,0718 0,0035 0,0922 n=100 LASSO 0,5687 1,0266 0,0687 0,3486 0,5130 1,7268 0,0130 0,2180 C-test (u1) 0,5651 0,9984 0,0651 0,2815 0,5041 1,2086 0,0041 0,1222 C-test (u) 0,5682 0,9939 0,0682 0,2725 0,5035 1,1388 0,0035 0,1029 n=250 LASSO 0,5246 1,0133 0,0246 0,2201 0,5076 1,6488 0,0076 0,2015 C-test (u1) 0,5267 0,9989 0,0267 0,1711 0,5018 1,1747 0,0018 0,1068 C-test (u) 0,5286 0,9976 0,0286 0,1688 0,5015 1,1089 0,0015 0,0858 =0.2

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,5623 1,0239 0,0623 0,3564 0,5084 1,7071 0,0084 0,1588 C-test (u1) 0,5604 0,9861 0,0604 0,2871 0,5025 1,1509 0,0025 0,0827 C-test (u) 0,5634 0,9802 0,0634 0,2757 0,5018 1,0836 0,0018 0,0683 n=100 LASSO 0,5362 1,0098 0,0362 0,2459 0,5067 1,7469 0,0067 0,1569 C-test (u1) 0,5350 0,9902 0,0350 0,1955 0,5024 1,2319 0,0024 0,0908 C-test (u) 0,5368 0,9875 0,0368 0,1895 0,5021 1,1664 0,0021 0,0786 n=250 LASSO 0,5114 1,0063 0,0114 0,1543 0,5036 1,6356 0,0036 0,1421 C-test (u1) 0,5137 0,9967 0,0137 0,1201 0,5008 1,1673 0,0008 0,0746 C-test (u) 0,5146 0,9962 0,0146 0,1192 0,5007 1,1244 0,0007 0,0649 = 0.5

=0.5 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,8057 0,8263 0,3057 0,5121 0,5313 1,6964 0,0313 0,2246 C-test (u1) 0,7921 0,8075 0,2921 0,5121 0,5100 1,1337 0,0100 0,1134 C-test (u) 0,7982 0,7969 0,2982 0,4532 0,5096 1,0648 0,0096 0,0925 n=100 LASSO 0,6616 0,9040 0,1616 0,3618 0,5288 1,7329 0,0288 0,2226 C-test (u1) 0,6618 0,8738 0,1618 0,2964 0,5095 1,1933 0,0095 0,1204 C-test (u) 0,6678 0,8665 0,1678 0,2923 0,5080 1,1373 0,0080 0,1044 n=250 LASSO 0,5604 0,9635 0,0604 0,2206 0,5223 1,7562 0,0223 0,2201 C-test (u1) 0,5654 0,9462 0,0654 0,1768 0,5064 1,2758 0,0064 0,1342 C-test (u) 0,5697 0,9415 0,0697 0,1743 0,5059 1,1122 0,0059 0,0888 =0.5

= 1 Gemiddelde Variantie Fout RMSE Gemiddelde Variantie Fout RMSE

n=50 LASSO 0,6613 0,9059 0,1613 0,3702 0,5173 1,7289 0,0173 0,1613 C-test (u1) 0,6592 0,8759 0,1592 0,3204 0,5052 1,1454 0,0052 0,0822 C-test (u) 0,6667 0,8646 0,1667 0,3108 0,5048 1,0678 0,0048 0,0654 n=100 LASSO 0,5830 0,9459 0,0830 0,2501 0,5150 1,7578 0,0150 0,1596 C-test (u1) 0,5852 0,9241 0,0852 0,2026 0,5051 1,2145 0,0051 0,0889 C-test (u) 0,5895 0,9192 0,0895 0,1991 0,5039 1,1421 0,0039 0,0745 n=250 LASSO 0,5301 0,9811 0,0301 0,1543 0,5110 1,7693 0,0110 0,1571 C-test (u1) 0,5336 0,9695 0,0336 0,1225 0,5027 1,2649 0,0027 0,0935 C-test (u) 0,5356 0,9673 0,0356 0,1216 0,5025 1,2086 0,0025 0,0836 Sterke identificatie Zwakke identificatie Sterke identificatie

Zwakke identificatie Sterke identificatie

Zwakke identificatie

Referenties

GERELATEERDE DOCUMENTEN

We investigate the Bayes Factor model selection method and the Deviance Information Criterion (DIC) in the wrong-model experiment with di↵erent numbers of basis functions for

proposed a model where intrinsic motivations (satisfaction of needs: autonomy, competence and relatedness), organizational norms and employees’ workload influence ESM use and,

Bijlage VI Regressie output Bad Albert Heijn Unstandardized Coefficients.. Collinearity Statistics LN

Worden de jeugdsancties voor delinquente jongeren ( PIJ , jeugddetentie en GBM ) in de praktijk toegepast zoals dit bedoeld is door de wetgever, zodat sprake is van een optimale

We propose an efficient algorithm to compute sparse approximations of a non-linear SVM, i.e., to reduce the number of support vectors in the model.. The algorithm is based on the

[r]

Per project wordt bepaald wie de belanghebbenden zijn, welke communicatiemiddelen gebruikt zullen worden, wie verantwoordelijk is voor de communicatie en met welke

Gerrit Krol, De schrijver, zijn schaamte en zijn spiegels.. Een goede roman is autobiografisch. Niet door de gebeurtenissen die erin beschreven worden, maar als verslag van de