De gevolgen van een heterogeen causaal effect op de IV-schatter

(1)

De gevolgen van een heterogeen causaal

effect op de IV-schatter

Frank de Zwart 10204245 29 juni 2015

Bachelorscriptie Econometrie Studiejaar 2014/2015 Begeleiders Maurice Bun & Milan Pleus Eindversie

(2)

Abstract

Bij het schatten van het causale effect van een extra jaar scholing op het inkomen wordt vaak een opmerkelijk hoge waarde voor de IV-schatter gevonden. Aan de hand van een Monte Carlosimulatie wordt er onderzocht of een hoge waarde van de IV-schatter verklaard kan worden door een heterogeen causaal effect. Als basis wordt gebruikgemaakt van een model dat het causale effect van een extra jaar scholing op het inkomen schat. Zowel de mate van endogeniteit als de mate van heterogeniteit van de scholingsvariabele wordt gevarieerd. De respondenten die meer dan het gemiddelde aantal jaren scholing hebben genoten krijgen een sterker causaal effect van het aantal jaren scholing op het inkomen toegewezen dan de rest van de respondenten. Met deze coëfficiënten wordt er met zowel de OLS-methode als de IV-methode een overschatting van het daadwerkelijke effect gevonden. Een hogere mate van endogeniteit in het model vergroot het verschil en verklaart de sterke overschatting van de IV-schatter gevonden in eerdere onderzoeken.

(3)

Inhoudsopgave 1 Inleiding ...………...1 2 Theoretisch kader ………....3 3 Onderzoeksopzet………..8 4 Resultaten……….11 5 Conclusie………..20 Bibliografie.………..22 Appendix………...24

(4)

1 1 Inleiding

Sommige verbanden doen er alleen toe in een bepaalde sector of discipline, er zijn echter ook verbanden die voor iedereen relevant zijn. Een voorbeeld hiervan is het effect van een extra jaar scholing op de hoogte van het inkomen. Bij het schatten van het causale effect van dit genoemde voorbeeld moet er rekening worden gehouden met endogeniteit. Deze endogene regressoren leiden tot een inconsistente OLS-schatter. In theorie is een regressie met behulp van instrumentele variabelen een goede methode om dit probleem van endogeniteit op te lossen. In de praktijk komt het echter regelmatig voor dat de IV-schatter ook afwijkt van het verwachte causale effect.

In dit onderzoek wordt vooral gekeken naar het probleem bij het schatten van het effect van een extra jaar scholing op het inkomen. Card (1993) onderzoekt het effect van het aantal jaren scholing op het inkomen. In zijn onderzoek vindt hij een duidelijk verschil tussen de waarde van de OLS-schatter en de IV-schatter. De situatie bij het schatten van het causale verband tussen inkomen en gezondheid is echter op een aantal vlakken vergelijkbaar. De OLS-schatter zou vanwege een positieve simultaan verband tussen inkomen en gezondheid in theorie een overschatting geven van het daadwerkelijke causale effect. Daarentegen wordt met behulp van instrumentele variabelen door Ettner (1996), Lindahl (2005) en Meer (2003) een nog groter effect geschat dan met behulp van de OLS-methode. Bij deze onderzoeken zou heterogeniteit van het causale effect ook de oorzaak kunnen zijn van dit opmerkelijke

verschijnsel.

Het vinden van het daadwerkelijke causale effect van een extra jaar scholing op het inkomen kan een grote maatschappelijke waarde hebben. Het aantal jaren scholing kan gezien worden als een investering in de toekomst en hangt af van de opbrengsten in het later te verdienen inkomen. Kling (2001) noemt onder andere de hoogte van collegegeld als een door de overheid te bepalen bedrag wat afhangt van het effect van scholing op inkomen. In theorie leidt een stijging van het collegegeld tot een daling van het aantal jaren scholing. Indien het causale effect van het aantal jaren scholing op het inkomen groot is dan zouden de

opbrengsten van het verhogen van het collegegeld niet opwegen tot het verlies in inkomstenbelasting.

Om hier meer over te kunnen zeggen is het van belang dat er wordt achterhaald wat het daadwerkelijke causale effect van een extra jaar scholing op het inkomen is. Om dit effect goed te kunnen schatten zal er een oorzaak gevonden moeten worden voor de eigenaardige uitkomst van Card (1993). Er zijn meerdere mogelijke oorzaken voor de hoge waarde die is gevonden voor de IV-schatter. Het zou bijvoorbeeld veroorzaakt kunnen worden door

(5)

2 meetfouten in de variabelen. Ook zou het gebruik van te zwakke instrumenten kunnen leiden tot een inconsistente IV-schatter.

Er is nog een mogelijke oorzaak voor de hoge gevonden waarde van de IV-schatter. Card (2001) geeft als mogelijke oorzaak namelijk heterogeniteit in het causale effect van scholing op inkomen. Wanneer er namelijk met behulp van instrumentele variabelen een schatting wordt gemaakt van een heterogeen causaal effect kan deze schatting inconsistent zijn. Er wordt in dit geval met behulp van de instrumentele variabelen een Local Average Treatment Effect geschat. In dit onderzoek staat dan ook centraal in hoeverre heterogeniteit van het causale effect kan zorgen voor een (in absolute waarde) grotere IV-schatting dan de met behulp van de OLS-methode gevonden overschatting.

Om deze vraag te beantwoorden wordt gebruikgemaakt van een Monte Carlosimulatie. Deze simulatie is gebaseerd op het model van Card (1993). De data die hiervoor wordt

gebruikt komt van de National Longitudinal Survey of Young Men (NLSYM). Er wordt in eerste instantie verondersteld dat er twee groepen zijn met beiden een verschillend causaal effect van scholing op inkomen. Hierna wordt het aantal groepen aangepast en uiteindelijk krijgt elke respondent een eigen coëfficiënt toegewezen. Het verschil tussen deze twee of meer groepen is gebaseerd op het aantal jaren scholing dat de respondent heeft genoten. Er wordt verondersteld dat het causale effect van scholing op inkomen groter is bij de

respondenten die meer scholing hebben genoten. Op deze wijze wordt onderzocht of de grote waarde van de IV-schatter verklaard kan worden door het Local Average Treatment Effect. Vervolgens wordt onderbouwd in hoeverre deze uitkomst de hoge waarde van de IV-schatters van inkomen op gezondheid zou kunnen verklaren.

In paragraaf 2 wordt de voor dit onderzoek relevante literatuur beschreven. Deze paragraaf is opgesplitst in drie delen. Eerst zal het verband tussen scholing en inkomen verder worden uitgewerkt. Vervolgens worden de verschillende aspecten die samenhangen bij het gebruik van instrumentele variabelen toegelicht. En tenslotte worden de gevolgen van een heterogeen causaal effect op de IV-schatter beschreven. De derde paragraaf bestaat uit een beschrijving van de opzet en de inhoud van het onderzoek. Hierna worden in de vierde paragraaf de resultaten uitgewerkt. Paragraaf 5 bestaat uit een analyse van de gevonden resultaten en tenslotte is in paragraaf 6 de conclusie van dit onderzoek beschreven.

(6)

3 2 Theoretisch kader

2.1 Het verband tussen scholing en inkomen

Dat er een verband bestaat tussen het aantal jaren scholing en het inkomen wordt zowel door de theorie als door berekeningen ondersteund. De correlatie tussen scholing en inkomen is al in meerdere onderzoeken aangetoond en beschreven. Het schatten van het causale effect van het aantal jaren scholing op het inkomen is echter gecompliceerder.

Card (1993) heeft in eerste instantie zelf het daadwerkelijk causale effect van het aantal jaren scholing op het inkomen geprobeerd te schatten met instrumentele variabelen. Vervolgens heeft Card (2001) nog onderzoek gedaan naar de econometrische problemen en eigenaardigheden die voorkomen bij het schatten van dit verband. Card vergelijkt hier 11 verschillende regressies. Wat allereerst opvalt is dat in alle onderzoeken zowel de OLS-schatter als de IV-OLS-schatter van het effect van scholing op inkomen positief zijn. Dat er een positief verband bestaat tussen scholing en inkomen is dus duidelijk. Ten tweede valt op dat de IV-schatter vrijwel overal in absolute waarde groter is dan de OLS-schatter. Ook de standaardfouten van de IV-schatter zijn beduidend groter. Een aantal van de mogelijke oorzaken van dit verschil, tussen de OLS-schatter en de IV-schatter, wordt minder waarschijnlijk nu hetzelfde verschijnsel bij een ruim aantal verschillende onderzoeken is gevonden. Het argument van meetfouten en zwakke instrumenten wordt verzwakt door het feit dat er 11 duidelijk verschillende onderzoeken zijn uitgevoerd met vergelijkbare

uitkomsten.

Indien de relatie tussen het aantal jaren scholing en het inkomen als volgt is gedefinieerd:

log 𝑦𝑦𝑖𝑖 = 𝛼𝛼𝑖𝑖 + 𝑏𝑏𝑖𝑖𝑆𝑆𝑖𝑖−1_{2 𝑘𝑘}1𝑆𝑆𝑖𝑖2,

waar 𝛼𝛼_𝑖𝑖 de vaardighedencomponent is en k1 staat voor een constante. Deze vergelijking komt

oorspronkelijk van Mincer (1974), waarbij de variabele S staat voor scholing en de variabele y staat voor het inkomen. In dit geval zijn er verschillen in zowel de helling als het snijpunt van het verband tussen individuen mogelijk. Er is dus mogelijkheid tot heterogeniteit in het causale effect van dit model. Zonder de relatie tussen de variabelen aan te passen kan het model als volgt worden herschreven:

(7)

4 log 𝑦𝑦𝑖𝑖 = 𝑎𝑎0+ 𝑏𝑏�𝑆𝑆𝑖𝑖−1_{2 𝑘𝑘}1𝑆𝑆12+ 𝑎𝑎𝑖𝑖 + �𝑏𝑏𝑖𝑖− 𝑏𝑏��𝑆𝑆𝑖𝑖, met 𝑎𝑎𝑖𝑖 = 𝜆𝜆0(𝑆𝑆𝑖𝑖− 𝑆𝑆̅) + 𝑢𝑢𝑖𝑖 en 𝑏𝑏𝑖𝑖− 𝑏𝑏� = 𝜓𝜓0(𝑆𝑆𝑖𝑖− 𝑆𝑆̅) + 𝑣𝑣𝑖𝑖.

Card (2001) leidt af waar de OLS-schatter in dit algemene geval in waarschijnlijkheid naar convergeert. Hij laat zien dat de volgende vergelijking geldt:

plim bols= 𝛽𝛽̅ + 𝜆𝜆0+ 𝜓𝜓0𝑆𝑆̅.

Indien de marginale kosten voor scholing lager zijn voor mensen die meer verdienen,

ongeacht het aantal jaren scholing, laat Card (2001) zien dat geldt dat 𝜆𝜆₀ > 0. De andere term van de volgende vergelijking is als volgt gedefinieerd:

𝜓𝜓0 = 𝑐𝑐𝑐𝑐𝑣𝑣[𝑏𝑏_{𝑣𝑣𝑎𝑎𝑣𝑣[𝑆𝑆}𝑖𝑖, 𝑆𝑆𝑖𝑖] 𝑖𝑖] .

Dit heeft als gevolg dat de afwijking van de OLS-schatter naar verwachting positief zal zijn. Oftewel, er wordt met behulp van de OLS-methode een overschatting van het daadwerkelijke causale effect gevonden. Griliches (1977) geeft daarentegen aan dat het mogelijk zo zou kunnen zijn dat meetfouten in de scholingsvariabelen zorgen voor een negatieve afwijking van de OLS-schatter. Het verschil tussen de OLS- en de IV-schatter zou verklaart kunnen worden door deze negatieve afwijking.

2.2 Het gebruik van instrumentele variabelen

Endogeniteit van een verklarende variabele, zoals de scholingsvariabele in de

inkomensvergelijking, zorgt ervoor dat de OLS-schatter inconsistent is. Naar verwachting wordt er met behulp van de OLS-methode een overschatting van het daadwerkelijke causale effect gevonden. Door gebruik te maken van instrumentele variabelen is volgens onder andere Heij et al. (2004) mogelijk om toch een consistente schatting van het causale effect te maken. Een aanname die nodig is voor consistentie van de IV-schatter is dat de instrumenten valide

(8)

5 zijn. Dit houdt in dat de instrumenten zelf ongecorreleerd met de storingsterm moeten zijn. De instrumenten mogen ten eerste zelf niet endogeen zijn en ten tweede is het belangrijk dat ze wel relevant zijn. In andere woorden, de instrumenten moeten wel voldoende gecorreleerd zijn met de regressoren (Heij et al., 2004 , pp. 396-400). Om het effect van inkomen op gezondheid te bepalen wordt nu de regressie in twee stappen uitgevoerd. Eerst wordt er een regressie uitgevoerd van het inkomen op de instrumenten. Vervolgens wordt er een tweede regressie uitgevoerd, waarbij gebruik wordt gemaakt van de geschatte waarden van het inkomen uit de vorige regressie. Met behulp van deze tweede regressie wordt het effect van het exogene deel van het inkomen op de gezondheid geschat.

Het correct gebruiken van instrumentele variabelen lost het probleem van een endogene verklarende variabele op. Echter, deze IV-schatter zou in theorie een lagere uitkomst moeten geven dan de OLS-schatter. Dit is indien de OLS-methode tot een overschatting leidt en de IV-schatter consistent is. Card (2001) somt daarentegen de uitkomsten van 11 regressies op en vindt over het algemeen juist een in absolute waarde grotere IV-schatter dan de OLS-schatter. Dit geeft aan dat, indien er wordt uitgesloten dat de IV-regressie bij alle onderzoeken verkeerd is uitgevoerd, er mogelijk iets anders aan de hand is. In dit onderzoek wordt er geen rekening gehouden met het effect van meetfouten op de uitkomsten van de schatters. Er wordt wel gekeken in hoeverre een heterogeen causaal effect de oorzaak van deze uitkomsten zou kunnen zijn. Dit effect wordt dan ook in de volgende paragraaf verder uitgelicht.

2.3 Heterogeniteit van het causale effect

Het is interessant om te onderzoeken wat de gevolgen zullen zijn voor de IV-schatter indien het causale effect van scholing op het inkomen heterogeen is. In dit geval zou dat betekenen dat er verschillende groepen binnen de populatie zijn die allemaal een verschillend effect van een extra jaar scholing op het inkomen hebben. Card (2001) beschrijft dit effect van scholing op de hoogte van het inkomen. Hiertoe onderzoekt hij twee groepen die beiden een verschillende coëfficiënt hebben. Hij toont aan dat dit als gevolg heeft dat de limiet van de IV-schatter niet in waarschijnlijkheid convergeert naar de theoretische waarde van het daadwerkelijke causale effect (Card, 2001, p1142).

In de verschillende onderzoeken naar het causale effect van een extra jaar scholing op het inkomen, wordt rekening gehouden met andere variabelen die zouden kunnen zorgen voor heterogeniteit van het causale effect. Het blijft echter mogelijk dat er twee of meer aparte groepen zijn waarvan het causale verband tussen scholing en inkomen verschilt. In dit geval

(9)

6 zal een regressie met behulp van instrumentele variabelen leiden tot een inconsistente

schatter. De waarde van de schatter zal in waarschijnlijkheid convergeren naar een gewogen gemiddelde. Dit wordt ook wel het Local Average Treatment Effect (LATE) genoemd (Stock & Watson, 2011).

Stock en Watson (2011, pp. 500-504) verduidelijken aan de hand van een standaard model het Local Average Treatment Effect. Card (2001) toont hetzelfde effect aan, hij doet dit op basis van het model dat hij in 1993 heeft gebruikt voor zijn regressie op gebied van

scholing en inkomen. Het effect wat zou kunnen leiden tot een inconsistente IV-schatter wordt op de volgende manier omschreven.

Stel ten eerste dat er gebruik wordt gemaakt van een matrix bestaande uit exogene instrumenten. Deze matrix Z wordt gebruikt om het causale effect van X op Y aan te tonen. De matrix X bevat de endogene variabelen van het model. Voorbeelden van variabelen die in de matrix X zullen staan zijn de scholingsvariabele van het model van Card (1993) of de inkomensvariabele van het model van Ettner (1996). In de onderzoeksopzet zullen de dimensies van de voor dit onderzoek gebruikte matrices worden gespecificeerd. Hier wordt een algemeen voorbeeld uitgewerkt met ‘n’ waarnemingen en ‘k’ endogene variabelen en een gelijk aantal instrumenten. Ten tweede stel dat de instrumenten in Z valide zijn en er

heterogeniteit is in het effect van X op Y. Ten derde stel dat de variabelen van X gerelateerd

zijn met de instrumenten van Z op de volgende manier:

𝑋𝑋𝑖𝑖 = 𝜋𝜋0𝑖𝑖+ 𝜋𝜋1𝑖𝑖 ′ 𝑍𝑍𝑖𝑖 + 𝑣𝑣𝑖𝑖.

Het effect van X op Y is het effect dat wordt geschat. Dit effect geven we de coëfficiënten 𝛽𝛽0 en 𝛽𝛽1en dit geeft ons de volgende vergelijking:

𝑌𝑌𝑖𝑖 = 𝛽𝛽0𝑖𝑖+ 𝑋𝑋𝑖𝑖′ 𝛽𝛽1𝑖𝑖+ 𝑢𝑢𝑖𝑖.

Er wordt in deze vergelijking rekening gehouden met een mogelijk heterogeen causaal effect van X op Y en met een mogelijk heterogeen causaal effect van Z op X. Met andere woorden het effect van X op Y zou kunnen verschillen tussen verschillende individuen of groepen. Met dit model kan volgens Stock en Watson (2011, pp. 500-504) de volgende algemene waarde voor de IV-schatter worden afgeleid:

(10)

7 𝑏𝑏𝐼𝐼𝐼𝐼 =_𝑆𝑆𝑆𝑆𝑍𝑍𝑍𝑍 𝑍𝑍𝑍𝑍 𝑝𝑝→ 𝜎𝜎𝑍𝑍𝑍𝑍 𝜎𝜎𝑍𝑍𝑍𝑍 = 𝐸𝐸(𝛽𝛽1𝑖𝑖𝜋𝜋1𝑖𝑖) 𝐸𝐸(𝜋𝜋1𝑖𝑖) ,

waarbij 𝛽𝛽_1𝑖𝑖 en 𝜋𝜋_1𝑖𝑖 verschillen van de ene tot de andere groep (𝑖𝑖 = 1, … , 𝑛𝑛). Hierbij staat S_ZY voor de steekproefcovariantie tussen Z en Y en σ_ZY voor de

populatiecovariantie tussen Z en Y. Dit houdt in dat de IV-schatter in waarschijnlijkheid convergeert naar een gewogen gemiddelde van het causale effect van de verschillende groepen. Hierbij staat 𝛽𝛽_1𝑖𝑖 voor het causale effect van Xi op Yi van groep i. Alleen als 𝛽𝛽1𝑖𝑖 en 𝜋𝜋1𝑖𝑖 onafhankelijk zijn, zal de IV-schatter in waarschijnlijkheid convergeren naar de

verwachting van de juiste waarde namelijk 𝛽𝛽_1𝑖𝑖. Terwijl de OLS-schatter een consistente schatting geeft van het gemiddelde causale effect, berekent de IV-schatter een gewogen gemiddelde waarbij elke groep een ander gewicht krijgt toegekend (Stock & Watson, 2011, pp. 500-504). Dit zou een oorzaak kunnen zijn van de grotere waarden die worden gevonden via een IV-schatting van het effect van inkomen op gezondheid. Als het effect van een extra jaar scholing op het inkomen bijvoorbeeld groter is bij de groep die het zwaarste gewicht krijgt in dit gewogen gemiddelde, dan zal dit een overschatting van het daadwerkelijke effect als gevolg hebben. Naar verwachting zal dit het geval zijn indien de respondenten die

gemiddeld een hoger aantal jaren scholing hebben gehad een sterker effect krijgen

toegewezen. Op dezelfde manier zou dit ook de hoge waarde van de IV-schatter van Ettner (1996), Lindahl (2005) en Meer (2003) kunnen verklaren.

(11)

8 3 Onderzoeksopzet

Om aan te kunnen tonen of het Local Average Treatment Effect de oorzaak zou kunnen zijn van de hoge waarde van de IV-schatter wordt dit onderzoek gebaseerd op het onderzoek van Card (1993). Het onderzoek dat wordt uitgevoerd is een empirisch onderzoek, waar in eerste instantie de data van het NLSYM voor wordt gebruikt. Het model dat wordt gebruikt is oorspronkelijk gebaseerd op het onderzoek van Card (1993) naar het effect van scholing op inkomen. Hetzelfde model is na Card nog gebruikt door King (2001) en is als volgt

gespecificeerd:

ln 𝑤𝑤_𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽₁𝑠𝑠_𝑖𝑖+ 𝛽𝛽₂𝑒𝑒_𝑖𝑖+ 𝛽𝛽₃𝑒𝑒_𝑖𝑖2+ 𝑋𝑋_𝑖𝑖′𝛾𝛾 + 𝑢𝑢_𝑖𝑖. (1) De afhankelijke variabele van dit model is het logaritme van het salaris van respondent i. Het model bevat verder 3 endogene variabelen en nog 26 exogene controle variabelen. De

endogene variabelen zijn 𝑠𝑠_𝑖𝑖, 𝑒𝑒_𝑖𝑖 en 𝑒𝑒_𝑖𝑖2. De variabele si staat voor het aantal jaren scholing van individu i. Cameron en Trivedi (2005), die het model ook gebruiken, geven aan dat de variabele voor scholing in dit model endogeen is. Ze verklaren dit door een gebrek aan data over het talent van de respondenten. Het talent van een persoon zal namelijk ook deels de hoogte van het salaris van dit individu bepalen (2005, p.110). Bovendien is de correlatie tussen het talent en de scholingsvariabele positief. De overige twee endogene variabelen zijn de potentiële werkervaring (ei) en de potentiële werkervaring in het kwadraat (𝑒𝑒_𝑖𝑖2). De potentiële werkervaring wordt als volgt berekend:

𝑃𝑃𝑐𝑐𝑃𝑃𝑒𝑒𝑛𝑛𝑃𝑃𝑖𝑖ë𝑙𝑙𝑒𝑒 𝑤𝑤𝑒𝑒𝑣𝑣𝑘𝑘𝑒𝑒𝑣𝑣𝑣𝑣𝑎𝑎𝑣𝑣𝑖𝑖𝑛𝑛𝑤𝑤 = 𝑙𝑙𝑒𝑒𝑒𝑒𝑙𝑙𝑃𝑃𝑖𝑖𝑙𝑙𝑙𝑙 − 𝑎𝑎𝑎𝑎𝑛𝑛𝑃𝑃𝑎𝑎𝑙𝑙 𝑙𝑙𝑎𝑎𝑣𝑣𝑒𝑒𝑛𝑛 𝑠𝑠𝑐𝑐ℎ𝑐𝑐𝑙𝑙𝑖𝑖𝑛𝑛𝑤𝑤 − 6. (2)

De werkervaring en het kwadraat hiervan zijn ook endogene variabelen. Dit komt door het verband met de endogene scholingsvariabele zoals beschreven in vergelijking (2). Er wordt in dit model dus gekeken naar de potentiële werkervaring en niet naar het daadwerkelijke aantal gewerkte jaren. Verder bevat de matrix 𝑋𝑋 26 exogene controlevariabelen. Deze variabelen bestaan voornamelijk uit geografische indicatoren en bevatten informatie over de opleidingen van de ouders. Tenslotte wordt er in het model nog gebruikgemaakt van de storingsterm ui. Allereerst zijn de coëfficiënten 𝛽𝛽₁, 𝛽𝛽₂, 𝛽𝛽₃ en 𝛾𝛾 geschat met behulp van een OLS-regressie. In dit model staat β1 voor het effect van scholing op de logaritme van het inkomen. De coëfficiënten 𝛽𝛽₂ en β₃ staan voor het effect van respectievelijk de werkervaring en het

(12)

9 kwadraat hiervan op de logaritme van het inkomen. Vervolgens wordt er gebruikgemaakt van drie instrumenten om een consistente schatting van het effect van scholing op inkomen te bepalen. Het is uiteindelijk de vraag of deze IV-schatter daadwerkelijk consistent is, maar dit was wel het oorspronkelijke uitgangspunt van Card (1993). Het eerste instrument geeft aan of er een instelling voor hoger onderwijs in de buurt is van de respondent. Een voorwaarde aan deze instelling is dat er de mogelijkheid moet zijn om een vierjarige opleiding te volgen. De andere twee instrumenten die zijn gebruikt zijn leeftijd en het kwadraat hiervan. Cameron en Trivedi geven in hun toepassing van het model aan dat het gebruik van leeftijd en het

kwadraat hiervan als instrument in twijfel kan worden getrokken. Ondanks de exogeniteit van beide instrumenten zijn er sociale bekwaamheden die niet goed gemeten kunnen worden. Deze bekwaamheden zouden gecorreleerd kunnen zijn met zowel het inkomen als de leeftijd (2005, p.110).

Voor het bepalen van de IV-schatter worden twee regressies uitgevoerd. Van beide regressies worden alle schatters bewaard en hier zal de Monte Carlosimulatie op worden gebaseerd. In de eerste regressie worden de endogene variabelen verklaard door de

instrumenten en het exogene deel van de variabelen. Op deze wijze wordt het effect van de instrumenten op de endogene variabelen geschat. Deze geschatte waarden worden gebruikt om vervolgens het exogene effect van scholing op inkomen te bekijken. De residuen van deze regressie vi worden opgeslagen. Van de residuen van de uitgevoerde regressies (𝑢𝑢� en 𝑣𝑣�) zijn de varianties en de onderlinge covariantie berekend. De storingstermen die zijn gebruikt voor de simulatie worden als volgt gedefinieerd:

�𝑢𝑢𝑖𝑖 (𝑟𝑟) 𝑣𝑣_𝑖𝑖(𝑟𝑟)� ~𝑁𝑁 �� 0 0� , �𝜎𝜎�𝑢𝑢 2 _𝜎𝜎� 𝑢𝑢𝑢𝑢 𝜎𝜎�𝑢𝑢𝑢𝑢 𝜎𝜎�𝑢𝑢2�� .

Op deze wijze wordt in de simulatie rekening gehouden met de endogeniteit van het oorspronkelijke model. De waarden voor 𝜎𝜎�_{𝑢𝑢𝑢𝑢} worden variabel gemaakt, dit maakt het mogelijk om de mate van endogeniteit van het model te variëren.

Bij elke replicatie worden er in de simulatie nieuwe storingstermen gegenereerd. Deze storingstermen worden samen met de schatters van de coëfficiënten gebruikt om een nieuwe dataset te creëren. De schatters zijn gebaseerd op de oorspronkelijke dataset dus de nieuwe coëfficiënten zijn de oorspronkelijke IV-schatters. De nieuwe dataset zal dus een representatie zijn van de oorspronkelijke dataset. Het model bevat nog steeds drie endogene variabelen die

(13)

10 nu opnieuw worden gecreëerd. Om de nieuwe variabelen voor het aantal jaren scholing te creëren, wordt gebruikgemaakt van de volgende vergelijking:

𝑠𝑠_𝑖𝑖(𝑟𝑟)= 𝑍𝑍_𝑖𝑖′Π�_{𝑜𝑜𝑜𝑜𝑜𝑜} + 𝑣𝑣_𝑖𝑖(𝑟𝑟) ,

waarbij Zeen matrix is die bestaat uit een constante, de 3 instrumenten en de 26 exogene controlevariabelen. De vector Π�_{𝑜𝑜𝑜𝑜𝑜𝑜} bevat de OLS-schatters van de variabele voor het aantal jaren scholing op de matrix Z en er wordt gebruikt gemaakt van de residuen die bewaard zijn gebleven van de oorspronkelijke regressie. De variabele 𝑠𝑠_𝑖𝑖(𝑟𝑟)wordt eerst afgerond op het aantal hele jaren scholing en is dus net zoals de oorspronkelijke variabele 𝑠𝑠_𝑖𝑖 discreet. Nu wordt er gebruikgemaakt van vergelijking (2) om de nieuwe variabelen 𝑒𝑒_𝑖𝑖(r) en 𝑒𝑒_𝑖𝑖(𝑟𝑟)2te creëren. Op deze wijze blijft het oorspronkelijke verband tussen de potentiële werkervaring en het aantal jaren scholing bewaard.

Niet alleen de mate van endogeniteit is variabel gemaakt in dit nieuwe model. Om een heterogeen causaal effect toe te kunnen voegen aan het model wordt de coëfficiënt 𝛽𝛽₁ ditmaal gesplitst in twee verschillende coëfficiënten 𝛽𝛽_1𝑗𝑗 met j= 1,2. In dit geval hoort 𝛽𝛽₁₁ bij de groep respondenten die minder dan het gemiddelde aantal jaren scholing hebben gehad. De respondenten die juist meer dan het gemiddelde aantal jaren scholing hebben gehad krijgen de coëfficiënt 𝛽𝛽₁₂. Het Local Average Treatment Effect kan zo worden bekeken aan de hand van de simulatie. Bij elke replicatie van dit heterogene model zijn zowel de OLS als de

IV-schatters en hun standaardfouten opgeslagen. Na alle replicaties wordt het gemiddelde van de schatters als volgt berekend:

𝛽𝛽̅𝑂𝑂𝑂𝑂𝑂𝑂 =_{𝑅𝑅 � 𝛽𝛽}1 ̂𝑂𝑂𝑂𝑂𝑂𝑂(𝑟𝑟) 𝑅𝑅 𝑟𝑟=1 en 𝛽𝛽̅𝐼𝐼𝐼𝐼 = _{𝑅𝑅 � 𝛽𝛽}1 ̂𝐼𝐼𝐼𝐼(𝑟𝑟) 𝑅𝑅 𝑟𝑟=1 .

Deze gemiddelden 𝛽𝛽̅_{𝑂𝑂𝑂𝑂𝑂𝑂} en 𝛽𝛽̅_{𝐼𝐼𝐼𝐼} worden vergeleken en gebruikt om het verschil tussen de gevonden OLS- en IV-schatters te verklaren. Op deze wijze wordt er verklaard wat de gevolgen zijn van een heterogeen causaal effect op de schattingsmethoden en welke rol de mate van endogeniteit hierin speelt.

Vervolgens worden er meer dan twee verschillende groepen gecreëerd. In plaats van alleen het effect bij j=1,2 te bepalen wordt dit uitgebreid naar j=1,2,3,10,3010. Op deze wijze

(14)

11 kunnen de gevolgen van een heterogeen causaal effect op de IV-schatter nader worden

bekeken. In de Monte Carlosimulaties wordt de coëfficiënt 𝛽𝛽_1𝑗𝑗 dus gevarieerd terwijl de coëfficiënt 𝜋𝜋₁ constant blijft. Dit komt niet overeen met het theoretische voorbeeld dat door Card (2001) is uitgewerkt en in de vorige paragraaf staat beschreven. Er wordt echter met een constante waarde van 𝜋𝜋₁ toch een overschatting met behulp van instrumentele variabelen gevonden. Dit is opmerkelijk en zal bij de resultaten verder worden toegelicht.

De verwachte uitkomst van het onderzoek is dat de IV-schatter een overschatting van het effect zal geven indien 𝛽𝛽₁₁< 𝛽𝛽₁₂. Dit is te verklaren door het Local Average Treatment Effect, het gewogen gemiddelde waar de IV-schatter naar convergeert zal een overschatting geven indien de groep met de grotere coëfficiënt zwaarder wordt meegewogen. Dit is het geval als 𝛽𝛽₁₁< 𝛽𝛽₁₂. Als 𝛽𝛽₁₁> 𝛽𝛽₁₂ dan zou de IV-schatter op dezelfde manier een onderschatting moeten geven. Verder wordt het verschil tussen de waarden van de OLS-schattingen en de IV-OLS-schattingen naar verwachting bepaald door de mate van endogeniteit van het model. Deze verwachte effecten verklaren mogelijk de gevonden uitkomsten van Card (1993), Ettner (1996), Meer (2003) en Lindahl (2005).

4 Resultaten

De door Cameron en Trivedi (2005) uitgevoerde regressie is gereproduceerd in dit onderzoek. De resultaten van deze regressie staan weergegeven in rij 1 van tabel 1. De coëfficiënten die worden weergegeven voor de scholingsvariabele kunnen als volgt worden geïnterpreteerd. De OLS-schatting van 0,0726 staat voor een gemiddelde toename van het salaris met 7,53% (= 100 ∗ (𝑒𝑒0,0726− 1)) voor elk extra jaar scholing. De IV-schatter ligt een stuk hoger en de waarde van 0,1324 staat voor een gemiddelde toename van het salaris met 14,16% voor elk extra jaar scholing. Het verschil tussen de OLS-schatter en de IV-schatter is dus duidelijk aanwezig bij het oorspronkelijke onderzoek. De standaardfout van de IV-schatter is ruim 13 keer zo groot als die van de OLS-schatter, maar beide schattingen blijven bij een 95% betrouwbaarheidsinterval toch significant.

(15)

12 Tabel 1. De schattingen van het effect van scholing op het inkomen

OLS IV First stage

F-toets R2 OLS RMSE OLS R2 IV RMSE IV Scholing (s) 0,0726 (0,0036) 0,1324 (0,0493) F(29,2980) 44,94 0,3043 0,3720 0,2065 0,3972 Scholing (s) met 𝒔𝒔_𝒊𝒊< 𝒔𝒔� 0,0784 (0,0070) 0,1866 (0,1169) F(29, 1740) 26,14 0,3034 0,3607 0,1643 0,3950 Scholing (s) met 𝒔𝒔_𝒊𝒊≥ 𝒔𝒔� 0,0885 (0,0088) -0,2109 (0,7273) F(29,1210) 14,75 0,2612 0,3821 - 0.5643

De standaardfouten staan tussen haakjes vermeld.

De coëfficiënt 𝛽𝛽₁ wordt in dit model gesplitst in de twee waarden 𝛽𝛽_1𝑗𝑗 met j = 1,2. Om een beginwaarde voor deze coëfficiënten te bepalen is de hele dataset eerst gesplitst in twee delen. Het eerste deel van de dataset bevat de waarnemingen waarvoor geldt dat 𝑠𝑠_𝑖𝑖 < 𝑠𝑠̅ en het tweede deel van de dataset bevat de waarnemingen waarvoor geldt dat 𝑠𝑠_𝑖𝑖 ≥ 𝑠𝑠̅. Hier staat 𝑠𝑠̅ voor het gemiddelde aantal jaren scholing op basis van de dataset. De totale steekproef bestaat uit 3010 waarnemingen, hiervan vallen 1770 waarnemingen in het eerste deel en de overige 1240 in het tweede deel van de dataset. Opnieuw zijn de OLS-schatter en de IV-schatter bepaald, maar dit keer van de twee verschillende datasets. De uitkomsten staan weergegeven in tabel 1. Alleen de OLS-schattingen zijn nog significant als de dataset in de twee

gedefinieerde groepen wordt gesplitst. Voor de waarnemingen waarbij de respondent minder dan het gemiddelde aantal jaren scholing heeft genoten levert een extra jaar scholing

gemiddeld een verhoging van het salaris van 8,16% op. Voor de overige waarnemingen heeft een jaar extra scholing gemiddeld een verhoging van het salaris van 9,25% als gevolg. Het verschil tussen deze twee schatters is klein en niet significant. Het verschil tussen de IV-schatters is een stuk groter alleen de standaardfouten zijn hier zo groot dat deze IV-schatters niet significant zijn. In de oorspronkelijke dataset zijn dus geen twee significant verschillende coëfficiënten voor 𝛽𝛽_1𝑗𝑗 gevonden. In plaats van gebruik te maken van de gevonden waarden van 𝛽𝛽_1𝑗𝑗 worden in de Monte Carlosimulaties deze waarden in eerste instantie gevarieerd tussen 0,05 en 0,20 met stappen van 0,05. Card (2001) vat de OLS-schattingen en de IV-schattingen van eerdere onderzoeken naar het effect van scholing op inkomen samen in één tabel. Het merendeel van de gevonden schatters bevindt zich tussen de 0,05 en de 0,20 en om

(16)

13 deze reden is voor deze waarden gekozen. De schattingen die Card (1993) zelf heeft bepaald komen exact overeen met de resultaten die staan weergegeven in de eerste rij van tabel 1. De covariantie tussen de residuen ui en vi bepaalt de mate van endogeniteit van het model. De covariantiematrix die is berekend op basis van de oorspronkelijke dataset is als volgt:

𝐶𝐶𝑐𝑐𝑣𝑣(𝑢𝑢_𝑖𝑖, 𝑣𝑣_𝑖𝑖) = � 0,1370 −0,0012 −0,0012 5,0375�. 𝜌𝜌𝑢𝑢,𝑢𝑢= −0,0014 met 𝜎𝜎𝑢𝑢 = 0,3702 en 𝜎𝜎𝑢𝑢 = 2,2448.

De waarde van de correlatiecoëfficiënt 𝜌𝜌_{𝑢𝑢,𝑢𝑢} tussen de storingstermen ui en vi ligt in dit model dichtbij 0. Dit zorgt ervoor dat de uitkomsten van de met behulp van de Monte Carlosimulatie gevonden OLS-schatters dichtbij de uitkomsten van gevonden IV-schatters liggen. Zoals weergegeven in tabel A.1 van de appendix is dit voor een reeks van verschillende waarden van 𝛽𝛽_1𝑗𝑗 ook het geval.

De uitkomsten van de Monte Carlosimulaties die staan weergegeven in tabel A.1 vertonen een duidelijk patroon. Allereerst wanneer 𝛽𝛽₁₁= 𝛽𝛽₁₂ ligt zowel de OLS-schatting als de IV-schatting van de Monte Carlosimulatie dichtbij de daadwerkelijke waarde van 𝛽𝛽₁. Ondanks de endogeniteit in het model zijn de OLS-schattingen nauwkeuriger dan de IV-schattingen. De OLS-schatters liggen namelijk gemiddeld gezien dichterbij de daadwerkelijke waarde van de coëfficiënt. De Monte Carlo standaardfouten zijn ook bij elke simulatie kleiner bij de OLS-schatter dan bij de IV-schatter. Bij deze simulaties is het causale effect van

scholing op inkomen homogeen. De IV-schatter is in theorie in dit model dus consistent. Er is in deze situatie nog niets bijzonders op te merken.

De Monte Carlosimulatie geeft vervolgens wanneer 𝛽𝛽₁₁ kleiner dan 𝛽𝛽₁₂ gekozen is duidelijk verschillende resultaten. Zowel de OLS-schatters als de IV-schatter geven een duidelijke overschatting van het causale effect van scholing op inkomen. Deze overschatting is het grootst wanneer 𝛽𝛽₁₁= 0,05 en 𝛽𝛽₁₂ = 0,20, deze waarden geven een OLS-schatting van 0,4103 en een IV-schatting van 0,3991. De standaardfout van de Monte Carlosimulatie van de IV-schatter is wel bijna 15 keer zo groot als die van de OLS-schatter, maar beide

standaardfouten zijn klein ten opzichte van de schatters zelf. Er zijn bij deze Monte

Carlosimulatie 1000 replicaties uitgevoerd. De gevonden schattingen geven bij deze simulatie een overschatting van ruim 100% van het daadwerkelijke causale effect. Via de OLS-methode wordt het effect van een jaar extra scholing op het salaris nu geschat op 50,73%.

(17)

14 Het is volgens de verwachting dat er een overschatting wordt gevonden met behulp van de IV-methode wanneer 𝛽𝛽₁₁< 𝛽𝛽₁₂ wordt gekozen. Het verschil is echter groter dan verwacht en wordt niet alleen bij de IV-schatting gevonden. Het variëren van 𝐶𝐶𝑐𝑐𝑣𝑣(𝑢𝑢_𝑖𝑖, 𝑣𝑣_𝑖𝑖) kan het verschil tussen de OLS-schatter en de IV-schatter nog verklaren.

Wanneer er tenslotte wordt gekeken naar waarden van 𝛽𝛽₁₁ groter dan 𝛽𝛽₁₂ geven de simulaties onderschattingen van het effect in plaats van de hiervoor gevonden

overschattingen. Een groot deel van de schatters ligt dichtbij nul en sommige schattingen geven zelfs een negatief effect van scholing op het inkomen. Een negatief effect van een extra jaar scholing op het inkomen is in tegenspraak met de economische theorie en de andere kwantitatieve onderzoeken op dit gebied, die beschreven zijn door Card (2001). In de hierop volgende regressies zal de mate van endogeniteit worden aangepast. De enige interessante waarden van 𝛽𝛽_1𝑗𝑗 zijn voor dit onderzoek de waarden waarbij 𝛽𝛽₁₁ < 𝛽𝛽₁₂. Alleen met deze waarden is het mogelijk om de in absolute waarde hoge IV-schattingen, gevonden door onder andere Card (1993), te verklaren.

Deze gevonden resultaten kunnen alleen worden verklaard als de juiste combinatie van endogeniteit en heterogeniteit in het model wordt gevonden. Het is al duidelijk dat de

overschatting alleen wordt gereproduceerd als 𝛽𝛽₁₁ < 𝛽𝛽₁₂. Bij het variëren van de correlatie tussen de twee residuen komt het verband naar boven dat staat weergegeven in tabel 2. Het bepalen van de Root Mean Squared Errors (RMSE) is voor deze berekeningen niet gedaan vanwege de variërende waarde van 𝛽𝛽.

(18)

15 Tabel 2. Monte Carlosimulatie met R=1000, 𝛽𝛽₁₁= 0,05 en 𝛽𝛽₁₂= 0,10

1 𝑅𝑅 � 𝛽𝛽̂𝑂𝑂𝑂𝑂𝑂𝑂 1 𝑅𝑅 � 𝛽𝛽̂𝐼𝐼𝐼𝐼 𝜎𝜎𝑢𝑢𝑢𝑢= −0,75 0,0281 (0,00008) 0,1923 (0,02627) 𝜎𝜎𝑢𝑢𝑢𝑢= −0,50 0,0755 (0,00011) 0,1650 (0,01132) 𝜎𝜎𝑢𝑢𝑢𝑢= −0,25 0,1229 (0,00013) 0,2539 (0,08425) 𝜎𝜎𝑢𝑢𝑢𝑢= −0,10 0,1512 (0,00013) 0,1678 (0,00198) 𝜎𝜎𝑢𝑢𝑢𝑢 = 0,10 0,1891 (0,00013) 0,1629 (0,00190) 𝜎𝜎𝑢𝑢𝑢𝑢 = 0,25 0,2174 (0,00013) 0,1594 (0,00200) 𝜎𝜎𝑢𝑢𝑢𝑢 = 0,50 0,2647 (0,00011) 0,1542 (0,00234) 𝜎𝜎𝑢𝑢𝑢𝑢 = 0,75 0,3123 (0,00008) 0,1496 (0,00250) De Monte Carlo standaardfouten staan tussen haakjes vermeld.

De Monte Carlo standaardfouten worden als volgt berekend:

𝑆𝑆𝐸𝐸 = �𝑣𝑣𝑎𝑎𝑣𝑣(𝛽𝛽̂) 𝑅𝑅

Een aantal van deze Monte Carlosimulaties is ook uitgevoerd met 10000 replicaties wat zorgt voor kleinere standaardfouten. Waar het hier echter om gaat is dat opvalt dat alleen bij een negatieve covariantie tussen de twee storingstermen de IV-schatters in absolute waarde groter zijn dan de OLS-schatters. Bij een positieve covariantie geldt het omgekeerde. De

verwachting was eigenlijk dat de gevonden resultaten gereproduceerd zouden worden bij een positieve covariantie tussen u en v. Uit de eerste simulaties blijkt dat dit juist niet het geval is. Bij een covariantie van -0,50 tussen u en v komen de gemiddelde schatters van de Monte Carlosimulatie het meest in de buurt bij de schatter die gevonden zijn op basis van de

(19)

16 oorspronkelijke dataset. Het is wel duidelijk dat de correlatie tussen de twee residuen negatief gekozen moet worden. Verder is het van belang dat 𝛽𝛽₁₁ een waarde krijgt van rond de 0,05 en 𝛽𝛽12 van ongeveer 0,10, bij hogere waarden geeft de simulatie namelijk te hoge schattingen.

De Monte Carlosimulatie is dit keer uitgevoerd met R=10000 replicaties en dit leidt tot de volgende uitkomsten. De covariantie tussen u en v is weer gekozen op −0,50, 𝛽𝛽₁₁= 0,05 en 𝛽𝛽12= 0,10 en dit geeft een Monte Carloschatter van de verwachting van de

OLS-schatter van 0,0755 en de Monte CarloOLS-schatter van de verwachting van de IV-OLS-schatter is 0,1794 met als Monte Carlo standaardfouten respectievelijk 0,000035 en 0,001964.

Er is nog een aantal simulaties uitgevoerd en de resultaten van deze simulaties staan weergegeven in tabel A.2 en A.3 van de appendix. De schatters die worden gevonden in deze simulaties liggen erg dicht in buurt van de schatters die bepaald zijn op basis van de dataset zelf. In tabel 3 staat ook een combinatie waarmee de oorspronkelijke schatters bijna worden gereproduceerd. De daadwerkelijke waarden van 𝛽𝛽_1𝑗𝑗 zijn hier klein gekozen terwijl er met behulp van de OLS-methode en de IV-methode toch een sterker verband wordt geschat.

Tabel 3. Monte Carlosimulatie met R=10000, 𝛽𝛽₁₁= 0,02, 𝛽𝛽₁₂ = 0,07 en 𝜎𝜎_{𝑢𝑢𝑢𝑢} = −0,35 1 𝑅𝑅 � 𝛽𝛽̂𝑂𝑂𝑂𝑂𝑂𝑂 1 𝑅𝑅 � 𝛽𝛽̂𝐼𝐼𝐼𝐼 Scholing (s) 0,0739 (0,000038) 0,1430 (0,001466) De Monte Carlo standaardfouten staan tussen haakjes vermeld.

De covariantie tussen u en v heeft een waarde gekregen die iets dichter bij nul ligt dan de -0,5 van de vorige simulatie om het verschil tussen de OLS-schatter en de IV-schatter iets te verkleinen. Het is opvallend dat er een Monte Carloschatter van de verwachting van de OLS-schatter van 0,0739 en een Monte CarloOLS-schatter van de verwachting van de IV-OLS-schatter van 0,1430 worden gevonden terwijl het daadwerkelijke effect voor de twee groepen lager ligt. De groep waarbij het aantal jaren scholing lager ligt dan het gemiddelde heeft een daadwerkelijk effect van slechts 0,02 gekregen en de groep waarbij het aantal jaren scholing boven het gemiddelde ligt een effect van 0,07. Dit betekent dat in dit geval zowel OLS als IV geen gemiddelde van de twee coëfficiënten schat, maar dat ze beide een overschatting geven. Het is vooral opmerkelijk dat de Monte Carloschatter van de verwachting van de IV-schatter hier ongeveer twee keer zo groot is als 0,07. Het valt ook op dat de negatieve covariantie tussen de

(20)

17 twee storingstermen er samen met de heterogeniteit in het causale effect voor zorgt dat de IV-methode een grote overschatting van het effect geeft. Dit was ook deels de verwachte

uitkomst van het onderzoek en dit zou de in eerdere onderzoeken gevonden resultaten kunnen verklaren. De overschattingen zijn wel een stuk groter dan verwacht en het blijft opmerkelijk dat deze resultaten alleen worden gevonden bij een negatieve covariantie tussen de

storingstermen.

Als 𝛽𝛽₁ op de juiste manier verschillend wordt gekozen voor twee groepen vinden we dus duidelijk een overschatting. Nu is het interessant om te kijken naar de gevolgen van 3 of meer verschillende coëfficiënten. In tabel 4 staan de resultaten van nog drie andere Monte Carlosimulaties weergegeven. In het eerste geval is er gekozen voor j=3 en zijn er dus 3 verschillende coëfficiënten. De dataset is op dezelfde manier opgesplitst als voorheen alleen nu in 3 gelijke delen. De groep met het minste aantal jaren scholing krijgt de coëfficiënt 𝛽𝛽11= 0,02 en de groep met het meeste aantal jaren scholing krijgt de coëfficiënt 𝛽𝛽13= 0,07.

Het verschil met de vorige Monte Carlosimulatie is dat er nu nog een derde groep bij is gekomen die tussen deze twee groepen in zit en de coëfficiënt 𝛽𝛽₁₂= 0,45 krijgt toegewezen. Bij de tweede Monte Carlosimulatie van tabel 4 zijn er nu 10 gelijke groepen gecreëerd. Deze groepen zijn ook ingedeeld op het aantal jaren scholing en de coëfficiënten lopen op van 0,007 naar 0,07 met stappen van 0,007. Bij de laatste Monte Carlosimulatie van tabel 4 heeft elke respondent een eigen coëfficiënt voor 𝛽𝛽₁. De waarde van deze coëfficiënt wordt

willekeurig getrokken uit de uniforme verdeling tussen 0,02 en 0,07. De Root Mean Squared Errors staan in deze tabel niet weergegeven vanwege de variërende waarde voor 𝛽𝛽₁.

Tabel 4. Monte Carlosimulatie met R=10000, n=3010 en 𝜎𝜎_{𝑢𝑢𝑢𝑢}= −0,35 1 𝑅𝑅 � 𝛽𝛽̂𝑂𝑂𝑂𝑂𝑂𝑂 1 𝑅𝑅 � 𝛽𝛽̂𝐼𝐼𝐼𝐼 Scholing (s) met j=3 0,0358 (0,000019) 0,1084 (0,000713) Scholing (s) met j=10 0,0723 (0,000023) 0,1453 (0,000741) Scholing(s) met j=n 0,3838 (0,000238) 0,4583 (0,004246) De Monte Carlo standaardfouten staan tussen haakjes vermeld.

(21)

18 De resultaten die staan weergegeven in tabel 4 komen deels overeen met de resultaten van tabel 3. Indien er wordt gekozen voor j=10 liggen de gevonden Monte Carloschatters van de verwachting van de OLS-schatter en de IV-schatter erg dicht bij de resultaten die zijn gevonden voor j=2. Het is echter opmerkelijk dat de Monte Carloschatters een nog sterkere overschatting geven indien elke respondent een andere waarde voor 𝛽𝛽₁ krijgt. De waarde van 𝛽𝛽1 is hier namelijk maximaal 0,07 dus de OLS- en IV-schatters van respectievelijk 0,3838 en

0,4583 wijken hier sterk van af. Verder zorgt het veranderen van het aantal groepen niet voor een ander resultaat dan het resultaat dat is gevonden met 2 groepen. Om deze reden wordt er verder weer gefocust op het geval van j=2.

Het blijft echter wel merkwaardig dat de overschatting van de Monte Carloschatter van de verwachting van de IV-schatter groter is dan elk mogelijk gewogen gemiddelde tussen 𝛽𝛽11 en 𝛽𝛽12. Hiernaast is het ook opmerkelijk dat deze resultaten alleen worden gevonden bij

een negatieve covariantie tussen u en v terwijl de verwachting was dat dit slechts met een positieve covariantie gevonden zou worden. Tenslotte is het ook merkwaardig dat de overschattingen worden gevonden terwijl er gebruikt wordt gemaakt van een constante coëfficiënt 𝜋𝜋₁. In theorie zou dit effect namelijk ook heterogeen gemaakt moeten worden om een inconsistente IV-schatting te krijgen. Ondanks dit alles zou het daadwerkelijke effect van scholing op inkomen een stuk lager kunnen liggen dan de geschatte waarden van Card (1993). De oorzaak hiervan zou een combinatie van heterogeniteit in het causale verband en een endogene scholingsvariabele kunnen zijn.

Bij het schatten van het inkomenseffect op de gezondheid doen zich vergelijkbare problemen voor. Aan de hand van de Monte Carlosimulaties op basis van het effect van scholing op het inkomen zijn een aantal dingen duidelijk geworden. De resultaten van de onderzoeken naar het inkomenseffect op de gezondheid zouden hierdoor verklaard kunnen worden. Het is namelijk wel degelijk mogelijk dat een heterogeen causaal effect van het inkomen op de gezondheid zou kunnen leiden tot een hoge waarde van de IV-schatter. Indien er sprake is van een negatief verband tussen de storingen van de OLS-regressie en die van de hulpregressie van de IV-methode ontstaat er een grotere IV-schatter dan de OLS-schatter. Deze negatieve correlatie tussen de storingen zou in combinatie met een heterogeen causaal effect kunnen zorgen voor een overschatting met behulp van de IV-methode. Tegenstrijdig is het dat de correlatie tussen de storingstermen naar verwachting positief zal zijn vanwege het positieve simultane verband tussen inkomen en gezondheid. De IV-schatter zal een

overschatting van het daadwerkelijke effect geven indien er sprake is van een heterogeen causaal verband. Een voorwaarde aan deze uitspraak is dat de correlatie negatief moet zijn en

(22)

19 dat de respondenten met een bovengemiddeld hoog inkomen bovendien ook een sterker inkomenseffect op de gezondheid moeten hebben.

In een vervolgonderzoek zou er gekeken kunnen worden naar hoe het kan dat een heterogeen causaal effect zorgt voor een in absolute waarde grotere IV-schatter dan elk mogelijk gewogen gemiddelde. Volgens het Local Average Treatment Effect zou de IV-schatter namelijk een gewogen gemiddelde schatten. In de simulaties worden echter IV-schatters gevonden die in absolute waarde groter zijn dan elk mogelijk gewogen gemiddelde. Ook worden er overschattingen gevonden met behulp van de OLS-methode. Dit is merkwaardig en zou verder onderzocht kunnen worden. Dit zou in eerste instantie gedaan kunnen worden door dit onderzoek nogmaals uit te voeren met een andere dataset. Indien er gebruik zou worden gemaakt van een dataset die representatief is voor het inkomen en gezondheid probleem dan zouden er meer conclusies kunnen worden getrokken op dit gebied. Tenslotte zou er nog meer onderzoek gedaan kunnen worden naar de rol van meetfouten in deze regressies. Het is

interessant om te bepalen hoe sterk de mogelijk negatieve afwijking van de OLS-schatter zou kunnen zijn. Deze door meetfouten veroorzaakte afwijking van de OLS-schatter zou een verklaring kunnen zijn voor het gevonden verschil tussen de waarden van de OLS- en de IV-schatters.

(23)

20 5 Conclusie

Uit de Monte Carlosimulaties is duidelijk geworden dat een heterogeen causaal effect kan leiden tot een hogere waarde van de IV-schatter. Het Local Average Treatment Effect zou in theorie een gewogen gemiddelde schatten en op deze manier de groep met de grootste coëfficiënt het zwaarst mee kunnen laten tellen. Wat opmerkelijk is aan de gevonden resultaten is dat de Monte Carloschatter van de verwachting van de IV-schatter in absolute waarde nog groter is dan de grootste coëfficiënt. Indien 𝛽𝛽₁₁= 0,02 en 𝛽𝛽₁₂ = 0,07 zou dit betekenen dat het effect van een extra jaar scholing het salaris verhoogt met maximaal 7,25%. De Monte Carloschatter van de verwachting van de IV-schatter geeft daarentegen een effect van 15,37%. Deze verdubbeling is niet te verklaren met de theorie dat de IV-schatter een gewogen gemiddelde zou schatten. De gevolgen van een heterogeen causaal verband zijn wel zoals verwacht. Wanneer het effect sterker is voor een groep met hogere waarden voor die variabelen kan dit leiden tot een overschatting van het effect. Deze overschatting wordt door zowel de OLS-methode als door de IV-methode gevonden.

Naast het heterogene effect in een model heeft ook de mate van endogeniteit veel invloed op de uitkomst van de schatters. Een sterker verband tussen de storingstermen zorgt voor een groter verschil tussen de Monte Carloschatters van de verwachting van de OLS-schatter en de IV-OLS-schatter. Uit de simulaties is duidelijk geworden dat een negatieve correlatie tussen de storingstermen u en v leidt tot een grotere Monte Carloschatter van de verwachting van de IV-schatter dan van de OLS-schatter. Het blijft wel opmerkelijk dat deze resultaten alleen worden gevonden bij een negatieve covariantie tussen de storingstermen. De

oorspronkelijke verwachting was dat dit juist bij een positieve covariantie tussen de

storingstermen het geval zou zijn. Dit zorgt ervoor dat de overschatting die wordt veroorzaakt door de heterogeniteit in het model het grootst is bij de IV-schatter. Op deze wijze kan

geconcludeerd worden dat de grote waarde van de IV-schatter die gevonden is door Card (1993) verklaard kan worden door een heterogeen causaal verband.

Vanwege de overeenkomsten tussen de onderzoeken naar het effect van scholing op het inkomen en de onderzoeken naar het inkomenseffect op de gezondheid verklaart dit mogelijk ook de resultaten die door Ettner (1996), Meer (2003) en Lindahl (2005) zijn gevonden. Heterogeniteit in het causale effect van inkomen op gezondheid zou op dezelfde manier als bij het model van Card (1993) een verklaring kunnen zijn voor de hoge waarde van de IV-schatter. Ondanks dat de OLS-schatter in theorie een overschatting geeft van het

(24)

21 zorgt dat de IV-schatter nog groter is. Een heterogeen causaal effect van het inkomen op de gezondheid zou de hoge waarde voor de IV-schatter dus wel degelijk kunnen verklaren.

(25)

22 Bibliografie

Cameron, A.C. & Trivedi, P.K. (2005). Microeconometrics: Methods and Applications. New York: Cambridge University Press.

Card, D. (1993). Using geographic variation in college proximity to estimate the return to schooling. National Bureau of Economic Research. Gevonden op:

http://www.nber.org/papers/w4483

Card, D. (2001). Estimating the return to schooling: progress to some persistent econometric problems. Econometrica. 69(5). pp. 1127-1160

Ettner, S.L. (1996). New evidence on the relationship between income and health. Journal of Health Economics. 15(1). pp. 67-85

Griliches, Z. (1977) Estimating the returns to schooling: some econometric problems. Econometrica. 45(1). pp. 1-22.

Heij, C., De Boer, P., Franses, P.H., Kloek, T. & van Dijk, H.K. (2004) Econometric Methods with Applications in Business and Economics. New York: Oxford University Press.

Kling, J.R. (2001) Interpreting instrumental variables estimates of the returns to schooling. Journal of Bussiness & Economic Statistics. 19(1). pp. 358-364

Lindahl, M. (2005) Estimating the effect of income on health and mortality using lottery prizes as an exogenous source of variation in income. Journal of Human Resources. 40(1). pp. 144-168

Meer, J., Miller, D.L., Rosen, H.S. (2003) Exploring the health-wealth nexus. Journal of Health Economics. 22(5). pp. 713-730

Mincer, J. (1974) Schooling, experience and earnings. New York: Columbia University Press.

(26)

23 Wu, S. (1985) The effects of health on the economic status of married couples. Journal of Human Resources. 38(1). pp. 219-230

(27)

24 Appendix

Tabel A.1. Monte Carlosimulatie met R=1000 en 𝑐𝑐𝑐𝑐𝑣𝑣(𝑢𝑢_𝑖𝑖, 𝑣𝑣_𝑖𝑖) = −0,0012. 𝟏𝟏 𝑹𝑹 � 𝜷𝜷�𝑶𝑶𝑶𝑶𝑶𝑶 𝟏𝟏 𝑹𝑹 � 𝜷𝜷�𝑰𝑰𝑰𝑰 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,05 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟎𝟎𝟎𝟎 0,0498 (0,00012) 0,0482 (0,00176) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,05 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,1700 (0,00013) 0,1651 (0,00194) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,05 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,2901 (0,00017) 0,2821 (0,00244) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,05 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,4103 (0,00021) 0,3991 (0,00310) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,10 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟎𝟎𝟎𝟎 -0,0203 (0,00013) -0,0188 (0.00199) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,10 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,0998 (0,00012) 0,0982 (0,00176) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,10 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,2200 (0,00013) 0,2151 (0,00194) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,10 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,3401 (0,00017) 0,3321 (0,00244) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,15 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟎𝟎𝟎𝟎 -0,0905 (0,00017) -0,0858 (0,00250) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,15 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,0297 (0,00013) 0,0312 (0,00199) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,15 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,1498 (0,00012) 0,1482 (0,00176) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,15 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,2700 (0,00013) 0,2651 (0,00194) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,20 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟎𝟎𝟎𝟎 -0,1606 (0,00021) -0,1528 (0.00318) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,20 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 -0,0405 (0,00017) -0,0358 (0,00250) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,20 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,0797 (0,00013) 0,0812 (0,00199) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,20 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 𝟎𝟎, 𝟏𝟏𝟎𝟎 0,1998 (0,00012) 0,1982 (0,00176)

(28)

25 Tabel A.2. Monte Carlosimulatie met R=1000 en 𝑐𝑐𝑐𝑐𝑣𝑣(𝑢𝑢_𝑖𝑖, 𝑣𝑣_𝑖𝑖) = −0,50.

1 𝑅𝑅 � 𝛽𝛽̂𝑂𝑂𝑂𝑂𝑂𝑂 1 𝑅𝑅 � 𝛽𝛽̂𝐼𝐼𝐼𝐼 𝛽𝛽11= 0,02 & 𝛽𝛽12 = 0,07 0,0455 (0,00013) 0,1350 (0,01134) 𝛽𝛽11= 0,03 & 𝛽𝛽12 = 0,08 0.0553 (0,00011) 0,1563 (0,00250) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,04 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,09 0,0651 (0,00011) 0,1557 (0,01132)

Tabel A.3. Monte Carlosimulatie met R=1000 en 𝑐𝑐𝑐𝑐𝑣𝑣(𝑢𝑢_𝑖𝑖, 𝑣𝑣_𝑖𝑖) = −0,35. 1 𝑅𝑅 � 𝛽𝛽̂𝑂𝑂𝑂𝑂𝑂𝑂 1 𝑅𝑅 � 𝛽𝛽̂𝐼𝐼𝐼𝐼 𝛽𝛽11= 0,02 & 𝛽𝛽12 = 0,07 0,0739 (0,00011) 0,1479 (0,00320) 𝛽𝛽11= 0,03 & 𝛽𝛽12 = 0,08 0,0840 (0,00012) 0,1546 (0,00204) 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,04 & 𝜷𝜷𝟏𝟏𝟏𝟏 = 0,09 0,0936 (0,00012) 0,1653 (0,00169) De Monte Carlo standaardfouten staan tussen haakjes vermeld.