• No results found

De onderschatting van het inkomenseffect op de gezondheid : het effect van meetfouten versus het effect van de simultaniteit op het inkomenseffect

N/A
N/A
Protected

Academic year: 2021

Share "De onderschatting van het inkomenseffect op de gezondheid : het effect van meetfouten versus het effect van de simultaniteit op het inkomenseffect"

Copied!
38
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

wor

University of Amsterdam

De onderschatting van het inkomenseffect op de gezondheid

Het effect van meetfouten versus het effect van de simultaniteit op het

inkomenseffect

Chloë Kersten Bachelor scriptie

Faculteit Economie en Bedrijfskunde Econometrie en Operationele Research

Begeleider Maurice Bun, Milan Pleus

(2)

Samenvatting

Evaluaties van de mate van gezondheidsregulering door de overheid hebben geleid tot een grotere interesse naar het inkomenseffect op de gezondheid. Uit verschillende onderzoeken blijkt dat het inkomen en de gezondheid positief gecorreleerd zijn. Onderzoekers hebben vanwege de aanwezige simultaniteit van het inkomen en de gezondheid naast de OLS-schatters ook de IV-OLS-schatters bepaald. Deze simultaniteit doet vermoeden dat de OLS-schatter een absolute overschatting zal leveren van het werkelijke effect. Echter, de OLS-schatters blijken kleinere waarden te hebben dan de IV-schatters. Een van de mogelijke oorzaken van deze onderschatting van de kleinstekwadratenschatter is meetfouten in het inkomen. Deze blijken een dempend effect te hebben. In mijn scriptie gebruik ik een bestaande dataset om met Monte Carlosimulaties nieuwe data te genereren waarin de waarden van meetfouten en simultaniteit aanpast kunnen worden. Door deze waarden te variëren is er geanalyseerd voor welke grootte van meetfouten en simultaniteit deze kleinstekwadratenschatter een onderschatting is van het inkomenseffect. Er wordt gesteld welke van deze combinaties realistisch zijn en wanneer deze dus de oorzaak geweest kunnen zijn van de gevonden eigenaardigheid.

Kernwoorden: Inkomen, gezondheid, simultaniteit, meetfouten, OLS-schatter, dempend effect, Monte Carlosimulatie

(3)

Inhoudsopgave

1   Inleiding ... 1  

2   Theoretisch kader ... 3  

2.1   ‘Health-health’-analyse ... 3  

2.2   Inkomenseffect op de gezondheid eerdere onderzoeken ... 5  

2.3   Meetfouten als oorzaak onderschatting ... 6  

2.4   Meetfouten versus simultaniteit bij kanslimietenschatters ... 8  

3   Data en methode ... 10  

3.1   De dataset van Tanovi𝐜 ... 11  

3.2   Het datagenererend proces ... 13  

3.3   Toetsen op de data ... 14  

3.4   Monte Carlosimulatie ... 16  

3.5   De designparameters ... 17  

4   Resultaten ... 18  

4.1   Simultaniteit, meetfouten en instrumentensterkte ... 19  

4.2   Verwerpingskans Sargan-toets ... 21  

5   Conclusie ... 22  

Literatuur ... 24  

Bijlage 1 Tabellen ... 26  

(4)
(5)

1

1

Inleiding

De evaluatie van gezondheidsregulering door de overheid in de bedrijvensector heeft tot vraagtekens over het te wensen beleid geleid (Angell, 1993). Uiteraard is het de intentie van de overheid om met gezondheidsregulering de gezondheid van de burgers te verbeteren. Uit vele onderzoeken is gebleken dat het inkomen van een individu een positieve correlatie heeft met zijn/haar gezondheid (Feinstein, 1993). Uit het onderzoek van Feinstein (1993) blijkt dat mensen met een hoge sociaaleconomische status gezonder zijn dan mensen met een minder hoge sociaaleconomische status en dat mensen met een hoge gezondheidsstatus een hogere sociaaleconomische status verkrijgen dan mensen met een lagere gezondheidsstatus. Feinstein (1993) en andere onderzoekers die uitgaan van de positieve correlatie tussen het inkomen en de gezondheid zijn om deze reden voorstanders van de gezondheidsregulering.

De meer liberalistische onderzoekers daarentegen zijn niet per se voorstanders van overheidsinterventie en zij belichten onder andere de kosten van zulke ingrepen (Davis en Karr, 1992; Marshall, 1992). Davis en Karr (1992) en Marshall (1992) stellen dat de kosten van reguleringen uiteindelijk bij de werknemer terechtkomen waardoor zijn/haar inkomen achteruit gaat. Hierdoor kan de bedoelde verbetering van de gezondheid, door de genoemde positieve correlatie, deels of geheel ongedaan worden gemaakt. Deze doorberekening zou onderaan de streep kunnen leiden tot het tegengestelde effect en kan resulteren in een verslechterde gezondheid. In dit geval is de overheidsbemoeienis ongewenst.

Een manier om te analyseren of overheidsinterventie leidt tot een verbeterde of verslechterde gezondheid is de ‘health-health’-analyse1 van Lutter en Morrall (1994). Om deze analyse uit te kunnen voeren is een precieze waarde van het inkomenseffect op de gezondheid essentieel. De door de evaluaties opgewekte interesse in het inkomenseffect heeft een paar verbeterde onderzoeken tot gevolg gehad. In voorgaande onderzoeken2 werd slechts één regressor, bijvoorbeeld het sterftecijfer, genomen om de gezondheid te bepalen. In het geval van het inkomen werd slechts gekeken naar het inkomen van het individu in plaats van naar de hoeveelheid aan financiële middelen die een individu tot zijn/haar beschikking heeft. Onder andere Ettner (1996), Meer et al. (2003) en Lindahl (2005) anticipeerden op deze twee punten door een representatievere gezondheidsstatus en een welvaartsindex in plaats van het

1  Een methode om te onderzoeken of een handeling een positief of negatief effect heeft op de gezondheid. De

methode wordt uitgebreider besproken in hoofdstuk 2.  

2  Onder andere de onderzoeken van Hadley en Osei (1982), Duleep (1986), Duleep (1989), Chapman en

(6)

2

inkomen van een individu te nemen. Een welvaartsindex kan bijvoorbeeld onder andere rekening houden met het inkomen van de partner en eventueel spaargeld. Ettner (1996), Meer et al. (2003) en Lindahl (2005) schatten het inkomenseffect door meerdere gezondheidsindicatoren te regresseren op een welvaartsindex met OLS3 en IV4. Echter, in alle drie de onderzoeken gebeurt hier iets merkwaardigs.

De onderzoekers voeren eerst de OLS-regressie uit. Verwacht wordt dat OLS een overschatting geeft van het werkelijke effect door de simultaniteit tussen de welvaartsindex en de gezondheidsstatus (Feinstein, 1993). Echter, in de drie genoemde onderzoeken blijkt dat de IV-schatters groter zijn dan de OLS-schatters. De schrijvers noemen verschillende oorzaken van de kleinere kleinstekwadratenschatter5. Ettner (1996) noemt meetfouten in de verklarende variabelen, van welke het bekend is dat ze leiden tot een lagere geschatte coëfficiënt van het inkomenseffect, als verklaring voor de gevonden onderschatting (Penrod en Lantz, 2000; Aydemir en Borjas, 2011). In deze scriptie is de door Ettner (1996) genoemde oorzaak onderzocht. Voor welke grootte van meetfouten zal de OLS-schatter kleiner worden dan de IV-schatter en wegen de meetfouten in andere woorden zwaarder mee dan de simultaniteit? Erna is uitgelicht of deze grootten van meetfouten en simultaniteit realistisch zijn of deze dus een oorzaak kunnen zijn voor de gevonden onderschatting.

Om deze vraag te kunnen beantwoorden is gebruikt gemaakt van de dataset van Tanovic (2013). Deze onderzoekster heeft net zoals bovengenoemden ook het inkomenseffect op de gezondheid onderzocht. Met de dataset zijn Monte Carlosimulaties uitgevoerd om nieuwe data te generen. Deze nieuwe data zijn vrij van meetfouten. Meetfouten en simultaniteit kunnen beide aangepast worden in het model. Meetfouten en simultaniteit zijn in deze simulatie designparameters voor welke geanalyseerd is welke invloed de hoogtes van deze parameters hebben op de OLS-schatter en de IV-schatter. Er is beschreven voor welke combinaties van meetfouten en simultaniteit de OLS-schatting kleiner is dan de IV-schatting en of deze combinaties de oorzaak kunnen zijn van de gevonden onderschatting van de OLS-schatter.

Deze scriptie is als volgt opgebouwd. In het volgende hoofdstuk is het theoretisch kader uiteengezet. Deze gaat over de aanleiding van de interesse in het inkomenseffect, de inkomenseffecten van voorgaande onderzoeken, over de merkwaardige onderschatting van de OLS-schatten en de verklaringen hiervoor. Het hoofdstuk eindigt met een paragraaf in welke

3  OLS staat voor Ordinary Least Squares, de meest gangbare schattingsmethode.  

4 IV staat voor Instrumental Variables, de meest gangbare schattingsmethode bij endogeniteit.

5  Mogelijke oorzaken zijn weergeven in de artikelen van Penrod en Lantz (2000), Meer et al. (2003), Lindahl

(7)

3

de kanslimietenschatters theoretisch bepaald zijn. Deze dient ter illustratie van het effect van de meetfouten en de simultaniteit. Hoofdstuk 3 begint met een beschrijving van de dataset van Tanovic (2013) welke gebruikt is om nieuwe data te generen. In de opvolgende paragraaf is uiteengezet welke datagenererende processen ten grondslag staan voor de Monte Carlosimulatie. In paragraaf 3 zijn de instrumenten van het datagenererend proces getoetst op sterkte en validiteit, en de regressoren op exogeniteit. De verkregen coëfficiënten en covariantiematrix zijn besproken. De Monte Carlosimulatie, waarmee de nieuwe data verkregen is en de schatters bepaald zijn met wisselende waarden van de designparameters, staat in de vierde paragraaf. Het hoofdstuk sluit met een beschrijving van de designparameters voor welke gekeken is welke invloed ze hebben op de schatters. In hoofdstuk 4 zijn de resultaten van de Monte Carlosimulatie weergegeven. Er is geanalyseerd welke combinaties van designparameters zorgen voor een kleinere OLS-schatter dan IV-schatter en of deze combinaties realistisch zijn. Ten slotte bevat het vijfde hoofdstuk een conclusie.

2

Theoretisch kader

In dit hoofdstuk zijn de voor- en nadelen van een gezondheidsregulering door de overheid uiteengezet. Er is een methode belicht om te kunnen controleren of een gezondheidsregulering uiteindelijk voor- of nadelig is. Voor een dergelijke vergelijkingsmethode is het precieze inkomenseffect op de gezondheid van belang. In de tweede paragraaf zijn de onderzoeken naar het inkomenseffect van de afgelopen jaren besproken. Drie verbeterde onderzoeken zijn behandeld. Deze onderzoeken stuiten alle drie op de eigenaardige onderschatting van de kleinstekwadratenschatter. In de derde paragraaf zijn mogelijke oorzaken van deze onderschatting besproken. In deze paragraaf is aangegeven dat een van de oorzaken, meetfouten in het inkomen, in deze scriptie onderzocht is. Vervolgens is deze oorzaak besproken. In het vierde deel van hoofdstuk 2 zijn theoretisch de kanslimietenschatters bepaald. Dit illustreert welk effect meetfouten en simultaniteit hebben op de schatters.

2.1 ‘Health-health’-analyse

Naar aanleiding van de evaluaties en de daardoor opgewekte interesse stuitte Kip Viscusi (1986) op de twee genoemde mogelijk verschillende effecten van de reguleringen. Is een dergelijke overheidsregulering wel of niet gewenst? Kip Viscusi (1986) geeft in zijn onderzoek aan dat deze keuze draait om de volgende vraag: verslechtert de gezondheidsstatus

(8)

4

van de werknemers, door de inkomensverlaging die plaats vindt door de kosten van de regulering, zodanig dat de initiële verbetering ongedaan wordt gemaakt? Deze vraag komt neer op de ‘health-health’-analyse van Chapman en Hariharan (1994). Zij stellen dat een overheidsregulering gemeten dient te worden door te kijken of een dergelijke regulering resulterend leidt tot het voorkomen van doden of het veroorzaken van meer doden. Aan de hand van het resultaat op deze vraag dient de regulering wel of niet op het programma van de overheid te staan.

Enerzijds leidt een hogere sociaaleconomische status6 volgens Feinstein (1993) en Chapman en Hariharan (1994) tot een verbeterde gezondheidsstatus. Een hogere sociaaleconomische status resulteert volgens de onderzoekers tot een verbeterde gezondheid doordat deze personen betere medische verzorging kunnen veroorloven en in gezondere milieus leven. Wanneer een persoon gezonder is, zal deze persoon minder vaak ziek zijn en meer uren kunnen werken. Gezondere personen zijn ook geconcentreerder en nauwkeuriger dan personen met een slechtere gezondheidsstatus, waardoor hun arbeidsproductiviteit zal stijgen. Ook verwachten gezonde personen dat ze langer zullen leven met als gevolg dat ze beter nadenken over zaken als sparen en investeren. Om deze redenen stellen Feinstein (1993) en Chapman en Hariharan (1994) dat inkomen en gezondheid een positieve correlatie hebben. Zij zijn voorstanders van de overheidsreguleringen.

Anderzijds kan het verhogen van de gezondheidsreguleringen van de overheid volgens Davis en Karr (1992) en Marshall (1992) juist leiden tot een inkomensdaling welke zal resulteren in een verslechterde gezondheid. De overheid heeft een wettelijk kader van regels opgesteld voor werkgevers om de gezondheid van werknemers te waarborgen7. Voor de werkgevers verhogen deze reguleringen de kostprijs per werknemer. Volgens de neoklassieke theorie8 zullen werkgevers er altijd naar streven om hun opbrengsten en persoonlijke nut te maximaliseren. Dit gaat hand in hand met het streven naar winstmaximalisatie van het bedrijf. De verhoging in de kostprijs per arbeider zal vanwege deze nutsmaximalisatie doorberekend worden door de werkgever. Deze kan dat op een directe manier bewerkstelligen door het nettoloon van de werknemers te verlagen, minder uren beschikbaar te stellen aan de werknemers of ontslagen te laten plaatsvinden. Er zijn ook nadelige indirecte effecten voor de werknemer die een rol spelen. Overheidsregulaties verminderen de economische activiteit van bedrijven. Een verlaging van de economische

6  Een manier om de rijkdom van een persoon weer te geven.   7  Onder andere vastgesteld in de Arbowet (2005).  

(9)

5

activiteit kan uiteindelijk leiden tot een daling van de lonen en ontslagen van de werknemers. Concluderend kan een verbetering van de gezondheidsstatus door overheidsbemoeienis leiden tot een verlaging van het inkomen, die resulteert in een verslechterde gezondheidsstatus.

De ‘health-health’-analyse stelt dat de overheidsinterventie geëvalueerd kan worden door te vergelijken of deze regulering meer mensen het leven heeft gered of meer mensen het leven heeft gekost. Voor deze analyse is het precieze inkomenseffect op de gezondheid nodig. Ook bij andere vergelijkingsmethodes is het nodig om precies te weten welk effect het inkomen op de gezondheid heeft. Het inkomenseffect is in de volgende paragraaf besproken.

2.2 Inkomenseffect op de gezondheid eerdere onderzoeken

Ettner (1996), Meer et al. (2003) en Lindahl (2005) gebruiken een gezondheidsvariabele bestaande uit meerdere regressoren. In vorige onderzoeken werd voor de gezondheidsvariabele slechts één regressor gebruikt zoals het sterftecijfer of het aantal ziektedagen van een werknemer. Ook hebben de onderzoekers als verklarende variabele een welvaartsindex genomen in plaats van dat slechts het inkomen van het individu bekeken wordt. Een welvaartsindex kan opgebouwd zijn uit meerdere regressoren. Voorbeelden van bijgevoegde factoren zijn het inkomen van de partner, het inkomen van familieleden, eventueel spaargeld en de waarde van het huis. Ze gebruiken alle drie een andere welvaartsindex. Ettner (1996), Meer et al. (2003) en Lindahl (2005) besloten regressies uit te voeren met een samengestelde gezondheidsstatus om het welvaartseffect te bepalen, omdat simpele correlaties tussen inkomen en gezondheid onvoldoende bewijs zijn om bijvoorbeeld te kunnen stellen dat een inkomensverlaging ervoor zorgt dat de gezondheid van de werknemers achteruit gaat (Ettner, 1996).

Hoewel er verschillen zijn tussen de onderzoeken van Ettner (1996), Meer et al. (2003) en Lindahl (2005) komt de onderzoeksopzet overeen. Ze regresseren een gezondheidsstatus op een welvaartsindex. Alle drie de onderzoekmethodes bestaan uit een OLS-regressie en erna een regressie gebruikmakend van instrumentele variabelen. Ze lichten toe dat sommige regressoren endogeen zijn. Deze regressoren zijn namelijk gecorreleerd met de storingsterm. De belangrijkste manier om erachter te komen of regressoren endogeen of exogeen zijn is met economische theorie. Feinstein (1993) licht in zijn paper toe dat een hoger inkomen leidt tot een verbeterde gezondheidsstatus en andersom. Het inkomen is afhankelijk van de gezondheidsstatus, terwijl de gezondheidsstatus weer afhangt van het inkomen. Deze simultaniteit zorgt voor de correlatie tussen de regressor en de storingsterm.

(10)

6

De onderzoekers voeren vanwege deze endogeniteit een IV-regressie uit. De instrumenten zijn getoetst op sterke en validiteit, en de regressoren op exogeniteit.

Ettner (1996), Meer et al. (2003) en Lindahl (2005) vinden dat het welvaartseffect op de gezondheidsstatus positief is. Zowel de OLS-schatters als de IV-schatters duiden op positieve coëfficiënten. Theoretisch gezien zorgt de OLS-regressie voor een overschatting van het werkelijke effect. Door de verklaarde simultaniteit heeft de gezondheidsstatus een positieve correlatie met de storingsterm waardoor de kleinstekwadratenschatter van de gezondheidsstatus hoger uit zou moeten vallen. De IV-schatter zal onder de voorwaarde dat de rest van de standaardassumpties gelden en dat de gekozen instrumenten geldig zijn een consistente, en kleinere, schatter zijn van het effect van de welvaart op de gezondheidsstatus. Tegen deze theorie in vinden Ettner (1996), Meer et al. (2003) en Lindahl (2005) bij het berekenen van de welvaartseffect alle drie, ondanks het feit dat ze andere variabelen gebruiken, het tegenovergestelde resultaat. De OLS-schatter blijkt absoluut gezien een kleinere uitkomst te geven dan de IV-schatter. In tabel A in bijlage 1 zijn de schatters van de onderzoeken van respectievelijk Ettner (1996), Meer et al. (2003) en Lindahl (2005) weergegeven. In de volgende paragraaf zijn verschillende verklaringen gegeven voor het feit dat de OLS-schatters kleiner zijn dan de IV-schatters.

2.3 Meetfouten als oorzaak onderschatting

Ettner (1996), Meer et al. (2003) en Lindahl (2005) besteden alle drie weinig aandacht aan het verklaren van deze eigenaardigheid. Ze noemen kort eventuele verklaringen van deze onderschatting van de kleinstekwadratenschatter. Het feit dat er meetfouten in de inkomensgegevens aanwezig zijn noemt Ettner (1996) een eventuele verklaring. Meer et al. (2003) duiden slechts aan dat zij deze onderschatting curieus vinden. De reden die Lindahl (2005) voor de onderschatting geeft zijn meetfouten in de controlevariabelen. Een derde reden zou het heterogene causale effect van het inkomen op de gezondheid kunnen zijn. In dat geval schat de instrumentele variabele schatter een ‘Local Average Treatment effect’. Dit effect kan zorgen voor een overschatting van de IV-schatter, wat ook een reden kan zijn voor OLS-schatters die kleiner zijn dan IV-schatters (Card, 2001).

Bovenstaande oorzaken kunnen redenen zijn voor de gevonden onderschatting van de OLS-schatter. In mijn scriptie onderzoek ik de door Ettner (1996) genoemde oorzaak. Zij belicht in haar onderzoek dat meetfouten in verklarende variabelen de reden kunnen zijn voor de onderschatting van de kleinstekwadratenschatter. Deze meetfouten zorgen voor een dempend effect van de schatter. De waarde van de OLS-schatter komt dichter bij nul te liggen

(11)

7

ten opzichte van het werkelijke effect. Deze meetfouten kunnen op twee manieren veroorzaakt zijn. Ten eerste kunnen variabelen niet goed gerepresenteerd zijn. Een voorbeeld is het sterftecijfer als enige regressor voor de gezondheidsstatus. Slechts het sterftecijfer zal onvoldoende correlatie geven met de gezondheidsstatus. Ten tweede kunnen de regressoren die gebruikt zijn voor de verklarende variabele onnauwkeurig of verkeerd gemeten zijn9 (Heij et al. 2004). Ettner (1996) zet uiteen waarom haar onderzoek te maken heeft met meetfouten. De welvaartsindex bevat meetfouten omdat het inkomen van andere familieleden dan de partner niet is meegerekend. Ook spaargeld is bijvoorbeeld niet meegenomen in de regressie. De gezondheidsstatus is bepaald aan de hand van een enquête. Om deze reden kan er niet worden uitgegaan van een objectieve afhankelijke variabele, waardoor deze meetfouten bevat.

Naast Ettner (1996) zijn er meer onderzoekers die een gevonden onderschatting van de kleinstekwadratenschatter wijten aan meetfouten, zoals Penrod en Lantz (2000) en Aydemir en Borjas (2011). Penrod en Lantz (2000) onderzoeken de impact van het gebruik van prenatale zorg op het gewicht van geboren baby’s. De prenatale zorgindex is vastgesteld door drie bronnen: geboortecertificaten, interviews door medisch personeel en interviews door moeders. Deze index is gevoelig voor meetfouten omdat deze drie bronnen geen volledige informatie geven over de gezochte variabele; het gebruik van prenatale zorg. Verder zijn niet alle drie de bronnen nauwkeurig bepaald. Een voorbeeld is dat het aantal bezoeken en de duur van de prenatale zorg onnauwkeurig op het geboortecertificaat zijn bijgehouden. Deze meetfouten in het gebruik van de prenatale zorg kunnen leiden tot een scheefheid in het effect van de impact van de prenatale zorg op het gewicht bij de geboorte. Doordat er sprake is van een positief effect van het gebruik van prenatale zorg op het gewicht van baby’s, zoals bij het inkomen op de gezondheidsstatus, leiden de meetfouten tot een onderschatting van de kleinstekwadratenschatter. Penrod en Lantz (2000) wijten het verschil tussen de OLS-schatter en de IV-schatter volledig aan het effect van de meetfouten in de verklarende variabele.

Aydemir en Borjas (2011) hebben het effect onderzocht van immigratie op het inkomen in een bepaalde arbeidsmarkt. Zij stuiten ook op een absolute onderschatting van de kleinstekwadratenschatter. In hun geval is de OLS-schatter zo klein dat het lijkt alsof immigratie geen significant effect heeft op het inkomen en verwaarloosbaar is. De verklarende variabele immigratie is gemeten door de variabele ‘immigrant share’. Deze staat

(12)

8

voor het deel van de werknemers in een bepaalde arbeidsmarkt dat in het buitenland geboren is. Er zitten in dit onderzoek meetfouten in de verklarende variabele omdat er slechts een kleine steekproef arbeiders genomen is in een bepaalde arbeidsmarkt. In deze steekproef gaan ze na of deze arbeiders in het buitenland geboren zijn. Het verschil van dit onderzoek met andere onderzoeken in deze paragraaf is dat immigratie, de verklarende variabele, een negatief effect heeft op het inkomen, de afhankelijke variabele. Door het dempende effect van meetfouten in de verklarende variabelen komt de kleinstekwadratenschatter dichter bij nul te liggen. Absoluut gezien zorgen de meetfouten in dit geval ook voor een onderschatting van de coëfficiënt.

Meetfouten in de verklarende variabelen blijken vaker als oorzaak genoemd te zijn voor een onderschatting van de kleinstekwadratenschatter vanwege het bewezen dempende effect (Penrod en Lantz, 2000; Aydemir en Borjas, 2011). Echter, of het effect van de meetfouten zo groot is dat deze het effect van de simultaniteit overtreft is niet zeker. Meetfouten in de controlevariabelen of heterogene causale effecten zouden ook een rol kunnen spelen in de onderschatting van de kleinstekwadratenschatter. In dit geval zorgen de meetfouten in verklarende variabelen wel voor een demping, maar misschien niet voor een zodanige demping dat deze meetfouten de enige oorzaak zijn voor de kleinere OLS-schatter. Om te illustreren welk effect meetfouten en simultaniteit hebben op de schatters, zijn in de volgende paragraaf theoretisch de kanslimietenschatters benaderd. Op deze verheldering is in het volgende hoofdstuk doorgebouwd.

2.4 Meetfouten versus simultaniteit bij kanslimietenschatters

In deze paragraaf zijn de kanslimietenschatters benaderd in het geval dat het model om het inkomenseffect te bepalen één regressor bevat. Met dit versimpelde model is geïllustreerd welk effect de meetfouten en de simultaniteit hebben op de schatters. Er wordt uitgegaan van het volgende model:

y = Hδ + u (2.1)

Hier stelt y (n×1) de gezondheidsstatus voor met n observaties. H (n×1) het inkomen zonder de meetfouten, δ (1×1) de coëfficiënt van het inkomenseffect en u (n×1) de storingsterm in het model zonder meetfouten. De volgende vergelijking geeft het inkomen weer met meetfouten:

(13)

9

H˚ = H + ζ (2.2)

Hier stelt H˚ (n×1) het inkomen voor met meetfouten en is ζ (n×1) de storingsterm van vergelijking (2.2). Op deze manier zijn de meetfouten toegevoegd aan het model. De simultaniteit is op de volgende manier geïntegreerd:

plim(H′u) = nσ!" ≠ 0 (2.3)

Om y te kunnen schrijven in termen van het inkomen met meetfouten is vergelijking (2.2) omgeschreven naar H = H˚– ζ. Wanneer de omgeschreven versie van vergelijking (2.2) geïmplementeerd is in model (2.1) wordt het model (2.4) over het inkomenseffect met meetfouten verkregen:

y = (H˚ – ζ)δ + u = H˚δ + u - ζδ (2.4)

De formule van de kleinstekwadratenschatter is: 𝛿ols = (H˚  ′H˚)-1(H˚′y). Wanneer het model met meetfouten (2.4) ingevuld is, wordt de volgende OLS-schatter verkregen:

𝛿ols = δ + (H˚′H˚)-1H˚′u - (H˚′H˚)-1!ζ𝛿 (2.5)

Vervolgens gaan we de kanslimietenschatter van 𝛿ols in (2.5) bepalen. Daarvoor kan de formule (2.5) in 3 aparte delen opgesplitst worden10. Dan ontstaan, met vergelijking (2.3), plim(H˚′H˚) = nσ! en plim(ζ!ζ) = nσ

!

!,de volgende drie delen:

plim(δ) = δ (2.6)

plim((H˚′H˚)-1H˚′ζ𝛿) =

plim((H˚′H˚)-1)*plim(H′ζ𝛿)  + plim((H˚′H˚)-1)*plim(ζ′ζ𝛿)= 𝛿 ∗ !!!

 !! (2.7)

plim((H˚′H˚)-1H˚′u) =

plim((H˚′H˚)-1)*plim(H′u)  + plim((H˚′H˚)-1)*plim(ζ′u) =

!!"

!! (2.8)

(14)

10

Deze drie verschillende delen resulteren in de kanslimiet van de OLS-schatter. Dus plim(  𝛿ols) = (2.6) – (2.7) + (2.8): plim(  𝛿ols) = δ (1 - !!!  !! ) + !!" !! (2.9) plim(  𝛿iv) = δ (2.10)

Vergelijking (2.10) geldt omdat de IV-methode corrigeert voor meetfouten en simultaniteit. Zoals voorspeld is de OLS-schatter niet consistent, plim(  𝛿ols ) ≠ 𝛿. De tweede term van de plim(  𝛿ols) is veroorzaakt door de meetfouten. De derde term van plim(𝛿ols) is veroorzaakt door de simultaniteit tussen het inkomen en de gezondheid. Uit (2.9) kan worden afgeleid dat de meetfouten inderdaad tot een lagere schatting van de kleinstekwadratenschatter leiden, omdat de tweede term kleiner of gelijk aan nul is bij een positieve coëfficiënt 𝛿 > 0. Verder kan worden afgeleid dat simultaniteit inderdaad leidt tot een grotere schatting van δ. De covariantie σ!" > 0 bij de variabelen inkomen en gezondheid en varianties zijn altijd positief.

In de onderzoeken van Ettner (1996), Meer et al. (2003) en Lindahl (2005) waren de OLS-schatters kleiner dan de IV-schatters. Hieruit volgt dat het effect van de meetfouten groter is dan het effect van de simultaniteit in het geval dat de meetfouten in de verklarende variabele de enige oorzaak zijn van de demping van de OLS-schatter. In het volgende hoofdstuk is door de Monte Carlosimulatie met de dataset van Tanovic (2013) nieuwe data gegenereerd. Er is overwogen voor welke combinaties van waarden van meetfouten en simultaniteit de OLS-schatter kleiner is dan de IV-schatter. Door te analyseren welke combinaties realistisch zijn is geconcludeerd of de gevonden onderschatting veroorzaakt is door slechts meetfouten in het inkomen of dat andere oorzaken, zoals meetfouten in de controlevariabelen of het heterogene causale effect, ook een rol hebben gespeeld in de onderschatting.

3

Data en methode

Met deze illustratie in het achterhoofd is in het volgende hoofdstuk geanalyseerd welke combinatie van waarden van meetfouten en simultaniteit zorgen voor de kleinere kwadratenschatter. Met de data uit de dataset van Tanovic (2013), welke besproken is in de eerste paragraaf, is een datagenererend proces verkregen welke gelijk is aan model (2.1),

(15)

11

maar nu met meerdere regressoren. Dit proces en de daarbij horende OLS-schatter, IV-schatter, residuen en covariantiematrix zijn in paragraaf 2 besproken. In de derde paragraaf zijn de instrumenten getoetst en de schatters en covariantiematrix besproken. Met deze data, het datagenererend proces en de schatters is in de vierde paragraaf nieuwe data verkregen. In deze data kunnen de designparameters uit paragraaf 5 worden aangepast om te analyseren voor welke combinaties de OLS-schatter ondergeschikt is aan de IV-schatter.

3.1 De dataset van Tanovi𝐜

Tanovic (2013) onderzoekt net zoals Ettner (1996), Meer et al. (2003) en Lindahl (2005) onder andere het welvaartseffect op de gezondheid. Net zoals de andere onderzoekers merkt ze de eigenaardige onderschatting van de OLS-schatter op. Tanovic (2013) onderzoekt onder andere het effect van een inkomensvariabele op de ‘Humane Immunodeficiëntievirus’-status, beter bekend als de hiv-status, van personen in Namibië. Geschat is dat HIV bij 13,1 procent van de bevolking in Namibië voorkomt, waarmee het land behoort tot een van de zwaarst getroffenen landen van dit virus11. Tanovic (2013) gebruikt een longitudinale dataset waarbij dezelfde enquête in drie verschillende jaren is afgenomen door het ‘Amsterdam Institute for International Development’ (AIID) in Windhoek, de hoofdstad van Namibië. Het onderzoek bestaat naast hiv-resultaten uit een aantal sociaaleconomische en medische vragen die zijn afgenomen in de jaren 2006/2007, 2008 en 2009 respectievelijk. Er hebben 1769 Namibische huishoudens meegewerkt (Tanovic, 2013).

De gezondheidsvariabele in Tanovic (2013) haar onderzoek is een dummy voor de hiv-status, waarbij een persoon een 1 toegewezen krijgt wanneer hij of zij positief getest is op HIV. Dit onderzoek behelst zoals het onderzoek van Aydemir en Borjas (2011) een negatieve correlatie tussen de afhankelijke variabele en de gezondheidsstatus. In haar onderzoek staat een 1 in de dummy voor de hiv-status voor een slechte gezondheidsstatus.

Als endogene inkomensvariabele is de welvaartsindex genomen. Deze welvaartsindex is net als eerder genoemde inkomensvariabelen endogeen door de simultaniteit met de gezondheidsvariabele. Tanovic (2013) zet uiteen dat welvaart invloed heeft op de hiv-status doordat het ondervoeding voorkomt, mogelijkheid geeft tot het kunnen veroorloven van gezondheidszorg, reizen of migratie die afhankelijk zijn van de welvaart en door het gedrag

11 Uit een rapport van ‘UNAIDS’ over de globale aids epidemie, http:

//www.unaids.org/globalreport/global_report.htm.  

(16)

12

dat gepaard gaat met het blootgesteld staan aan het krijgen van hiv. Daartegenover staat dat hiv ook invloed heeft op de welvaartsstatus doordat geïnfecteerde mensen vaak minder gaan werken, eventueel hun baan verliezen en hun geld anders uit gaan geven. De welvaartsindex is gedefinieerd op basis van verschillende huishoudenskarakteristieken. Allereerst zijn er dummy’s voor het wonen in een (half)vrijstaand huis of appartement, het bezitten van een huis, muren van een goede kwaliteit in de woonplek hebben, een goede kwaliteit plafond, een goede kwaliteit vloer, het hebben van stromend water en mogelijkheid tot koken met gas of elektriciteit. Ten slotte zijn er variabelen voor het aantal kamers in het huis, het aantal badkamers in het huis en het aantal objecten dat je bezit van een bepaalde lijst met 25 gebruiksvoorwerpen12. Van deze variabelen is een gewogen gemiddelde genomen waardoor de welvaartsindex weergeeft hoe welvarend een persoon is.

Vanwege de genoemde endogeniteit is er ook een IV-regressie uitgevoerd. De eerste instrumentele variabele die Tanovic (2013) gebruikt is het natuurlijke logaritme van de consumptie per maand13 exclusief de uitgifte aan gezondheidsfactoren. Bestedingen aan zulke factoren leidt tot endogeniteit. Doordat consumptie en welvaart gecorreleerd zijn dient te consumptie als instrument voor de welvaartsindex. De tweede instrumentele variabele is een exogene welvaartsindex. Deze is samengesteld uit de volgende variabelen: educatie, etniciteit en woonplaats. Deze variabelen zijn exogeen met de hiv-status en sterk gecorreleerd met inkomensvariabele waardoor de exogene welvaartsindex kan dienen als instrument. De laatste instrumentele variabele is een dummy voor de moedertaal van de persoon. Deze dummy is exogeen met de hiv-status omdat de dummy’s constant zijn door de jaren heen voor elk individu. Ook is er geen reden om aan te nemen dat moedertaal of etniciteit een verklarende variabele is voor de HIV-status. Verder heeft de moedertaal van een individu correlatie met zijn/haar welvaart.

De exogene variabelen die gebruikt zijn bestaan ten eerste uit zes dummy’s voor de woonplaats. Deze zijn exogeen omdat ze per huishouden constant zijn gehouden voor de drie opvolgende onderzoeken. Mocht een huishouden tussen het eerste en laatste onderzoek verhuizen, dan wordt dit huishouden bij het onderzoek buiten beschouwing gelaten. Verder is er gebruikt gemaakt van vier dummy’s voor educatie die gebaseerd zijn op het hoogst behaalde diploma, vier dummy’s voor de burgerlijke status, een dummy voor het geslacht, een dummy voor het hebben van een baan, een variabele waarin aangegeven is hoe groot de

12  Op deze lijst staan onder andere een wasmachine, een ijskast, verwarming, een telefoon, een televisie en een

auto.  

(17)

13

kennis van een huishouden over hiv is op een schaal van 0 tot 12, twee variabelen voor de leeftijd en een variabele voor het aantal personen waarvan de ondervraagde weet dat ze gestorven zijn aan aids. Er is ook een constante toegevoegd. De genoemde exogene variabelen dienen als controle variabelen voor de OLS- en de IV-regressie.

Als kanttekening moet worden toegevoegd dat de dataset uit Windhoek op dit moment aangepast is ten opzichte van de dataset in 2013. Het AIID is erachter gekomen dat er een paar fouten gemaakt zijn tijdens de enquêtes in 2006/2007, 2008 en 2009 en dat een van de afnemers gefraudeerd heeft bij een aantal vragen. De dataset die in deze scriptie gebruikt is, wijkt dus iets af van die Tanovic (2013) gehanteerd heeft. Om deze reden zullen de gevonden schatters en bijbehorende residuen en covariantiematrix dus ietwat afwijken.

3.2 Het datagenererend proces

Om de nieuwe data te kunnen genereren met de Monte Carlosimulaties dienen eerst de ietwat afwijkende schatters, residuen en covariantiematrix verkregen te worden met het datagenererende proces van Tanovic (2013). Met de in de vorige paragraaf genoemde regressoren heeft Tanovic (2013) de OLS-regressie en de IV-regressie van de hiv-status op de welvaartsindex uitgevoerd. Na het buiten beschouwing laten van huishoudens die tijdens het eerste en laatste onderzoek verhuisd zijn of om andere redenen niet meer representatief zijn voor het onderzoek, blijven er 1632 huishoudens over. In vergelijking (2.1) staat het datagenererend proces dat nodig is om de ietwat afwijkende schatters te reproduceren. De matrix H kan worden uitgesplitst in een endogeen deel, Y, met coëfficiënt 𝛽 en een exogeen deel met constante, X en coëfficiënt γ. Dit resulteert in het volgende model:

y = Y𝛽+ Xγ + u, (3.1)

In dit model is de afhankelijke variabele y (1632x1) de hiv-status. De endogene verklarende variabele Y (1632x1) is de welvaartsindex met 𝛽  (1x1) als coëfficiënt. Matrix X (1632x19) bestaat uit exogene verklarende variabelen met een constante. γ (19x1) is de bijbehorende coëfficiënt. Dit resulteert in matrix H (1632x20) en coëfficiënt 𝛿 (20x1). De storingsterm u (1632x1) is normaal verdeeld: u~N(0,σ!!). De herleide vorm is uitgedrukt in het volgende

model:

(18)

14

De matrix Z (1632x22) bestaat uit instrumentele variabelen, een constante en de exogene variabelen. Matrix Z gaat gepaard met coëfficiënt П (22x1). De storingsterm v (1632x1) is normaal verdeeld: v~N(0,σ!!).

Met de variabelen in model (3.1) en (3.2) zijn de OLS-schatter, de IV-schatter en de schatter  П van de herleide vorm op de volgende manieren verkregen:

𝛿!"# = (H′H)-1H′y (3.3) 𝛿!" = (H′PzH)-1H′Pzy (3.4)

П = (Z′Z)-1Z′Y (3.5)

In model (3.4) komt de projectie matrix Pz voor, Pz = Z(Z′Z)-1Z′. Door deze gevonden schatters te implementeren in vergelijking (2.1) en (3.2) zijn de residuen u en v bepaald. In matrix U staan de vectoren van deze residuen naast elkaar. Met deze matrix U is de covariantiematrix gemaakt:

Σ= !!!  

! (3.6)

De variabele n in vergelijking (3.6) staat voor het aantal waarnemingen, namelijk 1632 huishoudens.

In deze paragraaf is toegelicht hoe de invoer voor de Monte Carlosimulatie is verkregen. Aan de hand van deze dataset zijn met behulp van deze Monte Carlosimulatie nieuwe data gegenereerd, in welke ook variabelen voor de meetfouten en simultaniteit zijn toegevoegd. Met deze nieuw gesimuleerde data kan onderzocht worden voor welke waarden van de designparameters de OLS-schatter kleiner is dan de IV-schatter. Allereerst zijn in de volgende paragraaf de uit de dataset verkregen schatters besproken, de instrumenten uit de dataset getoetst en is de covariantiematrix besproken.

3.3 Toetsen op de data

Voordat de dataset van Tanovic (2013) gebruikt is om nieuwe data mee te generen, zijn de schatters geëvalueerd, de instrumenten getoetst op sterkte en validiteit, de regressoren op exogeniteit, en is de covariantiematrix geëvalueerd:

1. Coëfficiënten: Door een OLS-regressie en een IV-regressie uit te voeren van de welvaartsindex op de hiv-status ontstaan respectievelijk de volgende OLS-schatter en

(19)

15

IV-schatter: -0.020 en -0.036. De hiv-status is negatief gecorreleerd met een gezondheidsstatus. De negatieve gevonden coëfficiënten voldoen aan de verwachting dat inkomen en gezondheidsstatus een positieve correlatie hebben, omdat een positieve hiv-status staat voor een slechte gezondheidsstatus. De groottes van de coëfficiënten voldoen ook aan de gevonden waarden van Ettner (1996), Meer et al. (2003), Lindahl (2005) en Tanovic (2013). Ook hier is de OLS-schatter absoluut gezien kleiner dan de IV-schatter. De IV-schatter is in dit geval de werkelijke waarde, 𝛿!, omdat de IV-methode gecorrigeerd heeft voor de endogeniteit en meetfouten. De gevonden Monte Carlostandaardfouten zijn 0.000 en 0.000. Deze lage waarden zijn in hoofdstuk 4 besproken.

2. Zwakke instrumenten: Om uit te kunnen gaan van een goede IV-schatter moet getoetst worden of de gebruikte instrumentele variabelen niet zwak zijn. Instrumentele variabelen kunnen zwak zijn doordat ze onvoldoende correleren met de endogene variabelen die ze vervangen. Omdat er in model (3.1) sprake is van slechts één endogene variabele kan er gebruik worden gemaakt van de methode van Staiger en Stock (1997). Zij stellen dat de toets voor zwakke instrumenten in dit geval gedaan kan worden aan de hand van een vuistregel. Wanneer de F-toetsgrootheid van de eerste stap van de 2SLS-methode14 groter is dan 10 worden de instrumenten beschouwd als niet zwak. De F-toetsgrootheid is 10.530. Naar aanleiding van deze toets is er geen reden om aan te nemen dat de instrumenten niet geschikt zijn voor de IV-regressie.

3. Valide instrumenten: Voor een IV-regressie zijn instrumenten nodig die valide zijn. Valide instrumenten zijn instrumenten die exogeen zijn in de zin dat ze onafhankelijk zijn van de storingsterm. De nulhypothese dat alle instrumenten valide zijn is getoetst met een Hansen-Sargan toets. De gevonden Hansen’s J-toetsgrootheid is gelijk aan 4.915 (Hansen, 1982). Deze grootheid is asymptotisch verdeeld als χ! m − k , waarbij m staat voor het aantal instrumenten en k staat voor het aantal regressoren. De J-toetsgrootheid is asymptotisch χ! 2 verdeeld. De bijbehorende P-waarde is 0.090. De nulhypothese dat de instrumenten valide zijn is dus niet verworpen. Er is geen reden om aan te nemen dat de instrumenten niet valide zijn.

4. Exogeniteit regressoren: De C-toets van Baum et al. (2003), die ook wel de ‘difference-in-Sargan’-toets wordt genoemd, is gehanteerd om te toetsen of de

14  2SLS staat voor de ‘two stage least squares’-methode, een schattingsmethode om te gebruiken bij

(20)

16

endogene regressoren eventueel toch exogeen zijn. De nulhypothese stelt dat de welvaartsindex endogeen. De waarde van de C-toets is 2.167, welke asymptotisch

χ! 1 verdeeld is omdat er één regressor getest wordt. De bijbehorende P-waarde is 0.151. De nulhypothese dat de welvaartsindex endogeen is wordt hiermee niet verworpen. Er is geen reden om ervan uit te gaan dat de welvaartsindex exogeen is. 5. Covariantiematrix: Door de gevonden schatter weer te implementeren in het model

kunnen de residuen van vergelijking (3.1) en (3.2) gevonden worden. Met deze residuen is de covariantiematrix samengesteld. De covariantiematrix Σ heeft de volgende waarden: Σ = 0.045 0.006

0.006 0.126 . De covariantie tussen u en v, σ!", is 0.006. Dit is de mate van simultaniteit gevonden in de dataset van Tanovic (2013).

Concluderend kloppen de coëfficiënten en de covariantiematrix met de onderzoeken van Ettner (1996), Meer et al. (2003), Lindahl (2005) en Tanovic (2013) en met de economische theorie. De toetsen geven geen reden om te twijfelen aan de keuze van de instrumenten en zullen dus geen grote onzuiverheid geven in de schattingen. De besproken dataset is in de volgende paragraaf gebruik om nieuwe data te genereren. De samenvatting van de resultaten van deze paragraaf staat in tabel B in bijlage 1.

3.4 Monte Carlosimulatie

De Monte Carlosimulatie uit dit onderzoek is opgenomen in bijlage 2. Bij deze simulatie zijn er herhaaldelijk waarden uit een kansverdeling getrokken met het computerprogramma Matlab. Deze trekkingen zijn als nieuwe data voor model (3.1) en (3.2) gebruikt. Allereerst zijn er R replicaties uitgevoerd om de nieuwe storingstermen u(j) en v(j) te trekken uit een multivariate normale verdeling met verwachting nul en variantie Σ uit vergelijking (16). De variabele j staat voor de j-de replicatie, waarbij j loopt van 1 tot R. Vervolgens is er een factor voor de meetfouten toegevoegd aan vergelijking (3.4) waardoor de nieuwe vergelijking er als volgt uitziet:

Y = ZП + v + ζ (3.7)

De meetfouten zijn normaal verdeeld: ζ ~ N(0,σ!!), waarbij de variantie van de meetfouten

vrij gekozen is. ζ(j) is met R replicaties getrokken uit de normale verdeling met verwachten gelijk aan nul en variantie gelijk aan σ!!. De nieuwe endogene en afhankelijke variabele zijn

(21)

17

Y(j) = ZП + v(j) + ζ(j) (3.8)

H(j) = (Y(j) X) (3.9)

y(j) = H(j)𝛿

!"# + u(j) (3.10)

Op deze manier is door een Monte Carlosimulatie nieuwe data gesimuleerd. Met deze data zijn de nieuwe OLS-schatter en de IV-schatter bepaald:

𝛿!"#(!)) = (H(j)′H(j))-1H(j)′y(j) (3.11) 𝛿!"(!)= (H(j)′PzH(j))-1H(j)′Pzy(j) (3.12) In de volgende paragraaf zijn de designparameters besproken voor welke de waarden gevarieerd worden om te analyseren voor welke waarden van deze parameters de kleinstekwadratenschatter kleiner is dan instrumentele variabelenschatter.

3.5 De designparameters

Hieronder zijn de designparameters opgesomd en kort beschreven. Deze designparameters zijn in de Monte Carlosimulatie gebruikt en gevarieerd:

- Covariantie tussen u en v, σ!": De designparameter om de mate van simultaniteit weer te geven. De geschatte covariantiematrix Σ bestaat uit de volgende elementen: Σ = !!!   ! !!! ! !!! ! !!! !

. De mate van covariantie tussen de residuen u en v geeft de mate van simultaniteit aan. Verwacht wordt dat bij een stijging van de covariantie de OLS-schatter stijgt. De covarianties waarmee gevarieerd is zijn -0.01, -0.005, 0, 0.005, 0.01. De gevonden covariantie uit de dataset van Tanovic (2013) is 0.006. Rondom deze waarde is gevarieerd.

- Variantie van ζ, σ!!: De designparameter om de mate van meetfouten aangegeven. De meetfouten ζ zijn als volgt verdeeld: ζ ~ N(0,σ!!). De variante geeft dus aan in welke

mate de meetfouten afwijken van nul. Voor een grotere variantie van de meetfouten hebben de meetfouten dus een grotere invloed op de schatters. Verwacht wordt dat bij een stijging van de variantie de OLS-schatter stijgt door de negatieve schatters. De gekozen varianties waarmee de meetfouten gevarieerd is zijn 0, 0.4 en 0.8. Er zijn geen varianties groter dan 0.8 gekozen, omdat de variantie van de endogene variabele Y, waaraan de meetfouten worden toegevoegd, 0.857 is.

(22)

18

- Variantie van v, σ!!: Rechtsonder in de covariantiematrix Σ is de variantie van het

residu van de herleide vorm (3.2) te vinden. Deze kan aangepast worden voor de sterkte van de instrumenten. Een stijging van de variantie van het residu staat voor een daling in de sterkte van de instrumenten. Verwacht wordt dat bij een stijging van de variantie van het residu v, en dus een daling van de instrumentensterkte, de OLS-schatter dichter bij de IV-OLS-schatter komt de liggen. Naarmate de instrumenten sterker zijn, de variantie het residu v kleiner, zal de IV-schatter meer verschillen van de OLS-schatter. Sterkere instrumenten zorgen namelijk voor een meer gecorrigeerde IV-schatter. De gekozen varianties om mee te variëren zijn: 0.05, 0.12, 0.2. De gevonden waarde van de variantie van het residu uit de dataset is 0.124. Rond deze waarde zijn de gekozen varianties gevarieerd.

Met behulp van deze designparameters is in het volgende hoofdstuk geanalyseerd voor welke waarden van deze parameters de OLS-schatter wordt dan de IV-schatter en de meetfouten dus zwaarder meewegen dan de simultaniteit. Ook is de variantie van het residu van de herleide vorm gevarieerd. Vervolgens is geconcludeerd of deze waarden voor de designparameters realistisch zijn en of de meetfouten dus een oorzaak kunnen zijn voor de gevonden onderschatting van de kleinstekwadratenschatter.

4

Resultaten

Wanneer de Monte Carlosimulatie uit wordt gevoerd kan worden onderzocht welke invloed de designparameters hebben op de OLS-schatter en de IV-schatter. In dit hoofdstuk zijn de resultaten van de simulatie besproken. De verkregen resultaten staan bij elkaar in de panels van tabel C in bijlage 1. Eerst is uiteengezet hoe de resultaten in bijlage 1 precies verkregen zijn. In de eerste paragraaf is voor de simultaniteit, de meetfouten en de sterkte van de instrumenten besproken welke invloed deze hebben op de schatters. In de tweede paragraaf is geanalyseerd welke invloed deze designparameters hebben op het gedrag van de Sargan-toets.

Voor de Monte Carlosimulatie zijn er 10000 replicaties genomen. Dit is standaard voor Monte Carlosimulaties. De designparameter voor de simultaniteit is met vijf waarden gevarieerd, namelijk: -0.01, -0.005, 0, 0.005, 0.01. De designparameter voor de meetfouten heeft drie gekozen waarden: 0, 0.4, 0.8. De designparameter van de sterkte van de instrumenten varieert tussen 0.05, 0.12 en 0.2. Bij elke combinatie van deze waarden wordt de vertekening van de OLS-schatter in de tweede kolom van de tabel genoteerd, en de

(23)

19

vertekening van de IV-schatter in de vierde kolom. De vertekening wordt op de volgende manier verkregen, waarbij 𝛿! de werkelijke waarde van het welvaartseffect op HIV is:

Vertekening(OLS) = E(𝛿!"#(!) )  -  𝛿! (4.1)

Vertekening(IV) = E(𝛿!"(!)) - 𝛿! (4.2) In de derde en vijfde kolom is van elke OLS-schatter en IV-schatter de ‘Root Mean Squared Error’ genoteerd. Deze wordt op de volgende manier verkregen:

RMSEOLS = !! ! (𝛿!"#! −  𝛿!) !!! ! (4.3) RMSEIV = ! ! (𝛿!" ! −  𝛿 !) ! !!! ! (4.4)

In de zesde kolom staat de verwerpingskans van de Sargan-toets. Deze wordt verkregen door een indicator functie I(.) te modelleren die voor elke replicatie de waarde één aanneemt als zijn argument waar is en in het geval het argument onwaar is een nul aanneemt. Het argument van deze indicatorfunctie is dat voor een replicatie de toetsgrootheid LM groter is dan de kritieke waarde die hoort bij α. In dit onderzoek gaan we uit van een nominaal significantieniveau α=0.05. Het aantal vrijheidsgraden is 2. De toetsgrootheid LM, haar asymptotische verdeling onder de nulhypothese, de verwerpingskans VK en de bijbehorende standaardfout SF zijn als volgt verkregen:

LM = n!!!!! !!! ~ χ !(2) (4.5) VK = !! ! I !!! (LM > χ!.!"! (2)) (4.6) SF (LM) = !"(!!!")! (4.7)

4.1 Simultaniteit, meetfouten en instrumentensterkte

Zoals voorspeld stijgt de OLS-schatter als de covariantie tussen u en v stijgt. Simultaniteit heeft een positief verband met de OLS-schatter. Door de negatieve schatters zorgt een stijgende simultaniteit absoluut gezien voor een daling in het inkomenseffect. Uit de resultaten blijkt dat de OLS-schatter ongeveer lineair stijgt in de simultaniteit. Voor waarden van σ!" tussen de -0.01 en -0.005 is vertekening van de OLS-schatter negatief. Dat wil

(24)

20

zeggen dat de OLS-schatter kleiner is dan de werkelijke waarde. Voor waarden van σ!" tussen de 0.005 en 0.01 is de vertekening van de schatter positief. De vertekening van de IV-schatter daarentegen, blijft ongeveer overal gelijk ongeacht de waarde van σ!". In een enkele tabel zie je een heel lichte stijging van de vertekening. De vertekening van de IV-schatter ligt steeds rond 0. De gevonden IV-schatters liggen dus heel dicht bij de werkelijke waarde. Dat de IV-schatter zo goed geschat is komt waarschijnlijk doordat er zo veel waarnemingen zijn, namelijk 1632 huishoudens en doordat de instrumenten sterk en valide zijn.

De OLS-schatter wordt groter dan de IV-schatter voor waarden van σ!" tussen de -0.005 en 0.005. Het ligt aan de andere designparameters wanneer dit precies gebeurt. Voor waarden van de simultaniteit kleiner dan -0.005 is de OLS-schatter een stuk kleiner dan de IV-schatter. Deze grootte in verschillen kwamen ongeveer voor in de onderzoeken van Ettner (1993), Meer et al. (2003), Lindahl (2005) en Tanovic (2013). In het geval dat σ!" kleiner is dan -0.005 is het aannemelijk dat meetfouten de reden geweest kunnen zijn voor de gevonden onderschatting van de kleinstekwadratenschatter. Voor waarden van de simultaniteit groter dan 0.005 is de OLS-schatter voor elke waarde van andere designparameters groter dan de IV-schatter. In het geval dat σ!"> 0.005 kunnen de gevonden onderschattingen van de OLS-schatters uit de onderzoeken dus niet veroorzaakt zijn door slechts meetfouten en hebben de genoemde andere eventuele oorzaken waarschijnlijk ook invloed.

Bij de meetfouten blijkt er uit de resultaten iets anders dan verwacht werd. Wanneer de variantie van de meetfouten stijgt, blijft de verwachte stijging van de kleinstekwadratenschatter uit voor bepaalde waarden van de simultaniteit. Voor waarden van σ!" tussen de -0.01 en -0.005 leidt een stijging van de meetfouten tot een stijging van de OLS-schatter. Bij waarden van σ!" tussen de -0.01 en -0.005 leidt een stijging van de meetfouten juist tot een daling van de OLS-schatter. De OLS-schatter convergeert voor grotere waarde van de meetfouten sterker naar de werkelijke waarde waardoor de vertekeningen kleiner zijn, terwijl meetfouten normaliter geen corrigerend effect hebben op de OLS-schatter. Een Monte Carlosimulatie met slechts één regressor, om te corrigeren voor covarianties met andere verklarende variabelen, zorgt voor dezelfde onverwachte reacties van de OLS-schatter op een stijging van de meetfouten. Een verandering van de meetfouten heeft net zoals een verandering van de simultaniteit nauwelijks invloed op de vertekening van de IV-schatter.

In de tabellen is te zien dat bij het stijgen van de variantie van het residu van de gereduceerde vorm de OLS-schatter meer convergeert naar de schatter. Door de

(25)

IV-21

schatter die bijna gelijk is aan de werkelijke waarde, komt de OLS-schatter ook dichter bij de werkelijke waarde te liggen. Voor negatieve waarden van de simultaniteit zorgt een grotere variantie van het residu dus voor een hogere OLS-schatter. Voor positieve waarden van de simultaniteit zorgt een grotere variantie voor een lagere OLS-schatter. De genoemde onderzoekers vonden alle vier een onderschatting van de kleinstekwadratenschatter. Naarmate de variantie daalt neemt de OLS-schatter voor de vastgestelde waarden van de simultaniteit versterkte lage en hoge waarden aan. Hoe kleiner de variantie is en hoe sterker de instrumenten dus zijn, des te realistischer is dat de meetfouten de oorzaak zijn van de gevonden variantie. Een stijging in de variantie van de meetfouten heeft tot gevolg dat de OLS-schatter bij een bepaalde instrumentensterkte minder lage en minder hoge waarden aanneemt. Een stijging in de variantie van de meetfouten maakt het dus minder realistisch dat meetfouten de enige oorzaak zijn van de gevonden onderschatting van de OLS-schatter. Bij varianties groter dan 0.2 in combinatie met meetfouten groter dan 0.8 is de kans kleiner dat de zodanige onderschatting van de OLS-schatter gevonden wordt. Net zoals bij de simultaniteit en de meetfouten heeft de sterkte van de instrumenten ook weinig invloed op de IV-schatter.

De gevonden Monte Carlostandaardfouten van beide schatters zijn steeds opvallend laag. Naar verwachting is het hoge aantal waarnemingen de reden hiervoor. De RMSE’s van de OLS- en IV-schatter zijn steeds kleiner dan 0.04. Dit geeft geen reden om te twijfelen aan de kwaliteit van de schatters.

4.2 Verwerpingskans Sargan-toets

In de tabel is een kolom toegevoegd voor de verwerpingskans van de Sargan-toets om te analyseren hoe de Sargan-toets zich gedraagt bij verschillende waarden van simultaniteit, meetfouten en instrumentensterkte. Dit wordt geanalyseerd aan de hand van het betrouwbaarheidsinterval van Kieviet en Pleus (2011) met een nauwkeurigheid van 95%:

BI95% = [LM – 3 * SF(LM) ; LM + 3 * SF(LM)] (4.8) Voor elke verwerpingskans is er gekeken of de waarde van α=0.05 in het betrouwbaarheidsinterval ligt. Wanneer α erin ligt wijkt het significantieniveau van de toets niet af. In al de gevonden waarden van de verwerpingskans valt het nominale significantieniveau in het betrouwbaarheidsinterval. De Sargan-toets presteert dus goed voor de gebruikte waarden van σ!", σ!! en σ

!

(26)

22

significantieniveau van de toets nagenoeg constant voor variatie in de gebruikte varianties van de simultaniteit. De Sargan-toets is nagenoeg ongevoelig voor veranderingen in het niveau van de simultaniteit. Echter, de Sargan-toets is wel gevoelig voor veranderingen in het niveau van de meetfouten. Bij het stijgen van de meetfouten daalt de verwerpingskans. Deze daling is niet lineair. Wanneer de meetfouten stijgen van 0 naar 0.4 daalt de verwerpingskans ongeveer met 0.0020. Bij een stijging van de meetfouten van 0.4 naar 0.8 daalt de verwerpingskans met ongeveer 0.0007. Naarmate de meetfouten groter zijn wordt de Sargan-toets minder gevoelig voor veranderingen in de meetfouten. Ook bij een stijging van de instrumentensterkte daalt de verwerpingskans. Dezelfde afname in de daling van de verwerpingskans is hier te zien. De standaardfouten van de verwerpingskans geven geen reden om aan te nemen dat de gevonden waarden niet betrouwbaar zijn.

5

Conclusie

Afgelopen jaren zijn meerdere schrijvers in onderzoeken naar het inkomenseffect op de gezondheid gestuit op een OLS-schatter die kleiner is dan de IV-schatter. Theoretisch gezien werd door de simultaniteit juist een overschatting van de OLS-schatter verwacht. In deze scriptie is met Monte Carlosimulaties onderzocht of meetfouten de reden kunnen zijn van deze onderschatting van de kleinstekwadratenschatter. De schatters zijn steeds bepaald met verschillende combinaties van maten van simultaniteit, meetfouten en instrumentensterktes. Voor deze drie designparameters is ook onderzocht welk effect deze hebben op het gedrag van de Sargan-toets.

Uit de resultaten blijkt de simultaniteit een positief effect te hebben op de OLS-schatter. Voor grotere waarden van de simultaniteit daalt de grootte van de OLS-OLS-schatter. Voor waarden van de simultaniteit groter dan 0.05 is de OLS-schatter sowieso groter dan de IV-schatter, ongeacht de mogelijke waarden van de meetfouten. Voor deze waarden van de simultaniteit is het niet realistisch dat de onderschatting van de kleinstekwadratenschatter veroorzaakt is door meetfouten. Naarmate de waarde van de simultaniteit daalt, wordt het realistischer dat de gevonden onderschatting plaats heeft gevonden door de meetfouten. Het effect van de meetfouten op de OLS-schatter is een onverwacht effect. In plaats van dat een stijging van de meetfouten leidt tot een daling van de OLS-schatter, heeft de variantie van de meetfouten een convergerend effect naar de IV-schatter op de OLS-schatter. Doordat hogere waarden van de meetfouten leiden tot een sterke convergentie, is het geloofwaardiger dat meetfouten de oorzaak van de onderschatting zijn naarmate de variantie van de meetfouten

(27)

23

daalt. De instrumentensterkte heeft hetzelfde convergerende effect op de OLS-schatter als de meetfouten. Voor hogere waarden van de variantie van het residu van de herleide vorm zijn de instrumenten zwakker en neemt de convergentie van de OLS-schatter toe. Voor lagere waarden van de variantie van v is het realistischer dat de gevonden onderschatting komt door de meetfouten.

Wanneer men dus opzoek gaat naar het precieze inkomenseffect om de ‘health-health’-analyse uit te voeren, moet men zich er van bewust zijn dat meetfouten in de inkomende variabele een onderschatting van de OLS-schatter veroorzaken. Doordat meetfouten als enige oorzaak van de onderschatting slechts voorkwam bij bepaalde combinaties van de designparameters hebben de andere genoemde oorzaken waarschijnlijk ook invloed op de lager uitgevallen OLS-schatter.

Ook is er kort gekeken naar het gedrag van de Sargan-toets op de genoemde designparameters. Voor de gebruikte waarden van de simultaniteit, meetfouten en instrumentensterkte ligt het nominale significantieniveau in het betrouwbaarheidsinterval en is er dus geen reden om aan te nemen dat de Sargan-toets niet goed presteert.

Voor verder onderzoek kan er gekeken worden naar het onverwachte effect dat meetfouten op de OLS-schatter hebben.

(28)

24

Literatuur

Angell, M. (1993). Privilege and health - what is the connection? New England Journal of

Medicine 329(2), 126-127.

Aydemir, A. & G.J. Borjas, (2011). Attenuation Bias in Measuring the Wage Impact of Immigration. Journal of Labor Economics 29(1).

Baum, C.F. (2003). Instrumental variables and GMM: Estimation and testing. The Stata

Journal 3(1), 1-31.

Card, D. (2001). Estimating the Return to Schooling: Progress on Some Persistent Econometric Problems. Econometrica 69(5), 1127-1160.

Chapman, K.S. & G. Hariharan, (1994). Controlling for causality in the link from income to mortality. Journal of Risk and Uncertainty 8, 85-93.

Davis, B. & A.R. Karr, (1992). Bush to require regulators to weigh costs and impact on health, mortality. The Wall Street Journal.

Duleep, H.O. (1986). Measuring the effect of income on adult mortality using longitudinal administrative record data. Journal of Human Resources XXI(1), 238-251.

Duleep, H.O. (1989). Measuring socioeconomic mortality differentials over time.

Demography 26(2), 345-351.

Ettner, S.L. (1996). New evidence on the relationship between income and health. Journal of

Health Economics 15, 67-85.

Feinstein, J.S. (1993). The relationship between socioeconomic status and health: A Review of the Literature. The Milbank Quarterly 71(2), 279-322.

Hadley, J. & A. Osei, (1982). Does income affect mortality? An analysis of the effects of different types of income on age/sex/race-specific mortality rates in the United States.

Medical Care XX(9), 901-914.

Hansen, L.P. (1982). Large sample properties of generalized method of moments estimators.

Econometrica 50(4), 1029-1054.

Heij, C., P. de Boer, P.H. Franses, T. Kloek & H.K. van Dijk, (2004). Econometric Methods

with Applications in Business and Economics. New York: Oxford University Press

Inc.

Kip Viscusi, W. (1986). The Impact of Occupational Safety and Health Regulation 1973-83.

Rand Journal of Economics Winter 1986, 567-580.

(29)

25

prizes as an exogenous source of variation in income. Journal of Human Resources

40(1), 144-168.

Lutter, R. & J.F. Morrall, (1994). Health-health analysis: A new way to evaluate health and safety regulation. Journal of Risk and Uncertainty 8, 43-66.

Marshall, J. (1992). Deadly consequences. San Francisco Chronicle.

Meer, J., D.L. Miller & H.S. Rosen, (2003). Exploring the health-wealth nexus. Journal

of Health Economics 22, 713-730.

Penrod, J.R. & P.M. Lantz, (2000). Methodological Note Measurement Error in Prenatal Care Utilization: Evidence of Attenuation Bias in the Estimation of Impact on Birth Weight. Maternal and Child Health Journal 4(1).

Staiger, D. & J.H. Stock, (1997). Instrumental variables regression with weak instruments.

Econometrica 65(3), 557-586.

Tanovic, Z. (2013). The effect of poverty on HIV incidence in Namibia.

Thomsen, S. & M. Conyon, (2012). Corporate Governance: Mechanisms and Systems. Europe: Mcgraw-Hill Education.

(30)

26

Bijlage 1 Tabellen

Tabel A

Het effect van het logaritme van het inkomen op de volgende twee gezondheidsvariabelen: Panel 1   OLS-schatting   IV-schatting  

Health Rate NSFH   (0.01)0.11   (0.05)0.37  

Health Rate SIPP   (0.01)0.22   (0.06)0.97   *De standaardfouten staan tussen de haakjes

Het effect van de volgende rijkdomsvariabelen op een dummyvariabele voor de gezondheid: Panel 2   OLS-schatting   IV-schatting  

∆ Wealth   (0.02)0.05   1.00 (0.50)   Wealth variables   (0.05)0.08   0.99 (0.44)  

With other covariates  

0.05

(0.04)   (-0.02)0.94   *De standaardfouten staan tussen de haakjes

Het effect van de volgende drie inkomensvariabelen op een index van slechte gezondheid: Panel 3   OLS-schatting   IV-schatting  

Logaritme van het gemiddelde inkomen

1967-81   -0.51 (0.12)   -0.78 (0.42)  

Logaritme van het gemiddelde inkomen 1967-81 met meer

controlevariabelen   -0.22 (0.12)   -0.53 (0.40)  

Logaritme van het gemiddelde inkomen 1967-81 met nog meer

controlevariabelen   -0.22 (0.12)   -0.43 (0.39)   *De standaardfouten staan tussen de haakjes

(31)

27

Tabel B

De waarden van de schatters, van de toetsen op de instrumenten en regressoren, en van de covariantiematrix van de dataset van Tanovic (2013):

 Panel 4    Waarden    OLS-schatter   -0.020 (0.000)a   IV-schatter   -0.036 (0.000)a  

Sterkte van de instrumenten b   10.530  

Validiteit van de instrumenten c   0.0900  

Exogeniteit van de regressoren d   0.1590  

Covariantiematrix   0.047 0.0060.006 0.126  

a De standaardfouten staan tussen haakjes b F-toetsgrootheid, methode Staiger en Stock c P-waarde van Hansen’s J-toetsgrootheid d P-waarde van C-toetsgrootheid

(32)

28

Tabel C

De vertekening en de RMSE van de OLS-schatter respectievelijk de IV-schatter en de

verwerpingskans van de Sargan-toets voor gekozen waarden van de mate van simultaniteit en meetfouten en de variantie van het residu in de herleide vorm:

 

 σ!!  = 0, σ !

! = 0.05:

 Panel 5

σ!":   Vertekening(OLS)   RMSEOLS   Vertekening(IV)   RMSEIV    VK   -0.01   -0.0361 (0.0001)   0.0374   -0.0000 (0.0001)   0.0110   0.0538 (0.0023) -0.005   -0.0180 (0.0001)   0.0206   -0.0000 (0.0001)   0.0110   (0.0023)0.0537 0   (0.0001)0.0001   0.0099   -0.0000 (0.0001)   0.0110   (0.0023)0.0537   0.005   (0.0001)0.0181   0.0207   0.0000 (0.0001)   0.0110   0.0537 (0.0023)   0.01   (0.0001)0.0362   0.0375   (0.0001)0.0000   0.0110   (0.0023)0.0538  

*De standaardfouten staan tussen de haakjes

σ!!  = 0.4, σ !

! = 0.05:

 Panel 6

σ!":   Vertekening(OLS)   RMSEOLS   Vertekening(IV)   RMSEIV    VK  

-0.01   -0.0149 (0.0001)   0.0162 -0.0002 (0.0001)   0.0111   (0.0022)0.0515   -0.005   -0.0075 (0.0001)   0.0098   -0.0002 (0.0001)   0.0111   (0.0022)0.0515   0   -0.0001 (0.0001)   0.0064   -0.0002 (0.0001)   0.0111   (0.0022)0.0515   0.005   (0.0001)0.0073   0.0097 -0.0002 (0.0001)   0.0111   (0.0022)0.0515   0.01   (0.0001)0.0147   0.0160   -0.0002 (0.0001)   0.0111   (0.0022)0.0515  

(33)

29 σ!!  = 0.8, σ

!

! = 0.05:

 Panel 7

σ!":   Vertekening(OLS)   RMSEOLS   Vertekening(IV)   RMSEIV    VK  

-0.01   -0.0094 (0.0001)   0.0106   -0.0002 (0.0001)   0.0111   (0.0022)0.0508   -0.005   -0.0047 (0.0001)   0.0069   -0.0002 (0.0001)   0.0111   (0.0022)0.0508   0   -0.0001 (0.0001)   0.0050   -0.0002 (0.0001)   0.0111   (0.0022)0.0508   0.005   (0.0001)0.0046   0.0068   -0.0002 (0.0001)   0.0111   0.0508 (0.0022)   0.01   (0.0001)0.0092   0.0105   -0.0002 (0.0001)   0.0111   (0.0022)0.0508  

*De standaardfouten staan tussen de haakjes  σ!!  = 0, σ

!

! = 0.12:

 Panel 8

σ!":   Vertekening(OLS)   RMSEOLS   Vertekening(IV)   RMSEIV    VK  

-0.01   -0.0288 (0.0001)   0.0301   -0.0000 (0.0001)   0.0110   (0.0023)0.0534   -0.005   -0.0144 (0.0001)   0.0169   -0.0000 (0.0001)   0.0110   0.0534 (0.0023)   0   (0.0001)0.0001   0.0089   0.0000 (0.0001)   0.0110   0.0534 (0.0023)   0.005   (0.0001)0.0145   0.0170   (0.0001)0.0000   0.0110   (0.0023)0.0534   0.01   (0.0001)0.0289   0.0302   (0.0001)0.0000   0.0110   (0.0023)0.0534  

*De standaardfouten staan tussen de haakjes

σ!!  = 0.4, σ !

! = 0.12:

 Panel 9

σ!":   Vertekening(OLS)   RMSEOLS   Vertekening(IV)   RMSEIV    VK   -0.01   -0.0135 (0.0001)   0.0148 -0.0002 (0.0001) 0.0111 0.0514 (0.0022) -0.005   -0.0068 (0.0001)   0.0091 -0.0002 (0.0001)   0.0111   0.0514 (0.0022)   0   (0.0001)0.0001   0.0061 -0.0002 (0.0001)   0.0111   (0.0022)0.0514   0.005   (0.0001)0.0066   0.0090 -0.0002 (0.0001)   0.0111   (0.0022)0.0514   0.01   (0.0001)0.0133   0.0146 -0.0002 (0.0001)   0.0111   0.0514 (0.0022)   *De standaardfouten staan tussen de haakjes

Referenties

GERELATEERDE DOCUMENTEN

Future psychobiographers also benefit, since providing students with psychobiographical training secures them in history and traditional psychological theories, which

Alle Ou-Testa- mentiese verwysings in dié verband is gekoppel aan die Bybelhebreeuse woord saris behalwe in Deuteronomium 23:1 waar die kastrasieproses om- skryf word sonder dat

aeruginosa strains is the presence or absence of the peptide synthetase, mcyB, in toxin producing and non toxin-producing strains respectively (Dittmann et al.,..

As there were no scales available to measure social support in the Setswana- speaking group , this study was undertaken to determin e the applicability of the Perceived

Archive for Contemporary Affairs University of the Free State

Names of members of OFS Provincial Council 1919-1952; notes by DP van der Merwe; Congress of Central SA Regional Development Society 1950; motor vehicles statistics 1949;

Uitgangspunt voor de kostenschatting van het beheer is dat waar kerngebieden met agrarisch natuur- beheer gerealiseerd worden het percentage zwaar beheer tenminste 25% moet zijn en

The Potsdam Gait Study (POGS) will examine the effects of 10 weeks of power training and detraining on leg muscle power and, for the first time, on complete gait