Het effect van tegengestelde vormen van endogeniteit op het gedrag van de Hausmantest

(1)

Het effect van tegengestelde vormen van

endogeniteit op het gedrag van de

Hausmantest

Bachelorscriptie econometrie Benjamin van Arum – 10371400

Begeleiders: Milan Pleus en Maurice Bun Universiteit van Amsterdam Faculteit Economie en Bedrijfskunde

(2)

Abstract

In de econometrie is de relatie tussen inkomen en gezondheid vaak onderzocht. Onderzoekers gebruiken de Hausmantest om te toetsen of de verklarende variabele, het inkomen, exogeen is. In vrijwel alle gevallen is de variabele endogeen omdat er sprake is van een positief effect van inkomen op gezondheid, maar ook andersom. In dit geval is er simultaniteit aanwezig, dit zorgt ervoor dat de verklarende variabele gecorreleerd is met de storingsterm. In deze scriptie wordt onderzocht in hoeverre meetfouten de Hausmantest kunnen beïnvloeden als er

tegelijkertijd sprake is van een tegengestelde endogeniteit; simultaniteit. Wanneer er een positief verband is tussen inkomen en gezondheid zal simultaniteit een positief endogeen effect veroorzaken. Meetfouten veroorzaken daarentegen een dempend endogeen effect. In dit onderzoek is door middel van een Monte Carlosimulatie bevonden dat, als de meetfouten groot genoeg zijn, de Hausmantest exogeniteit niet verwerpt. Dit houdt in dat de verklarende variabele wordt waargenomen als exogene variabele terwijl deze eigenlijk endogeen is.

(3)

Inhoudsopgave

1 Inleiding 1

2 Theoretisch kader 2

2.1 Effect van inkomen op gezondheid ...………. 2

2.2 Endogeniteit ……… 3

2.3 Hausmantest ……… 4

3 Onderzoeksopzet 5 3.1 Datagenererend proces en het te schatten model ……… 5

3.2 Mate van endogeniteit ………. 6

3.3 Parameters bepalen ………. 7

3.4 Monte Carlosimulatie ………. 8

4 Resultaten en analyse 10 4.1 Het actuele significantieniveau ……….. 10

4.2 Drie verschillende situaties ……… 11

4.3 Lage waarde van endogeniteit bij sterke instrumenten ………….. 12

4.4 Hoge waarde van endogeniteit bij zwakke instrumenten ………... 14

5 Conclusie 15 Bibliografie 17

(4)

1 Inleiding

De relatie tussen inkomen en gezondheid is onderzocht door onder andere Ettner (1996), Meer et al (2003) en Lindahl (2005). De auteurs komen allen tot de conclusie dat een hoog inkomen een significante positieve invloed heeft op de gezondheid. Echter, er is iets vreemds op te merken wanneer men kijkt naar de resultaten van deze drie onderzoeken.

Inkomen heeft een positief effect op gezondheid, maar gezondheid heeft ook een positief effect op het inkomen. Mensen met een hoger inkomen zouden zich bijvoorbeeld betere medische zorg kunnen veroorloven. Werkenden met een goede gezondheid zouden productiever op de werkvloer kunnen zijn dan ongezonde mensen (Bloom et al., 2001). Dit zou kunnen resulteren in een hoger inkomen. Er is in dit geval sprake van simultaniteit omdat er een positief verband is in beide richtingen. Een regressie van gezondheidsstatus op

inkomen zou hierdoor een overschatting van het inkomenseffect op gezondheidsstatus veroorzaken wanneer de kleinstekwadratenmethode wordt gebruikt. Wanneer er een IV-regressie wordt uitgevoerd met valide instrumenten, wordt er verwacht dat de IV-schatter consistent, en dus kleiner, zal zijn in absolute waarde dan de OLS-schatting (Heij et al, 2004)

In theorie is de verwachting van de IV-schatter kleiner dan de verwachting van de OLS-schatter. Opmerkelijk is dat in de onderzoeken van Ettner (1996), Meer et al (2003) en Lindahl (2005) de IV-schatter juist groter is in absolute waarde dan de OLS-schatter. Deze uitkomst wordt door de auteurs toegeschreven aan meetfouten. De vraag die dit opwerpt is of de uitkomst van de grotere IV-schatter kan worden toegeschreven aan meetfouten. In Ettner (1996) wordt met de Hausmantest de nulhypothese, exogeniteit van de variabele inkomen, verworpen. Stel dat het inkomen endogeen is door twee verschillende oorzaken, zijnde meetfouten en simultaniteit. En stel vervolgens dat meetfouten een negatieve vertekening veroorzaken en simultaniteit een positieve vertekening. Hoe reageert de Hausmantest hierop? Kan de Hausmantest exogeniteit verwerpen als er sprake is van twee vertekeningen in

tegengestelde richting? Deze vraagstukken worden onderzocht in deze scriptie.

Om deze vraagstukken te beantwoorden wordt gebruikgemaakt van een Monte Carlosimulatie. In de simulatie wordt een datagenererend proces nagebootst met daarin een variabele die twee bronnen van endogeniteit bevat, zijnde meetfouten en simultaniteit. Er wordt geprobeerd een versimpelde versie van het datagenererend proces uit het paper van Ettner (1996) na te bootsen om te kunnen analyseren hoe de Hausmantest reageert op tegengestelde endogeniteiten. Een probleem zou kunnen zijn dat de Hausmantest de nulhypothese, exogeniteit van alle verklarende variabelen, niet goed kan verwerpen.

(5)

inkomen besproken. Ook wordt toegelicht hoe deze relatie kan worden onderzocht. In paragraaf twee van hoofdstuk 2, wordt duidelijk gemaakt hoe er endogeniteit aanwezig kan zijn in de relatie tussen inkomen en gezondheid. Dit wordt uitgelegd met behulp van een simpel model, waardoor te zien is hoe meetfouten en simultaniteit endogeniteit veroorzaken. Vervolgens komt in de derde paragraaf hoofdstuk 2 de Hausmantest aan bod. Hierin wordt uitleg gegeven over de toetsingsgrootheid van de Hausmantest en hoe deze toetsingsgrootheid verdeeld is. In hoofdstuk 3 zal de onderzoeksopzet uitgebreid aan bod komen. Er wordt toegelicht hoe het model is geïmplementeerd en wat voor coëfficiënten er zijn gespecificeerd om de hoofdvraag te kunnen beantwoorden. In hoofdstuk 4 volgen de resultaten van het onderzoek. Daarin worden de uitkomsten van de Monte Carlosimulatie weergegeven. Deze uitkomsten worden vervolgens geanalyseerd. In het laatste hoofdstuk wordt een conclusie getrokken waarmee de hoofdvraag wordt beantwoord.

2 Theoretisch kader

2.1 Effect van inkomen op gezondheid

Er zijn meerdere manieren om de invloed van het inkomen op de gezondheid te onderzoeken. Zo onderzoekt Attanasio (2000) de relatie tussen het inkomen en het sterftecijfer. Hij komt tot de conclusie dat het inkomen een negatief effect heeft op het sterftecijfer. Het sterftecijfer gaat dus omlaag bij een hoger inkomen. Ettner (1996) was een van de eersten die de relatie tussen inkomen en gezondheid onderzochten op een manier waar de variabele gezondheid werd gedefinieerd door het gebruik van verschillende gezondheidsindicaties. Voordat dit onderzocht werd, werd vaak alleen de relatie tussen het inkomen en het sterftecijfer onderzocht (Ettner, 1996).

Er zijn verschillende factoren die de gezondheid kunnen beïnvloeden. Daardoor is het lastig om een goede mate van gezondheid te definiëren. Zo gebruikt Ettner (1996) onder andere de hoeveelheid alcoholgebruik voor het meten van de gezondheidstoestand van de respondent. Lindahl (2005) gebruikt een gestandaardiseerde index van slechte gezondheid. Deze index wordt bepaald door onder andere overgewicht, hoofdpijn en verschillende symptomen van ziektes. Deze index beïnvloedt het inkomen negatief, een hogere index resulteert in een lager inkomen.

De data die gebruikt wordt voor de onderzoeken van Lindahl (2005) en Ettner (1996) zijn gebaseerd op door respondenten ingevulde enquêtes waarbij de respondent zelf zijn of

(6)

haar gezondheidsstatus moet bepalen. Een vraag die hierbij gesteld kan worden, is of de respondent in staat is geweest om het juiste antwoord in te vullen. Het zou bijvoorbeeld zo kunnen zijn dat het een momentopname is van de respondent waardoor het geen duidelijke weergave is van hoe de respondent zich in het te meten tijdsbestek werkelijk heeft gevoeld. Dit kan resulteren in meetfouten in de variabelen betreffende de mate van gezondheid (Dowd et al, 2011).

Hetzelfde fenomeen, meetfouten, kan ontstaan bij de data die verkregen is over het inkomen van de respondent. Men kan zich afvragen of de respondenten de vragenlijsten correct hebben ingevuld. Doordat sommige vragen onduidelijk kunnen zijn, of misschien anders zijn te interpreteren, kunnen meetfouten ontstaan. In de volgende paragraaf worden de gevolgen van meetfouten nader toegelicht.

2.2 Endogeniteit

Er is endogeniteit aanwezig in een model als een regressor gecorreleerd is met de

storingsterm. Hierdoor levert de OLS-schatting geen consistente schatter meer op (Heij et al, 2004). Endogeniteit kan meerdere oorzaken hebben. De oorzaken die in deze scriptie

besproken worden, zijn meetfouten en simultaniteit. In deze paragraaf zullen de gevolgen, die meetfouten en simultaniteit hebben op de schatters, worden toegelicht.

Eerst zal met een simpel model worden toegelicht hoe simultaniteit leidt tot

endogeniteit. Dit wordt gedaan aan de hand van een model uit het paper van Roberts (2011).

𝑦𝑦 = β𝑥𝑥 + 𝑢𝑢 (1) 𝑥𝑥 = 𝛼𝛼𝑦𝑦 + 𝑣𝑣 (2) 𝑥𝑥 = 𝛼𝛼𝛼𝛼𝑥𝑥 + 𝛼𝛼𝑢𝑢 + 𝑣𝑣 (3) 𝐸𝐸[𝑥𝑥𝑖𝑖 ∙ 𝑢𝑢𝑖𝑖] = 𝛼𝛼𝜎𝜎𝑢𝑢 2 1−𝛼𝛼𝛼𝛼 (4) 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝�𝛼𝛼̂𝑂𝑂𝑂𝑂𝑂𝑂� = 𝑐𝑐𝑐𝑐𝑐𝑐(𝑥𝑥,𝑦𝑦)_{𝑐𝑐𝑣𝑣𝑣𝑣(𝑥𝑥)} =𝑐𝑐𝑐𝑐𝑐𝑐(𝑥𝑥,𝛼𝛼𝑥𝑥+𝑢𝑢)_{𝑐𝑐𝑣𝑣𝑣𝑣(𝑥𝑥)} = 𝛼𝛼 +𝑐𝑐𝑐𝑐𝑐𝑐(𝑥𝑥,𝑢𝑢)_{𝑐𝑐𝑣𝑣𝑣𝑣(𝑥𝑥)} = 𝛼𝛼 +𝛼𝛼(1−𝛼𝛼𝛼𝛼)𝜎𝜎𝑢𝑢 2 𝛼𝛼2_∙𝜎𝜎_𝑢𝑢2_+𝜎𝜎 𝑣𝑣2 (5)

Hier is y de afhankelijke variabele, x de onafhankelijke variabele en u en v ongecorreleerde storingstermen. De dimensies van de variabelen zijn als volgt: y is een nx1 vector, x is een nx1 vector, u is een nx1 vector en v is een nx1 vector. Hier is n het aantal waarnemingen. Verder zijn β en α te beschouwen als constanten. Vergelijking (4) geeft de mate van endogeniteit aan. De afleiding van de OLS-schatter is te zien in vergelijking (5) waarin de laatste term de vertekening is. Echter, het is lastig om te bepalen of de vertekening negatief

(7)

dan wel positief is. Dit omdat dat afhangt van de waarde van α en β. In het geval van inkomen en gezondheid, zal de vertekening waarschijnlijk groter dan nul zijn omdat er sprake is van een positief effect in beide richtingen. Daaruit volgt dat α en β groter zijn dan nul.

Nu wordt gekeken naar hoe meetfouten in de inkomensvariabele kunnen resulteren in endogeniteit. Dit wordt gedaan met een voorbeeld van Roberts (2011) waar x wordt

geregresseerd op een y. De mate van endogeniteit is de laatste term uit vergelijking (10). In vergelijking (11) is weer de OLS schatter afgeleid met een vertekening in de laatste term.

𝑦𝑦 = 𝑥𝑥0_{𝛼𝛼 + 𝑢𝑢}0 ₍₆₎ 𝑥𝑥 = 𝑥𝑥0_{+ 𝑣𝑣} ₍₇₎ 𝑥𝑥0_{= 𝑥𝑥 − 𝑣𝑣} ₍₈₎ 𝑦𝑦 = 𝑥𝑥𝛼𝛼 + 𝑢𝑢0_{− 𝑣𝑣𝛼𝛼} ₍₉₎ 𝐸𝐸[𝑥𝑥(𝑢𝑢0_{− 𝑣𝑣𝛼𝛼)] = −𝛼𝛼𝜎𝜎} 𝑐𝑐2 (10) 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝�𝛼𝛼̂𝑂𝑂𝑂𝑂𝑂𝑂� = 𝛼𝛼 𝜎𝜎𝑥𝑥2 𝜎𝜎_𝑥𝑥2_+𝜎𝜎 𝑣𝑣2= 𝛼𝛼 − 𝛼𝛼𝜎𝜎𝑣𝑣2 𝜎𝜎_𝑣𝑣2_+𝜎𝜎 𝑥𝑥2 (11)

De dimensies van de variabelen in de vergelijkingen hierboven zijn als volgt. De variabele y is een nx1 vector, x0 is een nx1 vector, u0 is een nx1 vector, v is een nx1 vector en x is een nx1 vector. Hier is n het aantal waarnemingen. Verder zijn β en α constanten. De variabelen u0 en v zijn storingstermen.

Om toch een regressie uit te kunnen voeren terwijl er sprake is van endogeniteit, is het mogelijk een andere schattingsmethode te gebruiken, namelijk de IV-methode (Heij et al, 2004). Met deze schattingsmethode, kan door het gebruik van relevante exogene

instrumentele variabelen, een consistente schatter worden gevonden. Het is daarom vreemd dat bij het onderzoek naar de relatie tussen inkomen en gezondheid de IV-schatter groter is in absolute waarde dan de OLS-schatter.

2.3 Hausmantest

Ettner (1996) stelt dat de grote IV-schatting in haar onderzoek, veroorzaakt zou kunnen zijn door meetfouten in de inkomensvariabele. In deze scriptie wordt onderzocht of haar argument plausibel is. Dit wordt gedaan aan de hand van de Hausmantest. Om dit te kunnen

onderzoeken is achtergrondinformatie nodig over de Hausmantest.

De Hausmantest toetst of alle verklarende variabelen exogeen zijn (Hausman, 1978). De nulhypothese definieert Hausman als volgt: exogeniteit van de getoetste variabelen.

(8)

Wanneer de nulhypothese wordt verworpen geldt de alternatieve hypothese: endogeniteit van een van de verklarende variabelen. De toetsingsgrootheid definieert Hausman op de manier zoals in vergelijking (12) staat. Deze toetsingsgrootheid is asymptotisch χ2

verdeeld met k vrijheidsgraden waarin k de rang voorstelt van de matrix �𝑉𝑉𝑉𝑉𝑉𝑉� �𝛼𝛼̂𝐼𝐼𝐼𝐼� − 𝑉𝑉𝑉𝑉𝑉𝑉� �𝛼𝛼̂𝑂𝑂𝑂𝑂𝑂𝑂��.

𝑇𝑇 = �𝛼𝛼̂𝐼𝐼𝐼𝐼− 𝛼𝛼̂𝑂𝑂𝑂𝑂𝑂𝑂�′�𝑉𝑉𝑉𝑉𝑉𝑉� �𝛼𝛼̂𝐼𝐼𝐼𝐼� − 𝑉𝑉𝑉𝑉𝑉𝑉� �𝛼𝛼̂𝑂𝑂𝑂𝑂𝑂𝑂�� −

�𝛼𝛼̂𝐼𝐼𝐼𝐼− 𝛼𝛼̂𝑂𝑂𝑂𝑂𝑂𝑂� (12)

In dit onderzoek wordt tijdens de Monte Carlosimulatie gebruikgemaakt van de toetsingsgrootheid uit vergelijking 12. Deze wordt per replicatie berekend.

3 Onderzoeksopzet

Het onderzoek wordt uitgevoerd met behulp van een Monte Carlosimulatie. Om te

onderzoeken hoe de Hausmantest reageert op twee tegengestelde bronnen van endogeniteit, wordt er een variabele geïmplementeerd die twee bronnen van endogeniteit bevat, zijnde meetfouten en simultaniteit. Voor het gemak wordt er aangenomen dat het model van het datagenererend proces één regressor bevat. Deze regressor is afhankelijk van vier

instrumenten inclusief de constante. De constante wordt gelijkgesteld aan nul alsmede de

constante β0in het model van het datagenererend proces. Voor de waarde van de β wordt 0.25

gekozen omdat in Ettner (1996) de coëfficiënten van gezondheid een kleine positieve waarde hebben.

3.1 Datagenererend proces en het te schatten model

Eerst wordt uitgelegd hoe simultaniteit en meetfouten leiden tot een ander te schatten model dan het model van het oorspronkelijke datagenererend proces. Dit wordt gedaan aan de hand van vergelijkingen waarin duidelijk wordt weergegeven wat voor invloed meetfouten en simultaniteit hebben op een datagenererend proces.

𝑦𝑦𝑖𝑖 = 𝛼𝛼0+ 𝛼𝛼1𝑥𝑥𝑖𝑖 + 𝑢𝑢𝑖𝑖 voor i=1,…,n (13)

𝑥𝑥𝑖𝑖0 = 𝑥𝑥𝑖𝑖 + 𝑣𝑣𝑖𝑖 voor i=1,…,n (14)

𝑥𝑥𝑖𝑖 = 𝜋𝜋0+ 𝜋𝜋1𝑧𝑧𝑖𝑖1+ 𝜋𝜋2𝑧𝑧𝑖𝑖2+ 𝜋𝜋3𝑧𝑧𝑖𝑖3+ 𝑤𝑤𝑖𝑖 voor i=1,…,n (15)

(9)

standaardnormaal verdeelde storingsterm. In deze vergelijking is β0 de constante die gelijk

wordt gesteld aan nul en β1, 0.25, de coëfficiënt voor de variabele x. In vergelijking (14) is

een variabele x0 te zien die bestaat uit een variabele x en een storingsterm v. De variabele x is een niet waarneembare variabele omdat deze de variabele is zonder meetfouten. De

meetfouten zijn onbekend, dus enkel x0 is de waarneembare variabele. Deze meetfouten worden gerepresenteerd door de storingsterm v. De variabele x is afhankelijk van

standaardnormaal verdeelde instrumentele variabelen z, met een storingsterm w. Dit leidt tot endogeniteit. Er geldt nu namelijk dat de correlatie tussen de storingstermen w en u ongelijk is aan nul.

De coëfficiënten voor de variabelen z zijn weergegeven als πj.Omdat de variabele y

bestaat uit een niet waarneembare variabele x wordt deze omgeschreven tot een te schatten model. Dit model ziet er als volgt uit.

𝑦𝑦_𝑖𝑖 = 𝛼𝛼₀+ 𝛼𝛼₁(𝑥𝑥_𝑖𝑖0− 𝑣𝑣_𝑖𝑖) + 𝑢𝑢_𝑖𝑖 voor i=1,…,n (16)

= 𝛼𝛼₀ + 𝛼𝛼₁𝑥𝑥_𝑖𝑖0+ 𝑢𝑢_𝑖𝑖 − 𝛼𝛼₁𝑣𝑣_𝑖𝑖 = 𝛼𝛼₀ + 𝛼𝛼₁𝑥𝑥_𝑖𝑖0+ 𝑢𝑢_𝑖𝑖0

Hier is ui0 de nieuwe storingsterm die naast de oorspronkelijke storingsterm ui,nu ook de term

–β1vi bevat.

3.2 Mate van endogeniteit

Om de mate van endogeniteit te bepalen wordt de correlatie tussen xi0 en ui0 bepaald. Eerst

wordt er gekeken naar wat de covariantie is tussen deze twee. De covariantie is te vinden in vergelijking (17). Hierin ontstaat de eerste term door de aanwezigheid van simultaniteit, de tweede term ontstaat door de meetfouten in de verklarende variabele.

𝑐𝑐𝑐𝑐𝑣𝑣(𝑥𝑥_𝑖𝑖0, 𝑢𝑢_𝑖𝑖0) = 𝑐𝑐𝑐𝑐𝑣𝑣(𝑤𝑤 + 𝑣𝑣, 𝑢𝑢 − 𝛼𝛼₁𝑣𝑣) voor i=1,...,n (17) = 𝜎𝜎_{𝑤𝑤𝑢𝑢}− 𝛼𝛼₁𝜎𝜎_𝑐𝑐2

Om de correlatiecoëfficiënt tussen xi0 en ui0 te bepalen zijn ook de varianties nodig van ui0en

xi0. Deze zijn te vinden in vergelijking (18) en (19) respectievelijk.

(10)

𝜎𝜎_𝑥𝑥20 = 𝜎𝜎_𝑥𝑥2 + 𝜎𝜎_𝑐𝑐2 (19) 𝜌𝜌𝑥𝑥0_,𝑢𝑢0 = 𝜎𝜎𝑤𝑤𝑢𝑢 𝜎𝜎_𝑥𝑥0𝜎𝜎_𝑢𝑢0− 𝛼𝛼1𝜎𝜎𝑣𝑣2 𝜎𝜎_𝑥𝑥0𝜎𝜎_𝑢𝑢0 (20) 𝜌𝜌_𝑥𝑥0_,𝑢𝑢0 = 𝜌𝜌₁− 𝜌𝜌₂ = 𝜌𝜌 (21)

In vergelijking (20) wordt de correlatiecoëfficiënt weergegeven. De eerste term van deze coëfficiënt ontstaat door simultaniteit en de tweede term door meetfouten. De term die door simultaniteit ontstaat, wordt ρ1genoemd en de term die door meetfouten ontstaat ρ2. Verder

wordt de correlatiecoëfficiënt van xi0 en ui0, ρ genoemd voor het gemak.

3.3 Parameters bepalen

Om de parameters te bepalen wordt er gebruikgemaakt van designparameters. Allereerst wordt er een waarde gekozen voor de correlatiecoëfficiënt tussen xi0 en ui0. Deze waarde

wordt gekozen tussen 0 en 1. Er wordt uitgegaan van een positieve correlatie tussen xi0 en ui0,

omdat er bij de relatie tussen inkomen en gezondheid sprake is van een positief endogeen effect.

Vervolgens wordt er een verhouding opgelegd tussen ρ1en ρ2. Deze verhouding wordt

gekozen zoals in vergelijking (22).

𝜌𝜌₁ = 𝑉𝑉 ∗ 𝜌𝜌₂ (22)

Als de parameters a en 𝜌𝜌 zijn bepaald, zijn de waarden voor ρ1en ρ2 bekend. Door een

verhouding tussen ρ1 en ρ2 te kiezen, kan worden onderzocht vanaf welke verhouding de

meetfouten te groot worden in vergelijking tot de simultaniteit. Dit zou invloed kunnen hebben op de Hausmantest. Dat wil zeggen, dat de meetfouten ervoor zouden kunnen zorgen dat de Hausmantest de verklarende variabele niet meer ziet als een endogene variabele, terwijl er wel sprake is van endogeniteit.

Nu worden aan de hand van een concentratieparameter μ2de waarden voor de π

coëfficiënten bepaald. Hoe hoger de waarde voor de concentratieparameter μ2, hoe sterker de instrumenten zijn. De waarde van μ2

, geeft dus de sterkte van de instrumenten aan.Om de coëfficiënten te kunnen bepalen, wordt eerst een restrictie opgelegd. De restrictie die wordt opgelegd, is een variantie van x gelijk aan 1. Wat voor gevolgen dit heeft voor de variantie van w is te zien in vergelijking (23).

(11)

𝜎𝜎𝑥𝑥2𝑢𝑢 = 𝑣𝑣𝑉𝑉𝑉𝑉(𝑧𝑧𝑢𝑢′𝜋𝜋 + 𝑤𝑤𝑢𝑢) voor u=1,…,n (23)

= 𝜋𝜋₁2+ 𝜋𝜋₂2 + 𝜋𝜋₃2+ 𝜎𝜎_𝑤𝑤2

= 1

Deze restrictie zorgt ervoor dat de variantie van w geschreven kan worden in termen van πj.

De waarde van de variantie van w is te vinden in vergelijking (24). Verder is er een waarde voor μ2_{bepaald waardoor de waarden voor de π coëfficiënten vast staan. Hierdoor staat ook}

de variantie van w vast. Hoe π van μ2 afhangt is te zien in vergelijking (25).

𝜎𝜎_𝑤𝑤2 = 1 − 𝜋𝜋₁2− 𝜋𝜋₂2− 𝜋𝜋₃2 (24) 𝜇𝜇2 = 𝐸𝐸[Π′𝑍𝑍′𝑍𝑍Π 𝜎𝜎𝑤𝑤2 ] = 𝑛𝑛Π′Π 𝜎𝜎𝑤𝑤2 = 𝑛𝑛�𝜋𝜋₁2_+𝜋𝜋 2 2_+𝜋𝜋 3 2_� 1−𝜋𝜋₁2_+𝜋𝜋 22+𝜋𝜋32 (25)

Om vergelijking 25 op te kunnen lossen, zodat de waarden van de π coëfficiënten gevonden

kunnen worden, wordt gesteld dat alle π coëfficiënten gelijk zijn aan elkaar. De waardes van die coëfficiënten zijn te zien in vergelijking 26.

𝜋𝜋_𝑗𝑗 = � 𝜇𝜇2

𝑂𝑂∗(𝜇𝜇2_+𝑛𝑛) voor alle j=1,…,3 (26)

Nu zijn de meeste waardes voor de parameters bekend. De covariantie σwu en de

variantie σ2

vworden bepaald aan de hand van de waardes voor ρ1en ρ2. Eerst wordt de

waarde van σ2

v gevonden door vergelijking 27 op te lossen met een non-lineaire solver in

matlab. Vervolgens wordt σwu gevonden door middel van het oplossen van vergelijking (28).

𝜌𝜌₂ = 𝛼𝛼1𝜎𝜎𝑣𝑣2 (𝜎𝜎_𝑢𝑢2_+𝛼𝛼 12𝜎𝜎𝑣𝑣2)∗(𝜎𝜎𝑥𝑥2+𝜎𝜎𝑣𝑣2) (27) 𝜌𝜌₁ = 𝜎𝜎𝑤𝑤𝑢𝑢 (𝜎𝜎𝑢𝑢2+𝛼𝛼12𝜎𝜎𝑣𝑣2)∗(𝜎𝜎𝑥𝑥2+𝜎𝜎𝑣𝑣2) (28) 3.4 Monte Carlosimulatie

Nu de varianties en parameters bepaald zijn en alle variabelen bekend zijn, kan de Monte Carlosimulatie starten. Er wordt gekozen voor het aantal waarnemingen van 100. Verder wordt het aantal replicaties gekozen op 10000. De instrumentele variabelen en de storingsterm

(12)

v worden getrokken uit een standaardnormale verdeling. De storingstermen w en u worden getrokken uit een multivariate normale verdeling. Hierin is de covariantiematrix van w en u vast.

Vervolgens wordt 10000 keer de OLS-schatter berekend alsmede de IV-schatter. Ook

wordt 10000 keer de Hausmantest uitgevoerd. Hierbij wordt gebruikgemaakt van een χ2

verdeling met 1 vrijheidsgraad en de toetsingsgrootheid uit vergelijking 12. De verdeling krijgt 1 vrijheidsgraad omdat het aantal vrijheidsgraden gelijk is aan het aantal endogene regressoren. Bij elke replicatie wordt de OLS-schatter en de IV-schatter opgeslagen. Na de simulatie wordt het gemiddelde berekend van alle OLS-schatters en alle IV-schatters. Ook wordt voor iedere replicatie opgeslagen of de toetsingsgrootheid in het kritieke gebied valt. Als de nulhypothese is verworpen, dus de toetsingsgrootheid ligt in het kritieke gebied, wordt er een 1 opgeslagen. Als de nulhypothese niet is verworpen wordt er een 0 opgeslagen. De toetsingsgrootheid valt in het kritieke gebied van de χ2

(1) verdeling als deze groter is dan 3.8415. Dit geldt voor een 5 procent nominaal significantieniveau. Als de replicaties zijn uitgevoerd wordt het totale aantal 1’en en 0’en gesommeerd en gedeeld door het totale aantal replicaties. De uitkomst hiervan is dan de Monte Carloschatter van de verwerpingskans.

Een duidelijke weergave van de berekening van de Monte Carloschatter van de verwerpingskans is te zien in vergelijking (29). De schatter wordt p genoemd.

𝑝𝑝 = 1

𝑅𝑅∗ ∑𝑅𝑅𝑖𝑖=1𝛪𝛪�𝑓𝑓(𝑝𝑝) > 𝑓𝑓(𝑘𝑘)� (29)

Hier is R het aantal replicaties, f(i) is de uitkomst van de toetsingsgrootheid voor replicatie i en f(k) is de grenswaarde van het kritieke gebied. Verder is I een identificatiefunctie die gelijk aan 0 is wanneer de ongelijkheid niet geldt voor replicatie i en 1 wanneer de ongelijkheid wel geldt.

Ook wordt voor elke replicatie het kwadraat van het verschil tussen de OLS-schatter

en β1 genomen om vervolgens na de simulatie de Mean Squared Error te bepalen. Dit wordt

ook gedaan voor de IV-schatter. Vervolgens wordt hier de wortel van getrokken zodat de Root

Mean Squared Error (RMSE) bepaald is. Een duidelijke weergave van de RMSE is te zien in

vergelijking (30). De uitkomst van de RMSE, kan dienen als maatstaaf voor de accuraatheid van een schatter. Hoe hoger de RMSE waarde, hoe minder accuraat de schatter is.

𝑅𝑅𝑅𝑅𝑅𝑅𝐸𝐸 = �1

𝑅𝑅∑ �𝛼𝛼̂(𝑣𝑣)− 𝛼𝛼1� 2 𝑅𝑅

(13)

4 Resultaten en analyse

In dit hoofdstuk zullen de resultaten worden weergegeven van de Monte Carlosimulatie. Deze resultaten zullen tevens worden geanalyseerd. Om de hoofdvraag te kunnen beantwoorden

wordt de simulatie uitgevoerd voor verschillende waarden van a en ρ. Op deze manier wordt

de mate van endogeniteit voor verschillende waarden onderzocht door het variëren van ρ.

Tevens worden ρ1en ρ2 voor verschillende verhoudingen onderzocht door het variëren van a.

Allereerst wordt de Monte Carlosimulatie uitgevoerd voor een model waarin zich geen endogeniteit voordoet, om het actuele significantieniveau van de Hausmantest te bepalen. Dit wordt gedaan door ρ, ρ1 en ρ2 gelijk te stellen aan nul. Vervolgens wordt er onderzocht hoe de

verwerpingskans van de Hausmantest reageert op situaties waar enkel simultaniteit aanwezig zijn, of waar er alleen sprake is van meetfouten. Er wordt tevens onderzocht hoe de

Hausmantest reageert wanneer de mate van endogeniteit die ontstaat door simultaniteit, exact even groot is als de mate van endogeniteit die ontstaat door meetfouten. Daarna worden de verwerpingskansen bepaald bij lage endogeniteit bij sterke instrumenten en hoge endogeniteit bij zwakke instrumenten.

4.1 Het actuele significantieniveau

In tabel 1 zijn de resultaten te zien van een Monte Carlosimulatie waarbij verondersteld wordt dat het model geen endogene variabelen bevat. Dit is gedaan door middel van het gelijkstellen aan nul van de variabelen ρ, ρ1 en ρ2. Om het actuele significantieniveau voor meerdere

gevallen te onderzoeken, is ervoor gekozen om de instrumentensterkte te variëren. In de eerste kolom is de instrumentensterkte weergegeven. In de tweede kolom is het actuele

significantieniveau van de Hausmantest te vinden. In de derde en vierde kolom zijn de

schatters van respectievelijk OLS en IV weergegeven. Onder de schatters staan tussen haakjes de standaardfouten vermeld. In de vijfde en zesde kolom zijn de uitkomsten van de RMSE weergegeven voor respectievelijk de OLS-schatter en de IV-schatter.

Uit de tweede kolom is te concluderen dat het actuele significantieniveau rond de vier procent schommelt. Het actuele significantieniveau verschilt dus niet veel van het nominale significantieniveau, zijnde vijf procent. Wanneer er geen sprake is van endogene variabelen, wordt de nulhypothese in ongeveer vier procent van de gevallen, onterecht verworpen. Verder zijn er bij de schatters en hun bijbehorende standaardfouten geen opmerkelijke uitkomsten te vinden. Hetzelfde geldt voor de uitkomsten van de RMSE.

(14)

Tabel 1

Bepalen van het actuele significantieniveau door te stellen dat ρ=0, ρ1=0 en ρ2=0

Instrumenten Actueel Schatters RMSE

μ2

significantieniveau OLS IV OLS IV

80 0.0447 0.2503 (0.0012) 0.2483 (0.0016) 0.1161 0.1519 70 0.0434 0.2504 (0.0012) 0.2482 (0.0017) 0.1157 0.1579 60 0.0412 0.2505 (0.0012) 0.2481 (0.0017) 0.1150 0.1657 50 0.0398 0.2507 (0.0012) 0.2480 (0.0018) 0.1141 0.1760 40 0.0372 0.2508 (0.0011) 0.2478 (0.0020) 0.1127 0.1907 30 0.0350 0.2510 (0.0011) 0.2476 (0.0022) 0.1108 0.2134 20 0.0250 0.2512 (0.0011) 0.2472 (0.0027) 0.1082 0.2548

4.2 Drie verschillende situaties

In deze paragraaf worden de uitkomsten van drie verschillende situaties geanalyseerd. Er zijn in tabel 2 uitkomsten te vinden van Monte Carlosimulaties waarbij er enkel simultaniteit aanwezig is in het model (16), er enkel sprake is van meetfouten of waarbij de mate van endogeniteit door simultaniteit exact even groot is als de mate van endogeniteit door

meetfouten. Deze uitkomsten zijn te vinden in respectievelijk rij een, twee en drie. Er wordt steeds gebruikgemaakt van een mate van endogeniteit van 0.2.

Allereerst iets over de situatie waar alleen sprake is van simultaniteit. Wat opvalt, is dat de verwerpingskans van de Hausmantest hoog is, 0.5388. Verder is te zien dat de OLS-schatter, 0.4485, een stuk hoger is dan 0.25. Dit komt doordat bij aanwezigheid van

simultaniteit in een positief verband, OLS een overschatting geeft van het causale effect. In vergelijking (5) is te zien hoe deze overschatting tot stand komt.

(15)

is te zien dat de verwerpingskans van de Hausmantest aanzienlijk lager is dan wanneer er alleen sprake is van simultaniteit. Dit zou kunnen komen doordat meetfouten misschien minder effect hebben op endogeniteit, dan simultaniteit. Verder is te zien dat de OLS-schatter, 0.0945, een stuk lager is dan 0.25. Dit komt doordat meetfouten een dempend effect geven op de schatter. In vergelijking (11) is te zien waarom meetfouten leiden tot een dempend effect op de OLS-schatter.

Opmerkelijk is het derde geval. Er is hier sprake van twee vormen van endogeniteit die dezelfde grootte hebben, maar van tegengestelde vorm zijn. Te zien is dat de Hausmantest de nulhypothese in deze situatie in 3.59 procent van de gevallen verwerpt, terwijl er sprake is van een endogene variabele. De Hausmantest is dus niet in staat de nulhypothese te verwerpen omdat de tegengestelde endogeniteiten elkaar mogelijk opheffen. Hierdoor ziet de

Hausmantest de endogene variabele, mogelijk als een exogene variabele.

Tabel 2

Bepalen van de verwerpingskans voor verschillende waarden van ρ, ρ1en ρ2 en

constante instrumentensterkte van μ2=80

Endogeniteit Schatters RMSE

ρ ρ1 ρ2 Verwerpingskans OLS IV OLS IV

0.2 0.2 0 0.5388 0.4485 (0.0012) 0.2518 (0.0016) 0.2293 0.1521 0.2 0 0.2 0.1428 0.0945 (0.0007) 0.2413 (0.0012) 0.1718 0.1612 0 0.2 0.2 0.0359 0.2105 (0.0007) 0.2468 (0.0012) 0.0844 0.1614

4.3 Lage waarde van endogeniteit bij sterke instrumenten

In deze paragraaf worden de resultaten weergegeven van de verwerpingskans bij een ρ van

0.2 en een instrumentensterkte μ2

van 80. Dit houdt in dat er sprake is van sterke

instrumenten. De resultaten zijn te vinden in tabel 3. Hier is a de verhoudingscoëfficiënt tussen ρ1en ρ2 (22). Doordat de verhoudingscoefficient gevarieerd wordt, worden de maten

van endogeniteit door simultaniteit en meetfouten, respectievelijk ρ1en ρ2, onderzocht voor

(16)

Tabel 3

De verwerpingskans per verhouding tussen ρ1en ρ2, ρ=0.2 en μ2=80

a ρ1 ρ2 Verwerpingskans OLS IV OLS IV

10 0.2222 0.0222 0.3886 0.4282 (0.0011) 0.2519 (0.0015) 0.2086 0.1529 9 0.2250 0.0250 0.3740 0.4258 (0.0011) 0.2519 (0.0014) 0.2062 0.1530 8 0.2286 0.0286 0.3541 0.4228 (0.0010) 0.2519 (0.0014) 0.2032 0.1531 7 0.2333 0.0333 0.3321 0.4189 (0.0010) 0.2520 (0.0014) 0.1992 0.1533 6 0.2400 0.0400 0.3017 0.4135 (0.0010) 0.2520 (0.0014) 0.1939 0.1536 5 0.2500 0.0500 0.2641 0.4059 (0.0010) 0.2520 (0.0014) 0.1862 0.1539 4 0.2667 0.0667 0.2139 0.3940 (0.0009) 0.2521 (0.0014) 0.1742 0.1546 3 0.3000 0.1000 0.1451 0.3730 (0.0009) 0.2521 (0.0013) 0.1531 0.1561 2 0.4000 0.2000 0.0603 0.3263 (0.0007) 0.2522 (0.0012) 0.1065 0.1614

Wanneer meetfouten een kleine rol hebben in de totale mate van endogeniteit, is te zien dat de Hausmantest een redelijk hoge verwerpingskans heeft. Echter, wanneer meetfouten een grotere rol spelen wordt het actuele significantieniveau lager. Hieruit blijkt dat meetfouten de Hausmantest zo kunnen beïnvloeden dat zij exogeniteit op een zeker moment niet verwerpt terwijl er wel sprake is van endogene variabelen. Een oorzaak van deze uitkomst zou kunnen zijn dat wanneer de meetfouten groter worden, de variantiematrix in de toetsingsgrootheid (12) groter wordt, waardoor de toetsingsgrootheid groter wordt.

Verder is er een daling van de OLS-schatter te zien wanneer de verhoudingscoëfficiënt kleiner wordt. Dit zou kunnen komen doordat wanneer de meetfouten groter worden, het

(17)

dempende effect op de schatter steeds groter wordt. De relatieve verandering van meetfouten bij een verhoudingscoefficient van 10 ten opzichte van een verhoudingscoefficient van 2 is namelijk een stuk groter dan de relatieve verandering van simultaniteit.

4.4 Hoge waarde van endogeniteit bij zwakke instrumenten

Tabel 4

De verwerpingskans per verhouding tussen ρ1en ρ2, ρ=0.5 en μ2=20

a ρ1 ρ2 Verwerpingskans OLS IV OLS IV

10 0.5555 0.0555 0.4420 0.7080 (0.0008) 0.2807 (0.0023) 0.4659 0.2631 9 0.5625 0.0625 0.4142 0.6999 (0.0008) 0.2813 (0.0022) 0.4577 0.2644 8 0.5714 0.0714 0.3807 0.6897 (0.0008) 0.2821 (0.0022) 0.4474 0.2665 7 0.5833 0.0833 0.3397 0.6767 (0.0008) 0.2832 (0.0022) 0.4343 0.2699 6 0.6000 0.1000 0.2899 0.6594 (0.0007) 0.2849 (0.0021) 0.4168 0.2719 5 0.6250 0.1250 0.2248 0.6352 (0.0007) 0.2886 (0.0020) 0.3923 0.2675

In deze paragraaf worden de resultaten besproken van een Monte Carlosimulatie waarbij de totale mate endogeniteit in het model (16) gelijk is aan 0.5. De verwerpingskans van de

Hausmantest wordt onderzocht bij zwakke instrumenten, dat wil zeggen, een μ2

van 20. Ook wordt hier de verhoudingscoefficient steeds aangepast om te onderzoeken wat voor effect dat oplevert. De resultaten zijn te vinden in tabel 4.

In tabel 4 is dezelfde trend te zien als in tabel 3 wanneer er wordt gekeken naar de verwerpingskans. Als de verhoudingscoëfficiënt kleiner wordt, daalt de verwerpingskans. De zwakkere instrumenten in combinatie met een wat hogere endogeniteit zorgen voor een vertekend beeld van de Hausmantest wanneer de meetfouten groter worden. De

(18)

Deze uitkomst laat dus net als de uitkomst uit paragraaf 4.3, zien dat meetfouten in

combinatie met simultaniteit de Hausmantest op een bepaalde manier kunnen beïnvloeden.

5 Conclusie

In veel onderzoeken waar de relatie tussen inkomen en gezondheid wordt onderzocht, wordt een grotere IV-schatter dan OLS-schatter gevonden in absolute waarde. Vaak wordt dit

toegeschreven aan meetfouten. In deze scriptie is onderzocht of het opmerkelijke resultaat van de schatters kan worden toegeschreven aan meetfouten. Dit is gedaan aan de hand van een Monte Carlosimulatie waar een datagenererend proces is nagebootst om vervolgens te onderzoeken hoe de Hausmantest reageert op een variabele die meetfouten en simultaniteit bevat. In het onderzoek naar de relatie tussen inkomen in gezondheid is namelijk vaak sprake van simultaniteit doordat het inkomen de gezondheid beïnvloedt, maar ook vice versa.

Voordat de IV-regressie wordt uitgevoerd, wordt de Hausmantest uitgevoerd om te controleren of een variabele exogeen of endogeen is. In de paper (Ettner, 1996) die de

aanleiding was voor dit onderzoek, is de Hausmantest toegepast op de inkomensvariabele om te controleren of de variabele exogeen is. De Hausmantest verwierp exogeniteit waardoor de variabele endogeen werd verondersteld. De vraag die centraal staat in deze scriptie is of de Hausmantest exogeniteit kan verwerpen wanneer er sprake is van simultaniteit en meetfouten tegelijkertijd.

Wanneer de meetfouten dusdanig groot zijn ten opzichte van de endogeniteit die door simultaniteit wordt veroorzaakt, is de Hausmantest niet in staat de nulhypothese goed te verwerpen. Echter, dit is de uitkomst van een onderzoek waarbij een simpel model wordt gebruikt. In het geval van een simpel model (16), wordt er geconcludeerd dat de

verwerpingskans van de Hausmantest klein is bij de aanwezigheid van de twee tegengestelde vormen van endogeniteit, wanneer deze endogeniteiten elkaar voldoende opheffen. Wanneer de endogeniteiten exact gelijk zijn aan elkaar, beide een mate van endogeniteit van 0.2, verwerpt de Hausmantest de nulhypothese in 3.59 procent van de gevallen. Een erg lage verwerpingskans dus. Verder onderzoek zal moeten uitwijzen of dit ook het geval is bij ingewikkeldere modellen.

Er is aangenomen dat de meetfouten in de inkomensvariabele in Ettner (1996), niet dusdanig groot zijn dat deze de Hausmantest erg beïnvloeden. Er is daarom dan ook geconcludeerd dat het argument van Ettner (1996) plausibel is. Deze conclusie wordt getrokken, omdat de resultaten hebben laten zien dat pas wanneer de meetfouten erg groot

(19)

zijn, de Hausmantest niet goed de nulhypothese kan verwerpen. Of de meetfouten daadwerkelijk niet groot zijn in Ettner (1996), zal verder onderzoek moeten uitwijzen.

(20)

Bibliografie

Attanasio, O. P., & Hoynes, H. W. (2000). Differential Mortality and Wealth Accumulation.

Journal of Human Resources. 35. No. 1. pp. 1-29.

Bloom, D.E., Canning, D. & Sevilla, J. (2001). The Effect of Health on Economic Growth: Theory and Evidence. NBER Working Paper No. 8587.

Dowd, J. B., & Todd, M. (2011). Does self-reported health bias the measurement of health inequalities in U.S. adults? Evidence using anchoring vignettes from the health and retirement study. The Journals of Gerontology, Series B: Psychological Sciences and

Social Sciences. 66(4), 478–489.

Ettner, S.L. (1996). New evidence on the relationship between income and health. Journal of

Health Economics. 15. No. 1. pp. 67-85.

Hausman, J.A. (1978). Specification Tests in Econometrics. Econometrica. 46. pp. 1251-1271.

Heij, C., de Boer, P., Franses, P.H., Kloek, T. & van Dijk, H.K. (2004). Econometric Methods

with applications in Business and Economics. New York: Oxford University Press.

Lindahl, M. (2005). Estimating the effect of income on health and mortality using lottery prizes as an exogenous source of variation in income. Journal of Human Resources. 40(1). pp. 144-168.

Meer, J., Miller, D.L. & Rosen H.S. (2003). Exploring the health-wealth nexus. Journal of

Health Economics. 22. pp. 713-730.

Roberts, M.R. & Whited, T.M. (2011). Endogeneity in Empirical Corporate Finance. The Bradley Policy Research Center Financial Research and Policy. Working Paper No. FR 11-29.