• No results found

Misspecificatie van de verdelingen in het sample selection model : vergelijking van de semiparametrische schattingsmethode van Newey met de parametrische schattingsmethode van Heckman

N/A
N/A
Protected

Academic year: 2021

Share "Misspecificatie van de verdelingen in het sample selection model : vergelijking van de semiparametrische schattingsmethode van Newey met de parametrische schattingsmethode van Heckman"

Copied!
25
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Misspecificatie van de verdelingen in het sample

selection model

Vergelijking van de semiparametrische schattingsmethode van Newey met de

parametrische schattingsmethode van Heckman

Nik Gabel

10548882

December 30, 2016

Bachelorscriptie

Opleiding: Econometrie & Operationele Research Universiteit: Universiteit van Amsterdam

Studiejaar: 2016/2017

Begeleider: dr. J.C.M. Hans van Ophem

Titel: Misspecificatie van de verdelingen in het sample selection model

Ondertitel: Vergelijking van de semiparametrische schattingsmethode van Newey met de parametrische schattingsmethode van Heckman

(2)

Verklaring eigen werk

Hierbij verklaar ik, Nik Gabel, dat ik deze scriptie zelf geschreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan.

Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd.

De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.

(3)

Contents

1 Inleiding 4 2 Schattingsmethoden 5 2.1 Heckman . . . 5 2.2 Mogelijke problemen . . . 7 2.3 Alternatieve schattingsmethoden . . . 9 3 Opzet Monte-Carloanalyse 11 4 Analyse 13 4.1 Resultaten . . . 14 4.2 Analyse . . . 22 5 Conclusie 23

(4)

1

Inleiding

Wanneer de invloed van scholing op het loon wordt geschat, kan het probleem voorkomen dat een aantal individuen scholing hebben gehad maar niet werken. Hierdoor hebben deze mensen geen loon en voldoen ze mogelijk niet aan de verwachte hoogte van het loon voor mensen met scholing. Als scholing een positief effect heeft op het loon dan zullen mensen met minder scholing ook een minder hoog loon hebben en daardoor een hogere werkloosheids-graad. Omdat alleen observaties worden waargenomen van mensen die een loon ontvangen, komt het voor dat alleen de lager geschoolde mensen met een betrekkelijk hoog inkomen in de analyse opgenomen worden. Wanneer hierop een OLS-regressie van loon op aantal jaar scholing gedaan wordt, resulteert dit in een neerwaartse onzuiverheid van het effect van scholing op loon. Deze schatting is inconsistent omdat de steekproef niet meer representatief is voor de populatie van alle mensen die scholing hebben gehad (Puhani, 2000). Dit wordt de sample selection bias genoemd. De sample selection bias heeft in de praktijk twee oorzaken. Ten eerste kan er zelfselectie zijn door de individuen die geobserveerd worden, waardoor een sample selection bias optreedt. Daarnaast kan het ook veroorzaakt worden door de analisten, wanneer zij een selectie maken uit de verkregen data wordt er een zelfselectie gemaakt, wat ervoor kan zorgen dat er een sample selection bias optreedt. Zelfselectie kan optreden wan-neer er onderzocht wordt wat het loon van een Nederlander zou zijn als hij in het buitenland zou zijn gaan wonen. Hierbij geeft het loon van een migrant in het algemeen niet een be-trouwbare schatting van het loon dat een Nederlander zou verdienen. Sample selection bias veroorzaakt door de data analist kan optreden bij bijvoorbeeld het schatten van de invloed van scholing op het loon, zoals het eerder gegeven voorbeeld.

Heckman (1979) heeft een schattingsmethode ontwikkeld om deze sample selection bias op te lossen. In tegenstelling tot de analyse van "omitted variables" of specificatie errors, is het bij de analyse van sample selection bias mogelijk om de van de regressie analyse verwijderde variabelen te schatten als ze invloed hebben op de specificatie error. De geschatte waarden van de weggelaten variabelen kunnen worden gebruikt als verklarende variabelen, zodat het mogelijk is om de parameters van de verklarende variabelen te schatten met OLS. Bij de methode van Heckman moet echter een veronderstelling gemaakt worden over de verdeling van de onderliggende stochasten. Nawata (1993) en Puhani (2000) hebben beiden met een Monte-Carloanalyse onderzocht wat de gevolgen zijn van een misspecificatie van de onderliggende stochasten en zijn tot de conclusie gekomen dat dit serieuze gevolgen kan hebben.

Om de gevolgen van een misspecificatie te verkleinen, heeft Newey (2009) gebruikge-maakt van een semiparametrische schattingsmethode. Deze methode zorgt voor consistente

(5)

schattingen, waardoor er minder ruimte is voor misspecificatie van de verdeling van de storin-gen. Maar in hoeverre levert de semiparametrische schattingstechniek van Newey (2009) betere schattingsresultaten op dan de techniek van Heckman (1979)? Dit wordt onderzocht door allereest te bespreken wat de technieken van Heckman en Newey precies zijn. Waarbij Heckman als eerst ter sprake komt, daarna worden door Nawata (1993) en Puhani (2000) een aantal kritieke punten aan het licht gebracht, waarna de technieken van Newey en Cosslett besproken wordt en als laatste wordt het onderzoek van Hussinger besproken waarin zij de besproken technieken toepast. Nadat bekend is wat de technieken precies zijn wordt de opzet van het onderzoek besproken. Hierin wordt een Monte-Carloanalyse gedaan op de technieken van Heckman (1979) en Newey (2009). Daarna worden de resultaten van dit eigen onderzoek besproken. Tenslotte wordt een conclusie getrokken uit de analyse met betrekking tot het vergelijken van de twee technieken.

2

Schattingsmethoden

Om duidelijkheid over de twee technieken te verschaffen wordt allereerst de techniek van Heckman besproken. Daarna worden door Nawata (1993) en Puhani (2000) een aantal mo-gelijke problemen aan het licht gebracht. Hierna worden de technieken van Newey en Cosslett besproken en als laatste wordt er besproken welke resultaten Hussinger verkregen heeft uit zijn onderzoek naar de technieken van Heckman, Newey en Cosslett.

2.1

Heckman

Sample selection bias heeft in de praktijk twee oorzaken. Ten eerste kan er zelfselectie zijn door de individuen die geobserveerd worden waardoor een sample selection bias optreedt. Daarnaast kan het ook veroorzaakt worden door de analisten, zij maken dan een selectie uit de verkregen data wat ervoor kan zorgen dat er een sample selection bias optreedt. Het sample selection model ziet er als volgt uit (Heckman 1979):

y1i∗ = (

y1i= β

0

xi+ ωi if y2i= 1

not observed otherwise y2i=

(

1 if zi0γ + εi ≥ 0

0 otherwise

Hierbij zijn de twee vergelijkingen per individueel i, waarbij xi en zi een 1 x Kj vector

(6)

εi ωi ! ∼ ID 0 0 ! , 1 ρ ρ σ !!

De gezamenlijke dichtheid van εi en ωi is h(εi, ωi). Deze matrix is van volle rang. Dit

betekent dat als alle data beschikbaar zijn, de parameters van het sample selection model met least squares geschat kunnen worden.

In het model treedt de sample selection bias op wanneer er alleen data beschikbaar is van y1i als y2i ≥ 0. Daarnaast zijn er geen observaties van y1i als y2i < 0. Hieruit volgt dat

het conditionele verwachting van εi ongelijk aan nul is. De conditionele verwachting wordt

dan

E(ωi|Xi, sample selection rule) = E(ωi|Xi, Y2i ≥ 0) = E(ωi|X1i, εi ≥ −Ziγ) 6= 0

Daaruit volgt dat de regressie functie als volgt is

E(Y1i|Xi, Y2i ≥ 0) = Xiβ + E(ωi|εi ≥ −Ziγ)

Dit terwijl, om een consistente schatting te krijgen, moet gelden dat E(ωi|X1i, εi ≥ −Ziγ) = 0

en de te verklarende variabelen dus alleen afhangt van de in het model opgenomen verklarende variabelen. Omdat de conditionele verwachting van εi ongelijk aan nul is betekent dit dat

de te verklaren variabelen niet alleen afhangt van Xi maar ook van Zi, terwijl Zi niet als

verklarende variabelen in het model is opgenomen. Als met behulp van lineaire regressie de waarde van de parameter uit het gegeven model geschat wordt, wordt de verwachte waarde van ωi niet geschat. Dit betekent dat de invloed van de extra verklarende variabelen Zi op de

te verklaren variabelen niet in het regressie model opgenomen wordt, wat tot gevolg heeft dat er een inconsistente schatting gemaakt wordt. Om de schatting consistent te krijgen gebruikt Heckman (1979) de inverse Mill’s ratio (λi). Hiermee schat hij de invloed van de extra

verk-larende variabelen Zi en zorgt er daarmee voor dat de conditionele verwachting van εi gelijk

aan nul wordt. Hierbij neemt hij aan dat h(εi, ωi) bivariaat normaal verdeeld is. Hieruit volgt

E(ωi|εi ≥ −Ziγ) = ρσλi

E(εi|εi ≥ −Ziγ) = λi

(7)

λi = φ(Zi0γ) Φ(Zi0γ)

φ en Φ zijn de dichtheid en verdeling functie van de standaard normale verdeling. λi is

een monotoom dalende functie in Zi0γ, die afhankelijk is van de kans dat een observatie is geselecteerd in de steekproef.

Het definitieve model waarmee Heckman (1979) het sample selection model gaat schat-ting ziet er hierdoor als volgt uit:

Y1i = X

0

1iβ1 + ρσλi+ vi

Waarbij Y1i alle observaties zijn waarvoor geldt dat Y2i> 0 en λi het geschatte effect van Zi

op de te verklaren variabelen is.

Om tot een consistente schatting te komen wordt door Heckman (1979) allereerst de parameters van de formule waarbij Y2i > 0 geschat. Dit wordt gedaan met behulp van

maximum likelihood in het probit model. Hieruit worden schattingen voor de parameter γ verkregen. Daarna wordt met behulp van de verkregen schatters λi geschat. Als laatste

wordt de geschatte λi als selectie correctie term bij de extra verklarende variabelen in het

model gebruikt zodat er een consistente schatting gemaakt kan worden van β.

2.2

Mogelijke problemen

Het besproken twee-staps model van Heckman wordt veel gebruikt wanneer inconsistentie optreedt door het weglaten van observaties. Nawata (1993) geeft een aantal problemen die kunnen optreden bij het schatten van de parameters wanneer de methode van Heckman ge-bruikt wordt. Hierbij gege-bruikt hij Monte-Carloresultaten om het aannemelijk te maken dat de methode van Heckman niet in alle gevallen consistent is. Het volgende model wordt daar-bij gebruikt:

yi = β0 + β

0

1xi+ ui

di = 1(α0+ α1wi+ vi > 0), i = 1, 2, 3, ..., N

De exogene variabelen xi en wi zijn als volgt bepaald:

wi = ξ1i

(8)

Hierbij zijn ξji i.i.d random variabelen en ρ1 de correlatie tussen wi en xi weergeeft.

Daar-naast zijn ui en vi als volgt bepaald:

vi = ε1i

ui = [10 ∗ ρ2∗ ε1i+ (1 − ρ2)ε2i]/pρ22+ (1 − ρ2)2

ε1i zijn standaard normaal verdeeld en daarnaast is ρ2 de correlatie coefficient van ui en

vi. Door middel van verschillende waarden voor ρ1 en ρ2 te nemen wordt gekeken wat het

effect van de correlatie tussen xi en wi is en wat het effect van de correlatie tussen ui en vi

is.

Uit de Monte-Carloresultaten blijkt dat Heckmans twee-stapsschatter goed presteert wanneer ρ1 dicht bij nul zit. Wanneer ρ1 dicht bij 1 zit presteert de twee-stapsschatter

aanzienlijk slechter. Daarnaast blijkt dat bij een ρ1 dicht bij 1 de OLS-schatter in veel

gevallen beter presteert dan de twee-stapsschatter. Nawata (1993) komt ook tot de conclusie dat Heckmans twee-stapsschatter goed presteert wanneer de graad van multicollineariteit tussen xi en wi0α en tussen ui en vi laag is maar dat de schatter slecht presteert wanneer de

graad van multicollineariteit hoog is.

Naast Nawata heeft Puhani (2000) ook onderzocht welke problemen zich voor zouden kunnen doen bij het gebruik van Heckman’s twee-stappenmethode. Met behulp van Monte-Carlosimulaties vergelijkt Puhani (2000) de twee-stapsschatter van Heckman met de OLS-schatter. Hierbij besteedt hij aandacht aan de relatie van de schatters met de verdeling van de storingsterm, de correlatie tussen de storingstermen, de graad van censureren en de graad van collineariteit tussen de regressoren x1 en x2 of tussen x1 en de inverse Mills ratio. Hierbij

zijn x1, x2 en de inverse Mills ratio hetzelfde als bij Heckman (1979). Met behulp van de

Monte-Carlosimulaties komt Puhani (2000) tot de conclusie dat de sample selectie bias het grootst is op het moment dat er een hoge correlatie is tussen de storingsterm van de selectie en de storingsterm van de uiteindelijke vergelijking. Daarnaast concludeert hij ook dat de selectie bias het hoogst is bij een hoge graad van censurering. De Monte-Carloresultaten laten zien dat precies in deze gevallen de schatters van Heckman minder precies zijn en er meer vertrouwen uitgaat naar de OLS-schatters. Puhani (2000) geeft als mogelijke oorzaak de inverse Mills ratio die Heckman in zijn model gebruikt. Wanneer er een hoge collineariteit is tussen de exogene variabelen in de selectie vergelijking en in de uiteindelijke vergelijking geeft dit ook een hoge collineariteit tussen de inverse Mills ratio en de andere regressoren. Dit zorgt ervoor dat de twee-stapsschatters van Heckman minder precies zijn.

(9)

2.3

Alternatieve schattingsmethoden

Onder anderen om de aan het licht gebrachte problemen van Nawata (1993) en Puhani (2000) te verhelpen is Newey (2009) met een semiparametrische schattingsmethode gekomen. Newey (2009) gebruikt net als Heckman het volgende model.

y1i∗ = (

y1i= β

0

xi+ ωi if y2i= 1

not observed elsewhere y2i= ( 1 if zi0γ + εi ≥ 0 0 elsewhere Hierbij geldt εi ωi ! ∼ ID 0 0 ! , 1 ρ ρ σ !!

Hierbij gebruikt Heckman (1979) met de twee-stappenmethode het volgende definitieve model

y1i= X

0

1iβ1+ E(ωi|εi ≥ −Ziγ) + vi

Hij schat de parameters in het probit model met behulp van maximum likelihood en de selectiecorrectieterm met behulp van de inverse Mills ratio. Newey (2009) daarentegen schat de parameters in stap één met een verdelingsvrije methode en benadert de selectie correctie term met behulp van de volgende polynoom.

E(ωi|εi ≥ −Ziγ) =

PK

k=1ηk∗ pk(Zi0γ) + ξ ∗ i

Hierbij zijn ηk onbekende parameters en pk bekende functies. Het definitieve model van

Newey (2009) komt er dan als volgt uit te zien.

y1i∗ = X1i0 β1+PKk=1ηk∗ pk(Zi0γ) + ξ ∗ i

De polynoom pk is pk(Zi0γ) = [τ (Z 0

iγ)]k−1, hierbij geldt dat τ (Z 0

iγ) = 2Φ(Z 0

iγ) − 1. Dit

zorgt ervoor dat het een monotoom, uniforme begrensde functie tussen -1 en 1 is. Hierdoor wordt de robuustheid verbeterd.

Deze semiparametrische schattingsmethode is door Newey (2009) gekozen omdat semi-parametrische schatters ten opzichte van semi-parametrische schatters, onder zwakkere restricties voor consistente schatters zorgen. Het verschil tussen Newey (2009) en Heckman (1979) in

(10)

stap één is dat Heckman (1979) probit gebruikt en Newey (2009) een verdelingsvrije meth-ode. In stap twee gebruikt Heckman (1979) de inverse Mills ratio als selectie correctie term terwijl Newey (2009) de selectie correctie term benadert met een polynoom.

Naast de semiparametrische schattingsmethode van Newey is Cosslett (1991) ook met een semiparametrische schattingsmethode gekomen. Hij maakt gebruik van het zelfde sample selection model als Heckman (1979). Daarin gebruikt hij in zijn eerste stap de verdelingsvrije maximum likelihood om de parameters z0iγ te schatten. In stap twee gebruikt hij dummy variabelen om de selectie correctie term te benaderen. Deze dummy’s zijn gebaseerd op waardes van de verkregen zi0γ. Het selectiemodel dat gebruikt wordt door Cosslett ziet er hierdoor als volgt uit

y1i∗ = X1i0 β1+Pm=1M bm∗ Dim(Zi0γ) + ξi∗

Hierbij zijn Dim de dummy variabelen en bm de te schatten parameters. Dit model kan

net als het model van Heckman en Newey geschat worden met behulp van OLS.

Hussinger (2008) analyseert in hoeverre de overheidsfinancieringen in research and de-velopment (R&D) gevolgen hebben op de privé-investeringen in R&D. Om tot een conclusie te komen past hij het parametrische model van Heckman en de semiparametrische modellen van Coslett (1991) en Newey (1999) toe op de verkregen data. Het selectie model bestaat uit twee vergelijkingen:

R&Di = Xi0β + subsidiesiδ + εi

subsidiesi = I{Zi0γ + ui > 0}

Omdat subsidiesi alleen geobserveerd wordt wanneer Zi0γ + ui > 0, geldt dat OLS geen

consistente schatter meer maakt voor E[εi|Zi, subsidiesi]. Om dit bekende probleem op te

lossen gebruikt Hussinger (2008) het parametrische model van Heckman en daarnaast ook de semiparametrische modellen van Newey en Cosslett. Uit de analyse van in hoeverre de over-heidsfinancieringen in R&D gevolgen hebben op de privé investeringen in R&D met behulp van de besproken modellen concludeert Hussinger (2008) dat de robuustheid van de resultaten suggeren dat de mogelijke misspecificatie van de restterm niet noodzakelijk van belang is. Dit betekent dat het aannemelijk is dat in de analyse van Hussinger (2008) de OLS-schatters net zoals de parametrische en semiparametrische schatters van Heckman, Newey en Cosslett consistent zijn. Een mogelijke verklaring hiervoor is dat de correlatie tussen de storingster-men erg laag zijn. Uit het onderzoek van Nawata (1993) is ook gebleken dat er hierdoor weinig verschil zit tussen de consistente schattingsresultaten van OLS en de parametrische

(11)

schattingsmethode van Heckman (1979).

Samenvattend bestaat het twee-stapsmodel van Heckman (1979) uit allereest het schatten van de parameters van de formule waarbij y2 > 0. Dit wordt gedaan met behulp van

max-imum likelihood in het probit model. Waarna in stap 2 OLS gedaan wordt met de inverse Mills ratio als selectie correctie term en zodoende als extra regressor. Newey (2009) daar-entegen schat de parameters in stap één met een verdelingsvrije methode en benadert de selectie correctie term met behulp van een polynoom. Hij heeft voor een semiparametrische schattingsmethode gekozen omdat hierdoor minder ruimte is voor specificatie storingen. Dit heeft tot gevolg dat de sample selection bias vermindert wordt. Ook Cosslett verschilt in stap 2 ten opzichte van Heckman. Hij gebruikt dummie variabelen om de selectie correctie term te benaderen. Deze twee technieken van Newey en Cosslett zijn ontwikkeld om tot een consistente schatting te komen van het basis model uit Heckman (1979). Uit het onderzoek van Hussinger (2008) blijkt daarentegen dat, wanneer de correlatie tussen de storingstermen erg laag is, de mogelijke misspecificatie van de restterm niet noodzakelijk van belang is.

3

Opzet Monte-Carloanalyse

Er is duidelijkheid verschaft over de technieken van Heckman (1979) en Newey (2009). Om de twee technieken te kunnen analyseren wordt beschreven hoe de schattingstechnieken van Heckman (1979) en Newey (2009) met elkaar vergeleken worden. Dit wordt gedaan door middel van een Monte-Carloanalyse. Zodat daarna geconcludeerd kan worden in hoeverre de semiparametrische schattingstechniek van Newey betere schattingsresultaten oplevert dan de parametrische schattingstechniek van Heckman. Allereerst wordt het basismodel beschreven. Daarna worden de methoden van Heckman en Newey besproken. Als laatst worden de aan-names en parameters in de Monte-Carloanalyse besproken.

Het basis model ziet er als volgt uit

y1i∗ = ( y1i= β 0 1xi+ β 0 2zi+ ωi if y2i= 1

not observed otherwise y2i= ( 1 if z1i0 γ1+ z 0 2iγ2+ εi ≥ 0 0 otherwise εi ωi ! ∼ ID 0 0 ! , 1 ρ ρ σ !!

(12)

Waarbij y1i alleen geobserveerd wordt als y2i = 1.

De methode van Heckman wordt als volgt. Allereerst worden met behulp van maximum likelihood de parameters zi0γ in het probit model geschat. Daarna wordt met behulp van de verkregen parameters de inverse Mills ratio berekend.

λi = φ(zi0γ) Φ(zi0γ)

Hiermee wordt de volgende vergelijking opgesteld:

y1i= β0+ β 0 1xi+ β 0 2zi+ β 0 3λi+ ui

waarna met behulp van OLS de parameters van deze vergelijking geschat worden.

Om te kunnen analyseren in hoeverre de polynoom van Newey (2009), ten opzichte van de inverse Mills ratio van Heckman (1979), betere schattingsresultaten oplevert, wordt de eerste stap van Newey (2009) hetzelfde als Heckman. Hiervoor is gekozen omdat hierdoor de verschillen alleen afhangen van stap twee. Dat betekent dat met behulp van maximum likelihood de parameters zi0γ geschat worden. Daarna worden de geschatte waarden in de volgende polynoom verwerkt.

PK

k=1ηk∗ pk(Zi0γ) + ξi∗

Waarbij de polynoom van orde negen is. Met behulp van deze polynoom wordt de vol-gende vergelijking opgesteld

y1i= β0+ β 0 1xi+ β 0 2zi+ PK k=1ηk∗ pk(Z 0 iγ) + ξ ∗ i

Waarna met behulp van OLS de parameters van deze vergelijking geschat worden. De werkelijke waarden van de parameters worden gesteld op:

β0 = 0, β1 = 1, β2 = 1, γ0 = 1, γ1 = 1, γ2 = 1

Daarnaast wordt de steekproefgrootte 1000 en het aantal replicaties wordt ook 1000. Voor ongeveer 70% van de steekproef geldt dat y2i> 0 is en y1i geobserveerd wordt. Om de twee

technieken beter met elkaar te kunnen vergelijken worden verschillende verdelingen voor de storingstermen gekozen. Waarbij εi bij elke analyse normaal verdeeld gekozen wordt en de

(13)

gekozen. Bij de volgende analyse wordt de verdeling van ωi een cauchy verdeling. Vervolgens

een uniforme verdeling en bij de laatste analyse een gamma verdeling. De verdeling van de storingsterm in het uiteindelijke model zal als volgt verdeeld zijn:

ωi = ρεi+ ξi

Waarbij ρ gelijk gesteld wordt aan 0.6. Daarnaast blijkt uit de onderzoeken van Nawata (1993) en Puhani (2000) dat de hoogte van de correlatie tussen de storingstermen invloed heeft op de kwaliteit van de schattingsresultaten. Daarom wordt er onderscheid gemaakt in de hoogte van de correlatie. De volgende waarden van de correlatie worden onderzocht: ρ = 0, ρ = 0.3, ρ = 0.8 en ρ = −0.5. Als laatste wordt er een Wald test uitgevoerd om te testen of de inverse Mill’s ratio en de correctie polynoom significant ongelijk aan nul zijn. In het volgende hoofdstuk worden de resultaten van deze Monte-Carloanalyse gepresenteerd en besproken.

4

Analyse

Allereerst worden de resultaten van de Monte-Carloanalyse gepresenteerd. Daarbij zijn de resultaten gerangschikt op verdeling en daarna per verdeling op ρ waarde. Te beginnen met de normale verdeling, daarna de Cauchy-verdeling, vervolgens de uniforme verdeling en als laatste de Gamma-verdeling. Binnen de verdeling zijn de resultaten als volgt gerangschikt: ρ = 0, ρ = 0.3, ρ = 0.8, ρ = −0.5. Nadat de resultaten bekend zijn, worden ze geanalyseerd en wordt er vervolgens geconcludeerd in hoeverre de semiparametrische schattingstechniek van Newey (2009) betere schattingsresultaten op levert dan de techniek van Heckman (1979).

(14)

4.1

Resultaten

Table 1: Normale verdeling, ρ = 0 Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 1.000488 1.000616 0.9998222

β2 0.9996013 0.9996181 0.9996818

Inverse Mills Ratio 0.0009818374

Constant −0.019 −0.089 −0.002

Wald-test p-waarde 0.0872 0.521379

Observations 712 712 712

Table 2: Normale verdeling, ρ = 0.3 Dependent variable: y1i y1i y1i

OLS Heckman Newey β1 0.941394 0.9999288 0.9996956

β2 0.9999468 0.9999644 1.00002

Inverse Mills Ratio 0.2991608

Constant 0.092 -0.053 0.265

Wald-test p-waarde 0.000222 0.2550066

(15)

Table 3: Normale verdeling, ρ = 0.8 Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8623634 1.000287 1.000549

β2 1.00049 1.000915 1.001033

Inverse Mills Ratio 0.7031394

Constant 0.236 -0.033 0.577

Wald-test p-waarde <2e-16 0.0001605226

Observations 712 712 712

Table 4: Normale verdeling, ρ = −0.5 Dependent variable: y1i y1i y1i

OLS Heckman Newey β1 1.098514 1.000812 0.9997544

β2 1.000138 1.000111 1.000248

Inverse Mills Ratio -0.500145

Constant 0.181 0.085 0.331

Wald-test p-waarde 0.0185 0.05587047

(16)

Table 5: Cauchy, ρ = 0

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.842261 0.9990366 1.000159

β2 0.9997282 0.999654 0.9996679

Inverse Mills Ratio 0.8013124

Constant 0.259 0.0001 0.541

Wald-test p-waarde <2e-16 9.501578e-08

Observations 712 712 712

Table 6: Cauchy, ρ = 0.3

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8422177 0.9991725 1.000282

β2 0.9996553 0.9996116 0.9996185

Inverse Mills Ratio 0.8017418

Constant 0.247 0.014 0.555

Wald-test p-waarde <2e-16 3.970409e-08

(17)

Table 7: Cauchy, ρ = 0.8

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8426531 0.9993043 1.000307

β2 0.9996192 0.9997471 0.9998196

Inverse Mills Ratio 0.8012956

Constant 0.239 0.020 0.584

Wald-test p-waarde <2e-16 4.075339e-08

Observations 712 712 712

Table 8: Cauchy, ρ = −0.5

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8424511 0.9989881 1.000189

β2 1.000001 1.000078 1.000109

Inverse Mills Ratio 0.8011772

Constant 0.263 0.022 0.517

Wald-test p-waarde <2e-16 5.313315e-08

(18)

Table 9: Uniform, ρ = 0

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.842261 0.9990366 1.000159

β2 0.9997282 0.999654 0.9996679

Inverse Mills Ratio 0.8013124

Constant 0.259 0.0001 0.541

Wald-test p-waarde <2e-16 9.501578e-08

Observations 712 712 712

Table 10: Uniform, ρ = 0.3

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8422177 0.9991725 1.000282

β2 0.9996553 0.9996116 0.9996185

Inverse Mills Ratio 0.8017418

Constant 0.247 0.014 0.555

Wald-test p-waarde <2e-16 3.970409e-08

(19)

Table 11: Uniform, ρ = 0.8

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8426531 0.9993043 1.000307

β2 0.9996192 0.9997471 0.9998196

Inverse Mills Ratio 0.8012956

Constant 0.239 0.020 0.584

Wald-test p-waarde <2e-16 4.075339e-08

Observations 712 712 712

Table 12: Uniform, ρ = −0.5 Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8424511 0.9989881 1.000189

β2 1.000001 1.000078 1.000109

Inverse Mills Ratio 0.8011772

Constant 0.263 0.022 0.517

Wald-test p-waarde <2e-16 5.313315e-08

(20)

Table 13: Gamma, ρ = 0

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.842261 0.9990366 1.000159

β2 0.9997282 0.999654 0.9996679

Inverse Mills Ratio 0.8013124

Constant 0.259 0.0001 0.541

Wald-test p-waarde <2e-16 9.501578e-08

Observations 712 712 712

Table 14: Gamma, ρ = 0.3

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8422177 0.9991725 1.000282

β2 0.9996553 0.9996116 0.9996185

Inverse Mills Ratio 0.8017418

Constant 0.247 0.014 0.555

Wald-test p-waarde <2e-16 3.970409e-08

(21)

Table 15: Gamma, ρ = 0.8

Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8426531 0.9993043 1.000307

β2 0.9996192 0.9997471 0.9998196

Inverse Mills Ratio 0.8012956

Constant 0.239 0.020 0.584

Wald-test p-waarde <2e-16 4.075339e-08

Observations 712 712 712

Table 16: Gamma, ρ = −0.5 Dependent variable:

y1i y1i y1i

OLS Heckman Newey β1 0.8424511 0.9989881 1.000189

β2 1.000001 1.000078 1.000109

Inverse Mills Ratio 0.8011772

Constant 0.263 0.022 0.517

Wald-test p-waarde <2e-16 5.313315e-08

(22)

4.2

Analyse

Allereerst gekeken naar de normale verdeling, blijkt dat bij ρ = 0 de inverse Mills ratio en error correctie polynoom, beide niet significant ongelijk aan nul zijn. Daardoor geeft OLS in die omstandigheden de beste resultaten. Bij de normale verdeling en een grotere ρ, schat Heckman de parameters preciezer. De polynoom van Newey is bij ρ = 0.3 en ρ = −0.5 niet significant, waardoor de methode van Heckman de parameters het beste schat. Daar-naast is de polynoom van Newey bij ρ = 0.8 wel significant ongelijk aan nul maar ook bij een hoge correlatie tussen de storingstermen schat de methode van Heckman de pa-rameters preciezer. Wanneer ωi echter een combinatie is van de normale verdeling en de

Cauchy, uniforme of gamma-verdeling, dan presteert de techniek van Newey het beste. Hi-erbij moet wel meegenomen worden dat dit alleen geldt wanneer ρ ≥ 0. Bij ρ = −0.5 en ωi

is normaal, Cauchy, uniforme of gamma-verdeelt, dan schat de techniek van Newey β1

pre-ciezer maar Heckman schat in deze omstandigheden β2 preciezer. Bij de analyse moet echter

meegenomen worden dat voor beide technieken de standaardfout van de geschatte parameters niet opgenomen is in de tabellen. Omdat het verschil tussen de geschatte parameters met de techniek van Heckman en de geschatte parameters met de techniek van Newey met minder dan een honderdste van elkaar verschillen zou dit verschil als marginaal beschouwd kunnen worden.

Concluderend betekent dit dat wanneer de storingstermen normaal verdeelt zijn en de standaardfouten buiten beschouwing gelaten worden, de schattingstechniek van Heckman het beste gebruikt kan worden om de parameters te schatten, mits ρ 6= 0 is. In het geval dat ρ = 0, levert OLS de beste schattingsresultaten op. Is de storingsterm van het lineaire model echter niet normaal verdeeld maar een combinatie van de normale verdeling en de Cauchy, uniforme of gamma-verdeling, geldt daarbij dat ρ ≥ 0 en worden de standaardfouten buiten beschouwing gelaten, dan levert de techniek van Newey de beste schattingsresultaten op. Mochten de standaardfouten wel meegenomen worden in de analyse dan zou het verschil in geschatte parameters door de techniek van Heckman en Newey als marginaal beschouwd kunnen worden. Dit omdat het verschil tussen beide geschatte parameters minder dan een honderdste bedraagt. Daarnaast is in deze Monte-Carloanalyse alleen onderzocht naar het verschil in stap twee van de techniek van Newey en stap twee van de techniek van Heck-man. De eerste stap is gelijk gesteld met de eerste stap van Heckman, namelijk met behulp van maximum likelihood de parameters in het probit model schatten. Dit terwijl Newey de parameters in stap één eigenlijk schat met behulp van een verdelingsvrije methode. Het anal-yseren in hoeverre de techniek van Newey betere schattingsresultaten oplevert ten opzichte van de techniek van Heckman, waarbij de echte eerste stap van Newey de verdelingsvrije methode is, zou hierdoor een goed vervolg onderzoek zijn.

(23)

5

Conclusie

Wanneer de invloed van scholing op het loon wordt geschat, kan het probleem voorkomen dat een aantal individuen scholing hebben gehad maar niet werken. Hierdoor hebben deze mensen geen loon en voldoen ze mogelijk niet aan de verwachte hoogte van het loon voor mensen met scholing. Als scholing een positief effect heeft op het loon dan zullen mensen met minder scholing ook een minder hoog loon hebben en daardoor een hogere werkloosheids-graad. Omdat alleen observaties worden waargenomen van mensen die een loon ontvangen, komt het voor dat alleen de lager geschoolde mensen met een betrekkelijk hoog inkomen in de analyse opgenomen worden. Wanneer hierop een OLS-regressie van loon op aantal jaar scholing gedaan wordt, resulteert dit in een neerwaartse onzuiverheid van het effect van scholing op loon. Deze schatting is inconsistent omdat de steekproef niet meer rep-resentatief is voor de populatie van alle mensen die scholing hebben gehad. Dit wordt de sample selection bias genoemd. Heckman en Newey hebben beide een schattingsmethode ontwikkeld om de schatting weer consistent te maken. Heckman een parametrische schat-tingsmethode en Newey een semiparametrische schatschat-tingsmethode. Maar in hoeverre levert de semiparametrische schattingstechniek van Newey betere schattingsresultaten op dan de parametrische schattingsmethode van Heckman. Uit de Monte-Carloanalyse is gebleken dat de methode van Newey betere schattingsresultaten oplevert als de storingsterm van de lin-eaire vergelijking niet normaal verdeeld is en daarbij ρ ≥ 0. In het geval dat ρ < 0, is uit de resultaten gebleken dat Newey β1 beter schat en Heckman β2 beter schat. Wanneer de

storingsterm van de lineaire vergelijking wel normaal verdeeld is, is gebleken dat de methode van Heckman betere schattingsresultaten oplevert. Daarbij blijkt uit de analyse echter wel dat bij een niet normaal verdeelde storingsterm de geschatte parameters met de methode van Heckman met minder dan een honderdste verschillen van de parameters geschat met de methode van Newey. Wanneer de standaardfout ook geanalyseerd wordt zou kunnen blijken dat dit verschil in geschatte parameters marginaal is. Dit terwijl Nawata (1993) en Puhani (2000) concluderen dat de methode van Heckman minder precies schat wanneer de corre-latie tussen de storingstermen hoog is en wanneer de verdeling van de storingstermen niet normaal verdeeld zijn. Het feit dat de techniek van Heckman in dit onderzoek wel precieze schatters oplevert bij storingstermen die niet normaal verdeeld zijn zou verklaard kunnen worden door de gekozen verdelingen. Deze verdelingen zouden te veel overeenkomsten met de normale verdeling kunnen hebben wat tot gevolg heeft dat de techniek van Heckman precieze schattingen oplevert en de verkregen schattingen zullen hierdoor de conclusies van Nawata (1993) en Puhani (2000) niet bekrachtigen. Hetzelfde onderzoek maar dan met stor-ingstermen waarvan de verdelingen minder tot geen overeenkomsten met de normale verdeling

(24)

hebben zou hierdoor een goed vervolg onderzoek kunnen zijn. Een ander vervolg onderzoek zou het analyseren in hoeverre de techniek van Newey preciezere schattingsresultaten oplev-ert ten opzichte van de techniek van Heckman, waarbij de eerste stap van Newey wel een verdelingsvrije methode is en niet hetzelfde als de eerste stap van Heckmanm, kunnen zijn.

(25)

References

[1] Cosslett, S.R., Semiparametric estimation of a regression model with sample selectivity, Chapter 7 of Nonparametric and semiparametric estimation methods in econometrics and statistics, W.A. Barnett, J. Powell and G. Tauchen (eds), Cambridge University Press, Cambridge (U.K.), 1991 pp. 175-197

[2] Heckman, J.J. Sample selection as a specification error, Econometrica 1979 (vol. 47), 729-747.

[3] Hussinger, K., R&D and subsidies at the firm level: an application of parametric and semiparametrix two-step selection models. Journal Of Applied Econometrics, 2008 (vol 23), 729-747.

[4] Nawata, K., A note on the estimation of models with sample-selection biases. Economics Letters, 1993 (vol. 42), 15-24.

[5] Newey, W.K., Two-step series estimation of sample selection models. Econometrics Jour-nal, 2009 (vol 12), pp. S217-S229.

[6] Puhani, P.A., The Heckman correction for sample selection and its critique, Journal of Economic Surveys, 2000 (vol. 14), pp. 53-68

Referenties

GERELATEERDE DOCUMENTEN

Veel van dit materiaal is heden ten dage voor de bouw in- teressant; tras, gemalen tuf is zeer geschikt als specie voor waterdicht metselwerk.. Bims, puimsteenkorrels tot

Dit onderzoek heeft opgeleverd dat Oriëntals heel goed een warmwaterbehandeling bij 41°C kunnen verdragen mits de bollen gedurende 4 dagen bij 20°C worden bewaard voor en na de

Zo zijn de deelnemers van de Beweegkuur gemiddeld jonger en hebben ze vaker een lage sociaaleconomische status in vergelijking met deelnemers van Slimmer en CooL. Meer

Goud, mirre en wierook zijn kostbaar, Maar door de hemel is gegeven:. Jezus, Hij kwam voor ons

Aansluitend op de afkoelproef werd het massaverlies van de appels in de kisten ge- meten.. Het massaverlies werd bepaald in 2

The research project consisted of three phases. For this purpose seven participants were identified through purposive sampling in the two clinic schools in Gauteng; three

Dit onderzoek richt zich op framing en frame alignment aan de hand van vijf verschillende soorten frames: framing van verantwoordelijkheid, conflicten, human

De jurisprudentie laat zien dat het Hof de essentie van blasfemiewetten - het beschermen van geloof en goden tegen handelingen of uitlatingen die een godsdienst