• No results found

Semiparametrische schatting van selectiviteitsmodellen

N/A
N/A
Protected

Academic year: 2021

Share "Semiparametrische schatting van selectiviteitsmodellen"

Copied!
19
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Universtiteit van Amsterdam

Faculteit Economie en Bedrijfskunde

Semiparametrische schatting van

selectiviteitsmodellen

(2)

1 1. Inleiding

Bij het onderzoeken van bijvoorbeeld het effect van schoolresultaten op de hoogte van het loon is er , door het karakter van de relatie, sprake van endogene selectiviteit. Loon kan alleen gemeten worden bij personen die werken, en het werkende deel van de populatie is niet representatief voor de hele populatie . Wanneer er sprake is van endogene selectiviteit geeft ‘ordinary least squares’ (OLS) een inconsistente schatter. Voor dit soort endogene selectiviteit biedt het model van Heckman (1979) een oplossing.

Bij de implementatie van het model van Heckman (1979) dat in deze paper gebruikt wordt, wordt de kans op werk geschat met Probit. Vervolgens worden deze geschatte kansen gebruikt om met de ‘Inverse Mills Ratio’ voor elke waarneming een correctiefactor te schatten. De correctiefactor wordt als variabele toegevoegd aan de vergelijking waarmee de hoogte van het loon verklaard wordt door schoolprestaties. Tot slot worden met OLS alle parameters van de variabelen geschat. De parameter van de correctiefactor is een schatting van het product van de variantie van de

vergelijking van de hoogte van het loon en de correlatie tussen de storingstermen van de twee vergelijkingen. Uit dit product kan een schatting van de correlatie worden berekend. Al deze schattingen zijn consistent wanneer de aannames van het Heckman-model (1979) kloppen.

Er wordt verondersteld dat zowel de storingsterm van de relatie tussen de hoogte van het loon en schoolprestaties (ε1) als de storingsterm van de relatie tussen de kans op werk en

schoolprestaties (ε2) normaal verdeeld zijn. Deze aannames zijn niet altijd juist. Bij de modellen van

Newey (2009) en Cosslett (1991) worden deze aannames niet gedaan. In deze scriptie worden de implementaties van deze modellen gebruikt waarbij alleen de aanname op ε2 niet gemaakt wordt.

Omdat deze modellen geen verdelingsparameters schat voor ε2 zijn dit semi-parametrische

modellen.

Het model van Cosslett (1991) schat de correctiefunctie door een dummyspecificatie. De geschatte kansen op werk worden verdeeld over een geheel aantal dummyvariabelen, vervolgens worden deze variabele toegevoegd aan de vergelijking met de hoogte van het loon en de

schoolprestaties. De parameters van al deze variabelen wordt geschat met OLS, de parameters van de dummyvariabele vormen samen een schatting voor de correctiefunctie. Het model van Newey (2009) werkt bijna hetzelfde, in plaats van een dummyspecificatie wordt een polynoom gebruikt om de correctiefunctie te schatten.

De vraag is of al deze modellen gelijk presteren. Wanneer de aannames kloppen kan het model van Heckman (1979) wellicht preciezere resultaten leveren. Echter, wanneer de aanname op de verdeling van ε2 niet klopt is de schatter van Heckman (1979) model niet consistent. Het effect

van verschillende correlaties tussen ε1 en ε2 en het effect van de verschillende verdelingen van ε2

worden in deze paper met Monte Carlo simulaties onderzocht. De onderzoeksvraag is: “Wat is het verschil in kwaliteit van schatters van Heckman(1979), Newey(2009) en Cosslett(1991) met verschillende correlaties en verdelingen?”

In het theoretisch kader worden de methodes van Heckman (1979), Newey (2009) en Cosslett (1991) beschreven. De structuur achter de Monte Carlo simulaties wordt beschreven in de onderzoeksopzet. Vervolgens worden de resultaten besproken en tot slot worden deze geanalyseerd in de conclusie.

(3)

2 2. Theoretisch kader

2.1 Selectiviteitsmodel

Het selectiviteitsmodel wat in dit onderzoek gebruikt wordt is gebaseerd op de volgende twee vergelijkingen:

Hier is alleen waarneembaar als groter dan nul is en is van alleen het voorteken waarneembaar. Er is sprake van selectiviteit als ‘ en ‘ minimaal één variabele delen en de correlatie tussen en verschillend is van 0. Als er sprake is van selectiviteit geeft OLS een inconsistente schatter voor .

OLS negeert waardoor de geleverde schatter niet consistent is. De modellen van Heckman (1979), Cosslett (1991) en Newey (2009) voegen een correctiefactor toe waardoor de schatter wel consistent wordt.

2.2 Parametrisch model van Heckman (1979)

In dit onderzoek wordt de twee-staps implementatie van de Heckman correctie toegepast. Bij Heckman worden en bivariaat normaal verdeeld verondersteld. De aanname dat normaal verdeeld is wordt niet gemaakt bij de in deze paper gebruikte implementaties van de modellen van Coslett (1991) en Newey (2009).

Met de aanname dat en bivariaat normaal verdeeld zijn kan de inconsistentie worden uitgeschreven.

Hier is de ‘Inverse Mills Ratio’, ‘f’ is de kansverdeling van de standaard normale verdeling ‘F’ is de cumulatieve verdeling van de standaard normale verdeling. Voor deze ratio is de onbekende

nodig. Deze wordt geschat met Probit. Om deze met Probit te schatten is de aanname dat normaal verdeeld is nodig.

De ‘Inverse Mills Ratio’ wordt toegevoegd aan de vergelijking van .

Het voordeel van het Heckman (1979) model is dat deze relatief simpel toe te passen is. Het nadeel is dat de aanname op de verdelingen van en niet altijd kloppen. Verder levert het Heckman (1979) model heteroskedastiche storingstermen op omdat de met Probit geschatte een stochast is.

(4)

3 2.3 Semi-parametrische model van (Cosslett)

Bij de in deze paper gebruikte implementatie van het model van Cosslett (1991) wordt er geen aanname gemaakt op de verdeling van , maar de aanname op de verdeling van blijft.

Het model van Cosslett (1991) gebruikt ook Probit om te schatten. Vervolgens wordt de vector geordend en op gedeeld in ‘M’ stukken. Van de opgedeelde vector worden ‘M’ dummy variabelen gemaakt en deze worden toegevoegd aan de vergelijking van

Vervolgens worden en geschat met OLS. Als ‘M’ naar oneindig gaat is de schatter van het

model van Cosslett (1991) consistent.

2.4 Semi-parametrische model van (Newey)

Bij de in deze paper gebruikte implementatie van het model van Newey (2009) wordt er ook geen aanname gemaakt op de verdeling van en wel op de verdeling van

Het model van Newey (2009) gebruikt ook Probit om te schatten. Vervolgens wordt de vector gebruikt om met een polynoom de correctiefunctie te schatten.

Het model van Newey wordt dan:

Vervolgens worden en geschat met OLS. Als ‘M’ naar oneindig gaat is de schatter van het

(5)

4 3. Onderzoeksopzet

Om de onderzoeksvraag te beantwoorden worden data gegenereerd via Monte Carlo simulaties. Deze simulaties worden gegenereerd met R. Er zijn een aantal factoren die de prestatie van de verschillende methodes kunnen beïnvloeden. Dit zijn:

 correlatie van storingstermen,

 verdeling van storingstermen,

 correlatie van variabelen zelf,

 gemeenschappelijke variabelen.

In deze paper is er kozen om alleen de grootte van de correlatie en de verdelingsfunctie van de storingstermen te variëren. De verdeling van de storingsterm is relevant omdat deze de consistentie van het Heckman (1979) beïnvloedt. De grootte van de correlatie is relevant omdat dit de mate van selectiviteit bepaald. De kwaliteit van de schatters onder verschillende mate van selectiviteit geeft inzicht in de robuustheid van de modellen.

Eerst worden data gegenereerd waarbij verschillende verdelingen en correlaties worden gebruikt. Vervolgens worden deze data geanalyseerd met behulp van de modellen van Heckman (1979), Cosslett (1991) en Newey (2009). Tot slot worden de resultaten van de analyse vergeleken met de waarden waarmee de data gegenereerd zijn.

3.1 Methode

De data wordt gegenereerd met een steekproefgrootte van 1000 en met 500 replicaties. Voor de simulaties wordt het softwarepakket ‘R’ gebruikt met als uitbreiding het pakket ‘SampleSelection’. Voor het selectiviteitsmodel zijn twee afhankelijke variabelen nodig: en . is alleen

waarneembaar als groter dan nul is en van is alleen het voorteken waarneembaar. Om dit te simuleren worden vier variabelen gebruikt: , , en . Deze worden als volgt gedefinieerd:

+ ε1

+ ε2

Hierbij zijn en beide nul en tot en met zijn allen 1. De variabelen tot en met worden als volgt gedefinieerd:

Hierbij zijn tot en met vectoren met 1000 trekkingen uit de normale verdeling met verwachting nul en variantie 1.

De storingsterm ε2 is ook normaal verdeeld met verwachting nul en variantie 1. Er wordt

gevarieerd met de verdeling van de storingsterm ε1. Er worden data gegenereerd waarbij ε1 normaal

verdeeld, chi-kwadraat verdeeld, exponentieel verdeeld en uniform verdeeld is. Deze verdelingen zijn gekozen omdat zij verschillend van aard zijn.

De hoogte van de correlatie varieert ook. Er worden data gegenereerd met correlaties van 0; 0,2; 0,4 ; 0,6 en 0,8. De correlatie wordt als volgt gemodelleerd:

(6)

5 ε1= V6

ε2 = 2*

Hier is V5 een vector met random trekkingen uit de verdeling van ε1 en V6 een vector met random

trekkingen uit de normale verdeling. Verder is de correlatie tussen ε1 en ε2 en de variantie

van ε1.

Als de data gegenereerd zijn worden deze geanalyseerd met de modellen van Heckman (1979), Cosslett (1991) en Newey (2009). Omdat in deze paper de twee-staps implementatie van deze modellen wordt gebruikt wordt eerst de kans dat groter is dan nul geschat met Probit. Vervolgens gebruikt ieder model een andere methode om met de geschatte kans een correctiefactor te

schatten. De gemiddelde uitkomsten over alle replicaties van de modellen en de variantie van de uitkomsten wordt opgeslagen.

Hieronder een overzicht van alle aannames:

ε1 normaal verdeeld ε1 exponentieel, chi-kwadraat of uniform

verdeeld = 0 OLS : Consistent Heckman (1979) : Consistent Cosslett (1991) : Consistent Newey (2009) : Consistent OLS : Consistent Heckman (1979) : Consistent Cosslett (1991) : Consistent Newey (2009) : Consistent >0 OLS : Niet Consistent

Heckman (1979) : Consistent Cosslett (1991) : Consistent Newey (2009) : Consistent

OLS : Niet Consistent Heckman (1979) : Niet Consistent Cosslett (1991) : Consistent Newey (2009) : Consistent

(7)

6 4. Resultaten

Tabel 1A1. Gemiddelde uitkomsten van b1 van alle onderzochte modellen onder normaal verdeelde storingstermen

Correlatie OLS Cosslett Heckman Newey

0 1.007 1.012 1.007 1.011

0.2 0.914 1.004 1.006 1.007

0.4 0.818 0.994 1.009 0.999

0.6 0.723* 0.989 1.005 0.997

0.8 0.632* 0.987 1.001 0.996

Tabel 1A1 vervolg. Gemiddelde uitkomsten van b2 van alle onderzochte modellen onder normaal verdeelde storingstermen

* significant verschillend van de waarde waarmee de data gegenereerd zijn.

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 500 replicaties

Tabel 1A2. Standaarddeviatie van de gemiddelde uitkomsten van b1 van alle onderzochte modellen onder normaal verdeelde storingstermen

Correlatie OLS Cosslett Heckman Newey

0 0.159 0.143 0.157 0.159

0.2 0.154 0.139 0.153 0.156

0.4 0.159 0.148 0.156 0.158

0.6 0.142 0.135 0.142 0.143

0.8 0.136 0.126 0.136 0.135

Correlatie OLS Cosslett Heckman Newey

0 0.993 0.992 1.006 0.993

0.2 0.998 0.998 1.008 0.997

0.4 0.997 0.997 1.012 0.997

0.6 0.994 0.997 1.007 0.996

(8)

7

Tabel 1A2 vervolg. Variantie van de gemiddelde uitkomsten van b2 van alle onderzochte modellen onder normaal verdeelde storingstermen

* significant verschillend van de waarde waarmee de data gegenereerd zijn.

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 500 replicaties

Significantie wordt op 5% getest met behulp van de gemiddelde standaarddeviatie.

Zoals verwacht levert OLS bij hoge correlaties schatters voor die significant verschillen van de waarde waarmee de data gegenereerd zijn. Alle methoden leveren schatters voor die niet significant verschillen van de echte waarde. Verder ontlopen de uitkomsten van de schatters elkaar niet veel. De standaarddeviatie van de uitkomst van de schatters (te zien in Tabel 1A2) is groter dan de onderlinge verschillen. Dit betekent dat de modellen van Heckman (1979), Cosslett ( 1991) en Newey (2009) in deze situatie geen significant verschillende resultaten opleveren. Dit is een indicatie dat de afwezigheid van de aanname op de verdeling van ε1 de kwaliteit van de schatters van Cosslett

(1991) en Newey (2009) niet beïnvloedt. 4.1 OLS

Tabel 1B. Gemiddelde uitkomsten en standaarddeviaties van OLS onder normaal verdeelde storingstermen

Gemiddelde Standdaard deviatie

Correlatie c B1 B2 c B1 B2 0 -0.001 1.007 0.993 0.102 0.141 0.134 0.2 0.221* 0.914 0.998 0.101 0.140 0.133 0.4 0.437* 0.818 0.997 0.100 0.138 0.131 0.6 0.661* 0.723* 0.994 0.098 0.135 0.128 0.8 0.886* 0.632* 0.995 0.094 0.129 0.123

* significant verschillend van de waarde waarmee de data gegenereerd zijn.

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 500 replicaties.

Correlatie OLS Cosslett Heckman Newey

0 0.137 0.136 0.136 0.136

0.2 0.134 0.131 0.131 0.132

0.4 0.139 0.139 0.139 0.138

0.6 0.127 0.129 0.129 0.126

(9)

8 De constante wordt significant groter dan 0 wanneer de selectiviteit ongelijk is aan 0. Verder neemt de standaarddeviatie af naarmate de selectiviteit groter wordt. De schatter voor B1 is pas significant

lager dan 1 als de correlatie tussen de twee storingstermen 0.6 of hoger is. Het effect van

selectiviteit is eerder significant zichtbaar in de waarde van de constante dan in de waarde van de schatter voor .

Tabel 1C. Gemiddelde uitkomsten van de schatters van het Cosslett (1991) model onder normaal verdeelde storingstermen Tabel 1C. Vervolg Correlatie D4 D5 D6 D7 D8 D9 0 -0.007 0.025 0.025 0.014 0.032 0.002 0.2 0.383 0.354 0.248 0.215 0.134 0.080 0.4 0.786 0.609 0.484 0.387 0.258 0.153 0.6 1.144** 0.963** 0.779** 0.594 0.439 0.219 0.8 1.532** 1.282** 0.996** 0.763** 0.543 0.299

* significant verschillend van de waarde waarmee de data gegenereerd zijn. ** niet significant verschillend van 0

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 500 replicaties

De methode van Cosslett (1991) levert een schatter die bij elke correlatie resultaten geven die niet significant verschilt van de waarde waarmee de data gegenereerd

zijn. De dummyvariabelen, die samen een schatter vormen

voor de correctiefunctie, zijn niet allemaal significant verschillend van 0. Geen enkele dummyvariabe le bij een correlatie van 0 is significant, er is dan immers anders geen correctiefunctie nodig. De dummy’s vormen samen een dalende functie van 3 naar 0.

Correlatie c B1 B2 D1 D2 D3 0 -0.012 1.012 0.992 0.047 0.052 -0.018 0.2 0.031 1.004 0.998 0.744 0.558 0.490 0.4 0.068 0.994 0.997 1.568 1.168 0.964 0.6 0.094 0.989 0.997 2.338** 1.723** 1.450** 0.8 0.139 0.987 0.995 3.129** 2.318** 1.929**

(10)

9 4.2 Heckman

Tabel 1D. Gemiddelde uitkomsten van de schatters van het Heckman (1979) model onder normaal verdeelde storingstermen

Tabel 1D vervolg.

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 250 replicaties * significant verschillend van de waarde waarmee de data gegenereerd zijn.

Het model van Heckman (1979) schat niet alleen en , maar ook en . De schatters verschillen nergens significant van de waarde waarmee de data gegenereerd zijn. De resultaten geven een indicatie dat de grote van de correlatie geen invloed heeft op de kwaliteit van de schatter. Dit indiceert dat het Heckman (1979) model robuust is bij zowel lage als hoge correlaties. Het product van ρ en σ is bij lage correlaties niet significant verschillend van 0.

Correlatie C Probit B1 Probit B2 Probit c B1

0 0.003 1.007 1.006 -0.005 1.009 0.2 0.000 1.006 1.008 -0.001 1.009 0.4 -0.004 1.009 1.012 -0.004 1.007 0.6 0.000 1.005 1.007 -0.004 1.005 0.8 0.001 1.001 1.007 -0.003 1.010 Correlatie B2 * σ 0 0.993 0.008 1.995 0.004 0.2 0.998 0.403* 1.993 0.201 0.4 0.997 0.800 2.000 0.398 0.6 0.996 1.203 1.997 0.601 0.8 0.997 1.605 1.998 0.801

(11)

10 4.3 Newey

Tabel 1D1. Gemiddelde uitkomsten van de schatters van het Newey (2009) model met een polynoom van orde 1 onder normaal verdeelde storingstermen

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 500 replicaties ** niet significant verschillend van 0

Het model van Newey (2009) schat met een polynoom de correctiefunctie. Echter, alleen de eerste term van de polynoom is vaak significant. Het model schat hier dus een lijn als correctiefunctie. Het model levert schatters die niet significant verschillen van de waarde waarmee de data gegenereerd zijn. De constante en de eerste term zijn significant wanneer de selectiviteit groter dan 0.2 is.

Tabel 1D1. Gemiddelde uitkomsten van de schatters van het Newey (2009) model met een polynoom van orde 2 onder normaal verdeelde storingstermen

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 250 replicaties ** niet significant verschillend van 0

De tweede orde-termen van het model van Newey (2009) zijn nergens significant. Het model levert alsnog resultaten die niet significant verschillen van de waarde waarmee de data gegenereerd is.

Correlatie c B1 B2 0 -0.001** 1.002 1.000 0.000** 0.2 0.667 0.996 1.005 -0.653** 0.4 1.401 1.020 0.992 -1.411 0.6 2.060 0.995 0.997 -2.050 0.8 2.750 0.999 1.001 -2.735 Correlatie c B1 B2 0 0.044* 1.000 1.000 -0.183* 0.149* 0.2 0.747* 0.992 1.005 -0.979* 0.266* 0.4 1.556 1.014 0.992 -2.046* 0.519* 0.6 2.301 0.986 0.997 -3.028* 0.797* 0.8 3.082 0.985 1.001 -4.094 1.111*

(12)

11 4.4 Andere verdelingen

Tabel 2A. Gemiddelde uitkomsten van b1 van alle onderzochte modellen onder exponentieel verdeelde storingstermen

Correlatie OLS Cosslett Heckman Newey

0 1.008 1.007 0.990 1.009

0.2 0.900 0.990 1.008 0.994

0.4 0.811 0.987 1.001 0.998

0.6 0.719* 0.984 1.000 1.000

0.8 0.626* 0.978 0.999 0.998

Tabel 2A vervolg. Standaarddeviatie van de uitkomsten van b1 van alle onderzochte modellen onder exponentieel verdeelde storingstermen

* significant verschillend van de waarde waarmee de data gegenereerd zijn.

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 500 replicaties Tabel 2B. Gemiddelde uitkomsten van b1 van alle behandelde modellen onder chi-kwadraat verdeelde storingstermen

Correlatie OLS Cosslett Heckman Newey

0 1.003 1.001 1.000 1.001

0.2 0.916 1.001 1.009 1.009

0.4 0.809 0.984 0.994 0.994

0.6 0.720* 0.987 1.003 1.002

0.8 0.621* 0.978 1.001 1.000

Correlatie OLS Cosslett Heckman Newey

0 0.147 0.137 0.144 0.146

0.2 0.155 0.140 0.153 0.154

0.4 0.158 0.147 0.156 0.158

0.6 0.145 0.135 0.141 0.144

(13)

12

Tabel 2B vervolg. Standaarddeviatie van de uitkomsten van b1 van alle behandelde modellen onder chi-kwadraat verdeelde storingstermen

* significant verschillend van de waarde waarmee de data gegenereerd zijn.

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 500 replicaties

Tabel 2C. Gemiddelde uitkomsten van b1 van alle onderzochte modellen onder uniform verdeelde storingstermen

Correlatie OLS Cosslett Heckman Newey

0 0.992 0.988 0.988 0.986

0.2 0.914 1.008 1.014 1.009

0.4 0.812 0.985 0.998 0.992

0.6 0.717* 0.984 1.000 0.990

0.8 0.637* 0.984 1.005 0.992

Tabel 2C vervolg. Standaarddeviatie van de uitkomsten van b1 van alle onderzochte modellen onder uniform verdeelde storingstermen

* significant verschillend van de waarde waarmee de data gegenereerd zijn.

Uitkomsten gegenereerd met een steekproefgrootte van 1000 en met 500 replicaties

Correlatie OLS Cosslett Heckman Newey

0 0.153 0.140 0.154 0.155

0.2 0.154 0.145 0.153 0.152

0.4 0.143 0.135 0.143 0.143

0.6 0.151 0.142 0.151 0.152

0.8 0.145 0.136 0.145 0.145

Correlatie OLS Cosslett Heckman Newey

0 0.143 0.133 0.140 0.142

0.2 0.153 0.143 0.152 0.152

0.4 0.150 0.135 0.149 0.151

0.6 0.147 0.137 0.146 0.147

(14)

13 Het valt op dat de resultaten van de modellen van Newey (2009), Heckman (1979) en Cosslett (1991) elkaar niet veel ontlopen. De uitkomsten van de simulatie geven een indicatie dat al deze modellen consistente schatters leveren omdat geen van de uitkomsten significant verschilt van de waarde waarmee de data gegenereerd zijn. De standaarddeviatie van de uitkomsten van de verschillende verdelingen verschillen niet veel. Dit is een indicatie dat de verschillende verdelingen van ε1 geen

impact hebben op de precisie van de schatter.

4.5 Correctiefuncties

Om meer inzicht te krijgen in de resultaten wordt hieronder voor elke verdeling de geschatte correc tiefunctie vergeleken. Deze correctiefunctie is gebaseerd op 1 replicatie, dit is dus louter illustratief.

Figuur3A: Geschatte correctiefunctie van het Heckman (1979) model onder normaal verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

Figuur3B: Geschatte correctiefunctie van het Cosslett(1991) model onder normaal verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

Figuur3C: Geschatte correctiefunctie van het Newey(2009) model onder normaal verdeelde storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

0 0,5 1 1,5 2 2,5 0 0,2 0,4 0,6 0,8 1 1,2 0 1 2 3 4 0 0,2 0,4 0,6 0,8 1 1,2 -1,00 0,00 1,00 2,00 3,00 4,00 0,00 0,20 0,40 0,60 0,80 1,00 1,20

(15)

14

Figuur4A: Geschatte correctiefunctie van het Heckman (1979) model onder exponentieel verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

Figuur4B: Geschatte correctiefunctie van het Cosslett (1991) model onder exponentieel verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

Figuur4C: Geschatte correctiefunctie van het Newey (2009) model onder exponentieel verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

0 0,5 1 1,5 2 2,5 3 0 0,2 0,4 0,6 0,8 1 1,2 0 0,5 1 1,5 2 2,5 0 0,2 0,4 0,6 0,8 1 1,2 0,00 0,50 1,00 1,50 2,00 2,50 3,00 0 0,2 0,4 0,6 0,8 1 1,2

(16)

15

Figuur5A: Geschatte correctiefunctie van het Heckman (1979) model onder chi-kwadraat verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

Figuur5B: Geschatte correctiefunctie van het Cosslett (1991) model onder chi-kwadraat verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

Figuur5C: Geschatte correctiefunctie van het Newey (2009) model onder chi-kwadraat verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

0 0,5 1 1,5 2 2,5 0 0,2 0,4 0,6 0,8 1 1,2 0 0,5 1 1,5 2 2,5 3 0 0,2 0,4 0,6 0,8 1 1,2 0,00 0,50 1,00 1,50 2,00 2,50 3,00 0 0,2 0,4 0,6 0,8 1 1,2

(17)

16

Figuur6A: Geschatte correctiefunctie van het Heckman (1979) model onder uniform verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

Figuur6B: Geschatte correctiefunctie van het Cosslett (1991) model onder uniform verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

Figuur6C: Geschatte correctiefunctie van het Newey (2009) model onder uniform verdeelde Storingstermen. = 0.8, x-as uitkomsten Probit, y-as geschatte correctiefactor

0 0,5 1 1,5 2 2,5 3 0 0,2 0,4 0,6 0,8 1 1,2 0 0,5 1 1,5 2 2,5 0 0,2 0,4 0,6 0,8 1 1,2 0,00 0,50 1,00 1,50 2,00 2,50 3,00 0 0,2 0,4 0,6 0,8 1 1,2

(18)

17 Het is te zien dat bij normaal gegenereerde storingstermen de correctiefuncties erg vergelijkbaar zijn. De correctiefuncties van het model van Cosslett (1991) fluctueren iets meer. De methoden van Newey (2009) en Cosslett (1991) schatten een vergelijkbare correctiefunctie waardoor de resultaten van de schatters niet veel verschillen van de resultaten van het Heckman (1979) model.

De correctiefuncties die gegenereerd zijn onder exponentieel verdeelde storingstermen verschillen iets meer van elkaar. De vorm van de correctiefunctie van het model van Cosslett (1991) is anders. De functie van het model van Cosslett (1991) daalt bij lage uitkomsten van het Probit model sneller. Echter, de tweede term van het model van Newey (2009) is bij geen enkele verdeling significant. Deze daling is dus niet sterk genoeg om opgenomen te worden in de polynoom.

Het verschil in de correctiefuncties heeft niet veel impact op de precisie van de schatters. De correctiefuncties die onder een uniforme of chi-kwadraat verdeling gegenereerd zijn verschillen nog meer van vorm. Echter, blijkbaar heeft de vorm van de correctiefunctie niet veel impact op de kwaliteit van de schatter. Alle modellen leveren onder deze verdelingen vergelijkbare schatters. De tweede term van de polynoom is hier ook niet significant.

5. Conclusie

De methodes van Heckman (1979), Cosslett (1991) en Newey (2009) leveren bij elke gebruikte correlatie en elke gebruikte verdeling schatters voor die niet significant verschillen van de waarde waarmee de data gegenereerd zijn. Verder worden de schatters voor niet minder precies

wanneer de correlatie tussen de twee storingstermen groter wordt. OLS geeft, zoals verwacht, bij correlaties die groter zijn dan nul schatters die wel significant verschillen van de waarde waarmee de data gegenereerd zijn.

Dit is een indicatie dat de grootte van de correlatie en de verdeling van geen invloedt hebben op de kwaliteit van de schatters van alle onderzochte modellen. Het is apart dat het Heckman (1979) model schatters levert die consistent lijken waarbij de data gegenereerd zijn met niet normaal verdeelde storingstermen. Dit is in tegenspraak met de theorie.

Als er gekeken wordt naar de geschatte correctiefuncties kan er geconcludeerd worden dat deze elkaar niet veel ontlopen. Dit is een indicatie dat de verdeling van en het model zelf niet veel invloed hebben op de vorm van de correctiefunctie. Dit kan een reden zijn waarom de resultaten zo vergelijkbaar zijn.

Er kan nog verder onderzoek gedaan worden naar het verschil van deze modellen. In deze paper is er niet gekeken naar het effect van steekproefgrootte en het effect van de correlatie tussen variabelen.

(19)

18 S.Cosslett, Semiparametric estimation of a regression with sample selectivity, Chapter 7 of

Nonparametric and Semiparametric Estimation Methods in Econometrics and Statistics, W. Barnett, J. Powell and G. Tauchen (eds.):. Cambridge, UK: Cambridge University Press, 1991, pp. 175-197 Heckman, J. (1979). "Sample selection bias as a specification error". Econometrica 47 (1): 153–61 W.K. Newey, Two-step series estimation of sample selection models, The Econometrics Journal, 2009: pp.S217-S229

Referenties

GERELATEERDE DOCUMENTEN

oxidatieve stress. Oxidatieve stress heeft veel invloed op telomeerlengte-verkorting en er zijn aanwijzingen voor verschillende mechanismen zoals bijvoorbeeld die van G base

Ook de zwakkere studenten komen duidelijk naar voren uit de correlaties: studenten die het vak lastig vinden geven ook aan dat ze teveel huiswerk hebben, en studenten die

In hoofdstuk 4 is toegelicht dat de customer based brand equity schaal van Yoo en Donthu als uitgangspunt is genomen, voor de schaal die in dit is gebruikt. De volgende

Onderzoek i van de Inspectie Leefomgeving en Transport (ILT) wijst uit dat meer dan 80% van de voertuigen die vanuit Nederland naar West-Afrika gaan, per 1 januari 2021 daar

rieken, iemand niet kunnen ~ luchten, iemand niet kunnen ~ rien-de-knots (uitspr. rièn-de-knots) helemaal niets. rijkswacht

Omdat de depots geen deel uitmaken van het dijktraject en niet direct aan de Natura 2000-gebieden grenzen, is de genoemde vergunningvoorwaarde strikt genomen niet van toepassing.

Er zijn in onze gemeente vijf aanbieders actief die logischerwijze stints zouden kunnen gebruiken (kinderopvang en/of BSO's).. In totaal worden in de gemeente drie

Dat de kans dat traditionele informatiebronnen, zoals de krant, de radio en de televisie in risicosituaties worden geraadpleegd groter is dan de kans dat gebruik wordt gemaakt