• No results found

Cosslett als alternatief voor de Heckman two-step methode : een vergelijking van methodes voor het corrigeren van de sample-selectie afwijking

N/A
N/A
Protected

Academic year: 2021

Share "Cosslett als alternatief voor de Heckman two-step methode : een vergelijking van methodes voor het corrigeren van de sample-selectie afwijking"

Copied!
22
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

UNIVERSITEIT VAN AMSTERDAM

Cosslett als alternatief voor de

Heckman two-step methode

Een vergelijking van methodes voor het corrigeren

van de sample-selectie afwijking

Arjen Snijders, 10251995 29-6-2016

Begeleider: Hans Van Ophem

Bachelorscriptie Econometrie en Operationele Research Studiejaar 2015-2016

(2)

Verklaring eigen werk

Hierbij verklaar ik, [Arjen Snijders], dat ik deze scriptie zelf geschreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan.

Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd.

De Faculteit Economie en Bedrijfskunde is alleen

verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.

(3)

Inhoudsopgave

1. Inleiding

2. Het model van Heckman

3. De kritiek op de methode van Heckman

4. Cosslett als alternatief

5. Analyse

6. Conclusie

7. Bibliografie

(4)

1

1 Inleiding

In de economie komen veelvuldig modellen voor waarin deelsteekproeven worden gebruikt die niet aselect gekozen zijn, met als gevolg dat er een sample-selectie bias op kan treden. De origine van deze bias kan het beste uitgelegd worden aan de hand van een simpel voorbeeld, zoals een model waarbij de verklarende variabelen van de hoogte van een persoons salaris geschat worden.

Stel dat alleen een bepaalde deelsteekproef van een populatie een baan heeft met als gevolg dat er alleen van deze personen gegevens bestaan over de hoogte van hun salaris. Vanwege het ontbreken aan gegevens van de rest van de populatie, zal deze deelsteekproef gebruikt worden om een schatting te maken van de determinanten van het salaris van de gehele populatie. In het geval dat de deelsteekproef van werkende mensen aselect wordt gekozen, kan er verwacht worden dat de gemiddelde eigenschappen van een persoon in de deelsteekproef gelijk zijn aan die van een persoon in de rest van de populatie, zeker als de deelsteekproef groot genoeg gekozen is. Er is hier dus nog geen sprake van een sample-selectie bias.

In de realiteit is de deelsteekproef echter niet aselect gekozen, maar hangt bij elk persoon of deze wel of niet een baan heeft af van verschillende variabelen, waaronder bijvoorbeeld het aantal jaar dat deze persoon scholing heeft gehad. Daarbovenop zullen veel van deze variabelen niet alleen bepalend zijn voor het al dan niet hebben van een baan, maar ook voor de hoogte van het salaris dat met deze baan verdiend wordt. Er zullen bijvoorbeeld personen zijn die wel scholing hebben gehad, maar desondanks geen baan accepteren, omdat het aangeboden salaris te laag is. Als scholing een positief effect heeft op de hoogte van het salaris, zullen laagopgeleide personen in het algemeen lagere salarissen aangeboden krijgen en dus ook vaker werkloos eindigen (Puhani, 2000). Het resultaat is dat het aantal jaar scholing dus zowel van invloed is op het hebben van een baan, als op de hoogte van het salaris, met als gevolg dat in de deelsteekproef alleen de laagopgeleiden zijn opgenomen die relatief een hoog aangeboden salaris hebben. Er is nu wel degelijk een sample-selectie bias opgetreden (Vella, 1998).

Het belangrijkste probleem dat opspeelt als gevolg van de sample-selectie bias, is dat de normale OLS geen zuivere schatter meer is, maar een afwijking heeft (Puhani, 2000). (Heckman J. , 1976) kwam met een simpele oplossing om dit probleem aan te pakken. Hij introduceerde een twee-staps schatter waarbij de sample-selectie bias behandeld wordt als een afwijking ten gevolge van een ontbrekende variabele. Bij zijn methode wordt voor deze afwijking

gecompenseerd, zodat OLS wel een consistente schatting oplevert wanneer het aantal observaties 𝑛 oneindig toeneemt. Zijn methode heeft als voordeel dat het makkelijk is toe te passen en het is uitgegroeid tot een standaardwerkwijze om modellen met een sample-selectie bias uit te werken.

Ondanks dat (Heckman J. , 1979, p. 160) aangaf dat zijn methode slechts bedoeld is om startwaarden te verkrijgen die helpen met het verkennen van een empirisch vraagstuk, worden de resultaten van zijn model in veel gevallen gebruikt als definitieve schattingen. Dit heeft over de jaren heen geleid tot de nodige kritiek. Heckmans methode zou te geparametriseerd zijn met te veel benodigde restricties om de methode in de praktijk goed te laten werken, waardoor deze te

(5)

2

beperkt is in haar toepasbaarheid. Vandaar dat er in de decennia die volgden een aantal alternatieve modellen ontwikkeld zijn, waaronder de semiparametriseerde modellen van (Robinson, 1988), (Newey, 1999), en (Cosslett, 1991). Het zijn deze semiparametriseerde modellen die doorgaans in de praktijk flexibeler zijn en dus een goede alternatieve methode bieden voor het geparametriseerde model van Heckman.

In dit onderzoek wordt het model van Cosslett gekozen als alternatief voor het model van Heckman en er wordt onderzocht welke van beide modellen beter presteert aan de hand van een Monte Carlo studie, dat wil zeggen met een gesimuleerde dataset. Hierbij worden met name de correlatie tussen de storingstermen en de correlatie tussen de verklarende variabelen van

bijvoorbeeld de hoogte van het salaris en het al dan niet hebben van een baan in acht genomen. De resultaten van beide modellen worden geanalyseerd en met elkaar vergeleken, zodat er een antwoord kan worden gegeven op de vraag of een semiparametriseerd model als Cosslett bij een toename van de correlatiecoëfficiënten beter presteert dan het model van Heckman. Dit

onderzoek is als volgt gestructureerd: Sectie 2 bevat een uitwerking van het model van Heckman en in sectie 3 volgt een overzicht van de belangrijkste kritiekpunten op zijn werkwijze.

Vervolgens wordt in sectie 4 het model van Cosslett als alternatief voorgesteld. De resultaten van de Monte Carlo studie worden weergegeven in enkele tabellen, zodat in sectie 5 geanalyseerd kan worden of en in hoeverre het model van Cosslett beter presteert dan Heckman. Ten slotte volgt er in sectie 6 een conclusie met betrekking tot de uitslag van de analyse.

2 Het model van Heckman

Voor gemak en meer duidelijkheid wordt er in de volgende omschrijving van het model enkele keren terugverwezen naar het voorbeeld van de loonvergelijking, aangezien Heckman zijn model en twee-staps methode destijds ook ontwikkeld heeft naar aanleiding van een sample-selectie bias in loonvergelijkingen (Heckman J. , 1974). Een dergelijk sample-selectie model wordt beschreven door de volgende vergelijkingen:

𝑦1𝑖∗ = 𝑥1𝑖′ 𝛽 + 𝑢1𝑖 𝑦2𝑖∗ = 𝑥2𝑖′ 𝛾 + 𝑢2𝑖

𝑦1𝑖 = 𝑦1𝑖∗ 𝑎𝑙𝑠 𝑦2𝑖∗ > 0 𝑦1𝑖 = 0 𝑎𝑙𝑠 𝑦2𝑖∗ ≤ 0

𝑖 = 1,2, … , 𝑁

In dit model wordt in de eerste vergelijking de relatie beschreven tussen de

uitkomstvariabele, 𝑦1𝑖∗ bijvoorbeeld salarishoogte, en een vector van potentionele covariaten 𝑥′1𝑖, zoals onder andere scholing. De tweede vergelijking is een probit vergelijking, waarbij de

(6)

3

waarschijnlijkheid wordt vastgelegd dat een persoon een baan heeft. In deze selectievergelijking is aangenomen dat de storingsterm 𝑢2𝑖 standaard normaal verdeeld is. Verder geldt dat de verklarende variabelen die in deze vergelijking gebruikt worden, zijn opgenomen in 𝑥2𝑖′ en in de praktijk volledig of bijna volledig gelijk zijn aan de variabelen van 𝑥1𝑖′ . De gevolgen hiervan zullen later in dit onderzoek uitgebreider besproken worden. Vervolgens geeft de derde

vergelijking weer hoe alleen de personen met een baan (waarvoor geldt dat 𝑦2𝑖∗ > 0, oftewel dat 𝑢2𝑖 > −𝑥2𝑖′ 𝛾) een observeerbare uitkomst 𝑦1𝑖 in het model opleveren. Dat wil zeggen, alleen van

deze personen zal het salaris worden waargenomen en dus participeren alleen zij in de regressie die de determinanten bepaalt voor de hoogte van het salaris.

Wat betreft de storingstermen ging Heckman van de volgende stelling uit: personen die een salaris aangeboden krijgen dat relatief laag is, gegeven het aantal jaar scholing dat zij hebben gehad, zullen ervoor kiezen de baan niet te accepteren en zijn dus werkloos. Daartegenover zullen mensen met een relatief hoog aangeboden salaris wel accepteren. Als resultaat hiervan kan er gesteld worden dat de storingstermen 𝑢1𝑖 en 𝑢2𝑖 gecorreleerd zijn, in dit specifieke geval zelfs

positief gecorreleerd (Puhani, 2000). (Heckman J. , 1979) ging zelfs zo ver dat hij aannam dat 𝑢1𝑖 en 𝑢2𝑖 bivariaat normaal verdeeld zijn:

[𝑢𝑢1 2] ~𝐵𝑁 [[ 0 0] , [ 𝜎12 𝜎12 𝜎12 𝜎22]]

De aanname dat de storingstermen op deze wijze zijn verdeeld, is cruciaal voor het gebruik van Heckmans twee-staps methode. De resultaten van zijn schatter zijn erg gevoelig voor de

specificatie van de storingstermen en dus is zijn methode vrij beperkt in haar toepasbaarheid (Little & Rubin, 1987). Op deze beperkte toepasbaarheid zal later in dit onderzoek verder worden ingegaan.

Gegeven de bivariate normale verdeling van de storingstermen, kan de likelihood function van het bovenstaande model als volgt geschreven worden (Amemiya, 1985, p. 386):

𝐿 = ∏ 1 − Φ (𝑥2 ′𝛽 2 𝜎2 ) 𝑦1=0 ∏ Φ {(𝑥2′𝛽2+ 𝜎12 𝜎12 (𝑦1− 𝑥1′𝛽1)) /√𝜎22− 𝜎122 𝜎12} 𝑦1>0 × 1 𝜎1 𝜙 (𝑦1 − 𝑥1 ′𝛽 1 𝜎1 )

De maximalisatie van deze likelihood function is relatief ingewikkeld, vandaar dat (Heckman J. , 1979) zijn alternatieve twee-staps methode introduceerde. Omdat de storingstermen 𝑢1𝑖 en 𝑢2𝑖 gecorreleerd zijn, is de conditionele verwachting van 𝑢1𝑖 gegeven dat 𝑢2𝑖 > −𝑥2𝑖′ 𝛾 niet gelijk

aan 0. Het gevolg hiervan is dat normale OLS geen zuivere schatter meer oplevert. Dit wordt als volgt aangetoond:

(7)

4 𝐸[𝑏|𝑋1, 𝑢2 > −𝑋2′𝛾] = 𝐸[(𝑋1′𝑋1) −1 𝑋1′𝑦1|𝑋1, 𝑢2 > −𝑋2′𝛾] = 𝐸[(𝑋1′𝑋1) −1 𝑋1′(𝑋1𝛽 + 𝑢 1)|𝑋1, 𝑢2 > −𝑋2′𝛾)] = 𝐸[𝛽|𝑋1, 𝑢2 > −𝑋2′𝛾] + 𝐸[(𝑋1′𝑋1) −1 𝑋1′𝑢1|𝑋1, 𝑢2 > −𝑋2′𝛾 ] = 𝛽 +(𝑋1′𝑋1) −1 𝑋1′𝐸[𝑢1|𝑋1, 𝑢2 > −𝑋2′𝛾]

De schatter 𝑏 is slechts zuiver, als 𝐸[𝑢1|𝑋1, 𝑢2 > −𝑋2′𝛽2] gelijk is aan 0. Dit is echter niet het geval door de correlatie tussen de beide storingstermen, met als gevolg dat de normale OLS geen zuivere schatter oplevert. Door Heckmans aanname dat de storingstermen bivariaat normaal verdeeld zijn, kan deze onzuiverheid echter worden gecorrigeerd door het toevoegen van een extra variabele. Eerst wordt daartoe de verwachting van de deelsteekproef waarvan het salaris wordt waargenomen als volgt gedefinieerd:

𝐸[𝑦1𝑖∗|𝑥1𝑖, 𝑦2𝑖∗ > 0] = 𝑥1𝑖′ 𝛽 + 𝐸[𝑢1𝑖|𝑢2𝑖 > −𝑥2𝑖′ 𝛾]

Gegeven de bivariate normale verdeling van de storingstermen, is de conditionele verwachting van de storingsterm 𝑢1𝑖 als volgt af te leiden (Puhani, 2000):

𝐸[𝑢1𝑖|𝑢2𝑖 > −𝑥2𝑖′ 𝛾] = 𝜎12

𝜙(−𝑥2𝑖′ 𝛾) 1 − Φ(−𝑥2𝑖′ 𝛾)

In de bovenstaande formule geeft 𝜙(. ) de kansdichtheidsfunctie en Φ(. ) de cumulatieve verdelingsfunctie van de standaard normale verdeling weer en 𝜎𝑖𝑗 de bijbehorende

standaardafwijkingen voor i=1,2 en j=1,2. De conditionele verwachting van 𝑦1𝑖∗ wordt dan:

𝐸[𝑦1𝑖∗|𝑥1𝑖, 𝑦2𝑖∗ > 0] = 𝑥1𝑖′ 𝛽 + 𝜎12𝜆(𝑥2𝑖′ 𝛾)

In deze vergelijking is de functie 𝜆(. ) de zogeheten inverse Mills ratio. Deze werd door (Heckman J. , 1979) geïntroduceerd ter compensatie van de sample-selectie bias en wordt als volgt gedefinieerd:

𝜆(𝑥2𝑖′ 𝛾) = 𝜙(−𝑥2𝑖

𝛾)

1 − Φ(−𝑥2𝑖′ 𝛾)

Op deze wijze wordt het probleem van de sample-selectie bias aangepakt als een afwijking ten gevolge van een ontbrekende variabele, waarbij 𝜆(. ) dient als de correctie. Door het toevoegen van deze extra variabel wordt een nieuwe regressievergelijking gecreëerd:

(8)

5

In deze regressie geldt dat 𝜀1𝑖 = 𝑢1𝑖− 𝜎12𝜆(𝑥2𝑖′ 𝛾) en dat de verwachting van deze storingsterm

gegeven dat 𝑢2𝑖 > −𝑥2𝑖′ 𝛾 gelijk is aan 0, zodat de toepassing van normale OLS nu wel een consistente schatter oplevert:

𝐸[𝑏|𝑋1, 𝑢2 > −𝑋2′𝛾] = 𝛽 + (𝑋1′𝑋1)−1𝑋1′𝐸[𝜀1|𝑋1, 𝑢2 > −𝑋2′𝛾]

= 𝛽 + (𝑋1′𝑋1)−1𝑋1′𝐸[(𝑢1− 𝜎12𝜆(𝑋2𝛾))|𝑋1, 𝑢2 > −𝑋2′𝛾]

= 𝛽 + (𝑋1𝑋

1)−1𝑋1′(𝜎12𝜆(𝑋2𝛾) − 𝜎12𝜆(𝑋2𝛾)) = 𝛽 + (𝑋1′𝑋1)−1𝑋1′∗ 0 = 𝛽

Op deze wijze is het inconsistentieprobleem op een vrij eenvoudige manier opgelost. De extra variabele die dit allemaal mogelijk maakt is echter afhankelijk van de correcte specificatie van de verdeling van de storingstermen 𝑢1𝑖 en 𝑢2𝑖. Dit maakt Heckmans methode beperkt in haar

toepasbaarheid en inflexibel vergeleken met alternatieve methodes. Dit wordt later in dit onderzoek verder besproken.

De eerste stap die Heckman uitvoert, is het bepalen van 𝛾 in de regressie van 𝑦2∗ = 𝑥2𝑖′ 𝛾 + 𝑢2𝑖, met behulp van een probit maximum likelihood methode. De verkregen 𝛾̂ wordt

vervolgens gesubsidieerd in (1) om de inverse Mills ratio te bepalen, zodat deze de rol van ontbrekende variabele in regressie (1) op zich kan nemen. In de tweede stap wordt met behulp van normale OLS 𝛽 bepaald en ten slotte wordt getoetst of de coëfficiënt van 𝜆(. ) significant is. Verder wordt hierbij (White, 1980) methode toegepast op de variantie van de storingsterm 𝜀1, omdat deze heteroscedastisch is als gevolg van het feit dat 𝛾̂ geschat is:

𝑉(𝜀1𝑖|𝑦2𝑖∗ > 0) = 𝜎12 − 𝜎122 𝜎22 [ 𝑥2𝑖′ 𝛾 𝜎2 𝜆 (𝑥2𝑖 ′ 𝛾 𝜎2 ) + 𝜆 (𝑥2𝑖 ′ 𝛾 𝜎2 )]

Deze variantie varieert voor verschillende 𝑖 = 1,2, … , 𝑁, maar na het toepassen van White’s methode, levert de normale OLS alsnog correcte standaardafwijkingen op.

3 De kritiek op de methode van Heckman

Zoals eerder is vermeld in dit onderzoek, gaf (Heckman J. , 1979) aan dat zijn methode vanwege zijn eenvoud uitermate geschikt is om startwaarden te verkrijgen die behulpzaam zijn bij het verkennen van een empirisch vraagstuk. Echter is in de decennia die volgden, is zijn methode uitgegroeid tot een standaard manier van werken met sample-selectie modellen en worden zijn resultaten als definitief beschouwd. Dit heeft de nodige kritiek met zich meegebracht, omdat velen menen dat de Heckman methode te veel restricties heeft om de sample-selectie bias efficiënt te kunnen elimineren (Goldberger, 1983). Deze discussie zorgde voor een aantal alternatieve methodes om sample-selectie modellen op te lossen, waaronder (Cosslett, 1991). Maar voordat deze alternatieven besproken kunnen worden, moet duidelijk zijn wat de belangrijkste punten van kritiek op Heckmans methode zijn.

(9)

6

Het eerste punt van kritiek is dat de extra variabel 𝜆(. ) die Heckman toevoegt aan zijn regressie, sterk afhankelijk is van parameters afgeleid van de bivariate normale verdeling van de storingstermen. Dit zorgt ervoor dat zijn model minder flexibel is dan semiparametriseerde modellen of modellen zonder parameters. Nog belangrijker is de complicatie dat wanneer de verdeling van deze storingstermen niet goed is gespecificeerd, Heckmans schatter inconsistent wordt (Hussinger, 2008). De kansdichtheidsfunctie 𝜙(. ), de cumulatieve verdelingsfunctie Φ(. ) en de standaardafwijkingen 𝜎𝑖𝑗 zijn allen van de standaard normale verdeling afgeleid. Wanneer

de gezamenlijke storingstermen echter in werkelijkheid niet een bivariate normale verdeling hebben, zijn deze functies en parameters niet meer van waarde bij het bepalen van de

conditionele verwachting van de storingsterm 𝑢1𝑖, met als gevolg dat de volgende afleiding niet meer correct is (Little & Rubin, 1987, p. 225):

𝐸[𝑢1𝑖|𝑢2𝑖 > −𝑥2𝑖′ 𝛾] = 𝜎12 𝜙(−𝑥2𝑖

𝛾)

1 − Φ(−𝑥2𝑖𝛾)

Het resultaat is dat de verkregen variabel 𝜆(𝑥2𝑖′ 𝛾) die Heckman in zijn regressie gebruikt als ontbrekende variabel, geen goede correctie meer is voor de sample-selectie bias. De restrictie dat de storingstermen de bivariate normale verdeling moeten hebben, is essentieel voor de

consistentie van de Heckman methode, terwijl van deze verdeling lang niet altijd sprake is. Het is vanwege deze beperking dat veel critici argumenteren dat de Heckman methode te restrictief is om correct de sample-selectie bias te kunnen elimineren (Goldberger, 1983).

Het tweede en meest belangrijke punt van kritiek is dat de inverse Mills ratio vrijwel lineair is over een groot deel van zijn domein. Om te begrijpen waarom dit een probleem is, moeten eerst de variabelen die opgenomen zijn in 𝑥1 en 𝑥2 bekeken worden. Deze zijn in de

realiteit bijna of soms zelfs volledig aan elkaar gelijk. Dit is intuïtief begrijpelijk wanneer we opnieuw het voorbeeld van de loonvergelijkingen bekijken. Het is niet eenvoudig om variabelen te vinden die geen invloed hebben op de hoogte van het salaris, maar wel invloed hebben op een persoons keuze om een baan te nemen. De enkele variabelen die wellicht wel aan deze eisen voldoen zijn vaak ingewikkeld om in de regressie te betrekken, omdat data vaak niet beschikbaar is (Puhani, 2000). Een voorbeeld hiervan zijn de dummy variabelen van het wel of niet hebben van een partner of kinderen en het wel of niet werken van de partner. Data hiervan zijn niet altijd beschikbaar, maar zelfs als dit wel het geval is, valt het nog te bezien of deze variabelen veel waarde toevoegen. Ten eerste is het onzeker of ze significant bijdragen aan de keuze om een baan te accepteren en ten tweede is het aannemelijk dat wanneer dit wel het geval is, ze ook invloed uitoefenen op de hoogte van het salaris. Het inkomen van de partner en het hebben van kinderen brengen beide een andere belastingregeling met zich mee en dus zal het netto inkomen van een persoon met partner en kinderen verschillen van een persoon zonder.

De conclusie is dat het niet eenvoudig is om variabelen te vinden die wel deel uitmaken van 𝑥2, maar niet van 𝑥1. Het gevolg van de hoge correlatie tussen deze twee sets van variabelen, is dat er multicollineariteit optreedt. Dit zou geen groot probleem vormen in het geval de inverse

(10)

7

Mills ratio non-lineair was, zodat de multicollineariteit geëlimineerd wordt. Dit is echter niet het geval. Figuur 1 laat zien dat de inverse Mills ratio vrijwel lineair is over het grootste gedeelte van zijn domein. Het is belangrijk hierbij op te merken dat de kans dat een persoon k met eigenschappen 𝑥2𝑘 een baan heeft, gelijk is aan Φ(𝑥2𝑖′ 𝛾) en alleen als deze kans groter is dan 97.5%, zal de waarde van 𝑥2𝑘′ 𝛾 groter zijn dan 2. Dit is een vrij extreem geval. De meeste personen zullen liggen in het vrijwel lineaire domein van [−3,2] (Puhani, 2000).

Figuur 1. De semi-lineariteit van de inverse Mills ratio.

Het resultaat is dat tenzij er voldoende variabelen zijn opgenomen in 𝑥2 die niet deel zijn van 𝑥1, de regressie die Heckman uitvoert vrijwel altijd zal kampen met multicollineariteit. Dit zorgt ervoor dat de geschatte coëfficiënten van de variabelen die voortkomen uit deze regressie niet meer betrouwbaar zijn. Dit leidde opnieuw tot hevige discussies omtrent de bruikbaarheid van de Heckman methode. De strenge eisen waaraan 𝑥2 moet voldoen, zorgen er samen met de vereiste verdeling van de storingstermen 𝑢1𝑖 en 𝑢2𝑖 voor dat Heckmans methode dusdanig beperkt is in zijn bruikbaarheid dat er over de jaren meerdere alternatieve modellen zijn ontwikkeld. (Cosslett, 1991) introduceerde één van deze alternatieven. Zijn model wordt in het volgende hoofdstuk verder uitgelicht.

4 Cosslett als alternatief

Het model van Cosslett is semiparametriseerd. Dit houdt in dat het niet afhankelijk is van de aanname dat de storingstermen bivariaat normaal verdeeld zijn, zoals bij Heckman, maar wel

(11)

8

wordt er volgens een soortgelijke twee-staps procedure te werk gegaan om een regressie te verkrijgen waarbij normale OLS toegepast kan worden.

Het belangrijkste verschil van aanpak tussen Heckman en Cosslett is dat Heckman de normale verdeling en de daaruit afgeleide Mills ratio gebruikt om de OLS regressie te verkrijgen, terwijl Cosslett een benadering gebruikt bestaande uit meerdere dummy variabelen. Dit gaat als volgt in zijn werk: evenals bij de procedure van Heckman worden in de eerste stap de

coëfficiënten 𝛾 bepaald door een probit maximum likelihood model. De gevonden 𝛾̂ wordt gebruikt om 𝑥2𝑖′ 𝛾̂ te rangschikken van lage naar hoge waardes voor alle 𝑖 = 1,2, … , 𝑁.

Daaropvolgend worden deze waardes onderverdeeld in M secties, die elk overeenkomen met één dummy 𝐷𝑚. Alle dummy variabelen op de eerste na worden in de tweede stap toegevoegd aan een soortgelijke regressievergelijking als (1). Door het weglaten van één dummy variabel, wordt een referentiegroep gecreëerd, zodat multicollineariteit wordt voorkomen. Na de toevoeging van de overige dummy variabelen, ziet de regressievergelijking er als volgt uit:

(2) 𝑦1𝑖 = 𝑥1𝑖′ 𝛽1+ ∑ 𝛾𝑚𝐷𝑚(𝑥′2𝑖𝑏2)

𝑀

𝑚=2

+ 𝜀1𝑖

Op deze manier lost Cosslett het probleem van de sample-selectie bias op door middel van een benadering, waarbij 𝑀 naar oneindig toeneemt als 𝑁 → ∞. Het toevoegen van een eindig aantal 𝑀 dummy variabelen is echter voldoende voor het corrigeren van de sample-selectie bias. Na het corrigeren hiervan is ook bij Cosslett de verwachting van de storingsterm 𝜀1𝑖 gegeven dat 𝑢2 > −𝑋2′𝛾 gelijk aan 0, zodat ook op de bovenstaande regressie (2) normale OLS toegepast kan worden met een consistente schatter als resultaat.

De methodes van Cosslett en Heckman verschillen feitelijk slechts in hun keuze tussen verschillende compensatiemogelijkheden. Daar waar Heckman de Mills ratio gebruikt ter compensatie voor de ontbrekende variabel, kiest Cosslett een hele reeks van dummy variabelen. Een onmiddellijk voordeel van het Cosslett model, is het uitblijven van sterke afhankelijkheid van een verdeling voor de storingstermen. Indien de storingstermen niet bivariaat normaal verdeeld zijn, neemt de nauwkeurigheid van de Mills ratio af, terwijl de nauwkeurigheid van de dummy variabelen hier minder directe gevolgen van ondervindt. Verder kan de eerdergenoemde lineariteit van de Mills ratio problemen opleveren wanneer er een grote correlatie bestaat tussen 𝑥1 en 𝑥2. Of het Cosslett model beter presteert bij een toename van correlatie, moet blijken uit de

Monte Carlo studie die hieronder wordt beschreven.

Bij het uitvoeren van de Monte Carlo studie wordt er voor beide modellen een dataset

gesimuleerd, bestaande uit 1000 observaties. Voor deze observaties worden eerst de verklarende variabelen gecreëerd door middel van een trekking uit een continu uniforme verdeling met interval [0,2]. Deze trekking wordt eerst uitgevoerd voor de variabelen van de

selectievergelijking en vervolgens worden de verklarende variabelen van de uitkomstvergelijking bepaald aan de hand van een trekking gecorreleerd aan die van de selectievergelijking:

(12)

9 𝑋2𝑖 = 𝜁2𝑖 𝑋1𝑖𝑗 = [𝜌1𝜁2𝑖+ (1 − 𝜌1)𝜁1𝑖𝑗] √𝜌12+ (1 − 𝜌1)2 𝑖 = 1,2, … ,1000 𝑗 = 1,2

Hierbij is 𝑋2 een 1000 × 1 vector, oftewel de selectievergelijking heeft slechts één verklarende variabele, waar vervolgens een constante term aan toegevoegd wordt. 𝑋1 is een 1000 × 2 matrix, zodat de uitkomstvergelijking 2 verklarende variabelen bevat, waar eveneens een constante term bij wordt gevoegd. Verder zijn 𝜁1𝑖𝑗 en 𝜁2𝑖 onafhankelijk van elkaar verdeeld volgens de uniforme verdeling: 𝜁1𝑖𝑗~𝑈(0,2) en 𝜁2𝑖~𝑈(0,2). Ten slotte is 𝜌1 de correlatiecoëfficiënt. Beide modellen

worden met elkaar vergeleken voor waardes van 𝜌1 = 0.0, 0.2, 0.4, 0.6, 0.7, 0.8, 0.9, en 0.95. De storingstermen 𝑢1𝑖 en 𝑢2𝑖 worden onafhankelijk van elkaar uit de standaard normale verdeling getrokken:

𝑢2𝑖 = 𝜐2𝑖

𝑢1𝑖 = [𝜌2𝜐2𝑖+ (1 − 𝜌2)𝜐1𝑖] √𝜌22+ (1 − 𝑝2)2

𝑖 = 1,2, … ,1000

Deze standaard normale verdeling brengt het model van Heckman in het voordeel, aangezien er wordt voldaan aan het belangrijkste vereiste voor het correct laten werken van de Mills ratio. De verwachting is dan ook dat het Heckman model op zijn minst even goed zal presteren als dat van Cosslett. Hoe klein het verschil is tussen de prestaties van beide modellen, vertelt veel over de kracht van het model van Cosslett. Zowel 𝑢1𝑖 als 𝑢2𝑖 zijn 1000 × 1 vectoren en er geldt dat

𝜐1𝑖~𝑁(0,1) en 𝜐2𝑖~𝑁(0,1). Voor alle bovengenoemde waarden van 𝜌1 wordt de Monte Carlo test uitgevoerd met een correlatiecoëfficiënt 𝜌2 gelijk aan 0.1, 0.5, en 0.9.

Nadat de verklarende variabelen en storingstermen uit de bovengenoemde verdelingen getrokken zijn, kunnen de afhankelijke variabelen 𝑦1𝑖∗ en 𝑦2𝑖∗ bepaald worden. Dit gebeurt aan de hand van coëfficiënten die bij voorbaat een vaste waarde zijn toegekend:

𝛽0 = 1, 𝛽1 = 2, 𝛽2 = −2, 𝛾0= −0.5, 𝛾1 = 1.5

Het zijn de waardes van deze coëfficiënten die zowel door het Heckman als het Cosslett model opnieuw geschat worden. Beide modellen benaderen de coëfficiënten aan de hand van hun eigen twee-staps methode. Bij de procedure van Cosslett worden de secties verdeeld door middel van 19 kwantielen, zodat er uiteindelijk 20 secties ontstaan die overeenkomen met 20 dummy variabelen die worden toegevoegd aan de overige variabelen in de laatste OLS regressie. Bij

(13)

10

Heckman wordt slechts de Mills ratio toegevoegd. Voor elke waarde van 𝜌1 en 𝜌2 wordt de

procedure voor beide modellen 500 keer uitgevoerd, waarna de resultaten1 zijn samengevat in de

onderstaande tabellen.

Tabel 1 p2=0.1 Mean STD Q1 Median Q3

p1 = 0.0 Heckman β0 1,00 0,10 0,93 1,00 1,07 β1 2,00 0,06 1,96 2,00 2,04 β2 -2,00 0,07 -2,04 -2,00 -1,95 σ12 0,11 0,12 0,03 0,11 0,19 Cosslett β0 1,13 0,26 0,96 1,14 1,30 β1 2,00 0,06 1,96 2,00 2,04 β2 -2,00 0,06 -2,04 -1,99 -1,96 p1 = 0.2 Heckman β0 1,00 0,14 0,91 1,00 1,10 β1 2,00 0,06 1,96 2,00 2,04 β2 -2,00 0,07 -2,05 -2,00 -1,96 σ12 0,11 0,14 0,03 0,11 0,20 Cosslett β0 1,12 0,27 0,94 1,12 1,31 β1 2,01 0,07 1,96 2,01 2,05 β2 -2,00 0,06 -2,04 -1,99 -1,96 p1 = 0.4 Heckman β0 1,00 0,18 0,88 1,00 1,13 β1 2,00 0,07 1,94 2,00 2,04 β2 -2,00 0,07 -2,04 -2,00 -1,95 σ12 0,11 0,15 0,00 0,11 0,21 Cosslett β0 1,12 0,27 0,94 1,12 1,29 β1 2,00 0,08 1,95 2,01 2,05 β2 -2,00 0,08 -2,05 -2,00 -1,95 p1 = 0.6 Heckman β0 0,97 0,27 0,77 0,97 1,14 β1 2,00 0,10 1,93 2,00 2,08 β2 -1,99 0,11 -2,07 -1,99 -1,91 σ12 0,14 0,24 -0,03 0,13 0,31 Cosslett β0 1,15 0,26 0,97 1,15 1,32 β1 1,99 0,11 1,91 1,99 2,07 β2 -2,00 0,12 -2,08 -2,01 -1,93

(14)

11

Tabel 2 p2=0.1 Mean STD Q1 Median Q3

p1 = 0.7 Heckman β0 1,03 0,32 0,80 1,04 1,26 β1 2,00 0,14 1,90 1,99 2,08 β2 -2,01 0,14 -2,11 -2,01 -1,92 σ12 0,08 0,29 -0,11 0,08 0,28 Cosslett β0 1,12 0,28 0,92 1,12 1,31 β1 1,99 0,16 1,88 1,98 2,11 β2 -1,99 0,16 -2,10 -1,99 -1,88 p1 = 0.8 Heckman β0 0,97 0,39 0,71 0,96 1,24 β1 2,00 0,20 1,86 2,01 2,14 β2 -1,98 0,21 -2,11 -1,98 -1,84 σ12 0,14 0,37 -0,12 0,16 0,40 Cosslett β0 1,13 0,27 0,95 1,14 1,31 β1 1,99 0,27 1,81 1,98 2,16 β2 -2,01 0,25 -2,18 -2,01 -1,84 p1 = 0.9 Heckman β0 1,01 0,40 0,73 1,02 1,26 β1 2,00 0,43 1,70 1,99 2,32 β2 -2,00 0,45 -2,33 -2,00 -1,70 σ12 0,10 0,41 -0,19 0,08 0,38 Cosslett β0 1,14 0,27 0,98 1,14 1,31 β1 2,02 0,50 1,66 1,99 2,33 β2 -2,03 0,54 -2,38 -2,04 -1,66 p1 = 0.95 Heckman β0 0,99 0,41 0,71 0,98 1,26 β1 2,00 0,86 1,45 1,94 2,55 β2 -2,00 0,88 -2,56 -2,01 -1,42 σ12 0,13 0,44 -0,15 0,13 0,44 Cosslett β0 1,13 0,27 0,95 1,12 1,33 β1 2,00 0,96 1,30 2,02 2,70 β2 -1,99 0,99 -2,63 -2,02 -1,35

(15)

12

Tabel 3 p2=0.5 Mean STD Q1 Median Q3

p1 = 0.0 Heckman β0 0.99 0.10 0.92 0.99 1.05 β1 2.00 0.05 1.96 2.00 2.04 β2 -2.00 0.06 -2.04 -2.00 -1.96 σ12 0.72 0.12 0.65 0.72 0.80 Cosslett β0 1.76 0.22 1.63 1.75 1.91 β1 2.00 0.06 1.96 2.00 2.04 β2 -2.00 0.06 -2.04 -2.00 -1.96 p1 = 0.2 Heckman β0 1.00 0.13 0.91 0.99 1.08 β1 2.00 0.06 1.96 2.00 2.05 β2 -2.00 0.06 -2.03 -2.00 -1.96 σ12 0.71 0.12 0.63 0.71 0.80 Cosslett β0 1.76 0.21 1.62 1.76 1.90 β1 2.00 0.06 1.96 2.00 2.04 β2 -2.00 0.06 -2.04 -2.00 -1.96 p1 = 0.4 Heckman β0 1.01 0.17 0.89 1.01 1.12 β1 2.00 0.07 1.95 1.99 2.04 β2 -2.00 0.07 -2.05 -2.00 -1.96 σ12 0.70 0.15 0.61 0.70 0.80 Cosslett β0 1.77 0.21 1.65 1.77 1.91 β1 2.00 0.07 1.95 2.00 2.05 β2 -2.00 0.07 -2.04 -2.00 -1.95 p1 = 0.6 Heckman β0 1.00 0.27 0.82 1.00 1.18 β1 2.00 0.10 1.93 2.00 2.07 β2 -2.00 0.10 -2.06 -2.00 -1.94 σ12 0.71 0.24 0.55 0.71 0.87 Cosslett β0 1.77 0.21 1.63 1.76 1.91 β1 2.00 0.10 1.92 1.99 2.07 β2 -2.01 0.10 -2.08 -2.01 -1.94

(16)

13

Tabel 4 p2=0.5 Mean STD Q1 Median Q3

p1 = 0.7 Heckman β0 1.01 0.30 0.81 1.03 1.18 β1 2.00 0.13 1.90 2.00 2.09 β2 -2.01 0.12 -2.09 -2.01 -1.92 σ12 0.70 0.27 0.53 0.67 0.86 Cosslett β0 1.76 0.22 1.61 1.76 1.91 β1 2.01 0.15 1.91 2.00 2.11 β2 -2.01 0.15 -2.11 -2.00 -1.90 p1 = 0.8 Heckman β0 1.01 0.37 0.75 1.01 1.25 β1 2.00 0.20 1.86 1.99 2.14 β2 -2.00 0.18 -2.12 -1.99 -1.88 σ12 0.70 0.35 0.45 0.69 0.93 Cosslett β0 1.77 0.22 1.63 1.77 1.93 β1 1.98 0.24 1.83 1.97 2.14 β2 -2.02 0.22 -2.17 -2.02 -1.86 p1 = 0.9 Heckman β0 1.00 0.41 0.71 1.00 1.28 β1 2.03 0.38 1.75 2.02 2.30 β2 -2.04 0.38 -2.32 -2.01 -1.76 σ12 0.70 0.42 0.41 0.69 0.98 Cosslett β0 1.78 0.23 1.63 1.78 1.94 β1 1.96 0.48 1.61 1.96 2.29 β2 -2.06 0.48 -2.36 -2.07 -1.73 p1 = 0.95 Heckman β0 1.02 0.38 0.77 1.02 1.30 β1 2.00 0.81 1.47 2.00 2.53 β2 -2.02 0.81 -2.56 -2.02 -1.43 σ12 0.69 0.40 0.41 0.69 0.95 Cosslett β0 1.79 0.23 1.65 1.79 1.94 β1 1.79 0.87 1.21 1.79 2.41 β2 -2.09 0.90 -2.63 -2.05 -1.49

(17)

14

Tabel 5 p2=0.9 Mean STD Q1 Median Q3

p1 = 0.0 Heckman β0 1.00 0.09 0.93 1.00 1.06 β1 2.00 0.05 1.97 2.00 2.04 β2 -2.00 0.05 -2.04 -2.00 -1.97 σ12 1.00 0.11 0.93 0.99 1.07 Cosslett β0 2.07 0.15 1.97 2.06 2.17 β1 2.00 0.05 1.97 2.00 2.04 β2 -2.00 0.05 -2.03 -2.00 -1.96 p1 = 0.2 Heckman β0 0.99 0.11 0.92 1.00 1.07 β1 2.00 0.05 1.97 2.00 2.04 β2 -2.00 0.05 -2.03 -2.00 -1.96 σ12 1.00 0.11 0.93 1.00 1.07 Cosslett β0 2.07 0.15 1.98 2.06 2.17 β1 2.00 0.05 1.96 2.00 2.03 β2 -2.00 0.06 -2.04 -2.00 -1.96 p1 = 0.4 Heckman β0 1.00 0.15 0.90 0.99 1.10 β1 2.00 0.06 1.96 2.00 2.04 β2 -2.00 0.06 -2.04 -2.00 -1.96 σ12 1.00 0.14 0.91 1.00 1.09 Cosslett β0 2.07 0.15 1.98 2.07 2.16 β1 2.00 0.06 1.95 2.00 2.05 β2 -2.00 0.06 -2.04 -2.00 -1.96 p1 = 0.6 Heckman β0 0.99 0.24 0.84 0.98 1.14 β1 2.00 0.09 1.95 2.00 2.06 β2 -2.00 0.09 -2.06 -2.00 -1.94 σ12 1.01 0.20 0.88 1.00 1.13 Cosslett β0 2.07 0.16 1.97 2.06 2.17 β1 1.99 0.09 1.93 1.99 2.05 β2 -2.00 0.09 -2.06 -2.00 -1.94

(18)

15

Tabel 6 p2=0.9 Mean STD Q1 Median Q3

p1 = 0.7 Heckman β0 1.01 0.28 0.80 1.02 1.20 β1 2.00 0.12 1.91 1.99 2.07 β2 -2.00 0.11 -2.08 -2.00 -1.92 σ12 0.98 0.25 0.81 0.97 1.18 Cosslett β0 2.09 0.15 1.99 2.09 2.19 β1 1.99 0.13 1.90 2.00 2.08 β2 -2.00 0.13 -2.09 -2.00 -1.91 p1 = 0.8 Heckman β0 1.01 0.32 0.81 1.01 1.23 β1 1.99 0.17 1.88 1.99 2.10 β2 -2.00 0.17 -2.13 -2.01 -1.88 σ12 0.99 0.31 0.80 0.97 1.17 Cosslett β0 2.08 0.16 1.98 2.07 2.19 β1 1.98 0.21 1.84 1.98 2.11 β2 -2.02 0.21 -2.16 -2.01 -1.88 p1 = 0.9 Heckman β0 0.97 0.36 0.74 0.98 1.20 β1 2.00 0.34 1.77 2.02 2.23 β2 -1.99 0.34 -2.22 -2.00 -1.76 σ12 1.02 0.36 0.79 0.99 1.26 Cosslett β0 2.10 0.16 1.99 2.11 2.22 β1 1.93 0.43 1.63 1.92 2.22 β2 -2.10 0.45 -2.41 -2.13 -1.82 p1 = 0.95 Heckman β0 1.01 0.36 0.77 1.03 1.26 β1 1.99 0.71 1.51 1.99 2.49 β2 -2.00 0.70 -2.51 -1.98 -1.56 σ12 0.99 0.37 0.74 0.98 1.23 Cosslett β0 2.11 0.16 2.00 2.10 2.22 β1 1.84 0.83 1.28 1.84 2.38 β2 -2.15 0.82 -2.68 -2.19 -1.61

(19)

16

5 Analyse

De resultaten in de tabellen laten zien dat het Heckman model voor alle waardes van 𝜌1 en 𝜌2 een vrij zuivere schatting oplevert van de coëfficiënten, zonder dat het gemiddelde van de 500 iteraties meer dan 0.04 van de werkelijke waarde van de coëfficiënten afwijkt. Dit duidt erop dat de OLS schatter die gebruikt wordt in de tweede stap van de Heckman methode consistent is. Dit is mede het gevolg van het feit dat in de Monte Carlo studie van dit onderzoek een omvangrijk aantal observaties is gebruikt (𝑛 = 1000), maar bovenal doordat de storingstermen 𝑢1𝑖 en 𝑢2𝑖

bivariaat normaal verdeeld zijn. Hierdoor is voldaan aan het belangrijkste vereiste voor het correct laten werken van de Mills ratio, namelijk dat de conditionele verwachting van de storingsterm 𝑢1𝑖 als volgt uit de bivariaat normale verdeling kan worden afgeleid:

𝐸[𝑢1𝑖|𝑢2𝑖 > −𝑥2𝑖′ 𝛾] = 𝜎12

𝜙(−𝑥2𝑖′ 𝛾) 1 − Φ(−𝑥2𝑖′ 𝛾)

Zoals eerder is genoemd, geeft de verdeling van de storingstermen het model van Heckman een voordeel ten opzichte van Cosslett. Desondanks presteert het model van Cosslett bij veel waardes van 𝜌1 en 𝜌2 vrijwel even goed. Voor de waarde 𝜌2 = 0.1 wijken de gemiddelden van de 500 iteraties voor geen enkele 𝜌1 meer dan 0.03 af van de werkelijke waarde van de coëfficiënten en dus kan er worden geconcludeerd dat ook de methode van Cosslett een vrij zuivere schatting oplevert. Bij 𝜌2 = 0.5 en 𝜌2 = 0.9 neemt deze zuiverheid echter af. In enkele uiterste gevallen wordt 𝛽1 geschat op 1.84 en 𝛽2 op -2.09, terwijl de werkelijke waarde 𝛽1 = 2 en 𝛽2 = −2

toegekend waren. Verder heeft de geschatte coëfficiënt 𝛽0 steevast een afwijking naar boven voor alle waardes van 𝜌1 en 𝜌2. Dit kan verklaard worden door de dummy variabelen die gebruikt worden in het model van Cosslett. In de reeks is 1 dummy variabele weggelaten uit de regressievergelijking (2), zodat er een referentiegroep wordt gecreëerd. Het effect van deze referentiedummy wordt opgenomen in de constante 𝛽0. Bij 𝜌2 = 0.1 is deze afwijking naar

boven rond de 0.13. Bij de waardes 𝜌2 = 0.5 en 𝜌2 = 0.9 neemt de afwijking echter toe tot rond de 0.77 en 1.09 respectievelijk.

De standaardafwijkingen van het Heckman model hebben kleine waardes bij lage

correlatie tussen 𝑋1 en 𝑋2 en deze waardes nemen geleidelijk toe in grootte naarmate 𝜌1 oploopt naar 0.95. Dit komt overeen met de algemene verwachting, aangezien een hogere correlatie tussen de verklarende variabelen leidt tot een hogere multicollineariteit. Deze collineariteit tussen variabelen zorgt voor een algehele afname van precisie binnen het model, met grotere standaardafwijkingen als direct gevolg. Onderstaande tabellen weerspiegelen deze theorie.

(20)

17

Tabel 7, Heckman multicollineariteit bij 𝜌1= 0.1, 𝜌2= 0.1

sValue condIdx Varc Varx1 Varx2 Varσ12

1.8099 1 0.0080 0.0158 0.0159 0.0274

0.6762 2.6765 0.0026 0.0615 0.0333 0.7706 0.4512 4.0116 0.0000 0.4686 0.5208 0.0081 0.2515 7.1969 0.9894 0.4541 0.4301 0.1939

Tabel 8, Heckman multicollineariteit bij 𝜌1 = 0.95, 𝜌2 = 0.1

sValue condIdx Varc Varx1 Varx2 Varσ12

1.7939 1 0.0008 0.0001 0.0001 0.0017 0.8809 2.0365 0.0001 0.0002 0.0002 0.0387 0.0747 24.0297 0.9987 0.0189 0.0177 0.9590 0.0235 76.2832 0.0004 0.9808 0.9820 0.0006

De tweede kolom van deze tabellen bevatten de waardes van de ‘condition numbers’. Deze index geeft een indicatie hoe stabiel de inverse van een matrix is, in dit geval van de verklarende variabelen 𝑋1 en 𝜎12. Een condition number wordt gevonden door de wortel te nemen van de maximale eigenwaarde, gedeeld door de minimale eigenwaarde. Hierdoor geven ze feitelijk weer in hoeverre de waarde van een uitkomst verandert door een subtiele verandering in de waardes van de input, in dit geval de variabelen 𝑋1 en 𝜎12. Feitelijk vervullen de condition numbers de rol van een afgeleide binnen een lineaire regressie en zijn een goede indicatie voor de gevoeligheid van de uitkomst voor foutieve afwijkingen, zoals multicollineariteit. In tabel 8 is zichtbaar hoe de condition numbers oplopen tot hoge waardes, hetgeen duidt op multicollineariteit, in dit geval als gevolg van de correlatie tussen de verklarende variabelen 𝑋1 en 𝑋2. Deze correlatie zorgt voor

een beduidende afname in precisie, wat ook zichtbaar is in de tabellen 1 tot en met 6. Het model van Cosslett toont soortgelijke resultaten als Heckman. Ook hier lopen de standaardafwijkingen op, naarmate de correlatie tussen 𝑋1 en 𝑋2 toeneemt. Ook de toenemende

correlatie tussen de storingstermen zorgt bij beide modellen voor grotere standaardafwijkingen en dus een afname in precisie. Bij de coëfficiënt 𝛽0 loopt deze toename echter voor beide

modellen in een lager tempo op dan bij 𝛽1 en 𝛽2. In het geval van Cosslett is de geschatte coëfficiënt zelfs vrijwel stabiel. Deze stabiliteit is een gevolg van het feit dat de constante term niet direct beïnvloed wordt door correlatie tussen 𝑋1 en 𝑋2. Bij het model van Heckman is de hoogst waargenomen standaardafwijking van 𝛽0 gelijk aan 0.41 en bij Cosslett is dit slechts 0.27. De gematigde toename die wel optreedt is het gevolg van multicollineariteit tussen 𝑋1 en

(21)

18

6 Conclusie

In de discussie omtrent de bruikbaarheid van Heckmans methode schoof Cosslett zijn model naar voren als een semiparametriseerd alternatief dat minder beperkt was in zijn gebruik en hierdoor betere resultaten oplevert. Dit verslag vergelijkt de prestaties van het Heckman model met de prestaties van het Cosslett model bij een toename van de correlatiecoëfficiënt 𝜌1 en 𝜌2 en geeft

een overzicht van de resultaten.

De precisie van een model wordt vastgelegd in de grootte van de standaardafwijkingen. In tabel 1 tot en met tabel 6 wordt weergegeven dat er geen enkele waarde van 𝜌1 en 𝜌2 bestaat

waarvoor geldt dat de standaardafwijking van het Cosslett model significant kleiner is dan die van het Heckman model. Dit lag in de lijn der verwachting, aangezien in dit onderzoek de storingstermen 𝑢1 en 𝑢2 de bivariaat normale verdeling hebben, waardoor de OLS schatter in de tweede stap van Heckman consistent blijft. Dit geeft het model van Heckman een voordeel ten opzichte van dat van Cosslett. In veel gevallen zijn de standaardafwijkingen van Cosslett echter nauwelijks groter dan bij Heckman. Dit duidt erop dat ondanks dat de omstandigheden zo gunstig mogelijk waren voor Heckman, het semiparametriseerde alternatief van Cosslett vrijwel even goed presteerde.

Eén van de voornamelijkste punten van kritiek op het model van Heckman was dat zijn schatter inconsistent wordt wanneer de storingstermen op een andere wijze verdeeld zijn dan de normale verdeling. Hierdoor is zijn methode beperkt in haar toepasbaarheid. Een breder

onderzoek, waarbij testen worden uitgevoerd met variërende verdelingen van de storingstermen 𝑢1 en 𝑢2 kan meer inzicht brengen in de prestaties van Heckman en Cosslett onder toenemende correlatie tussen storingstermen en verklarende variabelen. Op deze manier komt de werkelijke kracht van de brede toepasbaarheid van het Cosslett model beter naar boven en kan er een completere conclusie getrokken worden omtrent de bruikbaarheid van zowel het Heckman als het Cosslett model.

7 Bibliografie

Amemiya, T. (1985). Advanced Econometrics. Oxford: Basil Blackwell.

Cosslett, S. (1991). Semiparametric Estimation of a Regression Model with Sample Selectivity. Nonparametric and Semiparametric Methods in Econometrics and Statistics.

Goldberger, A. (1983). Abnormal Selection Bias. Studies in Econometrics, Time Series and Multivariate Statistics.

(22)

19

Heckman, J. (1976). The Common Structure of Statistical Models of Truncation, Sample Selection and Limited Dependent Variables and a Simple Estimator for Such Models. Annals of Economic Social Measurement, 475-492.

Heckman, J. (1979). Sample Selection Bias as a Specification Error. Econometrica, 47(1), 53-161. Hussinger, K. (2008). R&D and Subsidies at the Firm Level: An Application of Parametric and

Semiparametric Two-step Selection Models. Journal of Applied Econometrics, 23, 729-747. Little, R., & Rubin, D. (1987). Statistical Analysis with Missing Data. New York: John Wiley & Sons. Newey, W. (1999). Semiparametric Estimation of Selection Models: Some Empirical Results. American

Economic Review Papers and Proceedings, 80, 324-328.

Puhani, P. A. (2000). The Heckman correction for sample selection and its critique. Journal of Economic Surveys, 14, 53-68.

Robinson, P. (1988). Root-N-Consistent Semiparametric Regression. Econometrica, 56, 931-954. Vella, F. (1998). Models with Sample Selection Bias: A Survey. The Journal of Human Resources, 33(1),

127-169.

White, H. (1980). A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity. Econometrica, 817-828.

Referenties

GERELATEERDE DOCUMENTEN

Dat de kostprijs hetzelfde is als alleen rundvlees wordt verkocht of als de winkelkosten verdubbelen is verklaarbaar, doordat in beide gevallen de kosten voor de winkel 2x zo

Onderhoudsarm (door het ontbreken van draaiende delen weinig tot geen slijtage) Isolerend (de lucht in de polyvent zorgt voor uitstekende isolatie). Windvast (geen geklapper

Factors such as pollution caused by coal-burning power stations, coal burning stoves and traditional braziers should be considered when designing new housing schemes. Renewable

De medewerker van het Zorginstituut geeft aan dat er wel verschillen tussen beide middelen zijn in ongunstige effecten, maar dat die verschillen geen reden zijn om het ene middel

Mesenteric ischaemia is predominantly caused by atherosclerosis affecting the ostia of the mesenteric ar- teries. 9,22,26 These lesions are often associated with other manifestations

This research uses the high-sulfidation epithermal system in the Rodalquilar Caldera Complex where hypogene alteration is associated with gold accumulations, and also

13 Voor de wedstrijd wordt een groepsfoto gemaakt van het elftal. Zo'n foto heeft een vaste indeling: zes spelers blij- ven staan, terwijl de andere vijf daarvoor hurken. De

Vervolgens werden de zeven variabelen (parameters), onderverdeeld in vier categorieën, vastgelegd die een beeld kunnen weergeven van de integrale kwaliteit van een estuarium.