• No results found

Het eect van huidskleur op het loon : correctheid keuzes in uitgevoerd onderzoek

N/A
N/A
Protected

Academic year: 2021

Share "Het eect van huidskleur op het loon : correctheid keuzes in uitgevoerd onderzoek"

Copied!
58
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Het effect van huidskleur op het loon

Correctheid keuzes in uitgevoerd onderzoek

S.A.A. Paz 10590390

Bachelorscriptie econometrie 13 juni 2016

dhr. dr. N.P.A. van Giersbergen Semester 2, blok 5 & 6 2015/2016

Samenvatting

In dit onderzoek zijn bepaalde keuzes in een uitgevoerd onderzoek naar het effect van huidskleur op het loon onderzocht. Ten eerste is de keuze van het constant houden van de rendementen van verklarende variabelen voor respondenten met verschillende huidskleurtinten onderzocht. Deze keuze blijkt geen correcte keuze te zijn, aangezien niet alle rendementen gelijk blijken te zijn en een niet-lineair model dit weergeeft. Ten tweede is de keuze van het uitsluitend opnemen van mannen in de steekproef onderzocht. Deze keuze blijkt echter wel een correcte keuze te zijn, omdat geslacht effect heeft op het loon en tevens enkele rendementen verschillen voor mannen en vrouwen.

(2)

Verklaring eigen werk

Hierbij verklaar ik, Sharon Paz, dat ik deze scriptie zelf geschreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan. Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die in de tekst en in de referenties worden genoemd. De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.

(3)

Inhoudsopgave

1 Introductie 1

2 Bestaande theorie¨en 3

2.1 Verklarende variabelen loonkloof . . . 3

2.2 Restrictie dataset . . . 5

2.3 Lasso . . . 6

2.4 Conclusie uit bestaande theorie¨en . . . 7

3 Model en data 9 3.1 Dataset . . . 9 3.2 Variabelen en steekproef . . . 10 3.3 Model . . . 10 3.4 Covariantiematrix . . . 13 4 De loonkloof 14 4.1 Relevantie kruistermen . . . 14

4.2 Effect toevoeging kruistermen . . . 17

4.3 Geslacht . . . 21

5 Conclusie 28

Bibliografie 30

(4)

1

Introductie

Meer dan vijftig jaar geleden is de ‘Civil Right Act of 1964’ wetgeving ingevoerd, een belangrijke doorbraak in de wetgeving van de Verenigde Staten. Deze wetgeving zorgt ervoor dat er geen discriminatie meer plaatsvindt op basis van ras, huidskleur, religie en land van herkomst, doordat de wetgeving zorgt voor gelijke stemrechten, gelijke kansen op de arbeidsmarkt, gelijke behandeling bij het gebruik van publieke diensten en geen rassenscheiding meer op scholen (Berg, 1964). Ondanks deze gelijke burgerrechten volgt uit onderzoek dat de kansen op de arbeidsmarkt niet gelijk zijn. Er volgt dat donkere werknemers per uur gemiddeld minder verdienen dan hun blanke collega’s, ondanks dat er rekening gehouden is met andere persoonlijke kenmerken naast huidskleur (Kreisman & Rangel, 2015). Met persoonlijke kenmerken worden leeftijd, werkervaring, waarneem-bare vaardigheden, opleidingsniveau en achtergrondkenmerken bedoeld.

Er zijn vele onderzoeken verricht naar de loonkloof tussen verschillende rassen en huidskleuren, waarbij huidskleur of ras op verschillende manieren worden behandeld. Altonji en Blank (1999) categoriseren de werknemers bijvoorbeeld als blank of donker, consistent met de gebruikelijke raciale categorisatie van de Verenigde Staten. Goldsmith, Hamilton en Darity (2007) hebben de loonkloof vanuit een alternatief perspectief behan-deld, door het vergelijken van meerdere huidskleurtinten in plaats van alleen donker en blank. Zij vergelijken het verschil in loon tussen blanke mensen en drie verschillende tinten donkere mensen en onderzoeken of de loonkloof inderdaad groter wordt naarmate de huidskleurtint donkerder wordt. Verder hebben zij ook bekeken of de andere factoren die bijdragen aan het loon gunstiger uitpakken wanneer de huidskleur lichter wordt.

Goldsmith et al. (2007) zijn niet de enige die meerdere huidskleurtinten in beschou-wing hebben genomen; Kreisman en Rangel (2015) hebben dit op dezelfde manier ge-daan. Doordat deze onderzoeken niet alleen blanke en donkere personen in beschouwing nemen, worden niet alleen de verschillen in loon tussen rassen bepaald, maar ook de ver-schillen binnenin een ras. Hierdoor kan er meer inzicht verkregen worden in de loonkloof en deze onderzoeken zijn daarom relevant voor het onderzoek naar het effect van huids-kleur op het loon. Kreisman en Rangel maken bepaalde keuzes voordat ze daadwerkelijk hun onderzoek uitvoeren. Allereerst leggen ze de dataset meerdere restricties op om een bepaalde steekproef te verkrijgen. Verder wordt het effect van huidskleur op het loon door hen op basis van een lineair model geschat aan de hand van de kleinstekwadraten-methode. Daarnaast worden uitsluitend de effecten van werkervaring en ambtstermijn per huidskleurtint geschat en de overige co¨effici¨enten van verklarende variabelen worden

(5)

constant verondersteld. Deze keuzes kunnen echter in twijfel getrokken worden.

In dit onderzoek worden enkele keuzes in het uitgevoerde onderzoek van Kreisman en Rangel (2015) onderzocht. De centrale vraag van dit onderzoek luidt: hoe correct zijn de gemaakte keuzes van Kreisman en Rangel in het onderzoek naar het effect van verschillende huidskleurtinten op het loon? Hierbij wordt beperkt tot het onderzoeken van de keuze waarbij de co¨effici¨enten van het merendeel van de verklarende variabelen constant verondersteld is over respondenten met verschillende huidskleurtinten en tot het onderzoeken van de keuze van het uitsluitend opnemen van mannen in de steekproef. Dit wordt gedaan door te onderzoeken of de keuzes van Kreisman en Rangel bij het schatten van lineaire modellen correct zijn en of het wellicht beter is om de modellen te schatten aan de hand van algoritmes uit de machine learning literatuur.

De onderzoeksvraag wordt in het geheel beantwoord aan de hand van een empi-risch onderzoek, gesplitst in twee verschillende onderzoeksmethoden. Allereerst wordt een literatuuronderzoek uitgevoerd. Hierbij wordt onderzocht hoe correct het is om de meeste co¨effici¨enten constant te houden over de verschillende doelgroepen en hoe correct de opgelegde restrictie is. Daarnaast wordt de effici¨entie van algoritmes uit de machine learning literatuur onderzocht ten opzichte van de kleinstekwadratenmethode. Op basis van het uitgevoerde literatuuronderzoek worden hypotheses opgesteld die de centrale vraag beantwoorden.

Vervolgens wordt er een onderzoek uitgevoerd waarbij door middel van meervoudige regressieanalyses een kwantitatief beeld gevormd wordt van de correctheid van de ge-maakte keuzes van Kreisman en Rangel (2015). Hierbij wordt er gebruikgemaakt van de dataset die tevens door Kreisman en Rangel gebruikt is. De data zijn afkomstig van ‘The National Longitudinal Study of Youth’ (NLSY) 1997 en zijn verkregen van 1997 tot en met 2009 aan de hand van enquˆetes verspreid door de Verenigde Staten. Over de dataset wordt in de onderzoeksopzet verder uitgeweid.

Dit onderzoek is als volgt opgebouwd: om te beginnen wordt in hoofdstuk 2 het literatuuronderzoek behandeld en worden er hypotheses die hieruit resulteren opgesteld. Vervolgens wordt de aanpak van het kwantitatieve onderzoek besproken in hoofdstuk 3. Hierin wordt toegelicht hoe de variabelen geoperationaliseerd zijn, de dataset verkregen is, welke methoden gehanteerd worden en hoe de covariantiematrix bepaald is. Daarna worden in hoofdstuk 4 de resultaten van het kwantitatieve onderzoek weergeven en geanalyseerd. In hoofdstuk 5 worden tot slot alle bevindingen samengevat en wordt er een conclusie uitgetrokken. Aan de hand hiervan wordt er antwoord gegeven op de centrale vraag.

(6)

2

Bestaande theorie¨

en

Om te bepalen hoe correct de gekozen methodes van Kreisman en Rangel (2015) zijn, wordt ten eerste de keuze van het constant houden van het merendeel van de co¨effici¨enten over de verschillende doelgroepen onderzocht, door de raciale verschillen in rendementen van de verklarende variabelen te onderzoeken. Ten tweede wordt de keuze van een be-paalde opgelegde restrictie besproken. Hierbij wordt tevens gelet op de gemaakte keuzes in andere onderzoeken naar het effect van huidskleur op het loon. Vervolgens wordt de effici¨entie van algoritmes uit de machine learning literatuur onderzocht ten opzichte van de kleinstekwadratenmethode. Het algoritme dat hierbij wordt behandeld is een alternatieve aanpak van de kleinstekwadratenmethode. Tot slot worden de belangrijk-ste bevindingen uit het literatuuronderzoek samengevat en worden hieruit hypotheses gesteld, alvorens de onderzoeksopzet in het volgende hoofdstuk wordt besproken.

2.1 Verklarende variabelen loonkloof

Om te beginnen worden de gekozen verklarende variabelen besproken en vervolgens wordt de keuze van het constant houden van het merendeel van de verklarende variabelen behandeld. Dit wordt gedaan door het raciale verschil in rendementen van verklarende variabelen te onderzoeken.

Kreisman en Rangel (2015) houden rekening met veel persoonlijke kenmerken. Zo nemen ze scholing in beschouwing door testscores en hoogst genoten opleiding op te nemen in het te schatten model. Verder nemen ze achtergrondkenmerken, leeftijd en woonomstandigheden in beschouwing. Met de verklarende variabele ervaring houden ze rekening door de effecten van werkervaring en ambtstermijn in het geschatte lineaire model op te nemen en tevens de verschillende effecten hiervan per huidskleurtint te bekijken. De co¨effici¨enten van de overige verklarende variabelen houden ze constant over alle respondenten. Kreisman en Rangel geven hier echter geen verklaring voor.

Om te beginnen wordt het onderzoek van Wright (1978) behandeld. Hij heeft een onderzoek verricht naar de effecten van scholing op het loon per huidskleur en heeft dit vanuit een nieuwe invalshoek bekeken door dummyvariabelen voor klasse op te nemen. Hij maakt daardoor onderscheid tussen verschillende klasse werknemers, door bijvoor-beeld managers apart te analyseren. Wright stelt als hypothese dat donkere werknemers een lager rendement op scholing hebben dan blanke werknemers, mits de door hem gede-finieerde klassen buiten beschouwing worden gehouden. Deze hypothese wordt door hem onderbouwt door te stellen dat dit een standaard bevinding is die volgt uit sociologische

(7)

onderzoeken naar het raciale verschil in rendement van scholing. Wright neemt scholing in zijn te schatten model op door, overeenkomstig met Kreisman en Rangel (2015), de hoogst genoten opleiding in beschouwing te nemen. Tevens onderzoekt Wright uitslui-tend mannen, waardoor zijn bevindingen relevant zijn voor het onderzoek van Kreisman en Rangel.

In Tabel 5 in het onderzoek van Wright zijn de regressieresultaten weergeven ( 1978, p. 1383) en hieruit wordt geconcludeerd dat elke toeneming van scholing voor blanke mannen een ophoging van het jaarlijkse salaris van $1.419 inhoudt, terwijl dit voor donkere mannen een ophoging van $860 inhoudt. Wanneer er meer verklarende variabele worden toegevoegd blijft dit verschil ongeveer hetzelfde. Alle regressieresultaten zijn significant op het 0.001 niveau, zodoende zijn de resultaten relevant.

Eveneens hebben Goldsmith et al. (2007) de hypothese gesteld dat rendementen van verklarende variabelen op het loon gunstiger uitpakken hoe lichter de huidskleurtint is, waarbij zij rekening houden met meerdere verklarende variabelen naast scholing. Zij be-handelen, overeenkomstig met Kreisman en Rangel (2015), meerdere huidskleurtinten. Goldsmith et al. vergelijken blanke werknemers met donkere werknemers en met drie tinten donkere werknemers: licht, medium en donker. Zij concluderen dat blanke werk-nemers minder zouden verdienen als zij een donkere huid zouden hebben, maar tevens dat de rendementen van de verklarende variabelen anders zijn voor verschillende huids-kleurtinten. In Tabel 8 in het onderzoek van Goldsmith et al. zijn de resultaten van de loonkloof weergeven, waarbij de loonkloof in dit geval het resultaat is van verschillende rendementen voor verschillende huidskleurtinten (2015, p. 728). Hieruit blijkt dat het loon van blanke werknemers met zowaar dertien tot veertien procent zou dalen als de huidskleur niet blank was, maar de medium of donkere tint. Tevens zou het loon van een blanke werknemer met vier en een half procent dalen als de huidskleur niet blank was maar de lichtste tint donker. Hierbij is gegeven dat er rekening gehouden is met de effecten van scholing, ervaring, demografische variabelen en werkomstandigheden. Hier-uit volgt dat er raciale verschillen blijken te zijn in de rendementen van de verklarende variabelen.

Concluderend, Kreisman en Rangel (2015) houden de co¨effici¨enten van het merendeel van de verklarende variabelen constant, ongeacht het duidelijk verschil in rendementen dat gebleken is uit bestaande theorie¨en. Hieruit volgt dat deze keuze niet de meest cor-recte keuze is en zij rekening dienen te houden met de verschillende rendementen per huidskleurtint.

(8)

2.2 Restrictie dataset

Allereerst wordt de restrictie genoemd om deze vervolgens te onderzoeken. Kreisman en Rangel (2015) alterneren de opgelegde restricties aan de dataset bij het schatten van de modellen. Hier wordt beperkt tot ´e´en gebruikte steekproef, namelijk de steekproef die uitsluitend mannen bevat die meer dan dertig uur per week werken. Door deze restricties wordt er data van meer dan driekwart van de respondenten buiten beschouwing gelaten en van de observaties wordt slechts tien procent opgenomen in de steekproef. In dit onderzoek wordt enkel onderzocht wat het effect is van het uitsluitend opnemen van mannen in de steekproef.

Voor het uitsluitend opnemen van mannen in de steekproef geven Kreisman en Ran-gel als verklaring dat arbeidsparticipatie bij vrouwen vaak anders is dan bij mannen (2015, p. 6). Dit volgt uit de ’Human Capital Theory’. Hierin stelt Berndt (1991) dat geslacht, scholing en ervaring van invloed zijn op het loon. Wanneer er geen rekening wordt gehouden met de loonverschillen tussen mannen en vrouwen, ontstaan er onzuiver-heden bij het schatten van het effect van huidskleur op het loon (Berndt, 1991). Tevens beperken Goldsmith et al. (2007) hun steekproef tot uitsluitend mannen en zij geven hiervoor dezelfde reden als Kreisman en Rangel. Zij voegen daaraan toe dat ze op die manier proberen onzuiverheden te minimaliseren (2007, p.706).

Verder blijkt arbeidsparticipatie vaak anders te zijn voor blanke vrouwen dan voor donkere vrouwen (Neal, 2006). Dit compliceert het schatten van het effect van huids-kleur op het gemiddelde loon voor vrouwen, aangezien resultaten van de effecten van huidskleur op het loon de beste indicatie geven wanneer dit onderzocht wordt tussen vrouwen in vergelijkbare situaties.

Daarnaast stellen Munasinghe, Reif en Henriques (2008) dat werkervaring en ambts-termijn een ander rendement op het loon leveren voor vrouwen dan voor mannen. Tevens stelt Furno (2014) dat het rendement voor scholing verschilt voor mannen en vrouwen. Hieruit volgt dat het niet correct is om de co¨effici¨enten van de variabelen werkervaring, ambtstermijn en scholing gelijk te stellen voor mannen en vrouwen.

Concluderend, er volgt uit meerdere onderzoeken en de ’Human Capital Theory’ dat de keuze van Kreisman en Rangel (2015) om alleen mannen in de steekproef op te nemen een weloverwogen keuze is, aangezien geslacht effect heeft op het loon. Tevens zorgt deze keuze voor minder onzuiverheden ten opzichte van een steekproef die mannen en vrouwen bevat, aangezien het niet correct is om de rendementen van alle verklarende variabelen gelijk te stellen voor mannen en vrouwen.

(9)

2.3 Lasso

Allereest wordt een algoritme uit de machine learning literatuur ge¨ıntroduceerd: de ’least absolute shrinkage and selection operator’ (de lasso). Vervolgens worden het gebruik en de effici¨entie van de lasso onderzocht ten opzichte van de kleinstekwadratenmethode.

Kreisman en Rangel (2015) schatten hun model aan de hand van de kleinstekwadra-tenmethode. Wanneer er p verklarende variabelen opgenomen zijn in een model met n waarnemingen, worden de geschatte co¨effici¨enten β0, ..., βp geschat aan de hand van de

kleinstekwadratenschatter door de volgende vergelijking te minimaliseren:

RSS = n X i=1 (yi− β0− p X j=1 βjxij)2 (1)

Hierbij is yi de afhankelijke variabele en bevat de matrix xij de verklarende variabelen.

De nadelen van de standaard kleinstekwadratenmethode worden door deze alternatieve aanpak, de lassomethode, vermeden. Het eerste nadeel van de kleinstekwadratenme-thode is dat de varianties van de geschatte co¨effici¨enten alleen laag zijn als n veel groter is dan p (Hastie, James, Tibshirani & Witten, 2013), met n en p als hierboven gedefi-nieerd. Verder komt het in meervoudige regressies regelmatig voor dat er tussen enkele verklarende variabelen en de afhankelijke variabele in werkelijkheid geen verband is, wat het interpreteren van de geschatte co¨effici¨enten compliceert. De kleinstekwadraten-methode stelt de co¨effici¨enten van irrelevante variabelen niet gelijk aan nul, terwijl de lassomethode deze kwaliteit wel bezit (Hastie et al., 2013). De lassoco¨effici¨enten wor-den op een overeenkomstige manier als de co¨effici¨enten in vergelijking 1 geschat, maar er wordt een extra term toegevoegd. De lassoco¨effici¨enten minimaliseren de volgende vergelijking: n X i=1 (yi− β0− p X j=1 βjxij)2+ λ p X j=1 |βj| (2)

Waarbij λ ≥ 0 een strafparameter is. Wanneer λ = 0, is vergelijking 2 gelijk aan vergelijking 1. Wanneer λ erg groot is, worden irrelevante co¨effici¨enten op nul gesteld. Voor verschillende waarden van λ worden er verschillende co¨effici¨enten geschat, zodoende is het van belang dat de gekozen waarde voor λ de meest correcte is (Hastie et al., 2013). De beste waarde voor λ is de λ waarbij de ’Cross-Validation error’ het kleinst is, bij een bepaald bereik van λ. ’Cross-Validation’ (CV) is een methode om een model te evalueren en schat de ’test error’ om de prestatie van het geschatte model te evalueren en het beste model te selecteren (Hastie et al., 2013). De k-voudige CV is een aanpak

(10)

in k groepen. ´E´en groep van deze k groepen wordt gezien als validerende dataset (de test set) en over de overige k − 1 groepen worden schattingen gedaan. Vervolgens wordt de ’Mean Squared Error’ (MSE, zie vergelijking 4) bepaald van de validerende dataset. Dit wordt k keer gedaan en de CV-schatting is het gemiddelde van alle k MSE’s (zie vergelijking 3). CV(k)= 1 k k X i=1 M SEi (3) met M SEi = n k X j∈Ii (yj− β0− β1xj1− ... − βpxjp)2 = n k X j∈Ii (yj − ˆyj)2, (4)

waarbij Ii de ie test set bevat.

De waarde van λ waarvoor de CV-schatting de laagste waarde heeft, is de beste waarde die op deze manier gevonden kan worden voor λ. Met deze gevonden waarde wordt de lassomethode uitgevoerd, wat in het best mogelijk te schatten model resulteert.

Al met al is de lassomethode een effectievere methode dan de kleinstekwadraten-methode, aangezien de lassomethode de co¨effici¨enten van irrelevante variabelen op nul stelt. De lassomethode zal daardoor een beter beeld van de werkelijke verbanden in het geschatte model schetsen dan wanneer de kleinstekwadratenmethode gehanteerd zou worden. Tevens zal de interpretatie van de co¨effici¨enten minder complex zijn wanneer modellen met veel variabelen geschat worden.

2.4 Conclusie uit bestaande theorie¨en

Ten slotte worden er twee conclusies getrokken die antwoord geven op de centrale vraag. Deze conclusies resulteren uit het literatuuronderzoek.

De eerste conclusie die uit het literatuuronderzoek resulteert, is dat de keuze van Kreisman en Rangel (2015) om de co¨effici¨enten van het merendeel van de verklarende variabelen constant te houden niet de correcte keuze is. Er is gebleken dat er raciale verschillen zijn in de rendementen van verklarende variabelen op het loon. Het is ef-fectiever om meerdere kruistermen op te nemen van verschillende huidskleurtinten met verklarende variabelen.

De tweede en tevens laatste conclusie die uit het literatuuronderzoek resulteert, is dat de keuze van Kreisman en Rangel (2015) die de steekproef tot uitsluitend mannen beperkt, een correcte keuze is. Dit volgt uit de ’Human Capital Theory’ omdat het ren-dement van verklarende variabelen op het loon verschillend is voor mannen en vrouwen

(11)

en dit zou het model compliceren. Dit is te wijten aan arbeidsparticipatie van vrouwen, wat verschilt van arbeidsparticipatie van mannen. Daarbij is het schatten van een mo-del voor het loon complexer voor vrouwen aangezien arbeidsparticipatie tevens verschilt voor vrouwen onderling.

Vervolgens is er geconcludeerd dat de lassomethode op een effici¨entere manier mo-dellen schat dan de kleinstekwadratenmethode, zodoende wordt de lassomethode gehan-teerd om de onderzoeksvraag te beantwoorden. Hierover wordt uitgeweid in de onder-zoeksopzet in het volgende hoofdstuk.

(12)

3

Model en data

In dit hoofdstuk wordt toegelicht hoe de gebruikte dataset verkregen is, hoe de variabe-len geoperationaliseerd zijn, welke modelvariabe-len geschat worden en welke methode hiervoor gebruikt worden. Ten slotte wordt de bepaling van de covariantiematrix toegelicht, aangezien deze niet op de standaard manier bepaald is.

3.1 Dataset

Allereerst wordt de gebruikte dataset toegelicht. Er wordt gebruikgemaakt van dezelfde dataset die Kreisman en Rangel (2015) gebruikt hebben. De ’National Longitudinal Study of Youth’ (NLSY) is een dataset dat jaarlijkse observaties bevat van een natio-naal representatieve steekproef, waarbij alle respondenten geboren zijn tussen 1981 en 1985 (Kreisman en Rangel). Van 1997 tot en met 2009 zijn deze respondenten persoon-lijk ge¨ınterviewd aan de hand van enquˆetes en bij aanvang hiervan zijn gedetailleerde beschrijvingen van de woonomstandigheden verkregen. In 2008 werd huidskleurtint

op-Figuur 1: Schaal huidskleurtint NIS/NLSY (Kreisman en Rangel, 2015)

genomen in de enquˆete aan de hand van de schaal van de ’New Immigrant Survey’ (NIS), voor wie de schaling aanvankelijk bepaald is vijf jaar eerder. In Figuur 1 is te zien dat de schaal van ´e´en (lichtste tint) tot tien (donkerste tint) loopt. Iedere blanke en donkere respondent die in 2008 ge¨ınterviewd werd, werd beoordeeld aan de hand van deze schaal. Wat opviel is dat de blanke respondenten grotendeels geschaald waren van 1 tot en met 3, maar de huidskleurtinten van donkere respondenten waren verspreid over de gehele schaling (1 tot en met 10). Kreisman en Rangel hebben er daarom voor gekozen om blank te vergelijken met drie verschillende donkere tinten. De eerste tint zijn de donkere respondenten die geschaald zijn in huidskleurtint ´e´en tot en met vijf (een derde van de observaties) en deze tint wordt ’light black’ genoemd. De derde tint zijn de donkere respondenten die geschaald zijn in huidskleurtint acht tot en met tien,

(13)

’dark black’ (tevens een derde van de observaties) en de overige tint bevat de rest van de observaties (’medium black’). De totale dataset bevat 125.776 observaties van 8.984 respondenten en de steekproef die uitsluitend mannen bevat, bevat 8.428 observaties van 1.694 respondenten. Als tevens vrouwen opgenomen worden, bevat de steekproef 14.212 waarnemingen van 3.376 respondenten.

3.2 Variabelen en steekproef

Er wordt gebruikgemaakt van dezelfde dataset en variabelen als Kreisman en Rangel (2015). De variabelen in de dataset en bijbehorende labels zijn te vinden in de Figuur 2. Ten grondslag aan dit onderzoek liggen de huidskleurdummyvariabelen, waarbij de dummyvariabele bl 1 is voor de respondenten met huidskleurtint ’light black’ en verder 0, bm is 1 voor respondenten met huidskleurtint ’medium black’ en verder 0 en bd is 1 voor respondenten met huidskleurtint ’dark black’ en verder 0.

De volgende restricties worden, overeenkomstig met Kreisman en Rangel (2015), aan de steekproef opgelegd: uitsluitend respondenten die een resultaat hebben van de ’Ar-med Forces Qualifying Test’ (de variabele AF QT ), een meting van de hoogst behaalde opleiding (de variabele HGC) en respondenten die de arbeidsmarkt toegetreden zijn worden in beschouwing genomen. Daarnaast worden uitsluitend respondenten waar-van de huidskleurtint bepaald is in 2008 en die een donkere en blanke huid hebben in beschouwing genomen. Verder worden uitsluitend werknemers met niet-zelfstandige, niet-ingeschreven en niet-militaire banen in beschouwing genomen. Tevens worden de waarnemingen uit 1997 en 1998 buiten beschouwing gelaten, aangezien deze jaren weinig waarnemingen bevatten. De overige restricties verschillen per te onderzoeken hypothese.

3.3 Model

De te schatten modellen komen overeen met de modellen van Kreisman en Rangel (2015). Kreisman en Rangel schatten modellen gegeven in vergelijking 5 en 6.

yitj = α + β0f (Blacki, Colori) + γ10X1,it+ γ20X2,i+ δ0Si,t+ πt+ ηj + it (5)

yitj = α + β0f (Blacki, Colori) + γ10X1,it+ γ02X2,i+ δ0Si,t+ ρ0Experienceit

10f (Blacki, Colori) × Experienceit+ ω02Si,t× Experienceit

+πt+ ηj+ it

(14)

Waarbij de f (Blacki, Colori) als volgt is gedefinieerd:

Blurred color line: f1= β1LightBlacki+ β2M edBlacki+ β3DarkBlacki

(7)

Hierbij is yitj het natuurlijke logaritme van het loon per uur voor individu i in jaar t

bepaald door interviewer j. Sit bevat de variabelen voor scholing: HGC en AF QT ,

X1,it bevat variabelen voor MSA-status en regio op tijdstip t en dummyvariabelen voor

de jaartallen. MSA staat voor ”Metropolitan Statistical Area”, en dit is een geografische regio met een relatief hoge bevolkingsdichtheid. Verder bevat X2,i variabelen voor de

waarnemingen van opgroeiomstandigheden die onafhankelijk zijn van de tijd, aangezien deze bij aanvang van de NLSY97 verkregen zijn. Hieronder vallen tevens de persoonlijke kenmerken van de ouders van de respondenten. X2,i bevat tevens variabelen voor de

lengte en het gewicht van de respondent in 1997. De variabelen intvid ∗∗ bevatten de

id’s van de interviewers en worden eveneens toegevoegd aan het model, zodat er voor de subjectiviteit van het bepalen van de huidskleurtint van de respondenten gecontroleerd wordt. Deze geschatte co¨effici¨enten worden echter niet weergeven, maar er wordt op deze manier wel rekening mee gehouden. Verder voegen Kreisman en Rangel in het tweede model kruistermen toe met werkervaring en ambtstermijn (Experienceit) om zo

de evolutie van de loonkloof te schatten. Beide modellen worden met betrekking tot drie ’color lines’ geschat, die gegeven zijn in vergelijking 7. Kreisman en Rangel stellen sommige co¨effici¨enten alvorens het schatten nul en laten dit alterneren. In dit onderzoek worden deze stappen gevolgd, maar wordt er beperkt tot een bepaald model.

In dit onderzoek wordt uitsluitend vergelijking 5 onderzocht. Dit wordt gedaan door extra kruistermen toe te voegen aan de geschatte modellen van Kreisman en Rangel en deze modellen worden met behulp van de lassomethode (vergelijking 2) geschat. Hierdoor worden de co¨effici¨enten van irrelevante variabelen op nul gesteld. De waarde voor λ wordt bepaald door de k-voudige CV-schatting (vergelijking 3) te minimaliseren.

Het volgende model wordt in dit onderzoek geschat:

yitj = α + β0f (Blacki, Colori) + γ10X1,it+ γ20X2,i+ δ0Si,t

+ρ0Oi+ ω10f (Blacki, Colori) × Oi+ ω02X1,it× Oi

30X2,i× Oi+ ω04Si,t× Oi

+πt+ ηj+ it

(15)

De resultaten van de schattingen worden vergeleken met de geschatte resultaten uit tabel 5 panel A van Kreisman en Rangel (2015, p. 8), weergeven in Tabel 10. Tot deze schattingen van Kreisman en Rangel wordt beperkt in dit onderzoek. Oi bevat

verschillende variabelen bij de verschillende hypotheses en dit wordt hieronder nader toegelicht.

Allereerst worden uitsluitend mannen opgenomen in de steekproef en wordt de keuze om de geschatte co¨effici¨enten constant te houden voor alle huidskleurtinten onderzocht. Oi bevat dan de variabelen lb, mb en db en ω1 in model 8 wordt gelijkgesteld aan nul,

aangezien dit de co¨effici¨ent van ’the blurring color line’ in het kwadraat schat terwijl dit hier niet onderzocht wordt. De referentiegroep bevat hier blanke werknemers. Vervolgens worden de effecten van de huidskleurtinten in de niet-lineaire modellen vergeleken met de effecten van de huidskleurtinten in de modellen van Kreisman en Rangel (2015). De effecten van de huidskleurtinten in de niet-lineaire modellen worden bepaald aan de hand van significante co¨effici¨enten en gemiddeldes per huidskleurtint. De formule hiervan wordt in hoofdstuk 4 gespecificeerd, aangezien er dan beter inzicht verkregen is in de significante co¨effici¨enten en effecten van huidskleurtinten.

Daarna wordt de keuze van het uitsluitend opnemen van mannen in de steekproef onderzocht, door mannen en vrouwen in de steekproef te behouden, maar de steekproef wel te beperken tot de overige opgelegde restricties. Op deze manier wordt er onderzocht of het lassomodel de co¨effici¨enten van kruistermen van geslacht met verklarende varia-belen op nul stelt. Dit betekent dat Oi in dit geval de dummyvariabele F emale bevat

met als referentiegroep mannen. Verder wordt er opnieuw beperkt tot de ’blurring color line’, wat overeenkomt met panel A in tabel 8 van Kreisman en Rangel (2015, p.8). De effecten van de huidskleurtinten voor mannen en vrouwen worden opnieuw vergeleken met de geschatte effecten van Kreisman en Rangel.

Al met al wordt hetzelfde model op meerdere manieren geschat, terwijl de uitgevoerde stappen van Kreisman en Rangel (2015) gevolgd worden. Elke kolom weergeven in tabel 10 wordt in eerste instantie geschat aan de hand van de lasso-methode om te onderzoeken welke verklarende variabelen daadwerkelijk een verband met de afhankelijke variabele hebben. Vervolgens worden er OLS-regressies uitgevoerd op de co¨effici¨enten die niet gelijk aan nul gesteld zijn in de lasso-regressies. Bij deze OLS-regressies wordt geen standaard covariantiematrix gehanteerd. De bepaling van deze covariantiematrix wordt vervolgens toegelicht.

(16)

3.4 Covariantiematrix

Kreisman en Rangel (2015) hebben geen gebruikgemaakt van de standaard covariantie-matrix. Dit wordt gedaan omdat er in de steekproef gebruikgemaakt wordt van verschil-lende respondenten i op verschilverschil-lende tijdstippen t , zodoende bevat de dataset meerdere observaties per respondent. Wanneer alle waarnemingen uit de dataset in beschouwing worden genomen, worden meerdere observaties per individu meegenomen in de bepa-ling van de covariantiematrix. Dit wordt opgelost door de clustercovariantiematrix te gebruiken. Hierbij worden de id’s van de respondenten als clusters gebruikt en wordt de covariantiematrix niet bepaald door alle waarnemingen in de dataset, maar door het aantal respondenten dat de steekproef bevat. Op deze manier wordt elke respondent ´e´en keer in beschouwing genomen. De bepaling van de clustercovariantiematrix is gegeven in vergelijking 9 Vcluster = (X0X)−1( nc X j=1 uj× u0j)(X0X)−1 met uj = X jcluster ei× xi, (9)

waarbij nc het aantal clusters is, zodoende het aantal respondenten in de steekproef.

Concluderend, veel stappen van Kreisman en Rangel (2015) worden gevolgd, maar op een andere manier geschat. In dit onderzoek wordt eerst de lasso-methode gehanteerd en later de kleinstekwadratenmethode. Hiermee wordt er aan de hand van extra kruistermen onderzocht hoe correct de keuzes van Kreisman en Rangel zijn en in hoeverre deze resultaten overeenkomen met de conclusies die resulteren uit hoofdstuk 2.

(17)

4

De loonkloof

Voor alle OLS-resultaten in dit onderzoek geldt dat: * p <0.10, ** p<0.05 en *** p<0.01. Daarnaast zijn de standaarddeviaties tussen haakjes weergeven.

Om de correctheid van de gemaakte keuzes door Kreisman en Rangel (2015) te onderzoe-ken, wordt ten eerste onderzoek gedaan naar de relevantie van kruistermen. Vervolgens wordt de loonkloof tussen verschillende huidskleurtinten onderzocht en geanalyseerd, aan de hand van relevante kruistermen. Daarna wordt de loonkloof tussen mannen en vrou-wen op dezelfde manier onderzocht en geanalyseerd, alvorens de conclusie in hoofdstuk 5.

4.1 Relevantie kruistermen

Voordat de loonkloof tussen verschillende huidskleurtinten op de juiste manier ge¨ınter-preteerd kan worden, is het van belang om enkele modelspecificaties na te gaan zodat de geschatte modellen correct zijn. Dit houdt in dit geval in dat er onderzocht wordt hoe relevant de toegevoegde kruistermen zijn. Om dit te onderzoeken, is om te beginnen de beschrijvende statistiek weergeven per huidskleurtint. Hierbij is rekening gehouden met de gemiddeldes per respondent in plaats van per observatie. Dit is weergeven in Tabel 11 tot en met 13. Zoals eerder genoemd bevat de steekproef waarbij uitsluitend mannen opgenomen zijn, 8.428 observaties van 1.694 respondenten.

Ten eerste zijn er kruistermen met alle verklarende variabelen in dat specifieke model opgenomen en de optimale λ’s bepaald voor elk te schatten model. Hierbij is gebruik-gemaakt van 5-voudige ’Cross-Validation’ en zijn er waardes voor λ bepaald waarbij de MSE het kleinst is. De bepalingen van de ˆλ1 en ˆλ2 zijn weergeven in Figuur 3 en 5,

waarbij de waardes voor λ bij de linkse stippellijn gekozen zijn. Het verloop van deze lasso-co¨effici¨enten voor verschillende waardes van λ zijn weergeven in Figuur 4 en 6.

ˆ λ1 0.00160 ˆ λ2 0.00401 ˆ λ3 0.00227 ˆ λ4 0.00007 ˆ λ5 0.00333 ˆ λ6 0.00190

(18)

De beste λ’s voor elk model zijn weergeven in Tabel 1. Verder zijn de resultaten van Kreisman en Rangel (2015) weergeven in Tabel 10, waarbij per kolom andere controle va-riabelen toegevoegd worden aan het model. In Tabel 1 staat ˆλ1 voor de optimale λ voor

het model dat geschat is in kolom 1 van 10 etcetera. Aan de hand van deze geschatte λ’s is lassomethode uitgevoerd op de modellen die geschat zijn door Kreisman en Rangel. In Tabel 14 zijn de lasso-co¨effici¨enten van de variabelen en kruistermen weergeven, waar-van de lasso-co¨effici¨enten niet gelijk aan nul zijn. De variabelen en kruistermen waarvan de co¨effici¨enten niet gelijk aan nul geschat zijn aan de hand van de lassoregressies, zijn behouden in of toegevoegd aan de modellen die Kreisman en Rangel geschat hebben. Op deze modellen is de kleinstekwadratenmethode toegepast om het interpreteren van de geschatte co¨effici¨enten te vereenvoudigen. Deze resultaten zijn weergeven in Tabel 15 en 16.

Er is echter geen rekening gehouden met toeval wanneer de kruistermen toegevoegd zijn aan de geschatte modellen. Het is bijvoorbeeld mogelijk dat een kruisterm van twee variabelen erg veel nullen bevat. Verder bevat de dataset veel dummy-variabelen die missende informatie bevatten. Van enkele respondenten is het gewicht in 1997 onbekend en er is een dummy-variabele beschikbaar die 1 is wanneer het gewicht onbekend is en verder 0. Kruistermen met dummy-variabelen die missende informatie bevatten zijn irrelevant, aangezien dit een kleine steekproef bevat en deze steekproef berust is op toeval. Om deze redenen worden de kruistermen in Tabel 15 en 16 nagegaan op basis van de beschrijvende statistieken in Tabel 11 tot en met 13 en daarnaast wordt er nagegaan of de kruisterm geen missende informatie bevat, zoals hierboven beschreven. De kruistermen met P arents 6 missing, Rural 12 missing, HGC mom missing en W eight missing zijn niet relevant, aangezien deze dummy-variabelen per toeval een aantal waarnemingen bevatten waarvan bepaalde gegevens missen. De overige kruister-men zijn wel relevant, aangezien deze kruisterkruister-men niet op toeval berusten en redelijk grote groepen bevatten. Om deze redenen zijn de kruistermen met dummyvariabelen die missende informatie bevatten weggelaten uit de modellen en zijn er opnieuw lasso-regressies uitgevoerd, met uitsluitend relevante kruistermen. Hierbij worden kolom 1 en 2 van Kreisman en Rangel (2015) (zie Tabel 10) buiten beschouwing gelaten, aange-zien voor deze modellen niets veranderd. De resultaten van de herschattingen van de modellen worden vervolgens geanalyseerd.

In Tabel 2 zijn de optimale λ’s weergeven die geschat zijn in de modellen waarbij irrelevante kruistermen buiten beschouwing zijn gelaten en in tabel 17 zijn de lasso-co¨effici¨enten weergeven van de relevante kruistermen die niet gelijk aan nul geschat zijn.

(19)

ˆ λ3 0.00188 ˆ λ4 0.00191 ˆ λ5 0.00144 ˆ λ6 0.00083

Tabel 2: Optimale λ per te schatten model, relevante kruistermen

De bepaling van de optimales λ’s zijn weergeven in Figuur 7, 9, 11 en 13 en het verloop van deze lasso-co¨effici¨enten is weergeven in figuur 8, 10, 12 en 14. Uit tabel 17 volgt dat de lasso-co¨effici¨enten van de modellen van kolom 5 en 6 exact gelijk geschat worden aan de lasso-co¨effici¨enten van het modelen van kolom 4, ondanks de verschillende λ’s. Opvallend is dat naar aanleiding van irrelevantie vier kruistermen weggelaten zijn en bij de herschatting van het model, co¨effici¨enten van enkele wel relevante kruistermen gelijk aan nul gesteld zijn. Dit geldt voor de kruistermen Dark × age en M edium × AF QT . Dit hangt samen met het feit dat uit tabel 15 en 16 volgt dat de co¨effici¨enten van deze kruistermen niet significant zijn (vanaf kolom 3).

Aan de andere kant zijn andere co¨effici¨enten van relevante kruistermen juist ongelijk aan nul geschat zijn, terwijl ze in eerste instantie wel gelijk aan nul gesteld waren. Dit geldt voor de kruistermen M edium×HGC, Light×N ot in M SA, Light×In M SA. city. Het is mogelijk dat de kruisterm M edium × HGC het effect van scholing op het loon overneemt van de kruisterm M edium × AF QT , aangezien deze lassoco¨effici¨ent bij het herschatten gelijk aan nul gesteld is. De overige kruistermen worden naderhand onder-zocht en geanalyseerd in paragraaf 4.2.

Verder is het mogelijk dat kruistermen elkaar overlappen. Het is wellicht het geval dat de variabele Rural age 12 en de variabelen N.Central en N.East elkaar overlappen. Volgend uit de lassoregressies zijn de kruistermen van M edium Black met deze drie variabelen opgenomen in de modellen. Er volgt echter dat 0.48% van de respondenten die als M edium Black geschaald zijn en op hun twaalfde op het platteland woonden, nu in het Noord-Oosten wonen en 0% woont nu in Noord-Centraal. Hieruit volgt dat er weinig tot geen overlapping van de variabelen N.East, N.Central en Rural age 12 is en al deze kruistermen relevant zijn.

Al met al worden er andere kruistermen toegevoegd aan de modellen die opnieuw aan de hand van de kleinstekwadratenmethode geschat worden.

(20)

4.2 Effect toevoeging kruistermen

In deze paragraaf worden de geschatte modellen geanalyseerd, waarbij uitsluitend rele-vante kruistermen met de huidskleurtinten in de modellen opgenomen zijn. De resultaten van OLS-regressies zijn weergeven in tabel 3 en 4.

Ondanks dat de lasso-co¨effici¨enten van de toegevoegde verklarende variabelen niet ge-lijk aan nul gesteld waren en alle kruistermen relevant zijn, zijn er veel OLS-co¨effici¨enten niet significant. Deze co¨effici¨enten wijken niet significant af van 0, zodoende kan er niets geconcludeerd worden over deze verklarende variabelen en kruistermen.

Uit tabel 3 en 4 volgt dat de huidskleurtinten zelf in de latere modellen, waarbij meer controle variabelen toegevoegd zijn, geen significante effecten hebben op het loon of zowaar niet aan het model toegevoegd zijn. Het wel of niet toevoegen van variabelen of kruistermen in de geschatte modellen resulteert uit de lasso-regressies. Er zijn echter significante kruistermen met elke huidskleurgroep opgenomen in de te schatten model-len, zodoende volgt er dat de loonkloof tussen huidskleurtinten vooral voortvloeit uit kruistermen in de latere modellen. Per variabele worden de kruistermen behandeld en vervolgens worden de gemiddelde effecten per huidskleurtint bepaald en vergeleken met de resultaten van Kreisman en Rangel (2015).

Om te beginnen worden kruistermen met scholing behandeld. De co¨effici¨ent van de kruisterm Light × AF QT is significant, maar de overige kruistermen met scholing niet. De co¨effici¨enten van AF QT zijn tevens significant en het loon per uur stijgt met ongeveer 3 procent voor W hite, wanneer de testscore stijgt. Echter zijn van de scores op de AFQT-test de z-waarden in beschouwing genomen. De gemiddelde z-waarde van Light Black op de test is -0.495. Door negatieve testscores draait het teken van de geschatte co¨effici¨ent om en kan er dus niet geconcludeerd worden dat het loon van Light Black met 6 tot 8 procent meer stijgt bij een hogere testscore.

Verder zijn er meerdere kruistermen die met woonomgeving te maken hebben opge-nomen in de modellen. Deze hebben te maken met de huidige woonplaats of met het feit dat ze op hun twaalfde op het platteland woonden. De variabele N.Central zelf is in geen enkel model opgenomen (lasso-co¨effici¨ent=0), maar de variabelen N.East en Rural, age 12 wel. Er volgt dat respondenten met huidskleur Light Black ongeveer 11% minder verdienen per uur en M edium Black ongeveer 13% minder per uur als zij in Noord-Centraal wonen, terwijl het wonen in deze omgeving geen significante ef-fecten heeft op de lonen van W hite en Dark Black. Het wonen in het Noord-Oosten levert een hoger uurloon op van 5 ´a 6 procent voor W hite en Dark Black, maar voor

(21)

(1) (2) (3) (4&5) (6) Black, light -0.1586*** -0.0771** -0.0115 (0.0323) (0.0376) (0.0531) Black, medium -0.2392*** -0.0131 -0.0571 -0.0627 -0.1759 (0.0258) (0.2393) (0.0475) (0.1186) (0.1198) Black, dark -0.2386*** (0.0294) HGC 0.0465*** 0.0382*** 0.0336*** (0.0040) (0.0042) (0.0043) AFQT 0.0313** 0.0299** 0.0282** (0.0127) (0.0118) (0.0119) Age 0.0367*** 0.0463*** 0.0360*** 0.0350*** (0.0021) (0.0020) (0.0021) (0.0020) N. East 0.0634** 0.0484* 0.0641 (0.0269) (0.0270) (0.0528) Not in MSA -0.0271 (0.0248) In MSA, city -0.0384* -0.0537*** -0.0424*** (0.0200) (0.0156) (0.0149) Poverty ratio 1997 0.0002*** 0.0002*** 0.0002*** (0.0000) (0.0000) (0.0000) Mom HGC <H.S. -0.0124 (0.0205) Rural, age 12 -0.0251 -0.0192 0.0200 (0.0261) (0.0239) (0.0286) Height 1997 0.0017** (0.0007)

Ever gov’t aid -0.0889*** -0.0550*** -0.0428**

(0.0184) (0.0187) (0.0181) Light*AFQT 0.0623* 0.0577** 0.0772** (0.0364) (0.0289) (0.0307) Medium*AFQT 0.0346 (0.0365) Dark*AFQT 0.0320 0.0288 0.0396 (0.0397) (0.0363) (0.0361) Dark*Age -0.0052*** (0.0017) Medium*Entryage -0.0065 (0.0108) Light*N. Central -0.0724 -0.0779 -0.1104* (0.0654) (0.0531) (0.0627)

(22)

(1) (2) (3) (4&5) (6)

Medium*N. East -0.1433** -0.1304** -0.2424***

(0.0619) (0.0603) (0.0739)

Light*Not in MSA -0.0775

(0.0847)

Light*In MSA, city -0.0566

(0.0542)

Medium*In MSA, city -0.0469

(0.0396)

Black*In MSA, city -0.0439 -0.0381 -0.0596

(0.0457) (0.0415) (0.0400) Medium*Povertyratio -0.0001 -0.0001 -0.0001 (0.0001) (0.0001) (0.0001) Medium*Mom HGC <H.S. -0.0176 -0.0343 -0.0165 (0.0441) (0.0377) (0.0398) Light*Rural age 12 -0.0682 (0.0662) Medium*Rural age 12 -0.1137** -0.0817* -0.0698 (0.0514) (0.0487) (0.0450) Dark*Height -0.0010 (0.0017) Dark*Weight -0.0005 -0.0004 -0.0005 (0.0007) (0.0003) (0.0003) Medium*N. Central -0.0580 -0.1380** (0.0518) (0.0577)

Dark*Ever gov’t aid -0.0266 -0.0527

(0.0495) (0.0446)

Medium*Highest Grade Completed 0.0020 0.0098

(0.0100) (0.0102) Controls

Education X X X

Interviewer FE X

Individual controls X X X

Age, age at entry Both Age Both Both

Year FE X X X X X

N 8428 8428 8428 8428 8428

R2 0.132 0.236 0.224 0.266 0.339

(23)

respondenten met huidskleur M edium Black gaat hier 13 tot 14 procent vanaf en zo-doende levert het wonen in het Noord-Oosten juist een lager loon op voor respondenten met huidskleur M edium BLack. Opvallend is dat in het laatste model (kolom 6), de co¨effici¨ent van N.East niet significant is, maar levert het wonen in het Noord-Oosten voor M edium Black een loon van 24% lager op! Daarnaast heeft de variabele Rural, age 12 geen significante effecten op het loon en hieruit volgt dat het wonen op het platteland op leeftijd 12 uitsluitend effect heeft op het loon van M edium Black. Het levert voor deze respondenten namelijk een lager uurloon van ongeveer 8 % en 11% op.

Daarnaast is er slecht ´e´en kruisterm met Dark Black significant, namelijk Dark × Age. Uit de co¨effici¨ent van deze kruisterm volgt dat een respondent met huidskleurgroep Dark Black ongeveer 0.5 procent minder verdient wanneer hij een jaar ouder is, ten opzichte van alle andere respondenten, die ongeveer 3.5% meer verdienen per uur wanneer hij een jaar ouder is.

Vervolgens zijn de gemiddelde effecten per huidskleurtint bepaald uit tabel 3 en 4 en vergeleken met de gemiddelde effecten die Kreisman en Rangel (2015) geschat hebben (tabel 10). Dit is gedaan aan de hand van vergelijkingen 10, 11 en 12.

β1,LightBlack = ˆγ1,LightBlack+ ˆγ20AF QT¯ LightBlack+ ˆγ 0

3N.Central¯ LightBlack, (10)

β2,M ediumBlack= ˆγ1,M ediumBlack+ ˆγ20N.East¯ M ediumBlack

+ˆγ30Ruralage12¯ M ediumBlack+ ˆγ40N.Central¯ M ediumBlack,

(11)

β3,DarkBlack = ˆγ1,DarkBlack+ ˆγ20Age¯ DarkBlack, (12)

waarbij ¯XLightBlack het gemiddelde is van variabele X voor huidskleur Light Black.

De γ’s zijn de geschatte co¨effici¨enten uit tabel 3 en 4. Op deze manier worden de co¨effici¨enten β1,LightBlack, β2,M ediumBlack en β3,DarkBlack per model bepaald, waarbij

uit-sluitend significante co¨effici¨enten worden opgenomen. De resultaten zijn weergeven in tabel 5.

Hierbij staan de geschatte co¨effici¨enten van Kreisman en Rangel (2015) onder A en de co¨effici¨enten die resulteren uit dit onderzoek onder B. Uit Tabel 5 volgt dat de co¨effici¨enten van de eerste twee kolommen redelijk overeenkomen. De co¨effici¨enten die volgen uit het niet-lineaire model in dit onderzoek zijn in de kolommen daarna veel lager en bovendien zijn er geen effecten geconstateerd voor Dark Black. Er zijn duidelijke verschillen tussen het lineaire en niet-lineaire model. In het niet-lineaire model heeft huidskleur veel minder effect op het loon dan in het lineaire model. Daarnaast bestaan de

(24)

(1) (2) (3) (4) (5) (6) Originele geschatte effecten

Black, light -0.158 -0.100 -0.068 -0.067

Black, medium -0.238 -0.163 -0.137 -0.105 -0.107 -0.140 Black, dark -0.237 -0.139 -0.134 -0.091 -0.091 -0.142 Geschatte effecten op basis van niet-lineair model

Black, light -0.159 -0.108 -0.0286 -0.0286 -0.0644 Black, medium -0.239 -0.037 -0.0305 -0.0305 -0.0551 Black, dark -0.239 -0.129 Controls Interviewer FE X Interviewer controls X Individual controls X X X X

Age, age at entry Both Age Both Both Both

Year FE X X X X X X

N 8428 8428 8428 8428 8428 8428

Individuals 1,694 1,694 1,694 1,694 1,694 1,694

Tabel 5: Vergelijking co¨effici¨enten huidskleurtinten

rendementen verschillend zijn per huidskleurtint. Hieruit volgt dat de lineaire modellen van Kreisman en Rangel niet de optimale modellen zijn.

Concluderend, uit de niet-lineaire modellen volgen dat de huidskleurtinten zelf wei-nig invloed hebben op het loon per uur bij mannen. Aan de hand van de lasso- en kleinstekwadratenmethode volgt dat de loonkloof tussen verschillende huidskleurtinten juist uitsluitend voortvloeit uit de toegevoegde kruistermen, wanneer meer controle vari-abelen toegevoegd zijn. Tussen de geschatte co¨effici¨enten van de lineaire en niet-lineaire modellen zijn grote verschillen geconstateerd. Er volgt dat de keuze van Kreisman en Rangel (2015) om de co¨effici¨enten van de verklarende variabelen constant te houden over alle huidskleurtinten, geen correcte keuze is.

4.3 Geslacht

In deze paragraaf wordt onderzocht of het uitsluitend opnemen van mannen in de steek-proef een correcte keuze is van Kreisman en Rangel (2015). Om te beginnen worden de schattingen van Kreisman en Rangel weergeven in Tabel 10 herschat, dit maal voor vrou-wen. In Tabel 18 tot en met 20 is de beschrijvende statistiek voor mannen en vrouwen

(25)

weergeven. (1) (2) (3) (4) (5) (6) Black, light -0.127*** -0.027 -0.026 0.010 0.021 -0.032 (0.027) (0.024) (0.028) (0.026) (0.027) (0.028) Black, medium -0.173*** -0.042* -0.068** -0.005 0.000 -0.025 (0.027) (0.024) (0.028) (0.026) (0.026) (0.027) Black, dark -0.181*** -0.062** -0.068** -0.019 -0.015 -0.040 (0.029) (0.026) (0.031) (0.028) (0.028) (0.031) HGC 0.055*** 0.054*** 0.055*** 0.055*** (0.006) (0.006) (0.006) (0.006) AFQT 0.094*** 0.086*** 0.085*** 0.082*** (0.012) (0.011) (0.011) (0.011) Controls Interviewer FE X Interviewer controls X Individual controls X X X X

Age, age at entry Both Age Both Both Both

Year FE X X X X X X

Observations 7302 7302 7302 7302 7302 7302

R2 0.119 0.317 0.238 0.351 0.354 0.414

Individuals 1.682 1.682 1.682 1.682 1.682 1.682

Tabel 6: Blurred Color Line Females, Compared with White

Deze schattingen zijn weergeven in Tabel 6. Wanneer deze co¨effici¨enten vergeleken worden met de geschatte co¨effici¨enten voor mannen in tabel 10, zijn er duidelijke ver-schillen te ontdekken. Bij de schattingen voor vrouwen zijn minder co¨effici¨enten van huidskleurtinten significant. Daarnaast zijn alle significante co¨effici¨enten een stuk lager voor vrouwen dan voor mannen. Hieruit volgt dat de loonkloof tussen vrouwen met ver-schillende huidskleurtinten kleiner is, dan de loonkloof tussen mannen met verver-schillende huidskleurtinten.

De co¨effici¨enten van HGC liggen voor mannen en vrouwen redelijk bij elkaar in de buurt, maar de co¨effici¨enten van AF QT zijn bij vrouwen ongeveer twee keer zo hoog. Dit houdt in dat een hogere testscore (AF QT ) meer invloed heeft op het uurloon van vrouwen dan van mannen.

Om te testen of geslacht daadwerkelijk invloed heeft op het loon en of de rende-menten van verklarende variabelen verschillen voor mannen en vrouwen, zijn er opnieuw

(26)

lassoregressies uitgevoerd. De geschatte strafparameters zijn weergeven in tabel 7 en de bijbehorende lasso-co¨effici¨enten zijn weergeven in tabel 21. De bepaling van de beste λ’s zijn weergeven in Figuur 15, 17, 19, 21, 23 en 25 en het verloop van de bijhorende lasso-co¨effici¨enten zijn weergeven in Figuur 16, 18, 20, 22, 24 en 26. Hierbij zijn mannen en vrouwen in het model opgenomen, maar is er een dummy-variabele voor vrouwen en kruistermen van deze dummy-variabele met alle verklarende variabelen in dat specifieke model opgenomen. ˆ λ1 0.000106 ˆ λ2 0.000167 ˆ λ3 0.000240 ˆ λ4 0.000115 ˆ λ5 0.000115 ˆ λ6 0.000352

Tabel 7: Optimale λ per te schatten model

Om te beginnen is overlapping van de kruistermen onderzocht. Hieruit volgt dat van de vrouwen die op het platteland woonde toen ze twaalf waren, 2% in het Noord-Oosten woont. Dit is een kleine overlapping, dus beide resultaten zijn relevant. De variabelen waarvan de lasso-co¨effici¨enten ongelijk aan nul geschat zijn (Tabel 21), zijn de enige variabelen die in de modellen toegevoegd zijn. Aan de hand van de kleinstekwadraten-methode zijn deze modellen geschat en deze resultaten zijn weergeven in Tabel 8.

Ten eerste volgt uit tabel 8 dat er echter geen verschil is tussen de effecten van huids-kleurtinten en scholing op het loon tussen mannen en vrouwen, ondanks de verschillen die uit het vergelijken van tabel 10 en tabel 7 volgde. De lasso-co¨effici¨enten van deze kruistermen zijn gelijkgesteld aan nul, waaruit volgt dat er geen daadwerkelijk verband is tussen het loon per uur en deze kruistermen. Desalniettemin volgt er uit tabel 8 dat alle co¨effici¨enten van toegevoegde huidskleurtinten heel significant zijn (p <0.01). De co¨effici¨enten dalen flink in kolom 2, 4 en 5 ten opzichte van kolom 1 en 3. Hieruit volgt dat zodra er rekening gehouden wordt met scholing (HGC en AF QT ), de loonkloof tussen verschillende huidskleurtinten verkleind.

Daarnaast zijn de lasso-co¨effici¨enten van de dummy-variabele F emale in geen enkel model gelijk aan nul gesteld, maar de OLS-co¨effici¨enten zijn slechts in de helft van de modellen significant. De significante co¨effici¨enten zijn negatief, wat erop wijst dat vrouwen een lager loon ontvangen. In kolom 3 tot en met 6 zijn de co¨effici¨enten voor

(27)

(1) (2) (3) (4) (5) (6) Black, light -0.1429*** -0.0671*** -0.0629*** (0.0207) (0.0189) (0.0206) Black, medium -0.2072*** -0.1057*** -0.1181*** -0.0530*** -0.0511*** -0.0708*** (0.0187) (0.0177) (0.0187) (0.0169) (0.0170) (0.0175) Black, dark -0.2138*** -0.1041*** -0.1247*** -0.0511*** -0.0516*** -0.0746*** (0.0210) (0.0202) (0.0219) (0.0197) (0.0197) (0.0204) HGC 0.0516*** 0.0459*** 0.0462*** 0.0444*** (0.0028) (0.0029) (0.0029) (0.0029) AFQT 0.0645*** 0.0606*** 0.0596*** 0.0592*** (0.0081) (0.0076) (0.0076) (0.0076) N. East 0.0702*** 0.0480*** 0.0469*** 0.0249 (0.0183 (0.0172) (0.0172) (0.0367)

Ever gov’t aid -0.1360*** -0.0618*** -0.0605*** -0.0504***

(0.0181) (0.0173) (0.0173) (0.0167) Mom HGC <H.S. -0.0429*** (0.0187) Rural, age 12 -0.0520*** (0.0217) Behaviorial PCA 1 -0.0109*** 0.0033 0.0030 0.0047 (0.0033) (0.0042) (0.0042) (0.0042) Female -0.0915*** -0.1338*** 0.0115 -0.0538 -0.0545 -0.0583* (0.0132) (0.0117) (0.0368) (0.0336) (0.0335) (0.0336) Female*N.East -0.0828*** -0.0840*** -0.0825*** -0.0631*** (0.0243) (0.0217) (0.0215) (0.0214)

Female*Ever gov’t aid -0.112 0.0097 0.0088 0.0081

(0.0251) (0.0228) (0.0227) (0.0223) Female*HGC mom <H.S. 0.0021 (0.0258) Female*Rural, age 12 -0.0287 -0.0665*** -0.0665*** -0.0476** (0.0308) (0.0195) (0.0194) (0.0210) Female*Weight -0.0006** -0.0005* -0.0005* -0.0005** (0.0003) (0.0002) (0.0002) (0.0002) Female*Behavioral PCA 0.0077 0.0079 0.0076 (0.0061) (0.0061) (0.0063) Controls Interviewer FE X Interviewer controls X Individual controls X X X X

Age, age at entry Both Age Both Both Both

Year FE X X X X X X

N 15.730 15.730 15.730 15.730 15.730 15.730

(28)

F emale (bijna) niet significant, maar enkele kruistermen wel. Deze worden vervolgens behandeld.

De kruistermen F emale×N.East, F emale×Rural, age 12 en F emale×W eight zijn wel significant in deze kolommen. De variabelen N.East en Rural, age 12 zijn tevens opgenomen in het model, maar de variabele W eight niet. Hieruit volgt dat gewicht uitsluitend invloed heeft op het loon van vrouwen en dit is een onverwacht resultaat. De mogelijke verklaring hiervoor is dat gewicht correleert met andere verklarende variabelen zoals scholing en dat deze kruisterm daarom significante effecten heeft op het loon. Dit wordt in dit onderzoek echter niet verder onderzocht.

Verder volgt dat het wonen in het Noord-Oosten een positief effect heeft op het loon voor mannen, namelijk een loon van ongeveer 5 tot 7 procent hoger. Voor vrouwen worden deze percentages verminderd met ongeveer 8 procent, waaruit volgt dat het wonen in het Noord-Oosten voor vrouwen een negatief effect heeft op het loon. In het laatste model (kolom 6) zijn veel controle variabelen toegevoegd en is de co¨effici¨ent van N.East niet significant, maar de kruisterm hiervan met vrouwen wel. Vrouwen verdienen in dit model ongeveer 6% minder, terwijl het wonen in het Noord-Oosten geen effect heeft op het loon van mannen.

Daarnaast is de co¨effici¨ent van Rural, age 12 negatief, maar de variabele is uitslui-tend in het derde model (kolom 3) opgenomen. De co¨effici¨ent van de kruisterm van vrouwen met deze variabele is in dit model niet significant. Hieruit volgt dat het wonen op het platteland op hun twaalfde voor mannen en vrouwen een lager loon van ongeveer 6% oplevert. In de modellen van kolom 4, 5 en 6 is uitsluitend de kruisterm opgenomen met vrouwen en volgt er dan vrouwen 5 tot 6.5% minder verdienen per uur wanneer zij op hun twaalfde op het platteland woonden. Voor mannen zijn er geen effecten van het wonen op het platteland op het loon in deze modellen.

Bovendien zijn de co¨effici¨enten van de kruistermen van vrouwen met Ever gov0t aid in geen enkel model significant, maar de co¨effici¨enten van Ever gov0t aid daarentegen wel. Hieruit volgt dat het effect van hulp te hebben gehad voor mannen en vrouwen hetzelfde is, namelijk een loon van 5 tot 6% lager.

Vervolgens zijn de effecten van de huiskleuren op het loon vergeleken in tabel 9. De geschatte co¨effici¨enten van Kreisman en Rangel zijn weergeven onder A en de geschatte co¨effici¨enten wanneer tevens vrouwen opgenomen zijn in het model zijn weergeven onder B. De co¨effici¨enten onder B zijn een stuk lager dan onder A, waaruit volgt dat de effecten inderdaad verschillen wanneer tevens vrouwen opgenomen worden in het model. Vooral in de latere modellen (kolom 4 en 5) wanneer meerdere controle variabelen opgenomen

(29)

(1) (2) (3) (4) (5) (6) Originele geschatte effecten

Black, light -0.158*** -0.100*** -0.068** - -0.067** (0.032) (0.030) (0.031) (0.034) Black, medium -0.238*** -0.163*** -0.137*** -0.105*** -0.107*** -0.140*** (0.026) (0.025) (0.026) (0.026) (0.027) (0.028) Black, dark -0.237*** -0.139*** -0.134*** -0.091*** -0.091*** -0.142*** (0.029) (0.030) (0.031) (0.031) (0.031) (0.030)

Geschatte effecten met toevoeging vrouwen

Black, light -0.1429*** -0.0671*** -0.0758*** (0.0207) (0.0189) (0.0206) Black, medium -0.2072*** -0.1057*** -0.1359*** -0.0530*** -0.0511*** -0.0708*** (0.0187) (0.0177) (0.0188) (0.0169) (0.0170) (0.0175) Black, dark -0.2138*** -0.1041*** -0.1389*** -0.0511*** -0.0516*** -0.0746*** (0.0210) (0.0202) (0.0220) (0.0197) (0.0197) (0.0204) Controls Interviewer FE X Interviewer controls X Individual controls X X X X

Age, age at entry Both Age Both Both Both

Year FE X X X X X X

N 8428 8428 8428 8428 8428 8428

Individuals 1,694 1,694 1,694 1,694 1,694 1,694

(30)

zijn in de modellen, verschillen de geschatte co¨effici¨enten erg veel.

Al met al wordt er geconcludeerd dat geslacht inderdaad invloed heeft op het loon. Ondanks dat de huidskleureffecten niet verschillen voor mannen en vrouwen, zijn de ef-fecten van huidskleur op het loon anders wanneer uitsluitend mannen opgenomen worden in het model. Daarnaast zijn er significante effecten van vrouwen en kruistermen met vrouwen geresulteerd uit de geschatte modellen. Hieruit volgt dat geslacht daadwerkelijk invloed heeft op het loon en dat tevens niet alle rendementen van verklarende variabelen hetzelfde zijn voor mannen en vrouwen. Echter is het mogelijk is de steekproefselectie bij mannen anders is dan bij vrouwen, waardoor de rendementen van mannen op het loon anders zijn dan voor vrouwen. Desalniettemin blijkt de keuze van Kreisman en Rangel (2015) om uitsluitend mannen op te nemen in deze steekproef een correcte keuze, aan-gezien er anders rekening moet worden gehouden met de verschillen tussen mannen en vrouwen in deze steekproef.

(31)

5

Conclusie

In dit onderzoek is de correctheid van de keuzes die gemaakt zijn in het onderzoek van Kreisman en Rangel (2015) onderzocht. Zij hebben onderzoek gedaan naar het effect van huidskleur op het loon per uur in Amerika, waarbij zij rekening gehouden hebben met meerdere huidskleurtinten dan uitsluitend met wit en zwart. Bepaalde keuzes die zij gemaakt hebben voordat zij daadwerkelijk hun onderzoek uitvoerden, zijn in dit onderzoek onderzocht. De centrale vraag van dit onderzoek luidde: hoe correct zijn de gemaakte keuzes van Kreisman en Rangel in het onderzoek naar het effect van verschillende huidskleurtinten op het loon? Hierbij is beperkt tot het onderzoeken van twee keuzes. Ten eerste de keuze waarbij Kreisman en Rangel de rendementen voor verschillende huidskleurtinten gelijkgesteld hebben, waarbij een lineair model geschat is aan de hand van de kleinstekwadratenmethode. Ten tweede de keuze om uitsluitend mannen op te nemen in de steekproef. Per keuze is er onderzoek uitgevoerd om antwoord te geven op dat deel van de centrale vraag.

Allereerst is er gebleken dat het constant houden van de rendementen voor alle huidskleurtinten geen correcte keuze is. Uit lasso-regressies resulteerde verbanden tus-sen kruistermen van huidskleurtinten met verklarende variabelen en het loon, waarna niet-lineaire modellen geschat zijn. Naarmate er meer controle variabelen opgenomen werden in de modellen, werden de huidskleurtinten zelf bijna niet meer opgenomen in de modellen. Het effect van huidskleur op het loon bestond in de latere modellen daar-door uitsluitend uit kruistermen. Bovendien is gebleken dat de gemiddelde effecten van huidskleur op het loon verschillend zijn voor niet-lineaire modellen en de lineaire mo-dellen die Kreisman en Rangel (2015) geschat hebben. Al met al volgt er dat de keuze van Kreisman en Rangel niet correct is, aangezien er gebleken is dat er daadwerkelijk verbanden zijn tussen kruistermen van huidskleurtinten en het loon, en de effecten van de huidskleurtinten verschillen voor lineaire en niet-lineaire modellen.

Ten tweede is er gebleken dat de keuze van het uitsluitend opnemen van mannen in de steekproef een correcte keuze is. Er is gebleken dat geslacht invloed heeft op het loon in deze steekproef en dat de rendementen van enkele verklarende variabelen tevens anders zijn voor vrouwen dan voor mannen. Ondanks dat er geen kruistermen van vrouwen met de huidskleurtinten opgenomen zijn, zijn de effecten van huidskleur op het loon anders wanneer tevens vrouwen opgenomen worden in de steekproef. Dit geldt opnieuw vooral voor de modellen waarin meerdere controle variabelen opgenomen zijn. Het is echter mogelijk dat de steekproefselectie bij mannen anders is dan bij vrouwen, waardoor dit

(32)

verschil tussen mannen en vrouwen ontstaat. Desalniettemin volgt er dat de keuze van Kreisman en Rangel (2015) correct is, aangezien het een gecompliceerder model zou worden wanneer mannen en vrouwen opgenomen zouden worden in deze steekproef. Een lineair model zou dan niet correct zijn, aangezien er rekening moet worden gehouden met de verschillende rendementen van verklarende variabelen voor mannen en vrouwen. Desalniettemin zijn er beperkingen aan het uitgevoerde onderzoek. Aan de hand van de lasso-methode is bepaald of er daadwerkelijk een verband is tussen het loon en bepaalde verklarende variabelen en kruistermen. De lasso-methode heeft echter meerdere nadelen, waarvan ´e´en expliciet voorkomt in dit onderzoek. De lasso-methode selecteert namelijk ´e´en variabele van een groep gecorreleerde variabelen; in dit onderzoek was dit bijvoorbeeld het geval bij het effect van gewicht op het loon bij vrouwen. In de machine learning literatuur bestaan echter algoritmes die de nadelen van het lasso-model niet hebben, bijvoorbeeld ”the elastic net”. Het is mogelijk om aan de hand van deze algoritmes te onderzoeken of deze methodes wellicht andere resultaten leveren.

Daarnaast is in dit onderzoek slechts een enkele tabel van Kreisman en Rangel (2015) onderzocht, terwijl hun onderzoek vijf verschillende regressietabellen bevat. Op basis van ´e´en tabel wordt antwoord gegeven op de hoofdvraag, terwijl het antwoord mogelijk af zou kunnen wijken wanneer alle tabellen onderzocht zouden worden.

Concluderend, op basis van de lasso-methode en het onderzoeken van uitsluitend ´e´en tabel, is het antwoord op de centrale vraag in twee delen te beantwoorden. Het eerste deel betreft de keuze van het lineaire model voor de huidskleurtinten en deze keuze blijkt niet correct te zijn. Aan de andere kant blijkt het tweede deel, de keuze van het uitsluitend opnemen van mannen in de steekproef, wel een correcte keuze te zijn. Over het algemeen is er zodoende geen consistente conclusie over de correctheid van alle gemaakte keuzes van Kreisman en Rangel (2015) te trekken, aangezien er gebleken is dat dit per keuze verschilt.

(33)

Bibliografie

Altonji, J. G. & Blank, R. M. (1999). Race and gender in the labor market. Handbook of labor economics, 3 , 3143–3259.

Berg, R. K. (1964). Equal employment opportunity under the civil rights act of 1964. Brook. L. Rev., 31 , 62.

Berndt, E. R. (1991). The practice of econometrics: classic and contemporary. Addison-Wesley Reading, MA.

Furno, M. (2014). Returns to education and gender gap. International Review of Applied Economics, 28 (5), 628–649.

Goldsmith, A. H., Hamilton, D. & Darity, W. (2007). From dark to light: Skin color and wages among african-americans. Journal of Human Resources, 42 (4), 701–738. Hastie, T., James, G., Tibshirani, R. & Witten, D. (2013). An introduction to statistical

learning with applications in r. Springer, New York,.

Kreisman, D. & Rangel, M. A. (2015). On the blurring of the color line: Wages and employment for black males of different skin tones. Review of Economics and Statistics, 97 (1), 1–13.

Munasinghe, L., Reif, T. & Henriques, A. (2008). Gender gap in wage returns to job tenure and experience. Labour economics, 15 (6), 1296–1316.

Neal, D. (2006). Why has black–white skill convergence stopped? Handbook of the Economics of Education, 1 , 511–576.

Wright, E. O. (1978). Race, class, and income inequality. American Journal of Sociology, 1368–1397.

(34)

Bijlage

(35)

(1) (2) (3) (4) (5) (6) Black, light -0.158*** -0.100*** -0.068** -0.049 -0.052 -0.067** (0.032) (0.030) (0.031) (0.031) (0.032) (0.034) Black, medium -0.238*** -0.163*** -0.137*** -0.105*** -0.107*** -0.140*** (0.026) (0.025) (0.026) (0.026) (0.027) (0.028) Black, dark -0.237*** -0.139*** -0.134*** -0.091*** -0.091*** -0.142*** (0.029) (0.030) (0.031) (0.031) (0.031) (0.030) HGC 0.052*** 0.045*** 0.045*** 0.041*** (0.007) (0.007) (0.007) (0.007) AFQT 0.041*** 0.034*** 0.034*** 0.033*** (0.011) (0.011) (0.011) (0.011) Controls Interviewer FE X Interviewer controls X Individual controls X X X X

Age, age at entry Both Age Both Both Both

Year FE X X X X X X

N 8428 8428 8428 8428 8428 8428

Individuals 1,694 1,694 1,694 1,694 1,694 1,694

R2 0.135 0.235 0.226 0.266 0.266 0.338

Tabel 10: Blurred Color Line, Compared with White, panel A (Kreisman en Rangel, 2015, p. 8)

(36)

White Light Black Medium Black Dark Black Wage 2.714 2.537 2.477 2.470 (0.402) (0.397) (0.340) (0.387) AFQT 0.303 -0.495 -0.746 -0.724 (0.936) (0.838) (0.726) (0.714) HGC 13.298 12.391 12.240 11.760 (2.644) (2.466) (2.350) (2.175) Age 24.953 24.864 24.884 24.726 (1.960) (1.868) (1.869) (1.942) Age at entry 21.648 21.291 20.995 20.815 (2.709) (2.421) (2.455) (2.250) N. East 0.187 0.160 0.143 0.111 (0.384) (0.357) (0.349) (0.308) N. Central 0.314 0.237 0.148 0.090 (0.455) (0.419) (0.350) (0.279) West 0.191 0.068 0.064 0.047 (0.386) (0.247) (0.232) (0.208) Region missing 0.001 0.000 0.000 0.005 (0.020) (0.000) (0.000) (0.045) Not in MSA 0.116 0.099 0.089 0.102 (0.263) (0.251) (0.223) (0.250) In MSA. city 0.337 0.471 0.530 0.408 (0.401) (0.440) (0.437) (0.419) MSA missing 0.001 0.000 0.000 0.003 (0.013) (0.000) (0.000) (0.033) Poverty ratio 1997 283.517 147.497 145.010 137.562 (283.434) (210.291) (211.802) (160.594)

Poverty ratio missing 0.186 0.292 0.309 0.236

(0.390) (0.456) (0.463) (0.426)

Ever gov’t aid 0.368 0.590 0.676 0.624

(0.482) (0.493) (0.469) (0.486)

Aid missing 0.058 0.106 0.092 0.101

(0.235) (0.308) (0.289) (0.302)

(37)

White Light Black Medium Black Dark Black

Live w/ parents. age 6 0.551 0.168 0.174 0.169

(0.498) (0.375) (0.380) (0.375) Parents 6 missing 0.068 0.130 0.101 0.118 (0.252) (0.338) (0.303) (0.323) Mom HGC <H.S. 0.295 0.429 0.488 0.466 (0.456) (0.496) (0.501) (0.500) Mom HGC >H.S. 0.205 0.112 0.111 0.073 (0.404) (0.316) (0.315) (0.261) Mom HGC missing 0.091 0.224 0.174 0.191 (0.287) (0.418) (0.380) (0.394) Rural age 12 0.160 0.118 0.145 0.169 (0.367) (0.324) (0.353) (0.375) Rural 12 missing 0.203 0.248 0.222 0.225 (0.402) (0.433) (0.417) (0.419) South. age 12 0.253 0.460 0.536 0.640 (0.435) (0.500) (0.500) (0.481) Black interviewer 0.125 0.422 0.348 0.247 (0.331) (0.495) (0.477) (0.433) Male interviewer 0.154 0.186 0.126 0.140 (0.361) (0.391) (0.332) (0.348) Interviewer older 50 0.672 0.615 0.618 0.624 (0.470) (0.488) (0.487) (0.486) Interviewer missing 0.037 0.043 0.029 0.034 (0.188) (0.205) (0.168) (0.181) Height 1997 66.112 64.571 65.575 65.871 (8.416) (13.366) (9.140) (8.410) Height missing 0.011 0.037 0.014 0.011 (0.106) (0.190) (0.120) (0.106) Weight 1997 138.220 142.752 139.507 142.039 (37.326) (43.927) (42.093) (42.802) Weight missing 0.010 0.019 0.024 0.022 (0.097) (0.136) (0.154) (0.149)

(38)

White Light Black Medium Black Dark Black Behavioral PCA 1 0.238 0.046 0.109 -0.026 (1.935) (1.608) (1.825) (1.626) PCA missing 0.044 0.050 0.048 0.045 (0.206) (0.218) (0.215) (0.208) 1999 0.009 0.008 0.009 0.010 (0.050) (0.046) (0.045) 0.(050) 2000 0.021 0.023 0.016 0.017 (0.076) (0.098) (0.048) (0.069) 2001 0.032 0.023 0.039 0.032 (0.092) (0.070) (0.132) (0.085) 2002 0.043 0.061 0.042 0.046 (0.107) (0.136) (0.079) (0.092) 2003 0.061 0.065 0.068 0.071 (0.118) (0.126) (0.090) (0.137) 2004 0.072 0.069 0.073 0.075 (0.121) (0.099) (0.089) (0.120) 2005 0.081 0.085 0.088 0.099 (0.112) (0.128) (0.105) (0.140) 2006 0.111 0.116 0.122 0.103 (0.125) (0.136) (0.147) (0.104) 2007 0.125 0.149 0.132 0.139 (0.142) (0.182) (0.139) (0.163) 2008 0.141 0.135 0.143 0.159 (0.154) (0.156) (0.157) (0.171) 2009 0.153 0.136 0.152 0.123 (0.162) (0.175) (0.172) (0.128) Individuen 1,148 161 207 178 Observaties 5,712 767 1,067 882

(39)

(1) (2) (3) (4&5) (6) Black, Light -0.114 -0.041 Black, Medium -0.201 -0.119 -0.0077 -0.0059 -0.06 Black, Dark -0.196 AFQT 0.039 0.0035 0.0333 HGC 0.044 0.0038 0.0366 Age 0.0338 0.0442 0.033 0.033 N. East 0.0308 0.012 0.012 Not in MSA -0.00073 In MSA, city -0.0218 -0.038 -0.038 Poverty ratio 1997 0.00019 0.00009 0.00009 Mom HGC <H.S. -0.0068 Rural, age 12 -0.0135 -0.0007 -0.00051 Height 1997 0.00052

Ever gov’t aid -0.099 -0.062 -0.0062

Light*AFQT 0.036 0.021 0.025 Medium*AFQT 0.009 0.006 0.007 Dark*AFQT 0.012 0.012 0.011 Dark*Age -0.004 -0.00001 Medium*Entryage -0.0001 Light*N. Central -0.034 -0.019 -0.016 Medium*N. East -0.045 -0.016 -0.001

Medium*In MSA. city -0.023

Dark*In MSA. city -0.029 -0.024 -0.025

Light*Parents missing -0.203 -0.14 -0.14

Light*Rural age 12 -0.023

Medium*Povertyratio -0.00004 -0.00005 -0.00005

Medium*Rural age 12 -0.054 -0.026 -0.029

Dark*Ever gov’t aid -0.023 -0.039 -0.043

Dark*HGC mom missing -0.107 -0.02 -0.017

Dark*Rural age 12 missing -0.043 -0.069 -0.071

Dark*Height -0.0001 Dark*Weight -0.0003 -0.0001 -0.0001 Dark*Weight missing 0.058 0.094 0.102 Medium*N. Central -0.004 -0.013 Medium*Mom HGC <H.S. -0.014 -0.014 Education X X X Interviewer FE X Individual controls X X X

Age, age at entry Both Age Both Both

(40)

Figuur 3: Bepaling minimale ˆλ1

(41)

Figuur 5: Bepaling beste ˆλ2

(42)

Figuur 7: Bepaling beste ˆλ3

(43)

Figuur 9: Bepaling beste ˆλ4

(44)

Figuur 11: Bepaling beste ˆλ5

(45)

Figuur 13: Bepaling beste ˆλ6

(46)

(1) (2) (3) (4&5) (6) Black, light -0.1586*** -0.0771** (0.0323) (0.0376) Black, medium -0.2392*** -0.0131 -0.0628 -0.0167 -0.0387 (0.0258) (0.2393) (0.0416) (0.0569) (0.0559) Black, dark -0.2386*** (0.0294) HGC 0.0465*** 0.0377*** 0.0339*** (0.0040) (0.0040) (0.0041) AFQT 0.0313** 0.0280** 0.0259** (0.0127) (0.0122) (0.0124) Light*AFQT 0.0623* 0.0436 0.0695** (0.0364) (0.0282) (0.0307) Medium*AFQT 0.0346 0.0359 0.0347 (0.0365) (0.0354) (0.0351) Dark*AFQT 0.0320 0.0322 0.0417 (0.0397) (0.0345) (0.0343) Dark*Age -0.0052*** 0.0003 (0.0017) (0.0064) Medium*Entryage -0.0065 (0.0108) Light*N. Central -0.0855* -0.0587 -0.0929 (0.0504) (0.0510) (0.0631) Medium*N. Central -0.0667 -0.1405** (0.0524) (0.0591) Medium*N. East -0.1481** -0.1415** -0.2669*** (0.0618) (0.0614) (0.0734)

Medium*In MSA, city -0.0434

(0.0385)

Black*In MSA, city -0.0489 -0.0519 -0.0667*

(0.0437) (0.0410) (0.0393)

Light*Parents missing -0.3119*** -0.2558*** -0.2049***

(0.0578) (0.0640) (0.0720)

Medium*Povertyratio -0.0001 -0.0002 -0.0001

(47)

(1) (2) (3) (4&5) (6) Light*Rural age 12 -0.0944* (0.0521) Medium*Rural age 12 -0.1019** -0.0627 -0.0778 (0.0511) (0.0482) (0.0502) Dark*Rural 12 missing -0.0996 -0.1629** -0.1360** (0.0669) (0.0667) (0.0685)

Dark*Ever gov’t aid -0.0582 -0.0790 -0.1108**

(0.0595) (0.0504) (0.0448)

Dark*HGC mom missing -0.1866*** -0.0875 -0.1186*

(0.0663) (0.0637) (0.0663) Dark*Height -0.0010 (0.0030) Dark*Weight 0.0002 0.0003 0.0002 (0.0007) (0.0004) (0.0003) Dark*Weight missing 0.4500* 0.4630** 0.4521** (0.2529) (0.2270) (0.2229) Medium*Mom HGC ¡ H.S. -0.0251 -0.0088 (0.0374) (0.0397) Constant 2.8071*** 1.1953*** 1.4089*** 1.2687*** 1.3331*** (0.0131) (0.0587) (0.0703) (0.0610) (0.0615) Controls Interviewer FE X Individual controls X X X

Age, age at entry Both Age Both Both

Year FE X X X X X

Observations 8428 8428 8428 8428 8428

Individuals 1.694 1.694 1.694 1.694 1.694

R2 0.132 0.236 0.229 0.272 0.343

Tabel 16: OLS-schatting model Kreisman en Rangel (2015) met toegevoegde kruistermen deel 2.

Referenties

GERELATEERDE DOCUMENTEN

Om meer inzicht te krijgen in de kwaliteit en de kwetsbaarheden van beide organisaties en op basis daarvan wat een ambtelijke fusie aan meerwaarde voor gemeenten zou kunnen

De liefde van Christus laat ons geen rust, sinds wij hebben ingezien dat één mens gestorven is voor allen en dat dus alle mensen gestorven zijn.. En Hij is voor allen

Tegelijkertijd dienen werkgevers bewust te worden gemaakt van de noodzaak een leeftijdsbewust hu- manresourcesbeleid op te zetten (en dit niet enkel voor de 50-plussers, maar

Door de minder snelle loonstijgingen, is de quartaire sec- tor tussen 1995 en 2001 geëvolueerd van een sector waar het gemiddelde brutojaarloon net bo- ven het globale gemiddelde

De netto fiscale en parafiscale druk voor een gezin met twee kinderen waarvan de meest verdienen- de loontrekker anderhalf keer het loon van zijn partner geniet, is vanaf

Hulporganisaties Stichting Vluchteling, Vluchtelingenwerk Nederland en Defence for Children Nederlandse gemeenten oproepen om zich gezamenlijk in te spannen voor

Inmiddels zijn verschillende andere godsdien- sten erkend en werd een regeling getroffen voor de bezoldiging van hun bedienaars.. Recent kwamen daar de islam en de vrijzinnigheid

Het wetsvoorstel tracht dit doel te bereiken door middel van een klimaatplan, dat iedere vijf jaar moet worden vastgesteld en dat de hoofdlijnen van het klimaatbeleid moet