Gezondheids-effecten op het Uurloon

(1)

Gezondheids-effecten op

het Uurloon

December 20

2013

De effecten van de gezondheid op de arbeidsproductiviteit en het uurloon zijn reeds vaak onderzocht in niet-welvarende landen. In dit onderzoek worden deze effecten onderzocht in een welvarend land, namelijk Nederland. Er wordt gebruik gemaakt van het Nederlandse LISS-databestand. In eerste instantie wordt er verondersteld dat de gezondheidsindicatoren mogelijk endogeen zijn. Na het toetsen van deze indicatoren op endogeniteit, met behulp van de Two Stage Least Squares schattingsmethode, blijkt dat deze indicatoren in werkelijkheid exogeen zijn. Consistente schattingen kunnen daarom worden verkregen met de OLS-schattingsmethode. De resultaten van dit onderzoek geven weer dat er een klein positief effect bestaat van de gezondheidswaardering, gegeven door het individu zelf, op het netto uurloon. Ook blijkt uit dit onderzoek dat er een negatief, maar slechts zeer klein, effect bestaat van het BMI op het netto uurloon.

Vivianne

Vluggen

(2)

Inhoudsopgave

1. Introductie………3

2.Theorie………...4

2.1. Het Model………...4

2.2. Gezondheidsindicatoren………...5

2.3. Endogeniteit……….6

2.4. Eerder Uitgevoerd Onderzoek………...…...7

3. Data & Methode………...………...8

3.1. LISS-Databebestand……….8

3.2. Model & Methode………9

3.3. Variabelen………...9

3.4. Steekproef & Beschrijvende Statistiek………...12

4. Resultaten………...14

4.1. Ordinary Least Squares………..14

4.2. Two Stage Least Squares………...17

4.2.1. Situatie 1………17

4.2.2. Situatie 2………19

4.2.3. Situatie 3………21

5. Conclusie………22

(3)

1. Introductie

Economen en voedingsdeskundigen tonen al jaren wetenschappelijke interesse in de relatie tussen gezondheid en voeding enerzijds en arbeidsproductiviteit anderzijds. De hypothese dat gezondere individuen productiever zijn, vormt de basis van theorieën over het hoger-dan-marktconforme arbeidsloon1 in arbeidsmarkten. Deze theorieën zijn als eerste ontwikkeld door Leibenstein (1957). Naar dit onderwerp zijn er dan ook tal van onderzoeken gedaan, waar bij de meeste onderzoeken gebruik is gemaakt van data uit agrarische gebieden in niet-welvarende landen2. Sinds eind vorige eeuw zijn er ook onderzoeken gedaan, onder andere door Glick & Sahn (1998) en Thomas & Strauss (1997), naar deze relatie in stedelijke gebieden, maar wederom vooral in niet-welvarende landen. Nog nauwelijks is er onderzoek gedaan naar de relatie tussen gezondheid en arbeidsproductiviteit in een stedelijke en welvarende omgeving. Dit onderzoek heeft als doel juist deze relatie tussen gezondheid en arbeidsproductiviteit te onderzoeken in een stedelijke en welvarende omgeving, namelijk in Nederland. Bij dit onderzoek worden daarom data gebuikt die afkomstig zijn uit het Nederlandse LISS (Longitudinal Internet Studies for the Social sciences) databestand.

In dit onderzoek staat het verband tussen de gezondheid en het uurloon centraal. Er wordt niet zozeer aandacht besteed aan hoe de arbeidsproductiviteit, maar aan hoe het uurloon in relatie staat met de gezondheid. In dit onderzoek wordt er naar het uurloon gekeken omdat het uurloon een goede afspiegeling is van de arbeidsproductiviteit. Voor het uurloon is een duidelijke maatstaaf beschikbaar, terwijl dat niet geldt voor de arbeidsproductiviteit. Door te kijken naar het uurloon kan dit verband gecontroleerd worden voor allerlei relevante eigenschappen van een individu. Op deze manier kunnen de uurlonen van individuen die zich in dezelfde werkpositie bevinden, maar een verschillend gezondheidsniveau hebben, met elkaar vergeleken worden.

De relatie tussen gezondheid en het uurloon is mogelijk tweezijdig. Uit onder andere onderzoek van Luft (1975) is gebleken dat een betere gezondheid een positief effect heeft op het uurloon. Dit kan ten eerste komen doordat een betere gezondheid leidt tot een verhoging van de arbeidsproductiviteit. Deze verhoogde productiviteit wordt dan door de werkgever beloond met een hoger uurloon. Ten tweede kan dit komen doordat een werkgever een werknemer met een betere gezondheid op voorhand een hoger uurloon geeft, omdat deze betere gezondheid een positief effect heeft op niet direct waarneembare eigenschappen van de werknemer, die de productiviteit weer positief beïnvloeden. Als derde kan een minder gezonde werknemer gediscrimineerd worden tegenover een relatief gezondere werknemer, omdat de eerstgenoemde nu als ongezond wordt gezien. Deze ongezonde werknemer ontvangt dan minder loon, zonder dat de productiviteit van de werknemer in acht wordt genomen. Maar deze relatie tussen gezondheid en het uurloon kan ook in tegengestelde richting onderzocht worden, zoals Ettner (1996) heeft gedaan. In sectie 2 zal hier verder op in worden gegaan. In dit onderzoek wordt het precieze effect van het loon op de gezondheid niet nader onderzocht, maar wordt er geconcentreerd op het effect van de gezondheid op het uurloon. De mogelijke endogeniteit van deze variabelen wordt wel meegenomen in het modelleren van dit effect. In dit onderzoek wordt er namelijk gebruik gemaakt van de instrumentele variabele

1_{Onder marktconforme arbeidsloon wordt een loon verstaan, dat boven het loon van een}

evenwichtssituatie tussen vraag en aanbod van arbeid, ligt. De werkgever heeft er belang bij een hoger-dan-markconform arbeidsloon te betalen, om enerzijds de arbeidsproductiviteit te verhogen en anderzijds de frictiekosten door hoge uitstroom van personeel te verlagen.

2_{Voorbeelden hiervan zijn de onderzoeken van Behrman & Deolalikar (1989), van Antle & Pingali (1994)}

(4)

schattingsmethode (IV), (ook Two Stage Least Squares (TSLS) genoemd), waarmee de resultaten worden gecorrigeerd voor dit tweezijdige causale verband.

In sectie 2 zal besproken worden met welke problemen rekening moet worden gehouden bij het uitvoeren van dit onderzoek, en wordt er ook besproken hoe eerdere onderzoekers met deze problemen zijn omgegaan. De methodes en data die in dit onderzoek gebruikt zullen worden, worden besproken in sectie 3. In sectie 4 worden de verkregen resultaten weergegeven, en hieruit wordt een conclusie getrokken die gegeven wordt in sectie 5. De conclusie zal in die sectie ook bediscussieerd worden.

2. Theorie

In paragraaf 2.1 wordt het model besproken dat in de economische theorie gebruikt wordt om het loon te verklaren. In paragraaf 2.2 worden vervolgens verschillende manieren besproken om gezondheid te meten, zodat er kan worden onderzocht of er maten voor gezondheid in het loonmodel moeten worden opgenomen. In paragraaf 2.3 wordt de endogeniteit van de relatie tussen gezondheid en loon kort besproken, en deze sectie wordt afgesloten met de bespreking van reeds uitgevoerd onderzoek in paragraaf 2.4.

2.1 Het Model

In de economie is er veel onderzoek gedaan naar de manier waarop het loon wordt gevormd en door welke factoren het loon wordt beïnvloed. Een economische theorie is dat het loon wordt gevormd door vooral scholing en (werk)ervaring volgens het volgende model: , waarin een constante is, en scholing, werkervaring en het kwadraat van de werkervaring als variabelen zijn opgenomen met labels S, X en X² respectievelijk, met coëfficiënten en respectievelijk (Mincer, 1974). De gezondheidsstatus van een persoon is, net als de scholing en werkervaring, een resultaat van investeringen in Human Capital3 op jongere leeftijd. Om deze reden is het doel van dit onderzoek om na te gaan of de gezondheid van een individu ook als verklarende variabele in dit model moet worden opgenomen, en als dit het geval is, ook te onderzoeken welk effect de gezondheid van een individu dan precies heeft op het loon. Scholing en (werk)ervaring worden in dit model gemeten in het aantal jaren dat een individu scholing heeft gehad of (werk)ervaring heeft, zoals Glick & Sahn (1998) dat deden. Om na te gaan of gezondheid van een individu als verklarende variabele in het model kan worden opgenomen moet er eerst bepaald worden hoe deze gezondheid moet worden gemeten. Voor de gezondheid kunnen verschillende maatstaven worden gebruikt, welke worden besproken in de volgende paragraaf.

Het bepalen van de maatstaven van gezondheid kan worden gezien als een eerste probleem waar rekening mee moet worden gehouden bij het uitvoeren van empirisch onderzoek naar de relatie tussen gezondheid en het loon. Een tweede probleem is dat er rekening moet worden

3_{Human Capital: hieronder wordt verstaan: de opgeslagen competenties, kennis, sociale en persoonlijke}

eigenschappen, inclusief creativiteit, in een persoon, in de gedaante van de mogelijkheid om arbeid te verrichten om economische waarde te produceren.

(5)

gehouden met de simultaneïteit van deze relatie (Glick & Sahn, 1998). Dit tweede probleem wordt besproken in paragraaf 2.3.

2.2 Gezondheidsindicatoren

De status van de gezondheid is door middel van zeer veel kenmerken te beschrijven en door zeer veel maten te meten, en al deze kenmerken en maten zullen het loon op een verschillende manier kunnen beïnvloeden. De gezondheidsstatus is multidimensionaal. De vraag is nu welke kenmerken er daadwerkelijk gebruikt moeten worden om de status van de gezondheid te kwantificeren, zodat het effect ervan op het loon op een correcte wijze onderzocht kan worden. In de empirische literatuur werden in het verleden vaak de volgende indicatoren voor de gezondheidsstatus gebruikt. Door Glick & Sahn (1998) werden als indicatoren gebruikt: de inname van voedingsstoffen, bijvoorbeeld calorieën en proteïnen; antropometrische gegevens, zoals lengte, de ratio van gewicht en lengte of het BMI (Body Mass Index, gelijk aan het gewicht gedeeld door de lengte in het kwadraat) en de duur of frequenties van periodes van ziekte. Door Contoyannis & Rice (2000) werd een waardering van de gezondheid van het individu (op een schaal van 1 tot 5), gegeven door het individu zelf, gebruikt als gezondheidsindicator.

De validiteit van de data over de inname van voedingsstoffen van individuen is erg zwak. Dit komt omdat de gegevens, die verkregen worden wanneer de inname van bepaalde voedingsstoffen door een individu wordt gemeten, slechts informatie geven over de gezondheid op korte termijn van dit individu. Daarbij verzamelen de meeste surveys alleen data over de uitgaven aan voeding binnen een huishouden. Deze data worden dan met bepaalde conversiemethoden omgezet naar aantallen calorieën, en deze aantallen worden vervolgens weer verdeeld over het aantal personen in het huishouden. Hierbij wordt dus in het geheel geen rekening gehouden met de verschillen in voedingsinkopen tussen huishoudens, en vervolgens ook niet met de verdeling hiervan binnen één huishouden. Ook wordt er geen rekening gehouden met verschillende conversiemethoden in verschillende sociaaleconomische gebieden. Op deze manier ontstaat er een mogelijk vertekend beeld van de mate van calorie-inname per individu.

Er bestaan alternatieve methodes om de inname van voedingsstoffen te meten voor een individu, maar het gebruik van deze methodes is erg duur. Bovendien geven deze data alsnog slechts informatie over de gezondheid op korte termijn. Glick & Sahn (1998) hebben ervoor gekozen om deze indicator voor gezondheid, ondanks mogelijke vertekeningen, toch te gebruiken. Zij vonden geen significant effect van deze indicator op het loon. Hieruit concluderend is het een oplossing om in dit onderzoek data over de inname van voedingsstoffen niet te gebruiken als indicator voor gezondheid.

Bij antropometrische data treden daarentegen gebruikelijk minder meetfouten op, omdat lengte en gewicht van een individu makkelijk te meten zijn. Grootheden als BMI en gewicht-voor-lengte4 zijn wereldwijd geaccepteerd als een goede maat om een indicatie te krijgen van de gezondheid van een volwassen persoon5. Gewicht-voor-lengte en BMI geven daarbij ook

4_{Gewicht-voor-lengte is een maat die gebruikt maakt van de gegevens lengte en gewicht, maar deze op}

een andere manier converteert dan bij het berekenen van BMI wordt gedaan.

5_{Hierbij wordt ervan uitgegaan dat geënquêteerde individuen hun gewicht en lengte naar waarheid}

(6)

betere benaderingen voor het energieniveau, en daarmee productiviteit, van een individu, dan de metingen voor calorie-innamen.

Glick & Sahn (1998) hebben lengte en BMI gebruikt als indicatoren voor gezondheid. In hun onderzoek vonden zij een positief effect van lengte op het loon voor mannen in de positie van zelfstandige en in de private lonen sector. Geen significant effect is gevonden van lengte op het loon bij vrouwen. Ook vonden ze een positief effect van BMI op het loon voor mannen en vrouwen in de positie van zelfstandige en voor mannen in de private lonen sector.

Ook bij data over de frequentie en duur van periodes van ziekte zullen er meetfouten optreden, omdat wanneer een individu deze gegevens zelf geeft, deze gegevens subjectief kunnen zijn, en niet geheel nauwkeurig. Elk individu zal het begrip ‘ziek zijn’ anders interpreteren. Hierdoor zijn de gegevens van alle individuen niet geheel objectief vergelijkbaar. Ook zal een individu, van een periode van een jaar, niet meer exact weten hoe vaak en hoe lang hij/zij ziek is geweest. Deze gegevens bevatten daarom schattingsfouten. Ondanks de mogelijke vertekeningen die deze gegevens veroorzaken hebben Haveman et al. (1994) deze gezondheidsindicatoren toch gebruikt in hun onderzoek. Zij vonden een negatief effect van langere periodes van ziekte op het loon.

De data die bestaan uit waarderingen van de gezondheid van het individu, gegeven door het individu zelf, zeggen weliswaar direct iets over de gezondheid van het individu, maar deze data zijn niet geheel objectief. Het toekennen van een waarde aan de eigen gezondheid kan immers beïnvloed worden door de gemoedstoestand waar het individu zich in bevindt op het moment van het toekennen van deze waarde. Deze toegekende waarde wordt ook beïnvloed door het pessimisme of optimisme van het individu. Deze waarde is dus subjectief. Ondanks deze subjectiviteit hebben Contoyannis & Rice (2000) toch gebruik gemaakt van deze gezondheidsindicator. Deze subjectiviteit hoeft immers geen probleem te zijn bij het onderzoeken van het effect van deze gezondheidsindicator op het loon. Het vormt namelijk geen probleem wanneer de gezondheidsindicator exogeen is en wanneer deze een goede benadering voor de gezondheid is. Contoyannis & Rice (2000) vonden een positief effect van een hogere toegekende waarde voor gezondheid op het loon.

2.3 Endogeniteit

Zoals reeds in paragraaf 2.1 is aangegeven is de relatie tussen de gezondheid en het loon mogelijk tweezijdig. Zo kan er ook onderzocht worden welk effect het loon op de gezondheid heeft, zoals Ettner (1976) heeft gedaan. Uit zijn onderzoek bleek dat een hoger uurloon een positief effect heeft op de gezondheid van een individu. Dit kan onder andere komen doordat individuen met meer inkomen, meer geld kunnen besteden aan een gezonde leefomgeving, gezonde voeding, medische hulp en andere gezondheidsgerelateerde producten en services. Individuen met meer inkomen hebben vaak ook een hogere opleiding genoten, en deze hoogopgeleide individuen hebben over het algemeen een betere kijk op gezonde voeding dan minder hoogopgeleiden.

Deze mogelijke tweezijdigheid levert, naast het kiezen van een geschikte gezondheidsmaatstaf, een tweede probleem op, waar rekening mee moet worden gehouden. Als dit probleem zich voordoet, namelijk dat de relatie tussen gezondheid en loon simultaan is, dan houdt dit in dat de verschillende indicatoren voor de gezondheidsstatus endogeen zijn, en dat betekent dat de schatters van de effecten van de gezondheid in regressies op het loon, geschat door de Ordinary Least Squares schattingsmethode (OLS), inconsistent zullen zijn.

(7)

Om consistente schatters van deze effecten te verkrijgen, kan IV gebruikt worden. Voor deze methode zijn er variabelen in de dataset nodig die een duidelijk effect hebben op de gezondheid, maar niet direct het uurloon van een persoon beïnvloeden. Deze variabelen zijn de instrumenten.

2.4 Eerder Uitgevoerd Onderzoek

Eerder onderzoek, waarin passende technieken zijn gebruikt om voor de endogeniteit van de gezondheidsstatus te controleren, bevestigen de theorie dat er een relatie bestaat tussen de indicatoren van gezondheid enerzijds en arbeidsproductiviteit anderzijds.

Lee (1982) schatte een algemeen model met een door de individu zelf gegeven waardering voor de gezondheid als indicator voor niet-waargenomen gezondheid. Ook gebruikte hij beperkingen van een individu als gevolg van de gezondheidsstatus als indicator. Hij vond dat de gezondheidswaardering een positief effect had op het loon, vóór en ná controleren voor endogeniteit. De coëfficiënt van dit effect was 25% lager na controleren voor endogeniteit. Berkowitz et al. (1983) onderzochten een model waarin de gezondheid de productiviteit en het arbeidsaanbod beïnvloedde. Zij maakten gebruik van data van blanke mannen uit de VS uit een survey van gehandicapte en niet-gehandicapte, en acht dichotome indicatoren van verschillende handicaps. Zij vonden dat zes van deze indicatoren een negatief effect op het loon hadden.

Behrman & Deolalikar (1989) gebruikten de indicatoren gewicht-voor-lengte en calorie inname voor de gezondheid in landelijk India. Zij controleerden voor endogeniteit en focusten zich op seizoensinvloeden en geslachtsverschillen. Zij vonden dat voor mannen de inname van calorieën een grotere invloed op de productiviteit had in het hoogseizoen, maar gewicht-voor-lengte belangrijker was in het laagseizoen. Zij vonden geen effecten voor de productiviteit van vrouwen.

Haddad en Bouis (1991) maakten een decompositie van lange en korte termijn effecten van gezondheidsindicatoren om de effecten van BMI, individuele calorie inname en lengte op het loon van agrarische arbeiders in de Filippijnen te onderzoeken. Zij vonden dat van deze drie gezondheidsindicatoren alleen lengte een significant en robuust positief effect had op het loon.

Haveman et al. (1994) schatten een model voor werkuren, lonen en gezondheid en zij hielden rekening met de simultaneïteit. Als instrumenten gebruikten zij gegevens van andere gezinsleden zoals leeftijd, maritale status, regio dummy’s en kenmerken van het beroep. Ze gebruikten panel data uit de VS en vonden dat langer durende ziekten het loon verlaagden. Ze vonden een nog groter effect na het controleren voor endogeniteit.

Sundberg (1996) schatte een model met drie simultane vergelijkingen voor gezondheid, werkuren en loon. Zij gebruikte een variabele die een waarde bevatte voor een eigen waardering van de gezondheid. Sundberg vond dat deze variabele een positief effect op het loon had voor mannen, maar voor vrouwen bleek het effect van zelf-toegekende gezondheid op het loon niet significant.

Thomas & Strauss (1997) schatten het effect van de gezondheid op het loon in het stedelijke Brazilië. Zij vonden dat lengte een positieve invloed had op het inkomen voor mannen en

(8)

vrouwen met betaalde banen en voor zelfstandigen. Ze vonden ook dat het BMI een positief effect had op het loon voor mannen in beide sectoren, maar niet voor vrouwen. Zij gebruikten IV, en als instrumenten namen ze de relatieve prijzen van etenswaren in verschillende regio’s in Brazilië en inkomen anders dan uit betaalde arbeid.

De resultaten van het onderzoek van Glick & Sahn (1998) in stedelijk Afrika (Guinee) zijn reeds besproken in paragraaf 2.2. Zij gebruikten IV met de volgende instrumenten voor de endogene indicatoren van gezondheid, BMI en lengte: relatieve prijzen van etenswaren van acht soorten groepen etenswaren, twee maten voor bezittingen in het huishouden, grootte van het huishouden en het aantal volwassen mannen en vrouwen met verschillende scholingsniveaus binnen het huishouden.

Met behulp van de resultaten van bovengenoemde onderzoeken kan er een hypothese gevormd worden voor dit onderzoek. Deze hypothese is dat er een positief verband bestaat tussen de gezondheid en het uurloon voor werknemers in Nederland (gebruik makend van het LISS-databestand). Er kan getoetst worden op veel verschillende manieren, waar vorige onderzoekers ook beroep op hebben gedaan. In dit onderzoek zal gebruikt worden gemaakt van IV, vanwege het feit dat er voor het gebruik van deze methode geschikte data beschikbaar zijn. Zoals ook in vorig onderzoek te zien is, is de gezondheid vaak door verschillende indicatoren gedefinieerd. Hoe dat precies in dit onderzoek gedaan wordt, wordt besproken in de volgende sectie, waar ook de methode en het gebruik van de data uitgebreid besproken zal worden.

3. Data & Methode

In paragraaf 3.1 wordt het databestand besproken, en in paragraaf 3.2 wordt besproken welk model er wordt gebruikt en wordt de onderzoeksmethode gespecificeerd. In paragraaf 3.3 worden de variabelen besproken die in dit onderzoek gebruikt worden, en paragraaf 3.4 bevat uitleg over de steekproef en beschrijvende statistiek.

3.1 LISS-Databestand

Bij het uitvoeren van dit onderzoek wordt er data gebruikt uit het Nederlandse LISS-databestand, dat beschikbaar is gesteld door CentERdata. Dit databestand bevat informatie van 5000 Nederlandse huishoudens, die samen 8000 individuen bevatten, over verschillende onderwerpen, zoals gezondheid, economische situatie, familie, werk en scholing. Het databestand bestaat uit 6 ‘waves’. De eerste ‘wave’ is afkomstig uit 2007. In dit onderzoek zal alleen de data uit het jaar 2012 worden gebruikt. Dit is de meest recente complete ‘wave’ die het databestand bevat. Niet alle variabelen zijn expliciet beschikbaar: een aantal variabelen uit het LISS-databestand zullen geconverteerd moeten worden zodat ze in de juiste vorm in het model opgenomen kunnen worden. Een voorbeeld hiervan is het salaris. Het salaris is in het databestand gegeven per maand, terwijl dit onderzoek juist het effect van gezondheid op het uurloon wil onderzoeken. Met behulp van gegevens over de werkuren zal deze data geconverteerd worden.

(9)

3.2 Model & Methode

Het effect dat de gezondheid op het loon heeft, wordt in eerste instantie geschat door OLS toe te passen op het standaard lineaire model . Omdat, zoals reeds is besproken, uit ander onderzoek vaak is gebleken dat indicatoren voor gezondheid in dit model, endogeen zijn, (de correlatie tussen deze indicatoren en de storingsterm is niet gelijk aan 0,) zullen de indicatoren voor gezondheid die in dit onderzoek in het model worden opgenomen, getoetst moeten worden op endogeniteit. Dit wordt gedaan met behulp van de Hausman-toets. Om deze toets uit te voeren zijn er instrumenten nodig die voldoende gecorreleerd zijn met de mogelijk endogene regressoren, niet gecorreleerd zijn met de storingsterm en die niet zijn opgenomen in het oorspronkelijke model.

Als uit de toets voor endogeniteit blijkt dat de gezondheidsindicatoren niet endogeen (dus exogeen) zijn, kunnen deze in het standaard lineaire regressiemodel worden opgenomen en levert OLS consistente schattingen voor de coëfficiënten . Als er uit de toets voor endogeniteit van de variabelen blijkt dat de indicatoren voor gezondheid endogeen zijn, dan is OLS niet meer de meest geschikte methode om de effecten van gezondheid op het loon te schatten. Deze methode zal immers inconsistente schattingen geven voor de coëfficiënten . Als blijkt dat de indicatoren voor gezondheid endogeen zijn, moet er een andere schattingsmethode dan OLS worden toegepast. In dit onderzoek wordt er gekozen voor IV. Deze methode is in ander onderzoek naar het effect van gezondheid op het loon reeds vaak gebruikt6. IV levert in dit geval consistente schattingen voor de coëfficiënten , omdat er met behulp van instrumenten gecorrigeerd wordt voor de endogeniteit van de gezondheidsindicatoren. Aan de hand van deze geschatte coëfficiënten kan het effect van de gezondheid op het loon geïnterpreteerd worden.

Opdat de IV-schattingen als consistent kunnen worden beschouwd, moeten de gebruikte instrumenten, zoals gezegd, aan een aantal voorwaarden voldoen. De eerste voorwaarde is dat ze voldoende relevant zijn voor de endogene variabelen, en de tweede voorwaarde is dat deze instrumenten valide moeten zijn. Dit betekent dat de gekozen instrumenten niet mogen correleren met de storingsterm van de loonvergelijking. Met behulp van verschillende toetsen kan er getoetst worden of er aan deze voorwaarden wordt voldaan.

Met de F-toets worden de instrumenten getoetst op relevantie, waarbij, van de endogene variabelen, de afhankelijkheid van de instrumenten wordt geschat. Deze afhankelijkheid blijkt voldoende wanneer de toetsingsgrootheid van de F-toets een waarde groter dan 10 heeft. Als de instrumenten voor deze toets geslaagd zijn, hebben ze nog één toets te doorstaan. De tweede toets die de instrumenten moeten doorstaan is de Sargan-toets. Deze toetst de instrumenten op endogeniteit (correlatie met de storingsterm ).

3.3 Variabelen

Om het effect van gezondheid op het uurloon zo goed mogelijk te schatten, is het belangrijk dat de juiste variabelen in het model worden opgenomen, en dat er geschikte instrumenten worden gekozen voor de mogelijk endogene variabelen.

(10)

De te verklaren variabele in dit onderzoek is het netto uurloon. De verklarende variabelen die worden opgenomen in het model om het effect van de gezondheid op het loon te verklaren, worden gekozen op basis van economische theorie (Mincer, 1974) en eerder onderzoek. Deze variabelen zijn: het geslacht; totaal aantal jaar werkervaring; aantal jaar werkervaring bij de huidige werkgever en het kwadraat hiervan; het type afgeronde scholing; het aantal mensen dat het individu onder toezicht heeft; het aantal negatieve werkomstandigheden; het type werksector; moeilijkheidsgraad van het beroep; het gegeven of het individu in de private of publieke sector werkt; de grootte van de branche waar het individu in werkt. Deze groep variabelen wordt in het vervolg van dit onderzoek het ‘standaard pakket’ van verklarende variabelen genoemd, om deze variabelen gemakkelijk te kunnen onderscheiden van de gezondheidsindicatoren en mogelijke instrumenten.

Als indicatoren voor gezondheid worden het BMI en de eigen waardering van de gezondheid gekozen, omdat uit eerder onderzoek is gebleken dat deze indicatoren een positief effect op het loon hadden7. Ook deze variabelen zullen in een gepaste vorm gegoten moeten worden zodat ze geschikt worden voor gebruik in het regressiemodel.

Van de variabelen uit het ‘standaard pakket’ van verklarende variabelen wordt verondersteld dat ze exogeen zijn, en deze variabelen zullen daarom als instrumenten fungeren voor de gezondheidsindicatoren. Naast deze instrumenten uit het ‘standaard pakket’, moeten er ook instrumenten worden gevonden die niet reeds als variabele in de loonvergelijking zijn opgenomen. Als mogelijke extra instrumenten voor de gezondheidsindicatoren worden de volgende variabelen gebruikt: het gegeven of het individu aan sport doet; het aantal huisartsbezoeken van het afgelopen jaar; het aantal klachten waarvoor medicijnen gebruikt worden; de hoogte van het eigen risico; de mate waarin de gezondheid het individu hindert bij het uitoefenen van zijn/haar beroep; het gegeven of het individu een handicap, chronische ziekte of blijvend letsel van een ongeluk heeft; het gegeven of het individu het afgelopen jaar in het ziekenhuis heeft gelegen; het aantal maal dat het individu het afgelopen jaar gebruik heeft gemaakt van een medische service8; en het aantal bezoeken aan een medisch specialist het afgelopen jaar. Deze variabelen worden als mogelijke instrumenten gekozen, omdat de gegevens om deze variabelen te creëren in het databestand beschikbaar zijn, en er verwacht wordt dat deze een directe invloed hebben op de gezondheidsindicatoren, maar niet direct op het netto uurloon. Er wordt in dit onderzoek ook gekeken of deze mogelijke instrumenten een zelfstandig effect op het loon hebben.

De gegevens die niet expliciet in het databestand te vinden zijn, zullen worden verkregen door conversies van gegevens die het databestand wel bevat. Het netto uurloon wordt verkregen door het maandelijkse netto loon te delen door 4,3 * het aantal werkuren per week, omdat 52 weken/12 maanden 4,3. Hier wordt vervolgens het logaritme van genomen. Voor elk opleidingsniveau wordt een dummy aangemaakt. Aan de hand van het opleidingsniveau wordt er geschat hoeveel jaar het individu scholing heeft gehad. De variabele voor totale werkervaring wordt verkregen door de leeftijd met dit [aantal+4] in mindering te brengen. Voor de verschillende sectoren en moeilijkheidsgradaties van beroepen worden ook dummy’s gemaakt. De BMI-variabele wordt gecreëerd door het gewicht te delen door de [lengte (in m) in het kwadraat]. Het databestand bevat dummyvariabelen over het gegeven of het individu

7_{Zie paragraaf 2.4. Voorbeelden van eerder onderzoek waaruit dit is gebleken zijn de onderzoeken van}

Sundberg (1996), Lee (1982), Glick & Sahn (1998) en van Contoyannis & Rice (2001).

8_{Onder medische service wordt verstaan een behandeling van: een psychiater/ psycholoog/}

psychotherapeut, een fysiotherapeut, een tandarts, een homeopaat, een acupuncturist, een

natuurgeneeskundige, een magnetiseur, een paranormale genezer, een andere alternatieve genezer, of gebuikmaking van thuiszorg.

(11)

medicijnen gebruikt voor bepaalde klachten. Dit aantal klachten is bij elkaar opgeteld en vormt de variabele voor medicijngebruik.

In het vervolg van dit onderzoek worden de variabelen vaak genoemd door ze met hun ‘label’ te noemen. Wanneer dit wordt gedaan, wordt het label van de variabele schuin gedrukt. Een overzicht van de variabelen, met bijbehorende labels, die in dit onderzoek gebruikt zullen worden is te vinden in Tabel 1.

Tabel 1. Labels en inhoud van variabelen dit in dit onderzoek worden gebruikt.

Label Inhoud Variabele

lincomehour Logaritme van het netto uurloon in Euro

C Constante

gender Dummy voor geslacht, 0 = Man, 1 = Vrouw

experience Totaal aantal jaar werkervaring

tenure Aantal jaar werkervaring bij de huidige werkgever

tenure2 Aantal jaar werkervaring bij de huidige werkgever in het kwadraat

primaryschool Dummy voor opleiding basisschool, 0 = Nee, 1 = Ja

vmbo Dummy voor opleiding vmbo, 0 = Nee, 1 = Ja

havovwo Dummy voor opleiding havo of vwo, 0 = Nee, 1 = Ja

mbo Dummy voor opleiding mbo, 0 = Nee, 1 = Ja

hbo Dummy voor opleiding hbo, 0 = Nee, 1 = Ja

wo Dummy voor opleiding wo, 0 = Nee, 1 = Ja

oplother Dummy voor andere opleiding, 0 = Nee, 1 = Ja

supervise Dummy voor gegeven of individu werknemers onder toezicht heeft, 0 = Nee, 1 = Ja

supervisenumber Aantal werknemers dat individu onder toezicht heeft

difficulties Aantal negatieve arbeidsomstandigheden waarmee individu te maken heeft

sectorfinancial Dummy voor beroep in financiële sector, 0 = Nee, 1 = Ja

sectoragricult Dummy voor beroep in agriculturele sector, 0 = Nee, 1 = Ja

sectorindustry Dummy voor beroep in industriële sector, 0 = Nee, 1 = Ja

sectorretail Dummy voor beroep in handelssector, 0 = Nee, 1 = Ja

sectorcatering Dummy voor beroep in horeca, 0 = Nee, 1 = Ja

sectortransport Dummy voor beroep in transportsector, 0 = Nee, 1 = Ja

sectorgovernment Dummy voor beroep bij de overheid, 0 = Nee, 1 = Ja sectorhealth Dummy voor beroep in de gezondheidssector, 0 = Nee, 1 = Ja

sectorother Dummy voor beroep in andere sector, 0 = Nee, 1 = Ja

professionhigh Dummy voor beroep met hoge moeilijkheidsgraad, 0 = Nee, 1 = Ja

professionskilled Dummy voor beroep met lage moeilijkheidsgraad, 0 = Nee, 1 = Ja

professioninter Dummy voor beroep met middelmatige moeilijkheidsgraad, 0 = Nee, 1 = Ja

professionother Dummy voor ander soort beroep, met voornamelijk zeer lage moeilijkheidsgraad, 0 = Nee, 1 = Ja

organiztype Dummy voor type organizatie, 0 = Private organisatie, 1 = Publieke organisatie

peoplebranchreal Aantal personen dat in dezelfde branch werkt

health Eigen waardering van de gezondheid met waarden 1: Zeer slecht t/m 5: Zeer goed

BMI Body Mass Index [(gewicht)/(lengte in m. ^2)]

sportyes Dummy voor gegeven of individu aan sport doet, 0 = Nee, 1 = Ja

physician Aantal keer dat individu het afgelopen jaar de huisarts heeft bezocht

medicines Aantal verschillende klachten waarvoor individu afgelopen jaar medicijnen heeft gebruikt

ownrisk Hoogte van het eigen risico in Euro

troublework Maat voor in hoevere de gezondheid het uitvoeren van het beroep belemmerd met waarden 0: Geen belemmering t/m 3: Totale belemmering

disease Dummy voor gegeven of individu aan chronische ziekte lijdt, blijvend letsel van een ongeluk heeft, of een andere handicap heeft, 0 = Nee, 1 = Ja

hospitaltime Dummy voor gegeven of individu afgelopen jaar in het ziekenhuis heeft gelegen, 0 = Nee, 1 = Ja

services Aantal maal dat het individu afgelopen jaar gebruik heeft gemaakt van een medisch gerelateerde service

specialist Aantal maal dat het individu afgelopen jaar een bezoek heeft gebracht aan een medisch specialist

af h . v ar . ge zo n d h ei d s-in d ic ator en sta n d aa rd p ak ke t' v er kl ar en d e va ri ab el en in str u me n te n

(12)

3.4 Steekproef & Beschrijvende Statistiek

In deze paragraaf wordt beschreven hoe de steekproef tot stand is gekomen en worden er tabellen gegeven die beschrijvende statistiek voor de variabelen bevatten.

De steekproef is gevormd door, zoals eerder besproken, observaties te nemen uit het jaar 2012. Hierna zijn verschillende observaties weggehaald, zodat de kans op het krijgen van een vertekend beeld zo klein mogelijk wordt gemaakt. Om te beginnen zijn alle individuen zonder betaalde baan uit de steekproef gehaald, immers het netto uurloon dat bij een betaalde baan wordt verdiend, wordt onderzocht. Er is daarna doorgegaan met alleen de observaties van individuen die een positief netto maandloon hebben opgegeven. Als deze slechts een bruto maandloon op hebben gegeven is er op basis hiervan, door CentERdata, berekend9 wat het netto maandloon zou zijn. Vervolgens zijn de observaties van individuen, waarvan het aantal uren per werkweek niet is opgegeven, weggelaten. Ook observaties van individuen zonder afgeronde opleiding met diploma, waarvan de beroepsgroep onbekend is, of waarvan het aantal mensen dat hij/zij onder toezicht heeft onbekend is, zijn weggelaten. Deze observaties zijn weggelaten, omdat dit zeer belangrijke factoren zijn bij het bepalen van het loon. Het is daarom van belang dat deze gegevens juiste en volledige informatie bevatten. Enkele observaties met uitzonderlijke hoge en lage waarden voor het BMI zijn alsmede weggelaten. Namelijk deze uitzonderlijke waarden zijn waarschijnlijk ontstaan doordat individuen hun lengte en gewicht niet waarheidsgetrouw hebben opgegeven.

Door het aanpassen van de steekproef, zoals hierboven beschreven, wordt er overgebleven met een steekproef die observaties van 2435 individuen bevat, waarvan 1244 mannen en 1191 vrouwen. Van al deze individuen is elk gegeven, dat nodig is om betrouwbare resultaten voor dit onderzoek te verkrijgen, bekend. Er zijn slechts enkele uitzonderingen hierop. In Tabel 2 is te zien hoeveel observaties er per variabele beschikbaar zijn. Zo is in deze tabel te zien dat er een aantal missende observaties zijn in de variabele voor het aantal jaar werkervaring bij de huidige werkgever, in de variabele voor het type organisatie waar het individu in werkt, in de variabele die het aantal mensen dat in dezelfde branche werkt aangeeft, en in de variabele die aangeeft in welke mate de gezondheid het uitoefenen van het beroep belemmerd. Deze missende observaties zijn echter klein in aantal. Als deze variabelen met missende observaties worden gebruikt in regressievergelijkingen, worden de individuen waarvan er observaties missen automatisch uit de steekproef geworpen, zodat hierdoor geen vertekeningen kunnen ontstaan.

Voor de variabelen waarvoor er dummy’s zijn gemaakt, moet er telkens één dummy als referentie worden genomen. Deze referentiedummy wordt niet in het model opgenomen, en de dummy’s die wèl in het model worden opgenomen worden met deze referentiedummy vergeleken. Bij het opleidingsniveau is dat de dummy die waarde 1 heeft als de hoogst afgeronde opleiding met diploma de basisschool is. Bij de werksector is dat de dummy die waarde 1 heeft als het individu in de financiële sector werkt. Bij de beroepsgroep is dat de dummy die waarde 1 heeft als het individu een beroep uitoefent met een hoge moeilijkheidsgraad.

In Tabel 2 op de volgende pagina wordt de gemiddeldes en standaard deviaties van deze variabelen gegeven.

9_{Voor meer informatie wat betreft deze berekening, zie de website}_{www.lissdata.nl}_{en kijk naar de file:}

(13)

Tabel 2. Beschrijvende statistiek.

Variable # Obs Gemiddelde Standaard Dev. lincomehour 2435 2.565014 0.4283818 gender 2435 0.510883 0.4999842 experience 2435 26.24394 12.21922 tenure 2247 12.78727 10.84507 tenure2 2247 281.0774 408.2852 primaryschool 2435 0.0180698 0.1332313 vmbo 2435 0.2016427 0.4013092 havovwo 2435 0.0845996 0.2783421 mbo 2435 0.2956879 0.4564451 hbo 2435 0.2726899 0.4454342 wo 2435 0.1034908 0.3046614 oplother 2435 0.0238193 0.1525172 supervise 2435 0.275154 0.4466836 supervisenumber 2435 7.980287 80.46602 sectorfinancial 2435 0.1075975 0.3099351 sectoragricult 2435 0.0151951 0.1223533 sectorindustry 2435 0.1589322 0.365688 sectorretail 2435 0.0718686 0.2583232 sectorcatecatering 2435 0.02423 0.153794 sectortransport 2435 0.0451745 0.2077294 sectorgovernment 2435 0.2102669 0.4075819 sectorhealth 2435 0.2073922 0.4055221 sectorother 2435 0.1593429 0.3660707 professionhigh 2435 0.1486653 0.3558313 professioninter 2435 0.3864476 0.4870352 professionskilled 2435 0.3326489 0.4712587 professionother 2435 0.1322382 0.3388191 organiztype 2399 0.4014173 0.4902873 peoplebranchreal 1928 312.3164 939.311 health 2435 3.2 0.7193762 BMI 2435 25.64102 4.463025 sportyes 2435 0.5289528 0.4992636 physician 2435 1.607803 2.239781 medicines 2435 0.6907598 1.105031 ownrisk 2435 55.77002 122.9038 troublework 2119 0.2095328 0.5826284 disease 2435 0.2501027 0.4331609 hospitaltime 2435 0.0924025 0.2896527 services 2435 6.245585 17.42734 specialist 2435 0.5318275 0.7954997

Gemiddeldes en Standaard Deviaties

af h .v ar in d ic ato re n ge zo n d h ei d s-in str u me n te n ve rk la re n d e va ri ab el en

(14)

4. Resultaten

In paragraaf 4.1 worden de resultaten besproken die met OLS zijn verkregen, waarbij er wordt verondersteld dat alle gezondheidsindicatoren, die in de loonvergelijking zijn opgenomen, exogeen zijn. In paragraaf 4.2 worden de resultaten besproken die zijn verkregen met TSLS, waarbij er wordt verondersteld dat alle gezondheidsindicatoren, die in de loonvergelijking zijn opgenomen, endogeen zijn.

4.1 Ordinary Least Squares

Het onderzoek wordt gestart met een OLS-regressie. Hierbij wordt er verondersteld dat alle variabelen die worden opgenomen exogeen zijn. Deze exogeniteit moet later getoetst worden. Als er na toetsen voor exogeniteit blijkt dat alle variabelen daadwerkelijk exogeen zijn,

betekent dat dat de resultaten van de OLS-regressie consistent zijn. Uit deze resultaten kan dan een conclusie worden getrokken.

Tabel 3. OLS-regressies van afhankelijke variabele log (netto uurloon).

lincomehour Coëfficient P>t lincomehour Coëfficient P>t lincomehour Coëfficient P>t

C 2.304788 0.000 C 2.515282 0.000 C 2.39564 0.000

gender -0.0508148 0.002 gender -0.053325 0.001 gender -0.051885 0.002

experience 0.0107004 0.000 experience 0.0105519 0.000 experience 0.0108723 0.000

tenure 0.0112753 0.000 tenure 0.0109617 0.000 tenure 0.0112701 0.000

tenure2 -0.0002489 0.000 tenure2 -0.0002416 0.000 tenure2 -0.0002506 0.000

vmbo -0.0266571 0.684 vmbo -0.0270456 0.680 vmbo -0.0284153 0.664

havovwo 0.0842365 0.221 havovwo 0.0847352 0.219 havovwo 0.0807938 0.214

mbo 0.0977441 0.138 mbo 0.0985232 0.136 mbo 0.0967867 0.142

hbo 0.2054337 0.002 hbo 0.0205276 0.002 hbo 0.2027991 0.003

wo 0.3278742 0.000 wo 0.3269317 0.000 wo 0.322736 0.000

oplother 0.0716873 0.373 oplother 0.0684501 0.396 oplother 0.0704003 0.382

supervise 0.068644 0.000 supervise 0.0697392 0.000 supervise 0.0691956 0.000

supervisenumber 0.0002484 0.002 supervisenumber 0.0002528 0.002 supervisenumber 0.0002513 0.002

difficulties -0.0068227 0.001 difficulties -0.0072926 0.000 difficulties -0.0068099 0.001

sectoragricult -0.0438066 0.489 sectoragricult -0.042343 0.504 sectoragricult -0.0437011 0.490

sectorindustry -0.0982677 0.001 sectorindustry -0.0943244 0.001 sectorindustry -0.097693 0.001

sectorretail -0.1796831 0.000 sectorretail -0.173353 0.000 sectorretail -0.1799819 0.000

sectorcatering -0.2133823 0.000 sectorcatering -0.2064447 0.000 sectorcatering -0.2100192 0.000

sectortransport -0.0513587 0.234 sectortransport -0.0465868 0.281 sectortransport -0.0484622 0.261

sectorgovernment -0.0825095 0.014 sectorgovernment -0.011033 0.016 sectorgovernment -0.813178 0.016

sectorhealth -0.0581876 0.067 sectorhealth -0.0563524 0.076 sectorhealth -0.058617 0.065

sectorother -0.1456195 0.000 sectorother -0.1460203 0.000 sectorother -0.1461696 0.000

professioninter -0.1015942 0.000 professioninter -0.1021249 0.000 professioninter -0.1013946 0.000

professionskilled -0.1861289 0.000 professionskilled -0.1881527 0.000 professionskilled -0.1862693 0.000

professionother -0.2375141 0.000 professionother -0.2345123 0.000 professionother -0.2341144 0.000

organiztype -0.000205 0.993 organiztype 0.0003935 0.987 organiztype -0.000747 0.974

peoplebranchreal -1.58e-06 0.850 peoplebranchreal 5.44e-07 0.948 peoplebranchreal -7.29e-07 0.931

health 0.0305026 0.005 BMI -0.0039908 0.025 BMI -0.0032083 0.076

health 0.0270583 0.014

Number of obs 1752 Number of obs 1752 Number of obs 1752

F( 27, 1724) 35.21 F( 27, 1724) 35.05 F( 28, 1723) 34.11

Prob > F 0.0000 Prob > F 0.0000 Prob > F 0.0000

R-squared 0.3555 R-squared 0.3544 R-squared 0.3566

Adj R-squared 0.3454 Adj R-squared 0.3443 Adj R-squared 0.3462

Root MSE .30591 Root MSE .30616 Root MSE .30571

(15)

In Tabel 3 worden de resultaten weergegeven van drie verschillende OLS-regressies. Het logaritme van het netto uurloon wordt in deze regressies telkens geregresseerd op het

‘standaard pakket’ aan verklarende variabelen voor het netto uurloon. Bij de eerste regressie wordt daar de gezondheidsindicator health aan toegevoegd (linkerkant van de tabel); bij de tweede regressie wordt daar de gezondheidsindicator BMI aan toegevoegd (midden van de tabel), en bij de derde regressie worden beide gezondheidsindicatoren aan het ‘standaard pakket’ van verklarende variabelen toegevoegd (rechterkant van de tabel). De resultaten van deze drie OLS-regressies worden in het vervolg van deze paragraaf besproken.

De drie regressies tonen veel gelijkenissen. In elk van deze drie regressies hebben de

verklarende variabelen uit het ‘standaard pakket’ hetzelfde teken (positief/negatief). Ook zijn de geschatte coëfficiënten van deze variabelen nauwelijks verschillend wanneer de drie regressies met elkaar worden vergeleken. De p-waardes van deze variabelen zijn ook vergelijkbaar in de drie regressies: in elk van deze drie regressies zijn dezelfde variabelen (in)significant. De bespreking van de variabelen uit het ‘standaard pakket’ geldt voor elk van deze drie regressies.

De geschatte coëfficiënten voor geslacht en ervaring zijn significant10 verschillend van 0 en zij hebben ook het verwachte teken. Verwacht is namelijk dat vrouwen minder verdienen dan mannen en dat extra ervaring een hoger loon oplevert (Contoyannis & Rice, 2001). De geschatte coëfficiënten van de variabelen die de scholing van een individu aanduiden, zijn niet allemaal significant verschillend van 0. De geschatte coëfficiënten van vmbo, havovwo, mbo en oplother zijn niet significant. Een mogelijke verklaring komt voort uit het feit dat deze 4 variabelen, plus de referentievariabele primaryschool, erg veel op elkaar lijken. Ze hebben daarom afzonderlijk van elkaar geen invloed op het netto uurloon. De geschatte coëfficiënten van hbo en wo zijn wel significant verschillend van deze 5 variabelen en hebben daarom wel een geschatte coëfficiënt die significant van 0 verschilt. De insignificantie van de scholingsvariabelen is mogelijk ook te wijten aan multicollineariteit met de andere opgenomen variabelen in de loonvergelijking. De geschatte coëfficiënten voor het onder toezicht hebben van werknemers, zijn beiden significant en zoals verwacht positief, want hoe meer werknemers een individu onder toezicht heeft, des te meer verantwoordelijkheid dat met zich meebrengt, en dat wordt beloond met een hoger loon. De geschatte coëfficiënt van difficulties is significant, maar deze variabele heeft een opvallend teken: hier wordt namelijk in eerste instantie een positieve relatie verwacht, want verwacht wordt dat wanneer een werknemer met meer negatieve arbeidsomstandigheden moet omgaan, hij/zij des te meer daarvoor gecompenseerd wordt. De geschatte coëfficiënt geeft het tegenovergestelde weer: een negatieve relatie. Deze geschatte coëfficiënt is weliswaar zeer klein (nadert 0) in elk van de drie situaties. De geschatte coëfficiënten voor de verschillende sectoren zijn significant verschillend van 0, met uitzondering van de landbouwsector, transportsector en de gezondheidssector. Dat kan doordat deze sectoren, wat het netto uurloon betreft, erg veel op elkaar lijken, of dat het effect van het werken in een van deze sectoren op het netto uurloon, al ‘gevangen’ is in een andere variabele die in het model is opgenomen. Mogelijk is deze insignificantie te wijten aan multicollineariteit. De tekens van al deze sectoren zijn negatief. Dit betekent dat de hoogste netto uurlonen worden uitgekeerd in de financiële sector, aangezien de financiële sector als referentiesector is gebruikt. Dit is een aannemelijk resultaat. De geschatte coëfficiënten voor de moeilijkheidsgraden van het beroep dat het individu uitoefent zijn alle drie significant en het teken ervan is negatief. Dit is zoals verwacht, aangezien de referentiecategorie bestaat uit de ‘moeilijkste’ beroepen, en hoe lager de moeilijkheidsgraad van het beroep, des te lager wordt logischerwijs het netto uurloon. De

(16)

geschatte coëfficiënten van het type organisatie (privaat/publiek) waar het individu werkt, en van het aantal mensen dat in dezelfde branche werkt, zijn verre van significant. De geschatte coëfficiënten zijn ook bijna gelijk aan 0. Het effect van deze variabelen is waarschijnlijk al ‘gevangen’ in andere variabelen die in het model zijn opgenomen, omdat deze twee variabelen nauw samenhangen met de sector en het type organisatie waarin het individu werkzaam is. De tekens van deze twee variabelen zijn verschillend in de drie regressies, maar dit verschil kan genegeerd worden, omdat de waardes van de geschatte coëfficiënten bijna 0 zijn en daarbij niet significant.

De verklaringsgraden van de drie regressies liggen tussen de 35% en 36%. Dit geeft aan dat er 35 á 36% van het logaritme van het netto uurloon wordt verklaard door de opgenomen variabelen. De F-waardes met bijbehorende p-waardes geven ook aan dat de opgenomen variabelen gezamenlijk significant zijn bij het verklaren van het logaritme van het netto uurloon.

In de eerste regressie, waar alleen health als gezondheidsindicator in het model is opgenomen, is deze gezondheidsindicator significant verschillend van 0. De geschatte coëfficiënt van deze variabele is positief, zoals werd verwacht (Lee, 1982): individuen die hun gezondheid met één eenheid meer waarderen dan een andere persoon, zullen 3.1% netto meer verdienen per uur. In de tweede regressie, waar alleen BMI als gezondheidsindicator in het model is opgenomen, wordt de coëfficiënt van deze variabele significant geschat. De geschatte coëfficiënt van BMI is negatief. Dit betekent dat iemand met een hoger BMI, een lager netto uurloon krijgt. Dit is anders dan bleek uit eerder onderzoek. Glick & Sahn (1998) vonden namelijk dat BMI een positieve invloed op het loon had. De geschatte coëfficiënt is echter zeer klein: stijgt het BMI met één eenheid, dan daalt het netto uurloon slechts met 0.4%. Dat de geschatte coëfficiënt van BMI negatief is, kan komen doordat er, in een welvarend land zoals Nederland, door niemand echt honger wordt geleden, maar er juist eerder teveel wordt gegeten, waardoor het BMI van veel individuen te hoog is. Het komt voor dat individuen die een te hoog BMI hebben, minder mobiel, beweeglijk en energiek zijn dan individuen met een ‘normaal’ BMI. Daardoor is de arbeidsproductiviteit van deze individuen ook vaak lager, waardoor deze individuen een lager netto uurloon ontvangen van hun werkgever.

In de derde regressie, waar BMI en health beide als gezondheidsindicator in het model zijn opgenomen, wordt de coëfficiënt van health wel significant geschat, maar de coëfficiënt van BMI niet. De tekens van deze variabelen zijn gelijk aan de tekens in de eerste en tweede regressie: het teken van health is positief, en dat van BMI negatief. De waardes van de geschatte coëfficiënten blijven ook ongeveer gelijk: een stijging van de eigen gezondheidswaardering met één eenheid, levert hier een stijging van het netto uurloon met 2.7% op, en een stijging van het BMI met 1, levert hier een daling van het loon met 0.3% op. De coëfficiënt van BMI wordt mogelijk niet significant verschillend van 0 geschat, omdat de variabelen health en BMI met elkaar gecorreleerd kunnen zijn, (iemand met een hoog BMI waardeert hierdoor zijn eigen gezondheid slechter dan iemand met een lager BMI). De correlatie tussen health en BMI in dit onderzoek is -0.2018. De variabelen zijn ook mogelijk multicollineair wanneer ze gezamenlijk in de loonvergelijking worden opgenomen.

Zoals eerder gezegd zijn deze OLS-schattingsresultaten slechts consistent als alle opgenomen variabelen, in de in deze paragraaf besproken regressiemodellen, exogeen zijn. In de volgende paragraaf wordt deze exogeniteit getoetst.

(17)

4.2 Two Stage Least Squares

Het LISS-databestand bevat, behalve informatie over de eigen gezondheidswaardering en het BMI, ook informatie over andere variabelen die wellicht de gezondheid van een individu voor een deel kunnen verklaren. Er wordt gekeken of deze variabelen een significante invloed hebben op het loon. Als dat niet het geval is kunnen deze variabelen wellicht als extra instrumenten fungeren, (naast de exogene variabelen uit het ‘standaard pakket’), om de exogeniteit van health en BMI te toetsen. Deze variabelen zijn: sportyes, physician, disease, ownrisk, medicines, hospitaltime, services, troublework en specialist. Als deze variabelen afzonderlijk in de loonvergelijking worden opgenomen, blijkt dat geen enkele van deze variabelen significant verschilt van 0. Voor het eigen risico is er ook gekeken of er enige significantie te zien is, wanneer er dummy’s worden gemaakt voor groepen mensen met hetzelfde eigen risico, maar dit is niet geval. Er moet nu nog getoetst worden of deze variabelen daadwerkelijk als instrument kunnen fungeren voor het toetsen van de exogeniteit van health en BMI.

Zoals gezegd, moeten de instrumenten exogeen en voldoende relevant zijn bij het verklaren van de mogelijk endogene variabelen. Om te bepalen welke instrumenten geschikt zijn, wordt er gekeken naar de toetsingsgrootheden van de Sargan-toets en de F-toets, die worden verkregen met behulp van TSLS.

Bij het onderzoeken van deze mogelijke endogeniteit worden, net zoals in paragraaf 4.1, de drie verschillende regressiesituaties onderscheden. In de eerste situatie, in sub paragraaf 4.2.1, wordt alleen health als gezondheidsindicator in de regressievergelijking opgenomen. In de tweede situatie, in sub paragraaf 4.2.2., wordt alleen BMI als gezondheidsindicator opgenomen, en in de derde situatie, in sub paragraaf 4.2.3., worden beide gezondheidsindicatoren in de regressievergelijking opgenomen. In deze drie situaties wordt telkens in eerste instantie verondersteld dat de opgenomen gezondheidsindicator(en) endogeen is/zijn.

4.2.1. Situatie 1

In Tabel 4 worden de resultaten getoond van de TSLS-regressie van de eerste situatie: alleen health is als gezondheidsindicator in de regressievergelijking opgenomen, en er wordt verondersteld dat deze indicator endogeen is. In de eerste stap van de regressie (linkerkant van de tabel) is te zien welke geschikte instrumenten er zijn gevonden om health te verklaren. Health is hier de afhankelijke variabele. De gevonden geschikte extra instrumenten zijn: sportyes, physician, disease, ownrisk, medicines en troublework. De geschatte coëfficiënten van deze extra instrumenten verschillen allen significant van 0 bij het verklaren van health. Aan de waarden van de F-toets van ‘excluded instruments’ en van de Sargan-toets (beiden rechterkant van de tabel) is te zien dat dit inderdaad geschikte instrumenten zijn. Verder zijn bijna alle variabelen uit het ‘standaard pakket’ niet significant verschillend van 0 bij het verklaren van health. Dat betekent dat deze variabelen geen significante directe invloed hebben op de eigen gezondheidswaardering. De regressieresultaten met betrekking tot de gevonden extra instrumenten zullen hier worden besproken.

Te zien is dat sportyes een positieve invloed heeft op de zelfgegeven gezondheidswaardering, zoals verwacht wordt, omdat wanneer en individu aan sport doet, er in het algemeen wordt verondersteld dat dit een positief effect heeft op de gezondheid. Verder heeft ownrisk ook een positieve coëfficiënt. Dit is wederom zoals verwacht, want een individu dat zijn/haar eigen

(18)

gezondheid hoger waardeert, zal verwachten minder ziektekosten te hebben en zal daardoor bereid zijn genoegen te nemen met een hoger eigen risico. De geschatte coëfficiënten van physician, disease, medicines en troublework zijn negatief, en ook hiervoor zijn logische verklaringen. Namelijk, hoe vaker een individu naar de dokter gaat, des te slechter is hoogstwaarschijnlijk zijn/haar gezondheid, en daardoor waardeert dit individu zijn/haar eigen gezondheid ook slechter. Soortgelijke verklaringen zijn er voor de negatieve coëfficiënten van disease en medicines De geschatte coëfficiënt van troublework is logischerwijs negatief, omdat een individu die meer last heeft van zijn/haar gezondheid bij het uitoefenen van zijn/haar beroep, zijn/haar eigen gezondheid hierdoor ook slechter zal waarderen. De verklaringsgraad van deze regressie is bijna 24%, dat betekent dat bijna 24% van de eigen gezondheidswaardering kan worden verklaard door de opgenomen variabelen in deze regressie.

Tabel 4. TSLS-regressie van situatie 1: health endogeen verondersteld.

health Coëfficient P>t lincomehour Coëfficient P>z

C 3.468483 0.000 C 2.298083 0.000 F test of excluded instruments

gender 0.0095819 0.788 gender -0.0302648 0.048 F(6, 1588) 50.65

experience -0.0075842 0.000 experience 0.0089357 0.000 Prob > F 0.0000

tenure -0.0103164 0.042 tenure 0.0112267 0.000

tenure2 0.0003263 0.013 tenure2 -0.0002293 0.000 Sargan statistic 7.659

vmbo 0.1374816 0.340 vmbo -0.0667306 0.290 Chi-sq(5) P-value 0.1761

havovwo 0.2285926 0.132 havovwo 0.061493 0.356

mbo 0.171743 0.237 mbo 0.0556313 0.381 Durbin-Wu-Hausman chi-sq test 1.31938

hbo 0.1554661 0.294 hbo 0.1536047 0.018 Chi-sq(1) P-value 0.25070

wo 0.2386319 0.127 wo 0.2658657 0.000 oplother 0.0284202 0.869 oplother 0.0251706 0.739 supervise 0.0214525 0.566 supervise 0.0541052 0.001 supervisenumber -0.0001077 0.508 supervisenumber 0.000273 0.000 difficulties -0.0104022 0.013 difficulties -0.005258 0.005 sectoragricult -0.0122764 0.926 sectoragricult -0.0509397 0.377 sectorindustry 0.0802791 0.191 sectorindustry -0.0948491 0.000 sectorretail 0.141382 0.055 sectorretail -0.1676498 0.000 sectorcatering 0.0670681 0.533 sectorcatering -0.2225144 0.000 sectortransport 0.0380679 0.671 sectortransport -0.0662888 0.090 sectorgovernment 0.0311104 0.657 sectorgovernment -0.0693558 0.023 sectorhealth 0.12634 0.056 sectorhealth -0.0792983 0.006 sectorother 0.0100033 0.870 sectorother -0.1192605 0.000 professionskilled -0.0758548 0.197 professionskilled -0.1827005 0.000 professioninter -0.032356 0.537 professioninter -0.09742 0.000 professionother -0.0184068 0.812 professionother -0.226511 0.000 organiztype 0.0272329 0.577 organiztype -0.0088465 0.679

peoplebranchreal 0.0000334 0.049 peoplebranchreal -7.37e-07 0.921

sportyes 0.1239598 0.000 health 0.0496131 0.048 physician -0.0279116 0.000 disease -0.1360563 0.001 ownrisk 0.0004012 0.001 medicines -0.120699 0.000 troublework -0.2470173 0.000

Number of obs 1621 Number of obs 1621

F( 32, 1588) 15.59 F(27, 1593) 32.37

Prob > F 0.0000 Prob > F 0.0000

Centered R2 0.2390 Centered R2 0.3529

Uncentered R2 0.9661 Uncentered R2 0.9892

Root MSE 0.6154 Root MSE .2696

TSLS: first stage

health endogeen

TSLS: second stage

(19)

Met de gevonden geschikte instrumenten kan nu de tweede stap van de TSLS-regressie worden uitgevoerd. De resultaten hiervan zijn te zien in de tweede regressie van Tabel 4 (midden tabel). De afhankelijke variabele is hier het logaritme van het netto uurloon. De regressieresultaten van deze TSLS-regressie zijn vergelijkbaar met de regressieresultaten van de OLS-regressie van situatie 1, besproken in paragraaf 4.1. De p-waarde van health is echter iets hoger geworden. Uit de p-waarde blijkt dat de geschatte coëfficiënt van health nog steeds significant verschillend van 0 is. Deze geschatte coëfficiënt is in dit geval iets hoger geschat dan met OLS, namelijk een stijging van de eigen gezondheidswaardering met één eenheid, geeft hier een stijging van het netto uurloon met bijna 5%.

Na het uitvoeren van deze tweede stap van TSLS is aan de waarde van de Hausman-toets (rechterkant van de tabel) te zien dat de veronderstelde endogene variabelen, in werkelijkheid niet endogeen zijn, maar exogeen. Hieruit blijkt dat de TSLS-regressieresultaten niet de meest geschikte schattingen geven, maar de OLS-regressieresultaten van situatie 1 wel.

4.2.2. Situatie 2

In Tabel 5 worden de resultaten getoond van de TSLS-regressie van de tweede situatie: alleen BMI is als gezondheidsindicator in de regressievergelijking opgenomen, en er wordt verondersteld dat deze indicator endogeen is. In de eerste stap van deze regressie (linkerkant van de tabel) is te zien welke geschikte instrumenten er zijn gevonden om BMI te verklaren. BMI is hier de afhankelijke variabele. De gevonden geschikte extra instrumenten zijn: sportyes, medicines en physician. De geschatte coëfficiënten van deze instrumenten verschillen allen significant van 0 bij het verklaren van BMI. Aan de waarden van de F-toets van ‘excluded instruments’ en van de Sargan-toets (beiden rechterkant van de tabel) is te zien dat dit inderdaad geschikte instrumenten zijn. Verder zijn bijna alle variabelen uit het ‘standaard pakket’ niet significant verschillend van 0 bij het verklaren van BMI. Dat betekent dat deze variabelen geen significante directe invloed hebben op het BMI. De regressieresultaten met betrekking tot de gevonden extra instrumenten zullen hier worden besproken.

De geschatte coëfficiënt van sportyes is negatief. Dat is zoals verwacht, omdat wanneer een individu aan sport doet, hij/zij vaak fitter en slanker is dan een individu die niet aan sport doet, en dit is terug te zien in het BMI. De geschatte coëfficiënten van medicines en physician zijn positief en dit heeft ook een logische verklaring. Namelijk individuen die meer medicijnen gebruiken en vaker de huisarts bezoeken, zijn over het algemeen minder gezond, en hierdoor vaak ook minder beweeglijk en mobiel, waardoor het BMI hoger kan zijn dan dat van individuen die minder medicijnen gebruiken en minder vaak de huisarts bezoeken. Het gebruik van medicijnen kan ook een positieve invloed hebben op het BMI vanwege mogelijke bijwerkingen van medicijnen die gewichtstoename veroorzaken. De verklaringsgraad van deze regressie is iets meer dan 10%, dat betekent dat iets meer dan 10% van het BMI kan worden verklaard door de opgenomen variabelen in deze regressie. Deze verklaringsgraad is niet erg hoog, maar belangrijker is dat er significante instrumenten zijn gevonden om het BMI te verklaren, wat hier het geval is.

Met de gevonden geschikte instrumenten kan nu de tweede stap van de TSLS-regressie worden uitgevoerd. De resultaten hiervan zijn te zien in de tweede regressie van Tabel 5 (midden tabel). De afhankelijke variabele is hier het logaritme van het netto uurloon. De regressieresultaten van deze TSLS-regressie zijn wederom vergelijkbaar met de regressieresultaten van de OLS-regressie van situatie 2, besproken in paragraaf 4.1. Echter de

(20)

p-waarde en de geschatte coëfficiënt van BMI verschillen wel duidelijk met die van de OLS-regressie: de p-waarde is hoger geworden (0.252), waaraan is te zien dat de geschatte coëfficiënt van BMI in deze regressie niet significant verschilt van 0. De geschatte coëfficiënt van BMI is zeer veel kleiner geworden, namelijk een stijging van het BMI met één eenheid, zou nu een daling van het netto uurloon met iets meer dan 1% opleveren.

Na het uitvoeren van deze tweede stap van TSLS is aan de waarde van de Hausman-toets (rechterkant van de tabel) te zien dat de veronderstelde endogene variabelen, in werkelijkheid niet endogeen zijn, maar exogeen. Hieruit blijkt dat de TSLS-regressieresultaten niet de meest geschikte schattingen geven, maar de OLS-regressieresultaten van situatie 2 wel.

Tabel 5. TSLS-regressie van situatie 2: BMI endogeen verondersteld.

BMI Coëfficient P>t lincomehour Coëfficient P>z

C 2.490474 0.000 C 2.682291 0.000 F test of excluded instruments

gender -0.4371025 0.054 gender -0.0552863 0.001 F(3, 1722) 20.87

experience 0.0468576 0.000 experience 0.0110218 0.000 Prob>F 0.0000

tenure 0.015343 0.621 tenure 0.0110368 0.000

tenure2 -0.0009482 0.228 tenure2 -0.0002477 0.000 Sargan statistic 4.368

vmbo -0.6690063 0.442 vmbo -0.0313136 0.632 Chi-sq(2) P-value 0.1126

havovwo -1.183127 0.197 havovwo 0.076024 0.275

mbo -0.4428952 0.614 mbo 0.0959206 0.145 Durbin-Wu-Hausman chi-sq test 0.54880

hbo -0.8870909 0.323 hbo 0.1987613 0.003 Chi-sq(1) P-value 0.45881

wo -1.691235 0.076 wo 0.3144046 0.000 oplother -0.4291231 0.689 oplother 0.0661561 0.410 supervise 0.1038818 0.667 supervise 0.0708046 0.000 supervisenumber 0.0012916 0.229 supervisenumber 0.0002588 0.001 difficulties 0.0120519 0.647 difficulties -0.0071286 0.000 sectoragricult -0.0725437 0.931 sectoragricult -0.0424917 0.501 sectorindustry 0.0393951 0.920 sectorindustry -0.0940022 0.001 sectorretail -0.3118187 0.503 sectorretail -0.1787391 0.000 sectorcatering 0.9655772 0.159 sectorcatering -0.2000223 0.000 sectortransport 0.704311 0.220 sectortransport -0.0407172 0.352 sectorgovernment 0.2657875 0.553 sectorgovernment -0.0785319 0.020 sectorhealth -0.3864585 0.361 sectorhealth -0.0579374 0.068 sectorother -0.2571096 0.508 sectorother -0.1472772 0.000 professionskilled 0.0361547 0.924 professionskilled -0.1879333 0.000 professioninter 0.1603792 0.634 professioninter -0.1014789 0.000 professionother 1.00388 0.040 professionother -0.2268923 0.000 organiztype -0.1945852 0.531 organiztype -0.001124 0.962

peoplebranchreal 0.0002167 0.051 peoplebranchreal 2.08e-06 0.809

sportyes -0.6384733 0.001 BMI -0.0108562 0.252

medicines 0.6281547 0.000

physician 0.1029505 0.037

Number of obs 1752 Number of obs 1752 F(29, 1722) 6.86 F(27, 1724) 34.61 Prob > F 0.0000 Prob>F 0.0000 Centered R2 0.1035 Centered R2 0.3488 Uncentered R2 0.9757 Uncentered R2 0.9862 Root MSE 4.068 Root MSE 0.305

TSLS: first stage

BMI endogeen

TSLS: second stage