De stabiliteit van de relatie tussen de individuele ziektekosten en de ziektekostenverzekering

(1)

De stabiliteit van de relatie tussen de

individuele ziektekosten en de

ziektekostenverzekering

24-12-2014 Rens Garssen

Dhr. dr. J.C.M. van Ophem 10319476

(2)

2

Inhoud

1. Inleiding ... 3 2. Theoretisch kader ... 5 2.1. Voorgaande onderzoeken ... 5 2.2. Het model ... 8

2.3. De overeenkomende variabelen van X en Z ... 10

2.4. De verschillende variabelen van X en Z ... 13

2.5. Non-lineaire verbanden ... 14 3. Onderzoeksmethode ... 16 3.1. Probit- en OLS-model ... 16 3.2. De variabelen ... 17 4. Data-analyse ... 19 4.1. Analyse samenvattingstabellen ... 19

4.2. Analyse samenvattingstabellen inclusief BMI en rookstatus ... 27

5. Resultaten... 31

5.1. Probit-schatting ... 31

5.2. OLS-schatting ... 35

5.3. Probit-schatting met BMI en rookstatus ... 39

5.4. OLS-schatting met BMI en rookstatus ... 42

6. Conclusie ... 44

Bibliografie ... 47

Bijlage ... 49

I. Bewijs correctieterm ... 49

II. Samenvoeging 𝑌𝑌𝑖𝑖1 en 𝑌𝑌𝑖𝑖0 ... 50

(3)

3

1. Inleiding

Volgens het rapport “The Economic Case for Health Care Reform” van de ‘Counsil of Economic Advisors’ (CEA) (2009) heeft een hervorming van het Amerikaanse ziektekostenverzekeringssysteem een hoge prioriteit in Amerika. Deze hervorming wordt als noodzakelijk gezien vanwege twee aspecten, het stijgende aandeel van de medische kosten in het bruto binnenlands product en de grote groep onverzekerden.

Het eerste probleem is dat in 2009 achttien procent van het BBP van de Verenigde Staten uit medische uitgaven bestond. In het rapport wordt ook een voorspelling gemaakt voor het jaar 2040, waarin, als de groei van de medische uitgaven zo doorgaat, 34 procent van het BBP uit medische uitgaven bestaat (CEA, 2009). De medische kosten stijgen onder andere door vergrijzing,

toegenomen levensduur en innovatie van medische behandelingsmethoden. Er zijn steeds meer oudere mensen en zij hebben meer en vaker gezondheidsproblemen waar ze voor behandeld moeten worden. Dit veroorzaakt een stijging van het aandeel van medische kosten in het BBP. Door de innovatie van technieken bij behandelingen van ziektes en andere aandoeningen worden de behandelingen zelf ook vaak duurder. Hierdoor moeten de ziektekostenverzekeraars hun premies verhogen en dit leidt ook weer tot een stijgend aandeel van de medische kosten in het BBP. Het stijgende aandeel van medische kosten in het BBP heeft ook grote gevolgen voor het

overheidsbudget, want bijna de helft van de medische uitgaven in Amerika wordt betaald door de overheid (Gruber, 2008).

Het tweede probleem is de grote groep onverzekerden. Hoewel in Nederland een ziektekostenverzekering verplicht is, is dit in Amerika niet het geval. Het Amerikaanse systeem bestaat voornamelijk uit verzekeringen vanuit de werkgever, privéverzekeringen, militaire

verzekeringen, Medicare en Medicaid. De laatste drie zijn verzekeringsregelingen betaald door de overheid voor, respectievelijk, huidige en voormalige militairen en hun afhankelijken, individuen ouder dan 65 jaar en individuen met een laag inkomen (Department of Health and Human Services, 2014). In 2008 bestond de groep onverzekerden uit 46 miljoen Amerikanen. Om de groep

onverzekerden te kunnen verkleinen, moet er gekeken worden naar de voor- en nadelen van verzekerd zijn. Uit Fronstin (2005) blijkt dat de financiële afweging de belangrijkste overweging is bij het al dan niet afsluiten van een verzekering. In 2002 gaf namelijk 64,4 procent van de

onverzekerden aan dat de hoge kosten de reden was om geen verzekering af te sluiten (Fronstin, 2005).

In deze scriptie staat het verband tussen het al dan niet verzekerd zijn met de totale medische uitgaven centraal. Om dit verband te kunnen bepalen wordt er onderzocht hoe het effect

(4)

4 van al dan niet verzekerd zijn de totale medische uitgaven van een persoon beïnvloedt. Hierbij wordt gebruik gemaakt van een Heckman sample selection model gebaseerd op de methode van Lueng en Yu (1996) en Hussinger (2008). Dit houdt in dat in de eerste stap wordt gekeken naar de keuze wel of niet afsluiten van een privéziektekostenverzekering. Hiervoor wordt een probit-model geschat. In de tweede stap wordt een OLS-regressie toegepast met een correctie voor selectiviteit op grond van de eerdere probit-schatting. De totale medische uitgaven zijn de afhankelijke variabelen en worden berekend voor de verzekerden en de onverzekerden. De data die gebruikt worden voor het samenstellen van de verklarende variabelen komen van de Medical Expenditure Panel Survey (MEPS). Deze data zijn ontstaan door het afnemen van enquêtes bij individuen, families, hun

verzekeringsmaatschappijen en hun werkgevers. In dit onderzoek wordt er gebruik gemaakt van data van de jaren 1996, 2000, 2004, 2008 en 2012.

De structuur van deze scriptie ziet er als volgt uit. Allereerst wordt in het theoretisch kader achterliggende informatie gegeven over het onderzoek. Daarbij wordt er gekeken naar causale verbanden en variabelen die relevant zijn voor het model. Vervolgens wordt de onderzoeksmethode uitgelegd en toegelicht. Daarnaast volgt er een korte beschrijving van de gebruikte data. Aansluitend worden de resultaten besproken met tot slot een conclusie.

(5)

5

2. Theoretisch kader

In de volgende paragraaf worden als eerste voorgaande onderzoeken naar medische uitgaven besproken. Hierbij worden er verschillende methoden uitgelegd. Deze onderzoeken hebben een belangrijke rol gespeeld bij het onderzoek van Shen (2013). Het model van Shen (2013) wordt ook besproken met vervolgens een connectie tussen zijn model en het model in deze scriptie. Daarbij wordt er kritisch gekeken naar het model en bijbehorende aannames. Daarna worden de variabelen besproken die zowel voor het al dan niet verzekeren als de medische uitgavenfunctie belangrijk zijn. Ook komen de variabelen die verschillend zijn voor beide functies aan de orde en als laatste worden de mogelijkheden met niet-lineaire relaties van variabelen bekeken.

2.1. Voorgaande onderzoeken

Duan et al. (1982) hebben onderzoek gedaan naar statistische modellen die gebruikt kunnen worden voor het verklaren van de vraag naar medische zorg. De methodes die aan bod komen zijn de analyse van de variantie (ANOVA) en covariantie (ANOCOVA), het one-part model, het two-part model en het four-part model. Duan et al. (1982) gebruiken de medische uitgaven, exclusief uitgaven voor de tandarts, als afhankelijke variabelen. De verklarende variabelen die gebruikt worden zijn leeftijd, geslacht, etniciteit, logaritme van inkomen en familiegrootte, eigen geschatte gezondheidstoestand, pijn en stress. Ze noemen twee oorzaken die het verklaren van de medische uitgaven moeilijk maakt: 80% heeft zeer scheef verdeelde uitgaven en de overige 20% van de populatie heeft geen uitgaven. Het tweede probleem is zit in de 80% met medische uitgaven. Er zijn namelijk ook nog individuen die in het ziekenhuis liggen of hebben gelegen en dus qua uitgaven er ver bovenuit steken. Hierdoor kan er geen passende verdeling voor de medische uitgaven gevonden worden. Bij de analyse van de methodes is gebruik gemaakt van de data van ‘Rand Health Insurance Policy’. Hierbij zijn er dummy’s gemaakt op basis van verschillende dekkingsgraden van een ziektekostenverzekering, namelijk 100%, 75%, 50% en 5% dekking. Bij de analyse van de variantie (ANOVA) en covariantie (ANOCOVA) zijn de ongetransformeerde medische uitgaven als afhankelijke variabelen gebruikt.

Het model voor de ANOVA zag er als volgt uit: 𝑌𝑌𝑖𝑖 = 𝜇𝜇 + 𝛼𝛼𝑖𝑖+ 𝜀𝜀𝑖𝑖 , 𝑖𝑖 = 1, . . , 𝑛𝑛

Hier is 𝜇𝜇 het gemiddelde van de gemiddeldes van de verschillende groepen gebaseerd op de dekkingsgraad, 𝛼𝛼𝑖𝑖 het effect van het verzekeringsplan en 𝜀𝜀𝑖𝑖 de storingsterm. Als 𝛼𝛼𝑖𝑖 en 𝜀𝜀𝑖𝑖

(6)

6 storingsterm niet normaal verdeeld is, zijn de resultaten met betrekking tot 𝜇𝜇 zeer gevoelig voor de extreme waarden van de medische uitgaven veroorzaakt door de mensen zonder uitgaven en de mensen met hele hoge uitgaven. Het belangrijkste is dat met behulp van ANOVA er geen schattingen kunnen worden gedaan voor de mate van het effect van verklarende variabelen op de medische uitgaven.

Voor de ANOCOVA zijn er wel verklarende variabelen opgenomen in het model. Het model ziet er als volgt uit:

𝑌𝑌𝑖𝑖 = 𝑥𝑥𝑖𝑖𝛽𝛽1+ 𝜀𝜀𝑖𝑖 , 𝑖𝑖 = 1, … , 𝑛𝑛

Hier is 𝑥𝑥𝑖𝑖 een rijvector bestaande uit de verklarende variabelen inclusief het effect van het

verzekeringsplan. Op deze vergelijking wordt OLS toegepast waarbij de schatting 𝛽𝛽� het resultaat is. 1 Dus de resultaten zijn zuiver en consistent, mits 𝑥𝑥𝑖𝑖 ongecorreleerd is met de storingsterm en het model daadwerkelijk lineair is. Echter is ook deze methode, net als de ANOVA, gevoelig voor de extreme waarden van de medische uitgaven. Dit blijkt uit de grafiek van de residuen, waarbij te zien is dat het residu zeer scheef verdeeld is.

Het one-part model is vergelijkbaar met de ANOCOVA, alleen wordt er gebruik gemaakt van een Box-Cox transformatie van de medische uitgaven. Een one-parameter Box-Cox transformatie ziet er in algemene vorm als volgt uit:

𝑦𝑦_𝑖𝑖() = �𝑦𝑦𝑖𝑖 _{− 1}

 𝑎𝑎𝑎𝑎𝑎𝑎 ≠ 0 ln(𝑦𝑦𝑖𝑖) 𝑎𝑎𝑎𝑎𝑎𝑎 = 0

De toevoeging van de logaritmische transformatie brengt de verdeling van de medische uitgaven dichter bij een normale verdeling.

log(𝑌𝑌𝑖𝑖+ 5) = 𝑥𝑥𝑖𝑖𝛽𝛽3+ 𝜀𝜀3𝑖𝑖 , 𝑖𝑖 = 1, … , 𝑛𝑛

Hierbij ontstaat wel het probleem dat een logaritme van de waarde nul niet kan en daarom is er een constante van vijf dollar toegevoegd. Duan et al. (1982) hebben gekozen voor de waarde vijf, omdat dat de scheefheid van het residu in hun geval minimaliseerde. Ook deze vergelijking is geschat door middel van OLS. De precisie van de resultaten is wel vergroot door het betrekken van de verklarende variabelen en de transformatie van de medische uitgaven.

Bij het two-part model wordt voor het eerst rekening gehouden met de groep mensen zonder medische uitgaven. Dit model bestaat uit twee aparte vergelijkingen. Als eerste een vergelijking voor de kans op positieve uitgaven, geschat door middel van maximum likelihood.

(7)

7 Vervolgens een vergelijking voor de medische uitgaven met behulp van OLS, gegeven dat de uitgaven positief zijn.

𝐼𝐼𝑖𝑖= 𝑥𝑥𝑖𝑖𝛿𝛿1+1𝑖𝑖 , 1𝑖𝑖~𝑁𝑁(0,1), 𝑃𝑃(𝐼𝐼𝑖𝑖 > 0) =(𝑥𝑥𝑖𝑖𝛿𝛿1) log(𝑌𝑌𝑖𝑖|𝐼𝐼𝑖𝑖> 0) = 𝑥𝑥𝑖𝑖𝛿𝛿2+2𝑖𝑖 , 2𝑖𝑖~𝑁𝑁(0, 𝜎𝜎2)

Volgens Duan et al. (1982) zijn de resultaten van het two-part model beter dan de voorgaande methodes, omdat hier expliciet rekening wordt gehouden met geen uitgaven. De extreem hoge uitgaven worden nog wel genegeerd, waardoor de geschatte waardes van 𝛿𝛿2 toch nog inconsistent kunnen zijn.

Als laatste methode wordt het four-part model gebruikt. Dit model verdeelt de steekproef in drie groepen; personen zonder medische uitgaven, personen met medisch uitgaven zonder

opgenomen te zijn in het ziekenhuis en personen met medische uitgaven die ook opgenomen zijn in het ziekenhuis. Door het introduceren van het verschil tussen opgenomen worden in het ziekenhuis of niet, wordt het probleem van de extreem hoge uitgaven verkleind. De vier vergelijkingen zien er als volgt uit:

𝐼𝐼𝑖𝑖= 𝑥𝑥𝑖𝑖𝛾𝛾1+1𝑖𝑖 , 1𝑖𝑖~𝑁𝑁(0,1), 𝑃𝑃(𝐼𝐼𝑖𝑖 > 0) =(𝑥𝑥𝑖𝑖𝛾𝛾1)

𝑈𝑈𝑖𝑖 = 𝑥𝑥𝑖𝑖𝛾𝛾2+2𝑖𝑖 , 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑛𝑛 𝐼𝐼𝑖𝑖> 0, 1𝑖𝑖~𝑁𝑁(0,1), 𝑃𝑃(𝑈𝑈𝑖𝑖 > 0|𝐼𝐼𝑖𝑖> 0) =(𝑥𝑥𝑖𝑖𝛾𝛾2) log(𝑌𝑌𝑖𝑖|𝐼𝐼𝑖𝑖> 0, 𝑈𝑈𝑖𝑖 ≤ 0) = 𝑥𝑥𝑖𝑖𝛾𝛾3+𝑖𝑖 en log(𝑌𝑌𝑖𝑖|𝐼𝐼𝑖𝑖 > 0, 𝑈𝑈𝑖𝑖 > 0) = 𝑥𝑥𝑖𝑖𝛾𝛾4+ 𝜔𝜔𝑖𝑖

Uiteindelijk worden de medische uitgaven dus geschat gegeven dat ze positief zijn en of de persoon al dan niet is opgenomen in het ziekenhuis. Duan et al. (1982) concluderen dat het four-part model de beste resultaten oplevert, maar ze zijn nog steeds ontevreden omdat de aannames over de verdeling van de storingstermen in de eerste twee vergelijkingen toch weer inconsistente schatters kan opleveren als die aannames van de storingstermen niet waar blijken te zijn. De oplossing hiervoor is een semi-parametrisch of non-parametrisch model. Hierbij worden er geen aannames gemaakt over eventuele verdelingen. Het four-part model is in ieder geval wel de beste optie van de besproken methodes volgens Duan et al. (1982).

Manning et al. (1988) hebben vervolgens precies het hierboven beschreven four-part model geschat. Ze hebben verschillende categorieën gecreëerd om de problemen qua personen zonder uitgaven en met zeer hoge uitgaven te voorkomen. De categorieën bestaan uit niet-gebruikers van medische zorg, gebruikers van medische zorg zonder opgenomen te worden in het ziekenhuis en de personen die wel opgenomen worden in het ziekenhuis. Ze gebruiken data uit zes verschillende regio’s in Amerika. De eerste vergelijking is een probit-model voor het wel of niet gebruiken van

(8)

8 medische zorg, daarna een probit-model voor het wel of niet opgenomen worden in een ziekenhuis. De derde stap is een lineaire regressie van de logaritme van de medische uitgaven voor personen die niet zijn opgenomen in het ziekenhuis en de vierde stap is gelijk aan de derde maar dan voor de personen die wel opgenomen zijn in het ziekenhuis. Tussen 1950 en 1984 stegen de medische uitgaven met een factor zeven, maar uit de resultaten van Manning et al. (1988) blijkt dat de verandering van ziektekostenverzekeringen maar een klein deel van deze stijgende medische

uitgaven kunnen verklaren. De sterke stijging van de medische uitgaven wordt voor het grootste deel verklaard door de technische innovatie (Manning et al. 1988). Er zijn namelijk veel nieuwe

behandelingsmethode met nieuwe apparaten bijgekomen in vergelijking met 1950. Miller et al. (2004) schatten ook een four-part model voor de invloed van de

ziektekostenverzekeringstatus op de totale medische uitgaven. De vier stappen bestaan uit dezelfde soort vergelijkingen als Manning et al. (1988), alleen wordt het probit-model vervangen door een logit-model. Sinds de onverzekerden zichzelf minder snel fysiek en mentaal ongezond inschatten en vervolgens ook geen beperkingen aangeven, hebben Miller et al. (2004) naast de gebruikelijke variabelen als geslacht, leeftijd, etniciteit, scholing en inkomen, ook variabelen voor fysieke en mentale gezondheidsstatus en fysieke beperking toegevoegd. Uit de resultaten blijken deze variabelen een significant effect te hebben.

2.2. Het model

Shen (2013) heeft zijn onderzoek gebaseerd op de onderzoeken besproken in bovenstaande

paragraaf. Hiervoor gebruikt hij een model dat grotendeels vergelijkbaar is met het four-part model. Hij onderscheidt drie onderwerpen met drie verschillende vergelijkingen: het al dan niet afsluiten van een privéziektekostenverzekering (I), het opzoeken van medische zorg of niet (A) en de medische uitgaven (Y). Shen (2013) creëert een belangrijk verschil tussen de twee modellen door rekening te houden met correlaties in zijn model. Hij voegt namelijk twee correctietermen en een

correlatiefactor toe. De correctietermen komen van vergelijking (1) en (2) en worden toegevoegd bij vergelijking (3). De correlatiefactor wordt toegevoegd in vergelijking (2), omdat er eventueel een correlatie bestaat tussen het al dan niet afsluiten van een privéziektekostenverzekering (I) en het opzoeken van medische zorg (A). Het model wordt op twee verschillende manieren geschat, namelijk semi-parametrisch en parametrisch. Bij een semi-parametrisch model wordt er geen aanname gemaakt over de verdeling van de storingsterm. Waar bij Manning et al. (1988) en Miller et al. (2004) sprake was van respectievelijk een normaal verdeelde storingsterm en een lognormaal verdeelde storingsterm, wordt er door Shen (2013) geen verdelingsfunctie gekozen. Puur als

(9)

9 vergelijkingsmateriaal past hij ook nog een parametrische methode toe, waarbij er dus wel een aanname wordt gemaakt over de verdeling van de storingsterm. Het model van Shen (2013) ziet er als volgt uit:

𝐼𝐼 = 1{𝑉𝑉𝐼𝐼 > I}, met 𝑉𝑉𝐼𝐼 = 𝑍𝑍𝐼𝐼_𝐼𝐼 (1)

𝐴𝐴 = 1{𝑉𝑉𝐴𝐴 + 𝐼𝐼θ𝐴𝐴 > ε𝐴𝐴}, met 𝑉𝑉𝐴𝐴 = 𝑊𝑊𝐴𝐴β𝐴𝐴 (2) 𝑌𝑌 = 𝑋𝑋β + 𝐼𝐼θ + 𝑢𝑢, 𝑤𝑤𝑎𝑎𝑎𝑎𝑤𝑤𝑔𝑔𝑔𝑔𝑛𝑛𝑤𝑤𝑤𝑤𝑔𝑔𝑛𝑛 𝑎𝑎𝑎𝑎𝑎𝑎 𝐴𝐴 = 1 (3)

In vergelijking (1) wordt er een waarde 1 toegekend als 𝑍𝑍𝐼𝐼𝐼𝐼− I> 0 en de waarde 0 als

𝑍𝑍𝐼𝐼_𝐼𝐼− I≤ 0. Als I = 1 heeft het individu een privéziektekostenverzekering en voor I = 0 niet. De keuze voor het al dan niet afsluiten van een privéziektekostenverzekering wordt zo goed mogelijk verklaard door de variabelen in de matrix Z, maar het blijft een individuele keuze wat endogeniteit kan veroorzaken. Endogeniteit kan bijvoorbeeld veroorzaakt worden door het bestaan van ‘adverse selection’ en ‘moral hazard’. ‘Adverse selection’ is gebaseerd op asymmetrische informatie tussen twee partijen, in dit geval de verzekeraar en de persoon die een verzekering wil. Personen die meer medische hulp nodig hebben of nodig denken te hebben, zullen daardoor een grotere stimulans ervaren om een verzekering af te sluiten (Chassagnon & Chiaporri, 1997). Vervolgens, als een individu een verzekering heeft afgesloten, bestaat er een kans op ‘moral hazard’ (Mirrlees, 1999). ‘Moral hazard’ is te definiëren als een situatie waarbij een partij meer risico durft te lopen, omdat de eventuele extra kosten van dat risico niet voor de desbetreffende partij zelf zijn. Ook zullen sommige verzekerden sneller naar de dokter gaan of willen eerder medicijnen voor lichte klachten. ‘Moral hazard’ heeft dus vooral invloed bij vergelijking (2) en (3). Om deze redenen zijn de correctietermen toegevoegd in het model.

Bij vergelijking (2) wordt er gekeken naar het wel of niet opzoeken van medische zorg bij bijvoorbeeld een dokter. Hierin heeft Shen (2013) het al dan niet verzekerd zijn toegevoegd omdat het hebben van een verzekering invloed heeft op het gebruik van medische zorg. Dit gebeurt onder ander door ‘moral hazard’. Er wordt een waarde 1 toegekend als 𝑉𝑉𝐴𝐴 + 𝐼𝐼θ𝐴𝐴− ε𝐴𝐴> 0 en de waarde 0 als 𝑉𝑉𝐴𝐴 + 𝐼𝐼θ𝐴𝐴− ε𝐴𝐴≤ 0. Vervolgens worden de medische uitgaven geschat door een lineaire

vergelijking met 𝐼𝐼 als extra variabele, gegeven dat de persoon gebruik heeft gemaakt van medische zorg (𝐴𝐴 = 1).

In deze scriptie wordt gebruik gemaakt van een Heckman sample selection model, wat deels overeenkomt met het model van Shen (2013). Dit houdt in dat het model in twee stappen wordt onderverdeeld, namelijk de indicatorfunctie voor het wel of niet afsluiten van een

privéziektekostenverzekering en de functie voor de medische uitgaven met een selectiviteitscorrectie. Onder een privéziektekostenverzekering wordt zowel een

(10)

10 ziektekostenverzekering via werk als een zelf afgesloten verzekering bij een particulier

verzekeringsbedrijf verstaan. Er is gekozen voor het weglaten van de vergelijking over het opzoeken van medische zorg of niet (A), omdat de interesse vooral ligt bij de ontwikkeling van het wel of niet verzekeren en de medische uitgaven over de tijd. Daarom is het model dat gebruikt wordt in deze scriptie eenvoudiger dan het model van Shen of een four-part model. Om het al dan niet gebruik maken van medische zorg niet helemaal te negeren is er een variabele toegevoegd die het totale aantal bezoeken aan een medische deskundige weergeeft. Het model van deze scriptie is weergegeven in vergelijking (4) en (5). Vergelijking (4) wordt geschat met behulp van een probit-model. Vergelijking (5) is de functie voor de medische uitgaven, waarbij 𝐼𝐼 de dummyvariabele is uit vergelijking (4). De derde term in de formule is de correctieterm. 1

I = 1{Zi’ + i > 0}, I = 0 als Zi’ + i≤ 0 en I = 1 als Zi’ + i> 0 (4)

𝑌𝑌𝑖𝑖 = 𝑋𝑋𝛽𝛽0+ 𝛽𝛽1𝐼𝐼 + 𝛽𝛽2�φ(Z__(Z_ii_{’)(1−(Z}’)(I−(Z_ii’))_’))� + i (5)

Net als bij Shen (2013) wordt de keuze voor het al dan niet afsluiten van een

privéziektekostenverzekering zo goed mogelijk benaderd door middel van de variabelen in de matrix Z, maar blijft het wel een individuele keuze. Daarom moet er rekening worden gehouden met de mogelijkheid op endogeniteit (Shen, 2013). Dit model houdt rekening met endogeniteit van de keuze voor het al dan niet afsluiten van een privéziektekostenverzekering door middel van de

correctieterm.

Bij het model van deze scriptie zijn er ook nog twee kritische punten. Ten eerste wordt er gebruikt gemaakt van de assumptie dat _i normaal verdeeld is. Als dit niet waar is, leidt dit tot inconsistente schatters. Dit zou opgelost kunnen worden door een semi-parametrische of non-parametrische methode (Shen, 2013). Ten tweede is er een kans op multicollineariteit als de matrices Z en X te veel overeenkomen (Puhani, 2000). Daarom moeten er instrumenten gevonden worden waardoor de matrices X en Z zo veel mogelijke verschillen. Anders kan er een sterke correlatie ontstaan tussen Xiβ en de correctieterm die afhangt van Z en �, wat een ernstige mate van multicollineariteit kan veroorzaken.

2.3. De overeenkomende variabelen van X en Z

Uit de onderzoeken van Duan et al. (1983), Manning et al. (1988) en Miller et al.(2004) blijken gegevens als leeftijd, inkomen, scholing, geslacht en etniciteit van belang te zijn voor zowel de keus

(11)

11 voor het afsluiten van een privéverzekering als de hoogte van de medische uitgaven. De genoemde variabelen zijn belangrijk bij het afsluiten van een privéverzekering omdat actuarissen bij de

berekening van de premie onder andere deze factoren meenemen (Promislow, 2011). Fuchs (2004) legt uit hoe deze variabelen gecorreleerd zijn met de gezondheid en dus ook indirect met de medische uitgaven.

De relatie tussen inkomen en gezondheid is volgens Fuchs (2004) de minst eenduidige van de verschillende relaties die hij bespreekt. De correlatie tussen inkomen en gezondheid kan variëren tussen zwak negatief tot sterk positief.2_{Daarnaast kan de causaliteit geïnterpreteerd worden als een} effect van zowel inkomen op gezondheid als andersom. Onderzoekers nemen vaak aan dat landen met een hoog inkomen een positief effect van inkomen op gezondheid hebben. Volgens Fuchs (2004) varieert de sterkte van dit effect door leeftijd, ziekte en hoogte van het inkomen. Hij noemt

bijvoorbeeld de relatie tussen een hoog inkomen en het voedselpatroon. Een hoger inkomen leidt tot betere voeding en dus een gezonder bestaan. Aan de andere kant kan een hoger inkomen ook betekenen dat er hard gewerkt wordt met lange dagen en veel stress. Deze factoren beïnvloeden de gezondheid negatief. De gezondheid kan ook het inkomen beïnvloeden. Zo noemt Fuchs (2004) het positieve effect van gezondheid op inkomen in Derde Wereld landen. Een betere gezondheid, betekent een hogere overlevingskans voor de persoon zelf en de kinderen. Hierdoor kunnen er meerdere familieleden werken zal het familie-inkomen toenemen. Voor westerse landen geldt dit in mindere mate. Wel kan de invloed van gezondheid op werk waargenomen worden bij het vervroegd uitreden. Oudere mensen die het werk niet meer aan kunnen en dus eerder stoppen met werken ervaren een negatief effect van gezondheid op inkomen. Een hoger inkomen kan ook de medische uitgaven beïnvloeden. Een hoger inkomen verlaagt de drempel om medicijnen te kopen of een verzekering af te sluiten, waardoor de medische uitgaven zullen toenemen.

De relatie van scholing met gezondheid is evenmin duidelijk. Het onderwijssysteem in Amerika is opgebouwd uit ‘Kindergarten’ (1 jaar), elementary school (in Nederland groep 3 t/m 8), Middle school (2 jaar) en High school (4 jaar). Hoewel er kleine verschillen zijn tussen de staten in Amerika is de leerplichtleeftijd ongeveer 16 jaar. Eventueel kan hierna nog een vervolgopleiding worden gevolgd aan een universiteit, HBO of andere onderwijsinstelling. Deze vervolgstudie zorgt voor het verschil in aantal jaren scholing, maar een significant verschil van het verband tussen scholing en gezondheid tussen een geneeskundestudent of een rechtenstudent is onwaarschijnlijk. Bij studenten worden er wel verschillen waargenomen op het gebied van roken, drinken, onveilige seks en ander ongezond gedrag (Fuchs, 2004). Dit ongezonde gedrag wordt vaker gezien bij lager

2_{Vaak wordt voor inkomen het nominaal inkomen gebruikt (Fuchs, 2004). Het nominaal inkomen is het}

(12)

12 geschoolde studenten dan bij hoger geschoolde studenten. Dit betekent een negatief effect tussen scholing en het genoemde ongezonde gedrag en dus een positief effect tussen scholing en

gezondheid voor de studenten. Of dit dan ook de volwassen gezondheid beïnvloed is niet zeker. Er is in ieder geval bijna geen bewijs voor een negatief effect van scholing op de gezondheid. Mocht het effect van scholing op gezondheid positief zijn, dan betekent dat een negatief effect van scholing op medische uitgaven.

Er is wel een negatief effect van leeftijd op gezondheid. “Gezondheid neemt af met de leeftijd, dat is een fundamenteel feit in de biologie. “, zegt Fuchs (2004). Hij doelt hierbij op een vergrote kans op ziektes en het aftakelen van het lichaam. Dit heeft ook hogere medische uitgaven tot gevolg, direct via medicijnen of indirect via de verzekering. Omdat leeftijd gecorreleerd kan zijn met inkomen en scholing, vindt hij het zeer belangrijk kruistermen van deze variabelen toe te voegen om multicollineariteit te voorkomen.

Zowel vermeldt door Promislow (2011) als Fuchs (2004) blijkt de levensverwachting van vrouwen hoger te zijn dan van mannen. Vooral in landen met een laag inkomen is dit verschil nog duidelijk aanwezig. Bij landen met een hoog inkomen daalt deze ratio van mannen- en

vrouwensterfte steeds meer, maar het verschil is nog steeds aanwezig. Daarom is er een correlatie tussen geslacht en levensverwachting.

De variabele etniciteit wordt vaak bediscussieerd. De relatie tussen etniciteit en gezondheid is lastig te specificeren, ondanks dat het er wel degelijk is. Etniciteit hangt namelijk sterk samen met andere socio-economische variabelen (Fuchs, 2004). Een opvallend probleem in de Verenigde Staten is de verklaring waarom de levensverwachting van zwarte mensen 7 jaar lager ligt dan van blanke mensen. Hiervoor worden meestal laag inkomen, minder scholing en slechtere toegang tot medische zorg als verklaringen gebruikt.

Ook al geeft Shen (2013) argumenten de regio niet mee te nemen in de regressie voor de totale medische uitgaven, is er in deze scriptie voor gekozen deze regiovariabelen toch mee te nemen. Net als etniciteit en geslacht zijn regiovariabelen standaard controle variabelen in een regressie. Daarom zijn deze variabelen opgenomen in beide vergelijkingen.

Naast deze variabelen hebben Duan et al. (1983), Manning et al. (1988) en Miller et al.(2004) ook significante effecten van de grootte van de familie, rookgedrag en drinkgedrag ontdekt. Behalve familiegrootte zijn deze variabelen niet voor ieder jaar in de MEPS-data beschikbaar. Daarom zullen er regressies met en zonder deze variabelen uitgevoerd worden.

Fronstin (2005) analyseert de March 2005 Current Population Survey. Vervolgens bespreekt hij de gevonden trends tussen 1994 en 2005 en benoemt hij eigenschappen die bepalen of een persoon verzekerd is of niet. Uit Fronstin (2005) blijkt dat in 1997 ongeveer 8,1 procent van de onverzekerden een verzekering niet nodig vond of niet wilde. In 2002 is dit deel gestegen tot 9,2

(13)

13 procent. Om te weten of iemand het nodig vindt om een verzekering af te sluiten kan er bijvoorbeeld gekeken worden naar eigen waardering van de persoonlijke gezondheid. Een variabele als eigen gezondheidsstatus volgens de persoon zelf kan een indicatie geven of mensen een verzekering willen afsluiten of niet. Ook kan deze variabele een rol spelen bij de medische uitgaven (Duan et al., 1982).

Als laatste is er ook nog een overeenkomst tussen X en Z door de variabele die weergeeft of een persoon al dan niet in bezit is van een publieke ziektekostenverzekering. Als men al publiek verzekerd is voor de ziektekosten, dan lijkt een extra privéziektekostenverzekering overbodig. Uit Gruber en Simon (2008) blijkt dat een combinatie van privéziektekostenverzekering en publieke ziektekostenverzekering mogelijk is, waarbij zij een ziektekostenverzekering via werk ook als een privéziektekostenverzekering beschouwen. Om deze reden is de toevoeging van de variabele over het al dan niet in bezit zijn van een publieke ziektekostenverzekering belangrijk in de indicator functie voor het al dan niet afsluiten van een privéziektekostenverzekering. Daarnaast is deze variabelen net als de variabele voor de privéziektekostenverzekering van belang voor de totale medische uitgaven, want een verzekering vergoed een deel van de kosten.

2.4. De verschillende variabelen van X en Z

Om het effect van multicollineariteit te verkleinen, zullen er verschillen tussen de matrices X en Z moeten zijn (Puhani, 2008). Het belangrijkste verschil tussen de variabelen die meegenomen worden in de vergelijking van het two-part model is de correctieterm. Deze wordt toegevoegd als variabele bij het model voor de totale medische uitgaven. In het model in deze scriptie wordt er vanuit gegaan dat het al dan niet afsluiten van een privéziektekostenverzekering een endogene variabele is en er dus een correlatie tussen de twee storingstermen bestaat. Daarom wordt er een significant effect van de correctieterm verwacht bij de resultaten.

Ook Shen (2013) heeft geprobeerd X en Z zo min mogelijk te laten overlappen. Hij gebruikt bijvoorbeeld huwelijkstatus wel voor de indicatorfunctie voor het al dan niet afsluiten van een privéziektekostenverzekering, maar vervolgens niet voor de uitgavenfunctie. Dit doet hij, omdat hij beredeneert dat wanneer een patiënt heeft besloten medische hulp te zoeken, de voorgeschreven behandeling en dus de medische kosten los staan van de burgerlijke staat van de patiënt.

Nog een verschil tussen de matrices X en Z heeft betrekking op werk. Tussen 2000 en 2004 daalde het percentage dat zich verzekerden via hun werk van 67,8 procent naar 63,3 procent (Holahan en Cook, 2008). Voor het verzekeren via werk gebruikt Shen (2013) niet alleen inkomen en scholing, maar ook de beroepscategorie. Deze laatste variabele heeft ook een effect op de

(14)

14 arbeidsbeloningssysteem. Verschillende banen kunnen verschillende verzekeringsaanbiedingen met verschillende prijzen hebben. Zo is er bijvoorbeeld ook een verschil in verzekeringsaanbod voor fulltime en parttime werknemers (Fronstin, 2005). Of een persoon een verzekering via werk heeft, hangt dus af van welke beroep er wordt uitgeoefend. Shen (2013) neemt daarom beroepscategorie wel mee bij de indicatorfunctie voor de verzekering, maar niet voor de medische uitgaven. Als de verzekering eenmaal is gekozen, maakt het voor het opzoeken van medische zorg en de medische uitgaven niet meer uit wat de baan is (Shen, 2013). In het model in deze scriptie is hier rekening mee gehouden door een gelijke variabele als Shen (2013) over de beroepscategorie te generen. Dit is de dummyvariabele voor beroepscategorieën met de waarde 1 voor beroepen in de financiële, management en business tak of een beroep in een professioneel of gerelateerd vakgebied. Uit Fronstin (2005) en Gruber en Simon (2008) blijkt dat het aanbieden van een ziektekostenverzekering niet voor ieder bedrijf haalbaar is. Alleen de grote bedrijven kunnen een ziektekostenverzekering aanbieden aan hun personeel. Om deze reden is er een dummyvariabele toegevoegd die weergeeft of een bedrijf meerdere locaties heeft of niet. Deze dummyvariabele heeft de waarde 1 als een individu bij een bedrijf werkt met meerdere locaties en de waarde nul als dat niet het geval is. Op deze manier wordt er rekening gehouden met de grootte van het bedrijf. Zoals al eerder vermeld is, wordt onder de privéziektekostenverzekering ook de ziektekostenverzekering via werk verstaan, waardoor deze variabelen alleen worden toegevoegd aan de matrix Z.

2.5. Non-lineaire verbanden

Naast de gevonden lineaire verbanden blijken er ook non-lineaire verbanden te bestaan. Zo schatten O’Donnell et al. (2007) de medische uitgaven ook met een two-part model. Zij vonden de waarde -0,1382 voor de variabele BMI en 0,2820 voor (BMI^2)/100, allebei significant bij een

significantieniveau van één procent. Een tweede voorbeeld is de leeftijd. Shen (2013) heeft naast leeftijd ook de gekwadrateerde leeftijd opgenomen in zijn model voor zowel de functie voor het al dan niet afsluiten van een privéziektekostenverzekering, het opzoeken van medische zorg als de medische uitgaven. Uit de resultaten blijkt dat beide variabelen een te hoge p-waarde hebben en dus niet significant zijn. Duan et al. (1983) gebruiken ook alleen een lineair verband met leeftijd en Miller et al. (2004) verdelen leeftijd in verschillende groepen met bijbehorende dummy’s. In deze scriptie is er gekozen voor een lineaire en een kwadratische term voor leeftijd.

Een vermenigvuldiging van een variabele met een andere variabele (kruisterm) is ook mogelijk. Manning et al. (1988) hebben bijvoorbeeld een kruisterm tussen leeftijd en geslacht

(15)

15 toegevoegd. En zoals genoemd in paragraaf 2.3 behoren kruistermen tussen leeftijd en inkomen en leeftijd en scholing ook tot de mogelijkheden.

Een andere vorm van non-lineaire verbanden is de logaritmische functie. De logaritmische functie wordt gebruikt voor scheve en wijde verdelingen van variabelen (Heij et al., 2004). Het bekendste voorbeeld is het inkomen (Norén, 2010). Voor de medische uitgaven is een logaritme ook

toepasbaar, want ongeveer 20 procent van de Amerikaanse bevolking heeft geen medische uitgaven en de overige 80 procent heeft zeer scheef verdeelde uitgaven (Duan et al., 1982). Daarom wordt er ook bij de medische uitgaven vaak een logaritme toegevoegd (Miller et al., 2004). Dus de toepassing van een logaritme op inkomen en medische uitgaven is voor de hand liggend. Bij een logaritme moet er echter wel rekening worden gehouden met het feit dat een logaritme van nul niet kan. Daarom is er een constante toegevoegd binnen de logaritme waardoor een logaritme van nul niet meer voorkomt in de steekproef.

(16)

16

3. Onderzoeksmethode

3.1. Probit- en OLS-model

Het Heckman sample selection model gebaseerd op de methode van Lueng en Yu (1996) en

Hussinger (2008) is het model dat gebruikt wordt in deze scriptie. Dit model houdt rekening met het al dan niet afsluiten van een privéziektekostenverzekering door het gedrag van individuen in twee stappen te verdelen. Eerst de beslissing voor het wel of niet aanschaffen van een

privéziektekostenverzekering en vervolgens de hoogte van de medische uitgaven gegeven de eerdere beslissing.

I = 1{Zi’ + i > 0}, I = 0 als Zi’ + i≤ 0 en I = 1 als Zi’ + i> 0 (6)

Yi0 = Xi’β0+ εi0, I = 0 (7)

Yi1 = Xi’β1+ εi1, I = 1 (8)

Hierbij is de volgende assumptie gebruikt:

� _i 𝜀𝜀𝑖𝑖0 𝜀𝜀𝑖𝑖1 � ~ 𝑁𝑁 ��00 0� , � 1 𝜎𝜎𝜀𝜀1 𝜎𝜎𝜀𝜀1 𝜎𝜎𝜀𝜀0 𝜎𝜎𝜀𝜀20 𝜎𝜎𝜀𝜀0ε1 𝜎𝜎𝜀𝜀1 𝜎𝜎𝜀𝜀1ε0 𝜎𝜎𝜀𝜀21 ��

De indicatorfunctie is een probit-model met _i ~ 𝑁𝑁(0,1).

Yi0 = Xi’α0+ ρε0σε0_i0(Zi’) + i0 (9)

Yi1 = Xi’α1+ ρε1σε1_i1(Zi’) + i1 (10)

De  is de inverse Mills Ratio, gegeven de bivariaat normaal verdeelde error-termen geeft dat:

_𝑖𝑖0_(Z_i’) = 𝐸𝐸(εi0|i≤ −Zi’) = − _1−(Zφ(Zi’)_i_’) (11)

_𝑖𝑖1(Zi’) = 𝐸𝐸(εi1|i > −Zi’) =φ(Z_(Z_ii_’)’) (12)

Hierbij zijn φ de kansdichtheid en  de cumulatieve verdelingsfunctie van de standaard normale verdeling. De gehele tweede term in vergelijkingen (9) en (10) zijn de correctietermen die zijn ontstaan door het gebruik van een probit-model als eerste vergelijking.3

(17)

17 Als vervolgens vergelijkingen (9) en (10) gecombineerd worden tot één vergelijking resulteert dit in het volgende:

𝑌𝑌𝑖𝑖 = 𝛽𝛽0𝑋𝑋 + 𝛽𝛽1𝐼𝐼 + 𝛽𝛽2�φ(Z__(Z_ii_{’)(1−(Z}’)(I−(Z_ii’))_’))� + i (13)

In vergelijking (6) wordt 𝛾𝛾� gevonden door maximum likelihood (Lueng & Yu, 1996). Deze waarde wordt ingevuld in de inverse Mills Ratio. Vervolgens worden de onbekende parameters in de vergelijking van de medische uitgaven geschat door middel van OLS.4

3.2. De variabelen

Uiteindelijk zijn er dus twee vergelijkingen die geschat worden. Hierbij is het al dan niet afsluiten van een privéverzekering de afhankelijke variabele van het probit-model. Deze afhankelijke variabele is een dummyvariabele die de waarde 1 krijgt als een individu ooit in het betreffende jaar een privéziektekostenverzekering heeft afgesloten. Onder privéziektekostenverzekering wordt naast privéverzekeringen ook de ziektekostenverzekering via werk verstaan. Zoals al eerder vermeldt is, blijkt dat een combinatie van een privéziektekostenverzekering en een publieke

ziektekostenverzekering mogelijk is (Gruber en Simon, 2008). Door het feit dat een

ziektekostenverzekering via werk als een privéziektekostenverzekering als een groep wordt gezien, is gebleken dat variabelen met betrekking tot het beroep en het bedrijf belangrijk kunnen zijn. Hiervoor zijn er in dit model twee variabelen gegenereerd, namelijk WHITECOLLAR en MORELOCAT.

WHITECOLLAR is een dummyvariabele met de waarde 1 voor personen in de MEPS-categorie ‘management, business and financial operations’ of ‘professional and related occupations’ en nul voor alle andere groepen. MORELOCAT is een dummyvariabele die is toegevoegd om de grootte van een bedrijf weer te geven. MORELOCAT heeft de waarde 1 als een bedrijf meer dan één locatie heeft en nul als het er maar één heeft. Deze variabele is toegevoegd omdat een ziektekostenverzekering via werk alleen haalbaar is voor de grotere bedrijven.

De logaritme van de totale medische uitgaven zijn de afhankelijke variabelen van het OLS-model. De variabele is als volgt gedefinieerd: LOGEXP=log(TOTEXP+1). Er is een extra constante met de waarde één toegevoegd, omdat een logaritme van nul niet mogelijk is. Hierdoor blijft de omvang van de steekproef onveranderd en worden er dus meer observaties meegenomen in het model.

Voor het inkomen is er een gelijk probleem als bij de totale medische uitgaven. Ook hier is er

(18)

18 een constante met de waarde één toegevoegd, waardoor de logaritme van de personen zonder inkomen wel mogelijk is. Om het verschil tussen wel een geen inkomen toch te kunnen bepalen is er een dummyvariabele INCZERO toegevoegd. Deze heeft de waarde 1 als men geen inkomen heeft en nul als het inkomen groter is dan nul.

De variabelen voor leeftijd (AGE), geslacht (MALE), etniciteit (BLACK, WHITE), huwelijksstatus (MARRIED) en regio (WEST, MIDWEST, SOUTH), scholing (EDUCATION), familiegrootte (FAMSIZE) en de kruistermen van leeftijd en inkomen en leeftijd en scholing spreken voor zich.

Uit paragraaf 2.2 blijkt dat er een variabele is toegevoegd wat het aantal bezoeken aan een medische deskundige weergeeft. Dit is de variabele ‘total medical visits’ oftewel TOTMEDVIS. Naast deze indicatie over het aantal medische bezoeken is er ook een indicatie voor de mentale en fysieke gezondheidstoestand. In de Medical Expenditure Panel Survey wordt er drie keer per jaar gevraagd naar de mentale en fysieke gezondheidstoestand. Hierbij kunnen de antwoorden variëren van slecht (=5) tot excellent (=1). Hier is een gemiddelde van genomen en vervolgens een dummyvariabele van gemaakt met de waarde één als het gemiddelde lager is dan 4, dus met een gezondheidstoestand van goed, erg goed of excellent en de waarde nul als het gemiddelde 4 of hoger is, dus matig of slecht.

Als laatste is er bij het OLS-model nog een correctieterm toegevoegd die af te lezen is in vergelijking (13).

(19)

19

4. Data-analyse

Voor het onderzoek in deze scriptie worden data van de Medical Expenditure Panel Survey gebruikt. Hierbij is gekozen voor de jaartallen 1996 tot en met 2012 met stappen van vier jaar. Om de

resultaten van de verschillende jaren goed te kunnen vergelijken moeten de eigenschappen van de steekproeven zo veel mogelijk overeen komen. Daarom zijn in tabel 1 tot en met 8 de

samenvattingstabellen van alle gebruikte jaren weergegeven. De eerste twee kolommen zijn het aantal waargenomen individuen en het bijbehorende gemiddelde. In de middelste kolom staat de standaard deviatie en de laatste twee kolommen geven de minimale en maximale waargenomen waarde van de variabele weer.

4.1. Analyse samenvattingstabellen

Uit de tabellen kan er geconcludeerd worden dat de verhouding tussen mannen en vrouwen constant is. Ieder jaar bestaat de steekproef uit 46% à 47% mannen. De primaire steekproef bestaat uit individuen ouder dan 16 jaar. Er is gekozen voor deze leeftijdsrestrictie, omdat individuen in deze leeftijdscategorie financieel zelfstandig worden of zijn en dus hun eigen keuzes maken. Ook kan men vanaf deze leeftijd klaar zijn met school. De maximale leeftijd is in 1996 en 2000 90 jaar, maar in 2004, 2008 en 2012 85 jaar. Dit is te verklaren uit het feit dat vanaf 2002 alleen nog maar individuen tussen de 0 en 85 jaar werden opgenomen in de Medical Expenditure Panel Survey. De gemiddelde leeftijd ligt in 2012 ongeveer een jaar hoger dan in de andere jaren.

Individuen met niet waargenomen waardes voor bepaalde variabelen zijn verwijderd uit de steekproef. Dit is bijvoorbeeld het geval bij het aantal jaren scholing en het inkomen. Door het verwijderen van waarnemingen zal de steekproefgrootte afnemen. Uit tabel 5 blijkt dat de kleinste steekproef 13780 observaties is.

Zoals al vermeld in de inleiding stijgen de medische kosten door vergrijzing, innovatie van medische technieken en behandelingen en de toenemende levensverwachting. Echter, de

gemiddelde totale medische uitgaven blijven gedurende de 5 gebruikte jaartallen gelijk. De maxima van totale medische uitgaven zijn, met uitzondering van het jaar 2008, wel gestegen. Over het gehele tijdsbestek betreft het een stijging van ongeveer 26%.5

In 2012 zijn de gemiddelde uitgaven voor de groep onverzekerden $919,62. Deze groep bestaat uit 2782 personen. De gemiddelde uitgaven voor de groep met een

5_{𝑃𝑃𝑤𝑤𝑤𝑤𝑃𝑃𝑔𝑔𝑛𝑛𝑢𝑢𝑔𝑔𝑎𝑎𝑔𝑔 𝑡𝑡𝑤𝑤𝑔𝑔𝑛𝑛𝑎𝑎𝑤𝑤𝑔𝑔 𝑔𝑔𝑎𝑎𝑛𝑛 𝑑𝑑𝑔𝑔 𝑡𝑡𝑤𝑤𝑡𝑡𝑎𝑎𝑎𝑎𝑔𝑔 𝑤𝑤𝑔𝑔𝑑𝑑𝑖𝑖𝑎𝑎𝑃𝑃ℎ𝑔𝑔 𝑢𝑢𝑖𝑖𝑡𝑡𝑔𝑔𝑎𝑎𝑔𝑔𝑔𝑔𝑛𝑛 = 100 ∗}𝑒𝑒13,19− 𝑒𝑒12,96

(20)

20 privéziektekostenverzekering (7639 personen) zijn $4632,52 en voor de groep met een publieke verzekering (4446 personen) $7170,85. Er zijn dus duidelijke verschillen aanwezig tussen deze drie groepen. Hierbij moeten wel de aanmerking worden geplaatst, want personen met een publieke- en een privéziektekostenverzekering zijn bij beide groepen meegenomen. Uit figuur 1 lijken de

medische uitgaven van privéverzekerden het hoogst te zijn. Dit zie je niet terug in het gemiddelde omdat deze groep overduidelijk het grootst is. De medische uitgaven van de groep met een publieke verzekering zijn ook hoog, maar de omvang van de groep is bijna de helft. Hierdoor is het gemiddelde voor deze groep hoger. Ook is de grafiek te zien dat de medische uitgaven van de onverzekerden ver achter blijven.

Figuur 1 – Histogram van de medische uitgaven voor de drie verzekeringsgroepen. Publiek verzekerd (PUBEXP), privé verzekerd (PRIEXP) en onverzekerd (UNINEXP).

De procentuele toename van de gemiddelde uitgaven van de onverzekerden en de privéverzekerden is 403,74%. De procentuele toename van de gemiddelde uitgaven van de onverzekerden en de publieke verzekerden is 679,76%. Dat de groep met een publieke ziektekostenverzekering er zo bovenuit steekt kan, naast de omvang, ook verklaard worden door de eigenschappen van de individuen die voor een publieke verzekering in aanmerking komen. Bijvoorbeeld de ouderen voor Medicare. Medische kosten kunnen heel hoog oplopen als een ouder iemand een bepaalde tijd in het ziekenhuis moet liggen. Ook kan hier weer gedacht worden aan ‘moral hazard’ en ‘adverse selection’. Als men namelijk in aanmerking komt voor een publieke verzekering, bestaat de kans dat men eerder en/of vaker medische zorg opzoekt.

Een andere relevante constatering bij het vergelijken van de samenvattingstabellen 1 tot en met 5 is de stijging van het percentage onverzekerden. Deze waarde stijgt namelijk van 15% in 1996 naar 20% in 2012. Het aandeel van de publieke verzekering is gestegen van 26% naar 32%. Omdat

0 100000 200000 300000 400000 500000 600000 To ta le m ed is ch e u itg av en ($ ) Waarnemingen

Histogram Totale Medische Uitgaven 2012

PUBEXP PRIEXP UNINEXP

(21)

21 deze groepen zijn gegroeid, moet het percentage met een privéziektekostenverzekering gedaald zijn. Uit de tabellen blijkt dat er inderdaad een sterke afname van het percentage privéverzekerden is. In 1996 bezit nog 71% van de steekproef een privéziektekostenverzekering, maar dit is gedaald naar 55% in 2012. Dit verschijnsel wordt ook wel ‘crowd-out of the private health insurance’ genoemd (Gruber en Simon, 2008).

Het aandeel van het aantal bedrijven met meer dan één locatie blijft stabiel over de tijd. Hetzelfde geldt voor het aantal personen in de beroepscategorie WHITECOLLAR.

(22)

22 SAMENVATTINGSTABEL 1996

VARIABLE Obs Mean Std. Dev. Min Max

LOGEXP 15798 5,52 2,87 0,00 12,96 PRIVATEINSEVER 15798 0,71 0,46 0,00 1,00 PUBLICINSEVER 15798 0,26 0,44 0,00 1,00 UNINSURED 15798 0,15 0,35 0,00 1,00 AGE 15798 43,38 17,95 16,00 90,00 AGE2 15798 2203,81 1748,19 256,00 8100,00 MALE 15798 0,47 0,50 0,00 1,00 FEMALE 15798 0,53 0,50 0,00 1,00 BLACK 15798 0,13 0,34 0,00 1,00 WHITE 15798 0,82 0,38 0,00 1,00 WEST 15798 0,23 0,42 0,00 1,00 MIDWEST 15798 0,22 0,42 0,00 1,00 SOUTH 15798 0,35 0,48 0,00 1,00 NORTHEAST 15798 0,20 0,40 0,00 1,00 LOGINC 15770 8,69 2,99 0,00 12,06 INCZERO 15798 0,09 0,29 0,00 1,00 EDUCATION 15798 12,33 3,06 0,00 17,00 FAMSIZE 15798 3,08 1,67 1,00 14,00 TOTMEDVIS 15798 5,05 10,68 0,00 401,00

PHYSICAL HEALTH STATUS 15798 0,91 0,29 0,00 1,00

MENTAL HEALTH STATUS 15798 0,96 0,19 0,00 1,00

WHITECOLLAR 15798 0,20 0,40 0,00 1,00

MORELOCAT 15798 0,35 0,48 0,00 1,00

AGEINC 15770 388,83 209,01 0,00 981,14

AGEEDU 15798 530,29 250,53 0,00 1530,00

Tabel 1 – Samenvattingstabel 1996 bestaande uit het aantal observaties, gemiddelde, standaard deviatie, minimum en maximum per variabele.

(23)

WHITECOLLAR 17994 0,19 0,40 0,00 1,00

MORELOCAT 17994 0,35 0,48 0,00 1,00

AGEINC 17973 400,32 212,63 0,00 1071,23

AGEEDU 17994 532,78 262,94 0,00 1530,00

(24)

WHITECOLLAR 24447 0,18 0,38 0,00 1,00

MORELOCAT 24447 0,33 0,47 0,00 1,00

AGEINC 24425 385,29 224,76 0,00 968,60

AGEEDU 24447 523,61 267,87 0,00 1445,00

(25)

WHITECOLLAR 23698 0,19 0,39 0,00 1,00

MORELOCAT 23698 0,34 0,47 0,00 1,00

AGEINC 23673 389,42 229,22 0,00 1032,46

AGEEDU 23698 537,55 269,18 0,00 1445,00

(26)

WHITECOLLAR 13788 0,18 0,39 0,00 1,00

MORELOCAT 13788 0,33 0,47 0,00 1,00

AGEINC 13780 394,97 240,38 0,00 994,67

AGEEDU 13788 559,02 276,59 0,00 1445,00

(27)

27

4.2. Analyse samenvattingstabellen inclusief BMI en rookstatus

In tabel 6 is een samenvattingstabel gegeven voor het jaar 2004. Hier zijn ook de variabelen BMI en rookstatus (CURSMOKER) toegevoegd. Deze twee gegevens waren alleen gezamenlijk beschikbaar voor de jaren 2004, 2008 en 2012. Hierdoor kan er geen vergelijking worden gemaakt met 1996 en 2000, maar BMI en rookstatus hebben waarschijnlijk wel een effect op het al dan niet afsluiten van een privéziektekostenverzekering en de totale medische uitgaven. Daarom zijn er alsnog drie extra schattingen gedaan met deze variabelen in deze drie jaren. De personen die geen BMI hebben ingevuld zijn weer uit de steekproef gehaald. Ook is de variabele alleen beschikbaar onder individuen van 18 jaar of ouder. Daarom neemt de omvang van de steekproef af in vergelijking met de tabellen 1 tot en met 5. Automatisch is de minimale leeftijd gestegen van 16 naar 18 jaar. De rookstatus wordt bepaald door de dummyvariabele CURSMOKER. Deze heeft waarde 1 als de persoon aan het begin van het jaar rookt en nul als dat niet het geval is.

Uit de samenvattingstabellen inclusief BMI en rookstatus, tabel 6 tot en met 8, blijkt dat het gemiddelde BMI van de steekproef geleidelijk toeneemt over de tijd. De ontwikkeling van het percentage rokers is opvallender. Dit daalt aanzienlijk over de tijd. Het percentage rokers daalt namelijk van 22% naar 16%.

Bij het totale aantal bezoeken aan een medische deskundige is, in vergelijking met tabellen 1 tot en met 5, een duidelijk stijging waarneembaar. Voor de jaren 2004, 2008 en 2012 is het

gemiddelde aantal bezoeken aan een medische deskundige na het toevoegen van BMI en rookstatus met ongeveer 0,4 toegenomen.

Voor alle andere variabelen zijn er geen bijzonderheden aangezien de waarden van het gemiddelde, minimum, maximum en standaard deviatie vrijwel niet veranderd zijn na het toevoegen van BMI en rookstatus.

(28)

28 SAMENVATTINGSTABEL 2004 INCLUSIEF BMI EN CURSMOKER

WHITECOLLAR 19842 0,19 0,39 0,00 1,00 MORELOCAT 19842 0,35 0,48 0,00 1,00 AGEINC 19825 411,80 213,98 0,00 968,60 AGEEDU 19842 553,24 260,46 0,00 1445,00 BMI 19842 27,61 6,35 12,80 239,20 CURSMOKER 19842 0,22 0,41 0,00 1,00

Tabel 6 – Samenvattingstabel inclusief BMI en CURSMOKER 2004 bestaande uit het aantal observaties, gemiddelde, standaard deviatie, minimum en maximum per variabele.

(29)

29 SAMENVATTINGSTABEL 2008 INCLUSIEF BMI EN CURSMOKER

WHITECOLLAR 19423 0,21 0,41 0,00 1,00 MORELOCAT 19423 0,37 0,48 0,00 1,00 AGEINC 19401 415,50 218,16 0,00 1032,46 AGEEDU 19423 566,41 260,47 0,00 1445,00 BMI 19423 27,94 6,31 9,40 82,10 CURSMOKER 19423 0,19 0,40 0,00 1,00

(30)

30 SAMENVATTINSTABEL 2012 INCLUSIEF BMI EN CURSMOKER

LOGEXP ₁₁₈₉₃ _5,65 _3,39 _0,00 _13,19 PRIVATEINSEVER ₁₁₈₉₃ _0,56 _0,50 _0,00 _1,00 PUBLICINSEVER ₁₁₈₉₃ _0,32 _0,47 _0,00 _1,00 UNINSURED ₁₁₈₉₃ _0,20 _0,40 _0,00 _1,00 AGE ₁₁₈₉₃ _45,99 _17,64 _18,00 _85,00 AGE2 ₁₁₈₉₃ _2426,65 _1749,74 _324,00 _7225,00 MALE ₁₁₈₉₃ _0,46 _0,50 _0,00 _1,00 FEMALE ₁₁₈₉₃ _0,54 _0,50 _0,00 _1,00 BLACK ₁₁₈₉₃ _0,20 _0,40 _0,00 _1,00 WHITE ₁₁₈₉₃ _0,71 _0,45 _0,00 _1,00 WEST ₁₁₈₉₃ _0,26 _0,44 _0,00 _1,00 MIDWEST ₁₁₈₉₃ _0,20 _0,40 _0,00 _1,00 SOUTH ₁₁₈₉₃ _0,39 _0,49 _0,00 _1,00 NORTHEAST ₁₁₈₉₃ _0,15 _0,36 _0,00 _1,00 LOGINC ₁₁₈₈₅ _8,80 _3,40 _0,00 _12,38 INCZERO ₁₁₈₉₃ _0,12 _0,32 _0,00 _1,00 EDUCATION ₁₁₈₉₃ _12,72 _3,03 _0,00 _17,00 FAMSIZE ₁₁₈₉₃ _3,02 _1,68 _1,00 _12,00 TOTMEDVIS ₁₁₈₉₃ _4,72 _9,55 _0,00 _192,00

PHYSICAL HEALTH STATUS ₁₁₈₉₃ _0,93 _0,26 _0,00 _1,00

MENTAL HEALTH STATUS ₁₁₈₉₃ _0,96 _0,19 _0,00 _1,00

WHITECOLLAR ₁₁₈₉₃ _0,20 _0,40 _0,00 _1,00 MORELOCAT ₁₁₈₉₃ _0,35 _0,48 _0,00 _1,00 AGEINC ₁₁₈₈₅ _416,39 _230,62 _0,00 _986,96 AGEEDU ₁₁₈₉₃ _582,79 _266,55 _0,00 _1445,00 BMI ₁₁₈₉₃ _28,09 _6,44 _9,80 _103,00 CURSMOKER ₁₁₈₉₃ _0,18 _0,38 _0,00 _1,00

(31)

31

5. Resultaten

Om conclusies te kunnen trekken over de ontwikkeling van het effect van het al dan niet verzekerd zijn op de medische uitgaven, zijn er meerdere schattingen uitgevoerd in verschillende jaartallen. In tabellen 9, 10 en 11 zijn de resultaten van de schattingen van het probit-model en de OLS-model te zien.

5.1. Probit-schatting

De eerste stap in het two-part model schat het al dan niet afsluiten van een

privéziektekostenverzekering met behulp van een probit-model. In tabel 9 zijn de geschatte coëfficiënten en de bijbehorende z-waarden weergegeven voor de jaartallen 1996 tot en met 2012 met stappen van 4 jaar. Bovenaan is ook de voorspelde kans op het afsluiten van een

privéziektekostenverzekering vermeld. Deze waarde is niet stabiel over de tijd. De kans daalt van 0,76 naar 0,57. Tussen 2000 en 2004 is de duidelijkste daling te zien. Ook in dit onderzoek lijkt er dus sprake te zijn van crowd-out van de privéverzekerden.

De coëfficiënten van PUBLICINSEVER zijn negatief. Ook nemen de coëfficiënten gedurende de tijd af. Dit betekent dat het hebben van een publieke verzekering de kans op het afsluiten van een privéziektekostenverzekering verkleint. Het is mogelijk dat individuen de publieke verzekering goed genoeg vinden, met voldoende dekking, waardoor ze een extra verzekering niet nodig vinden. Daarnaast zijn individuen die in aanmerking komen voor een publieke verzekering oud, arm of huidige of voormalige militairen en hun afhankelijken. De armere bevolking heeft

hoogstwaarschijnlijk geen geld voor een extra privéziektekostenverzekering. Voor de ouderen kan hetzelfde gelden, want een verzekeraar voor een privéziektekostenverzekering verhoogt ook zijn premies voor de ouderen aangezien zij een risicogroep vormen. In tabel 10 zijn de marginale effecten weergegeven en daaruit kan geconcludeerd worden dat het hebben van een publieke

ziektekostenverzekering in 1996 leidt tot een daling van 38% op de kans op het afsluiten van een privéziektekostenverzekering. Dit percentage neemt verder af tot uiteindelijk -48% in 2012. Dus het effect van het hebben van een publieke ziektekostenverzekering op het al dan niet afsluiten van een privéziektekostenverzekering wordt sterker over de tijd.

De coëfficiënten van de dummyvariabele MARRIED liggen tussen 0,46 en 0,54. De

bijbehorende marginale effecten zijn over de tijd redelijk constant en liggen tussen de 17% en 20%. Dit houdt in dat getrouwde individuen sneller een privéziektekostenverzekering zullen afsluiten dan niet-getrouwde individuen. Uit Fuchs (2004) bleek dat er bij de huwelijksstatus effecten van twee

(32)

32 kanten zijn. Aan de ene kant heeft de aanwezigheid van een partner een positief effect op de

leefsituatie thuis en de gezondheid. Aan de andere kant blijkt dat gezonde mannen en vrouwen eerder trouwen en ook een beter huwelijk hebben. Voor beide effecten zou dit betekenen dat individuen met een partner minder snel een privéziektekostenverzekering zouden afsluiten. De positieve coëfficiënten bij MARRIED bevestigen deze gedachtegang niet. Wel is er een verklaring waardoor het teken weldegelijk positief kan zijn. Een partner heeft een positieve bijdrage op het familiegevoel. Partners willen zo lang mogelijk bij elkaar blijven en goed voor elkaar zorgen. Een

privéziektekostenverzekering zou daarbij kunnen helpen.

RESULTATEN PROBIT

1996 2000 2004 2008 2012

PSEUDO R2 _0,2461 _0,2644 _0,2898 _0,2872 _0,2803

PRIVATEINSEVER Coef. z Coef. z Coef. z Coef. z Coef. z

PUBLICINSEVER -1,08*** -29,38 -1,15*** -32,96 -1,23*** -44,64 -1,26*** -45,05 -1,30*** -36,32 AGE -0,05*** -11,36 -0,05*** -13,11 -0,06*** -18,15 -0,06*** -15,89 -0,09*** -18,13 AGE2 0,00*** 14,94 0,00*** 13,24 0,00*** 18,28 0,00*** 16,62 0,00*** 16,30 MALE -0,12*** -4,97 -0,10*** -4,13 -0,11*** -5,79 -0,08*** -4,17 -0,12*** -4,52 BLACK 0,04 0,68 -0,03 -0,51 -0,07 -1,49 -0,20*** -4,87 -0,10* -1,94 WHITE 0,28*** 4,90 0,07 1,12 0,00 0,08 -0,16*** -4,48 -0,13*** -2,85 MARRIED 0,54*** 18,95 0,54*** 20,38 0,50*** 22,70 0,46*** 20,55 0,51*** 17,43 WEST -0,23*** -6,08 -0,26*** -7,10 -0,32*** -10,01 -0,11*** -3,43 -0,13*** -3,20 MIDWEST 0,07 1,82 0,16*** 4,05 -0,01 -0,16 0,11*** 3,37 0,15*** 3,53 SOUTH -0,16*** -4,68 -0,20*** -5,81 -0,34*** -11,54 -0,21*** -6,98 -0,27*** -7,06 LOGINC 0,07*** 4,25 0,05*** 3,51 0,05*** 4,36 0,07*** 5,10 0,11*** 6,07 INCZERO 0,96*** 8,81 0,76*** 7,08 0,98*** 10,86 1,16*** 12,10 1,47*** 10,91 EDUCATION 0,12*** 9,84 0,09*** 8,67 0,10*** 10,88 0,12*** 12,17 0,05*** 3,86 FAMSIZE -0,05*** -6,63 -0,05*** -6,65 -0,04*** -6,44 -0,05*** -8,4 -0,06*** -7,55 TOTMEDVIS 0,01*** 6,92 0,01*** 8,81 0,01*** 12,55 0,01*** 10,51 0,01*** 9,24

PHYSICAL HEALTH STATUS 0,18*** 4,02 0,21*** 4,34 0,23*** 6,03 0,17*** 4,13 0,16*** 2,80

MENTAL HEALTH STATUS 0,26*** 3,91 0,18** 2,44 0,14** 2,51 0,22*** 3,51 0,12 1,47

WHITECOLLAR 0,19*** 4,62 0,24*** 6,25 0,32*** 9,59 0,30*** 9,42 0,27*** 6,73

MORELOCAT 0,52*** 17,11 0,53*** 18,66 0,52*** 21,92 0,52*** 22,24 0,51*** 16,66

AGEINC 0,00*** 6,25 0,00*** 6,86 0,00*** 12,08 0,00*** 11,57 0,00*** 7,54

AGEEDU -0,00 -1,87 0,00 -0,17 -0,00 -1,18 -0,00*** -2,64 0,00*** 2,70

_CONS -1,45*** -6,49 -0,78*** -3,86 -0,82*** -4,98 -1,23*** -7,09 -0,35 -1,50

Tabel 9 – Bovenaan is de pseudo-R2_{van het model vermeld. De afhankelijke variabele is de dummyvariabele}

PRIVATEINSEVER. Deze wordt zo goed mogelijk verklaard door de overige variabelen in de tabel. *, **, *** geven aan dat een variabele significant is bij een significantieniveau van respectievelijk 10%, 5% en 1%.

Uit de resultaten blijkt dat de variabelen MARRIED, WHITECOLLAR en MORELOCAT significant zijn. Omdat deze variabelen een verschil tussen de matrices X en Z moesten creëren, is het belangrijk dat ze significant zijn in de probit-schatting.

(33)

33 MARGINALE EFFECTEN

1996 2000 2004 2008 2012

Y= P(PRIVATEINSEVER) 0,76 0,74 0,63 0,61 0,57

dy/dx z dy/dx z dy/dx Z dy/dx z dy/dx z

PUBLICINSEVER -0,38*** -28,43 -0,41*** -32,90 -0,46*** -49,40 -0,47*** -51,36 -0,48*** -42,59 AGE -0,02*** -11,29 -0,02*** -13,02 -0,02*** -18,07 -0,02*** -15,84 -0,03*** -18,07 AGE2 0,00*** 14,79 0,00*** 13,15 0,00*** 18,20 0,00*** 16,57 0,00*** 16,26 MALE -0,04*** -4,96 -0,03*** -4,12 -0,04*** -5,78 -0,03*** -4,17 -0,05*** -4,52 BLACK 0,01 0,69 -0,01 -0,50 -0,03 -1,48 -0,08*** -4,82 -0,04* -1,94 WHITE 0,09*** 4,67 0,02 1,11 0,00 0,08 -0,06*** -4,54 -0,05*** -2,87 MARRIED 0,17*** 18,83 0,18*** 20,35 0,19*** 23,07 0,18*** 20,88 0,20*** 17,85 WEST -0,07*** -5,87 -0,09*** -6,87 -0,12*** -9,89 -0,04*** -3,41 -0,05*** -3,19 MIDWEST 0,02* 1,85 0,05*** 4,19 0,00 -0,16 0,04*** 3,41 0,06*** 3,57 SOUTH -0,05*** -4,61 -0,07*** -5,74 -0,13*** -11,54 -0,08*** -6,96 -0,11*** -7,07 LOGINC 0,02*** 4,25 0,02*** 3,51 0,02*** 4,36 0,03*** 5,10 0,04*** 6,07 INCZERO 0,21*** 14,31 0,19*** 9,96 0,30*** 15,04 0,35*** 17,94 0,44*** 17,74 EDUCATION 0,04*** 9,84 0,03*** 8,68 0,04*** 10,89 0,05*** 12,17 0,02*** 3,86 FAMSIZE -0,02*** -6,62 -0,02*** -6,64 -0,02*** -6,44 -0,02*** -8,42 -0,03*** -7,55 TOTMEDVIS 0,00*** 6,92 0,00*** 8,82 0,00*** 12,55 0,00*** 10,51 0,01*** 9,24

PHYSICAL HEALTH STATUS 0,06*** 3,85 0,07*** 4,15 0,09*** 5,92 0,07*** 4,07 0,06*** 2,79

MENTAL HEALTH STATUS 0,09*** 3,67 0,06** 2,34 0,06** 2,47 0,09*** 3,46 0,05 1,46

WHITECOLLAR 0,06*** 4,86 0,07*** 6,66 0,11*** 10,16 0,11*** 9,86 0,10*** 6,93

MORELOCAT 0,15*** 18,61 0,16*** 20,26 0,19*** 23,36 0,19*** 23,49 0,20*** 17,44

AGEINC 0,00*** 6,25 0,00*** 6,86 0,00*** 12,07 0,00*** 11,56 0,00*** 7,54

AGEEDU -0,00* -1,87 -0,00 -0,17 -0,00 -1,18 -0,00*** -2,64 0,00*** 2,70

Tabel 10 – Bovenaan wordt de voorspelde kans op het afsluiten van een privéziektekostenverzekering per jaar

weergeven. Vervolgens de marginale effecten van de verklarende variabelen op de keus van het al dan niet afsluiten van een privéziektekostenverzekering. Deze waardes zijn verkregen met het commando mfx. *, **, *** geven aan dat een variabele significant is bij een significantieniveau van respectievelijk 10%, 5% en 1%.

De significantie van de negatieve coëfficiënt van leeftijd en de positieve coëfficiënt van leeftijd gekwadrateerd wijzen op een kwadratisch verband tussen leeftijd en het al dan niet afsluiten van een privéziektekostenverzekering. In 1996 is het marginale effect van leeftijd -2% en voor leeftijd

kwadraat 0,02%. Het verband kan met behulp van de marginale effecten grafisch worden weergegeven als een dalparabool met een minimum bij de leeftijd van 36 jaar.6_{Bij de jongere} individuen in de steekproef zorgt leeftijd dus voor een verkleining van de kans op het afsluiten van een privéziektekostenverzekering. Dit effect wordt steeds negatiever tot de leeftijd van 36 jaar. Vanaf dat punt gaat het gezamenlijke effect van leeftijd en leeftijd gekwadrateerd weer naar nul. Het gezamenlijke effect wordt positief vanaf 73 jaar. Dus alleen voor de oudsten in de steekproef zorgt

6_{Voor de kruistermen van leeftijd met scholing en inkomen zijn de gemiddelden inkomen en scholing gebruikt}