Ziektekostenverzekeringen in de Verenigde Staten : determinanten van verzekeringsstatus

(1)

Ziektekostenverzekeringen in de

Verenigde Staten:

determinanten van verzekeringsstatus

Boris van Linschoten (10176268)

Faculteit Economie en Bedrijfskunde, Universiteit van Amsterdam, Amsterdam, Nederland

Abstract

In deze scriptie wordt onderzocht welke variabelen bepalen of een individu privaat verzekerd is. Er wordt gebruik gemaakt van de Medical Expenditure Panel Survey data van 2000 tot 2010. Op deze gegevens wordt een pseudo-panel analyse uitgevoerd. Fixed en random eﬀects lineaire en logistische modellen zijn geschat. Er wordt een significante invloed van leeftijd, inkomen, zorguitgaven, scholing, getrouwd zijn, werkstatus, aantal aandoeningen, roken en gezond-heidsstatus gevonden op de kans om verzekerd zijn. Behalve werkstatus en leeftijd is het gevonden eﬀect van deze variabelen vergelijkbaar met resultaten van voorgaande onderzoeken.

(2)

Inhoud

1 Inleiding 3 2 Theoretische achtergrond 4 3 Onderzoeksmethode 9 3.1 Het model . . . 9 3.1.1 Lineaire regressie . . . 9 3.1.2 Logistische regressie . . . 10 3.1.3 Hausman test . . . 13 3.2 Data . . . 13 4 Resultaten 16 4.1 Lineaire regressie . . . 16 4.2 Logistische regressie . . . 20 5 Conclusie en discussie 25 Bibliografie 26 Bijlage 29

(3)

1 Inleiding

De hervorming van de gezondheidszorg was een belangrijk onderwerp tijdens de Amerikaanse presidentsverkiezingen in 2008. Volgens onderzoeksbureau Gallup had-den destijds ongeveer 44.1 miljoen Amerikanen geen zorgverzekering (Levy, 2014)1_.

Barack Obama beloofde dat het aanpakken van de gezondheidszorg een van zijn vier grootste prioriteiten zou zijn, mocht hij president worden2_{. Obama won de}

verkiezin-gen en in maart 2010 werd de Patient Protection and Aﬀordable Care Act (PPACA) aangenomen, vooral informeel bekend onder de naam ‘Obamacare’.

Vier jaar later, in januari 2014 trad de PPACA in werking. Het aantal onverzek-erde Amerikanen was inmiddels opgelopen tot ongeveer 54.3 miljoen, 17.1 procent van de bevolking (Levy, 2014). Deze toename was mede toe te schrijven aan de werkloosheidsstijging tijdens de economische recessie (Bureau of Labor Statistics, 2014). Veel Amerikanen verloren met hun baan de zorgverzekering die ze via hun werkgever hadden afgesloten. Volgens onderzoek van de Kaiser Commission on Med-icaid and the Uninsured (KCMU, 2013) had 29.4 procent van de onverzekerden in 2013 geen verzekering vanwege het verliezen van hun baan. Het in werking treden van de PPACA had direct resultaat. Volgens Levy (2014) daalde het deel onverzek-erden in het eerste kwartaal van 2014 met 1.5 procentpunt naar 15.6 procent. In het tweede kwartaal werd deze daling voortgezet met een daling van 2.2 procentpunt naar 13.4 procent. Ondanks het eﬀect van de PPACA zijn er echter nog steeds circa 42.7 miljoen Amerikanen onverzekerd.

In deze scriptie wordt onderzocht welke variabelen de verzekeringsstatus van ie-mand verklaren, oftewel of ieie-mand wel of niet verzekerd is. De onderzoeksvraag luidt: wat zijn de determinanten van verzekeringsstatus? Voor het beantwoorden van deze onderzoeksvraag worden een lineaire en logistische regressie uitgevoerd, geanalyseerd en vergeleken. Bovendien wordt voor beide regressies het verschil tussen het fixed en

1_{Aantallen in miljoenen berekend door percentage van Gallup te nemen van de Amerikaanse}

populatie op dat moment volgens de U.S. and World Population Clock van het United States Census Bureau via https://www.census.gov/popclock/.

2_{Barack Obama op het First Presidential Debate op 26 september 2008. Transcript van}

het debat geraadpleegd via http://elections.nytimes.com/2008/president/debates/transcripts/first-presidential-debate.html (15 oktober 2014).

(4)

random eﬀects model onderzocht.

Voor het schatten van de modellen wordt gebruik gemaakt van de Medical Ex-penditure Panel Survey (MEPS) data. Dit is een lopende survey, dat in 1996 gestart is door het Amerikaanse Ministerie van Volksgezondheid en representatief is voor de Amerikaanse bevolking (Agency for Healthcare Research and Quality, 2009). Er wordt een pseudo-panel dataset samengesteld met behulp van de MEPS-data van 2000 tot en met 2010, met sprongen van twee jaar.

Deze scriptie wordt allereerst vervolgd met de theoretische achtergrond, waarin onderzoeken uit het verleden en belangrijke theorieën besproken worden. Daarna wordt de onderzoeksmethode uiteengezet, waarin wordt besproken hoe de data ge-bruikt worden en het model geschat wordt. Vervolgens worden de resultaten weergegeven en geanalyseerd. Ten slotte volgen de conclusie en discussie.

2 Theoretische achtergrond

In de Verenigde Staten zijn er twee soorten ziektekostenverzekeringen: private en publieke. Een private ziektekostenverzekering wordt meestal via de werkgever verkre-gen. In sommige gevallen wordt deze ziektekostenverzekering afgesloten door het individu zelf. 64.2 procent van de Amerikaanse bevolking heeft zo’n private ziek-tekostenverzekering. Van deze groep heeft 84.0 procent de private verzekering via zijn werkgever afgesloten en 17.1 procent heeft deze zelf direct met de zorgverzeker-aar afgesloten (Smith & Medalia, 2014). Een publieke ziektekostenverzekering houdt in dat de verzekering geregeld of gesubsidieerd wordt door de Amerikaanse over-heid. De belangrijkste programma’s hiervoor zijn Medicare en Medicaid. Medicare biedt ziektekostenverzekering aan ouderen en bepaalde gehandicapten. Medicaid verleent financiële bijstand aan degenen die zich geen ziektekostenverzekering kun-nen veroorloven. 34.3 procent van de Amerikaanse bevolking heeft een publieke ziektekostenverzekering. 13.4 procent van de Amerikanen is onverzekerd (Smith & Medalia, 2014)3_{. Er wordt aangenomen dat het hebben van een publieke}

ziek-3_{Dat de percentages opgeteld boven de 100 procent uitkomen is vanwege het feit dat sommige}

(5)

tekostenverzekering geen keuze van het individu zelf is en dus worden individuen met een publieke zorgverzekering niet meegenomen in het onderzoek. Deze scriptie beperkt zich tot het onderzoeken van de factoren die van invloed zijn op het wel of niet hebben van een private ziektekostenverzekering. In de MEPS-data is een individu óf privaat óf publiek verzekerd. Er zijn in de gebruikte dataset dus geen individuen met beide soorten verzekeringen.

De Kaiser Commission on Medicaid and the Uninsured (KCMU, 2013) onderzocht de eigenschappen van de groep onverzekerden onder de 65 jaar. Uit dit onderzoek blijkt dat 90 procent van deze groep uit een familie met laag of gematigd inkomen komt. Ook zijn etnische minderheden vaker onverzekerd dan blanken. Van de zwarte bevolking en hispanics zijn respectievelijk ongeveer een vijfde en een derde onverzek-erd. Bovendien blijkt uit het onderzoek dat het percentage onverzekerden per staat verschilt, mede door het verschil in beleid in de Amerikaanse staten op het gebied van zorgverzekering. In het zuiden en westen van de Verenigde Staten is een groter deel van de bevolking onverzekerd dan in andere delen van het land. Volgens Smith & Medalia (2014) zijn 19-25 jarigen en 26-34 jarigen het vaakst onverzekerd, respec-tievelijk 22.6 procent en 23.5 procent. Van de 35-44 jarigen en 45-64 jarigen zijn respectievelijk 19.0 en 14.5 procent onverzekerd.

Shen (2013) onderzocht op individueel niveau welke variabelen van invloed zijn op het wel of niet verzekerd zijn van personen met obesitas tussen de 22 en 64 jaar. Uit het model dat hij in zijn onderzoek schat blijkt dat inkomen, aantal jaren scholing, getrouwd zijn en blank zijn een significante, positieve invloed hebben op het hebben van een verzekering. Uit onderzoek van Doiron, Jones en Savage (2008) blijkt een vergelijkbaar eﬀect van inkomen en scholing. Bovendien werd door hen gevonden dat personen die werk hebben en personen met chronische aandoeningen een grotere kans hebben om verzekerd te zijn. Savage en Wright (1999) vonden dat leeftijd een positief en significant eﬀect heeft op de kans om verzekerd te zijn.

De KCMU (2013) onderzocht wat volgens de onverzekerden zelf de reden was dat ze geen ziektekostenverzekering hadden. De kosten voor het aanschaﬀen van

privaat verzekerden een deel van hun verzekering via hun werkgever en een deel zelf afgesloten, waardoor ook de som van deze percentages opgeteld boven de 100 procent uitkomt.

(6)

een verzekering is voor veel onverzekerde individuen een belangrijke belemmering. In 2012 zei 31.6 procent van de onverzekerden onder de 65 jaar dat te hoge kosten een van de redenen was voor het niet hebben van een ziektekostenverzekering. 29.4 procent meldde geen verzekering te hebben vanwege het verliezen van hun baan. 11.2 procent was onverzekerd omdat ze geen aanbod gekregen hadden. 8.8 procent was te oud geworden voor de publieke verzekering die ze voorheen hadden of gestopt met school. Slechts 1.5 procent van de onverzekerden onder 65 jaar meldde geen verzekering nodig te hebben (KCMU, 2013).

Een belangrijk onderdeel van de ziektekostenverzekeringen in Amerika is het zoge-heten medical underwriting. Als een individu een ziektekostenverzekering aanvraagt, wordt er gevraagd naar zijn medische achtergrond. Vervolgens gebruikt de verzek-eringsmaatschappij deze informatie bij twee keuzes. Ten eerste wordt er besloten of het individu een verzekering mag afsluiten bij de maatschappij. Ten tweede wordt er bepaald hoe hoog de premie voor het individu wordt (American Academy of Actuar-ies, 1999). Medical underwriting zorgt ervoor dat premies voor gezonde individuen lager zijn dan dat ze zouden zijn zonder medical underwriting. Daar staat tegenover dat sommige individuen geweigerd worden op grond van hun medische achtergrond en dat voor ongezonde individuen de premie juist hoger is.

Medical underwriting is belangrijk bij het voorkomen van adverse selectie. Ad-verse selectie kan in theorie optreden als gevolg van asymmetrische informatie tussen de verzekerde en de verzekeraar. Stel een verzekeraar vraagt dezelfde premie aan alle verzekerden. De hoogte van de premie moet voldoende zijn om de kosten van alle verzekerden te kunnen dekken. Echter zal deze premie voor individuen met lage verwachte ziektekosten relatief hoog zijn; zij moeten immers betalen voor de perso-nen met hoge ziektekosten. Individuen met lage verwachte ziektekosten zullen dus geneigd zijn onverzekerd te blijven of hun verzekering niet te verlengen. Als gevolg hiervan zullen de gemiddelde kosten die de verzekeraar moet dekken omhoog gaan en zal hij dus de premies moeten verhogen. Vervolgens zullen opnieuw de individuen met laagste verwachte ziektekosten de verzekeraar willen verlaten, waarna opnieuw de premies verhoogd moeten worden. Dit zou in theorie uiteindelijk kunnen leiden tot het ineenstorten van de verzekeringsmarkt. Dit verschijnsel wordt door Cutler &

(7)

Reber (1992) de ‘adverse selection death spiral’ genoemd.

Voorgaande onderzoeken naar het optreden van adverse selectie bij ziektekosten-verzekeringen hebben gemengde resultaten. Cameron en Trivedi (1991) onderzochten met behulp van Australische data de keuze tussen een basisverzekering of een meer uitgebreid verzekeringspakket en vonden geen significant eﬀect van gezondheidsvari-abelen op deze keuze. De resultaten van Barret en Conlon (2003) wijzen zelfs op een tegenovergesteld eﬀect. Uit hun onderzoek gedaan op Australische data blijkt dat personen met een slechtere (door zichzelf beoordeelde) gezondheid, riskant drankge-bruik of personen die roken minder vaak een ziektekostenverzekering hebben. Uit het onderzoek van Cutler en Zeckhauser (1997), uitgevoerd bij de werknemers van Har-vard University en de Group Insurance Commission of Massachusetts, blijkt echter dat adverse selectie wel een significante rol speelt bij ziektekostenverzekeringen die via de werkgever worden geregeld.

Een ander fenomeen dat een belangrijke rol speelt in het verzekeringswezen en ook bij ziektekostenverzekeringen is moral hazard. Moral hazard is een verandering in het gedrag van een partij als zij geen risico lopen voor hun beslissingen, bijvoorbeeld door verzekerd te zijn tegen opgelopen schade. Volgens econoom Krugman (2009, p.63) kan moral hazard optreden in

(. . . ) any situation in which one person makes the decision about how much risk to take, while someone else bears the cost if things go badly

Er zijn twee soorten moral hazard te definiëren; ex ante moral hazard en ex post moral hazard.

Ex ante moral hazard vindt plaats voorafgaand aan de schade. Dit houdt in dat individuen geneigd zijn meer risico te nemen als zij zelf niet de kosten van de schade hoeven te dekken. Voorgaande onderzoeken geven tegenstrijdige resultaten over de invloed van ex ante moral hazard bij ziektekostenverzekeringen. Zo stellen Cutler en Zeckhauser (2000) dat de invloed van ex ante moral hazard niet groot is, omdat het niet-gecompenseerde verlies van gezondheid zwaar weegt. Kenkel (2000, p. 1687) is het hiermee eens:

(8)

may be small because common forms of health insurance in fact oﬀer very incomplete coverage. Even if the consumer has generous coverage for the monetary components of the loss (medical expenditures and foregone earnings), he will be uninsured for the utility loss.

Hij stelt dus dat individuen, zelfs met een goede dekking voor het financiële ver-lies bij opgelopen schade, niet verzekerd zullen zijn voor het niet-financiële verver-lies. Hierdoor is ex ante moral hazard volgens hem van kleine invloed bij ziektekosten-verzekeringen. Courbage en Coulon (2004) vonden geen bewijs dat een private ziek-tekostenverzekering een vermindering in preventieve activiteiten, zoals sporten en regelmatige gezondheidschecks, veroorzaakt. Daartegenover staat het onderzoek van Dave en Kaestner (2006), waaruit blijkt dat het verkrijgen van een ziektekosten-verzekering zorgt voor een toename in ongezond gedrag bij mannen boven de 65 jaar en preventieve activiteiten vermindert.

Ex post moral hazard vindt plaats nadat de schade geleden is. Als het individu verzekerd is voor de geleden schade, zal hij eerder geneigd zijn een claim in te di-enen. In de gezondheidszorg houdt deze vorm van moral hazard in dat verzekerde individuen eerder zorg zullen zoeken voor gezondheidsklachten die ze anders onbe-handeld zouden laten. Om het risico op deze vorm van moral hazard te verkleinen zijn regelingen als het eigen risico ingesteld. Doordat individuen een eigen bijdrage moeten leveren als ze zorg zoeken, zullen ze minder snel een arts bezoeken. On-derzoek van Shen (2013) laat echter zien dat ex post moral hazard ondanks deze maatregelen nog steeds van betekenis is. Volgens hem verhoogt het hebben van een private ziektekostenverzekering de kans om zorg te zoeken met 15 procentpunten.

Waar het hebben van een verzekering als gevolg heeft dat individuen eerder zorg zoeken, lijkt het tegenovergestelde ook het geval te zijn. Volgens de KCMU (2013) mist een kwart van de onverzekerde volwassen Amerikanen onder de 65 jaar elk jaar benodigde zorg door te hoge kosten. Volgens onderzoek van Ayanian, Weissman, Schneider, Ginsburg & Zaslavsky (2000) kan 26.8 procent van de individuen die meer dan een jaar onverzekerd zijn niet een arts bezoeken vanwege de kosten. Voor personen die korter dan een jaar onverzekerd zijn, is dit 21.7 procent. Voor verzeker-den is dit slechts 8.2 procent. Deze cijfers, samen met de resultaten van Shen (2013),

(9)

maken het aannemelijk dat zorguitgaven een endogene variabele is. Het hebben van een verzekering kan de hoogte van de uitgaven aan zorg beïnvloeden.

3 Onderzoeksmethode

In dit hoofdstuk wordt allereerst besproken welke modellen er geschat worden. Ver-volgens wordt uiteengezet hoe de data verkregen en gebruikt zijn bij dit onderzoek en een beschrijving van de dataset gegeven.

3.1 Het model

Het doel van dit onderzoek is te verklaren welke variabelen het wel of niet hebben van een private ziektekostenverzekering beïnvloeden. Deze variabele, die voor nu vit

wordt genoemd, is dus binair: vit=

8 < :

0 als individu i niet verzekerd is op tijdstip t

1 als individu i wel verzekerd is op tijdstip t (1)

Echter, omdat er gebruik wordt gemaakt van cohortgemiddelden, geeft de afhanke-lijke variabele fit in het model de geschatte fractie van het cohort aan dat privaat

verzekerd is. Deze variabele is dus niet binair, maar continu op het interval [0, 1]. 3.1.1 Lineaire regressie

Allereerst wordt er een random eﬀects lineaire regressie uitgevoerd. Dit model ziet er als volgt uit:

fit= ↵i+ 0xit+ "it (2)

Hierin is xit de vector van tijdsafhankelijke verklarende variabelen, de vector van

regressiecoëﬃciënten, "itde foutterm en ↵i het niet-geobserveerde tijdsonafhankelijke

individuele eﬀect.

Bij het random eﬀects model, dat geschat wordt met Generalized Least Squares (GLS), wordt er verondersteld dat ↵ien xitongecorreleerd zijn. Als dit echter niet het

(10)

geval is, moet het fixed eﬀects model gebruikt worden. Om dit model te verkrijgen wordt van vergelijking (2) het tijdsgemiddelde model ¯fi = ↵i+ 0x¯i+ ¯"i afgetrokken.

Het fixed eﬀects model ziet er dan als volgt uit:

fit f¯i = 0(xit x¯i) + ("it "¯i) (3)

Omdat de afhankelijke waarde een fractie is en het hier gaat om een lineair model, zijn de coëfficiënten direct te interpreteren als marginale effecten het hebben van een private verzekering. De enige uitzondering hierop is leeftijd. Aangezien zowel leeftijd als het kwadraat van leeftijd is opgenomen als verklarende variabele, is het marginale effect van leeftijd mogelijk afhankelijk van de leeftijd.

3.1.2 Logistische regressie

Een belangrijk probleem bij het hierboven besproken lineaire model, is dat de uitkom-sten niet begrensd zijn tussen 0 en 1, tenzij er complexe restricties op de coëﬃciënten worden gesteld. Om deze reden zal naast voorgenoemde lineaire regressie tevens een logistische regressie uitgevoerd worden. Om dit model te verkrijgen worden allereerst de odds fit

1 fit bepaald, waarbij nu fit✏ (0, 1). Deze odds kunnen elke niet-negatieve waarde aannemen en dus is de restrictie op de bovengrens van de uitkomst niet meer nodig. Vervolgens wordt van de odds de natuurlijke logaritme genomen. Dit wordt de logit genoemd:

logit(fit) = log(oddsit) =log(

fit

1 fit

) (4)

Door deze tweede en laatste stap is ook de restrictie op de ondergrens van de uitkomst niet meer nodig, omdat de logit elke waarde tussen min oneindig en oneindig kan aannemen. Ter illustratie van het eﬀect van deze transformatie, stel dat fit ! 0.

De odds gaan dan naar nul en de logit naar min oneindig. In het andere uiterste geval, als fit ! 1, dan gaan de odds naar oneindig en de logit ook. Samenvattend zet

deze transformatie dus fracties in het bereik (0, 1) om naar een waarde in het bereik ( _{1, 1). Deze logistische transformatie wordt gebruikt als afhankelijke variabele} in het model. Dit wordt de logistische regressie genoemd:

(11)

log( fit 1 fit

) = ↵i+ 0xit+ "it (5)

Een probleem dat zich voordoet bij het berekenen van de odds ligt bij de uiterste waarden fit = 0 en fit = 1. Voor deze waarden kan de logit niet bepaald worden.

fit = 0 komt niet voor in de dataset, maar fit = 1 geldt voor 288 van de 1392

waarnemingen, een aanzienlijk deel van de waarnemingen.

Om het verschil te bekijken tussen de groep cohorten met fit = 1 en de gehele

dataset is in tabel 1 een beschrijving van beide groepen te vinden, door middel van de gemiddelden van alle waarnemingen van de groepen. Een aantal verschillen tussen de groepen valt op. Allereerst is de gemiddelde leeftijd in de cohorten met fit = 1

22,47 jaar hoger dan het gemiddelde in de totale dataset. Ten tweede zijn de totale uitgaven aan zorg bijna twee keer zo groot voor de groep met alleen verzekerden als voor de gehele dataset. Als derde ligt ook het aantal aandoeningen aanzienlijk hoger; de groep verzekerden heeft gemiddeld meer dan twee keer zo veel aandoeningen als de gehele dataset. Ten vierde valt op dat het deel dat woonachtig is in het westen en zuiden van de Verenigde Staten kleiner is voor de groep verzekerden dan voor de gehele dataset. Deze vier verschillen komen overeen met de theorie. Ten slotte valt het verschil in werkstatus tussen de groepen op. In de groep cohorten met alleen verzekerden is het gemiddelde deel dat werkloos is meer dan twee keer zo groot als in de gehele dataset.

Om het probleem dat cohorten met fit = 1 opleveren te omzeilen worden drie

modellen geschat en vergeleken, waarbij de dataset op verschillende manieren wordt aangepast. Bij de eerste methode zullen alle waarnemingen met fit = 1niet meegenomen

worden in de schatting van het model. Bij deze schatting worden dus slechts 1104 waarnemingen gebruikt . Bij de tweede en derde methode zullen alle fit= 1

vervan-gen worden door respectievelijk fit= 0.99 en fit = 0.9999.

De interpretatie van de coëﬃënten van de logistische regressie is anders dan bij de lineaire regressie. Om deze interpretatie te laten zien, wordt eerst het logistische model getransformeerd naar het odds model:

(12)

Table 1: Beschrijving gehele dataset en cohorten met fit= 1

Gemiddelde

Gehele dataset Groep cohorten met fit= 1

Verzekerd 0.84 1.00 Vrouw 0.50 0.48 Leeftijd 50.52 72.98 Inkomen (x$1000) 33.51 31.08 Zorguitgaven (x$1000) 4.18 8.32 BMI 27.58 27.51 Jaren scholing 12.97 12.90 Blank 0.82 0.86 West VS 0.25 0.23 Zuid VS 0.25 0.19 Midwest VS 0.25 0.29 Noordoost VS 0.25 0.29 Getrouwd 0.64 0.66 Werk1 - Werknemer 0.56 0.16 Werk2 - Zelfstandig 0.09 0.06 Werk3 - Werkloos 0.36 0.78 Aantal aandoeningen 0.78 1.66 Roker 0.18 0.10 Health1 - Uitstekend 0.26 0.19

Health2 - Heel goed 0.33 0.32

Health3 - Goed 0.28 0.31

Health4 - Redelijk 0.10 0.14

Health5 - Slecht 0.03 0.04

(13)

ˆ fi

1 fˆi

= e 0_e 1xi1_{... e} kxik (6)

Nu is te zien dat een verandering van één in xi1 zorgt voor een vermenigvuldiging

van de odds van e 1. Voor een simpel voorbeeld, stel dat x

i1= 1 als het individu een

vrouw is, en dat 1 = 0.3. Als nu een man (xi1 = 0) wordt beschouwd met alle xik

bekend en gegeven is dat fman = 0.5; de kans is 0.5 dat hij verzekerd is. Dan zijn de

odds van deze man: oddsman = 0.5_0.5 = 1. Vervolgens wordt er een vrouw beschouwd

wordt, dus xi1 = 1. Als verder alle xik gelijk blijven, dan worden de odds van deze

vrouw: oddsvrouw = oddsman⇤ e 1 = 1⇤ e0.3 = 1.35. Hieruit volgt de kans dat deze

vrouw verzekerd is: fvrouw = _1+oddsodds = _1+1.351.35 = 0.57.

3.1.3 Hausman test

Om voor zowel de lineare als logistische regressies te bepalen of het fixed of random eﬀects model gebruikt moet worden, wordt de Hausman test toegepast. De Wu-Hausman statistiek H ziet er als volgt uit:

H = ( ˆRE ˆF E)0

h

Var( ˆF E) Var( ˆRE)

i 1

( ˆRE ˆF E) (7)

Onder de nulhypothese is H chikwadraat verdeeld met vrijheidsgraden gelijk aan het aantal variabelen in het model. Als p < 0.05 gevonden wordt, dan wordt het random eﬀects model verworpen ten gunste van het fixed eﬀects model.

3.2 Data

In dit onderzoek wordt gebruik gemaakt van de Medical Expenditure Panel Survey (MEPS) data. MEPS, dat door het Amerikaanse Ministerie van Volksgezondheid gestart is in 1996, is nationaal representatief voor de Amerikaanse bevolking. Elk jaar wordt er een nieuw panel van huishoudens geselecteerd, waarna er voor dat panel data verzameld wordt door middel van vijf interviews gedurende twee en een half jaar. Er wordt informatie verzameld over uitgaven aan zorg, ziektekostenverzekeringen en

(14)

allerlei demografische en socio-economische karakteristieken. De MEPS data tussen 2000 en 2010, met sprongen van twee jaar, wordt gebruikt bij het uitvoeren van de pseudo-panel analyse.

Er wordt uitsluitend gebruik gemaakt van de data van individuen geboren tussen 1926 en 1982. De bovengrens van dit interval, 1982, is gekozen om te verzekeren dat alle individuen in de dataset ouder dan 18 jaar zijn. De ondergrens, 1926, is het laatste geboortejaar waarvoor waarnemingen zijn in elk jaar tussen 2000 en 2010. Door deze ondergrens te nemen is de resulterende dataset gebalanceerd. Alle individuen met een publieke ziektekostenverzekering worden uitgesloten, omdat ervan uitgegaan wordt dat het hebben van een publieke verzekering geen keuze is van het individu. Tevens worden alle individuen uitgesloten die missende waarden hebben bij de verklarende variabelen. Na deze aanpassingen zijn er in totaal 83, 063 individuen in de zes panels. Beschrijvende statistiek van de totale dataset is te vinden in tabel 2.

Vervolgens worden de individuen in elk van de zes panels (2000, 2002, etc.) verdeeld in cohorten. Deze cohorten worden gemaakt op basis van geboortejaar (per twee jaar), geslacht en regio. Het eerste cohort is bijvoorbeeld de groep mannen geboren in 1926 of 1927 en woonachtig in het noordoosten van de Verenigde Staten. In totaal zijn er 232 verschillende cohorten4_{. Per cohort worden als waarnemingen}

voor de afhankelijke en verklarende variabelen de cohortgemiddelden gebruikt, bi-jvoorbeeld het gemiddelde inkomen van alle individuen in het cohort. Na het maken van de cohorten worden de zes datasets gecombineerd. Nu is één dataset verkregen met daarin per cohort waarnemingen voor zes jaren, dus in totaal 232 ⇤ 6 = 1392 waarnemingen. Deze dataset wordt vervolgens gebruikt bij het schatten van de mod-ellen. Het gebruik van cohorten is voor het eerst gesuggereerd door Deaton (1985).

(15)

Table 2: Beschrijving van de dataset N % Totaal 83.063 100,0 Verzekeringsdekking Verzekerd 65.455 78,8 Onverzekerd 17.608 21,2 Zorguitgaven Geen zorguitgaven 15.414 18,6 Minder dan $1.000 30.014 36,1 $1.000–$2.000 11.473 13,8 $2.000–$5.000 13.626 16,4 $5.000–$10.000 6.797 8,2 Meer dan $10.000 5.739 6,9 Scholing

Minder dan high school 15.527 18,7

High school 26.175 31,5

College of hoger 41.361 49,8

Leeftijd

Jonger dan 40 jaar 31.853 38,3

40–49 jaar 20.639 24,8

Ouder dan 50 jaar 30.571 36,8

Inkomen Minder dan $20.000 31.571 38,0 $20.000–$30.000 14.762 17,8 $30.000–$50.000 19.372 23,3 Meer dan $50.000 17.358 20,9 Geslacht Man 39.825 47,9 Vrouw 43.238 52,1 Etniciteit Blank 66.290 79,8 Niet-blank 16.773 20,2 Aantal aandoeningen 0 52.950 63,7 1 19.853 23,9 2 of meer 10.260 12,4 Roker Ja 16.942 20,4 Nee 66.121 79,6 Huwelijkse staat Getrouwd 53.564 64,5 Niet getrouwd 29.499 35,5

Grootte van de familie

1 of 2 37.246 44,8 2 tot 4 31.458 37,9 5 of hoger 14.359 17,3 Regio Noordoost 12.058 14,5 Zuidwest 17.597 21,2 Zuid 32.606 39,3 West 20.802 25,0 BMI <25 28.176 33,9 25–30 30.708 37,0 30–40 20.918 25,2 >40 3.261 3,9 Werkstatus Werkloos 20.987 25,3 Werknemer 54.461 65,6 Zelfstandig 7.615 9,2 Gezondheidsstatus Excellent/Very good 49.711 59,8 Good 23.426 28,2 Fair/Poor 9.926 11,9

(16)

De afhankelijke variabele in het geschatte model is het hebben van een private ziektekostenverzekering. Als verklarende variabelen worden demografische en socio-economische karakteristieken gebruikt alsmede variabelen die te maken hebben met de gezondheid van het individu. De demografische variabelen die gebruikt worden zijn leeftijd (en leeftijd2_{), etniciteit (blank of niet-blank), huwelijkse staat (getrouwd}

of niet) en grootte van de familie. Als socio-economische variabelen worden het aantal jaren scholing, inkomen en werkstatus (werknemer, zelfstandig of werkloos) gebruikt. De variabelen gerelateerd aan de gezondheid van het individu zijn gezondheidsstaat (volgens het individu zelf), totale uitgaven aan zorg in het afgelopen jaar, of het individu rookt of niet en de Body Mass Index (BMI) van het individu . Tevens wordt een variabele gebruikt die telt hoeveel van de volgende aandoeningen het individu heeft: diabetes, astma, beroerte, emfyseem en diverse hart- en vaatziektes. Op basis van de theorie is het aannemelijk dat de totale uitgaven aan zorg een endogene variabele is. Na het uitvoeren van de Durbin-Wu-Hausman test blijkt ook dat in de gebruikte data zorguitgaven een endogene variabele is5_{. Echter het rekening houden}

met endogeniteit van variabelen ligt buiten de reikwijdte van dit onderzoek. Wel is er gekeken naar de resultaten van de fixed eﬀects lineaire regressie waarbij de zorguitgaven weggelaten worden. Deze resultaten verschilden slechts zeer minimaal met het model waarin zorguitgaven wel opgenomen is (zie bijlage, tabel 8).

4 Resultaten

4.1 Lineaire regressie

Allereerst is zowel de random eﬀects (RE) als fixed eﬀects (FE) lineaire regressie uitgevoerd. Voor deze regressies is werkloos als referentiegroep genomen voor de werkstatus en voor de zelfbeoordeelde gezondheidsstatus het hebben van gezondheid ’Slecht’. Als significantieniveau is p < 0.05 genomen. Vervolgens is de Hausman test uitgevoerd om te testen of het RE of FE model gebruikt moet worden. De Wu-Hausman statistiek in deze test heeft een waarde van 380.7 met p < 0.0001.

(17)

Dit betekent dat bij deze lineaire regressie het fixed eﬀects model gebruikt moet worden. De resultaten van deze regressie staan in tabel 3. De resultaten van het random eﬀects model zijn voor de overzichtelijkheid hier weggelaten en opgenomen in de bijlage, tabel 9.

Van de gezondheidsvariabelen heeft de gezondheidsstatus, beoordeeld door het individu zelf, het grootste significante effect. Het hebben van gezondheid ’Heel goed’ verhoogt de fractie van het hebben van een private ziektekostenverzekering met 20.2 procentpunten ten opzichte van personen met gezondheid ’Slecht’. Voor personen met gezondheid ’Uitstekend’, ’Goed’ en ’Redelijk’ is dit respectievelijk 19.1, 15.5 en 10.8 procentpunten. Het positieve effect van deze variabelen is opvallend, aangezien volgens de intuïtie personen met een slechte gezondheid meer belang hebben bij een ziektekostenverzekering dan mensen met een betere gezondheid. Dit resultaat komt echter wel overeen met de resultaten van Barrett en Conlon (2003). Ook het aantal aandoeningen heeft een significante, positieve invloed; één aandoening meer zorgt voor een stijging van 2.3 procentpunt in de fractie verzekerden. Het zijn van een roker heeft, tevens overeenkomstig de resultaten van Barrett en Conlon, een daling van 5.4 procent als gevolg. Het BMI heeft met een p-waarde van 0.638 geen significant effect op het verzekerd zijn.

Van de demografische variabelen hebben alleen getrouwd zijn en leeftijd een signif-icant effect. Getrouwde personen hebben een 6.1 procentpunt hogere fractie verzek-erden dan ongehuwden. Het effect van leeftijd is niet lineair, maar in de vorm van een dalparabool. Het marginale effect van leeftijd hangt dus af van de leeftijd:

@fi

@Leef tijd = 0.0171553 + 0.0002262· Leeftijd

Deze parabool bereikt zijn minimum bij een leeftijd van 75.8 jaar. Bijvoorbeeld bij een leeftijd van 40 jaar heeft een toename van één jaar het volgende eﬀect:

4fi = ( 0.0171553 + 0.0002262· 40) · 1 = 0, 00811

(18)

procent-Table 3: Resultaten fixed eﬀects lineaire regressie met afhankelijke variabele fit Coëﬃciënt SE p-waarde Constante 0.9656 (0.09) 0.000 Leeftijd -0.0172 (0.00) 0.000 Leeftijd2 _0.0001 _(0.00) _0.000 Inkomen (x$1000) 0.0021 (0.00) 0.000 Zorguitgaven (x$1000) 0.0010 (0.00) 0.033 BMI 0.0008 (0.00) 0.638 Jaren scholing 0.0121 (0.00) 0.000 Blank -0.0403 (0.02) 0.074 Getrouwd 0.0610 (0.02) 0.001 Werk1 - Werknemer -0.0658 (0.02) 0.002 Werk2 - Zelfstandig -0.1639 (0.04) 0.000 Aantal aandoeningen 0.0226 (0.01) 0.002 Roker -0.0539 (0.03) 0.036 Health1 - Uitstekend 0.1914 (0.05) 0.001

Health2 - Heel goed 0.2022 (0.05) 0.000

Health3 - Goed 0.1553 (0.05) 0.003

Health4 - Redelijk 0.1083 (0.06) 0.050

Grootte van de familie 0.0111 (0.01) 0.053

(19)

punt lager is dan die van 40 jaar oud. Dat het effect van leeftijd negatief is tot een leeftijd van 75.8 jaar is opvallend. Naar aanleiding van de theorie werd verwacht dat leeftijd een positief effect zou hebben. Een mogelijke verklaring hiervoor is dat individuen, als zij ouder worden, wellicht aan de eisen voldoen voor een publieke zorgverzekering, bijvoorbeeld Medicare. Grootte van de familie en blank zijn hebben met p-waardes van respectievelijk 0.053 en 0.074 geen significant effect.

Tot slot is het effect van alle socio-economische variabelen significant. Bij een toenname van $1000 in het inkomen neemt de kans op verzekerd zijn toe met 0.2 procentpunt. Dit positieve effect komt overeen met de resultaten van Shen (2013). Een stijging van $1000 in zorguitgaven verhoogt de kans op verzekerd zijn toe met 0.1 procentpunt. Een extra jaar scholing zorgt voor een significante stijging van 1.2 pro-centpunt in de kans op het verzekerd zijn. Ook deze positieve invloed komt overeen met de resultaten van Shen. De invloed van werkstatus op het verzekerd zijn is opval-lend. Werknemers en zelfstandigen hebben respectievelijk 6.6 en 16.4 procentpunten minder kans om verzekerd te zijn dan werklozen. Een mogelijke verklaring hiervoor is dat veel werklozen een partner hebben die wel werkt. Echter had het opnemen van het inkomen van de familie in de regressie geen effect op de negatieve coëfficiënt van werkstatus.

Zoals besproken in het theoretisch kader is een probleem van het lineaire model dat de uitkomsten mogelijk niet begrensd zijn tussen 0 en 1, wat wel wenselijk is. Na het bepalen van de gefitte waarden ˆfit blijkt inderdaad dat de maximale waarde

van ˆfit groter is dan 1 (zie tabel 4). Zoals besproken zal in het logistische model dit

probleem zich niet voordoen.

Table 4: Gefitte waarden ˆfit na lineaire regressie

Gemiddelde SE Min. Max.

fit 0.8394 0.124 0.375 1.000

ˆ

(20)

4.2 Logistische regressie

Bij elk van de drie logistische regressies is eerst zowel het random als fixed eﬀects model geschat, waarna de Hausman test toegepast is. Een overzicht van de testre-sultaten is te vinden in tabel 5.

Table 5: Hausman test logistische regressies

Wu-Hausman Prob>Chi2

1. fit= 1 weggelaten 407.59 <0.0001

2. fit= 1 vervangen door fit = 0.99 585.25 <0.0001

3. fit= 1 vervangen door fit = 0.9999 238.67 <0.0001

Uit deze resultaten volgt dat het fixed effects model verkozen moet worden boven het random effects model. Om deze reden worden alleen de resultaten van de fixed effects regressies beschouwd. In tabel 6 zijn de resultaten te vinden van de drie regressies. In deze regressies is net als bij de lineaire regressie werkloos als referen-tiegroep genomen voor de werkstatus en het hebben van gezondheid ’Slecht’ voor de zelfbeoordeelde gezondheidsstatus. Als significantieniveau is p < 0.05 genomen.

Voor het selecteren van het beste model is het Bayesiaanse Informatiecriterium (BIC) in dit geval niet bruikbaar, omdat niet in elk model dezelfde waarnemingen worden gebruikt voor de afhankelijke variabele. Daarom zal op grond van twee redenen model 2 verder gebruikt en geanalyseerd worden. Allereerst is het niet preferabel om een grote hoeveelheid variabelen uit de dataset te weg te laten. Er gaat op die manier veel informatie over privaat verzekerden verloren. Ten tweede wijzen de p-waarden in model 2 op een grotere significantie van de coëﬃciënten dan in de andere modellen.

(21)

Ta ble 6: Resulta ten lo gistisc he reg ressies met afha nk elijk e va ria bele fit 1 fit fit =1 w eg gel at en fit =1 ver va ng en do or fit =0 .99 fit =1 ver va ng en do or fit =0 .9999 Co ëffi ci ën t SE p-w aa rd e Co ëffi ci ën t SE p-w aa rd e Co ëffi ci ën t SE p-w aa rd e Co ns ta nt e -1 .3 32 6 (1 .1 50 ) 0. 24 7 2. 21 59 (1 .0 51 ) 0. 03 5 1. 84 44 (3 .3 88 ) 0. 58 6 Leeft ijd -0 .1 77 8 (0 .0 24 ) 0. 00 0 -0 .1 90 1 (0 .0 21 ) 0. 00 0 -0 .4 69 8 (0 .0 68 ) 0. 00 0 Leeft ijd ^2 0. 00 13 (0 .0 00 ) 0. 00 0 0. 00 13 (0 .0 00 ) 0. 00 0 0. 00 35 (0 .0 01 ) 0. 00 0 In ko m en (* $1 00 0) 0. 01 88 (0 .0 04 ) 0. 00 0 0. 02 35 (0 .0 04 ) 0. 00 0 0. 05 99 (0 .0 12 ) 0. 00 0 Zo rg ui tg av en (* $1 00 0) 0. 05 40 (0 .0 12 ) 0. 00 0 0. 01 17 (0 .0 05 ) 0. 02 4 0. 02 70 (0 .0 17 ) 0. 10 5 BM I 0. 01 40 (0 .0 19 ) 0. 45 2 0. 05 09 (0 .0 18 ) 0. 00 6 0. 24 11 (0 .0 60 ) 0. 00 0 Ja ren sc ho lin g 0. 16 67 (0 .0 35 ) 0. 00 0 0. 16 06 (0 .0 35 ) 0. 00 0 0. 41 63 (0 .1 11 ) 0. 00 0 Bl an k -0 .1 73 8 (0 .2 56 ) 0. 49 7 -0 .4 45 1 (0 .2 51 ) 0. 07 6 -1 .1 33 5 (0 .8 08 ) 0. 16 1 Get ro uwd 0. 48 42 (0 .1 88 ) 0. 01 0 0. 75 67 (0 .1 98 ) 0. 00 0 1. 62 78 (0 .6 39 ) 0. 01 1 W er k1 -W er kn em er 0. 11 03 (0 .2 51 ) 0. 66 1 -1 .2 47 9 (0 .2 30 ) 0. 00 0 -4 .6 34 4 (0 .7 41 ) 0. 00 0 W er k2 -Zel fs ta nd ig -1 .1 48 4 (0 .4 17 ) 0. 00 6 -1 .9 77 2 (0 .3 93 ) 0. 00 0 -4 .4 25 6 (1 .2 68 ) 0. 00 1 A an ta la an do en in gen 0. 18 52 (0 .1 21 ) 0. 12 7 0. 29 87 (0 .0 81 ) 0. 00 0 0. 80 02 (0 .2 60 ) 0. 00 2 R ok er -0 .4 99 6 (0 .2 66 ) 0. 06 0 -0 .6 28 9 (0 .2 86 ) 0. 02 8 -1 .3 52 2 (0 .9 21 ) 0. 14 2 H ea lt h1 -U it st ek en d 3. 75 09 (0 .7 85 ) 0. 00 0 2. 49 10 (0 .6 05 ) 0. 00 0 6. 40 11 (1 .9 50 ) 0. 00 1 H ea lt h2 -H eel go ed 4. 03 44 (0 .7 72 ) 0. 00 0 2. 28 90 (0 .5 87 ) 0. 00 0 5. 24 20 (1 .8 93 ) 0. 00 6 H ea lt h3 -Go ed 3. 49 97 (0 .7 80 ) 0. 00 0 1. 81 09 (0 .5 81 ) 0. 00 2 3. 96 33 (1 .8 72 ) 0. 03 5 H ea lt h4 -R ed el ijk 2. 38 15 (0 .8 31 ) 0. 00 4 1. 52 67 (0 .6 13 ) 0. 01 3 4. 51 08 (1 .9 74 ) 0. 02 3 Gr oo tt e va n de fa m ili e 0. 26 22 (0 .0 54 ) 0. 00 0 -0 .0 00 4 (0 .0 64 ) 0. 99 5 -0 .4 32 6 (0 .2 06 ) 0. 03 6 R-s qr 0. 24 7 0. 22 4 0. 19 8 BI C 10 87 .4 22 56 .6 55 15 .0

(22)

De geschatte coëﬃciënten van alle gezondheidsvariabelen in model 2 zijn signifi-cant. Van deze variabelen heeft de gezondheidsstatus, beoordeeld door het individu zelf, de grootste invloed. De odds van een individu dat aangeeft een uitstekende gezondheid te hebben zijn e2.491 _{= 12.07} _{maal zo groot als die van iemand met de}

gezondheid ’Slecht’. Voor iemand met gezondheid ’Heel goed’ zijn de odds e2.289_{= 9.87}

maal zo groot. Tenslotte voor personen met gezondheid ’Goed’ en ’Redelijk’ is deze factor respectievelijk e1.8109 _{= 6.12}_{en e}1.5267 _{= 4.60}_{. Zoals ook genoemd bij de lineaire}

regressie is het positieve eﬀect van deze variabelen opvallend. Echter, dit komt wel overeen met de resultaten van Barrett en Conlon (2003). Ook het zijn van een roker heeft een significante invloed. De odds van een individu dat rookt zijn e 0,6289 _{= 0, 533}

maal de odds van iemand die niet rookt, wanneer alle andere variabelen gelijk blijven. Dit betekent een afname in de odds van 46.6%. Ook dit komt overeen met de bevindin-gen van Barrett en Conlon. Het eﬀect van het aantal aandoeninbevindin-gen van het individu is significant positief. Één aandoening meer zorgt voor een vermenigvuldiging van de odds van e0.2987 _{= 1.35. Als laatste gezondheidsvariabele heeft het BMI een}

signifi-cante, positieve invloed. Een toenname in het BMI van één heeft als gevolg dat de odds vermenigvuldigt worden met e0.0509 _{= 1.052}_{. Dit betekent dat elk punt extra in}

het BMI zorgt voor een toename van 5.2% in de odds.

Van de demografische variabelen heeft getrouwd zijn het grootste significante eﬀect. Een getrouwd individu heeft odds die e0.7567 _{= 2.13} _{keer zo groot zijn als die van een}

ongetrouwd individu, als alle andere variabelen gelijk blijven. Dat de coëﬃciënten van zowel leeftijd als het kwadraat van leeftijd significant zijn, wijst erop dat de invloed van leeftijd op logit(fit) niet lineair is, maar in de vorm van een dalparabool. De

invloed van leeftijd in het odds model is dan als volgt: ˆ

fi

1 fˆi

= e 0_e 0.1901·Leeftijd+0.0013·Leeftijd2_{... e} kxik (8) Hierin zijn k en xik de overige coëﬃciënten en verklarende variabelen. Hieruit volgt

dat een verandering van één in de leeftijd zorgt voor een vermenigvuldiging in de odds van:

e 0.1901e0.0013·(2·Leeftijd 1)

Bijvoorbeeld iemand van 41 jaar oud heeft odds die e 0.1901_e0.0013·(2·41 1) _{= 0.92} _zo

groot zijn als die van iemand van 40 jaar oud. Dit eﬀect is groter dan 1 voor Leeftijd > 73.6. De laatste demografische variabelen, blank zijn en grootte van de familie, hebben

(23)

geen significante invloed op de odds.

Van de demografische variabelen zijn alle coëﬃciënten significant. Een toename van $1000 in het inkomen zorgt voor een vermenigvuldiging van de odds van e0.0235 _{= 1.024,}

of een stijging van de odds van 2.4%. Deze positieve invloed komt overeen met de resultaten van Shen (2013). Een toename van $1000 in de zorguitgaven zorgt voor een stijging van 1.2% van de odds. Het aantal jaren scholing heeft, overeenkomstig de resultaten van Shen, een positieve invloed op de odds. Een extra jaar scholing zorgt voor een vermenigvuldiging van de odds van e0.1606 _{= 1.174}_{, oftewel een stijging van}

de odds van 17.4%. Het eﬀect van de werkstatus is opnieuw opvallend. Net als bij de lineaire regressie zijn de coëﬃciënten van ’Werknemer’ en ’Zelfstandig’ negatief. Het zijn van een werknemer verlaagt de odds met 71.3% ten opzichte van het werkloos zijn. Bij ’Zelfstandig’ is deze verlaging zelfs 86.2%.

Om het verschil in schattingsresultaten tussen model 2 en 3 te bekijken, worden de marginale effecten bekeken. Hiermee kunnen ook de resultaten van de logistische modellen gemakkelijker vergeleken worden met de resultaten van het lineaire model. Hiervoor wordt allereerst met beide modellen de fractie verzekerden van een ’controle-groep’ geschat. Deze groep bestaat uit individuen met voor de continue verklarende variabelen het gemiddelde, zoals te vinden in tabel 1 en voor de dummy variabelen (blank, getrouwd, etc.) een waarde van nul. Voor model 2 is de geschatte fractie van deze controlegroep 0.490, voor model 3 is dit 0.635. Deze fracties zijn vervolgens gebruikt voor het bepalen van de marginale effecten van de verklarende variabelen. De resultaten hiervan zijn te vinden in tabel 7. De resultaten zijn als volgt te inter-preteren: individuen met alle eigenschappen hetzelfde als de controlegroep, behalve dat ze wél getrouwd zijn, hebben een fractie verzekerden die 18.19 procentpunt hoger ligt dan de controlegroep. Voor de continue verklarende variabelen is het effect de verandering in de geschatte fractie als de variabele toeneemt met 1.

(24)

Table 7: Vergelijking schattingsresultaten model 2 en 3 fit = 0.99 fit = 0.9999 Marginaal eﬀect Leeftijd -0.0473 -0.1141 Leeftijd2 _0.0003 _0.0008 Inkomen (x$1000) 0.0059 0.0138 Zorguitgaven (x$1000) 0.0029 0.0062 BMI 0.0127 0.0539 Jaren scholing 0.0401 0.0902 Blank -0.1089 -0.2760 Getrouwd 0.1819 0.2639 Werk1 - Werknemer -0.2738 -0.6179 Werk2 - Zelfstandig -0.3725 -0.6141 Aantal aandoeningen 0.0743 0.1599 Roker -0.1512 -0.32546 Health1 - Uitstekend 0.4307 0.3645

Health2 - Heel goed 0.4146 0.3625

Health3 - Goed 0.3646 0.3547

Health4 - Redelijk 0.3256 0.3592

Grootte van de familie -0.0001 -0.1048

Opvallend is dat voor alle verklarende variabelen, behalve Health1-4, de absolute waarde van het geschatte marginale effect groter is in model 3 dan in model 2. Dit verschil laat zien dat de geschatte logistische modellen dus onderhevig zijn aan de keuze voor de aanpassing van de dataset. Wat ook opvalt is dat de absolute waarden van de coëfficiënten voor beide modellen groter zijn dan bij de lineaire regressie. Dit komt mogelijk door de keuze voor de ’controlegroep’. De geschatte fracties voor deze groep zijn aanzienlijk lager dan 0.894, het gemiddelde van de fracties in de dataset, waardoor het absolute effect op de fracties groter is. De geschatte fractie verzekerden voor de controlegroep is 0.72 als gebruik wordt gemaakt van de resultaten van de lineaire regressie. Wel zijn de tekens even groot bij de lineaire en logistische regressies, en is de orde van grootte van de coëfficiënten van model 2 en de lineaire regressie vergelijkbaar te noemen.

(25)

5 Conclusie en discussie

In deze scriptie is op cohortniveau onderzocht welke variabelen verklaren of iemand pri-vaat verzekerd is. Hiertoe is gebruik gemaakt van een pseudo-panel dataset, waarmee lineaire en logistische regressies gedaan zijn. Uit beide regressies volgt dat leeftijd, inkomen, zorguitgaven, scholing, getrouwd zijn, werkstatus, aantal aandoeningen, ro-ken en gezondheidsstatus een significante invloed hebben op de kans om verzekerd zijn. Uit de logistische regressie volgt ook een significant eﬀect van het BMI. Het eﬀect van inkomen, getrouwd zijn, aantal aandoeningen, scholing, gezondheidsstatus en roken komt overeen met de resultaten van Shen (2013), Barrett en Conlon (2003) en Doiron, Jones en Savage (2008) zoals besproken in de theorie.

Het gevonden effect van werkstatus is opvallend. Uit zowel de lineaire als logistische regressie volgt dat werknemers en zelfstandigen een kleinere kans hebben om verzekerd te zijn dan werklozen, alle andere variabelen gelijk gehouden. Dit is in strijd met de resultaten van Doiron, Jones en Savage (2008), die een positief effect van werk hebben vonden. In de theorie is geen verklaring gevonden voor dit opvallende effect. Vervolgonderzoek dat zich meer concentreert op de invloed van werkstatus op de kans om verzekerd te zijn is nodig om meer te kunnen zeggen over dit effect. Hierin zou bijvoorbeeld ook gebruik gemaakt kunnen worden voor dummies die de sector aangeven waarin het individu werkzaam is.

Ook het gevonden effect van leeftijd op de kans om verzekerd te zijn komt niet overeen met de theorie. Bij de lineaire regressie is het gevonden marginale effect negatief tot een leeftijd van 75.8 jaar, bij de logistische regressie tot 73.6 jaar. Dit in tegenstelling tot de resultaten van Savage en Wright (1999), die een positief effect van leeftijd vonden. Een mogelijke verklaring hiervoor kan zijn dat individuen, als zij ouder worden, aan de eisen voldoen voor een publieke zorgverzekering zoals Medicare. De invloed van gezondheidsstatus op de kans om verzekerd te zijn is positief. Hoe beter individuen hun eigen gezondheid beoordelen, hoe groter de kans dat ze verzekerd zijn. Tevens heeft het zijn van een roker een negatieve invloed op deze kans. Deze resultaten wijzen op afwezigheid van adverse selectie bij de beslissing van het individu voor het afsluiten van een verzekering. Echter, het aantal aandoeningen heeft een positieve invloed op de kans om verzekerd te zijn en bij de logistische regressie ook het BMI. Dit wijst op de aanwezigheid van adverse selectie. Ook de positieve invloed van zorguitgaven wijst hierop, echter is er in dit onderzoek geen rekening gehouden

(26)

met de endogeniteit van deze variabele. Wel bleken de resultaten van dit onderzoek vrijwel niet te veranderen als deze variabele werd weggelaten in de regressie. In ver-volgonderzoek zouden instrumenten voor de zorguitgaven gebruikt kunnen worden om te onderzoeken of verzekerden significant hogere verwachte ziektekosten hebben dan onverzekerden en dus of er adverse selectie plaatsvindt.

Bij de logistische regressie is de dataset aangepast, om te voorkomen dat er waarne-mingen met het deel verzekerden gelijk aan 1 weggelaten moesten worden. Echter zijn de resultaten van de regressie hierna sterk afhankelijk van de aanname van de on-derzoeker. In vervolgonderzoek zouden andere methodes gebruikt kunnen worden om dit probleem te voorkomen, bijvoorbeeld de methode voorgesteld door Papke en Wooldridge (1996).

Bibliografie

1. Agency for Healthcare Research and Quality (2009, 21 augustus). Survey

back-ground. Geraadpleegd via http://meps.ahrq.gov/mepsweb/about_meps/survey_back.jsp (25 september 2014)

2. American Academy of Actuaries (1999). Individually Purchased Voluntary Med-ical Expense Insurance.

3. Ayanian, J. Z., Weissman, J. S., Schneider E. C., Ginsburg, J. A. & Zaslavsky, A. M. (2000). Unmet health needs of uninsured adults in the United States. Jama. 284(16), 2061-2069.

4. Barrett, G. F. & Conlon, R. (2003). Adverse selection and the decline in private health insurance coverage in Australia: 1989-95. Economic Record, 79(246), 279-296.

5. Bureau of Labor Statistics (2014). Labor Force Statistics from the Current Pop-ulation Survey. Geraadpleegd via http://data.bls.gov/timeseries/LNS14000000 (24 oktober 2014)

6. Cameron, A. C. & Trivedi, P. K. (1991). The role of income and health risk in the choice of health insurance: evidence from Australia. Journal of Public Economics, 45(1), 1-28.

(27)

7. Chamberlain, G. (1984). Panel Data. In Z. Griliches & M.D. Intriligator (eds.), Handbook of Econometrics, Vol. 2, 1247-1318

8. Collins, S. R., Rasmussen, P.W. & Doty, M. M. (2014). Gaining Ground: Amer-icans’ Health Insurance Coverage and Access to Care After the Aﬀordable Care Act’s First Open Enrollment Period. The Commonwealth Fund, July 2014 9. Courbage, C. & Coulon, A. (2004). Prevention and private health insurance

in the U.K. Geneva Papers on Risk and Insurance: Issues and Practice, 29(4), 719-727.

10. Cutler, D. M., & Reber, S. (1996). Paying for health insurance: the tradeoﬀ between competition and adverse selection. Quarterly Journal of Economics, 108(2), 433-466.

11. Cutler, D. M. & Zeckhauser, R. J. (1998). Adverse selection in health insurance. Forum for Health Economics & Policy, 1(1)

12. Cutler, D. M. & Zeckhauser, R. J. (2000). The anatomy of health insurance. Handbook of health economics, 1, 563-643.

13. Dave, D. & Kaestner, R. (2009). Health insurance and ex ante moral hazard: evidence from Medicare. International journal of health care finance and eco-nomics, 9(4), 367-390.

14. Deaton, A. (1985). Panel data from time series of cross-sections. Journal of econometrics, 30(1), 109-126.

15. Doiron, D., Jones, G., & Savage, E. (2008). Healthy, wealthy and insured? The role of self-assessed health in the demand for private health insurance. Health economics, 17(3), 317-334.

16. Kaiser Commission on Medicaid and the Uninsured (2013). The Uninsured: A Primer - Key Facts about Health Insurance on the Eve of Coverage Expansions. Geraadpleegd via

http://kﬀ.org/report-section/the-uninsured-a-primer-2013-conclusion/ (15 oktober 2014)

(28)

17. Kenkel, D. S. (2000). Prevention. In Culyer, A. J. & Newhouse, J. P. (eds.), Handbook of health economics.

18. Krugman, P. (2009). The Return of Depression Economics and the Crisis of 2008. New York: W.W. Norton.

19. Levy, J. (2014). In U.S., Uninsured Rate Sinks to 13.4% in Second Quarter. Ger-aadpleegd via http://www.gallup.com/poll/172403/uninsured-rate-sinks-second-quarter.aspx (15 oktober 2014)

20. Papke, L. E., Wooldridge, J. M. (1996). Econometric Methods for fractional response variables with an application to 401(k) plan participation rates. Journal of Applied Econometrics, 11, 619-632.

21. Savage, E. & Wright, D. (1999). ’Health Insurance and Health Care Utilitza-tion: Theory and Evidence from Australia 1989-90’, Mimeograph, University of Sydney, Sydney.

22. Shen, C. (2013). Determinants of Health Care Decisions. Review of Economics and Statistics, 95(1), 142-153.

23. Smith, J.C. & Medalia, C. (2014). Health Insurance Coverage in the United States: 2013. U.S. Census Bureau, Current Population Reports (pp. 60-250)

(29)

Bijlage

Table 8: Resultaten fixed eﬀects lineaire regressie, zorguitgaven weggelaten, afhanke-lijke variabele fit

Variabele Coëﬃciënt SE p-waarde

Constante 0.9841 (0.09) 0.000 Leeftijd -0.0173 (0.00) 0.000 Leeftijd2 _0.0001 _(0.00) _0.000 Inkomen (x$1000) 0.0022 (0.00) 0.000 BMI 0.0006 (0.00) 0.707 Jaren scholing 0.0122 (0.00) 0.000 Blank -0.0364 (0.02) 0.106 Getrouwd 0.0611 (0.02) 0.001 Werk1 - Werknemer -0.0697 (0.02) 0.001 Werk2 - Zelfstandig -0.1618 (0.04) 0.000 Aantal aandoeningen 0.0232 (0.01) 0.001 Roker -0.0549 (0.03) 0.033 Health1 - Uitstekend 0.1742 (0.05) 0.001

Health2 - Heel goed 0.1875 (0.05) 0.000

Health3 - Goed 0.1384 (0.05) 0.008

Health4 - Redelijk 0.0983 (0.05) 0.074

(30)

Table 9: Resultaten random eﬀects lineaire regressie, afhankelijke variabele fit

Variabele Coëﬃciënt SE p-waarde

Constante 0.1614 (0.09) 0.088 Leeftijd 0.0024 (0.00) 0.106 Leeftijd2 _0.0000 _(0.00) _0.079 Inkomen (x$1000) 0.0000 (0.00) 0.893 Zorguitgaven (x$1000) 0.0007 (0.00) 0.214 BMI -0.0077 (0.00) 0.000 Jaren scholing 0.0268 (0.00) 0.000 Blank 0.1688 (0.02) 0.000 Getrouwd 0.0455 (0.02) 0.009 Werk1 - Werknemer -0.0328 (0.02) 0.131 Werk2 - Zelfstandig -0.1579 (0.04) 0.000 Aantal aandoeningen 0.0082 (0.01) 0.294 Roker 0.0465 (0.03) 0.074 Health1 - Uitstekend 0.1950 (0.06) 0.001

Health2 - Heel goed 0.2086 (0.06) 0.000

Health3 - Goed 0.1145 (0.06) 0.050

Health4 - Redelijk 0.0624 (0.06) 0.313