• No results found

De invloed van het hebben van een zorgverzekering op gemaakte zorgkosten : een analyse met parametrische en semiparametrische schattingsmethoden

N/A
N/A
Protected

Academic year: 2021

Share "De invloed van het hebben van een zorgverzekering op gemaakte zorgkosten : een analyse met parametrische en semiparametrische schattingsmethoden"

Copied!
26
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

De invloed van het hebben van een zorgverzekering

op gemaakte zorgkosten: Een analyse met

parametrische en semiparametrische

schattingsmethoden

Davina Pas, 10169555 25-6-2014

Universiteit van Amsterdam Faculteit Economie en Bedrijfskunde

Studierichting: Econometrie Begeleider: Hans van Ophem

(2)

Inhoud

1 Introductie ...3 2 Het Model ...5 3 Data ...9 4 Resultaten ...11 5 Conclusie ...24 6 Bibliografie ...25 7 Bijlagen ...26

(3)

1

Introductie

In Amerika hebben mensen zelf de keuze om wel of niet een zorgverzek-ering af te sluiten. Deze keuze wordt be¨ınvloed door vele factoren. Als men er eenmaal voor heeft gekozen om een zorgverzekering af te sluiten zou dit een effect kunnen hebben op de totale zorgkosten. Mensen die verzekerd zijn, gaan misschien sneller naar de dokter voor een behandel-ing omdat deze toch vergoed wordt. Ook kan een dokter een duurdere behandelmethode gebruiken of duurdere medicijnen voorschrijven als ie-mand verzekerd is. De centrale vraag van dit onderzoek luidt: heeft het al dan niet hebben van een zorgverzekering invloed op de zorgkosten die gemaakt worden?

Er zijn een aantal problemen in het onderzoeken van de keuzes die mensen maken met betrekking tot gezondheidszorg. Hoeveel een persoon gebruik maakt van de zorg is waarschijnlijk afhankelijk van het al dan niet verzekerd zijn. De variabele ”verzekering” is een dummyvariabele. Dit is een keuzevariabele voor ieder individu en daarom is deze variabele waarschijnlijk endogeen. Dit komt bijvoorbeeld doordat mensen die een grotere behoefte aan zorg hebben, ook eerder een zorgverzekering zullen afsluiten.

Er zijn verschillende manieren om voor deze endogeniteit te corrigeren. Een aantal onderzoekers heeft gebruik gemaakt van instumentele variabe-len (Holly, Gardiol, & Huguenin, 1998; Vera-Hernandez, 1999; Wooldridge, 2002).

Een andere manier om te corrigeren voor de selectiviteit van de groep die verzekerd is, is door middel van het Heckman model (Heckman, 1976, 1979). Het Heckman model is een parametrische methode. Bij het maken van parametrische schattingen wordt ervan uitgegaan dat de storingen normaal verdeeld zijn. Aangezien er geen aanwijzingen te vinden zijn die erop wijzen dat de storingen daadwerkelijk normaal verdeeld zijn kan hier niet vanuit worden gegaan. Daarom wordt er in dit onderzoek naast het parametrische Heckman model ook een semiparametrische schatting uitgevoerd, die de aanname van normaliteit loslaat.

Er zijn een aantal verschillende methodes om semiparametrische schat-tingen te doen. In dit onderzoek wordt de semiparametrische methode van Cosslett (1983) toegepast om het effect van het hebben van een zorgverzekering op de gemaakte zorgkosten te analyseren. De resultaten van de methode van Cosslett (1983) zullen worden vergeleken met die van Shen (2013) die zijn eigen semiparametrische methode heeft ontwikkeld en heeft toegepast op dit onderwerp.

De inhoud van dit paper is als volgt: in hoofdstuk 2 worden de parametrische en de semiparametrische methoden uitgelegd die worden toegepast. Hoofdstuk 3 geeft een beschrijving van de gebruikte data. Hoofdstuk 4 geeft de gevonden resultaten weer en tot slot bevat

(4)
(5)

2

Het Model

Het model in dit onderzoek is gebaseerd op dat van Shen (2013). Shen (2013) doet onderzoek naar de invloed van het hebben van een zorgverzek-ering op het gebruik van zorg en de zorgkosten. Hiervoor gebruikt hij een parametrische methode en een door hem zelf bedachte semiparametrische methode.

Het model dat wordt onderzocht bestaat uit twee vergelijkingen. De eerste vergelijking representeert de keuze die een persoon maakt om wel of geen zorgverzekering af te sluiten.

verzekerdi =

1 als Xi0α + νi ≥ 0

0 als Xi0α + νi < 0

(1)

Hierin bestaat Xiuit exogene variabelen van individu i die invloed hebben

op de keuze om een verzekering af te sluiten.

De tweede vergelijking geeft de gemaakte zorgkosten weer. uitgaveni = Zi0β + verzekerdiδ + i (2)

Hierin is uitgaveni de logaritme van de totale uitgaven van persoon i aan

zorgkosten. Zi bestaat uit exogene variabelen die invloed hebben op de

zorgkosten die worden gemaakt. Doordat de keuze om een verzekering af te sluiten de keuze van de pati¨ent is en de uitgaven die worden gemaakt afhangen van zowel de pati¨ent als de dokter, bevat Zi andere verklarende

variabelen dan Xi. In dit onderzoek worden dezelfde verklarende

vari-abelen gebruikt als in het onderzoek van Shen (2013).

Omdat aan de ene kant mensen die verzekerd zijn waarschijnlijk meer uitgeven aan zorgkosten dan onverzekerden, en aan de ander kant mensen die naar verwachting meer geld kwijt zullen zijn aan zorgkosten (bijvoor-beeld mensen met een chronische ziekte) eerder zullen kiezen voor een verzekering, is er sprake van endogeniteit. Dit betekent dat de storingen van de twee vergelijkingen, νi en i met elkaar correleren. Dit leidt ertoe

dat het schatten van vergelijking (2) met Ordinary Least Squares (OLS), inconsistente schatters voor β en δ oplevert.

Doordat νi en i met elkaar gecorreleerd zijn is E(i|verzekerdi) 6= 0.

Dit betekent dat de groep verzekerden geen willekeurige groep is van de observaties maar een selectieve groep.

In dit onderzoek zal voor de selectiviteit van de groep verzekerden gecorrigieerd worden door middel van een parametrische en een semi-parametrische methode die hieronder beschreven worden.

2.1 Het Heckman Model

Het Heckman model corrigeert voor de correlatie tussen νi en i door

(6)

schatting van E(i|verzekerdi). In dit onderzoek wordt een vorm van

het Heckman model gebruikt waarbij zowel de verzekerden als de mensen die niet verzekerd zijn worden opgenomen in de vergelijking die geschat wordt met behulp van OLS.

De methode die Heckman gebruikt bestaat uit twee stappen. In de eerste stap wordt vergelijking (1) geschat door middel van het probit model met als doel λi te schatten. De gevonden schatting voor α uit

vergelijking (1) wordt gebruikt om de inverse Mills ratio’s te bepalen voor verzekerde en onverzekerde individuen:

ˆ λi,verzekerd(Xi0α) =ˆ φ(Xi0α)ˆ Φ(Xi0α)ˆ (3) ˆ λi,niet verzekerd(Xi0α) = −ˆ φ(Xi0α)ˆ 1 − Φ(Xi0α)ˆ (4)

Door de gevonden schatting uit vergelijking (1), ˆα, in te vullen in deze formules worden de waardes van ˆλi verkregen. Deze worden toegevoegd

aan vergelijking (2). Dit geeft de volgende vergelijking: uitgaveni = Zi0β + verzekerdi δ + ˆλiγ + ∗i (5)

Hierin is:

∗i = i− ˆλiγ

Door ˆλi toe te voegen bevat vergelijking (5) een correctieterm voor de

correlatie tussen νi en i. Anders dan in vergelijking (2) is in dit geval

E(∗i|verzekerdi) = 0. Stap 2 is nu om OLS uit te voeren op vergelijking

(5). Dit levert consistente schattingen voor β en δ.

In dit onderzoek wordt ook gekeken naar de significantie van de co¨ effi-cient van ˆλi, γ, indien deze niet significant is kan worden geconcludeerd

dat er geen correctieterm nodig is. Dit houdt in dat er geen significante correlatie is tussen νi en i is. Dit was het geval in het onderzoek van

Hussinger (2008).

Het na elkaar uitvoeren van stap 1 en stap 2 levert echter onjuiste standaardfouten op. Dit heeft te maken met het feit dat er geen reken-ing wordt gehouden met de variantie van ˆλi of ˆαi bij het uitvoeren van

OLS op vergelijking (5). Dit probleem zou kunnen worden opgelost door stap 1 en stap 2 simultaan uit te voeren door middel van Full Information Maximum Likelihood. De semiparametrische methode die wordt uitgevo-erd bestaat echter ook uit twee stappen en deze kunnen niet simultaan worden uitgevoerd. Er is dus voor gekozen om bij zowel het Heckman model als bij het semiparametrische model de stappen niet simultaan uit te voeren zodat de twee methodes beter met elkaar vergeleken kunnen worden.

Het Heckman model levert alleen consistente schatters op indien een aantal sterke aannames gelden. De schatters die met het Heckman model

(7)

voor β en δ worden gevonden, zijn alleen consistent indien de storingen normaal verdeeld zijn. Omdat er niet van uit kan worden gegaan dat dit het geval is zal ook een semiparametrisch model worden toegepast. Semiparametrische modellen maken geen assumpties over de verdeling van de storingen.

2.2 Het Semiparametrische Model

Net zoals het Heckman model bestaan semiparametrische modellen uit twee stappen, zoals ook het geval is bij de modellen van Cosslett (1983), Newey (2009) en Robinson (1988). In tegenstelling tot het Heckman model, kunnen bij semiparametrische modellen de twee stappen niet si-multaan worden uitgevoerd. Bij het Heckman model kan dit met behulp van Full Information Maximum Likelihood.

In dit onderzoek wordt het model van Cosslett (1983) toegepast. Cosslett voegt een set met dummyvariabelen toe die corrigeren voor de correlatie tussen de storingen, die niet gebaseerd zijn op een specifieke verdeling. Deze correctietermen vormen samen een benadering van de correlatie tussen de storingen. De observaties worden opgedeeld in M delen aan de hand van Xi0α. Hierbij is ˆˆ α de schatting van α die volgt uit vergelijking (1), geschat met het probit model. Stap 1 is dus dezelfde als in het Heckman model. Hierin wijkt dit onderzoek af van de orig-inele methode van Cosslett (1983) waarin vergelijking (1) niet met probit wordt geschat.

Het interval waarin de waardes van Xi0α liggen wordt opgedeeld in Mˆ deelintervallen, als Xi0α in het eerste deelinterval ligt, is Dˆ 1 = 1 en zijn

alle andere dummy’s gelijk aan 0. Als Xi0α in het tweede deelinterval ligt,ˆ is D2 = 1 en zijn alle andere dummy’s gelijk aan 0. Zo wordt voor iedere

observatie gekeken in welk interval Xi0α ligt en aan de hand daarvanˆ wordt bepaald welke dummy voor die observatie de waarde 1 aanneemt. Ieder deelinterval heeft zijn eigen dummyvariabele Dm en er is dus altijd

´

e´en dummyvariabele gelijk aan 1. Dit betekent ook dat de constante term in vergelijking (6) weg moet worden gelaten.

De co¨effici¨enten van de dummy’s zijn een schatting van E(i|verzekerdi)

voor dat interval van Xi0α waarvoor die dummy waarde 1 aanneemt. Bijˆ het opstellen van de inverse Mills ratios in het Heckman model wordt ervan uit gegaan dat de storingsterm in vergelijking (1) de standaard-normale verdeling volgt. Door voor elk deelinterval van Xi0α een andereˆ correctieterm op te nemen, kan elke willekeurige functie worden benaderd en hoeven er geen aannames over de verdeling van de storingsterm in vergelijking (1), νi, te worden gemaakt. Het toevoegen van de

(8)

dummy-variabelen aan vergelijking (2) geeft de volgende vergelijking: uitgaveni = Zi0β + verzekerdi δ + M X m=1 Dim(Xi0α)γˆ m+ ∗i (6)

Van deze vergelijking worden β, δ en γ geschat met behulp van OLS. In het onderzoek van Cosslet (1983) staat dat het optimale aantal dummy’s rond√N /2 ligt. In dit geval zouden er dus M = √2774/2 ≈ 26 dummyvariabelen gebruikt moeten worden, aangezien dit onderzoek N = 2774 observaties bevat. In dit onderzoek zal de methode van Cosslett met 10, 20 en 30 dummyvariabelen worden uitgevoerd.

Als er meer dummyvariabelen worden toegevoegd, is de kans groter dat de coefficienten van de dummy’s, γm, niet meer simultaan significant

zijn. Dit zal worden getoetst door middel van een F-test.

Aangezien er bij het uitvoeren van OLS op vergelijking (6) geen reken-ing wordt gehouden met de variantie van ˆα zullen de standaardfouten die worden gevonden niet juist zijn. Een oplossing hiervoor is om de stan-daardfouten te bepalen door middel van de Bootstrap methode.

(9)

3

Data

De data die in dit onderzoek worden gebruikt zijn dezelfde als die in het onderzoek van Shen (2013) zijn gebruikt. De data is afkomstig van de Medical Expenditure Panel Survey (MEPS) van 2005. De MEPS is een nationale enquˆete die wordt gehouden onder de bevolking in Amerika. Deze enquˆete wordt verspreid onder huishoudens, werknemers en zorgin-stellingen om informatie te verzamelen over zorgkosten, zorgverzekerin-gen en sociaal- economische eizorgverzekerin-genschappen.

In totaal bestaat deze dataset uit 33961 observaties. In het onderzoek van Shen (2013) is echter alleen gekeken naar een deelverzameling van alle observaties. In dit onderzoek zal naar de zelfde deelverzameling worden gekeken als Shen (2013). De deelverzameling bestaat uit mensen met obesitas, in de leeftijdscategorie 22 tot en met 64 jaar die werk hebben. Voor mensen met een body mass index (BMI) groter dan 30 geldt dat ze in de categorie van mensen met obesitas vallen.

In het onderzoek van Shen (2013) is ervoor gekozen om de focus te leggen op mensen met obesitas omdat dit een groeiende groep is die an-dere zorg behoeft dan de rest van de populatie. Er wordt alleen gekeken naar mensen die werk hebben omdat werk en zorgverzekeringen vaak samenhangen. Mensen met een verplichte verzekering worden niet in de deelverzameling meegenomen omdat zij niet zelf de keus hebben gemaakt om een verzekering af te sluiten. Ook zijn mensen die gedurende het jaar zijn doodgegaan of waarvan observaties van de gebruikte exogene variabelen ontbreken uit de deelverzameling weggelaten. De uiteindeli-jke deelverzameling bestaat in dit onderzoek uit 2774 individuen. Shen (2013) heeft in zijn onderzoek met een deelverzameling van 2771 indi-viduen gewerkt.

De twee endogene variabelen die worden verklaard in dit onderzoek zijn de verzekering en de uitgaven. De variabele verzekering is een dum-myvariabele die waarde 1 aanneemt indien een individu verzekerd is. De variabele uitgaven is de logaritme van de totale uitgaven aan zorg van een persoon in een jaar. Hier vallen zowel priv´e betaalde kosten als door de verzekering betaalde kosten onder.

De verklarende variabelen die zijn gebruikt in dit onderzoek zijn dezelfde als die zijn gebruikt in het onderzoek van Shen (2013) namelijk de-mografische factoren, sociaal-economische factoren en gezondheidsfac-toren. De demografische factoren zijn; leeftijd, geslacht, etniciteit (blank, niet blank), huwlijkse staat (getrouwd, ongetrouwd), gezinsgrootte en woonregio (Noord-Oost, Midwest, Zuid, West).

Onder sociaal-economische factoren vallen de variabelen; aantal jaren scholing, inkomen, managementfunctie en percentage verzekerden in de branche. De dummyvariabele management, deze neemt waarde 1 aan als een persoon een managementfunctie heeft of werkzaam is in de financi¨ele

(10)

sector. Deze variabele wordt opgenomen om te onderzoeken wat de in-vloed is van het soort beroep dat een persoon uitoefent op zijn verzeker-ingskeuze. Verschillende onderzoeken hebben namelijk aangetoond dat het soort beroep en de branche waarin men werkt een invloed heeft op de verzekeringskeuze (Kaiser Family Foundation, 2006). De variabele inkomen is het totale inkomen van een persoon in een jaar gedeeld door 1000 en daar is de logaritme van genomen.

De gezondheidsfactoren die zijn opgenomen in het model zijn; psychis-che aandoeningen, of een persoon rookt en het aantal comorbiditeiten. De variablele ”aantal comorbiditeiten” is gecre¨eerd door te tellen hoeveel van de volgende ziektes een persoon heeft; alzheimer, asthma, arthrose, kanker, emfyseem, diabetes, hart ziektes, hoge bloeddruk, osteo-arthrose en beroerte. Deze variabele wordt vaak gebruikt in onderzoeken op het gebied van gezondheidszorg (Klabunde et al., 2000).

Zoals eerder beschreven zijn er variabelen die wel invloed hebben op de beslissing om wel of geen verzekering af te sluiten maar geen invloed hebben op de hoogte van de zorgkosten die gemaakt worden. Dit komt doordat de verzekeringskeuze een beslissing is van de pati¨ent en de behan-deling en de kosten die daarmee gemaakt worden, vooral bepaald worden door de dokter. Variabelen die wel worden meegenomen in vergelijking (1) maar worden weggelaten in vergelijking (2) zijn; managementfunc-tie, percentage verzekerden in de branche, getrouwd en woonregio. Van deze variabelen wordt verondersteld dat ze wel invloed hebben op de verzekeringskeuze maar niet op de hoogte van de zorgkosten.

Bijlage 1 bevat een omschrijving van de deelpopulatie die in dit onder-zoek wordt gebruikt. Van de 2774 personen in de deelpopulatie is 79,7% verzekerd. Ook is te zien dat 19,1% van de deelpopulatie geen zorgkosten heeft en dus helemaal geen gebruik heeft gemaakt van de zorg. Van de mensen die wel zorgkosten hebben gemaakt is de gemiddelde hoogte van de zorgkosten $3387.

(11)

4

Resultaten

In dit hoofdstuk zullen eerst de schattingsresultaten van de OLS meth-ode dan de parametrische methmeth-ode, en daarna van de semiparametrische methode besproken worden. Als laatste volgt een vergelijking van de methodes.

Tabel 1 geeft de resultaten weer van het schatten van vergelijking (2) met OLS weer. Hier is dus geen rekening gehouden met de selectiviteit in het model. Te zien is dat de variabelen aantal comorbiditeiten, geslacht, etniciteit, inkomen, aantal jaren scholing en verzekering is significant van invloed zijn op de uitgaven.

Tabel 1:

OLS, aantal observaties: 2774 Afhankelijke variabele: uitgaven

Co¨effici¨ent Standaardfout

Constante −0.428839 0.806780 Leeftijd 0.000544679 0.0372877 Leeftijd2 0.000344278 0.000437899 Aantal comorbiditeiten 0.991012 ** 0.0609257 Psychische aandoeningen 0.186220 0.104189 Vrouw 1.01383 ** 0.0992148 Blank 0.551095 ** 0.104072 Inkomen 0.216577 ** 0.0746957 Roken 0.116137 0.123854

Aantal jaren scholing 0.131214 ** 0.0193191 Gezinsgrootte −0.0696619 * 0.0327315

Verzekering 1.97882 ** 0.134680

* significant bij een 5% significantieniveau. ** significant bij een 1% significantieniveau.

Mean dependent var 5.758723 S.D. dependent var 3.122667 Sum squared resid 17520.30 S.E. of regression 2.518598

R2 0.352052 Adjusted R2 0.349471

F (11, 2762) 136.4260 P-value(F ) 1.3e–250

Log-likelihood −6492.473 Akaike criterion 13008.95 Schwarz criterion 13080.08 Hannan–Quinn 13034.64

4.1 Het Heckman Model

Tabel 2 geeft de met probit geschatte co¨effici¨enten van vergelijking (1) weer. Het aantal comorbiditeiten, etniciteit, inkomen, aantal jaren schol-ing, gehuwdheid en het percentage verzekerden in de branch is significant van invloed zijn op de verzekeringskeuze. Het percentage verzekerden in de branche heeft het grootste positieve effect op de verzekeringskeuze. Als een persoon dus in een branche werkt waarin een groot percentage van de werknemers verzekerd is, is de kans groot dat deze persoon zelf ook een zorgverzekering heeft.

(12)

Tabel 2:

Probit, aantal observaties: 2774 Afhankelijke variabele: verzekerd

QML standaardfouten

Co¨effici¨ent Standaardfout

Constante −5.24933 ** 0.555138 Leeftijd 0.0342314 0.0234446 Leeftijd2 −0.000360777 0.000279788 Aantal comorbiditeiten 0.161442 ** 0.0444679 Psychische aandoeningen −0.00593406 0.0661550 Vrouw 0.102211 0.0685042 Blank 0.317643 ** 0.0701219 Inkomen 0.652517 ** 0.0521295 Roken −0.117295 0.0806251

Aantal jaren scholing 0.0716172 ** 0.0124289

Getrouwd 0.351983 ** 0.0729921

Gezinsgrootte 3.14878e–005 0.0226226

Woonregio Noord-Oost 0.233662 0.124923

Woonregio Midwest 0.162349 0.100941

Woonregio Zuid −0.0575082 0.0791869

Percentage verzekerden in de branche 2.62166 ** 0.291070

Mangagementfucntie −0.0398697 0.0847192

* significant bij een 5% significantieniveau. ** significant bij een 1% significantieniveau.

Mean dependent var 0.797404 S.D. dependent var 0.402006 McFadden R2 0.267857 Adjusted R2 0.255697

Log-likelihood −1023.565 Akaike criterion 2081.131 Schwarz criterion 2181.908 Hannan–Quinn 2117.525

Number of cases ‘correctly predicted’ = 2318 (83.6 percent) Likelihood ratio test: χ2(16) = 748.948 [0.0000]

In Tabel 3 zijn de correctieterm ˆλ(Xi0α) en de dummyvariabele verzek-ˆ ering opgenomen. Er zijn een aantal andere variabelen, die geen invloed hebben op de uitgaven, weggelaten. Dit zijn de variabelen die de woon-regio aangeven, getrouwd, gezinsgrootte, percentage verzekerden in de branche en managementfunctie. Tabel 3 geeft de met OLS geschatte co¨effici¨enten van vergelijking (5) weer. Te zien is dat de co¨effici¨enten van de volgende variabelen significant zijn: aantal comorbiditeiten, vrouw, blank, scholing en verzekering.

Uit deze tabel volgt dat het hebben van een verzekering een positieve invloed heeft op de uitgaven die worden gedaan. Het hebben van een verzekering heeft een direct en een indirect marginaal effect op de uit-gaven. Het directe marginale effect is gelijk aan 5,32889. Het indirecte marginale effect is de afgeleide van ˆλ(Xi0α)γ naar de variabele verzeker-ˆ ing. Dit is -0,03286.

(13)

Het totale marginale effect is dus 5, 32889 − 0, 03286 = 5, 29603. Dit betekent dat een verzekerd persoon gemiddeld e5,29603 ≈ $199, 54 meer

uitgeeft aan zorg dan een persoon die niet verzekerd is. De co¨effici¨ent van de variabele verzekering is in tabel 3 veel groter dan bij de OLS methode (tabel 1).

De co¨effici¨ent van ˆλ(Xi0α) is significant, dit betekent dat de correc-ˆ tieterm niet kan worden weggelaten en dat er dus sprake is van selec-tiviteit in het model. Dit betekent dat de OLS methode in tabel 1 dus niet volstaat. Het feit dat de gevonden co¨effici¨ent van ˆλ(Xi0α) negatiefˆ is, is niet in lijn met de verwachting. ˆλi=E(i|verzekerdi) is positief

voor verzekerden en negatief voor onverzekerden, omdat verwacht wordt dat verzekerden meer uitgaven zullen maken dan onverzekerden. Dit zou betekenen dat γ ook positief moet zijn om ervoor te zorgen dat: E(∗i) = E(i− ˆλiγ) = 0.

De standaardfouten die in tabel 3 zijn weergegeven zijn niet juist, aangezien er bij het schatten van vergelijking (5) in dit geval geen reken-ing is gehouden met de variantie van ˆλi of ˆαi.

Tabel 3:

OLS, aantal observaties: 2774 Afhankelijke variabele: uitgaven

Co¨effici¨ent Standaardfout

Constante −1.84830 0.965234 Leeftijd −0.0132055 0.0376002 Leeftijd2 0.000492533 0.000440919 Aantal comorbiditeiten 0.954371 ** 0.0623840 Psychische aandoeningen 0.190894 0.104088 Vrouw 0.969318 ** 0.100495 Blank 0.473085 ** 0.107978 Inkomen 0.0564136 0.0957092 Roken 0.147026 0.124256

Aantal jaren scholing 0.107858 ** 0.0211851 Gezinsgrootte −0.0757863 * 0.0327754

Verzekering 5.32889 ** 1.26100

ˆ

λ −2.02343 ** 0.757294

* significant bij een 5% significantieniveau. ** significant bij een 1% significantieniveau.

Mean dependent var 5.758723 S.D. dependent var 3.122667 Sum squared resid 17475.11 S.E. of regression 2.515804

R2 0.353723 Adjusted R2 0.350914

F (12, 2761) 125.9301 P-value(F ) 4.5e–251

Log-likelihood −6488.891 Akaike criterion 13003.78 Schwarz criterion 13080.85 Hannan–Quinn 13031.61

(14)

4.2 Het Semiparametrische Model

In deze paragraaf worden de resultaten van de methode van Cosslett met 10, 20 en 30 dummy’s weergegeven. Bij elke schatting zal een F-toets worden uitgevoerd om te controleren of de gebruikte dummy’s simultaan significant zijn.

De methode van Cosslett bestaat uit twee stappen. In stap 1 wordt net als bij het Heckman model vergelijking (1) geschat met probit, zie hiervoor tabel 2. ˆα bestaat uit de gevonden coefficienten in tabel 2. Door de waardes van Xi0α op te delen in M deelintervallen worden de dummy’sˆ gecre¨eerd die worden toegevoegd aan vergelijking (2).

Stap 2 in de methode van Cosslett is om vergelijking (6) te schatten met OLS. Tabel 4 geeft de geschatte co¨effici¨enten van vergelijking (6) weer, in het geval dat M = 10.

In tabel 4 is te zien dat dezelfde variabelen significant van invloed zijn op de uitgaven als in tabel 3 werd gevonden. Namelijk: aantal comor-biditeiten, geslacht, etniciteit, aantal jaren scholing en verzekering. Net als bij het Heckman model wordt hier een positief effect van het hebben van een verzekering op de uitgaven geconstateerd. Het gevonden directe marginale effect is wel een stuk kleiner dan in bij het Heckman model, namelijk 1,78921. Dit betekent dat een verzekerd persoon gemiddeld e1,78921 ≈ $5, 98 meer uitgeeft aan zorg dan een persoon die niet verzek-erd is. Het indirecte marginale effect is bij de methode van Cosslett niet te bepalen vanwege het feit dat de functie discontinu is.

(15)

Tabel 4:

OLS, aantal observaties 2774 Afhankelijke variabele: uitgaven

Co¨effici¨ent Standaardfout

Leeftijd −0.0384080 0.0377275 Leeftijd2 0.000760943 0.000441819 Aantal comorbiditeiten 0.905712 ** 0.0628149 Psychische aandoeningen 0.192019 0.103722 Vrouw 0.887428 ** 0.101106 Blank 0.310146 ** 0.112669 Inkomen −0.164082 0.103403 Roken 0.160483 0.123652

Aantal jaren scholing 0.0883354 ** 0.0214625 Gezinsgrootte −0.0806273 * 0.0326621 Verzekering 1.78921 ** 0.139630 Dummy 1 2.26683 * 1.03279 Dummy 2 0.582142 0.924617 Dummy 3 1.50397 0.921220 Dummy 4 2.13615 * 0.930736 Dummy 5 1.57768 0.925480 Dummy 6 1.92476 * 0.946354 Dummy 7 1.94862 * 0.952348 Dummy 8 2.16151 * 0.966300 Dummy 9 2.72732 ** 0.986327 Dummy 10 3.09521 ** 1.04216

* significant bij een 5% significantieniveau. ** significant bij een 1% significantieniveau. Mean dependent var 5.758723 S.D. dependent var 3.122667

Sum squared resid 17244.07 S.E. of regression 2.502746

R2 0.362267 Adjusted R2 0.357634

F (20, 2753) 78.19279 P-value(F ) 6.7e–251

Log-likelihood −6470.432 Akaike criterion 12982.86 Schwarz criterion 13107.35 Hannan–Quinn 13027.82

In Tabel 5 zijn alle dummyvariabelen vervangen door de constante. Deze regressie is gedaan zodat de F-toets kan worden uitgevoerd, hier-voor is namelijk de residuele kwadratensom van het gerestricteerde model nodig.

(16)

Tabel 5:

OLS, aantal observaties: 2774 Afhankelijke variabele: uitgaven

Co¨effici¨ent Standaardfout

Constante −0.638710 0.814387 Leeftijd −0.00102605 0.0372838 Leeftijd2 0.000361530 0.000437840 Aantal comorbiditeiten 0.986193 ** 0.0609598 Psychische aandoeningen 0.202998 * 0.0852239 Vrouw 1.00941 ** 0.0992017 Blank 0.546976 ** 0.104052 Inkomen 0.223291 ** 0.0747756 Roken 0.118089 0.123777

Aantal jaren scholing 0.131557 ** 0.0192866 Gezinsgrootte −0.0686252 * 0.0327184

Verzekering 1.97817 ** 0.134617

* significant bij een 5% significantieniveau. ** significant bij een 1% significantieniveau.

Mean dependent var 5.758723 S.D. dependent var 3.122667 Sum squared resid 17504.60 S.E. of regression 2.517470

R2 0.352632 Adjusted R2 0.350054

F (11, 2762) 136.7734 P-value(F ) 3.8e–251

Log-likelihood −6491.230 Akaike criterion 13006.46 Schwarz criterion 13077.60 Hannan–Quinn 13032.15 F-toets:

H0: De variabelen Dummy 1 tot en met Dummy 10 kunnnen worden

vervangen door de constante.

HA: De variabelen Dummy 1 tot en met Dummy 10 kunnen niet

worden vervangen door de constante. Toetsingsgrootheid:

F = (e

0

rer− e0e)/g

e0e/(n − k) ∼ F (g, n − k)

Hierbij is e0rerde residuele kwadratensom van het gerestricteerde model

zoals in tabel 5. e0e is de residuele kwadratensom van het model met alle dummy’s zoals in tabel 4. g is het aantal restricties. In dit geval is g dus gelijk aan 10. n is het aantal observaties, n = 2774 en k is het aan-tal verklarende variabelen in het ongerestricteerde model (tabel 4) in dit geval k = 21.

Het kritieke gebied op basis van een 1% overschrijdingskans van de F (10, 2753) verdeling is (2, 33; ∞). Als de toetsingsgrootheid in het kri-tieke gebied ligt wordt H0 verworpen en dan zijn de dummyvariabelen

simultaan significant. (e0rer− e0e)/g

e0e/(n − k) =

(17504, 60 − 17244, 07)/10

(17)

De toetsingsgrootheid ligt dus in het kritieke gebied, dit betekent dat de dummyvariabelen simultaan significant zijn.

Tabel 6 geeft de geschatte co¨effici¨enten van vergelijking (6) weer, in het geval dat M = 20.

Tabel 6 geeft ongeveer de zelfde resultaten als tabel 4. Het hebben van een verzekering heeft ook hier een positief effect op de uitgaven. Het directe marginale effect is nu 1,81481. Dit betekent dat een verzekerd persoon gemiddeld e1,81481 ≈ $6, 14 meer uitgeeft aan zorg dan een per-soon die niet verzekerd is.

Tabel 6:

OLS, aantal observaties: 2774 Afhankelijke variabele: uitgaven

Co¨effici¨ent Standaardfout

Leeftijd −0.0391648 0.0378330 Leeftijd2 0.000768901 0.000442659 Aantal comorbiditeiten 0.896170 ** 0.0640189 Psychische aandoeningen 0.198211 0.103914 Vrouw 0.877656 ** 0.101785 Blank 0.290679 * 0.115568 Inkomen −0.190562 0.114662 Roken 0.162890 0.124171

Aantal jaren scholing 0.0835056 ** 0.0225530 Gezinsgrootte −0.0856679 ** 0.0330243 Verzekering 1.81481 ** 0.140898 Dummy 1 2.04202 1.49932 Dummy 2 2.46186 * 1.11209 Dummy 3 1.00912 1.02873 Dummy 4 0.384077 1.03342 Dummy 5 1.66087 1.00850 Dummy 6 1.60602 0.994840 Dummy 7 2.24453 * 0.995402 Dummy 8 * 2.30152 1.01371 Dummy 9 1.44432 1.00399 Dummy10 1.90770 0.979226 Dummy 11 2.64876 ** 1.01390 Dummy 12 1.67269 1.00446 Dummy 13 2.30338 * 1.01394 Dummy 14 1.97252 1.01433 Dummy 15 2.35901 * 1.01936 Dummy 16 2.30093 * 1.03465 Dummy 17 2.96055 ** 1.03962 Dummy 18 2.85055 ** 1.05739 Dummy 19 3.19248 ** 1.08064 Dummy 20 3.35183 ** 1.13392

(18)

Mean dependent var 5.758723 S.D. dependent var 3.122667 Sum squared resid 17183.09 S.E. of regression 2.502867

R2 0.364523 Adjusted R2 0.357573

F (30, 2743) 52.44803 P-value(F ) 6.9e–244

Log-likelihood −6465.518 Akaike criterion 12993.04 Schwarz criterion 13176.80 Hannan–Quinn 13059.40

De F-toets wordt uitgevoerd op de zelfde manier als bij 10 dummyvari-abelen het geval was. Het kritieke gebied op basis van een 1% overschrei-dingskans van de F (20, 2743) verdeling is (1, 88; ∞). Als de toetsingsg-rootheid in het kritieke gebied ligt zijn de dummyvariabelen simultaan significant.

(e0rer− e0e)/g

e0e/(n − k) =

(17504, 60 − 17183, 09)/20

17183, 09/(2743) ≈ 2, 57

De toetsingsgrootheid ligt dus in het kritieke gebied, dit betekent dat de dummyvariabelen simultaan significant zijn.

(19)

Tabel 7 geeft de geschatte co¨effici¨enten van vergelijking (6) weer, in het geval dat M = 30.

Tabel 7:

OLS, aantal observaties 2774 Afhankelijke variabele: uitgaven

Co¨effici¨ent Standaardfout

Leeftijd −0.0324936 0.0378705 Leeftijd2 0.000690004 0.000442683 Aantal comorbiditeiten 0.885555 ** 0.0644384 Psychische aandoeningen 0.204795 * 0.0849954 Vrouw 0.870824 ** 0.102135 Blank 0.286448 * 0.116672 Inkomen −0.183337 0.119328 Roken 0.163334 0.123905

Aantal jaren scholing 0.0816912 ** 0.0229080 Gezinsgrootte −0.0857053 ** 0.0330335 Verzekering 1.80425 ** 0.140437 Dummy 1 4.02804 2.59757 Dummy 2 1.66612 1.27095 Dummy 3 2.06655 1.24082 Dummy 4 0.433859 1.16780 Dummy 5 0.371398 1.13141 Dummy 6 0.323474 1.07593 Dummy 7 0.945111 1.06895 Dummy 8 2.20763 * 1.08688 Dummy 9 0.958163 1.04312 Dummy 10 1.92317 1.07999 Dummy 11 2.95539 ** 1.04445 Dummy 12 0.827631 1.05530 Dummy 13 0.366709 1.06121 Dummy 14 1.81244 1.03113 Dummy 15 1.58507 1.01700 Dummy 16 2.66113 * 1.05283 Dummy 17 1.75463 1.05181 Dummy 18 1.06530 1.04013 Dummy 19 1.82487 1.05067 Dummy 20 2.04728 1.05427 Dummy 21 1.55347 1.04622 Dummy 22 2.14933 * 1.05944 Dummy 23 1.89125 1.05671 Dummy 24 1.98827 1.06593 Dummy 25 2.51544 * 1.06491 Dummy 26 2.73209 * 1.07452 Dummy 27 2.49249 * 1.09464 Dummy 28 2.81617 * 1.10717 Dummy 29 3.00904 ** 1.12694 Dummy 30 3.01597 * 1.17714

(20)

Mean dependent var 5.758723 S.D. dependent var 3.122667 Sum squared resid 17007.79 S.E. of regression 2.494618

R2 0.371006 Adjusted R2 0.361800

F (40, 2733) 40.30079 P-value(F ) 1.7e–241

Log-likelihood −6451.295 Akaike criterion 12984.59 Schwarz criterion 13227.64 Hannan–Quinn 13072.36

Tabel 7 geeft ongeveer dezelfde resultaten als tabel 4 en tabel 6. Het hebben van een verzekering heeft ook hier een positief effect op de uit-gaven. Het directe marginale effect is nu 1,80425. Dit betekent dat een verzekerd persoon gemiddeld e1,80425≈ $6, 08 meer uitgeeft aan zorg dan een persoon die niet verzekerd is.

Er wordt nu weer een F-toets uitgevoerd op dezelfde manier als bij 10 en 20 dummyvariabelen om te kijken of de dummyvariabelen simultaan significant zijn.

Het kritieke gebied op basis van een 1% overschreidingskans van de F (30, 2733) verdeling is (1, 70; ∞). Als de toetsingsgrootheid in het kri-tieke gebied ligt zijn de dummyvariabelen simultaan significant.

(e0rer− e0e)/g

e0e/(n − k) =

(17504, 60 − 17007, 79)/30

17007, 79/(2733) ≈ 2, 66

De toetsingsgrootheid ligt dus in het kritieke gebied, dit betekent dat de dummyvariabelen simultaan significant zijn.

De verschillen in resultaten tussen de methode van Cosslett met 10, 20 en 30 dummyvariabelen zijn klein. In elk model zijn de co¨effici¨enten van dezelfde variabelen significant. Ook liggen de waardes van deze co¨effici¨enten dicht bij elkaar. Het enige verschil is dat de co¨effici¨ent van etiniciteit bij het model met 10 dummyvariabelen wel significant is en bij de andere twee niet. Het model met 30 dummyvariabelen is waarschijnlijk het beste omdat deze de functie het meest nauwkeurig kan benaderen. Het is echter wel zo dat bij dit model de eerste dummyvariabelen erg weinig observaties bevatten.

Figuur 1 laat zien hoe de dummyvariabelen verdeeld zijn. Te zien is dat de laatste dummyvariabelen, voor hogere waardes van Xi0α de meesteˆ observaties bevatten. De dummyvariabelen die waarde 1 aannemen voor kleinere waardes van Xi0α bevatten relatief weinig observaties. Een hogeˆ waarde van Xi0α geeft aan dat de kans groot is dat individu i verzekerdˆ is. Dat een groot deel van de observaties een hoge waarde van Xi0αˆ heeft, komt dus doordat in deze steekproef een groot deel van de mensen verzekerd is, namenlijk 79,7%. Een kleine waarde van Xi0α correspondeertˆ met een kleine kans dat individu i verzekerd is.

De spreiding van de observaties was beter geweest als voor de lagere waardes van Xi0α grotere intervallen waren genomen en voor hogere waardesˆ van Xi0α kleinere intervallen waren genomen. Op deze manier waren deˆ verschillen in het aantal observaties per dummyvariabele kleiner geweest.

(21)

Figuur 1:

Aantal observaties

(22)

4.3 Vergelijking parametrische en semiparametrische metho-den

In zowel het parametrische als het semiparametrische model wordt een positief effect van de verzekering op uitgaven gevonden. De co¨effici¨ent voor de variabele Verzekerd is in het Heckman model echter veel groter dan in het semiparametrische model.

Figuur 2 geeft de correctietermen voor verzekerden van beide meth-odes weer, waarbij voor de semiparametrische methode is gekozen voor de methode van Cosslett met 10 dummyvariabelen. De correctietermen zijn voor elke waarde van Xi0α negatief maar gaan steeds dichter naar 0 voorˆ hogere waardes van Xi0α. De correctietermen van het semiparametrischeˆ model zijn erg groot voor lagere waardes van Xi0α. Hier is de verwacht-ˆ ing aan de hand van de verklarende variabelen X dat deze personen niet verzekerd zijn maar ze zijn wel verzekerd, daarom is een grote correctie nodig. Voor hogere waardes van Xi0α zijn de correctietermen van hetˆ semiparametrische model juist kleiner. Hier is de verwachting aan de hand van de verklarende variabelen X al dat deze personen verzekerd zijn, dus is er een kleinere correctie nodig. In het Heckman model zijn de verschillen tussen de correctietermen kleiner. Hieraan is dus te zien dat het semiparametrische model flexibeler is.

Figuur 2:

γE(i|verzekeringi = 1)

Xi0αˆ

Figuur 3 geeft de correctietermen voor niet verzekerden van beide methodes weer, waarbij voor de semiparametrische methode is gekozen voor de methode van Cosslett met 10 dummyvariabelen. De correctieter-men zijn voor elke waarde van Xi0α positief en worden steeds groter voorˆ hogere waardes van Xi0α. Dit is tegenovergesteld aan figuur 1 omdat hierˆ juist voor hoge waardes van Xi0α een grote correctie nodig is. De correc-ˆ

(23)

tietermen van het semiparametrische model zijn veel groter dan die van het parametrische model. Dit geeft ook aan dat er meer flexibiliteit in het semiparametrische model zit.

Het grote verschil tussen de correctietermen met de methode van Cosslett en die van Heckman komt doordat het model van Heckman maar ´e´en co¨effici¨ent voor de correctieterm heeft. Deze is dus hetzelfde voor verzekerden en niet verzekerden. Hierdoor kan de correctieterm voor mensen die niet verzekerd zijn in absolute waarden niet veel groter zijn dan die voor mensen die verzekerd zijn. Bij de methode van Cosslett kan dit wel, daardoor is de correctieterm bij de methode van Cosslett veel groter dan die van de methode van Heckman in figuur 3.

Figuur 3:

γE(i|verzekeringi = 0)

(24)

5

Conclusie

In dit paper is onderzoek gedaan naar de invloed van het hebben van een verzekering op de zorgkosten die worden gemaakt. Dit is onderzocht door middel van een parametrische en een semiparametrische methode. Voor de semiparametrische methode is de methode van Cosslett (1983) gekozen met 10, 20 en 30 dummyvariabelen. Het verschil in resultaten met het verschillende aantal dummyvariabelen is erg klein. Voor de parametrische methode is een aangepaste versie van het model van Heck-man (1976) gebruikt waarbij zowel de verzekerden als de niet verzekerden zijn opgenomen in de tweede stap.

Zowel bij de toepassing van het Heckman model als bij het semi-parametrische model van Cosslett wordt een positief effect van het hebben van een verzekering op de uitgaven gevonden. Er kan dus worden gecon-cludeerd dat mensen die verzekerd zijn hogere zorgkosten maken dan mensen die niet verzekerd zijn.

De co¨effici¨ent voor de variabele Verzekerd is in het Heckman model veel groter dan in het semiparametrische model. Dit was ook het geval in het onderzoek van Shen (2013). Omdat de werkelijke waarde van deze co¨effici¨ent onbekend is, kan niet met zekerheid worden gezegd welke methode een betere schatting oplevert. Het is echter wel zo dat de semiparametrische methode op minder aannamens berust en daarom waarschijnlijk nauwkeuriger is. Volgens de semiparametrische methode liggen de uitgaven aan zorg gemiddeld ongeveer $6,- hoger voor een verzekerd persoon dan voor een niet-verzekerd persoon. Hierin is echter niet het indirecte marginale effect opgenomen. Volgens de parametrische methode liggen de uitgaven aan zorg $199,54 hoger voor een verzekerd persoon dan voor een niet-verzekerd persoon.

(25)

6

Bibliografie

Cosslett, S. R. (1983). Distribution-free maximum likelihood estimator of the binary choice model. Econometrica , 765-782.

Heckman, J. J. (1976). The common structure of statistical models of truncation, sample selection and limited dependent variables and a simple estimator for such models. Annals of economic and social measurement, volume 5, number 4 (pp. 475-492) NBER.

Heckman, J. J. (1979). Sample selection bias as a specification error. Econometrica , 153-161.

Holly, A., Gardiol, L., Domenighetti, G., & Bisig, B. (1998). An econometric model of health care utilization and health insurance in Switzerland. European Economic Review, 42(3), 513-522.

Hussinger, K. (2008). R&D and subsidies at the firm level: An appli-cation of parametric and semiparametric twostep selection models. Jour-nal of Applied Econometrics, 23(6), 729-747.

Klabunde, C. N., Potosky, A. L., Legler, J. M., & Warren, J. L. (2000). Development of a comorbidity index using physician claims data. Journal of Clinical Epidemiology, 53(12), 1258-1267.

Newey, W. K. (2009). Twostep series estimation of sample selection models. The Econometrics Journal, 12 (s1), S217-S229.

Robinson, P. M. (1988). Root-N-consistent semiparametric regression. Econometrica , 931-954.

Shen, C. (2013). Determinants of health care decisions: Insurance, utilization, and expenditures. The Review of Economics and Statistics, 95(1), 142-153.

Vera-Hern´andez, ´A. M. (1999). Duplicate coverage and demand for health care. the case of catalonia. Health Economics, 8(7), 579-598.

Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data MIT press.

(26)

7

Bijlagen

Aantal Percentage Totaal 2774 100% Verzekerd Ja 2212 79,7% Nee 562 20,3% Zorgkosten Geen zorgkosten 531 19,1% Minder dan $1.000 934 35,5% $1.000-$2.000 389 14,0% $2.000-$5.000 523 18,9% $5.000-$10.000 229 8,3% Meer dan $10.000 168 6,1% Onderwijs

Middelbare school niet afgemaakt 512 18,5%

Middelbare school diploma 969 34,9%

HBO of hoger 1293 46,6% Leeftijd Jonger dan 40 1073 38,7% 40-49 857 30,9% Ouder dan 50 844 30,4% Inkomen Minder dan $20.000 749 27,0% $20.000-$30.000 549 19,8% $30.000- $50.000 770 27,8% Meer dan $50.000 606 21,8% Geslacht Vrouw 1346 48,5% Man 1428 51,5% Etniciteit Blank 1492 53,8% Niet blank 1282 46,2% aantal comorbiditeiten 0 1458 52,6% 1 863 31,1% 2 of meer 453 16,3% psychische aandoeningen Ja 916 33,0% Nee 1858 67,0% Roken Ja 533 19,2% Nee 2241 80,8% Gehuwdheid Getrouwd 1729 62,3% Niet getrouwd 1045 37,7% Gezinsgrootte 1-2 personen 1170 42,2% 3-4 personen 1097 39,5%

Meer dan 4 personen 507 18,3%

Woonregio

Noord-Oost 363 13,1%

Midwest 605 21,8%

Zuid 1206 43,5%

West 600 21,6%

Percentage verzekerden in de branch

Minder dan 75% 584 21,1%

75% - 90% 1324 47,7%

Meer dan 90% 866 31,2%

Referenties

GERELATEERDE DOCUMENTEN

Artikel 1. In artikel 1, a), van het koninklijk besluit van 15 februari 2011 houdende benoeming van de leden van de Technische Commissie voor de paramedische beroepen, worden de

Artikel 3 van de embryowet van 11 mei 2003 stelt dat onderzoek op embryo’s in vitro is toegelaten indien aan al de voorwaarden van deze wet voldaan wordt en meer bepaald

In dat kader hebben Wageningen Economic Research en het Centraal Bureau voor de Statistiek (CBS) de opdracht gekregen om een raming op te stellen van de handel van Nederland

Hoofdstuk 2 geeft een overzicht van de evolutie van de uitgaven op het niveau van de 9 grote budgettaire rubrieken in de documenten C (waarbij C1 verder wordt uitgesplitst)

( H e a t h , mededeling op: Ilnd International Congres of Crop Protection, London, 1949). Hierdoor ontstaat de situatie, dat men eenzelfde middel op verschillende wijze

afgenomen tussen 2003 en 2011. Ook wordt daarom aangenomen dat het verschil in geschatte oesterbestanden voor de periode 1980-2005 en 2011-2017 vooral veroorzaakt is door

The key question is, “to what extent are mass media and new technologies used to contextualize the growth of the churches in the DRC?” The study focussed on the

This research uses the high-sulfidation epithermal system in the Rodalquilar Caldera Complex where hypogene alteration is associated with gold accumulations, and also