• No results found

Van conceptmodel naar succesvolle innovatie? : het nut van het GAMLSS-model in autoverzekeringen

N/A
N/A
Protected

Academic year: 2021

Share "Van conceptmodel naar succesvolle innovatie? : het nut van het GAMLSS-model in autoverzekeringen"

Copied!
54
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

naar succesvolle innovatie?

Het nut van het GAMLSS-model

in autoverzekeringen

Willeke de Tree

Afstudeerscriptie voor de

Bachelor Actuari¨ele Wetenschappen

Universiteit van Amsterdam

Faculteit Economie en Bedrijfskunde Amsterdam School of Economics

Auteur: Willeke de Tree

Studentnr: 10215832

Email: willeke.detree@student.uva.nl

Datum: 25 juni 2015

(2)
(3)

Samenvatting

Deze scriptie heeft als doel te onderzoeken in hoeverre het regressiemodel Ge-neralized Additive Models for Location, Scale and Shape (GAMLSS) nuttig is bij het schatten van de claimfrequentie en het gemiddelde claimbedrag in autoverzekeringen ten opzichte van het regressiemodel Generalized Linear Mo-dels (GLM). Het GLM-model schat het gemiddelde op basis van een verdeling

uit de exponenti¨ele familie met behulp van lineaire functies en klassen. Het

GAMLSS-kader breidt de aannames in het GLM-kader in meerdere richtin-gen uit. Ten eerste kan het GAMLSS-model variabelen een niet-lineair effect meegeven. Daarnaast vereist het GAMLSS-model niet dat de te gebruiken

ver-deling uit de exponenti¨ele familie komt en kan het GAMLSS-model niet alleen

het gemiddelde maar ook andere verdelingsparameters modelleren. Uit het on-derzoek blijkt dat het GAMLSS-model niet per definitie toegevoegde waarde heeft bij het schatten van de claimfrequentie met een Poissonverdeling. Ech-ter, er volgt wel dat schattingen van de claimfrequentie van hoge risico’s meer waarheidsgetrouw blijken in het GAMLSS-model. Het schatten van het gemid-delde claimbedrag met een lognormale verdeling in het GAMLSS-kader geeft wel degelijk een verbetering ten opzichte van een gammaverdeling in het GLM-kader op basis van het Akaike Informatie Criteria (AIC) en het gebruikte aantal variabelen. De numerieke illustratie in deze scriptie is op basis van een Belgi-sche portefeuille van autoverzekeringen uit 1997, bestudeerd in Denuit en Lang (2004) en Klein et al. (2014).

Keywords

Autoverzekeringen, GAMLSS, GLM, claimfrequentie, claimbedragen, Poissonregressie, gammaregressie, lognormale regressie.

(4)
(5)

Voorwoord vii

1 Inleiding 1

2 Theoretische achtergrond 3

2.1 Tarificatie . . . 3

2.2 Generalized Linear Models . . . 4

2.2.1 Linear Models en Generalized Linear Models . . . 4

2.2.2 GLM in autoverzekeringen . . . 6

2.2.3 Het nadeel van GLMs . . . 7

2.3 Generalized Additive Models for Location, Scale and Shape . . . 8

2.3.1 Generalized Additive Models . . . 8

2.3.2 Generalized Additive Models for Location, Scale and Shape . . . 8

2.3.3 GAMLSS in autoverzekeringen . . . 9

2.3.4 Tekortkomingen van GAMLSS . . . 11

3 Onderzoeksopzet 12 3.1 De dataset . . . 12

3.2 Onderzoeksontwerp . . . 14

4 Resultaten en Analyse 16 4.1 Schatten van de claimfrequentie . . . 16

4.1.1 Aanpassingen aan de dataset . . . 16

4.1.2 Het GLM-model . . . 18

4.1.3 Het GAMLSS-model . . . 20

4.1.4 Vergelijking . . . 22

4.2 Schatten van het gemiddelde claimbedrag . . . 24

4.2.1 Aanpassingen aan de dataset . . . 24

4.2.2 Het GLM-model . . . 25

4.2.3 Het GAMLSS-model . . . 27

4.2.4 Vergelijking . . . 29

5 Conclusie 32

Referenties 34

Bijlage: Output R-scripts 36

(6)
(7)

Voor u ligt de bachelorscriptie ‘Van concept naar succesvolle innovatie? – Het nut van het GAMLSS-model in autoverzekeringen.’ Deze scriptie is geschreven in het kader van

mijn afstuderen aan de opleiding Actuari¨ele Wetenschappen aan de Universiteit van

Amsterdam (UvA). Van mei 2015 tot en met juni 2015 ben ik bezig geweest met het uitvoeren van literair en praktisch onderzoek behorende bij deze scriptie en het schrijven van de scriptie zelf.

In deze scriptie wordt het nut van het gebruik van het regressiemodel Generalized Additive Models for Location, Scale and Shape (GAMLSS) voor het schatten van de claimfrequentie en het gemiddelde claimbedrag in autoverzekeringen ten opzichte van het regressiemodel Generalized Linear Models (GLM) onderzocht. Ik heb voor dit onderwerp gekozen omdat ik in de afgelopen jaren veel theorievakken over schadeverzekeringen heb gevolgd, maar nooit een echt praktijkonderzoek heb uitgevoerd in deze richting. Daarom leek het mij erg interessant om een onderzoek in schadeverzekeringen te doen. Hoe meer ik bezig was met deze scriptie, hoe interessanter ik het onderwerp vond worden en des te blijer ik was met mijn keuze voor dit onderwerp.

Ondanks het interessante onderwerp en de vele theoretische informatie die over het onderwerp te vinden is, vond ik het praktische onderzoek soms tegenvallen. Bij het schrijven van het theoretische gedeelte van deze scriptie kwam ik erachter dat het GAMLSS-model een vrij lastig onderwerp is en dat het erg belangrijk was om goed boven de stof te staan om te kunnen begrijpen hoe ik het praktische onderzoek het beste kon uitvoeren. Bij het praktische onderzoek had ik problemen met het vinden van de goede niet-lineaire functies in het GAMLSS-model, waardoor mijn onderzoek ook een tijd vastliep. Gelukkig heb ik met hulp van mijn scriptiebegeleidster, mevrouw doctor Katrien Antonio, alle problemen op tijd kunnen oplossen.

Ik wil daarom als eerste mijn scriptiebegeleidster, mevrouw Antonio, bedanken voor alle goede adviezen, kritische vragen en tussentijdse controles van mijn scriptie. Zonder haar hulp zou het mij niet gelukt zijn om deze scriptie te schrijven. Daarnaast wil ik graag mijn ouders, zusje en vriend bedanken voor alle mentale steun tijdens dit proces. Ondanks dat zij allen niets van het onderwerp begrijpen, hebben zij mij op alle moge-lijke wijzen geprobeerd bij te staan. Als laatste wil ik mijn medestudenten Cindy Brijs en Chantal Sijs bedanken voor de goede adviezen en correcties tijdens het onderzoek en het schrijven van mijn scriptie respectievelijk.

Ik wens u veel leesplezier toe in deze scriptie. Willeke de Tree

Badhoevedorp, 22 juni 2015.

(8)
(9)

Inleiding

Vanaf de jaren negentig van de vorige eeuw zijn de winstmarges van motorrijtuigenverze-keraars gedaald. Volgens het Centraal Bureau voor Statistiek (CBS) waren de technische resultaten rond de eeuwwisseling zelfs negatief, met een uitschieter van een verlies van 59 miljoen euro in 2002 (CBS, 2015). Sinds dit dieptepunt in 2002 zijn de technische resultaten weer gestegen, met een winst van 591 miljoen euro in 2006 als hoogtepunt. Maar uit dezelfde gegevens van het CBS blijkt dat motorrijtuigenverzekeraars sindsdien hun technische resultaten weer zien slinken tot een winst van 64 miljoen euro in 2013 (CBS, 2015).

De verkleining van de winstmarges komt deels doordat bestuurders minder schade rijden dan vroeger en de premie daardoor omlaag gaat. Volgens vergelijkingssite

Inde-pender (https://www.independer.nl) is de maandelijkse premie in de jaren 2007-2012

gemiddeld met twintig tot dertig procent gezakt ten opzichte van augustus 2006 (Inde-pender, 2015). Opvallend is dat de premie sinds 2013 weer langzaam stijgt, maar nog steeds gemiddeld tien procent lager is dan de premie in augustus 2006. Daarnaast komt de verkleining van de winstmarge volgens De Nederlandsche Bank (DNB) doordat de concurrentie op de markt van autoverzekeringen tussen verzekeraars groter is geworden en door de opkomst van vergelijkingssites, waardoor er meer transparantie is onstaan en de premies nog verder zijn aangescherpt (DNB, 2014). Door deze ontwikkelingen wordt volgens Denuit en Lang (2004) de omzet van de autoverzekeraars steeds lager

en in sommige gevallen moeten zij uitwijken naar de financi¨ele markten om met

be-hulp van risicovolle beleggingen genoeg omzet op korte termijn te maken. Deze situatie is verre van ideaal en daarom worden oplossingen gezocht om de winstmarges van de autoverzekeraars te verhogen.

Volgens Denuit en Lang (2004) is een belangrijk onderdeel van de oplossing voor dit probleem de methode om de claimfrequentie en het gemiddelde claimbedrag te bepalen. Een goede schatting van de claimfrequentie leidt namelijk tot een betere inschatting van het risico van een bestuurder waarop de premie wordt aangepast. De zuivere premie van een bestuurder bestaat uit het verwachte aantal claims vermenigvuldigd met het verwachte gemiddelde claimbedrag (Johansson & Ohlsson, 2010, pp. 1–6). Door beide factoren op een betere manier in te schatten, wordt het risico op een verlies op een verzekering kleiner, waardoor de winstmarges vergroot kunnen worden, aldus Denuit en Lang (2004).

Op dit moment gebruiken de meeste autoverzekeraars de zogenoemde Generalized Linear Models (GLMs). Dit is een regressiemodel voor het bepalen van a priori

risicokwa-lificatie van een bestuurder (Denuit, Mar´echal, Pitrebois & Walhin, 2007, pp. 49–118;

Klein, Denuit, Lang & Kneib, 2014). Echter, volgens Klein et al. (2014) is een groot nadeel aan dit model dat de effecten van covariaten in de vorm van lineaire voorspellers worden gemodelleerd. Voor categorische verklarende variabelen is dit geen probleem omdat zij als binaire variabelen kunnen worden gemodelleerd. Echter, voor continue verklarende variabelen kan dit wel een groot probleem zijn, aangezien zij mogelijk een

(10)

niet-lineair effect op de te verklaren variabele kunnen hebben.

Om het probleem van het toepassen van louter lineaire schatters op te lossen, zijn er in de afgelopen jaren, mede door de opkomst van big data-analyse en de interesse in statistische technieken voor grote en hoogdimensionale data, nieuwe regressiemodellen

ontwikkeld. E´en van deze regressiemodellen is het Generalized Additive Models for

Lo-cation, Scale and Shape, afgekort GAMLSS (Rigby & Stasinopoulos, 2001). Dit regres-siemodel biedt een geschikt kader om het probleem van lineaire schatters te overwinnen doordat het meer complexe verdelingen toestaat, waarbij niet alleen de verwachting maar ook andere parameters aan gestructureerde additieve schatters worden gerela-teerd met behulp van zogenoemde linkfuncties (Klein et al., 2014). Additieve schatters verschillen van lineaire schatters doordat zij gebruikmaken van zogenoemde gladde func-ties in plaats van lineaire verbindingen tussen afhankelijke variabelen en covariaten. Een gladde functie is een niet-lineaire benaderingsfunctie die de belangrijkste patronen in de data probeert te schatten, waarbij ruis en andere onbelangrijke structuren buiten be-schouwing worden gelaten (Friedman & Stuetzle, 1981). Op het moment dat dit nieuwe model wordt toegepast in de wereld van de autoverzekeringen, is het mogelijk dat de claimfrequenties en claimbedragen beter geschat kunnen worden dan nu, waardoor de winstmarges van de autoverzekeraars weer vergroot worden. Daarnaast probeert het nieuwe model het bestaan van verbanden beter te detecteren, waardoor er beter gedif-ferentieerd kan worden in de tarieven van polissen.

Op dit moment worden vele onderzoeken uitgevoerd om te vergelijken of het GAMLSS-model een betere schatting geeft van afhankelijke variabelen dan het GLM-GAMLSS-model. Hier-bij onderzoeken wetenschappers in vele richtingen, waaronder het modelleren van hypo-thecaire leningen (Tong, Mues & Thomas, 2013), Body Mass Index (Beyerlein, Fahrmeir, Mansmann & Toschke, 2008) en olieprijzen (Scandroglio, Gori, Vaccaro & Voudouris, 2013). Daarnaast vindt een deel van deze onderzoeken plaats in de wereld van autover-zekeringen. Zo proberen Klein et al. (2014) te bepalen in hoeverre het GAMLSS-model een betere schatting geeft van verwachte claimfrequenties en claimbedragen bij auto-verzekeringen dan het GLM-model en zij gebruiken in hun onderzoek een dataset met gegevens over Belgische autoverzekeringen. In deze scriptie wordt onderzoek gedaan naar aanleiding van het onderzoek van Klein et al. (2014). Deze scriptie onderzoekt in hoeverre het nuttig is om het GAMLSS-model in te zetten bij tarificatie van autoverze-keringen. Hierbij wordt dezelfde dataset met gegevens over Belgische autoverzekeringen gebruikt als in het onderzoek van Klein et al. (2014).

Voor dit onderzoek is het van belang om te weten hoe GAMLSS kan worden ingezet in de tarificatie van autoverzekeringen en daarnaast is het belangrijk om te onderzoe-ken welke aanvullingen of verbeteringen het GAMLSS-model geeft bij het schatten van de claimfrequenties en claimbedragen ten opzichte van het GLM-model. Hiervoor kijkt deze scriptie eerst naar de theoretische achtergrond van zowel het GLM-model als het GAMLSS-model en daarna wordt met behulp van het programma R een GLM-model en een GAMLSS-model ge¨ımplementeerd om de claimfrequenties en claimbedragen te berekenen met behulp van de dataset met gegevens over Belgische autoverzekeringen. Het doel is om de modellen met elkaar te vergelijken en om te concluderen in hoeverre het GAMLSS-model een meerwaarde biedt bij het modelleren van claimfrequenties en claimhoogten in vergelijking met het GLM-model.

Het vervolg van deze scriptie is als volgt opgebouwd. Het theoretisch kader bevindt zich in hoofdstuk 2, waarin de theorie achter Generalized Linear Model (GLM) en Ge-neralized Additive Model for Location, Scale and Schape (GAMLSS) wordt uitgelegd. Daarna volgt in hoofdstuk 3 de onderzoeksopzet, dat de dataset en de onderzoeksme-thode beschrijft. In hoofdstuk 4 staan vervolgens de resultaten van het onderzoek samen met een analyse van deze resultaten. Als laatst volgt de conclusie in hoofdstuk 5.

(11)

Theoretische achtergrond

Dit hoofdstuk dient als een theoretische ondersteuning van het Generalized Linear Model (GLM) en het Generalized Additive Model for Location, Scale, and Shape (GAMLSS). De uitleg over tarificatie komt als eerste aan de orde in sectie 2.1 samen met de verklaring waarom men tarificatie toepast in de wereld van de autoverzekeringen. De theoretische achtergrond van het GLM-model bevindt zich in sectie 2.2, waarin zich vervolgens ook een uitleg bevindt over hoe het GLM-model in de wereld van autoverzekeringen kan worden toegepast. Daarnaast behandelt deze sectie welk groot nadeel het GLM-model in de praktijk heeft. Sectie 2.3 behandelt de theoretische achtergrond van het GAMLSS-model, samen met de toepassing van GAMLSS in autoverzekeringen. Dezelfde sectie stipt ook kort enkele tekortkomingen van het GAMLSS-model aan.

2.1

Tarificatie

Autoverzekeringen bestaan uit twee soorten dekking, te weten aansprakelijkheidsdek-king en cascodekaansprakelijkheidsdek-king. Aansprakelijkheidsdekaansprakelijkheidsdek-king (WA-dekaansprakelijkheidsdek-king) biedt bescherming in het geval dat de autobestuurder een andere partij schade toebrengt, waarbij de an-dere partij de schadekosten verhaalt op de aansprakelijke autobestuurder. Cascodek-king biedt bescherming in het geval van schade bij de aansprakelijke bestuurder zelf. Aansprakelijkheidsdekking is in de landen binnen de Europese Unie verplicht gesteld als voorwaarde om een auto te mogen besturen. Cascodekking is een aanvullende dekking en is in de meeste gevallen niet verplicht. Voor de totale dekking, dus inclusief of exclu-sief een bepaalde mate van cascodekking, moet een verzekeraar een premie bepalen die door de autobestuurder moet worden betaald.

De vraag hierbij is hoe hoog deze premie moet zijn om de kosten van eventuele schade te kunnen dekken. De premie van alle bestuurders samen moet minimaal gelijk zijn aan de verwachte kosten van alle claims die polishouders tijdens de verzekeringsduur zullen indienen (Denuit et al., 2007, pp. 49–52). Deze zuivere premie van een bestuurder bestaat uit de verwachting van het aantal claims dat hij meldt, vermenigvuldigt met de verwachting van het gemiddelde claimbedrag (Johansson & Ohlsson, 2010, pp. 1–6). De verwachting van het aantal claims, ofwel de claimfrequentie, is het aantal claims gedurende een tijdsperiode (meestal een jaar) voor een bepaalde groep van polissen die actief zijn in die tijdsperiode. Het gemiddelde claimbedrag bestaat uit de gemiddelde kosten per claim per tijdsperiode en dit wordt berekend als het totale claimbedrag in een tijdsperiode gedeeld door het aantal gemelde claims uit dezelfde tijdsperiode. Hieruit volgt dat de zuivere premie gelijk is aan de gemiddelde kosten voor een bepaalde tijdsperiode.

In de meeste gevallen bepalen autoverzekeraars op basis van een kalenderjaar hoe-veel winst of verlies zij hebben gemaakt. Een deel van de polissen wordt echter niet voor een kalenderjaar afgesloten, maar voor een periode waar het kalenderjaar maar voor een gedeelte invalt. Daarnaast komt het voor dat een polis wordt gesloten en een nieuwe

(12)

polis wordt geopend als de zichtbare eigenschappen van de betreffende polis veranderen (Denuit et al., 2007, pp. 52–62). Omdat niet alle polissen actief zijn gedurende het hele kalenderjaar, stellen Klein et al. (2014) dat de exposure per polis gelijk is aan het aantal dagen in het kalenderjaar dat deze polis actief is. De totale exposure is volgens hen dan gelijk aan de som van het aantal contractdagen per jaar. Hieruit volgt volgens Denuit et al. (2007, pp. 52–62) dat de jaarlijkse claimfrequentie wordt vermenigvuldigd met de exposure, ofwel de duur van de observatieperiode, om het verwachte aantal claims te berekenen.

Bij het bepalen van de premiehoogte heeft de verzekeraar alleen toegang tot de a priori zichtbare eigenschappen van de bestuurder en de auto, zoals de leeftijd en het geslacht van de bestuurder, de ouderdom van de auto en de regio waarin de bestuurder woont (Denuit et al., 2007, pp. 49–52). De verkregen data wordt verdeeld in risicoklassen die worden bepaald door de a priori variabelen. Hierdoor worden er klassen verkregen die klein zijn in het aantal claims en exposure en daarom zijn regressiemodellen noodzakelijk (Denuit & Lang, 2004).

Zelfs als alle significante a priori variabelen in regressiemodellen zijn opgenomen, zijn

er nog substanti¨ele verschillen in risico tussen individuele bestuurders. Deze a posteriori

eigenschappen van de bestuurder en de auto, zoals het rijgedrag van de bestuurder, zijn niet zichtbaar en dus niet te modelleren, maar zij zijn wel belangrijk voor de hoogte van de premie (Denuit et al., 2007, pp. 49–52). Aan de regressiemodellen voor de claimfre-quentie en de claimbedragen worden daarom random effecten toegevoegd, die de hete-rogeniteit tussen de bestuurders modelleren. De individuele a posteriori eigenschappen zelf kunnen achteraf worden meegenomen in de modellen door een a posteriori correctie. Aan de hand van de uitkomsten van de regressiemodellen voor claimfrequentie en claim-bedragen kan vervolgens de hoogte van de premie worden vastgesteld. Omdat het voor autoverzekeraars niet werkbaar is om voor alle bestuurders individueel een premie te bepalen, wordt voor de a priori vastgestelde risicoklassen een premie per klasse vast-gesteld. Door de bestuurders op te delen in klassen, worden er klassen verkregen die klein zijn in het aantal claims en daarom zijn regressiemodellen noodzakelijk (Denuit & Lang, 2004). Voor de bestuurders zelf is de indeling in risicoklassen ook van belang, aangezien het voor bestuurders met weinig risico niet als eerlijk wordt beschouwd om een risicovolle bestuurder dezelfde premie te laten betalen.

Naast het feit dat het niet eerlijk is om verschillende soorten bestuurders dezelfde premie te laten betalen, is het maken van een goede inschatting van de verwachte claim-frequentie en de daaruit volgende premies ook belangrijk voor de verzekeraars zelf. Aan de hand van de verwachte claimfrequentie en verwachte claimbedragen stellen zij na-melijk een premie op die de verwachte hoogte van de claimbedragen moet overstijgen (Denuit et al., 2007, pp. 49–52). Als een verzekeraar namelijk meer aan schade moet uitkeren dan hij aan premies binnenkrijgt, dan maakt de verzekeraar verlies en kan hij uiteindelijk failliet gaan.

2.2

Generalized Linear Models

2.2.1 Linear Models en Generalized Linear Models

Een veelgebruikt regressiemodel om de claimfrequentie te schatten is het Generalized Linear Model (GLM). Dit regressiemodel is een uitbreiding van het Linear Model (LM). Rigby & Stasinopolous (2010, pp. 13–16) leggen uit dat in het lineaire regressiemodel n

afhankelijke variabelen Yi verklaard worden door p verklarende variabelen xij, die alle

bestaan uit n observaties. Daarnaast stellen zij dat een deel van de Yi’s niet verklaard

kan worden door de verklarende variabelen xij’s en dit deel noemen zij de storingsterm

(13)

variabelen zijn die een normale verdeling volgen met verwachting nul en een constante variantie. Het lineaire model is dan als volgt:

Yi= β0+ β1x1i+ · · · + βpxpi+ εi waarbij εi ∼ N (0, σ2). (2.1)

In matrixvorm volgt het model de volgende notatie:

Y = Xβ + ε waarbij ε ∼ N (0, σ2In), (2.2)

waarbij Y en ε n × 1 vectoren zijn, X een bekende n × (p + 1) matrix is, β een (p + 1) × 1

vector en In een n × n identiteitsmatrix. Matrix X en vector β zien er als volgt uit:

X =      1 x11 · · · xp1 1 x12 · · · xp2 .. . ... . .. ... 1 x1n · · · xpn      en β =      β0 β1 .. . βp      .

Hieruit volgt dat Y ook normaal verdeeld is:

Y ∼ N (µ, σ2In) waarbij µ = Xβ. (2.3)

Het lineaire regressiemodel kent echter het grote nadeel dat de vector van afhankelijke variabelen Y alleen maar normaal verdeeld kan zijn (Nelder & Wedderburn, 1972). In de praktijk is dit vaak niet het geval en daarom hebben Nelder en Wedderburn (1972) het lineaire regressiemodel veralgemeend tot GLM. Nelder en Wedderburn hebben bedacht

om de normale verdeling van Y te vervangen door een verdeling in de exponenti¨ele

familie, afgekort EF, en daarnaast hebben zij een monotone linkfunctie g(·) ge¨ıntrodu-ceerd die het gemiddelde van Y, genaamd µ, verbindt aan de lineaire voorspeller η. In matrixvorm hebben zij het volgende verkregen:

Y ∼ EF (µ, φ) waarbij g(µ) = η = Xβ. (2.4)

Het idee achter GLM is volgens Ohlsson & Johansson (2010, pp. 15–20) dus om het lineaire model te generaliseren in twee verschillende richtingen. Enerzijds stellen zij dat de normale verdeling in het lineaire model wordt vervangen door een algemene groep

van verdelingen behorend tot de exponenti¨ele familie, waaronder de Poissonverdeling en

de gammaverdeling. Anderzijds verklaren zij dat een monotone transformatie van het gemiddelde µ toegepast wordt in plaats van µ een lineaire functie van de covariaten X te laten zijn. Hieruit volgt dan ook dat een GLM uit drie verschillende componenten bestaat (Nelder & Wedderburn, 1972; Kaas, Goovaerts, Dhaene & Denuit, 2002; de Laet, 2014):

1. Een random component: de observaties Yi worden gegenereerd uit een bepaalde

verdeling die tot de exponenti¨ele familie behoort met gemiddelde µi.

2. Een systematisch component: de lineaire voorspeller ηi = β0 +Ppj=1βjxij, ook

wel de scorefunctie genoemd, waarbij de xij’s de covariaten zijn en de βj’s de

regressieparameters.

3. Een linkfunctie g(·): deze linkt het gemiddelde µi van de verdeling aan de lineaire

voorspeller door de relatie g(µi) = ηi= β0+Ppj=1βjxij.

De verdeling van de exponenti¨ele familie EF (µ, φ) is zodanig gedefinieerd dat de

kans-dichtheidsfunctie de volgende vorm heeft (Ohlsson & Johansson, 2010, pp. 15–20):

fYi(yi; θi, φ) = exp  yiθi− b(θi) φ/wi + c(yi, φ, wi)  , (2.5) waarbij E(Yi) = µi = b0(θi) en V(Yi) = φV(µi) = φb00(θi). (2.6)

Voor deze kansdichtheidsfunctie geldt dat yide waarde van observatie i is, wistaat voor

het gewicht van observatie i, θi zijn de verdelingsparameters en φ is een

(14)

2.2.2 GLM in autoverzekeringen Claimfrequentie

Johansson en Ohlsson (2010, pp. 15–20) stellen dat in autoverzekeringen voornamelijk gebruikgemaakt wordt van de Poissonverdeling voor het aantal claims dat een indivi-duele polishouder tijdens de verzekeringsduur meldt. Hiervoor nemen zij aan dat de polissen onafhankelijk van elkaar zijn, dat de tijdsintervallen van de polissen onafhanke-lijk van elkaar zijn en dat polissen in een bepaalde tariefschaal homogeen zijn. Hieruit volgt dat alle individuele claims onafhankelijk van elkaar en van de tijd zijn en om die reden volgt het aantal claims voor een individuele polis de Poissonverdeling volgt. Dit geldt niet alleen voor het aantal individuele claims, maar ook voor het aantal claims voor alle polissen in een bepaalde risicoklasse.

Denuit et al. (2007, pp. 17–21 en pp. 62–67) stellen dat Ni, i = 1, ..., n, het aantal

claims is dat is gemeld door polishouder i en dat di de bijbehorende exposure is. De

verwachting van de jaarlijkse claimfrequentie is gelijk aan λi en dit geldt als di = 1.

Alle geobserveerde karakteristieken van polishouder i staan beschreven in de vector

xTi = (xi1, ..., xip). Het aantal gemelde claims heeft dan kansdichtheidsfunctie

P(Ni= ki) = exp(−λidi)

(λidi)ki

ki!

voor ki = 0, 1, 2, .... (2.7)

Hieruit volgt dat de conditionele verwachting van Ni gegeven xi gelijk is aan

E(Ni|xi) = diexp  β0+ p X j=1 βjxij   voor i = 1, 2, ..., n, (2.8)

waaruit volgt dat

ηi= g(µi) = β0+ p X j=1 βjxij = ln  µi di  . (2.9)

Te zien is dat het verwachte aantal claims een logaritmische linkfunctie gebruikt in het GLM-model. Als laatste stellen Denuit et al. (2007, pp. 62–67) dat het verwachte

aantal claims per polishouder Ni Poissonverdeeld is met het gemiddelde dat hierboven

is beschreven, ofwel Ni∼ P OIS  diexp  β0+ p X j=1 βjxij     voor i = 1, 2, ..., n. (2.10)

Om de parameters in het GLM-model te schatten, gebruiken Denuit et al. (2007, pp. 62–67) de likelihoodfunctie L(β) = n Y i=1 P(Ni = ki|xi) = n Y i=1 exp(−µi) µki i ki! (2.11) waarbij µi= diexp  β0+Ppj=1βjxij  = exp  ln(di) + β0+Ppj=1βjxij  en ki het

aan-tal claims gemeld door polishouder i gedurende de geobserveerde periode. De berekenin-gen zijn makkelijker als het GLM-model niet de likelihoodfunctie maximaliseert, maar de log-likelihoodfunctie: L(β) = ln(L(β)) = n X i=1 (− ln(ki!) + kiln(µi) − µi) . (2.12)

(15)

Gemiddeld claimbedrag

Voor het schatten van de claimbedragen gebruiken vele auteurs de gammaverdeling

met verwachting µi. Daarnaast worden ook wel de lognormale verdeling en de inverse

Gaussian-verdeling gehanteerd. Voor het schatten van de claimbedragen wordt in deze

scriptie de gammaverdeling gebruikt. Stel dat Xi het totale claimbedrag is dat volgt als

polishouder i ´e´en of meerdere claims meldt en Ni is het aantal claims dat polishouder

i geclaimd heeft. Hieruit volgt dat het gemiddelde claimbedrag Yi voor polishouder i

is gedefinieerd als Yi = Xi/Ni. De kansdichtheidsfunctie van een gammaverdeling in

termen van µi en σi is als volgt (Rigby, Stasinopoulos, Heller & Voudouris, 2014, pp.

235–237): f (Yi|µi, σi) = y1/σ 2 i−1· e−Yi/σ 2 iµi 1 (σ2 iµi)1/σ 2 i · Γ(1/σ2 i) voor Yi> 0, µi> 0, σi > 0. (2.13)

De parameter µi hanteert in de gammaverdeling een logaritmische linkfunctie, waaruit

volgt dat µi wordt geschat door:

ηi= g(µi) = β0+ p X j=1 βjxij = ln(µi) ofwel µi = exp  β0+ p X j=1 βjxij  . (2.14)

Om de parameters in het GLM-model te schatten, maximaliseren we de log-likelihoodfunctie: L(β) = ln(L(β)) = n X i=1  − 1 σ2 i (ln(σi2) + ln(µi)) +  1 σ2 i − 1  ln(Yi) − Yi σ2 iµi − ln  Γ 1 σ2 i  = −n σ2i(ln(σ 2 i) + ln(µi)) − n ln  Γ 1 σ2i  + 1 σi2 − 1  n X i=1 ln(Yi) − Pn i=1Yi σi2µi , (2.15) waarbij µi = exp  β0+Ppj=1βjxij  .

2.2.3 Het nadeel van GLMs

Ondanks het feit dat het GLM-model een veelvuldig gebruikt regressiemodel is in de wereld van schadeverzekeringen, heeft het model een groot nadeel. Veel onderzoekers, onder wie Denuit en Lang (2004) en Klein et al. (2014), stellen dat het grootste probleem dat voortvloeit uit het gebruik van GLM het feit is dat de covariaten X worden

gemo-delleerd als een lineaire voorspeller, zoals blijkt uit de formule ηi = β0+Ppj=1βjxij.

Voor categorische verklarende variabelen is dit geen probleem, omdat zij worden gemo-delleerd door middel van binaire variabelen, maar GLMs zijn te beperkend als er sprake is van niet-lineaire effecten in de verklarende variabelen X. Deze continue variabelen kunnen alleen in het GLM-model worden verwerkt als zij op een geschikte wijze zijn ge-transformeerd waarbij hun effect op de afhankelijke variabelen Y zo waarheidsgetrouw mogelijk is weergegeven. Volgens Denuit en Lang (2004) is het probleem hierbij dat het niet altijd duidelijk is hoe de continue variabelen moeten worden getransformeerd en daarnaast rijst de vraag in hoeverre de transformatie een zo waarheidsgetrouw mogelijk beeld weergeeft.

In de praktijk lossen onderzoekers dit probleem vaak op door het toepassen van polynomen om de lineaire effecten zo goed mogelijk te benaderen. Voor kleine niet-lineaire effecten is dit een goede oplossing, maar voor grove niet-niet-lineaire problemen werkt deze benadering niet. Volgens Klein et al. (2014) zijn polynomen van lage orde vaak niet flexibel genoeg om de variabiliteit in de data te benaderen en polynomen van grote orde hebben het probleem dat zij zorgen voor onstabiele schattingen, vooral voor extreme waarden van de verklarende variabelen.

(16)

2.3

Generalized Additive Models for Location, Scale and

Shape

2.3.1 Generalized Additive Models

De afgelopen jaren zijn er, onder andere door de opkomst van big data-analyse en de interesse in statistische technieken voor grote en hoogdimensionale data, nieuwe model-len ontwikkeld in de wereld van schadeverzekeringen. Een voorbeeld van een dergelijk model is het Generalized Additive Model (GAM) dat voortvloeit uit GLM en is ont-wikkeld door Hastie en Tibshirani (1986). In dit model wordt de lineaire voorspeller

g(µi) = ηi = β0 +

Pp

j=1βjxij uit het GLM-model vervangen door een niet-lineaire

functie fj (Denuit & Lang, 2004; de Laet, 2014):

g(µi) = β0+

p

X

j=1

fj(xij). (2.16)

Denuit en Lang (2004) stellen dat zij op deze manier continue covariaten meer flexibel in het model kunnen opnemen, namelijk als semi-parametrische additieve voorspellers. Dit betekent dat het regressiemodel een parametrische verdeling nodig heeft voor de verklarende variabelen en dat het model daarnaast semi-parametrisch is in de zin dat het modelleren van de parameters van de verdeling mogelijk non-parametrische functies gebruikt. Het GAM-model heeft als nadeel dat het alleen verdelingen kan gebruiken uit

de exponenti¨ele familie en daarom hebben Rigby en Stasinopoulos (2001) het

GAM-model verder bewerkt en hieruit is het Generalized Additive Model for Location, Scale and Shape (GAMLSS) ontstaan.

2.3.2 Generalized Additive Models for Location, Scale and Shape

Het GAMLSS is net als het GAM-model een semi-parametrisch regressiemodel. Het grote verschil met het GLM-model en het GAM-model is dat de assumptie van een

exponenti¨ele verdelingsfamilie is versoepeld en vervangen door een meer algemene

ver-delingsfamilie, waaronder zowel discrete als continue families met hoge kurtosis of

scheef-heid (Rigby & Stasinopoulos, 2010, pp. 20–24), zoals de Weibull-, exponenti¨ele, pareto of

chi-kwadraatverdeling. Rigby en Stasinopoulos (2010, pp. 20–24) verklaren dat het sys-tematische gedeelte van het regressiemodel is uitgebreid om niet alleen het gemiddelde (of locatie) van de verdeling van Y te kunnen modelleren, maar ook andere parameters van deze verdeling. Hierdoor is GAMLSS uitermate geschikt om afhankelijke variabelen

te modelleren die niet een verdeling uit de exponenti¨ele familie volgen of die signalen

van heterogeniteit vertonen.

Het GAMLSS-model maakt de assumptie dat n onafhankelijke observaties Yi, i =

1, ..., n, een kansdichtheidsfunctie fY(Yi|θi) conditioneel op θiT = (θi1, θi2, ...θip)

heb-ben, waarbij θi een vector is van p parameters die gerelateerd zijn aan de verklarende

variabelen en de random effecten (Rigby & Stasinopoulos, 2005). Dit is ook te schrijven

als Yi|θi ∼ D(θi), waarbij D de verdeling van Yi is. (Rigby & Stasinopoulos, 2010, pp.

20–24). Rigby en Stasinopoulos (2005) laten YT = (Y1, Y2, ..., Yn) de vector van

obser-vaties van de afhankelijke variabele zijn. Daarnaast stellen zij dat voor k = 1, 2, ..., p

gk(·) een bekende monotone linkfunctie is die θk = (θ1k, θ2k, ..., θnk)T verbindt aan

de verklarende variabelen en de random effecten. Hiermee verkrijgen zij het algemene GAMLSS-model: gk(θk) = ηk= Xkβk+ Jk X j=1 Zjkγjk, (2.17)

waarbij θTk = (θ1k, θ2k, ..., θnk) en ηTk = (η1k, η2k, ..., ηnk) vectoren met lengte n zijn,

(17)

is van orde n × Jk0, Zjk een vaste bekende matrix van orde n × qjk en γjk een qjk

-dimensionale random variabele. Als Zjk = In, waarbij In een n × n identeitsmatrix is,

en γjk = hjk = hjk(xjk) voor alle j en k in het model, dan is het GAMLSS-model te

schrijven als: gk(θk) = ηk= Xkβk+ Jk X j=1 hjk(xjk), (2.18)

waarbij xjk voor j = 1, 2, ..., Jk en k = 1, 2, ..., p vectors met lengte n zijn. Hierbij

is Xkβk het parametrische component en Zjkγjk zijn de additieve componenten voor

j = 1, ..., Jk. Het parametrische component kan zowel lineaire als interactietermen voor

de verklarende variabelen en factoren bevatten en daarnaast kan het ook uit verschil-lende soorten polynomen bestaan. Het additieve component kan vele soorten termen modelleren, waaronder termen voor random effecten en termen die nodig zijn bij tijd-reeksanalyse (Rigby & Stasionopoulos, 2005).

Om dit model te schatten, is volgens Klein et al. (2014) de enige restrictie op de verdeling dat de individuele bijdrage aan de log-likelihoodfunctie en zijn eerste twee afgeleiden ten opzichte van alle aanwezige parameters berekenbaar moeten zijn. Hieruit

volgt dat de log-likelihoodfunctie L(β, Z) =Pn

i=1ln f (Yi|θ

i) kan worden

gemaxima-liseerd om de parameters β en Z te schatten.

Bovenstaand GAMLSS-model is het model in algemene vorm. De meeste verdelingen in het GAMLSS-model gebruiken een maximum aantal parameters p gelijk aan vier.

De eerste twee verdelingsparameters µi en σi zijn parameters voor locatie en schaal

en de andere parameters, genaamd νi en τi op voorwaarde dat zij aanwezig zijn, zijn

vormparameters. Hieruit volgt volgens Rigby & Stasinopoulous (2010, pp. 20–24) dat

Yi|(µi, σi, νi, τi) ∼ D(µi, σi, νi, τi), waarbij D de verdeling is van Yi. Voor de vier

verde-lingsparameters (µi, σi, νi, τi) wordt dan het volgende GAMLSS-model verkregen (Rigby

& Stasinopoulos, 2010, pp. 20–24):          g1(µ) = η1 = X1β1+ PJ1 j=1Zj1γj1 g2(σ) = η2= X2β2+ PJ2 j=1Zj2γj2 g3(ν) = η3 = X3β3+ PJ3 j=1Zj3γj3 g4(τ ) = η4= X4β4+ PJ4 j=1Zj4γj4 , (2.19)

waarbij θk en ηk vectoren met lengte n zijn voor k = 1, 2, 3, 4, βTk = (β1k, β2k, ..., βJk0k)

een vector met parameters van lengte Jk0, Xkeen bekende matrix is van orde n × Jk0, Zjk

een vaststaande matrix van orde n × qjk en γjk een qjk-dimensionale random variabele.

2.3.3 GAMLSS in autoverzekeringen

Claimfrequentie

Voor autoverzekeringen kan het regressiemodel GAMLSS verder gespecificeerd worden. Vele auteurs gebruiken voor het schatten van de claimfrequentie de Poissonverdeling, de mixed Poissonverdeling of de negatief binomiale verdeling. In deze scriptie wordt ge-bruikgemaakt van de Poissonverdeling. Klein et al. (2014) stellen dat Y bijvoorbeeld de afhankelijke variabele is die de claimfrequentie weergeeft. Daarnaast is X een vector van verklarende covariaten, die opgesplitst kan worden in een deelverzameling van continue covariaten, een deelverzameling van categorische covariaten en geografische informatie.

Hierbij wordt gesteld dat er p continue covariaten x1, ..., xp zijn en een ruimtelijke regio

s. De overige categorische verklarende variabelen worden beschreven door een vector

van z0 covariaten. Hieruit volgt dat de verdelingsparameters worden weergegeven door

gk(θk) = ηk voor een bekende functie gk(·) waarbij

ηk= z00β0k+

p

X

j=1

(18)

waarbij m het aantal verdelingsparameters is en ηTk = (η1k, η2k, ..., ηnk) vectoren met

lengte n zijn. Hierbij drukt fkj het effect van de continue covariaten op ηkuit, fk,spat

be-paalt de ruimtelijke variaties in de risicoverdeling en z00β0k bevat parametrische lineaire

effecten van de categorische covariaten. Aangezien het modelleren van de ruimtelijke regio s een aparte studie is, wordt deze variabele verder buiten beschouwing gelaten. Om de claimfrequenties te schatten, gebruikt deze scriptie de Poissonverdeling. Voor

de Poissonverdeling geldt dat θi = θi1= µi. Stel dat Ni, i = 1, ..., n, het aantal claims

is dat is gemeld door polishouder i en di de bijbehorende exposure. De verwachting van

de jaarlijkse claimfrequentie is gelijk aan λi en dit geldt als di = 1. Alle geobserveerde

karakteristieken van polishouder i staan beschreven in de vector Xi. Hieruit volgt dat

de conditionele verwachting van Ni gegeven Xi gelijk is aan

E(Ni|Xi) = diexp  z00,iβ01,i+ p X j=1 f1j,i(xj,i)   voor i = 1, 2, ..., n, (2.21)

waaruit volgt dat

g(µi) = z00,iβ01,i+ p X j=1 f1j,i(xj,i) = ln  µi di  . (2.22)

Te zien is dat het verwachte aantal claims een logaritmische linkfunctie gebruikt in

het GAMLSS-model. Hieruit volgt dat het verwachte aantal claims per polishouder Ni

Poissonverdeeld, zoals hieronder te zien is:

Ni ∼ P OIS  diexp  z00,iβ01,i+ p X j=1 f1j,i(xj,i)     voor i = 1, 2, ..., n. (2.23)

Om het GAMLSS-model op te lossen, maximaliseren we de log-likelihoodfunctie L(β) = ln(L(β)) = n X i=1 (− ln(ki!) + kiln(µi) − µi) , (2.24) waarbij µi = diexp  z00,iβ01,i+Pp j=1f1j,i(xj,i) 

en ki het aantal claims gemeld door

polishouder i gedurende de geobserveerde periode. Gemiddeld claimbedrag

In het GAMLSS-kader gebruiken auteurs de gamma-, lognormale, de pareto-, exponenti-ele, Weibull- of inverse Gaussian-verdeling om de claimbedragen te schatten. In deze scriptie worden de gamma-, lognormale en inverse Gaussian-verdelingen gebruikt om de claimbedragen te schatten, waarbij de gammaverdeling hieronder staat beschreven. De

gammaverdeling kent twee parameters en daaruit volgt dat θi = (θi1, θi2) = (µi, σi).

Stel dat Xi het totale claimbedrag is dat volgt als polishouder i ´e´en of meerdere claims

meldt en Niis het aantal claims dat polishouder i geclaimd heeft. Hieruit volgt dat Yihet

gemiddelde claimbedrag is voor polishouder i, waarbij Yi gedefinieerd is als Yi = Xi/Ni.

De kansdichtheidsfunctie van een gammaverdeling in termen van µi en σi is als volgt

(Rigby, Stasinopoulos, Heller & Voudouris, 2014, pp. 235–237):

f (Yi|µi, σi) = y1/σ 2 i−1· e−Yi/σi2µi 1 (σ2 iµi)1/σ 2 i · Γ(1/σ2 i) voor Yi> 0, µi> 0, σi > 0. (2.25)

Zowel de locatieparameter µi als de schaalparameter σi hanteert een logaritmische

(19)

is het verschil met het GLM-model te zien, die alleen de locatieparameter µi hanteert.

Het volgt dat µi en σi worden geschat door:

g(µi) = z00,iβ01,i+

p

X

j=1

f1j,i(xj,i) = ln(µi) ofwel µi = exp

 z00,iβ01,i+ p X j=1 f1j,i(xj,i)   (2.26) en g(σi) = z00,iβ02,i+ p X j=1

f2j,i(xj,i) = ln(σi) ofwel σi = exp

 z00,iβ02,i+ p X j=1 f2j,i(xj,i)  . (2.27) Om het GAMLSS-model op te lossen, maximaliseren we de log-likelihoodfunctie

L(β) = ln(L(β)) = n X i=1  − 1 σ2 i (ln(σi2) + ln(µi)) +  1 σ2 i − 1  ln(Yi) − Yi σ2 iµi − ln  Γ 1 σ2 i  = −n σ2i(ln(σ 2 i) + ln(µi)) − n ln  Γ 1 σ2i  + 1 σi2 − 1  n X i=1 ln(Yi) − Pn i=1Yi σi2µi , (2.28) waarbij µi = exp  z00,iβ01,i+Pp j=1f1j,i(xj,i)  en σi = exp  z00,iβ02,i+Pp j=1f2j,i(xj,i)  .

2.3.4 Tekortkomingen van GAMLSS

Het GAMLSS-model heeft niet alleen voordelen. Volgens Mayr, Fenske, Hofner, Kneib en Schmid (2012) is het GAMLSS-model een flexibel alternatief voor de ‘oude’

regressiemo-dellen, aangezien het niet alleen gebruik kan maken van verdelingen uit de exponenti¨ele

familie en het daarnaast elke parameter schat met een eigen voorspeller en bijbehorende linkfunctie. Er is echter een probleem met de manier van het kiezen van de variabelen in het GAMLSS-model. In het GAMLSS model moet niet alleen de locatieparameter worden geschat, maar daarnaast ook de schaal- en vormparameters. Hierdoor heeft het GAMLSS-model een hoge graad van flexibiliteit, maar tegelijkertijd betekent dit dat

er effici¨ente strategie¨en moeten zijn om te voorkomen dat de data wordt overschat en

om modellen te produceren die alleen de meest relevante covariaten bevatten voor elke verdelingsparameter. Standaard wordt hiervoor het gegeneraliseerde Akaike informatie-criterium (GAIC) gebruikt (Rigby & Stasinopoulos, 2005), maar deze methode heeft een aantal tekortkomingen. Het grootste probleem ontstaat als er meer covariaten zijn dan observaties, maar in het traditionele kader is het onmogelijk om aan deze tekortko-mingen te ontkomen. Hiervoor hebben Mayr et al. (2012) een andere methode, genaamd gamboostLSS, ontwikkeld, maar het is buiten het bereik van deze scriptie om hier verder op in te gaan.

Daarnaast blijkt volgens Spedicato, Clemente en Schewe (2014) dat het GAMLSS-model niet in alle takken van schadeverzekeringen een betere schatting geeft dan de oude regressiemodellen. Zij ondervinden in hun onderzoek naar het bepalen van de beste verdelingsfunctie voor onbetaalde claimreserves dat het GAMLSS enkele nadelen heeft die in vorige modellen minder van belang waren. Omdat er een extra parameter wordt gebruikt in het GAMLSS-model, wordt het aantal beschikbare vrijheidsgraden in het model gereduceerd. Daarnaast kunnen GAMLSS-modellen erg gevoelig zijn voor veranderingen in de marginale verdeling en variantie. Als derde punt stellen Spedicato, Clemente en Schewe dat er bij GAMLSS-modellen vaker sprake is van problemen met convergentie dan bij standaard GLM-modellen, waardoor er meer tijd besteed moet worden aan het controleren van de data en het selecteren van de modellen.

(20)

Onderzoeksopzet

Dit hoofdstuk dient als beschrijving van de te gebruiken dataset en de te gebruiken onderzoeksmethode in deze scriptie. Sectie 3.1 beschrijft de dataset waarbij een aantal belangrijke variabelen worden uitgelicht. Het ontwerp van het onderzoek bevindt zich in sectie 3.2, waar een uitleg staat de manier waarop het onderzoek zal plaatsvinden.

3.1

De dataset

Om de technieken beschreven in deze scriptie te illustreren, gebruiken we een dataset die gegevens bevat over Belgische autoverzekeringen. Het gaat hierbij om gegevens over de aansprakelijkheidsverzekering (WA-verzekering) van Belgische polissen, geobserveerd in het jaar 1997. Deze dataset bevat 163.660 observaties gemeten met vijfentwintig variabelen. Deze dataset is gekozen in navolging van het onderzoek van Denuit en Lang (2004) en Klein et al. (2014) om een goede vergelijking te kunnen maken.

De variabelen zijn gebaseerd op individuele kenmerken. Wat betreft de karakteris-tieken van de polishouders is bekend wat het geslacht en de leeftijd van de polishouder is en hoe de polishouder zijn auto gebruikt. Wat betreft de karakteristieken van de ver-zekerde auto is de ouderdom van de auto bekend samen met het type brandstof dat de auto nodig heeft, het vermogen van de auto en of de auto tot een wagenpark behoort. Wat betreft het contract is bekend welk type dekking de polishouder heeft en welk ni-veau in het bonus-malussysteem de polishouder aan het begin van het jaar bekleedt. Daarnaast zijn ook het aantal gemelde claims per polishouder in 1997, de tijdsduur (ex-posure) waarin het contract actief is in 1997 en het resulterende totale claimbedrag per polishouder bekend. Als laatste is ook de populatie van de plaats waarin de

polishou-Verklarende variabelen

Continu Beschrijving Gemiddelde SD Min/Max

ageph Leeftijd polishouder 47,00 14,83 17,00/95,00

agec Ouderdom auto 7,38 4,21 0,00/48,00

power Vermogen auto 56,04 19,06 10,00/250,00

popul Populatie 54287.75 86238.2 992/455852

Binair Beschrijving Niveaus Verdeling in %

fuel Brandstoftype benzine = 1, diesel = 2, onbekend = 3 69,00/30,82/0,18

use Gebruik auto priv´e = 1, zakelijk = 2 95,11/4,89

fleet Wagenpark ja = 1, nee = 2 3,20/96,80

sex Geslacht polishouder vrouw = 1, man = 2, geen antwoord = 3 26,41/73,50/0,09

Categorisch Beschrijving Niveaus Verdeling in %

coverage Type dekking

alleen WA = 1, WA + beperkt casco = 2, WA + volledige casco = 3 58,30 28,15 13,55 bm Bonus-malusniveau 0,...,22

Tabel 3.1: Beschikbare verklarende variabelen uit dataset van autoverzekeringen.

(21)

20 30 40 50 60 70 80 90

0

3000

9000

15000

Leeftijd polishouder (ageph)

Aantal polissen

Vrouw Man Geen antwoord

0

20000

60000

100000

Geslacht polishouder (sex)

Aantal polissen 0 10 20 30 40 50 0 5000 15000 25000 35000

Leeftijd auto (agec)

Aantal polissen 0 50 100 150 200 250 0 5000 15000 25000 35000

Vermogen auto (power)

Aantal polissen 0 5 10 15 20 0 20000 40000 60000 80000 Bonus−malussysteem (bm) Aantal polissen 6.9 7.9 8.9 9.9 10.9 12.9 0 2000 4000 6000 8000

Logaritme populatie (logpopul)

Aantal polissen

Figuur 3.1: Histogrammen van de leeftijd van de polishouder, het geslacht van de polishouder, de ouderdom van de auto, het vermogen van de auto, het niveau in het

bonus-malussysteem en de logaritme van de populatie.

der woont bekend als variabele. Te zien is dat niet alle vijfentwintig variabelen worden gebruikt in deze scriptie. In navolging van het artikel van Klein et al. (2014) worden alleen de meest relevante variabelen gebruikt, die de grootste kans op een significante

betekenis in het regressiemodel hebben. Tabel 3.1 beschrijft de relevante verklarende

variabelen samen met hun belangrijkste beschrijvende statistiek.

In figuur3.1en3.2zijn de histogrammen van enkele belangrijke verklarende

variabe-len afgebeeld. In figuur3.2is te zien dat ongeveer 77,3 procent van de polissen een

expo-sure heeft van 365 dagen en dus het hele jaar actief is geweest. Daarnaast is in figuur3.1

0 50 150 250 350

0

20000

60000

100000

Exposure in dagen (duration)

Aantal polissen

Figuur 3.2: Histogram van de exposure in dagen.

te zien hoe de leeftijd van de polishou-ders is verdeeld in de dataset, samen met de verdeling van het geslacht van de po-lishouders, de verdeling van de ouderdom van de auto’s, de verdeling van het ver-mogen van de auto’s en het niveau dat de polishouders aan het begin van het jaar 1997 in het bonus-malussysteem hebben. Wat opvalt aan dit figuur, is dat meer dan 73 procent van de polishouders een man is. Daarnaast is te zien dat minder dan ´

e´en procent van de auto’s een ouderdom

heeft ouder dan twintig jaar en dat min-der dan drie procent van de auto’s een ver-mogen heeft dat groter is dan honderd ki-lowatt (kW). Ook volgt duidelijk uit het figuur dat het grootste gedeelte van de po-lishouders (37,8 procent) zich in niveau 0 van het bonus-malussysteem bevindt en

(22)

Aantal claims Aantal polissen Totale exposure 0 145.315 128.595,90 1 16.602 15.410,32 2 1.562 1.447,30 3 162 150,45 4 17 14,33 5 2 1,38 Totaal 163.660 145.619,68

Tabel 3.2: Verdeling van geobserveerde claims. Claimbedragen Statistiek Waarde Aantal observaties 18.345 Minimum 1 Maximum 80.258.970 Gemiddelde 72.371 Standaarddeviatie 705.848 Mediaan 23.176

Tabel 3.3: Statistiek voor claimbedragen in BEF.

dit betekent dat deze polishouders de maximale premiekorting ontvangen. Minder dan ´

e´en procent van de polishouders bevindt zich in niveau 14 of hoger.

Van belang is om in te zien hoeveel polishouders een bepaald aantal claims melden. Uit de dataset blijkt dat de polishouders in het jaar 1997 minimaal nul en maximaal vijf

claims per polishouder hebben gemeld. In tabel 3.2 is het aantal polissen en de totale

exposure per categorie van aantal gemelde claims te zien. Zoals te zien is in deze tabel is de totale exposure niet gelijk aan het aantal polissen per claimcategorie, aangezien niet alle polissen het gehele jaar actief zijn geweest. Daarnaast is te zien dat iets meer dan

tien procent van de polishouders ´e´en of meerdere schades heeft geclaimd, wat betekent

dat de meeste polishouders geen schade hebben geclaimd in het jaar 1997. Van het aantal

polishouders dat ´e´en of meerdere schades heeft geclaimd, heeft slechts ´e´en procent van

de polishouders drie of meer claims gemeld.

De claimbedragen zijn weergegeven in Belgische franken (BEF) en de beschrijvende

statistiek is te zien in tabel 3.3. Te zien is dat een groot verschil bestaat tussen het

laagste en het hoogste claimbedrag. Daarnaast valt op dat de standaarddeviatie van het claimbedrag in Belgische franken erg hoog is. De mediaan valt erg laag uit, wat betekent dat er relatief veel polishouders zijn met een laag claimbedrag. Hieruit volgt dat de claimbedragen in hoge mate asymmetrisch zijn verdeeld.

3.2

Onderzoeksontwerp

De onderzoeksmethode legt uit hoe het onderzoek wordt uitgevoerd. Ik doe dit onder-zoek in meerdere stappen, waarbij ik gebruik maak van het programma R. Eerst wordt de data opgeschoond en daarna deel ik de dataset op in een trainingsset en een testset. Vervolgens schat ik voor zowel de claimfrequentie als het gemiddelde claimbedrag de benodigde GLM- en GAMLSS-modellen op basis van de trainingsset. Als laatste ver-gelijk ik de modellen met elkaar en probeer ik conclusies te trekken uit de onderzochte modellen.

Om alle variabelen te kunnen gebruiken, is het nodig dat de dataset wordt aangepast. Zo zijn er onvolledige of foutief ingevulde observaties wat betreft geslacht en brandstof en deze observaties haal ik daarom uit het model. In de dataset komen daarnaast ob-servaties voor met een exposure van nul, wat betekent dat de polis niet actief is geweest in 1997. Ook observaties polissen verwijder ik uit de dataset, aangezien deze observaties geen nut hebben in de analyse. Als laatste gebruik ik niet alle variabelen in mijn model, dus de ongebruikte variabelen verwijder ik ook uit de dataset.

Niet alleen onvolledige of foutief ingevulde observaties haal ik uit de dataset. Klein et al. (2014) stelt dat het belangrijk is om alle schadeclaims met een bedrag hoger dan exp(15) ≈ 3, 269 miljoen Belgische franken (omgerekend ongeveer 81.000 euro) buiten beschouwing te laten. Dit komt doordat grote claimbedragen een aparte analyse nodig hebben. De reden voor de aparte analyse van klein (of middelgrote) en grote claimbe-dragen is dat er geen standaard parametrisch model is dat een acceptabele schatting

(23)

kan maken van zowel kleine als grote claims. In deze scriptie wordt deze maximale grens van exp(15) Belgische franken ook toegepast. Na de beschreven aanpassingen blijven 163.213 observaties van dertien variabelen over om een analyse mee uit te voeren.

Om het onderzoek goed uit te kunnen voeren, heb ik besloten om geen onderscheid te maken tussen de dekkingsgraden ‘beperkte casco’ en ‘volledige casco’. Dit heb ik gedaan om een goed onderscheid te kunnen maken tussen polishouders die alleen WA-verzekerd zijn en polishouders die meer dan alleen WA-verzekerd zijn. Daarnaast neem ik van de variabele die de populatie per plaats (POPUL) beschrijft de logaritme (LOGPOPUL), aan-gezien het verschil tussen de kleinste en de grootste waarde erg groot is maar het wel van belang is dat kleine waarden even goed worden weergegeven als grote waarden. Na het opschonen van de dataset verdeel ik de dataset in twee delen, een trainingsset en een testset. De trainingsset gebruik ik om de GLM-modellen en de GAMLSS-modellen op te schatten. Als deze modellen allemaal zijn geschat, pas ik de uiteindelijke modellen toe op de testset en met deze set vergelijk ik de modellen voor de claimfrequentie en de claimbedragen onderling. De trainingsset bestaat uit zeventig procent van de data en de testset bestaat uit dertig procent van de data. Dit houdt in dat de trainingsset bestaat uit 114249 observaties en de testset uit 48964 observaties.

Voor de claimfrequentie schat ik het GLM-model en het GAMLSS-model in R op basis van een Poissonverdeling. Ik begin het onderzoek met het opstellen van klassen voor de continue en categorische variabelen, aangezien ik deze klassen nodig heb voor het GLM-model. Daarna stel ik een eenvoudig GLM-model op, waarin een scorefunctie staat

die alleen een constante bevat, ofwel η1 = β0. Vervolgens worden alle variabelen lineair

in het model opgenomen. Na deze schattingen voeg ik stapsgewijs alle voorafbepaalde klassen in. Als laatste voeg ik alle niet-significante variabelen samen met andere varia-belen of verwijder ik deze variavaria-belen uit het model, totdat alle variavaria-belen in het model significant zijn. Voor het GAMLSS-model geldt dezelfde procedure, alleen gebruik ik hier gladde functies in plaats van indelingen in klassen.

Voor het gemiddelde claimbedrag schat ik het GLM-model op basis van een gam-maverdeling en het GAMLSS-model op basis van een gamgam-maverdeling, een lognormale verdeling en een inverse Gaussian-verdeling. Ik begin met het aanpassen van de dataset

waarbij alleen observaties overblijven die minimaal ´e´en claim hebben. Daarna maak ik

een extra kolom aan waarin ik het gemiddelde claimbedrag bereken en stel ik wederom klassen op voor de continue en categorische variabelen. Vervolgens stel ik een eenvou-dig GLM-model op, waarin een scorefunctie staat die alleen een constante bevat, ofwel

η1 = β0. Vervolgens worden alle variabelen lineair in het model opgenomen. Na deze

schattingen voeg ik stapsgewijs alle voorafbepaalde klassen in. Als laatste voeg ik alle niet-significante variabelen samen met andere variabelen of verwijder ik deze variabelen uit het model, totdat alle variabelen in het model significant zijn. In het GAMLSS-model moeten de twee parameters van de gammaverdeling apart worden geschat om het totale model op te kunnen stellen. Voor het GAMLSS-model geldt dezelfde procedure, alleen met gladde functies in plaats van klassen voor de continue en categorische variabelen. Na het opstellen van de regressiemodellen voor de claimfrequentie en claimbedragen, vergelijk ik de modellen op basis van het Akaike Informatie Criterium (AIC). Het AIC is een maatstaf om de relatieve kwaliteit van een statistisch model te bepalen voor een gegeven dataset. Op deze manier krijgt elk model een waarde en kunnen de modellen met elkaar worden vergeleken. Het model met het kleinste AIC-waarde wordt gezien als het beste model. Daarna pas ik de gevonden modellen toe op de testset om de modellen te testen. Met de gegevens die volgen uit het AIC en de testset, vergelijk ik de modellen met elkaar en bepaal ik welk model het beste is.

(24)

Resultaten en Analyse

In dit hoofdstuk staan de resultaten van het onderzoek beschreven. Als eerste beschrijft sectie 4.1 het schatten van de claimfrequentie met behulp van het GLM-model en het GAMLSS-model. Daarna vergelijkt deze sectie ook de beide modellen voor de claimfre-quentie. Sectie 4.2 beschrijft het schatten van het gemiddelde claimbedrag met behulp van het GLM-model en het GAMLSS-model, waarna deze sectie eveneens de vergelijking van de modellen voor het gemiddelde claimbedrag behandelt.

4.1

Schatten van de claimfrequentie

In deze paragraaf staat het schatten van de claimfrequentie beschreven. Als eerste be-schrijft paragraaf 4.1.1 de aanpassingen aan de dataset die nodig zijn om een goed GLM-model te kunnen schatten. Vervolgens behandelt paragraaf 4.1.2 het opstellen van het GLM-model en paragraaf 4.1.3 beschrijft het opstellen van het GAMLSS-model voor de claimfrequentie. Als laatst worden in paragraaf 4.1.4 de modellen met elkaar vergeleken.

4.1.1 Aanpassingen aan de dataset

Naast het aanpassen van de dataset met variabelen die niet gebruikt kunnen worden in het vorige hoofdstuk, is het voor het GLM-model ook nodig om de continue en catego-rische verklarende variabelen op te delen in klassen. Het gaat hierbij om de leeftijd van de polishouder (AGEPH), de ouderdom van de auto (AGEC), het vermogen van de auto (POWER), het niveau in het bonus-malussysteem (BM) en de logaritme van de populatie (LOGPOPUL). Omdat ik het model opstel op basis van de trainingsset, bepaal ik de klassen ook op basis van deze set. De klassen bepaal ik door een eenvoudig GLM-model op te stellen, waarin alleen de variabele voorkomt die ik in klassen wil verdelen. Door te kijken

naar waar de co¨effici¨enten van de variabele ongeveer gelijk zijn, bepaal ik de klassen.

Vervolgens wordt de klasse met de grootste exposure, of de klasse die het meest logisch

is als dit niet dezelfde klasse is, aangesteld als referentieklasse. In tabel 4.1 tot en met

4.5is te zien hoe deze verklarende variabelen zijn opgedeeld in klassen. De frequentie in

deze tabellen is berekend als het totale aantal claims per klasse gedeeld door de totale exposure per klasse.

De variabele die de leeftijd van de polishouder (AGEPH) beschrijft, is opgedeeld in vijf

klassen, zie tabel 4.1. De klasse [33,57] is de referentieklasse, vanwege de grootste

ex-posure. Daarnaast is deze klasse ook een logische keuze, aangezien de personen in deze klasse al een redelijke tijd hun rijbewijs hebben en daardoor ook veel rijervaring, maar tegelijkertijd zijn zij nog niet heel oud.

Voor de variabele die de leeftijd van de auto (AGEC) beschrijft, is de dataset opgedeeld in vijf verschillende klassen. De gegevens over deze verdeling staan beschreven

(25)

Klasse Grenzen Aantal polissen Totale exposure Aantal claims Frequentie 1 [17,25] 5.843 5.022 1.240 0,2469 2 [26,32] 16.143 13.929 2.508 0,1801 3 [33,57] 63.031 55.780 7.693 0,1379 4 [58,77] 27.264 25.158 2.469 0,0981 5 [78,96] 1.968 1.808 228 0,1261

Tabel 4.1: Gegevens over de verdeling van de leeftijd van de polishouders in jaren.

Klasse Grenzen Aantal polissen Totale exposure Aantal claims Frequentie

1 [0,1] 5.500 4.666 789 0,1691

2 [2,3] 18.253 16232 2.032 0,1252 3 [4,14] 84.937 76.060 10.746 0,1413

4 [15,24] 5.315 4.531 558 0,1232

5 [25,48] 244 208 13 0,0625

Tabel 4.2: Gegevens over de verdeling van de ouderdom van de auto’s in jaren.

Klasse Grenzen Aantal polissen Totale exposure Aantal claims Frequentie

1 [10,29] 1.957 1.682 168 0,0999

2 [30,44] 37.695 33.536 4.540 0,1354 3 [45,79] 61.183 54.612 7.675 0,1405 4 [80,243] 13.414 11.867 1.755 0,1479

Tabel 4.3: Gegevens over de verdeling van het vermogen van de auto’s in kilowatt (kW).

Klasse Grenzen Aantal polissen Totale exposure Aantal claims Frequentie 1 [0,0] 43.208 38.985 3.924 0,1007 2 [1,2] 25.532 23.448 2.777 0,1184 3 [3,7] 24.273 21.425 3.343 0,1560 4 [8,10] 12.279 10.679 2.168 0,2030 5 [11,15] 8.477 6.739 1.793 0,2661 6 [16,22] 480 421 133 0,3158

Tabel 4.4: Gegevens over de verdeling van het bonus-malussysteem.

Klasse Grenzen Aantal polissen Totale exposure Aantal claims Frequentie 1 [6.8,8.1] 1.858 1.651 185 0,1121 2 [8.2,8.9] 10.499 9.382 1.083 0,1154 3 [9.0,9.8] 35.226 31.513 3.895 0,1236 4 [9.9,10.4] 29.642 26.408 3.640 0,1378 5 [10.5,13.0] 37.024 32.743 5.335 0,1629

Tabel 4.5: Gegevens over de verdeling van de logaritme van de populatie.

in tabel 4.2. De referentieklasse is de klasse [4,14], omdat deze de grootste exposure

heeft. Daarnaast is deze klasse ook een logische keuze, aangezien de meeste nieuwe auto’s vaker worden geleased en waardoor bestuurders minder voorzichtig zijn met hun auto. Daarnaast geldt voor auto’s ouder dan vijftien jaar vaak dat de bestuurders juist voorzichtiger zijn met hun auto, aangezien deze veel waard is of omdat zij gehecht zijn aan hun auto.

De variabele die het vermogen van de auto (POWER) beschrijft, is opgedeeld in vier

verschillende klassen en is te zien in tabel 4.3. De klasse [45,79] is de referentieklasse,

aangezien het gemiddelde vermogen van ongeveer 55 kilowatt in deze klasse valt. Daar-naast heeft deze klasse ook de grootste exposure.

Voor de variabele die het bonus-malussysteem (BM) beschrijft, is de dataset opgedeeld

in zes verschillende klassen en dit is te zien in tabel4.4. De referentieklasse is de klasse

[0,0], ofwel de klasse waarin alleen de bestuurders zijn die zich in niveau 0 van het bonus-malussysteem bevinden. Naast het feit dat deze groep de grootste exposure heeft, is dit

(26)

ook een logische keuze als referentieklasse. De overige klassen hebben een grotere kans op een claim dan de klasse [0,0] en dit is goed zichtbaar als de klasse [0,0] als referentieklasse wordt gekozen.

De variabele die de logaritme van de populatie beschrijft (LOGPOPUL), is opgedeeld

in vijf verschillende klassen. Deze opdeling van klassen is te zien in tabel 4.5. De

re-ferentieklasse is de klasse [10.5,13.0], aangezien deze de hoogste exposure heeft. Deze klasse symboliseert het meest stedelijke gebied, waar de kans op een claim het grootst is. De andere klassen symboliseren de minder stedelijke gebieden waar de kans op een claim kleiner is. De referentieklasse [10.5,13.0] is daarom ook een logische keuze.

4.1.2 Het GLM-model

R-implementatie

In deze paragraaf stel ik het GLM-model voor de claimfrequentie op met behulp van een Poissonverdeling. Zoals beschreven is in het vorige hoofdstuk begin ik het model eenvoudig met alleen een constante. Daarna voeg ik alle variabelen lineair toe en voeg ik stapsgewijs de klassen voor de continue en categorische variabelen in. Als laatste verwijder ik alle variabelen die niet significant zijn uit het model. Omdat de leeftijd van de polishouder (AGEPH) en het geslacht van de polishouder (SEX) veel interactie met elkaar hebben, zijn deze variabelen als kruisterm in het model opgenomen. De onderstaande R-code geeft het GLM-model weer:

g l m f r e q < - glm ( N C L A I M S ~ A G E P H C U T * SEX + A G E C C U T + B M C U T + F U E L + C O V E R A G E + F L E E T + P O W E R C U T + L O G P O P U L C U T

+ o f f s e t ( log ( D U R A T I O N ) ) , d a t a = data , f a m i l y = p o i s s o n ( l i n k = " log " ) )

s u m m a r y ( g l m f r e q )

Hierbij staat het achtervoegsel CUT voor het feit dat de variabelen is opgedeeld in klassen. De geschatte effecten van het uiteindelijke model voor de verwachte claimfrequentie zijn

te vinden in tabel 4.6.

Resultaten

In tabel4.6is te zien dat jonge mannen (< 26 jaar) een hogere verwachte

claimfrequen-tie hebben ten opzichte van de referenclaimfrequen-tiegroep van mannen tussen 33 en 57 jaar. Dit kan worden verklaard door het feit dat deze jonge mannen relatief kort hun rijbewijs hebben en daardoor ook minder rijervaring hebben. Relatief oudere mannen (58-77 jaar) hebben een veel lagere verwachte claimfrequentie dan de referentiegroep, terwijl oude mannen (> 77 jaar) daarentegen een hogere verwachte claimfrequentie hebben dan de referentiegroep. Dit valt deels te verklaren door het feit dat er in verhouding weinig oude mannen zijn waardoor het geschatte effect minder significant is. Daarnaast is het zo dat oude mensen vaker kwaaltjes hebben, zoals slechter zicht en een slechter reac-tievermogen, waardoor de kans op schade groter is. Bij het vergelijken van vrouwen en mannen is te te zien dat vrouwen in de leeftijd 33-57 een hogere verwachte claimfre-quentie hebben dan mannen in dezelfde leeftijd. Dit zou verklaard kunnen worden door het feit dat de vrouwen in deze leeftijdsgroep vaak kinderen hebben die net hun rijbe-wijs hebben gehaald en die onder de verzekering van de moeder vallen. Tegelijkertijd is ook te zien dat jonge vrouwen (< 26 jaar) juist een lagere verwachte claimfrequentie hebben ten opzichte van de referentiegroep van mannen en ook ten opzichte van jonge mannen. Dit is te verklaren door het feit dat jonge vrouwen vaak voorzichtiger zijn dan jonge mannen en daardoor dus ook een mindere kansen hebben op schade. Ook de vrou-wen in de leeftijd 26-32 hebben een lagere verwachte claimfrequentie ten opzichte van de referentiegroep. Opvallend is dat vrouwen in de leeftijd 58-77 een hogere verwachte claimfrequentie hebben dan mannen met dezelfde leeftijd, terwijl oude vrouwen (> 77 jaar) juist een veel lagere verwachte claimfrequentie hebben dan oude mannen. Deze laatste opmerking kan verklaard worden door het feit dat er de dataset weinig oude

(27)

Parameter Schatting Standaarddeviatie β0 (constante) -2,23249 0,05718

β1 (AGEPH klasse 1 man) 0,30117 0,03935

β2 (AGEPH klasse 2 man) 0,10569 0,02871

β3 (AGEPH klasse 4 man) -0,26131 0,02675

β4 (AGEPH klasse 5 man) 0,15158 0,07229

β5 (AGEPH klasse 3 vrouw) 0,07733 0.02555

β6 (AGEC klasse 1) 0,18321 0,03764 β7 (AGEC klasse 2) -0,11543 0,02512 β8 (AGEC klasse 4) -0,14515 0,04402 β9 (AGEC klasse 5) -0,73748 0,27787 β10 (BM klasse 2) 0,13215 0,02497 β11 (BM klasse 3) 0,36371 0,02431 β12 (BM klasse 4) 0,56171 0,02943 β13 (BM klasse 5) 0,82066 0,03131 β14 (BM klasse 6) 0,98740 0,08890 β15 (FUEL diesel) 0,16896 0,01846 β16 (COVERAGE wa+casco) -0,06162 0,01838 β17 (FLEET nee) 0,14802 0,05193 β18 (POWER klasse 1) -0,36125 0,07896 β19 (POWER klasse 2) -0,08378 0,01930 β20 (POWER klasse 4) 0,10769 0,02695 β21 (LOGPOPUL klasse 1) -0,36314 0,07484 β22 (LOGPOPUL klasse 2) -0,30822 0,03344 β23 (LOGPOPUL klasse 3) -0,25717 0,02119 β24 (LOGPOPUL klasse 4) -0,13743 0,02155

β25 (AGEPH klasse 1 vrouw) -0,28400 0,06664

β26 (AGEPH klasse 2 vrouw) -0,14589 0,04993

β27 (AGEPH klasse 4 vrouw) 0,14619 0,05538

β28 (AGEPH klasse 5 vrouw) -0,47459 0,20990

Tabel 4.6: Samenvatting van de geschatte effecten voor µ in het GLM-model (Poisson).

vrouwen bevat die polishouder zijn, waardoor het geschatte effect minder significant is en dus meer kan afwijken van de werkelijkheid.

Daarnaast valt op dat de nieuwste auto’s met een ouderdom van nul of ´e´en jaar een

veel hogere verwachte claimfrequentie hebben dan auto’s met een ouderdom van twee of drie jaar. Dit kan verklaard worden door het feit dat de algemene periodieke keuring (apk) pas verplicht is voor auto’s met een ouderdom vanaf drie jaar. Veel leaserijders besturen auto’s die jonger zijn dan drie jaar en mede doordat zij geen eigenaar van de auto zijn, is het waarschijnlijk dat zij een grotere kans hebben op schade. Daarente-gen neemt de verwachte claimfrequentie sterk af naarmate de ouderdom van de auto hoger wordt. Naarmate de ouderdom van de auto toeneemt, neemt waarschijnlijk de emotionele waarde die de polishouder aan de auto hecht toe, waardoor de polishouder voorzichtiger met zijn auto omgaat en dus een lagere kans op schade heeft. Wat be-treft de niveaus in het bonus-malussyteem is te zien dat de verwachte claimfrequentie toeneemt naarmate het niveau in het bonus-malussysteem hoger wordt. Dit betekent dat polishouders die niveau nul in het bonus-malussysteem hebben, en dus de meeste schadevrije jaren hebben gehad, ook de laagste verwachte claimfrequentie hebben. Po-lishouders die een hoger niveau in het bonus-malussyteem bezetten, hebben minder of geen schadevrije jaren achter de rug en hebben daardoor ook een hogere verwachte claimfrequentie. Daarnaast is te zien dat een auto met een laag vermogen (<45 kilowatt) een lagere verwachte claimfrequentie heeft dan de referentiegroep van 45-79 kilowatt, terwijl auto’s met een hoog vermogen (> 79 kilowatt) juist een hogere verwachte claim-frequentie hebben. Dit laatste kan worden verklaard door het feit dat auto’s met een hoger vermogen vaak de luxe sportauto’s zijn en de eigenaren van deze auto’s vaak minder voorzichtig zijn, waardoor de kans op schade groter wordt. Auto’s met een klein vermogen zijn minder duur dan auto’s met een groter vermogen, waardoor deze auto’s

(28)

voornamelijk gekocht zullen worden door personen die niet veel te besteden hebben. Deze personen zullen daarom ook voorzichtiger met hun auto omgaan, waardoor zij een mindere kans op schade hebben. Ten opzichte van de referentiegroep van de loga-ritme van de populatie is te zien dat hoe minder personen in een gebied wonen, hoe lager de verwachte claimfrequentie is. Dit betekent dat de verwachte claimfrequentie in stedelijke gebieden hoger is dan de verwachte claimfrequentie in landelijke gebieden. In stedelijke gebieden zijn veel meer auto’s op hetzelfde oppervlakte aanwezig dan in landelijke gebieden, waardoor de kans groter is dat er schade ontstaat.

Wat betreft de binaire variabelen, is te stellen dat polishouders die diesel als brand-stof voor de auto gebruiken, een hogere verwachte claimfrequentie hebben dan polis-houders die benzine als brandstof gebruiken. Dit kan vaak worden verklaard door het feit dat auto’s met diesel als brandstof meer kilometers per jaar maken om te kunnen compenseren voor de hogere aankoopprijs door middel van de lagere brandstofprijs. Daarnaast blijkt dat polishouders die meer dan WA-verzekerd zijn een lagere claimfre-quentie hebben dan polishouders die alleen WA-verzekerd zijn. Dit bevestigt de trend dat polishouders met een uitgebreide verzekering (WA en casco) minder claims indienen dan polishouders met alleen een WA-verzekering. Als laatste blijkt dat, als een auto tot een wagenpark behoort, de polishouder een lagere verwachte claimfrequentie heeft dan een polishouder die geen auto heeft die tot een wagenpark behoort. Dit kan worden ver-klaard door het feit dat de auto behorende tot een wagenpark geen eigendom is van de polishouder zelf, waardoor de polishouder voorzichtiger met de auto omgaat en hierdoor neemt de kans op schade af. Wat verder nog opvalt, is dat de variabele U SE als enige variabele niet in het model is opgenomen.

4.1.3 Het GAMLSS-model

R-implementatie

In deze paragraaf stel ik het GAMLSS-model voor de claimfrequentie op met behulp van een Poissonverdeling. Zoals beschreven is in het vorige hoofdstuk begin ik het model eenvoudig met alleen een constante. Daarna voeg ik alle variabelen lineair toe en voeg ik stapsgewijs niet-lineaire functies in voor de continue variabelen. Als laatste verwijder ik alle variabelen die niet significant zijn uit het model. De onderstaande R-code geeft het GAMLSS-model weer:

g a m l s s f r e q < - g a m l s s ( N C L A I M S ~ F U E L + C O V E R A G E + F L E E T + cs ( BM ) + cs ( A G E C ) + cs ( P O W E R ) + cs ( L O G P O P U L + cs ( A G E P H ) + SEX * cs ( A G E P H ) + o f f s e t ( log ( D U R A T I O N ) ) ,

d a t a = data , f a m i l y = PO ) s u m m a r y ( g a m l s s f r e q )

Hierbij staat de functie cs(·) voor een niet-lineaire schatting van de variabele. Om het effect van leeftijd goed te kunnen meten, is een interactieterm in het model opgesteld tussen de leeftijd en het geslacht van de polishouder, aangezien deze twee variabelen

met elkaar in verband staan. Het effect van leeftijd is voor een man gelijk aan f5(AGEPH)

en voor een vrouw gelijk aan f5(AGEPH) + f6(AGEPH). De geschatte lineaire effecten

van het uiteindelijke model voor de verwachte claimfrequentie zijn te zien in tabel4.7.

Daarnaast zijn de geschatte niet-lineaire effecten van het uiteindelijke model voor de

verwachte claimfrequentie te zien in figuur4.1 en4.2.

Resultaten

Uit tabel 4.7 blijkt dat diesel als brandstof voor de auto een hogere verwachte

claim-frequentie geeft dan benzine als brandstof. Daarnaast blijkt dat polishouders met een uitgebreide verzekering (WA en casco) een lagere verwachte claimfrequentie hebben dan polishouders die alleen WA-verzekerd zijn. Ook het behoren tot een wagenpark leidt tot een lagere verwachte claimfrequentie dan het niet behoren tot een wagenpark. Deze line-aire effecten zijn in overeenstemming met de gelijknamige effecten uit het GLM-model.

Referenties

GERELATEERDE DOCUMENTEN

Om dit probleem te tackelen wordt in de de regio Westland-Oostland bijvoorbeeld gewerkt aan triple helix campusvorming (Greenport Horti Campus) om de verschillende belangen en

The likelihood-ratio is the probability of the score given the hypothesis of the prose- cution, H p (the two biometric specimens arose from a same source), divided by the probability

Het luchtbewegingspatroon komt overeen met dat van een traditionele stal, waarbij de lucht via de zijmuren de stal instroomt, boven de dieren opgewarmd wordt, en via de open nok de

Zo werd genoemd dat patiënten mogelijk te snel worden doorverwezen naar de tweede lijn, wat kan leiden tot overbehandeling van deze patiëntengroep en langere doorlooptijden binnen

Onze samenwerking heeft de afgelopen twee jaar plaatsgevonden binnen de mandaten van Gezondheidsraad en Zorginstituut waarbij gebruik is gemaakt van bestaande werkwijzen.. Het

Als onderdeel van de crowdfunding campagne van het tweede Starters4Communities programma in Amsterdam hebben onze starters een unieke kans gecreëerd voor non-profit organisaties om

Daarom hebben we de samenwerking tussen Stichting In de Wingerd en Gezinshuis In de Wingerd onderzocht en vertaalt naar een model waar andere gezinshuizen en kerkelijke

Indien consument X de discrepantie tussen de brandequity van de variant in promo en de varianten in zijn consideration set klein genoeg acht zal hij een intentieprikkel hebben om