Bagging en boosting vergeleken met GLM : de toepassing van tree-based modellen in het schatten van claimfrequenties van WA-verzekerden

(1)

—

De toepassing van tree-based modellen in het schatten van

claimfrequenties van WA-verzekerden

Cindy Brijs

Bachelorscriptie voor de

Bachelor Actuari¨ele Wetenschappen Universiteit van Amsterdam

Faculteit Economie en Bedrijfskunde Amsterdam School of Economics Auteur: Cindy Brijs

Studentnr: 10246827

Email: chpbrijs@gmail.com

Datum: 26 juni 2015

(2)

(3)

Samenvatting

Een polishouder van een WA-verzekering voor mo-torvoertuigen betaalt een premie die gebaseerd is op gegevens die a priori zijn vastgesteld. Dit zijn ge-gevens over de polishouder zelf, over de polis en over het voertuig. Deze premie wordt bepaald aan de hand van het verwacht aantal claims per jaar (de claimfre-quentie) en het verwachte claimbedrag.

In dit onderzoek zijn verschillende modellen met el-kaar vergeleken die de claimfrequentie van polishou-ders kunnen schatten. Hierbij is aangenomen dat deze Poissonverdeeld zijn, met de claimfrequenties als pa-rameters, en dat ze onderling onafhankelijk zijn. Een bekend model hiervoor is generalized linear model (GLM), maar door de ontwikkelingen in de laatste twintig jaar op het gebied van algoritmische modellen is er ook aandacht voor andere technieken, zoals de tree-based modellen bagging models en gradient boos-ting models (GBM).

Om deze modellen met elkaar te vergelijken, zijn er vier modellen gefit aan de hand van een dataset, die gegevens bevat van ongeveer 163.000 polissen uit 1997 van een Belgische verzekeraar. Op een trainingset (70%) zijn een GLM, een enkele beslisboom, een bag-gingmodel en een GBM gefit. Deze zijn vervolgens op de testset (30%) getest en daarna zijn er vergelijkin-gen gemaakt wat betreft de Poissondeviantie en de schattingen van aantal polishouders in de testset met nul claims en met ´e´en claim.

Hieruit blijkt dat GBM een betere schatting geeft op de testdata dan GLM. De enkele beslisboom en het baggingmodel presteerden beiden slechter. GBM is weliswaar minder interpreteerbaar dan GLM, maar door middel van partial dependence plots en va-riable importance plots geeft het model belangrijke inzichten in de verklarende variabelen. Dit maakt GBM geschikt voor gebruik in tarificatie van WA-verzekeringen.

Keywords tarificatie, WA-verzekeringen, generalized linear models, gradient boosting, bagging, Poissondevi-antie, claimfrequentie, exposure, beslisboom, partial dependence plot, variable importance plot

(4)

Voorwoord v

Inleiding 1

1 Theoretisch kader 2

1.1 Tarificatie . . . 2

1.2 GLM . . . 3

1.3 Selectie van modellen. . . 4

1.4 Beslisbomen en bagging . . . 5

1.5 Gradient boosting . . . 7

1.6 Analyse van de verklarende variabelen . . . 10

2 Onderzoeksopzet 11 3 Resultaten 15 3.1 GLM . . . 15 3.2 Enkele boom . . . 17 3.3 Bagging . . . 20 3.4 Gradient boosting . . . 22

3.5 Vergelijking van modellen . . . 25

Conclusie 30

Appendix A: Output GLM 32

Appendix B: Code voor bagging 34

(5)

Deze scriptie beschrijft een vergelijking van modellen voor het schatten van claim-frequenties van WA-verzekerden in het geval van motorvoertuigen. De opdracht om dit te maken is het laatste onderdeel van mijn bacheloropleiding Actuari¨ele Wetenschappen aan de Universiteit van Amsterdam. Ik heb hieraan gewerkt van 30 maart tot 26 juni 2015.

Bij deze wil ik mijn dank uiten aan mijn begeleider dr. Katrien Antonio voor het geven van advies over de inhoud van de scriptie, het nakijken van mijn drafts en het voorstellen van relevante literatuur. Deze ondersteuning heeft mij niet alleen veel geholpen met het schrijven van mijn scriptie, maar heeft ook bijgedragen aan mijn motivatie voor deze opdracht. Ook wil ik graag mijn docent van dit vak Nancy Bruin bedanken voor het geven van tips wat betreft mijn schrijfvaardigheid en het geven van presentaties over dit onderwerp.

Natuurlijk ben ik ook dankbaar voor de steun van mijn ouders en mijn vriend. Als ik namelijk moeilijkheden of tijdsdruk ondervond door deze opdracht, waren jullie er altijd om mij te motiveren en om voor afleiding te zorgen.

Ik wens u veel plezier toe met het lezen van mijn bachelorscriptie. Cindy Brijs

Amsterdam, 26 juni 2015.

(6)

(7)

Bestuurders van motorvoertuigen kunnen schade veroorzaken aan eigendommen of personen. Daarom is het voor eigenaren van motorvoertuigen in Nederland verplicht om een WA-verzekering af te slui-ten, zodat de eventuele schadeclaims door de verzekeraar vergoed worden. De polishouder betaalt hiervoor een premie die afhangt van bepaalde karakteristieken, zoals het vermogen van de auto of de populatiegrootte van de woonplaats. Aan de hand van deze karakteristieken kan namelijk de ver-wachte claimfrequentie en het gemiddelde claimbedrag van de polishouder worden bepaald, waarvan het product de zuivere premie is (Denuit et al.,2007).

Tegenwoordig worden zowel voor het frequentiemodel als voor het model voor claimbedragen ge-neralized linear models (GLM’s) gebruikt (Guelman, 2012). Maar in de laatste twintig jaar zijn er statistische technieken ontwikkeld, waaronder algoritmische modellen. In tegenstelling tot GLM gaan deze modellen niet uit van een lineair verband, maar beschouwen de datastructuur als onbekend. Zo zijn er modellen die gebruik maken van beslisbomen, zogenaamde tree-based models, zoals bagging models en gradient boosting models (GBM’s).

Een GBM is nauwkeuriger dan GLM in het schatten van claimfrequenties, volgensde Laet( 2013-2014). Naast GBM en GLM heeft hij ook de toepassing onderzocht van een enkele regressieboom en van bagging op het schatten van claimfrequenties aan de hand van een dataset van een Belgische verzekeraar. In dit onderzoek zijn claimgegevens van een andere Belgische dataset geanalyseerd en als replicatieonderzoek vande Laet(2013-2014) is de toepassing van tree-based modellen voor het schatten van claimfrequenties onderzocht. Net als in zijn onderzoek zijn ook in dit onderzoek vier verschillende modellen met elkaar vergeleken, namelijk een GLM, een enkele beslisboom, een baggingmodel en een GBM.

De modellen worden met elkaar vergeleken door de data op te delen in een trainingset en testset, waarna de modellen worden getraind op de trainingset en getest op de testset. Van de claimfrequenties wordt aangenomen dat deze Poissonverdeeld zijn, dus de modellen schatten een Poissonparameter voor elke polishouder. De kwaliteit van de fit wordt dan ook uitgedrukt in Poissondeviantie, waarbij een lage deviantie overeenkomt met een hoge likelihood en dus een betere fit. Gegeven de geschatte Poissonparameters is het mogelijk om simulaties te runnen en zo het aantal polishouders met nul claims, met ´e´en claim en met minstens twee claims te vergelijken met de geobserveerde aantallen.

In het volgende hoofdstuk is de theorie achter de vier modellen uiteengezet en is het gradient-boostingalgoritme bepaald voor deze specifieke situatie. Ook wordt er een beschrijving gegeven van tarificatie van schadeverzekeringen en statistische technieken in het algemeen. In de onderzoeksopzet wordt naast de opzet van dit onderzoek ook een analyse gemaakt van de gebruikte dataset. Dan is in de resultaten beschreven hoe elk van de modellen tot stand komt en zijn modellen met elkaar vergeleken. Ook komt aan bod hoe GB nuttig kan zijn voor tarificatie, waarna de conclusie volgt.

(8)

Theoretisch kader

Voordat verschillende modellen besproken kunnen worden, is het nodig om te weten hoe autover-zekeringen werken en waarom risicoclassificatie wordt toegepast. Daarom wordt in dit hoofdstuk de tarificatie besproken en daarna de toepassing van GLM hierop, zodat duidelijk wordt hoe claimfre-quenties worden geschat. Daarna wordt beschreven hoe modellen met elkaar worden vergeleken en hoe parameters geschat worden. In de secties daarna worden de tree-based modellen uiteengezet en volgt er een beschrijving van hoe de invloed van de verklarende variabelen wordt bepaald.

1.1 Tarificatie

Er zijn grofweg drie soorten dekking die een verzekeringsmaatschappij biedt voor autoschade. Ten eerste de wettelijke aansprakelijkheidsverzekering (WA), ten tweede de WA-verzekering met de uit-breiding beperkt casco en ten derde de WA-verzekering met volledig casco. In het eerste geval vergoedt de verzekeraar de schade die de verzekerde maakt aan een derde partij en in het tweede en derde geval vergoedt de verzekeraar naast schade aan een derde partij ook schade aan de verzekerde zelf. In het geval van schade dient de verzekerde een claim in bij de verzekeringsmaatschappij.

Voor het bepalen van een premie voor een verzekerde is het voor de verzekeraar van belang om de toekomstige verliezen van deze verzekerde in te schatten. Denuit et al. (2007) stellen dat de zuivere premie het product is van de claimfrequentie en het gemiddelde schadebedrag. Hier is de claimfrequen-tie gedefinieerd als het aantal claims per eenheid exposure, de tijd in autojaren waarin de verzekerde is blootgesteld aan risico. De toekomstige verliezen worden geschat aan de hand van a priori gegevens van de verzekerde.

De verwachte toekomstige verliezen zijn uiteraard niet voor elke bestuurder hetzelfde. Verzeke-ringsmaatschappijen rekenen voor een polishouder met hogere verwachte verliezen een hogere premie door gebruik te maken van risicoclassificatie. De reden hiervoor is de concurrentie tussen verzekerings-maatschappijen (Denuit et al.,2007). Als de ene verzekeraar namelijk risicoclassificatie toepast op een bepaalde variabele en de andere verzekeraar niet, dan kan er sprake zijn van adverse selectie.

Een polishouder ervaart het als oneerlijk als hij meer moet betalen dan een ander op basis van gegevens waar hij niets aan kan doen, zoals leeftijd en geslacht, maar die wel van grote invloed zijn op de verwachte verliezen. Een verzekerde betaalt geen hoge premie omdat hij een slechte bestuurder is, maar een slechte bestuurder lijkt. Een bonus-malussysteem is daarom een systeem dat is gebaseerd op straf en beloning door middel van korting of opslag van de premie. Zo zijn de kosten voor de polishouder afhankelijk van het aantal claims in het verleden, zodat dit voor hem eerlijker aanvoelt. Daarnaast is claimhistorie een sterke voorspeller voor toekomstige claimaantallen (Denuit et al.,2007). In dit onderzoek ligt de focus op de a priori premie. Hierbij is het van belang voor elke polishouder i met exposure di te bepalen wat de claimfrequentie, het verwacht aantal claims per autojaar, (λi/di) is. De technieken die hiervoor worden gebruikt, zijn GLM, een beslisboom, een baggingmodel en een GBM.

(9)

1.2 GLM

De GLM voor Poissonverdeelde claimaantallen

In de analyse van claimfrequenties wordt gezocht hoe het verwacht aantal claims (λi) van polishouder i zich gedraagt als verklarende variabelen xij vari¨eren. E´en manier is GLM, een veralgemening van lineaire regressie (Ohlsson & Johansson,2010).

Als hier de afhankelijke variabele het claimaantal Ni is met exposure di en verwachting λi, dan moet in tegenstelling tot lineaire regressie niet λi, maar een functie g(λi) lineair zijn in xi1 t/m xir. Deze functie g(·) is de linkfunctie, waarvan de uitkomst ηi ook wel ‘score’ wordt genoemd.

ηi = g(λi) = X

j

xijβj , i = 1, ..., n.

Deze linkfunctie moet inverteerbaar en differentieerbaar zijn, zodat voor elke score ηi een unieke waarde λi bestaat. Bekende linkfuncties zijn de identity link (g(µ) = µ) en de log link (g(µ) = log(µ)). Een additief model maakt gebruik van de identity link en een multiplicatief model maakt gebruik van de log link. Ook moet Ni een verdeling hebben die behoort tot de familie van exponential dispersion models (EDM’s). Voorbeelden van EDM’s zijn de normale verdeling, Poissonverdeling, compound Poissonverdeling en de gammaverdeling.

Volgens Denuit et al.(2007) en Ohlsson & Johansson (2010) zijn claimaantallen Poissonverdeeld, waarbij geldt dat Ni ∼ P oi(λi) met λi = diexp(ηi). Dus niet de claimfrequentie λi/di, maar de log hiervan is lineair in de verklarende variabelen en wordt geschat door de GLM. Ook nemen zij aan dat alle claimaantallen Ni onderling onafhankelijk zijn.

Deze aannamen leiden tot het volgende model. Stel dat polishouder i tijdens een exposure van di jaren in totaal Ni schadeclaims maakt. De gegevens van deze polishouder staan beschreven door r variabelen, met uitkomsten xi = 1 xi1 xi2 ... xir

0

. Dan is de schatter voor het verwacht aantal claims van deze polishouder gegeven door:

ˆ

λi= E(Ni|xi) = diexp(ˆηi)

= exp(log(di) + ˆηi) = exp(log(di) + f (xi).

Hierbij is log(di) een constante die per polishouder verschilt en als een offset in het model wordt verwerkt.

De GLM schat de log-claimfrequentie ηi aan de hand van een lineaire functie in de verklarende variabelen xij. Elke variabele j heeft een parameter βj, die de invloed van deze variabele schat op de claimfrequentie. f (x) = ˆηi = β0+ r X j=1 βjxij. Parameterschatting

Gegeven de uitkomsten van de claimfrequenties y1, ..., yn en gegevens x1, ..., xn van de n polishouders in totaal, worden de parameters β = β0 ... βr gevonden door middel van de loglikelihoodfunctie zoals hieronder weergeven (Denuit et al., 2007). Hierbij wordt de functie gemaximaliseerd naar β, waarbij λi een functie is van β, want λi = diexp(ηi) en ηi= β0+Prj=1βjxij.

(10)

L(λ) = n Y i=1 P (Ni = yi|xi) = n Y i=1 e−λiλ yi i yi! l(λ) = log n Y i=1 e−λiλ yi i yi! ! = n X i=1 (−λi+ yilog(λi) − log(yi!)) β = arg max β l(λ).

De maximumlikelihoodschatters β0, ..., βj worden gevonden door de afgeleiden van l naar β0, ..., βj op 0 te stellen (Denuit et al.,2007). Er moet dus gelden dat de gradi¨entvector U (β) van l(β) gelijk is aan de nulvector. De gradi¨entvector en de Hessiaanmatrix H(β) worden gegeven door:

U (β) = n X i=1 xi(yi− λi) H(β) = − n X i=1 xixi0λi.

Het nulpunt van U (β) wordt als volgt bepaald met Newton-Raphson: ˆ

β(k+1) = ˆβ(k)− H−1 ˆβ(k)U ˆβ(k).

Hierbij wordt elke iteratie ˆβ bijgewerkt en daarom ook ˆλi, want deze schatter voor het verwachte aantal claims is gegeven door:

ˆ

λ(k)_i = diexp

x0_iβˆ(k).

1.3 Selectie van modellen

Niet alleen voor de GLM, maar ook voor andere modellen geldt dat de loglikelihoodfunctie l(ˆλ) kan gebruikt worden als maat voor hoe nauwkeurig een model de uitkomsten y voorspeld heeft, want het is de log van de kans dat de uitkomsten y zich voordoen gegeven onafhankelijke Poissonverdeelde claimaantallen met parameters ˆλ. Een andere maat voor nauwkeurigheid is deviantie, wat een lineaire transformatie is van de loglikelihood. De maximale waarde van l(ˆλ) is de uitkomst als λi = yi voor alle polissen i. De deviantie van een model is het verschil tussen deze maximale loglikelihood en de eigen loglikelihood, vermenigvuldigd met 2 (Denuit et al., 2007). Hoe lager de deviantie, met 0 als minimum, des te beter is het model.

D(y, ˆλ) = 2(l(y) − l(ˆλ)) = 2 n X i=1 yilog yi ˆ λi − (y_i− ˆλi) .

In dit onderzoek is het doel modellen te vergelijken die de verwachte claimaantallen schatten en een goed model is een model dat nauwkeurige voorspellingen geeft van onbekende data. Daarom moet de beschikbare dataset worden opgedeeld in een trainingset en een testset (James et al.,2013). Door een model te fitten op de trainingset, is de testset onbekend. Het model kan vervolgens schattingen

(11)

maken van de claimfrequenties (λi/di) in de testset, zodat aan de hand van de geschatte frequenties en de geobserveerde aantallen de deviantie berekend wordt. Door dit voor elk van de modellen te doen, met dezelfde trainingset en testset, kan het model met de laagste deviantie gekozen worden als het beste model.

De tree-based modellen hangen af van bepaalde parameters. De optimale waarde van een parameter ρ kan worden gevonden door middel van een validatieset. Dan worden de observaties in de originele trainingset verdeeld in een validatieset en een trainingset (James et al., 2013). Voor verschillende waarden van ρ wordt het model nu getraind op de trainingset en getest op de validatieset. De optimale waarde voor ρ is de waarde waarvoor de deviantie op de validatieset het laagste is. In plaats van een validatieset kan ook een K-voudige kruisvalidatie worden gebruikt, waarbij de observaties worden verdeeld in K groepen. Een van de groepen wordt beschouwd als validatieset en de K − 1 overige groepen zijn samen de trainingset. Dit wordt K keer uitgevoerd, voor K verschillende validatiesets. Nu is de optimale ρ de waarde waarvoor het gemiddelde van K devianties het laagste is. De kruisvalidatie is weliswaar nauwkeuriger, maar het heeft een langere computatietijd dan de enkele, en meestal grotere, validatieset (James et al.,2013).

Voor de GLM geldt dat de keuze voor de variabelen bepalend is voor de kwaliteit van de fit. Hoe meer verklarende variabelen er zijn, des te hoger wordt de loglikelihood, want als er een variabele j wordt toegevoegd kan de bijbehorende schatter βj gelijk zijn aan 0, dus de loglikelihood blijft hetzelfde of stijgt. Als er teveel verklarende variabelen zijn, gaat het model de testdata waarschijnlijk overfitten. Dat wil zeggen dat het model te specifiek is en daarom een goede fit geeft op de trainingset, maar niet op de testset. Daarom moet de GLM zodanig gekozen worden, dat het de Akaike Information Criteria (AIC) minimaliseert. Hierbij wordt het gebruik van een hoog aantal variabelen afgestraft (Denuit et al.,2007).

AIC = −2l(ˆλ) + 2r.

Een andere manier om modellen met elkaar te vergelijken is om de geschatte Poissonparameters te gebruiken om de testset te simuleren. Dan wordt er voor elke observatie i een greep genomen uit een Poissonverdeling met parameter ˆλi. Het aantal nullen, enen en hogere getallen wordt vervolgens vergeleken met de geobserveerde aantallen van claims.

1.4 Beslisbomen en bagging

De beslisboom voor Poissonverdeelde claimaantallen

In tegenstelling tot lineaire modellen gaan beslisbomen niet uit van een lineaire relatie tussen de variabelen en de log van de claimfrequentie, maar verdelen deze technieken de uitkomstenruimte in regio’s. Het gemiddelde, of in dit geval de log van het gemiddelde, van de trainingobservaties in de regio is een schatter voor alle observaties die in deze regio vallen (Hastie, Tibshirani & Friedman, 2009). De splitsingen in de boom worden ook wel knopen genoemd, zodat na J splitsingen er M = J + 1 eindknopen zijn met elk een eigen waarde cm.

Een voorbeeld van een beslisboom is gegeven in figuur 1.1. In dit geval deelt de beslisboom de uitkomstenruimte op in vijf regio’s: R1 t/m R5. Een observatie met de variabelen x ∈ R2 valt dus in ´

e´en van de vijf regio’s, waardoor de schatting f (x) wordt gegeven door:

f (x) = 5 X

m=1

cmI{x ∈ Rm}.

Beslisbomen kunnen gebruikt worden voor classificatie of regressie. In dit geval is het doel het schatten van de log-frequenties, dus alleen regressiebomen zijn van toepassing.

De keuze voor de splitsingen in de boom komt als volgt tot stand (Hastie, Tibshirani & Friedman,

2009). Bij een splitsing op variabele j op plaats s wordt de regio in twee¨en verdeeld, namelijk: R1(j, s) = {x|xj ≤ s} , R2(j, s) = {x|xj > s}.

(12)

Figuur 1.1: Voorbeeld van een beslisboom en de regio’s (Hastie, Tibshirani & Friedman,2009)

De waarden voor j en s zijn zodanig gekozen, dat ze de goodness-of-fit maximaliseren. Net als bij GLM, kan ook hier voor de goodness-of-fit de loglikelihood of een dergelijke functie gebruikt worden die hoort bij een Poissonverdeling met onafhankelijke stochasten. De loglikelihoodfunctie voor geschatte frequenties ˆλ is:

l(ˆλ) = n X

i=1

(−ˆλi+ yilog(ˆλi) − log(yi!)) , met ˆλi= exp(log(di) + ˆηi).

GLM’s schatten ηi door uit te gaan van een lineaire relatie met de verklaringsvariabelen. Beslisbo-men echter, schatten ηi door splitsingen te maken in de verklaringsvariabelen en de uitkomstenruimte van ηi op te delen in regio’s, dus ˆηi= f (xi). De splitsingen zijn zodanig gekozen dat zij de lossfunctie L(·, ·) minimaliseren. Dat kan bijvoorbeeld de som van kwadraten zijn, maar het ligt meer voor de hand om de loglikelihoodfunctie, vermenigvuldigd met -1, te kiezen als lossfunctie. Na substitutie van ˆ

λi= exp(log(di) + f (xi)) en verwijdering van de constante termen is de lossfunctie als volgt:

L(y, f (x)) = n X

i=1

(exp[log(di) + f (xi)] − yif (xi)).

Een splitsing op R1 en R2 wordt dus gemaakt door de lossfunctie voor beide regio’s te minimaliseren voor j en s, dus er geldt:

min j,s  min c1 X xi∈R1(j,s) L(yi, c1) + min c2 X xi∈R2(j,s) L(yi, c2)  .

De schatter voor regio m is dan gegeven door:

cm = log P xi∈Rmyi P xi∈Rmdi ! .

Het algoritme is zodanig, dat een splitsing in een knoop altijd wordt gemaakt, tenzij het stopcri-terium is bereikt (James et al., 2013). Een stopcriterium voor een eindknoop is bijvoorbeeld dat de bijbehorende regio een lager aantal trainingobservaties heeft dan het minimaal gestelde aantal. In dat geval wordt de knoop niet gesplitst.

Het bepalen van de diepte

Het aantal splitsingen J in de beslisboom wordt de interactiediepte van de boom genoemd. Elke splitsing zal voor een daling zorgen in de lossfunctie, maar een te grote diepte zorgt voor overfitting.

(13)

Eén manier om overfitting tegen te gaan is de restrictie dat een splitsing zorgt voor een daling in de lossfunctie met minimaal α. Dat is niet efficiënt, omdat een zwakke splitsing gevolgd kan worden door een sterke. Een beter alternatief is pruning (Hastie, Tibshirani & Friedman,2009). Hierbij wordt een zeer grote boom geschat een daarna ‘gesnoeid’, door knopen te verwijderen waarvan de verlaging in de lossfunctie niet groot genoeg is. Bij pruning wordt bij de laatste splitsingen voor de eindknopen begonnen en één voor één worden er knopen verwijderd, zodat er uit de oorspronkelijke boom T0 met |T₀| eindknopen nu |T₀| deelbomen ontstaan. Voor alle α ≥ 0 is er een deelboom T_α van T0 te vinden die voldoet aan:

Tα = arg min T ⊂T0

{L(y, f_T(x)) + α|T |}.

De optimale α wordt gevonden door middel van K-voudige kruisvalidatie. Het Ke deel wordt dan gebruikt als een testset en bepaalt voor elke α de waarde van de lossfunctie. De waarde α die in totaal de laagste waarde voor de lossfunctie heeft, wordt dan gebruikt als parameter voor het prunen van een beslisboom op de hele trainingset.

Bagging

Beslisbomen hebben een hoge variantie, waardoor een kleine verandering in de data al tot heel andere splitsingen in de beslisboom leidt (Hastie, Tibshirani & Friedman,2009). Bagging is een manier om deze variantie te verkleinen door meerdere beslisbomen te maken en een gemiddelde van de uitkomsten te nemen.

Deze meerdere beslisbomen worden gemaakt aan de hand van bootstrapsteekproeven. Stel dat de trainingset gegeven is door Z = {(x1, y1), ..., (xn, yn)}. Een bootstrapsteekproef uit deze verzameling Z is een steekproef met teruglegging van grootte n en wordt aangeduid met Z∗t. Als er nu voor t = 1, ..., T een beslisboom f∗t(·) wordt gefit op de dataset Z∗t, dan is het baggingmodel als volgt:

f (x) = 1 T T X t=1 f∗t(x).

Als deze beslisbomen elk een zo grote diepte J hebben, dat ze de data overfitten, hebben de schatters een lage bias, maar een hoge variantie (James et al., 2013). Bagging kan deze variantie verkleinen, maar dat effect hangt af van de correlaties tussen de beslisbomen. Een methode om deze correlaties te verkleinen is random forest (James et al., 2013). Hierbij wordt bij elke split van elke beslisboom de lossfunctie geminimaliseerd voor een gegeven variabele j, maar niet alle variabelen worden overwogen: van de r beschikbare variabelen wordt er bij elke splitsing een steekproef van grootte p genomen. Uit deze p variabelen wordt er een gekozen om op te splitsen, zodat het model ook zwakkere voorspellers bevat.

1.5 Gradient boosting

Gradient boosting is net als bagging een methode om schattingen te maken door middel van meerdere beslisbomen. In tegenstelling tot bagging, worden er bij boosting geen steekproeven uit de trainingset genomen, maar worden beslisbomen sequentieel gegenereerd. Een GBM is dus een additief model, zodat in het geval van T iteraties van beslisbomen ft(·) geldt (Hastie, Tibshirani & Friedman,2009):

f (x) = T X

t=1 ft(x).

Hastie, Tibshirani & Friedman (2009) defini¨eren het algoritme Forward Stagewise Additive Mode-ling (zie algoritme 1) waarbij elke iteratie t een beslisboom zodanig wordt gefit, dat deze boom de lossfunctie minimaliseert. De beslisboom h(x, a) is een functie van verklarende variabelen x en de parameters at, waarbij at informatie bevat over de splitvariabelen, splitlocaties en de schatters van de regio’s. Sommige bronnen melden dat de functie h(x, at) vermenigvuldigd moet worden met een

(14)

constante βt, maar in het geval van beslisbomen wordt dit in de schatters van de regio’s al verwerkt. In algoritme 1 is de beginwaarde voor f (x) gelijk aan 0 en wordt elke iteratie h(x, at) bepaald en opgeteld bij ft−1(x).

Algorithm 1 Forward Stagewise Additive Modeling

1: Initialiseer f0(x) = 0 2: for t = 1 to T do

3: Vind de parameters at van beslisboom h(x, at) door minimalisatie van:

at= arg min a n X i=1 L(yi, ft−1(xi) + h(xi, a)) 4: Werk het resultaat bij: ft(x) = ft−1(x) + h(x, at)

5: end for

6: Het eindresultaat is: ˆf (x) = fT(x)

Voor stap 3 in dit algoritme wordt steepest descent toegepast (Friedman,2001). Hier ‘loopt’ f (x) in de richting van de negatieve gradi¨ent van de lossfunctie, dus de iteraties zijn in de vorm:

   ft(x1) .. . ft(xn)   =    ft−1(x1) .. . ft−1(xn)   − ρt gt.

voor gradi¨ent gt en positieve constante ρt.

Deze methode heet gradient boosting en is hierna verder uitgewerkt voor het specifieke geval van Poissonverdeelde claimfrequenties (zie algoritme 2). Gegeven dat de lossfunctie gelijk is aan L(yi, f (xi)) = diexp(f (xi)) − yif (xi), wordt de gradi¨ent berekend als volgt:

gt= ∂L(yi, f (xi)) ∂f (xi) f (x)=ft−1(x) git= diexp(ft−1(xi)) − yi , voor i = 1, ..., n.

De waarde diexp(ft−1(xi)) is een schatting voor het verwachte claimaantal λi voor polishouder i, voor wie yi het geobserveerde claimaantal is. Daarom is git het residu van het model voor polishouder i in iteratie t. In de testset wordt yi echter niet bekend verondersteld, dus kunnen de residuen niet berekend worden. Daarom worden in dit model de negatieve residuen nagebootst met een beslisboom h(xi, at). De parameters at worden gevonden door de boom te fitten op de waarden −git, waarbij de kwadratensom (RSS) de lossfunctie is:

at= arg min a n X i=1 (−git− h(xi, a))2.

Als deze beslisboom M eindknopen heeft, dan levert dit de regio’s R1 t/m RM op. De schattings-waarden cm voor regio’s Rm worden dan zodanig bepaald, dat ze de lossfunctie minimaliseren. De constante ρt in het model vanFriedman(2001) kan dus worden weggelaten.

cm,t = arg min c X xi∈Rm,t L(yi, ft−1(x) + c) = arg min c X xi∈Rm,t (diexp[ft−1(xi) + c] − yi[ft−1(xi) + c]).

Oplossen van c uit de afgeleideP

(15)

cm,t= log P xi∈Rm,tyi P xi∈Rm,tdiexp(ft−1(xi)) ! . Ten slotte wordt zo de nieuwe waarde voor ft(x) berekend:

ft(x) = ft−1(x) + M X

m=1

cm,t I(x ∈ Rm,t).

Hierbij is de beginwaarde f0(x) is een constante die de lossfunctie minimaliseert (Hastie, Tibshirani

& Friedman,2009), zodat f0(x) = log Pn

i=1yi

Pn

i=1di

. Het is de schatter voor de regio van een beslisboom, waarbij de boom maar ´e´en knoop heeft en de regio alle observaties uit de trainingset bevat.

Guelman(2012) voegt twee parameters toe aan het model zoals hiervoor beschreven, namelijk met betrekking tot het voorkomen van overfitting en het verkleinen van de variantie van het model. Ten eerste stelt hij dat de fit verbetert als een krimpparameter (shrinkage parameter ) 0 < τ < 0, 1 wordt toegevoegd, die het model langzamer laat ‘leren’. Lijn 6 in algoritme 2wordt dan:

ft(x) = ft−1(x) + τ M X

m=1

cm,tI(x ∈ Rm,t).

Ten tweede is het mogelijk om de beslisbomen voor het schatten van de residuen te decorreleren door niet de hele trainingset hiervoor te gebruiken, maar een deel ervan.Guelman(2012) kiest elke iteratie een deel van de trainingset door een steekproef zonder teruglegging te nemen uit de trainingset van 50 procent van de totale grootte. Een bijkomend voordeel is dat er minder berekeningen nodig zijn, wat zorgt voor een kortere computatietijd. Het algoritme van gradient boosting is dan als in algoritme2. Algorithm 2 Gradient Boosting voor Poissonverdeelde claimfrequenties

1: Initialiseer f0(x) = log Pn i=1yi Pn i=1di 2: for t = 1 to T do

3: Vind de gradi¨ent vector, waarbij de elementen de residuen zijn: git= diexp(ft−1(xi)) − yi , voor i = 1, ..., n. 4: Vind de parameters at van beslisboom h(xi, at) zodanig, dat:

at= arg min a n X i=1 (−git− h(xi, a))2. 5: Vind cm,t voor alle regio’s R1, ..., RM door middel van:

cm,t= log P xi∈Rm,tyi P xi∈Rm,tdiexp(ft−1(xi)) ! .

6: Werk het resultaat bij:

ft(x) = ft−1(x) + τ M X m=1 cm,tI(x ∈ Rm,t). 7: end for 8: Het eindresultaat is f (x) = fT(x).

Zo blijkt dat GBM een additief model is dat gegeven is door f (x) =PT

t=1ft(x). Voor een goede fit op de testset moeten twee parameters worden bepaald, namelijk de interactiediepte J van elke boom en het aantal iteraties T . In tegenstelling tot bagging is J lager en T hoger, zodat de som van vele zwakke schatters leidt tot een sterke voorspeller.

(16)

1.6 Analyse van de verklarende variabelen

In een GLM is de invloed van elk van de verklarende variabelen op de claimfrequentie direct interpre-teerbaar door middel van de schattingen voor βj voor alle variabelen j.

λi di

= exp(β0+ β1xi1+ β2xi2+ ... + βrxir).

Als voor een polishouder i alle variabelen gelijk zijn aan 0, dan is de claimfrequentie voor i gelijk aan exp(β0). Is nu bijvoorbeeld xi2gelijk aan 1, dan wordt de claimfrequentie met een factor exp(β2) verhoogd. De p-waarde van de βj’s geven aan hoe significant de schatter verschilt van 0.

In het geval van tree-based modellen is de invloed van een variabele op de claimfrequentie niet direct af te lezen. Daarom zijn er twee methoden om toch inzicht te krijgen in de verklarende variabelen, namelijk de variable importance plot en de partial dependence plot (James et al.,2013).

De variable importance plot berekent voor elke variabele hoeveel invloed deze heeft in het fitten van de bomen. Elke knoop zorgt voor een daling in de lossfunctie, dus als de knoop een splitsing is op variabele j, dan is de daling in de lossfunctie tekenend voor hoe belangrijk de waarde van xij is voor de uitkomst. Zo wordt voor elke variabele de totale daling in de lossfunctie berekend, over alle bomen samen. De waarden voor daling in de lossfunctie zijn alleen van betekenis in vergelijking met elkaar, dus elke waarde van variable importance wordt gedeeld door de hoogste waarde van variable importance. Op deze manier worden de hoogten weergeven in percentages, waarbij de hoogste 100% is.

De partial dependence plot van een variabele j laat het verloop zien van het marginale effect van j op de claimfrequentie. Dit wordt berekend door alle variabelen behalve j te beschouwen als onbekend voor alle observaties, nu aangeduid met xi(j) (Friedman, 2001). Omdat voor deze observatie alleen de waarde voor variabele j bekend is, gaat het pad door de boom ft(x) naar links of rechts bij een splitsing op j en gaat het beide kanten op in het geval van een splitsing op een andere variabele. Zo eindigt het pad dat de observatie xi(j) maakt door ft(x) niet meer in ´e´en regio, maar in meerdere regio’s met elk een bepaald gewicht, zodat alle gewichten optellen tot 1.

Aan alle interne knopen en eindknopen waar het pad langs komt, wordt namelijk een gewicht toegekend, waarbij de beginknoop de waarde 1 heeft. In het geval van een splitsing op j, is het gewicht van de volgende knoop hetzelfde, maar in het geval van een splitsing op een andere variabelen wordt het gewicht in de linkerknoop vermenigvuldigd met p en het gewicht in de rechterknoop met 1 − p, waarbij p gelijk is aan het percentage van de trainingobervaties dat linksaf ging tijdens het trainen. Als deze berekening voor alle bomen wordt gedaan, dan is het gemiddelde hiervan een schatting voor de partial dependence van de claimfrequentie op variabele j op de waarde j = xij. Door dit voor alle trainingobervaties i te doen, is een curve van exp(f (x)) naar j het resultaat.

(17)

Onderzoeksopzet

Voorbereiding van het onderzoek

In het vorige hoofdstuk zijn vier typen modellen beschreven die allen de log-claimfrequentie ηischatten aan de hand van verklarende variabelen xi1, ..., xir. Het doel van dit onderzoek is het vergelijken van deze modellen, opdat bepaald kan worden in hoeverre tree-based modellen als bagging en GBM kunnen worden toegepast in a priori tarificatie met betrekking tot claimaantallen. In dit hoofdstuk wordt beschreven hoe het onderzoek wordt uitgevoerd en er wordt een analyse gemaakt van de dataset.

De vier typen modellen zijn: 1. GLM;

2. Enkele beslisboom; 3. Baggingmodel; 4. GBM.

Voor de GLM moet bepaald worden welke variabelen in het model worden opgenomen om de AIC van het model te minimaliseren. In de andere modellen moet de diepte J van de beslisbomen worden bepaald en in het geval van bagging en boosting ook het aantal iteraties T .

Om de modellen te kunnen vergelijken, is de gehele dataset onderverdeeld in een trainingset en een testset, waarbij de trainingset 70 procent van alle waarnemingen bevat en de testset de overige 30 procent, net als Guelman(2012) doet. Elk van de modellen wordt gefit op de gehele trainingset, waarna er een schatting ˆλ wordt gemaakt voor de claimaantallen in de testset. De devianties aan de hand van deze schattingen worden vervolgens met elkaar vergeleken.

D(y, ˆλ) = 2 n X i=1 yilog yi ˆ λi − (y_i− ˆλi) .

Ook wordt bij elk van de modellen een inschatting gemaakt van de invloed van de verklarende variabelen. Bij GLM is het direct te zien aan de waarden van de β’s en de bijbehorende p-waarden. Voor de tree-based modellen worden er variable importance plots gemaakt en voor de GBM ook partial dependence plots.

Analyse van de dataset

De beschikbare data bestaat uit ongeveer 163.000 observaties van een Belgische WA-verzekering over het hele jaar 1997 met een totale exposure van ongeveer 145.000 jaar. Deze dataset wordt ook gebruikt door Denuit & Lang (2004) en zij gebruiken bijna dezelfde tien variabelen, want waar zij het district waar de polishouder woont opnemen in het model, is in deze modellen de populatiegrootte van de woonplaats opgenomen.

De verdeling van het aantal claims en de verdeling van de exposures staan in figuur 2.1. Hieruit blijkt dat polissen met 0 claims veruit in de meerderheid zijn en dat polissen met meer dan ´e´en claim weinig voorkomen.

(18)

(0,50] (100,150] (200,250] (300,350] Exposure in dagen Aantal polissen 0 20000 60000 100000 0 1 2 3 4 5 Aantal claims Aantal polissen 0 5000 10000 15000

Figuur 2.1: De exposure en de het aantal claims van polishouders in 1997

Polishouder Voertuig Polis

GSL: Geslacht BSTF: Type brandstof BM: Bonus-malustrede

LFT: Leeftijd GEBR: Type gebruik DEK: Type dekking

POPUL: Populatie woonplaats OUD: Ouderdom

VMG: Vermogen in kW

WAG: Behoort tot een wagenpark Tabel 2.1: Variabelen in de dataset

De beschikbare variabelen staan gegeven in tabel 2.1. Het zijn gegevens over de verzekerde zelf, over de polis en over het voertuig. Van de polishouder zelf wordt de leeftijd, het geslacht en de populatiegrootte van de woonplaats in het model opgenomen, waarbij de leeftijd varieert tussen 17 en 95 jaar en de populatie tussen de 1000 inwoners (Mesen) en 456.000 inwoners (Antwerpen). Van de polisgegevens is de bonus-malustrede van de verzekerde bekend, net als de type dekking. De laagste trede is 0 en de hoogste die voorkomt in de data is 22. Een hogere trede komt overeen met een slechtere claimhistorie. Van de typen dekking zijn er de vormen WA, WA met beperkt casco en WA met volledig casco, aangeduid met respectievelijk 1,2 en 3. Van de voertuigen is er gegeven wat het type brandstof is, namelijk benzine of diesel, de ouderdom in jaren en het vermogen in kilowatt. Ook is er gegeven of het voertuig behoort tot een wagenpark en of het wordt gebruikt voor zakelijke doeleinden.

In figuur 2.2staan de vijf dummyvariabelen geplot tegen de geobserveerde claimfrequentie. Hieruit blijkt onder andere dat er gemiddeld weinig verschil is in claimfrequenties tussen voertuigen die priv´e of zakelijk gebruikt worden en dat polishouders zonder cascodekking gemiddeld een hogere claimfre-quentie hebben. In figuur2.3is hetzelfde gedaan voor de vijf overige variabelen. Hier is te zien dat de jongere verzekerden een gemiddeld hogere claimfrequentie hebben dan oudere. Het is moeilijk te zien hoe het vermogen van het voertuig correleert met de claimfrequentie, omdat er extreem hoge claimfre-quenties tussen zitten en er maar weinig voertuigen zijn met een vermogen van meer dan 150 kW (0,19 procent van totale exposure). Ook is het goed te zien dat polishouders in een hogere bonus-malustrede gemiddeld een hogere claimfrequentie hebben.

Voor de GLM-regressie moeten de variabelen van figuur2.3opgedeeld worden in klassen (Denuit et al., 2007). De gegevens zijn weliswaar allemaal gehele getallen en daardoor al ‘klassen’, maar voor GLM is het van belang dat er niet te veel variabelen zijn. Als een variabele wordt opgedeeld in k klassen, dan worden deze klassen in de regressie opgenomen als k − 1 dummyvariabelen met 1 controlegroep. Een dummy is dan in de vorm:

xij = (

1 Als polishouder i in deze klasse is 0 Elders

(19)

(20)

0 10 20 30 40 0.00 0.05 0.10 0.15 0.20 Ouderdom voertuig middle[index] Claimfrequentie Exposure 0 6000 50 100 150 200 250 0 1 2 3 4 5 Vermogen middle[index] Claimfrequentie Exposure 0 6000 20 40 60 80 0.0 0.2 0.4 0.6 0.8 1.0 Leeftijd polishouder middle[index] Claimfrequentie Exposure 0 1500 3500

0e+00 1e+05 2e+05 3e+05 4e+05

0.0

0.1

0.2

0.3

Populatie van de woonplaats

middle[index] Claimfrequentie Exposure 0 2000 0 5 10 15 20 0.10 0.15 0.20 0.25 0.30 0.35 Bonus−malustrede middle[index] Claimfrequentie Exposure 0 30000

(21)

Resultaten

De vier eerder genoemde modellen zijn getraind op de trainingset en daarna getest op de testset. Voor elk model moeten parameters geschat worden, zoals de interactiediepte van de beslisbomen. Daarom zijn voor elk van de vier modellen beschreven hoe deze tot stand is gekomen en daarna zijn de schattingen van de testdata met elkaar vergeleken door devianties uit te rekenen en simulaties te runnen. Ook komt in dit hoofdstuk aan de orde hoe GBM’s kunnen worden gebruikt in a priori tarificatie.

3.1 GLM

Een GLM kan worden gefit door de functie glm te gebruiken, zoals hieronder beschreven. Het eerste model is het intercept-onlymodel. Hierbij is alleen de exposure als een offset in de formule verwerkt en wordt voor elke polishouder de verwachte claimfrequentie geschat op 0,1395 per jaar.

fit0 <- glm(NCLAIMS ~ offset(log(EXPO)), data = training_set, family = poisson) In de GLM’s die volgen, worden de tien beschikbare variabelen aan dit model toegevoegd en worden er kruistermen gemaakt. Hierbij geldt: hoe lager de AIC, des te beter is de fit. Ten slotte worden er variabelen uit het model gehaald of samengevoegd, om de AIC nog verder te verlagen. In tabel 3.1 staan alle modellen beschreven die zijn gemaakt om tot het eindmodel te komen.

Toevoegen aan variabelen aan het intercept-onlymodel

Model 1 voegt de vijf dummyvariabelen toe aan model 0, namelijk BSTF, DEK, WAG, GEBR en GSL, die elk twee of drie verschillende niveaus hebben. Dit is een verbetering, want de AIC van model 1 is lager dan dat van model 0. Nu zullen één voor één de vijf overige variabelen aan dit model worden toegevoegd, wat leidt tot de modellen 2 t/m 6 (tabel3.1).

Voor de variabelen LFT, OUD, BM, POPUL en VMG zijn er verschillende mogelijkheden. Een variabele kan namelijk lineair in het model voorkomen, maar een functie van die variabele kan wellicht een betere fit opleveren. Ook kan de variabele worden opgedeeld in klassen, waardoor elke klasse een dummyvariabele wordt. Bij het opdelen in klassen worden de grenzen bepaald aan de hand van modellen waar de variabele als een factor voorkomt. Hierbij wordt er een parameter wordt geschat voor elke waarde die er voorkomt.

Zo is er voor de variabele LFT voor elke leeftijd van 17 tot 95 jaar een parameter geschat, zoals te zien is in figuur 3.1. Aan de hand hiervan zijn leeftijdsklassen gemaakt met de grenzen bij 17, 25, 32, 44, 57, 77 en 95. De meeste exposure bevindt zich in klasse (32, 44], zodat er met deze klasse als referentieklasse vijf dummyvariabelen zijn voor leeftijd in model 2. Dit geeft een betere fit dan het lineair of kwadratisch opnemen van LFT in het model. Eenzelfde aanpak is gebruikt voor de variabelen OUD, BM, POPUL en VMG, die ook in figuur3.1te zien zijn. Hierbij is ook de log-populatie afgebeeld, omdat deze een beter beeld geeft van het verband met claimfrequentie dan de populatie (POPUL) zelf.

(22)

Modelnummer Beschrijving van het model AIC

0 Alleen de offset voor exposure 89538

1 Toevoeging van dummyvariabelen voor typen brandstof, dekking, etc. 89350

2 Toevoeging van leeftijd van de polishouder, ingedeeld in klassen 88536

3 Toevoeging van de ouderdom van het voertuig, ingedeeld in klassen 88478

4 Toevoeging van de bonus-malustrede, met elke trede een eigen schatter 87600

5 Toevoeging van log-populatie, (log-populatie)ˆ2 en (log-populatie)ˆ3 87430

6 Toevoeging van log-vermogen 87360

7 Toevoeging van de kruistermen van geslacht met leeftijd 87332

8 Weghalen van de kruisterm LFT44-57vrouw 87330

9 Samenvoegen van bonus-malustreden 20 en 21 87328

10 Weghalen van de variabele LFT44-57, zodat nu de referentieleeftijd 32-57 is 87328

11 Samenvoegen van beperkte cascodekking en volledige cascodekking 87326

12 Verdere groepering van bonus-malustreden 87316

Tabel 3.1: Alle GLM’s met bijbehorende AIC

Interactietermen en samenvoegingen

Het is mogelijk dat er interacties voorkomen tussen deze tien variabelen. Zo stellenDenuit et al.(2007) dat het effect van leeftijd voor mannen anders is dan voor vrouwen. Daarom zijn in deze GLM de kruistermen LFT * GSL opgenomen, waarbij de referentiegroep bestaat uit mannen tussen de 32 en 44. Er komen in model 7 dus vijf dummyvariabelen bij.

De GLM kan worden verbeterd door variabelen samen te voegen. De interactieterm LFT44_57vrouw heeft een hoge p-waarde, dus de schatter hiervoor is niet significant verschillend van 0. Het weghalen van deze term betekent dat de claimfrequentie voor mannen en voor vrouwen in deze leeftijdsgroep in dezelfde mate hoger of lager is vergeleken met de referentieleeftijd .

Voor het samevoegen van variabelen kan de functie contrast gebruikt worden, die test of het verschil tussen twee schatters ongelijk is aan 0. Een lage p-waarde geeft dan aan dat dit verschil significant is en dat het model waarschijnlijk niet beter wordt als de variabelen worden samengevoegd. Dit kan gebruikt worden bij de bonus-malustreden, waar trede 21 als enige geen significante schatter heeft. Deze wordt samengevoegd met trede 20 (p = 0, 592), omdat dat een betere AIC oplevert dan een samenvoeging met trede 22 (p = 0, 219). Hierna wordt de variabele LFT44_57 uit het model weggehaald, zodat de referentieleeftijd nu (32, 57] is. Ook de variabelen voor cascodekking kunnen worden samen gevoegd, zodat de nieuwe variabele CASCO 0 is bij alleen WA-dekking en 1 elders. Ten slotte worden er bonus-malustreden samengevoegd, zodat het eindmodel er als volgt uitziet:

Variabele Niveaus

Brandstof Diesel = 1, benzine = 0

Casco WA met beperkt of volledig casco = 1, WA = 0

Wagenpark Voertuig behoort tot een wagenpark = 1, anders = 0 Gebruik voertuig Zakelijk = 1, Priv´e = 0

Leeftijd voor mannen [17, 25], (25, 32], (32, 57], (57, 77], (77, 95] Leeftijd voor vrouwen [17, 25], (25, 32], (32, 57], (57, 77], (77, 95] Ouderdom voertuig [0, 1], (1, 3], (3, 14], (14, 24], (24, 48]

Bonus-malustrede 0, [1, 2], 3, [4, 5], [6, 7], [8, 9], 10, [11, 15], [16, 17], [18, 22] Populatie woonplaats Log-populatie als derdemachtspolynoom

Vermogen voertuig Log-vermogen als lineaire functie Tabel 3.2: Variabelen in het eindmodel

Voor het testen is het van belang om dezelfde klassen aan te brengen in de testset als in de trainingset. De output van deze laatste GLM staat in Appendix A beschreven en daarin is te zien wat

(23)

20 30 40 50 60 70 80 9.6 9.8 10.2 10.6 11.0 Leeftijd Leeftijd polishouder Coefficient 0 5 10 15 20 25 −1.5 −1.0 −0.5 0.0 Ouderdom Ouderdom voertuig Coefficient 0 5 10 15 20 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 Bonus−malustrede Bonus−malustrede Coefficient

0e+00 1e+05 2e+05 3e+05 4e+05

10.6

11.0

11.4

11.8

Grootte van de populatie

Populatie woonplaats van de polishouder

Coefficient

8 9 10 11 12 13

10.0

10.5

11.0

Log van de populatiegrootte

Log−populatie woonplaats van de polishouder

Coefficient 50 100 150 200 −1.0 −0.5 0.0 0.5 1.0 Vermogen Vermogen voertuig in kW Coefficient

Figuur 3.1: Variabelen als factor opgenomen in het model

de marginale invloed is van elk van de variabelen op de claimfrequentie en hoe significant het verschilt van 0.

3.2 Enkele boom

Er zijn twee verschillende functies die een beslisboom kunnen genereren, namelijk rpart en gbm. Voor beide functies is de optimale diepte gekozen door middel van kruisvalidatie. Vervolgens zijn beide methoden met elkaar vergeleken en is een van de twee beoordeeld als beste model. Dit model is gebruikt voor het schatten van de testdata.

De boom van de functie rpart

De functie rpart maakt een zeer grote beslisboom als de variabele minsplit klein genoeg is, zoals 500. Het algoritme is namelijk zodanig, dat een knoop alleen wordt gesplitst als deze minstens minsplit aantal observaties bevat. Andere belangrijke parameters zijn maxdepth en cp. De maximaal mogelijke diepte maxdepth is de maximale afstand tot de beginknoop en staat automatisch al ingesteld op 30, omdat de meeste computers geen betrouwbare resultaten geven voor grotere diepten. De complexity parameter cp is een mate voor de minimale verlaging van de lossfunctie waar een split aan moet voldoen. Deze wordt gelijkgesteld aan 0, zodat een split vrijwel altijd wordt gemaakt als de knoop minstens minsplit observaties bevat.

Alle beschikbare variabelen worden overwogen in de splitsingen, maar niet allen worden met ze-kerheid werkelijk gebruikt in het model. De log-populatie komt in het model voor in plaats van de populatie zelf, omdat het beter zichtbaar is in de plot. De afhankelijke variabele in de formule is EXPO_NCLAIM en dat is een matrix met twee kolommen: in de eerste kolom staan de exposures en in de tweede kolom staan de geobserveerde claimaantallen. Deze functie gebruikt zo de eerste kolom als offset als method gelijk is aan "poisson". De bijbehorende code wordt:

tree <- rpart(EXPO_NCLAIM ~ BM + BSTF + DEK + WAG + GSL + GEBR + LFT + OUD + VMG + logPOPUL

(24)

,dat = training_set , method = "poisson",

control = rpart.control(cp = 0,

minsplit = 500))

Hier berekent rpart niet alleen deze boom, maar maakt een reeks van bomen als een functie van cp, analoog aan de parameter α in hoofstuk 2. Hierbij wordt een tienvoudige kruisvalidatie uitgevoerd, zodat er voor elke diepte i naast de cp ook een gemiddelde ( ¯i) en een standaarddeviatie (σi) van de voorspellingsfout opgeslagen wordt. In het selecteren van een model gaat de voorkeur uit naar lage gemiddelde voorspellingsfout met een lage standaarddeviantie. Daarom is het model gekozen waarbij

¯

i+ σi minimaal is.

Figuur 3.2: Tienvoudige kruisvalidatie voor het bepalen van de optimale diepte

De resultaten van de kruisvalidatie zijn weergegeven in figuur 3.2. Het valt op dat voor grote bomen een extra splitsing tot slechtere resultaten leidt vanwege het overfitten van de data. Er lijkt niet veel verschil te zijn in de standaarddeviatie van de fouten, maar uit de gegevens blijkt dat de standaarddeviatie minimaal is bij zeven splitsingen en hoger wordt naarmate de boom meer splitsingen heeft.

Het beste model is een boom met 21 splitsingen, wat leidt tot de boom weergegeven in figuur3.3. De uitkomstenruimte is zo ingedeeld in 22 groepen met elk een eigen verwachte claimfrequentie. Als dezelfde code nog een keer wordt gerund, volgt er een heel andere boom als ‘beste model’, vanwege de willekeurigheid in de kruisvalidatie. Dit doet vermoeden dat een model met meerdere beslisbomen een betrouwbaardere schatting kan geven.

Vergelijking met de boom van functie gbm

De andere functie die een beslisboom kan maken is gbm, waarvan de code hieronder staat. Dit is namelijk de functie die een gradient-boostingalgoritme uitvoert, maar met ´e´en iteratie komt dit neer op een enkele beslisboom. Het is daarbij belangrijk om de parameters shrinkage en bag.fraction gelijk te stellen aan 1, zodat er geen sprake is van krimping en zodat alle relevante observaties worden gebruikt. De exposure kan in tegenstelling tot rpart als een offset aan de formule worden toegevoegd.

(25)

Figuur 3.3: De optimale beslisboom heeft 21 splitsingen

fit_gbm <- gbm(NCLAIMS ~ offset(log(EXPO)) + BM + BSTF + DEK + WAG + GSL + GEBR + LFT + OUD + VMG + POPUL ,data = training_set , distribution = "poisson", interaction.depth = depth, n.trees = 1, shrinkage = 1, bag.fraction = 1)

Net als bij rpart kan de optimale diepte gevonden worden door middel van een kruisvalidatie. Een tienvoudige kruisvalidatie is uitgevoerd, waarbij voor elke diepte de deviantie op de tiende groep wordt uitgerekend. De bomen met 15 splitsingen hebben de laagste gemiddelde deviantie, dus waarschijnlijk is dat de beste diepte. Daarom is er een boom met vijftien splitsingen gefit op de hele trainingset. Het is helaas niet mogelijk om deze boom te plotten.

De twee modellen hebben dezelfde variabelen tot de beschikking, maar toch zijn er grote verschillen in de variable importance plot (figuur3.4). Voor beide modellen is BM een scherke schatter en zijn GEBR en WAG waarschijnlijk niet gebruikt in een van de splits. De variabele LFT heeft echter voor de boom van rpart relatief voor een grotere daling van de lossfunctie gezorgd dan voor de boom van gbm.

E´en van de twee modellen wordt gebruikt voor de testset. Daarom is er nog een tienvoudige kruisvalidatie uitgevoerd op de trainingset, waarbij op elke set beide functies worden gebruikt om een model te schatten en een deviantie uit te rekenen. Hieruit blijkt dat de modellen die met rpart gemaakt zijn gemiddeld een lagere deviantie geven dan de modellen van gbm, want de gemiddelde devianties zijn respectievelijk 6137,58 en 6139,30. Het beste model voor een enkele boom is dus de boom als op figuur3.3.

(26)

Figuur 3.4: De variable importance plot van beide modellen

3.3 Bagging

Bagging maakt gebruik van meerdere beslisbomen door bootstrapsteekproeven te nemen en van elke steekproef een boom te maken. Omdat een gemiddelde van schatters wordt genomen, is het niet mogelijk om te overfitten. Dus de diepte van de bomen moeten worden bepaald en het aantal iteraties moet ‘hoog genoeg’ zijn, want er is geen optimaal aantal iteraties.

Implementatie en de keuze voor de interactiediepte

Er bestaat helaas geen functie in R die een baggingmodel maakt voor Poissonverdeelde claimaantallen. Voor de implementatie kan echter wel de code gebruikt worden voor het genereren van een enkele boom. Dan wordt T keer een bootstrapsteekproef genomen en elke keer een boom gefit op deze steekproef, waarna deze boom een schatting maakt voor de testset met predict. Vanwege de expliciete keuze voor diepte is de functie gbm meer geschikt dan rpart om de boom te genereren, dus deze wordt elke iteratie aangeroepen. De uiteindelijke schattingen voor de claimfrequenties zijn de gemiddelden van de T schattingen. De code staat beschreven in Appendix B.

0 10 20 30 40 50

18500

18550

18600

18650

Resultaten voor een baggingmodel bij verschillende diepten

Diepte van de boom

De

viantie

Figuur 3.5: De optimale diepte wordt gevonden aan de hand van de validatieset

De diepte is voor elke boom hetzelfde en wordt bepaald aan de hand van een validatieset, omdat een kruisvalidatie zeer lang duurt. De originele trainingset wordt opgedeeld in een kleinere trainingset en een validatieset die respectievelijk 70 procent en 30 procent van de waarnemingen uit de originele trainingset bevatten. De bomen die door gbm worden gemaakt, kunnen maximaal een diepte van 49 hebben. Voor de mogelijke diepten 1 t/m 49 zijn er 50 iteraties gerund om te zien welke diepte de

(27)

Figuur 3.6: Na 100 iteraties neemt de deviantie waarschijnlijk niet veel verder af

laagste deviantie geeft op de validatieset. De resultaten hiervan zijn te zien in figuur3.5. Het is duidelijk dat de bomen zo groot mogelijk gegenereerd moeten worden, om een lage deviantie te krijgen.

Hoe meer iteraties, hoe beter de fit. In figuur3.6is te zien dat een hoog aantal iteraties inderdaad niet nadelig is voor de fit op de validatieset en dat 100 iteraties voldoende is, want de deviantie wordt bij hogere aantallen iteraties waarschijnlijk niet veel lager. Voor de testset is daarom een baggingmodel getraind op de gehele trainingset met 100 iteraties, waarbij elke boom een diepte van 49 heeft.

Resultaten van het baggingmodel

Figuur 3.7: Relatieve invloed van elk van de variabelen op het model

Uit figuur 3.7 blijkt dat de bonus-malustrede van grote invloed is op de schattingen voor de claimfrequenties. Ook de populatiegrootte van de plaats waar de polishouder woont en de leeftijd zijn van grote invloed. Dit is een groot verschil met de variable importance plot van de enkele boom zoals

(28)

hiervoor besproken, waar POPUL voor maar een kleine daling in lossfunctie verantwoordelijk is. Door de grote diepte van de bomen in het baggingmodel worden er blijkbaar ook belangrijke splits gemaakt op andere variabelen dan BM en LFT.

Zoals in hoofdstuk 2 beschreven staat, is bagging een speciaal geval van random forest. Vanwege de randomisatie in elke knoop lijken de bomen minder op elkaar en verbetert dit de schatters voor de claimfrequenties. Het is helaas niet mogelijk om de functie randomForest te gebruiken, want deze kan geen bomen schatten met Poissondeviantie als lossfunctie.

3.4 Gradient boosting

In het geval van gradient boosting wordt elke iteratie een beslisboom gegenereerd, die de residuen van het model tot dan toe schat aan de hand van de tien variabelen. In tegenstelling tot bagging, is het bij boosting wel mogelijk om de testdata te overfitten.

Zowel de diepte van elke boom als het aantal iteraties moeten worden bepaald. Hierbij is voor elke diepte het aantal iteraties bepaald dat de deviantie op de validatieset minimaliseert. Dan is de diepte met de laagste validatiefout de beste keuze. Deze diepte met bijbehorend aantal iteraties zijn dan de parameters voor het eindmodel die op de gehele trainingset wordt gefit.

Implementatie

De functie gbm maakt automatisch een validatieset en een trainingset van de originele trainingset, door middel van de parameter train.fraction. Als deze parameter gelijk is aan 0,70, worden 70 procent van de rijen in de originele trainingset gebruikt als de trainingset voor het fitten en de overige 30 procent wordt gebruikt als validatieset.

Andere argumenten die een rol spelen zijn bag.fraction en shrinkage. In hoofdstuk 2 staat beschreven dat de fit verbetert door niet elke iteratie de hele trainingset te gebruiken, maar 50 procent daarvan, zodat de bomen minder correleren, dus ook hier is bag.fraction gelijk aan 0,5. Ook is de krimpparameter shrinkage gelijkgesteld aan 0,01, omdat in hoofdstuk 2 staat dat deze zo klein mogelijk moet worden gekozen. Een lagere krimpparameter zorgt er echter voor dat de computatietijd hoger wordt. # parameters depth <- 1 max_iter <- 2000 shrink <- 0.01 bag_frac <- 0.5 train_frac <- 0.7 # gbm fit

fit <- gbm(NCLAIMS ~ offset(log(EXPO)) + LFT + OUD + BM + BSTF + DEK + WAG + VMG + GSL + GEBR + logPOPUL,

distribution = "poisson", data = training_set, interaction.depth = depth, n.trees = max_iter, shrinkage = shrink, bag.fraction = bag_frac, train.fraction = train_frac )

# aantal iteraties waarbij de validatiefout minimaal is best_iter <- which.min(fit$valid.error)

(29)

Omwille van de zichtbaarheid van de partial dependence plots wordt niet de populatie, maar de log-populatie opgenomen in de GBM. Het fitten van een GBM met diepte 1 en 2000 iteraties op de trainingset gebeurt dan zoals hierboven beschreven.

Vinden van de juiste diepte

Figuur 3.8: Na 1931 iteraties is de deviantie op de validatieset minimaal

Het aantal iteraties en de diepte worden gevonden door voor dieptes 1 t/m 10 een zo hoog aantal iteraties te runnen, dat het minimum van de validatiefout en het bijbehorende aantal iteraties binnen het interval liggen, zoals te zien is in3.8. Voor GBM’s met een kleine diepte is overfitten soms niet mo-gelijk en dan moet een hoog genoeg aantal iteraties gekozen worden, zodanig dat de validatiefout niet meer daalt bij meer iteraties. Vervolgens wordt de diepte gekozen waarvan de minimale validatiefout het kleinste is.

2 4 6 8 10

0.7332

0.7334

0.7336

0.7338

Validatiefout van GB−modellen met verschillende diepten

Diepte van elke boom in het model

Lossfunctie

Figuur 3.9: De GBM met interactiediepte 2 is optimaal

Uit figuur 3.9blijkt dat een interactiediepte van 2 het beste resultaat oplevert. Nu kan een GBM van diepte 2 en 1931 iteraties gefit worden op de gehele trainingset. Het is daarbij belangrijk de parameter train_frac gelijk te stellen aan 1, zodat alle observaties worden gebruikt. Dit model is het uiteindelijke model die wordt gebruikt voor de schattingen op de testset.

(30)

Figuur 3.10: Relatieve invloed van elk van de variabelen op de claimfrequenties

Resultaten van de GBM

Uit figuur3.10blijkt dat wederom de bonus-malustrede de sterkste schatter is voor het voorspellen van de claimfrequenties. Ook zijn de leeftijd en de populatiegrootte van de woonplaats van grote invloed. Deze figuur vertoont sterkte overeenkomsten met de variable importance plot van het baggingmodel, terwijl de modellen gebruik maken van heel andere bomen: de GBM heeft ongeveer 2000 bomen met twee splitsingen en het baggingmodel heeft 100 bomen met 49 splitsingen.

Marginale effecten van de tien variabelen apart

Van dit model zijn de marginale effecten van elk van de tien variabelen te vinden in figuur 3.14 op volgorde van variable importance. De variabele met de hoogste waarde voor variable importance is BM. De meeste exposure bevindt zich in de lagere treden, dus daar zijn de berekeningen het meest nauwkeurig. Zoals verwacht maken polishouders in hogere treden meer claims. Er is een opvallend grote sprong bij trede 16: wellicht heeft het te maken met het type bonus-malussysteem.

Een andere belangrijke schatter is de leeftijd van de polishouder. Jonge polishouders maken de meeste claims en zestigers de minste. Ook de populatie van de woonplaats is bepalend voor het claimgedrag. Polishouders in de grotere steden maken meer claims dan de polishouders in de kleinere plaatsen. Ook het vermogen en de ouderdom van het voertuig zijn van invloed op de claimfrequentie. Zo stijgt de claimfrequentie als functie van het vermogen en is de claimfrequentie hoog bij net nieuwe voertuigen.

Marginale effecten van twee variabelen

De ouderdom van het voertuig kan te maken hebben met de leeftijd van de polishouder. Daarom kunnen de marginale effecten van twee variabelen belangrijke informatie bevatten. In figuur 3.15 is bijvoorbeeld te zien dat effect van leeftijd voor mannen en vrouwen anders is, zoals beweerd door

Denuit et al.(2007). Jonge mannen maken meer claims dan jonge vrouwen van dezelfde leeftijd, maar bij andere leeftijden is het effect niet zo groot.

Voor de meeste leeftijden geldt grofweg dat hoe ouder het voertuig, hoe lager de claimfrequentie. Maar bij de jongste polishouders lijkt dit niet op te gaan: een jonge bestuurder in een oudere auto leidt tot een hogere verwachte claimfrequentie. Ook het effect van de bonus-malustrede lijkt voor de jongste polishouders anders te zijn dan voor de oudere. Maar bij trede 0, waar zich de meeste exposure bevindt, is het effect van leeftijd veel minder sterk.

Ook het effect van de populatiegrootte is niet voor elke bonus-malusladder even sterk, want bij de hogere treden is duidelijk te zien dat een hogere populatiegrootte leidt tot een hogere verwachte

(31)

claimfrequentie, maar bij de lagere treden is dit verschil minimaal. Andersom is de bonus-malustrede voor de polishouders die in de kleinere plaatsen wonen maar van weinig invloed op de claimfrequentie. Ten slotte zijn er ook grote verschillen te zien tussen voertuigen die rijden op benzine of diesel. Zo is de verwachte claimfrequentie voor dieselvoertuigen bij elke populatiegrootte hoger dan dat van benzinevoertuigen, maar is het verschil bij grote populaties groter. Ook lijkt het effect van ouderdom een iets ander verloop te hebben voor beide brandstoftypen.

3.5 Vergelijking van modellen

26000

26050

26100

26150

26200

Deviantie van de schattingen op de testset

De

viantie

GLM Enkele boom Bagging GB

Figuur 3.11: Gradient boosting geeft het beste resultaat

Vergelijking van deviantie

Elk van de vier voorgenoemde modellen hebben een schatting gemaakt van de claimfrequenties in de testset. De testset bestaat uit 48970 observaties waarbij polishouders 0, 1, 2, 3 of 4 claims hebben ingediend binnen het jaar of gedeelte van het jaar. De modellen hebben voor elke polishouder in de testset de log-claimfrequentie ˆηi geschat. Het verwachte claimaantal van polishouder i met exposure di is dan gegeven door:

ˆ

λi = diexp(ˆηi).

Voor elk van de vier modellen staan de devianties in figuur3.11 en daaruit blijkt dat de schattingen ˆ

λ van de GBM de laagste deviantie geven.

De enkele boom is niet nauwkeurig, want het kan slechts 22 verschillende claimfrequenties voorspel-len en niet alle variabevoorspel-len worden hierbij gebruikt. Ook het baggingmodel is geen nauwkeurig model, want het is mogelijk dat de bomen te veel met elkaar correleren. VolgensGuelman(2012) is de lagere deviantie van de GBM te verklaren, doordat GBM flexibeler is dan GLM. Een GLM is namelijk een lineair model en heeft daardoor meer restricties dan de GBM. Een andere verklaring is wellicht het ontbreken van belangrijke interactietermen in de GLM, die wel verwerkt zijn in de GBM.

Schattingen van nullen en enen in de testset

Gegeven de geschatte Poissonparameters ˆλ is het mogelijk om simulaties te runnen. Met de functie rpois genereert R voor polishouder i met kans exp(−λi) een nul, met kans λiexp(−λi) een ´e´en en met kans 1 − (1 + λi) exp(−λi) een geheel getal groter of gelijk aan twee. Dit kan gebruikt worden om het claimgedrag te simuleren van de 48970 polishouders. Zo genereert R N0 keer 0 claims, N1 keer 1 claim en N2 keer 2 of meer claims. Door 2000 iteraties te nemen is er van het aantal keren nul claims een verwachting en variantie berekend en vergeleken met het werkelijke aantal polishouders in de testset

(32)

Schatting van het aantal keer nul claims

Aantal in de testset

43200

43300

43400

43500

Schatting van het aantal keer één claim

4900

5000

5100

5200

5300

Schatting van het aantal keer twee of meer claims

380

430

480

530

Figuur 3.12: Vergelijking met de werkelijke aantallen van 0 claims, 1 claim en 2+ claims

dat geen claims indiende. Hetzelfde geldt voor het aantal keren ´e´en claim en twee of meer claims. Voor elk van de vier modellen staat de uitkomst van de simulaties in figuur3.12afgebeeld, waarbij de horizontale lijn het werkelijke aantal is.

Hieruit blijkt dat elk model het aantal nullen in de testset licht onderschat, het aantal enen over-schat en het aantal polishouders met twee of meer claims onderover-schat. De GBM presteert ongeveer even goed als de GLM, maar de enkele beslisboom en het baggingmodel liggen beiden verder van de geobserveerde waarde af dan de GLM. Ook is het opmerkelijk dat de enkele beslisboom een betere schatting maakt van het aantal polishouders met twee of meer claims dan het baggingmodel, terwijl de deviantie van de enkele beslisboom het laagste is van de vier.

Gradient boosting versus GLM

Uit voorgaande blijkt dat het baggingmodel en de enkele boom elk een hogere deviantie hebben dan de GLM en ook de schattingen van enen en nullen liggen niet dichterbij de werkelijke waarde. Daarom ligt nu de nadruk op de vergelijking van GLM en GBM.

De deviantie van de GBM-schattingen van de testset is lager dan dat van de GLM-schattingen. Door de testset op te delen, kan aangetoond worden voor welke deelverzamelingen van de testset GBM een betere schatting geeft dan GLM. Zo is in figuur 3.13voor deelverzamelingen van de testset de deviantie van de GBM-schatters gedeeld op de deviantie van de GLM-schatters voor elke bonus-malustrede, voor elke leeftijdsgroep, elke populatieklasse en elke klasse voor vermogen. Deze vier variabelen zijn de variabelen die de hoogste variable importance hadden voor de GBM. Niet alle waarden van de variabelen zijn in beschouwing genomen, omdat klassen met een lage exposure maar weinig effect hebben op de totale deviantie.

Zo blijkt dat GBM betere schattingen maakt dan GLM voor alle leeftijdsgroepen behalve [55, 65). Wellicht zijn de leeftijdsklassen in de GLM niet optimaal gekozen. Voor trede 0 in de bonus-malusladder zijn beide methoden ongeveer even goed, maar de frequenties in trede 1 wordt door GLM beter geschat. Voor de hogere treden is GBM vaker dan GLM de beste methode.

In de figuur met de log-populatie van de woonplaats van de polishouder is te zien dat GBM voor de meeste groepen nauwkeuriger schat dan GLM, maar het is niet te achterhalen of het specifiek voor kleine of voor grote plaatsen geldt. De figuur ernaast laat daarentegen zien dat GBM claimfrequenties beter of evengoed schat als GLM voor polishouders met een voertuig die een vermogen heeft tussen 15 kW en 85 kW. Claimfrequenties die betrekking hebben op voertuigen met een hoger vermogen worden beter door GLM geschat.

Nu is gebleken dat voor sterk verschillende deelverzamelingen van de testset GBM betere schat-tingen geeft voor de claimfrequenties dan GLM, waardoor geconcludeerd kan worden dat de lagere deviantie van GBM niet specifiek is voor deze dataset. Echter, de claimfrequentie van polishouders met een voertuig waarvan het vermogen hoger is dan 85 kW wordt mogelijk beter geschat met GLM dan met GB.

(33)

Figuur 3.13: De deviantie van de schatters van de GBM gedeeld op dat van de GLM

Toepassing op tarificatie

Voor het bepalen van verwachte claimfrequenties van polishouders kan GBM een goed alternatief zijn voor GLM, omdat de fit beter is. GBM heeft bovendien een simpele implementatie, want er hoeven geen keuzes gemaakt te worden wat betreft de verklarende variabelen. Het algoritme beslist zelf welke variabelen gebruikt gaan worden en waar de splitsing moet komen, terwijl voor een GLM er een selectie van variabelen moet worden gemaakt. Ook interacties tussen variabelen worden in de GBM verwerkt zonder dat het expliciet toegevoegd wordt in de formule.

Een nadeel van GBM is, dat het model niet direct te interpreteren is. GLM en de enkele beslisboom hebben de eigenschap dat de verwachte frequentie van een polishouder afgelezen kan worden uit een figuur of tabel en bij bagging en GBM is dit niet het geval. De variable importance plots en de partial dependence plots van de GBM kunnen daarentegen belangrijke informatie geven over de verklarende variabelen en de onderlinge interacties. Zo kan GBM niet alleen claimfrequenties schatten, maar ook dienen als hulpmiddel voor andere modellen, zoals GLM’s.

(34)

0 5 10 15 20 0.10 0.15 0.20 0.25 0.30 BM Predicted count 20 40 60 80 0.12 0.14 0.16 0.18 0.20 LFT Predicted count 7 8 9 10 11 12 13 0.09 0.11 0.13 0.15 logPOPUL Predicted count 50 100 150 200 250 0.10 0.15 0.20 0.25 0.30 VMG Predicted count 0 10 20 30 40 0.08 0.10 0.12 0.14 0.16 OUD Predicted count benzine diesel 0.125 0.130 0.135 0.140 0.145 BSTF Predicted count wa wa+beperkt wa+volledig 0.128 0.129 0.130 0.131 0.132 0.133 DEK Predicted count man vrouw 0.13170 0.13180 0.13190 GSL Predicted count ja nee 0.122 0.124 0.126 0.128 0.130 0.132 WAG Predicted count prive zakelijk 0.1290 0.1300 0.1310 GEBR Predicted count

(35)

LFT f(GSL,LFT) 0.12 0.14 0.16 0.18 0.20 20 40 60 80 man 20 40 60 80 vrouw LFT OUD 10 20 30 40 20 40 60 80 0.05 0.10 0.15 0.20 0.25 BM LFT 20 40 60 80 5 10 15 20 0.10 0.15 0.20 0.25 0.30 0.35 BM logPOPUL 7 8 9 10 11 12 5 10 15 20 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 logPOPUL f(BSTF ,logPOPUL) 0.08 0.10 0.12 0.14 0.16 7 8 9 10 11 12 13 benzine 7 8 9 10 11 12 13 diesel OUD f(BSTF ,OUD) 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0 10 20 30 40 50 benzine 0 10 20 30 40 50 diesel

(36)

In de tarificatie van WA-verzekeringen voor motorvoertuigen worden claimfrequenties van polishouders a priori geschat aan de hand van gegevens die over de polishouder bekend zijn. Gewoonlijk wordt hiervoor GLM gebruikt, hoewel er andere technieken mogelijk zijn, zoals tree-based modellen. Dit zijn modellen die niet uitgaan van een (log-)lineaire relatie tussen verklarende variabelen, maar in plaats daarvan beslisbomen gebruiken om schattingen te maken.

Zo zijn er de technieken bagging en gradient boosting (GB), die beiden gebruik maken van meer-dere beslisbomen. Bagging fit elke iteratie een grote beslisboom voor een bootstrapsteekproef uit de trainingset. De schatter voor een bepaalde waarneming is dan het gemiddelde van alle schatters voor deze waarneming. Een gradient-boostingmodel (GBM) fit daarentegen sequentieel een kleine boom op de residuen van het model tot dan toe. De som van vele zwakke schatters leidt zo tot een sterke voorspeller.

Volgens de Laet (2013-2014) geeft een GBM betere schattingen voor claimfrequenties dan een GLM. Gegeven een andere dataset met andere verklarende variabelen was het doel van dit onderzoek het aantonen in hoeverre tree-based modellen toegepast kunnen worden in het schatten van claimfre-quenties voor polishouders van een WA-verzekering, als replicatieonderzoek vande Laet (2013-2014). In dit onderzoek werd aangenomen dat de claimfrequentie van elke polishouder Poissonverdeeld was en dat het claimgedrag van polishouders onderling onafhankelijk was. Zo kon voor elke polishouder de Poissonparameter worden geschat, waarbij de Poissondeviantie een maat is voor de kwaliteit van de fit.

Zo werden er vier modellen in beschouwing genomen die deze Poissonparameters schatten. Het eerste model was een GLM, zodat de deviantie van dit model vergeleken kon worden met de deviantie van de tree-based modellen. Het tweede model was een enkele beslisboom die geschat werd op de trainingset, door een zeer grote boom te maken en daarna splitsingen te verwijderen. De optimale diepte van de boom werd bepaald door middel van een tienvoudige kruisvalidatie. Als derde model, het baggingmodel, waren er 100 beslisbomen met elk een diepte van 49 splitsingen gefit op bootstrap-steekproeven uit de trainingset. Het vierde model ten slotte was de GBM, dat een kleine 2000 bomen met elk twee splitsingen had gefit op de residuen. Bij het baggingmodel en de GBM is er gebruik gemaakt van een validatieset voor het bepalen van de optimale diepte van de bomen en het aantal iteraties.

Uit dit onderzoek bleek dat de GBM een betere schatting kon geven van de claimfrequenties in de testset dan de GLM, op basis van de deviantie. De enkele beslisboom en het baggingmodel presteerden allebei slechter. De GBM heeft namelijk, anders dan de GLM, de restricties niet dat verklarende variabelen een lineaire relatie hebben met de log van de claimfrequentie, wat zorgt voor een hogere flexibiliteit. Bovendien worden in een GBM interacties tussen variabelen door het algoritme zelf aangebracht, terwijl dat in een GLM in de formule moet worden toegevoegd.

Gegeven de schattingen voor de Poissonparameters in de testset, was het mogelijk om simulaties te runnen door grepen te nemen uit een Poissonverdeling met deze parameters. Voor elk model werd er 2000 keer een greep genomen uit een Poissonverdeling en werd het aantal nullen, enen en hogere aantallen daarin geteld. Zo kon voor elk model bepaald worden wat de verwachting en standaardde-viatie zijn voor het verwacht aantal polishouders met nul claims, met ´e´en claim en met twee of meer claims. Hieruit bleek dat elk van de modellen het aantal nullen in de testset onderschat, het aantal enen overschat en de staart van de verdeling erg onderschat. De GBM en de GLM waren ongeveer even accuraat in het voorspellen van aantal nullen, enen en hogere aantallen.

Omdat de enkele beslisboom en het baggingmodel beiden slechtere voorspellers zijn dan GLM, 30