The relation between customer specific behavior and default : a study in the Dutch credit card industry

(1)

Amsterdam Business School

The relation between customer specific behavior and default

A study in the Dutch credit card industry

Name: Willem-Jan Oosterhuis Student number: 11226730

Thesis supervisor: Dr. P. Ghazizadeh Date: 25 Mei 2018

Word count: 14278

MSc Accountancy & Control, specialization Control

(2)

Statement of Originality

This document is written by student Willem-Jan Oosterhuis who declares to take full responsibility for the contents of this document.

I declare that the text and the work presented in this document is original and that no sources other than those mentioned in the text and its references have been used in creating it.

The Faculty of Economics and Business is responsible solely for the supervision of completion of the work, not for the contents.

(3)

Abstract

The probability of default is a score given to a customer. This score can be enhanced with data of behavior of customers. This thesis studies the relation between customer’s credit card behavior, social-demographical data and default based on past results using simple regression models. Research is based on historical data of a Dutch credit card company using different logistic regression models. Both social-demographical and behavioral variables have an effect on default but a few variables explained the most of the regression models. A combined model of social-demographical and customer’s behavior explained the most variance of default status. A sophisticated combined model with more explained variance is desired.

(4)

Inhoud

1 Introductie ... 6

2 Theoretisch kader ... 9

2.1 Consumer default ... 9

2.2 Credit scoring modellen ... 10

2.3 Variabelen van default in eerdere studies ... 10

2.4 Klantgedrag in andere segmenten ... 12

2.4.1 Marketing ... 12 2.4.2 Psychologie ... 12 2.5 Onderzoeksvraag ... 13 3 Methodologie ... 16 3.1 Data ... 16 3.2 Onderzoeksopzet ... 16 3.3 Definiëring data ... 17 3.3.1 Afhankelijke variabele ... 18 3.3.2 Sociaal-demografische variabelen ... 19

3.3.3 Gedrag specifieke variabelen ... 19

3.3.4 Statistische methodes ... 20

4 Resultaten ... 22

4.1 Beschrijvende statistieken van de variabelen ... 22

4.2 Resultaten per regressiemodel ... 26

4.2.1 Regressiemodel sociaal-demografisch variabelen ... 26

4.2.2 Regressiemodel gedrag specifieke variabelen ... 29

4.2.3 Regressiemodel “combined model” ... 31

4.3 Overige resultaten ... 33

4.3.1 Extremen in variabelen ... 33

(5)

4.3.3 Forward regressie ... 35

5 Discussie ... 37

5.1 Managerial impact ... 37

5.2 Voorstellen voor toekomstig onderzoek ... 39

5.3 Beperkingen en sterke punten van het onderzoek ... 40

5.4 Conclusie ... 40

(6)

1 Introductie

In de jaren na de financiële crisis is er meer bewustzijn gecreëerd met de probability of default1_{(PD) modellen (Leow & Crook, 2016), waarbij door Gurny en Gurny (2013) is} aangegeven dat een foutieve inschatting van de PD een van de oorzaken was van de meest recente wereldwijde crisis (2008). Er zijn volgens Summers en Wilson (2000) zes functionele verantwoordelijkheden verbonden aan activiteiten met betrekking tot het verlenen van een krediet: (1) beoordeling van het kredietrisico van de klant, (2) het nemen van een kredietverlening besluit, (3) incasseren van vorderingen als de vervaldatum is verstreken, (4) monitoren van klantgedrag en managementinformatie samenstellen, (5) het dragen van risico met betrekking tot default en slechte leningen, (6) financieren van investeringen met vorderingen.

Deze studie neemt vooral de vierde stap met betrekking tot het verlenen van krediet in behandeling en de activiteiten die hieraan verbonden zijn. De focus van de studie zal liggen bij het verzamelen van statistische informatie over hoe een klant omgaat met zijn creditcard. De uitkomsten van deze studie, kunnen door financiële instellingen gebruikt worden om hun PD-modellen aan te passen, zodat het kredietrisico beperkt wordt en minder klanten in de toekomst in default zullen raken. Elke financiële instelling kan zijn eigen PD-model bouwen als het aan de eisen van Basel II2_voldoet.

De relatie die in deze studie onderzocht wordt is of klantspecifiek gedrag een effect heeft waardoor klanten in default komen. Deze studie wil onderzoeken of bepaalde klantspecifieke gedragsvariabelen meegenomen moeten worden in een PD-model om het risico van de klant beter te kunnen inschatten. De klantspecifieke gedragsvariabelen in deze studie zijn onder andere: hoe vaak wordt de creditcard gebruikt, hoe vaak wordt er contant geld opgenomen, maakt de klant gebruik van automatische incasso’s of overboekingen, hebben er weleens storno’s plaatsgevonden bij de klant, heeft de klant zijn kredietlimiet overtreden, is de klant al eerder in achterstand geweest en gebruikt de klant zijn creditcard voor gokstransacties.

De volledige lijst van variabelen is te vinden in afbeelding 3.2. Tevens zullen enkele sociaal-demografische variabelen meegenomen worden die in andere onderzoeken als significant zijn bevonden met betrekking tot default, zoals leeftijd, burgerlijke staat en geslacht (Dinh & Kleimeier, 2007 en Kocenda & Vojtek, 2009).

1_{Het begrip default wordt in hoofdstuk 2 behandeld.}

(7)

Het onderzoek is uitgevoerd in een grote Nederlandse financiële organisatie waarbij een geselecteerde groep is gemeten met betrekking tot variabelen die impact kunnen hebben op default gedurende het jaar 2016. Vervolgens is middels deze studie gekeken of de gedragshandelingen van de klant van het jaar 2016 een relatie hebben met default voor het jaar 2017. De materialiteit van het onderzoek gaat over een omzet op jaarbasis van ongeveer €7 miljard, waarvan ongeveer tussen de 0,5 en 1% van de klanten in default raakt.

Deze studie is om verscheidene redenen interessant. Ten eerste is er in eerdere onderzoeken veelal onderzoek gedaan naar de relatie tussen de beslissing van de financiële instelling en de kenmerken van de aanvragers van een kredietproduct. Het is natuurlijk van belang om te weten aan wat voor soort kredietnemers een krediet wordt gegeven, maar het is ook van belang om van kredietnemers die al geaccepteerd zijn te weten of die aan hun betalingsverplichtingen voldoen. Dit kan voor een financiële instelling als een soort test gezien worden of het verleende krediet terecht was of niet.

Ten tweede voegt deze studie op basis van een database met verschillende unieke gedragsvariabelen aan de bestaande literatuur een aantal variabelen toe, die een relatie hebben met default in een financiële instelling. Ook Tobback en Martens (2017) hebben in hun onderzoek aangegeven dat betalingsgegevens van klanten een aanvullende voorspellende kracht kunnen toevoegen. Een financiële instelling kan hiermee bepaalde variabelen toevoegen aan een PD-model om het risico accurater in te schatten en de kans op default van klanten te beperken. Deze studie kan het onderzoek in Mexico van Vissingen-Jorgensen (2011) bevestigen met gegevens van een financiële instelling in Nederland. Dit kan interessant zijn omdat de setting in Nederland ten opzichte van Mexico heel verschillend is. Nederlanders zijn zuinig ingesteld ten opzichte van Mexicanen. Waar Nederlanders veel sparen, betalen Mexicanen hun boodschappen veelal op krediet. Het verschil in deze setting kan veel invloed hebben op de gedragsvariabelen die onderzocht gaan worden, omdat er een groot verschil is tussen Nederlanders en Mexicanen en de beslissingen die ze maken met betrekking tot hoe ze omgaan met hun geld. Voor zover bij de auteur bekend, is er niet eerder onderzoek gedaan naar het effect van deze verscheidene specifieke gedragsvariabelen op default. Tevens is voor zover bij de auteur bekend, een onderzoek met betrekking op default in een creditcardbranche niet eerder in Nederland gedaan. Dit onderzoek kan hiermee een verdieping geven op de bestaande literatuur met betrekking tot variabelen die een relatie hebben met default.

Het belang van bovenstaande contributies is voor de financiële instelling en voor de klant zelf. Doormiddel van een beter inzicht op klanten met betrekking tot default kan een financiële

(8)

instelling preventieve maatregelingen nemen zodat de klant niet in default raakt. De financiële instelling zou ervoor kunnen kiezen om producten meer op maat te maken voor bepaalde groepen klanten, zoals het verlagen van een kredietlijn. Dit wordt ook gesteld in het onderzoek van Sohn, Lim en Ju (2014) die aangeven dat kredietlijnen geassocieerd zijn met default en dat de default score de winstgevendheid van die financiële instelling kan beïnvloeden. Voor de financiële instelling zullen preventieve maatregelingen resulteren in het voorkomen van eventuele verliezen en voor de klant kan dit betekenen dat ze niet onnodig in achterstand raken.

Het vervolg van deze studie is als volgt opgebouwd. In hoofdstuk 2 wordt het theoretisch kader besproken met onderwerpen als default en credit scoring modellen. Vervolgens zullen verscheidene factoren van default uit andere onderzoeken besproken worden die worden afgesloten met een onderzoeksvraag. In hoofdstuk 3 wordt de methodologie van het onderzoek toegelicht met de gebruikte data, onderzoeksopzet- en methode. In hoofdstuk 4 worden de uitkomsten beschreven. Tot slot worden in hoofdstuk 5 conclusies getrokken, de managerial impact besproken, beperkingen van het onderzoek behandeld en suggesties gegeven voor toekomstig onderzoek.

(9)

2 Theoretisch kader

In dit hoofdstuk wordt het begrip default en de verschillenden variabelen die hierop impact hebben, uitgelegd. Tevens zal het concept credit scoring model worden uitgelegd. Daarna wordt een link gelegd met klantgedrag in andere segmenten. Vervolgens wordt uitgelegd hoe de onderzoeksvraag en de bepaling van de variabelen tot stand zijn gekomen.

2.1 Consumer default

Financiële instellingen hebben klanten die gescreend zijn of ze geschikt zijn voor bepaalde financiële producten, in dit onderzoek gaat het specifiek over het product creditcards. Deze klanten kunnen in achterstand raken als ze de bedragen die ze verschuldigd zijn aan de financiële instelling niet op tijd terugbetalen. Naar verloop van tijd kunnen deze klanten in default raken. Probability of Default (PD) is een financiële term die de waarschijnlijkheid beschrijft of in een bepaalde tijd (binnen nu en 1 jaar) default kan voorkomen. Het geeft een schatting van de waarschijnlijkheid dat een klant die een bedrag geleend heeft niet in staat zal zijn om zijn verplichte betalingen na te komen.

Caouette, Altman, Narayanan, en Nimmo (2008) geven aan dat de definitie van een slecht klantaccount meestal gebaseerd is op drie betalingsachterstanden, terwijl goede accounts deze achterstanden niet hebben meegemaakt. Agarwal, Chomsisengphet en Liu (2011) geven aan dat default betekent dat een klant 90 dagen of meer achterstand heeft. Dinh en Kleimeier (2007) geven in hun onderzoek aan, dat de bank als default aanmerkt als een klant 90 dagen in achterstand is of als een klant drie achtereenvolgende betalingen heeft gemist.

Caouette et al. (2008) geven ook een alternatieve manier om default te classificeren en dat is op basis van de definities voor banken van het Basel Committee on Banking Supervision (BCBS, 2004). Dit framework geeft de volgende twee alternatieve definities van default:

- Onwaarschijnlijkheid om te betalen: de bank is van mening dat het onwaarschijnlijk is dat de debiteur zijn/ haar kredietverplichtingen aan de bank zal terugbetalen;

- 90 dagen achterstand: de debiteur is meer dan 90 dagen achterstallig bij elke essentiële kredietverplichting.

Dit onderzoek zal de definitie aanhouden van de BCBS dat default wordt gezien als 90 dagen of meer achterstand, omdat dit een gangbare definitie is in de branche. Hierbij wordt ook het Basel II verdrag gevolgd.

(10)

2.2 Credit scoring modellen

Financiële instellingen maken gebruik van PD-modellen om de risico’s van klanten te kunnen inschatten. PD-modellen zijn een belangrijk onderdeel van risicomanagement voor financiële instellingen waarbij de risico’s zo accuraat mogelijk worden ingeschat. Credit scoring kan formeel worden gedefinieerd als een statistische (of kwantitatieve) methode die wordt gebruikt om de waarschijnlijkheid te voorspellen dat een aanvrager voor een lening of bestaande klanten in default komen (Mester, 1997). Het doel van credit scoring modellen is om klanten die lenen aan te wijzen als een goed krediet of een slecht krediet (Lee, Chiu, Lu & Chen 2002), of om de slechte crediteuren te voorspellen (Lim & Sohn, 2007). Financiële instellingen willen een zo accuraat mogelijk risico aan een klant koppelen om eventuele achterstanden te voorkomen. Leow (2016) geeft aan dat sinds de kredietcrisis van 2008 er meer bewustzijn is gecreëerd door het gebruikt van PD-modellen en hoe deze eventueel verbeterd kunnen worden. Terwijl Gurny en Gurny (2013) aangeven dat de foutieve inschatting in een PD een van de oorzaken was van de recente wereldwijde financiële crisis (2008), omdat dit leidt tot een foutieve beoordeling van een PD.

PD-modellen worden veel gebruikt bij financiële instellingen. Mester (1997) geeft aan dat 97 procent van de banken een credit scoring model (CSM) gebruiken om creditcard aanvragen goed te keuren. En 70 procent van de banken gebruikt een CSM bij kleine bedrijfsleningen. Het veelvuldig gebruik van een CSM wordt onderschreven door Gurny en Gurny (2013). Zij geven aan dat een CSM de meest gebruikte tool is om in te schatten wat de kans op wanbetaling is van een lener. Tevens wordt door hen aangegeven dat banken nu op grote schaal aan elke kredietnemer een andere PD toewijzen.

2.3 Variabelen van default in eerdere studies

Er zijn in de wereld veel verschillende soorten CSM gebruikt en veel CSM gebruiken diverse variabelen. Deze paragraaf beschrijft de variabelen die al bekend zijn, waarbij dit onderzoek wil kijken naar specifieke variabelen die nog niet bekend zijn. Zo wordt leeftijd door de meeste auteurs meegenomen in hun onderzoek (Agarwal et al., 2011; Dinh & Kleimeier, 2007; Kocenda & Vojtek, 2009; Dunn & Kim, 1999; Leow & Crook, 2016; Boyes & Low, 1989 en Lawrence, Smith & Rhoades, 1992), maar ook burgerlijke staat (Agarwal et al., 2011; Dinh & Kleimeier, 2007; Kocenda & Vojtek, 2009; Dunn & Kim, 1999; Leow & Crook, 2016 en Boyes, Hoffman & Low, 1989) en grote van de lening (Agarwal et al., 2011; Kocenda & Vojtek, 2009 en Dunn & Kim, 1999) wordt vaak meegenomen om het effect met default te onderzoeken.

(11)

Dinh en Kleimeier (2007) nemen in hun onderzoek ook variabelen mee als huisvesting in de rating van een aanvrager. Lawrence et al. (1992) concluderen in hun studie over hypotheken, dat de meest recente patronen met betrekking tot overtredingen van betalingen de beste voorspeller is van default risk.

Dat klanten in default komen kan verschillenden redenen hebben. Hörkkö (2010) vindt in zijn onderzoek dat sociaal-demografische en gedrag specifieke variabelen beide een voorspellende waarde hebben op default. Bij gedrag specifieke variabelen noemt hij de grote van een lening en de score die een klant krijgt als voornaamste variabelen die effect hebben op default. De andere determinanten die een effect hebben zijn: onderwijs, geslacht, huisvesting, inkomen en nationaliteit. Ozdemir en Boran (2004) beamen in hun onderzoek dat huisvesting een significante determinant is van default. Ook geven zij in hun onderzoek aan dat geslacht en burgerlijke staat geen voorspellende waarde hebben met betrekking tot default.

Agarwal et al. (2011) geven aan dat kredietnemers die minder kredietwaardig zijn geweest (in dit onderzoek een lagere FICO score3_{) eerder geneigd zijn om hun betalingen niet te voldoen} en hierdoor in default komen. De FICO-score kan vergeleken worden met de Nederlandse BKR-score4_{die in dit onderzoek wordt meegenomen als een variabele. Financiële instellingen} maken gebruik van de BKR-score om hun voorzieningen te berekenen.

Veel van bovenstaande onderzoeken zijn veelal gericht op sociaal-demografische variabelen terwijl diverse onderzoekers aangeven dat gedrag specifieke data ook belangrijke determinanten kunnen zijn van default. Boyes et al. (1989) geven aan dat gegevensbeperkingen in hun onderzoek een bindende beperking was. Met meer individuele gegevens zouden ze een beter gedragsmatig CSM kunnen bouwen. Dunn en Kim (1999) geven aan dat onderzoek naar creditcard default waardevolle informatie heeft opgeleverd, maar het ontbreken van gedetailleerde gegevens heeft het begrip van klantgedrag en de motivatie van het creditcard gebruik beperkt. Hierdoor wordt ook het complete begrip van default beperkt.

Wilson, Summers en Hope (2000) constateren in hun onderzoek dat historische betalingsinformatie veel meer voorspellend is dan alleen financiële gegevens van een bedrijf. Tevens vinden zij in hun onderzoek dat betalingsgedrag kan worden gebruikt om betaalgedrag in de toekomst te voorspellen, waarbij incrementeel een toevoeging geleverd kan worden aan een

3_{FICO-score is een kredietwaardigheid score in de Verenigde Staten; deze score is afgeleid van} het krediet model dat is ontwikkeld door de Fair Isaac Corporation.

4 _{Een BKR-score voorspelt of de kans groot is dat een klant in de toekomst een} betalingsprobleem krijgt.

(12)

bedrijfsfaillissement model. Norden en Weber (2010) geven aan dat informatie met betrekking tot accountactiviteit een CSM verbetert en dat deze informatie met name handig is bij kleine bedrijven en individuen. Belotti en Crook (2013) concluderen in hun onderzoek dat dynamische modellen, die zowel gedrags- en macro-economische variabelen bevatten significante statistische verbeteringen geven in een model. Dit vertaalt zich naar betere voorspellingen met betrekking tot default op zowel account als portefeuilleniveau in hun onderzoek. Een experimenteel onderzoek van Tobback en Martens (2017) concludeert dat betalingsgegevens een aanvullende voorspellende kracht aan een CSM kunnen toevoegen. Door het toevoegen van meer historische transactie informatie aan de data set wordt de accuraatheid van een model vergroot. Vissingen-Jorgensen (2011) geeft hierbij nog expliciet aan dat er een relatie is tussen default en wat consumenten kopen in een onderzoek bij een Mexicaanse winkelketen.

2.4 Klantgedrag in andere segmenten

Het bestuderen van klantgedrag wordt in veel segmenten onderzocht en toegepast waaronder in de marketing. Achter het gedrag van klanten zitten vaak bepaalde psychologische gedachten. Hieronder wordt kort uitgelegd waarom klantgedrag ook in de segmenten marketing en psychologie belangrijk is. Daarmee wordt de overeenkomst met deze studie gelegd.

2.4.1 Marketing

In de huidige tijd waarin de concurrentie scherp is, moeten marketingprofessionals investeren in business intelligence waarmee ze eventueel patronen in het gedrag van consumenten kunnen vinden en hierop kunnen acteren. Deze gegevens worden op individueel klantniveau door bedrijven op grotere schaal in kaart gebracht.

Popa en Bertea (2010) geven in hun studie aan dat het noodzakelijk is geworden om patronen in het gedrag van klanten te vinden zodat toekomstige koopbeslissingen voorspeld kunnen worden. Doordat bedrijven inzicht krijgen in bepaalde patronen kunnen zij hun marketingbudget specifieker gaan inrichten. Zij kunnen bijvoorbeeld hun klanten aan specifieke campagnes toevoegen op basis van hun gedragspatronen.

2.4.2 Psychologie

Segmentatie van klanten wordt gebruikt in het marketing segment en ook in het financiële segment. Ook van belang is de psychologie van klantgedrag en hoe klanten aankijken tegen een achterstand.

(13)

Klanten die het normaal vinden om schulden te hebben zullen waarschijnlijk sneller in achterstand raken dan klanten die dit niet normaal vinden. In het onderzoek van Jungmann en Van Geuns (2014) worden klanten gegroepeerd naar de welwillendheid om van hun schulden af te komen. Waarbij motivatie, verantwoordelijkheid en concessies doen een belangrijke rol spelen. Door klanten te groeperen wordt er meer inzicht verkregen hoe je kan omgaan met bepaalde groepen klanten. Dit komt overeen met het onderzoek van deze studie. Door meer inzicht te genereren in hoe een klant zijn creditcard gebruikt, hoe beter de financiële instelling er rekening mee kan houden of de klant in default komt.

2.5 Onderzoeksvraag

De huidige studie focust zich op de relatie van gedrag specifieke variabelen met betrekking tot default, waarbij bepaalde sociaal-demografische variabelen worden meegenomen in het onderzoek. Deze studie wil inzicht krijgen of de gedragsvariabelen die in het onderzoek zijn meegenomen een relatie hebben met het in default raken van een klant.

De individuele variabelen die in het onderzoek worden meegenomen zoals beschreven in paragraaf 3.3 (Afbeelding 3.2), worden beoordeeld om te bepalen of er een relatie is met de afhankelijke variabele (default). Dit geeft inzicht welke van de gedragsvariabelen een relatie hebben met default. De reden dat de variabelen zijn meegenomen in dit onderzoek wordt hieronder beschreven en worden als volgens beoordeeld. In paragraaf 3.3 worden de variabelen nog specifieker behandeld en gedefinieerd.

Leeftijd wordt meegenomen door de verwachting dat een jonger persoon sneller in

achterstand raakt dan een ouder persoon, want de verwachting is dat een ouder persoon verantwoordelijker met zijn geld omgaat en ook meer te besteden heeft dan een jonger persoon.

Huisvesting is een variabele in dit onderzoek omdat een klant met een eigen huis naar

verwachting minder een relatie heeft met default dan een klant met een huurhuis of een studentenwoning. De verwachting is dat een klant met een eigen huis vermogender is dan een klant met een huurhuis, inwonend of een studentenwoning. Burgerlijke staat wordt meegenomen omdat deze variabele te maken heeft met de kosten die de klant maandelijks maakt/heeft. Een alleenstaande klant met kind zal naar verwachting meer relatie hebben met default dan een klant die samenwoont zonder kind, simpelweg omdat als alleenstaande er maximaal een inkomen binnenkomt plus de extra kosten voor een kind. BKR-score is een variabele in dit onderzoek omdat de klant bij aanvraag al een BKR-score krijgt toegewezen. De verwachting is dat een klant met een slechte (lagere) BKR-score meer een relatie heeft met

(14)

default dan een klant met een goede (hogere) BKR-score omdat dit een indicatie kan geven of de klant in de toekomst een betalingsprobleem krijgt.

Tijd in portefeuille wordt meegenomen omdat er wordt verwacht dat hoe langer een

klant in een portefeuille zit des te kleiner de relatie is met default. Als een klant kort in de portefeuille zit is er weinig bekend van de klant ten opzichte van een klant die lang in de portefeuille zit. Terugbetaalmethode zit in de dataset omdat de veronderstelling is dat klanten die zekerder zijn van hun afbetalingsmogelijkheid, vaker zullen betalen middels een automatische incasso. De verwachting is dan ook dat klanten met een automatische incasso minder een relatie hebben met default dan klanten die een overboeking maken. Kredietlimiet kan op meerdere manieren geïnterpreteerd worden waardoor deze variabele is meegenomen. Een lagere kredietlimiet kan duiden op een lager inkomen waardoor een klant meer moeite kan hebben met het terugbetalen van een schuld. Een hogere kredietlimiet kan snel in default raken door abrupte wijzigingen in persoonlijke situaties, waarbij de klant wel een hoge schuld heeft uitstaan. Bij de variabele Bezettingsgraad is de verwachting dat een hoger uitstaand saldo meer een relatie heeft met default dan klanten met een lage bezettingsgraad omdat klanten die dichter bij hun limiet zitten, ook sneller in default kunnen raken. Limiet overtredingen is een indicator dat klanten hun schulden niet kunnen aflossen en daardoor in default kunnen raken. De veronderstelling is dan ook, als de klant limiet overtredingen heeft begaan dat de relatie sterker is met default omdat ze het bedrag niet op tijd kunnen terugbetalen. Storno wordt meegenomen omdat dit een indicatie kan zijn dat een klant onvoldoende saldo heeft. De relatie met default wordt sterker verwacht als een klant een stornering heeft gedaan, want als een klant onvoldoende liquide is dan kan de klant in achterstand raken. Hoe vaker een klant zijn creditcard gebruikt hoe vaker de kans is dat hij op een gegeven moment deze schuld misschien niet kan betalen. Daarom wordt de variabele Creditcard gebruik meegenomen. Goktransacties worden meegenomen als variabelen omdat deze worden geassocieerd als risicovolle transacties en kunnen wijzen op bepaalde psychologische patronen, zoals bijvoorbeeld een gokverslaving. Deze variabele wordt gesplitst in aantal Goktransacties en totaalbedrag van de transacties. De verwachting is dat de relatie met default sterker is met meer gokstransacties en hogere bedragen. Er wordt verondersteld dat gokken met lage bedragen/klein aantal transacties minder impact heeft op default dan gokken met hoge bedragen/groot aantal transacties. Geldopnames wordt als variabele meegenomen omdat als klanten vaak met hun creditcard geldopnames doen, dit kan duiden op een liquiditeitstekort, waarbij de verwachting is dat hoe vaker geldopnames worden gedaan des te sterker de relatie is met default. Alleen de geldopnames in Nederland worden meegenomen, omdat geldopnames in het buitenland vaak gepaard gaan met de

(15)

vakantie-uitgaven. Deze variabele wordt gesplitst in aantal geldopnames en totaalbedrag van de geldopnames. Als een klant al in Achterstand heeft gestaan dan kan dat een indicatie geven dat een klant uiteindelijk in default raakt, omdat voordat je in default raakt eerst in achterstand komt te staan. De variabele Retail transacties wordt meegenomen omdat de verwachting is dat hoe meer Retail transacties worden gedaan en hoe hoger de bedragen, de relatie met default sterker is. Als er veel uitgegeven wordt terwijl het geld er eventueel niet is, kan de relatie met default versterkt worden. Deze variabele wordt gesplitst in aantal Retail transacties en het totale bedrag van de Retail transacties. Overboekingen naar Bank worden als een variabele meegenomen omdat er wordt verondersteld dat als klanten vaak geld van hun creditcard overboeken naar hun betaalrekening, daarmee standaardrekeningen gaan betalen waarvoor de creditcard niet is voor bedoeld. De verwachting is hoe vaker een klant geld overboekt van zijn creditcard naar zijn betaalrekening en hoe hoger het bedrag des te sterker de relatie met default is. Deze variabele wordt gesplitst naar aantal overboekingen en naar het totale bedrag van de overboekingen. Tevens wordt de variabele Geslacht exploratief meegenomen of er een verschil is tussen man en vrouw en de relatie tot default.

Andere onderzoeken zoals in het onderzoek van Wilson et al. (2000) constateren dat betalingsgedrag in een corporate omgeving informatie kan geven over betaalgedrag in de toekomst. Vissingen-Jorgensen (2011) leggen een relatie tussen producten die gekocht worden en default in een onderzoek in een Mexicaanse winkelketen. De relatie van bepaalde gedrag specifieke variabelen worden in een corporate omgeving en in een Mexicaanse winkelketen gevonden. Wordt de relatie met betrekking tot default ook gevonden in een Nederlandse creditcard branche met verscheidene nieuwe variabelen en in een andere setting (Nederland ten opzichte van Mexico en Consumer ten opzichte van Corporate)? Deze studie gaat daarom onderzoeken welke van de hierboven genoemde gedrag specifieke variabelen een relatie hebben met default in een Nederlandse financiële instelling.

De volgende onderzoeksvraag kan vanuit bovenstaande worden opgesteld:

(16)

3 Methodologie

3.1 Data

Deze studie maakt gebruik van een dataset van een financiële instelling in Nederland. De financiële instelling zal fictief Omega genoemd worden in deze studie. Omega is een financiële instelling die gespecialiseerd is in creditcards. De creditcards worden zowel uitgegeven in de zakelijke als de consumentenmarkt. Deze studie volgt klanten van één specifiek creditcardproduct in de consumentenmarkt.

De dataset bestaat uit de geselecteerde gedrags- en sociaal-demografische variabelen van alle klanten van het geselecteerde product. De dataset telt in totaal ongeveer 30.000 klanten. Deze klanten zijn 1 jaar lang gevolgd op hun handelingen en specifieke transacties. Het beginpunt van de dataverzameling betreft 1 januari 2016 en het eindpunt 31 december 2016, waarbij 1 januari 2017 tot en met 31 december 2017 fungeert als periode of de klant in default is geraakt. Alleen klanten die aan het beginpunt en aan het eindpunt nog een actieve creditcard hebben worden meegenomen in de uiteindelijke dataset. De BKR-score van 4.663 klanten heeft als waarde nul in het systeem omdat deze niet bekend is. Omdat deze klanten anders waren ingedeeld in categorie K/L (zeer hoog risico), zou dit te veel bias geven aan de variabele en de uitkomsten van de regressie. Daarom is besloten om deze klanten uit de database te halen. De totale dataset komt uiteindelijk op ongeveer 25.500 klanten.

3.2 Onderzoeksopzet

Deze studie zal onderzoeken of specifieke gedragsvariabelen van een klant een relatie hebben of de klant in default raakt. Hiermee kan aangetoond worden welke onderzochte gedragsvariabelen een voorspellend effect hebben op default.

Deze data worden gebruikt om de relatie te onderzoeken of de klant de komende 12 maanden in default raakt (1 januari 2017 tot en met 31 december 2017). De reden dat is gekozen voor deze tijdsperiode is dat in de financiële branche en tevens ook in de financiële instelling waar dit onderzoek wordt gehouden, PD de waarschijnlijkheid beschrijft of binnen nu en 1 jaar default kan voorkomen. In afbeelding 3.1 is de onderzoeksperiode schematisch weergegeven.

(17)

Afbeelding 3.1 Onderzoeksperiode

Aan de hand van logistische regressiemodellen worden de variabelen onafhankelijk van elkaar getoetst of er een significant effect gevonden wordt met default. Hieronder is de standaardformule, die gebruikt kan worden bij een logistische regressie weergegeven, waarbij de β0 de intercept is en β1, β2… βj de coëfficiënten van de onafhankelijke variabelen. X1, X2…Xj zijn de variabelen die in het onderzoek worden meegenomen.

Ln(P/1-P) = β0 + β1X1 + β2X2 + …. + βjXj

Met logistische regressie kan aangetoond worden hoe goed de set van onafhankelijke variabelen, de afhankelijke variabele kan voorspellen/verklaren. Het geeft hierbij een indicatie van de adequaatheid van een model.

In Afbeelding 3.2 zijn alle variabelen weergegeven die dit onderzoek zal testen of deze een effect/relatie hebben op default. Er zullen meerdere regressie modellen uitgevoerd worden in dit onderzoek. Een regressiemodel met alleen de sociaal-demografische variabelen zal uitgevoerd worden en een model met alleen de gedrag specifieke variabelen. Tevens zal een model gedraaid worden als het “combined” model, waarbij alle variabelen worden meegenomen. Als laatste regressie wordt nog gekeken naar de backward regressie en de forward regressie. Beide worden behandeld op basis van de Wald score.

3.3 Definiëring data

Deze studie maakt gebruik van het systeem van Omega. In het datawarehouse van Omega worden op individueel klantniveau bijna alle data van een klant vastgelegd met betrekking tot transacties en de standaard gegevens die een klant invult bij het aanvragen van een creditcard (bijv. geboortedatum, geslacht, Burgerlijke staat en BSN etc.). De sociaal-demografische

(18)

variabelen zijn door de klant afgegeven op het moment van de creditcard aanvraag en de gedragsvariabelen worden bijgehouden aan de hand van een datawarehouse.

In Afbeelding 3.2 zijn de variabelen weergegeven van dit onderzoek. De variabelen zijn gesplitst in sociaal-demografisch en gedrag specifiek. In totaal worden in het onderzoek 22 variabelen meegenomen in de analyse, inclusief de afhankelijke variabele.

In de volgende paragrafen worden de sociaal-demografische variabelen en de gedragsvariabelen nader toegelicht. De variabelen zijn vastgesteld op basis van eerder onderzoek dat heeft aangegeven dat er meer gedrag specifieke variabelen (betalingshandelingen/accountactiviteit) onderzocht kunnen worden. De auteur heeft hierbij gedrag specifieke variabelen onderzocht waarover hij kan beschikken.

Afbeelding 3.2 Definities van variabelen

3.3.1 Afhankelijke variabele

De afhankelijke variabele in dit onderzoek is Default. De definitie van default in dit onderzoek sluit aan op de definitie van de BCBS, waarbij klanten 90 dagen of meer in achterstand staan. De afhankelijke variabele is een dummy variabele waarbij er twee waardes aan de klant gegeven kunnen worden (dichotoom van aard). Klanten die niet in default zijn geraakt en hun betalingen op tijd hebben betaald zullen een waarde krijgen van 0, klanten die in default zijn geraakt krijgen een waarde van 1.

(19)

3.3.2 Sociaal-demografische variabelen

Sociaal-demografische variabelen worden door de klant aangeleverd aan de financiële instelling bij de aanvraag van een creditcard. Hieronder worden sommige variabele beschreven als een categorische variabele die omgezet worden naar dummy variabelen. Het aantal categorieën minus 1 wordt aangehouden voor het aanmaken van dummy’s waarvan ook de referentiecategorie wordt gegeven.

Geslacht zal behandeld worden als een dummy variabele waarbij 0 een vrouw is en 1 een

man. Burgerlijke staat wordt weergegeven als een categorische variabele met de volgende mogelijkheden (Ongehuwd, Samenwonend, Gehuwd, Single + kind, Weduwe/weduwnaar en Samenwonend/Gehuwd met kind), waarbij er 5 dummy variabelen aangemaakt worden met gehuwd als referentie. Huisvesting geeft aan wat de woonsituatie is van de aanvrager en wordt weergegeven als een categorische variabele (eigen huis, huurhuis, inwonend bij ouders en studentenwoning), waarbij er 3 dummy variabelen aangemaakt worden met eigen huis als referentiecategorie. De leeftijd van de aanvrager wordt ingevuld bij de aanvraag van een creditcard en wordt behandeld als een continu variabele. De BKR-score van een klant geeft aan wat het verwachte risico is van een klant. Deze variabele is categorisch. Hoe lager de score in het alfabet, hoe lager de verwachting is dat de klant niet terugbetaalt. Categorie K/L wordt geacht meer een relatie te hebben met default dan categorie A/B. Bij deze variabele zijn er 4 dummy variabelen aangemaakt met score A/B als referentiecategorie.

3.3.3 Gedrag specifieke variabelen

Gedrag specifieke variabelen zijn variabelen die specifiek toe te wijzen zijn aan een klant en die kunnen wijzigen in de tijd en per transactie.

De variabele Tijd in portefeuille geeft aan hoeveel maanden een klant al in de portefeuille aanwezig is. Dit is een discrete variabele die wordt gemeten met het aantal maanden. De variabele Terugbetaalmethode geeft de wijze aan van de terugbetaling van de klant. Dit kan op twee manieren gebeuren waarbij deze variabele behandeld wordt als een dummy variabele (1 = automatische incasso en 0 = overboeking). Kredietlimiet geeft de persoonlijke limiet van de klant aan op zijn creditcard. Deze variabele is continu. De variabele Bezettingsgraad geeft het uitstaand saldo aan van de kredietlimiet. Deze variabele is continu van 0,00 tot en met 5,00 waarbij bijvoorbeeld 0,05 betekent dat de klant 5% van zijn kredietlimiet uit heeft staan. De variabele Limiet overtreding geeft aan of de klant de kredietlimiet heeft overschreden. Deze variabele wordt behandeld als een dummy, waarbij bij 1 de klant de kredietlimiet heeft overschreden en 0 als de klant geen limietovertreding heeft begaan. De variabele Storno is een

(20)

dummy variabele die aangeeft of de klant in het jaar 2016 een stornering (1) of geen stornering (0) heeft gehad. Creditcard gebruik als variabele geeft aan hoe vaak een klant zijn creditcard heeft gebruikt in de periode en wordt discreet behandeld. De variabele Achterstand geeft aan of de klant al in achterstand staat aan het begin van de periode (2016). Deze variabele wordt als een dummy behandeld. De andere categorieën in deze variabele zijn 1-30 en 30+ dagen in achterstand. Dat de klant niet in achterstand staat wordt als referentie categorie aangehouden.

Geldopnames wordt behandeld als een discrete variabele voor het aantal geldopnames en als

een continu variabele voor het bedrag aan geldopnames, waarbij geregistreerd wordt hoe vaak en hoeveel een klant contant geld heeft opgenomen in Nederland. Overboekingen naar bank is een discrete variabele voor het aantal overboekingen en een continu variabele voor het totaalbedrag aan overboekingen naar bank. Deze variabelen kijken hoe vaak de klant geld overboekt en hoeveel de klant overboekt van zijn creditcard naar een bankrekening.

In dit onderzoek worden variabelen meegenomen die naar weten van de auteur niet in eerdere literatuur is onderzocht in combinatie met default. Door de auteur worden deze variabele gedefinieerd als risicovolle transacties. Dit zijn creditcard transacties met betrekking tot Gokken en Retail aankopen. Retail transacties wordt behandeld als een discrete variabele voor het aantal transacties en als een continu variabele voor het bedrag van de transacties. Onder Retail transacties vallen de volgende categorieën: Kleding, eten & drinken, supermarkt en winkels met betrekking tot artikelen voor in huis. Goktransacties wordt behandeld als een discrete variabele voor het aantal transacties en als een continu variabele voor het bedrag van de transacties. Onder goktransacties vallen de volgende categorieën: Casino, Loterij en Betting.

3.3.4 Statistische methodes

In dit onderzoek worden verschillende statistische analyses gebruikt om tot accurate conclusies te komen. In onderstaande paragrafen worden de Logistische regressie en de beschrijvende statistieken beschreven.

Een logistische regressieanalyse kan gebruikt worden om een voorspellend model te maken die de kans bepaalt op een positieve uitkomst van de afhankelijke variabele (default). Dit wordt in deze studie getest met 21 onafhankelijke variabelen.

Bij een logistische regressie zijn een aantal belangrijke waardes te definiëren die de uitkomsten van de analyse verklaren. De Cox & Snell waarden en de Nagelkerke waarden geven beide een indicatie van de hoeveelheid variantie van de afhankelijke variabele (default) die verklaard wordt door het model. Hierbij bieden beide een maatstaf voor de inhoudelijke betekenis van het model (Field, 2013).

(21)

De Hosmer-Lemeshow Test is een betrouwbare test of het model geschikt is (Palant, 2007). De Hosmer-Lemeshow Goodness of Fit Test geeft aan of het model geschikt is bij een significantie level hoger dan .05.

Daarnaast zal in dit onderzoek de Wald toets worden meegenomen. Deze toets geeft aan welke individuele variabele een significante voorspellende waarde heeft op het model. De Wald toets is significant bij een waarde van .05 of lager (Palant, 2007).

De B-waardes die in dit onderzoek naar voren komen zijn de waardes die gebruikt kunnen worden in de formule die beschreven staat in paragraaf 3.2. De richting van de B-waarde kan worden genoteerd door een positieve of een negatieve waarde (Palant, 2007).

Tevens wordt in dit onderzoek gekeken naar de Odds ratio. Deze wordt door Tabachnick en Fidell (2007) ook wel gedefinieerd als ‘de verandering in kansen om in een van de uitkomstcategorieën te zitten wanneer de waarde van een onafhankelijke voorspellende variabele met één eenheid toeneemt’.

Verder zullen in dit onderzoek de gemiddelde waarden, standard deviation en de skewness van de onafhankelijke variabelen aan bod komen om meer inzicht te geven over de dataset. De skewness geeft hierbij een indicatie van de symmetrie van de distributie. De “descriptive statistics” in SPSS zullen verder behandeld worden in het hoofdstuk resultaten. Het beschrijvende deel van de studie is belangrijk omdat het de context voor de generaliseerbaarheid van de resultaten bepaalt.

(22)

4 Resultaten

In dit hoofdstuk worden eerst de beschrijvende statistieken van de variabelen benoemd. In het vervolg worden de resultaten per regressiemodel beschreven. In de laatste paragraaf “Overige resultaten” worden nog de extreme variabelen en de backward en forward regressie besproken.

4.1 Beschrijvende statistieken van de variabelen

In totaal zijn 25.291 klanten onderzocht in de periode januari 2016 tot en met december 2016, waarbij default betrekking heeft op januari 2017 tot en met december 2017. Bij het analyseren van deze studie zijn de volgende beschrijvende statistieken van toepassing (zie tabel 1 en 2).

De leeftijd van de klant varieert van 19 tot en met 97 met een gemiddelde van 46,16, een mediaan van 46 en een modus van 47. Wanneer de modus, mediaan en het gemiddelde (ongeveer) gelijk zijn aan elkaar, is de variabele gelijk/normaal verdeeld. Dat leeftijd in de dataset een links-scheve verdeling laat zien kan te verklaren zijn doordat jongere mensen vaker een creditcard hebben voor online aankopen. Een links-scheve verdeling noteert een negatieve waarde en een rechts-scheve verdeling een positieve waarde (skewness).

Het geslacht resulteert in een gemiddelde van 0,69 wat betekent dat 69% van de dataset een man is. Een verklaring dat mannen vaker een creditcard hebben dan vrouwen kan zijn dat creditcards vroeger vooral uitgegeven zijn aan zakenlieden en reizigers (dit waren in die tijd vooral mannen). Tevens is er een inkomen nodig om een creditcard aan te vragen, waarbij de man vaak nog de kostwinner is van een huishouden5_.

Tijd in portefeuille heeft een minimum van 0 maanden in de portefeuille met een maximum van 140 maanden en een gemiddelde van 45,51 maanden. Een verklaring hiervoor kan zijn dat een groot gedeelte van de dataset relatief jong is en dus nog niet zo lang een creditcard kan hebben.

Terugbetaalmethode resulteert in een gemiddelde van 0,36 wat betekent dat 64% in de dataset als terugbetaalmethode een overboeking doet. Dit geeft aan dat de meerderheid van de dataset liever zelf een overboeking doet dan dat het automatisch geïncasseerd wordt. Zowel leeftijd, geslacht, tijd in portefeuille en terugbetaalmethode laten een normale verdeling zien. Hierbij laat geslacht een links-scheve verdeling zien en de andere drie variabelen een rechts-scheve verdeling.

(23)

De kredietlimiet ligt ruim uit elkaar met als laagste limiet 100 euro en als hoogste limiet 23.000 euro, waarbij het gemiddelde 2.765 euro is. Het grote verschil in de kredietlimieten kan verklaard worden door inkomensverschillen en hoe een klant zijn creditcard gebruikt. Sommige klanten gebruiken hun creditcard als back-up voor eventuele kosten en sommige gebruiken de creditcard juist voor luxe reizen en/of producten.

Bezettingsgraad geeft een waarde tussen de 0% en de 400% bezetting van de kredietlimiet met een gemiddelde van 21,3% bezetting van de kredietlimiet. Dit geeft aan dat sommige klanten hun creditcard soms gebruiken voor bijvoorbeeld een vakantie, maar in extreme gevallen gebruiken klanten de creditcard heel intensief het hele jaar door met een bezetting hoger dan de gestelde kredietlimiet.

De variabele Storno heeft een gemiddelde van 0,08 wat aangeeft dat 8% van de populatie een storno heeft gehad in het jaar 2016. De redenen voor een storno kunnen divers zijn. Een klant kan het niet eens zijn met de stornering of een klant kan het simpelweg niet betalen. Als een klant het niet kan betalen kan dit een indicatie geven op toekomstig default.

Creditcard gebruik varieert tussen de 0 en de 900 keer dat de klant zijn creditcard heeft gebruikt met een gemiddelde van 25,87 keer. Dit geeft aan dat weinig klanten hun creditcards heel veel gebruiken. De modus van deze variabele is 0, wat aangeeft dat een groot gedeelte van de dataset hun creditcard het hele jaar niet heeft gebruikt. In acht nemende dat een heleboel klanten hun creditcard niet gebruiken en sommige klanten tot wel 900 keer, kunnen we hier concluderen dat er extremen in deze variabele zitten.

Andere variabelen met veel extremen in de dataset zijn het aantal goktransacties en het bedrag van de goktransacties. Het aantal gokstransacties ligt tussen de 0 en de 688 keer met een laag gemiddelde van 0,65 wat vanzelfsprekend resulteert in een hoge positieve skewness van 36,893. Het totale bedrag van de goktransacties varieert van 0 tot en met 46.950 euro met een gemiddelde van 37,79 euro, waarbij deze variabele ook een uiterst rechts-scheve verdeling laat zien. Bij beide variabelen is de modus 0, maar beide variabelen hebben hoge maxima. Dit is te verklaren dat een groot gedeelte van de klanten nooit gokt, een ander gedeelte van de klanten meedoet met een loterij (kleine bedragen) en een andere groep gokt met hogere bedragen. In deze variabele zitten dus extreme verschillen qua aantallen en bedragen.

De overige variabelen die bovenstaand niet besproken zijn maar die wel terug te vinden zijn in tabel 1 geven allemaal ongeveer hetzelfde beeld. De modus bij deze variabelen is 0 en deze gedrag specifieke variabelen geven allemaal een hoge positieve skewness (een rechts-scheve verdeling). Dit betekent dat er in dit onderzoek veel extremen worden meegenomen. In dit

(24)

onderzoek zijn we hier ook in geïnteresseerd, omdat default vaak voorkomt in extreme gevallen en default zelf ook als een extreme gezien kan worden (1% van de hele dataset noteert default). Het is daardoor logisch om de extremen in het onderzoek/statistische methodes mee te nemen. In paragraaf 4.3.1 worden een aantal extremen uit het onderzoek gehaald met daaraan gekoppeld de onderliggende impact op de relatie met default.

Tabel 1 Beschrijvende statistieken variabelen (excl. categorische variabelen)

Variabelen Minimum Maximum Gemiddelde Mediaan Modus Std. deviation Skewness

Leeftijd 19 97 46,16 46,00 47,00 12,864 0,397 Geslacht 0 1 0,69 1,00 1 0,462 -0,832 Tijd in portefeuille 0 140 45,51 41,00 81 33,856 0,725 Terugbetaalmethode 0 1 0,36 0,00 0 0,479 0,601 Kredietlimiet 100 23.000 2.765,48 2500 2500 1194,679 3,054 Bezettingsgraad 0 4 0,213 0,043 ,0 0,3225 1,589 Limiet overtredingen 0 1 0,00 0,00 0 0,040 25,087 Storno 0 1 0,08 0,00 0 0,266 3,192 Creditcard gebruik 0 900 25,87 13,00 0 37,945 4,311 Goktransacties# 0 688 0,65 0,00 0 9,285 36.893 Goktransacties bedrag 0 46.950 37,79 0,00 0 618,329 42,401 Geldopnames# 0 146 0,88 0,00 0 3,822 10,803 Geldopnames bedrag 0 49.860 129,13 0,00 0 774,931 22,737 Retail transacties# 0 891 10,38 3,00 0 19,482 8,955 Retail bedrag 0 52.380 551,20 124,00 0 1183,523 8,457

Overboekingen naar bank# 0 248 2,08 0,00 0 8,157 9,244

Overboekingen naar bank bedrag

0 238.960 1174,99 0,00 0 6168,018 13,995

Default 0 1 0,01 0,00 0 0,094 10,437

De variabelen zijn gedefinieerd in paragraaf 3.3

De categorische variabelen burgerlijke staat, huisvesting, achterstand en BKR-score worden hieronder behandeld. Bij de variabele BKR-score hebben de meeste klanten categorie A/B (17,190). Categorie C/D heeft 5.146 klanten, 2,367 klanten zitten in categorie E/F/G/H, 493 klanten zitten in categorie I/J en 186 klanten zitten in categorie K/L. Dit is te verklaren omdat Omega klanten niet aanneemt als de klanten bijvoorbeeld in categorie I/J of K/L zitten. Deze klanten hebben al betalingsachterstanden en zouden niet door het aanvraagproces van een creditcard komen. Burgerlijke staat kan onderverdeeld worden in 7.221 klanten die gehuwd zijn, 7.693 klanten die ongehuwd zijn, 5.978 klanten die samenwonend/gehuwd met kind zijn, 3.226 klanten die samenwonend zijn, 1.180 klanten die single zijn met een kind en 84 klanten die weduwe of weduwnaar zijn. Hieruit kan geconcludeerd worden dat de klanten redelijk verdeeld zijn over de verschillende categorieën en dat weduwe/weduwnaar weinig voor komt. Dat weduwe/weduwnaar niet vaak voorkomt kan verklaard worden door de gemiddelde leeftijd uit de dataset en de leeftijd dat een mens overlijdt. Het aantal klanten dat niet in Achterstand staat noteert 23.974, 1.133 klanten staan 1-30 dagen in achterstand en 275 klanten staan 30+ dagen in

(25)

achterstand. Logischerwijs is deze variabele gelinkt aan de afhankelijke variabele van dit onderzoek en zou het aantal klanten dat langer dan 30+ achterstand heeft niet heel veel kunnen afwijken van de afhankelijke variabele. Huisvesting van de klant komt in deze studie uit op 17.532 klanten die een eigen huis hebben, 6.284 klanten die een huurhuis hebben, 1.559 klanten die inwonend zijn bij ouders en 7 klanten die in een studentenwoning wonen. Dat er maar 7 waarnemingen zijn met een studentenwoning kan te verklaren zijn doordat studenten bij hun betaalpakket bij de bank een gratis creditcard kunnen krijgen. Het product dat in deze studie is onderzocht bevat niet deze specifieke creditcard. Een totaaloverzicht van de categorische variabelen en hoe de variabelen gecodeerd zijn, is terug te vinden in tabel 2.

Tabel 2: Beschrijvende statistieken en codering categorische variabelen

Variabelen Categorie Frequentie Percentage (cum) (1) (2) (3) (4)

BKR-score A/B C/D E/F/G/H I/J K/L 17.190 5.146 2.346 493 186 67,7 88,0 97,3 99,3 100 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1

Burgerlijk staat Gehuwd Ongehuwd

Samenwonend/Gehuwd met kind Samenwonend Single + Kind Weduwe/Weduwnaar 7.221 7.693 5.978 3.226 1.180 84 28,4 58,8 82,3 95,0 99,7 100 0 1 0 0 0 n.v.t. 0 0 1 0 0 n.v.t. 0 0 0 1 0 n.v.t. 0 0 0 0 1 n.v.t. Achterstand 0 1-30 30+ 23.974 1.133 275 94,5 98,9 100 0 1 0 0 0 1

Huisvesting Eigen huis Huurhuis

Inwonend bij ouders Studentenwoning 17.532 6.284 1.559 7 69,1 93,8 100,0 100,0 0 1 0 n.v.t. 0 0 1 n.v.t.

De variabelen zijn gedefinieerd in paragraaf 3.3.

(1), (2), (3) en (4) geeft de codering aan van de dummy variabelen

Op basis van de beschrijvende statistieken is er besloten om de volgende categorieën in bovenstaande variabelen niet mee te nemen in de regressieanalyse omdat deze categorieën een te klein aantal hebben in de desbetreffende variabele. Bij burgerlijke staat wordt de categorie weduwe/weduwnaar uit de dataset gehaald met het aantal van 84 klanten. Bij huisvesting wordt de categorie studentenwoning uit de dataset gehaald met het aantal van 7 klanten.

(26)

4.2 Resultaten per regressiemodel

4.2.1 Regressiemodel sociaal-demografisch variabelen

In het regressiemodel sociaal-demografisch zijn de volgende variabelen meegenomen om te onderzoeken wat de relatie is met default: Leeftijd, Geslacht, Huisvesting, Burgerlijke staat en BKR-score.

In tabel 3 zijn de significanties terug te vinden van alle drie de regressiemodellen. In tabel 4 zijn de statistieken terug te vinden waar alle vijf sociaal-demografische variabelen in het model zijn opgenomen. Het model met de voorspellers is statistisch significant X2 _{(12, N=25.291) =} 228,979, p<.001 (Omnibus Tests of Model Coefficients). Het model verklaart tussen de 0,9% (Cox and Snell R Square) en 9,3% (Nagelkerke R Square) van de variantie in default, en heeft 99,1% correct ingedeeld. De Hosmer and Lemeshow test noteert een chi-square van 6,678 met een significantie van 0,572. De waarde is hoger dan 0,05 wat wijst op ondersteuning van het model.

Leeftijd is significant met een p<.01 en heeft een positieve B-waarde van 0,019. Dit geeft de indicatie dat het een positieve relatie heeft met default. De odds ratio geeft een waarde van 1,019 wat aangeeft dat per jaar dat de klant ouder wordt er 1,019 keer meer kans is dat over een klant default wordt gerapporteerd. Bovenstaande kan economisch significant zijn omdat voor het bedrijf Omega hieruit blijkt dat hoe ouder iemand is, hoe hoger de kans is dat deze in default raakt. Hierbij kan Omega zich afvragen of het handig is om klanten boven een bepaalde leeftijd te accepteren, waarbij leeftijdsdiscriminatie ook een rol van betekenis speelt. Leeftijd heeft een significante relatie met default, maar omgekeerd ten opzichte van de verwachting. Een hogere leeftijd heeft een sterkere relatie met default dan een jongere klant. Een mogelijke verklaring voor dit resultaat kan zijn dat als een klant ouder wordt, zijn kosten hoger kunnen worden en dat zijn inkomen niet meegroeit, waardoor de klant in betalingsproblemen kan komen. Een andere verklaring kan zijn dat klanten gewend zijn aan een bepaalde levenstandaard als ze ouder zijn en deze niet aanpassen als het inkomen daalt. Tevens kan het inkomen van ouderen dalen na pensionering.

De variabele BKR-score heeft een Wald statistiek van 187,992 en is significant met 0,000. Tevens zijn alle andere categorieën significant met p= 0,000 ten opzichte van de referentie categorie A/B. BKR-score1 (C/D) heeft een odds ratio van 3,516 wat betekent dat deze categorie de kans heeft die 3,516 groter is om in default te raken. Bij categorie E/F/G/H is de kans zelfs 6,817. Bij categorie I/J is dit 11,874 en bij categorie K/L is dit zelfs 26,090 ten opzichte van de referentiecategorie A/B. Dat deze odds ratio zo extreem hoog is kan te

(27)

verklaren zijn door het feit dat categorie K/L zelf ook een extreme is in de variabele. Hoe hoger de BKR-score in het alfabet is, hoe hoger de kans is dat een klant in default raakt. Dit sluit aan bij het onderzoek van Agarwal et al. (2011) waarbij kredietnemers die een lagere FICO-score hebben, meer geneigd zijn om hun betalingen niet te voldoen en hierdoor in default raken. Tevens sluit dit aan bij de verwachting die in het theoretisch kader is aangenomen.

Huisvesting blijkt een significante variabele te zijn met een significantieniveau van p= 0,000 en een Wald statistiek van 23,881. De statistieken van de verschillende categorieën rapporteren dat de kans op default met een huurhuis 1,892 groter is dan voor de referentie categorie “Eigen huis”. Dit verschil blijkt tevens ook significant p= 0,000. De CI van 95% ligt tussen de 1,393 en de 2,568 (niet in tabelvorm). De kans op default is nog groter met de categorie “Inwonend bij ouders”. Met een odds ratio van 2,701 en een significantieniveau van p= 0,000 draagt deze variabele significant bij aan het model. De variabele huisvesting is qua algemeenheid significant maar ook de categorieën huurhuis en inwonend bij ouders geven een significantie ten opzichte van de referentiegroep eigen huis. Dit is te verklaren doordat klanten met een eigen huis in principe vermogender worden geacht dan de klanten in de categorieën huurhuis en inwonend bij ouders, wat tevens ook de verwachting was in het theoretisch kader. Dit resultaat sluit aan bij onderzoeken van Ozdemir en Boran (2004) en Hörkkö (2010), waarbij huisvesting ook een significante voorspeller is. Huisvesting verklaart na de BKR-score de meeste variantie in de regressiemodellen van de sociaal-demografische variabelen.

Geslacht, Burgerlijke staat en de verschillende categorieën dragen allemaal niet significant bij aan de modellen. Over geslacht was van tevoren geen uitspraak gedaan of er een verschil is tussen man en vrouw en de relatie tot default. In het onderzoek komt hier ook geen significant verschil uit, terwijl Hörkkö (2010) wel een significant verschil vindt bij geslacht. Bij burgerlijke staat was van tevoren de verwachting dat er een verschil in de relatie zou zijn tussen de verschillende categorieën, wat in dit onderzoek niet is aangetoond. Dit kan te verklaren zijn dat bij elke soort klant een passende kredietlimiet wordt gehanteerd, waarbij Omega een berekening maakt of deze klant niet in default raakt en aan zijn betalingen kan voldoen.

(28)

Tabel 3: Logistische regressie, alle drie de modellen Model sociaal-demografisch Model gedrag specifiek Model combined Exp(B) or Odds ratio Sig. Exp(B) or Odds ratio Sig. Exp(B) or Odds ratio Sig. Leeftijd 1,019 0,002* 1,019 0,004* Geslacht 1,277 0,109 1,270 0,127 Huisvesting1 (Huurhuis) 1,892 0,000* 1,567 0,005* Huisvesting2 (Inwonend bij ouders)

2,701 0,000* 1,952 0,008* Burgerlijke staat1 (ongehuwd) 1,037 0,856 1,035 0,867 Burgerlijke staat2 (Samenwonend/Gehuwd met kind) 1,089 0,687 0,908 0,657 Burgerlijke staat3 (samenwonend) 0,849 0,543 1,006 0,983 Burgerlijke staat4 (single + kind) 1,322 0,364 0,984 0,959 BKR-score1 (C/D) 3,516 0,000* 2,207 0,000* BKR-score2 (E/F/G/H) 6,817 0,000* 2,828 0,000* BKR-score3 (I/J) 11,874 0,000* 2,992 0,000* BKR-score4 (K/L) 26,090 0,000* 5,790 0,000* Tijd in portefeuille 0,998 0,244 0,999 0,603 Terugbetaalmethode 0,410 0,000* 0,454 0,000* Kredietlimiet 1,000 0,007* 1,000 0,024* Bezettingsgraad 7,953 0,000* 5,127 0,000* Limietovertredingen 0,585 0,356 0,656 0,463 Storno 2,954 0,000* 2,802 0,000* Creditcardgebruik 1,000 0,980 1,001 0,884 Goktransacties# 1,006 0,476 1,005 0,571 Goktransacties bedrag 1,000 0,432 1,000 0,421 Geldopnames# 1,038 0,147 1,037 0,168 Geldopnames bedrag 1,000 0,253 1,000 0,267 Retailtransacties# 1,005 0,449 1,005 0,444 Retail bedrag 0,999 0,004* 1,000 0,009* Achterstand (1) 0-30 1,270 0,239 1,223 0,328 Achterstand (2) 30+ 3,194 0,000* 2,914 0,000* Overboekingen naar bank# 0,975 0,102 0,973 0,077 Overboekingen naar bank bedrag 1,000 0,785 1,000 0,845

Cox and Snell R Square Nagelkerke R Square 0,9% 9,3% 1,6% 17,0% 1,9% 19,3%

(29)

4.2.2 Regressiemodel gedrag specifieke variabelen

In het regressiemodel gedrag specifiek zijn de volgende variabelen meegenomen om te onderzoeken wat de relatie is met Default: Tijd in portefeuille, terugbetaalmethode, kredietlimiet, bezettingsgraad, limietovertredingen, storno, creditcard gebruik, goktransacties#, goktransacties bedrag, geldopnames#, geldopnames bedrag, Retail transacties#, Retail bedrag, achterstand, overboekingen naar bank # en overboekingen naar bank bedrag.

In tabel 3 zijn de significanties terug te vinden van alle regressiemodellen en in tabel 4 zijn de statistieken terug te vinden van het regressiemodel waar alle 16 gedrag specifieke variabelen in het model zijn opgenomen. Het model met de voorspellers is statistisch significant X2 _{(17, N=25.291)} _{= 419,648, p<.001 (Omnibus Tests of Model Coefficients. Het model} verklaart tussen de 1,6% (Cox and Snell R Square) en 17,0% (Nagelkerke R Square) van de variantie in default, en heeft 99,1% correct ingedeeld. De Hosmer and Lemeshow test noteert een chi-square van 16,330 met een waarde van 0,038 die geen significantie aantoont. De waarde is lager dan 0,05 wat wijst op geen/weinig ondersteuning van het model.

Terugbetaalmethode noteert een B van -0,892 en een Wald van 20,750. Tevens heeft de variabele een significantie van p= 0,000. De Odds ratio noteert een 0,410 met een CI 95% tussen de 0,279 en de 0,602 (niet in tabelvorm). De intervallen zijn allebei lager dan 1 wat aangeeft dat als de klant een automatische incasso heeft, dat de kans tussen de 0,279 en de 0,602 lager ligt om in default te raken dan als de klant een overboeking heeft ingesteld als terugbetaalmethode. Terugbetaalmethode heeft een sterkere relatie met default als de klant een overboeking doet ten opzichte van een automatische incasso. Dit resultaat lijkt verklaarbaar doordat klanten met een automatische incasso zekerder zijn dat ze de creditcardbetalingen kunnen voldoen, zoals de verwachting in het theoretisch kader ook schepte.

Kredietlimiet is significant met p= 0,007 maar met een odds ratio van 1,000 zijn de verschillen wel miniem tussen een lage limiet en een hoge limiet. Dit kan te maken hebben met de grote standard deviation en de rechts-scheve verdeling van de variabele.

Bezettingsgraad noteert een B van 2,074, een Wald van 111,785 met een significantie van p= 0,000. De Odds ratio noteert een 7,953 wat aangeeft dat de kans veel hoger is dat een klant in default raakt met een hogere bezettingsgraad. Bezettingsgraad verklaart het grootste gedeelte van de variantie met default van de gedrag specifieke variabelen. Een verklaring hiervoor kan zijn dat een hogere bezettingsgraad dichter bij de maximale limiet is van de creditcard en dus dichterbij een limietoverschrijding, wat kan leiden tot default. Dit resultaat is in overeenstemming met de verwachting die is uitgesproken in het theoretisch kader.

(30)

De variabele storno noteert een B van 1,083, een Wald van 44,965 met een significantie van p= 0,000. De Odds ratio noteert 2,954 en het interval ligt tussen de 2,152 en de 4,054 (niet in tabelvorm). De kans op default bij een klant is 2,954 hoger als een klant een storno heeft gehad. Als een klant een stornering heeft gedaan in 2016 geeft dat meer een relatie met default dan als de klant geen stornering heeft gedaan. Deze verwachting is ook uitgesproken in het theoretisch kader omdat het een indicatie kan geven dat de klant op het moment niet liquide genoeg is om zijn rekening te betalen, wat kan leiden tot eventuele default.

Retail bedrag laat een significantie zien van p= 0,004 maar net als bij kredietlimiet zijn de verschillen verwaarloosbaar met een interval tussen 0,999 en de 1,000. Een verklaring hiervoor kan de grote standard deviation en een rechts-scheve verdeling van de variabele zijn.

De laatste significante variabele is achterstand. Achterstand noteert een Wald van 20,582 met een significantie waarde van p= 0,000. De categorie 1-30 laat ten opzichte van de referentie categorie “geen achterstand” geen significantie zien. De categorie 30+ laat echter een een B-waarde van 1,161, een Wald van 20,524 en een significantie zien van p= 0,000. De Odds ratio noteert 3,194 met een interval tussen de 1,933 en de 5,279. Dit betekent dat de categorie 30+ een kans heeft die 3,194 keer groter is om in default te raken dan de referentie categorie “geen achterstand”. Dat de klant in 2016 in achterstand heeft gestaan leek vooraf al een indicator die een relatie zou hebben met default, omdat je eerst in achterstand komt om vervolgens in default te raken. Dat de categorie 30+ dan een grotere kans laat zien om in default te raken is dan een logisch uitkomst.

De overige variabelen die bovenstaand niet zijn besproken hadden allemaal geen significante bijdrage. Er kunnen een aantal redenen zijn waarom er geen relatie is gevonden tussen de resterende variabelen en default. Hieronder worden de overige variabelen besproken die geen significante relatie hebben met default en wat hierbij de redenen kunnen zijn. Creditcard gebruik is niet significant en kan te verklaren zijn dat deze variabele te algemeen was en dat verdere specificering van creditcard gebruik wenselijk is. Goktransacties waren bij zowel de aantallen en de bedragen niet significant, waarbij bij beide de verwachting was dat ze een significante relatie zouden hebben met default. Een verklaring hiervoor kan zijn dat bij goktransacties ook bedragen van loterijen worden meegenomen in de transacties. Dit soort transacties zijn vrij normaal in Nederland en hoeft zeker geen directe relatie te hebben met default. Bij de variabele retail transacties was het bedrag wel significant maar het aantal niet, waarbij de B-waarde enorm klein was bij een verhoging van het retail bedrag. Een verklaring kan zijn dat retail te algemeen gedefinieerd is en dat te veel transacties onder deze categorie vallen om

(31)

de relatie goed vast te stellen. Bij de variabele limiet overtredingen was de verwachting dat deze een relatie zou hebben met default als er limietovertredingen waren geconstateerd. Een verklaring dat deze relatie niet is gevonden kan te maken met de summiere observaties in deze dataset met betrekking tot limiet overtredingen. Bij overboekingen naar bank met betrekking tot het aantal en het bedrag is bij beide geen significante relatie gevonden, wat wel de verwachting was. Een verklaring kan zijn dat klanten die een overboeking als terugbetaalmethode hebben ingesteld, wel vaker tussen de creditcard en bankrekening overboekingen maken, maar dat dit geen impact hoeft te hebben op default. Bij tijd in portefeuille was de verwachting dat klanten die minder lang in de portefeuille zaten meer een relatie zouden hebben met default. In het onderzoek is dit niet naar voren gekomen, dat verklaard kan worden doordat de klanten al een voorprocedure door moeten om een krediet te krijgen die bij hun past. Bij zowel het bedrag als het aantal toont geldopnames geen significantie in het model, waarbij de verwachting was dat de relatie met default sterker zou zijn met meer en hogere geldopnames. Dat er geen relatie gevonden is, kan te maken hebben met de rechts-scheve verdeling en de grote standard deviation van beide variabelen.

De regressie is nog een keer gedraaid zonder de variabele achterstand. De verwachting was omdat een klant eerst in achterstand komt voordat je in default kan raken, dat deze variabele een mechanische relatie zou hebben met default. Het resultaat zonder de variabele achterstand geeft echter bijna geen verschil in de p-waardes en Odds ratio, waarbij we de resultaten van tabel 1 kunnen aannemen als accuraat.

4.2.3 Regressiemodel “combined model”

In het regressiemodel “combined” zijn alle variabelen meegenomen die ook zijn meegenomen in de sociaal-demografische en gedrag specifieke regressies om te onderzoeken wat de relatie is met default.

In tabel 3 zijn de significanties terug te vinden van alle modellen en in tabel 4 zijn de statistieken terug te vinden van het regressiemodel waar alle 21 variabelen in het model zijn opgenomen. Het model met de voorspellers is statistisch significant X2 _{(29, N=25.291)} ₌ 477,081, p<.001 (Omnibus Tests of Model Coefficients. Het model verklaart tussen de 1,9% (Cox and Snell R Square) en 19,3% (Nagelkerke R Square) van de variantie in default, en heeft 99,1% correct ingedeeld. De Hosmer and Lemeshow test noteert een chi-square van 11,867 met een waarde van p=0,157 wat significantie aantoont. De waarde is hoger dan 0,05, daarbij wijzend op ondersteuning van het model.

(32)

Tabel 4: Overige statistieken logistische regressies, alle drie de modellen

Model sociaal-demografisch Model gedrag specifiek Model combined

B S.E. Wald B S.E. Wald B S.E. Wald

Leeftijd 0,019 0,006 9,764 0,018 0,006 8,145 Geslacht 0,245 0,153 2,564 0,239 0,156 2,333 Huisvesting1 (Huurhuis) 0,637 0,156 16,688 0,449 0,160 7,922 Huisvesting2 (Inwonend bij ouders)

0,994 0,244 16,575 0,669 0,254 6,953 Burgerlijke staat1 (ongehuwd) 0,036 0,201 0,033 0,034 0,205 0,028 Burgerlijke staat2 (Samenwonend/Gehuwd met kind) 0,085 0,212 0,162 -0,096 0,218 0,197 Burgerlijke staat3 (samenwonend) -0,164 0,270 0,369 0,006 0,276 0,000 Burgerlijke staat4 (single + kind) 0,279 0,307 0,824 -0,016 0,323 0,003 BKR-score1 (C/D) 1,257 0,183 47,449 0,792 0,190 17,362 BKR-score2 (E/F/G/H) 1,919 0,191 100,696 1,040 0,210 24,584 BKR-score3 (I/J) 2,474 0,264 87,883 1,096 0,292 14,063 BKR-score4 (K/L) 3,262 0,300 117,959 1,756 0,336 27,399 Tijd in portefeuille -0,002 0,002 1,359 -0,001 0,002 0,271 Terugbetaalmethode -0,892 0,196 20,750 -0,791 0,197 16,125 Kredietlimiet 0,000 0,000 7,261 0,000 0,000 5,066 Bezettingsgraad 2,074 0,196 111,785 1,634 0,208 61,640 Limietovertredingen -0,537 0,582 0,850 -0,421 0,575 0,538 Storno 1,083 0,162 44,965 1,030 0,165 38,967 Creditcardgebruik 0,000 0,004 0,001 0,001 0,004 0,021 Goktransacties# 0,006 0,008 0,509 0,005 0,008 0,321 Goktransacties bedrag 0,000 0,000 0,618 0,000 0,000 0,647 Geldopnames# 0,038 0,026 2,100 0,036 0,026 1,905 Geldopnames bedrag 0,000 0,000 1,305 0,000 0,000 1,233 Retailtransacties# 0,005 0,007 0,574 0,005 0,007 0,585 Retail bedrag -0,001 0,000 8,221 0,000 0,000 6,894 Achterstand (1) 0-30 ,239 0,203 1,389 0,201 0,206 9,57 Achterstand (2) 30+ 1,161 0,256 20,524 1,069 0,265 16,316

Overboekingen naar bank# -0,025 0,015 2,678 -0,027 0,015 3,128

Overboekingen naar bank bedrag

0,000 0,000 0,075 0,000 0,000 0,038

De statistieken van het “combined” model geven qua significanties geen wijzigingen ten opzichte van het sociaal-demografische en het gedrag specifieke model. Alle variabelen die in de aparte modellen significant waren, zijn in het “combined” model ook significant. De 95% CI (niet in tabelvorm) heeft in bijna alle gevallen een kleinere range gekregen door hoogstwaarschijnlijk het toegenomen aantal variabelen die in het model zijn meegenomen, waarbij de precisie van de variabelen zijn veranderd. Tevens zijn de significanties miniem gedaald