• No results found

4   Resultaten 22

4.3   Overige resultaten 33

Onderstaande paragrafen geven inzicht in de extremen van bepaalde variabelen en in de backward en forward regressiemodellen van dit onderzoek.

4.3.1   Extremen in variabelen

Onderstaande klanten zijn uit de dataset gehaald om het “combined” regressie model nog een keer te draaien en te analyseren of er significantie wijzigingen zijn op te merken. Het begin aantal was 25.291 klanten, waarbij in de voorgaande regressies al de categorieën Weduwe/weduwnaar (84) en studentwoning (7) uit de dataset zijn gehaald. De variabele kredietlimiet heeft een aantal kredietlimieten die erg afwijkend zijn ten opzichte van de andere, daarvoor is er in deze regressie voor gekozen om kredietlimieten boven de 10.000 uit de dataset te halen (36 klanten). Bezettingsgraad liep in de voorgaande regressie van 0% tot 400%. In deze regressie is ervoor gekozen om klanten met een bezettingsgraad boven de 2 eruit te halen (8 klanten). De range van het creditcard gebruik liep van 0 tot 900, waarvan er maar 12 klanten tussen de 400 en de 900 zaten, deze klanten zijn uit de dataset gehaald. Goktransacties boven de 15.000 euro zijn uit de

dataset gehaald omdat deze significant afweken (4 klanten). Het aantal geldopnames boven de 100 keer is eruit gehaald (3 klanten). Tevens waren er een paar hoge bedragen bij geldopnames, deze waren boven de 13.000 euro, waarbij 10 klanten uit de dataset zijn gehaald. Qua overboekingen naar bank is er 1 klant uit de dataset gehaald met betrekking tot hoge aantallen boven de 200 en er zijn 16 klanten uit de dataset gehaald die qua bedrag boven de 100.000 euro ver boven de andere klanten zaten.

Ook dit model met de voorspellers is statistisch significant X2 (29, N=25.202)= 480,879, p<.001 (Omnibus Tests of Model Coefficients). Het model verklaart tussen de 1,9% (Cox and Snell R Square) en 19,6% (Nagelkerke R Square) van de variantie in default, en heeft 99,1% correct ingedeeld. De Hosmer and Lemeshow test noteert een chi-square van 13,059 met een waarde van p=0,110 die significantie aantoont. De waarde is hoger dan 0,05 wat wijst op ondersteuning van het model. In tabel 4 zijn de statistieken terug te vinden van het regressiemodel waar alle 21 variabelen in het model zijn opgenomen met bovenstaande extreme in het model. Het regressiemodel exclusief bovenstaande extremen (niet in tabelvorm) toont met minieme wijzigingen dezelfde significanties aan met de variabelen als de regressie beschreven in paragraaf 4.3. Het enige verschil is dat door het verwijderen van kredietlimieten boven de 10.000 euro, deze variabele niet meer significant is (p=0,120) in het model. In het combined model was de p=0,024. Kredietlimiet was in de gedrag specifieke en combined regressie beide keren significant, maar de variabele was niet meer significant in de regressie nadat de extremen er uitgehaald zijn. Het is te verklaren omdat klanten al een kredietlimiet hebben die gekoppeld is aan hun aanvraag (Inkomen, Burgerlijke staat etc.). Hierdoor is er al een berekening gemaakt wat hun maximale limiet kan zijn en zou er dus geen verschil hoeven zijn in de relatie met default op basis van een kredietlimiet.

Ondanks dat de extremen uit de analyse zijn gehaald, tonen bovenstaande resultaten robuuste bevindingen. Ten slotte, aangevend dat extremen in het huidige onderzoek van belang zijn om mee te nemen in de analyses, omdat juist de extreme variabelen ervoor kunnen zorgen dat klanten in default raken.

4.3.2   Backward regressie

Bij de backward selectieprocedure worden eerst alle (21) onafhankelijke variabelen meegenomen. Daarna worden variabelen één voor één weggehaald met de automatische backward methode in SPSS op basis van de Wald score. In Tabel 5 zijn de beschrijvende statistieken weergegeven wanneer er variabelen worden weggehaald. De variabelen zijn op deze volgorde per stap uit de regressie gehaald: Burgerlijke staat, Creditcard gebruik, overboekingen naar bank bedrag, tijd in

portefeuille, goktransacties#, goktransacties bedrag, limietovertredingen, geldopnames bedrag, geldopnames#, Retail transacties# en geslacht. In het model is elke stap significant, ondanks dat er telkens minder variabelen worden meegenomen. De variabelen die niet zijn weggehaald zijn: leeftijd, kredietlimiet, huisvesting, BKR-score, terugbetaalmethode, bezettingsgraad, storno, Retail bedrag, achterstand en overboekingen naar bank#, omdat deze variabelen een zodanige Wald score hebben dat ze voorspellende waarde toevoegen aan het model. Dit betekent dat deze variabelen het model verklaren en de belangrijkste voorspellers zijn. Als alle variabelen in het model zitten is het percentage verklaarde variantie tussen de 1,9% en de 19,3%. Wanneer bovenstaande variabelen uit het model worden gehaald, is het percentage verklaarde variantie tussen de 1,8% en de 19,0%. Hieruit kan geconcludeerd worden dat het model met alle variabelen bijna geen extra verklarende waarde heeft ten opzichte van de variabelen die in het model zijn overgebleven en dus als zodanig de belangrijkste voorspellers zijn.

Tabel 5: Backward regressie met elke keer een variabele minder

Stap Variabelen eruit

gehaald per stap

Df X2 Sig. Cox and Snell

R square

Nagelkerke R square

1 Alle variabelen nog in het

model 29 477,081 0,000* 0,019 0,193 2 Burgerlijke staat 25 476,655 0,000* 0,019 0,192 3 Creditcard gebruik 24 476,637 0,000* 0,019 0,192 4 Overboekingen naar bank bedrag 23 476,588 0,000* 0,019 0,192 5 Tijd in portefeuille 22 476,307 0,000* 0,019 0,192 6 Goktransacties# 21 475,941 0,000* 0,019 0,192 7 Goktransacties bedrag 20 475,412 0,000* 0,019 0,192 8 Limietovertredingen 19 474,861 0,000* 0,019 0,192 9 Geldopnames bedrag 18 473,220 0,000* 0,019 0,191 10 Geldopnames# 17 472,908 0,000* 0,019 0,191 11 Retail transacties# 16 471,811 0,000* 0,018 0,190 12 Geslacht 15 469,764 0,000* 0,018 0,190

De variabelen zijn gedefinieerd in paragraaf 3.3.

Df: is het aantal vrijheidsgraden wat overblijft in het model

X2: is Chi-square

* p < 0,05

4.3.3   Forward regressie

De forward regressie begint de selectieprocedure met een model zonder onafhankelijke variabelen (voorspellers). De onafhankelijke variabelen worden één voor één toegevoegd met de automatische forward methode in SPSS op basis van de Wald score. Hierbij wordt bij elke stap gekeken of de volgende variabele het model verbetert. In Tabel 6 zijn de beschrijvende statistieken weergegeven wanneer er variabelen worden toegevoegd. De variabelen zijn op volgende wijze per stap toegevoegd aan de regressie: Bezettingsgraad, BKR-score, storno, achterstand, terugbetaalmethode, leeftijd, huisvesting, overboekingen naar bank#, kredietlimiet en retail bedrag. In het model is elke stap significant als er een variabele wordt toegevoegd. De

forward regressie begon met de eerste variabele tussen de 1,1% en de 11,7% verklarende variantie en de verklarende variantie eindigt net als bij de backward regressie tussen de 1,8% en de 19,0%.

Hieruit kan geconcludeerd worden dat het model met telkens één variabele meer, statistisch significant is en dat de verklarende waarde van de gegevens hoger worden tot een bepaald punt van variabelen toevoegen. De belangrijkste variabelen die default voorspellen kunnen op volgorde van de forward regressie gezien worden.

Tabel 6: Forward regressie met elke keer een variabele meer

Stap Variabele toegevoegd per stap

Df X2 Sig. Cox and Snell R

square Nagelkerke R square 1 Bezettingsgraad 1 288,120 0,000* ,011 ,117 2 BKR score 5 348,829 0,000* ,014 ,141 3 Storno 6 381,252 0,000* ,015 ,154 4 Achterstand 8 401,917 0,000* ,016 ,162 5 Terugbetaalmethode 9 421,765 0,000* ,017 ,170 6 Leeftijd 11 430,539 0,000* ,017 ,174 7 Huisvesting 12 446,816 0,000* ,018 ,180 8 Overboekingen naar bank# 13 455,332 0,000* ,018 ,184 9 Kredietlimiet 14 459,526 0,000* ,018 ,185 10 Retail bedrag 15 469,764 0,000* ,018 ,190

De variabelen zijn gedefinieerd in paragraaf 3.3.

Df: is het aantal vrijheidsgraden wat overblijft in het model

X2: is Chi-square