Regressieanalyse is een veelgebruikte techniek bij data-analyse, waarbij de relatie tussen een
afhankelijke en (meerdere) onafhankelijke variabelen kan worden getoetst. Voor dit onderzoek
is gebruikt gemaakt van een multinomiale logistische regressieanalyse. Deze methode maakt
het mogelijk om een model te maken met daarin de relaties tussen meerdere onafhankelijke
variabelen en een afhankelijke variabele met meer dan twee categorieën (nominale variabele).
Daarbij kan ook de mate waarin dit model klopt en de significantie worden nagegaan.
Een logistische regressie model berekent de ‘kans’ (P) dat een bepaalde gebeurtenis
plaatsvindt. Deze kans wordt berekend door te kijken hoe vaak de gebeurtenis plaatsvindt (1)
ten opzichte van dat de gebeurtenis niet plaatsvindt (0). Deze gebeurtenissen kunnen vertaald
worden naar de keuze tussen twee vervoermiddelen. Bijvoorbeeld de kans dat een man de auto
neemt (0) ten opzichte van de fiets (1). Om een uitdrukking te geven aan deze kans zijn er
verschillende statistische termen voor handen. In deze analyse is gebruik gemaakt van het
zogenaamde ‘relative risk’ of ‘relative risk ratio’ om de kans te beschrijven voor een bepaalde
vervoermiddelkeuze. Om dit duidelijk te maken het volgende voorbeeld. De relative risk ratio
kan lopen van 0 tot oneindig, waarin de waarde 1 exact een gelijke kans aanduidt. Alle waardes
tussen de 0 en de 1 betekent een kleinere kans, alle waardes boven de 1 beteken een grotere
kans.
Stel dat er sprake is van de volgende verdeling van het autogebruik en het fietsgebruik van een
man, en we willen nagaan wat de kans is dat de man kiest voor de auto (0) ten opzichte van de
fiets (1):
Auto Fiets
De kans dat een man zal kiezen voor de auto ten opzichte van de fiets is in dit geval:
rrr = 60/40 = 1,5
De relative risk ratio is in dit geval 1,5 en dat geeft aan dat kans dat een man gebruik maakt
van de auto in plaats van de fiets anderhalf keer zo groot is. Bij een kans is er dus altijd een
referentie aan andere categorie van de afhankelijke variabele, de ‘referentiecategorie’: in dit
geval de fiets.
Bij een logistische regressie wordt echter niet alleen de keuze tussen de auto en de fiets
onderzocht, maar ook hoe dit zich verhoudt tot de keuze van vrouwen voor het ene of nadere
vervoermiddel (Geslacht). Dus hoe groot is de kans dat een man kiest voor de auto in plaats
van de fiets vergeleken met een gelijksoortige keuze van vrouwen? In dit geval worden er dus
twee referentiecategorieën gebruikt: de fiets en vrouwen. De relative risk ratio wordt dan als
volgt berekend :
Auto Fiets
Geslacht: man 60% 40%
Geslacht: vrouw 30% 70%
De kans dat een man voor de auto in plaats van de fiets zal kiezen in vergelijking met een
vrouw is in dit geval: rrr = 60/30 = 2
De relative risk ratio is in dit geval 2: dat betekent dat de kans dat een man voor de auto in
plaats van de fiets zal kiezen twee keer zo groot is dan de kans dat een vrouw de auto zal kiezen.
Bij een multinomiale logistische regressie is echter sprake van een afhankelijke variabele
(nominaal) met meer dan twee categorieën. In dit onderzoek worden vier alternatieven qua
vervoermiddelkeuze onderscheiden: de auto, het openbaar vervoer, fietsen en lopen. Omdat er
andere wijze verkregen, waardoor dit getal ook anders geïnterpreteerd moet worden. In een
multinomiale logistische regressie wordt net als in een logistische regressie gewerkt met een
standaard referentiecategorie in de afhankelijke variabele, zoals bijvoorbeeld weer de fiets. De
kans van een onafhankelijke variabele op een vervoermiddelkeuze wordt daardoor altijd ten
opzichte van deze referentiecategorie berekend. De multinomiale logistische regressieanalyse
zet ieder alternatief van de vervoermiddelkeuze af tegen deze referentiecategorie, waarbij de
overgebleven categorieën constant worden gehouden en dus niet hoeven worden meegeteld.
Daarbij blijft, net als in het eerdere voorbeeld, dat voor de onafhankelijke variabele
(bijvoorbeeld geslacht) ook gebruik wordt gemaakt van een referentiecategorie. Een voorbeeld
om dit te verduidelijken:
De situatie is:
Auto OV Fiets Lopen
Man 50% 5% 25% 20%
Vrouw 40% 5% 35% 20%
Om na te gaan wat in deze situatie de kans is dat mannen voor de auto kiezen in plaats van de
fiets vergeleken met vrouwen kan de relative risk ratio als volgt worden berekend. Allereerst
worden het ‘openbaar vervoer’ en ‘lopen’ constant gehouden en hoeven dus niet mee te worden
genomen in deze kansberekening.
Daardoor blijft de volgende situatie over:
Auto Fiets Totaal
Geslacht: man 50% 25% 75%
Geslacht: vrouw 40% 35% 75%
De relative risk ratio is in dit geval: rrr = (50/75) / (40/75) = 1,2
vrouwen is 1,2 keer zo groot.
Twee andere maten in de multinomiale logistische regressieanalyses zijn de pseudo R2, en de
significantie.De pseudo R2 is een maat waaruit de sterkte van het model kan worden geintepre-
teerd. De R2 geeft aan in welke mate de variantie van de afhankelijke variabele wordt verklaard
door het model. Deze maat kan een waarde aannemen tussen de 0 en de 1, waarbij 0 staat voor
geen enkele verklaring van het model en 1 wil zeggen dat de variantie in de variabele volledig
door het model wordt verklaard.
De significantie is een toetsing in hoeverre het gemeten effect wel of niet door toeval is on-
tstaan. Als blijkt dat het waargenomen effect niet door toeval is ontstaan, is er een significant
effect. Een significant effect wil zeggen dat het resultaat uit de steekproef kan worden gegen-