• No results found

Regressieanalyse is een veelgebruikte techniek bij data-analyse, waarbij de relatie tussen een

afhankelijke en (meerdere) onafhankelijke variabelen kan worden getoetst. Voor dit onderzoek

is gebruikt gemaakt van een multinomiale logistische regressieanalyse. Deze methode maakt

het mogelijk om een model te maken met daarin de relaties tussen meerdere onafhankelijke

variabelen en een afhankelijke variabele met meer dan twee categorieën (nominale variabele).

Daarbij kan ook de mate waarin dit model klopt en de significantie worden nagegaan.

Een logistische regressie model berekent de ‘kans’ (P) dat een bepaalde gebeurtenis

plaatsvindt. Deze kans wordt berekend door te kijken hoe vaak de gebeurtenis plaatsvindt (1)

ten opzichte van dat de gebeurtenis niet plaatsvindt (0). Deze gebeurtenissen kunnen vertaald

worden naar de keuze tussen twee vervoermiddelen. Bijvoorbeeld de kans dat een man de auto

neemt (0) ten opzichte van de fiets (1). Om een uitdrukking te geven aan deze kans zijn er

verschillende statistische termen voor handen. In deze analyse is gebruik gemaakt van het

zogenaamde ‘relative risk’ of ‘relative risk ratio’ om de kans te beschrijven voor een bepaalde

vervoermiddelkeuze. Om dit duidelijk te maken het volgende voorbeeld. De relative risk ratio

kan lopen van 0 tot oneindig, waarin de waarde 1 exact een gelijke kans aanduidt. Alle waardes

tussen de 0 en de 1 betekent een kleinere kans, alle waardes boven de 1 beteken een grotere

kans.

Stel dat er sprake is van de volgende verdeling van het autogebruik en het fietsgebruik van een

man, en we willen nagaan wat de kans is dat de man kiest voor de auto (0) ten opzichte van de

fiets (1):

Auto Fiets

De kans dat een man zal kiezen voor de auto ten opzichte van de fiets is in dit geval:

rrr = 60/40 = 1,5

De relative risk ratio is in dit geval 1,5 en dat geeft aan dat kans dat een man gebruik maakt

van de auto in plaats van de fiets anderhalf keer zo groot is. Bij een kans is er dus altijd een

referentie aan andere categorie van de afhankelijke variabele, de ‘referentiecategorie’: in dit

geval de fiets.

Bij een logistische regressie wordt echter niet alleen de keuze tussen de auto en de fiets

onderzocht, maar ook hoe dit zich verhoudt tot de keuze van vrouwen voor het ene of nadere

vervoermiddel (Geslacht). Dus hoe groot is de kans dat een man kiest voor de auto in plaats

van de fiets vergeleken met een gelijksoortige keuze van vrouwen? In dit geval worden er dus

twee referentiecategorieën gebruikt: de fiets en vrouwen. De relative risk ratio wordt dan als

volgt berekend :

Auto Fiets

Geslacht: man 60% 40%

Geslacht: vrouw 30% 70%

De kans dat een man voor de auto in plaats van de fiets zal kiezen in vergelijking met een

vrouw is in dit geval: rrr = 60/30 = 2

De relative risk ratio is in dit geval 2: dat betekent dat de kans dat een man voor de auto in

plaats van de fiets zal kiezen twee keer zo groot is dan de kans dat een vrouw de auto zal kiezen.

Bij een multinomiale logistische regressie is echter sprake van een afhankelijke variabele

(nominaal) met meer dan twee categorieën. In dit onderzoek worden vier alternatieven qua

vervoermiddelkeuze onderscheiden: de auto, het openbaar vervoer, fietsen en lopen. Omdat er

andere wijze verkregen, waardoor dit getal ook anders geïnterpreteerd moet worden. In een

multinomiale logistische regressie wordt net als in een logistische regressie gewerkt met een

standaard referentiecategorie in de afhankelijke variabele, zoals bijvoorbeeld weer de fiets. De

kans van een onafhankelijke variabele op een vervoermiddelkeuze wordt daardoor altijd ten

opzichte van deze referentiecategorie berekend. De multinomiale logistische regressieanalyse

zet ieder alternatief van de vervoermiddelkeuze af tegen deze referentiecategorie, waarbij de

overgebleven categorieën constant worden gehouden en dus niet hoeven worden meegeteld.

Daarbij blijft, net als in het eerdere voorbeeld, dat voor de onafhankelijke variabele

(bijvoorbeeld geslacht) ook gebruik wordt gemaakt van een referentiecategorie. Een voorbeeld

om dit te verduidelijken:

De situatie is:

Auto OV Fiets Lopen

Man 50% 5% 25% 20%

Vrouw 40% 5% 35% 20%

Om na te gaan wat in deze situatie de kans is dat mannen voor de auto kiezen in plaats van de

fiets vergeleken met vrouwen kan de relative risk ratio als volgt worden berekend. Allereerst

worden het ‘openbaar vervoer’ en ‘lopen’ constant gehouden en hoeven dus niet mee te worden

genomen in deze kansberekening.

Daardoor blijft de volgende situatie over:

Auto Fiets Totaal

Geslacht: man 50% 25% 75%

Geslacht: vrouw 40% 35% 75%

De relative risk ratio is in dit geval: rrr = (50/75) / (40/75) = 1,2

vrouwen is 1,2 keer zo groot.

Twee andere maten in de multinomiale logistische regressieanalyses zijn de pseudo R2, en de

significantie.De pseudo R2 is een maat waaruit de sterkte van het model kan worden geintepre-

teerd. De R2 geeft aan in welke mate de variantie van de afhankelijke variabele wordt verklaard

door het model. Deze maat kan een waarde aannemen tussen de 0 en de 1, waarbij 0 staat voor

geen enkele verklaring van het model en 1 wil zeggen dat de variantie in de variabele volledig

door het model wordt verklaard.

De significantie is een toetsing in hoeverre het gemeten effect wel of niet door toeval is on-

tstaan. Als blijkt dat het waargenomen effect niet door toeval is ontstaan, is er een significant

effect. Een significant effect wil zeggen dat het resultaat uit de steekproef kan worden gegen-