Statistiek
Hoorcollege 3
Samenhang tussen variabelen
Stappenplan
1. Bepaal of het om een frequentievraag, verschilvraag of een vraag naar samenhang gaat
2. Bepaal het meetniveau van de variabelen
3. Bepaal welke toets je nodig hebt
4. Bereken de toetswaarde
5. Kijk in de tabel of de uitkomst aanleiding geeft om de H0 aan te houden, of om deze te verwerpen
Voorbeeld Mann-Whitney
Een onderzoeker wil weten of de mannelijke diëtisten meer per uur verdienen dan de vrouwelijke.
Toets dit met onderstaande steekproef met α = 5%.
inkomen in € per uur
35 57 23 18 63 43 17 18 27
m m m m m v v v v
Stap 1
Het gaat om een verschilvraag, want we willen weten of het inkomen van vrouwen verschilt van dat van mannen.
Specifieker: we willen weten of het inkomen van mannen hoger is dan dat van vrouwen.
Stap 2
Het gaat om inkomen per uur, inkomen is hier dan een variabele op scale-niveau.
Stap 3
We zouden kunnen kiezen tussen de Χ2-, de Mann- Whitney- en de t-toets.
Het gaat om variabelen op scale-niveau
De steekproeven hebben een heel kleine n: nman = 5 en nvrouw = 5 (de t-toets valt af).
Kies daarom voor een non-parametrische toets: de MW- toets (de Χ2–toets is minder geschikt vanwege het hoge meetniveau).
Stap 4
De formule:
Je hebt dus nodig:
n1 = 5
n2 = 4
R1 = hiervoor heb je een tabelletje nodig
1 1 2 1
1
- R
2
1) + (n + n
n n
=
U
Stap 4
In de tabel rangschik je de waarden. De kleinste krijgt een 1.
inkomen per uur
rang 6 8 4 2,5 9 7 1 2,5 5
waarde 35 57 23 18 63 43 17 18 27
geslacht m m m m m v v v v
Stap 4
Iets overzichtelijker
man vrouw rang man rang vrouw
35 43 6 7
57 17 8 1
23 18 4 2.5
18 27 2.5 5
63 9 -
R1 = 29,5 R2 = 15,5
Stap 4
De formule:
Je hebt dus nodig:
n1 = 5
n2 = 4
R1 = 29,5 (de grootste som)
1 1 2 1
1
- R
2
1) + (n + n
n n
= U
5,5 29,5
2 - 6
* + 5
20
=
U =
Stap 5
Bijlage 3: waarschijnlijkheidswaarde ≈ 0.175. Let op:
neem tabel van n2 = 5.
Dit is groter dan 0,05 (α), dus niet significant, dus H0: er is geen verschil in inkomen tussen mannelijke en
vrouwelijke dietisten
Samenhang: correlaties
De correlatie geeft de sterkte van de samenhang tussen twee variabelen weer, van -1 (perfect negatief verband) via 0 (geen enkel verband) tot 1 (perfect positief
verband).
Spearman rangcorrelatie
Is er een samenhang tussen het hoe gezond men eet en hoeveel men sport (toets met α = 5%)?
1=gezond
2=gezond noch ongezond 3=ongezond
1=geregeld 2=soms 3=bijna nooit
Stap 1: het gaat duidelijk om een samenhangsvraag
eten sporten
1 1
2 2
3 2
1 2
2 3
3 3
1 1
2 2
3 3
1 2
2 2
3 2
1 1
2 2
3 3
Spearman rangcorrelatie
Stap 2. Het meetniveau is ordinaal, bij beide variabelen.
Stap 3. De Spearman-rangcorrelatie-toets is dus geschikt:
n n
d 1 6
r
32 i
s
Spearman rangcorrelatie
0,757 15
15
136
* 1 6
n n
d 1 6
r
3
3
i2 s
eten sporten RANGeten RANGsporte
n di di^2
1 1 3 2 1.00 1.00
2 2 8 7.5 0.50 0.25
3 2 13 7.5 5.50 30.25
1 2 3 7.5 -4.50 20.25
2 3 8 13.5 -5.50 30.25
3 3 13 13.5 -0.50 0.25
1 1 3 2 1.00 1.00
2 2 8 7.5 0.50 0.25
3 3 13 13.5 -0.50 0.25
1 2 3 7.5 -4.50 20.25
2 2 8 7.5 0.50 0.25
3 2 13 7.5 5.50 30.25
1 1 3 2 1.00 1.00
2 2 8 7.5 0.50 0.25
3 3 13 13.5 -0.50 0.25
136.00
Spearman rangcorrelatie
SPSS geeft al aan dat de uitkomst (0,718) zelfs met een α van 1% significant is (te zien aan de 2 sterretjes).
Let op: de waarde 0,178 verschil licht van de met
de hand berekende waarde van 0,757
Spearman rangcorrelatie
Stap 5. Zie bijlage 5: 0,44
De SR-correlatie (0,76) valt in het kritieke gebied: we nemen H1 aan:
er is een positieve samenhang tussen hoe gezond men eet en hoe vaak men sport. Anders gezegd: hoe gezonder men eet, hoe vaker men sport.
Pearson product-moment-correlatie
Is er een samenhang tussen de leeftijd en de BMI, en zo ja, is deze samenhang positief of negatief (toets met α = 5%)?
Formule:
] Y) (
Y ][N
X) (
X [N
Y) X)(
( XY
r N
2 2
2 xy 2
Productmoment correlatie
Xlft Ybmi X^2 Y^2 XY
20 30 400 900 600
19 23 361 529 437
47 22.3 2209 497.29 1048.1
21 21.2 441 449.44 445.2
21 21 441 441 441
… … … … …
18 20.3 324 412.09 365.4
19 20.4 361 416.16 387.6
19 21 361 441 399
19 24 361 576 456
1869 1801.4 44769 39290.78 40646.4
39 , 55383,56 0
* 267435
47481 r
4 , 1801 78
, 39290
* 84 ][
1869 -
44769
* [84
1801,4
* 1869 40646,4
* r 84
] Y) (
Y ][N X)
( X [N
Y) X)(
( XY r N
xy
2 xy 2
2 2
2 xy 2
Productmoment correlatie
Hieronder de output van SPSS. Ook hier heeft de Pearson correlatie de waarde van 0,39. SPSS zegt alvast dat de correlatie significant is (zelfs met α = 1%).
Productmoment correlatie
De correlatiecoëfficiënt van 0,39 valt binnen het kritieke gebied, er is dus een significant positief verband tussen
leeftijd en BMI (de correlatiecoëfficiënt is een positief getal).
Regressielijn
Twee scatterplots, links Excel, rechts SPSS. De best passende lijn is door de puntenwolk getrokken.