Statistiek
HC2MFE
Meten van verschillen
Verschillen meten
De ene groep heeft dieet A gevolgd, de andere groep heeft dieet B gevolgd. Is er verschil in het gewicht?
Berust dit verschil op toeval?
Is er een verschil ? Toeval?
ziek niet ziek
Chinees (VD1) 10 6
Piet Patat (VD2) 20 17
Populatie en steekproef
X
μ
x
Doel van de toets
Het doel van een toets is: uitvinden of je experiment nauwkeurig genoeg was, om tot de conclusie te komen dat een gevonden verschil ook echt bestaat, en dus niet toevallig is.
H0: er is geen verschil
H1: er is wel een verschil
Een toets leidt tot 2 mogelijke conclusies:
1. Er is voldoende reden om aan te nemen dat er echt een verschil is
2. Er is niet voldoende reden om aan te nemen dat er echt een verschil is
Wanneer welke toets
De toetskeuze hangt af van de testvariabele
Nominaal: Chi-kwadraat
Ordinaal: Mann-Whitney (rangorde), tekentoets (+ of - )
Interval / ratio: t-toets
Als een interval/ratio-variabele te weinig waarnemingen bevat, en ook nog eens niet normaal verdeeld is, mag je geen t-toets gebruiken.
In dat geval geef je iedere waarneming een rangnummer (bij twee groepen) of een + cq. – (bij 1 groep) en gebruik je een toets voor ordinale variabelen.
De juistheid van de toets
Een toets geeft geen zekerheid …
Het significantieniveau α geeft aan hoe groot de kans is dat je een fout mag maken. α is vaak 1% of 5%.
Meer precies vertelt de α je, hoe groot de toegestane kans is dat je tot de conclusie komt dat een gevonden verschil echt bestaat, terwijl er eigenlijk helemaal geen verschil is …
Stappenplan toets
Bepaal de meetniveaus van de variabelen
Kies een toets
Bepaal α en bepaal of de toets 1- of 2 zijdig is
Bereken de toetsstatistiek
Bepaal de kritieke waarde
Trek een conclusie
Voorbeeld
Een onderzoek: 75 mensen (een steekproef) krijgen drie verschillende drankjes: AA-drink, cola en strorum. Daarna lopen ze 10 km hard. Er wordt gevraagd hoe het ging. Is er
echt een verschil tussen de mensen die verschillende drankjes dronken? mening * drankje Crosstabulation
18 7 5 30
72,0% 28,0% 20,0% 40,0%
7 18 20 45
28,0% 72,0% 80,0% 60,0%
25 25 25 75
100,0% 100,0% 100,0% 100,0%
Count
% within drankje Count
% within drankje Count
% within drankje leuk
echt niet tof mening
Total
AA-drink cola strorum drankje
Total
Toetsen met de chi-kwadraat-toets
Dranksoort is een nominale (splitsings)variabele
Mening is een nominale (test)variabele
Handig: de splitsingsvariabele in de kolommen
Van de mensen die het leuk vonden heeft 72% AA-drink gehad, 28% cola en 20% strorum. Is er tussen de
groepen drinkers echt een verschil ?
Toetsen met de chi-kwadraat-toets
Essentie van de chi-kwadraat-toets: frequenties die je hebt
gevonden vergelijken met frequenties die je zou verwachten op basis van toeval. Als het verschil groot genoeg is, kun je de H0
verwerpen
Gevonden celfrequentie: fcel Verwachte celfrequentie: ecel
aa-
drink cola stro-
rum tot.
leuk 18 7 5 30
niet
leuk 7 18 20 45
25 25 25 75
aa-
drink cola stro-
rum tot.
leuk niet leuk
Toetsen met de chi-kwadraat-toets
De ecel bereken je door het kolomtotaal met het rijtotaal te vermenigvuldigen, en dit te delen door het algemene totaal.
aa-drink cola strorum tot.
leuk (25*30)75 10 10 30
niet leuk 15 15 15 45
tot. 25 25 25 75
Toetsen met de chi-kwadraat-toets
16,3 e =
) e -
= (f chi
cel cel 2 cel cel
2 ∑
fcel ecel (fcel-ecel) (fcel-ecel)2
18 10 8 64 6.4
7 15 -8 64 4.2666
7 10 -3 9 0.9
18 15 3 9 0.6
5 10 -5 25 2.5
20 15 5 25 1,6667
16,3
cel cel 2 cel
e ) e - (f
Toetsen met de chi-kwadraat-toets
De chi-kwadraat is dus 16,3
Vrijheidsgraden (degrees of freedom, df) = (r-1)(k-1) = 1*2=2
Significantieniveau α stellen op 5%
Zie bijlage 2
5,99
Toetsen met de chi-kwadraat-toets
16,3 is dus veel groter dan 5,99 (de kritieke waarde). H0 wordt verworpen. Er is voldoende reden om aan te nemen dat er
echt een verschil is in de meningen van degenen die AA-drink, cola en strorum hebben gehad.
Toetsen met de Mann-Whitney U-toets
Nominale (splitsings)variabele
Dit voorbeeld: groep (dichotoom: A of B)
Cijfer is een minstens een ordinale (test)variabele.
Dit voorbeeld: cijfer (ratio)
Is er echt een verschil ?
Toetsen met de Mann-Whitney U-toets
groep A rang groep B rang
6 8 4 5
7 9 5 6,5
8 10 3 3,5
5 6,5 2 2
1 1 3 3,5
10 11
34,5 31,5
score 1 2 3 3 4 5 5 6 7 8 10
rang 1 2 3,5 3,5 5 6,5 6,5 8 9 10 11
groep A B B B B A B A A A B
1 1 2 1
1 - R
2
1) + (n
+ n n
n
= U
Toetsen met de Mann-Whitney U-toets
R1=34,5 (hoogste som)
n1=5
n2=6
10.5
= 34,5 2 -
6
* + 5
30
= U
Toetsen met de Mann-Whitney U-toets
Bewijs met SPSS
Test Statisticsb
10,500 31,500 -,825 ,409 ,429a Mann-Whitney U
Wilcoxon W Z
Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)]
cijfer
Not corrected for ties.
a.
Grouping Variable: groep b.
Ranks
5 6,90 34,50
6 5,25 31,50
11 groep
A B Total cijfer
N Mean Rank Sum of Ranks
Toetsen met de Mann-Whitney U-toets
De Mann-Whitney U is dus 10,5.
Is dit significant ?
Significantieniveau α stellen op 5%
Zie bijlage 3
Waarschijnlijkheidswaarde = 0,241.
Dit is groter dan 0.05 (de gekozen α), dus geen significant
verschil. H0 wordt niet verworpen. Er is onvoldoende reden om aan te nemen dat er, wat betreft het cijfer, echt een verschil is tussen de groepen A en B.
Toetsen met de t-toets
Drie vormen:
gemiddelde van een steekproef vergelijken met een vaste waarde (One-Sample T-test)
gemiddelden van twee onafhankelijke steekproeven met elkaar vergelijken (Independent-Samples T-test)
gemiddelden van twee afhankelijke steekproeven met elkaar vergelijken (Paired Samples T-test)
Toetsen met de t-toets
Een nominale (splitsings)variabele
In dit voorbeeld: leeftijd (jonger dan 25 of ouder dan 25)
Dit zijn de twee groepen
Een (test)variabele op rationiveau
In dit voorbeeld: BMI
Heeft de oudere groep een hoger BMI dan de jongere groep? En zo ja, is dit verschil toevallig?
Toetsen met de Independent-Samples T- toets
M1 = gemiddelde steekproef ‘jongeren’
n1 = omvang steekproef ‘jongeren’
s21 = variantie steekproef ‘jongeren’
M2 = gemiddelde steekproef ‘ouderen’
n2 = omvang steekproef ‘jongeren’
s22 = variantie steekproef ‘jongeren’
( )
) s n + s
)(n n
+ (n
2) n
+ (n n
M n - M
=
t 2
2 2 2
1 1 2
1
2 1
2 2 1
1
-
Toetsen met de Independent-Samples T- toets
BMIjong (X-Xgem) (X-Xgem)2 BMIoud (X-Xgem) (X-Xgem)2
30,0 9,0 81,4 22,3 -2,0 3,8
23,0 2,0 4,1 22,0 -2,3 5,1
21,2 0,2 0,0 23,8 -0,4 0,2
21,0 0,0 0,0 22,0 -2,3 5,1
20,3 -0,7 0,5 26,0 1,8 3,1
19,0 -2,0 3,9 38,0 13,8 189,1
20,8 -0,2 0,0 22,0 -2,3 5,1
22,6 1,6 2,6 19,9 -4,4 18,9
21,0 0,0 0,0 27,0 2,8 7,6
22,5 1,5 2,3 25,0 0,8 0,6
18,0 -3,0 8,9 20,0 -4,3 18,1
22,1 1,1 1,3 23,0 -1,3 1,6
21,0 0,0 0,0
24,0 3,0 9,1
1510,4 291,2 291,0 258,0
M1= 21,0 M2= 24,3
var1=4,0 var2= 21,5
n1=72 n2= 12,0
Toetsen met de Independent-Samples T- toets
( )
( )
-4.05 46132.296 =
70848 3,272
-
= t
257,990) +
(291,204
* 84
82
* 3,272 864
-
= t
) s n + s
)(n n
+ (n
2) - n + (n n
M n - M
=
t 2
2 2 2
1 1 2
1
2 1
2 2 1
1
Toetsen met de Independent-Samples T- toets
De t-waarde is dus -4,05.
Betekent dit een significant verschil?
Significantieniveau α stellen op 5%
Vrijheidsgraden df = n1 + n2 – 2 = 82
Zie bijlage 4
Toetsen met de Independent-Samples T- toets
4,05 is dus groter dan 1,66 (de kritieke waarde). H0 wordt verworpen. Er is voldoende reden om aan te nemen dat de BMI van ‘jonge’ respondenten echt lager is dan van
‘oude’ respondenten.
Toetsen met de Independent-Samples T- toets
Group Statistics
72 20,978 2,0252 ,2387
12 24,250 4,8429 1,3980
leeftijddich 24 jaar en jonger 25 jaar en ouder wat is je BMI?
N Mean Std. Deviation
Std. Error Mean
Independent Samples Test
8,934 ,004 -4,055 82 ,000 -3,2722 ,8069 -4,8775 -1,6670
-2,307 11,649 ,040 -3,2722 1,4183 -6,3727 -,1718
Equal variances assumed Equal variances not assumed
wat is je BMI? F Sig.
Levene's Test for Equality of Variances
t df Sig. (2-tailed)
Mean Difference
Std. Error
Difference Lower Upper 95% Confidence
Interval of the Difference t-test for Equality of Means
Toetsen met de one-sample T-toets
Let op: niet in het leerboek Methoden en Technieken
n = aantal cases
Xgem = steekproefgemiddelde
a = waarde uit de nulhypothese
s = standaarddeviatie steekproef
s a - n X
=
t
Toetsen met de one-sample T-toets
Stel, je meet de BMI van een VD1-klas. Je wilt weten of de gevonden BMI-waarden significant verschillen met het gemiddelde BMI van 23 uit de populatie.
H0: µBMIpopulatie = 23
H1: µBMIpopulatie ≠ 23
Toetsen met de one-sample T-toets
n = 30
Xgem = 19,9
a = 23
s = 2
df = n -1 = 29
zie bijlage 4
BMI (X) (X-Xgem) (X-Xgem)^2
18.0 -1.9 3.5
17.0 -2.9 8.2
19.0 -0.9 0.8
20.0 0.1 0.0
25.0 5.1 26.4
22.0 2.1 4.6
21.0 1.1 1.3
22.0 2.1 4.6
19.0 -0.9 0.8
18.0 -1.9 3.5
18.0 -1.9 3.5
19.0 -0.9 0.8
20.0 0.1 0.0
21.0 1.1 1.3
18.0 -1.9 3.5
20.0 0.1 0.0
22.0 2.1 4.6
25.0 5.1 26.4
19.0 -0.9 0.8
19.0 -0.9 0.8
20.0 0.1 0.0
21.0 1.1 1.3
22.0 2.1 4.6
19.0 -0.9 0.8
20.0 0.1 0.0
19.0 -0.9 0.8
19.0 -0.9 0.8
18.0 -1.9 3.5
17.0 -2.9 8.2
19.0 -0.9 0.8
115.5
s a - n X
= t
2 8.49 23 - 30 19,9
=
t
Toetsen met de one-sample T-toets
Bewijs met SPSS
Toetsen met de one-sample T-toets
Tweezijdig toetsen
De t-waarde is veel kleiner dan -2,045. H0 verwerpen. Er is onvoldoende reden om aan te nemen dat het
gemiddelde van de VD1-klas echt verschilt van dat van de populatie