W∑RKCOLL∑G∑ 2
Statistiek
Matthijs Fleurke
1 (1)
a) Een procedure die (naar aanleiding van een in steekproeven
gevonden verschil) aangeeft of er voldoende reden is om aan te nemen dat er een verschil is in de populaties. Een toets zegt dus niets over de grootte van het verschil of over de
belangrijkheid.
b) Toets die je gebruikt als je wilt weten of twee categorische
variabelen (nominaal of ordinaal) onafhankelijk zijn. Voorbeeld:
Zijn favoriete likeur en land in de Europeese Unie onafhankelijk ? c) Toets die je gebruikt als je wilt weten of twee groepen
verschillen op een interval- of ratiovariabele. Voorbeeld:
Drinken Nederlanders en Belgen per jaar evenveel bier ?
d) Een significantie toets geeft geen absolute zekerheid. Het kan zo
zijn dat we denken voldoende reden te hebben om aan te nemen
dat er een verschil is in de populaties, terwijl er toch geen verschil
is in de populaties. De kans die we accepteren om deze fout te
maken noemen we de significantie.
1 (2)
e) H
0: bewering die zegt dat er geen sprake is van een verschil. H
1: bewering die zegt dat er wel sprake is van een verschil.
f) Als we steekproeven hebben genomen zullen die steekproeven verschillen. Als we er van uitgaan dat er in de populaties geen verschil is, dan is de
overschrijdingskans de kans dat, als we deze
steekproeven nog een keer uitvoeren, we bij een
tweede meting een nog groter verschil vinden. Als deze kans kleiner wordt dan de significantie dan zullen we de nulhypothese (“er is geen verschil”) verwerpen.
Als deze kans groter wordt zullen we de nulhypothese
niet verwerpen.
1 (2)
g) Stel, je wilt het gemiddelde gewicht berekenen van alle
Nederlanders. Je vraagt het niet iedereen, maar je trekt een
steekproef van 1000 mensen. Het gemiddelde blijkt 65 kg. te zijn.
Maar is dat echt de populatiewaarde? Of kan het ook 64 of 66 zijn?
Daarom bereken je een interval, bijvoorbeeld van 63 tot 67 kilo, en geef je vervolgens aan hoe groot de kans is dat een interval de populatiewaarde bevat, zeg 95%. Dat noem je een
betrouwbaarheidsinterval.
Je zegt: het gemiddelde gewicht van de Nederlanders ligt tussen 64 en 66 kg. in, met een betrouwbaarheid van 95%.
Een significant verschil is een verschil tussen twee steekproeven dat zo groot is dat er voldoende reden is om aan te nemen dat er een verschil is in de populaties.
h) Variabele die slechts twee waarden kan aannemen, bijv. ja/nee
of man/vrouw of slagen/zakken.
2
H0:μ = 7 H1: μ > 7 Xgem = 7,20 μ = 7
s = 1,00 n = 121
df = n – 1 = 120
Nu kijken we in de tabel bij α = 0.05 en df = 120 voor eenzijdig toetsen. Daar vinden we een (kritieke) waarde 1,658. Alle t-waarden groter dan 1,658 zien we dus als een verschil.
t = 2,2 > 1,658, in kritieke gebied, dus H0 verwerpen
Conclusie: Er is voldoende reden om aan te nemen dat de door de docent opgeleide leerlingen gemiddeld hoger dan een 7 scoren.
2 , 2 11
00 , 1
00 , 7 20
, 7 00
, 1
00 , 7 20
,
11 7
n s
t X
H0: μ1 - μ2 = 0
3
H1: μ1 - μ2 0 Xgem1 = 23,78 Xgem2 = 22,96 s12 = 5.81
s22 = 5.84 n1 = 50 n2 = 50
df = n1 + n2 – 2 = 98
Nu kijken we in de tabel bij α = 0.01 en df = 98 bij tweezijdig toetsen. Daar vinden we een (kritieke) waarde 2.66. Alle t-waarden groter dan 2.66 zien we dus als een
verschil.
t = 1.68 < 2.66, niet in kritieke gebied, dus H0 niet verwerpen.
Conclusie: Er is onvoldoende reden om aan te nemen dat er een verschil is tussen quetelet index van stads- en plattelandsbewoners.
68 , ) 1
76 , 291 39
, 290 (
100
98 82 2500
, 0
) )(
(
) 2 ) (
(
22 2 2
1 1 2
1
2 1
2 1 2
1
n n n s n s
n n
n M n
M
t
4
H0:μ = 160 H1: μ > 160 Xgem = 165 μ = 160
s = 32 n = 64
df = n – 1 = 63
Nu kijken we in de tabel bij α = 0.05 en df = 63 voor eenzijdig toetsen. Daar vinden we een (kritieke) waarde 1,671. Alle t-waarden groter dan 1,671 zien we dus als een verschil.
t = 1.25 < 1,671, niet in kritieke gebied, dus H0 niet verwerpen.
Conclusie: Er is onvoldoende reden om aan te nemen dat het produkt meer dan twee keer zoveel vitamine c bevat.
25 , 1 8
32
160 165
n s
t X
5 (1)
H0: klas en resultaat zijn onafhankelijk H1: klas en resultaat zijn niet onafhankelijk
Found v o tot
A 10 5 15
B 8 12 20
C 18 7 25
tot 36 24 60
Expec. v o tot
A 9 6 15
B 12 8 20
C 15 10 25
tot 36 24 60
cel cel cel
cel
e
e
f
22
( )
5 (2)
df = (r-1)(k-1) = 2 x 1 = 2 Х2 = 5,106
Nu kijken we in de tabel bij α = 0.05 en df = 2. Daar vinden we een (kritieke) waarde 5,99. Alle Chi- kwadraat-waarden groter dan 5,99 zien we dus als niet onafhankelijk.
Х2 = 5,106 < 5,99, niet in kritieke gebied, dus H0 niet verwerpen.
Conclusie: Er is onvoldoende reden om aan te nemen dat klas en resultaat afhankelijk zijn.
fcel ecel (fcel – ecel) (fcel – ecel)2 (fcel – ecel)2 /ecel
10 9 1 1 0.11
8 12 -4 16 1.33
18 15 3 9 0.60
5 6 -1 1 0.166
12 8 4 16 2
7 10 -3 9 0.9
5.106
6
We hebben hier te maken met twee onafhankelijke kleine steekproeven. Voor de t-toets is vereist dat de populaties normaal verdeeld zijn maar dat blijkt niet uit de opgave. Deze eis vervalt als de steekproef groot genoeg is (>25) maar dat is ook niet het geval. Daarom moeten we hier de Mann-Whitney U-toets
gebruiken
H0: μA - μB = 0
H1: μA - μB > 0
Op de volgende sheet staat de tabel met rangordescores. Hieruit berekenen we de gegevens die we nodig hebben voor het bepalen van de U.
RA = 25 RB = 53 nA = 6 nB = 6
4
53 2 -
1) + + 6(6
6 6
=
R 2 -
1) + (n + n
n n
=
U
1 2 1 1 1
6 (2)
Persoon Oordeel
ontwerp A
Rang oordeel
ontwerp A Persoon Oordeel
ontwerp B
Rang oordel ontwerp B
1 10 1 7 5 9
2 8 3 8 5 9
3 7 4 9 4 11
4 9 2 10 6 6
5 5 9 11 6 6
6 6 6 12 2 12
Nu kijken we in de tabel bij n2 = 6 en n1 = 6 en U = 4. Hier vinden we een waarde van 0.013. Dit is kleiner dan α, dus H0 verwerpen.
Conclusie: Er is voldoende reden om aan te nemen dat produkt A beter scoort dan produkt B.
7
H0:μ = 7 H1: μ < 7 Xgem = 6.8 μ = 7
s = 1,2 n = 100
df = n – 1 = 99
Bij t-toets: niet letten op min-teken. Dus kijken we in de tabel bij α = 0.01 en df = 99 (die bestaat niet, dus kijken we bij df = 60 (altijd lager, anders doe je net of je meer meetpunten, en dus een beter experiment hebt …)) voor eenzijdig toetsen.
Daar vinden we een (kritieke) waarde 2.37. Alle t-waarden groter dan 2.37 zien we dus als een verschil.
t = 1.67 < 2.37, niet in kritieke gebied, dus H0 niet verwerpen
Conclusie: Er is onvoldoende reden om aan te nemen dat Swamalische vissers minder slapen dan het landelijk gemiddelde.
67 . 1 10
2 . 1
7 8
.
6
n s
t X
8
H0:μ = 150 H1: μ 150 Xgem = 170 μ = 150
s = 20 n = 25
df = n – 1 = 24
Nu kijken we in de tabel bij α = 0.01 en df = 24 voor tweezijdig toetsen. Daar vinden we een (kritieke) waarde 2.797. Alle t-waarden groter dan 2.797 zien we dus als een verschil.
t = 5 > 2.797, in kritieke gebied, dus H0 verwerpen
Conclusie: Er is voldoende reden om aan te nemen dat de pakjes geen 150 kilocalorien bevatten.
5 5
20 150 170
n s
t X
9 (1)
H0: voorkeursproduct en leeftijdsklasse zijn onafhankelijk H1: voorkeursproduct en leeftijdsklasse zijn niet onafhankelijk
Found A B C tot
<30 jr. 28 6 6 40
30-50 40 38 22 100
≥50 jr. 12 16 32 60
tot. 80 60 60 200
Expec. A B C tot
<30 jr. 16 12 12 40
30-50 40 30 30 100
≥50 jr. 24 18 18 60
tot. 80 60 60 200
cel cel cel
cel
e
e
f
22
( )
9 (2)
df = (r-1)(k-1) = 2 x 2 = 4 Х2 = 36.37
Nu kijken we in de tabel bij α = 0.01 en df = 4. Daar vinden we een (kritieke) waarde 13.28. Alle Chi- kwadraat-waarden groter dan 13.28 zien we dus als niet onafhankelijk.
Х2 = 36.37 > 13.38, wel in kritieke gebied, dus H0 verwerpen.
Conclusie: Er is voldoende reden om aan te nemen dat voorkeursproduct en leeftijdsklasse afhankelijk zijn.
fcel ecel (fcel – ecel) (fcel – ecel)2 (fcel – ecel)2 /ecel
28 16 12 144 -9
40 40 0 0 0
12 24 -12 144 6
6 12 -6 36 -3
38 30 8 64 2.13
16 18 -2 4 0.22
6 12 -6 36 3
22 30 -8 64 2.13
32 18 14 196 10.89
36.37
Extra (Mann-Whitney-toets)
gem.
gewicht klas 1 klas 2 klas 1 klas 2
rang klas 1
rang klas 2
55 1 1 55 55 1,5 1,5
60 1 1 60 60 3,5 3,5
62 1 62 5
63 1 63 6
65 1 65 7
68 1 68 8
69 1 69 9
70 1 70 10
∑ = 32 ∑ = 23
Extra (Mann-Whitney-toets)
8 2 32
6 5 5
5
2
) 1 (
1 1 2 1
1
n n R
n n U
Uit de tabel (p. 368): waarschijnlijkheidswaarde = 0.210.
0.210 > 0.05 (α), dus geen significant verschil tussen de eerste en tweede klas.
10 (1)
We hebben hier te maken met twee onafhankelijke kleine steekproeven. Voor de t-toets is vereist dat de populaties normaal verdeeld zijn maar dat blijkt niet uit de opgave. Deze eis vervalt als de steekproef groot genoeg is (>25) maar dat is ook niet het geval. Daarom moeten we hier de Mann-Whitney U-toets
gebruiken
H0: μ2 - μ1 = 0
H1: μ2 - μ1 > 0
Op de volgende sheet staat de tabel met rangordescores. Hieruit berekenen we de gegevens die we nodig hebben voor het bepalen van de U.
RA = 23 RB = 32 nA = 5 nB = 5
8
32 2 -
1) + + 5(5
5 5
=
R 2 -
1) + (n + n
n n
=
U
1 2 1 1 1
10 (2)
Klas 1 Klas 2 Rang oordeel
ontwerp A Rang oordel ontwerp B
55 55 1.5 1.5
60 60 3.5 3.5
68 62 8 5
69 63 9 6
70 65 10 7
Nu kijken we in de tabel bij n2 = 5 en n1 = 5 en U = 4. Hier vinden we een waarde van 0.075. Dit is groter dan α, dus H0 niet verwerpen.
Conclusie: Er is onvoldoende reden om aan te nemen dat het gemiddelde gewicht van tweede klassen hoger is dan dat van eerste klassen.