Wat zegt een steekproef?
Suikergehalte van cola Steekproef 1
Gehalte = 101 g/L en
n-1= 6 g/L Steekproef 2
Gehalte = 105 g/L en
n-1= 4 g/L Steekproef 3
Gehalte = 98 g/L en
n-1= 7 g/L
Welke steekproef is het meest betrouwbaar?
Welke uitslag geven we door?
3
Wat ontbreekt hier?
Suikergehalte van cola
Steekproef 1 n = 5
Gehalte = 101 g/L en
n-1= 6 g/L Steekproef 2 n = 3
Gehalte = 105 g/L en
n-1= 4 g/L Steekproef 3 n = 10
Gehalte = 98 g/L en
n-1= 7 g/L
Welke steekproef is nu het meest betrouwbaar?
Hoeveel samples moet je nemen?
Onderzoek
Gemiddelde lichaamslengte Nederlandse mannen van 20 jaar
steekproef n lengte (cm)
n-11 3 178,2 9,1
2 10 181,2 7,1
3 60 177,6 7,5
Welke steekproef is het meest betrouwbaar?
Hoeveel samples moet je nemen?
Steekproef nog groter maken?
5
Andere opzet
We gaan steekproeven 10 x herhalen
Bepaling gemiddelde lengte Nederlandse mannen (cm)
3 samples 10 samples 25 samples
gem n-1 gem n-1 gem n-1
168,4 8,5 178,0 10,2 178,9 8,9
181,3 12,0 178,1 8,6 180,0 9,4
182,2 7,4 180,9 8,3 179,3 7,8
181,5 9,1 176,5 9,8 180,4 6,9
175,5 8,9 183,8 8,2 178,3 8,6
179,7 8,9 179,3 7,4 180,1 9,6
180,6 10,5 178,8 9,4 181,7 6,6
177,8 5,2 178,4 5,3 179,9 7,7
181,6 10,6 183,8 8,6 180,3 6,9
181,1 11,6 178,9 4,9 178,4 6,8
Valt je iets op?
Hoe onderzoek je of dat klopt?
• Gemiddelde berekenen
• Standaarddeviatie van die gemiddelden berekenen De verschillen lijken kleiner te worden
Kon je dat verwachten?
Andere opzet
Kleinere steekproeven herhalen
Bepaling gemiddelde lengte Nederlandse mannen (cm)
3 samples 10 samples 25 samples
gem n-1 gem n-1 gem n-1
168,4 8,5 178,0 10,2 178,9 8,9
181,3 12,0 178,1 8,6 180,0 9,4
182,2 7,4 180,9 8,3 179,3 7,8
181,5 9,1 176,5 9,8 180,4 6,9
175,5 8,9 183,8 8,2 178,3 8,6
179,7 8,9 179,3 7,4 180,1 9,6
180,6 10,5 178,8 9,4 181,7 6,6
177,8 5,2 178,4 5,3 179,9 7,7
181,6 10,6 183,8 8,6 180,3 6,9
181,1 11,6 178,9 4,9 178,4 6,8
gemiddelde van 10 steekproeven van
3 samples
gemiddelde van 10 steekproeven van
10 samples
gemiddelde van 10 steekproeven van
25 samples
gem 179,0 gem 179,7 gem 180,7
n-1 4,2 n-1 2,5 n-1 1,5
Het gemiddelde is praktisch hetzelfde
De standaarddeviatie van de gemiddelden wordt kleiner als je het aantal samples per steekproef groter maakt
7
Andere opzet
Kleine steekproeven 50 x herhalen: histogram
Blijkbaar zijn de steekproefgemiddelden ook normaal verdeeld, maar hun standaarddeviatie neemt af als we het aantal samples groter maken.
3 samples 50x herhaald
0 2 4 6 8 10 12 14 16 18
164 167,2 170,4 173,6 176,8 180 183,2 186,4 189,6 192,8 196 Meer
Lengte
Frequentie
10 samples 50x herhaald
0 5 10 15 20 25
164 167,2 170,4 173,6 176,8 180 183,2 186,4 189,6 192,8 196 Meer
Lengte
Frequentie
25 samples 50x herhaald
0 5 10 15 20 25 30
164 167,2 170,4 173,6 176,8 180 183,2 186,4 189,6 192,8 196 Meer
Lengte
Frequentie
Definitie
De standaarddeviatie van de steekproefgemiddelden noemt men de standaardfout SE (Eng: standard error)
gemiddelde van 10 steekproeven van
3 samples
gemiddelde van 10 steekproeven van
10 samples
gemiddelde van 10 steekproeven van
25 samples
gem 179,0 gem 179,7 gem 180,7
n-1 4,2 n-1 2,5 n-1 1,5
Andere opzet
Kleinere steekproeven herhalen
9
Schatting van het populatiegemiddelde
Wat is volgens jou de beste schatting van de gemiddelde lengte van Nederlandse mannen van 20 jaar.
gemiddelde van 10 steekproeven van
3 samples
gemiddelde van 10 steekproeven van
10 samples
gemiddelde van 10 steekproeven van
25 samples
gem 179,0 gem 179,7 gem 180,7
n-1 4,2 n-1 2,5 n-1 1,5
Men noemt dit een puntschatting. Waarom?
Beter is een intervalschatting van het populatiegemiddelde, dus het gemiddelde ligt tussen ……cm en …….. cm
wiskundige notatie ………cm < μ < …….. cm
Zo’n schatting noemt men een betrouwbaarheidsinterval
180,7 cm?
0 % !!
Hoeveel % betrouwbaar is een puntschatting?
10
Betrouwbaarheidsinterval
Voor een willekeurig getrokken sample uit een populatie geldt dus een kans van 95 % dat hij tussen -2 en +2 ligt.
Er is ook een kans van 99 % dat hij tussen -3 en +3 ligt.
Van een normaalverdeling zijn het gemiddelde en de standaarddeviatie
n bekend. Een normaalverdeling geldt (helaas) alleen voor een hele populatie.
+1 +2 +3
-1 -2
-3 0 Z
95%
99%
Hele populatie
Z-waarde = aantal standaarddeviaties Populatiegemiddelde
11
Betrouwbaarheidsinterval
We willen een betrouwbaarheid van 95 %.
Voor de Z-waarde nemen we de nauwkeurige waarde van 1,96 (zie Z-tabel) De standaardfout SE kunnen we gebruiken in combinatie met de Z-waarden van de normaalverdeling.
+1 +2 +3
-1 -2
-3 0 Z
95%
99%
Voor de schatting van gebruiken we de standaardfout SE Het betrouwbaarheidsinterval BI voor de schatting van het populatiegemiddelde wordt dan:
SE x
SE
x 1 , 96 1 , 96
:
BI
12
Betrouwbaarheidsinterval
We gebruiken de resultaten van de steekproef met 25 samples.
gem = 180,7 cm met SE = 1,5 cm
Invullen geeft:
In woorden
De gemiddelde lengte van Nederlandse mannen van 20 jaar ligt met een betrouwbaarheid van 95 % tussen 177,8 cm en 183,6 cm.
Probleem:
We moeten de standaardfout SE te weten komen.
180,7 -1,96 × 1,5 < μ < 180,7 +1,96 × 1,5 BI: 177,8 cm < μ < 183,6 cm
SE x
SE
x 1,96 1,96
13
Betrouwbaarheidsinterval
Hoe vinden we de standaardfout SE ?
• Veel steekproeven doen zoals bij de lengtemeting, in dit geval dus 10 keer 25 = 250 metingen.
250 keer?
vette shit !!
• De standaardfout berekenen met behulp van de
standaarddeviatie van de populatie (als die tenminste bekend is). Dat is bijvoorbeeld het geval bij een
gevalideerde meetmethode.
De formule wordt dan:
Van een gevalideerde meetmethode is vastgesteld hoe nauwkeurig hij is. Dit doet men door een groot aantal metingen te doen, net zoals wij bij de lengtemeting deden
Voorbeeld
De meetmethode van het suikergehalte in cola is gevalideerd en heeft een (on)nauwkeurigheid van 2,5 %. Dit mogen we zien als
variatiecoëfficiënt van de populatie (alle mogelijke steekproeven).
Gegeven n = 3 suikergehalte = 105 g/L
• Bereken de standaarddeviatie n
• Bereken het betrouwbaarheidsinterval BI SE nn
x n
x nn n 96 , 1 96
, 1
14
Betrouwbaarheidsinterval
Hoe vinden we de standaardfout SE ?
Helaas geldt deze formule alleen wanneer sprake is van een normaalverdeling en bij kleine steekproeven is dat niet het geval!! We kunnen de Z-waarden niet gebruiken. We moeten gebruik maken van de t-verdeling
• Als we niets weten van de populatie kunnen we de standaardfout alleen maar berekenen met de standaarddeviatie van de
steekproef.
De vorm van de t-verdeling hangt af van het aantal
samples in de steekproef. In dit geval geldt hij voor n = 5 ofwel v = n – 1 = 4
Alle andere waarden staan in de t-tabel.
x n
x1,96nn1 1,96n1
15
Betrouwbaarheidsinterval
Voorbeeld suiker in cola
Gegeven n = 5 suikergehalte = 105 g/L en n-1 = 6 g/L
We zagen in de grafiek dat t = 2,78 bij 95 % betrouwbaarheid De formule wordt dan:
Afgerond suikergehalte 95 %
Zonder 250 metingen te doen, kunnen we toch een 95 % betrouwbare uitslag doorgeven. Een betrouwbaarheid van 95 % betekent wel een onbetrouwbaarheid van 5 %. Dat houdt in dat we, wanneer we de steekproef 20 x zouden doen, we 1 van de 20 keer een verkeerde uitslag zouden kunnen doorgeven. In de wereld van wetenschap en laboratorium wordt dit geaccepteerd.
t n n x
t
x n1 n1
5 78 6
, 2 5 105
78 6 , 2
105 46
, 7 105 46
, 7
105 46 , 112 54
,
97
g/L 112 98
BI
16