Wat zegt een steekproef?

(1)

(2)

Wat zegt een steekproef?

Suikergehalte van cola Steekproef 1

Gehalte = 101 g/L en 

_n-1

= 6 g/L Steekproef 2

Gehalte = 105 g/L en 

_n-1

= 4 g/L Steekproef 3

Gehalte = 98 g/L en 

_n-1

= 7 g/L

Welke steekproef is het meest betrouwbaar?

Welke uitslag geven we door?

(3)

3

Wat ontbreekt hier?

Suikergehalte van cola

Steekproef 1 n = 5

Gehalte = 101 g/L en 

_n-1

= 6 g/L Steekproef 2 n = 3

Gehalte = 105 g/L en 

_n-1

= 4 g/L Steekproef 3 n = 10

Gehalte = 98 g/L en 

_n-1

= 7 g/L

Welke steekproef is nu het meest betrouwbaar?

Hoeveel samples moet je nemen?

(4)

Onderzoek

Gemiddelde lichaamslengte Nederlandse mannen van 20 jaar

steekproef n lengte (cm) 

_n-1

1 3 178,2 9,1

2 10 181,2 7,1

3 60 177,6 7,5

Welke steekproef is het meest betrouwbaar?

Hoeveel samples moet je nemen?

Steekproef nog groter maken?

(5)

5

Andere opzet

We gaan steekproeven 10 x herhalen

Bepaling gemiddelde lengte Nederlandse mannen (cm)

3 samples 10 samples 25 samples

gem _n-1 gem _n-1 gem _n-1

168,4 8,5 178,0 10,2 178,9 8,9

181,3 12,0 178,1 8,6 180,0 9,4

182,2 7,4 180,9 8,3 179,3 7,8

181,5 9,1 176,5 9,8 180,4 6,9

175,5 8,9 183,8 8,2 178,3 8,6

179,7 8,9 179,3 7,4 180,1 9,6

180,6 10,5 178,8 9,4 181,7 6,6

177,8 5,2 178,4 5,3 179,9 7,7

181,6 10,6 183,8 8,6 180,3 6,9

181,1 11,6 178,9 4,9 178,4 6,8

Valt je iets op?

Hoe onderzoek je of dat klopt?

• Gemiddelde berekenen

• Standaarddeviatie van die gemiddelden berekenen De verschillen lijken kleiner te worden

Kon je dat verwachten?

(6)

Andere opzet

Kleinere steekproeven herhalen

Bepaling gemiddelde lengte Nederlandse mannen (cm)

3 samples 10 samples 25 samples

gem _n-1 gem _n-1 gem _n-1

168,4 8,5 178,0 10,2 178,9 8,9

181,3 12,0 178,1 8,6 180,0 9,4

182,2 7,4 180,9 8,3 179,3 7,8

181,5 9,1 176,5 9,8 180,4 6,9

175,5 8,9 183,8 8,2 178,3 8,6

179,7 8,9 179,3 7,4 180,1 9,6

180,6 10,5 178,8 9,4 181,7 6,6

177,8 5,2 178,4 5,3 179,9 7,7

181,6 10,6 183,8 8,6 180,3 6,9

181,1 11,6 178,9 4,9 178,4 6,8

gemiddelde van 10 steekproeven van

3 samples

10 samples

25 samples

gem 179,0 gem 179,7 gem 180,7

_n-1 4,2 _n-1 2,5 _n-1 1,5

Het gemiddelde is praktisch hetzelfde

De standaarddeviatie van de gemiddelden wordt kleiner als je het aantal samples per steekproef groter maakt

(7)

7

Andere opzet

Kleine steekproeven 50 x herhalen: histogram

Blijkbaar zijn de steekproefgemiddelden ook normaal verdeeld, maar hun standaarddeviatie neemt af als we het aantal samples groter maken.

3 samples 50x herhaald

0 2 4 6 8 10 12 14 16 18

164 167,2 170,4 173,6 176,8 180 183,2 186,4 189,6 192,8 196 Meer

Lengte

Frequentie

0 5 10 15 20 25

164 167,2 170,4 173,6 176,8 180 183,2 186,4 189,6 192,8 196 Meer

Lengte

Frequentie

0 5 10 15 20 25 30

164 167,2 170,4 173,6 176,8 180 183,2 186,4 189,6 192,8 196 Meer

Lengte

Frequentie

Definitie

De standaarddeviatie van de steekproefgemiddelden noemt men de standaardfout SE (Eng: standard error)

3 samples

10 samples

25 samples

gem 179,0 gem 179,7 gem 180,7

_n-1 4,2 _n-1 2,5 _n-1 1,5

(8)

Andere opzet

Kleinere steekproeven herhalen

(9)

9

Schatting van het populatiegemiddelde

Wat is volgens jou de beste schatting van de gemiddelde lengte van Nederlandse mannen van 20 jaar.

3 samples

10 samples

25 samples

gem 179,0 gem 179,7 gem 180,7

_n-1 4,2 _n-1 2,5 _n-1 1,5

Men noemt dit een puntschatting. Waarom?

Beter is een intervalschatting van het populatiegemiddelde, dus het gemiddelde ligt tussen ……cm en …….. cm

wiskundige notatie ………cm < μ < …….. cm

Zo’n schatting noemt men een betrouwbaarheidsinterval

180,7 cm?

0 % !!

Hoeveel % betrouwbaar is een puntschatting?

(10)

10

Betrouwbaarheidsinterval

Voor een willekeurig getrokken sample uit een populatie geldt dus een kans van 95 % dat hij tussen -2 en +2 ligt.

Er is ook een kans van 99 % dat hij tussen -3 en +3 ligt.

Van een normaalverdeling zijn het gemiddelde  en de standaarddeviatie

_n bekend. Een normaalverdeling geldt (helaas) alleen voor een hele populatie.

+1 +2 +3

-1 -2

-3 0 Z

95%

99%

Hele populatie

Z-waarde = aantal standaarddeviaties  Populatiegemiddelde 

(11)

11

Betrouwbaarheidsinterval

We willen een betrouwbaarheid van 95 %.

Voor de Z-waarde nemen we de nauwkeurige waarde van 1,96 (zie Z-tabel) De standaardfout SE kunnen we gebruiken in combinatie met de Z-waarden van de normaalverdeling.

+1 +2 +3

-1 -2

-3 0 Z

95%

99%

Voor de schatting van  gebruiken we de standaardfout SE Het betrouwbaarheidsinterval BI voor de schatting van het populatiegemiddelde  wordt dan:

SE x

SE

x  1 , 96     1 , 96 

:

BI 

(12)

12

Betrouwbaarheidsinterval

We gebruiken de resultaten van de steekproef met 25 samples.

gem = 180,7 cm met SE = 1,5 cm

Invullen geeft:

In woorden

De gemiddelde lengte van Nederlandse mannen van 20 jaar ligt met een betrouwbaarheid van 95 % tussen 177,8 cm en 183,6 cm.

Probleem:

We moeten de standaardfout SE te weten komen.

180,7 -1,96 × 1,5 < μ < 180,7 +1,96 × 1,5 BI: 177,8 cm < μ < 183,6 cm

SE x

SE

x 1,96    1,96

(13)

13

Betrouwbaarheidsinterval

Hoe vinden we de standaardfout SE ?

• Veel steekproeven doen zoals bij de lengtemeting, in dit geval dus 10 keer 25 = 250 metingen.

250 keer?

vette shit !!

• De standaardfout berekenen met behulp van de

standaarddeviatie van de populatie (als die tenminste bekend is). Dat is bijvoorbeeld het geval bij een

gevalideerde meetmethode.

De formule wordt dan:

Van een gevalideerde meetmethode is vastgesteld hoe nauwkeurig hij is. Dit doet men door een groot aantal metingen te doen, net zoals wij bij de lengtemeting deden

Voorbeeld

De meetmethode van het suikergehalte in cola is gevalideerd en heeft een (on)nauwkeurigheid van 2,5 %. Dit mogen we zien als

variatiecoëfficiënt van de populatie (alle mogelijke steekproeven).

Gegeven n = 3 suikergehalte = 105 g/L

• Bereken de standaarddeviatie _n

• Bereken het betrouwbaarheidsinterval BI SE _ nⁿ

x n

x_ _ nⁿ _  _ _ _ ⁿ 96 , 1 96

, 1

(14)

14

Betrouwbaarheidsinterval

Hoe vinden we de standaardfout SE ?

Helaas geldt deze formule alleen wanneer sprake is van een normaalverdeling en bij kleine steekproeven is dat niet het geval!! We kunnen de Z-waarden niet gebruiken. We moeten gebruik maken van de t-verdeling

• Als we niets weten van de populatie kunnen we de standaardfout alleen maar berekenen met de standaarddeviatie van de

steekproef.

De vorm van de t-verdeling hangt af van het aantal

samples in de steekproef. In dit geval geldt hij voor n = 5 ofwel v = n – 1 = 4

Alle andere waarden staan in de t-tabel.

x n

x1,96ⁿn^¹    1,96ⁿ^¹

(15)

15

Betrouwbaarheidsinterval

Voorbeeld suiker in cola

Gegeven n = 5 suikergehalte = 105 g/L en _n-1 = 6 g/L

We zagen in de grafiek dat t = 2,78 bij 95 % betrouwbaarheid De formule wordt dan:

Afgerond suikergehalte 95 %

Zonder 250 metingen te doen, kunnen we toch een 95 % betrouwbare uitslag doorgeven. Een betrouwbaarheid van 95 % betekent wel een onbetrouwbaarheid van 5 %. Dat houdt in dat we, wanneer we de steekproef 20 x zouden doen, we 1 van de 20 keer een verkeerde uitslag zouden kunnen doorgeven. In de wereld van wetenschap en laboratorium wordt dit geaccepteerd.

t n n x

t

x  ⁿ^¹     ⁿ^¹

5 78 6

, 2 5 105

78 6 , 2

105       46

, 7 105 46

, 7

105     46 , 112 54

,

97   

g/L 112 98

BI   

(16)

16