Statistiek
HC1MBR Statistiek
Doel
De eigenschappen van een grote verzameling getallen
op een simpele manier
weergeven
Methode 1: een plaatje
Dus geen lange lijst met vetpercentages, maar:
Methode 2: 1 getal of woord
“Het gemiddelde cijfer is een 5”
“De middelste beoordeling was ‘gaat wel’ ”
“Er is een verschil van 8 punten tussen het hoogste en het laagste cijfer”
Dus geen lange lijst met gegevens, maar:
“De populairste fast-food keten is McDonalds”
Voorbereiding
Zijn de gegevens valide ?
Zijn de gegevens betrouwbaar ?
Als we over het voorgaande tevreden zijn, is het voor de keuze van een bepaald type plaatje of getal belangrijk dat we het meetniveau van de gegevens kennen.
Voordat we zelfs maar gaan denken aan een bepaald getal of plaatje, moeten we weten of de gegevens ‘goed’ zijn. Hiervoor stellen we de volgende vragen:
Betrouwbaarheid
Betrouwbaarheid = als we nog een keer gaan meten, krijgen we dan dezelfde gegevens ?
Voorbeeld onbetrouwbaarheid: een weegschaal die voor hetzelfde voorwerp iedere dag een ander gewicht aangeeft
Voorbeeld onbetrouwbaarheid: een toets waarop studenten die hetzelfde weten / kunnen totaal verschillende scores halen
Voorbeeld onbetrouwbaarheid: in een te kleine groep het effect van een dieet op bloeddruk onderzoeken
Validiteit
Validiteit = Meten we ook echt wat we willen meten ?
Voorbeeld ontbreken validiteit: iemands kennis over voedingsstoffen testen door alleen maar vragen over cholesterol te stellen
Voorbeeld ontbreken validiteit: in een onderzoek onder de gehele bevolking naar het effect van een dieet op bloeddruk alleen mensen met overgewicht ondervragen
ALLEEN als gegevens betrouwbaar zijn kunnen we de volgende stap zetten en ons afvragen of gegevens ook valide zijn.
Hieraan zouden we kunnen gaan twijfelen omdat de gegevens:
1. geen compleet inhoudelijk beeld van het onderwerp geven 2. van een steekproef niet uit te breiden zijn naar de populatie 3. in tegenspraak zijn met gegevens uit een andere bron
Meetniveaus – indelingen
•Sociale klasse
•Geslacht
•Ergens helemaal of een beetje of niet helemaal of helemaal niet mee eens zijn
•Type lipoproteine
2. Gegevens die je op volgorde kunt zetten: ordinaal meetniveau
1. Gegevens die je niet op volgorde kunt zetten: nominaal meetniveau
•Fast-food keten
Meetniveaus - getallen
2. Gegevens met een ‘natuurlijk nulpunt’: ratio meetniveau 1. Gegevens zonder ‘natuurlijk nulpunt’: interval meetniveau
•Cholesterolgehalte
•Vetpercentage
•Gewicht
•Tijdsaanduiding
•Temperatuur
Plaatjes - cirkeldiagram
indelingen
Belangrijk: de categorieen
sluiten elkaar uit
Plaatjes – staafdiagram
indelingen
Voorbeeld2:
Categorieen hoeven elkaar niet uit te sluiten Meer mogelijkheden als bij cirkeldiagram
Voorbeeld1: Iedere kolom is een cirkeldiagram
Plaatjes – histogram
getal, kun je mee rekenen
Plaatjes – lijndiagram
getal, kun je mee rekenen
Zelfde als histogram, maar vertelt je wat er
in de loop van de tijd gebeurt
Plaatjes – cumulatief lijndiagram
getal, kun je mee rekenen
Zelfde als lijndiagram, alleen tel je nu alles
uit het verleden op en laat je het totaal zien.
Plaatjes – spreidingsdiagram
getal, kun je mee rekenen
Hoort hier eigenlijk niet thuis.
Geeft het verband tussen TWEE
verzamelingen getallen.
Des te meer de punten
op een lijn liggen, des te
sterker het verband
Plaatjes – boxplot
getal, kun je mee rekenen
deelt alle gegevens in vieren.
Voorbeeld:beste fast-food keten MacD, Burger, MacD, MacD, KFC
1. De modus: het gegeven dat het meest voorkomt: MacD
Welk gegeven zegt in 1 keer iets over de
‘grootte’ van alle gegevens bij elkaar ??
1 getal of woord - centrummaten
1 getal of woord - centrummaten
Voorbeeld:beoordeling chemie II door studenten slecht, slecht, gaat wel, goed, briljant
1. De mediaan: het middelste gegeven: gaat wel
2. De modus: het gegeven dat het meest voorkomt: slecht
Voorbeeld:cijfers 2e herkansing chemie II 3, 3, 4, 7, 8
1. Het gemiddelde: (3+3+4+7+8)/5 = 5
2. De mediaan: het middelste gegeven: een 4
3. De modus: het gegeven dat het meest voorkomt: een 3
1 getal of woord - centrummaten
Voorbeeld: Het gemiddelde van de cijfers voor het vak chemie II is een 6
Dit kan betekenen:
• Iedereen heeft een 6
• De ene helft heeft een 3, de andere helft heeft een 9
• Of nog heel veel andere dingen …….
1 getal of woord – spreidingsmaten
Kortom: we willen niet alleen weten wat het gemiddelde van de cijfers is, maar ook hoe ver de cijfers uit elkaar
liggen: de spreiding
1 getal of woord - spreidingsmaten
Variatiebreedte = grootste getal – kleinste getal
Interkwartielafstand = grootste getal – kleinste getal,
als je de grootste en de kleinste 25% van de getallen hebt weggelaten
1 getal of woord - spreidingsmaten
Een zeer belangrijke spreidingsmaat is de
standaarddeviatie
Hoe meer spreiding hoe groter de standaarddeviatie
De standaarddeviatie bereken je uit de variantie.
De standaarddeviatie berekenen is een heel gedoe …
Zelfs met rekenmachine … !
1 getal of woord - spreidingsmaten
Voorbeeld: het gewicht van 5 Big Macs in grammen:
405, 400, 400, 390, 405
X 405 400 400 390 405
X-gem 5
0 0 -10 5
(X-gem)2 25
0 0 100 25
Gemiddelde gewicht = (405 + 400 + 400 + 390 + 405) / 5 = 400 variantie
= (25+25+100)/5
= 30
standaarddeviatie
= wortel uit de variantie
= 5.5
30 35 40 45 50 55 60 puntenMC
0 10 20 30
Frequency
Mean = 48,1 Std. Dev. = 6,029 N = 220
Normale verdeling
Een normale verdeling is een histogram wat:
1. Redelijk symmetrisch rond het gemiddelde ligt
2. Verder van het midden (veel) minder waarnemingen heeft (de kolommen worden korter)
Wel normaal verdeeld Niet normaal verdeeld Niet normaal verdeeld
Normale verdeling
In Nederland is de lengte normaal verdeeld. De gemiddelde lengte is 180 cm en de
standaarddeviatie is 10 cm.
Hiermee bedoelen we:
1. Ongeveer 68% van de Nederlanders heeft een lengte tussen de 170 en de 190 cm
2. Ongeveer 95% van de Nederlanders heeft een lengte tussen de 160 en de 200 cm
3. Ongeveer 99% van de Nederlanders heeft een lengte tussen de 150 en de 210 cm
Bij normale verdelingen heeft de standaarddeviatie een speciale betekenis: