Baarde en de goede Hoofdstuk 11:
Data-analyse
Contact
Dit document is samengesteld door onderwijsbureau Bijles en Training. Wij zijn DE expert op het gebied van bijlessen en trainingen in de exacte vakken, van VMBO tot universiteit.
Zowel voor individuele lessen op maat als voor doelgerichte groepstrainingen die je voorbereiden op een toets of tentamen. Voor meer informatie kun je altijd contact met ons
opnemen
via onze website: http://www.wiskundebijlessen.nl of via e-mail: marc\_bremer@hotmail.com
Disclaimer
Alle informatie in dit document is met de grootst mogelijke zorg samengesteld. Toch is het niet uit te sluiten dat informatie niet juist, onvolledig en/of niet up-to-date is. Wij zijn hiervoor
niet aansprakelijk. Op geen enkele wijze kunnen rechten worden ontleend aan de in dit document aangeboden informatie.
Analysetechnieken
Bij de keuze van een analysetechniek zijn 3 factoren van belang:
3.Het type onderzoeksvraag 1.De onderzoeksgroep
2.Het meetniveau van de variabelen
Presentatie gegevens
Gegevens kunnen kort worden weergegeven met behulp van:
1.Kengetallen 2. Plaatjes
Kengetallen
1. Centrummaten:
a. Modus (nominale variabele) b. Mediaan (ordinale variabele) c. Gemiddelde (interval en ratio) 2. Standaarddeviatie (interval en ratio) 3. Correlatie
Plaatjes - cirkeldiagram
1 nominale of ordinale variabele
Plaatjes – staafdiagram
Meerdere relateerde nominale of ordinale variabelen
Plaatjes – histogram
1 interval of ratio variabele
Plaatjes – lijndiagram
Zelfde als histogram, maar interval of ratiovariabele is tijdstip
Plaatjes – cumulatief lijndiagram
Getallen, kun je mee rekenen
Zelfde als lijndiagram, alleen tel je nu alles uit het verleden op en laat je het totaal zien.
Vooral handig als ‘normaal’ lijndiagram te onoverzichtelijk
Plaatjes – spreidingsdiagram
2 interval of ratiovariabelen
Plaatjes – boxplot
1 interval of ratiovariabele
Deelt alle gegevens in vieren.
Belangrijkste toepassing:
kijken of een verdeling min of meer normaal is
Toetsen - doel
1. We willen onderzoek doen in twee (of 1) populaties
2. Het is teveel moeite de hele populaties te ondervragen
5. Het uitvoeren van een toets verteld ons, of er
voldoende reden is aan te nemen dat niet alleen de steekproeven, maar ook de populaties verschillen 3. Dus we trekken aselecte steekproeven
4. In de steekproeven vinden we een verschil
6. Dit is het ENIGE toegestane gebruik van een toets.
Ieder ander gebruik is incorrect.
Toetsen - opzet
1. Bepaal de nulhypothese H0 (‘er is geen verschil’)
3. Bereken de toetsstatistiek (z, t, F, X2 etc. Des te groter de toetsstatistiek, des te groter het verschil)
2. Bepaal de alternatieve hypothese H1 (‘er is wel een verschil; de ene populatie heeft een waarde groter / kleiner / ongelijk aan de ander)
4. Bepaal de bijbehorende p-waarde uit een tabel. De p-waarde vertelt je hoe groot de kans is dat het
verschil in de steekproef nog groter is, als er in de populatie geen verschil is
5. Trek een conclusie door p te vergelijken met α
Toetsen - conclusie
a. Er is wel voldoende reden om aan te nemen dat H1 b. Er is niet voldoende reden om aan te nemen dat H1 1. De toets geeft dus GEEN ZEKERHEID !
2. Je conclusie is NOOIT dat er voldoende reden is de nulhypothese aan te nemen !
Voorbeelden incorrecte conclusies:
1. Populatie 1 is groter dan populatie 2
Toetsen - beperkingen
Een toets beantwoord de vraag OF er een verschil is. Het antwoord van een toets is ALLEEN ja of nee.
1. De toets zegt niets over de GROOTTE van het verschil ! 2. De toets zegt niets over het BELANG van het verschil !
Toetsen - beperkingen
Bestuurskunde Elsevier-enquete ’99
• KUN 7.2 7
• EUR 7.1 7
• Twente 6.9 7
• Leiden 6.8 7
• Tilburg 6.6 7
Verschillen wel significant, maar ook relevant ?
De onderzoeksgroep
Bij de keuze van een analysetechniek zijn 3 soorten onderzoeksgroepen van belang:
2.Een grote steekproef (> 25). Je doet hetzelfde als bij de populatie, maar je bepaalt ook met een toets voor grote steekproeven (een
‘parametrische toets’) of de gevonden conclusie niet alleen voor de steekproef, maar ook voor de populatie geldt.
1.Een populatie. Het is voldoende waarden te meten en of uit te rekenen, en grafisch of in een tabel te presenteren.
3.Een kleine steekproef (<25). Je doet hetzelfde als bij de populatie, maar je bepaalt ook met een toets voor grote steekproeven (een
‘niet-parametrische toets’) of de gevonden conclusie niet alleen voor de steekproef, maar ook voor de populatie geldt.
Het type onderzoeksvraag
Er zijn toetsen voor:
1. Frequenties (1 groep) 2. Verschillen (2 groepen) 3. Verbanden (2 groepen)
Keuze juiste toets - frequenties
1. Kleine groep (<25): Teken-toets.
2. Grotere groep (>25): t-toets voor 1 groep
Voorbeeld t-toets voor 1 groep:
Een onderzoeker weet dat de gemiddelde duur van de nachtelijke slaap van de populatie van alle volwassen Swamaliers normaal verdeeld is met een
gemiddelde van 7 uur per nacht. Hij vermoedt echter dat Swamalische vissers minder slapen dan het landelijke gemiddelde. Hij trekt een steekproef van 100 volwassen vissers, en vindt daarin een gemiddelde van 6,8 uur met een
standaarddeviatie van 1,2 uur. Toets zijn vermoeden (met α = 1 %).
Keuze juiste toets - verschillen
1. Kleine groepen die niet normaal verdeeld zijn (<25): Mann-Whitney U.
2. Anders:
a. t-toets voor 2 onafhankelijke groepen b. t-toets voor 2 afhankelijke groepen
(Wilcoxons Matched Pairs) 3. Meer dan 2 groepen: ANOVA
Keuze juiste toets - verschillen
Voorbeeld t-toets voor 2 onafhankelijke groepen:
Een diëtist doet onderzoek naar het eventuele verband tussen overgewicht en het al dan niet in een stad wonen. Voor de bepaling van overgewicht gebruikt zij de Quetelet-Index QI, die zij afrondt op gehele getallen. Zij brengt de
gegevens van de steekproef onder in de volgende absolute frequentietabel.
Voer een toets uit om na te gaan of stadbewoners een vergelijkbare QI hebben als niet-stadsbewoners.
QI 17 18 19 20 21 22 23 24 25 26 27 28
Stad 1 - 1 3 4 5 6 10 7 7 4 2
Platteland - - 3 5 8 8 6 6 5 5 2 2
Keuze juiste toets - verbanden
1.Chi-kwadraat (2 categorische variabelen) 2.Correlatietoets (2 numerieke variabelen)
Keuze juiste toets - verbanden
Voorbeeld chi-kwadraat:
Een advertentiebureau wil een campagne gaan houden voor een nieuw product.
Om te bepalen welke strategie het moet volgen bij een bij een reclame
campagne doet het eerst een marktonderzoek, waarbij o.a. bekeken wordt of de huidige op de markt beschikbare producten A, B en C een verschillende waardering genieten bij enkele leeftijdsgroepen. Er werden totaal 200 personen ondervraagd. De resultaten van de enquête zijn weergegeven in de volgende tabel.
Toets of de voorkeuren van de consument in dit geval onafhankelijk zijn van de leeftijd. Kies = 1%.
A B C
Jonger dan 30 28 6 6
Oefening 1 – tweetallen 10 min
Hoe is de verdeling van de positie in het bedrijf ?
• Welk type onderzoeksvraag is dit ?
• Welk type onderzoeksgroep is dit ?
• Wat is het meetniveau van de variabele(n) ?
• Welke plaatjes zijn geschikt ?
• Welke kentallen zijn geschikt ?
• Welke toetsen zijn geschikt ?
• Geef antwoord op de vraag met cijfers en met een figuur.
Oefening 2 – tweetallen 10 min
Hoe is de verdeling van het ziekteverzuim in het bedrijf ?
• Welk type onderzoeksvraag is dit ?
• Welk type onderzoeksgroep is dit ?
• Wat is het meetniveau van de variabele(n) ?
• Welke plaatjes zijn geschikt ?
• Welke kentallen zijn geschikt ?
• Welke toetsen zijn geschikt ?
• Geef antwoord op de vraag met cijfers en met een figuur.
Oefening 3 – tweetallen 10 min
Is er verschil tussen wel en niet betrokken werknemers in ziekteverzuim ?
• Welk type onderzoeksvraag is dit ?
• Welk type onderzoeksgroep is dit ?
• Wat is het meetniveau van de variabele(n) ?
• Welke plaatjes zijn geschikt ?
• Welke kentallen zijn geschikt ?
• Welke toetsen zijn geschikt ?
• Geef antwoord op de vraag met cijfers en met een figuur.
Oefening 4 – tweetallen 10 min
Hoe is de samenhang tussen betrokkenheid bij het bedrijf en het ziekteverzuim ?
• Welk type onderzoeksvraag is dit ?
• Welk type onderzoeksgroep is dit ?
• Wat is het meetniveau van de variabele(n) ?
• Welke plaatjes zijn geschikt ?
• Welke kentallen zijn geschikt ?
• Welke toetsen zijn geschikt ?
• Geef antwoord op de vraag met cijfers en met een figuur.
Uitwerkingen oefening 1-1
Hoe is de verdeling van positie in het bedrijf ?
• Frequentievraag
• Grote steekproef
• Ordinaal
• Cirkeldiagram
• Mediaan
• Geen
Uitwerkingen oefening 1-2
Uitwerkingen oefening 2 - 1
Hoe is de verdeling van het ziekteverzuim in het bedrijf ?
• Frequentievraag
• Grote steekproef
• Ratio
• Histogram
• Gemiddelde, standaarddeviatie
• Geen
Uitwerkingen oefening 2 - 2
Uitwerkingen oefening 3 - 1
Is er verschil tussen wel en niet betrokken werknemers in ziekteverzuim ?
• Verschilvraag
• Grote steekproef
• Ratio
• Twee maal histogram
• Gemiddelde, standaarddeviatie
• T-toets voor 2 onafhankelijke groepen
Uitwerkingen oefening 3 - 2
Uitwerkingen oefening 4 - 1
Hoe is de samenhang tussen betrokkenheid bij het bedrijf en het ziekteverzuim ?
• Samenhangvraag
• Grote steekproef
• Interval / Ratio
• Spreidingsdiagram
• Correlatiecoefficient
• Correlatietoets