• No results found

Welke statistische toets moet mag je gebruiken?

N/A
N/A
Protected

Academic year: 2022

Share "Welke statistische toets moet mag je gebruiken?"

Copied!
18
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Welke statistische toets mag je gebruiken?

Foeke van der Zee

(Hulp bij Onderzoek, Groningen, versie 24 januari 2019)

www.hulpbijonderzoek.nl

moet

!

(2)

Voorwoord

Dit paper maakt deel uit van een reeks papers waarin ik een aantal onderwerpen behandel die te maken hebben met het doen van onderzoek. In deze papers kan ik een onderwerp uitgebreider bespreken dan op de site. De papers zijn ontstaan als blogartikel of ter voorbereiding van een nog uit te geven of reeds uitgegeven publicatie van een boek.

Het staat je vrij om dit paper te printen voor eigen gebruik. Je mag het ook doorsturen naar anderen als die behoefte hebben aan deze informatie. Overschrijven of ergens opslaan waar het voor anderen te downloaden is mag niet.

Wil je in je thesis of verslag refereren naar dit paper, doe dat dan op de officiële manier, zoals dat in jouw vakgebied gebruikelijk is. Alle informatie staat op de voorkant.

Foeke van der Zee

Missie

Ik wil je graag leren goed onderzoek te verrichten, want met goed onderzoek krijg je betere informatie. Met betere informatie kun je betere beslissingen nemen. Met betere beslissingen kun je een betere wereld maken.

Met mijn methode van onderzoek krijg je altijd goede en betrouwbare resultaten. De methode is ook altijd en overal toepasbaar. Ik leer het je in mijn boeken. Als jij wilt leren goed onderzoek te verrichten, raad ik je een van mijn boeken aan. Je zult er geen spijt van krijgen.

(3)

Welke toets mag(moet!) je gebruiken?

Inleiding

Veel studenten (maar ook anderen) hebben problemen met het vaststellen van de juiste toets om hun gegevens te analyseren. Dat is op zich goed voorstelbaar, want met slechts vijf variabelen kun je in theorie al 5 x 4 x 3 x 2 x 1 = 120 analyses uitvoeren. Ik denk dat het er zelfs nog meer zijn want elke variabele kun je ook nog opvatten op 3 niveaus, dus zijn het er al 360. Daarvan kun je meteen een heleboel als zinloos wegstrepen. Met vijf variabelen zijn er - naar mijn ervaring - ongeveer 10 tot 20 analyses uit te voeren die inhoudelijk interessant genoeg zijn.

Welke analyses inhoudelijk interessant zijn, wordt bepaald door de vraagstelling van het onderzoek. Je hebt immers data verzameld omdat je daarmee een vraag wilde beantwoorden. Het antwoord op die vraag - de onderzoeksvraag - kan er alleen komen door de gegevens te analyseren.

Maar met de vraagstelling alleen ben je er nog niet. Je moet ook naar de gegevens zelf kijken. Het gaat er niet om hoe ze er theoretisch uit zien, maar hoe ze in de database staan. Als ik aan studenten vraag “Op welk niveau bevindt zich de variabele leeftijd?” dan zegt menigeen dat dat een variabele is op ratio niveau. Daar kunnen ze mooi de mist mee ingaan, want als leeftijd gemeten is in cohorten, dan is het een variabele op ordinaal niveau. Het is dus afhankelijk van hoe je de variabele geoperationaliseerd hebt. Begin het je nu al te duizelen, lees dan gewoon verder, want later leg ik je dit allemaal heel precies uit.

In dit document ga ik je uitleggen hoe je bepaalt welke toets je moet toepassen. Maar voordat ik dat kan doen, moet ik je eerst wat termen uitleggen. Je moet weten wat een statisticus onder een case verstaat, wat variabelen zijn, wat onafhankelijke en gepaarde waarnemingen zijn en het niveau van een variabele kunnen bepalen. Pas daarna kan ik je uitleggen welke toetsen er zijn en wanneer je welke mag(moet!) gebruiken.

Wat is jouw leeftijd?

……. jaar Of:

Wat is jouw leeftijd?

0 jonger dan 18 jaar 0 18 t/m 25 jaar 0 26 t/m 30 jaar 0 31 jaar of ouder

(4)

De database met gegevens

Laten we simpel beginnen met het bekijken van een database. Een database is een reeks objecten of personen of wat dan ook. Achter ieder object staat een aantal kenmerken.

Een telefoonboek of een adressenlijst is ook een database. Het bestaat uit een lange lijst van personen met achter elke persoon gegevens zoals het adres, het huisnummer, de postcode, de straatnaam, de plaats en niet te vergeten het telefoonnummer. Het kenmerk van een database is dat er op elke regel één object staat en achter ieder object een aantal gegevens.

Ook voor onderzoek maken we gebruik van databases. De onderzoeker stopt daarin alle gegevens die hij heeft verzamelt voor zijn onderzoek. Welke gegevens hij in de database stopt en op welke plaats die komen te staan, mag hij helemaal zelf bepalen. Er zijn echter wel een aantal regels die handig zijn om je daar aan te houden zodat je de gegevens gemakkelijk kunt analyseren.

Cases

Iedere regel in de database noemen we een case. Dat klinkt een beetje onvriendelijk als we het hebben over personen, maar een case is de algemene term voor objecten, planten, dieren en mensen. In terminologie van onderzoek noemen we een case ook wel een onderzoekseenheid. Wat een onderzoekseenheid is, kan verschillen. Het kan gaan om een mens, een kantoor, een land, een organisatie. Dat maakt allemaal niet uit.

Normaal gesproken zet de onderzoeker in de eerste kolom een identificatiecode, zodat hij weet om welke case het gaat. In het voorbeeld op de volgende bladzij hebben we namen van personen gebruikt, maar er hadden ook net zo goed nummers kunnen staan.

Dat maakt het nog onpersoonlijker, maar zo’n houding wordt wel van de onderzoeker verwacht: hij moet objectief naar zijn data kijken. Het is een beetje oneerbiedig om te zeggen, maar een persoon is gewoon een case of een object of een onderzoekseenheid.

(5)

Variabelen

Het is wel handig als in iedere kolom voor iedere persoon hetzelfde gegeven komt te staan, want dan kun je dat gemakkelijk opzoeken. Boven de kolom zet je een naam zodat je weet wat er in die kolom staat. De naam die we boven de kolom noteren is de naam van de variabele. Die naam mag je helemaal vrij kiezen, zolang de beheerder van de database maar weet wat er mee bedoeld wordt. Ik geef je wel de tip om namen te bedenken die goed weergeven wat er in die kolom staat1.

Waarden

Wat er in iedere cel komt staan, zijn de scores van de cases op de kenmerken. Het is een specifieke waarde en kan zowel een getal, een woord, als een stuk tekst zijn. Een waarde kan uniek zijn, zoals het telefoonnummer, maar dat hoeft niet. Mensen die allemaal dezelfde leeftijd hebben krijgen allemaal hetzelfde getal in de betreffende kolom.

Achter iedere respondent zetten we scores op de kenmerken. Heb je een multiple respons-vraag gesteld - dat zijn vragen waarbij meerdere antwoorden mogelijk zijn -, dan moet je voor ieder antwoordalternatief een kolom maken.

In iedere cel zet je de antwoorden van die persoon op die specifieke vraag. In plaats van het antwoord letterlijk over te nemen, kun je ook de antwoorden coderen. De meest gehanteerde code is die van het nummeren van de antwoordalternatieven2. Het bovenste krijgt het cijfer 1, de tweede het cijfer 2 etc. Omdat je nu snel vergeet wat die cijfertjes betekenen, maak je een codeboek. In een codeboek schrijf je op wat de getallen in de cellen betekenen. Dat doe je dan voor iedere kolom en per kolom voor iedere waarde die voor kan komen.

1) Vroeger mocht de naam van de variabele maximaal 8 tekens zijn. Dat komt omdat de programmatuur in die tijd 8-bits computers was. Dat leidde tot zeer crypitsche namen van de variabelen zoals nuitgwk (=aantal keren uit in het weekend). Tegenwoordig mag de naam erg lang zijn, en soms wordt de hele vraag herhaald. Dat is ook niet goed, want daardoor wordt je uitvoer minder makkelijk leesbaar. Het beste kun je steekwoorden gebruiken waarmee het voor jou als onderzoeker duidelijk is wat er wordt bedoeld.

2) Vroeger konden computers alleen maar getallen lezen en daar wat mee doen. Zelfs tekst werd omgezet in (binaire) nummers.

Cases of objecten

De opgenomen kenmerken

staan op de bovenste regel De naam van de variabele staat boven de kolom

De waarden staan in de cellen

(6)

Het niveau van een variabele

Nu je weet hoe de database in elkaar steekt, moeten we het hebben over het niveau van de variabelen. Het niveau van een variabele is bepalend voor wat je er mee mag doen.

Het is een beetje verwarrend, maar het is bepalend vanuit welke wetenschappelijke discipline je praat en het aantal niveaus dat je onderscheidt. In de methodologie is er sprake van 4 niveaus, in de statistiek 3 en in de wiskunde een stuk of 7. Ik weet niet zoveel van wiskunde dus is het een beetje een gok hoeveel niveaus er precies zijn. Zelf voel ik me meer een methodoloog dan een statisticus, dus leer ik je deze vier niveaus die gebruikt worden in onderzoek.

Nominaal of categoraal niveau

Objecten kun je indelen in categorieën. Een categorie is een naam waarmee je objecten classificeert. Naam is in het Latijn nomen, vandaar dat het ook wel nominaal wordt genoemd.

Een voorbeeld is de variabele meubelen. Ieder object kun je nu classificeren, dat wil zeggen indelen in een categorie oftewel een waarde toekennen. Je zou de categorieën tafels, stoelen, banken en kasten kunnen onderscheiden. Iedere categorie kun je verfijnen.

Kasten kun je indelen in servieskast, kledingkast, linnenkast, dressoir, keukenkastje etc. Met dit soort gegevens kun je niet zoveel doen. Je kunt er in ieder geval niet mee rekenen. En dat mag ook niet als je de variabele gecodeerd hebt met een nummer.

Ordinaal niveau

Een variabele op ordinaal niveau heeft een bepaalde ordening. Die ordening kan van alles zijn. Rangtelwoorden zijn hier een heel duidelijk voorbeeld van. Dat zijn eerste, tweede, derde, vierde etc. Maar ook rangwoorden zoals goed, beter, best.

In vragenlijsten wordt veelvuldig gebruik gemaakt van Likertschalen. Die hebben ordinale waarden als zeer tevreden, tevreden, gewoon, ontevreden en zeer ontevreden, of als zeer goed, goed, etc. Je ziet hierin een ordening, want zeer tevreden is beter dan tevreden. Daarom leiden dit soort vragen tot variabelen op ordinaal niveau.

De antwoorden kun je coderen met een getal. Zeer goed wordt een 1 en goed een 2, etc. Voor de interpretatie is het beter om de score om te draaien. Zeer goed krijgt het cijfer 5 goed het cijfer 4

etc. Dit geldt eigenlijk alleen voor Nederland, want bij ons geldt: hoe hoger het cijfer hoe beter. In andere landen is het vaak andersom: hoe lager het cijfer hoe beter.

Sommigen willen graag rekenen met deze getallen, maar dat is niet verantwoord.

Hooguit kun je een gemiddelde berekenen om een snelle indicatie te krijgen. Het

(7)

gemiddelde van 3 betekent dan dat de respondenten gemiddeld genomen ongeveer neutraal scoren. Maar 2 keer het getal 2 verandert de score niet van slecht naar goed.

Dat is pure onzin. Dus, rekenen met ordinale variabelen mag niet.

Intervalniveau

Bij variabelen op intervalniveau mag je wel rekenen. Je kunt bij voorbeeld de gemiddelde temperatuur berekenen. Het verschil tussen 20 en 30 oC is evenveel als het verschil tussen 48 en 58 oC.

Het mooie van variabelen op interval niveau is dat er meestal wel maar niet altijd tussenwaarden mogelijk zijn. Je zou een temperatuur kunnen meten als 5,2 0C, of 20,8 0C. Daarvoor heb je dan wel een verfijnd meetinstrument nodig dat in staat is deze kleine verschillen te meten.

In theorie loopt een variabele op interval niveau van min oneindig naar plus oneindig.

Benadrukt moet worden dat het gaat om in theorie. Volgens de huidige inzichten kan het niet kouder worden dan -273 0C. Het kan wel erg heet worden en een maximum schijnt er niet te zijn. Meneer Kelvin heeft de waarde van -273 0C op nul gezet en noemde dat 0

0K. Nu is temperatuur niet meer een variabele op interval niveau maar een variabele op ratio niveau ….

Rationiveau

…. want een variabele op rationiveau heeft een absoluut nulpunt. Dit is hét kenmerkende verschil van een variabele op intervalniveau. Kleiner dan nul kan niet voorkomen. Het mooiste voorbeeld vind ik objecten. Alle objecten hebben een lengte, een breedte en een diepte of hoogte. Zodra één van deze kenmerken nul is, kan het object niet meer bestaan.

Kleiner dan nul bestaat niet. Hoewel … misschien … antimaterie? (NB In dit voorbeeld gaat het niet alleen om waarden kleiner dan nul. Ook al als de waarde exact 0 is, bestaat het voorwerp niet meer.)

Samengevat:

Variabelen op nominaal niveau zijn categorieën, zoals meubels.

Variabelen op ordinaal niveau zijn ordeningen zoals goed - beter - best.

Variabelen op intervalniveau lopen (in theorie) van min oneindig naar plus oneindig.

Variabelen op rationiveau lopen van 0 tot plus oneindig.

Statistici maken geen onderscheid tussen variabelen op ratio- en intervalniveau.

Daardoor gebruikt men in de statistiek slechts 3 niveaus: categoraal/nominaal, ordinaal en interval/ratio.

Onderlinge verhoudingen / overgangen

Het bovenstaande is vooral theorie. De praktijk is weerbarstiger. Het rapportcijfer bijvoorbeeld, is dat een variabele op ratio-, interval- of op ordinaal niveau? Sommigen

(8)

gaan af op de naam, en komen tot de conclusie dat het een variabele op rationiveau moet zijn.

Het rapportcijfer als variabele heeft in ieder geval het kenmerk dat het niet kleiner kan zijn dan 0, vaak zelfs niet kleiner dan 1. Het loopt echter niet op tot plus oneindig. Dus helemaal interval- of rationiveau is het ook niet.

Je zou er eventueel mee kunnen rekenen. Het cijfer 8 zou overeen kunnen komen met twee keer zoveel goede antwoorden als het cijfer 4. Daarvoor zou de cesuur dan wel lineair oplopend of aflopend moeten zijn. Dat is niet altijd het geval. Als dat niet het geval is, dan is de variabele beter op te vatten als een ordinale variabele.

Als het rapportcijfer wordt afgerond op gehele getallen, dan zou er wel eens sprake kunnen zijn van een beperkt aantal cijfers: alleen de 5, 6 en 7 komen dan veelvuldig voor. De rest komt in veel mindere mate, mogelijk zelfs helemaal niet, voor. In dat geval is de variabele rapportcijfer zelfs beter op te vatten als een categorale variabele.

Hetzelfde verhaal kunnen we houden voor de variabele leeftijd. In theorie loopt het op tot plus oneindig. Het heelal is een paar miljard jaar oud. De leeftijd van mensen houdt bij 130 jaar wel op (alleen Methusalem werd volgens de overlevering ouder, maar dat is niet te verifiëren). Verder is het van belang dat je weet hoe het is gemeten. Als je aan respondenten de vraag voorlegt wat hun leeftijd is en ze mogen alleen reageren door het aanvinken van een bepaald cohort, dan heb je een variabele op ordinaal niveau gecreëerd. En als je opvraagt of iemand al de pensioengerechtigde leeftijd heeft, dan is het zelfs een categorale variabele.

In de praktijk zijn de overgangen tussen de niveaus niet zo heel scherp te trekken. Naar mijn ervaring moeten er minimaal 7 verschillende waarden zijn die op een continuüm zijn verdeeld om te kunnen spreken van een variabele op interval/ratio niveau. Bij een variabele als rapportcijfer moet je dan denken aan de cijferreeks 3 - 4 - 4,5 - 5 - 5,5 - 6 - 6,5 - 7 - 8. (Dit zijn er zelfs 9.) Zijn er minder dan 7 waarden dan gaat mijn voorkeur er naar uit om de variabele te behandelen als een variabele op ordinaal niveau.

Voor variabelen op ordinaal niveau moeten er, naar mijn ervaring, minimaal 4 waarden zijn. Zijn het er slechts 3 dan is het vaak beter om de variabele te behandelen als een variabele op categoraal niveau.

Maar nogmaals, het zijn persoonlijke ervaringen en nogal globaal. Iemand anders kan er heel anders over denken. Om het verschil in toetsresultaat te vergelijken, kun je het best beide analyses uitvoeren. Dus voor een variabele waarbij je twijfelt of die interval/ratio is of toch beter opgevat kan worden als ordinaal, daarvan voer je beide toetsen uit. En van variabelen waarbij je twijfelt of die ordinaal is of toch beter opgevat kan worden als nominaal, voer je ook beide toetsen uit. Mijn ervaring is dat als het niet zo veel uitmaakt, omdat je met beide toetsen bijna altijd dezelfde conclusie trekt. Het toetsresultaat kan

Interval/ratio

Ordinaal

Nominaal/

categoraal

≥ 7?

≤ 4?

(9)

(een beetje) anders zijn, maar de conclusie is hetzelfde. Soms heb je een grijs gebied, maar dan is de conclusie ook vaak dat het een niet erg stabiel resultaat is.

Onafhankelijke en gepaarde waarnemingen

Om te bepalen welke toets je mag (moet!) gebruiken, moet je op z’n minst nog één ding weten. Gaat het om onafhankelijke of om gepaarde waarnemingen of metingen.

Onafhankelijke waarnemingen

De termem waarneming en meting worden vaak door elkaar gebruikt. Het zijn eigenlijk synoniemen. Er wordt de waarde in een cel mee bedoeld. Een waarde is onafhankelijk als die bij verschillende cases is vastgesteld.

De term case is hier weer zo onpersoonlijk. De kleur van de ogen van een persoon kun je vaststellen. Dat schrijf je dan op in de kolom. Daarna ga je naar de volgende persoon en stel je opnieuw de kleur van de ogen vast. Je krijgt dus een nieuwe case op een nieuwe regel en de waarde zet je in de kolom eronder. Onafhankelijke waarnemingen zijn dus waarnemingen op verschillende regels maar wel in dezelfde kolom omdat het om hetzelfde kenmerk gaat.

Gepaarde metingen

Er zijn ook waarnemingen die wel bij dezelfde case horen. Zo zou je de kleur van het linkeroog van een persoon kunnen noteren en in een andere kolom de kleur van het rechteroog. Er zijn maar heeeeeel weinig mensen met twee verschillende kleuren ogen, dus echt zinvol is het niet om dat bij iedereen te noteren maar het komt voor. Om het te kunnen noteren heb je in de database twee kolommen nodig.

Dat van de oogkleur is een vrij banaal voorbeeld, maar maakt wel duidelijk dat het om metingen gaat bij dezelfde persoon (case). Andere combinaties zijn: lengte van beide armen, lengte van beide benen, behendigheid rechterhand en behendigheid linkerhand.

Maar je kunt ook losse kenmerken verzamelen zoals inkomen, getrouwd, opleiding, kennis van statistiek voor de cursus en kennis van statistiek na de cursus, rapportcijfer Nederlands, rapportcijfer Duits, rapportcijfer aardrijkskunde, intelligentie, social IQ, aantal vrienden, lid van Facebook. De lijst is echt onuitputtelijk. Hoe dan ook: gepaarde waarnemingen staan op dezelfde regel maar wel in een andere kolom.

Analyses met één, twee en meer dan twee variabelen

De uit te voeren analyses zijn in te delen in drie ‘hoofdstukken’. Om het onderscheid duidelijk te houden gebruik ik hier de Latijnse nummering:

I. analyses met één variabele

(10)

II. analyses met twee variabelen

III. analyses met meer dan twee variabelen.

De term hoofdstuk is misschien niet het meest juiste woord, maar maakt wel duidelijk dat je de analyses in een hoofdstuk bij elkaar horen. In deze volgorde komen ze ook vaak in het verslag te staan: eerst de beschrijvende analyses per variabele, daarna de combinatie van twee variabelen en als laatste de analyses van meerdere variabelen tegelijkertijd in één analyse.

Ad I. Statistische analyses met één variabele

Dit zijn de eenvoudige analyse. Dit kan worden aangeduid met de term beschrijvende statistiek. Dat is niet helemaal correct, want soms gebruik je voor de beschrijvende statistiek ook twee en heel soms zelfs meer dan twee variabelen.

Analyses met één variabele zijn heel simpel. Het gaat dan om frequentie van voorkomen (hoe vaak komt iets voor), de modus, het gemiddelde, de mediaan, spreiding, scheefheid, kurtosis en meer van dat soort zaken. Per variabele geef je aan welke karakteristieken die variabele heeft.

Deze analyses moet je sowieso uitvoeren, want je moet zeker weten dat er geen fouten in het databestand staan.

Ad II. Statistische analyses met twee variabelen

Als er twee variabelen in de analyse worden gestopt, dan noemt men de een vaak de afhankelijke variabele en de andere de onafhankelijke variabele. Wat de afhankelijke en wat de onafhankelijke variabele is, is soms geheel arbitrair. Meestal ligt er toch een theorie aan ten grondslag of een soort gevoel. De definitie van onafhankelijke variabele is: de variabele waarop men ‘iets’ vergelijkt. En hetgeen dat men vergelijkt - dat iets dus uit de vorige zin - is de afhankelijke variabele. De waarden van de onafhankelijke variabele zet men uit op de x-as en de waarden van de afhankelijke variabele op de y-as.

Bijvoorbeeld. Personen kun je indelen in mannen en vrouwen (of jongens en meisjes) en vervolgens kun je mannen en vrouwen vergelijken op <……>. Vul maar in, bijvoorbeeld:

leeftijd, mening over <…>, spelgedrag, salaris, opleiding en ga zo maar door. De variabele Geslacht (of Sekse) is de onafhankelijke variabele. De afhankelijke variabele is dan leeftijd, opleiding, of een van al die andere mogelijkheden.

Drie clusters van analysetechnieken

Op grond het onderscheid tussen onafhankelijke metingen en gepaarde metingen, kun je drie clusters van statistische toetsen onderscheiden: verschil tussen groepen, verschil, tussen kenmerken en samenhang tussen kenmerken.

(11)

1. Verschil tussen groepen

Analyses op basis van verschillen tussen groepen op één kenmerk. Van leerlingen kun je nagaan wat voor cijfer elk voor het vak Nederlands heeft gekregen en je kunt het geslacht van de leerling noteren. Nu kun je groepen vergelijken. Omdat we maar één groepsindeling hebben, kunnen we alleen het verschil tussen jongens en meisjes nagaan.

Om dit soort vragen te beantwoorden heb je dus wel twee variabelen nodig. De eerste variabele is Geslacht (de onafhankelijke variabele) met de waarden jongens en meisjes. De andere variabele is Rapportcijfer Nederlands (de afhankelijke variabele). Het gaat om een groepsindeling en iets wat je tussen de groepen vergelijkt. De groepsindeling is de onafhankelijke variabele en wat je vergelijkt

is de afhankelijke variabele.

Dit soort analyses duiden we aan met verschil-toetsen. Het gaat om verschillen tussen groepen. Als je de leden van een groep bij elkaar zet zie je duidelijk dat er verticale vergelijkingen in de database worden gemaakt.

2. Verschil tussen kenmerken

Als er verticale vergelijkingen in de database zijn, dan zijn er uiteraard ook horizontale vergelijkingen. Dit had je natuurlijk ook zelf kunnen bedenken.

Bij een verschil tussen kenmerken ga je na of het linkerbeen van personen net zo lang is al het rechterbeen van de personen. Of dat het rapportcijfer op Nederlands net zo hoog is als het rapportcijfer op Engels. De kenmerken mogen in de tijd ook uit elkaar liggen. Je kunt iemand een toets statistiek laten maken. Daarna geef je hem een intensieve cursus statistiek en neem je dezelfde of en vergelijkbare toets af. Het vermoeden is dat de persoon op de tweede toets hoger scoort dan op de eerste. Als docent heb je het dan goed gedaan.

3. Samenhang tussen kenmerken

Het laatste cluster van analyses toetst de samenhang tussen kenmerken. Zo kun je veronderstellen dat hoe meer iemand geleerd heeft, hoe meer hij verdient (hm, klopt niet zo in mijn situatie). Of: hoe groter het huis, hoe meer gas er verbruikt wordt om het huis te verwarmen (sinds we groter zijn gaan wonen betalen we wel meer voor gas).

Dikke mensen eten veel. Dunne mensen doen aan sport. (Geloof ik eigenlijk niks van.

Hoewel…) Hier zijn dan een paar algemene vooroordelen genoemd. Ze zullen wel niet helemaal op gaan, maar misschien deels wel.

Bij de toets of er een samenhang is, ga je dus de gegevens op dezelfde regel met elkaar vergelijken. Maar er zit ook een verticale vergelijking in. In z’n algemeenheid kun je

(12)

zeggen dat er samenhang ontstaat als bij een deel van de cases de score op het eerste kenmerk hoog is en op het tweede kenmerk ook (grotere woning meer gas), en bij een ander deel de score laag is op het eerste kenmerk en ook laag op het tweede kenmerk (kleinere woning minder gas). Samenhang heeft dus het meeste weg van een combinatie van een horizontale en een verticale vergelijking.

De toetsschema’s

Nu je weet of het om het vergelijken van groepen gaat, of om het vergelijken van kenmerken of om de samenhang tussen kenmerken te bepalen en nu je bovendien weet op welk niveau de variabele zich begeeft, kun je de toe te passen toets opzoeken in de schema’s 1, 2 en 3.

Tja, dat zijn er best wel veel, hè! Al deze toetsen ga ik hier niet beschrijven. Dat doe ik in mijn statistiekboek dat ik aan het schrijven ben. Je hoeft niet te wachten totdat dit boek klaar is. Op de site www.hulpbijonderzoek.nl heb ik instructievideo’s gemaakt waarin al deze analyses al worden beschreven.

Maar we zijn er nog niet, want er zijn ook nog:

Ad III. Statistische analyses met meer dan twee variabelen

Het vaststellen welke toets je nodig hebt bij twee variabelen vinden velen al erg lastig.

Om dan na te gaan welke toets je nodig hebt bij meer dan twee variabelen vinden ze vermoedelijk nog veel lastiger. Moet je dan niet met nog veel meer dingen rekening houden?

Dat valt reuze mee. Een overzicht van de toetsen staat in schema 4. Daarin valt op dat er voor de variabelen op ordinaal niveau er helemaal geen toets is en dat er veel statistische analyses dezelfde zijn voor diverse combinaties3. Als je dan toch een variabele op ordinaal niveau hebt in je dataset, dan kun je er twee dingen mee doen (nou ja drie eigenlijk): net doen alsof het een variabele op interval niveau is, net doen alsof het een nominale variabele is, of de variabele helemaal niet in je analyses opnemen. Bij dat laatste moet je je echt af gaan vragen of het dan niet zinloos is geweest om die variabele in je onderzoek mee te nemen. Misschien had het op een andere manier moeten worden gemeten. Maar dat is achteraf gepraat en is nu niet meer te veranderen.

3) Nou weet ik helaas - of juist gelukkig maar - ook niet alles, en misschien is er wel een toets, maar die is dan niet zo algemeen bekend.

(13)

Schema 1: Is er een verschil tussen groepen (verticale vergelijkingen)

Onafhankelijke waarnemingen

Afhankelijke variabele Twee groepen Meer dan twee

groepen

Nominaal niveau Chikwadraattoets Chikwadraattoets

Ordinaal niveau Mann-Whitney

toets

Kruskal-Wallis toets Interval/ratio niveau t-toets (groepen) ANOVA (groepen)

Schema 2: Is er een verschil tussen kenmerken (horizontale vergelijkingen)

Gepaarde waarnemingen (kenmerken)

De variabelen zijn gemeten op: Eén kenmerk Twee kenmerken

Meer dan twee kenmerken Nominaal niveau Chikwadraattoets

voor een reeks Chikwadraattoets Chikwadraattoets

Ordinaal niveau -- Wilcoxon-toets Friedman-toets

Interval/ratio niveau t-toets tegen een

standaard t-toets (paren) ANOVA voor herhaalde metingen

Schema 3: Is er samenhang tussen twee variabelen

Variabele 2

Interval / ratio Ordinaal Nominaal

Variabele 1 >2 niveaus 2 niveaus

Interval / ratio niveau

Pearson

Productmoment --- ---

Correlatie

Spearman

Ordinaal --- rangcorrelatie --- ---

of

Kendalls tau

Nominaal >2 niveaus --- --- Cramérs V Cramérs V

2 niveaus --- --- Cramérs V Phi-coëfficiënt

(14)

Schema 4: De toetsen voor meer dan 2 variabelen

onafhankelijke variabelen

Afhankelijke variabele

interval ordinaal nominaal dichotomie

Allemaal

interval/ratio regressieanalyse --- multinominale logistische regressie

binominale logistische regressie

Allemaal ordinaal --- --- --- ---

Allemaal nominaal MANOVA --- meerdimensionale kruistabel

meerdimensionale kruistabel Combinaties:

interval/ratio + dichotomie

regressie met

dummy's --- multinominale logistische regressie

binominale logistische regressie interval/ratio +

nominaal

regressie met meerdere

dummy's

--- multinominale logistische regressie

binominale logistische regressie interval/ratio +

ordinaal --- --- --- ---

ordinaal +

interval/ratio --- --- --- ---

ordinaal +

nominaal --- --- --- ---

ordinaal +

dichotomie --- --- --- ---

dichotomie +

interval/ratio ANCOVA --- multinominale

logistische regressie

binominale logistische regressie nominaal +

interval/ratio ANCOVA --- multinominale

logistische regressie

binominale logistische regressie nominaal +

ordinaal --- --- --- ---

(15)

Strategie

Om te bepalen welke toets je nodig hebt, moet je de volgende strategie toepassen:

1. Formuleer de vraag die je wilt beantwoorden.

2. Geef aan welke variabelen je moet gebruiken om die vraag te beantwoorden.

3. Bepaal het niveau van de variabele (kijk naar je data, niet naar de theorie):

- nominaal/categoraal niveau - ordinaal niveau

- interval/ratio niveau

4. Gaat het om onafhankelijke of om gepaarde waarnemingen?

5. Gaat het om analyses met één, twee, of meer dan twee variabelen?

- één variabele → beschrijvende statistiek: frequenties, gemiddelden e.d. (geen specifiek schema)

- twee variabelen

- gaat het om een verschil tussen groepen → schema 1 - gaat het om een verschil tussen kenmerken → schema 2 - gaat het om een samenhang tussen kenmerken → schema 3 - meer dan twee variabelen → schema 4

Tot slot

Nu je weet welke toets je mag(moet!) gebruiken, is het ook belangrijk dat je weet hoe je die toets moet uitvoeren en hoe je de uitvoer interpreteert. Weet je nog heel weinig van statistiek, dan raad ik je aan de Basiscursus Statistiek en SPSS te volgen. In 12 lessen leer je dan alle basisvaardigheden van statistiek en SPSS. Na het volgen van deze cursus zul je nooit meer zeggen dat statistiek moeilijk is.

Heb je al wat meer kennis, maar moet je die weer wat opfrissen, dan is een dag-, week-, maand- of kwartaalkaart de beste oplossing. Je hebt dan toegang tot al onze videolessen.

Het overzicht staat op de volgende pagina’s.

En natuurlijk: mocht je iets niet begrijpen, neem dan gerust contact met me op, want dan heb ik iets fout gedaan. Vertel mij wat je niet snapt, zodat ik het kan verbeteren. Daar pluk jij, ik en nog heeeeeeel veel anderen de vruchten van.

Ik wens je heel veel succes met je onderzoek.

Foeke van der Zee

(16)

OVERZICHT VAN DE LESSEN IN DE ONLINE VIDEOS OVER STATISTIEK

Algemene basiskennis voor het kunnen verrichten van statistische analyses

Kenmerken van variabelen Les 1

Populatie en steekproef Les 2

De toetsprocedure van Fisher Les 3

Statistische tabellen Les 4

Het maken van een keuze voor de juiste toets Les 5

Verschil tussen groepen

De t-toets om de gemiddelden van twee groepen met elkaar te vergelijken

2 groepen Les 6

afhankelijke variabele is gemeten op interval niveau

Variantieanalyse om de

gemiddelden van meer dan twee groepen met elkaar te vergelijken

> 2 groepen Les 7

afhankelijke variabele is gemeten op interval niveau

De Mann-Whitney toetst 2 groepen Les 8

afhankelijke variabele is gemeten op ordinaal niveau

De Kruskal-Wallis toets > 2 groepen Les 9

afhankelijke variabele is gemeten op

ordinaal niveau

Verschil tussen kenmerken

De t-toets om het gemiddelde uit een steekproef te vergelijken met een standaard

1 variabele op interval/ratio niveau Les 10 1 standaard

De t-toets om de gemiddelden van twee kenmerken met elkaar te vergelijken

2 kenmerken op interval/rationiveau Les 11

Variantieanalyse voor herhaalde metingen

> 2 kenmerken op interval/rationiveau Les 12

De Wilcoxon toets 2 kenmerken op ordinaal niveau Les 13

De Friedman toets >2 kenmerken op ordinaal niveau Les 14 De chikwadraattoets voor een

kruistabel

2 kenmerken op nominaal/categoraal niveau

Les 15 De chikwadraattoets voor een

reeks

1 kenmerken op nominaal/categoraal niveau

Les 16

1 standaard die je zelf mag opstellen

(17)

Samenhang tussen kenmerken

De productmoment correlatie van

Pearson 2 variabelen op interval/ratio niveau Les 17

De rangcorrelatie van Spearman 2 variabelen op ordinaal niveau Les 18

De rangcorrelatie van Kendall 2 variabelen op ordinaal niveau Les 19 Phi en Cramérs V 2 variabelen op nominaal/categoraal

niveau Les 20

Test- en schaalconstructie

Factoranalyse > 2 variabelen op ordinaal niveau Les 21 Cronbachs alfa > 2 variabelen op ordinaal niveau Les 22

Regressie

Lineaire regressie alle variabelen op interval/ratio niveau Les 23

Multipele regressie alle variabelen op interval/ratio niveau Les 24 Regressie met dummy's afhankelijke variabele op interval ratio

niveau Les 25

minimaal 1 variabele op interval/ratio niveau

minimaal 1 variabele als een dichotomie

Moderatie specifieke vorm van regressieanalyse Les 26

Mediatie specifieke vorm van regressieanalyse Les 27

(18)

OVERZICHT VAN DE LESSEN IN DE ONLINE VIDEOREEKS OVER SPSS

Gegevens invoeren

Data in Ecel Aanmaken in Excel en inlezen in SPSS Les 1

Basisvaardigheden SPSS

Het codeboek De data-file van SPSS Les 2

Hercoderen en berekeningen maken De opdrachten Compute en Recode Les 3 Data selectie De opdrachten Select Cases en Split File Les 4

De SPSS-files De data- output en syntax-files Les 5

Files samenvoegen en aggregeren Les 6

Beschrijvende statistiek

Frequenties en gemiddelden Frequencies Les 7

Kruistabellen Crosstabs Les 8

Correlaties Correlate Les 9

Grafieken Graphs Les 10

Test- en schaalconstructie

Factoranalyse Scale Les 11

Cronbachs alfa Reliabilty Les 12

Variantieanalyses

t-test Independent samples t-test Les 13

Means, anova en GLM 3 vormen voor het uitvoeren van een ANOVA Les 14 MW-toets en KW-toets Non-parametrische alternatieven voor een

ANOVA Les 15

Gepaarde metingen t-toets voor paren, herhaalde metingen

ANOVA, de Wilcoxon- en de Friedman toets Les 16

Manova Meervoudige indelingen en covariaten Les 17

Regressieanalyses

Lineaire regressie Univariate, multipele en hiërarchische regressieanalyse

Les 18

Dummy's Zin en onzin over dummy's Les 19

Interactie Voorkom fouten, moderatie en mediatie Les 20

Referenties

GERELATEERDE DOCUMENTEN

«Ik zorgde er mee voor dat Dilsen-Stokkem het SAVE- charter ondertekende, waarmee het be- looft de strijd tegen de grote verkeers- onveiligheid te voeren.. In Diepenbeek proberen we

Als vrijwilliger geef ik patiënten ook de eerste info over de Liga; waar ze recht op hebben en waar ze terecht- kunnen voor hulp”, zegt Emma- nuella, wanneer we haar telefo-

Als vrijwilliger geef ik pati- enten ook de eerste info over de Liga, waar ze recht op hebben en waar ze naar- toe kunnen voor hulp”, zegt Emmanuëlla, wanneer we haar

«Bij onze noorderburen moet je 100 euro per vierkante meter voor industrie- grond betalen, hier kopen we aan 40 euro», zegt

“Naast de creatieve markt werd het plein ’s avonds ingepalmd door de 160 deelne- mers aan de barbecue en het muzikaal optreden zorgde voor ambiance en een feestelijke

Voor mijn gevoel heb ik best stilgestaan.” Ook was de vader van Aniek van mening: “maar kind, je moet gewoon gaan werken, dan is alles opgelost.” Aniek heeft haar vader op een

© 1982 Birdwing Music / Universal Music - Brentwood Benson

Dan als de duisternis wijkt voor het licht, {problem}} (bis.) Lauwheid voor moed en ontwikkeling zwicht, } (bis.) Dan davert als juichtoon vol vuur en vol gloed, } (bis.) Ons Vrank