• No results found

Betrouwbaarheidsintervallen interpreteren: valkuilen en uitdagingen

N/A
N/A
Protected

Academic year: 2021

Share "Betrouwbaarheidsintervallen interpreteren: valkuilen en uitdagingen"

Copied!
37
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Betrouwbaarheidsintervallen interpreteren:

valkuilen en uitdagingen

Jan Postma

Student: 10191453

Universiteit van Amsterdam

Begeleiders: dhr. Dr. D. Molenaar, mw. Dr. M. Bakker Aantal woorden: 5790

(2)

Inhoudsopgave

Abstract p. 3

Interpreteren: p-waardes en betrouwbaarheidsintervallen P. 4 Positieve aspecten aan het interpreteren van betrouwbaarheidsintervallen p. 9 Valkuilen tijdens het interpreteren van betrouwbaarheidsintervallen p. 16

Conclusie en Discussie p. 20

(3)

Abstract

De afgelopen decennia is hypothese toetsing (Null Hypotheses Significance Testing, NHST) door kritische onderzoekers flink onder vuur genomen. Tegenstanders van NHST brengen betrouwbaarheidsintervallen (Confidence Interval, CI) als alternatief. Steeds meer tijdschriften en wetenschappelijke richtlijnen vereisen het rapporteren van CI’s. In dit literatuuroverzicht wordt onderzocht hoe CI’s worden geïnterpreteerd. Eerst is gekeken naar positieve aspecten van CI’s ten opzichte van NHST. Daaruit bleek dat in sommige gevallen minder onderzoeksresultaten verkeerd worden geïnterpreteerd wanneer CI’s worden gerapporteerd. Vervolgens werd gekeken naar valkuilen van het interpreteren van CI’s. Hieruit bleek dat CI’s ondanks de toegenomen aandacht nog steeds veelvuldig verkeerd worden geïnterpreteerd. Tenslotte is gekeken naar verschillende definities van CI’s. Aan de hand van de besproken onderzoeken wordt geconcludeerd dat ondanks positieve aspecten van CI’s nog steeds te veel incorrecte interpretaties worden gegeven.

(4)

Interpreteren: P-waarde vs. betrouwbaarheidsinterval

Wereldwijd wordt in vrijwel alle wetenschappelijke onderzoeksgebieden (bijv. Natuurkunde, Biologie en Psychologie), in de politiek, en in de media gebruik gemaakt van statistiek om gegevens te kunnen interpreteren en voorspellingen te kunnen doen. Aan de hand van een kleine willekeurige selectie uit een populatie (een steekproef) wordt geprobeerd iets zinnigs te zeggen over de gehele populatie. Door de gekozen steekproef gaat er altijd informatie verloren over de populatie, wat resulteert in onnauwkeurigheid en onzuiverheid van de gegevens en daarmee van de mogelijke conclusies betreffende de populatie. Hierdoor is het van wezenlijk belang voor een onderzoeker om onderzoeksresultaten goed te kunnen interpreteren en om goed om te kunnen gaan met deze onvolledige informatie. Helaas kent de wetenschap de laatste jaren de nodige gevallen waarin onderzoekers door onkunde dan wel door opzet verkeerd zijn omgegaan met de onzekerheden die de statistiek probeert verklaren. Studenten in sociale wetenschappen kiezen vaker voor psychologisch inhoudelijke richtingen (bijv. arbeids- en organisatiepsychologie en sociale psychologie) dan

methodologische richtingen, met als gevolg dat methodologische en statistische kennis onvoldoende aanwezig is. Zo kunnen conclusies worden getrokken die niet

overeenkomen met de werkelijkheid. Verkeerde opgezette onderzoeken en frauderende onderzoekers hebben de discussie omtrent de huidige gang van zaken in de

voorspellende wetenschap de afgelopen decennia doen oplaaien.

In de psychologie wordt veel gebruik gemaakt van hypothese toetsing (Null Hypotheses Significance Testing, NHST) om voorspellingen te kunnen doen.1 Daarbij worden aannames van een eigenschap van een populatie getest door twee hypothesen met elkaar te vergelijken: de nulhypothese (H0), de gangbare opvatting, en de

alternatieve hypothese (H1), een opvatting in strijd met de nulhypothese. Bij het toetsen

1

Vanaf hier wordt enkel ingegaan op de psychologische wetenschap. Andere

onderzoeksgebieden zullen veel overeenkomsten hebben met de besproken onderwerpen,

(5)

draait het om het wel of niet verwerpen van de H0. Onderzoekers kunnen twee soorten fouten maken tijdens hypothese toetsen: H0 onterecht verwerpen of H0 onterecht aannemen. De eerste fout, ook wel type I fout genoemd, kenmerkt zich doordat H1 wordt aangenomen terwijl H0 in werkelijkheid waar is. De tweede fout, ook wel type II fout genoemd, kenmerkt zich doordat H0 wordt aangenomen terwijl H1 in

werkelijkheid waar is. Vooraf wordt afgesproken bij welke kritieke waarde H0 wordt verworpen. Deze kritieke waarde wordt zó vastgesteld dat de kans op het maken van een type I fout gelijk is aan 0.05, ook wel het significantieniveau van de toets genoemd. Wanneer de gevonden waarde, de p-waarde, uit het onderzoek extremer is dan deze kritieke waarde, wordt H0 verworpen. Ter verduidelijking: stel dat een klinisch

psycholoog een nieuwe therapie heeft ontwikkeld die zogenaamd een groter effect heeft dan de huidige gangbare therapie. Om te kijken of de nieuwe therapie daadwerkelijk een groter effect heeft dan de huidige therapie, of dat dit komt door toeval, wordt er vanuit gegaan dat beide therapieën een even groot effect hebben (de hypothese). Vervolgens wordt berekend hoe groot de waarschijnlijkheid is dat het verschil tussen de twee effecten wordt gevonden, gegeven dat de nulhypothese waar is. Deze berekening geeft een p-waarde. Wanneer de p-waarde klein is, is de kans dat het gevonden verschil door toeval is ontstaan klein en ondersteunt dit de alternatieve hypothese: de nieuwe therapie werkt beter dan de huidige therapie. Er wordt gesproken van een significant resultaat. Wanneer de p-waarde groot is, is de kans dat het gevonden verschil door toeval is ontstaan groot en wordt de nulhypothese niet verworpen. De nulhypothese wordt dan niet verworpen, maar ook niet aangenomen omdat er gewoonweg te weinig informatie is om een oordeel te vellen.

Deze manier van toetsen ligt de afgelopen decennia flink onder vuur, omdat het een aantal onduidelijkheden met zich meebrengt. Eén daarvan is het feit dat statistische significantie niet gelijk staat aan praktische significantie (ook wel substantieve

(6)

significant betekent dat het resultaat onwaarschijnlijk is ontstaan door toeval. Praktisch significant betekent dat het resultaat daadwerkelijk van betekenis is. Van betekenis voor de leek, de politiek of maatschappelijke toepassing. Een resultaat kan statistisch

significant zijn, maar praktisch insignificant en vice versa. Een mooi voorbeeld hiervan wordt gegeven door Kirk (1996): een onderzoeker denkt dat een medicijn intelligentie van patiënten met alzheimer kan vergroten. Hij geeft het medicijn aan zes patiënten en een placebo aan een andere groep van zes patiënten. Na het onderzoek worden de twee groepen met elkaar vergeleken en in lijn der verwachting is de groep die het medicijn kreeg 13 IQ punten gestegen in intelligentie. Helaas is het resultaat niet statistisch significant (p > 0.05), waardoor de onderzoeker concludeert dat haar hypothese niet wordt ondersteund. Op het eerste gezicht lijkt een stijging van 13 IQ punten voor alzheimer patiënten zeer goed, maar de statistiek geeft aan dat toeval een kans heeft kunnen spelen in de totstandkoming. Het is wellicht interessant om verder onderzoek te doen naar dit medicijn ondanks dat het resultaat statistisch insignificant is. Puur een beslissing nemen op basis van statistische significantie zou er voor kunnen zorgen dat een potentieel goed medicijn niet verder wordt onderzocht. Aan de andere kant zou het nemen van een beslissing enkel op basis praktische significantie ook slordigheden als totstandkoming door toeval met zich meebrengen.

Praktische significantie slaat dus op de grootte van het effect (effect size, ES) van het gevonden onderzoeksresultaat. ES refereert naar de grootte van het effect zoals deze gevonden zou worden in de populatie. Een ES is simpelweg een hoeveelheid van een variabele waarin men geïnteresseerd is. Gemiddelden, verschillen tussen gemiddelden, frequenties, correlaties en veel meer andere bekende kwantiteiten zijn ES’s (Cumming & Fiedler, 2009). Het rapporteren van ES’s is essentieel voor het interpreteren van

onderzoeksresultaten (Ellis, 2010, p.4). De American Psychological Association (APA) heeft sinds 2009 als richtlijn in zijn publicatiehandleiding het volgende opgenomen: ‘schattingen van de juiste effect sizes en bijbehorende betrouwbaarheidsintervallen zijn

(7)

een minimale verwachting’ (APA, 2009, p.33). Ook steeds meer wetenschappelijke journals vragen onderzoekers om gevonden ES’s te rapporteren (Shaver, 2006). Het aantal onderzoekers dat ES’s rapporteert is dan ook toegenomen het afgelopen

decennium. Echter is er nog een gebrek aan betekenisvolheid van de interpretaties van ES’s (McMillan & Foley, 2011). ES’s kunnen zijn gebaseerd op verklaarde variantie (bijv. Pearson correlatie, eta-kwadraat) of op (afstanden tussen) gemiddelden (bijv. Cohen’s d). Een ES kan. Deze varianten van ES’s kunnen verschillen in bereik. Zo heeft de Pearson correlatie een bereik van -1 tot 1. In sociale wetenschappen wordt ook wel gesproken van een kleine, medium of grote ES wanneer een correlatie van

respectievelijk 0.1, 0,3 en 0.5 of hoger wordt gevonden (Cohen, 1988). Hoewel deze richtlijnen arbitrair zijn en per vakgebied kunnen verschillen, bieden ze houvast voor interpretatie.

ES’s kunnen worden gerapporteerd met behulp van

betrouwbaarheidsintervallen (confidence interval, CI). In de onzekerheid die

wetenschap kent is, het handig om te kunnen nagaan hoe betrouwbaar een gevonden ES is. Het kan uiteraard door toeval zijn ontstaan en daardoor zou de gevonden ES groter of kleiner kunnen zijn dan in werkelijkheid het geval is. Een CI brengt de onzekerheid van de gevonden ES in kaart door weer te geven in hoeverre deze geschatte ES zal variëren in verschillende steekproeven. Een CI is een bereik van waarden voor de te onderzoeken variabele (bijv. ES), zodanig berekend dat deze een specifieke waarschijnlijkheid heeft om de ware (onbekende) waarde van een variabele te bevatten (Porta et al., 2014). Deze specifieke waarschijnlijkheid wordt ook wel het betrouwbaarheidsniveau genoemd. De eindpunten van een CI worden ook wel de betrouwbaarheidsgrenzen genoemd. In de psychologie wordt in de praktijk vaak een 95%-CI gehanteerd, wat betekent dat in 95 van de 100 gevallen waarin een ES wordt geschat de CI de ware ES bevat. Dit komt overeen met de 0.05 drempelwaarde voor de significantie van p-waardes in hypothese toetsen. Ter verduidelijking: stel dat de eerder genoemde onderzoeker uit het voorbeeld

(8)

van Kirk CI’s had gehanteerd, in zijn onderzoek naar het nieuwe medicijn voor

intelligentieverhoging van Alzheimerpatiënten, dan had hij wellicht een minder zwart-witte conclusie getrokken. De spreiding van mogelijke resultaten geeft aanvullende en bruikbare informatie, ook al kan toeval een rol kan hebben gespeeld bij de

totstandkoming van het effect. Stel dat de gevonden relatieve stijging van 13 IQ punten overeen zou komen met een gestandaardiseerde ES van 0.3, dan zou de bijbehorende 95%-CI er als volgt uit kunnen zien: 0.3 (-0.1 – 0.4). De -0.1 en 0.4 gelden hier als respectievelijk onder- en bovengrens van de CI, wat betekent dat bijvoorbeeld ook een stijging van 0 IQ-punten een mogelijke ware waarde kan zijn (dit komt overeen met insignificantie zoals gevonden bij hypothese toetsen). Een daling van IQ-punten behoort tot de mogelijkheden van ware waarden (door bijvoorbeeld bias), maar de ware ES zou zelfs ook nog hoger kunnen liggen dan de gevonden 0.3. De betrouwbaarheidsgrenzen geven dus de foutmarges van de gevonden waarde aan. In experimentele psychologie zijn deze foutmarges erg groot en daarom zijn CI’s hierin vaak breed. Ook is de breedte afhankelijk van de grootte van de steekproef: des te groter de steekproef, des smaller de CI. Het rapporteren van CI’s neemt de grootte van de foutmarges niet weg, maar

verschaffen wel duidelijkheid. Ook P-waardes zijn onderhevig aan steekproefgrootte: des te groter de steekproef met eenzelfde gemiddelde, des te kleiner de p-waarde.

Des te groter de steekproef des te groter de statistische power. Power beschrijft de kans dat een onderzoek een effect vaststelt wanneer er een werkelijk effect is (Ellis, 2010). Het komt vaak voor dat onderzoeken een te kleine power hebben, waardoor deze vooraf al gedoemd zijn om geen effect te kunnen detecteren. Vooral in de psychologie, waar ES vaak klein zijn, is dit een kwalijke zaak (Rosnow & Rosenthal, 2003). Te kleine power resulteert dus in een vergrote kans op het maken van een type II fout. Het kwalijke aan onderzoeken met een te kleine power is dat deze toekomstig onderzoek mogelijk in de weg staan, omdat er onterecht geen effect wordt gevonden. Power kan worden gebruikt voor (replicatie) onderzoek om vast te stellen hoe groet een steekproef

(9)

moet zijn om een bepaald effect te vinden, wat ook wel een power analyse wordt genoemd.

Het interpreteren van statistische gegevens kan dus gepaard gaan met

misvattingen. Statistische cognitie is de studie naar hoe mensen denken over statistische begrippen representaties (Cumming & Finch, 2005). Cumming & Finch (2005) pleiten voor meer statistisch cognitief onderzoek om te kunnen oordelen over bijvoorbeeld het gebruik van CI’s in onderzoeksverslagen. Het gaat immers om de praktische

toepassingen van CI’s in onderzoek. Als CI’s hypothetisch informatiever zijn, terwijl onderzoekers zich er geen raad mee weten, wat is dan het voordeel van het vermelden van CI’s?

Het vermelden van een CI lijkt op het eerste gezicht een goed alternatief voor de p-waarde, vanwege de aanvullende informatie die het met zich meebrengt. Toch lijken valkuilen aanwezig te zijn bij het gebruik van CI’s en wordt in sommige gevallen wél gevraagd om het toetsen van een hypothese. Om een goed oordeel te kunnen geven over de valkuilen en positieve aspecten van CI’s, wordt in deze these gekeken naar de

interpretaties van CI’s in de praktijk. De focus in deze these ligt voornamelijk op de CI. In de eerste paragraaf wordt gekeken naar de positieve aspecten van het interpreteren van CI’s. Vervolgens wordt in de tweede paragraaf gekeken naar in hoeverre CI’s verkeerd worden geïnterpreteerd en wat hiervan een mogelijke oorzaak is.

Positieve aspecten aan het interpreteren van betrouwbaarheidsintervallen NHST is regelmatig onderhevig aan kritiek in de wetenschappelijke wereld, ondanks dat het nog steeds vaak gebruikt wordt. Tegenstanders van hypothese toetsen bevelen vaak betrouwbaarheidsintervallen aan, omdat deze aan de tekortkomingen van p-waardes tegemoet zou komen. Een van deze kritieken is dat p-waardes slechts

beperkte informatie geven en daardoor soms tot onzorgvuldige conclusies leiden. Zo worden significante p-waardes vaak geïnterpreteerd als belangrijk en behorend bij een

(10)

groot effect, terwijl deze aspecten onafhankelijk zijn (Wood, 2014).

Wolfe & Cumming (2004) lieten zien dat p-waardes misleidend kunnen zijn voor het trekken van bepaalde conclusies, waar CI’s juist duidelijkheid verschaffen. Hiervoor gaven zij een voorbeeld waarin twee onderzoeken worden opgezet die het voordeel van een nieuw oefenprogramma tegen rugklachten onder sporters vergelijken met een oud oefenprogramma. Onderzoek 1 vindt een 26-daags sneller herstel dan het oude

programma, met een tweezijdige t-test p-waarde van 0.20. Er wordt geconcludeerd dat er geen significant voordeel is van het nieuwe programma ten opzichte van het oude programma. Onderzoek 2 vindt een 44-daags sneller herstel, met een p-waarde van 0.035. Hierbij wordt geconcludeerd dat het nieuwe programma significant voordeliger is dan het oude programma. Totaal verschillende conclusies worden getrokken op basis van de p-waardes. Lezers met kennis van zaken zullen echter snel opmerken dat de interpretatiefout van onderzoek 1 komt doordat de p-waarde wordt geïnterpreteerd als bewijs voor gebrek aan effectiviteit van het nieuwe programma, in plaats van gebrek aan bewijs voor een mogelijke effectiviteit. Dit zijn twee compleet verschillende concepten die niet duidelijk worden gemaakt door een p-waarde te rapporteren. CI’s laten het verschil tussen deze twee concepten echter wél zien. Zoals te zien in figuur 1, overlappen de CI’s van beide onderzoeken en is het verschil tussen beide gemiddelden (de zwarte stipjes) klein in vergelijking met de breedte van de CI’s. De CI’s laten zien dat de twee onderzoeken redelijk consistent zijn.

Figuur 1. Overlappende CI’s van twee verschillende onderzoeken (Wolfe & Cumming, 2004)

(11)

P-waardes geven enkel één aspect van bijbehorende CI’s weer: of de waarde 0 (geen verschil) wel of niet in de CI valt. Zoals weergegeven in figuur 1, geven CI’s een overzichtelijkere indicatie van de spreiding van de resultaten. De breedte van

bijbehorende CI’s kan worden onderschat, wanneer een conclusie enkel wordt

getrokken op basis van p-waardes. Het is mogelijk dat deze manier van rapporteren tot een beter overwogen conclusie zou kunnen leiden. In de praktijk zou dit wellicht lastiger kunnen uitpakken, omdat een onderzoeker niet gewend zou kunnen zijn aan het

interpreteren van CI’s of omdat hij bepaalde statistische kennis mist.

Om te kijken of in de praktijk CI’s ook daadwerkelijk de misvatting verminderen dat insignificantie wordt geïnterpreteerd als ‘geen effect’, onderzochten Fidler & Loftus (2009) de interpretatie van visuele CI’s van 79 derdejaars bachelor- en masterstudenten. Alle deelnemers hadden tenminste één semester statistische vakken gevolgd. De

deelnemers beoordeelden statistische scenario’s waarin sprake was van een lage power (0.38–0.60) en insignificantie. Een voorbeeld van een scenario: ‘Toe-clipping is

commonly used to mark frogs in population ecology studies because other methods of marking don’t work on their skin. It is a valuable technique but there is some controversy over whether it affects recapture rates and, therefore, frog survival. This study examined the decline in recapture rate of frogs that had toes clipped . . .” . Deelnemers werden willekeurig toegewezen aan één van vier condities. Elke conditie kreeg één scenario te zien met resultaten gepresenteerd in de vorm van hypothese toetsen (bijv. een t-toets gepresenteerd met bijbehorende p-waarde, verschil in gemiddelde, standaarddeviatie en apriori berekende statistische power voor een biologisch effect) en één scenario met resultaten gepresenteerd in de vorm van een visuele CI. Per conditie verschilden de combinaties van scenario’s. Elk scenario werd voorzien van een expliciete nulhypothese gepresenteerd (bijv. ‘zero decline in frog recapture rate’) en een ES (bijv. ‘frog recapture rate declined 10%’). De deelnemers gaven vervolgens per scenario aan in hoeverre zij

(12)

vonden dat er sprake was van een gevonden effect. Dit gebeurde door één stelling te selecteren uit vijf gegeven stellingen betreffende het scenario. (bijv. - There is strong evidence in support of an important effect. – There is moderate evidence in support of an important effect. – The evidence is equivocal. – There is moderate evidence of no effect. – There is strong evidence of no effect.).

Uit de resultaten bleek dat na het lezen van een scenario waarin de resultaten als hypothese toets werd gepresenteerd 39% (95% CI: 29%, 50%) van de deelnemers onjuist rapporteerden dat insignificantie gelijk staat aan het vinden van geen effect. Van deze 39% rapporteerde 87% (95% CI: 71%, 95%) het correcte antwoord na het zien van een scenario waarin de resultaten als visuele CI werden gepresenteerd. Ook werd een omgekeerd effect gevonden waarin 17% bij de hypothese toets presentatie geen misvatting maakte en bij de CI presentatie wel. De onderzoekers concludeerden dat de misvatting minder werd gemaakt wanneer een visuele CI werd gepresenteerd dan wanneer een standaard hypothese toets werd gepresenteerd.

Uit dit onderzoek komt naar voren dat het presenteren van CI’s in plaats van p-waardes statistische misvattingen doet verminderen. Ondanks dat er nog steeds misvattingen worden gemaakt na het zien van CI’s, is dit resultaat ondersteuning voor de hypothese dat CI’s bepaalde misvattingen verminderen die gepaard gaan met p-waardes. De 17% die een omgekeerd effect lieten zien zou kunnen worden verklaard doordat de deelnemers verschillende scenario’s te zien kregen. Het ene scenario zou wellicht duidelijker kunnen zijn geweest dan het andere. Wel is het opvallend dat de onderzoekers van deze 17% geen 95% CI rapporteren.

Fidler & Loftus (2009) repliceerden hun eigen onderzoek in een within-groups opzet om te kijken of er minder sprake zou zijn van een omgekeerd effect wanneer deelnemers één scenario te zien kregen met zowel een hypothese toets presentatie als met een visuele CI. 55 tweedejaars bachelorstudenten werden willekeurig ingedeeld in twee condities, de eerste conditie kreeg eerst een hypothese toets gepresenteerd en

(13)

vervolgens een visuele CI, de tweede conditie had een omgekeerde volgorde van de presentaties. De rest van het onderzoek verliep zoals het eerder beschreven onderzoek van Fidler & Loftus (2009).

Uit de resultaten bleek dat 44% (95% CI: 31%, 57%) van de deelnemers na het zien van de toetsresultaten in hypothese vorm onjuist rapporteerden dat insignificantie gelijk staat aan het vinden van geen effect. Van deze 44% rapporteerde 18% (95% CI: 10%, 30%) dezelfde misvatting na het zien van de bijbehorende visuele CI. Het omgekeerde effect werd deze keer in mindere mate gevonden: 6% van de deelnemers liet deze keer het omgekeerde effect zien. De onderzoekers concludeerden dat dit onderzoek de hypothese uit het vorige onderzoek ondersteunde. Wanneer een onderzoeksresultaat wordt gepresenteerd in de vorm van een visuele CI zal de misvatting dat een statistisch insignificant resultaat als bewijs geldt voor de

nulhypothese, minder vaak worden gemaakt dan wanneer een onderzoeksresultaat in de vorm van een hypothese toets wordt gepresenteerd.

In dit onderzoek werden zowel CI’s als hypothese toetsresultaten gepresenteerd van hetzelfde scenario. Wellicht dat het presenteren van deze twee vormen samen zorgen voor een verandering in statistische cognitie en interpretatie. Daarnaast

bestonden de deelnemers uit tweedejaars-, derdejaars- en masterstudenten, uiteindelijk zijn de interpretaties van onderzoekers met publicaties achter hun naam het

belangrijkst in de praktijk. Het is daarom interessant om te kijken naar interpretaties van onderzoekers en naar de relatie tussen CI’s en hypothese toetsen bij het

interpreteren.

Coulson et al. (2010) onderzochten of de significantiestatus de interpretatie van onderzoeksresultaten doet veranderen. De onderzoekers verwachtten dat dichotoom denken (zoals bij p-waardes het geval is) de correctheid van interpretatie vermindert. Aan het onderzoek namen 330 onderzoekers deel die allen meerdere artikelen hadden gepubliceerd in psychologische-, neurowetenschappelijke- en medisch

(14)

wetenschappelijke tijdschriften. De deelnemers werden ingedeeld in een van de vier rapport-condities. De condities één tot en met vier werd per mail gevraagd twee fictieve onderzoeken te interpreteren aan de hand van respectievelijk een visuele CI, een

tekstuele CI, een visuele hypothese toets en een tekstuele hypothese toets. Beide fictieve onderzoeken gaven resultaten over een medicijn dat beter werkt dan een ouder

medicijn, maar één van de onderzoeken was insignificant (p = 0.21) en één significant (p = 0.02). De deelnemers werd een open vraag gesteld die tekstueel beantwoord werd (‘Wat denkt u dat de algemene conclusie is van deze twee onderzoeken?’). Voor de analyse werd het antwoord op deze vraag geclassificeerd als ‘hetzelfde’ of ‘verschillend’. Uiteindelijk werd hier post hoc een extra classificatie aan gegeven ‘het wel of niet

noemen van aan hypothese toets gerelateerde woorden’. Vervolgens werden drie stellingen beoordeeld volgens een 7-puntsschaal lopend van 1 ‘erg mee eens’ tot 7 ‘erg mee oneens’. De stellingen luidden respectievelijk: ‘de resultaten van de twee

onderzoeken zijn consistent’, ‘er is aannemelijk bewijs dat het nieuwe medicijn

effectiever is’ en ‘er is conflicterend bewijs voor de effectiviteit van het nieuwe medicijn’. Deze stellingen werden omgescoord tot een consistentie- en effectiviteitsscore.

Uit de resultaten bleek dat de interpretatie van onderzoeksresultaten voor zowel hypothese toetsen als CI’s niet verschilden tussen een tekstuele en visuele presentatie. Daarnaast werd in de stellingen in zowel de CI-condities als de NHST-condities grote spreiding gevonden in correcte antwoorden, maar deze verschilden niet tussen de condities. 49% van de tekstuele antwoorden uit de CI-condities bevatten woorden met betrekking op hypothese toetsen (bijv. nulhypothese, p-waarde, significantie). Hiervan maakte 60% de misvatting dat de twee onderzoeksresultaten verschilden. Van de overige 51% die geen woorden noemden die betrekking hadden op hypothese toetsen maakten 5% de misvatting dat de twee onderzoeksresultaten verschilden.

De onderzoekers concludeerden dat het aannemelijk is dat CI’s beter worden geïnterpreteerd wanneer niet wordt gerefereerd aan hypothese toetsen in welke vorm

(15)

dan ook. Deze conclusie werd echter post-hoc gemaakt, waardoor de onderzoekers een vervolgonderzoek deden.

Dit keer repliceerden Coulson et al. (2010) hun eigen onderzoek door deelnemers enkel onderzoeksresultaten te presenteren in de vorm van CI’s. De opzet van het

onderzoek was exact hetzelfde, echter namen dit keer 50 deelnemers deel. De resultaten van het onderzoek bleken consistent aan het eerste onderzoek. Deelnemers in de

conditie die aan hypothese toetsen gerelateerde woorden gebruikten in hun tekstuele antwoord gaven incorrect aan de twee fictieve onderzoeken inconsistent te vinden (87%), terwijl in de conditie waarin geen aan hypothese toetsen gerelateerde woorden werden gebruikt 21% van de deelnemers hetzelfde incorrecte antwoord gaf.

De onderzoekers concludeerden aan de hand van deze twee onderzoeken dat het presenteren van onderzoeksresultaten in de vorm van hypothese toetsen of CI’s weinig verschil maakt in correctheid van interpretatie omtrent consistentie van onderzoeken. Daarnaast worden CI’s van onderzoeksresultaten beter geïnterpreteerd wanneer niet wordt gerefereerd aan enige vorm van hypothese toetsen. Het feit dat onderzoekers ook CI’s interpreteren refererend aan hypothese toetsen zonder dat enige vorm van

hypothese toetsing wordt genoemd, ondersteunt de opvatting dat hypothese toetsen en dichotoom denken diepgeworteld ligt in de wetenschappelijke wereld.

Uit bovenstaande paragraaf komt naar voren dat in de meeste gevallen CI’s meer informatie verschaffen over een onderzoek dan p-waardes. Mensen maken minder fouten bij het interpreteren van de consistentie tussen verschillende

onderzoeksresultaten wanneer CL’s worden gepresenteerd dan wanneer p-waardes worden gepresenteerd. Hoewel ander onderzoek uitwijst dat er niet veel verschil is in de mate van misinterpreteren tussen p-waardes en CI’s als het gaat om de consistentie van verschillende onderzoeken, komt wel naar voren dat CI’s beter worden

geïnterpreteerd wanneer in beschrijving van een onderzoekresultaat niet wordt verwezen naar NHST.

(16)

Nadelen en valkuilen van betrouwbaarheidsintervallen

Onderzoekers en studenten maken nog steeds veel onjuiste interpretaties van CI’s, ook al heeft het rapporteren ervan verschillende positieve aspecten. Omdat p-waardes zo zijn ingebakken in de wetenschap en daarmee de zwart-wit interpretatie van onderzoeksresultaten, zijn CI’s moeilijker te interpreteren door hun abstractheid (McCormack 2013). CI’s refereren aan intervallen, terwijl onderzoekers in vele gevallen juist (nul)hypothesen willen toetsen (Wood, 2014). Bijvoorbeeld in een onderzoek naar mensen die beweren telepathische gaven te hebben, is het intuïtief logisch om de nulhypothese serieus te nemen. In dit geval is hypothese toetsen een logische stap en zou de breedte van een CI minder nuttige informatie geven voor een conclusie. In een onderzoek naar bijvoorbeeld de positieve invloed van democratisch leiderschap op de productiviteit van werknemers is het niet zinnig om te kijken naar een nulhypothese. Focus op de nulhypothese zou hierbij voor verwarring kunnen zorgen, in tegenstelling tot betrouwbaarheid in CI’s waar de focus ligt op het verschil. Om een oordeel te kunnen geven over het interpreteren van CI’s is het dan ook interessant om te kijken naar mogelijke valkuilen bij het interpreteren van CI’s.

Een misvatting omtrent CI’s is dat bij CI’s kansen worden toegekend aan hypothesen of parameters, terwijl dit niet mogelijk is volgens de frequentistische

statistiek. Het is niet mogelijk om aan de hand van een CI een uitspraak te doen over een bepaalde parameter, omdat de CI gerelateerd is aan de steekproef met behulp waarvan deze is berekend. CI’s laten op deze manier enkel uitspraken toe over de procedure van het maken van een betreffende interval en niet over de parameter zelf. Zo is het onjuist om een CI te interpreteren als een kans dat het ware gemiddelde in het interval ligt (Berger & Wolpert, 1988).

Hoekstra et al. (2014) onderzochten in hoeverre CI’s incorrect worden geïnterpreteerd en in hoeverre deze misinterpretaties worden verminderd door wetenschappelijke ervaring. Aan het onderzoek namen 442 bachelor-, 34

(17)

masterstudenten en 120 onderzoekers deel. De deelnemers kregen een fictief scenario te lezen waarin een onderzoeker een 95%-CI met gemiddelde

betrouwbaarheidsgrenzen van 0.1 tot 0.4 rapporteerde behorend bij zijn

onderzoeksresultaten. Met behulp van een vragenlijst werd de deelnemers gevraagd zes onjuiste stellingen over de CI te beantwoorden met ‘waar’ of ‘onwaar’. De stellingen luidden als volgt: 1) De kans dat het ware gemiddelde groter is dan 0 is tenminste 95%. 2) De kans dat het ware gemiddelde gelijk is aan 0 is kleiner dan 5%. 3) De

nulhypothese dat het ware gemiddelde gelijk is aan 0 is waarschijnlijk onjuist. 4) Er is een 95% kans dat het ware gemiddelde tussen 0.1 en 0.4 ligt. 5) We kunnen 95% zeker zijn dat het ware gemiddelde tussen 0.1 en 0.4 ligt. 6) Als we het onderzoek oneindig maal zouden herhalen zou het ware gemiddelde 95% van de keren tussen 0.1 en 0.4 liggen. Een misinterpretatie-score werd gemaakt aan de hand van het aantal stellingen beantwoord met ‘waar’. Tenslotte werd de deelnemers gevraagd om met een cijfer van 1 tot 10 aan te geven in hoeverre zij zichzelf wetenschappelijk ervaren achten (bijv. 1 ‘zeer onervaren’ tot 10 ‘zeer ervaren’). Uit de resultaten bleek dat bachelorstudenten, masterstudenten en onderzoekers gemiddeld respectievelijk 3.51 (99 % CI = [3.35, 3.68]), 3.24 (99 % CI = [2.40, 4.07]), en 3.45 (99 % CI = [3.08, 3.82]) scoorden. Er werd geen correlatie gevonden tussen wetenschappelijke ervaring en de mate van het maken van misinterpretaties.

De onderzoekers concludeerden uit dit onderzoek dat zowel studenten (met statistische kennis) als onderzoekers CI’s in grote mate incorrect interpreteren. Ook werd geconcludeerd dat wetenschappelijke ervaring misinterpretatie van CI’s niet lijkt te doen verminderen. De onderzoekers formuleerden hun stelling zodanig dat het makkelijk was om een misinterpretatie te geven. De conclusies die worden getrokken gaan niet zozeer specifiek over CI’s, maar over frequentistische statistiek in het algemeen. Ook bij bijvoorbeeld NHST kunnen fouten worden gemaakt omtrent het

(18)

toekennen van kansen aan parameters. Desalniettemin is het een belangrijk aspect om bewust van te zijn.

De verschillende definities van CI’s zouden voor verwarring kunnen zorgen. Foster (2014) beschreef verschillende definities van CI’s gegeven door onderzoekers. Hij concludeerde dat het wellicht mogelijk is dat studenten, die later kunnen uitgroeien tot onderzoekers, door de onduidelijkheden rondom de definitie tot een verkeerde interpretatie van CI’s kunnen komen. Zo definieert Garner (Garner, 2010, aangehaald in Foster, 2014) een CI als volgt: ‘We identify a confidence level for this interval, usually 95% or 99%, meaning that, in the large number of samples we might use to construct an interval, the true population value will fall into the interval 95% (or 99%) of the time. The procedure, if it were repeated over and over again, would ‘catch’ the population value in 95% (or 99%) of the attempts. (p. 130)’. Woodbury (Woodbury, 2002, aangehaald in Foster, 2014) definieert een CI daarentegen als volgt: ‘The confidence interval tells us that we are 95% sure that the true mean age for all college statistics students is in between 21.67 and 23.73 years old. There is a 5% chance that the mean is not in this interval . . . (p. 313).’ Woodbury’s definitie is, zoals aangegeven door Hoekstra et al. (2014), verkeerd gesteld volgens frequentistische begrippen. Er kan hier niet over een kans worden gesproken. Fidler (2006) vond dat studenten CI’s vaak op een zelfde manier interpreteerden als Woodbury’s definitie: ‘We are 95% sure the true mean lies within this interval’. Ook Cohen et al. (2012) definieerde de CI op een zelfde wijze als Woodbury: ‘The confidence level, usually expressed as a percentage (usually 95 per cent or 99 per cent), is an index of how sure we can be . . . that the responses lie within a given variation range. The confidence interval is that degree of variation or variation range . . . that one wishes to ensure. (p. 145)’. Het bezwaar op dergelijke misinterpretaties uit frequentistische hoek komt dus neer op het concept kans. In de Bayesiaanse statistiek kan in tegenstelling tot de frequentistische statistiek wel worden gesproken van een

(19)

de CI. Woods (2014) stelt dat in het alledaagse leven mensen intuïtief wel gebruik maken van kansen wanneer het gaat over dergelijke epistemologische onzekerheden. Dit gaat zonder problemen en wordt toegepast over de hele wereld. Hierdoor stelt Woods (2014) een nieuwe definitie voor de betrouwbaarheidsinterval om

misinterpretaties te voorkomen: ‘een betrouwbaarheidsinterval wordt gedefinieerd als een schatting van de kans dat de ware waarde van de parameter in het interval ligt, of van de kans dat de hypothese waar is’. Er zijn meerdere methodes om deze kans te schatten, zo kan dit gebeuren door bijvoorbeeld een credible interval te schatten op basis van een uniforme prior verdeling.

Ook al is het in strijd met de frequentistische opvatting, de nieuwe CI-definitie van Woods lijkt een goede oplossing. Voor interpretaties van onderzoeksresultaten is het verschil tussen frequenties en kansen niet zo belangrijk als in de filosofische discussie tussen bayesianen en frequentisten. Zolang mensen een CI goed begrijpen en hier zowel de waarschijnlijkheid van de schatting als de ES kunnen lezen, lijkt de discussie over het wel of niet kunnen gebruiken van het begrip ‘kans’ beter toevertrouwd aan statistisch filosofen.

Uit bovenstaande paragraaf komt naar voren dat zowel studenten (met statistische kennis) als onderzoekers CI’s in grote mate incorrect interpreteren. Ook werd geconcludeerd dat wetenschappelijke ervaring misinterpretatie van CI’s niet lijkt te doen verminderen. Als oorzaak hiervoor wordt het brede scala aan (soms

onduidelijke) definities van betrouwbaarheidsintervallen genoemd. De nieuwe definitie van Woods (2014) zou de misinterpretaties kunnen verminderen, mits deze algemeen geaccepteerd wordt.

(20)

Conclusie en discussie

Aan de hand van de besproken onderzoeken is naar voren gekomen dat in de meeste gevallen CI’s meer informatie verschaffen over een onderzoek dan p-waardes. Mensen maken minder fouten bij het interpreteren van de consistentie tussen

verschillende onderzoeksresultaten wanneer CL’s worden gepresenteerd dan wanneer p-waardes worden gepresenteerd. Hoewel ander onderzoek uitwijst dat er niet veel verschil is in de mate van misinterpreteren tussen p-waardes en CI’s als het gaat om de consistentie van verschillende onderzoeken, komt wel naar voren dat CI’s beter worden geïnterpreteerd wanneer in beschrijving van een onderzoekresultaat niet wordt

gerelateerd aan NHST.

Hoewel onderzoeksresultaten in de vorm van CI’s informatiever zijn dan in bijvoorbeeld p-waardes worden CI’s in grote mate incorrect geïnterpreteerd. Ook werd geconcludeerd dat wetenschappelijke ervaring misinterpretatie van CI’s niet lijkt te doen verminderen. Als oorzaak hiervoor wordt het brede scala aan (soms onduidelijke) definities van betrouwbaarheidsintervallen genoemd. Een nieuwe definitie hiervan zou de misinterpretaties van CI’s kunnen verminderen, maar deze zal dan algemeen

geaccepteerd moeten worden. Daarnaast is het niet altijd even logisch om CI’s te rapporteren in plaats van p-waardes, omdat sommige gevallen juist vragen om het testen van hypotheses.

Concluderend kan, door het onderzoek dat nu beschikbaar is omtrent het

interpreteren van CI’s, worden aangenomen dat het rapporteren van CI’s zowel voor- als nadelen met zich meebrengt in de vorm van interpretaties. Het is van groot belang dat men zich bewust is van mogelijk valkuilen die gepaard gaan met het interpreteren van CI’s. Uiteindelijk geven betrouwbaarheidsintervallen in veel gevallen meer informatie dan p-waardes. Het goed kunnen interpreteren hiervan is dan ook een vereiste voor alle onderzoekers en aankomende onderzoekers. Ook docenten methodologie en statistiek

(21)

te geven tot het herkennen van deze complexe materie.

Als suggestie voor vervolgonderzoek zou kunnen worden gekeken naar hoe onderzoekers denken over het feit dat er veel verschillende definities van CI’s rondcirculeren in wetenschappelijke tijdschriften en boeken.. Meningen over de verschillende definities van CI’s van onderzoekers kunnen worden geanalyseerd om er zo achter te komen óf er wel vraag is naar één algemene definitie en in hoeverre deze dan tot stand dient te komen. Om duidelijkheid in de statistiek te verschaffen is het uiteraard belangrijk om zoveel mogelijk onnodige dubbele betekenissen te voorkomen. Onderzoekers zouden verschillende definities kunnen beoordelen, om zo tot een beste algemene definitie te komen.

Een andere suggestie voor vervolgonderzoek is om te kijken naar credible intervals en in hoeverre deze correct of incorrect worden geïnterpreteerd. De

Bayesiaanse statistiek kent al een lichte opmars binnen de psychologische wetenschap en omdat deze vorm van statistiek intuïtief makkelijker te benaderen is, zou het zo kunnen zijn dat onderzoekers en studenten hier minder vaak incorrect interpreteren. Een bijkomstig nadeel hierbij is dat Bayesiaanse statistiek nog te weinig wordt onderwezen, waardoor eerst de hele gedachtegang eigen gemaakt dient te worden voordat interpretaties mogelijk zijn. Het zou interessant zijn om te kijken of studenten, die nog statistisch blanco zijn, credible intervals boven CI’s verkiezen. Bovendien zou het voordelig kunnen zijn voor de statistische onderzoeksgebieden om studenten al vroeg kennis te laten maken met valkuilen en misinterpretaties die samen gaan met CI’s en ook met andere schattingen. Wanneer een goede statistieke en methodologische basis is gelegd, zullen toegepaste vakgebieden zorgvuldiger en beter kunnen worden begrepen en onderzocht.

Tenslotte moet een kanttekening worden geplaatst bij de trend om CI’s te verkiezen boven p-waardes. Het schatten van CI’s alleen is niet genoeg om de

(22)

(Morey et al., 2014). Wetenschap wordt gedreven door theorieën en deze theorieën moeten worden getest door bijbehorende hypotheses te testen. Morey et al (2014) beargumenteren dat drie componenten belangrijk zijn voor het testen van een theorie: ten eerste moet men weten wat kan worden verwacht wanneer de theorie juist is; ten tweede moet men weten wat kan worden verwacht wanneer de theorie onjuist is; en ten derde moet men een principiële methode hanteren om gegevens zo te gebruiken dat een goede voorspelling kan worden gedaan met betrekking tot de theorie. De laatste twee componenten zijn belangrijk en hier komen CI’s te kort. CI’s bieden geen principiële methode om een goede voorspelling te kunnen doen met betrekking tot een theorie. Dit roept een prangende vraag op die moeilijk te beantwoorden is: ‘Hoeveel van de

geschatte CI’s moeten de voorspelde waarde bevatten om de theorie te ondersteunen of te verwerpen?’ Daarnaast wordt in CI’s geen indicatie gegeven van wat zou worden verwacht wanneer de theorie onjuist is. Het lijkt dus een goede oplossing om zowel een CI als een p-waarde te rapporteren in een onderzoeksverslag, omdat beiden elkaars gebreken compenseren.

(23)

Literatuurlijst

American Psychological Association. (2009). Publication manual of the American Psychological Association(6th ed.). Washington, DC.

Berger, J. O., & Wolpert, R. L. (1988). The likelihood principle (2nd ed.). Hayward, CA: Institute of Mathematical Statistics.

Cohen, J. (1988), Statistical Power Analysis for the Behavioral Sciences, 2nd Edition. Hillsdale, NJ: Lawrence Erlbaum.

Coulson, M., Healey, M., Fidler, F., & Cumming, G. (2010). Confidence intervals permit, but don't guarantee, better inference than statistical significance testing. Frontiers in psychology, 1, 26.

(24)

Interpretation of Research Results. Cambridge University Press, 2010. Fidler, F., & Loftus, G. R. (2009). Why figures with error bars should replace p values. Zeitschrift für Psychologie/Journal of Psychology, 217(1), 27-37.

Foster, C. (2014). Confidence Trick: The Interpretation of Confidence Intervals.Canadian Journal of Science, Mathematics and Technology Education, 14(1), 23-34.

Hoekstra, R., Morey, R. D., Rouder, J. N., & Wagenmakers, E. J. (2014). Robust misinterpretation of confidence intervals. Psychonomic bulletin & review, 1-8. Kirk, R. E. (1996). Practical significance: A concept whose time has come. Educational and psychological measurement, 56(5), 746-759.

Porta, M. S., Greenland, S., Hernán, M., Silva, I. D. S., & Last, J. M. (Eds.). (2014). A dictionary of epidemiology. Oxford University Press.

McCormack, J., Vandermeer, B., & Allan, G. M. (2013). How confidence intervals become confusion intervals. BMC medical research methodology,13(1), 134.

McMillan, J. H., & Foley, J. (2011). Reporting and discussing effect size: Still the road less traveled. Practical Assessment, Research & Evaluation, 16(14), 1-12.

Morey, R. D., Rouder, J. N., Verhagen, J., & Wagenmakers, E. J. (2014). Why Hypothesis

Tests Are Essential for Psychological Science A Comment on Cumming

(2014). Psychological science, 0956797614525969.

Rosnow, R. L., & Rosenthal, R. (2003). Effect sizes for experimenting

psychologists. Canadian Journal of Experimental Psychology/Revue canadienne de

psychologie expérimentale, 57(3), 221.

Shaver, J.M. (2006), “Interpreting empirical findings,” Journal of International Business Studies, 37(4): 451–452.

Wolfe, R., & Cumming, G. (2004). Communicating the uncertainty in research findings: confidence intervals. Journal of science and medicine in sport, 7(2), 138-143.

(25)

Wood, M. (2014), P Values, Confidence Intervals, or Confidence Levels for Hypotheses? Available at SSRN: http://ssrn.com/abstract=2393927

(26)

Onderzoeksvoorstel in het kader van de

bachelorthese psychologie:

Credibility of Confidence

Jan Postma

Student: 10191453

Universiteit van Amsterdam, 14/08/14 Begeleider: dhr. Dr. D. Molenaar

(27)

Credibility of Confidence

Uit onderzoek blijkt dat onderzoekers en studenten

betrouwbaarheidsintervallen (confidence interval, CI) incorrect interpreteren, ongeacht wat hun wetenschappelijke en statistische ervaring is (Hoekstra et al., 2014). Eén van de misvattingen omtrent CI’s is dat bij CI’s kansen worden toegekend aan hypothesen of parameters, terwijl dit mogelijk is volgens de frequentistische statistiek. Het is niet mogelijk om aan de hand van een CI een uitspraak te doen over een bepaalde parameter, omdat de CI gerelateerd is aan de steekproef met behulp waarvan deze is berekend. CI’s laten op deze manier enkel uitspraken toe over de procedure van het maken van een betreffende interval en niet over de parameter zelf. Zo is het onjuist om een CI te

interpreteren als een kans dat het ware populatiegemiddelde in het interval ligt (Berger & Wolpert, 1988). Het ware gemiddelde ligt namelijk wél of niet in dit interval.

In het alledaagse leven wordt het begrip kans wél gebruikt bij onder andere het voorspellen van het weer (bijv. kans op neerslag) of bij statistieken van doodsoorzaken (bijv. de kans dat men komt te overlijden in het verkeer). Het denken in kansen is in de volksmond erg gebruikelijk. Ookuitspraken als ‘de kans is klein dat het Nederlands elftal het wereldkampioenschap voetbal wint’ werdenveelvuldig in de Nederlandse media verspreid tijdens het wereldkampioenschap.

In de Bayesiaanse statistiek zijn kansuitspraken juist wel mogelijk, net zoals deze in de volksmond worden gebruikt. De Bayesiaanse variant van de CI is de kans interval, ook wel de credible interval (CRI) genoemd. Ter verduidelijking, stel dat de gemiddelde lengte van Europese manwordt geschat op 1.80 meter, met een 95% CRI van 1.70 tot 1.90, dan zou er een 95% posterior kans zijn dat de populatie zich binnen het interval van 1.70 en 1.90 meter bevindt, met een gemiddelde van 1.80 meter. Een bijbehorende CI met dezelfde onder- en bovenbetrouwbaarheidsgrenzen zou moeten worden geïnterpreteerd als volgt: in 95 van de 100 gevallen waarin een CI wordt

(28)

berekend zal de ware populatiewaarde liggen.

Bayesiaanse statistiek, en daarmee ook de CRI, heeft een aantal voordelen ten opzichte van frequentistische statistiek. Zo wordt vooraf opgedane kennis meegenomen in de inferentie, wat het mogelijk maakt om eerdere onderzoeksresultaten te gebruiken voor de analyse. Hierdoor wordt optimaal gebruik gemaakt van alle beschikbare

informatie (Box & Tiao, 2011). Hoekstra et al., (2014) lieten zien dat interpretaties van CI’s ondermaats zijn, ondanks de toegenomen aandacht voor het rapporteren van CI’s. De onderzoekers noemen als oplossing voor de ondermaatse interpretaties de CRI als alternatief voor de CI.

In het huidige onderzoek wordt gekeken naar interpretatie van CI en CRI. Hierin worden drie aspecten onderzocht die in voorgaand onderzoek op het gebied van

interpretatie van CI’s niet zijn onderzocht: 1) open vragen, 2) interpretatie van mensen zonder statistische kennis en 3) interpretatie op de lange termijn.

Ten eerste wordt in het huidige onderzoek gebruik gemaakt van open vragen voor het meten van interpretatie van CRI en CI. Een kritiekpunt op het onderzoek van Hoekstra et al. (2014) is de manier waarop de interpretatie van CI’s gemeten wordt. Dit gebeurt door deelnemers zes incorrecte stellingen over een fictieve CI als correct of incorrect te laten beoordelen. Doordat geen enkele stelling correct is, zouden

deelnemers op het verkeerde been kunnen worden gezet. Zo zou het mogelijk kunnen zijn dat sommige deelnemers een stelling als correct hebben beoordeeld met de

gedachte dat er in ieder geval één correcte stelling tussen zou staan, zoals men gewend is in de meeste toetsvormen (bijv. multiple choice). Om zo eerlijk mogelijk te meten wordt in het huidige onderzoek de interpretatie van CI’s gemeten door middel van een open vraag. Bij deze vraag wordt de deelnemer een aantal woorden voorgelegd die tenminste moeten worden gebruikt in het door hun te geven antwoord.

Ten tweede wordt gekeken naar de interpretatie van CI’s en CRI’s van mensen met weinig tot geen statistische kennis. CI’s worden in de huidige academische

(29)

wetenschap vaker toegelicht en uitgelegd dan CRI’s, waardoor studenten over het algemeen meer kennis verzamelen over CI’s dan over CRI’s. Om te controleren voor een mogelijke onbalans in kennis over de twee onderwerpen, wordt in het huidige

onderzoek gekeken naar hoe mensen zonder statistische kennis over één van de twee onderwerpen CI’s en CRI’s zullen beoordelen. De deelnemers bestaan uit eerstejaars psychologie studenten die weinig tot geen ervaring hebben in de statistiek. Het is interessant om te kijken hoe deze deelnemers CI’s en CRI’s zullen beoordelen, omdat dit nog niet eerder is onderzocht. Om de deelnemers toch van enige kennis te voorzien wordt interpretatie gemeten na het zien van een online tutorialover beide onderwerpen. Ook is het belangrijk om dit bij de studenten te onderzoeken nadat ze de statistische basisbegrippen al hebben geleerd op de universiteit. Het is van belang dat de

deelnemers in colleges noch in andere vormen van educatie in aanraking zijn gekomen met (informatie over) CI’s. Deelnemers zullen dus vrij vroeg in het eerste jaar deel moeten nemen aan het huidige onderzoek.

Tenslotte wordt gekeken naar de interpretatie van CI’s en CRI’s op de lange termijn. Uit onderzoek van Hoekstra et al. (2014) blijkt dat ondanks veel ervaring in de statistiek CI’s incorrect geïnterpreteerd worden. Op de UvA wordt in elk jaar van de bachelor met behulp van colleges opgedane statistische kennis (o.a. CI’s) herhaald (Uva, 2013). Desondanks worden CI’s incorrect geïnterpreteerd. Na een tweede online tutorial over beide onderwerpen een half jaar na de eerste testafname wordt in het huidige onderzoek opnieuw gekeken naar de interpretatie van CI’s en CRIs. Hier wordt voor een half jaar tussentijd gekozen, omdat deelnemers dan nog steeds actief zijn in het eerste jaar en geen herhaling van statististische onderwerpen hebben gehad zoals vakken die langskomen in het begin van het tweede bachelorjaar van de opleiding psychologie (UvA, 2013). Wegens het gebruik van het frequentistisch georiënteerde statistiekboek (Agresti & Franklin, 2012) in de propedeuse Psychologie op de UvA, zullen studenten in het

(30)

deze focus op de frequentistische statistiek in plaats van op de Bayesiaanse statistiek, zouden CI’s beter kunnen worden geïnterpreteerd dan CRI’s. Desondanks laat het onderzoek van Hoekstra et al. (2014) zien dat mensen CI’s interpreteren als CRI’s, waardoor het ook aannemelijk is dat CRI’s beter geïnterpreteerd zullen worden.

Wanneer CRI’s in dit onderzoek ook daadwerkelijk beter zullen worden geïnterpreteerd na een half jaar, maakt het feit dat CI’s vaker aan bod komen deze bevinding alleen maar sterker.

In het huidige onderzoek wordt gekeken naar interpretaties van CRI’s en CI’s. Hierin wordt gekeken naar hoe mensen zonder statistische kennis CRI’s en CI’s interpreteren. Ook wordt gekeken hoe en of deze interpretatie verandert op de lange termijn.

Onderzoeksmethode

Aan het onderzoek nemen 278 eerstejaarsstudenten deel van de opleidingen psychologie aan de Universiteit van Amsterdam, Universiteit Utrecht en de Vrije Universiteit, zodat twee condities van elk 139 deelnemers kunnen worden onderzocht. Deze steekproef is berekend met software G*Power. Hiervoor is een power van 0.8 gebruikt en een geschatte effectgrootte van 0.3. Er wordt een medium-klein effect van 0.3 verwacht, omdat nog niet veel onderzoek is gedaan op dit gebied. Door het

verwachte medium-kleine effect valt de steekproef hoog uit. Gezien de vele eerstejaars bij de opleiding psychologie van de genoemde universiteiten, moet het mogelijk zijn om aan de steekproefgrootte te voldoen. De deelnemers hebben allen weinig tot geen statistische kennis en hebben geen eerdere universitaire opleidingen gedaan.

Deelnemers gaan akkoord met het maken van twee tests verspreid over een half jaar, de data worden direct overlegd en deelnemers worden een week voor de tweede afspraak geattendeerd op de afspraak. Hiervoor ontvangen de deelnemers 4 research credits (enkel voor UvA studenten) of 30 euro.

(31)

De deelnemers wordt gevraagd om onder toezicht van een student-assistent een online tutorial te bekijken in een gereserveerd onderzoekslokaal. Studentassistenten van de genoemde universiteiten dienen de test tegen een vergoeding zelfstandig te kunnen uitvoeren en verlangen mogelijk een korte uitleg. Voor het afnemen van de test hebben studentassistenten geen extra kennis of vaardigheden nodig. Afname vindt plaats nadat de betreffende universiteit het eerste college over parameters van het bijbehorende inleidende vak in de statistiek heeft gegeven. De test behorend bij de online tutorial moet echter ook worden afgenomen vóórdat de universiteit een college heeft gegeven over CI’s. De periode waarin de eerste testafname kan worden gedaan bestaat dus uit een kleine week, hierdoor is het noodzakelijk om op tijd te beginnen met promotie van het onderzoek. Gezien het feit dat de inhoudelijke planning van het inleidende statistiek vak niet online te vinden is, dienen de bijbehorende docenten zo snel mogelijk te worden gemaild over de periode waarin de test kan worden afgenomen.

De deelnemers worden willekeurig ingedeeld in een van twee condities: de CRI-conditie en de CI-CRI-conditie. Beide CRI-condities krijgen een online tutorial te zien waarin zowel de CI als de CRI wordt uitgelegd met een aantal voorbeelden. Voor de online tutorial wordt informatie en uitleg over CI’s verkregen uit hoofdstuk 8.1 van Agresti & Franklin (2012). De informatie en uitleg over CRI’s wordt verkregen uit hoofdstuk 2.3.2.1. uit Gill (2007). In de CRI-conditie wordt het interpreteren van CRI’s gemeten door een eigen ontworpen vragenlijst, zie appendix 1. In de CI-conditie wordt het interpreteren van CI’s gemeten met behulp van een vergelijkbare vragenlijst, zie appendix 2. De twee vragenlijsten zijn gebaseerd op eerder onderzoek van Hoekstra et al. (2014), echter wordt interpretatie zoals eerder genoemd gemeten met een open vraag in plaats van door middel van stellingen. In deze vragenlijsten wordt een fictionele situatie voorgelegd, waarop een interpretatie wordt gevraagd van de gerapporteerde fictionele gegevens. Na een half jaar bekijken dezelfde deelnemers nogmaals een follow-up online tutorial om vervolgens eenzelfde interpretatievraag te beantwoorden. Om te

(32)

voorkomen dat deelnemers twee maal exact dezelfde vraag beantwoorden krijgen de deelnemers uit de CI-conditie dit maal een interpretatievraag over CRI’s en deelnemers uit de CRI-conditie een interpretatievraag over CI.

Data-analyse

Interpretaties worden omgescoord naar een score van 0 tot 5 punten, waarbij 0 duidt op een compleet incorrecte interpretatie en 5 op een compleet correcte

interpretatie. Met behulp van een antwoordmodel wordt deze omscoring uitgevoerd door onafhankelijke studentassistenten van de UvA die actief zijn binnen de richting Psychologische Methodenleer. Van de gemiddelden van de twee verschillende interpretaties worden CI’s berekend en deze worden met elkaar vergeleken om een uitspraak te doen over de correctheid van beide interpretaties. Ook wordt met behulp van een onafhankelijke t-test vergeleken of de twee gemiddelde scores van elkaar verschillen, zowel bij de eerste als bij de tweede meting.

Interpretatie van resultaten

De verwachting in het huidige onderzoek is dat mensen met geen tot weinig statistische kennis CRI’s beter interpreteren dan CI’s. Ook op de lange termijn wordt verwacht dat CRI’s beter zullen worden geïnterpreteerd dan CI’s, omdat mensen de neiging hebben een Bayesiaanse interpretatie te geven aan CI’s (Hoekstra et al, 2014). Indien CRI-scores bij zowel de eerste als de tweede meting hoger zijn dan CI-scores, zal dit onderzoek ondersteuning kunnen bieden aan het voorstel van Hoekstra et al. (2014) om meer Bayesiaanse statistiek toe te passen in de wetenschap. Het zou erg voor het gebruik van CRI’s spreken, omdat ondanks dat er minder aandacht aan CRI’s wordt geschonken, interpretatie ervan toch nog beter is dan die van CI’s na het zien van slechts twee online tutorials. Indien gevonden wordt dat CI-scores bij de eerste testafname hoger zijn dan CRI-scores, zou dit kunnen komen door het feit dat in het half jaar tussen de twee testafnames meer aandacht wordt gegeven op de universiteiten aan CI’s. Ook zou dit het

(33)

kunnen zetten bij de manier van meten op de manier van Hoekstra et al. (2014). Wellicht zou dan vervolgonderzoek met een alternatieve opzet moeten volgen. Wanneer CRI’s op de lange termijn beter worden geïnterpreteerd dan CI’s, zou

overwogen kunnen worden om de Bayesiaanse vorm van statistiek toe te passen in het huidige onderwijs systeem voor eerstejaars studenten. Indien de CI-scores en de CRI-scores in zowel de eerste als in de tweede meting hoog zijn, zou het kijken van een online tutorial er voor hebben kunnen gezorgd dat betere interpretaties worden

gegeven aan de genoemde statistische begrippen. Dit zou onderzoek naar de invloed van online tutorials met betrekking tot statistische kennis kunnen aanwakkeren. Wellicht dat universiteiten hun studenten en docenten zo nu en dan een online tutorial kunnen aanbieden met als mogelijk gevolg dat kennis van fundamentele statistische begrippen minder snel wegvaagt.

(34)

Literatuuroverzicht

Agresti, A., & Franklin, C. (2012). Statistics: the art and science of learning from data. Pearson Higher Ed.

Box, G. E., & Tiao, G. C. (2011). Bayesian inference in statistical analysis(Vol. 40). John Wiley & Sons.

Gill, J. (2007). Bayesian methods: A social and behavioral sciences approach. CRC press. Hoekstra, R., Morey, R. D., Rouder, J. N., & Wagenmakers, E. J. (2014). Robust

misinterpretation of confidence intervals. Psychonomic bulletin & review, 1-8. Studiegids 2013-2014 Opleidingen Psychologie Universiteit Van Amsterdam. Retreived

from: http://psychologyincludes.edu.fmg.uva.nl/owi/studiegids/13-14/Studiegids_Psychologie_1314_student.pdf

(35)
(36)
(37)

Referenties

GERELATEERDE DOCUMENTEN

De voorschotbetalingen voor het uitkeringsjaar 2012 zullen voor de algemene uitkering in beginsel gebaseerd worden op de voorlopige uitkeringsfactor en de voorlopige bedragen

Dijkhuis (Foss) In aansluiting op de literatuurstudie naar de mogelijkheden van niet-gewelddadige relbeheer- sing, in 1982 gepubliceerd onder de titel 'Niet alleen met stok

Op grond van artikel 7:15, tweede lid, van de Awb warden de kosten die een belanghebbende in verband met de behandeling van het bezwaar redelijkerwijs heeft moeten maken door het

waarschuwingslijst te voorkomen. De brief is per reguliere post verstuurd. Hierop heeft FX-CI op 17 december 2014 gereageerd. In deze reactie geeft FX-CI aan dat zij zich niet

Vervolgens heeft de AFM per aangetekende brief van 13 augustus 2015 — onder meer — te kennen gegeven dat zij twijfels heeft over dejuistheid van het adres en FX in de

A l’initiative de Journaliste en danger (Jed), les organisations professionnelles des médias congolais - l’Union nationale de la presse du Congo (UNPC) ; l’Observatoire des médias

De oplossing en zeer veel andere werkbladen om gratis te

The handle http://hdl.handle.net/1887/20405 holds various files of this Leiden University