Het gebruik van de Bayes Factor in Nederlands effectonderzoek : een heranalyse van Nederlandse effectstudies naar justitiële interventies

(1)

Het gebruik van de Bayes Factor in Nederlands

effectonderzoek: een heranalyse van Nederlandse

effectstudies naar justitiële interventies

Masterscriptie Forensische Orthopedagogiek, Graduate School of Child Development and Education Universiteit van Amsterdam

M. Zeppenfeldt, 11062614 Begeleiding: Dr. P. Hoffenaar Tweede beoordelaar: Dr. M. Noom

(2)

Bayes Factor in Nederlands effectonderzoek

1

Abstract: By conducting a reanalysis of Dutch effect studies of three different interventions

for juvenile delinquents with the use of the Bayes Factor, this study aims to gain more knowledge about the effectiveness of these interventions. When calculating the Bayes Factor, the data is compared with both the null and the alternative hypothesis. This generates a number representing the relative difference in evidence between both hypotheses. This means that where Bayes Factor can differentiate between proof for the null hypothesis, for the alternative hypothesis or no evidence, null hypothesis testing based on the p-value only differentiates between proof or no proof for the alternative hypothesis. Results show that, in most cases, when there is a reported significant p-value, the accompanying Bayes Factor shows there is evidence for the alternative hypothesis. Furthermore, when there were no reported significant p-values, the Bayes Factor shows there is evidence for the null

hypothesis. This means that the Bayes Factor can be either used as a way to strengthen the conclusion based on the p-value, or replace the p-value in effect studies. By using the Bayes Factor, more information about effectiveness of interventions can be collected, which can result in more useful, more specific and more substantiated implementation of these interventions.

(3)

2

Inleiding

Binnen de jeugdzorg wordt gebruik gemaakt van een grote diversiteit aan interventies. Om inzicht te krijgen in het aanbod (de doelgroepen en de beoogde doelen) aan interventies en daarnaast informatie te bieden over de kwaliteit van deze interventies is de Databank Effectieve Jeugdinterventies ontwikkeld (http://www.nji.nl/nl/Databank/Databank-Effectieve-Jeugdinterventies). Deze databank wordt beheerd door Het Nederlands Jeugdinstituut (NJI). Om in deze databank opgenomen te worden dienen interventies erkend en beoordeeld te zijn door één van de deelcommissies van de Erkenningscommissie Interventies. Belangrijk in dit oordeel is het onderzoek dat is gedaan naar de interventie. De commissie let in het bijzonder op de bewijskracht, de significante resultaten en de effectgrootte. Ze kan een interventie classificeren in één van de vier volgende oplopende klassen: goed onderbouwd, effectief volgens eerste aanwijzingen, effectief volgens goede aanwijzingen en effectief volgens sterke aanwijzingen (o.a. Zwikker, Van Dale, Dunnink, Willemse, Van Rooije, Heeringa & Rensen, 2015). Deze klassen komen overeen met verschillende niveaus van bewijskracht; van

descriptief via theoretisch naar causaal bewijs. In Tabel 1 worden de criteria voor de verschillende niveaus beknopt beschreven.

Vanuit verschillende hoeken is kritiek geuit op zowel de Erkenningscommissie als het onderzoek waar de Erkenningscommissie haar oordeel op baseert (Valentine et al., 2011; Wagenmakers, 2015; De Winter, Verhagen & Goossens, 2016). Een van de kritiekpunten betreft de mogelijkheid voor verschillende soorten bias in onderzoek en de publicatie daarvan, zoals het selectief publiceren van positieve uitkomsten (o.a. Konijn, Van de Schoot, Winter & Furgeson, 2015; Munafò et al., 2017) of een verstrengeling van belangen (o.a. De Winter et al., 2016). Ook zou de p-waarde (die veel in onderzoek gebruik wordt) niet de beste maat zijn om conclusies op te baseren (o.a. Aan den Brugh, 9 april 2016; Wagenmakers, 2015). Er wordt door de critici ook een mogelijke oplossing aangedragen, namelijk de Bayesiaanse statistiek; en dan vooral de Bayes Factor (o.a. Wetzels, Matzke, Lee, Rouder, Iverson, & Wagenmakers, 2011). Dit artikel bekijkt deze minder bekende statistische benadering in vergelijking met de klassieke nulhypothese toetsing en tracht te onderzoeken of deze Bayes Factor een waardevolle aanvulling kan zijn in effectonderzoek.

(4)

3

Tabel 1. Criteria voor de verschillende klassen van interventies

Oordeel Beschrijving

Goed onderbouwd ● doelgroep is duidelijk beschreven

● (sub)doelen van de interventie en te beïnvloeden factoren zijn duidelijk beschreven

● werkzame elementen worden benoemd en zijn theoretisch onderbouwd

Effectief volgens eerste aanwijzingen ● opzet van onderzoek voorziet in ten minste een lichte bewijskracht

● er is sprake van onderzoek met voor- en nametingen

● tenminste twee Nederlandse onderzoeken met ten minste een lichte bewijskracht óf één Nederland en één buitenlands

onderzoek met tenminste een lichte bewijskracht

Effectief volgens goede aanwijzingen ● (quasi)experimenteel onderzoek of herhaalde casestudies en voorziet in tenminste een redelijke bewijskracht ● niet noodzakelijk in praktijk, follow-up

niet noodzakelijk

● tenminste twee Nederlandse onderzoeken met ten minste een redelijke bewijskracht óf één Nederlands en één buitenlands onderzoek met tenminste een redelijke bewijskracht. Bij casestudies: minimaal zes studies onder verschillende condities óf tien in één setting

Effectief volgens sterke aanwijzingen ● (quasi)experimenteel onderzoek of herhaalde casestudies en voorziet in tenminste een sterke bewijskracht

● uitgevoerd in de praktijk, sprake van een follow-up van tenminste zes maanden ● tenminste twee Nederlandse onderzoeken

met ten minste een sterke bewijskracht óf één Nederlands en één buitenlands onderzoek met tenminste een sterke bewijskracht. Bij casestudies: minimaal tien studies onder verschillende condities

(5)

4 In januari 2017 publiceerde Nature Human Behaviour een manifest voor repliceerbaar onderzoek met aanbevelingen om de geloofwaardigheid van onderzoek te vergroten (Munafò et al., 2017). Hierin wordt gepleit voor een meer open manier van onderzoek uitvoeren om verschillende vormen van bias in onderzoek tegen te gaan. Een meer open manier van onderzoek doen is bijvoorbeeld het gratis beschikbaar maken van artikelen zodat de kennis voor iedereen beschikbaar is, iets wat in Nederland gestimuleerd wordt door het Nationaal Plan Open Science (www.openscience.nl).

Munafò et al. (2017) beschrijven hoe verschillende vormen van bias, bijvoorbeeld

confirmation bias (de neiging hebben om enkel te kijken naar bewijs dat de hypothese

bevestigt) er voor kunnen zorgen dat wetenschappers mogelijk verkeerde conclusies trekken. Ook beschrijven zij het probleem van publication bias; het probleem dat veel van het

uitgevoerde onderzoek niet wordt gepubliceerd omdat er geen sprake is van significante resultaten of omdat het gaat om replicatie studies en daarmee als niet vernieuwend genoeg worden beschouwd (o.a. Goldacre , 23 april 2011; Franco, Malhotra & Simonovits, 2014; Cuijpers & Cristea, 2016).

Deze publication bias heeft tot gevolg dat onderzoekers soms, bewust of onbewust op zoek gaan naar significante resultaten in hun data en hun hypothesen hier op aanpassen.

P-hacking is het bewust of onbewust hun data meerdere keren op verschillende manier

analyseren totdat de gewenste uitkomst, bijvoorbeeld een statistisch significant resultaat, is gevonden (Nuzzo, 2015). Om publication bias en p-hacking tegen te gaan stellen de

ondertekenaars van het manifest voor om onderzoek van tevoren te registeren. Er wordt dan vastgelegd welke hypothesen er worden getoetst en welke variabelen en meetinstrumenten hiervoor worden gebruikt en hoe deze worden geanalyseerd. In een dergelijk onderzoeksplan wordt eveneens vooraf vastgelegd dat zowel de data als de resultaten van het onderzoek openbaar worden gemaakt. Dit gaat publication bias tegen omdat de resultaten naar buiten worden gebracht, ongeacht of het onderzoeksverslag in een journal wordt gepubliceerd of niet. Door vooraf vast te leggen naar welke variabelen en hypothesen wordt gekeken, is van tevoren ook exact duidelijk welke theorieën de onderzoeker heeft over mogelijke effecten aan het begin van het onderzoek. Dit voorkomt dat er bij een gebrek aan significante resultaten op zoek wordt gegaan naar alternatieve verbanden, oftewel p-hacking. Binnen de medische wetenschap is deze registratie tegenwoordig gebruikelijk. Voor de sociale- en

(6)

5 enkele initiatieven die de preregistratie van onderzoek op het gebied van sociale- en

gedragswetenschappen mogelijk maken en stimuleren. Een Nederlands voorbeeld is het Nederlands Trial Register (http://www.trialregister.nl/ ) van Cochrane Netherlands. In dit register kunnen wetenschappers hun klinische onderzoek naar de effectiviteit van

behandelingen, interventies en medicijnen vast leggen. Er wordt onder andere vastgelegd wat het onderzoeksdesign is, en wat de onderzoeksvragen en hypothesen zijn. Daarnaast wordt er ook vastgelegd welke instellingen het onderzoek doen en waar het geld voor het onderzoek vandaan komt. Deze vorm van registratie wordt gestimuleerd door de World Health

Organization (WHO) en is een vereiste voor publicatie voor het International Committee of Medical Journal Editors (ICMJE, http://www.who.int/ictrp/network/primary/en/).

Een ander initiatief om de publication bias en p-hacking tegen te gaan is dat van het wetenschappelijke tijdschrift Basic and Applied Social Psychology (BASP). Dit journal heeft er voor gekozen om vanaf 2015 alleen nog maar resultaten te publiceren die zijn gebaseerd op andere statistische benaderingen dan nulhypothese toetsing (Trafimow & Marks, 2015). Hiermee stimuleren ze het gebruik van andere statistische benaderingen zoals de Bayesiaanse statistiek.

Munafò et al. (2017) pleiten ook voor het benoemen van mogelijke

belangenverstrengeling bij onderzoek. Uit meerdere onderzoeken blijkt namelijk dat wanneer een programma onderzocht wordt door afhankelijke onderzoekers (ontwikkelaars,

licentiehouders) de resultaten positiever zijn (Petrosino & Soydan, 2005; Eisner, 2009; Valentine et al., 2011). Deze kritiek wordt beaamd door onder andere wetenschapsfilosoof en wiskundige Jan Sprenger in een interview met het NRC (Aan den Brugh, 9 april 2016). In dit interview noemt hij de Bayesiaanse statistiek als een goed alternatief om in ieder geval een deel van deze problemen op te lossen. Hij is niet de enige die deze vorm van statistiek, en dan voornamelijk de Bayes Factor noemt als een alternatief voor de nu veel gebruikte p-waarde in nulhypothese toetsing (o.a. Guan & Vandekerckhove, 2015). De Bayes Factor heeft namelijk enkele voordelen, die hieronder, na een korte uitleg van de p-waarde en de Bayes Factor, verder zullen worden toegelicht.

(7)

6 Op dit moment wordt binnen de sociale wetenschappen vrijwel alleen gebruik

gemaakt klassieke nulhypothese toetsing. Deze vorm van toetsen is al lange tijd de standaard voor het rapporteren van resultaten. De toets maakt gebruik van de p-waarde. De p-waarde staat voor de kans op de gevonden data, of extremere data, gegeven dat de nulhypothese waar is. Bij een p-waarde van <0.05 wordt over het algemeen gesproken van een significant

resultaat, wat betekent dat de kans op de gevonden, of nog extremere data gegeven de nulhypothese zeer klein is (Wagenmakers, 2015; Wasserstein & Lazar, 2016). In het gebruik van de nulhupothesetoetsting accepteren we dat er soms een foute conclusie wordt getrokken. Zo kan een significant kleine p-waarde leiden tot de conclusie dat de nulhypothese verworpen kan worden terwijl deze wel waar is (type 1 fout). Ook kan de p-waarde leiden tot aanhouden van de nulhypothese terwijl deze eigenlijk verworpen had moeten worden (type 2 fout). Maar door de inrichting van de beslissingsprocedure is deze dat de foutenmarge van 5% of 1% voor vrijwel iedereen als acceptabel.

Soms wordt deze foutmarge echter vergeten. Vaak wordt een statistisch significante p-waarde geïnterpreteerd als: "De kans dat de nulhypothese waar is, is zeer klein". Hieruit volgt dan dat de kans op de alternatieve hypothese groter is en daarom dat model waarschijnlijker. Deze manier van interpretatie is onjuist omdat het ontbreken van bewijs voor de nulhypothese niet automatisch betekent dat er wel, of meer, bewijs is voor de alternatieve hypothese.

Bayes Factor

De Bayes Factor (BF) is het relatieve verschil tussen het bewijs voor twee

verschillende hypothesen of verklarende modellen. Door gebruik te maken van de Bayes Factor wordt de nulhypothese (H0) vergeleken met de alternatieve hypothese (H1) en wordt gekeken in welke maten de gevonden data bewijs levert voor deze beide hypothesen (Beard, Dienes, Muirhead &West, 2016). Dit kan worden weergegeven als:

𝐵𝐵𝐵𝐵10= _{𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝑜𝑜𝑜𝑜 𝑔𝑔𝑔𝑔𝑔𝑔𝑜𝑜𝑘𝑘𝑔𝑔𝑔𝑔 𝑔𝑔𝑘𝑘𝑑𝑑𝑘𝑘 𝑜𝑜𝑘𝑘𝑔𝑔𝑔𝑔𝑜𝑜 𝐻𝐻}𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝑜𝑜𝑜𝑜 𝑔𝑔𝑔𝑔𝑔𝑔𝑜𝑜𝑘𝑘𝑔𝑔𝑔𝑔 𝑔𝑔𝑘𝑘𝑑𝑑𝑘𝑘 𝑜𝑜𝑘𝑘𝑔𝑔𝑔𝑔𝑜𝑜 𝐻𝐻1 0 =

𝑃𝑃(𝐷𝐷|𝐻𝐻1) 𝑃𝑃(𝐷𝐷|𝐻𝐻0)

De Bayes Factor wordt uitgedrukt in een getal tussen 0 en > 100, en is een maat voor het onderlinge verschil in het bewijs voor de waarschijnlijkheid van verschillende hypothesen. Bij een Bayes Factor van 4 betekent dat dus dat de kans op de gevonden data 4 keer zo groot is wanneer de alternatieve hypothese waar is in plaats van de nulhypothese. In Tabel 2 staan vuistregels voor de interpretatie van de Bayes Factor (Jefferys, 1961, zoals geciteerd in

(8)

7 Wetzels & Wagenmakers, 2012). Zoals te zien in Tabel 2 geeft de Bayes Factor verschillende vormen van informatie. Wat opvalt is dat de Bayes Factor informatie geeft over beide

getoetste hypothesen. Zoals eerder besproken is de p-waarde de kans op de gevonden data, of extremere data, gegeven dat de nulhypothese waar is. Wanneer de p-waarde significant is en de kans op de gevonden data zeer klein is, betekent dit niet automatisch dat de kans op de gevonden data onder de alternatieve hypothese groter is, en dus dat de alternatieve hypothese een betere verklaring is. De Bayes Factor kan deze informatie wel geven, door voor beide hypothesen de kans op de gevonden data te berekenen en deze kansen met elkaar te vergelijken.

Tabel 2. Interpretatie Bayes Factor (Wetzels & Wagenmakers, 2012)

Bayes factor (BF10)*

Interpretatie

> 100 Beslissend bewijs voor H1

30 - 100 Zeer sterk bewijs voor H1

10 - 30 Sterk bewijs voor H1

3 - 10 Substantieel bewijs voor H1

1 - 3 Anekdotisch bewijs voor H1

1 Geen bewijs

1/3 - 1 Anekdotisch bewijs voor H0

1/10 - 1/3 Substantieel bewijs voor H0

1/30 - 1/10 Sterk bewijs voor H0

1/30 - 1/100 Zeer sterk bewijs voor H0

1/100 > Beslissend bewijs voor H0

*BF10 staat voor de Bayes Factor wanneer 𝐵𝐵𝐵𝐵 =𝑃𝑃(𝐷𝐷|𝐻𝐻_{𝑃𝑃(𝐷𝐷|𝐻𝐻}1)

0) BF01 staat voor de Bayes Factor wanneer 𝐵𝐵𝐵𝐵 = 𝑃𝑃(𝐷𝐷|𝐻𝐻0) 𝑃𝑃(𝐷𝐷|𝐻𝐻1)

Een belangrijk onderdeel van het berekenen van de Bayes Factor is het gebruik van

priors. Een prior is een verwachting die een onderzoeker heeft over de data vóórdat de data is

bekeken. Er zijn twee verschillende soorten priors. De eerste soort prior is de verwachte kansverdeling voor de modellen die met elkaar vergeleken worden. In dit geval spreekt men van prior odds (Stefan & Schönbrodt, 10 januari 2017). Middels een voorbeeld (afgeleid van een voorbeeld gegeven door Annis (8 juni 2014)) kan deze eerste vorm van priors uitgelegd worden. Stel: Je weet dat de gemiddelde lengte van een Nederlandse man 1,80m is met een standaarddeviatie van 10 cm (of dit daadwerkelijk klopt is voor dit voorbeeld niet van

belang). Bij een normaal verdeling betekent dit dat 50% van de mannen 1,80m is of kleiner en 50% groter dan 1,80m. Je gaat naar een restaurant en je verwacht op basis van je kennis dat er

(9)

8 een 50% kans is dat de eerste man die je tegenkomt 1,80 of groter is. Je nulhypothese is dan: De eerstvolgende man is 1,80m of kleiner. Je alternatieve hypothese is dan: De eerstvolgende man is groter dan 1,80m. De kansverdeling is dan 1:1. Echter, voordat je het restaurant in gaat kom je erachter dat er een feest is van de plaatselijke basketbalvereniging. Basketballers zijn over het algemeen langer dan de gemiddelde man, dus je past verwachtingen aan. Je

hypothesen blijven hetzelfde, maar je verwachting is dat er een grotere kans is dat de eerstvolgende man die je tegenkomt langer is dan 1,80m. De kansverdeling wordt dan

bijvoorbeeld 2:3. De kansverdeling waar voor het zien van de data vanuit wordt gegaan is dus de eerste soort prior.

De tweede soort prior gaat om de verwachte waarden van de variabelen in de data gegeven onder de alternatieve hypothese (Stefan & Schönbrodt, 17 januari 2017).

Bijvoorbeeld in het geval van de basketballers in het restaurant: Je verwacht dat de mannen in het restaurant gemiddeld langer zullen zijn dan het landelijk gemiddelde. Maar hoe veel langer precies? Bij nulhypothese toetsing zijn de hypothesen als volgt: de nulhypothese is: gemiddelde lengte is 1,80m of kleiner. De alternatieve hypothese is: de gemiddelde lengte is langer dan 1,80m. In Bayesiaanse statistiek kunnen deze hypothesen specifieker worden geformuleerd door het toevoegen van deze soort prior. Bij nulhypothese toetsing wordt er geen onderscheid gemaakt tussen de verschillende mogelijkheden van waarden van de variabelen, in dit geval lengte. Volgens deze formulering in nulhypothese toetsing is de kans op een gemiddelde lengte van 1,85m net zo groot als een gemiddelde lengte van 3,00m. Bij de Bayes Factor kan een verwachting over de verschillende waarden van de variabele worden meegenomen in de analyse. In het geval van de gemiddelde lengte zou je dus aan kunnen geven dat je verwacht dat de gemiddelde lengte van de mannen in het restaurant het landelijk gemiddelde + 1 standaardafwijking is, dus 1,90m. Dit is de tweede soort prior. Het gebruik van priors zorgt ervoor dat de hypothesen specifieker kunnen worden geformuleerd, waardoor het onderscheidend vermogen van de Bayes Factor groter wordt. Uit deze verschillen tussen de Bayes Factor en de p-waarde volgen enkele voordelen van de Bayes Factor.

(10)

9 Het eerste voordeel van de Bayes Factor is dat deze in vergelijking met de p-waarde op een meer intuïtieve manier te interpreteren is. Wanneer er wordt gekeken naar twee verschillende hypothesen is het namelijk logischer om te kijken naar het bewijs voor beide hypothesen, zoals de Bayes Factor doet, dan naar te kijken naar de kans op de data onder één van de hypothesen, zoals bij klassieke nulhypothese toetsing gebeurt. Dit sluit hiermee beter aan bij hoe we geneigd zijn te denken over de relatie tussen data en hypothesen

(Wagenmakers, 2015).

Als tweede, omdat de Bayes Factor een onderlinge verhouding weergeeft zijn de hypothesen makkelijker met elkaar te vergelijken en is het trekken van een conclusie makkelijker (Wagenmakers, 2015; Brand, Ainsley, Van der Post & Morgan, 2017). Het is voor iemand die niet geschoold is in statistiek makkelijker om te begrijpen wanneer er wordt gezegd dat er 5 keer meer bewijs is in de data voor de ene situatie (hypothese) dan voor de andere, dan wanneer er wordt gezegd dat er sprake is van een significant resultaat want: “de kans op de gevonden data onder de nulhypothese kleiner is dan 5%”.

Een derde voordeel van de Bayes Factor is de deze twee hypothesen tegen elkaar afweegt, kan deze ook tot de conclusie leiden dat er voor geen van beide hypothesen bewijs is. De kans op de gevonden data is in dat geval even groot onder beide hypothesen en is het dus niet mogelijk één van de hypothesen uit te sluiten (Wagenmakers, 2015). In dit geval kan het nodig zijn om meer informatie te verzamelen. Bijvoorbeeld meer data te verzamelen en te analyseren. Er kan ook gebruik gemaakt worden van priors op basis van eerder onderzoek, wanneer dit beschikbaar is.

Door deze vergelijking van het bewijs voor de twee hypothesen ontstaat er nog een vierde voordeel. Zoals eerder genoemd betekent het ontbreken van bewijs voor de

nulhypothese niet automatisch dat er wél bewijs is voor de alternatieve hypothese. Het zou kunnen zijn dat de kans op de gevonden data op zichzelf al heel klein is, onafhankelijk van beide hypothesen. Bij traditionele nulhypothese significantie toetsen wordt er bij een niet significant resultaat geen onderscheid gemaakt tussen geen bewijs, of bewijs voor de nulhypothese. Dit onderscheid wordt echter wel gemaakt bij de Bayes Factor (Dienes & McLatchie, In Press) (Tabel 2). De Bayes Factor heeft hiermee een groter onderscheidend vermogen dan een traditionele nulhypothese significantietoets.

Het vijfde voordeel is dat de Bayes Factor de mogelijkheid geeft voor meer genuanceerde aan interpretaties in vergelijking met de p-waarde. Waar de p-waarde te

(11)

10 interpreteren is als wel of niet significant, en dus als wel of geen bewijs voor de getoetste hypothese geeft de Bayes Factor een veel grotere reeks aan mogelijke uitkomsten. Dit zorgt ervoor dat er op een veel genuanceerdere manier informatie gegeven wordt (Beard et al., 2016; Monden, De Vos, Morey, Wagenmakers, De Jonge & Roest, 2016). Morey (30 januari 2015) argumenteerde dat het gebruik van de vuistregels (door hem genoemd "verbal labels" of "verbal categories") voor de interpretatie van de Bayes Factor niet nodig is omdat deze op zichzelf al genoeg zegt. Het gebruik van vuistregels zou de aard van de Bayes Factor teniet kunnen doen, omdat het ervoor kan zorgen dat een Bayes Factor van 10 en een Bayes Factor van 29 hetzelfde oordeel zouden krijgen. In meerdere artikelen wordt dit probleem ook kort benoemd en wordt gesteld dat ze enkel beschouwd moeten worden als richtlijnen die de communicatie makkelijker maken (Kass & Raftery, 1995; Wetzels et al., 2011; Wetzels & Wagenmakers, 2012). Hiermee is de Bayes Factor een continue maat voor de bewijskracht en vormt deze daarmee een aanvulling op de p-waarde. Echter, in veel onderzoek wordt al gebruik gemaakt van effectgrootte , bijvoorbeeld de veelgebruikte Cohen's d, om de p-waarde te ondersteunen. Ook dit zijn continue maten die meer informatie geven dan enkel wel of niet significant. Wat is op dit gebied dan de meerwaarde van de Bayes Factor over de

effectgrootte? Beide zijn inderdaad continue maten, effectgrootte geeft, zoals de naam al suggereert, de grootte van het effect weer. Het is een maat die aangeeft in hoeverre de gevonden data afwijkt van het model onder de nulhypothese. Effectgrootte is daarmee echter geen maat die bewijs voor of tegen de nulhypothese uit kan drukken.

De hierboven genoemde voordelen betekenen echter niet altijd dat het gebruik van Bayes Factor of de p-waarde automatisch leidt tot andere conclusies. Uit onderzoek blijkt dat een hoge Bayes Factor, dus bewijs voor de alternatieve hypothese, vaker overeenkomt met een lage (significante) p-waarde, dus kleine kans op de gevonden data onder de nulhypothese (Wetzels et al., 2011; Monden et al., 2016).

Dit Onderzoek

Dit onderzoek bekijkt of de Bayes Factor relevante informatie kan toevoegen aan het reeds bestaande onderzoek naar de effectiviteit van interventies. Er is eerder onderzoek gedaan waarin is bekeken in hoeverre de Bayes Factor kan helpen in het aanbrengen van nuances in het trekken van conclusies (Wetzels et al. 2011; Konijn et al. 2015; Monden et al. 2016). Wetzels et al. (2011) analyseerden vergeleken de Bayes Factors, p-waarden en effect

(12)

11 grootten van 855 verschillende gepubliceerde t-toetsen. Hieruit kwam naar voren dat de Bayes Factor en p-waarden vaak wel dezelfde conclusie trekken over welke hypothese er het beste ondersteunt wordt door de data. Echter is er een verschil in hoe sterk de data deze hypothese ondersteunt. In 70% van de gevallen waar de p-waarde tussen 0.01 en de 0.05 viel gaf de Bayes Factor aan dat het ging om anekdotisch bewijs. Wetzels et al. (2011) concluderen dat de Bayes Factor kan helpen in het voorkomen dat het bewijs voor een effect wordt overschat. Het onderzoek van Monden et al. (2016) richtte zich op 58 dubbelblinde,

placebogecontroleerde studies. Bayes Factors werden berekend en vergeleken met de corresponderende p-waarden. Zij vonden een grote spreiding van Bayes Factors en concludeerde dat de Bayes Factor en de p-waarden in veel gevallen kunnen leiden tot verschillende conclusies over de sterkte van het bewijs voor een bepaalde hypothese. Deze onderzoeken hebben echter geen betrekking op in Nederland uitgevoerd onderzoek. Daarnaast hebben deze onderzoeken geen betrekking op onderzoeken naar effecten van jeugdzorg interventies. Het doel van dit onderzoek is om de Bayes Factor te vergelijken met de klassieke nulhypothese toetsing en te onderzoeken of deze Bayes Factor een waardevolle aanvulling kan zijn in effectonderzoek.

Door te kijken naar de Bayes Factor wordt er op een nieuwe manier gekeken naar het bewijs voor effectiviteit. Er wordt gekeken naar hoe sterk het bewijs voor de nulhypothese of voor de alternatieve hypothese is. Op deze manier kan er extra informatie worden gewonnen over de effectiviteit van de interventies. In dit onderzoek worden in Nederland uitgevoerde effectstudies naar interventies, die door de Erkenningscommissie Interventies als effectief volgens eerste aanwijzingen, effectief volgens goede aanwijzingen en effectief volgens sterke aanwijzingen zijn beoordeeld, geheranalyseerd op basis van de gerapporteerde beschrijvende en toetsende statistieken en ruwe data. Met deze heranalyse worden de Bayes Factors

berekend en wordt er onderzocht of deze Bayes Factors nieuwe informatie geven over de effectiviteit van de onderzochte interventies.

(13)

12

Methode

Dit onderzoek bestaat uit heranalyses van in Nederland uitgevoerde effectstudies van interventies met het oordeel 'effectief volgens eerste aanwijzingen', 'effectief volgens goed aanwijzingen' en 'effectief volgens sterke aanwijzingen'. Het selecteren van interventies is gedaan via www.justitieleinterventies.nl/erkende-interventies, de databank voor erkende interventies binnen het justitiële kader. Er is op de site geselecteerd op de doelgroepen 'jeugd' en 'jongvolwassenen' met het oordeel 'effectief volgens eerste aanwijzingen', 'effectief volgens goede aanwijzingen', 'effectief volgens sterke aanwijzingen'. Hieruit komen in maart 2017 zes interventies. Uit de zoekresultaten is voor elk oordeel is één interventie gekozen die mee genomen wordt in dit onderzoek (Tabel 3).

Voor elk van deze interventies is een beschrijving van het NJI beschikbaar. In elke beschrijving worden de artikelen genoemd waarop de Erkenningscommissie haar oordeel heeft gebaseerd (Hoogsteder, 2015; MST-Nederland, 2015; [Beschrijving oordeel

Erkenningscommissie Tools4U], z.j). Uit deze beschrijvingen is voor elke interventie het artikel over in Nederland uitgevoerd effectonderzoek meegenomen dat voldoet aan de

voorwaarden voor het gegeven oordeel. Voor de interventie Multisysteem Therapie (MST) is er een extra artikel mee genomen omdat er in het gekozen artikel door Asscher, Deković, Manders, W., Van der Laan, Prins, Van Arum & Dutch MST Cost-Effectiveness Study Group. (2014) in de resultaten verwezen werd naar een eerder gepubliceerd artikel over het zelfde klinische traject (Asscher, Deković, Manders, Van der Laan & Prins, 2012). Voor de interventie Tools4U werd een dergelijk artikel niet in de beschrijving vermeld, hoewel er wel recent effectonderzoek in Nederland is uitgevoerd en beschreven. Er is voor gekozen dit artikel mee te nemen in dit onderzoek. Daarnaast wordt er ook een niet- erkende interventie meegenomen in het onderzoek: Nieuwe Perspectieven. Deze interventie is meegenomen omdat er recent effectonderzoek is uitgevoerd in Nederland door De Vries, Hoeve, Wibbelink, Asscher & Stams (In revision) . Het gaat om een Randomized Control Trial (RCT) met een hoge mate van bewijskracht. Nieuwe Perspectieven was door de Erkenningscommissie erkend, deze erkenning is inmiddels verlopen (http://www.nji.nl/nl/Databank/Databank-Effectieve-Jeugdinterventies/Verwijderd-uit-de-databank/Nieuwe-Perspectieven.html). Het huidige onderzoek voldoet aan de criteria van de Erkenningscommissie voor effectonderzoek en zou het oordeel van de commissie kunnen verhogen. De toevoeging van Nieuwe

(14)

13

Verzameling data

De beschrijvende en toetsende statistieken beschreven in de artikelen gaven niet voldoende informatie voor een heranalyse met de Bayes Factor. Zo ontbraken de benodigde t-waarden. Ook was voor de uit te voeren ANCOVA de ruwe data noodzakelijk. Daarom zijn de eerste auteurs van de artikelen via e-mail gevraagd of zij bereid waren de data gebruikt in de effectanalyses beschikbaar te stellen voor dit onderzoek. Wanneer de auteurs geen reactie gaven op dit verzoek is er voor gekozen om de benodigde t-waarden te berekenen door middel van de T.INV functie in microsoft office Excel zoals beschreven in Monden et al. (2016).

Het bleek niet mogelijk de analyses uitgevoerd in Asscher et al. (2014) betreffende de recidive cijfers te reproduceren. Daarom is ervoor gekozen deze cijfers niet mee te nemen in de heranalyse.

Analyse

Op basis van de in de effectstudie uitgevoerde analyses werden vergelijkbare Bayesiaanse analyses uitgevoerd. Bij het overgrote deel van de analyses in de effectstudies was er sprake van een ANCOVA waarbij de voormeting als covariaat was opgenomen. Er is in die gevallen dus gebruik gemaakt van een vergelijkbare Bayesiaanse ANCOVA die het model met effect van de interventie en het model zonder effect van de interventie met elkaar vergelijkt. In de analyse is gebruik gemaakt van de standaard instellingen voor priors in JASP. In dit onderzoek wordt uitgegaan van een tweezijdige toetsing, omdat dit overeenkomt met de tweezijdige significantie die is gebruikt in de effectstudies. De analyses zijn uitgevoerd met behulp van JASP 0.8.1.0. en IBM SPSS Statistics 21.

(15)

14

Tabel 3 Artikel en interventie informatie

Oordeel Interventie Titel Artikel Auteurs Publicatie Jaar

Effectief volgens

sterke aanwijzingen Multisysteem Therapie A randomized controlled trial of the effectiveness of multisystemic therapy in the Netherlands: post-treatment changes and moderator effects.

Asscher et al. 2012 Sustainability of the effects of multisystemic therapy for

juvenile delinquents in The Netherlands: effects on delinquency and recidivism

Asscher et al. 2014

Effectief volgens

goede aanwijzingen Agressieregulatie op Maat (residentieel) Responsive Aggression Regulation Therapy (Re-ART): An evaluation study in a Dutch juvenile justice institution in terms of recidivism

Hoogsteder et

al. Aangeboden voor publicatie

Effectief volgens

eerste aanwijzingen Tools4U Social skills training for juvenile delinquents: post-treatment changes Van der Stouwe et al. 2016 Geen oordeel Nieuwe Perspectieven A randomized Controlled Trial of the Effectiveness of the

Youth Crime Prevention Programe 'New Persectives' (NP): Post-treatment Changes and Moderator Effects.

(16)

15

Resultaten Multisysteem Therapie

Asscher et al. (2012) en Asscher et al. (2014) beschrijven onderzoek naar de

effectiviteit van MST door middel van een Nederlands RCT met 256 adolescenten. Van deze jongeren ontvingen er 147 Multisysteem Therapie, de rest ontving reguliere behandeling. De toewijzing aan beide onderzoeksgroepen werd door het lot bepaald. De resultaten lieten een significant negatief effect van MST zien op externaliserende gedragsproblemen bij de post-test en follow-up van 6 maanden na de interventie, zowel voor zelfrapportage als voor ouderrapportage. Ook bleek dat MST een negatief effect heeft op zelfgerapporteerde vermogensdelicten maar niet op zelfgerapporteerde geweldsdelicten. Ook was er een significant negatief effect op door de ouders gerapporteerde gedragsproblemen als Conduct Disorder (CD) en Oppositional Defiant Disorder (ODD). De p-waarden, effectgroottes, en Bayes Factors zijn terug te vinden in Tabel 4.

Probleemgedrag. Op basis van de Bayes Factor kan worden gesproken van beslissend bewijs

voor een effect van MST op externaliserend gedrag (BF10 = 292.562) , ODD (BF10 = 40082.508) en CD (BF10 = 205.087) gerapporteerd door de ouders bij de 6-maanden follow-up. In het geval van ODD gerapporteerd door de ouders betekent dit dat de kans op de gevonden data onder de alternatieve hypothese van wel een interventie-effect, ongeveer 40082 maal zo groot is dan onder de nul hypothese. Dit komt overeen met de conclusie getrokken in Asscher et al. (2014). Ook sterke effecten gerapporteerd door Asscher et al. (2014) sluiten aan bij de gevonden Bayes Factors.

In één geval lieten de p-waarde en de Bayes Factor echter verschillende uitkomsten zien. Asscher et al. (2012) stelde vast dat bij de post-test zelfrapportage van externaliserend gedrag een significant effect van MST te zien was. De Bayes Factor BF10 = 1.004 laat hier echter geen bewijs zien. De data geven in dit geval dus geen uitsluitsel ten aanzien van het wel of niet bestaan van een interventie-effect.

Recidive. Bij de post-test zelfrapportage van vermogensdelicten stelde Asscher et al. (2012)

vast dat hier een significant effect van MST te zien was. De Bayes Factoren van BF01 = 1.018 en BF01 = 1.046 laten hier echter anekdotisch bewijs voor het model zonder effect van MST zien. Beide benaderen een Bayes Factor van 1, waar kan worden gesproken van geen bewijs voor beide van de hypothesen.

(17)

16 De Bayes Factor van de zelfrapportage van geweldsdelicten (BF01 = 6.988) en de zelfrapportage van geweldsdelicten na 6 maanden (BF01 = 7.379) laten substantieel bewijs voor het model waar MST geen meerwaarde heeft ten opzicht van de standaardbehandeling.

Agressieregulatie op Maat

Hoogsteder et al. (aangeboden voor publicatie) deed een quasi-experimenteel onderzoek naar de effecten van AROM op recidive bij jongeren in Nederlandse justitiële jeugdinrichtingen. Er was sprake van een controlegroep die op de wachtlijst voor AROM waren geplaatst, zij ontvingen daarom reguliere hulpverlening. Het effect van AROM werd op basis van recidivecijfers (verkregen van justitie) en risicotaxatie geanalyseerd. De resultaten lieten zien dat AROM een significant verschil is tussen de behandelgroep en de wachtlijst controlegroep in recidiverisico. Hoogsteder et al. (aangeboden voor publicatie) vonden dat er voor geweldsdelicten, vermogensdelicten, vermogensdelicten met geweld en algemene recidive na 1 jaar geen significant effect was van AROM. Er werd een significant negatief effect van AROM twee jaar na behandeling op algemene recidive, vermogensdelicten en geweldsdelicten geconstateerd. Ook na 3 jaar was er nog een negatief effect te zien op algemene recidive en geweldsdelicten. De p-waarden, effect groottes, en Bayes Factors zijn terug te vinden in Tabel 5.

Er is beslissend bewijs voor een effect van AROM op recidive risico (BF10 = 622.837) en op algemene recidive na 2 jaar (BF10 = 3511.341). Voor de algemene recidive na 2 jaar betekent dit dat de kans op de data onder de alternatieve hypothese is 3511 keer groter dat onder de nulhypothese. Dit komt overeen met de conclusie van Hoogsteder et al. (aangeboden voor publicatie). Voor geweldsdelicten (BF01 = 2.613), vermogensdelicten (BF01 = 4.211), vermogensdelicten met geweld (BF01 = 3.882 ) en algemene recidive (BF01 = 2.329) na 1 jaar kan er worden gesteld dat er voor deze variabelen anekdotisch of substantieel bewijs is voor de nulhypothese. Ook voor vermogensdelicten met geweld na 2 jaar (BF01 = 1.755),

vermogensdelicten na 3 jaar (BF01 = 4.069) en vermogensdelicten met geweld na 3 jaar (BF01 = 4.093) geldt dat er anekdotisch en substantieel bewijs is voor de nulhypothese.

(18)

17

Tools4U

Van der Stouwe, Asscher, Hoeve, Van der Laan & Stams (2016) beschrijven

onderzoek naar de effecten van Tools4U op sociale en cognitieve vaardigheden van jongeren die deze behandeling ontvangen omdat deze door de rechter is opgelegd. De effectanalyses zijn uitgevoerd op basis van 104 jongeren, waarvan 45 jongeren de interventie Tools4U ontvingen. De rest ontving reguliere behandeling. Uit het onderzoek bleek dat Tools4U een significant negatief effect heeft op 'impulsiviteit', 'zien van kwade bedoelingen, 'egoïstisch denken', 'uitgaan van het ergste', 'sociale acceptatie' en 'eigenwaarde'. De p-waarden, effect groottes, en Bayes Factors zijn terug te vinden in Tabel 6.

Er is bij dit artikel enkel gekeken naar de significante resultaten omdat de ruwe data niet beschikbaar was. Met behulp van Microsoft Excel zijn voor de gerapporteerde p-waarden de bijbehorende t-waarden berekend. Hieruit komt naar voren dat er bij 'impulsiviteit',

'egoïstisch denken', 'sociale acceptatie' en 'eigenwaarde' anekdotisch bewijs is (BF10 = 1.184) voor de alternatieve hypothese, waarbij Tools4U effect heeft. Voor 'zien van kwade

bedoelingen' en 'uitgaan van het ergste' is er substantieel bewijs (BF10 = 4.242) voor het model waarbij Tools4U effect heeft.

Nieuwe Perspectieven

De Vries, Hoeve, Wibbelink, Asscher & Stams (in revision) beschrijven een in Nederland uitgevoerd RCT naar de effectiviteit van de nieuwe interventie Nieuwe

Perspectieven op zelfgerapporteerd delinquent gedrag. De effectanalyses zijn uitgevoerd op basis van 101 jongeren, waarvan 47 de interventie Nieuwe Perspectieven ontvingen, de rest ontving de reguliere behandeling. De Vries et al. (in revison) rapporteert een marginaal significant verschil tussen de controlegroep, die de reguliere behandeling ontving (CAU), en de testgroep, die de interventie Nieuwe Perspectieven ontving, door middel van een t-toets voor onafhankelijke steekproeven. Het rapporteren van een marginaal significant is opvallend en houdt in dit geval in dat er sprake is van een p-waarde van p = .079. Dit is dus niet

significant als er uit wordt gegaan van een grenswaarde van .05, maar komt hier wel bij in de buurt. De p-waarden, t-waarden, en Bayes Factors zijn terug te vinden in Tabel 7.

Voor delinquent gedrag na 3 maanden is er volgens de Bayes Factor anekdotisch bewijs (BF01 = 3.901) voor de nulhypothese die stelt dat er geen verschil is in delinquent gedrag tussen de jongeren die wel de interventie ontvangen en de jongeren die deze niet

(19)

18 ontvangen. De kans op de data onder de nulhypothese is bijna 4 keer groter dat onder de alternatieve hypothese. Dit komt overeen met de gevonden p-waarde en de conclusie van De Vries et al. (in revision). Dit kan goed geïllustreerd worden door de cirkeldiagram in Figuur 2a, waarin het deel dat staat voor de kans op de nulhypothese (wit) aanzienlijk groter is dan het deel dat staat voor de kans op de alternatieve hypothese (rood). De Bayes Factor van BF01 = 1.152 geeft aan dat er anekdotisch bewijs is voor de nulhypothese bij het verschil in

delinquent gedrag tussen de behandelde groep en de controlegroep na 6 maanden. Dit komt niet overeen met de door De Vries et al. (in revison) getrokken conclusie dat er een marginaal significant verschil was tussen de groepen.

Verdeling Bayes Factor

In Figuur 2 is de verdeling van de Bayes Factors van alle interventies te zien per significantieniveau. Hier is te zien dat wanneer er niet significante resultaten werden

gerapporteerd, de Bayes Factor niet de BF10 = 1 passeert. In deze gevallen is er dus minimaal anekdotisch bewijs voor de nulhypothese gevonden. Ook is hier te zien dat hoe extremer het gerapporteerde significantie niveau, hoe hoger de maximale gevonden Bayes Factor.

(20)

Tabel 4. p-waarden, effect grootten en BF Multisysteem Therapie

Variabele p - waarde Effectgrootte Bayes Factor Interpretatie

Externaliserend gedrag, rapportage ouders post-test p < .05 d = 0.26 BF10 = 1.004 Geen bewijs

ODD, rapportage ouders post-test p < .01 d = 0.36 BF10 = 5.192 Substantieel bewijs voor H1

CD, rapportage ouders post-test p < .05 d = 0.30 BF10 = 1.869 Anekdotisch bewijs voor H1

Externaliserend gedrag, zelfrapportage post-test p < .05 d = 0.26 BF01 = 1.018 Anekdotisch bewijs voor H0 Vermogens delicten, zelfrapportage post-test p < .05 d = 0.25 BF01 = 1.046 Anekdotisch bewijs voor H0 Geweldsdelicten, zelfrapportage post-test Niet significant d = 0.03 BF01 = 6.988 Substantieel bewijs voor H0 Externaliserend gedrag, rapportage ouders na 6 maanden p < .001 d = 0.53 BF10 = 292.562 Beslissend bewijs voor H1

ODD, rapportage ouders na 6 maanden p < .001 d = 0.83 BF10 = 40082.508 Beslissend bewijs voor H1

CD, rapportage ouders na 6 maanden p < .001 d = 0.50 BF10 = 205.087 Beslissend bewijs voor H1

Externaliserend gedrag, zelfrapportage na 6 maanden p < .05 d = 0.39 BF10 = 12.047 Sterk bewijs voor H1 Vermogens delicten, zelfrapportage na 6 maanden p < .05 d = 0.37 BF10 = 6.478 Substantieel bewijs voor H1 Geweldsdelicten, zelfrapportage na 6 maanden Niet significant d = 0.01 BF01 = 7.379 Substantieel bewijs voor H0 a: De getinte highlighter geeft aan in hoeverre de Bayes Factor en de p-waarde leiden tot de zelfde conclusie betreffende de het bewijs voor de alternatieve hypothese. Hoe donkerder hoe meer de overeenstemming.

(21)

20

Tabel 5. p-waarden, effect grootten en BF Agressieregulatie op Maat

Variabele p - waarde Effect grootte Bayes Factor Interpretatie

Risico op recidive p < .001 ES = 1.03 BF10 = 622.837 Beslissend bewijs voor H1

Geweldsdelicten na 1 jaar Niet significant d = 0.22 BF01 = 2.613 Anekdotisch bewijs voor H0

Vermogensdelicten na 1 jaar Niet significant d = 0,44 BF01 = 4.211 Substantieel bewijs voor H0

Vermogensdelicten met geweld na 1 jaar Niet significant d = 0.09 BF01 = 3.882 Substantieel bewijs voor H0

Algemene recidive na 1 jaar Niet significant d = 0.25 BF01 = 2.329 Anekdotisch bewijs voor H0

Geweldsdelicten na 2 jaar p < .05 d = 0.67 BF10 = 9.094 Substantieel bewijs voor H1

Vermogensdelicten na 2 jaar p < .05 d = 0.51 BF10 = 2.029 Anekdotisch bewijs voor H1

Vermogensdelicten met geweld na 2 jaar Niet significant d = 0.31 BF01 = 1.755 Anekdotisch bewijs voor H0

Algemene recidive na 2 jaar p < .01 d = 1.12 BF10 = 3511.341 Beslissend bewijs voor H1

Geweldsdelicten na 3 jaar p < .05 d = 0.54 BF10 = 4.394 Substantieel bewijs voor H1

Vermogensdelicten na 3 jaar Niet significant d = 0.08 BF01 = 4.069 Substantieel bewijs voor H0

Vermogensdelicten met geweld na 3 jaar Niet significant d = 0.07 BF01 = 4.093 Substantieel bewijs voor H0

Algemene recidive na 3 jaar p < 0.05 d = 0.63 BF10 = 6.004 Substantieel bewijs voor H1

a: De getinte highlighter geeft aan in hoeverre de Bayes Factor en de p-waarde leiden tot de zelfde conclusie betreffende de het bewijs voor de alternatieve hypothese. Hoe donkerder hoe meer de overeenstemming.

(22)

21

Tabel 6. p-waarden, effect grootten en BF Tools4U

Variabele p - waarde Effect grootte Bayes Factor Interpretatie

Impulsiviteit p < 0.05 ES = 0.31 BF10 = 1.184 Anekdotisch bewijs voor H1

Confrontatie Niet significant ES = 0.01

Sociale steun zoeken Niet significant ES = 0.09

Kwade bedoelingen zien p < 0.01 ES = 0.43 BF10 = 4.242 Substantieel bewijs voor H1

Cognitieve empathie Niet significant ES = -0.15

Egoïstisch denken p < 0.05 ES = 0.28 BF10 = 1.184 Anekdotisch bewijs voor H1

Anderen de schuld geven Niet significant ES = 0.12

Bagatelliseren en fout benoemen van gedrag Niet significant ES = 0.26

Uitgaan van het ergste p < 0.01 ES = 0.41 BF10 = 4.242 Substantieel bewijs voor H1

Sociale acceptatie p < 0.05 ES = -0.28 BF10 = 1.184 Anekdotisch bewijs voor H1

Aanpassing gedrag Niet significant ES = -0.04

Eigenwaarde p < 0.05 ES = -0.30 BF10 = 1.184 Anekdotisch bewijs voor H1

(23)

22

Tabel 7. p-waarden, t-waarden en Bayes Factors, NP

Variabele p-waarde t-waarde Bayes Factor Interpretatie

Verschil in delinquent gedrag na 3 maanden p = .564 -.579 BF01 = 3.901 Substantieel bewijs voor H0

Verschil in delinquent gedrag na 6 maanden p = .078 -1.780 BF01 = 1.152 Anekdotisch bewijs voor H0

(24)

23

(25)

24

Conclusie

In dit onderzoek is onderzocht of het gebruik van de Bayes Factor nieuwe informatie kan geven over effectiviteit van interventies. Dit is gedaan door middel van heranalyses van in Nederland uitgevoerd effectonderzoek naar in Nederland gebruikte justitiële jeugd

interventies.

In alle gevallen waarbij er een niet significante p-waarde werd gerapporteerd gaf de Bayes Factor aan dat er anekdotisch of substantieel bewijs was voor de nulhypothese. De Bayes Factor en de p-waarden leiden in al deze gevallen tot het niet aannemen van de alternatieve hypothese. De p-waarde gaf in deze gevallen enkel aan dat de data de

nulhypothese ondersteunen en er niet voldoende reden is om de alternatieve hypothese aan te nemen. De Bayes Factor gaf informatie over of dit anekdotisch of substantieel bewijs was. Dit komt overeen met eerder onderzoek (Wetzels et al., 2011; Monden et al., 2016) dat heeft uitgewezen dat het oordeel van de Bayes Factor en de p-waarde vaak vergelijkbaar zijn, maar dat de Bayes Factor een meer genuanceerder beeld schept over het bewijs voor effectiviteit.

In alle gevallen waarbij er bij het eerder uitgevoerde effectonderzoek resultaten een significantieniveau van p < 0.001 rapporteerde gaf de Bayes Factor aan dat er beslissend bewijs was voor de alternatieve hypothese. Wanneer eerder onderzoek een significantieniveau van p < 0.01 rapporteerde gaf de Bayes Factor in één geval aan dat er sprake was van

beslissend bewijs voor de alternatieve hypothese. In alle andere gevallen was er volgens de Bayes Factor sprake van substantieel bewijs voor de alternatieve hypothese. De Bayes Factor gaf in deze gevallen dus weinig extra informatie in vergelijking met de p-waarde. Echter kan de Bayes Factor in deze situaties een duidelijke bevestiging en ondersteuning bieden voor het aannemen van de alternatieve hypothese omdat deze aan kan geven hoe sterk het bewijs is voor effect van de desbetreffende interventies op deze variabelen.

Er zijn echter ook een aantal resultaten die niet overeenkwamen met de verwachting dat de p-waarde en de Bayes Factor leiden tot dezelfde conclusie. Het ging om de resultaten van Multisysteem Therapie voor externaliserend gedrag, post-test gerapporteerd door de ouders en door de jongere zelf en zelfgerapporteerde vermogensdelicten post-test. Voor externaliserend gedrag, post-test gerapporteerd door de ouders gaf de Bayes Factor niet voldoende bewijs voor zowel de nulhypothese als de alternatieve hypothese, terwijl Asscher et al. (2014) hier een significant effect vonden op basis van nulhypothese toetsing. Dit komt overeen met de stelling van Gelman (2010) dat de Bayes Factor conservatiever is in

(26)

25 conclusies over effectiviteit. Voor zelfgerapporteerde vermogensdelicten en externaliserend gedrag post-test gaf de Bayes Factor aan dat er anekdotisch bewijs is voor het model van geen effect van Multisysteem Therapie. Op basis van de p-waarde kan er gesteld worden dat de kans op de data onder de nulhypothese zeer klein is, de Bayes Factor laat daar zien dat de kans op de data onder de alternatieve hypothese echter nog kleiner was. Het lijkt er op dat er in dit geval sprake is van Lindley's paradox (Sprenger, 2013). Deze paradox houdt in dat de p-waarde en de Bayes Factor tegenstrijdige conclusies lijken te trekken. In het geval Lindley's Paradox wordt dit verschil veroorzaakt door de keuze voor een bepaalde prior bij het

berekenen van de Bayes Factor (Sprenger, 2013). In dit onderzoek is er gebruik gemaakt van de standaard prior gegeven door JASP. Een nieuwe analyse met een andere prior gebaseerd op eerder onderzoek zou dus andere resultaten op kunnen leveren.

Uit de resultaten kwam naar voren dat de Bayes Factor in sommige gevallen meer informatie geeft dan de p-waarde. Er waren echter ook situaties waarin de Bayes Factor slechts een ondersteuning is voor de informatie die de p-waarde al geeft. Ook lieten sommige resultaten zien dat het belangrijk is om rekening te houden met priors. Zoals eerder genoemd is er in dit onderzoek gebruik gemaakt van de standaard priors gegeven door JASP. Dit betekent dat vervolgonderzoek gebruik zou kunnen maken van resultaten die worden

gerapporteerd in eerdere effectstudies voor het formuleren van priors. Dit kan ervoor zorgen dat de Bayes Factor een sterkere bewijskracht krijgt omdat deze gebaseerd is op meer bekende factoren (Sprenger, 2013).

Echter, bij nulhypothese toetsing is het nadenken over priors overbodig. De vraag is: Is het de moeite waard om na te denken over priors wanneer de resultaten uit dit onderzoek laten zien dat de Bayes Factor niet altijd extra informatie geeft? Het gebruiken van priors in Bayesiaanse statistiek zorgt er voor dat hypothesen specifieker kunnen worden geformuleerd en er door middel van analyses dichter bij de waarheid gekomen kan worden (Rouder, Morey, Verhagen, Province & Wagenmakers, 2016; Stefan & Schönbrodt, 17 januari 2017). Op basis van dit onderzoek is het moeilijk te concluderen of het gebruik van priors zorgt voor andere conclusies. Echter, op basis van de literatuur is de verwachting dat bij vervolgonderzoek waar priors op basis van eerder onderzoek mee worden genomen dit kan leiden tot nieuwe kennis over effectiviteit van interventies.

Verder kan vervolgonderzoek zich richten op een breder scala aan interventies, om zo een beter beeld te krijgen van de effectiviteit van interventies. Een andere mogelijkheid is

(27)

26 specifiek kijken naar effectstudies van één interventie. Op basis daarvan kan het bewijs voor de effectiviteit van deze interventie ondersteund worden. Er zou bijvoorbeeld gekeken kunnen worden naar Multisysteem Therapie, omdat uit dit onderzoek blijkt dat juist bij deze veel gebruikte interventie de Bayes Factor en p-waarde in tegengestelde richting wijzen en dus de effectiviteit niet eenduidig aangetoond kan worden. Het uitvoeren van een meta-analyse op basis van Bayes Factors zou meer inzicht in kunnen bieden.

Ook wanneer er sprake is van niet significante resultaten kan een heranalyse met behulp van de Bayes Factor duidelijk maken of er daadwerkelijk bewijs in de data te vinden is voor de nulhypothese, of dat de data hier geen duidelijkheid over kan bieden. Wanneer hieruit komt dat de gevonden data bewijs levert voor de nulhypothese, het model van geen effect, wordt duidelijk in welke situaties, en op welke variabelen (afhankelijk van het uitgevoerde onderzoek) de interventie geen effect heeft. Op die manier kunnen interventies effectiever en specifieker worden ingezet. In onderzoek naar de effectiviteit van een bepaalde interventie tegenover reguliere behandeling is een Bayes Factor die de nulhypothese ondersteunt ook een ondersteuning voor deze reguliere behandeling. Ook kan de Bayes Factor gebruikt worden in situaties waarbij wetenschappers aan willen tonen dat twee interventies gelijk aan elkaar zijn als het gaat om effectiviteit. Nulhypothese significantietoetsing kan hier geen ondersteuning bieden voor de nulhypothese, de Bayes Factor kan dit wel.

In dit onderzoek zijn verscheidene interventies meegenomen met verschillende classificaties door de Erkenningscommissie Justitiële Interventies. Om een bepaalde

classificatie te verkrijgen is onderzoek met een bepaald niveau van bewijskracht nodig. Door onderzoeken met deze verschillende niveaus van bewijskracht mee te nemen, is de

toegevoegde waarde van de Bayes Factor in een breed spectrum getoetst. Omdat er van het effectonderzoek naar de interventie Tools4U geen data beschikbaar waren en de Bayes Factoren zijn berekend op basis van de gerapporteerde p-waarde zijn de resultaten bij deze interventie beperkt.

De extra informatie die de Bayes Factor geeft en de intuïtieve manier van interpreteren zorgt ervoor dat de Bayes Factor een toegevoegde waarde kan zijn in effectonderzoek. Zoals de resultaten uit dit onderzoek laten zien geeft de Bayes Factor in veel gevallen aanvullende informatie over hoe sterk het bewijs voor een bepaalde hypothese is. Ook andere voordelen van de Bayes Factor kwamen in de resultaten van dit onderzoek naar voren. Zo geeft de Bayes Factor meer nuance. In de gevallen waar een significante p-waarde van p = 0.05 werd

(28)

27 gerapporteerd en er vanuit wordt gegaan van een effect van de interventies geeft de Bayes Factor verschillende sterktes van bewijs. In sommige gevallen is er spraken van anekdotisch bewijs voor het model waarin de interventie effect heeft. Dit betekent dat het bewijs voor de effectiviteit op basis van de gevonden data wellicht minder sterk is dan dat er op basis van een significante p-waarde geconcludeerd wordt.

Daarnaast kan de Bayes Factor een belangrijke factor zijn in het tegen gaan van de

publication bias (Trafimow & Marks, 2015; Aan den Brugh, 9 april 2016). De Bayes Factor

doet immers ook uitspraak over bewijs voor de nulhypothesen. Door het gebruik van de Bayes Factor wordt er ook kennis vergaard over situaties waar er bewijs is voor de nulhypothese of situaties waar er geen van de hypothesen uitgesloten kan worden. Hierdoor worden resultaten die door klassieke nulhypothese significantietoetsing enkel als 'niet significant' werden bestempeld uitgebreid en informatief. Daardoor worden deze resultaten relevant voor publicatie. De resultaten uit dit onderzoek lieten zien dat, door het gebruiken van de Bayes Factor, de situaties waarbij er spraken was van een niet significant effect, er in de data bewijs was voor het model waarin de interventies inderdaad geen effect hadden. Door gebruik te maken van de Bayes Factor worden deze resultaten op zichzelf interessant. Door meer publicaties over situaties van geen effect ontstaat er een breder algemeen beeld van de wetenschappelijke kennis op dit gebied. Op deze manier is er voor de praktijk waarin de interventies worden uitgevoerd ook meer duidelijkheid over de effectiviteit en de kennis die er is over de interventie. Ook zijn de resultaten en conclusies op een meer intuïtieve manier te interpreteren (Wagenmakers, 2015; Brand et al., 2017), op die manier is het ook makkelijker voor mensen met minder ervaring in de statistiek de resultaten te begrijpen en te vertalen naar de praktijk.

Zoals eerder beschreven kan de Bayes Factor er voor zorgen dat er meer kennis is over effectiviteit van interventies, waardoor deze gerichter ingezet kan worden. Uit de resultaten kwam bijvoorbeeld naar voren dat er in de data beslissend bewijs waar voor het effect van de interventie Agressieregulatie op Maat op het risico op recidive. Ook voor het effect van Multisysteem Therapie op verschillende vormen van probleemgedrag gerapporteerd door de ouders gaf de Bayes Factor aan dat er beslissend bewijs was op basis van de data. Op basis van deze resultaten kan er voor gekozen worden om deze interventies heel specifiek voor deze doelen in te zetten. Wanneer interventies, in bijvoorbeeld de jeugdzorg, gerichter ingezet kunnen worden zorgt dit ervoor dat de jeugdzorg in zijn algemeenheid effectiever wordt.

(29)

28 De Bayes Factor lijkt dus inderdaad meer informatie te geven dan de p-waarde. Maar Bayesiaanse statistiek is nog redelijk onbekend en er komt veel bij kijken, zoals het nadenken over priors. Ook is er op dit moment weinig statistische software beschikbaar die het

makkelijk maakt om Bayesiaanse statistiek uit te voeren. Het zou dus niet mogelijk zijn om te zeggen dat Bayesiaanse Statistiek per direct de klassieke nulhypothese toetsing zou moeten vervangen. Wel kan er gezegd worden dat het de moeite waard is om Bayes Factors mee te nemen in effectonderzoek, als bijvoorbeeld een ondersteuning voor de p-waarde en het helpen in het onderbouwen van conclusies over bewijs voor effectiviteit. De Bayes Factor is ook op zichzelf een toevoeging aan de statistiek, en verdient daarom meer aandacht. Omdat het de nulhypothese en de alternatieve hypothese met elkaar vergelijkt en dus ook laat zien dat het ontbreken van bewijs voor een nulhypothese niet automatisch zou moeten leiden tot het aannemen van de alternatieve hypothese.

(30)

29

Referenties

Annis, C. (8 juni 2014). Bayesian Updating [Blog post] vergregen van: http://www.statistical engineering.com/bayesian.htm

Asscher, J. J., Deković, M., Manders, W. A., Laan, P. H. van der, & Prins, P. J. M. (2012). A randomized controlled trial of the effectiveness of multisystemic therapy in the Netherlands: post-treatment changes and moderator effects. Journal of Experimental

Criminology, 9(2), 169-187.

Asscher, J. J., Deković, M., Manders, W., Laan, P. H. van der, Prins, P. J. M., Arum, S. van, & Dutch MST Cost-Effectiveness Study Group. (2014). Sustainability of the effects of multisystemic therapy for juvenile delinquents in The Netherlands: effects on

delinquency and recidivism. Journal of Experimental Criminology, 10(2), 227-243. [Beschrijving oordeel Erkenningscommissie Tools4U] (z.j) Verkregen van

www.nji.nl/jeugdinterventies

Brugh, M. aan de, (9 april 2016) Ons zicht op de werkelijkheid wordt verstoord. NRC. Geraadpleegd van https://www.nrc.nl/nieuws/2016/04/09/ons-zicht-op-de-werkelijkheid-wordt-verstoord-1605726-a32724

Brand. C. O., Ounsley, J., Post, D. van der, & Morgan, T. (2017) The use of informative

priors and Bayesian updating: implications for behavioural research. Verkregen van

osf.io/preprints/socarxiv/67jh7

Cuijpers, P., & Cristea, I. A., (2016). How to prove that your therapy is effective, even when it is not: a guideline. Epidemiology and Psychiatric Sciences, 25, 428-453.

Dale, D. van, Zwikker, M., Dunnink, T., Bisseling, R., & Rensen, P. (2013).

Erkenningstraject interventies: criteria voor gezamenlijke kwaliteitsbeoordeling 2013-2018. MOVISIE, NCJ, NISB, NJi, RIVM.

(31)

30 Dienes, Z., & McLatchie, N. (In Press) Four reasons to prefer Bayesian over orthodox

statistical analyses. Psychonomic Bulletin and Review.

Eisner, M. (2009). No effects in independent prevention trials: can we reject the cynical view?. Journal of experimental Criminology, 5(2), 163-183.

Franco, A., Malhotra, N., & Simonovits, G. (2014). Publication bias in the social sciences: Unlocking the file drawer. Science, 345(6203), 1502-1505.

Gelman, A. (2010). Bayesian statistics then and now. Statistical Science, 25(2), 162-165. Goldacre, B. (23 april 2011). Backwards step on looking into the future. The Guardian.

Verkregen van https://www.theguardian.com/commentisfree/2011/apr/23/ben-goldacre-bad-science

Guan, M., & Vandekerckhove, J. (2015). A Bayesian approach to mitigation of publication bias. Psychonomic bulletin & review, 23(1), 74-86.

Hoogsteder, L.M. (2015). Databank effectieve jeugdinterventies: beschrijving

'Agressieregulatie op maat (residentieel).Utrecht: Nederlands Jeugdinstituut.

Verkregen van www.nji.nl/jeugdinterventies

Hoogsteder, L.M., Stams, G.J.J.M., Schippers, E.E., & Bonnes, D. (aangeboden voor

publicatie) Responsive Aggression Regulation Therapy (Re-ART): An evaluation study

in a Dutch juvenile justice institution in terms of recidivism.

Kass, R.E., & Raftery, A.E. (1995) Bayes Factors. Journal of the American Statistical

Association, 90, 377-395.

Konijn, E.A., Schoot, R. van de, Winter, S.J., & Ferguson, C.J. (2015) Possible Solution to Publication Bias Through Bayesian Statistics, Including Proper Null Hypothesis Testing, Communication Methods and Measures, 9(4), 280-302.

(32)

31 Monden, R., Vos, S., Morey, R., Wagenmakers, E. J., Jonge, P., & Roest, A. M. (2016).

Toward evidence‐based medical statistics: a Bayesian analysis of double‐blind placebo‐controlled antidepressant trials in the treatment of anxiety

disorders. International journal of methods in psychiatric research, 25(4), 299-308. Morey, R. (30 januari 2015) On verbal categories for the interpretation of Bayes factors.

[Blog post] verkregen van http://bayesfactor.blogspot.nl/2015/01/on-verbal-categories-for-interpretation.html

Munafò, M. R., Nosek, B. A., Bishop, D. V., Button, K. S., Chambers, C. D., du Sert, N. P., ... & Ioannidis, J. P. (2017). A manifesto for reproducible science. Nature Human

Behaviour, 1, 0021.

MST-Nederland (Juni 2015). Databank effectieve jeugdinterventies: beschrijving

'Multisysteem Therapie (MST). Utrecht: Nederlands Jeugdinstituut. Verkregen van

www.nji.nl/jeugdinterventies

Nuzzo, R. (2015). How scientists fool themselves-and how they can stop. Nature, 526(7572), 182.

Petrosino, A., & Soydan, H. (2005). The impact of program developers as evaluators on criminal recidivism: Results from meta-analyses of experimental and quasi-experimental research. Journal of quasi-experimental criminology, 1(4), 435-450. Sprenger, J. (2013). Testing a precise null hypothesis: The case of Lindley’s

paradox. Philosophy of Science, 80(5), 733-744.

Rouder, J. N., Morey, R. D., Verhagen, J., Province, J. M., & Wagenmakers, E. J. (2016). Is there a free lunch in inference? Topics in Cognitive Science, 8, 520–547.

(33)

32 Stefan, A., & Schönbrodt, F. (10 januari 2017). Two meanings of priors, part I: The

plausibility of models [Blog post] verkregen van http://www.nicebread.de/index.php

?post=two-meanings-of-priors-1

Stefan, A., & Schönbrodt, F. (17 januari 2017). Two meanings of priors, part II: Quantifying

uncertainty about model parameters [Blog post] verkregen van http://www.nicebread.

de/index.php?post=two-meanings-of-priors-2

Stouwe, T. van der, Asscher, J. J., Hoeve, M., Laan, P. H. van der, & Stams, G. J. J. (2016). Social skills training for juvenile delinquents: post-treatment changes. Journal of

Experimental Criminology, 12(4), 515-536.

Trafimow, D., & Marks, M. (2015) Editorial. Basic and Applied Social Psychology, 37(1), 1-2.

Valentine, J.C., Biglan, A., Boruch, R.F., González Castro, F., Collins, L.M., Flay, B.R., … & Schinke, S.P. (2011). Replication in Prevention Science. Prevention Science, 12, 103-117.

Vries, L. A., de, Hoeve, M., Wibbelink, C. J. M., Asscher, J. J., & Stams, G. J. J. M. (In revision) A randomized Controlled Trial of the Effectiveness of the Youth Crime

Prevention Programe 'New Persectives' (NP): Post-treatment Changes and Moderator Effects.

Wagenmakers, E.J. (2015). Statistiek van het gezonde verstand. Skepter, 28, 23-25. Wasserstein, R.L., & A. Lazar, N.A. (2016) The ASA's Statement on p-Values: Context,

Process, and Purpose, The American Statistician, 70(2), 129-133.

Wetzels, R., Matzke, D., Lee, M.D., Rouder, J.N., Iverson, G.J., & Wagenmakers, E.J. (2011). Statistical Evidence in Experimental Psychology: An Empirical Comparison Using 855 t Tests. Perspectives on Psychological Science. 6(3), 291-298.

(34)

33 Wetzels, R., & Wagenmakers, E.J. (2012). A default Bayesian hypothesis test for correlations

and partial correlations. Psychonomic bulletin & review, 19(6), 1057-1064.

Winter, L. de, Verhagen, A.M., & Goossens, F. (2016). Dubbelrollen in effectonderzoek. De

Psycholoog: Maandblad van het Nederlands Instituut van Psychologen, 6, 40-53.

Zwikker, M., Dale, D. van, Dunnink, T., Willemse, G., Rooije, S. van, Heeringa, N., & Rensen, P. (2015). Erkenning van interventies: Criteria voor gezamenlijke

kwaliteitsbeoordeling 2015-2018. RIVM, NJi, NISB, Trimbos instituut, Vilans,