Methodologische aspecten - Wat werkt in Nederland en wat niet?

In meta-analyses wordt doorgaans rekening gehouden met de wijze waarop de uitkomsten van de effectstudies zijn vergaard. Hoewel de effect sizes van de geselecteerde studies geheel los van de gehanteerde onderzoeksmethode worden vastgesteld, is het niet ondenkbaar dat verschillen in de methode gepaard gaan met verschillen in de hoogte van de gemeten effect sizes.

De methode van onderzoek is met andere woorden een belangrijke modera-tor. Weisburd et al. (2001) stelden vast dat minder goed opgezette effectstu-dies grotere effecten vertoonden. Om te kunnen controleren of zich ook in het Nederlandse materiaal dergelijke verbanden voordoen, zullen de effect-studies in de onderhavige meta-analyse op een aantal methodologische aspecten met elkaar worden vergeleken. Vier aspecten zijn daarbij van pri-mair belang:12

1 de interne validiteit van het onderzoeksdesign;

2 de vergelijkbaarheid van de experimentele en de controlegroep;

3 de gebruikte uitkomstmaat;

4 de wijze waarop wordt omgegaan met uitval.

Ad 1) De interne validiteit staat voor de zekerheid waarmee een causale rela-tie kan worden gelegd tussen de strafrechtelijke intervenrela-tie en het niveau van de recidive. Studies met een hoge interne validiteit sluiten storende variabe-len uit zodat het waarschijnlijker is dat de strafrechtelijke interventie de oor-zaak is van het gemeten verschil op de uitkomstmaat (Cook & Campbell, 1979). In dit onderzoek wordt de interne validiteit van de effectstudies vast-gesteld aan de hand van de welbekende Maryland Scientific Methods Scale (SMS) van Farrington et al. (2002). Hoe hoger de score is op deze schaal, des te groter is de interne validiteit. In bijlage 5 wordt de SMS meer uitgebreid toegelicht. Hier geven we kort aan welke scores de schaal kent.

Niveau 1 van de SMS is normaal gesproken gereserveerd voor studies zonder nulmeting. In studies van niveau 1 vindt alleen een meting plaats nadat de interventie is uitgevoerd. Wanneer een nulmeting ontbreekt, is het niet mogelijk om het beginniveau van de personen in het onderzoek vast te stel-len. Maar bij onderzoek naar de prevalentie van recidive is dat in feite ook niet nodig. We weten immers al dat alle personen crimineel gedrag vertoon-den. Hun ‘uitgangsdelict’ vormde de aanleiding voor de interventie. Score 1 op de SMS komt in het geval van onderzoek naar de prevalentie van recidive dus niet voor (Wartna, 2009). Niveau 2 is het laagst mogelijke niveau. Deze score hoort bij studies zonder controlegroep. Een controlegroep zorgt voor vergelijkingsmateriaal, een referentiepunt voor het meetresultaat in de expe-rimentele groep. Zonder een meting onder personen die de interventie niet hebben ondergaan, kan niet worden vastgesteld hoe hoog de recidive in de experimentele groep zou zijn geweest als zij de interventie niet zouden heb-ben gekregen.

Vanaf niveau 3 van de SMS is er sprake van een controlegroep. In die studies vindt dus een vergelijking plaats tussen een groep personen met en een groep personen zonder de interventie. Niveau 4 hoort bij onderzoek waarbij gebruik wordt gemaakt van matching of statistische controle om de

12 De omvang van de studie is doorgaans ook indicatief voor de kwaliteit van het onderzoek, want bij lage onderzoeksaantallen is het lastiger om significante verschillen te meten. Door het gebruik van de odds ratio speelt dit probleem bij meta-analyses minder. De effecten van de interventies worden gemeten los van de onderzoeksaantallen. Zie verder paragraaf 2.5.1.

vergelijkbaarheid tussen de personen in de experimentele en de controle-groep te garanderen. Niveau 5 ten slotte, is het niveau van de RCT’s (random-ized controlled trials), de studies waarbij de toewijzing van de personen aan de experimentele groep of de controlegroep willekeurig verloopt. Dit zijn de ‘ware’ experimenten met de hoogst denkbare interne validiteit.

Ad 2) De SMS-score geeft aan of en op welke wijze een controlegroep is gefor-meerd. Bij studies op niveau 3 wordt er een normgroep aangewezen die als referentie dient voor het meetresultaat in de experimentele groep. Bij mat-ching of statistische controle (niveau 4) zorgt de onderzoeker ervoor dat de personen uit de controlegroep op een aantal kenmerken vergelijkbaar zijn met de personen in de experimentele groep. Op niveau 5 komen de onder-zoeksgroepen door randomisering tot stand. Randomisering geeft de best mogelijk garantie dat de experimentele en de controlegroep vergelijkbaar zijn. Een volledige garantie is zelfs op dit niveau echter niet te geven (Rice & Harris, 2003).

De SMS is een grove schaal. Ook als de studies zich op hetzelfde niveau bevinden, doen zich onderling kwaliteitsverschillen voor. De vraag is ook of een hogere score altijd wijst op een beter onderzoeksdesign. Als er gebrekkig wordt gematcht, is men niet per se beter af dan als men een goed gelijkende normgroep kiest. Een goede studie op niveau 3 kan beter zijn dan een ‘slechte 4’. Het probleem van de SMS is dat zij studies rangschikt op grond van de wijze waarop de vergelijking met de controlegroep wordt gemaakt. Het is echter ook van belang om vast te stellen waarméé de experimentele groep wordt vergeleken.

Vanwege deze tekortkoming is in dit onderzoek in aanvulling op de SMS-score een eigen schaal gebruikt, de comparability-schaal. Met deze schaal kan post hoc de vergelijkbaarheid tussen de onderzochte groepen worden gemeten. Bijlage 5 bespreekt de constructie van de schaal. De score (‘hoog’, ‘midden’ of ‘laag’) wordt bepaald door op vier dimensies de gelijkenis tussen personen in de experimentele en de controlegroep in te schatten: sanctieca-tegorie, statische kenmerken, dynamische kenmerken en motivationele fac-toren. Op basis van wat hierover via het codeerschema is vastgelegd, wordt per studie door twee codeurs, onafhankelijk van elkaar, een score op de com-parability-schaal bepaald. De score vormt een aanvulling op de SMS-score. De SMS rangschikt zoals gezegd de methoden waarmee de controlegroepen worden geformeerd, de comparability-schaal richt zich los van het design en de methode van onderzoek op het eindresultaat. Net als de SMS-score wordt de comparability score in deze meta-analyse opgevat als een moderator. Nagegaan zal worden of en hoe de mate van vergelijkbaarheid van de onder-zochte groepen samenhangt met de hoogte van de gemeten effect sizes. Ad 3) Het volgende methodologische aspect waarop de effectstudies zijn ingedeeld is de ‘fit’ van de gebruikte uitkomstmaat. Recidive kan worden

vastgesteld op basis van verschillende bronnen: via zelfrapportage door de daders zelf, via informanten of via registraties van instanties zoals politie en justitie. De ene bron is niet per se beter dan de andere, maar om de recidive betrouwbaar te kunnen meten is het wel belangrijk dat de gekozen bron past bij de vorm van recidive die in kaart gebracht wordt (Van der Laan & Blom, 2011). Zelfrapportage is bij uitstek geschikt bij vragen over relatief lichte vor-men van criminaliteit. Bij zware criminaliteit kan vor-men beter vertrouwen op officiële bronnen zoals het HKS van de politie of het JDS van de justitiële informatiedienst.

Ook de observatietermijn en de operationele definitie van het recidivebegrip zijn van belang (Wartna, 2009). De observatietermijn is de periode waarover wordt nagegaan of er sprake is van recidive. Is die periode te kort, dan mist men mogelijk gegevens omdat nog niet alle delicten in de registraties zijn verwerkt. Bij een lange observatietermijn daarentegen, kan men zich afvra-gen of de gemeten recidive nog mag worden toegeschreven aan de interven-tie die de personen in het onderzoek hebben ondergaan. Er is niet één goede lengte van de periode van observatie, de juiste lengte hangt af van de omstandigheden.

Dit laatste geldt ook voor de operationele definitie van het recidivebegrip. Bij een project voor seksuele delinquenten is de behandeling doorgaans gericht op het voorkomen van nieuwe zedendelicten. Een programma voor dronken automobilisten richt zich niet op reductie van zedencriminaliteit, men wil bewerkstelligen dat de deelnemers niet opnieuw met drank op achter het stuur gaan zitten. De aard en het doel van de interventie bepalen welke bij-zondere vorm van recidiveonderzoek men doet. Bij veel interventies is het geen probleem om de ‘algemene’ recidive te meten, maar bij sommige inter-venties moet de definitie van de uitkomstmaat worden beperkt tot een deel-verzameling van alle delicten.

In bijlage 5 is te vinden hoe de fit van de gebruikte uitkomstmaat is vastge-steld. Wanneer de bron, de definitie en de observatietermijn zijn afgestemd op de interventie, haar deelnemers en haar doel, is er sprake van een goede fit en krijgt de studie op dit aspect een hoge score. Is op één of meer van deze punten een minder gelukkige keuze gemaakt, dan krijgt de studie aftrekpun-ten op deze schaal.

Ad 4) Ten slotte de behandeling van de afvallers. Wanneer deelnemers voor-tijdig stoppen met de interventie die wordt onderzocht, kan het zijn dat zij niet worden meegenomen bij de berekening van de recidive. Als er sprake is van selectieve uitval (Rossi et al., 2004) ontstaat door het weglaten van de afvallers een vertekend beeld van de uitkomsten van de interventie. Juist de deelnemers die de meeste problemen hebben en dus al de grootste kans had-den om te recidiveren, zijn de meest waarschijnlijke afvallers. Daar komt bij dat de uitval uit de controlegroep vaak afwijkt van de uitval uit de experimen-tele groep. Zo kan het zijn dat de controls geen interventie ondergaan of een

interventie krijgen waarbij uitval veel minder waarschijnlijk is, denk bijvoor-beeld aan een gevangenisstraf. Vanwege dit soort selectie-effecten is een ver-gelijking van de recidive mogelijk niet meer op zijn plaats. In de meta-analyse wordt daarom meegenomen of een studie de afvallers bij het meten van de recidive heeft betrokken of niet.

2.5 Opzet van de statistische analyses

Net als de andere kenmerken die zijn meegenomen in de meta-analyse wor-den de methodologische aspecten van de studies dubbel en onafhankelijk gescoord (zie box 2.2). Zij fungeren in dit document zogezegd als moderato-ren, factoren die van invloed zouden kunnen zijn op de gemeten effect sizes. Ze worden niet gebruikt om te bepalen welke studies wel of niet voor de review worden geselecteerd. Hierop is echter één uitzondering. Zoals eerder aangegeven zullen in de meta-analyse alleen studies worden betrokken die gebruikmaken van een vergelijkingsgroep. Dit betekent dat evaluaties met een SMS-score van 2 niet worden meegenomen. Bij evaluatieonderzoek zon-der vergelijkingsgroep kan immers geen effect worden berekend.

Verder is ervoor gekozen in dit stadium alleen studies toe te laten waarin de prevalentie van recidive als uitkomstmaat dient. Uit studies waarin voor één interventie meer dan één vergelijking voorhanden is tussen een experimen-tele en een controlegroep, werd steeds slechts één vergelijking geselecteerd. Dit om te garanderen dat de bevindingen waarop de meta-analyse zich baseert onderling onafhankelijk zijn. De keuze valt in een dergelijk geval op de vergelijking die het beste bij de onderzochte interventie past. Een aantal criteria speelt daarbij een rol: de SMS-score, de comparability-score, de gehanteerde uitkomstmaat en ook het aantal onderzoekpersonen in de expe-rimentele en de controlegroep. Zie bijlage 5 voor een verdere toelichting op dit punt.

In document Wat werkt in Nederland en wat niet? (pagina 39-43)