Ervaring vereist? : de relatie tussen de beoordelaarservaring en de accuratesse van de risicotaxatie in de ambulante forensische geestelijke gezondheidszorg

(1)

.

Ervaring vereist?

De relatie tussen de beoordelaarservaring en de accuratesse van de risicotaxatie

in de ambulante forensische geestelijke gezondheidszorg

Annemiek Vial (6045650) Augustus 2016

Begeleiders:

Lieke Nentjes, Universiteit van Amsterdam Mara Eisenberg, De Forensische Zorgspecialisten

(2)

Samenvatting 3

Inleiding 4

Methode 9

Steekproef 9

Materiaal 10

Operationalisatie van de variabele ervaring 11

Operationalisatie van de variabele recidiverisico 12

Recidive 12

Accuratesse 12

Procedure 12

Statistische analyses 13

Resultaten 15

Overeenstemming tussen de risicogroepen en recidive 15

De invloed van ervaring met het risicotaxatie-instrument 16

De invloed van werkervaring in de geestelijke gezondheidszorg 19

Discussie 21 Beperkingen 23 Vervolgonderzoek 25 Conclusie 26 Referenties 26 Bijlage 1 30

(3)

Samenvatting

In de forensische geestelijke gezondheidszorg wordt bij de start van de behandeling een inschatting van het recidiverisico gemaakt, omdat de behandeling effectiever is wanneer deze daarop wordt afgestemd (Andrews & Bonta, 2006). Vaak wordt dit gedaan met een gestructureerd klinisch oordeel, ondanks dat er nog geen ecologisch valide studies gedaan zijn naar de invloed van de beoordelaarservaring op de juistheid van de risicotaxatie. Daarom werd in deze prospectieve studie over 3538 risicotaxaties uit de praktijk gekeken naar de invloed van ervaring op de accuratesse van de recidivevoorspelling. Het Risicotaxatie-instrument voor de Ambulante Forensische Geestelijke Gezondheidzorg (RAF GGZ, Van Horn, Wilpert, Scholing & Mulder, 2008) werd door 161 behandelaren gebruikt om een risicoschatting te doen. Jaren ervaring met het risicotaxatie-instrument (M = 2.5; SD = 1.4; Range 6.3) en jaren werkervaring in de (forensische) ggz (M = 10.0; SD = 7.7; Range 0-37.0) werden onderzocht. Een nieuwe veroordeling in de follow-up jaren (M = 4.1; SD = 1.12; Range 1.17-6.07) werd beschouwd als recidive. Met Cox regressie-analyses, geclusterd naar beoordelaar, werd getoetst of er een interactie-effect tussen het recidiverisico en de ervaringsvariabelen was bij het voorspellen van recidive. Geen van de interacties bleek significant. De accuratesse van de risicotaxatie werd niet beïnvloed door de beoordelaarservaring met het risicotaxatie-instrument of werkervaring in de (forensische) ggz. Huidig onderzoek ondersteunt dat risicotaxaties in de praktijk gedaan kunnen worden door beoordelaars van alle ervaringsniveaus.

(4)

Inleiding

Het doel van behandeling in de forensische geestelijke gezondheidzorg (ggz) is om de kans op recidive te verkleinen, het Risk-Need-Responsivity model (RNR-model, Andrews & Bonta, 2006) is hierin leidend. Dit model geeft aan de hand van drie principes richtlijnen om de forensische behandeling zo effectief mogelijk te maken. Het eerste principe is het risicoprincipe, wat stelt dat de behandelintensiteit aangepast moet worden aan het recidiverisico. Hoe hoger het risico, des te intensiever de behandeling. Het tweede principe stelt dat de behandeling zich moet richten op de criminogene behoeften van de cliënt, dit zijn de dynamische voorspellende risicofactoren voor crimineel gedrag, zoals een antisociaal persoonlijkheidspatroon of middelengebruik. Het derde principe is het responsiviteitsprincipe, de behandeling moet aansluiten bij de mogelijkheden van de cliënt, bijvoorbeeld intelligentieniveau is daarbij van belang. Onderzoek laat zien dat wanneer op het RNR-model wordt afgestemd de forensische behandeling effectiever is (Andrews & Bonta, 2006; Lowenkamp, Latessa, & Holsinger, 2006).

Om het risicoprincipe te kunnen toepassen is het van belang om het recidiverisico van de cliënt accuraat in te schatten. Dit wordt gedaan met twee soorten veelgebruikte risicotaxatie-instrumenten; actuarieel en klinisch gestructureerd. Een actuarieel instrument baseert het recidiverisico op een optelsom van de scores op risicofactoren, alle risicofactoren wegen hierbij even zwaar. Het gaat hierbij meestal om statische risicofactoren, deze factoren zijn onveranderbaar en over het algemeen objectief te scoren, voorbeelden hiervan zijn eerdere veroordelingen en de leeftijd dat de cliënt voor het eerst met justitie in aanraking kwam. Bij de afname van een klinisch gestructureerd instrument worden eerst alle risicofactoren gescoord en het recidiverisico wordt daarna geschat op basis van het klinisch oordeel van de beoordelaar. Doordat er een klinisch oordeel wordt gegeven spelen mogelijk de eigenschappen van de beoordelaar een grotere rol (assessor bias). Daar zou tegenover kunnen staan dat een klinisch gestructureerd oordeel meerdere voordelen heeft, deze zouden kunnen opwegen tegen de mogelijke nadelen. Het eerste voordeel is dat één of meerdere risicofactoren zwaarder in het recidiverisico meegewogen kunnen worden (Guy, Packer, & Warnken, 2012). Dit kan in specifieke gevallen nodig zijn, bijvoorbeeld als een delict tijdens een psychose is gepleegd en de cliënt antipsychotica weigert, dan weegt dat zwaarder mee bij de risicoschatting dan het feit dat hij in een achterstandsbuurt woont (van Horn, Wilpert,

(5)

Bos, & Mulder, 2008). Een ander voordeel van een klinisch gestructureerd oordeel is dat het zowel statische risicofactoren als dynamische risicofactoren bevat, deze laatste factoren zijn veranderbaar, zoals een antisociale vriendenkring of middelenmisbruik. Aan deze risicofactoren kan tijdens de behandeling gewerkt worden, waardoor het verloop van het recidiverisico gemeten kan worden. Een klinisch gestructureerd oordeel geeft zo ook een indicatie voor welke factoren interventies gewenst zijn, oftewel de criminogene behoeften. Bij de meeste actuariële risicotaxatie-instrumenten ontbreken deze factoren, terwijl deze in de praktijk en voor het RNR model een belangrijk voordeel zijn.

Behalve dat een klinisch gestructureerd oordeel in theorie en de praktijk voordelen heeft blijkt uit verschillende studies dat de dynamische factoren en het klinisch oordeel incrementele validiteit hebben wanneer deze worden toegevoegd aan de statische factoren. Dit impliceert dat de voorspellende waarde van het instrument hoger wordt wanneer deze naast statische risicofactoren dynamische risicofactoren bevat en als een klinisch gestructureerd oordeel wordt gegeven (Helmus, Hanson, Babchishin, & Thornton, 2015; Pedersen, Rasmussen, & Elsass, 2010; Douglas, Ogloff, & Hart, 2003; de Vogel & de Ruiter, 2006). Een meta-analyse van Hanson en Morton-Bourgon (2009) liet echter het tegenovergestelde zien. Zij vonden dat de actuariële risicotaxatie-instrumenten een hogere voorspellende waarde hadden dan de klinisch gestructureerde instrumenten. Daarnaast bleek dat de voorspellende waarde van het actuarieel ingeschatte recidiverisico lager werd wanneer dit risico bijgestuurd mocht worden door de beoordelaar. Dit staat haaks op de voorgaande onderzoeken. De discussie over de beste methode voor risicotaxaties is nog niet beslecht.

Een mogelijke verklaring voor de wisselende resultaten zou kunnen zijn dat de accuratesse van het ingeschatte risico met een klinisch gestructureerd instrument afhangt van beoordelaarseigenschappen. De accuratesse van het recidiverisico wordt in dit onderzoek gedefinieerd als de overeenkomst tussen het door de behandelaar geschatte recidiverisico en de daadwerkelijke recidive. Klinische gestructureerde instrumenten worden veel gebruikt in de praktijk door de eerder besproken voordelen die zij kunnen hebben, hierom is het van belang om zicht te krijgen op de factoren of de beoordelaarseigenschappen die de accuratesse van deze taxaties kunnen verslechteren. Op die manier kunnen er in de praktijk maatregelen getroffen worden om de vermindering van accuratesse tegen te gaan,

(6)

zodat het recidiverisico zo optimaal mogelijk geschat kan worden. Dit kan de behandeling in de forensische ggz verbeteren.

In de literatuur komt de invloed van ervaring op de accuratesse van een algemeen klinisch oordeel in de reguliere ggz uitgebreid aan bod, het kan hierbij bijvoorbeeld gaan over een oordeel over de diagnose, behandeling of persoonlijkheid. Er bestaat echter geen overeenstemming over de invloed van ervaring op het algemene klinisch oordeel, zo spreken de volgende twee meta-analyses elkaar tegen. Spengler et al. (2009) vonden een kleine maar significant positieve associatie tussen ervaring en de accuratesse van het oordeel. Wat betekende dat het klinisch oordeel over de problemen van de cliënt, de symptomen of de diagnose beter was als de beoordelaar meer ervaring had, hierbij ging het om zowel klinische ervaring als ervaring via onderwijs. Daarentegen zagen Grove, Zald, Lebow, Snitz, en Nelson (2000) geen invloed van ervaring op het klinische oordeel over de diagnose. In deze meta-analyse zijn echter voornamelijk studies met een vignetten-onderzoeksdesign opgenomen waardoor de ecologische validiteit beperkt is (Sturidsson, Haggård-Grann, Lotterberg, Dernevik & Grann, 2004). Mogelijk is het effect van ervaring niet groot genoeg om in een vignetten-onderzoeksdesign zichtbaar te worden. De meta-analyse van Spengler et al. (2009) is het meest relevant doordat de studies die zijn opgenomen in de analyse alleen psychologische thema’s onderzoeken en de designs beter de dagelijkse praktijk vertegenwoordigen. Er zijn dus redenen om aan te nemen dat ervaring een rol speelt bij een klinisch oordeel in de algemene ggz.

In de forensische ggz wordt al aangeraden om risicotaxaties in consensus te scoren, zo zou assessor bias verminderd worden en de accuratesse van voorspelling verbeteren. De Vogel en de Ruiter (2006) concludeerden dat het recidiverisico met de Historical Clinical Risk Management-20 (HCR-20), een instrument wat een klinisch gestructureerd oordeel geeft, het beste werd geschat in consensus tussen drie beoordelaars. Daarnaast bleek uit onderzoek van de Vogel en de Ruiter (2007) dat de hoofdbehandelaars van de patiënten uit de Tbs-kliniek het algemene recidiverisico vaker laag beoordeelden dan de onderzoekers, terwijl zij de risicofactoren hetzelfde scoorden. De groepsleiders scoorden de HCR-20 ook lager dan de onderzoekers. De Vogel en de Ruiter gaven hiervoor enkele mogelijke verklaringen. De ervaring van de beoordelaar met het scoren van gestandaardiseerde risicotaxatie-instrumenten in het algemeen of de ervaring met dit specifieke instrument kon van invloed zijn,

(7)

mogelijk beïnvloeden deze ervaring soorten hoe nauwkeurig de gestelde regels werden opgevolgd. Dit zorgde ervoor dat zelfs de score op een statische en dus objectieve risicofactor varieerde. Verder stelden zij dat ervaring mogelijk invloed had op de inschatting van de ernst van een risicofactor. De meer ervaren clinici waren geneigd om problemen minder ernstig te scoren, mogelijk doordat zij een vergelijking maakten met ernstigere problematiek van oud-cliënten.

Een onderzoek van Quesada, Calkins en Jeglic (2014) waarin gebruik gemaakt werd van de Static-99, een actuarieel instrument, ondersteund deze resultaten. In ruim de helft van de gevallen kwamen de scores overeen tussen de onderzoekers en de clinici, echter wanneer ze verschilden bleken de clinici op een lagere totale score uit te komen. In de meeste gevallen kwam dit verschil door het niet goed opvolgen van de scoringsregels. Een kanttekening bij dit onderzoek en het onderzoek van de Vogel en de Ruiter (2007) is dat de onderzoekers alleen dossierinformatie hadden, terwijl de clinici ook informatie verkregen uit hun gesprekken met de cliënten. Dit zou eveneens het verschil in het geschatte recidiverisico tussen de groepen kunnen beïnvloeden.

Sutherland et al. (2012) onderzochten ook de interbeoordelaarsbetrouwbaarheid, maar in hun studie kregen alle beoordelaars evenveel informaties via vignetten. Het risico werd geschat met het Risk for Sexual Violence Protocol (RSVP), een klinisch gestructureerd instrument. Zij vonden alleen invloed van de hoeveelheid training die de beoordelaar had op de interbeoordelaarsbetrouwbaarheid. Degene die minder training hadden gehad schatten het recidiverisico hoger in. Het aantal jaar dat de beoordelaar als professional werkte of als professional in de forensische setting werkte had geen invloed op het geschatte risico.

Er is dus reden om aan te nemen dat beoordelaars van elkaar verschillen, daarbij speelt mee hoe goed zij bekend zijn met het instrument. Hieruit blijkt echter nog niet de invloed op de accuratesse van de risicotaxatie. Er zijn enkele studies gedaan die de invloed van ervaring op de accuratesse van de inschatting van het recidiverisico onderzochten. In onderzoek van Walters, Kroner, DeMatteo, en Locklair (2014) schatten 43 psychologen het recidiverisico in op basis van twintig risicotaxaties met het klinisch gestructureerde instrument, de HCR-20. De beoordelaars scoorden de risicofactoren niet zelf, zij gaven alleen een inschatting van het recidiverisico. Hierbij bleek dat ervaring in de forensische ggz en ervaring met de HCR-20 geen invloed had op de accuratesse van de risico-inschatting.

(8)

In een onderzoek van Penney, McMaster, en Wilkie (2014) scoorden 21 psychiaters en psychologen de HCR-20 wel zelf op basis van drie cliëntencasussen; een hoog, matig en lage risico-casus. Ongeacht training in het gebruik van de HCR-20 of werkervaring in de forensische ggz werd er een betrouwbare risicoschatting gemaakt door de beoordelaars; de interbeoordelaarsbetrouwbaarheid was met waarden tussen .90 en .93 hoog. Verder kwam naar voren dat ongetrainde beoordelaars hoog risicocasuïstiek lager schatte dan getrainde beoordelaars. En de minder ervaren beoordelaars gaven op de lage risicocasus een hoger risico, dan de ervaren beoordelaars. De verschillen tussen de groepen gaven echter geen significant verschil in de accuratesse van de taxaties. Accuratesse was in deze studie de overeenkomst tussen het geschatte risico en het van te voren bepaalde risico van de casus. Deze uitkomstmaat is een tekortkoming, er werd niet gekeken naar een verband tussen de risicotaxatie en daadwerkelijke recidive.

Teo, Holley, Leary en McNiel (2012) onderzochten retrospectief wel de accuratesse aan de hand van nieuwe meldingen over het gebruik van geweld naar het personeel in de instelling. Psychiaters en psychiaters in opleiding beoordeelden met de HCR-20 het risico op geweld op basis van dossierinformatie van 301 patiënten. Hierbij kwam een invloed van training en ervaring op de accuratesse naar voren. De psychiaters in opleiding voorspelden het recidiverisico op kans niveau, de psychiaters deden dit matig tot goed (AUC = .70, Rice & Harris, 2005). Dit onderzoek is nog het enige onderzoek waarin gebruik gemaakt werd van recidive als uitkomst, echter gaat het hier om geweld in de instelling waar de patiënten zich bevonden. Het is nog de vraag of dit te generaliseren is naar nieuwe veroordelingen als uitkomstmaat voor recidive. Bovendien is het retrospectief onderzoek, de risicotaxaties zijn niet gedaan en gebruikt in de praktijk.

De voorgaande onderzoeken geven geen eenduidig beeld van de invloed van ervaring op de accuratesse van de risicotaxatie. Bovendien is de ecologische validiteit nog niet goed genoeg om de uitkomsten naar de praktijk te vertalen. Geen van de studies is prospectief, er is te weinig onderzoek naar risicotaxaties die in de praktijk gedaan zijn en er wordt geen verband gelegd met daadwerkelijke recidive. Het onderzoek tot nu toe levert onvoldoende informatie op om naar de Nederlandse ambulante forensische populatie generaliseerbare uitspraken te doen. In het huidige onderzoek wordt daarom de invloed van de beoordelaarservaring op de accuratesse van risicotaxaties uit de forensische ambulante

(9)

praktijk bekeken, met als onderzoeksvraag: ‘Wat is de relatie tussen de beoordelaarservaring en de accuratesse van de recidivevoorspelling in de ambulante forensische ggz?’. Er zal gekeken worden naar het aantal jaren ervaring met het instrument, omdat uit eerder genoemd onderzoek naar voren komt dat verschillen in het geschatte risico tussen beoordelaars kunnen ontstaan door het niet juist opvolgen van de opgestelde regels. Daarnaast is het mogelijk dat beoordelaars die al langer ervaring hebben met risicotaxaties beter kunnen schatten wat voor een cliënt risicofactoren zijn en hoe groot het risico is. Tot slot wordt de invloed van het aantal jaren werkervaring in de (forensische) ggz onderzocht. Door hun ervaring zouden beoordelaars beter kunnen zijn in het geven van een klinisch oordeel en het schatten van (de hoogte van) de risicofactoren.

Zoals eerder beschreven komen uit de voorgaande onderzoeken wisselde resultaten. In dit onderzoek zullen daarom de volgende contrasterende hypothesen getoetst worden. De eerste hypothese stelt dat ervaring een positieve invloed heeft; wanneer de beoordelaar meer ervaring heeft, voorspelt hij recidive beter. Deze hypothese wordt ondersteund door de volgende onderzoeken; Teo et al. (2012), McNiel et al. (2008), de Vogel & de Ruiter (2006) en Spengler et al. (2009). Als deze hypothese ondersteund wordt is de verwachting dat zowel meer ervaring met het instrument en ervaring in de (forensische) ggz de voorspellende waarde van de risicotaxatie verhoogd. De tweede hypothese stelt dat ervaring geen invloed heeft; ongeacht de ervaring van de beoordelaar wordt het recidiverisico even goed geschat. Dit wordt ondersteund door Walters et al. (2014), Penney et al. (2014)en Grove et al. (2000). Verwacht wordt dat geen van de verschillende soorten ervaring voor een verbetering in voorspellende waarde van de risicotaxatie zorgt.

Methode Steekproef

In dit onderzoek zijn 5145 risicotaxaties gebruikt die in de periode van juni 2008 tot en met mei 2013 zijn gedaan. De beoordelaars (N = 333) van deze taxaties zijn benaderd om mee te doen met het onderzoek door hun ervaring door te geven. Ruim de helft (56%) van de behandelaren heeft gereageerd. De rest heeft niet gereageerd of kon niet meer bereikt worden doordat zij bijvoorbeeld niet meer bij de Waag werkzaam waren. Hierdoor konden beide groepen beoordelaars niet met elkaar vergeleken worden en was het niet mogelijk te

(10)

onderzoeken of de uiteindelijke groep representatief was voor de gehele populatie. Er vielen 1607 taxaties af doordat informatie over de ervaring van de beoordelaars ontbrak. De analyses werden over 3538 risicotaxaties (69% van het totaal aantal taxaties) uitgevoerd. Het ging hierbij om risicotaxaties met verschillende indexdelicten; zeden (12%), algemene agressie (36%), huiselijk geweld (38%), vermogensdelicten (10%) en overige delicten (5%). De risicotaxaties zijn uitgevoerd door 161 verschillende beoordelaars, zij hadden een gemiddelde leeftijd van 37.8 jaar (SD = 9.7; Range 22.8-63.0) en 64.5% was vrouw. Het grootste deel van de beoordelaars was ten tijde van dit onderzoek basis-, GZ- of klinisch psycholoog (86%), daarnaast zaten er psychiaters (2%) en behandelaars met een hbo-opleiding zoals systeemtherapeuten (12%) bij. Gemiddeld waren er 22 risicotaxaties van elke beoordelaar (SD = 19; Range 1-75). De beoordelaars waren werkzaam in de vestigingen in Amsterdam (24%), Utrecht (21%), Den Haag (13%), Rotterdam (13%), Amersfoort (8%), Leiden (6%), Haarlem (5%) en Almere (5%). De niet-deelnemende beoordelaars deden minder risicotaxaties in de gegeven periode, namelijk gemiddeld 9 taxaties per beoordelaars.

Materiaal

Voor de voorspelling van recidive werd er gebruik gemaakt van het risicotaxatie-instrument de RAF GGZ voor volwassenen (Risicotaxatie-risicotaxatie-instrument voor de Ambulante Forensische Geestelijke Gezondheidzorg, van Horn, Wilpert, Scholing & Mulder, 2008). Met dit instrument werd een gestructureerd klinisch oordeel over het recidiverisico gegeven. In totaal werden 79 items dichotoom of op een driepuntschaal gescoord, deze items zijn verdeelt in twaalf domeinen (eerdere en huidige delicten, opleiding/werk, financiën, woonomgeving, gezin/partner, sociaal netwerk, vrije tijd, middelen, emotioneel/persoonlijk, houding, risicomanagement en seksuele problematiek). Per domein werd aangegeven of problemen op het domein een relatie hebben met delict gedrag (risicofactor) of dat goed functioneren juist een beschermende invloed had (beschermende factor). Tot slot werden de risico- en beschermende factoren gewogen door de beoordelaar en het recidiverisico geschat. Afhankelijk van de soort delicten die cliënt eerder had gepleegd werd het risico op zedendelicten, geweldsdelicten, huiselijk geweld, vermogensdelicten, vermogensdelicten met geweld en overige delicten geschat op een vijfpuntschaal (laag, laag-matig, matig, matig-hoog, hoog). Wanneer een cliënt bijvoorbeeld alleen een zedendelict in de voorgeschiedenis

(11)

had, werd alleen het risico daarop geschat. De overige recidiverisico’s werden dan als niet van toepassing aangemerkt.

Eisenberg et al. (2015) onderzochten de voorspellende waarden van de items van de RAF GGZ voor volwassenen. De voorspellende waarden werden berekend op basis van de combinatie van significant correlerende risicofactoren (items) met algemene en specifieke recidive. Dit leverde een voorspellende AUC-waarde op van .71 voor algemene recidive en .70 voor specifieke recidive, wat volgens Rice en Harris (2005) geïnterpreteerd kan worden als matig tot goed.

Operationalisatie van de variabele ervaring

In het onderzoek werden twee vormen van ervaring opgenomen. Ten eerste het aantal jaren ervaring met het gebruik van het risicotaxatie-instrument de RAF GGZ. Ten tweede jaren werkervaring als behandelaar in zowel de algemene, als de forensische ggz. Er werd per risicotaxatie berekend hoeveel jaar ervaring de beoordelaar had op het moment van de taxatie. De beoordelaars hadden gemiddeld 10.0 jaar (SD = 7.7; Range 0-37.0) werkervaring in de ggz en 2.5 jaar (SD = 1.4; Range 0-6.3) ervaring met de RAF GGZ. Werkervaring en ervaring met de RAF GGZ staan met elkaar in verband, met weinig werkervaring is het niet mogelijk veel ervaring met de RAF GGZ te hebben. Hierom werd er gecontroleerd hoe sterk deze twee variabele met elkaar correleerden. Beide variabelen waren niet normaal verdeeld, daarom werd de Spearmans rangcorrelatie berekenend. Deze bleek significant (p <0.001), maar was met ρ = .29 zwak (Mukaka, 2012).

Om op de ervaringsvariabelen te kunnen stratificeren (zie de statistische analyses voor verdere uitleg) en om leesbare grafieken te kunnen maken werden de ervaringsvariabelen in groepen verdeeld. Er was geen literatuur beschikbaar voor een inhoudelijke onderbouwing om ervaring op een bepaalde manier op te delen in groepen. Hierom werd er gekozen voor het grootste aantal groepen per variabele waarin het aantal metingen per groep nog toereikend was om de analyses te kunnen uitvoeren. De groepen bevatten zoveel mogelijk gelijke periodes, daarbij werd er rekening gehouden met de bruikbaarheid van de jaartallen. Ervaring in de ggz werd verdeeld in vier groepen: 0-5 jaar, 5-10 jaar, 5-10-15 jaar en 15 jaar ervaring of langer. Ervaring met de RAF GGZ werd opgedeeld in 0-1.5 jaar, 1.5-3 jaar, 3-4.5 jaar en 4.5 jaar ervaring of langer.

(12)

Operationalisatie van de variabele recidiverisico

Het recidiverisico werd geschat door de beoordelaars aan de hand van de RAF GGZ. Volgens de scoringsprocedure van de RAF GGZ hebben de beoordelaars het recidiverisico geschat voor alle type delicten die een cliënt in het verleden heeft gepleegd. Voor het huidige onderzoek werd het hoogste geschatte recidiverisico gebruikt als voorspelling van algemene recidive (veroordeling voor een delict). Het algemene recidiverisico werd bij 19% van de risicotaxaties hoog geschat, bij 35% matig-hoog, bij 27% matig, bij 15% laag-matig en bij 5% laag. De cliënten voor wie het recidiverisico werd geschat hadden een gemiddelde leeftijd van 35 jaar (SD = 12; Range 18-80) en 90% was man. Zij werden in 46% van de gevallen vrijwillig aangemeld, 46% werd verplicht en 8% was nog in afwachting van zitting. Niet alle cliënten hadden eerdere veroordelingen, 29% was nooit veroordeeld. Het overgrote deel was generalist 76%, zij pleegden verschillende soorten delicten. Daarnaast was 16% specialist en 8% first offender. Van deze cliënten was 76% in Nederland geboren, welke etnische achtergronden zij hadden was onbekend.

Recidive

In deze studie werd algemene recidive gedefinieerd als een veroordeling voor een nieuw delict na de afname van de risicotaxatie. De recidivegegevens werden verkregen uit de Onderzoeks- en Beleidsdatabase Justitiële Documentatie (OBJD) van het Wetenschappelijk Onderzoek- en Documentatiecentrum (WODC). Van de totale groep was 29% gerecidiveerd met een gemiddeld tijd tot aan recidive van 1.69 jaar (SD = 1.12; Range .06-5.41). De gemiddelde follow-up tijd was 4.1 jaar (SD = 1.12; Range 1.17-6.07).

Accuratesse

Accuratesse werd geconceptualiseerd als de predictieve waarde van de risicotaxatie, oftewel hoe goed voorspelt de recidiverisico-inschatting de daadwekelijke recidive.

Procedure

Bij de Waag, polikliniek voor ambulante forensische zorg, wordt bij alle cliënten na de intake, gedurende de behandeling en bij afsluiting een risicotaxatie gedaan. Deze taxaties worden gebruikt bij het opstellen van behandelplannen en om het verloop tijdens de

(13)

behandeling te monitoren. In dit onderzoek werden alleen de risicotaxaties gebruikt die aan het begin van de behandeling zijn ingevuld. Alle behandelaars worden bij de Waag getraind in het gebruik van de RAF GGZ wanneer zij in dienst worden genomen. Alle beoordelaars van het recidiverisico waren dus getraind. Aan alle cliënten van de Waag wordt gevraagd of zij toestemming geven voor anoniem gebruik van hun gegevens voor onderzoek. Alleen de gegevens van de cliënten die toestemming hadden gegeven voor gebruik van hun gegevens werden in dit onderzoek bekeken. Alle behandelaars die voor deze cliënten een risicotaxatie gedaan hadden zijn via de email benaderd om deel te nemen aan het onderzoek en gevraagd de korte vragenlijst over hun ervaring in te vullen.

Statistische analyses

Om het verband tussen ervaring, recidiverisico en recidive te onderzoeken werd een multilevel Kaplan Meier analyse en meerdere multilevel Cox regressie-analyses uitgevoerd. Deze survival analyses zijn geschikt voor het voorspellen van een gebeurtenis die wel of niet optreedt en daarbij wordt rekening gehouden met de tijd tot de gebeurtenis, in dit geval recidive (Kleinbaum & Klein, 2005). De Kaplan Meier analyse is de meest simpele non-parametrische survival analyse waarbij maar één covariaat toegevoegd kan worden aan het model. De Cox regressie kan wel meerdere covariaten toetsen, maar de data moet wel voldoen aan de assumptie van proportional hazards. Aan deze aanname wordt voldaan als de afstand tussen de survival curves over de tijd ongeveer gelijk blijven. Dit gebeurt als de regressiecoëfficiënten, waarmee de hazard ratio’s berekend worden, over tijd constant zijn. De survival curves mogen niet kruizen. De hazard ratio’s laten de verhouding van het percentage recidivisten van de risicolevels ten opzicht van het laagste risicolevel zien. Oftewel hoe verhoudt het percentage recidivisten in de laag-matige risicogroep zich tot het percentage in de lage risicogroep, hoe verhoudt het percentage van de matige risicogroep zich tot de lage risicogroep en zo verder per risicolevel.

Daarnaast werd er uitgegaan van een geneste structuur (multilevel), de risicotaxaties waren binnen de beoordelaars mogelijk niet onafhankelijk. Dit zou kunnen komen doordat een behandelaar vaker een bepaald soort cliënten had of dat er niet geobserveerde effecten waren specifiek voor de behandelaar, waardoor zijn cliënten een andere kans hadden op recidive. Er zijn twee methoden om hiervoor te controleren; een mixed effects model (frailty

(14)

model) of generalized estimating equation (de cluster functie in het survival pakket in R; Therneau, 2016). De cluster methode geeft een survival curve voor de gehele groep en corrigeert daarbij voor het effect van variantie tussen beoordelaars. In het frailty model wordt een extra variabele toegevoegd aan het model. Op die manier wordt gecorrigeerd voor het effect van variantie binnen de beoordelaars (Therneau, 2011; Wierzbicki, 2011; Marco, 2011). Er werd gekozen voor de cluster methode, in dit onderzoek werd het effect van ervaring over de gehele populatie bekeken, dit is de meest simpele mogelijkheid om de invloed van ervaring te bepalen. Mocht blijken dat er een effect van ervaring is, zou in verder onderzoek het specifieke effect van ervaring binnen een beoordelaar onderzocht kunnen worden.

Eerst werd een geclusterde Kaplan Meier survival analyse gedaan om te toetsen of de vijf risicogroepen van elkaar verschilden in recidivesnelheid. Oftewel recidiveerden de hoog risico cliënten vaker en sneller dan de matig-hoog risico cliënten, recidiveerden de matig-hoog risico cliënten vaker en sneller dan de matig risico cliënten en zo stap voor stap verder bij alle risiconiveaus. Met een log-rank toets werd getoetst of de vijf survival curves van elkaar verschillen. Vervolgens werd hetzelfde getoetst met een geclusterde Cox regressie-analyse, zodat de assumptie van proportional hazard getoetst kon worden voordat er extra variabelen aan het model werden toegevoegd. De passing van het model werd bepaald door een Wald test en een robuuste log-rank toets. De assumpties van het model werden visueel beoordeeld en getoetst (Schoenfeld residuen).

Om de invloed van ervaring op de accuratesse van de risico-inschattingen te toetsen werden meerdere geclusterde Cox regressie-analyses uitgevoerd. Per ervaringsvariabele werd eerst het hoofdeffect van ervaring en daarna het interactie-effect tussen ervaring en het geschatte risiconiveau getoetst. Het model met alleen het hoofdeffect van ervaring werd ook gepast, omdat het gebruikelijk is om eerst het simpelste model te passen voordat complexere modellen gepast wordt, het simpelste model dat op de data past is het geprefereerde model (Burril, 1989). Als de accuratesse van de risicotaxatie afhankelijk was van de ervaring van de beoordelaar dan zou er sprake zijn van een significant interactie-effect tussen ervaring en het recidiverisico. Hier werd eveneens de passing van elk model bepaald met een Wald test en een robuuste log-rank toets. En de assumptie werd getoetst (Schoenfeld residuen) en visueel beoordeeld. Wanneer nodig werd op de variabele die de assumptie schond gestratificeerd. Op die manier werd er voor die variabele gecontroleerd door het model per gekozen groep te

(15)

passen, waarop het uiteindelijke model werd gebaseerd. De fit van de verschillende modellen werd vergeleken aan de hand van het Akaike information criterion (AIC) en het Bayesian information criterion (BIC). De analyses zijn uitgevoerd met het survival pakket (Therneau, 2016) in R versie 3.3.0. In Bijlage 1 is een vereenvoudigde versie van het R-script van de analyses, zoals beschreven in de resultaten, terug te vinden.

Resultaten Overeenstemming tussen de risicogroepen en recidive

Om te toetsen of beoordelaars het recidiverisico accuraat hadden geschat werd als eerste met een Kaplan Meier analyse onderzocht of het simpelste survival model geclusterd op de beoordelaars op de data paste. In Figuur 1 valt af te lezen dat de survival curves van de vijf risicogroepen van elkaar verschilden, waarbij de laag risicogroep de minst steile curve had, oplopend tot de meest steile curve voor de hoog risicogroep. Op het oog paste het model en een log-tank toets bevestigde dat de survival curves van de vijf risicogroepen significant van elkaar verschilden, Χ2(593) = 1045, p < .001.

Voordat het effect van werkervaring in de ggz en ervaring met de RAF GGZ op de accuratesse van het ingeschatte recidiverisico werd onderzocht, werd eerst een geclusterd Cox model gepast met alleen het recidiverisico als voorspeller. Op deze manier kon de assumptie van proportional hazards op het basis model getoetst worden. Deze analyse bevestigde het onderscheid tussen de verschillende survival curves met een Wald test en robuuste log-rank toets, Wald(4) = 71.86, p < .001 en Χ2(4) = 42.97, p < .001. Alleen de coëfficiënt van het laag-matige risico was niet significant, zie Tabel 1. Er werd voldaan aan de assumptie van proportional hazards. In dit basis model hadden cliënten in de hoog risicogroep gedurende de hele follow-up tijd 3.2 keer zo grote kans om te recidiveren dan de cliënten in de laagste risicocategorie. De matig-hoge risicogroep had een 2.3 keer zo grote kans op recidive dan de laagste risicogroep, de matige risicogroep een 1.8 keer zo grote kans en de laag-matige risicogroep 1.3 keer.

(16)

Figuur 1 Survival functie van de Kaplan Meier analyse voor de vijf risicogroepen

Tabel 1.

Uitkomsten Cox regressie-analyse met het recidiverisico als enige voorspeller

Recidiverisico β SE(β) p HR 95% CI Laag (referentielevel) Laag-matig .2914 .2234 .16 1.338 .89 - 2.01 Matig .5625 .2103 .0018 1.755 1.23 - 2.50 Matig-hoog .8489 .2064 < .001 2.337 1.62 - 3.37 Hoog 1.1679 .2091 < .001 3.215 2.21 - 4.68

Noot. β is de regressiecoëfficiënt. SE(β) is de standaard error van de regressiecoëfficiënt. HR is de

hazard ratio. CI is het 95% betrouwbaarheidsinterval.

De invloed van ervaring met de RAF GGZ

De assumptie van proportional hazard werd niet geschonden in het basismodel dat hierboven gepast werd, daarom werd vervolgens in een geclusterde Cox regressie-analyse het hoofdeffect van ervaring met de RAF GGZ onderzocht. Er werd eerst alleen naar het hoofdeffect van ervaring gekeken zonder het interactie-effect tussen ervaring en recidiverisico. Dit gaf geen antwoord op de onderzoeksvraag of ervaring de accuratesse beïnvloedt, maar werd gedaan zodat de verschillende modellen met elkaar vergeleken konden worden. Dit model bleek goed onderscheid te maken tussen de verschillende curves, Wald(5) = 78.53, p < .001 en een robuuste log-rank toets Χ2(5) = 45.15, p < .001. Ervaring met de RAF GGZ was een significante voorspeller (p = .041), zie Tabel 2. De assumptie voor proportional hazards werd echter geschonden door ervaring met de RAF GGZ (Χ2 = 26.60, p < .001) en globaal (Χ2 = 31.14 , p < .001). Wanneer de coëfficiënt van ervaring met de RAF over tijd geplot werd

(17)

was te zien dat deze over tijd minimaal varieerde, zie Figuur 2. In de eerste ongeveer 240 dagen was de coëfficiënt net positief, waarna deze afzakte tot net onder de nul.

Tabel 2.

Uitkomsten geclusterde Cox regressie-analyse over het recidiverisico met een hoofdeffect van ervaring met de RAF GGZ

Voorspeller β SE(β) p HR 95% CI Laag (referentielevel) Laag-matig .2848 .2234 .17 1.330 .88 - 2.00 Matig .5482 .2104 .0024 1.730 1.21 - 2.47 Matig-hoog .8325 .2065 < .001 2.299 1.59 - 3.32 Hoog 1.1492 .2093 < .001 3.156 2.16 - 4.60 Ervaring RAF GGZ* -.05561 .02309 .041 .946 .90 - 1.00

Noot. *Proportional hazards assumptie is geschonden. β is de regressiecoëfficiënt. SE(β) is de

standaarderror van de regressiecoëfficiënt. HR is de hazard ratio. CI is het 95% betrouwbaarheidsinterval.

Figuur 2 De coëfficiënt van ervaring met de RAF in het model met een hoofdeffect van het recidiverisico

en ervaring met de RAF op recidive

Voor de schending van de assumptie werd gecorrigeerd door te stratificeren op de RAF GGZ ervaringsgroepen, Wald(4) = 67.82, p < .001 en Χ2(4) = 41.42, p < .001. De stratificatie zorgde ervoor dat de assumptie van proportional hazards niet meer geschonden werd. De drie hoogste risicogroepen waren nog steeds significante voorspellers, zie Tabel 3. De passing van het model met recidiverisico en ervaring met de RAF GGZ als voorspeller werd vergeleken met het model met alleen recidiverisico als voorspeller. Uit zowel de AIC (ΔAIC = 2736.72) als de BIC (ΔBIC = 2736.78) bleek dat de voorkeur gegeven moest worden voor het model met ervaring met de RAF GGZ als voorspeller erbij.

(18)

Tabel 3.

Uitkomsten geclusterde Cox regressie-analyse over het recidiverisico met een hoofdeffect van ervaring met de RAF GGZ door stratificatie

Voorspeller β SE(β) p HR 95% CI Laag (referentielevel) Laag-matig .2904 .2234 .16 1.337 .89 - 2.00 Matig .5200 .2107 .0036 1.682 1.19 - 2.39 Matig-hoog .8269 .2066 < .001 2.286 1.59 - 3.29 Hoog 1.1405 .2094 < .001 3.128 2.14 - 4.57

Er bleek dus een hoofdeffect te zijn van recidiverisico en ervaring met de RAF GGZ door te stratificeren op de RAF GGZ ervaringsgroepen. Om te onderzoeken of er invloed was van ervaring met de RAF GGZ op de accuratesse werd het interactie-effect tussen recidiverisico en ervaring met de RAF GGZ getoetst. Dit werd gedaan met een geclusterde Cox regressie-analyse waarin het interactie-effect tussen recidiverisico en ervaring met de GGZ als voorspeller werd meegenomen. Al eerder was gebleken dat ervaring met de RAF GGZ de assumptie van proportional hazard schond, daarom werd er weer gestratificeerd op de RAF GGZ ervaringsgroepen. De interactietermen bleken geen significante voorspellers, zie voor alle uitkomsten Tabel 4. Het model maakte wel goed onderscheid tussen de survival curves van de verschillende risicogroepen, Wald(9) = 77.65, p < .001 en Χ2(9) = 46.1, p < .001. De assumptie van proportional hazards werd niet geschonden doordat er gestratificeerd werd op de RAF GGZ ervaringsgroepen.

De passing van dit model werd vergeleken met het best passende model tot dat moment, het model met het hoofdeffect van recidiverisico en ervaring met de RAF GGZ. Uit zowel de AIC (ΔAIC = 3.79) als de BIC (ΔBIC = 28.35) bleek dat de voorkeur gegeven moest worden voor het model zonder het interactie-effect tussen ervaring met de RAF GGZ en recidiverisico. Oftewel er was geen interactie-effect tussen het recidiverisico en de ervaring met de RAF GGZ. Ervaring met de RAF GGZ had geen invloed op de accuratesse van de risicotaxatie. Het model met het hoofdeffect van recidiverisico en het hoofdeffect van ervaring met de RAF GGZ door op de ervaringsgroepen te stratificeren was het geprefereerde model, zie Tabel 3. In dit model hadden cliënten in de hoog risicogroep een 3.13 keer zo grote kans om te recidiveren dan de cliënten in de laagste risicocategorie. De matig-hoge risicogroep

(19)

had een 2.29 keer zo grote kans op recidive dan de lage risicogroep, de matige risicogroep een 1.68 keer zo grote kans en de laag-matige risicogroep 1.34 keer.

Tabel 4.

Uitkomsten geclusterde Cox regressie-analyse met een interactie tussen recidiverisico en ervaring met de RAF GGZ met een stratificatie op de RAF GGZ ervaringsgroepen

Voorspeller β SE(β) p HR 95% CI Laag (referentielevel) Laag-matig .7684 0.5001 .16 2.1563 .74 - 6.25 Matig 1.1553 0.4736 .023 3.1749 1.17 - 8.59 Matig-hoog 1.1879 0.4670 .017 3.2801 1.23 - 8.73 Hoog 1.7130 0.4707 <.001 5.5457 2.04 - 15.06 Ervaring RAF GGZ .2220 0.1533 .17 1.2486 0.90 - 1.72 Laag × ervaring RAF GGZ (referentielevel)

Laag-matig × ervaring RAF GGZ -.1732 0.1568 .31 0.8410 .60 - 1.18 Matig × ervaring RAF GGZ -.2415 0.1477 .15 0.7855 .56 - 1.09 Matig-hoog × ervaring RAF GGZ -.1233 0.1439 .44 0.8840 .65 - 1.21 Hoog × ervaring RAF GGZ -.2141 0.1463 .19 0.8072 .58 - 1.12

De invloed van werkervaring in de ggz

Om te kunnen toetsen of werkervaring in de ggz de accuratesse van de risicotaxatie beïnvloedt, werd eerst het hoofdeffect van ervaring in de ggz met een geclusterde Cox regressie-analyse onderzocht. Zo werd ook hier eerst een simpeler model getoetst voordat de interactieterm werd toegevoegd aan het model en kon de passing van beide modellen vergeleken worden. Dit model bleek goed onderscheid te maken tussen de verschillende curves volgens de Wald test, Wald(5) = 73.83, p < .001 en een robuuste log-rank toets Χ2(5) = 43.34, p < .001. Ervaring in de ggz was echter geen significante voorspeller, zie Tabel 5. Er werd aan de assumptie van proportional hazards voldaan. De passing van het model werd vergeleken met het simpelste best passende model. Op basis van de AIC (ΔAIC = 1.95) en de BIC (ΔBIC = 6.79) werd de voorkeur gegeven voor het model zonder werkervaring in de ggz, alleen met het recidiverisico als voorspeller.

(20)

Tabel 5.

Uitkomsten geclusterde Cox regressie-analyse met hoofdeffecten van recidiverisico en werkervaring in de ggz Voorspeller β SE(β) p HR 95% CI Laag (referentielevel) Laag-matig .2923 .2234 .15 1.340 .89 - 2.02 Matig .5640 .2104 .0018 1.758 1.23 - 2.51 Matig-hoog .8509 .2066 < .0001 2.342 1.62 - 3.78 Hoog 1.1707 .2095 < .0001 3.224 2.21 - 4.70 Werkervaring ggz .0009366 .004184 .87 1.001 .99 - 1.01

Vervolgens werd de invloed van werkervaring in de ggz op de accuratesse onderzocht. Er werd geen significant interactie-effect gevonden tussen werkervaring in de ggz en het recidiverisico, zie Tabel 6. Wel paste het model goed en maakte het dus onderscheid tussen de verschillende risicogroepen, Wald(9) = 77.45, p < .001 en Χ2(9) = 44.76, p < .001. Er werd niet voldaan aan de assumptie van proportional hazard, deze werd geschonden door het hoogste risicolevel (Χ2 = 3.97, p = .046). Wanneer de coëfficiënt van het hoge recidiverisico over tijd geplot werd, was te zien dat deze over tijd varieerde, zie Figuur 3.

Tabel 6.

Uitkomsten geclusterde Cox regressie-analyse met een interactie tussen recidiverisico en werkervaring in de ggz Voorspeller β SE(β) p HR 95% CI Laag (referentielevel) Laag-matig .1085 .3746 .77 1.115 .54 - 2.30 Matig .6305 .3514 .049 1.878 1.00 - 3.52 Matig-hoog .8176 .3453 <.01 2.265 1.21 - 4.22 Hoog* 1.0454 .3488 <.01 2.845 1.51 - 5.36 Werkervaring ggz -.003296 .02314 .87 .997 .96 - 1.04 Laag × werkervaring ggz (referentielevel)

Laag-matig × werkervaring ggz .01603 .02584 .53 1.016 .97 - 1.07 Matig × werkervaring ggz -.007451 .02477 .72 .993 .95 - 1.03 Matig-hoog × werkervaring ggz .002538 .02417 .90 1.003 .96 - 1.04 Hoog × werkervaring ggz .01255 .02456 .55 1.013 .97 - 1.05

Noot. *Proportional hazards assumptie is geschonden. β is de regressiecoëfficiënt. SE(β) is de

standaarderror van de regressiecoëfficiënt. HR is de hazard ratio. CI is het 95% betrouwbaarheidsinterval.

(21)

Figuur 3 De coëfficiënt van het hoge risicolevel in het model met de interactie tussen recidiverisico en

werkervaring in de ggz

Het interactiemodel werd nogmaals gepast op de data, ditmaal met een stratificatie op recidiverisico om te corrigeren voor de geschonden assumptie. Dit bleek echter niet mogelijk doordat de data hierdoor in te veel kleine groepen werd opgedeeld. De coëfficiënten van het recidiverisico konden niet meer berekend worden doordat deze in sommige gevallen op enkele metingen gebaseerd moesten worden. Aangezien het gecorrigeerde model niet gepast kon worden werd het model met het interactie-effect ondanks de schending van de proportional hazards assumptie toch vergeleken met het model met alleen recidiverisico als voorspeller. Uit de AIC (ΔAIC = 6.04) en de BIC (ΔBIC = 30.67) bleek dat de voorkeur gegeven moest worden voor het model zonder de interactieterm tussen recidiverisico en werkervaring in de ggz. Het basis model met alleen recidiverisico als voorspeller van recidive werd geprefereerd, werkervaring in de ggz had dus geen invloed op de accuratesse van de risicotaxatie.

Discussie

In deze prospectieve studie werd de invloed van ervaring op de accuratesse van de risicotaxatie bestudeerd over 3538 risicotaxaties die in de praktijk gedaan zijn door 161 beoordelaars. De ervaring met het risicotaxatie-instrument en de werkervaring in de (forensische) ggz van beoordelaars bleken geen invloed te hebben op de accuratesse van de risicotaxatie. De beoordelaars schatten ongeacht hun aantal jaren (werk)ervaring het recidiverisico even goed in. Er werden contrasterende hypothesen getoetst, waarbij er

(22)

verwacht werd dat ervaring geen invloed had op de accuratesse of dat meer ervaring zorgde voor een verbetering van de risicotaxatie. De hypothese dat de beoordelaarservaring de risicotaxaties niet verbeterd wordt met dit onderzoek ondersteund. De resultaten zijn in lijn met onderzoek van Walters et al. (2014) en Penney et al. (2014), maar komen niet overeen met het onderzoek van Teo et al. (2012). Mogelijk komt dit doordat Teo et al. psychiaters met psychiaters in opleiding vergeleken. In de onderzoeken van Walters et al. (2014) en Penney et al. (2014) werden de taxaties gedaan door afgestudeerde psychologen en psychiaters. In het huidige onderzoek zijn alle beoordelaars ook afgestudeerde behandelaren, mogelijk dat het aantal jaren ervaring bij deze groep niet meer van belang is voor de accuratesse van de risicotaxaties.

Alle voorgaande onderzoeken hadden een beperkte ecologische validiteit, doordat het voornamelijk ging om vignetten of retrospectief onderzoek. Daarnaast maakte geen van de studies gebruik van nieuwe veroordelingen als recidive en enkele keken zelfs helemaal niet naar nieuwe delicten. Dit onderzoek is een goede aanvulling op deze eerdere studies doordat er risicotaxaties uit de praktijk zijn gebruikt, dit zorgt voor een goede ecologische validiteit.

De huidige studie laat een goede predictieve validiteit van het klinisch gestructureerde oordeel zien; de cliënten uit de verschillenden risicolevels hebben oplopende recidivepercentages. De cliënten in de laag risicogroep recidiveerden het minste en de cliënten in de hoge risicogroep recidiveerden het meeste en het snelste. Dit komt overeen met de eerdere onderzoeken die een goede predictieve validiteit lieten zien van het klinisch gestructureerde oordeel (Helmus et al., 2015; Pedersen et al., 2010; Douglas et al., 2003; de Vogel & de Ruiter, 2006). Het komt echter niet overeen met het onderzoek van Hanson & Morton-Bourgon (2009), zij vonden geen goede voorspellende waarde van klinisch gestructureerde oordelen. Hoe verklaard kan worden dat zij geen goede predictieve validiteit vonden is nog onduidelijk. Uit het huidige onderzoek blijkt in ieder geval dat het niet door de ervaring van de beoordelaars verklaard kan worden. Mogelijk is de predictieve validiteit van het klinisch gestructureerde oordeel in deze studie goed doordat alle beoordelaars afgestudeerde behandelaars zijn. Daarnaast kan het waarschijnlijk verklaard worden doordat iedereen getraind was in het gebruik van het risicotaxatie-instrument. Het effect van training werd bevestigd in studies van Teo et al. (2012) en Sutherland et al. (2012), de accuratesse

(23)

en de interbeoordelaarsbetrouwbaarheid van een klinisch gestructureerde risicotaxatie verbeterde als de beoordelaars getraind waren.

Risicotaxaties zijn een belangrijk onderdeel van het behandelproces. Wanneer risicotaxaties niet optimaal gedaan worden kan dit de effectiviteit van de behandeling beïnvloeden. Daarom zal er meer onderzoek gedaan moeten worden om te achter halen of er andere eigenschappen van de beoordelaar zijn die een mogelijke verklaringen kunnen geven voor de wisselende predictieve waarden van klinisch gestructureerde oordelen. Als deze eigenschappen beter bekend zijn kunnen er in de praktijk maatregelen getroffen worden om de inschatting van het recidiverisico te optimaliseren en daarmee de behandeling.

Dat het huidige onderzoek geen effect van ervaring op de accuratesse van de risicotaxatie vond is een groot voordeel voor het gebruik in de praktijk. Het betekent dat de minder ervaren behandelaren, zoals basispsychologen, ingezet kunnen worden voor risicotaxaties. Het doen van risicotaxaties is vaak een tijdrovende bezigheid waardoor het voor instellingen lucratief is als de minder ervaren, en dus goedkopere krachten, dit kunnen doen. Het beleid zoals dat op dit moment bijvoorbeeld bij de Waag is, waar basispsychologen worden ingezet om risicotaxaties te doen, hoeft op basis van deze resultaten niet aangepast te worden. Bovendien zouden bij andere forensische behandelinstellingen, reclassering of pro Justitia rapportages minder ervaren beoordelaars ingezet kunnen worden om een inschatting te maken van de kans op recidive.

Beperkingen

De goede ecologische validiteit van dit onderzoek brengt echter limitaties met zich mee. Niet alle behandelaren hebben deelgenomen aan het onderzoek, mogelijk verschilt daarom de onderzochte groep van de behandelaren die niet deelgenomen hebben. Zo bleek al dat de niet-deelnemende beoordelaars gemiddeld minder risicotaxaties hebben uitgevoerd. Die beoordelaars hebben vermoedelijk minder ervaring met de RAF GGZ, en mogelijk ook minder werkervaring in de ggz, dan de onderzochte groep. In de verdeling van de data bleek echter niet dat de groep minder ervaren beoordelaars kleiner was dan de beoordelaars met meer ervaring. Er wordt daarom niet verwacht dat dit veel invloed heeft op de resultaten. Het is echter dus wel zo dat de verhouding van de ervaring van de beoordelaars in de praktijk mogelijk anders is, maar het is niet mogelijk om hiervan het effect te onderzoeken.

(24)

Daarnaast is het onbekend of de gebruikte gegevens verder representatief zijn voor de gehele behandelaarspopulatie.

Een ander belangrijk discussiepunt is dat de risicotaxaties zijn afgenomen voorafgaand aan de behandeling. De behandeling werd afgestemd op de uitkomsten van de risicotaxatie, conform het RNR model (Andrews & Bonta, 2006). Ondanks dat over het geheel genomen recidive goed werd voorspeld, is de verwachting dat de behandeling van invloed is op de accuratessemeting van de start risicotaxatie. Als de starttaxatie accuraat is, dan is de behandeling beter, hierdoor daalt het recidiverisico en recidiveren de cliënten minder. Doordat de behandeling effectief is komen de starttaxatie en recidive minder goed met elkaar overeen. Als een taxatie minder goed wordt gedaan, is de behandeling minder effectief en gaan de cliënten niet minder recidiveren. Een slechte starttaxatie komt daardoor mogelijk beter overeen met recidive, dan een accurate taxatie. In dit onderzoek zou het dus kunnen zijn dat een accurate starttaxatie minder accuraat leek, doordat de accuratessemeting door de behandeling beïnvloed werd. Het is echter onbekend hoe groot het effect van de behandeling (afgestemd op de risicotaxatie) is op recidive. Daardoor is het ook niet duidelijk hoe sterk het effect van de behandeling is op de accuratessemeting. Er kan geen uitspraak gedaan worden of het effect van ervaring op de accuratesse van de taxatie anders is als het effect van behandeling op recidive wordt meegenomen in het onderzoek.

De laatste limitatie van het huidige onderzoek is dat de invloed van de beoordelaarservaring met het risicotaxatie-instrument op recidive niet verklaard kan worden. Er bleek dat cliënten minder recidiveerden wanneer de beoordelaars meer ervaring hadden met het risicotaxatie-instrument. Dit zou door de kwaliteit van de risicotaxatie of de behandeling kunnen komen. De behandelaren doen zelf de risicotaxatie en baseren daar het behandelplan op. Mogelijk laten de beoordelaars met meer ervaring met het taxatie-instrument het behandelplan en de behandeling beter aansluiten op de risicotaxatie waardoor de behandeling effectiever is, zoals het RNR-model stelt (Andrews & Bonta, 2006). Daarnaast zou het eventueel kunnen dat deze beoordelaars de taxaties toch beter doen, ook al wordt daar in deze studie geen aanleiding voor gezien. Er kunnen echter op basis van dit onderzoek geen uitspraken gedaan worden over de oorzaak van het minder recidiveren van deze cliënten.

(25)

Vervolgonderzoek

Om meer zicht te krijgen op de laatste twee genoemde beperkingen is het van belang om het effect van de behandeling op recidive te onderzoeken. Op deze manier wordt ook het effect van behandeling op de accuratessemeting van de starttaxatie onderzocht. Dit zou kunnen door in vervolgonderzoek de relatie tussen het recidiverisico dat bij afsluiting van het dossier is geschat en recidive te bekijken. De beoordelaar neemt bij afsluiting het effect van de behandeling (als deze heeft plaats gevonden) mee tijdens de inschatting van het recidiverisico. Mogelijk lijkt de eindtaxatie accurater dan de starttaxatie, als accuratesse op dezelfde manier gemeten wordt. Als de eindtaxaties accurater zijn, dan zouden deze nog beter onderscheid maken tussen de vijfrisicogroepen.

Verder zou om het effect van behandeling op accuratessemeting van de starttaxatie onderzocht kunnen worden door te kijken naar het verschil tussen completers (cliënten die de behandeling naar tevredenheid afgerond hebben) en drop-outs (cliënten bij wie de behandeling voortijdig afgebroken is). Uit eerder onderzoek kwam naar voren dat cliënten die de behandeling niet afronden vaker recidiveren (Cullen et al., 2012; Hanson & Bussière, 1998; Stadtland et al., 2005). Doordat er bij de drop-outs geen (volledige) behandeling heeft plaats gevonden zou de start risicotaxatie beter overeen kunnen komen met daadwerkelijke recidive dan bij de completers. Mogelijk dat er bij de drop-outs wel invloed wordt gezien van ervaring op de accuratesse, doordat de accuratesse van de risicotaxatie beter zichtbaar is vanwege het ontbreken van de invloed van behandeling op recidive.

Een laatste manier om de invloed van behandeling op de accuratessemeting te onderzoeken is door te bepalen of de behandeling goed aansluit op de risicotaxatie. Er kan gekeken worden naar de aansluiting van de behandeldoelen op de risicofactoren en de aansluiting van de behandelintensiteit op het recidiverisico. Als de behandeling gebaseerd is op een accurate risicotaxatie zou deze effectiever moeten zijn, dan wanneer deze minder goed aansluit op een accurate risicotaxatie. Daar staat tegenover dat een accurate start risicotaxatie accurater kan lijken als de behandeling daar niet goed op aansluit. Dit komt omdat de behandeling dan niet het sterkste recidive verlagende effect heeft, waardoor de starttaxatie en de daadwerkelijk recidive beter overeenkomen.

Tot slot is er in dit onderzoek gekeken naar de gehele cliënten- en behandelaarspopulatie. In verder onderzoek is het nog interessant om te kijken of de

(26)

accuratesse van de risicotaxaties bij verschillende soorten groepen cliënten of behandelaars wel afhangt van ervaring. Mogelijk is het moeilijker om het recidiverisico in te schatten bij cliënten met complexere problematiek (zoals meerdere diagnoses of persoonlijkheids-stoornissen) of bij cliënten die in een ander kader in behandeling zijn (vrijwillig of verplicht).

Conclusie

Er bleek geen invloed van de beoordelaarservaring op de accuratesse van de risicotaxatie. Ongeacht hun ervaring schatten de behandelaren het recidiverisico even accuraat in. Deze grote prospectieve studie met goede ecologische validiteit geeft een sterke onderbouwing voor deze stelling. Het is echter nog wel van belang om de invloed van behandeling op recidive verder te onderzoeken, aangezien volgens het RNR-model (Andrews & Bonta, 2006) risicotaxatie sterk verbonden is met de behandeling als het gaat om recidive(vermindering).

Literatuurlijst

Andrews, D. A., & Bonta, J. (2006). The psychology of criminal conduct (4th Ed.). Newark, NJ: LexisNexis.

Burrill, D. F. (1989). Modeling and interpreting interactions in multiple regression. Opgehaald van https://scholar.google.com/scholar_lookup?title=Modeling%20and%20Interpreting %20Interactions%20in%20Multiple%20Regression&author=DF.%20Burrill&journal=Ed ucation&volume=27&pages=1-12&publication_year=1989

Centraal Bureau voor de Statistiek (2015, 17 juli). Geregistreerde criminaliteit. Opgehaald van http://statline.cbs.nl/Statweb/publication/?DM=SLNL&PA=83032ned&D1=0,3-4&D2=0-1,18,41,58-59,68,71-72&D3=0&D4=5-9&HDR=T,G3&STB=G2,G1&VW=T

Cullen, A. E., Clarke, A. Y., Kuipers, E., Hodgins, S., Dean, K., & Fahy, T. (2012). A multisite randomized trial of a cognitive skills program for male mentally disordered offenders: violence and antisocial behavior outcomes. Journal of Consulting and Clinical Psychology, 80(6), 1114 -1120.

Douglas, K. S., Ogloff, J. R. P., & Hart, S. D. (2003). Evaluation of a model of violence risk assessment among forensic psychiatric patients. Psychiatric Services, 54(10), 1372-1379.

(27)

Eisenberg, M. J., van Horn, J. E., van der Put, C. E., Hendriks, J., & Stams, G. J. J. M. (2015). Vooronderzoek ‘Kernset risicofactoren ambulant behandelde delinquenten’. Kwaliteit Forensische zorg.

Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E., & Nelson, C. (2000). Clinical versus mechanical prediction: a meta-analysis. Psychological Assessment, 12(1), 19-3.

Guy, L. S., Packer, I. K., & Warnken. W. (2012). Assessing risk of violence using structured professional judgment guidelines. Journal of Forensic Psychology Practice, 12(3), 270-283.

Hanson, R. K., & Bussière, M. T. (1998). Predicting relapse: a meta-analysis of sexual offender recidivism studies. Journal of Consulting and Clinical Psychology, 66(2), 348-362.

Hanson, R. K., & Morton-Bourgon, K. E. (2009). The accuracy of recidivism risk assessments for sexual offenders: a meta-analysis of 118 prediction studies. Psychological Assessment , 21(1), 1-21.

Helmus, L., Hanson, R. K., Babchishin, K. M., & Thornton, D. (2015). Sex offender risk assessment with the Risk Matrix 2000: validation and guidelines for combining with the STABLE-2007. Journal of Sexual Aggression, 21(2), 136-157.

Horn, J. van, Wilpert, J., Bos, M. G. N. & Mulder, J. (2008). De WaagSchaal: een andere visie op risicotaxatie. Panopticon, 6, 28-39.

Horn, J. van, Wilpert, J., Scholing, A. & Mulder, J. (2006; 2008; 2009; 2012). Handleiding RAF GGZ (WaagSchaal) Volwassenen Risicotaxatie-instrument voor de Ambulante Forensische Psychiatrie. Utrecht: Forum Educatief.

Kleinbaum, D. G., & Klein, M. (2005). Survival analyses: A self-learning text (2th ed.). New York: Springer.

Lowenkamp, C. T., Latessa, E. J., & Holsinger, A. M. (2006). The risk principle in action: what have we learned from 13,676 offenders and 97 correctional programs? Crime & Delinquency, 52(1), 77-93.

Marco (2011, 3 oktober). Re: When to use generalized estimating equations vs. mixed effects models [online discussie bericht]? Opgehaald van http://stats.stackexchange.com/ questions/ 16390/when-to- use-generalized- estimating-equations-vs-mixed-effects-models

(28)

McNiel, D. E., Chamberlain, J. R., Weaver, C. M., Hall, S. E., Fordwood, S. R., & Binder, R. L. (2008). Impact of clinical training on violence risk assessment. The American Journal of Psychiatry, 165(2), 195-2.

Mukaka, M. M. (2012). Statistics Corner: A guide to appropriate use of Correlation coefficient in medical research. Malawi Medical Journal, 24(3), 69-71.

Penney, S. R., McMaster, R., & Wilkie, T. (2014). Multirater reliability of the historical, clinical, and risk management-2. Assessment, 21(1), 15-27.

Pedersen, L., Rasmussen, K., & Elsass, P. (2010). Risk assessment: the value of structured professional judgments. International Journal of Forensic Mental Health, 9(2), 74-81. Quesada, S. P., Calkins, C., & Jeglic E. L. (2014). An examination of the interrater reliability

between practitioners and researchers on the Static-99. International Journal of Offender Therapy and Comparative Criminology, 58(11) 1364-1375.

Rice, M. E., & Harris, G. T. (2005). Comparing effect sizes in follow-up studies: ROC area, Cohen's d, and r. Law and Human Behavior, 29(5), 615-62.

Spengler, P. M., White, M. J., Ægisdóttir, S., Maugherman, A. S., Anderson, L. A., Cook, R. S., et al. (2009). The meta-analysis of clinical judgment project: effects of experience on judgment accuracy. The Counseling Psychologist, 37(3), 350-399.

Stadtland, C., Hollweg, H., Kleindienst, N., Dietl, J., Reich. U., & Nedopil, N. (2005). Risk assessment and prediction of violent and sexual recidivism in sex offenders: Long-term predictive validity of four risk assessment instruments. The Journal of Forensic Psychiatry & Psychology, 16(1), 92-108.

Sturidsson, K., Haggård-Grann, U., Lotterberg, M., Dernevik, M., & Grann, M. (2004). Clinicians' perceptions of which factors increase or decrease the risk of violence among forensic out-patients. International Journal of Forensic Mental Health, 3(1), 23-36. Sutherland, A. A., Johnstone, L., Davidson, K. M., Hart, S. D., Cooke, D. J., Kropp, P. R., et al.

(2012). Sexual violence risk assessment: an investigation of the interrater reliability of professional judgments made using the risk for sexual violence protocol. International Journal of Forensic Mental Health, 11(2), 119-133.

Teo, A. R., Holley, S. R., Leary, M., & McNiel, D. E. (2012). The relationship between level of training and accuracy of violence risk assessment. Psychiatric Services, 63(11), 1089-1094.

(29)

Therneau, T. M. (2011, 27 juni). Re: cluster() or frailty() in coxph [online discussiebericht]. Opgehaald van http://r.789695.n4.nabble.com/cluster-or-frailty-in-Coxph-td3625556. html

Therneau, T. M. (2016). R: package survival (versie 2.39-4) [software]. Beschikbaar op https://cran.r-project.org/web/packages/survival/survival.pdf.

Vogel, V. de, & Ruiter, C. de (2006). Structured professional judgment of violence risk in forensic clinical practice: A prospective study into the predictive validity of the Dutch HCR-2. Psychology, Crime & Law, 12(3): 321-336.

Walters, G. D., Kroner, D. G., DeMatteo, D., &. Locklair, B. R. (2014). The impact of base rate utilization and clinical experience on the accuracy of judgments made with the HCR-2. Journal of Forensic Psychology Practice, 14(4), 288-301.

Wierzbicki, M. (2011, 22 oktober) Re: What is the difference between generalized estimating equations and GLMM [online discussiebericht]? Opgehaald van http://stats.stack

(30)

Bijlage 1

Vereenvoudigde versie van het R-script ## Overeenstemming tussen de risicogroepen en recidive

# Geclusterde Kaplan Meier analyse met het hoofdeffect van recidiverisico survdiff(Surv(tijd, status_recidive) ~ recidiverisico +

cluster(behandelaar), data)

# Geclusterde Cox regressie-analyse met het hoofdeffect van recidiverisico coxph(Surv(tijd, status_recidive) ~ recidiverisico + cluster(behandelaar), data) -> out2

cox.zph(out2) plot(cox.zph(out2))

## De invloed van ervaring met het risicotaxatie-instrument

# Geclusterde Cox regressie-analyse met het hoofdeffect van recidiverisico en ervaring met de RAF GGZ

coxph(Surv(tijd, status_recidive) ~ recidiverisico + ervaringRAF + cluster(behandelaar), data) -> out3

cox.zph(out3) plot(cox.zph(out3)) AIC(out2, out3) BIC(out2, out3)

# Geclusterde Cox regressie-analyse met het hoofdeffect van recidiverisico gestratificeerd op de RAF GGZ ervaringsgroepen

coxph(Surv(tijd, status_recidive) ~ recidiverisico +

strata(ervaringRAFgroepen) + cluster(behandelaar), data) -> out4 cox.zph(out4)

plot(cox.zph(out4)) AIC(out2, out4) BIC(out2, out4)

# Geclusterde Cox regressie-analyse met het interactie-effect tussen recidi verisico en ervaring met de RAF GGZ gestratificeerd op de RAF GGZ ervarings groepen

coxph(Surv(tijd, status_recidive) ~ recidiverisico*ervaringRAF + strata(ervaringRAFgroepen) + cluster(behandelaar), data) -> out5 cox.zph(out5)

## De invloed van werkervaring in de geestelijke gezondheidszorg

# Geclusterde Cox regressie-analyse met het hoofdeffect van recidiverisico en werkervaring in de ggz

coxph(Surv(tijd, status_recidive) ~ recidiverisico + ervaringGGZ + cluster(behandelaar), data) -> out6

(31)

# Geclusterde Cox regressie-analyse met het interactie-effect tussen recidi verisico en werkervaring in de ggz

coxph(Surv(tijd, status_recidive) ~ recidiverisico*ervaringGGZ + cluster(behandelaar), data) -> out7

cox.zph(out7) plot(cox.zph(out7)) AIC(out2, out7) BIC(out2, out7)

# Geclusterde Cox regressie-analyse met het interactie-effect tussen recidi verisico en werkervaring in de ggz gestratificeerd het recidiverisico coxph(Surv(tijd, status_recidive) ~ recidiverisico*ervaringGGZ + strata(recidiverisico) + cluster(behandelaar), data) -> out8 cox.zph(out8)