J-SOAP D : psychometrische kwaliteit van de Juvenile Sex Offender Assessment Protocol Dutch Version en de mate van verandering na behandeling van jeugdige zedendelinquenten

(1)

Faculteit der Maatschappij- en Gedragswetenschappen Graduate School of Child Development and Education

J-SOAP D

Psychometrische Kwaliteit van de Juvenile Sex Offender Assessment Protocol Dutch Version en de Mate van Verandering na Behandeling van Jeugdige Zedendelinquenten

Masterscriptie Forensische Orthopedagogiek Graduate School of Child Development and Education Universiteit van Amsterdam

Student: Th.J.M. Zuijdwijk Studentnummer: 10474021

Begeleider: prof. dr. J. Hendriks Begeleider ‘de Waag’: dr. J.E. van Horn

Tweede beoordelaar: dr. E.S. van Vugt

(2)

Abstract

An important aspect in prevention of recidivism and treatment among juvenile sex offenders is a risk assessment. There has been limited research on the psychometric properties of the Dutch version of the Juvenile Sex Offender Protocol II (J-SOAP II). This study examined the interrater agreement and a pretest-posttest analysis on the raters (recidivism) risk estimation before and after treatment on the J-SOAP Dutch version (J-SOAP D). The outcomes on the interrater agreement by the Intraclass Correlation Coefficient (ICC) showed that the total score is excellent (>.75). Results on the pretest-posttest presented a significant decrease on the ‘Intervention’ and the ‘Community Stability/Adjustment’ scales after treatment. The overall clinical judgement was significantly lower for the estimation on sexual recidivism but not on non-sexual recidivism. As a result of the small sample size and the absence of a control group this research is limited to draw more specific conclusions.

Keywords: J-SOAP, juvenile sex offender, risk assessment, inter-rater reliability,

(3)

Samenvatting

Een belangrijk aspect van recidivepreventie en behandeling bij jeugdige zedendelinquenten is een risicotaxatie. Er is in beperkte mate onderzoek gedaan naar de psychometrische

eigenschappen van de Nederlandse versie van de Juvenile Sex Offender Protocol II (J-SOAP II). In deze studie is er onderzoek gedaan naar de interbeoordelaarsbetrouwbaarheid en een pretest-posttestanalyse van de beoordelaars (recidive)risicobeoordeling voor en na

behandeling met gebruik van de J-SOAP Dutch version (J-SOAP D).

De interbeoordelaarsbetrouwbaarheid gemeten in een Intraclass Correlation Coefficient (ICC) blijkt voor de totale score uitstekend (>.75). De resultaten van de pretest-posttest laten een significante verlaging zien op de schalen: ‘Interventie’ en ‘Persoonlijke en

maatschappelijke stabiliteit’. Het uiteindelijke klinische oordeel was significant lager bij de inschatting op seksuele recidive, maar niet op niet-seksuele recidive.

Gelet op de kleine onderzoeksgroep en het ontbreken van een controlegroep is dit onderzoek beperkt in het trekken van meer specifieke conclusies.

Keywords: J-SOAP, jeugdzeden, risicotaxatie-instrument,

(4)

Inhoudsopgave Abstract ... 2 Samenvatting ... 3 Inleiding ... 5 Methode ... 13 Onderzoeksgroep ... 13 Instrumenten ... 14 Procedure ... 15 Analyses ... 16 Resultaten ... 16 Interbeoordelaarsbetrouwbaarheid ... 16 Pretest-posttest ... 18

Wilcoxon signed-rank test ... 19

Discussie ... 20

Beperkingen van het onderzoek en aanbevelingen ... 23

(5)

J-SOAP D

Psychometrische Kwaliteit van de Juvenile Sex Offender Assessment Protocol Dutch Version en de Mate van Verandering na Behandeling van Jeugdige Zedendelinquenten

Sinds 2007 daalt de criminaliteit onder jongeren. Desondanks zijn er in 2012 nog rond de 19.000 minderjarigen aangehouden voor een misdrijf. Ze vormen, met ruim een derde, een belangrijk deel van het totaal aangehouden verdachten in Nederland (Centraal Bureau voor de Statistiek [CBS], 2014). Het betreft voor het grootste deel vermogensmisdrijven (51%), gevolgd door openbare orde misdrijven en vernielingen (29%) en gewelds- en seksuele misdrijven (23%) (Wetenschappelijk Onderzoeks- en Documentatiecentrum [WODC], 2013). Vooral de seksuele misdrijven zorgen voor veel maatschappelijke ophef en krijgen ruim aandacht in de media. De gevolgen van deze misdrijven zijn aanzienlijk. Uit onderzoek blijkt dat slachtoffers van seksueel misbruik meer medische problemen en psychische problemen zoals angst, depressie en posttraumatische stress ervaren dan wanneer er geen misbruik heeft plaatsgevonden (Nagtegaal, 2012). In vergelijking met slachtoffers van fysiek en emotioneel geweld, ondervinden slachtoffers van seksueel misbruik op langere termijn meer seksuele problemen (Green, 1988; Mullen, Martin, Anderson, Romans, & Herbison, 1996).

Voor de daders kunnen de gevolgen ook een grote impact hebben op hun persoonlijke en maatschappelijke leven. Uitsluiten, stigmatiseren en isoleren van de maatschappij in plaats van re-integreren in de maatschappij maakt het voor de dader moeilijker om een bestaan op te bouwen, wat de kans op recidive vergroot (Wakefield, 2006).

Over de grootte van de groep jeugdige zedendelinquenten in Nederland bestaat geen eenduidigheid. Uit de cijfers van het CBS (2012) blijkt dat 16,4 procent van alle

geregistreerde verdachten van een seksueel misdrijf minderjarig is. Aangezien er niet van elk seksueel misdrijf een melding of aangifte wordt gedaan, is het aannemelijk dat het werkelijke percentage onder jeugdigen aanzienlijk hoger ligt. Verondersteld wordt, hetgeen naar voren

(6)

komt uit slachtofferenquêtes, dat het dark number hoog is (Hendriks, 2006). Gezien het aandeel jeugdigen binnen de gehele zedendelinquentie en de maatschappelijke problemen die het hen op jonge leeftijd geeft, is preventie en signalering van seksuele misdrijven en

onderzoek naar effectieve behandelvormen van belang gebleken.

Onderzoek naar de kenmerken van jeugdige zedendelinquenten komt pas rond 1980 van de grond, in met name de Verenigde Staten. Voor die tijd ligt de focus van onderzoek vooral op volwassen zedendelinquenten en wordt seksueel gedrag bij jeugdigen gezien als nieuwsgierigheid en experimenteergedrag (Veneziano & Veneziano, 2002). In Nederland begint men eind jaren ’90 met wetenschappelijk onderzoek naar jeugdige zedendelinquenten (Wijk, Schoenmakers, & Kerkhof-van Holsteijn, 2012).

Uit de literatuur blijkt dat jeugdige zedendelinquenten een heterogene groep vormen (Caldwell, 2002). Ze kunnen onderscheiden worden naar type delict dat zij plegen,

bijvoorbeeld wel of geen fysiek contact met het slachtoffer (hands-off versus hands-on) en plegers die met name kinderen misbruiken of naast zedendelicten ook niet seksuele delicten plegen (specialisten versus generalisten) (Fehrenbach, Smith, Monastersky, & Deisher, 1986; Hissel et al., 2006). Een ander onderscheid is te maken in het type slachtoffers dat zij maken (leeftijdsgenoten versus kinderen die minimaal vier jaar jonger zijn dan de pleger) (Gunby & Woodhams, 2010). Het indelen in subtypen blijkt in de praktijk soms lastig. Plegers kunnen gedurende de tijd wisselen van type delict of type slachtoffer (Wijk, Bullens, & Eshof, 2007). Het classificeren van verschillende typen delictplegers draagt echter wel bij aan het zoeken naar mogelijke oorzaken van het misbruik, het zicht krijgen op recidiverisico door het ontwikkelen van risicotaxatie-instrumenten en het bieden van aanknopingspunten voor behandeling van het delictgedrag. Mede gezien de heterogeniteit onder jeugdige

zedendelinquenten is het bieden van een passende behandeling een moeilijke opgave. Daarbij speelt ook een rol dat de factoren die tot zedendelicten kunnen leiden zeer uiteen lopen.

(7)

Op individueel niveau wordt er in plaats van een one size fits all behandeling, gekeken naar een behandeling op maat met de mogelijkheid om gebruik te maken van verschillende behandelmethoden. Onderzoeken bij volwassen en adolescente zedendelinquenten hebben aangetoond dat de effectiviteit van de behandeling toeneemt wanneer de principes van het

Risk, Need and Responsivity model (RNR) gevolgd zijn (Hanson, Bourgon, Helmus, &

Hodgson, 2009). Het RNR-model geeft richtlijnen over wie (risk), wat (need) en hoe (responsivity) er behandeld dient te worden. Met behulp van een risicotaxatie-instrument kunnen de veranderbare (dynamische) risicofactoren in kaart gebracht worden die behandeling behoeven om de kans op recidive te verlagen. De meest voorspellende

risicofactoren op seksuele recidive waar een algemene consensus over bestaat zijn: deviante seksuele interesse en een antisociale oriëntatie/levensstijl (Hanson et al., 2009; Hanson & Bussière, 1998; Hanson & Morton-Bourgon, 2005; Quinsey, Lalumière, Rice, & Harris, 1995; Roberts, Doren, & Thornton, 2002). Voor de behandelinterventie is het hierbij belangrijk om aan te laten sluiten bij onder meer de leerstijl, motivatie en cognitieve vermogens

(responsiviteit) van de delinquent (Przybylski, 2014). Met name bij een gebrek aan motivatie en/of wanneer er sprake is van een psychische stoornis kan dit een aanpassing van

behandelprogramma vereisen om aan de specifieke needs te voldoen (Hanson & Yates, 2013). Om te bepalen wie en in welke mate behandeling krijgt, wordt er binnen forensische zorginstellingen steeds vaker gebruik gemaakt van een risicotaxatie-instrument met als doel de risicofactoren en de protectieve factoren in kaart te brengen.

Er bestaan verschillende methoden om een risicotaxatie uit te voeren. Bij een ongestructureerde klinische risicotaxatie bepaalt de clinicus het recidiverisico op basis van diens kennis en ervaring. De risicofactoren die gebruikt worden om tot een oordeel te komen zijn in sterke mate afhankelijk van de clinicus zelf (Wijk et al., 2007). Bij deze methode van risicotaxatie blijkt de voorspelling nagenoeg gelijk aan toeval en derhalve onbetrouwbaar

(8)

(Philipse, 2005). Een methode waarbij een vastliggende procedure wordt gevolgd is een actuariële risicotaxatie. Hierbij wordt het recidiverisico middels een rekenkundige formule bepaald op basis van risicofactoren die verkregen zijn uit wetenschappelijk onderzoek. Deze methode heeft als voordeel dat er minder deskundigheid nodig is om tot een oordeel te komen omdat er bij actuariële instrumenten veelal gebruikt gemaakt wordt van statische (niet

veranderbare) risicofactoren. Risicotaxatie-instrumenten die louter gebruik maken van statische risicofactoren blijken minder geschikt binnen een behandelcontext waarin er veel belang gehecht wordt aan de risicofactoren die door behandeling zijn te beïnvloeden (Harte & Breukink, 2010).

Een integratie van de twee vorenstaande methoden is een gestructureerde klinische risicotaxatie. Instrumenten volgens deze methode zijn met name gericht op dynamische risicofactoren waarvan in wetenschappelijk onderzoek is gebleken dat er een relatie is met een verhoogd recidiverisico (Ruiter, 2010). De clinicus gebruikt naast de empirisch onderbouwde factoren zijn kennis en ervaring om tot een gewogen klinisch oordeel te komen. Een

belangrijk voordeel van deze methode is dat het de clinicus ruimte geeft om individuele risicofactoren mee te nemen in de beoordeling. Dit is van belang bij het maken van keuzen met betrekking tot de inhoud en de intensiteit van de behandeling om zodoende potentiële risico’s op recidive te beperken. Bij een laag recidiverisico kan dan worden volstaan met een kortdurende (ambulante) behandeling, waar een hoog recidiverisico een meer intensieve (klinische) behandeling vereist. De voordelen van deze risicotaxatie-instrumenten zijn dat er meer uniformiteit ontstaat in het beoordelen door behandelaars, maar ze helpen ook om de sterke (protectieve) factoren te belichten en bieden aandachtspunten voor evaluatie en vervolg van behandeling (Rooijen & Bartelink, 2010). Naast de voordelen is er ook kritiek. In een onderzoek naar risicotaxatie-instrumenten die in Nederland in gebruik zijn van Harte en Breukink (2010), stellen zij dat het bij risicotaxatie-instrumenten ontbreekt aan een

(9)

theoretisch kader. De voorspellers van recidive die worden gevonden, zijn niet verkregen door specifiek onderzoek, maar willekeurig bijeen gebracht door gegevens van grote databestanden te doorzoeken en de kenmerken die samenhangen met recidiverisico te gebruiken bij de ontwikkeling van risicotaxatie-instrumenten. Ongeacht dat deze kenmerken een samenhang hebben met recidiverisico zegt het onvoldoende iets over de betekenis van die relatie, met het gevaar dat een causaal verband wordt verondersteld waar het een spurieuze relatie betreft (Harte & Breukink, 2010). Er is ook kritiek op de voorspelbaarheid van toekomstig

delictgedrag (predictieve validiteit) met behulp van deze instrumenten. Omdat (toevallige) situationele factoren bij recidive niet uit te sluiten zijn, is er een limiet aan de prestaties die een instrument kan behalen. Volgens Bogaerts en Nagtegaal (2008) is deze limiet in

wetenschappelijke en statistische zin al bijna bereikt ondanks dat er nog weinig onderzoek is gedaan naar de predictieve validiteit van risicotaxatie-instrumenten in Nederland. Behoudens de kritiek is de benadering van risicotaxatie volgens het gestructureerde klinische oordeel tot op heden de meest optimale methode (Ruiter, 2010).

Het aantal gestructureerde klinische risicotaxatie-instrumenten speciaal ontwikkeld voor jeugdige zedendelinquenten is beperkt. In de tijd voorafgaand aan de ontwikkeling van deze risicotaxatie-instrumenten bestaan er alleen instrumenten die ontwikkeld zijn voor volwassen plegers van seksuele delicten (Hanson & Morton-Bourgon, 2009). Het inschatten van het recidiverisico bij jeugdigen is, in vergelijking met volwassenen, moeilijker omdat zij in lichamelijk, neurologisch, emotioneel, cognitief en gedragsmatig opzicht nog volop in ontwikkeling zijn en daardoor meer mogelijkheden tot verandering hebben (Rich, 2009). Naast de Juvenile Sex Offender Assessment Protocol (J-SOAP) (Prentky & Righthand, 1994) zijn er internationaal gezien nog twee instrumenten waar uitvoerig onderzoek naar is gedaan. Dit zijn de Estimate of Risk of Adolescent Sexual Offence Recidivism (ERASOR) (Worling & Curwin, 2001) en de Juvenile Sex Offence Recidivism Risk Assessment (J-SORRAT II)

(10)

(Epperson, Ralston, Fowlers, DeWitt, & Gore, 2006). Voor wat betreft onderzoek naar de psychometrische kwaliteit en de predictieve validiteit is de J-SOAP het meest onderzocht van de drie instrumenten en behaalt het ook de beste resultaten (Rich, 2015). Hoewel er enige empirische ondersteuning is voor de predictieve validiteit kunnen echter geen van de drie instrumenten consistent aantonen dat het seksuele recidive accuraat voorspelt (Rich, 2015). Desondanks is er op basis van meerdere onderzoeken voldoende ondersteuning voor een aantal risicofactoren waarop een ethisch acceptabel en verdedigbaar oordeel te baseren is voor seksuele recidive (Worling & Långström, 2003). De meest ondersteunende factoren, welke ook terugkomen in de J-SOAP, zijn: seksueel deviante interesses, eerdere (veroordelingen voor) gepleegde seksuele delicten, een voor de pleger onbekend slachtoffer en een gebrek aan leeftijdsgelijke sociale contacten dan wel sociale isolatie (Worling & Långström, 2003).

De J-SOAP is een risicotaxatie-instrument volgens het gestructureerde klinische oordeel die, sinds het ontstaan in 1994, verder is ontwikkeld en veel gebruikt wordt in de Verenigde Staten. Het instrument bestaat uit 28 items, verdeeld over 4 subschalen. De schalen I ‘Sexual Drive/Preoccupation’ en II ‘Impulsive/Antisocial Behavior’ bestaan uit statische risicofactoren en de schalen III ‘Intervention’ en IV ‘Community Stability/Adjustment’ uit dynamische factoren. Naar de huidige versie, de J-SOAP II (Prentky & Righthand, 2003), zijn meerdere onderzoeken gedaan over de psychometrische kwaliteit van het instrument. De interne consistentie, gemeten met Cronbach’s alpha coëfficiënt (Cronbach, 1951), blijkt in meerdere onderzoeken goed te zijn met waarden tussen de .81 en .87 (Aebi, Plattner, Steinhausen, & Bessler, 2011; Fanniff & Letourneau, 2012; Martinez, Flores, & Rosenfeld, 2007; Parks & Bard, 2006). Op schaalniveau halen de schalen, I en IV niet de geaccepteerde grenswaarde van betrouwbaarheid (≥ .70), met een α van .56 en .69 (Aebi et al., 2011; Martinez et al, 2007).

(11)

De bevindingen betreffende de interbeoordelaarsbetrouwbaarheid zijn voor de

totaalscore goed tot uitstekend met een Intraclass Correlation Coefficient (ICC)1 van ≥ .70 tot ≤ .94 (Aebi et al., 2011; Chu, Hg, Fong, &Teoh, 2012; Fanniff & Letourneau, 2012; Martinez et al., 2007; Prentky, Pimental, Cavanaugh, & Righthand, 2009; Rajlic & Gretton, 2010; Viljoen et al., 2007). Op schaalniveau zijn de verschillen groot. Schaal II komt in een onderzoek met een matige ICC-waarde van .55 naar voren (Aebi et al., 2011) en schaal IV matig tot slecht met .42 en .07 (Fanniff & Letourneau, 2012; Martinez et al, 2007). De onderzoeken naar de predictieve validiteit geven geen eenduidig beeld. In een aantal studies wordt gevonden dat de J-SOAP II totaalscore seksuele recidive voorspelt met een Area Under

Curve (AUC2) van .65 tot .80 (Aebi et al.; Hempel, Buck, Cima, & Marle, 2013; Martinez et al., 2007; Prentky et al., 2010; Rajlic & Gretton, 2010; Viljoen, Mordell, & Beneteau, 2012), waar andere studies geen significante resultaten laten zien (Caldwell, Ziemke, & Vitacco, 2008; Hempel et al., 2013; Parks & Bard, 2006; Viljoen et al., 2012; Viljoen et al., 2008). Het aantal studies waarbij de J-SOAP II is gebruikt bij een pretest-posttestmeting is zeer beperkt. In een recent onderzoek met een quasi-experimenteel design van Refuss et al. (2013), is er bij een groep jeugdige zedendelinquenten gemeten of er op de dynamische schaal van de J-SOAP II veranderingen zijn na behandeling. Voor de behandeling is de J-SOAP II afgenomen en gebruikt om een verdeling te maken in laag, matig en hoog voor de mate van recidiverisico en behandelduur. In het onderzoek wordt er gekeken naar de houding ten opzichte van de slachtoffers met de hypothese dat door de behandeling deze houding verandert en de score op de dynamische schaal III afneemt. Uit een datacollectie over een

1_{Als kritische ICC-waarden zijn de richtlijnen van Shrout en Fleiss (1979) aangehouden: ICC ≥0,75 =}

uitstekend, 0,60 ≤ ICC ≤0,75 = goed, 0,40 ≤ ICC ≤0,60 = matig, ICC <0,40 = slecht.

2_{De maximale waarde van de AUC is 1.0 als indicatie voor een (theoretisch) perfecte positief voorspellende}

waarde. Een AUC-waarde van 0.5 is een indicatie gebaseerd op kans en een waarde van 0 geeft een volledig negatief voorspellende waarde weer.

(12)

periode van vijf jaar blijkt dat de groep met een matig risico na behandeling een significante daling op de dynamische schaalscores laat zien (Rehfuss et al., 2013).

De Nederlandse vertaling en bewerking van de J-SOAP II is in 2003 in Nederland geïntroduceerd onder de naam Juvenile Sex Offender Assessment Protocol-Dutch version (J-SOAP D) (Bullens, Horn, Eck, & Das, 2005). Onderzoek naar de psychometrische kwaliteit van de J-SOAP D is gering. Uit een onderzoek naar de J-SOAP D, waarbij versie I van de handleiding is gebruikt, blijkt de interbeoordelaarsbetrouwbaarheid op de eerste drie schalen uitstekend met waarden tussen .73 en .89, maar schaal IV presteert slecht met een ICC-waarde van .39 (Eck, 2005). In twee andere onderzoeken is de

interbeoordelaarsbetrouwbaarheid goed tot uitstekend met ICC-waarden tussen .64 en .97 op de vier schalen (Bullens et al., 2005; Horn, Scholing, & Mulder, 2005). Naar de predictieve validiteit van de J-SOAP D is tot op heden nog geen onderzoek verricht. Ook de J-SOAP D is onderhevig aan de ontwikkelingen op het gebied van risicotaxatie voor jeugdige

zedendelinquenten. Nieuwe onderzoeken en inzichten vragen voortdurend om aanpassing van het instrument. De meest recente bewerking van de J-SOAP D-handleiding is versie III uit 2014. Er zijn op basis van het onderzoek met de eerdere versie van de handleiding een aantal wijzigingen aangebracht in de formulering en toelichting van items. In versie II (2012) van de handleiding zijn naar aanleiding van klinische ervaring met de J-SOAP D en internationaal onderzoek naar de J-SOAP II wijzigingen aangebracht in de formulering van twee

schaalnamen omdat de eerdere benamingen de lading niet geheel dekte. Er zijn ook

wijzigingen aangebracht in de toelichting op de scores van items. De wijzigingen die in versie III zijn aangebracht zijn minimaal en betreffen aanpassingen in de formulering van items waar deze voor verwarring zorgde. Naar deze versie is nog geen onderzoek gedaan.

In dit onderzoek wordt hiertoe een eerste stap gezet. Tevens zal er gekeken worden naar het verschil in de interbeoordelaarsbetrouwbaarheid aan de hand van het gebruik van

(13)

versie I en versie III van de handleiding bij het scoren van de J-SOAP D. Hiervoor is gekozen omdat het verschil tussen versie II en versie III van de handleiding minimaal is. De resultaten van dit onderzoek dragen bij aan de klinische relevantie van de J-SOAP D als risicotaxatie-instrument om het recidiverisico zo accuraat mogelijk te beoordelen, de behandeling zo effectief mogelijk vorm te geven en om te kunnen evalueren of de behandeling tot de beoogde verandering heeft geleid (Nieuwenhuizen & Philipse, 2002).

Specifiek worden de onderstaande onderzoeksvragen onderzocht:

1. Wat is de interbeoordelaarsbetrouwbaarheid van de J-SOAP D (versie III)? Verwacht wordt dat de overeenstemming op itemniveau merendeels matig tot goed is. Op schaalniveau en in zijn totaliteit is de verwachting dat de overeenstemming goed tot uitstekend is (Bullens et al., 2005; Eck, 2005; Horn et al., 2005).

2. Is er een verschil in de J-SOAP D (versie III) schaalscores en risicobeoordeling op de nameting (T1) in vergelijking met de voormeting (T0) bij jeugdige

zedendelinquenten? Verwacht wordt dat de score bij met name de dynamische schalen en de risicobeoordeling voor seksuele recidive lager is bij T1 in vergelijking met T0 (Rehfuss et al., 2013).

Methode Onderzoeksgroep

De initiële onderzoeksgroep bestond uit 117 mannelijke jeugdige zedendelinquenten die in de periode 2008-2014 bij de Waag, centrum voor ambulante forensische GGZ werden behandeld. Voor het onderhavig onderzoek zijn er hieruit aselect 50 geselecteerd die een individuele en/of een groepsbehandeling kregen. Zij hadden een gemiddelde leeftijd van 14,68 jaar (SD = 1,56; range 10-17 jaar). De behandelduur betrof gemiddeld 17,61 maanden (SD = 10,05; range 1,87-46,09 maanden). Vanwege het geringe aantal vrouwelijke jeugdige zedendelinquenten die aangemeld werden, zijn zij, om de homogeniteit te vergroten,

(14)

geëxcludeerd van dit onderzoek. In tabel 1 zijn enkele demografische gegevens en kenmerken van delict en behandeling weergegeven.

Tabel 1

Demografische gegevens en kenmerken van delict/behandeling

n % Afkomst Autochtoon 45 90.0 Allochtoon 5 10.0 Type delinquent Specialist 34 68.0 Generalist 16 32.0 Type delict Hands-on 42 84.0 Hands-off 7 14.0 Beide 1 2.0 Geslacht slachtoffer Jongen 8 16.0 Meisje 42 84.0 Type behandeling Individueel 35 70.0 Groep 12 24.0 Beide 3 6.0 Behandelkader Vrijwillig 36 72.0 Verplicht 14 28.0 Instrumenten

De J-SOAP D bestaat zoals eerder genoemd uit 28 items binnen vier schalen. De schalen zijn onderverdeeld in twee secties. De eerste sectie bevat schaal I ‘Seksuele drang/preoccupatie’ en schaal II ‘Impulsief/antisociaal gedrag’ met daarin de items die de statische of stabiel dynamische risicofactoren weergeven. De tweede sectie bestaat uit schaal III ‘Inzicht en responsiviteit’ en schaal IV ‘Persoonlijke en maatschappelijke stabiliteit’ met de items die de dynamische risicofactoren van de afgelopen zes maanden meten. De items werden gescoord op een 3-puntsschaal: een score 0 geeft aan dat de risicofactor afwezig is, bij een score 1 is de risicofactor in enige mate aanwezig en bij een score van 2 is de risicofactor duidelijk aanwezig.

(15)

Per schaal wordt er met gebruikmaking van de onderstaande formule een kansproportie berekend die een waarde kan hebben tussen de 0 en 1.

Σ

items

aantal ingevulde items * 2

Het oplopen van de kansproportie betekent dat de aanwezigheid van risicofactoren toeneemt. Ofschoon de J-SOAP D geen actuarieel instrument is en er geen cutoff-waarden zijn voor laag, matig en hoog risico, geeft de kansproportie een richting om tot een gewogen professioneel oordeel te komen.

Procedure

Het onderhavige onderzoek werd gebaseerd op dossierinformatie en uitgevoerd in de periode januari 2015 tot juli 2015. De onderzoeksopzet was tweeledig. Als eerste werd de betrouwbaarheid van het instrument onderzocht door het toetsen van de mate van

overeenstemming tussen twee beoordelaars. Vervolgens is er middels een

pretest-posttestdesign gekeken naar de verschillen in de recidiverisicobeoordeling tussen de start en afronding van de behandeling.

Om de interbeoordelaarsbetrouwbaarheid vast te stellen werden 20 dossiers door twee getrainde beoordelaars onafhankelijk van elkaar gescoord. Na elke 5 dossiers werden de verschillen in scores met elkaar vergeleken en een consensusscore bepaald. Bij structurele verschillen, door onduidelijkheden in de handleiding, werden deze genoteerd en afspraken gemaakt hoe het desbetreffende item in vervolg te interpreteren. De overige 30 risicotaxaties werden door één beoordelaar uitgevoerd. Per dossier werden twee risicotaxaties gescoord: de eerste (T0) was gebaseerd op informatie uit het intakeverslag en informatie die voor de intakedatum bekend was. Voor de tweede risicotaxatie (T1) werd het gehele dossier

geraadpleegd. Omdat meerdere missing values een negatief effect op de betrouwbaarheid kon hebben, werd er besloten om bij ontbrekende informatie maximaal 1 item als missing value

(16)

per taxatie toe te staan. De handleiding van de J-SOAP D als de J-SOAP II gaven geen specifieke handelingsrichtlijnen bij het ontbreken van informatie.

Analyses

Om de interbeoordelaarsbetrouwbaarheid vast te stellen werden de ICC-waarden berekend middels een two-way random effects model met een absolute overeenstemming als criterium (McGraw & Wong, 1996). Zowel de single als de average ICC-waarden werden berekend van T0 en T1. Deze verschillende waarden geven zicht op de betrouwbaarheid wanneer de risicotaxatie door een of door meerdere beoordelaars is verricht. Voor de interpretatie werd er gebruikt gemaakt van de eerder genoemde richtlijnen van Shrout en Fleiss (1979).

Om het verschil tussen de voor- en nameting te onderzoeken is er gebruik gemaakt van een pretest-posttest design zonder controlegroep. Een paired samples t-test met een within

subjects/repeated-measures design werd uitgevoerd voor de afhankelijke continue variabelen

op rationiveau. Voor het verschil tussen de pre- en posttest van de risico-inschatting, met de afhankelijke categoriale variabelen op ordinaal niveau, werd er gebruik gemaakt van de non-parametrische Wilcoxon signed-rank test middels een two-related-samples test design.

Resultaten Interbeoordelaarsbetrouwbaarheid

Bij 40% van de cases (n = 20) werden de ICC-waarden berekend (tabel 2). De

totaalscore van de J-SOAP D bleek uitstekend, ICC ≥ .75 op T0 en T1 bij zowel de single als de average meting. Op schaalniveau zijn schalen I, II en IV op beide metingen uitstekend bevonden, ICC ≥ .75. Een uitzondering is schaal III waarbij de single meting bij T0 een ICC-waarde had van .60 en als goed beoordeeld kon worden, ICC ≥ .60. De overige metingen van schaal III bleken uitstekend, ICC ≥ .75. Op itemniveau werden er binnen de eerste sectie met

(17)

Tabel 2

Interbeoordelaarsbetrouwbaarheid (ICC) van de J-SOAP D op meting T0 en T1

T0 T1

Single Average Single Average

ICC 95% CI ICC 95% CI ICC 95% CI ICC 95% CI

Subschaal I Seksuele drang/preoccupatie .84 .64-.93 .91 .78-.97 .77 .50-.90 .87 .66-.95

1 Eerdere en huidige meldingen/aangiften van seksuele delicten .74 .46-.89 .85 .63-.94 .43 -.02-.73 .60 -.05-.84

2 Aantal slachtoffers van seksuele delicten .73 .43-.89 .85 .60-.94 .72 .41-.88 .84 .58-.94

3 Mannelijk en minderjarig slachtoffer .88 .73-.95 .94 .84-.98 .85 .66-.94 .92 .79-.97

4 Periode waarin seksuele delicten zijn gepleegd .83 .63-.93 .91 .77-.96 .77 .52-.90 .87 .68-.95

5 Mate van planning van seksuele delict(en) .58 .20-.81 .74 .34-.90 .79 .55-.91 .88 .71-.95

6 Geseksualiseerde agressie -.08 -.52-.38 -.16 -2.14-.55 -.12 -.56-.35 -.27 -2.56-.52

7 Seksuele behoeften en seksuele preoccupatie .60 .18-.84 .75 .30-.91 .48 .04-.77 .65 .07-.87

8 Geschiedenis van seksueel misbruik .66 .32-.85 .79 .48-.92 .78 .53-.91 .88 .70-.95

Subschaal II Impulsief/antisociaal gedrag .78 .51-.91 .87 .68-.95 .78 .53-.91 .88 .69-.95

9 Discontinuïteit van ouders/verzorgers .96 .90-.98 .98 .95-.99 .92 .81-.97 .96 .90-.98

10 Voortdurend aanwezige woede .40 -.01-.70 .57 -.02-.83 .56 .18-.80 .72 .31-.89

11 Gedragsproblemen op school .55 .17-.79 .71 .29-.88 .53 .14-.78 .69 .25-.88

12 Gedragsstoornissen in de kinderleeftijd (<10) .59 .22-.81 .74 .36-.90 .52 .12-.78 .69 .22-.88

13 Gedragsstoornissen in de puberteit (10-18) .51 .11-.77 .68 .20-.87 .67 .35-.86 .80 .51-.92

14 Eventuele aangiften/arrestaties voor de leeftijd van 18 jaar .69 .36-.87 .82 .53-.93 .66 .33-.85 .80 .49-.92

15 Aangiften verschillende typen delicten .30 -.18-.65 .46 -.43-.79 .80 .55-.92 .89 .71-.96

16 Lichamelijke mishandeling en/of blootstelling aan geweld in het gezin .76 .48-.90 .86 .65-.95 .75 .46-.89 .85 .63-.94

Subschaal III Inzicht en responsiviteit .60 .22-.82 .75 .36-.90 .87 .70-.95 .93 .82-.97

17 Verantwoordelijkheid nemen voor het/de delict(en) .22 -.22-.60 .36 -.58-.75 .35 -.07-.67 .52 -.16-.81

18 Intrinsieke motivatie voor verandering .48 .08-.75 .65 .14-.86 .77 .51-.91 .87 .67-.95

19 Begrip van risicofactoren en toepassing van TVP .16 -.32-.57 .21 -.92-.73 .68 .36-.86 .81 .52-.92

20 Inlevingsvermogen .43 .00-.73 .60 .00-.85 .36 -.04-.68 .53 -.09-.81

21 Berouw en schuld .31 -.15-.66 .47 -.36-.79 .60 .22-.82 .75 .36-.90

22 Afwezigheid van cognitieve vervormingen .34 -.07-.67 .50 -.15-.80 .21 -.27-.60 .34 -.73-.75

Subschaal IV Persoonlijke en maatschappelijke stabiliteit .88 .73-.95 .94 .84-.98 .75 .48-.89 .86 .65-.94

23 Adequate contacten met leeftijdgenoten .65 .29-.85 .79 .45-.92 .62 .26-.83 .77 .41-.91

24 Omgang met/beheersing van seksuele behoeften .65 .24-.86 .79 .38-.92 .05 -.40-.48 .09 -1.31-.65

25 Omgang met/beheersing van woede .76 .49-.90 .86 .65-.95 .73 .43-.89 .85 .60-.94

26 Stabiliteit van de huidige leefsituatie .70 .37-.87 .82 .54-.93 .63 .28-.83 .77 .44-.91

27 Stabiliteit met betrekking tot school/werk .47 .05-.75 .64 .09-.86 .68 .29-.87 .81 .45-.93

28 Bewijs van positieve steunnetwerken .21 -.27-.60 .35 -.75-.75 .16 -.31-.56 .27 -.92-.72

Totaal J-SOAP D .80 .57-.92 .89 .73-.96 .82 .61-.93 .90 .76-.96

Kans op seksuele recidive ten tijde van risicotaxatie .38 -.08-.70 .55 -.17-.82 .63 .27-.84 .77 .43-.91

(18)

daarin de statische of stabiel dynamische risicofactoren twee items gevonden met een slechte ICC-waarde, ICC < .40. Item 6 ‘Geseksualiseerde agressie’ had zero variance waardoor de ICC-waarden geen goede weergave bleken te zijn voor de overeenstemming tussen de beoordelaars. Item 15 ‘Aangiften verschillende typen delicten’ bleek alleen bij T0 slecht met een single ICC-waarde van .30. Bij T1 waren de ICC-waarden uitstekend. In de tweede sectie met de dynamische risicofactoren hadden drie items, item 17 ‘Verantwoordelijkheid nemen voor het/de delict(en)’, item 22 ‘Afwezigheid van cognitieve vervormingen’ en item 28 ‘Bewijs van positieve steunnetwerken’ op meting T0 en T1 een slechte single ICC-waarde, ICC < .40. Bij twee items, item 19 ‘Begrip van risicofactoren en toepassing van

terugvalpreventiestrategieën’ en item 21 ‘Berouw en schuld’ veranderde de single ICC-waarde van slecht op T0 naar goed op T1. Bij item 24 ‘Omgang met/beheersing van seksuele behoeften’ werd het omgekeerde waargenomen. De single ICC-waarde was hierbij goed op T0, maar slecht op T1.

Pretest-posttest

Een paired samples t-test met een within subjects/repeated-measures design werd bij het totaal aantal cases (n = 50) uitgevoerd om de berekende kansproportie van de pretest en posttest met elkaar te vergelijken. Er was een significant verschil in de scores bij schaal III tussen T0 (M = .72, SD = .24) en T1 (M = .60, SD = .27); t(49) = 4.35, p = < .001 en bij schaal IV tussen T0 (M = .48, SD = .20) en T1 (M = .31, SD = .20); t(49) = 7.29, p = < .001. Voorts werd er een Pearson product-moment correlation coefficient (Pearson’s r) berekend. Hieruit bleek de correlatie bij drie schalen significant en de samenhang tussen de pretest en de posttest hoog3 te zijn. Met name schaal I was met r = .98, p = < .001 uitzonderlijk hoog. Schaal IV was met r = .65, p = < .001 significant, maar de correlatie bleek matig (Cohen,

3_{Als richtlijn voor correlaties is Cohen (1977) aangehouden: > .95 = uitzonderlijk hoog, .85-.95 = zeer hoog,}

(19)

1977). De effect size4_{lag voor schaal I (d = .006) en voor schaal II (d = -.068) ruim onder de}

conventie van Cohen (1977) voor zeer laag (d = < .30). De effect size voor schaal IV (d = .869) bleek echter zeer hoog.

Deze testresultaten gaven blijk van een dalende trend bij de beoordeling van de risicofactoren op de dynamische schalen III en IV na behandeling. Bij de meer statische risicofactoren van schaal I bleek de beoordeling na behandeling stabiel, waar bij schaal II een lichte stijging op te merken viel (tabel 3).

Tabel 3. Resultaten van een paired t-test voor schaalverschillen tussen pretest en posttest.

Gepaarde verschillen _{95% CI voor Mean}

Difference Pretest Posttest M SD M SD n LL UL r t df d Schaal I _.24 _.17 _.24 _.17 ₅₀ _-.01 _.01 .98* _.21 ₄₉ .006 Schaal II .35 .24 .37 .23 50 -.05 .02 .87* -.95 49 -.068 Schaal III .72 .24 .60 .27 50 .06 .17 .74* 4.35* 49 .441 Schaal IV .48 .20 .31 .20 50 .13 .22 .65* 7.29* 49 .869 * p < .001.

Wilcoxon signed-rank test

Het verschil tussen de pre- en posttest qua risico-inschatting volgens het gewogen professioneel oordeel werd onderzocht middels de non-parametrische Wilcoxon signed-rank

test. Hieruit bleek dat er tussen het begin van de behandeling (op basis van intakegegevens)

en het einde van de behandeling (op basis van het gehele dossier) een significant verschil was bij de inschatting van seksuele recidive (z = -4.43, p = < .001). Bij de inschatting van niet-seksuele recidive werd er geen significant verschil gevonden (z = -1.41, p = .157). Deze resultaten suggereerden dat de inschatting van kans op seksuele recidive na behandeling was afgenomen, maar dat dit niet is gebleken voor de inschatting van de kans op niet-seksuele recidive na behandeling.

4_{Er is gebruik gemaakt van de formule, beschreven in Dunlap, Cortina, Vaslow en Burke (1996) om de effect} size Cohen’s d te berekenen vanuit dependent t-tests.

(20)

Discussie

Om zicht te krijgen op de psychometrische kwaliteit van de J-SOAP D is in

onderhavig onderzoek verslag gedaan van de mate van overeenstemming tussen beoordelaars en is er gekeken naar de verschillen in (recidive)risicobeoordeling voor en na behandeling. De uitkomsten wijzen uit dat de overeenstemming tussen beoordelaars op de totaalscore voor de

single ICC-waarde uitstekend is op zowel T0 als T1. Aangezien de risicotaxatie in de praktijk

veelal door één behandelaar wordt uitgevoerd geeft de single ICC-waarde het meest realistische beeld. Deze bevindingen zijn overeenkomstig met internationale onderzoeken naar de J-SOAP II en met Nederlandse onderzoeken naar de J-SOAP D.

Op schaalniveau is de overeenstemming op de pre- en posttest uitstekend met als enige uitzondering schaal III die op T0 de classificatie ‘goed’ behaalt. De gevonden schaalresultaten stemmen globaal overeen met uitkomsten uit eerdere internationale onderzoeken naar de J-SOAP II afgezien van een aantal onderzoeken waarin de overeenstemming op schaal IV fors lager uitvalt (Fanniff & Letourneau, 2012; Martinez et al, 2007). Een mogelijke verklaring voor de lage overeenstemming op deze schaal is het onvoldoende beschikbaar zijn van gedetailleerde informatie om de dynamische items accuraat te kunnen scoren (Aebi et al., 2011; Martinez et al., 2007). In vergelijking met een eerder onderzoek naar de J-SOAP D (Eck, 2005), waarin twee groepen (ambulant (n = 56) en residentieel (n = 37) behandelde jeugdige zedendelinquenten onderzocht zijn, is de overeenstemming op schaal IV opvallend lager. Deze lage overeenstemming wordt in het desbetreffende onderzoek verklaard door de kleine onderzoeksgroep, op basis van 20 dossiers (10 ambulant en 10 residentieel), die

gebruikt is om de interbeoordelaarsbetrouwbaarheid vast te stellen. Voor schaal IV ‘Stabiliteit binnen de thuissituatie/leefgemeenschap’5_{zijn alleen de tien dossiers ambulant behandelde} jeugdige zedendelinquenten gebruikt. De tien dossiers residentieel behandelde jeugdige

(21)

zedendelinquenten zijn geëxcludeerd omdat zij langer dan zes maanden binnen een instelling verbleven. Deze verklaring vindt ondersteuning bij andere onderzoeken waarin versie I van de handleiding gebruikt is (Bullens et al., 2005; Horn et al., 2005) en het onderhavige onderzoek waarin versie III van de handleiding is gebruikt. In deze onderzoeken is de overeenstemming op schaal IV goed tot uitstekend. Bij de overige schalen zijn geen opvallende verschillen gevonden hetgeen impliceert dat versie III van de handleiding niet beter, maar ook niet slechter presteert dan versie I van de handleiding.

Op itemniveau worden er enkele opvallend lage, zelfs negatieve, ICC-waarden geconstateerd. Zo zijn de ICC-waarden voor item 6 ‘Geseksualiseerde agressie’ negatief hetgeen volgens Bartko (1976) betekent dat er geen sprake is van een betrouwbare overeenstemming tussen beoordelaars. Taylor (2010) stelt echter dat een negatieve ICC-waarde mogelijk is en het geïnterpreteerd moet worden als een lage overeenstemming, gelijk aan willekeurigheid. Inhoudelijk gezien betekent het ontbreken van variantie (zero variance) in de scores op item 6 dat er een beperkte aanwezigheid is van nodeloze of expressieve agressie tijdens het plegen van een seksueel delict bij de ambulant behandelde forensische onderzoeksgroep van de Waag.

Een lage overeenstemming op beide metingen zou een aanwijzing kunnen zijn voor een onvoldoende specifieke formulering van de scores in de handleiding. Een voorbeeld hiervan is item 28 ‘Bewijs van positieve steunnetwerken’ waar, de codering ‘2’ ‘Geen positief steunnetwerk bekend of alleen negatieve steun’ nauwelijks voorkomt. Er zijn echter grote verschillen in de codering ‘0’ ‘Aanzienlijk steunnetwerk’ en codering ‘1’ ‘Enig

steunnetwerk’. Dit geeft aan dat de mate waarin een persoon als steunend aangemerkt wordt binnen de antwoordcategorieën teveel ruimte laat voor subjectieve invulling. Hierbij dient in ogenschouw genomen te worden dat de onderzochte dossiers wisselen qua volledigheid van informatie en de mate waarin de inhoud van de items specifiek aan bod komt.

(22)

Voorts zijn er items gevonden waarbij de interbeoordelaarsbetrouwbaarheid slecht is op T0, maar goed of uitstekend is op T1. Hier ligt mogelijk aan ten grondslag dat er ten tijde van de intake nog te weinig dossierinformatie voor handen is, maar gaandeweg de

risicotaxatiefase en behandeling beschikbaar komt. Dit argument vindt ondersteuning bij een eerder onderzoek naar verschillende risicotaxatie-instrumenten waarin eveneens melding gemaakt wordt van ontbrekende dossierinformatie ten tijde van de intake, maar ook wanneer een behandeling vroegtijdig is gestopt (Horn et al., 2005). Een andere argument is dat de handleiding voor deze items onvoldoende helderheid geeft bij een meting aan het begin van de behandeling. Bij item 19 ‘Begrip van risicofactoren en toepassing van

terugvalpreventiestrategieën’ schiet de beschrijving tekort wanneer er wel sprake is van kennis en begrip van risicofactoren, maar de terugvalpreventiestrategieën niet worden toegepast. Dat er bij een meting na behandeling meer overeenstemming is kan samenhangen met de veronderstelling dat er na behandeling voldoende terugvalpreventiestrategieën toegepast worden. Een tegengestelde richting, waarin de ICC-waarde lager is op T1 ten opzichte van T0, valt met name op bij item 24 ‘Omgang met/beheersing van seksuele behoeften’. Verschillen in de interpretatie van de beoordelaars is debet aan de lage overeenstemming bij dit item. In de handleiding staat vermeld dat de items van de dynamische schalen gescoord dienen te worden voor de afgelopen zes maanden. Bij de itembeschrijving staat dit echter niet vermeld en is er abusievelijk een langere periode aangehouden. Na de tweede consensusbespreking is de richtlijn van zes maanden door beide beoordelaars gevolgd en is de overeenstemming fors verbeterd.

Bij de pretest-posttestmeting blijkt zoals verwacht dat er een significante verlaging is in de risicobeoordeling bij de veranderbare risicofactoren na behandeling. Internationaal zijn de onderzoeken middels een pretest-posttestdesign (Jones, Chancey, Lowe, & Risler, 2010) of naar de treatment impact (Rehfuss et al., 2013) waarin de J-SOAP II gebruikt is als

(23)

risicotaxatie-instrument zeer beperkt. Geen van beide studies gaat nader in op de

psychometrische eigenschappen van de J-SOAP II. Hoewel de significante verschillen in de pretest-posttestmeting en de samenvattende beoordeling op seksuele recidive duiden op een hoopvolle richting in het ontwikkelen van een gedegen risicotaxatie-instrument, zal meer uitvoerig onderzoek nodig zijn om uitspraken te kunnen doen over de behandeleffectiviteit van jeugdige zedendelinquenten.

Beperkingen van het onderzoek en aanbevelingen

Dit onderzoek kent een aantal beperkingen dat vermeld dient te worden. De J-SOAP D is enkel gescoord op basis van dossierinformatie. Het gevaar van retrospectief onderzoek is dat de kans op dubbele interpretatie wordt vergroot. Dit houdt in dat eerst de behandelaar op basis van informatie van de delinquent en andere collaterale gegevens een dossier opstelt waarbij enige subjectiviteit en interpretatie niet kunnen worden uitgesloten. De tweede interpretatieslag gebeurt tijdens het scoren van de J-SOAP D door de onderzoeker die uitgaat van wat de behandelaar in het dossier heeft geregistreerd. Informatie die waardevol is, maar niet vermeld staat in het dossier zal door de onderzoeker gemist worden. Dit kan, in

combinatie met, de ruimte voor interpretatie binnen de scoringsrichtlijnen van de J-SOAP D handleiding zorgen voor een minder waarheidsgetrouwe en betrouwbare scoring.

Daarnaast dient er rekening gehouden te worden met de verschillen tussen

behandelaars en onderzoekers. Uit onderzoek naar meerdere risicotaxatie-instrumenten is gebleken dat behandelaren positieve gevoelens jegens cliënten associëren met de mate van recidiverisico en vaker een lagere risico-inschatting maken dan onderzoekers (Vogel & Ruiter, 2004).

In vergelijking met internationale onderzoeken naar de J-SOAP II is de

(24)

een lage statistische power en is hierdoor minder nauwkeurig met als mogelijke consequentie dat de effect size overschat wordt (Button et al., 2013).

De gemeten veranderingen tussen de pre- en posttest kunnen veroorzaakt zijn door de behandeling, maar omdat er binnen dit onderzoek geen gebruik is gemaakt van een

controlegroep zijn hieraan geen gegronde uitspraken te verbinden. Een vergelijking met een controlegroep waarbij behandeling ontzegd wordt zou meer licht kunnen schijnen op de effectiviteit van de gegeven behandeling, maar ook op ethische bezwaren stuiten (Borkovec & Sibrava, 2005; O’Leary & Borkovec, 1978). Als alternatief zou de experimentele

onderzoeksgroep vergeleken kunnen worden met een controlegroep jeugdige zedendelinquenten die een andere vorm van behandeling krijgt.

Een gestructureerde klinische risicotaxatie-instrument als de J-SOAP heeft voordelen zoals meer uniformiteit in het beoordelen door behandelaars, maar kent ook beperkingen in de mate waarin recidive zich laat voorspellen. Situationele factoren zijn immers niet uit te

sluiten, hetgeen onderzoek naar de predictieve validiteit van het instrument bemoeilijkt. Zoals eerder vermeld geven internationale onderzoeken naar de predictieve validiteit van de J-SOAP II geen eenduidig beeld. In Nederland is er nog geen onderzoek gedaan en zijn er thans onvoldoende recidivecijfers bekend om uitspraken te kunnen doen over de voorspellende waarde van de J-SOAP D en de effecten van behandeling. Gelet op de actuele landelijk lage recidivecijfers (CBS, 2014) is vervolgonderzoek onder een grote groep

noodzakelijk om zo voldoende data te genereren waaruit statistisch de meest solide conclusies getrokken kunnen worden betreffende de predictieve validiteit van het instrument.

(25)

Literatuur

Aebi, M., Plattner, B., Steinhausen, H. C., & Bessler, C. (2011). Predicting sexual and nonsexual recidivism in a consecutive sample of juveniles convicted of sexual offences. Sexual Abuse: A Journal of Research and Treatment, 23(4), 456-473. Bartko, J. J. (1976). On various intraclass correlation reliability coefficients. Psychological

Bulletin, 83, 762-765.

Borkovec, T. D., & Sibrava, N. J. (2005). Problems with the use of placebo conditions in psychotherapy research, suggested alternatives, and some strategies for the pursuit of the placebo phenomenon. Journal of Clinical Psychology, 61, 805-818. Bullens, R., Horn, J. E. van, Eck, A. van, & Das, J. (2005). J-SOAP D. De Nederlandse

vertaling en bewerking van de J-SOAP II (Juvenile Sex Offender Assessment Protocol

II). Handleiding. Versie 1. Utrecht: Forum Educatief.

Button, K. S., Ioannidis, J. P., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S., & Munafo, M. R. (2013). Power failure: Why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience, 14, 365-376.

Caldwell, M. F. (2002). What we do not know about juvenile sexual reoffense risk. Child

Maltreatment: Journal of the American Professional Society of the Abuse of Children, 7, 291-302.

Caldwell, M., Ziemke, M., & Vitacco, M. (2008). An examination of the Sex Offender Registration and Notification Act as applied to juveniles: Evaluating the ability to predict sexual recidivism. Psychology, Public Policy, and the Law, 14, 89-114. doi:10.1037/a0013241

Centraal Bureau voor de Statistiek (CBS) (2012). Jeugdmonitor 2014. Verkregen op 31 januari 2015, van

(26)

Centraal Bureau voor de Statistiek (CBS) (2012). Geregistreerde criminaliteit; regio (indeling 2013) 2005-2012. Verkregen op 10 april 2015, van

http://statline.cbs.nl/StatWeb/publication/?DM=SLNL&PA=80344NED&D1=0-2,5,11-12&D2=0,46-53&D3=0&D4=0,5-6&HDR=G2,T,G3&STB=G1&VW=T Chu, C. M., Ng, K., Fong, J., & Teoh, J. (2012). Assessing youth who sexually offended: The

predictive validity of the ERASOR, J-SOAP-II, and YLS/CMI in a non-western context. Sexual Abuse: A Journal of Research and Treatment, 24, 153-174. doi: 10.1177/1079063211404250

Cicchetti, D. V., & Sparrow, S. A. (1981). Developing criteria for establishing interrater reliability of specific items: Applications to assessment of adaptive behavior.

American Journal of Mental Deficiency, 86, 127-137.

Cohen, J. (1977). Statistical power analysis for the behavioral sciences. New York: Academic Press.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika,

16, 297-334.

Dunlap, W. P., Cortina, J. M., Vaslow, J. B., & Burke, M. J. (1996). Meta-analysis of experiments with matched groups or repeated measures designs. Psychological

Methods, 1, 170-177.

Eck, A. van. (2005). J-SOAP D. Onderzoek naar de betrouwbaarheid van de J-SOAP D en de

bruikbaarheid voor de Nederlandse populatie. Niet gepubliceerde doctoraalthesis,

(27)

Epperson, D. L., Ralston, C. A., Fowers, D., DeWitt, J., & Gore, K. S. (2006). Actuarial risk assessment with juveniles who sexually offend: Development of the Juvenile Sexual Offense Recidivism Risk Assessment Tool-II (JSORRAT-II). In D. S. Prescott (Ed.),

Risk assessment of youth who have sexually abused (pp. 118-169). Oklahoma City,

OK: Wood ‘N’ Barnes.

Fanniff, A. M., & Letourneau, E. J. (2012). Another piece of the puzzle: Psychometric

properties of the J-SOAP-II. Sexual Abuse: A Journal of Research and Treatment, 24, 378-408. doi:10.1177/1079063211431842

Fehrenbach, P., Smith, W., Monastersky, C., and Deisher, R. (1986). Adolescent sexual offenders: Offender and offense characteristics. American Journal of Orthopsychiatry, 56, 225-233.

Gunby, C., & Woodhams, J. (2010). Sexually deviant juveniles: Comparisons between the offender and offence characteristics of “child abusers” and “peer abusers.”

Psychology, Crime & Law, 16, 47-64.

Green, A. H. (1988). Child maltreatment and its victims. A comparison of physical and sexual abuse. Psychiatric Clinics of North America, 11, 591-610.

Hanson, R. K., Bourgon, G., Helmus, L., & Hodgson, S. (2009). A meta-analysis of the

effectiveness of treatment for sexual offenders: Risk, need, and responsivity. User

Report 2009-01. Ottawa: Public Safety.

Hanson, R. K., & Bussière, M. T. (1998). Predicting relapse: A meta-analysis of sexual offender recidivism studies. Journal of Consulting and

Clinical Psychology, 66, 348-362.

Hanson, R. K., & Morton-Bourgon, K. E. (2005). The characteristics of persistent sexual offenders: A meta-analysis of recidivism studies. Journal of Consulting and Clinical

(28)

Hanson, R., & Morton-Bourgon, K. (2009). The accuracy of recidivism risk assessments for sexual offenders: A meta-analysis of 118 prediction studies. Psychological

Assessment, 21, 1-21. doi:10.1037/a0014421

Hanson, R. K., & Yates, P. M. (2013). Psychological treatment of sex offenders. Current

Psychiatry Reports, 15, 1-8.

Harte, J., & Breukink, M. (2010). Objectiviteit of schijnzekerheid? Kwaliteit, mogelijkheden en beperkingen van instrumenten voor risicotaxatie. Tijdschrift voor Criminologie,

52, 52-72.

Hecker, J., Scoular, J. Righthand, S., & Nangle, D. (2002). Predictive validity of the J-SOAP

over 10-plus years: implications for risk assessment. Paper presented at the Annual

meeting of the Association for Treatment of Sexual Abusers (ATSA), Montreal, Quebec, Canada.

Hempel, I., Buck, N., Cima, M., & van Marle, H. (2013). Review of risk assessment instruments for juvenile sex offenders: What is next? International Journal of

Offender Therapy and Comparative Criminology, 57, 208-228.

doi:10.1177/0306624X11428315

Hendriks, J. (2006). Jeugdige zedendelinquenten: Een studie naar subtypen en recidive. Proefschrift, Utrecht: Forum Educatief.

Hissel, S., Bijleveld, C., Hendriks, J., Jansen, B., & Collot d’Escury-Koenigs, A. (2006). Jeugdige zedendelinquenten: specialisten, generalisten en ‘first offenders’. Tijdschrift

voor Seksuologie, 30, 215-225.

Horn, J. E. van, Scholing, A., & Mulder, J. (2005). Risicotaxatie bij jeugdige zeden- en geweldplegers in een ambulante setting. Diagnostiek-wijzer, 8(2), 63-76.

(29)

Jones, D. J., Chancey, R., Lowe, L. A., & Risler, E. A. (2010). Residential treatment for sexually abusive youth: An assessment of treatment outcomes. Research on Social

Work Practice, 20, 172-182.

Martinez, R., Flores, J., & Rosenfeld, B. (2007). Validity of the juvenile sex offender assessment protocol-II (J-SOAP-II) in a sample of urban minority youth. Criminal

Justice and Behavior, 34, 1284-1295.

McGraw, K. O., & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1(1), 30-46.

Mullen, P. E., Martin, J. L., Anderson, J. C., Romans, S. E., & Herbison, G. P. (1996). The long-term impact of the physical, emotional, and sexual abuse of children: A community study. Child Abuse & Neglect, 20, 7-21.

Nagtegaal, M. H. (2012). Gerapporteerde problemen van slachtoffers van seksueel misbruik

in de kindertijd. Een Meta-review. Den Haag: WODC.

Nieuwenhuizen, C. van & Philipse, M. (2002). Risicotaxatie bij zedendelinquenten. Een globaal literatuuroverzicht. Tijdschrift voor Seksuologie, 26(1), 70-78.

O’Leary, K. D. & Borkovec, T. D. (1978). Conceptual, methodological, and ethical problems of placebo groups in psychotherapy research. American Psychologist, 33, 821-830. Parks, G. A., & Bard, D. E. (2006). Risk factors for adolescent sex offender recidivism:

Evaluation of predictive factors and comparison of three groups based upon victim type. Sexual Abuse: Journal of Research and Treatment, 18, 319-342.

doi:10.1177/107906320601800402

Philipse, M. (2005). Predicting criminal recidivism. Empirical studies and clinical practice in

forensic psychiatry. Nijmegen: Radboud Universiteit.

Prentky, R. A., Harris, B., Frizell, K., & Righthand, S. (2000). An actuarial procedure for assessing risk with juvenile sex offenders. Sexual Abuse, 12, 71-93.

(30)

Prentky, R., Li, N., Righthand, S., Schuler, A., Cavanaugh, D., & Lee, A. (2010). Assessing risk of sexually abusive behavior among youth in a child welfare sample. Behavioral

Sciences & the Law, 28, 24-45. doi:10.1002/bsl.920

Prentky, R. A., Pimental, A., Cavanaugh, D. J., & Righthand, S. (2009). Predicting risk of sexual recidivism in juveniles: Predictive validity of the J-SOAP-II. In A. R. Beech, L. A. Craig, & K. D. Browne (Eds.), Assessment and treatment of sex offenders (pp. 265-292). West Sussex, UK: John Wiley.

Prentky, R., & Righthand, S. (2003). Juvenile Sex Offender Assessment Protocol II

(J-SOAP-II) manual. Washington, DC: U.S. Department of Justice, Office of Justice Programs,

Office of Juvenile Justice and Delinquency Prevention. Verkregen op 23 januari 2015, van http://www.csom.org/pubs/JSOAP.pdf

Przybylski, R. (2014). Adult Sex Offender Recidivism. Sex Offender Management Assessment

and Planning Initiative. Washington, D.C.: U.S. Department of Justice, Office of

Justice Programs. Verkregen op 26 juni 2015, van

http://www.smart.gov/SOMAPI/printerFriendlyPDF/complete-doc.pdf

Quinsey, V. L., Lalumière, M. L., Rice, M. E., & Harris, G. T. (1995). Predicting sexual offenses. In J. C. Campbell (Ed.), Assessing dangerousness: Violence by sexual

offenders, batterers, and child abusers (pp.114-137). Thousand Oaks, CA: Sage. Rajlic, G., & Gretton, H. M. (2010). An examination of two sexual recidivism risk measures

in adolescent offenders: The moderating effect of offender type. Criminal Justice and

Behavior, 37, 1066-1085. doi:10.1177/0093854810376354

Rehfuss, M. C., Underwood, L.A., Enright, M., Hill, S., Marshall, R., Tipton, P., West, L., & Warren, K. (2013). Treatment impact of an integrated sex offender program as measured by J-SOAP-II. Journal of Correctional Health Care, 19, 113-123. doi: 10.1177/1078345812474641

(31)

Rich, P. (2009). Juvenile sex offenders: A comprehensive guide to risk evaluations. Hoboken, NJ: Wiley.

Rich, P. (2015). Assessment of risk for sexual reoffense in juveniles who commit sexual Offenses (chapter 4). Office of Justice Programs. U.S. Department of Justice, Washington, DC. Verkregen op 07 oktober 2015, van

http://www.smart.gov/SOMAPI/sec2/ch4_risk.html

Righthand, S., Carpenter, E. M., & Prentky, R. A. (2001). Risk assessment with juveniles who

sexually offended: a comparative analysis of community and residential youths. Paper

presented at the Association for the Treatment of Sexual Abusers. 20th Annual Research and Treatment Conference in San Antonio, Texas, U.S.A.

Righthand, S., Prentky, R. A., Hecker, J. E., Carpenter, E. M., & Nangle, D. W. (2000).

JJPI-Maine Juvenile Sex Offender Assessment Protocol (J-SOAP). Paper presented at the

annual Meeting of the Association for the Treatment of Sexual Abusers, San Diego, CA.

Roberts, C. F., Doren, D. M., & Thornton, D. (2002). Dimensions associated with

assessments of sex offender recidivism risk. Criminal Justice and Behavior, 29, 569-589.

Rooijen, K. van, & Bartelink, C. (2010). Gebruik van instrumenten in de praktijk. Nederlands Jeugdinstituut. Verkregen op 19 december 2015, van

http://www.nederlandsjeugdinstituut.nl/nl/Gebruik_van_instrumenten.pdf Ruiter, C. de (2010). Risicotaxatie van gewelddadig gedrag: empirie en praktijk. In P. J.

van Koppen & H. Merckelbach, M. Jelicic & J. W. de Keijser (Red.), Reizen met mijn

rechter. Psychologie van het Recht (pp. 121-135). Deventer: Kluwer.

Shrout, P. E., & Fleiss, J. L. (1979). Intraclass Correlations: Uses in assessing rater reliability.

(32)

Taylor, P. J. (2010). An introduction to intraclass correlation that resolves some common confusions. Programs in Science, Technology & Values, Critical & Creative Thinking, and Public Policy, University of Massachusetts, Boston, MA.

Veneziano, C., & Veneziano, L. (2002). Adolescent sex offenders: A review of the literature.

Trauma, Violence, and Abuse, 3, 247-260.

Viljoen, J. L., Mordell, S., & Beneteau, J. L. (2012). Prediction of adolescent sexual

reoffending: A meta-analysis of the J-SOAP-II, ERASOR, J-SORRAT-II, and Static-99. Law and Human Behavior, 36, 423-438. doi:10.1037/h0093938

Viljoen, J., Scalora, M., Cuadra, L., Bader, S., Chavez, V., Ullman, D., et al. (2007).

Assessing risk for violence in adolescents who have sexually offended: A comparison of the J-SOAP-II, J-SORRAT-II, and SAVRY. Criminal Justice and Behavior, 35, 5-23.

Vogel, V. de, & Ruiter, C. de (2004). Differences between clinicians and researchers in assessing risk of violence in forensic psychiatric patients. The Journal of Forensic

Psychiatry and Psychology, 15, 145-164.

Wakefield, H. (2006). The vilification of sex offenders: Do laws targeting sex offenders increase recidivism and sexual violence. Journal of Sexual Offender Civil

Commitment: Science and the Law, 1, 141-149.

Wetenschappelijk Onderzoeks- en Documentatiecentrum (WODC) (2013). Justitie in

statistiek. Criminaliteit en rechtshandhaving 2012: Ontwikkelingen en samenhangen. Verkregen op 31 januari 2015, van http://www.cbs.nl/NR/rdonlyres/83165864-9367-4034-B588-C398C623E462/0/2013criminaliteitrechtshandhaving2012pub.pdf Wijk, A. van, Bullens, R. A. R., & Eshof, P. van den. (2007). Facetten van

(33)

Wijk, A. van, Schoenmakers, Y., & Kerkhof-van Holsteijn, N. (2012). Jeugdige zedendelinquenten: een review van de literatuur 2006-2010. Tijdschrift voor

Seksuologie, 31, 19-29.

Worling, J. R., & Curwen, T. (2001). The “ERASOR” Estimate of Risk of Adolescent Sexual Offense Recidivism. In M. C. Calder (Ed.), Juveniles and children who sexually

abuse: Frameworks for assessment (pp. 372-397). Lyme Regis, England: Russell

House.

Worling, J. R., & Långström, N. (2003). Assessment of criminal recidivism risk with

adolescents who have offended sexually: A review. Trauma, Violence, and Abuse, 4, 341-362.