Validiteit en betrouwbaarheid van 75 wetsevaluaties

3 Wetsevaluatie in Nederland (1998-2005)

3.4.2 Validiteit en betrouwbaarheid van 75 wetsevaluaties

Het ‘scoren’ van de 75 bruikbare wetsevaluaties op de drie 5-puntsscha-len en het J/N-item is onafhankelijk gedaan door twee onderzoekers, die de inschaling met elkaar hebben vergeleken en vervolgens hebben afge-stemd. Deze procedure vormt een waarborg op de betrouwbaarheid van de inschalingen, de zgn. interbeoordelaarsbetrouwbaarheid. De scores zijn vervolgens verwerkt in een kwantitatieve dataset (SPSS). Zo konden patronen in de methodologische kwaliteit van de wetsevaluaties worden verkend.

Validiteit van de wetsevaluaties

De 75 als bruikbaar beoordeelde wetsevaluaties lijken in redelijke mate te meten wat ze beogen te meten. Op zowel methodologische als op descrip-tieve validiteit wordt gemiddeld tussen 3,5 en 4 gescoord op de 5-punts-schaal.

Niettemin blijkt ruim éénvijfde (21%) van de wetsevaluaties onvoldoende te scoren op één of meer aspecten van validiteit (16 van de 75). In 14 geval-len bevat de wetsevaluatie geen (duidelijke) doel- of vraagstelling. In negen rapporten (12%) zijn (tevens) problemen met het onderzoeksdesign gecon-stateerd. Dit betekent dat de methodologische validiteit onder de maat is. In twaalf rapporten (16%) ontbreekt het (tevens) aan descriptieve validiteit, wat betekent dat de interne consistentie en verslaglegging gebrekkig is. Tussen de drie genoemde aspecten van validiteit blijkt een hoge correlatie te bestaan.45 Dus wanneer een onderzoek eenmaal laag scoort op descrip-tieve validiteit of geen heldere doelstelling heeft, zijn onderzoeksdesign en metingen vaker ook minder adequaat.

In termen van methodologische én descriptieve validiteit bestaan aanzienlijke verschillen tussen de Nederlandse ministeries.46 Wat betreft de helderheid van de doel- of vraagstelling zijn die verschillen minder

45 Tussen de ordinale variabelen is de correlatie ρ=0,84 met p=0,00. Ook met de bipolaire (J/N)-variabele

is de relatie sterk significant.

prominent. VWS en Justitie lijken het op dit punt relatief goed te doen. Hierbij moet wel worden aangetekend dat het aantal bekeken evaluaties sterk verschilt per ministerie.

Betrouwbaarheid van de wetsevaluaties

De wetsevaluaties zijn niet alleen redelijk valide maar ook redelijk betrouwbaar te noemen. Gemiddeld wordt op controleerbaarheid, steek-proefomvang en triangulatie gezamenlijk tussen 3,5 en 4 op de 5-punts-schaal gescoord.

Elf rapporten (ruim 13%) worden vanwege onvoldoende betrouwbaarheid uitgesloten van synthese. Deze rapporten blijken volledig binnen de set van 16 rapporten te vallen die al onvoldoende scoorden op validiteit. Het is dan ook niet verrassend dat betrouwbaarheidsschatting sterk samen-hangt met de gezamenlijke indicatoren van validiteit.47 Met andere woor-den: een wetsevaluatie die hoog scoort op validiteit is over het algemeen ook betrouwbaarder. Net als validiteit varieert ook de mate van betrouw-baarheid aanzienlijk tussen ministeries.48 Hierbij moet opnieuw worden aangetekend dat het aantal evaluaties sterk verschilt per ministerie. Aantal wetsevaluaties in de synthese op inhoud

Uiteindelijk worden 16 (ruim 21%) van de 75 bruikbaar bevonden wetseva-luaties op grond van gebrekkige validiteit en betrouwbaarheid uitgesloten van verdere synthese. Dit betekent dat uiteindelijk 59 studies worden opgenomen in de synthese van inhoudelijke bevindingen.

3.5 Evaluatiefunctie en methodologische kwaliteit

Mogelijk is de wijze waarop ministeries de evaluatie van wetgeving hebben ingericht van invloed op de methodologische kwaliteit van wetsevaluaties. Daartoe gaan we na of evaluatiekwaliteit verband houdt met (a) interne dan wel externe uitvoering en (b) het tijdsverloop tussen wet en evaluatie. Scoren de uitbestede wetsevaluaties daadwerkelijk hoger op kwaliteit? Extern onderzoek wordt doorgaans geassocieerd met onafhankelijkheid en expertise. De gegevens leveren een lichte aanwijzing op dat extern onderzoek inderdaad meer valide is. Hetzelfde is te constateren bij verge-lijking van de betrouwbaarheid tussen intern en uitbesteed onderzoek. Omdat het interne onderzoek echter sterk ondervertegenwoordigd is (15%) in de onderzochte wetsevaluaties, is dit echter niet meer dan een voorzichtige en voorlopige bevinding. In de gegevens is geen verband te

47 ρ=0,71 (p=0,00). Deze geaggregeerde score is als volgt berekend: het gemiddelde van methodologische

en descriptieve validiteit (beide 1-5 schaal) met daarbij al of niet 1 punt opgeteld voor een adequate doel- of vraagstelling. De maximum haalbare kwaliteitsscore is dus 6.

48 Betrouwbaarheid (F=2,634; p=0,01).

68 Wet en werkelijkheid

constateren tussen methodologische kwaliteit en de tijd die is verstreken tussen de aanname van een wet(swijziging) en de evaluatie ervan.

3.6 Causaliteit onder de loep

Een relevante vraag bij evaluatie is in hoeverre gevonden resultaten het gevolg zijn van de wet en niet van invloeden van buitenaf, zoals flanke-rend beleid of economische conjunctuur. We zijn nagegaan in hoeveel van de 59 kwalitatief voldoende wetsevaluaties deze causale relatie wordt getoetst. Causaliteit maakt onderdeel uit van interne validiteit. Figuur 4 geeft een overzicht van vijf niveaus van interne validiteit. Met elk hoger niveau neemt de zekerheid dat resultaten aan interventies kunnen worden toegeschreven, toe.

Volgens Cook en Campbell (1979) vormt een onderzoeksdesign op niveau 3 het minimum waarmee de causale relatie tussen en interventie(s) en resultaten kan worden getoetst. Het eerste belangrijke element van dit design is dat zowel voor als na invoering van de interventie metingen op resultaatindicatoren worden verricht. Daarnaast bepleit men een contro-legroep, om er zekerder van te zijn dat de effecten niet zijn toe te schrijven aan andere factoren dan de interventie. Een controlegroep is een met de experimentele groep vergelijkbare groep, die niet in aanraking komt met de te evalueren beleidsmaatregel.

Het zgn. ‘quasi-experimenteel’ onderzoek op niveau 3 vindt in een ‘natuurlijke setting’ plaats. De onderzoeker kan zelf niet (meer) bepalen wie aan de experimentele en wie aan de controlegroep wordt toegewe-zen. Denk aan het vergelijken van de inwoners in een gemeente waarin een beleidsinterventie wordt toegepast met de inwoners in een gemeente waarin deze niet is toegepast. Hiermee is het echter nog steeds niet zeker of externe invloeden op de uitkomstvariabele zijn uitgeschakeld. Bij een design op niveau 4 of 5 heeft de onderzoeker wél controle over de expe-rimentele en controlegroep. Invloeden van buitenaf worden dan door (statistische) controles (niveau 4) of door willekeurige toewijzing van subjecten aan experimentele en controlegroep (niveau 5) uitgeschakeld.49

49 In het geval van niveau 4 wijst de onderzoeker potentieel relevante invloedsfactoren zelf aan, op grond van theoretische kennis. Bij niveau 5 worden via randomisatie alle mogelijke factoren uitgeschakeld, dus óók die factoren die de onderzoeker zelf niet kent.

Figuur 4 Vijf niveaus van interne validiteit conform de Maryland Scientific Methods Scale (SMS)

Samenhang tussen een beleidsmaatregel en uitkomst-variabelen na invoering van de beleidsmaatregel 2

Score op de uitkomstvariabele voor en na invoering van de beleidsmaatregel, zonder (vergelijkbare) controlegroep 3

Score op de uitkomstvariabele voor en na invoering van de beleidsmaatregel, gemeten in een experimentele en vergelijk-bare controlegroep (quasi-experimenteel design)

Score op de uitkomstvariabele voor en na invoering van de beleids-maatregel gemeten in een quasi-experimentele setting, met controle voor andere variabelen die de uitkomstvariabele mogelijk beïnvloeden 5

Score op de uitkomstvariabele voor en na invoering van de beleids-maatregel, waarbij de beleidsmaatregel ‘at random’ is toebedeeld aan een experimentele en een controlegroep (experimenteel design).

Bron: Farrington e.a. (2002)

Géén van de 59 wetsevaluaties heeft een design op niveau 3 of hoger. Of er een causale relatie bestaat tussen de interventie en de resultaten, is dus voor geen enkele geëvalueerde wet met zekerheid te zeggen. Veruit de meeste evaluaties bevinden zich op niveau 1, wat inhoudt dat opbrengsten en resultaten alleen ná invoering van de wet in kaart zijn gebracht en er geen controlecondities zijn.50 Acht (8) van de 59 wetsevaluaties bevat-ten een nulmeting (niveau 2). De situatie bevat-ten tijde van de evaluatie wordt vergeleken met de situatie vóór invoering van de wet.

Dat experimentele standaarden bij veel beleidsonderzoek niet eenvoudig te realiseren zijn heeft meerdere oorzaken. In de eerste plaats beogen veel onderzoekers geen toets van de effectiviteit van wetten, maar van de doel-bereiking en van tussengelegen processen. In de tweede plaats kunnen in het geheel nog geen effecten worden verwacht, bijvoorbeeld omdat de implementatie nog niet is voltooid. In de derde plaats kan een nulmeting

50 Dit beeld komt overeen met eerdere bevindingen uit syntheses van Klein Haarhuis e.a. (2005) en Kulu-Glasgow e.a. (2007).

70 Wet en werkelijkheid

of controlegroep vaak niet worden gerealiseerd, bijvoorbeeld omdat het beleid al is ingevoerd. Ten slotte kan een controlegroep vaak niet (meer) worden gevormd, bijvoorbeeld omdat beleidsinterventies al overal gelijk-tijdig zijn ingevoerd. Er zijn dan geen groepen of gebieden meer te vinden die níet onder de toepassing van de nieuwe maatregel vallen (vgl. Klein Haarhuis e.a., 2005).

Ook het typerende karakter van wetgeving kan het ontbreken van expe-rimentele evaluatiedesigns beïnvloeden. Wetten bevatten doorgaans niet één maar meerdere interventies. Het effect van een wet als zodanig laat zich dus niet eenvoudig meten. Daar komt bij dat wettelijke normen alge-meen geldend zijn. Het ten behoeve van experimenteel onderzoek maken van uitzonderingen daarop wordt vaak strijdig geacht met juridische uitgangspunten, zoals het gelijkheidsbeginsel.

Dit hoofdstuk biedt een categorisering van wetten op grond van de aard van de interventies en de normadressaten. Begonnen wordt met een totaaloverzicht (par. 4.1). Vervolgens worden in paragrafen 4.2 tot en met 4.6 de doelen en de doelbereiking van 59 (op valide en betrouwbare wijze geëvalueerde) wetten beschreven voor elk van de verschillende categorie-en. Na een samenvatting (par. 4.7) gaan we aan het einde van het hoofd-stuk dieper in op ‘realist synthesis’ (par. 4.8) en op theorievorming over de sociale werking van het recht (par. 4.9). Deze laatste twee paragrafen vormen de opmaat voor de vervolghoofdstukken.

4.1 De aard van de interventies: een typologie

Een wet bevat meestal meerdere (typen) interventies. In de literatuur wordt vaak onderscheid gemaakt tussen communicatieve, economische en juridische interventies (Fenger en Klok, 2003).

Met communicatieve interventies wordt informatie verstrekt of vindt overreding plaats. De beleidsmaker beoogt het gedrag van normadres-saten te beïnvloeden door hun kennis of waardering van alternatieven te veranderen. Een voorbeeld is een anti-rookcampagne, waarin de schade-lijke gevolgen van roken voor de gezondheid onder de aandacht worden gebracht. In de wetstekst en in de evaluaties van wetgeving komt dit type

In document Wet en werkelijkheid (pagina 66-71)