Validiteit en betrouwbaarheid - 3 Wetsevaluatie in Nederland (1998-2005)

3 Wetsevaluatie in Nederland (1998-2005)

3.4.1 Validiteit en betrouwbaarheid

Bijna alle verzamelde wetsevaluaties hebben een empirische, sociaal-wetenschappelijke grondslag. Dit betekent dat er methodologische eisen voor empirisch sociaal-wetenschappelijk onderzoek aan gesteld kunnen worden. In de literatuur wordt onderscheid gemaakt tussen enerzijds vali-diteit en anderzijds betrouwbaarheid (De Groot, [1961] 1994: 281-2). Criteria van validiteit

Validiteit heeft betrekking op algemene geldigheid: meet de onderzoeker wat hij wil meten? (De Groot, [1961] 1994: 265 e.v.). Farrington en Welsh (2005: 14-5) onderscheiden vier criteria voor validiteit.

– Statistische validiteit. Dit betreft de mate waarin er verband bestaat tus-sen twee variabelen, bijvoorbeeld tustus-sen een innovatiesubsidie en de mate waarin bedrijven aan onderzoek & ontwikkeling doen.

– Interne validiteit. Dit betreft de mate waarin de redeneringen in het onderzoek correct zijn. Menig auteur relateert interne validiteit strikt

41 Deze paragraaf is niet bedoeld om de evaluatiekwaliteit van verschillende ministeries met elkaar te vergelijken. Daarvoor is onze afbakening te selectief en verschilt het aantal verzamelde wetsevaluaties teveel tussen de ministeries.

42 In eerdere syntheses is een vergelijkbare aanpak gehanteerd (Klein Haarhuis e.a., 2005; Van der Knaap e.a., 2006; Kulu-Glasgow, 2007). Winter (1996) behandelt daarnaast ook criteria die medebepalend kunnen zijn voor het gebruik van evaluaties door beleidsmakers. Hij onderscheidt aspecten als de bruikbaarheid en haalbaarheid van bevindingen en aanbevelingen, zoals het gericht zijn op manipuleerbare variabelen (vgl. Ellemers, 1987: 226-238; Chelimsky, 1995). Dergelijke criteria vallen buiten het bereik van deze synthese.

64 Wet en werkelijkheid

aan de effectiviteitsvraag, dus of een interventie daadwerkelijk heeft geleid tot een verandering in de doelvariabele (o.a. Swanborn, 1994; Farrington en Welsh, 2005: 14).43 Dit is de vraag of er een causale relatie bestaat.

– Constructvaliditeit. Dit betreft de vraag of het te meten begrip voldoen-de is uitgewerkt in voldoen-de empirische indicatoren die ermee samenhangen. ‘Acceptatie van de wetstektst’ bijvoorbeeld wordt wel gebruikt als indi-cator voor het ‘draagvlak’ van een wet. De vraag is dan of deze indiindi-cator de lading van het begrip ‘draagvlak’ voldoende dekt.44

– Externe validiteit. Dit bepaalt in hoeverre onderzoeksresultaten gegene-raliseerd kunnen worden naar onderzoekseenheden (personen, organi-saties), stituaties, plaatsen en tijden. De externe validiteit wordt in veel gevallen gebaseerd op de representativiteit van de steekproef.

Deze criteria van Farrington en Welsh zijn sterk gericht op de toetsing van de effectiviteit van tastbare interventies, bijvoorbeeld het effect van bewa-kingscamera’s op straatcriminaliteit. In veel beleidsonderzoek beperkt men zich tot analyse van uitvoeringsprocessen en doelbereiking in plaats van op effectiviteit. Mede met het oog op deze meer beschrijvende onder-zoeken introduceerde Van der Zee (2004) het koepelbegrip methodologi-sche validiteit. Methodologimethodologi-sche validiteit duidt op de mate waarin aan de volgende condities is voldaan: een adequaat onderzoeksdesign voor de te onderzoeken materie, valide meetinstrumenten en correcte toepassing van statistische procedures. Dit criterium van methodologische validiteit passen we toe op de 75 bruikbare wetsevaluaties.

Ten slotte ontlenen we de toets van de descriptieve validiteit aan Witte-brood en Van Beem (2004). Descriptieve validiteit betreft de helder-heid van gebruikte concepten, de logische samenhang tussen doel- en probleemstelling en onderzoeksvragen en de verantwoording en verslag-legging van belangrijke keuzes. In deze synthese gebruiken we naast de methodologische validiteit ook dit criterium voor de kwaliteitsbeoorde-ling van wetsevaluaties. Bovendien worden wetsevaluaties uitgesloten die géén heldere doel- of vraagstelling hebben. Op grond van deze evaluaties valt immers niet goed antwoord te geven op vragen over effectiviteit of doelbereiking.

Samengevat zijn de criteria die in dit onderzoek worden gebruikt om de validiteit van wetsevaluaties vast te stellen, als volgt.

43 Volgens Swanborn bestaat interne validiteit van een (evaluatie)onderzoek uit statistische validiteit en causaliteit gezamenlijk. In paragraaf 3.6 komen we uitgebreid op de causale relatie tussen interventie en resultaten terug.

44 Volgens De Groot heeft het theoretische begrip onvermijdelijk altijd een ‘surplus-betekenis’ ten opzichte van ieder empirisch criterium ([1961]1994: 273). Met het operationaliseren van variabelen tot meetbare indicatoren wordt nooit de hele lading van een begrip gedekt.

Validiteit

– Aanwezigheid van een centrale doel- of vraagstelling (J/N). – Methodologische validiteit (1-5): design, steekproeftrekking,

meetinstrument(en).

– Descriptieve validiteit (1-5): helderheid concepten, verslaglegging, verantwoording keuzes.

1= niet of nauwelijks; 2= in zeer geringe mate; 3= enigszins (drempelwaarde); 4= in sterke mate; 5= in zeer sterke mate.

Om deel uit te maken van de synthese dient een wetsevaluatie op elk van de validiteitscriteria aan een drempelwaarde te voldoen. De evaluaties die op doel- of vraagstelling ‘NEE’ scoren, of minder dan 3 op een 5-punts-schaal op methodologische en/of descriptieve validiteit, zijn uitgesloten van synthese.

Criteria van betrouwbaarheid

Met betrouwbaarheid wordt gedoeld op de mate van nauwkeurigheid van metingen. Hoe nauwkeuriger, hoe kleiner de kans op toevallige meetfou-ten en ruis (De Groot, 1994 [1961]: 281-2).

Zo kan met behulp van een meetlint de afstand in centimeters op een valide manier worden vastgesteld. Echter, een meetlint kan tijdens de meting iets worden uitgerekt, waardoor de betrouwbaarheid (nauwkeu-righeid) ervan afneemt. Vragenlijsten en open interviews zijn typerende ‘meetlinten’ voor sociaalwetenschappelijk onderzoek. Om dergelijke fouten te voorkomen is het verstandig om verschillende meetinstrumen-ten te gebruiken om hetzelfde verschijnsel vast te leggen. Dus bijvoor-beeld niet alleen open interviews maar ook documentstudie. Dit wordt wel triangulatie van methoden genoemd. In de tweede plaats draagt de omvang van de steekproef bij aan betrouwbaarheid. Naarmate de steek-proef toeneemt, worden toevalsfouten op grond van een te kleine ‘N’ minder waarschijnlijk (vgl. ’t Hart, 1996).

Ten slotte, wanneer niet nauwkeurig is vastgelegd via welke bronnen de gegevens voor een wetsevaluatie zijn verzameld, kan de betrouwbaarheid niet goed worden nagegaan. Daarom is de controleerbaarheid van de gege-vens, bijvoorbeeld door middel van vermelding van databronnen, ruwe gegevens, interviews en dergelijke, eveneens een belangrijk aspect van betrouwbaarheid.

Samengevat, voor betrouwbaarheid hanteren we in deze synthese het volgende samengestelde criterium.

66 Wet en werkelijkheid

Betrouwbaarheid

– Triangulatie van methoden, steekproefomvang en controleerbaarheid (1-5).

1= niet of nauwelijks; 2= in zeer geringe mate; 3= enigszins (drempelwaarde); 4= in sterke mate; 5= in zeer sterke mate.

Voor betrouwbaarheid wordt, net als voor validiteit een drempelwaarde gehanteerd. Rapporten onder deze drempelwaarde (<3 op de 5-punts-schaal) zijn niet gevrijwaard van toevallige fouten en worden uitgesloten van synthese.

In document Wet en werkelijkheid (pagina 63-66)