er zijn te weinig media om in te publiceren;

Paragraaf 2.2 – De argumenten nader beschouwd

1. er zijn te weinig media om in te publiceren;

2. veel onderzoekers hebben het idee dat replicaties die het originele onderzoek

bevestigen geen significante wetenschappelijke bijdrage leveren en daarom niet voor publicatie in aanmerking komen;

3. terughoudendheid om resultaten te accepteren die niet stroken met de resultaten van het originele onderzoek, omdat dit vaak als gevolg van de uitvoering van de replicatie wordt beschouwd;

4. het idee dat wetenschappelijke tijdschriften, peer-reviewers en instanties minder waarde zouden hechten aan replicerend onderzoek (Singh e.a., 2003, pp.535-536). Deze oorzaken zijn samen te vatten tot een gebrek aan prikkels voor wetenschappers om replicerend onderzoek uit te voeren. Dit is waar ook Banerjee en Duflo op wijzen (2009, p.161). Valentine e.a. stellen een aantal manieren voor om dit te veranderen. Zo stellen ze bijvoorbeeld dat overheden meer fondsen beschikbaar kunnen maken voor replicaties, dat wetenschappelijke tijdschriften meer ruimte zouden kunnen vrijmaken voor de publicatie van replicerend onderzoek, en dat wetenschappers die replicerend onderzoek uitvoeren daarvoor beloond worden (Valentine e.a., 2011, pp.113-114).

Deze tactieken gaan echter al uit van een expliciete en hoge waardering van

replicerend onderzoek. Singh e.a. lijken ervan uit te gaan dat een dergelijke waardering eerst nog gepromoot moet worden (2003, pp.544-545). Hiertoe is het volgens hen essentieel dat toonaangevende wetenschappelijke tijdschriften en toonaangevende onderzoekers hierin het voortouw nemen. Zij zijn in staat om anderen tot voorbeeld te zijn. Bovendien zou volgens hen een bredere discussie over de relevantie van replicaties de problemen aan het licht brengen van de huidige manier waarop er met replicaties wordt omgegaan (idem).

Een ontwikkeling die de potentiële waarde van replicerend onderzoek verder vergroot is die in de software die gehanteerd kan worden bij econometrische onderzoeken, aldus Koenker en Zeileis (2009, pp. 833-834). “Effective communication of research depends crucially on

documentation and distribution of related software and data” (ibidem, p.834). Stabiele en

goed gedocumenteerde databases zijn essentieel voor de mogelijkheid tot replicatie.

Dergelijke database management systemen (DBMSs) zijn volgens Koenker en Zeileis nu nog redelijk zeldzaam, maar ze zien dat hierin een verandering gaande is en verwachten dat dergelijke DBMSs in de toekomst een gewone zaak zijn (ibidem, p.835).

Koenker en Zeileis stellen dat de econometrie altijd een ‘Toren van Babel’ is geweest. Daarmee bedoelen ze dat er altijd allerlei econometrische programma’s zijn gebruikt die niet of nauwelijks effectief met elkaar kunnen communiceren (Ibidem, p.836). Volgens Koenker

en Zeileis moeten mensen af van het idee dat de programmering van software erop gericht moet zijn om alleen nuttig te zijn voor de individuele onderzoekers die ze gaan gebruiken. Volgens de twee schrijvers is het van belang dat programma’s zo worden ontworpen dat ook andere onderzoekers uit de input en output van het programma kunnen opmaken wat het initiële onderzoek heeft behelst en wat de resultaten zijn (idem). Om dit doel te bereiken zijn er een aantal taalfuncties die geïmplementeerd moeten worden om de ‘taalbarrière’ die tussen veel programma’s bestaat te beslechten, te weten:

1. functional languages: eenduidig functioneel taalgebruik heeft tot gevolg dat data gemakkelijker en met meer flexibiliteit gebruikt en gecombineerd kunnen worden; 2. object orientation: maakt het mogelijk om complexe structuren (zoals uitgewerkte regressiemodellen) te omvatten en opdrachten op hen uit te voeren (zoals het geven van gevolgrekkingen en het visualiseren van modellen). Programma’s en analyses zijn zo beter te begrijpen en makkelijker te repliceren;

3. modular programs with reusable components: wanneer empirische onderzoeken in eenzelfde digitale omgeving wordt uitgevoerd dan verzekert dit de consistentie tussen verschillende onderzoeken en voorkomt het dubbelwerk op het gebied van

programmeren (idem).

Het uitvoeren van onderzoeken met deze taalfuncties leidt ertoe dat onderzoeken door andere onderzoekers kunnen worden gerepliceerd en hergebruikt. Zo worden replicaties en

hergebruik gestimuleerd. Zonder deze taalfuncties kunnen taalbarrières replicaties en hergebruik juist onderdrukken (idem).

Een tweede verandering die Koenker en Zeileis (2009, p.837) bepleiten en die naar verwachting belangrijke en bovendien positieve gevolgen zal hebben is het openstellen van informatie. Zo worden data op veel grotere schaal toepasbaar, hoeven onderzoekers niet steeds zelf ‘het wiel uit te vinden’ en worden onderzoeken leesbaarder voor andere onderzoekers die met dezelfde informatiebronnen bekend zijn.

Ondanks de vergaande mogelijkheden die aanpassingen in de gebruikte software met zich meebrengt stellen ook Koenker en Zeileis in hun conclusie dat voordat de vruchten van deze ontwikkelingen geplukt kunnen worden onderzoekers eerst gemotiveerd moeten worden om überhaupt replicerend onderzoek te verrichten: “From an economic perspective, the real

challenge of reproducible econometric research lies in restructuring incentives to encourage better archiving and distribution of the gory details of computationally oriented research. Technical progress in software and computer networking have dramatically lowered the cost

of reproducibility, but without stronger incentives from journals and research funding agencies further progress can be expected to be slow (ibidem, p.845).”

De afhankelijkheid van sterkere prikkels van wetenschappelijke tijdschriften en financiers van onderzoek neemt niet weg dat er op het terrein van DBMSs progressie wordt gemaakt. Er zijn wel degelijk wetenschappelijke tijdschriften die onderzoekers aanmoedigen tot data/software archivering en replicerende studies. Het Journal of Applied Econometrics is daar een voorbeeld van (idem). Er zijn daarnaast ook initiatieven die zich specifiek focussen op replicaties in de ontwikkelingseconomie. Een voorbeeld hiervan is Impact Evaluation

Replication Programme dat een initiatief is van het eerder aangehaalde 3ie. Hierover staat op

hun website: “This programme seeks to increase the number of replications specifically for

impact evaluations of development programs. It funds and publicizes replication studies of influential innovative and controversial impact evaluations of development programmes”

(website 3ie, link 1 in bronnenlijst).

Triangulatie

Aan triangulatie gaat het idee van ‘methodologisch pluralisme’ vooraf. Dit idee houdt in dat er niet één juiste manier van wetenschapsbedrijving is, zoals wordt verondersteld door aanhangers van reductionisme. Boumans en Davis halen Samuelson aan wanneer ze het over methodologisch pluralisme hebben en stellen dat hieruit volgt dat in de afwezigheid van

“meta-criteria by which one methodology can be shown unequivocally to be superior to all others, analyses should not be rejected solely on the basis of methodological considerations”

(2010, p.156). Dit ligt in lijn met de verhandeling in dit onderzoek dat heeft aangetoond dat er geen meta-criteria zijn om aan te tonen dat RCTs superieur zijn aan andere methodologieën en daarom niet zonder aannames en waardenclaims als dusdanig kunnen worden beschouwd.

Het idee van methodologisch pluralisme was ooit een tegenreactie op het

reductionisme dat veronderstelt dat er één bepaalde (methodologische) waarheid is (ibidem, p.155). Hetzelfde lijkt momenteel te gebeuren. Diegenen die RCTs als goudstandaard van de ontwikkelingseconomie beschouwen zijn als reductionisten aan te duiden en tegelijkertijd is een ontwikkeling naar triangulatie gaande. Triangulatie is een bepaalde benadering die volgt uit het methodologisch pluralisme. Het betreft “The strategy that more than one method

should be used to validate an observation on the grounds that we can have more confidence in a certain result when different methods are found to be congruent and yield comparable data” (ibidem, p.198).

3ie praktiseert dergelijke triangulatie, onder de noemer van systematic reviews. De beschrijving op de eigen website luidt als volgt:“Our methods development work focuses on:

• including a wider range of causal (counterfactual) evidence in reviews, including

rigorous quasi-experimental designs, to understand 'what works in development programmes, or doesn't'

• incorporating theories of change and broader 'factual' evidence, including qualitative

evidence, to understand 'why programmes work, or don’t work'

• using friendly means of dissemination of research” (website 3ie, link 2 in bronnenlijst).

The Campbell Collaboration dat samenwerkt met 3ie bij het uitvoeren van systematic reviews beschrijft deze reviews als “synthesizing the results of several studies” (website Campbell Collaboration).

Iemand anders die triangulatie promoot is Ravallion (2009). Hij doet dit onder de noemer van rigorous evaluations. Hierbij dient opgemerkt te worden dat Ravallion een minder uitgesproken triangulatie voorstaat dan bijvoorbeeld 3ie. Ravallion is vooral een voorstander van methodologische pluriformiteit. Dat wil zeggen dat hij vindt dat die methode gehanteerd moet worden die de informatie genereert die relevant is voor een bepaald doel en dat wanneer triangulatie hieraan bijdraagt dit toegepast moet worden.

Ravallions betoog komt vooral voor uit ongenoegen over de ongenuanceerde bewieroking van RCTs. Zijn belangrijkste kritiek is dat RCTs slechts op een aantal

beleidsvraagstukken kunnen worden toegepast en ons zelfs van deze vraagstukken niet altijd datgene leren dat we willen weten (2009, p.33). “A better idea would be to randomize what

gets evaluated rigorously and then choose a method appropriate to each sampled intervention, with randomization as one option” (idem).

Ravallion (2009, pp.34-35) schetst drie tekortkomingen van de huidige

onderzoekspraktijk waarbij praktisch alleen RCTs worden gebruikt om de impact van programma’s te evalueren. Allereerst wordt het type interventie bij evaluaties momenteel als vaststaand beschouwd. Ravallion stelt dat dit onwenselijk is en dat de keuze voor een

bepaalde interventie moet afhangen van het vraagstuk dat beantwoord moet worden om tot een bepaald beleid of besluit te komen. Hiermee bedoeld Ravallion dat de beleidsdoelen, de beperkingen (zoals schaarse middelen, informatie en prikkels) en de causale verbanden waardoor een bepaalde interventie waarschijnlijk tot zijn effecten leidt het uitgangspunt moeten zijn in de keuze voor een onderzoeksmethode. Het gaat volgens Ravallion zelfs zo ver dat uitvoerders van evaluaties zich momenteel soms als lobbyist voor hun favoriete methode

gedragen. “Too often it is not the question that is driving the evaluation agenda but a

preference for certain types of data or certain methods: the question is then found that fits the methodology, not the other way around. Starting with the question, not the method, often points the evaluator toward types of data and methods outside the domain traditionally favoured by his or her own disciplinary background” (ibidem, p.34).

Een tweede tekortkoming van de reductionistische praktijk is de keuze voor de

controlegroep, door Ravallion als de counterfactual aangeduid. De traditionele counterfactual is een groep op wie helemaal geen interventie is uitgevoerd. Ravallion is van mening dat dit helemaal niet relevant is voor beleidsmakers. Voor hen is niets doen zelden een optie. Zij moeten haast altijd kiezen tussen alternatieven. Volgens Ravallion is het daarom veel zinvoller om interventies te vergelijken met andere interventies (ibidem, p.35). Het verdient wel opgemerkt te worden dat dit ook met RCTs getest kan worden en dat een dergelijke onderzoeksopzet de kans op spillovers waarschijnlijk vergroot, terwijl Ravallion hier nota bene zelf voor waarschuwt (zie hoofdstuk 1).

De derde tekortkoming is dat met het eenduidige gebruik van RCTs niet altijd de relevante parameters worden getest. Een voorbeeld hiervan is dat een RCT alleen iets zegt over het netto-effect van een interventie en niets over de verdeling van effecten over de individuen die de interventie hebben ondergaan (ibidem, p.35).

Met name de tweede en derde tekortkoming lijken niets anders dan een kritiek op een bepaalde methode, namelijk RCTs. De problemen kunnen echter ook breder worden

getrokken. Achter de tekortkomingen die Ravallion laat zien gaat schuil dat methodes een beperkte reikwijdte hebben als het gaat om de vraagstukken waarvoor ze bruikbaar zijn. Ravallion stelt dat niet een methode het uitgangspunt moet zijn maar het vraagstuk dat beantwoord moet worden. Oftewel, bij elk vraagstuk moet de best passende methode gezocht worden in plaats van andersom. Dit uitgangspunt is een goed argument voor methodologisch pluralisme en triangulatie.

Ravallion is van mening dat het nut van methodologisch pluralisme nog groter is dan dat van replicaties. Hij onderschrijft wel degelijk dat replicaties nuttig en soms zelfs essentieel kunnen zijn, zeker wanneer uitgevoerd in gebieden met verschillende

omgevingskarakteristieken. Echter, wanneer een methode gewoonweg niet geschikt is om bepaalde vraagstukken te beantwoorden dan helpen ook replicaties niet tot het overbruggen van verschillen tussen wat wordt gemeten en wat men wil weten (Ravallion, 2009, p.33).

Naast diversifiëring van empirische evaluaties pleit Ravallion eveneens voor het gebruik van theorieën om tot een beter begrip te komen van de conclusies uit empirische

analyses (2009, p.43). Daartegenover staat wel dat Ravallion zich realiseert dat de assumpties die aan theorieën voorafgaan niet altijd te testen zijn en dat het in sommige gevallen een te simpele weergave van de werkelijkheid is om uit te gaan van één causale ketting die alle relevante oorzaak-en-gevolg relaties omvat. “For these reasons, theory-based evaluation

cannot be considered an alternative to assessing impacts on final outcomes by credible (experimental or nonexperimental) methods, although it can still be a useful complement to such evaluations for better understanding measured impacts” (idem). Het is echter niet

noodzakelijk dat theorieën onderdeel zijn van methodologisch pluralisme en triangulatie. Het moge inmiddels duidelijk zijn dat de keuze voor het wel of niet gebruiken van theoretische fundering afhangt van de aannames die eraan voorafgaan. Zie voor meer argumenten voor het gebruik van theorie in combinatie met empirisch onderzoek de deelconclusie van hoofdstuk 1.

De softwareontwikkelingen die eerder in dit hoofdstuk staan beschreven zijn niet alleen gunstig voor de potentiele waarde van replicerende studies, maar ook voor de mogelijkheden van triangulair onderzoek. Ook hiertoe heeft 3ie een initiatief gestart, The

Registery for International Development Impect Evaluations (RIDIE). “The purpose of the registry is to enhance the transparency and quality of evaluation research as well as to provide a repository of impact evaluation studies for researchers, funders, and others

(website 3ie, link 3 in bronnenlijst).” De, hieronder geciteerde, van RIDIE beschrijving die 3ie zelf op haar website geeft toont aan dat het zich nadrukkelijk distantieert van databases waarin bijvoorbeeld alleen evaluaties die zijn uitgevoerd met behulp van RCTs:

“RIDIE is a prospective registry of impact evaluations related to development in low- and middle- income countries. Researchers can register any development impact evaluation that rigorously attempts to estimate the causal impacts of a programme, including

experimental as well as quasi-experimental designs…

… RIDIE is different from other recent initiatives to create prospective registries (such as the American Economics Association’s RCT Registry, the Experiments in Governance and Politics Network Registry, and clinicaltrials.gov) in a number of notable ways:

• RIDIE allows registration of experimental and quasi-experimental studies, not just

randomised controlled trials;

• RIDIE focuses on evaluations in low- and middle-income countries;

• RIDIE is restricted to actual programme evaluations, and does not include behavioral

laboratory experiments; and

• RIDIE aims to include all impact evaluations meeting the above criteria, not only

scholarly research destined for journal publication” (website 3ie, link 4 in

bronnenlijst).

Deelconclusie

In dit hoofdstuk zijn twee voorzichtige ontwikkelingen besproken die gaande zijn in het wetenschapsgebied ontwikkelingseconomie. De eerste ontwikkeling is een hogere waardering en hogere kwantiteit van het repliceren van onderzoeken. Replicaties kunnen bijdragen aan zowel de interne, de externe, de construct- als de statistische conclusievaliditeit. Op dit punt is echter nog een hoop progressie te boeken. De tweede ontwikkeling is een groeiende

waardering van methodologische pluriformiteit en triangulatie. Hierdoor worden

vraagstukken steeds meer vanuit verschillende methodes geëvalueerd en worden onderzoekers in staat gesteld een veel grotere hoeveelheid vragen te beantwoorden. Bovendien kunnen op deze wijze vraagstukken leidend zijn, in plaats van methodes, en kunnen onderzoekers datgene proberen te achterhalen wat bijvoorbeeld beleidsmakers daadwerkelijk willen weten. Beide ontwikkelingen worden gedeeltelijk mogelijk gemaakt en krijgen nog meer potentieel door de huidige softwareontwikkelingen die grote en open databases mogelijk maken die voor iedereen bruikbaar, toegankelijk en begrijpelijk zijn.

Voordat replicaties en triangulair onderzoek als ‘nieuwe goudstandaard’ gepredikt gaan worden verdienen ook zij een kritische noot. We zagen al dat replicaties op zich nog altijd niet in staat hoeven te zijn om bij te dragen aan de beantwoording van sommige

vraagstukken. Wanneer we triangulair onderzoek toepassen moet bovendien methodologisch reductionisme worden verworpen. Dat triangulatie in potentie de reikwijdte van de

wetenschap vergroot betekent nog niet dat het methodologisch pluralisme ook ‘waar’ is. Tenslotte bieden de open en op elkaar afgestemde databases dan wel veel mogelijkheden, in de praktijk zullen deze databases criteria gaan stellen aan data en onderzoeken die ze

opnemen. De databases die hiervoor benoemd zijn doen dit al. Dit is op zich niet onwenselijk omdat deze criteria een zekere kwaliteit kunnen garanderen en deze criteria ervoor zorgen dat bijvoorbeeld de in dit hoofdstuk besproken taalfuncties ook daadwerkelijk op elkaar zijn afgestemd. De keerzijde van deze criteria is dat het risico bestaat dat, zoals nu volgens

Ravallion de aangehangen methodes bepalen wat voor vraagstukken er onderzocht worden, in de toekomst de criteria zullen bepalen wat voor vraagstukken op de onderzoeksagenda terecht komen.

Conclusie

De belangrijkste voordelen van RCTs zijn: ze kunnen resultaten genereren op basis van relatief weinig assumpties; ze zijn relatief eenvoudig; ze kunnen, hetzij in combinatie met enkele assumpties, tot resultaten leiden die als intern valide kunnen worden beschouwd; en replicatie van experimenten kan zelfs tot een zekere kennisopbouw leiden. De belangrijkste nadelen zijn dat de mogelijkheden van RCTs worden beperkt door een aantal ethische kwesties; dat er zonder aannames te doen niet gesproken kan worden van externe validiteit; dat de weerbarstige onderzoekspraktijk waarin de uitvoerders van RCTs zich begeven ook de interne validiteit van RCTs twijfelachtig maakt; en dat RCTs ons lang niet altijd datgene leren wat we willen weten.

De hoofdvraag van dit onderzoek was of RCTs als de goudstandaard van

ontwikkelingseconomie beschouwd kunnen worden. Het antwoord hierop is niet eenduidig te geven. Het hangt ervan af hoeveel waarde iemand hecht aan de bovenstaande voor- en

nadelen, alsook van een aantal assumpties en ethische en ideologische overtuigingen. Als iemand stelt dat RCTs wel of juist niet de goudstandaard zijn dan is dat daarom niet zonder meer goed of fout te rekenen. De redeneringen op basis waarvan voor- en tegenstanders van RCTs als goudstandaard tot hun standpunt in het debat komen zijn op zichzelf genomen vaak niet inconsistent, maar beide partijen gaan uit van andere premissen. Het is wel duidelijk geworden dat RCTs geen ‘uitzonderingspositie’ genieten. Deze uitzonderingspositie wordt doorgaans verdedigt met het argument dat aan RCTs geen aannames vooraf hoeven te gaan, terwijl dit argument zelf om te beginnen aan aannames onderhevig is.

Vooruitkijkend lijkt de positie van RCTs als goudstandaard van

ontwikkelingseconomie tenminste enigszins gerelativeerd te worden. Replicaties en

triangulair onderzoek lijken steeds meer voet aan de grond te gaan krijgen. Daarnaast gaan er veel stemmen op die pleiten voor het slaan van bruggen tussen theorie met empirisch

onderzoek. Sommige academici stellen zelfs dat RCTs zonder theoretische ondersteuning van geen enkele waarde zijn. Dit neemt niet weg dat RCTs een belangrijke rol kunnen blijven spelen. RCTs zijn zeer geschikt voor replicatie, zijn goed in staat om bepaalde vraagstukken te beantwoorden en kunnen een impuls en toetsingsinstrument voor theorieën zijn.

De rol die RCTs in de toekomst in de ontwikkelingseconomie gaat innemen zal het product zijn van een voortdurend debat. De kans is groot dat er ook in dit debat geen ‘finaal’ argument of antwoord is te geven. Ik pleit ervoor dat in dergelijke debatten de deelnemers zich altijd de moeite getroosten om de eigen aannames bloot te geven. Dit lijkt namelijk vaak

het niveau te zijn waarop verschillen tussen standpunten ontstaan. Daarnaast pleit ik voor een uitvoeriger ethisch debat dat wordt betrokken in het methodologische debat tussen economen.

In document Het debat over RCTs nader beschouwd (pagina 37-48)