De invloed van duur nader onderzocht: matching modellen

Voltijdse uitstroom naar betaald werk

3.3 De invloed van duur nader onderzocht: matching modellen

De vraag stelt zich nochtans of het lineaire kansmodel (logit) in staat is om op correcte wijze te corrigeren voor de verschillen in duren. Het effect van duur in het model met de referentiegroep als vergelijkingsgroep was sterk negatief en significant op 95% niveau. Indien we de geschatte kansen vergelijken naar duur en treatmentgroep (Fig. 3.3) dan blijven de verschillen tussen de beide treatment groepen eigen regie en extra begeleiding en de referentiegroep overeind, inclusief de verschillen tussen de controlegroep en de referentiegroep. Dat geldt voor de korte duren (tot 1 jaar) en de langere duren (>3 jaar) maar niet voor de duren van 1-3 jaar, althans bij extra begeleiding. Voegen we in het model een interactieterm toe tussen treatment en duurklasse (drie of vijf klassen), dan worden de hoofdeffecten van de treatments sterker (interacties zijn niet significant) in plaats van zwakker. Voor beide treatments samen is het berekende marginale effect (dy/dx) ten opzichte van de referentiegroep (de extra kans op werk voor niet-deelnemers indien zij de treatment zouden krijgen) gemiddeld 4,7%. Dat betekent dat de duurvariabele een deel van het treatment effect wegneemt en dat de causaliteit deels verloopt via de treatment; de treatment vergroot de uitstroomkans van mensen met een langere duur bij aanvang van het experiment.

Bron: Bewerking BUS data, Tilburg University, 2019.

Fig. 3.3: Geschatte uitstroomkansen naar voltijds werk naar duur en treatment groep, Wageningen, zittend bestand, 1 okt2017- 1okt2019

Rol van klantmanager

Naast de duur spelen andere factoren een rol die het verschil zouden kunnen verklaren. Een van die factoren is wellicht de klantmanager zelf. Het eerdere logit model met de controlegroep als vergelijkingsgroep en klantmanager nummer als verklarende variabele verklaart de verschillen in uitstroomkansen naar werk tussen de groepen echter slechts 7% beter als hetzelfde model zonder klantmanager nummer (33% in plaats van 26%). Dus de rol van de klantmanager is niet de enige verklaring en er zijn nog andere factoren die de verschillen verklaren.

Matching: correctie voor compositieverschillen

Als duur enerzijds corrigeert voor verschillen tussen de treatments groepen en de referentiegroep maar anderzijds deels ook het effect van treatment verklaart dan is niet duidelijk wat het zuivere effect van treatment is. Een tweede manier om daar achter te komen is het gebruik van ‘matching’ om te corrigeren voor verschillen tussen de groepen. Wat dan overblijft is wellicht het ‘zuivere’ treatment effect. Wellicht, omdat niet uitgesloten kan worden dan niet waargenomen verschillen tussen de groepen onderliggend het effect mee beïnvloeden. Een van die variabelen is opleidingsniveau waarvoor in de BUS data geen informatie voorhanden is maar het kunnen ook gezondheidsverschillen zijn of verschillen in motivatie en zoekgedrag. Voor deze niet-waargenomen verschillen zou kunnen worden gecorrigeerd met behulp van ‘random’ en ‘fixed effects’ panel regressie modellen. Vooralsnog is dit (nog) niet gebeurd en ook niet voorzien in het onderzoek maar zal eventueel later alsnog middels de koppeling aan de microdata van het CBS ter hand kunnen worden genomen.

Indien de populatie van deelnemers door (zelf)selectie bij de aanmelding niet representatief is op bepaalde aspecten, in dit geval vooral duur, maar ook enigszins op nationaliteit, geslacht en leeftijd, dan kan dus deels met ‘matching technieken’ hiervoor gecorrigeerd worden. Met matching wordt gezocht naar zoveel mogelijk vergelijkbare mensen aan de deelnemers in de groep van niet-deelnemers die de treatment niet

0.0% 5.0% 10.0% 15.0% 20.0% 25.0% 30.0% 35.0% 40.0% 45.0% Referentiegroep A Controlegroep Eigen regie Extra begeleiding Vrijlating

hebben gehad. Op deze manier kunnen we de resultaten bij de deelnemers vergelijken met een gematchte groep van mensen die qua duur en andere kenmerken zoveel mogelijk op de deelnemers lijken. Hiermee corrigeer je voor verschillen in waargenomen kenmerken zoals duur, leeftijd, geslacht, leefvorm, huisvestingssituatie en nationaliteit. De analyse is opnieuw alleen uitgevoerd op de deelnemers in het zittende bestand (n=391) dus met een lopende uitkering per 1 oktober 2017. We hebben ‘een-op-een’ matching toegepast, dus voor iedere deelnemer is één andere persoon gezocht in de referentiegroep die op de deelnemer lijkt. Indien meer personen vergelijkbaar zijn wordt degene gekozen die het meest lijkt op de deelnemer. Dat wordt de ‘dichtstbijzijnde buur’ (‘nearest neighbour’) genoemd8. Voor de matching zijn zoveel mogelijk dezelfde variabelen gebruikt als in het regressiemodel. In beide methoden leverde een indeling in vijf duurklassen betere ‘matching’ resultaten op. De beide methoden laten toe om het effect van de interventie bij de treated nauwkeuriger vast te stellen (ATT-average treatment effect van de treated) maar ook het gemiddelde effect van de treatment voor de gehele populatie van deelnemers en niet-deelnemers. Voor de niet-deelnemers wordt dan op basis van hun kenmerken berekend wat het effect zou zijn geweest als zij ook de treatment hadden ondergaan (ATE-‘average treatment effect’). Tot slot is het mogelijk om het effect te bepalen voor degenen die geen interventie hebben gehad ervan uitgaande dat zij die wel zouden hebben gehad (ATU-‘average treatment effect van de untreated’). In onderzoek wordt veelal de ATT en ATE gebruikt om het effect van een interventie te meten. De ATT en ATE geven dan het verschil in geschatte uitstroomkans weer tussen de beide treatmentgroepen en de vergelijkingsgroep. Omdat we geen verschil vonden van de twee treatmentgroepen met de controlegroep wordt hier alleen ingegaan op de analyses gepresenteerd met de referentiegroep als vergelijkingsgroep9.

Correctie voor duurverschillen

Voordat we in Tabel 3.7 de resultaten presenteren laten we zien dat het model inderdaad in staat is geweest om te corrigeren voor verschillen in duur. In Fig. 3.4 (links nn-matching; rechts ps-matching) staan in beide plots links de feitelijke uitstroomkansen naar werk en rechts de gecorrigeerde of geschatte uitstroomkansen voor de referentiegroep en de beide treatments dus na matching.

8 De matching (zoeken en bepalen van vergelijkbare mensen) kan op basis van een wegingsfunctie van de verklarende variabelen (bijvoorbeeld middels nearest neighbour matching) of op basis van zogenaamde ‘propensity scores’ (de kans op treatment bepaald met behulp van een logit of probit model met verklarende variabelen) van de covariaten. Beide methoden zijn toegepast met vergelijkbare resultaten.

9 De modellen zijn ook geschat met de onderzoek -of controlegroep als vergelijkingsgroep maar de resultaten bevestigen de uitkomsten van de logistische regressies; er werden geen significante verschillen gevonden tussen beide treatmentgroepen en de controlegroep.

Fig. 3.4 Verschillen tussen controlegroep en treatments naar duur uitkering van zittend bestand en matchingmethode (op basis van schatting ‘average treatment effect’ (ATE) over deelnemers en niet-deelnemers

Tabel 3.7 geeft de effecten weer voor de twee treatment groepen in vergelijking met de referentiegroep en de onderzoekgroep. Aangezien we eerder vonden dat er geen verschillen zijn tussen de groepen presenteren we de effecten voor beide groepen (eigen regie en extra begeleiding) samen. Bevestigd wordt in deze cijfers dat in vergelijking met de controlegroep de effecten van de beide treatments op de uitstroomkans niet significant of betekenisvol zijn en daardoor statistisch nul. In vergelijking met de referentiegroep zijn ze echter -ook na correctie op basis van matching- wel betekenisvol maar gehalveerd (ATE=5-6%). De resultaten van de analyse worden in Tabel 3.7 weergegeven.

Ten eerste wordt bevestigd dat de uitstroom naar werk effecten niet significant zijn voor de vergelijking met de onderzoekgroep of controlegroep. In vergelijking met de referentiegroep vinden we wel significante effecten. Vergelijken we de twee treatments met de referentiegroep dan bedraagt de ATT 6,4%, en de ATE 4,8% in de wegingsmethode. In de ‘propensity score’ matching methode bedraagt de ATT 8,7% en de ATE 5,6%10. Omdat de ATE het gemiddelde effect berekent van zowel de treated als de untreated geeft deze een betere schatting van het in beginsel onbekende treatment effect voor de gehele populatie (we weten immers niet wat het treatment effect zou zijn geweest bij degenen die geen deelnemer zijn indien zij de treatment zouden hebben gehad).

De modelschattingen op basis van de wegingsmethode zijn minder gevoelig voor modelspecificatie dan de

In document Vertrouwensexperiment Wageningen: Werkt het en waarom wel of niet?: Eindverslag (pagina 40-43)