• No results found

3. Leerwinst en Toegevoegde waarde – theoretisch kader

3.5. Kwaliteitsfactoren

Berekeningen met betrekking tot leerwinst of toegevoegde waarde zijn alleen dan zinvol als ze zijn gebaseerd op valide gegevens. Dit houdt in dat er kwalitatief goede toetsen volgens de voorschriften op de juiste momenten worden afgenomen bij alle leerlingen waarvoor de toets bedoeld is. Hierbij komt nog dat de meting van de leerwinst en toegevoegde waarde

betrouwbaarder wordt naarmate deze is gebaseerd op meer dan twee metingen per leerling verspreid in de tijd. Deze metingen moeten dan wel inhoudelijk goed vergelijkbaar zijn. Verder zijn er nog andere kwesties die de betrouwbaarheid en de validiteit van leerwinst en toegevoegde waarde in gevaar kunnen brengen, zoals de selectie van correctiefactoren, kleine aantallen leerlingen waarover de leerwinst of toegevoegde waarde wordt berekend, de

(in)stabiliteit van de uitkomsten en ontbrekende leerlinggegevens vanwege tussentijdse in- en uitstroom (zie bijv. Center for Public Education, 2007). Hieronder wordt puntsgewijs nader

ingegaan op factoren die van invloed zijn op de kwaliteit van maten voor leerwinst en toegevoegde waarde (zie ook Willms, 2008).

Meetfouten

Hoe professioneel toetsen ook zijn ontwikkeld, er dient bij de interpretatie altijd rekening te worden gehouden met meetfouten en andere onzekerheden. De lengte van kinderen kunnen we tot op de millimeter nauwkeurig meten. We hebben daarvoor goede meetapparatuur tot onze beschikking. De meting van de lengte is in het algemeen betrouwbaar en valide. Dat geldt echter niet voor het meten van leerprestaties. Toetsen hebben nu eenmaal een bepaalde mate van imperfectie. De leerling kan een ‘slechte dag’ hebben gehad, het taalgebruik in de toets kan te moeilijk zijn, de toets dekt niet precies de inhoud van het gegeven onderwijs, enzovoort. Zelfs bij de meest betrouwbare toets is sprake van een bepaalde meetfout waardoor de behaalde score niet precies de ‘echte’ score hoeft te zijn. De invloed van de meetfout op de toetsprestaties is overigens niet voor alle leerlingen hetzelfde: deze is groter voor leerlingen met een lage of een hoge score dan voor leerlingen met een gemiddelde score (National Research Council & National Academy of Education, 2010).

Met deze meetfout, maar ook met andere onzekerheden, moeten leerwinst- en toegevoegde waarde modellen rekening houden. Veel onderzoekers lossen dat op door de

standaardmeetfout te melden of door de uitkomsten in betrouwbaarheidsintervallen (de boven- en ondergrens waarbinnen de werkelijke uitkomst waarschijnlijk ligt) te publiceren, zoals het geval is bij een meerdaagse weersvoorspelling. Sommige modellen houden rekening met de standaardmeetfout waardoor de leerwinst nauwkeuriger kan worden berekend.

Controle voor achtergrondkenmerken

De nauwkeurigheid van schattingen van de toegevoegde waarde van scholen wordt in hoge mate bepaald door de correctiefactoren die in het model worden betrokken. Zo kan het

voorkomen dat ambitieuze ouders eerder een school voor hun kind kiezen die kwalitatief goed aangeschreven staat dan minder ambitieuze ouders. Een deel van de toegevoegde waarde heeft dan te maken met dat ambitieniveau, dat op zijn beurt verweven is met de kwaliteit van de school. Bij de berekeningen van de toegevoegde waarde van een school zal voor de belangrijkste buitenschoolse invloeden op de leervorderingen gecorrigeerd moeten worden (fairness-

kenmerken). In de periode van acht jaar die een modale leerling nodig heeft om de basisschool te doorlopen kunnen allerlei gebeurtenissen optreden waar de school geen invloed op heeft, maar die wel een sterke invloed kunnen hebben op de leerprestaties van de leerlingen en daarmee op de gerealiseerde leerwinst of de toegevoegde waarde. Hierbij kan bijvoorbeeld gedacht worden aan verandering in de gezinssituatie, van de samenstelling van de wijk of buitenschools leren, zoals zomerscholen. Dit zou in ieder geval verdisconteerd moeten worden bij de beoordeling van de toegevoegde waarde van een school. Het toevoegen van extra

gegevens over leerling- en contextkenmerken in het model kan de nauwkeurigheid van de schatting verhogen, maar kan ook leiden tot meer complicaties zoals ontbrekende gegevens (OECD, 2008).

Kleine scholen

Een andere uitdaging die te maken heeft met meetfouten en onzekerheden wordt veroorzaakt door de aantallen leerlingen waarvoor de leerwinst en toegevoegde waarde wordt berekend. Als het aantal leerlingen van een school daalt of de eenheid van analyse wijzigt (bijvoorbeeld van schoolniveau naar groepsniveau), neemt de onzekerheid van de leerwinstmaat of de toegevoegde waardeschatting toe (Schochet & Hanley, 2010). Het gevolg is dat de leerwinst op groepsniveau of de toegevoegde waarde op schoolniveau per jaar sterk kan wisselen.

Onderzoek naar de precisie van toegevoegde waarde modellen laat zien dat bij scholen met een klein aantal leerlingen de standaardmeetfout vaak zo groot is dat de toegevoegde waarde van deze scholen niet zichtbaar is (McCaffrey & Lockwood, 2008).

Stabiliteit van schattingen

Uit onderzoek naar toegevoegde waarde modellen blijkt dat de uitkomsten niet stabiel zijn. Alle modellen produceren schattingen die per school van jaar tot jaar verschillen (McCaffrey, Sass & Lockwood, 2008). Veel van deze modellen zijn thans nog in ontwikkeling en leveren niet steeds dezelfde uitkomsten (Goldschmidt et al., 2005; Reardon, & Raudenbush, 2009; Harris, 2011; Timmermans (2012). Dit roept de vraag op of hier sprake is van een artefact van het model of dat de prestaties van scholen van jaar tot jaar daadwerkelijk verschillen. Dit verschijnsel tast het vertrouwen aan in toegevoegde waarde modellen, omdat leraren en ook onderzoekers er vanuit gaan dat de kwaliteit van het onderwijs langzaam verandert in plaats van jaar tot jaar. Als oplossing voor dit probleem wordt er vaak voor gekozen om gegevens over meerdere cohorten te middelen.

Ontbrekende gegevens

Idealiter hebben alle leerlingen voor wie de leerwinst berekend moet worden een complete toetsgeschiedenis. Maar in de praktijk is dit lang niet altijd het geval: leerlingen stromen tussentijds in of uit, hebben niet altijd mee gedaan aan alle toetsafnames of de school is overgegaan op een nieuwe versie van de toetsen waardoor vergelijking met de oude

toetsresultaten vaak niet meer mogelijk is. Daarnaast vorderen niet alle leerlingen op gelijke wijze: sommige leerlingen doubleren en maken dezelfde toets een jaar later nog een keer. Dit heeft de nodige gevolgen voor de leerwinstberekening als grondslag voor een schatting van de toegevoegde waarde7. Op leerlingniveau is het dan niet altijd mogelijk om tot

leerwinstberekening te komen. Dat geldt ook voor de berekening van de leerwinst op groeps- of schoolniveau. Enerzijds kan er sprake zijn van te geringe aantallen om tot een betrouwbare maat te komen. Anderzijds is het de vraag of de inspanningen van de school op een juiste wijze gemeten kunnen worden als niet alle leerlingen hun schoolloopbaan op dezelfde school zijn begonnen of hebben voltooid.

Incomplete leerlinggegevens moeten wel zoveel mogelijk worden meegenomen bij de

berekeningen van de leerwinst en toegevoegde waarde. Dat dergelijke gegevens ontbreken is een belangrijke beperking van de validiteit van toegevoegde waarde, omdat dat vaak de

gegevens van zwakkere leerlingen betreft (Rubin et al., 2004; Timmermans, 2012). Het schatten

van toegevoegde waarde op basis van enkele leerlingen met volledige gegevens resulteert daardoor in een overschatting van de prestaties van de leerlingen en de school (Thomas et al., 1997; Timmermans, 2012). Daarom wordt bij de modellen gebruik gemaakt van bepaalde beslisregels en procedures. Soms leiden ontbrekende gegevens tot uitsluiting van de

betreffende leerlingen, soms worden de ontbrekende gegevens geschat en vervangen door een beredeneerde score.

Strategisch gedrag

Alom bestaat de vrees dat naarmate leerwinst en toegevoegde waarde een rol gaan spelen in de externe beoordeling van scholen, scholen hun gedrag hierop gaan afstemmen. De ideale situatie is natuurlijk dat alle scholen op een integere wijze de vorderingen van hun leerlingen

monitoren. We kunnen onze ogen echter niet sluiten voor het risico dat scholen strategisch gedrag gaan vertonen of zelfs fraude plegen, zeker als indicatoren voor leerwinst en

toegevoegde waarde gebruikt worden voor accountability-doeleinden. Scholen zouden met name dan in de verleiding kunnen komen om ervoor te zorgen dat hun leerlingen op de begintoets erg lage scores halen. Onderstaande uitspraak van Donald Campbell (Campbell, 1976), ook bekend als Campbell’s law, lijkt bij uitstek van toepassing op het gebruik van gestandaardiseerde toetsen om scholen en leerkrachten af te rekenen op de prestaties van hun leerlingen: "The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor”.

Ervaringen in het binnen- en buitenland laten zien dat zich diverse vormen van strategisch gedrag kunnen voordoen als scholen en leerkrachten zich sterk onder druk gezet voelen om goede resultaten te produceren. Zo bestaat de vrees dat scholen geen toetsen afnemen bij leerlingen waarvan verwacht wordt dat ze de schoolprestaties negatief beïnvloeden. Dit verschijnsel wordt ‘reshaping the testpool’ genoemd.

Uit onderzoek in de VS is bekend dat slecht presterende leerlingen met een lage sociaal- economische status vaker worden ‘vrijgesteld’ van toetsen na introductie van een

accountabilitysysteem. Ook is geconstateerd dat het preventief zittenblijven toenam als gevolg van de introductie van het accountabilitybeleid. Een ander verschijnsel dat gericht is op het realiseren van zo hoog mogelijke leerprestaties, is het overaccentueren van of beperken van het onderwijs tot de toetsinhouden. Dit verschijnsel staat bekend als ‘teaching to the test’.

Bovenstaande verschijnselen doen zich vooral voor bij toetsen waarvan de uitslagen openbaar worden gemaakt en in een context waarin scholen op die prestaties worden ’afgerekend’ (De Wolf & Janssens, 2007).