• No results found

Normhandhaving bij examens: hoe worden resultaten van toetsen vergelijkbaar gemaakt?

N/A
N/A
Protected

Academic year: 2021

Share "Normhandhaving bij examens: hoe worden resultaten van toetsen vergelijkbaar gemaakt?"

Copied!
4
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Normhandhaving bij examens: hoe worden resultaten van toetsen vergelijkbaar gemaakt?

Anton Béguin, René Alberts en Ed Kremers (Citogroep, Arnhem)

Je hoort regelmatig de opmerking: het examen van dit jaar in vak x was veel moeilijker of gemakkelijker dan dat van vorig jaar. Op grond van de principes van eerlijkheid en transparantie van toetsing mogen kandidaten verwachten dat het examen waarvoor ze opgaan gelijkwaardig is aan de oudere examens. En dat streven examenmakers dan ook na. Maar wat betekent gelijkwaardigheid en hoe wordt die bereikt?

Allereerst wordt geprobeerd examens te maken die qua inhoud zo gelijkwaardig mogelijk zijn. Ze zijn samengesteld uit vragen die betrekking hebben op dezelfde leerstof en bij de beantwoording zijn vergelijkbare vaardigheden nodig. Door examens samen te stellen aan de hand van een zogeheten toetsmatrijs, waarin de inhoud van het examen gedetailleerd is vastgelegd, is ook de spreiding over de leerstof van jaar tot jaar vergelijkbaar. Daarmee is niet gezegd dat de examens van jaar tot jaar ook even

moeilijk zijn. Helaas is het op voorhand erg lastig om precies in te schatten hoe moeilijk een bepaalde vraag is, zelfs door docenten die les geven aan de examenkandidaten. Uit onderzoek is gebleken dat examens, ook al zijn ze inhoudelijk gelijkwaardig, toch nog kunnen verschillen in moeilijkheid. Dit hoeft echter geen probleem te zijn als de normering van het examen hiermee rekening houdt. Een eenvoudige manier is de normering zo aan te passen dat elk jaar het gemiddelde cijfer op het examen gelijk is.

Een vergelijkbare manier is de normering zo aan te passen dat het percentage leerlingen dat een onvoldoende haalt op het examen elk jaar even groot is. In de praktijk wordt deze laatste methode bij een deel van de examens gebruikt. Deze methoden zijn eenvoudig en met relatief beperkte kosten uit te voeren. Ze hebben ook een belangrijk nadeel. Ze gaan eraan voorbij dat de vaardigheid van de leerlingen van jaar tot jaar zou kunnen verschillen. Het is bijvoorbeeld denkbaar dat kandidaten over een reeks van jaren gemiddeld vaardiger worden in een bepaald vak. Voor een individuele leerling zou de waardering van zijn prestatie mede afhangen van de prestaties van de andere

examenkandidaten. Als de andere leerlingen beter presteren wordt zijn beoordeling met een lager cijfer gewaardeerd dan wanneer de andere leerlingen minder gepresteerd zouden hebben. Het gevolg is dat het voor de leerling uit kan maken in welk jaar hij of zij examen doet.

Het doel van de normering van examens is om een zelfde prestatie elk jaar met een zelfde cijfer te waarderen. Hiervoor is het nodig een onderscheid te maken tussen de moeilijkheid van de examens en de vaardigheid van de examenkandidaten. Op basis van vergelijking van de verzamelde afnamegegevens van twee examens kan dit onderscheid echter niet gemaakt worden. Want als het behaalde aantal scorepunten op het nieuwe examen overwegend lager is dan het behaalde aantal scorepunten op het examen van vorig jaar dan weet men niet of dat aan de opgaven lag, of aan de kandidaten, of aan beide.

Om dit onderscheid toch te kunnen maken moet er aanvullende informatie verzameld worden. Het eenvoudigst zou zijn om beide examens bij dezelfde groep leerlingen af te nemen. In dat geval zijn immers verschillen in resultaten op beide examens alleen het gevolg van een verschil in moeilijkheid van de examens. Praktisch is het echter niet haalbaar om twee examens onder examencondities af te nemen bij dezelfde groep leerlingen. Belangrijke complicaties hierbij zijn dat de vragen van oude examens openbaar en daarmee bekend zijn, dat het niet mogelijk is vragen op te nemen in een

(2)

examen die niet meetellen voor het eindcijfer en dat het nieuwe examen in verband met geheimhouding niet afgenomen kan worden voor de eigenlijke examendatum. Verder is het praktisch onmogelijk om bij dezelfde groep leerlingen testen ter grootte van twee volledige examens af te nemen: de totale afnametijd bedraagt dan 4 à 6 uur. En als dat al zou lukken, dan moeten ook nog eens de afnamecondities vergelijkbaar zijn aan de examenconditie. Waarbij het moeilijkste punt is dat de leerling evenveel belang moet hebben bij een goed resultaat als bij een echt examen het geval zou zijn.

Gelukkig is het niet noodzakelijk om de beide volledige examens af te nemen bij dezelfde groep leerlingen. Aanvullende gegevens worden verzameld bij groepen leerlingen die niet zelf aan het examen deelnemen. Bij deze leerlingen worden een deel van de vragen uit het ene examen en een deel van de vragen uit het andere examen afgenomen. Met behulp van de resultaten op deze vragen kunnen we de relatieve prestatie op beide examens van een gelijkwaardige groep leerlingen schatten. Dit gaat als volgt in zijn werk.

De theorie

Eerst wordt de veronderstelling gemaakt dat een bepaald statistisch model geschikt is om de examendata en de aanvullende data adequaat te beschrijven. In zo’n model wordt ervan uitgegaan dat de scores van de leerlingen op de vragen verklaard kunnen worden door twee verschillende factoren, namelijk de vaardigheid van de leerling (de

leerlingparameter) en de moeilijkheid van de vraag (de itemparameter). Door waarden in te vullen voor de parameters, de vaardigheden van de leerlingen en de moeilijkheden van de vragen, komt het model tot voorspellingen over de resultaten die leerlingen behalen op de verschillende vragen. Het invullen van andere waarden leidt tot andere voorspellingen. In een schattingsprocedure wordt bepaald welke parameterwaarden het best passen bij de data in de zin dat deze waarden de beschikbare data zo goed mogelijk beschrijven. Als we van alle leerlingen en van alle vragen de parameters hebben bepaald dan kunnen we het model gebruiken om van leerlingen de resultaten te voorspellen op vragen die zij niet hebben gemaakt. Toepassing van deze techniek maakt het mogelijk om op basis van het model te voorspellen wat de resultaten zouden zijn van een zelfde groep leerlingen op elk van beide examens. Met deze voorspelde resultaten kunnen we beoordelen of het ene examen moeilijker of makkelijker was dan het andere examen.

Samenvattend bestaat de procedure uit drie stappen:

1. Het schatten van het model.

2. Het voorspellen van de resultaten op vragen die leerlingen niet gemaakt hebben.

3. Beoordelen welk examen moeilijker of makkelijker was.

De praktijk

Het verzamelen van de aanvullende gegevens

In de praktijk worden de aanvullende gegevens verzameld bij groepen leerlingen die geacht mogen worden de opgaven op een redelijk niveau te kunnen maken, maar die niet deelnemen aan een van beide examens. Bijvoorbeeld gegevens over de vmbo- examens kunnen verzameld worden bij leerlingen in de 3e klas van het vwo. Vanwege logistieke redenen zijn er twee verschillende opzetten voor de verzameling van de

aanvullende gegevens. In beide opzetten worden vragen waarvan bekend is hoe moeilijk ze zijn gecombineerd met nieuwe vragen. De aanvullende gegevens voor examens die grotendeels bestaan uit meerkeuzevragen worden verzameld op het moment dat het eigenlijke examen net afgelopen is. De leerlingen, waarbij de aanvullende gegevens worden verzameld, kunnen dan nog niet bekend zijn met de opgaven uit het nieuwe examen. Op basis van een statistisch model wordt daarna bekeken hoe het examen genormeerd moet worden om een gelijke prestatie-eis te stellen als op eerdere examens.

Voordeel van deze manier van dataverzameling is dat absoluut gegarandeerd is dat de examenopgaven geheim blijven tot na de afloop van het examen. Bij examens die uit

(3)

open vragen bestaan zou bovenstaande procedure logistieke problemen opleveren omdat er te weinig tijd beschikbaar is om de aanvullende gegevens te beoordelen. Daarom worden bij deze examens aanvullende gegevens verzameld vóórdat het nieuwe examen is samengesteld. Bij de samenstelling van het examen wordt er dan voor gezorgd dat het examen een gelijke moeilijkheidsgraad heeft met voorgaande examens.

Het statistisch model

Het statistisch model dat gebruikt wordt bij meerkeuzevragen is het Rasch-model. Voor open vragen wordt een variant van dit model gebruikt. Dit model - van de Deense statisticus Georg Rasch - is een vrij eenvoudig kansmodel waarin de kans dat een bepaalde leerling een bepaalde vraag goed beantwoordt, afhankelijk is van de

vaardigheid van de persoon en van de moeilijkheid van de opgaven. In dit model wordt ervan uitgegaan dat de scores van de leerlingen in twee categorieën verdeeld kunnen worden, bijvoorbeeld 'goed' en 'fout', of 1 en 0. Bij het Rasch-model is de kans op een goed antwoord 50%, indien de vaardigheid van een leerling precies even groot is als de moeilijkheid van de vraag. Is de vaardigheid kleiner dan de moeilijkheid, dan neemt de kans op een goed antwoord af. Is de vaardigheid groter dan de moeilijkheid, dan neemt de kans toe. Bij examens met open vragen wordt niet alleen de kans berekend dat de leerling de vraag geheel goed of geheel fout beantwoordt, maar ook welke kans de leerling op een gedeeltelijk goed antwoord heeft.

Bovenstaand model wordt in de normhandhavingpraktijk gebruikt omdat het snel en efficiënt te schatten is, reeds bij relatief kleine aantallen kandidaten stabiele schattingen oplevert en omdat de schattingsprocedure goed controleerbaar is. Tegenover deze voordelen staat het nadeel dat het Rasch-model relatief eenvoudig is waardoor het in sommige gevallen minder goed bij de data zal passen dan uitgebreidere modellen.

Daarom is er een onderzoek gedaan waarin gekeken is of de normen gebaseerd op het Rasch-model niet te veel afwijken van normen die zijn gebaseerd op uitgebreidere statistische modellen die beter bij de data passen. Uit dit onderzoek blijkt dat de normen die worden verkregen met het huidige model weinig verschillen van de normen op basis van meer uitgebreide modellen, zoals bijvoorbeeld een model voor meerdimensionele vaardigheden. Helaas zijn deze uitgebreidere modellen minder makkelijk toe te passen in de normhandhavingpraktijk omdat bijvoorbeeld de schatting langer duurt en er meer data nodig zijn om het model te kunnen schatten. Een ander nadeel van deze modellen is dat ze bij de berekeningen gewogen scoringsregels gebruiken die afwijken van de

scoringsregel zoals die wordt gehanteerd bij de beoordeling van de resultaten van de leerlingen op het examen. Bij examens ligt namelijk de scoringsregel van tevoren vast omdat de leerlingen moeten weten hoe zwaar een vraag meetelt, dus hoeveel punten zij voor een vraag kunnen krijgen. In de uitgebreidere modellen tellen sommige vragen zwaarder mee dan dat ze in het examen tellen terwijl andere vragen minder zwaar meetellen. Gebruik van deze techniek zorgt ervoor dat het model beter bij de data past en dus geschikt is om te gebruiken in de eerste twee stappen van de

normhandhavingprocedure: bij de beschrijving van de data en bij de voorspelling van de resultaten van een zelfde groep leerlingen op elk van beide examens. In de laatste stap - de beoordeling of het ene examen moeilijker is dan het andere examen - moeten we ongewogen scores gebruiken. De manier van scoring mag namelijk niet afwijken van de manier van scoring die gebruikt is om de leerlingen te beoordelen. Wanneer dit wel het geval zou zijn normeren we niet meer het examen maar een andere toets die bestaat uit dezelfde vragen als het examen, maar die een andere scoringsregel heeft om de uitslag te bepalen.

Toepassing van normhandhaving

Normhandhaving op basis van aanvullende gegevens wordt niet bij alle examens gebruikt. Bij examens waar deze aanpak niet wordt gehanteerd, wordt de ‘eenvoudige’

manier van normering gebruikt. Een voorbeeld zijn de examens geschiedenis; vanwege de wisselende onderwerpen is een vergelijking van de prestaties op verschillende examens niet goed uitvoerbaar. Ook zijn er examens met weinig kandidaten, waardoor het lastig is om aanvullende gegevens te verzamelen en betrouwbaar een model te

(4)

schatten. Daarnaast zit er aan het verzamelen van aanvullende gegevens ook een

kostenaspect, waardoor de methode wordt ingezet bij die examens waar de behoefte aan informatie over de fluctuatie in vaardigheid over de jaren heen het grootst is.

De Centrale examencommissie vaststelling opgaven (CEVO) stelt namens de minister de opgaven vast en is ook verantwoordelijk voor de normering. De Citogroep adviseert de CEVO over de normering van de examens. De adviesnormen van de Citogroep zijn gebaseerd op de procedures zoals beschreven in dit artikel. Deze adviesnormen zijn voor de CEVO een belangrijk gegeven. De CEVO kan echter ook afwijken van de

adviesnormen, bijvoorbeeld omdat het examenprogramma of de studielast gewijzigd is.

Datum:

17 mei 2002 Internet:

http://toetswijzer.kennisnet.nl/html/normering/normering.pdf Interactieve versie met verwijzingen en achtergrondinformatie:

http://toetswijzer.kennisnet.nl/html/normering/home.htm Toetswijzer:

http://toetswijzer.kennisnet.nl

Copyright © 2002 Citogroep. Alle rechten voorbehouden.

Referenties

GERELATEERDE DOCUMENTEN

In de praktijk zullen meestal ook andere vaardigheden, persoonlijk- heid en omstandigheden waaronder de toets wordt afgenomen van invloed zijn op deze kans, maar die worden in

Dit is een uiterst geschikt vertrekpunt voor de mapping van praktijken van ondersteuning aan gezinnen die geconfronteerd worden met gewelddadige radicalisering

vervangen van aoc en vakinstelling door beroepscolleges. Daarnaast geeft dit besluit uitvoering aan de harmonisering van de bekostiging van groen onderwijs aan voormalig aoc’s.

• Derde optie is de claim te zien als bevestiging dat het nodig is dat de (digitale) kennis en kunde in de sector versteviging krijgt. De nieuwe Archiefwet stelt de eis niet

Nota naar aanleiding van het verslag wetsvoorstel wettelijke taken internationalisering onderwijs en beantwoording schriftelijke vragen voorhang doenoprichten Neth-ER.. Pagina 1

Wat wij verder belangrijk vinden is dat de opleidingen een visie hebben op (de ontwikkelingen in) het vakgebied van auditing en op welke manier deze visie vertaald is naar de

De Raad overweegt dat de gemeenteraad bevoegd is om op grond van de Wmo 2015 in een verordening te bepalen onder welke voorwaarden uit het pgb diensten

maar een Man heeft ook wel zaken, Waar door zyn hoofd op hol kan raken, Schoon zy is zuinig, knap, zyn Vrouw, Maar merkt dat zy hem is ontrouw, En of zy nooit geen borrel lust,