• No results found

4 Luisteren

4.5 Meetnauwkeurigheid

Binnen de item respons theorie wordt gebruikgemaakt van het statistische begrip informatie om de meetnauwkeurigheid van een toets lokaal uit te drukken (zie bijvoorbeeld Lindgren, 1976). De

iteminformatiefunctie geeft aan welke bijdrage een item levert aan de meetnauwkeurigheid voor ieder punt op de vaardigheidsschaal waar het item betrekking op heeft. De iteminformatiefunctie van een dichotoom item bereikt zijn maximum wanneer θ = βj en wordt kleiner naarmate het verschil tussen θ en βj toeneemt.

Met behulp van de informatiefuncties van de afzonderlijke items in een willekeurige toets t kan een zogenaamde toetsinformatiefunctie bepaald worden. Voor de toetsinformatiefunctie It(θ) geldt:

=

=

kt

j j

t

θ I θ

I

1

) ( )

(

De waarde van It(θ) hangt in de regel samen met het aantal items in de toets, de kwaliteit van de items, en de mate van overeenstemming tussen de moeilijkheidsgraad van de items en de vaardigheid van de leerling. Uit de toetsinformatiefunctie kan de standaardmeetfout van een individuele vaardigheidsschatting afgeleid worden:

) ( 1 ˆ )

( θ I θ

SE

t

=

t

De interpretatie van deze standaardmeetfout is hetzelfde als in de klassieke testtheorie. De

toetsinformatiefunctie is per toetsversie weergegeven in Figuur 4.4. We zien dat de toetsversies in de beoogde richting verschilden in hoe nauwkeurig zij meten bij oplopende vaardigheidsniveaus. Onder de y-as is de geschatte populatieverdeling van de latente vaardigheid afgebeeld voor de leerlinggroepen die de drie toetsversies hebben gemaakt. De verschillende toetsversies sloten vrij goed aan bij de vaardigheid van de leerlinggroepen die ze gemaakt hebben, zoals we ook concludeerden op basis van de gemiddelde p-waarden van de toetsen. Psychometrisch gezien hadden de toetsversies iets moeilijker mogen zijn, maar 39

het werd in dit onderzoek belangrijk geacht om de leerlingen een gevoel van succes te geven; daarnaast maakt het voor onderzoek op systeemniveau (zoals dit onderzoek) ook niet veel uit als de vaardigheid van individuele leerlingen iets minder nauwkeurig gemeten wordt.

Figuur 4.4. Toetsinformatiefunctie (en vaardigheidsverdeling onder de y-as) per toetsversie Binnen het raamwerk van de item respons theorie is het enigszins problematisch om de

meetnauwkeurigheid te interpreteren, omdat er geen ondubbelzinnige criteria beschikbaar zijn om de toetsinformatiefunctie te beoordelen. De definitie uit de klassieke testtheorie van meetnauwkeurigheid is gemakkelijker te interpreteren, maar niet direct vergelijkbaar met de lokale maat voor meetnauwkeurigheid uit de item respons theorie. Wanneer we de variatie in standaardmeetfouten negeren en de variantie van de vaardigheidsverdeling vastzetten, wordt het echter mogelijk om de item respons theorie maat voor

meetnauwkeurigheid te relateren aan de klassieke maat voor meetnauwkeurigheid. Verhelst, Glas, en Verstralen (1995) hebben in dit kader de MAcc coëfficiënt ontwikkeld. De Macc coëfficiënt kan opgevat worden als een generalisatie van coefficient alpha voor alle schattingen van θ.

Omdat er in dit onderzoek gebruikgemaakt is van het principe van niveau-gestratificeerd toetsen is de MAcc coëfficiënt eerst uitgerekend in de totale populatie voor alle items (dat wil zeggen, er is net gedaan alsof alle items in de itembank zijn afgenomen bij alle leerlingen). Vervolgens hebben we met behulp van de

Spearman-Brown-formule voor testverlenging (of hier –verkorting) (Brown, 1910; Spearman, 1910) een schatting gemaakt van de betrouwbaarheid in het geval dat 28, 24, of 20 items zouden zijn afgenomen (de lengte van toetsversies 1, 2 en 3). De MAcc coëfficiënt in de totale populatie voor alle 52 geschaalde items bleek gelijk te zijn aan 0.860. De betrouwbaarheid van de drie toetsversies werd dan respectievelijk geschat op 0.770, 0.740 en 0.710. Volgens richtlijnen van Evers et al. (2010) is een betrouwbaarheid van 0.600 voldoende en één van 0.700 goed als het doel is om leerlingen te vergelijken op groepsniveau, zoals het geval is bij systeemevaluatie en terugrapportage op schoolniveau. We kunnen dus concluderen dat het gebruikte meetinstrument voor Luisteren een goede betrouwbaarheid heeft.

4.6 Variabelen

Als het OPLM geldt voor een itemverzameling kan de vaardigheid van leerlingen met elke willekeurige deelverzameling op dezelfde meetschaal geschat worden. De (gewogen) scores van de leerlingen op de drie toetsversies kunnen dus vertaald worden naar zogenaamde vaardigheidsscores die zonder problemen met elkaar vergeleken kunnen worden, ook als verschillende toetsen zijn afgenomen. Tevens is het mogelijk om op basis van de vaardigheidsscore van een leerling een zogenaamde bankscore te bepalen (zie bijvoorbeeld Hambleton, Swaminathan, & Rogers, 1991). Een belangrijk voordeel van bankscores is dat de scores geïnterpreteerd kunnen worden als een beheersingniveau. De bankscores liggen namelijk tussen 0 en 100 procent. Bij een bankscore van 70 kun je dus zeggen dat de leerling naar verwachting 70 procent van de items in de bank correct kan maken.

In het databestand staan ruwe scores, gewogen scores, vaardigheidsscores en bankscores (als percentage). De ruwe en gewogen scores zijn berekend op basis van de items in de toetsversie die de leerling gemaakt heeft. Dit betekent dat de maximale ruwe score voor versie 1 gelijk is aan 28, voor versie 2 gelijk aan 24 en voor versie 3 gelijk aan 20. De maximale gewogen scores zijn respectievelijk gelijk aan 58,

 

=

=

=

k

j j j

k

j j

p

1 1

) 1 (

)

(  

49 en 43. De bankscores zijn niet-lineaire transformaties van de vaardigheidsscores en kunnen worden uitgerekend via de itemparameters die verkregen zijn na schatting van het OPLM:

Figuur 4.5 geeft een visuele weergave van de relatie tussen de vaardigheidsscore  en de bankscore . We zien dat relatie tussen de vaardigheidsscores en de bankscores in het midden nagenoeg lineair is en aan de uiteinden van de meetschaal vlakker. Dit komt doordat leerlingen met een hoge vaardigheidsscore vanaf een bepaald vaardigheidsniveau (vrijwel) alle items correct zullen maken en leerlingen met een lage vaardigheidsscore (vrijwel) alle items fout. Bij het doen van analyses op systeemniveau heeft het de voorkeur om de bankscores uit het databestand te gebruiken, omdat het gebruik van vaardigheidsscores kan leiden tot een (sterke) overschatting van de populatievariantie. Bij het gebruik van bankscores speelt dit probleem niet.

100 90 80 70 re 60

ksco 50

Ban 40

30 20 10

0 -1,50 -1,00 -0,50 0,00 0,50 1,00 1,50 Theta

Figuur 4.5. Visuele weergave van de relatie tussen vaardigheidsscores en bankscores Samenvattend zijn in het databestand bij Luisteren de volgende variabelen opgenomen:

LUI_VERS Toetsversie die de leerling heeft gemaakt LUI_MISS Percentage ontbrekende antwoorden LUI_RSCO Ruwe score op de gemaakte toetsversie LUI_WSCO Gewogen score op de gemaakte toetsversie LUI_THET Weighted Maximum Likelihood vaardigheidsscore LUI_BANK Verwachte bankscore

LUI_REFN Referentieniveau (<1F/1F/2F)

LUI_WEIGHT Gewicht om te corrigeren voor leerroute

Het behaalde referentieniveau is gebaseerd op een koppeling met de Ankersets. In Hoofdstuk 8 wordt deze koppeling uitgebreid beschreven en onderbouwd.

41