Resultaten analyse theorietoetsen - Psychometrische kwaliteit van het instrumentarium

3 Psychometrische kwaliteit van het instrumentarium

3.4 Resultaten analyse theorietoetsen

De dataset met personen waarvan verondersteld was dat zij een van de theorietoetsen (ThT) Kustzinnige Oriëntatie gedaan hebben bevatte 4022 records. Dat wil dus zeggen dat er 4022 verschillende leerling-nummers in de data voorkwamen. Bij 65 van deze leerlingen was er van geen enkele opgave een leerling-antwoord bekend (100% ontbrekende antwoorden). Bij twee leerlingen ontbrak de eerste helft van de toets. Deze twee leerling records konden zodoende ook niet als een reguliere afname meetellen. Analyses zijn uitgevoerd op de dataset met de gegevens van de 3955 overgebleven leerlingen. 146 leerlingen hiervan bleken afkomstig uit groep 7.

De gegevens van de leerlingen betroffen de antwoorden op tien verschillende toetsversies. Deze toetsversies hadden wel overlap van opgaven waardoor het later mogelijk was om Item Response Theorie analyses uit te voeren. De leerlingen zijn redelijk gelijkmatig over de toetsen verdeeld (minimaal 364 observaties en maximaal 420; gemiddeld iets meer dan 395 leerlingen per toets). Alle boekjes hadden 22 opgaven, maar in boekje 7 was iets misgegaan met een van de opgaven waardoor daar geen bruikbare observaties beschikbaar waren. Dit item was echter wel goed geobserveerd in een van de andere toetsversies, zie tabel 3.10.

Tabel 3.10 Beschrijving resultaten van de schriftelijke meetinstrumenten

Toets N lln N items Max score Gem. score sd sem

1 403 22 25 14,2 3,7 1,8

2 408 22 25 12,9 3,5 1,9

3 420 22 27 12,2 4,1 2,0

4 371 22 27 12,9 3,9 1,9

5 423 22 26 13,6 3,8 1,8

6 364 22 26 13,7 3,9 2,0

7 385 21 25 10,0 3,4 2,2

8 398 22 25 10,1 3,7 1,8

9 401 22 26 11,5 3,6 2,3

10 382 22 26 14,6 4,0 2,0

Toets = toets versie; N lln = aantal leerlingen; N items = aantal items; Max score = maximale score;

Gem. score = gemiddelde score; SD= standaard deviatie scores; SEM = Standard Error of the Mean van scores;

Voor de 10 verschillende toetsversies zijn ieder afzonderlijk klassieke analyses uitgevoerd (zie Tabel 3.11). De gemiddelde p-waarden over de toetsversies lijken van vergelijkbare moeilijkheidsgraad (gemiddelde p-waarde over alle toets versies: 48,7, range: 40,0 – 56,9). Tabel 3.11 bevat verschillende maten voor de betrouwbaarheid. Alle betrouwbaarheidsschattingen van de toetsversies zijn

onderschattingen bij deze dataset. De bekendste van de betrouwbaarheidsmaten (alpha) zit het verst af van de werkelijke betrouwbaarheid. De (asymptotisch geschatte) variant van de Greatest Lower Bound (= laagste ondergrens of GLB) zit het dichtst bij de ware betrouwbaarheidsmaat op basis van inter-itemrelaties².

De betrouwbaarheden zijn voor de meeste toetsen voldoende voor de vergelijking van de leerlingen op groepsniveau. De GLB was groter dan 0,70 voor alle toetsen waarvoor de GLB uitgerekend kon worden. Bij toets versie 9 kon bij de variant met 22 opgaven geen enkele GLB geschat worden. In toets-versie 7 was geen asymptotische schatting van de GLB te maken.

2 zie ook http://foswiki.cs.uu.nl/foswiki/pub/Toetsing/ToetsAdviesCommissie/MisverstandenRondCronbachAlpha.pdf ).

Tabel 3.11 Kwaliteit en betrouwbaarheid voor de schriftelijke meetinstrumenten

Toets = toets versie; Gem. p-waarde = gemiddelde p-waarde; Gem. Rit = gemiddelde item-totaal-correlatie;

Alpha = Cronbach’s alpha, ondergrens van de betrouwbaarheid; Lambda-2, maat voor betrouwbaarheid;

GLB = Greatest Lower Bound, maat voor betrouwbaarheid.

Est. = schatter; SE = Standard Error; Asympt. Est. = asymptotische schatter.

Naast de analyses voor de hierboven beschreven dataset zijn ook additionele analyses uitgevoerd om te onderzoeken of er sprake is van opmerkelijke reeksen ontbrekende waarden. Leerlingen waarvan bij 3 of meer opgaven achter elkaar de antwoorden ontbreken, zijn niet meegenomen in de analyses. Bij dergelijke reeksen van ontbrekende waarden zou eventueel een onterechte samenhang in de opgaven gesuggereerd kunnen worden. Vooral bij de item respons theorie (IRT) analyses zou dit een

ongewenste invloed kunnen hebben op de schattingen van de itemparameters. Het aantal leerlingen in de alternatieve analyses daalt met 39: van 3955 naar 3916. De gemiddelde p-waarden stijgen iets (gemiddeld van 48,7 naar 48,8), en de geschatte betrouwbaarheden dalen iets (gemiddeld minder dan 0,01; bij deze dataset zijn alle asymptotische GLB-waarden te berekenen; geen van de waarden komt onder de 0,70).

In Bijlage F zijn de moeilijkheden en item-totaal-correlaties per item weergegeven. Daarin is te zien dat een viertal van de 107 opgaven³ extreem moeilijk is (P<,10), en 14 zeer moeilijk (P<0,25). Van de opgaven was er ook een opgave met een negatieve rit-waarde. Een vijftal opgaven had een extreem lage (maar positieve) rit tussen de 0 en 0,05.

Vervolgens zijn itemresponsetheorie-analyses uitgevoerd. Op basis van deze analyses zijn in totaal vijf van de 107 items geëxcludeerd die niet goed functioneren. Merk op dat opgaven die verwijderd waren ook opvielen bij de klassieke analyse. Zo zijn de opgave met de negatieve samenhang tussen de item-score en de toetsitem-score (rit) verwijderd, evenals twee van de 5 met de extreem lage rit-waarden. De op grond van minder gunstige psychometrische kenmerken verwijderde opgaven konden ook inhoudelijk geduid worden.

Met behulp van itemresponsetheorie-analyses is over de goed functionerende items een schaal Kunstzinnige Oriëntatie geconstrueerd, en zijn verschillende groepen leerlingen met elkaar vergeleken.

Alle opgaven in deze toetsen hebben betrekking op kerndoel 56. Er is wel een onderscheid te maken tussen opgaven die puur naar kennis vragen (Kennis, 71 opgaven; 66 na verwijdering van de opgaven, met een maximaal te behalen score van 66) en ook de evaluatie van kunstvorm (Waardering, in totaal

3 Itemnummers lopen van 1 tot en met 128. In een eerder stadium zijn rond de pilot test al enkele opgaven verwijderd, deels op basis van inhoud (waren al genoeg opgaven van dat soort) en deels op basis van de resultaten bij die opgaven.

36 opgaven met een maximaal te behalen score van 55). Dit laatste type is onder te verdelen in Eigen Waardering (17 opgaven) en Waardering van Anderen (19 opgaven).

Voor elke leerling zijn bankscores opgeleverd: bankscores schatten het aantal punten dat een leerling zou hebben behaald als hij of zij alle opgaven had gemaakt. Op grond hiervan kan berekend worden welk percentage van het totaal aantal te behalen punten dit betreft. Dit kan beschouwd worden als een schatting van het beheersingsniveau van een leerling.

Naast de bankscores zijn voor elke leerling schaalscores opgeleverd, door eerst z-scores te berekenen op basis van het gemiddelde en de standaarddeviatie van de leerlingen uit de representatieve steekproef. Vervolgens zijn deze z-scores getransformeerd naar een lineaire functie met gemiddelde 250 en standaarddeviatie 50. Daarnaast is voor elke leerling het percentage missende scores

opgeleverd. Tevens is voor de terugrapportage naar de scholen een algemene schaal KO gemaakt. De interpretatie van deze laatste schaal is echter lastig, omdat de 36 opgaven Waardering de schaalscores veel meer bepalen dan de 66 opgaven Kennis.

In document Kunstzinnige Oriëntatie (pagina 32-35)