Schalen op basis van de toetsen binnen de peiling 2018

Hoofdstuk 5. Kwaliteit van de meetinstrumenten, vragenlijsten en schalen

5.4 Constructie van de vaardigheidsschalen

5.4.1 Schalen op basis van de toetsen binnen de peiling 2018

Bij de schalen voor woordenschat, leesvaardigheid, en luistervaardigheid zijn de gegevens verzameld met een incompleet design. Om deze reden zijn IRT-methoden gebruikt om de scores op de varianten van de toets op één gezamenlijke schaal te brengen. Bij alle drie de vaardigheden ging het om gegevens van zes toetsen, waarvan opgaven altijd in twee verschillende toetsen voorkwamen.

Hoeveel items in een itemblok zaten verschilde per vaardigheid. Bij lezen was dat acht of negen items per itemblok, bij luisteren acht items en bij woordenschat 18 of 19 items. Hierdoor bevatten de toetsen respectievelijk 16/17, 16 en 36/37 items. Meer over de toetsdesigns is beschreven in hoofdstuk 3.

De leerlingscores op de afzonderlijke items zijn geanalyseerd met behulp van het One Parameter Logistic Model (OPLM; Verhelst en Glas, 1995). In dit model wordt de kans dat een bepaalde leerling een bepaald item goed beantwoordt, uitgedrukt als functie van de latente (“ware”) vaardigheid van de leerling enerzijds, en de moeilijkheid en het onderscheidende vermogen van het item anderzijds. De interpretatie van het OPLM is vergelijkbaar met die van het Two Parameter Logistic Model (2PLM), omdat beide modellen rekening houden met variatie in de moeilijkheid én het onderscheidende vermogen van verschillende items (in tegenstelling tot het eenvoudigere Rasch- model, dat alleen rekening houdt met de moeilijkheid). Een praktisch verschil tussen het OPLM en het 2PLM is dat in het OPLM de discriminatieparameters van de items a-priori als constanten worden ingevoerd. Door deze keuze kan de (gewogen) ruwe score van een leerling op de toets direct uit de data berekend worden, zodat het mogelijk wordt om de itemparameters te schatten met conditional maximum likelihood (CML).

De mogelijkheid om CML-schatting te gebruiken is een belangrijk voordeel van het OPLM in het huidige onderzoek, omdat CML-schatting van de itemparameters niet gepaard gaat met assumpties over de vaardigheidsverdeling in de populatie, over de wijze van steekproeftrekking of over de toewijzing van toetsvarianten in een incompleet design (Eggen, 2004). Het heeft zodoende géén nadelige invloed op CML-schattingen van de itemmoeilijkheden (het schalen van de opgaven) dat de steekproef waarmee we werken niet representatief is. Een ander voordeel is dat de modelpassingsmaten binnen CML beter ontwikkeld zijn.

Voor de modelschatting gebruiken we het computerprogramma OPLM (Verhelst, Glas &

Verstralen, 1995), dat tevens een aantal statistische toetsen uitvoert op grond waarvan we kunnen bepalen of het model een adequate beschrijving geeft van de data. Belangrijk zijn de zogenaamde itemgeoriënteerde S-toets en de overall R1c-toets. De S-toets is gebaseerd op de verschillen tussen de geobserveerde en verwachte proporties antwoorden in homogene scoregroepen. Een uniforme verdeling van p-waarden voor de S-toetsen in het interval [0,1] pleit voor adequate passing van het model (zie Verhelst, Glas & Verstralen, 1995).

Het evalueren van de passing kan onder andere visueel gebeuren. Daartoe worden de geschatte item-response functies (IRF) vergeleken met de geobserveerde p-waarden op een aantal punten op de schaal. In Figuur 5.2 is een geschatte IRF weergegeven als een vloeiende blauwe lijn, en zijn de p-waarden weergegeven als een rood kruis, of een rode bol. De weergave is een rood kruis als de p-waarde binnen het betrouwbaarheidsinterval (weergegeven door de grijze vloeiende lijnen) van de schatte IRF ligt; een rode bol geeft aan dat deze buiten het betrouwbaarheidsinterval ligt. Zoals gesteld kunnen de afwijkingen van geschatte IRF ook weergegeven worden door middel van de S- statistic die per opgave gegeven kan worden. Volgens de Si-statistics is opgave 80 van de Woordenschatschaal (WS3-32) het slechts passende item. Visuele inspectie laat zien dat aan de onderkant van de schaal de passing inderdaad niet geheel correct is, maar het model kan dergelijke schendingen wel aan: het model is robuust genoeg. Het een-na slechts passende item is het 16^e item van de Luisteren-schaal (LU2-24). Bij visuele inspectie is duidelijk dat de afwijking daar nog minder erg is. Beide opgaven zijn afgebeeld in Figuur 5.2.

R e l . i t e m # : 8 0 A b s . i t e m # : 8 0 L a b e l : W S 3 - 3 2 [ : 1 ] D i s c r . : 1 , B : . 2 3 8 R e l . i t e m # : 1 6 A b s . i t e m # : 1 6 L a b e l : L U 2 - 2 4 [ : 1 ] D i s c r . : 4 , B : - . 3 1 7

- . 3 1 - . 2 6 . 4 8

Figuur 5.2: Passing van items WS3-32 (links) en LU2-24 (rechts)

Voor alle drie de vaardigheden is te zien dat over de hele schaal heen de gemiddelde a-parameter gelijk aan 3 is en de gemiddelde b-parameter 0, maar deze waarden zijn het gevolg van gemaakte keuzen. Bij het bepalen van de a-parameter is voor dit gemiddelde gekozen en aangezien de b- parameters vrij geschat konden worden is het gemiddelde hier 0. De a-parameters variëren van 1 tot en met 5 bij alle schalen: er zijn dus geen zeer extreme waarden gevonden. Het percentage items met een a-parameter van 1 (vlakke, weinig onderscheidende item response functies) ligt op 5%, met weinig verschillen over de vaardigheden en geen van de a-parameters met een negatieve Gam_i, wat indicatief zou zijn voor een dalende item response functie. In het geval van peilingen hoeven dergelijke opgaven niet verwijderd te worden omdat het juist interessant kan zijn bij welke opgaven vaardige en minder vaardige leerlingen weinig van elkaar verschillen.

Het gemiddelde aantal observaties per opgave bij alle drie de vaardigheden ligt boven de 600. Bij een opgave is het aantal observaties 383 (WS1-14), maar bij alle ander opgaven ligt dat boven de 450. De gemiddelde SE(B) ligt onder de 0,04 en de gemiddelde bijdrage aan de R1c ligt op 1,15.

Kijken we naar de passing van de gehele schaal dan zien we dat de verdeling van de Si-statistics (Tabel 5.12) in grote lijnen een uniforme verdeling van p-waarden voor de S-toetsen oplevert in het interval [0,1]. Dit pleit voor adequate passing van het model. De resultaten voor de R1c-statistics zijn iets minder fraai. Bij Luisteren is de p-waarde van de R1c toets 0,0008, wat nog steeds een significante afwijking betekent. Deze afwijking is echter niet dramatisch.

Tabel 5.12: verdeling van p-waarden voor de S-toetsen

0,01 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00

LE (N items=51) 0 3 2 5 5 6 7 6 4 5 5 3

LU (N items=48) 0 4 4 7 6 2 3 6 6 4 3 3

WS (N items=110) 1 7 4 11 13 15 12 13 10 5 9 10

LE 0% 6% 10% 20% 29% 41% 55% 67% 75% 84% 94% 100%

LU 0% 8% 17% 31% 44% 48% 54% 67% 79% 88% 94% 100%

WS 1% 7% 11% 21% 33% 46% 57% 69% 78% 83% 91% 100%

Om de stelling te onderbouwen dat het model robuust genoeg is en om na te gaan of er, ondanks kleinere schendingen van het model, zonder problemen met het model kan worden gewerkt is er een controle uitgevoerd. Voor alle schalen en items is een inschatting gemaakt hoe goed de geobserveerde waarden – zoals de p-waarden of de Rit-waarden, of de scoreverdeling bij de verschillende toetsen – teruggeschat kunnen worden met het model. Er is geen standaardrichtlijn om hier te stellen dat het model robuust genoeg is, maar in de beschrijving van de resultaten kon wel een kwalitatieve analyse gemaakt worden of het model robuust genoeg is om te kunnen gebruiken.

Deze leverde goede resultaten. Op toets-niveau is het grootst gevonden verschil in gemiddelde scores 0,1 bij Woordenschat-toets 4 (geschat 22,8 versus geobserveerd 22,7 bij 37 opgaven). De standaardafwijkingen worden iets overschat (2%) en de betrouwbaarheden daarmee ook iets, zij het dat dit onder de 0,01 blijft. Op itemniveau zijn de afwijkingen ook niet heel erg groot: in absolute waarde zijn de gemiddelde p-waarde-verschillen kleiner dan 0,02 (mediaan 0,016).

Een ander onderzoek betreft het onderzoek naar vraagpartijdigheid (Differential Item Functioning; afgekort als DIF). In dergelijk onderzoek wordt onderzocht of de geschatte parameters ook voor verschillende subgroepen van de populatie geldig zijn. De afstanden tussen de opgaven op de latente schaal zouden namelijk voor iedere groep hetzelfde moeten zijn. Hier is onderzoek gedaan naar de tweedeling op basis van de scholen (EIBO – VVTO) en op basis van geslacht (jongen – meisjes). Als we hierbij kijken naar de passingsmaten zien we dat er weinig verschil is tussen de passing (met gefixeerde parameters) als alle leerlingen samengenomen worden en als deze per subgroep geanalyseerd worden. Enige uitzondering is hier woordenschat waarbij we een iets slechtere passing hebben bij de opdeling naar geslacht. Dit is overigens een niet ongebruikelijk resultaat: er zijn woorden die jongens meer aanspreken en woorden die meisjes meer aanspreken.

Het verwijderen van opgaven met DIF op basis van geslacht verarmt de meting van het concept.

De slechtst passende opgaven zijn bij de data met alleen de jongens de onderstaande opgaven in Figuur 5.3a. De slechts passende opgave bij data met alleen meisjes is gegeven in Figuur 5.3b. Dit zijn de opgaven die een sterk significant afwijkende s-statistic hebben (p=.000). Als we visueel deze opgaven bekijken, valt het gebrek aan passing mee. Op basis van de p-waarden zien we verschillen van maximaal 0,20 punten (0,57 jongens, 0,77 bij meisjes bij het woord “shelf” – WS3-46).

Rel. item #: 19 Abs. item #: 19 Label: LE1-03 [:1] Discr.: 4, B: .364 Rel. item #: 59 Abs. item #: 59 Label: WS3-13 [:1] Discr.: 3, B: -.298 Rel. item #: 104 Abs. item #: 104 Label: WS3-46 [:1] Discr.: 1, B: -.437

-.1 .8 -.3 .6 -.3 1.1

Figuur 5.3a: Opgaven alleen bij jongens met de slechtste passing (LE1-03; WS3-13; WS3-46)

Rel. item #: 85 Abs. item #: 85 Label: WS3-37 [:1] Discr.: 3, B: -.277

-.4 .6

Figuur 5.3b: Opgaven alleen bij meisjes met de slechtste passing (WS3-37)

Al met al lijkt het erop dat ook bij woordenschat het gebrek aan passing meevalt en dat er uitgegaan kan worden van één schaal voor lezen, luisteren en woordenschat.

In document PEILING ENGELS EINDE BASISONDERWIJS 2018 (pagina 116-119)