Toetsen: Lezen, Luisteren en Woordenschat

Hoofdstuk 5. Kwaliteit van de meetinstrumenten, vragenlijsten en schalen

5.1 Toetsen: Lezen, Luisteren en Woordenschat

De vaardigheden lezen en luisteren en de competentie woordenschat zijn allen met toetsen gemeten. Het merendeel van de vragen in de toetsen waren meerkeuzevragen. Uitzondering hierop waren enkele vragen in de woordenschattoetsen. Voordat de toetsen in het hoofdonderzoek zijn afgenomen, heeft in september/begin oktober 2017 eerst een pilotonderzoek plaatsgevonden.

5.1.1 Pilotonderzoek toetsen

Om een indruk te krijgen van de kwaliteit van de items en toetsen is een pilot uitgevoerd, waarbij vrijwel alle opgaven van het hoofdonderzoek zijn afgenomen. De pilot had als belangrijkste doel om te achterhalen of de verschillende peilingsonderdelen opgaven of elementen bevatten die voor de daadwerkelijke afname aangepast of geheel verwijderd zouden moeten worden, omdat deze niet voldeden.

Pilot lezen en woordenschat

Bij 155 leerlingen van 5 zeer verschillende scholen (met 6 klassen) zijn hiertoe gegevens verzameld bij drie toets-versies, die ieder bij twee scholen/klassen werden afgenomen. Iedere toets-versie bestond uit drie blokken: twee gecombineerde lees- en woordenschat-blokken en een luister-blok.

Een gecombineerd lees-woordenschat-blok bevatte opgaven zowel voor woordenschat als voor lezen. De aantallen opgaven voor lezen en woordenschat en leerlingen zijn gegeven in Tabel 5.1.

Tabel 5.1: Kenmerken afname toetsen pilot lezen en woordenschat

aantal items aantal leerlingen Leerlingen totaal Lezen woordenschat totaal definitief % uit

Set 1 29 10 19 34 29 15%

Vanuit de gedachte dat iedere leerling in principe twee blokken maakte voor lezen en woordenschat, zou de verwachting zijn dat het totaal aantal afnames uitkomt op 310 (2 x 155 leerlingen). Dit was echter niet het geval, omdat er ook leerlingen waren die spreek- en gesprekstaken uitvoerden tijdens de afname. Daarnaast zijn andere leerlingen die 100% ontbrekende waarden (bijvoorbeeld als gevolg van tandartsbezoek) hadden niet in deze aantallen opgenomen.

Het pilotonderzoek was met name bedoeld om meer over de opgaven te weten te komen.

Om die reden zijn niet alleen de leerlingen met 100% ontbrekende waarden niet opgenomen in het onderzoek, maar ook de leerlingen bij wie een reeks van vijf of meer opgaven op rij ontbreekt zijn niet in dit onderzoek opgenomen. In de meeste gevallen geeft het ontbreken van opgaven op rij namelijk meer informatie over leerlingen (bijvoorbeeld dat ze een blad hebben overgeslagen of niet tot het einde van de toets kwamen) dan specifiek over opgaven.

Iedere opgave zat slechts in één opgaven-set en de pilot was opgezet bij een beperkt aantal leerlingen (n=155). Dit aantal leerlingen lag te laag om goed item-response-theorie (IRT) analyses uit te voeren.

De pilot leverde ondanks het geringe aantal observaties inzichten op die invloed hadden op de definitieve samenstelling van de toetsen in het onderzoek. De combinatie-toetsen werden heroverwogen, omdat zij geen voldoende nauwkeurige meting van de vaardigheden woordenschat en lezen toestonden (zie paragraaf 3.3.2 voor meer informatie). Op basis van de resultaten van de pilot is besloten om voor lezen en woordenschat aparte toetsen te maken.

Een ander resultaat van de pilot bij woordenschat was de beslissing hoe de open opgaven te beoordelen. Bij woordenschat was op de pilotgegevens een tweetal analyses uitgevoerd, aangezien de open opgaven op strenge en milde wijze geanalyseerd konden worden. Bij de strenge beoordelingswijze wordt een opgave alleen goedgerekend bij correcte spelling, terwijl dit bij de milde beoordelingswijze ook het geval is bij fonetisch geschreven goede antwoorden. Beide wijzen geven een indicatie van de lexicale beheersing. Vanwege de hogere betrouwbaarheid van strenge beoordelingen is uiteindelijk gekozen voor deze strenge beoordelingsvorm (Westhoff, 1981, zie ook paragraaf 1.6.4). Deze strenge beoordeling is ook in de voorgaande peiling gehanteerd.

Opgaven waarvan de psychometrische kenmerken niet heel goed waren, bijvoorbeeld extreme p-waarden of negatieve item-rest-correlaties³⁴ zijn aangepast of in de definitieve afname in het geheel niet opgenomen. Ankeritems die afweken zijn, na inhoudelijke evaluatie onveranderd in

34 Extreme p-waarden geven weer dat de opgaven heel makkelijk of heel moeilijk waren. In beide gevallen is inhoudelijke evaluatie nodog om na te gaan of de opgaven qua moeilijkheid geschikt zijn voor opname in het peilingsonderzoek.

Negatieve item-rest correlaties komen naar voren als laagscorende leerlingen het item wel goed hebben gemaakt, maar de hoogscorende leerlingen niet. Ook dit vraagt om inhoudelijke evaluatie.

het onderzoek opgenomen, aangezien zij in de vorige peiling goed functioneerden. Het aantal overgebleven opgaven was groot genoeg voor de definitieve afname. De pilot gaf ook genoeg vertrouwen dat de definitieve toetsen betrouwbaar genoeg zouden zijn.

Pilot luisteren

De blokken bij luisteren zaten anders in elkaar dan bij lezen en woordenschat. Ten eerste was er maar één blok per leerling en een blok bevatte alleen luisteropgaven. Er waren in totaal vier sets van acht opgaven waardoor er 32 verschillende items in de pilot zaten. Iedere toets bevatte twee sets van acht opgaven (16 items per toets). Bij de drie toets-versies leverde dit de volgende verdeling op:

de eerste toets bestond uit set 1 en 2 (gemaakt door 37 leerlingen), de tweede uit 3 en 4 (50 leerlingen) en de derde uit 1 en 3 (46 leerlingen). Set 1 en 3 zijn hierdoor vaker afgenomen (respectievelijk 83 en 96 keer) dan set 2 en 4 (37 en 50 keer). Er waren geen leerlingen die vijf opgaven op een rij niet hadden ingevuld. Bij luistertoetsen kunnen leerlingen hun tijd niet zelf indelen: doordat de opgaven per fragment geordend zijn maken de leerlingen allen op hetzelfde moment dezelfde opgaven. De pilot leidde niet tot heel nieuwe inzichten wat betreft de afname.

Negatieve Rir-waarden werden gevonden bij 7 luisteropgaven. Na inhoudelijke evaluatie zijn deze vervangen of aangepast. Eén audio-item is verwijderd vanwege een te hoge p-waarde en om tot gelijke aantallen in de toetsboekjes te komen. Ook hier bleven ankeritems ongewijzigd.

5.1.2 Definitieve toetsen: Lezen, Luisteren en Woordenschat

De vaardigheden lezen, luisteren en woordenschat zijn ieder met een eigen toets afgenomen. Van iedere toets zijn zes versies afgenomen, waarbij iedere opgave in twee toetsen zat. De afnametijd per toets was 30 minuten. Meer informatie over de samenstelling van de toetsen is te vinden in paragraaf 3.3.

In de hiernavolgende beschrijving van de resultaten wordt onderscheid gemaakt tussen de kwaliteit van de opgaven en die van de toetsen als geheel. Ten behoeve van de KTT-analyses zijn als eerste stap de leerlingen met 100% ontbrekende waarden uit alle analyses naar de kwaliteit van de toetsen gelaten. Daarna is bij de KTT-analyses onderscheid gemaakt tussen de analyses met en zonder de leerlingen die vijf opgaven op een rij misten. De aanname is dat bij de leerlingen met meer dan vijf missende waarden op rij vaak meer aan de hand is dan een lagere vaardigheid, zeker als deze reeks in het midden van de toets zit (denk aan een overgeslagen bladzijde), maar ook als deze op het eind zit: de toetsen zijn namelijk kort genoeg om tot (bijna) het einde te komen. De serie waarbij de leerlingen uitvallen wanneer ze 5 opgaven op een rij missen wordt de x-serie genoemd. Bij de leerlingen zonder vijf ontbrekende waarden op rij is het hoogste gevonden percentage ontbrekende waarden 41% bij Lezen (bij Luisteren en Woordenschat is dat 38% en 36%). Alle leerlingen met meer dan 41% ontbrekende waarden in de dataset zijn daarom automatisch verwijderd, omdat zij vijf ontbrekende opgaven op een rij hadden. Bij de leerlingen die vijf opgaven op rij niet hadden ingevuld (en minder dan 100% missende waarden hadden), was het laagste percentage ontbrekende waarden 14% bij Woordenschat, en 29% en 31% bij Lezen en Luisteren. Meestal lagen die percentages echter hoger. De verschillen in de KTT-analyses voor de groep leerlingen die iets gedaan had (dat wil zeggen, die geen 100% ontbrekende waarden hebben) en de groep leerlingen die uitgesloten werd bij vijf ontbrekende waarden op rij zijn zeer gering. Bij toetsing worden er geen significante verschillen gevonden tussen de twee keuzes. Gekozen is derhalve om zoveel mogelijk leerlingdata te gebruiken bij de bepaling van de kwaliteit van de opgaven en toetsen. De hieronder gerapporteerde gegevens

betreffen daarom de groep die ‘iets’ gedaan heeft, de groep die dus geen 100% ontbrekende waarden heeft (de zogenaamde y-serie).

Merk op dat de KTT-resultaten voor de kwaliteit van de toetsen in alle gevallen ongewogen resultaten betreffen. Door de over-representatie van de scholen met relatief veel gewichten- leerlingen zouden de resultaten onderschat kunnen zijn, maar aangezien ook de VVTO-scholen oververtegenwoordigd zijn, zouden de waarden ook overschattingen kunnen zijn voor de gehele populatie. De KTT-resultaten zullen niet afzonderlijk worden teruggewogen naar de populatieresultaten. Dat wordt binnen de IRT-resultaten bij de beantwoording van onderzoeksvragen wel gedaan (zie hoofdstuk 8).

Kwaliteit van de opgaven

In Tabel 5.2 wordt over alle toetsen heen informatie over de opgaven gegeven. Zo is te zien dat er een item was met een negatieve item-rest-correlatie (Rir), maar dat item heeft in een ander boekje een positieve Rir, die echter met een waarde van 0,14 nog steeds laag is. Weliswaar is dat in het kader van een peiling nog steeds interessante informatie. De gemiddelde Rir-waarden zijn goed te noemen en zijn bij Woordenschat (WS) en Lezen (LE) bij ruim 90% van de gevallen boven de 0.20, met andere woorden boven de minimale streefwaarde. Dit betekent dat de toets voor het overgrote deel (meer dan 90% van de items) bestaat uit items die een goed onderscheid maken tussen leerlingen met een hoge en lage toetsscore. Bij Luisteren (LU) geldt dat voor ruim 75% van de items.

Uit Tabel 5.2 kan tevens worden afgeleid dat het aantal ontbrekende waarden per item laag ligt. Alleen bij Woordenschat (WS) is het percentage wat hoger. Dat is te wijten aan de open korte antwoordopgaven waar de percentages ontbrekend relatief hoog zijn: het gemiddelde percentage ontbrekende waarden bij de 84 meerkeuze-opgaven Woordenschat ligt, evenals bij Lezen en Luisteren, onder de 1%, terwijl dat percentage bij de 26 open opgaven boven de 12% ligt. Al met al zien de gegevens voor de opgaven er goed uit.

Tabel 5.2: Itemgegevens over alle toetsen heen

Percentage ontbrekend p-waarden (*100) Item Rest correlaties (*100)

LE LU WS LE LU WS LE LU WS

Gemiddelde 0.2 0.2 3.5 69.5 67.3 66.7 36.9 28.4 37.9

Minimum 0 0 0 38 25 15 11 7 -2

P10 0 0 0 52 39 39 25 12 22

P25 0 0 0 61 54 54 30 23 30

Mediaan 0 0 1 71 73 69 37 28 39

P25 0 0 3 78 80 80 44 34 46

P90 1 1 13 84 89 87 49 40 53

Maximum 1 1 36 90 94 97 59 50 64

Kenmerken van de toetsen: Betrouwbaarheid van de meetinstrumenten

In Tabel 5.3 worden de kenmerken van de toetsen gegeven. Gegeven worden het aantal items per toets (N items) en het aantal personen per toets (N pers) dat een toets gemaakt heeft. Daarna volgen de itemeigenschappen per toets. Opgemerkt moet worden dat de gemiddelde p-waarden (gem. p) hier - in tegenstelling tot Tabel 5.2 - per toets zijn uitgerekend. In plaats van de Rir-waarden zijn hier de (gemiddelde) item-test-correlaties (Rit) gegeven zodat ook over de Rit-waarden informatie

gegeven wordt. Voor de beoogde hoogte van de Rit-waarden heeft de COTAN richtlijnen gegeven³⁵, waar veruit de meeste items in deze toetsen aan voldoen³⁶. De gemiddelde Rit-waarden zijn goed te noemen.

Na de gemiddelde itemeigenschappen worden de toets-kenmerken gegeven. Dit zijn achtereenvolgens de gemiddelde score, de standaardafwijking en de standaardmeetfout (SEM;

volgens een KTT-berekening). Tot slot wordt de betrouwbaarheid gerapporteerd door middel van de klassieke interitembetrouwbaarheidsmaten Cronbach’s Alpha en Guttman’s Lambda-2. Dit zijn beiden onderschattingen van de werkelijke betrouwbaarheid, waarbij de Lambda-2-waarde nooit onder die van de waarde van Alpha kan liggen. Uit Tabel 5.3 kan worden afgeleid dat de verschillen tussen deze twee maten zeer klein zijn. Bij de waarden van Alpha zijn ook de standaardfouten weergegeven.

Tabel 5.3: Kenmerken van de toetsen

Item eigenschappen Toetseigenschappen (score) Betrouwbaarheid VDH versie N items N pers gem. p gem. Rit Gemiddelde sd SEM Alpha SE(a) Lambda2

De gemiddelde betrouwbaarheid bij Luisteren (LU) is het laagst met een gemiddelde Lambda-2 van 0,70, met een minimum waarde van 0,65. Bij Lezen (LE) is deze waarde gemiddelde 0,80 (en minimaal 0,77) en bij Woordenschat is dat bijna 0,90 met een minimum van 0,85. Zoals vermeld gaan we bij de beoordeling van de betrouwbaarheid uit van de COTAN richtlijnen voor het vergelijken van leerlingen op groepsniveau, zoals het geval is bij systeemevaluatie en terugrapportage op schoolniveau. Een betrouwbaarheid van 0,60 wordt daarbij als voldoende beschouwd en een betrouwbaarheid vanaf 0,70 als goed. De gevonden betrouwbaarheden zijn in alle gevallen

35 Voor een beoordeling goed: Rit>.30; voor een beoordeling voldoende Rit >.20. Zie Evers, A., Lucassen, W., Meijer, R.R. &

Sijtsma, K. (2010). COTAN Beoordelingssysteem voor de Kwaliteit van Test (p.40). COTAN ( content/uploads/2016/07/COTAN-Beoordelingssysteem-2010.pdf )

36 De waarden van R zijn altijd hoger dan die van de R -waarden die gegeven worden in Tabel 5.1.

it ir

voldoende tot (zeer) goed voor rapportage op groepsniveau. Bij de selectie van scholen is ook gebruik gemaakt van een totaalscore waarbij de vaardigheden Lezen, Luisteren en Woordenschat zijn samengenomen. Die samengestelde score was (uiteraard) ook betrouwbaar genoeg.

In document PEILING ENGELS EINDE BASISONDERWIJS 2018 (pagina 93-98)