Lees- en luistervaardigheid

VVTO scholen

7.1 Het expertpanel

7.2.1 Lees- en luistervaardigheid

Zoals in de paragrafen 1.7 en 1.8 is beschreven, is voor de leesvaardigheid en luistervaardigheid bij de constructie van de opgaven een koppeling gemaakt met de ERK niveaus A1, A2 en B1. Het uitgangspunt was dat een opgave voor het A1-niveau gedrag uitlokt bij de leerling dat hoort bij het beheersen van het A1-niveau. Dat geldt ook voor de opgaven voor de niveaus A2 en B1. De opgaven zijn voorafgaand aan de standaardbepaling geëvalueerd door de experts uit het expertpanel, die van tevoren voorbereidende opdrachten hebben gemaakt (zie paragraaf 7.3.1).

Gebruikte methodiek: Data Driven Direct Consensus (3DC) methode

Voor de standaardbepaling is gebruik gemaakt van de Data Driven Direct Consensus (3DC) methode (Keuning et al., 2017)⁷³. In de voorbereidende fase van de 3DC methode zijn clusters van opgaven samengesteld. De clusters kunnen worden gezien als minitoetsen waarbij de experts tijdens de standaardbepalingsprocedure moeten aangeven hoeveel punten (een geheel getal) zij verwachten dat de ’grens-leerling’ gaat halen op dat cluster, oftewel op deze minitoets. Een grensleerling is een (denkbeeldige) leerling die nét het niveau heeft waarop de standaard bepaald wordt. Bij de hier beschreven standaardbepaling, waarbij alleen met dichotome opgaven wordt gewerkt, komt dat overeen met de vraag: “Hoeveel opgaven zou een leerling op dit cluster goed moeten maken als zijn/haar vaardigheid zich precies op de grens A1, A2 of B1 van het referentieniveau bevindt?”

Het voordeel van deze methode is dat deze data-gedreven is. Informatie van de verschillende clusters kunnen met behulp van IRT met elkaar in verband gebracht worden, omdat de items aan dezelfde vaardigheidsschaal te relateren zijn (zie paragraaf 5.4 voor een beschrijving van de schaling van de toetsresultaten). Ook de scoreschaal speelt een rol in deze methodiek. Tijdens de standaardbepaling is gebruik gemaakt van afbeeldingen, die gerelateerd waren aan de scoreschaal.

Voor de standaardbepaling voor zowel lezen als luisteren zijn per vaardigheid de opgaven opgedeeld in vijf verschillende clusters, de eerdergenoemde minitoetsen. Per vaardigheid hadden deze de labels 1 tot en met 5. De eerste twee clusters, 1 en 2, betroffen gemakkelijke opgaven die gedrag op het niveau van A1 en A2 zouden moeten ontlokken. Cluster 3 bevatte een gemengde verzameling opgaven en clusters 4 en 5 bevatten vooral wat moeilijker opgaven, die gedrag op het niveau van A2 en B1 zouden moeten uitlokken. Voor het vaststellen van zowel de A1 als A2 standaard zijn de clusters 1 tot en met 3 gebruikt en voor het vaststellen van B1 als standaard zijn de clusters 3 tot en met 5 gehanteerd. In Figuur 7.1 is de clustering weergegeven. Figuur 7.1 laat zien dat de set LE-toets-1 de clusters 1, 2 en 3 bevatte en de set LE-toets-2 de clusters 3, 4 en 5. Ditzelfde gold voor luisteren (respectievelijk LU-toets-1 en LU-toets-2). Verder staan er per set (LE-toets-1 en LE-toets-2/ LU-toets-1 en LU-toets-2) vier reeksen getallen weergegeven: drie clusters behorend bij de toetsset, met daaronder de gezamenlijke scoreschaal van alle drie de clusters per set bij elkaar.

Dankzij IRT zijn al deze reeksen aan elkaar te relateren, zodat per vaardigheidsscore op de vaardigheidsschaal de grenzen van de niveaus A1, A2 en B1 kunnen worden aangegeven.

In Figuur 7.1 is te zien dat de clusters niet allen van gelijke lengte zijn. Zo varieerden de clusters bij lezen tussen negen en 12 items, terwijl de clusters bij luisteren varieerden tussen negen en 10 items. Dit is ook te zien in Tabel 7.1 waarin de aantallen opgaven voor de clusters, het totaal en de sets weergegeven zijn.

73 Zie ook: https://www.cito.nl/kennis-en-innovatie/tools-voor-toetsontwikkelaars/tools-voor-toetsconstructie/3dc

De vaardigheidsschaal kan op twee manieren informatie geven. Behalve dat alle opgaven via een vaardigheidsschaal aan elkaar te relateren zijn, kan ook de verdeling van de kandidaten op de vaardigheidsschaal worden afgebeeld. Van deze laatste mogelijkheid wordt gebruik gemaakt tijdens de 3DC methode. De consequenties van de keuzes van het expertpanel worden direct inzichtelijk gemaakt: wanneer de standaard is bepaald, kan ook voor de (geschatte) populatie worden ingeschat hoeveel procent van de leerlingen een bepaald niveau heeft. Het expertpanel ziet daarmee direct de gevolgen van de (voorlopig) vastgestelde standaard. Meer over de werkwijze van de 3DC methode is beschreven in paragraaf 7.3 (procedure).

Figuur 7.1: de afbeelding van de vijf sets van de clusters die gebruikt zijn voor standaard bepaling bij lezen van de niveaus A1 en A2 (LE-toets-1) en B1 (LE-toets-2) en luisteren op de niveaus A1 en A2 (LU-toets-1) en B1 (LU- toets-2).

Tabel 7.1: aantallen opgaven per vaardigheid gebruikt bij de standaardbepaling

aantal opgaven Cluster

Totaal

1 2 3 4 5

Per cluster lezen 9 10 12 10 10 51

LE-toets 1 9 10 12 31

LE-toets 2 12 10 10 32

Per cluster luisteren 9 9 10 10 10 48

LU-toets 1 9 9 10 28

LU-toets 2 10 10 10 30

7.2.2 Gesprekstaken

De drie gesprekstaken zijn geconstrueerd aan de hand van kenmerken van het ERK, waardoor ook voor deze taken standaarden konden worden bepaald. De drie taken betroffen ieder een ander niveau. Taak 1 was (grotendeels gebaseerd en volledig gescoord) op A1-niveau, Taak 2 op A2-niveau en Taak 3 op B1-niveau. De drie taken bleken op basis van de schaling samen één vaardigheidsschaal te vormen. Bij elk van de drie taken zijn de beoordelingen nader verdeeld in drie onderdelen: inhoud, kwaliteit en interactie & fluency . Ook deze onderdelen bleken samen op een schaal te passen, waardoor schaling over de drie taken heen mogelijk was⁷⁴. Voor iedere taak afzonderlijk is een standaard bepaald. Hierbij is per taak gebruikgemaakt van de totaalscore over alle items.

Gebruikte methodiek: leerlinggerichte methode

Voor de standaardbepalingen voor de gesprekstaken is gebruikgemaakt van een leerlinggerichte methode in plaats van de itemgerichte methode(n) die bij luisteren leesvaardigheid is gebruikt. Dat is gedaan omdat bij deze gesprekstaak en het gebruikte beoordelingsmodel de leerling-respons een eenheid vormt. De standaard is daarom bepaald op basis van de uitingen van de leerlingen. Aan de beoordelaars werd nu de vraag gesteld: “Welke vaardigheid is indicatief voor een leerling waarvan het niveau van de uitingen zich precies op de grens A1, A2 of B1 van het referentieniveau bevindt?”

Hoewel de leerlingprestatie een geheel vormde, zijn er voor de beoordeling losse momenten (segmenten van de taak) onderscheiden waarbij per segment de prestatie op de drie genoemde onderdelen (inhoud, kwaliteit en fluency) beoordeeld werd. Per segment kon een leerling per gescoord onderdeel 0, 1 of 2 punten verdienen. In de praktijk liep de totaalscore per taak van 0 tot en met zes keer het aantal segmenten per taak. Taak 1 bestaat uit 18 segmenten (dus de scorerange liep van 0 – 108), Taak 2 uit vijf segmenten (dus de scorerange liep van 0 – 30), en Taak 3 uit zes segmenten (dus de scorerange liep van 0 – 36).

Per gesprekstaak kreeg de leerling op basis van de beoordeelde segmenten een score toegekend, binnen de genoemde scoreranges voor taak 1, 2 of 3. Deze scores, die leerlingen op de taken hadden gehaald, vormden de basis voor de standaardbepaling. Voor iedere taak zijn voorbeelden geselecteerd behorend bij een behaalde score. Deze voorbeelden bestonden uit

74 Voor meer informatie over de schaling van de gesprekstaken wordt verwezen naar paragraaf 5.4.2.

filmpjes van de gesprekstaak van leerlingen, die de geselecteerde scores op deze gesprekstaak hadden behaald. Bij sommige scores was er een keuzemogelijkheid voor de selectie van voorbeelden.

In die gevallen is met een aantal factoren rekening gehouden bij de keuze van de te tonen voorbeelden. De eerste factor was de bruikbaarheid van het filmpje, de tweede factor de beoordelaar, de derde factor was de school en laatste factor de kenmerken van de leerling. Hoe met deze factoren rekening is gehouden, is verder beschreven in Bijlage 10. De selectie van voorbeelden leverde een illustratie op van de scoreschaal (met een relatie tot de vaardigheidsschaal) waarop standaarden moesten worden bepaald. Op basis van die voorbeelden kon achterhaald worden welke vaardigheid net voldoende zou zijn om indicatief te zijn voor het ERK-niveau A1, A2 of B1.

Werkwijze binnen de leerlinggerichte methode

Deze leerlinggerichte methode werkt met een aantal ronden. Het doel van de eerste ronde is om snel inzicht te krijgen in de bandbreedte waarin de gezochte standaard zich zou bevinden. Er wordt daarbij niet direct ingezoomd op een specifieke bandbreedte: door de ruime bandbreedte in deze globale ronde krijgen de beoordelaars veel vrijheid om te oordelen, omdat ze niet te veel een richting op geduwd worden.

De tweede ronde gaat meer gedetailleerd in op de exacte positie van de standaard. Welke voorbeelden (i.e., de video-opnamen van de gesprekstaken van leerlingen behorende bij specifieke scores) in de tweede ronde getoond worden is voor een groot deel afhankelijk van de resultaten van de eerste ronde. De voorbeelden van de tweede ronde liggen namelijk om en na bij de scores die in de eerste ronde als scorerange aangegeven zijn, als zijnde aannemelijke scores voor de standaard.

Doordat de selectie van voorbeelden in ronde 2 afhankelijk is van de oordelen in ronde 1, heeft ronde 2 een adaptief karakter. Door dit adaptieve karakter worden in ronde 2 enkel voorbeelden getoond rond het niveau van de op dat moment ingeschatte standaard.

Deze methode kent de mogelijkheid een derde ronde toe te voegen. Dat wordt gedaan als de experts het onderling nog niet met elkaar eens zijn en de cesuurgrenzen van de experts ver uit elkaar liggen. In dat geval is een gedetailleerder oordeel noodzakelijk of zijn er meer voorbeelden nodig om tot overeenstemming te komen. De in de derde ronde aangeboden voorbeelden worden weer geselecteerd op basis van de resultaten in ronde 2. De combinatie van ronden levert een zo goed mogelijke verdeling van benodigde tijd en nauwkeurigheid zonder dat de beoordelaars van te voren worden gestuurd richting het niveau dat ze verwacht worden aan te geven.

Ook bij de peiling voor mondelinge taalvaardigheid Nederlands is deze wijze van standaardbepaling gehanteerd. De ervaringen die daarbij opgedaan waren, waren positief: de experts kregen een goede indruk van wat de verschillende prestaties van de leerlingen zijn en na drie ronden lagen de oordelen dicht bij elkaar.

Een ander voordeel is dat de methode efficiënt is: het evalueren van de leerlingwerken is tijdrovend, en het totaal aantal te beoordelen werken is daardoor beperkt. Met deze methode krijgen de experts zo snel mogelijk de meest relevante leerlingwerken te zien. Zoals hierboven vermeld is het voordeel van deze methode dat direct daarna ook aangegeven kan worden hoeveel procent van de leerlingen een bepaald niveau gehaald heeft. Hoe de werkwijze specifiek bij de gesprekstaken Engels plaatsvond en hoe deze ervaren is, wordt beschreven bij de procedure.

Aangezien bij deze standaardbepaling de beschikbare tijd zeer beperkt was, is er voor de eerste ronde gebruik gemaakt van inschattingen door vier experts die op basis van kennis van de opdrachten en de scoring ervan de eerste ronde al relatief gericht konden maken zonder de experts

in het expertpanel in te perken. Hierdoor werd het mogelijk de standaarden in twee rondes te bepalen.

Rationale voor de keuze van leerlinggerichte methode

Er is voor deze methode gekozen omdat de factor tijd een belangrijke rol speelde bij de standaardbepaling. De tijd was op voorhand beperkt, doordat binnen twee dagen negen standaarden (namelijk drie per vaardigheid) moesten worden bepaald. Meer specifiek kwam daarbij dat de gesprekstaken voldoende tijd vereisten om de voorbeelden te kunnen evalueren. Het bekijken en beoordelen van een voorbeeld zou namelijk maximaal 20 minuten kunnen kosten. Hierdoor moest het aantal aan te bieden voorbeelden relatief beperkt zijn, zeker als er voor meerdere gesprekstaken standaarden moesten worden vastgesteld. Het was daarom belangrijk snel bij het relevante deel van de schaal te geraken en zo min mogelijk irrelevante voorbeelden te laten zien. Om dit te bevorderen is de standaardbepaling voorafgegaan door de hierboven genoemde inhoudelijke inschatting door een viertal experts die een ruime, aannemelijke scorerange aangaven waarbinnen de standaard zeker zou zitten⁷⁵. Hierdoor hoefde in de eerste algemene ronde niet de gehele scoreschaal gedekt te worden. Dit was vooral bij Taak 1 met een scoreschaal van 0 tot en met 108 relevant.

7.3 Procedure

In document PEILING ENGELS EINDE BASISONDERWIJS 2018 (pagina 163-167)