• No results found

Extra onderdeel: Luisteren in een praktijksituatie

6 Gesprekken

6.6 Extra onderdeel: Luisteren in een praktijksituatie

Het beoordelingsmodel Gesprekken bevatte ook een aantal aspecten die betrekking hadden op Luisteren.

Het ging om onderstaande beoordelingsaspecten die op een driepuntsschaal werden gescoord (0 = lage vaardigheid, 2 = hoge vaardigheid). Ter illustratie is bij elk beoordelingsaspect de omschrijving van de hoogste beoordelingscategorie en een voorbeeldvraag weergegeven.

Begrijpen

1. Instructie toepassen

• De leerling past de instructie van de leerkracht over het algemeen correct toe.

Voorbeeldvraag: Leg je boot bij de haven met dezelfde kleur als je boot;

Mag de boot hier varen?

2. Herhaling van instructie

• De leerling begrijpt de instructie van de leerkracht in één keer.

Voorbeeldvraag: Je hebt twee gegooid; Waar mag je dan allemaal heen varen?

Samenvatten

3. Mondeling samenvatten

• De leerling kan een verhaal goed in grote lijnen navertellen.

Voorbeeldvraag: Welke regels zijn er voor het brengen van vissen naar de haven?

Interpreteren

4. Meningen herkennen

• De leerling benoemt de verschillende meningen over een onderwerp correct.

Voorbeeldvraag: Na een spelronde - Welke meningen heb je gehoord over het weggeven of houden van de worp?

Deze beoordelingsaspecten zijn opgenomen, omdat in diverse onderzoeken die door Cito in het sbo en so zijn uitgevoerd door leerkrachten werd aangegeven dat zij het opvolgen van een instructie een belangrijk onderdeel vinden van luistervaardigheid. Ook gaven leerkrachten aan dat leerlingen niet altijd tot hun recht komen in een standaard toetssituatie met pen en papier. Door gericht vragen te stellen aan leerlingen tijdens het Fischerspiel kan worden nagegaan of leerlingen geluisterd hebben naar de instructie. Daarnaast kan door het stellen van vragen vastgesteld worden of een leerling de meningen van medespelers correct heeft begrepen. Aan alle vier leerlingen in het groepje zijn alle vier typen vragen gesteld. Het moment waarop dat gebeurde varieerde. De ene leerling kreeg een bepaalde vraag aan het begin van het spel, terwijl een andere leerling diezelfde vraag aan het einde van het spel kon krijgen.

Het extra onderdeel is als losse “toets” geanalyseerd binnen het raamwerk van de klassieke testtheorie. In Tabel 6.4 zijn de resultaten op itemniveau te vinden. We zien dat er in plaats van 1357 leerlingen (zie Tabel 6.1) er slechts 1346 konden worden meegenomen in de analyse, omdat bij 11 leerlingen helemaal niets was ingevuld. Bij de leerlingen die wel meegenomen zijn, was er af en toe sprake van een missende waarde. Deze waarden zijn geïmputeerd volgende de eerder beschreven werkwijze. De

beoordelingsaspecten (of items) hebben verder goed gefunctioneerd. De p-waarden schommelen tussen 0.639 en 0.798 en de rit-waarden zijn hoog te noemen. Hoewel het aantal items erg klein is lijkt de set als geheel wel een zinvolle indicatie te geven van de luistervaardigheid van leerlingen in praktijksituaties.

Tabel 6.4. Itemindices onderdeel Luisteren bij het instrument Gesprekken

Item n c0 c1 c2 p rit alpha

Deze conclusie wordt bevestigd door de analyses die op toetsniveau hebben plaatsgevonden. In Tabel 6.5 is te zien dat de leerlingen behoorlijk hoge scores behaalden (ongeveer driekwart van het maximaal haalbare aantal punten) en dat de betrouwbaarheid als goed gekwalificeerd kan worden. Bovendien lijkt er geen relatie te bestaan tussen het groepslidnummer en de behaalde score. Dit neemt niet weg dat er een relatie kan bestaan tussen het moment van het stellen van de vraag en de moeilijkheid van de vraag. Naar dit aspect kan echter geen onderzoek gedaan worden, omdat toetsleiders tijdens het afnemen van het Fischerspiel niet systematisch hebben bijgehouden welke vraag wanneer gesteld is aan welke leerling. Dit was niet haalbaar en bovendien kan bij onderzoek op systeemniveau de vraag gesteld worden in hoeverre een eventuele relatie problematisch is. Zolang leerlingen niet systematisch bevoordeeld of benadeeld worden (wat in dit onderzoek ook niet het geval was) lijken geaggregeerde uitkomsten goed bruikbaar te zijn; het is met name in rapportages voor individuele leerlingen dat voorzichtigheid geboden is.

Tabel 6.5. Toetsindices onderdeel Luisteren bij het instrument Gesprekken

Groepslid min max N M SD skew kurt alpha lambda2 glb

1 0 8 370 5.727 1.898 -0.786 3.319 0.767 0.745 0.792

2 0 8 374 5.580 1.976 -0.617 2.721 0.789 0.766 0.824

3 0 8 360 5.656 1.840 -0.535 2.648 0.737 0.720 0.806

4 0 8 242 6.079 1.756 -0.889 3.347 0.738 0.720 0.806

totaal 0 8 1346 5.730 1.886 -0.694 2.964 0.763 0.741 0.805

Hoewel onderzoek naar de luistervaardigheid van leerlingen in praktische situaties wetenschappelijk gezien zinvol is, is het de vraag hoe deze informatie het beste kan worden meegenomen bij het doen van

uitspraken over het referentieniveau van leerlingen. Er kan immers maar één referentieniveau worden toegewezen aan een leerling en dit wordt (in de regel) gebaseerd op één score. Theoretisch gezien zijn er wel mogelijkheden om tot één score te komen die gebaseerd is op een (gecombineerde) pen-en-papier afname en een spelafname. De items zouden bijvoorbeeld meegenomen kunnen worden bij de IRT-modellering (zie paragraaf 4.4). In het design voegen we dan in feite vier regels (items) toe die van toepassing zijn op alle leerlingen ongeacht hun luistertoetsversie. Hoewel deze optie aantrekkelijk lijkt, omdat we na het schatten van het model direct per leerling één vaardigheidsscore kunnen bepalen waarin zowel het pen-en-papier als het spel-gedeelte zijn meegenomen, lijkt deze toch weinig kansrijk. We

“vermengen” namelijk twee vaardigheden (terwijl we tegelijkertijd in een IRT-model expliciet

unidimensionaliteit veronderstellen) en hebben naast dichotome scoring te maken met een (lastigere) polytome scoring. Ook het werken met een zogeheten composite score lijkt niet ideaal, omdat de beschikbare prestatiestandaarden voor 1F en 2F dan alleen gebruikt kunnen worden als allerlei extra aannames worden gedaan. Om deze redenen is ervoor gekozen om de praktijkscore voor luisteren in een aparte variabele op te nemen (GSP_RSCO_LUI) en die alleen te gebruiken bij het duiden en verklaren van leerlingprestaties (zie paragraaf 8.2). Bij het bepalen van het behaalde referentieniveau (zie paragraaf 8.1.1) is deze score niet gebruikt.

6.7 Variabelen

In het databestand zijn bij Gesprekken de volgende variabelen opgenomen:

GROEPSLID Groepslidnummer bij Gesprekken GRP_ID Groepsidentificatie bij Gesprekken GSP_TTLID Toetsleideridentificatie bij Gesprekken N_SPELERS Aantal spelers bij Gesprekken

GSP_MISS Percentage ontbrekende antwoorden

GSP_RSCO Toetsscore

GSP_MISS_LUI Percentage ontbrekende antwoorden bij het extra onderdeel Luisteren GSP_RSCO_LUI Toetsscore bij het extra onderdeel Luisteren

GSP_REFN Referentieniveau (<1F/1F/2F)

GSP_WEIGHT Gewicht om te corrigeren voor leerroute

61

Bij de toetsscore- variabele is het de vraag hoe deze het beste tot stand kan komen. Het is het

gemakkelijkst om de toetsscore voor een leerling gelijk te stellen aan de som van alle itemscores, maar in een recent peilingsonderzoek in groep 8 (zie Van Langen et al., 2017) zijn de meer technische

beoordelingsaspecten (i11 tot en met i17) minder zwaar gewogen dan de meer inhoudelijke

beoordelingsaspecten (i1 tot en met i10). Die keuze is in dit onderzoek overgenomen. Dit betekent concreet dat bij de berekening van de toetsscore aan items 1 tot en met 10 gewicht 1.360 is toegekend ([34

scorepunten * 0.800]  [10 items  2 scorepunten]) en aan items 11 tot en met 17 gewicht 0.486 ([34 scorepunten * 0.200]  [7 items  2 scorepunten]). Het gevolg daarvan is dat “inhoud” 80 procent meetelt en

“techniek” 20 procent. Alle toetsscores zijn afgerond naar gehele getallen. Over de wijze waarop het referentieniveau (GSP_REFN) van leerlingen is bepaald wordt in paragraaf 8.1.1 gerapporteerd. Het percentage ontbrekende antwoorden (GSP_MISS en GSP_MISS_LUI) is berekend door het aantal itemscores van een leerling te delen door het totale aantal items (17 of 4).