Kwaliteit van de toets Gesprekken .1 Toetseigenschappen (IRT-analyse)

Het definitieve beoordelingsmodel van Gesprekken bestond uit 22 vragen in totaal, zie Tabel 4.25.

Tabel 4.25 – Kenmerken, beoordelingsvragen en scores Gesprekken

Kenmerk Vraag Schaal

Het gesprek als geheel 1. Gespreksdoel 0-1-2

2. Evenwichtigheid 0-1-2

3. Behoefte aan sturing 0-1-2 4. Gedrag van de toetsleider 0-1

Uitvoering 5. Kwaliteit van de inhoud 0-1-2-9¹⁰

Beurten nemen en bijdragen aan

Na vaststellen van het beoordelingsmodel heeft de expertgroep geadviseerd de kenmerken woordgebruik en woordenschat en vloeiendheid, verstaanbaarheid en grammaticale beheersing

10 Beoordelaars hadden de mogelijkheid om bij bepaalde beoordelingsaspecten de score 9 toe te kennen wanneer de inbreng van de leerling in het gesprek onvoldoende bleek om het betreffende aspect betrouwbaar te kunnen beoordelen.

gezamenlijk maximaal voor 25 procent mee te laten wegen. Van extra belang zouden de aspecten inhoudelijke kwaliteit, beurten nemen als geheel, actief luistergedrag en afstemming op doel zijn.

Op basis van deze gegevens zijn de beoordelingen getransformeerd naar vijf driepuntsschalen voor gespreksvaardigheid, waarin de kenmerken het gesprek als geheel, schriftelijk samenvatten en het globale oordeel niet zijn meegenomen. Het kenmerk het gesprek als geheel is namelijk een kenmerk dat afhankelijk is van meer dan alleen de individuele gespreksvaardigheid van de betreffende leerling, maar bijvoorbeeld ook van zijn gesprekspartners en (mogelijk) de toetsleider¹¹. De kenmerken het globale oordeel en schriftelijk samenvatten zijn toegevoegd vanwege onderzoeksdoeleinden en tellen daarom niet mee in de beoordeling van de gespreksvaardigheid, zie paragraaf 4.7 en paragraaf 5.3.2.

Bij Gesprekken is dus aan de hand van de zeventien beoordelingscriteria op zeven aspecten een scoretransformatie gemaakt. De wens voor weging van de expertgroep is hierin gehanteerd. Per kenmerk zijn op grond van de frequentieverdelingen en de wensen van de expertgroep scorecategorieën (zo nodig gewogen) samengevoegd:

 Uitvoering (KI): één criterium, score 0-2 - onveranderd

 Beurten nemen en bijdragen aan samenhang (BS): vier criteria ongewogen opgeteld - score 0-5 = 0, score 6-7 = 1, score 8 = 2

 Afstemming op doel (AD): één criterium, score 0-2 - onveranderd

 Afstemming op gesprekspartner (AP): drie criteria gewogen opgeteld: actief luistergedrag x3, twee andere aspecten x1, score 0-5 = 0, score 6-8 = 1 en score 9-10 = 2

 Woordgebruik en woordenschat samen met Vloeiendheid, verstaanbaarheid en grammaticale beheersing (WW-VVG): zeven criteria, ongewogen opgeteld - score 0-12 = 0, score 13 = 1, score 14

= 2

De verdeling van de scores per aspect op basis van bovenstaande scoretransformatie is weergegeven in Tabel 4.26. De (gemiddelde) p-waarde is het (gemiddelde) percentage van de maximaal te behalen score. In de kolommen 0, 1 en 2 staat het aantal observaties per scorepunt.

Tabel 4.26 – Scoretransformatie per aspect Gesprekken

Aspect N P 0 1 2 veronderstelling dat het model unidimensionaal is. Op basis van zowel de niet-significante S-toetsen als de R1c-statistiek (R1c*=31.484; df =27; p =0,2517) kunnen we concluderen dat hier sprake is van unidimensionaliteit.

In Tabel 4.27 zijn de psychometrische kenmerken van de toets Gesprekken weergegeven.

Tabel 4.27 – Kenmerken toets Gesprekken

Maximale score Gemiddelde score Standaarddeviatie Gemiddelde p Betrouwbaarheid

10 7,01 2,31 70,05 ,81

11. Hoewel het onderzoeken van de invloed van het gesprek als geheel op de individuele prestatie niet was opgenomen als onderzoeksvraag in dit peilingsonderzoek, lijken verkennende analyses aan te tonen dat er geen (grote) invloed bestaat van de kenmerken van het gesprek als geheel op de individuele leerlingprestaties.

Op basis van de modelpassing is een vaardigheidsschaal geconstrueerd met het populatiegemiddelde van de vaardigheid op 250 en de standaarddeviatie op 50. Hiervoor zijn de totaalscores per leerling met bijbehorende theta gegenereerd om de gemiddelde theta en standaarddeviatie te berekenen over de hele populatie. Daarna is de theta lineair getransformeerd naar de 250-schaal:

vaardigheid = 107,068 * theta + 208,644

In Tabel 4.28 is weergegeven welke ruwe scores op de toets Gesprekken corresponderen met welke theta’s en vaardigheidswaarden.

Tabel 4.28 – Overzicht vaardigheid Gesprekken

Ruwe score Theta (θ) Vaardigheid

0 -0,988 103

1 -0,666 137

2 -0,497 155

3 -0,358 170

4 -0,220 185

5 -0,061 202

6 0,156 225

7 0,360 247

8 0,546 267

9 0,766 291

10 1,117 328

Beoordelaarsovereenstemming

De overeenstemming tussen de verschillende beoordelaars is gebaseerd op 10 procent dubbele beoordelingen. Hiervoor is de gewogen Cohen’s kappa berekend, zowel voor het totaal als alle onderdelen afzonderlijk (zie Tabel 4.29). Zeker op aspectniveau zijn die waarden niet altijd hoog. Dat is te wijten aan de verdeling van de scores: wanneer die verdeling niet evenwichtig over de verschillende scoremogelijkheden is, heeft dat effect op de hoogte van de gewogen kappa. Daarom is, naast de gewogen kappa, tevens de proportie overeenstemming opgenomen. Als we kijken naar het kenmerk ww_vvg, zien we dat de kappa 0,20 is, terwijl de proportie overeenstemming 0,93 is. Net als bij Spreken is het percentage maximale scores bij dit aspect hoog, waardoor de maat voor de beoordelaarsbetrouwbaarheid in feite niet veelzeggend is. Bij het aspect Uitvoering zijn zowel de kappa als de overeenstemming (zeer) matig. Een mogelijke verklaring hiervoor lijkt met name het gebrek aan overeenstemming tussen de beoordelaars over het toekennen van de score 2 te zijn.

Tabel 4.29 – Cohen’s kappa en overeenstemming per aspect Gesprekken

Kenmerken Gewogen

Cohen’s kappa Proportie overeenstemming

Het gesprek als geheel 0,54 0,70

Uitvoering 0,27 0,60

Beurten nemen en bijdragen aan samenhang 0,38 0,75

Afstemming op doel 0,43 0,63

Afstemming op de gesprekspartners 0,42 0,68

Woordgebruik en woordenschat / vloeiendheid,

verstaanbaarheid en grammaticaal 0,20 0,93

Samenvatten 0,38 0,60

Totaal 0,56 0,77

4.6.2 Standaardbepaling Gesprekken

Om te bepalen bij welke score welke referentieniveaus beheerst worden, oftewel het bepalen van de cesuren, is een onafhankelijke standaardbepaling georganiseerd door CvTE in opdracht van de inspectie. De standaardbepaling is onder leiding van Cito uitgevoerd door een expertpanel, bestaande uit achttien personen met verschillende expertise, voornamelijk taalexperts en leerkrachten. Meer informatie over de samenstelling van dit panel, de gehanteerde methoden, procedures en resultaten van die standaardbepaling is opgenomen in de Rapportage Standaardbepalingen Peilingsonderzoek mondelinge taalvaardigheid (Linthorst et al., 2017).

In document Peilingsonderzoek Mondelinge Taalvaardigheid in het basisonderwijs (pagina 42-45)