Kwaliteit van de toets Spreken - Peilingsonderzoek Mondelinge Taalvaardigheid in het basisonder

4.5.1 Toetseigenschappen (IRT-analyse)

Het definitieve beoordelingsmodel van Spreken bestond uit 17 vragen, weergegeven in Tabel 4.20.

Tabel 4.20 – Kenmerken, beoordelingsvragen en scores Spreken

Kenmerk Vraag Schaal

Preconditie 0. Inhoudelijke adequaatheid 0-1

Uitvoering 1. Volledigheid 0-1-2

2. Inhoudelijke kwaliteit 0-1-2

Samenhang 3. Samenhang op macro- en mesoniveau 0-1-2

4. Samenhang op microniveau 0-1-2

Afstemming op doel 5. Spreekdoel tot uiting brengen 0-1-2

Afstemming op het publiek

6. Taalgebruik afstemmen 0-1-2

7. Publiek boeien 0-1-2

8. Non-verbale communicatie 0-1-2

Woordgebruik en woordenschat 9. Woordgebruik 0-1-2

10. Woordenschat 0-1-2

Vloeiendheid, verstaanbaarheid en grammaticale beheersing

11. Vloeiendheid 0-1-2

12. Uitspraak en intonatie 0-1-2

13. Grammatica: vervoeging 0-1-2

14. Grammatica: verbuiging 0-1-2

15. Grammatica: zinsbouw 0-1-2

Globaal oordeel 16. Globale speekvaardigheid 0-1-2-3-4

Na vaststellen van het beoordelingsmodel heeft de expertgroep geadviseerd de kenmerken woordgebruik en woordenschat en vloeiendheid, verstaanbaarheid en grammaticale beheersing gezamenlijk maximaal voor 25 procent mee te laten wegen. Van extra belang zouden de aspecten inhoudelijke kwaliteit en samenhang zijn.

Voor de scoretransformatie zijn twee van de zeventien beoordelingsvragen buiten beschouwing gelaten:

de preconditie (vraag 0) en het globale oordeel (vraag 16). De preconditie is buiten beschouwing gelaten omdat deze vraag geen deel uitmaakt van de beoordeling van de spreekvaardigheid van de leerling:

het doel van deze preconditie was een voorselectie te maken van de spreekproducten die daadwerkelijk een uitwerking waren van de beoogde spreektaak. De vraag naar het globale oordeel van de beoordelaar over de spreekvaardigheid is toegevoegd vanwege onderzoeksdoeleinden en telt daarom niet mee in de beoordeling van de spreekvaardigheid.

De scoretransformatie bij Spreken is dus gemaakt aan de hand van vijftien beoordelingscriteria op zes kenmerken. Op wens van de expertgroep is een weging gehanteerd zodat de eerste vier aspecten voor ongeveer 75 procent meetellen en de laatste twee voor ongeveer 25 procent. Per aspect zijn op grond van de frequentieverdelingen scorecategorieën (zo nodig) samengevoegd:

 Uitvoering (UV): twee criteria, score 0-4 - onveranderd

 Samenhang (SH): twee criteria, score 0-4 - 0 en 1 samengevoegd tot 0, 2 tot 1, 3 tot 2 en 4 tot 3

 Afstemming op doel (AD): één criterium, score 0-2 - onveranderd

 Afstemming op publiek (AP): drie criteria, score 0-6 - 0-1-2 samengevoegd tot 0, 3 tot 1, 4 tot 2, 5 tot 3 en 6 tot 4

 Woordgebruik en woordenschat (WW): twee criteria, score 0-4 - 0-1-2 samengevoegd tot 0, 3 tot 1 en 4 tot 2

 Vloeiendheid, verstaanbaarheid en grammaticale beheersing (VVG): vijf criteria, score 0-10 - 0 t/m 8 samengevoegd tot 0, 9 tot 1 en 10 tot 2.

De verdeling van de scores per aspect op basis van bovenstaande scoretransformatie is weergegeven in Tabel 4.21. De (gemiddelde) p-waarde is het (gemiddelde) percentage van de maximaal te behalen score. In de kolommen 0 t/m 4 staat het aantal observaties per scorepunt.

Tabel 4.21 – Scoretransformatie per aspect Spreken

Aspect N P 0 1 2 3 4

UV 1365 0,662 40 96 272 856 101

SH 1365 0,646 13 161 1087 104

AD 1365 0,829 31 406 928

AP 1365 0,511 83 330 493 360 99

WW 1365 0,850 79 251 1035

VVG 1365 0,890 70 161 1134

In Tabel 4.22 zijn de psychometrische kenmerken van de toets Spreken weergegeven.

Tabel 4.22 – Kenmerken toets Spreken

Maximale score Gemiddelde score Standaarddeviatie Gemiddelde

p-waarde Betrouwbaarheid (GLB)

17 11,77 2,72 69,22 ,81

De resultaten van de kalibratie in OPLM zijn opgenomen als bijlage en onderschrijven de veronderstelling dat het model unidimensionaal is. Drie scorepunten van drie aspecten hebben een significante p van de Chi-kwadraat. Ook de overschrijdingskans van de R1c-toets is significant (p=0,0182), maar de R1c (=69.469) is minder dan 1,5 keer het aantal vrijheidsgraden (df=47). Derhalve wordt het model toch als passend aangenomen.

Op basis van de modelpassing is een vaardigheidsschaal geconstrueerd met het populatiegemiddelde van de vaardigheid op 250 en de standaarddeviatie op 50. Hiervoor zijn de totaalscores per leerling met bijbehorende theta gegenereerd om de gemiddelde theta en standaarddeviatie te berekenen over de hele populatie. Daarna is de theta lineair getransformeerd naar de 250-schaal:

vaardigheid = 180,897 * theta + 207,453

In Tabel 4.23 is weergegeven welke ruwe scores op de toets Spreken corresponderen met welke theta’s en vaardigheidswaarden.

40 Tabel 4.23 – Overzicht vaardigheid Spreken

Ruwe score Theta (θ) Vaardigheid

1 -0,621 95

De overeenstemming tussen de verschillende beoordelaars is gebaseerd op 10 procent dubbele beoordelingen. Hiervoor is de gewogen Cohen’s kappa berekend, zowel voor het totaal als alle onderdelen afzonderlijk, zie Tabel 4.24. Zeker op aspectniveau zijn die waarden niet altijd hoog. Dat is te wijten aan de verdeling van de scores: wanneer die verdeling niet evenwichtig over de verschillende scoremogelijkheden is, heeft dat effect op de hoogte van de gewogen kappa. Daarom is, naast de gewogen kappa, tevens de proportie overeenstemming opgenomen. Als we kijken naar het kenmerk vvg, zien we dat de kappa te classificeren is als laag (0,15), terwijl de proportie overeenstemming zeer goed is (0,91). Psychometrisch lijkt dit beoordelingsonderdeel weinig relevant, omdat in ongeveer 95 procent van de gevallen voor dit aspect de maximale score toegekend is. Hierdoor is de verwachte kans op overeenstemming tussen beoordelaars zo hoog dat noch de betrouwbaarheidsmaat, noch de proportie overeenstemming daadwerkelijk aangeven hoe bruikbaar dit beoordelingsaspect is.

Inhoudelijk gezien is het echter een essentieel onderdeel. De samenvoeging van de vijf beoordelingscriteria tot één trichotoom aspect is daarmee gerechtvaardigd, overeenkomstig met het advies van de expertgroep.

Tabel 4.24 – Cohen’s kappa en overeenstemming per aspect Spreken

Aspect Gewogen Cohen’s

Afstemming op het publiek 0,60 0,72

Woordgebruik en woordenschat 0,58 0,76

Vloeiendheid, verstaanbaarheid en grammaticale

Beheersing 0,15 0,91

Totaal 0,65 0,82

Voor de samenhang van de analytische oordelen met het globale oordeel, zie paragraaf 4.7.

41 4.5.2 Standaardbepaling Spreken

Om te bepalen bij welke score welke referentieniveaus beheerst worden, oftewel het bepalen van de cesuren, is een onafhankelijke standaardbepaling georganiseerd door CvTE in opdracht van de inspectie. De standaardbepaling is onder leiding van Cito uitgevoerd door een expertpanel, bestaande uit achttien personen met verschillende expertise, voornamelijk taalexperts en leerkrachten. Meer informatie over de samenstelling van dit panel, de gehanteerde methoden, procedures en resultaten van die standaardbepaling is opgenomen in de Rapportage Standaardbepalingen Peilingsonderzoek mondelinge taalvaardigheid (Linthorst et al., 2017).

4.6 Kwaliteit van de toets Gesprekken

In document Peilingsonderzoek Mondelinge Taalvaardigheid in het basisonderwijs (pagina 39-42)