• No results found

Verschillen tussen de huidige leerlingprestaties en de leerlingprestaties in 2007/2010 Onderzoeksvraag

5. Toetsprestaties leerlingen

5.5 Verschillen tussen de huidige leerlingprestaties en de leerlingprestaties in 2007/2010 Onderzoeksvraag

Welke verschillen zijn er tussen de leerlingprestaties anno 2017 en de leerlingprestaties in het peilingsonderzoek Luistervaardigheid van 2007 en het peilingsonderzoek Spreekvaardigheid van 2010?

5.5.1 Anker Luisteren

Voor Luisteren zijn twee teksten met respectievelijk zeven en acht items geselecteerd als ankertoets. In deze set van vijftien luisteritems zijn twee open (reflectie-)items opgenomen. Het onderdeel reflecteren maakt geen deel uit van de vergelijking tussen de onderzoeken in 2007 en 2017. In het kader van vergelijkbaarheid van de afname hebben we ervoor gekozen deze twee open items toch mee te nemen in de afname van de ankertoets. Naast de twee open reflectie-items is één open interpreteren-item opgenomen. Ook dit open item hebben we wel afgenomen, maar niet gebruikt in de vergelijking, omdat enkel de meerkeuze-items zijn gescoord.

In totaal hebben we twaalf items Luistervaardigheid uit 2007 om de verschillen tussen beide peilingsonderzoeken te kunnen analyseren. Een verschil met 2007 is dat destijds de items met de kenmerken begrijpen en interpreteren alleen als twee aparte sets van elkaar geschaald zijn en niet in samenhang als toets. Van de twaalf ankeritems bleek van één item geen analysedata uit de vorige peiling voorhanden te zijn. Van de overige elf behoren twee items tot begrijpen en negen items tot interpreteren.

Voor een vergelijking tussen de prestaties van de leerlingen uit 2007 en 2017 is in eerste instantie alle (respons)data uit beide jaren gezamenlijk geschaald in OPLM. Vervolgens zijn alleen de interpreteren-items uit beide jaren geselecteerd in OPLM, waarna de gemiddelde vaardigheid van de leerlingen in 2017 geschat kon worden volgens de schaling van 2007.

Na schoning van de data leverde dat de aantallen observaties op die zijn weergegeven in Tabel 5.36.

Tabel 5.36 – Aantal observaties Luisteren per combinatie met ankertoets

Ankertoets Geen ankertoets Totaal

Luistertoets vaste variant (A) 389 962 1351

Luistertoets vrije variant (B) 56 124 180

Totaal 445 1086 1531

In totaal hebben 1531 leerlingen de 2017-luistertoets gemaakt. Van deze groep hebben 445 leerlingen tevens de ankertoets gemaakt. De data van 2007 bevat responsen van 2539 leerlingen in vijftien combinaties van in totaal tien sets van items. Twee van deze sets bevatten ankeritems. De data van respectievelijk 455 en 588 leerlingen is gebruikt voor de IRT-schaling. In de definitieve schaling zijn alleen de interpreteren-items uit beide peilingsonderzoeken geselecteerd en gezamenlijk gekalibreerd.

Hierbij zijn de discriminatie- en moeilijkheidsparameters (a- en b-waarden) van de items uit 2007 gefixeerd conform de schaling van 2007, zie Tabel 5.37. Daarnaast zijn in deze tabel de resultaten van de kalibratie van de veertien 2017-items weergegeven.

72 Tabel 5.37 – Kalibratie items 2007 en 2017

Herkomst Nr. Label A B

Hoewel de kalibratie van deze items geen optimaal resultaat leverde qua modelpassing, is voor het schatten van de gemiddelde vaardigheid het model wel als voldoende adequaat beoordeeld.

De gemiddelde gewogen vaardigheid is geschat en vervolgens getransformeerd gelijk de transformatie in 2007 (θ * 198.9256 + 116.71). De 2017-leerlingen scoorden, volgens de vaardigheidsschaal van 2007, naar schatting een gemiddelde vaardigheidsscore voor interpreteren van 220. Dit betekent dat de leerlingen in 2017 gemiddeld minder vaardig waren dan de leerlingen in 2007 op het interpreteren-onderdeel: in 2007 was deze gemiddelde vaardigheidsscore namelijk 250. Overigens leverde de huidige gezamenlijke schaling een schatting van de gemiddelde vaardigheid van 246 op van de 2007-populatie.

Noot hierbij is dat in het huidige peilingsonderzoek Luisteren als één construct is beschouwd en niet verdeeld is in twee aparte schalen (begrijpen en interpreteren). Voor de vergelijking met 2007 was het echter onontkoombaar om alleen de interpreteren-items in de analyse mee te nemen. Het aantal van veertien items uit 2017 en negen ankeritems van 2007 is aan de kleine kant voor een goede vergelijking.

5.5.2 Anker Spreken

Voor Spreken is de beeldverhalentaak opgenomen als ankertaak. Deze beeldverhalentaak bestond uit drie opdrachten, waarbij de leerling een verhaal moest vertellen op basis van een serie afbeeldingen die hij te zien krijgt. Deze ankertoets Spreken is beoordeeld met het beoordelingsmodel dat gebruikt werd in het peilingsonderzoek van 2010.

De ankertoets Spreken is afgenomen bij 199 leerlingen. De resultaten van vier leerlingen van deze groep zijn niet meegenomen in de analyses, daar van hen data op één of meerdere beeldverhalen ontbrak. Van de uiteindelijke 195 leerlingen was er van 188 tevens een resultaat op Spreekvaardigheid in 2017. De gemiddelde spreekvaardigheid van deze 188 leerlingen op de standaardschaal was 250,4.

Van deze leerlingen hadden er 15 (8,0%) als resultaat ‘lager dan 1F’, 60 leerlingen behaalden niveau

73

1F (31,9%) en 113 leerlingen niveau 2F (60,1%). De groep leerlingen die de ankertoets Spreekvaardigheid gemaakt heeft is daarmee voor wat betreft behaalde resultaten representatief voor de gehele populatie.

De ankertoetsen zijn door vijf beoordelaars van Bureau ICE beoordeeld. Om de overeenstemming tussen de beoordelaars te kunnen bepalen is 10 procent van de leerlingen, een groep van 19 leerlingen, dubbel beoordeeld. Per taak waren er 107 beoordeelpunten, waarvan één globaal oordeel en vijftien vervolgbeoordelingen. Deze vervolgbeoordeelvragen zijn geen onafhankelijke vragen, omdat ze alleen worden gesteld bij een specifiek antwoord op een voorgaande vraag. Bij slechts twee leerlingen die de ankertoets gemaakt hebben, waren deze vervolgbeoordelingen van toepassing. Deze vervolgbeoordelingen zijn buiten beschouwing gelaten in het bepalen van de beoordelaarsovereenstemming, net zoals het globale oordeel. De gemiddelde overeenstemming tussen de beoordelaars op de 91 beoordeelpunten per leerling was met 0,91 zeer hoog.

Zoals in 2010 reeds verantwoord, bleek een IRT-analyse met OPLM niet zinvol op de data van de beeldverhalentaak gezien de afwezigheid van een modelpassing. Om de leerlingprestaties van beide peilingsonderzoeken te kunnen vergelijken is een aantal overzichtstabellen uit het PPON-56 onderzoek aangevuld met de gegevens uit 2017, om zo een vergelijking met 2010 te kunnen maken. Er zijn verschillen zichtbaar, maar de relevantie van de verschillen is vrij beperkt. Het aantal inadequaat gebruikte woorden, het aantal keren dat de hoofdpersoon een naam kreeg en het aantal keren dat een leerling aarzelend sprak zijn iets minder geworden. Het gebruik van het aantal M-werkwoorden is licht gestegen.

Gezien de scheefheid van de verdeling van zes van de acht aspecten zijn Mann-Whitney-toetsen uitgevoerd om de verschillen tussen de jaren statistisch te kunnen duiden. De resultaten van deze vergelijking tussen 2007 en 2017 zijn weergegeven in Tabel 5.38 tot en met 5.4519. Uit de overall vergelijking is te concluderen dat op basis van de scores op de beeldverhalentaak er hooguit op detailniveau kleine verschillen te zien zijn tussen de leerlingprestaties van 2010 en 2017.

Tabel 5.38 – Verdeling van het percentage aanwezige inhoudselementen per groep Groep N Min Max Standaard-

deviatie P10 P25 Gemiddelde P75 P90 8 in 2010 204 35 92 9.74 50.00 55.88 62.63 67.65 75.00 8 in 2017 195 29 91 9.92 50.00 55.88 62.34 70.59 75.00

Verschil 2010-2017; p= ,287

Tabel 5.39 – Verdeling van het aantal inadequaat gebruikte woorden per groep*

Groep N Min Max Standaard-

deviatie P90 P75 Gemiddelde P25 P10

8 in 2010 204 0 7 1.08 .00 .00 .59 1.00 2.00

8 in 2017 195 0 3 0.46 .00 .00 .14 .00 1.00

Verschil 2010-2017; p= ,000

Tabel 5.40 – Verdeling van het aantal keren dat de hoofdpersoon een naam kreeg per groep*

Groep N Min Max Standaard-

19 Het resultaat van de Mann-Whitney-toetsen staat onder iedere tabel. Het verschil tussen de jaren is significant als p<0.05.

74

Tabel 5.41 – Verdeling van het percentage M-werkwoorden per groep*

Groep N Min Max Standaard-

deviatie P10 P25 Gemiddelde P75 P90

8 in 2010 204 0 46 8.26 3.85 7.69 13.17 19.23 23.08

8 in 2017 195 0 44 9.05 4.00 8.00 15.08 20.00 28.00

Verschil 2010-2017; p=,005

Tabel 5.42 – Verdeling van het aangeven van de setting per groep Groep N Min Max Standaard-

deviatie P10 P25 Gemiddelde P75 P90

8 in 2010 204 0 4 .92 1.50 2.00 2.78 3.00 4.00

8 in 2017 195 1 4 .86 2.00 2.00 2.67 3.00 4.00

Verschil 2010-2017; p=,510

Tabel 5.43 – Verdeling van het aantal causale verbindingswoorden per groep Groep N Min Max Standaard-

deviatie P10 P25 Gemiddelde P75 P90

8 in 2010 204 0 3 .72 .00 .00 .39 1.00 1.00

8 in 2017 195 0 4 .76 .00 .00 .42 1.00 1.00

Verschil 2010-2017; p=,407

Tabel 5.44 – Verdeling van het aantal keren dat een leerling aarzelend sprak per groep*

Groep N Min Max Standaard-

deviatie P90 P75 Gemiddelde P25 P10

8 in 2010 204 0 2 .32 .00 .00 .09 .00 .00

8 in 2017 195 0 3 .33 .00 .00 .07 .00 .00

Verschil 2010-2017; p=,010

Tabel 5.45 – Verdeling van het aantal verstaanbaarheidsproblemen per groep Groep N Min Max Standaard-

deviatie P10 P25 Gemiddelde P75 P90

8 in 2010 204 0 6 .72 .00 .00 .18 .00 .00

8 in 2017 195 0 3 .42 .00 .00 .07 .00 .00

Verschil 2010-2017; p=,069

75