Weging en gebruikte leerlingresultaten - Resultaten - beantwoording van de onderzoeksvragen

Hoofdstuk 8. Resultaten - beantwoording van de onderzoeksvragen

8.1 Weging en gebruikte leerlingresultaten

De weging van de leerlingen vindt plaats op basis van de gegevens zoals die bekend zijn in de populatie. Dit betreft een weging naar de combinatie van twee variabelen die in de steekproef stratificatiecriteria waren, te weten type school met twee niveaus (startmoment: EIBO – VVTO) en formatiegewichtsstratum (vier niveaus). In paragraaf 2.1 zijn deze criteria nader omschreven.

Zoals in paragraaf 2.4 is beschreven, bleek in de steekproef dat de best mogelijke gegevens over welke scholen VVTO-scholen zouden zijn niet geheel overeenkwamen met de werkelijkheid. Zo bleek dat in de steekproef vier scholen als EIBO bekend stonden maar eigenlijk sinds 2013 VVTO waren, en dat drie scholen bekend stonden als sinds 2013 VVTO, maar eigenlijk EIBO waren. Een van de oorzaken lijkt te zijn dat het startjaar niet geheel correct in de aangeleverde bestanden stond. De verwisselingen laten niet zien dat er sprake is van een systematische verschuiving. Het is niet zo dat alle VVTO-scholen eigenlijk EIBO-scholen waren, of omgekeerd. Aangezien de verwisselingen van EIBO naar VVTO en vice versa vrijwel gelijk waren, wordt aangenomen dat de gegeven verdeling in de populatie van VVTO en EIBO wel correct is. Er is weliswaar niet met 100% zekerheid vast te stellen welke school VVTO is, maar de verhouding EIBO-VVTO lijkt correct en is niet aangepast op basis van deze resultaten.

Wat betreft de strata die waren samengesteld op basis van formatiegewicht is gebruik gemaakt van de opdeling van de strata in schooljaar 2016-2017. Ten tijde van de steekproeftrekking was dat de enige beschikbare data. De afname van de peiling vond echter plaats in het daaropvolgende jaar. Dat betekende dat zowel de scholen van stratum konden verwisselen als dat de verdeling in de populatie kon veranderen. Aangezien de gegevensverzameling in het schooljaar 2017- 2018 plaatsvond, is de weging gebaseerd op de informatie van het schooljaar 2017-2018. Merk daarbij op dat dit niet bij Type School speelde, aangezien deze indeling gebaseerd was op het startjaar 2013. Dit verandert niet van 2016-2017 op 2017-2018.

Bij de weging is de combinatie onderzocht van schooltype en formatiegewichtsstratum. Dat leverde een opdeling in acht combinatiecategorieën op (CC8). Per combinatiecategorie is een gewicht bepaald. Naast de vierdeling van formatiegewichtsstratum is er ook een tweedeling in formatiegewichtsstratum mogelijk: tot 10% gewichtenleerlingen (samenstelling van de eerste twee strata van de vierdeling) of meer dan 10% gewichtenleerlingen (samenstelling van de laatst twee strata van de vierdeling). In combinatie met schooltype levert dit een opdeling in vier combinatiecategorieën op (CC4). Voor CC4 zijn ook gewichten bepaald.

De wegingsfactor wordt per combinatiecategorie berekend. Die kan zowel voor de CC8 als de CC4. Hiertoe moeten voor alle combinatie-categorieën zowel de aantallen in de populatie als de aantallen in de steekproef bekend zijn. Op basis van die aantallen kunnen de percentages in de steekproef en in de populatie berekend worden. Het gewicht van een combinatiecategorie is de verhouding van die twee binnen die combinatie-categorie. Voor combinatiecategorie X (CC X) is dat

Gewicht CC X = (% CC X in de Populatie) / (% CC X in de Steekproef).

Dit is ongeacht welke combinatiecategorie of welke opdeling van de combinatiecategorieën wordt gehanteerd (CC4 of CC8). Als de percentages in de steekproef en de populatie gelijk zijn, dan is het gewicht 1. Is het percentage hoger in de steekproef dan in de populatie in die combinatiecategorie, dan is het gewicht kleiner dan 1. Is het percentage hoger in de populatie dan in de steekproef in die combinatiecategorie, dan is het gewicht groter dan 1.

In de bepaling van de gewichten was er nog een aantal zaken te bepalen. Ten eerste de vraag wat als de populatie beschouwd wordt, ten tweede welke aantallen gebruikt worden om de percentages mee te berekenen, en ten derde wat precies als de steekproef wordt beschouwd. De keuzen worden hieronder beschreven.

De weging kon plaatsvinden zowel op basis van de aantallen scholen in de populatie en de steekproef als op basis van het aantal leerlingen. Beiden zijn uitgevoerd, maar de analyses (in dit hoofdstuk) zijn gedaan op de verdelingen van de leerlingen. Dat is gedaan omdat de gegevens ook leerlinggegevens (resultaten) betroffen. Hierbij is er ook de keuze om per schaal gewichten te bepalen. Het aantal leerlingen waarbij een vaardigheid gemeten wordt verschilt enigszins bij de toetsen voor leesvaardigheid, luistervaardigheid en woordenschat. Bij het onderdeel gesprekken scheelt het duidelijk meer. Daarnaast zijn de aantallen van de vragenlijst ook te gebruiken, als wel de aantallen in de gehele dataset (2088 leerlingen). Leerlingen die 100% ontbrekende waarden hadden zijn buiten alle analyses voor de bepaling van de gewichten gelaten. Als de verhoudingen van de CC8 en CC4 in de steekproef bij de vier vaardigheden verschillen per vaardigheid of voor de vragenlijst of op het totaal, dan levert dit van al deze verschillende verdelingen ook verschillende gewichten. Om die reden zijn er per vaardigheid, voor de vragenlijst en het totaal gewichten berekend. Op het schoolniveau was overigens de variatie aanzienlijk kleiner, aangezien weliswaar niet alle leerlingen aan alles meededen, maar wel alle scholen.

Door deze werkwijze is een groot aantal gewichten bepaald. Ten eerste per type combinatiecategorie (CC8 en CC4), voor leerlingen en scholen (LLN en SCH), en voor zes varianten van de steekproef (de gehele dataset, de vier vaardigheden, en de vragenlijst). Daarnaast zijn er ook gewichten berekend met de gegevens van de 2016-2017 populatie. Al deze gewichten zijn ook vergeleken. Het bleek dat de variatie niet zeer groot was en de impact van de variatie al helemaal zeer klein was. Aangezien het de data van schooljaar 2017-2018 betreft, het over leerlingresultaten gaat in dit hoofdstuk, en doordat de gewichten voor de verschillende vaardigheden en vragenlijst niet veel van de gewichten op de gehele dataset verschilden, zijn de gewichten van de gehele dataset (ALL) als wegingsfactor gebruikt.

De resultaten van de leerlingen worden in dit hoofdstuk weergegeven als vaardigheidsschattingen van de leerlingen, evenals de standaardfout rond die schattingen. Dat zijn de schattingen zoals verkregen met het programma OPLAT; het zijn WML-schattingen. In deze rapportage worden deze weergegeven als de vaardigheden. De gerapporteerde waarden in de tabellen zijn gewogen om de populatiewaarden te verkrijgen. De weging is hier naar de combinatie van het type school (VVTO versus EIBO) en het gewichtenstratum (S4o1: geen gewichtenleerlingen op school; S4o2: meer dan 0 tot en met 10% gewichtenleerlingen; S4o3: meer dan 10 tot en met 25%

gewichtenleerlingen; en S4o4: meer dan 25% gewichtenleerlingen op school). Dit levert acht verschillende gewichten op, afhankelijk van de categorisering van de school.

Bij het weergeven van de resultaten is er naast de weging ook de vraag wanneer een leerling meetelt voor het bepalen van de resultaten. De leerling bij wie 100% van de opgaven ontbreekt bij een toets of taak zal in dit onderzoek voor deze toets/taak nooit meetellen. Er kan wat betreft het evalueren van de ontbrekende waarden ook een restrictievere keuze worden gemaakt. Doel van het peilingsonderzoek is het meten van de vaardigheid Engels. Diverse andere factoren die daarbij een rol kunnen spelen, zoals een zeer lage motivatie, het missen van een pagina, het halverwege de afname de klas moeten verlaten en dergelijke, vertroebelen dat beeld. Om die reden is er een onderscheid gemaakt tussen leerlingen die wel of niet vijf opgaven op een rij niet gemaakt hebben (respectievelijk de y-serie en de x-serie⁸⁰).

Omdat de y-serie ook de leerlingen bevat met meer dan 5 missende waarden op rij, bevat de y-serie altijd gegevens van meer leerlingen dan de x-serie. Het verschil in aantallen leerlingen tussen de twee groepen is echter beperkt. Het percentage leerlingen dat in de x-serie niet wordt meegenomen en dat wel in de y-serie zit is gemiddeld iets meer dan 1%: bij lezen is dat 1,3%, bij luisteren 0,4% en bij woordenschat 2,3% (ongewogen resultaten)⁸¹. Bij alle vaardigheden die met de toetsen gemeten worden, zijn er ruim 1800 leerlingen beschikbaar om de resultaten te bepalen.

Kijken we naar de samenhang tussen de uitval en achtergrondvariabelen, dan zien we dat deze percentages bij EIBO en VVTO-scholen zeer vergelijkbaar zijn. De uitval van leerlingen is iets hoger bij scholen met meer gewichtenleerlingen (>10%) dan met minder gewichtenleerlingen: 1,6% versus 1,2% (ongewogen resultaten; gewogen is het verschil iets kleiner). De impact op de resultaten lijkt beperkt. De resultaten van de x-serie zijn leidend en worden in dit hoofdstuk altijd gepresenteerd. In een aantal gevallen worden ook de resultaten voor de y-serie gegeven.

Alle gerapporteerde resultaten in de paragrafen 8.2 tot en met 8.6 zijn gewogen resultaten waarbij gewogen wordt om de steekproefverdeling van 2088 leerlingen overeenkomstig de populatieverdeling van de leerlingen in schooljaar 2017-2018 gelijk te krijgen voor wat betreft de verdeling van leerlingen op VVTO- en EIBO-scholen, en voor wat betreft de verdeling van de leerlingen in de gewichtenstrata⁸².

8.2 Leerlingresultaten

Alvorens de onderzoeksvragen te beantwoorden worden eerst de gemiddelden gegeven voor de categorieën waar de weging op plaatsvindt. In Tabel 8.1 zijn de WML-scores van de x-serie en de y-serie opgenomen. Naast de gemiddelden zijn ook de standaardafwijkingen gegeven om de verschillen op de verschillende schalen te kunnen interpreteren.

80 In paragraaf 5.1.2 worden de x- en y-serie ook genoemd, bij de beschrijving van het onderscheid dat is gemaakt in de KTT- analyses.

81 Bij de gesprekstaken is er geen verschil tussen de x- en de y-serie.

82 Wegingsvariabele heet “Wegingsfactor” (CC8_LLN_POP18_ALL: Gewicht op basis van Leerlingen Populatie 2017-2018 Aantallen Alle 2088 lln) in het totale databestand.

Tabel 8.1a: de gemiddelde scores (WML, x- en y-serie)

serie Gemiddelden WML x-serie

vaardigheid LE LU WS GESPREK

School EIBO VVTO Totaal EIBO VVTO Totaal EIBO VVTO Totaal EIBO VVTO Totaal S4o1 0.36 0.58 0.40 0.26 0.44 0.30 0.32 0.60 0.38 0.11 0.25 0.13 S4o2 0.38 0.42 0.39 0.32 0.33 0.32 0.33 0.37 0.33 0.12 0.29 0.14 S4o3 0.40 0.39 0.40 0.27 0.25 0.26 0.34 0.37 0.34 0.13 -0.03 0.12 S4o4 0.33 0.38 0.33 0.18 0.25 0.19 0.31 0.38 0.31 0.25 0.07 0.23 Totaal 0.38 0.43 0.39 0.30 0.33 0.30 0.33 0.39 0.33 0.13 0.21 0.14

serie Gemiddelden WML y-serie

vaardigheid LE LU WS GESPREK

School EIBO VVTO Totaal EIBO VVTO Totaal EIBO VVTO Totaal EIBO VVTO Totaal S4o1 0.36 0.57 0.40 0.26 0.44 0.30 0.31 0.59 0.37 0.11 0.25 0.13 S4o2 0.37 0.40 0.37 0.32 0.33 0.32 0.32 0.36 0.32 0.12 0.29 0.14 S4o3 0.39 0.37 0.39 0.26 0.25 0.25 0.33 0.35 0.33 0.13 -0.03 0.12 S4o4 0.33 0.35 0.33 0.18 0.24 0.18 0.29 0.35 0.29 0.25 0.07 0.23 Totaal 0.37 0.41 0.37 0.29 0.33 0.30 0.32 0.38 0.32 0.13 0.21 0.14 Tabel 8.1b: de standaardafwijking (WML, x- en y-serie)

serie Standaardafwijking WML x-serie

vaardigheid LE LU WS GESPREK

School EIBO VVTO Totaal EIBO VVTO Totaal EIBO VVTO Totaal EIBO VVTO Totaal S4o1 0.50 0.45 0.50 0.35 0.41 0.37 0.39 0.50 0.43 0.44 0.42 0.43 S4o2 0.44 0.44 0.44 0.43 0.39 0.42 0.42 0.43 0.42 0.52 0.45 0.51 S4o3 0.43 0.44 0.43 0.41 0.35 0.40 0.41 0.39 0.41 0.50 0.68 0.52 S4o4 0.43 0.43 0.43 0.45 0.51 0.45 0.45 0.45 0.45 0.53 0.64 0.54 Totaal 0.44 0.44 0.44 0.42 0.39 0.42 0.42 0.43 0.42 0.51 0.51 0.51

serie Standaardafwijking WML y-serie

vaardigheid LE LU WS GESPREK

School EIBO VVTO Totaal EIBO VVTO Totaal EIBO VVTO Totaal EIBO VVTO Totaal S4o1 0.50 0.47 0.50 0.35 0.42 0.37 0.39 0.50 0.43 0.44 0.42 0.43 S4o2 0.45 0.45 0.45 0.43 0.39 0.42 0.43 0.42 0.43 0.52 0.45 0.51 S4o3 0.45 0.46 0.45 0.42 0.35 0.42 0.42 0.40 0.42 0.50 0.68 0.52 S4o4 0.43 0.48 0.43 0.45 0.51 0.45 0.46 0.47 0.46 0.53 0.64 0.54 Totaal 0.45 0.46 0.45 0.43 0.39 0.42 0.43 0.43 0.43 0.51 0.51 0.51 Bij de vaardigheid lezen is het verschil tussen EIBO en VVTO ongeveer een 0,10 standaardafwijking (effectgrootte ongeveer 0,10) bij de x-serie. Bij luisteren is het effect iets kleiner (0,08). De verschillen met de y-serie zijn minimaal. Bij woordenschat en gesprekken was het effect iets groter met een effectgrootte van ongeveer 0,15. Bij de y-serie was deze weer vergelijkbaar.

Er zijn wel duidelijk verschillen tussen de verschillende gewichtenstrata. In combinatie met het startmoment valt allereerst op dat alle VVTO-strata bij de vaardigheden lezen, luisteren en woordenschat hoger scoren dan de vergelijkbare EIBO-strata, afgezien van lezen en luisteren bij stratum 3. Het grootste verschil tussen EIBO en VVTO treedt op bij S4o1 (geen gewichtenleerlingen).

De groep leerlingen op S4o1 EIBO-scholen is in de populatie relatief klein, maar bij onze steekproef bestaat de groep uit ruim 200 leerlingen van negen verschillende scholen en ook de groep leerlingen uit S4o1 VVTO-scholen is met rond de 150 leerlingen van de acht scholen relatief groot. De gevonden verschillen zijn dan ook significant en met effectgroottes van 0,46 (lezen), 0,48 (luisteren), 0,63 (woordenschat) en 0,34 (gesprekken) betekenisvol⁸³. Van de drie toetsen zien we bij het stratum S4o4 (meer dan 25% gewichten leerlingen) dat de effectgrootte bij lezen iets groter is dan gemiddeld in de populatie. Daarentegen zijn de effectgroottes bij de middelste twee strata juist iets (S4o2) tot duidelijk (S4o3) kleiner. Bij gesprekken, de praktische taak, wordt een ander resultaat gevonden:

daar is juist het verschil bij S4o2 vergelijkbaar met dat van S4o1 (effectgrootte rond 0,35), terwijl de VVTO-scholen bij de strata met veel gewichtenleerlingen (meer dan 10% gewichtenleerlingen) duidelijk slechter presteren dan EIBO-scholen. Zowel bij S4o3 als S4o4 ligt het negatieve effect hier rond 0,30.

In document PEILING ENGELS EINDE BASISONDERWIJS 2018 (pagina 182-186)