Meerniveau analyses - Resultaten - beantwoording van de onderzoeksvragen

Hoofdstuk 8. Resultaten - beantwoording van de onderzoeksvragen

8.7 Meerniveau analyses

In paragraaf 8.6 is de relatie tussen verschillende school- en leerlingkenmerken en de leerlingprestaties aan de orde gekomen (onderzoeksvragen 5 en 8). Hierbij zijn gewogen analyses gepresenteerd, waarin rekening is gehouden met de overschatting van VVTO-scholen en bepaalde strata. In de in paragraaf 8.6 gepresenteerde analyses wordt de hiërarchische structuur van de data niet in aanmerking genomen. Echter, binnen de peiling is de data niet onafhankelijk van elkaar:

leerlingen zijn geclusterd binnen klassen/scholen. Om verbanden vast stellen met leerling-, klas-, leerkrachten school-kenmerken zijn meerniveau-analyses uitgevoerd, waarin wel wordt uitgegaan van de aanwezige afhankelijkheid in de data. Deze resultaten worden gepresenteerd in de paragrafen 8.7 en 8.8, waarin de onderzoeksvragen 5-8 worden beantwoord met data afkomstig uit de leerling-, leerkracht en schoolleidersvragenlijst (intake).

8.7.1 Strategie meerniveau analyses

Voor de beantwoording van de vragen wordt gebruik gemaakt van een serie van statistische modellen. De modellen zijn vergelijkbaar in de zin dat ze dezelfde afhankelijke variabelen, een vergelijkbare datastructuur en vergelijkbare toetsing hebben. Ze verschillen alleen in de set van voorspellende kenmerken (predictoren) die in de analyses zijn opgenomen. De afhankelijke variabelen in alle modellen zijn de prestaties van de leerlingen op de vier getoetste domeinen van Engels; de vaardigheid voor lezen, luisteren, woordenschat en gesprekken. De gespreksvaardigheid is de individuele score voor gespreksvaardigheid.

De getrapte steekproeftrekking van Peil Engels zorgt voor een hiërarchische structuur van de data. Het ontwerp van de steekproeftrekking impliceert bovendien dat bij ongeveer driekwart van de leerlingen een geldige score voor gesprekvaardigheid ontbreekt (zie hiervoor hoofdstuk 3). Verder is het ontbreken van informatie over kenmerken van het onderwijsleerproces (afkomstig is uit de leerkrachtvragenlijst) van zorgelijke omvang: hoewel het percentage leerkrachten met meer dan 10%

missende waarden ten opzichte van de totale vragenlijst aanvaardbaar is (9%), hebben relatief veel leerkrachten één of meer missende waarden op de deelvragen over het onderwijsleerproces. Als hier geen rekening mee zou worden gehouden en alleen met volledige data per leerling geanalyseerd zou worden (listwise deletion), blijft een erg beperkte dataset over en wordt waardevolle informatie

over kenmerken die wél beschikbaar is niet gebruikt. Om te komen tot complete data voor iedere leerling is meerniveau multiple imputatie toegepast (Van Buren, 2012).

8.7.2 Multiple imputatie

Bij de meerniveau multiple imputatie zijn er twee niveaus in de dataset onderscheiden: leerlingen (Level 1) en klassen/scholen (Level 2). Het was niet mogelijk om onderscheid te maken tussen het klas- en schoolniveau. Dit kan verklaard worden door het gering aantal scholen dat met meer dan één klas aan de peiling heeft meegedaan.

De meerniveau multiple imputatie is uitgevoerd in twee stappen. De eerste stap betreft het imputeren van alleen de vier afhankelijke variabelen, te weten de vaardigheid voor lezen, luisteren, woordenschat en gesprekken. Deze variabelen hebben een continu meetniveau en zijn feitelijk schattingen van de vaardigheid van een leerling voor het betreffende domein van Engels, de Weighted Maximum Likelihood (WML) schattingen, waarvan de uitkomsten in paragraaf 8.2 staan beschreven. De individuele WML-schatting van de vaardigheid met bijbehorende standaardfout en variantie-covariantie matrix dienen als basis voor de multiple imputatie. Bij een ontbrekende score voor bijvoorbeeld gespreksvaardigheid van een leerling wordt een voorspelling van deze score gedaan middels meerniveau lineaire regressiemodellen die gebruikmaken van informatie over de WML-vaardigheidsscores voor lezen, luisteren en/of woordenschat van de betreffende leerling en de verdeling van deze scores voor lezen, luisteren, woordenschat en gesprekken in de gehele steekproef. Er zijn vijf imputatieronden uitgevoerd die hebben geresulteerd in vijf geïmputeerde datasets. Iedere dataset bevat steeds complete records van iedere leerling; de score van een leerling is zijn geldige WML schatting voor de betreffende vaardigheid of – indien sprake was van een ontbrekende waarde – een voorspelde vaardigheidsscore verkregen uit multiple imputatie. Een overzicht van de binnen en tussen-datasetvariantie voor de vier afhankelijke variabelen is weergegeven in Tabel 8.14.

Tabel 8.14: Variantie binnen en tussen de vijf geïmputeerde datasets per domein van Engels vaardigheid

Leesvaardigheid Luistervaardigheid Woordenschat Gespreksvaardigheid Binnen-

datasetvariantie

Dataset 1 0.1930 0.1724 0.1955 0.2826

Dataset 2 0.1957 0.1748 0.1904 0.2672

Dataset 3 0.1923 0.1736 0.1903 0.2641

Dataset 4 0.1958 0.1720 0.1905 0.2676

Dataset 5 0.1938 0.1748 0.1896 0.2856

Overall 0.1941 0.1735 0.1912 0.2733

Tussen-

datasetvariantie 3.2005E-06 2.3013E-06 6.8017E-06 1.0229E-04

Tabel 8.14 toont dat de binnen-dataset variantie voor gespreksvaardigheid groter is dan voor lees- en luistervaardigheid en woordenschat. Hieraan ligt het beperkt aantal leerlingen met een gespreksvaardigheid-meting in de klas ten grondslag, waardoor de schattingen gevoeliger worden

voor ruis. Voor de vier domeinen Engels is de tussen-datasetvariantie is vrijwel gelijk aan 0. Er is geen sprake van vertekening.

De tweede imputatiestap betreft het multiple imputeren van predictoren afkomstig uit de leerling-, leerkracht- of schoolleidersvragenlijst (intake) volgens de zogenaamde chained equation methode (Snijders & Bosker, 2012, p 145). Deze methode – ook wel predictive mean matching genoemd – komt overeen met de 2l.pmm-methode in de R-package Mice. Er is rekening gehouden met de geneste structuur van de data (L1: leerling; L2: klas/school). Ontbrekende scores bij discrete ordinale predictoren - zoals formatiegewicht van de leerling - zijn geïmputeerd met logistische regressie modellen en ontbrekende scores bij continue predictoren - zoals aantal jaren ervaring in het geven van Engels – met lineaire regressie modellen. Ontbrekende waarden bij nominale predictoren - zoals gebruikte didactische methode voor Engels - zijn niet geïmputeerd. Bij dit type variabelen is

‘onbekend’ als extra antwoordcategorie toegevoegd. Zo wordt voorkomen dat door het ontbreken van een score op een of meerdere nominale variabelen een leerling alsnog geheel uit de analyses wordt verwijderd (listwise deletion). Door multiple imputatie kan zo veel mogelijk informatie over relevante predictoren uit de drie vragenlijsten toch worden meegenomen in de analyses. Er zijn vijf imputatieronden toegepast in deze tweede imputatiestap die ook geleid hebben tot vijf geïmputeerde datasets. De vijf datasets van de tweede imputatiestap zijn samengevoegd met de vijf datasets uit de eerste imputatiestap en vormen de basisbestanden voor de meerniveau analyses.

8.7.3 Meerniveau analyses

Vanwege de hiërarchische structuur van de geïmputeerde datasets zijn meerniveau analyses toegepast om de onderzoeksvragen te beantwoorden. In de meerniveau analyses zijn dezelfde niveaus onderscheiden als bij de multiple imputatie; leerlingen (L1) zijn genest binnen klassen/scholen (L2). De variantie op klas- en schoolniveau is weer samengenomen in niveau 2 en het gaat hier steeds om random intercept modellen (Snijders & Bosker, 2012, p 41). Er is geen weging naar de populatie toegepast. Wel is in alle modellen gecorrigeerd voor de interactie tussen startmoment en stratum. Alle meerniveau modellen zijn vijf keer geschat, voor elke geïmputeerde dataset afzonderlijk (Van Buren, 2012, p 17). Vervolgens zijn per analysemodel de vijf schattingen voor de regressiecoëfficiënten en varianties op leerlingen klas/schoolniveau gepoold om te komen tot correcte schattingen van de regressiecoëfficiënten, varianties en hun standaardfouten (Snijders &

Bosker, 2012, p 135). Voor de toetsing van de samenhang tussen een predictor en een afhankelijke variabele zijn 95% betrouwbaarheidsinterval rondom de gemiddelde regressiecoëfficiënt (over de vijf datasets) berekend en is de gepoolde standaardfout berekend (gemiddelde regressiecoëfficiënt ± 1.96 * SEgepoold). Bij de bepaling van significante resultaten is dus uitgegaan van tweezijdige toetsing met een α van 5%.

De onderzoeksvragen zijn beantwoord met zeven verschillende meerniveau modellen. De opzet ervan wordt hieronder besproken, een toelichting op de resultaten volgt in paragraaf 8.8.

• Model 1 betreft een leeg meerniveau model. Het belangrijkste doel is nagaan in hoeverre verschillen in Engelse vaardigheidsscores gerelateerd zijn aan verschillen tussen leerlingen (leerlingniveau) en verschillen tussen klassen (klas/schoolniveau). Indirect gaat het hier om de vraag of het zinvol is om zowel een leerling- als klas/schoolniveau in de data-analyses te onderscheiden.

• Model 2 bevat slechts een predictor, te weten de interactieterm startmoment*stratum. Deze variabele is een combinatie van EIBO/VVTO schooltype en het percentage leerlingen met een formatiegewicht op een school. Het model geeft antwoord op de vraag in hoeverre EIBO en VVTO scholen van elkaar verschillen in Engelse vaardigheidsscores als rekening wordt gehouden met het percentage leerlingen met een formatie gewicht van .3 of 1.2. In de overige modellen is deze interactieterm startmoment*stratum meegenomen als covariaat. In de gepresenteerde modellen wordt deze covariaat weergegeven onder de noemer ‘startmoment’.

• Model 3 geeft inzicht in de samenhang tussen leerlingkenmerken en de vier Engelse vaardigheidsscores, na correctie voor startmoment*stratum. Er is onderscheid gemaakt in algemene (Model 3a) en domeinspecifieke leerlingkenmerken (Model 3b). Bij Model 3a gaat het om de predictoren sekse, leerlinggewicht, leeftijd en schooladvies voor voortgezet onderwijs. Bij Model 3b om taalgebruik thuis, buitenschools gebruik van Engels, linguistic self confidence, attitude en eigen inschatting van de betreffende vaardigheid. Model 3 is bedoeld om antwoord te geven op de eerste onderzoeksvraag: In hoeverre hangen kenmerken van leerlingen samen met de Engelse leerprestaties?

• Bij Model 4 worden diverse kenmerken van het onderwijsleerproces als predictor toegevoegd aan Model 2. Het betreft een lijst van 24 predictoren. Voorbeelden zijn onderwijstijd, didactische methode, bij- of nascholing voor Engels, samenwerken in groepen door leerlingen en coördinator/werkgroep Engels hebben. Startmoment*stratum dient weer als covariaat. De tweede onderzoeksvraag is hier aan de orde: In hoeverre hangen kenmerken van het onderwijsleerproces samen met de Engelse leerprestaties?. Het model geeft inzicht in welke kenmerken van het onderwijsleerproces relevant zijn voor de vaardigheidsscores Engels en welke kenmerken deels de eventuele verschillen tussen EIBO/VVTO scholen met correctie voor leerlinggewicht kunnen verklaren.

• Model 5 heeft betrekking op de invloed van achtergrondkenmerken van leerkrachten. In dit model zijn, naast startmoment*stratum, zes achtergrondkenmerken van de leerkrachten meegenomen: opleidingsniveau, ervaring in het geven van Engels, moedertaal, buitenschools gebruik Engels en inschatting van eigen niveau van de betreffende vaardigheid. De predictoren geven een beeld van de Engelse taalvaardigheid en de vaardigheid om lessen Engels te geven van de leerkracht. Met Model 5 wordt de derde onderzoeksvraag beantwoord: In hoeverre hangen kenmerken van de leerkracht samen met de Engelse leerprestaties?

• Model 6 is bevat predictoren die betrekking hebben op de algemene kenmerken van scholen.

Het gaat om een percentage leerlingen met een niet-Nederlandse thuistaal, urbanisatiegraad van de schoollocatie, denominatie, percentage gewichtenleerlingen en gemiddelde schooladvies van groep acht. Bij dit model gaat het om de vierde onderzoeksvraag: In hoeverre hangen achtergrondkenmerken van de school samen met de Engelse leerprestaties?

• Model 7 is het compacte totaalmodel. Het model is als volgt opgebouwd. Model 4 met de gehele set van onderwijsleerprocespredictoren dient als basis. Deze set is in eerste instantie uitgebreid met alleen de significante domeinspecifieke leerkrachten leerlingkenmerken (Model 5 en 3b) en vervolgens met alle algemene leerlingen schoolkenmerken (Model 3a en Model 6). Het resulteert een uitgebreid totaal model waarin ook predictoren zitten die niet langer significant zijn. Middels een backward selection procedure zijn één voor één de predictoren verwijderd die

In document PEILING ENGELS EINDE BASISONDERWIJS 2018 (pagina 197-200)