KAN HET NIEUWE WAARDINGSKADER DE SCHOLEN EN BESTUREN GOED ONDERSCHEIDEN EN IS DE
UITVOERING HIERVAN VOLDOENDE FAIR?
RAPPORTAGE FAIRNESS-ONDERZOEK
oktober 2016
INHOUD
Samenvatting 5
1 Onderzoeksvragen en aanpak 9 1.1 Inleiding 9
1.2 Onderzoeksvragen 9
1.3 Aanpak van het onderzoek 9 2 Respons en non-respons 11 3 Het onderscheidend vermogen 13 3.1 Scores op de standaarden 13
3.2 Vergelijking van de oordelen van deze tweede pilot met de eerste pilot 14 3.3 Oordelen op bestuursniveau 15
3.4 Eerste conclusie over discriminerend vermogen en de vergelijking met vorig jaar 15 4 Onderzoek van de afzonderlijke standaarden op school- en
opleidingsniveau 17
4.1 Inleiding: De rechtvaardigheid of fairness van het waarderingskader 17 4.2 Didactisch handelen 17
4.3 Zicht op ontwikkeling 22 4.4 Veiligheid 24
4.5 Doelen, evaluatie en verbetering 25 4.6 Structuur en cultuur 26
4.7 Verantwoording en dialoog 28 4.8 Onderzoek van scorepatronen 30 4.9 De oordelen in het mbo 32 4.10 Conclusie en discussie 33
5 Het oordeel op bestuursniveau 35
5.1 De standaard ‘Doelen, evaluatie en verbetering’ op bestuursniveau 35 5.2 De standaard ‘Structuur en cultuur’ op bestuursniveau 36
5.3 De standaard ’Verantwoording en dialoog’ op bestuursniveau 37 5.4 Het oordeel op bestuursniveau in het MBO 37
5.5 Conclusies 38
6 De eindoordelen 39
7 Discussie en conclusies 41
Bijlage 1: De omzetting van een standaard in een criterialijst 45 Colofon 47
Samenvatting
Het ‘Waarderingskader 2017 van de Inspectie van het Onderwijs’ moet niet alleen voldoen aan wetenschappelijke criteria zoals betrouwbaarheid en validiteit. Het moet ook doelmatig en rechtvaardig (fair) zijn. Deze laatst genoemde aspecten staan centraal in dit rapport.
Het waarderingskader van de inspectie is doelmatig als het geschikt is om onderscheid te maken tussen zwakke en goede scholen en het is rechtvaardig als bij standaarden de oordelen ‘voldoende’, ‘onvoldoende’ en ‘goed’ op dezelfde criteria gebaseerd zijn (‘niet met twee maten meten’).
Steekproef
De pilotonderzoeken van de inspectie waarop dit onderzoek gebaseerd is, stonden onder andere in het teken van het uitproberen van het nieuwe waarderingskader van de inspectie. Voor dit onderzoek gaan we uit van de versie van januari 2016 die gebruikt is bij de pilots. Scholen waarvan tevoren bekend was dat hier zorgen waren over de kwaliteit van het onderwijs, zijn niet onderzocht met het conceptkader.
Bovendien hebben besturen vrijwillig kunnen deelnemen aan het onderzoek. De bezochte scholen en opleidingen zijn dan ook niet representatief voor de populatie.
Dit onderzoek naar doelmatigheid en rechtvaardigheid is uitgevoerd bij 59 scholen voor het primair onderwijs, 6 scholen voor voortgezet onderwijs en 14 scholen voor speciaal onderwijs. Daarnaast zijn 9 opleidingen voor middelbaar beroepsonderwijs onderzocht. Bij zes standaarden: ‘zicht op ontwikkeling’, ‘didactisch handelen’,
‘veiligheid’, ‘doelen, evaluatie en verbetering’, ’structuur en cultuur’, en
‘verantwoording en dialoog’ was de respons voldoende hoog (meer dan 50 scholen) om hierover te kunnen rapporteren.
Aanpak
In het concept ‘Waarderingskader 2017’ van de inspectie wordt de onderbouwing van elke standaard zowel met criteria die aan de wet zijn ontleend als met ‘overige’
criteria uitgewerkt. Bij het concept waarderingskader geldt dat de criteria die aan de wet zijn ontleend, bepalend zijn voor de vraag of een school of opleiding op een bepaalde standaard als voldoende of onvoldoende beoordeeld wordt. Daarom wordt in dit rapport bij de beoordeling van de fairness in eerste instantie alleen gelet op de criteria die aan de wet zijn ontleend1. Voor het onderzoek hebben wij alle uitspraken in de tekst van de standaard ondergebracht in een lijst met afzonderlijk te
beoordelen criteria.
Het kan zijn dat een school/opleiding op een standaard een positief beeld laat zien, maar dat aan een bepaald wettelijk element van de standaard niet wordt voldaan.
Als het niet naleven van die deugdelijkheidseis – naar het oordeel van de inspectie - eenvoudig en op korte termijn kan worden hersteld, dan geven we het oordeel voldoende op de standaard.
Hier is sprake van een discretionaire ruimte voor de inspecteur. In dit onderzoek zijn we nagegaan hoe de inspecteur die ruimte gebruikt. Voor dit onderzoek is met een signaleringsgrens van 10 procent bekeken of er meer dan 10 procent afwijkingen zijn. Deze grens is niet bedoeld als norm waar inspecteurs zich aan zouden moeten houden bij. Hij dient slechts om een substantieel gebruik van de beoordelingsruimte op te merken.
1 Dit sluit meteen aan op de meest recente wijzigingen in het conceptwaarderingskader waar het onderscheid tussen de wettelijke en niet wettelijke elementen zijn aangescherpt en de niet-wettelijke elementen gekoppeld zijn aan de doelen die de school in het schoolplan heeft geschreven.
De discretionaire ruimte moet niet aan een vast percentage worden opgehangen.
Maar er moet duidelijkheid over zijn hoe men met specifieke deugdelijkheidseisen omgaat en wat men in situaties doet waarbij de beslissing twee kanten op kan gaan.
De vraag is of een dergelijke duidelijkheid er nu wel is en daarom hebben we deze grens gekozen om het gesprek te openen. We kunnen ons goed voorstellen dat in de toekomst afspraken per standaard worden gemaakt over de signalering en ook dat dit niet de vorm van een percentage krijgt.
Heeft het waarderingskader voldoende onderscheidend vermogen?
Aangezien de voor dit onderzoek bezochte scholen niet representatief zijn voor de populatie, is het op dit moment nog niet mogelijk om een definitief antwoord te geven op de vraag of het nieuwe waarderingskader in voldoende mate geschikt is om onderscheid te maken tussen zwakke, voldoende en goede scholen. We kunnen mede door deze niet-representativiteit geen verantwoorde vergelijking treffen tussen de percentages scholen die op grond van dit nieuwe waarderingskader een (on)voldoende kregen en de percentages (on)voldoende waarover in het verleden in het Onderwijsverslag gerapporteerd is. Wel kan gesteld worden dat bij de
standaarden: ‘zicht op ontwikkeling’, ‘doelen, evaluatie en verbetering’ en
‘verantwoording en dialoog’ een substantieel aantal onvoldoendes (14-18procent) is aangetroffen. Bij de standaarden ‘didactisch handelen’, ‘veiligheid’, en ‘structuur en cultuur’ zijn de percentages onvoldoende erg gering (<4 procent).
Over de gehele linie wordt relatief vaak (14-38 procent) het oordeel goed uitgesproken. Als er geen onderscheidend vermogen zou zijn, zouden scholen hetzelfde oordeel krijgen op de standaarden.
De eerste indruk over het onderscheidend vermogen is daarom niet ongunstig. Het onderzoek naar het onderscheidend vermogen zal in de toekomst, wanneer er een grotere en vooral ook representatieve groep scholen met dit waarderingskader bezocht is, verder opgepakt moeten worden.
Zijn de oordelen voldoende rechtvaardig?
De scholen die het oordeel ‘goed’ of ‘voldoende’ krijgen op de standaard ‘zicht op ontwikkeling’, scoren in 35 procent van de gevallen een ‘onvoldoende’ op een of meer op de wet gebaseerde criteria.
Bij didactisch handelen heeft 40 procent van de scholen die een voldoende of goed heeft één of meer tekortkomingen bij de wettelijke criteria.
Bij ‘veiligheid’ heeft 30 procent van de voldoende en goed scorende scholen tekorten op de wettelijke criteria. Bij de standaard ‘doelen, evaluatie en verbetering’ is dat 25 procent, bij ‘structuur en cultuur’ 9 procent, en bij ‘verantwoording en dialoog’ 17 procent.
Deze onvoldoendes op de wettelijke criteria doen zich vooral voor bij het oordeel
‘voldoende’ bij de genoemde standaarden.
Zo zien we bij ‘didactisch handelen’ dat voor het uiteindelijke oordeel niet meetelt wanneer de school niet voldoet aan criteria over afstemming op individuele en groepen leerlingen terwijl die criteria wel aan de wet zijn ontleend.
Vooral bij ‘zicht op ontwikkeling’, ‘didactisch handelen’, ‘veiligheid’, en ‘doelen, evaluatie en verbetering’ overschrijden deze percentages duidelijk de
signaleringsgrens van het gebruik van de discretionaire bevoegdheid van de inspecteur.
Er is bij deze standaarden steeds een groep scholen waar meerdere criteria onvoldoende zijn en waar een deel van de scholen een voldoende krijgt en een ander deel een onvoldoende. Bij sommige standaarden zijn identieke scorepatronen op de criteria gezien, waar de ene school een onvoldoende krijgt en de ander een voldoende. Scholen die een onvoldoende krijgen kunnen er niet op vertrouwen dat er geen scholen zijn die wel een ‘voldoende’ krijgen, terwijl zij evenmin aan deze criteria voldoen. Dit raakt dus de betrouwbaarheid van het oordelen.
Conclusies
De voor dit onderzoek bezochte scholen zijn niet representatief voor de populatie.
Daarom is het op dit moment nog niet mogelijk om een verantwoorde evaluatie te geven over de vraag of het nieuwe waarderingskader in voldoende mate geschikt is om onderscheid te maken tussen zwakke en goede scholen. Wel kan het signaal afgegeven worden dat relatief vaak het oordeel ‘goed’ wordt uitgesproken.
Bij vijf van de zes onderzochte standaarden (‘zicht op ontwikkeling’, ‘didactisch handelen’, ‘veiligheid’, ‘doelen, evaluatie en verbetering’ en ‘verantwoording en dialoog’) doen zich vragen voor bij de fairness van het oordeel ‘voldoende’ en in een enkel geval ook bij het oordeel ‘goed’. Hier krijgt een deel van de scholen een
‘voldoende’ en soms zelfs ‘goed’ op de standaard terwijl uitdrukkelijk niet voldaan wordt aan in de wet gestelde criteria.
We hebben ervan kennis genomen dat op dit laatste punt al een correctie heeft plaats gevonden. Bij het oordeel goed moeten inmiddels alle wettelijke elementen voldoende zijn.
Wij begrijpen dat in het nieuwe kader de beoordeling van de deugdelijkheid van een standaard centraal staat en dat het ontbreken van bepaalde deugdelijkheidseisen soms maar beperkt van invloed kan zijn op de aangetroffen kwaliteit, bijvoorbeeld als het punt eenvoudig en op korte termijn kan worden hersteld. Het is echter niet altijd duidelijk wanneer dit het geval is en het nog ontbreken van afspraken hierover kan tot fairnessproblemen leiden. Bij een expertoordeel horen ook afspraken over de wijze van omgang met een standaard en procedures voor interbeoordelaarsbetrouw- baarheid.
Aanbevelingen
De keuze om wettelijke en niet-wettelijke eisen gezamenlijk in een standaard te beoordelen leidt tot een hybride beoordelingstaak (voldoet/voldoet niet en het beoordelen van ambities en het overtuigend bereiken daarvan). Voor dit moment constateren we dat het een complicatie geeft voor de fairness van de
beoordelingstaak en voor het onderscheidend vermogen.
We vragen ons af of dit hybride karakter bij alle standaarden op deze manier vol te houden is en we bevelen aan bij volgende fasen van beoordeling en bijstelling van het kader per standaard af te wegen of de beoordelingstaak met voldoende
betrouwbaarheid uit te voeren is. Wij denken dat aanpassingen mogelijk zijn zonder het principe van beoordeling op een relatief hoog abstractieniveau geweld aan te doen. Inmiddels is in het bijgestelde kader al wel een duidelijker onderscheid gemaakt tussen de wettelijke eisen en de niet-wettelijke kwaliteitskenmerken (aangeduid als eigen aspecten van kwaliteit) duidelijker aangegeven. Deze eigen aspecten van kwaliteit kunnen leiden tot het oordeel ‘goed’ als de school hier overtuigend aan voldoet.
We stellen voor de zorg voor de interbeoordelaarsbetrouwbaarheid te intensiveren en dit goed in de sectoren aan te sturen. Voorts bevelen we aan dit
fairnessonderzoek voort ze zetten. Het terugkoppelen van informatie over de oordelen en de beoordelingen van onderliggende criteria bij een oordeel is nodig om het gesprek over de IBB te voeren. In dat gesprek kan ook meer aandacht besteed worden aan de oorzaken voor het gegeven oordeel.
Het nieuwe kader leidt tot andere informatie dan het oude. Soms weten we meer, maar soms minder. In het geval van didactisch handelen bevelen we aan om bij de eerste gelegenheid dat dat kan een splitsing te maken tussen de basale didactische vaardigheden en de afstemming op groepen en individuele leerlingen. We denken dat anders relevante informatie verloren gaat.
1 Onderzoeksvragen en aanpak
1.1 Inleiding
Voor de Inspectie van het Onderwijs staat een faire en transparante beoordeling van de schoolkwaliteit centraal. Daarom moet de inspectie voortdurend investeren in een goede interbeoordelaarsbetrouwbaarheid en in onderzoek naar de kwaliteit van het oordeel.
In het fairness onderzoek onderzoeken we of het nieuwe kader leidt tot een werkwijze die voldoende eerlijk is naar de verschillende scholen toe. De inspectie moet zich steeds de vraag stellen of scholen in vergelijkbare omstandigheden ook gelijk worden behandeld. Er mag in de behandeling van scholen geen
rechtsongelijkheid zijn.
Daarnaast willen we weten of de werkwijze aan haar doel beantwoordt, namelijk dat zijn een onderscheid kan maken tussen onvoldoende, voldoende en goede scholen en hun besturen.
1.2 Onderzoeksvragen
De hoofdvragen voor dit onderdeel van het fairness onderzoek zijn:
1. Heeft het waarderingskader voldoende onderscheidend vermogen en worden waar dit nodig is met dit waarderingskader scholen en besturen
gedetecteerd die ‘onvoldoende’ of juist ‘goed’ zijn?
2. Is de gehele werkwijze consistent en navolgbaar zodat de kans op het oordeel ‘onvoldoende’ ‘voldoende’ of ‘goed’ voor iedereen gelijk is?
1.3 Aanpak van het onderzoek
In het nieuwe toezicht zoals dat in de pilots in 2014/2015 en 2015/2016 wordt uitgeprobeerd, werkt de inspectie met een vernieuwd waarderingskader. In dit kader zijn de bekende indicatoren voor de onderwijskwaliteit vervangen door breder geformuleerde standaarden die vaak de informatie van verschillende oude indicatoren samen nemen. Bij de standaarden is een uitwerking (een portret) opgenomen die aangeeft welke elementen van onderwijskwaliteit in de standaard aan bod komen. Een deel van deze elementen is ontleend aan wettelijke vereisten.
Een aantal andere elementen zijn niet aan de wet ontleend maar worden belangrijk geacht voor de onderwijskwaliteit op basis van inbreng van de stakeholders of op basis van wetenschappelijke evidentie2.
De inspecteur heeft een grote vrijheid om op basis van zijn of haar kennis van het bestuur en de verantwoording door het bestuur het onderzoek in te richten. De inspecteur kan na overleg het met bestuur bij een verificatieonderzoek, zelf bepalen welke standaarden worden beoordeeld. Het fairnessonderzoek waar het in dit rapport over gaat is uitgevoerd bij de pilots van de tweede ronde. Voor dit onderzoek wordt volledig aangesloten bij de aanpak van de pilots vernieuwd toezicht. Dit betekent dat vanuit het fairness onderzoek geen bijzondere eisen zijn gesteld aan de pilots. De onderzoeksplanning zoals de inspecteur die zelf bepaalde,
Het onderscheid tussen de wettelijke en niet-wettelijke elementen werd door het veld niet duidelijk genoeg
is volledig gevolgd. We hebben gebruik gemaakt van het waarderingskader zoals dat bij de start van de pilots in januari 2016 bekend was.
Het enige aanvullende onderdeel dat aan de inspecteurs is gevraagd, was het invullen van een onderliggend beoordelingsinstrument.
Dit aanvullende instrument is gebaseerd op het waarderingskader. De verschillende uitspraken in de uitwerking bij de standaarden zijn omgezet in afzonderlijke items of criteria. Wanneer een inspecteur een standaard beoordeelde is aan de inspecteur gevraagd om ook de onderliggende items bij die standaard van een oordeel te voorzien.
Voor het opstellen van de itemlijst is bij elke sector de tekst van de uitwerking van de standaarden gevolgd. De items zijn zoveel mogelijk woordelijk aan de uitwerking van de standaarden ontleend. Omdat in sommige gevallen de inhoud van de
standaard per sector kan verschillen, kunnen ook de items per sector verschillen.
Gelukkig zijn er veel gemeenschappelijke items.
Het scoringsinstrument voor de sectoren PO, VO en SO komt sterk overeen. Voor het MBO is ook een itemlijst gemaakt. Deze wijkt sterk af omdat de uitwerking van de MBO-standaarden verschilt van de andere sectoren en er sprake is van een ander wettelijk regime. Om die reden zullen de oordelen van de pilots MBO apart
geanalyseerd moeten worden.
Het nieuwe waarderingskader heeft tevens aparte onderdelen voor de beoordeling van het bestuur op de gebieden financiën en kwaliteitszorg. Voor de
bestuursstandaarden over kwaliteitszorg is daarom een apart onderzoeksinstrument gemaakt.
Gedurende de pilots die liepen in de periode januari tot april 2016 hebben de inspecteurs de standaarden beoordeeld en het onderliggende instrument ingevuld.
Omdat de inspecteur naar aanleiding van de verantwoording van het bestuur zelf een keuze kan maken voor de te onderzoeken standaarden, verschilt het aantal onderzochte standaarden sterk. Sommige standaarden uit het waarderingskader worden maar weinig gebruikt, andere daarentegen heel vaak. In hoofdstuk 3 (tabel 3.1) staan de percentages vermeld.
2 Respons en non-respons
Hieronder staat de respons bij het onderzoek.
Tabel 2.1: Aantal onderzoeken bij scholen/opleidingen en besturen.
Sector Uitgevoerde
onderzoeken
Fairnessindicatoren geheel of gedeeltelijk
ingevuld
PO 65 59
VO 17 6
SO 15 14
MBO 14 9 (+5)
Totaal 111 93
Besturen PO, VO en SO 29 23
Besturen MBO 2 2
Opmerkingen bij deze tabel:
• Niet alle geplande scholen zijn bij de pilots onderzocht.
• Daarnaast zijn in een aantal gevallen de fairness-indicatoren niet ingevuld.
• In het mbo zijn twee besturen bezocht en negen opleidingen. Daarnaast zijn de examenstandaarden bij vijf opleidingen onderzocht. Het ging hier om een mbo-instelling en een instelling die mbo en vo combineert. Bij de gecombineeerde mbo-vo-instelling zijn ook een aantal VO-scholen bezocht (waarvan de aantallen bij vo zijn meegenomen).
Bij de analyses in hoofdstuk 3 en 4 is de sector mbo niet betrokken omdat het kader wat betreft de inhoud van de standaarden te sterk afwijkt van de andere sectoren.
De items zijn niet goed met de andere sectoren vergelijkbaar. Aan het eind van hoofdstuk 4 besteden we in een aparte paragraaf aandacht aan het mbo.
3 Het onderscheidend vermogen
3.1 Scores op de standaarden
De eerste vraag in het onderzoek is of inspecteur met het kader in staat zijn om een onderscheid te maken tussen goede, voldoende en onvoldoende scholen.
Tabel 3.1 geeft een overzicht van de oordelen op de verschillende standaarden bij de sectoren PO, VO en SO. De veel gebruikte standaarden zijn geel gearceerd.
Tabel 3.1: Scores op de afzonderlijke standaarden
Standaard Onvoldoende Voldoende Goed
Totaal (n =76) Aantal Percentage
Soc. en maatsch. competenties 4 10 1 15 20
Aanbod 0 20 10 30 39
Zicht op ontwikkeling 9 37 13 59 78
Didactisch handelen 2 48 8 58 76
(Extra) ondersteuning 1 7 0 8 11
Onderwijstijd 1 3 0 4 5
Samenwerking 0 13 2 15 20
Praktijkvorming/stage 0 0 2 2 3
Toetsing en afsluiting 1 6 1 8 11
Veiligheid 2 31 20 53 70
Ondersteunend en stimulerend leerklimaat 1 25 13 39 51
Doelen, evaluatie en verbetering 10 47 16 73 96
Structuur en cultuur 1 41 24 66 87
Verantwoording en dialoog 10 30 15 55 72
Grafiek 3.1: Procentuele verdeling van de scores bij de belangrijkste standaarden
Een eerste blik de tabel 3.1 (laatste kolom) laat zien dat er verschillend gebruik gemaakt wordt van de standaarden. Alleen de standaarden ‘zicht op ontwikkeling’,
‘didactisch handelen’, ‘veiligheid’ en de drie standaarden voor kwaliteitszorg (allen geel gearceerd) zijn in de meeste gevallen beoordeeld.
Verder worden de standaarden ‘aanbod’ en ‘ondersteunend leerklimaat’ nog regelmatig ingevuld. De andere standaarden worden weinig gebruikt. Dit heeft de maken met de keuzes die de inspecteurs bij de pilots gemaakt hebben.
Bij drie standaarden (zicht op ontwikkeling, doelen, evaluatie en verbetering en verantwoording en dialoog) is een substantieel aantal onvoldoendes. Bij de andere drie standaarden is dat gering. Vaak wordt het oordeel goed uitgesproken.
3.2 Vergelijking van de oordelen van deze tweede pilot met de eerste pilot Deze vergelijking is alleen verantwoord te maken voor de sector PO omdat alleen daar een redelijk volume aan beoordelingen van 2016 en 2015 beschikbaar is. Zie de onderstaande tabel 3.2.
Tabel 3.2: Oordelen bij de sector PO in 2015 en 2016 op 6 meest ingevulde standaarden
Standaard Onvoldoende Voldoende Goed
Aantal
Zicht op ontwikkeling 2015 20 59 21 816
2016 22 54 24 46
Didactisch handelen 2015 4 85 11 790
2016 5 80 16 44
Veiligheid 2015 1 41 57 815
2016 5 50 45 42
Doelen, evaluatie en verbetering 2015 11 65 24 816
2016 16 62 22 55
Structuur en cultuur 2015 5 50 46 816
2016 2 61 37 54
Verantwoording en dialoog 2015 4 60 36 816
2016 5 62 33 42
Deze informatie valt verder te vergelijken met de informatie in het Onderwijsverslag 2014/2015. Op respectievelijk p.84-85 (PO), p.113 (VO), p.135-136 (SO) staan de beoordelingen die in de jaren 2012/13 t/m 2014/15 zijn verzameld bij aanzienlijke steekproeven. Hier werd nog gewerkt met de indicatoren van oude
waarderingskaders of met een concept van het nieuwe waarderingskader. We zien in het Onderwijsverslag op sommige onderdelen meer onvoldoendes zoals feedback, afstemming en het analyseren van de ontwikkeling.
Die nuance zie je nu niet meer omdat indicatoren zijn samengevoegd in de nieuwe standaarden. Straks kunnen we die nuance wel zien bij de onderliggende criteria.
Daar staat tegenover dat we in de pilots vaker het oordeel ‘goed’ zien. Hier is wel de vraag wat dit betekent. Ook met het oude kader kon men het oordeel goed geven maar het gebeurde niet. Dat nu meer het oordeel goed’ wordt gegeven, betekent nog niet dat de scholen opeens beter zijn geworden. Het kan een effect zijn van de nieuwe werkwijze.
3.3 Oordelen op bestuursniveau
Op bestuursniveau zijn bij PO, VO en SO bij 23 besturen beoordelingen beschikbaar.
Hieronder geven we de oordelen op de verschillende standaarden voor
kwaliteitszorg. We zien dat er een onderscheid wordt gemaakt (zie grafiek 3.3).
Grafiek 3.3: Oordeel over indicatoren op bestuursniveau bij PO, SO en VO
3.4 Eerste conclusie over discriminerend vermogen en de vergelijking met vorig jaar
De bevindingen leiden tot de volgende conclusies:
• We zien in ieder geval dat er een discriminerend vermogen is op het niveau van de standaarden tussen onvoldoende en voldoende en voldoende en goed. Vooral dat laatste is zichtbaar. Hoewel het om betrekkelijke kleine aantallen gaat is er wel een patroon te zien.
• Na vergelijking met de informatie in het Onderwijsverslag vermoeden we dat het onderscheidend vermogen om onvoldoendes te zien kleiner is geworden.
Het is niet duidelijk of dit verschil ernstig is en we kunnen nog geen
definitief antwoord op deze vraag geven omdat in deze pilots niet de meest risicovolle scholen aan bod kwamen. Bovendien zijn hiervoor de onderzochte aantallen nog te klein.
• Daarnaast zien we dat voor PO bij de pilots 2016 geen opvallende
verschillen te zien zijn ten opzichte van de pilots 2015. Bij de onderzochte standaarden wordt een vergelijkbaar patroon zichtbaar. Voor VO en SO kunnen we op grond van de pilots hierover geen specifieke conclusies trekken.
Bestuursniveau
• Voor het eerst is ook op bestuursniveau een oordeel gegeven. Op bestuursniveau zien we een gunstig beeld van het onderscheidend vermogen. Inspecteurs kunnen met het kader op bestuursniveau een onderscheid maken tussen voldoende, onvoldoende en goed.
We wijzen er op dat onderscheidend vermogen niet een intrinsieke eigenschap is van het kader. Het is ook afhankelijk van de kwaliteit van de scholen in het veld en de vraag of men het kader kent. Naarmate scholen het kader beter kennen, gaat men er ook beter op inspelen en kan het onderscheidend vermogen lager worden.
Een goed onderscheidend vermogen nu is nog geen garantie voor de toekomst.
4 Onderzoek van de afzonderlijke standaarden op school- en opleidingsniveau
4.1 Inleiding: De rechtvaardigheid of fairness van het waarderingskader
Voor dit onderzoek hebben we aan de inspecteurs gevraagd om naast het oordeel op de standaard ook de afzonderlijke items gebaseerd op de uitwerking van de
standaarden van een beoordeling te voorzien. In de analyse die we nu geven, vatten we deze items op als aparte criteria. We maken hierin het volgende onderscheid:
• Aan de wet ontleende criteria;
• Niet aan de wet ontleende criteria. Hier kan men niet het oordeel onvoldoende over geven. Wanneer het criterium niet voldoet, is het oordeel eigenlijk ‘kan beter’.
De analyses in dit hoofdstuk gaan steeds over de vraag of de afzonderlijke criteria onder een standaard een plausibel patroon vertonen in relatie tot de beoordeling van de standaard of dat er onverwachte afwijkingen zijn. Ook gaan we na of er informatie in de afzonderlijke criteria zit die in de beoordeling van de standaard niet meer zichtbaar is.
De kern van fairness is: Mogen scholen die op een standaard het oordeel
‘onvoldoende’ krijgen, omdat zij niet aan bepaalde wettelijke criteria voldoen, erop vertrouwen dat er geen scholen zijn die wel een ‘voldoende’ (of zelfs ‘goed’) krijgen, terwijl zij evenmin aan deze criteria voldoen? Er is hier ruimte voor de ‘persoonlijke discretie’ van een inspecteur vallen, maar de verschillen moeten uitlegbaar zijn.
Het is mogelijk dat in de toekomst specifieke afspraken worden gemaakt per standaard en voor verschillende deugdelijkheidseisen, maar die afspraken zijn er nu nog niet. Daarom is voor dit onderzoek een signaleringsgrens van 10 procent aangehouden. Deze grens is uitdrukkelijk geen voorstel voor een norm, en één norm past ook niet bij de grote verschillen tussen de wettelijke eisen.
In dit hoofdstuk van het fairnessonderzoek staan de volgende vragen centraal:
• Als scholen een standaard onvoldoende hebben op welke criteria scoren zij dan onvoldoende?
• Hoeveel scholen scoren voldoende of goed op een standaard, terwijl de scholen toch op één of meer van de criteria die bij deze standaard horen een
onvoldoende scoren?
Vooraf moet de opmerking geplaatst worden dat op dit moment nog maar over weinig scholen gegevens beschikbaar zijn voor dit onderzoek. Dit geldt vooral voor de sector voortgezet onderwijs. Dat betekent dat de definitieve resultaten kunnen wijzigen wanneer er meer gegevens beschikbaar komen.
We bespreken hier de standaarden waar we beschikken over meer dan 50 scores.
Eerst bespreken we ‘Didactisch handelen’ omdat die standaard gaat over de kern van het onderwijsproces. Vervolgens komen de standaarden zicht op ontwikkeling, veiligheid en de drie standaarden voor kwaliteitszorg aan bod.
4.2 Didactisch handelen
In tabel 4.2a kunnen we op de eerste twee regels aflezen dat 5 procent van de 61 scholen een onvoldoende krijgt op de standaard ‘didactisch handelen’ (3 scholen).
Ongeveer 15 procent van de scholen krijgt het oordeel goed. De overige 80 procent van de scholen scoort op de standaard ‘didactisch handelen’ een voldoende. Alle
staat hoeveel procent een onvoldoende scoort op een criterium. We maken daarbij een onderscheid tussen de verschillende oordelen op de standaard. Eerst zien we hoeveel procent van de onvoldoende scholen een onvoldoende heeft voor de criteria.
In de volgende kolom staat het percentage onvoldoendes van de scholen die een voldoende voor de standaard hebben en tot slot het percentage onvoldoendes bij de goede scholen.
Tabel 4.2a: Score op de criteria van Didactisch handelen
Onvoldoende Voldoende Goed Aantal Sector
Didactisch handelen Aantal 3 49 9 61
Percentage 5 80 15
Score op criteria die in de wet genoemd worden:
De leraren plannen en structureren hun handelen met behulp van informatie die
zij over leerlingen hebben 50 4 0 55 PVS
De leraren zorgen ervoor dat het niveau van hun lessen past bij het beoogde
eindniveau van leerlingen 100 9 0 54 PVS
De aangeboden leerstof is logisch opgebouwd binnen reeks van lessen alsook
binnen één les 50 0 0 52 PVS
De leerlingen zijn actief en betrokken 50 9 0 54 PVS
Met geschikte opdrachten structureert de leraar het onderwijsaanbod zo dat de
leerling het zich eigen kan maken 50 2 0 55 PVS
Met heldere uitleg structureert de leraar het onderwijsaanbod zo dat de leerling
het zich eigen kan maken 100 2 0 54 PVS
De instructies en spelbegeleiding zijn afgestemd op de behoeften van groepen
en individuele leerlingen 100 40 0 55 PVS
De opdrachten zijn afgestemd op de behoeften van groepen en individuele
leerlingen 100 23 0 54 PVS
De onderwijstijd is afgestemd op de behoefte van groepen en individuele
leerlingen 50 24 0 52 PVS
De afstemming is zowel op ondersteuning als op uitdaging gericht, afhankelijk
van de behoefte van leerlingen 100 29 0 42 P
Score op criteria die niet in de wet genoemd worden:
De leraren hebben hoge verwachtingen van hun leerlingen 100 21 0 53 PVS De leraren concretiseren de hoge verwachtingen door doelen voor hun
leerlingen te stellen 100 31 0 52 PVS
De leraren stimuleren een brede ontwikkeling bij hun leerlingen 50 12 0 52 PVS Bij de instructies en opdrachten gebruiken de leraren passende vakdidactische
principes en werkvormen 100 24 0 41 P
Leraren weten de geplande onderwijstijd effectief te benutten door een
efficiënte lesuitvoering 50 3 0 41 P
De leraren gaan actief na of de leerlingen de leerstof en de opdrachten
begrijpen en of zij daarmee hun doelen gehaald hebben 100 21 0 53 PVS
De leraren geven de leerlingen feedback op hun leerproces 100 38 13 49 PVS De leraren bespreken met de leerlingen wat nodig is om hun doelstellingen te
halen 50 55 13 50 PVS
De lessen zijn zowel op ondersteuning als op uitdaging gericht, afhankelijk van
de behoeften/kenmerken van leerlingen 0 50 0 8 S
We maken in de tabel een onderscheid tussen de criteria die in de wet genoemd worden en de criteria die om andere redenen zijn toegevoegd. In de laatste kolommen staat het totaal aantal scores dat beschikbaar is en zien we op welke sectoren het criterium betrekking heeft.
Grafiek 4.2 Didactisch handelen
Bij het criterium ‘De instructie en spelbegeleiding zijn afgestemd op de behoeften van individuele en groepen leerlingen’ ziet men dat van de scholen met een onvoldoende iedereen waarvoor dit criterium is ingevuld een onvoldoende had. Bij de voldoende scholen had 40 procent een onvoldoende en bij de goede scholen zijn op dit criterium geen onvoldoendes gescoord.
Bij de voorlaatste kolom van tabel 4.2a ziet men verder bij hoeveel scholen dit criterium is ingevuld en voor welke sector het geldt. De bevindingen bij de criteria waarvan we meer dan 40 scores hebben staan ook in een grafiek (zie grafiek 4.2).
Deze grafiek bevat dezelfde informatie. Hier duiden we de criteria die niet in de wet genoemd worden aan met Kb (kan beter). De rode balken geven aan hoeveel procent van de scholen onvoldoende scoorde op het criterium. Bij het laatste criterium ‘De leraren bespreken met de leerlingen wat nodig is om hun
doelstellingen te halen’ scoort 55 procent van de scholen die een voldoende op de standaard hebben toch een onvoldoende op het criterium. Bij de analyses van de andere standaarden plaatsen we in dit hoofdstuk alleen de grafiek. Er is een aparte technische rapportage met de onderliggende tabellen beschikbaar.
Criteria die in de wet genoemd worden
We onderzoeken eerst de criteria die in de wet genoemd worden. Tabel 4.2a en de grafiek 4.2 maken duidelijk dat alle scholen die onvoldoende scoren op de standaard
‘didactisch handelen’, op minstens 5 van de 9 wettelijke criteria een onvoldoende krijgen. In tabel 4.2a en 4.2b wordt verder duidelijk dat geen enkele school die het oordeel ‘goed’ krijgt op didactisch handelen op één of meer van de in de wet genoemde criteria een onvoldoende krijgt. Deze beide vaststellingen zijn positief voor de fairness.
Dit ligt anders bij de scholen die ‘voldoende scoren op de standaard ‘didactisch handelen’. Zo’n 23-40 procent van de scholen die op de standaard ‘didactisch handelen’ een voldoende scoren, blijkt op criteria die van de wetteksten zijn afgeleid een onvoldoende te scoren. Bij de voldoende scorende scholen leiden de volgende criteria tot schendingen:
• De leraren zorgen ervoor dat het niveau van hun lessen past bij het beoogde eindniveau van leerlingen;
• De leerlingen zijn actief en betrokken;
• De instructies en spelbegeleiding zijn afgestemd op de behoeften van groepen en individuele leerlingen;
• De opdrachten zijn afgestemd op de behoeften van groepen en individuele leerlingen;
• De onderwijstijd is afgestemd op de behoefte van groepen en individuele leerlingen;
• De afstemming is zowel op ondersteuning als op uitdaging gericht, afhankelijk van de behoefte van leerlingen.
Bij de laatste vier standaarden uit dit rijtje betreffen de schendingen al snel een kwart van de oordelen. Daar komt nog eens bij dat één school voor voortgezet onderwijs en één basisschool op de helft of meer van de wettelijke criteria een onvoldoende scoorden en toch een voldoende kregen op de standaard ‘didactisch handelen. Inmiddels is naar aanleiding van de pilots al verder nagedacht over de werkwijze.
De gesignaleerde verschillen gaan systematisch over het afstemmen van het onderwijs op de voortgang in de ontwikkeling van de leerlingen. Juist dit criterium staat zeer prominent in lid 1 van artikel 8 in de wet op het primair onderwijs.
Daar komt nog eens bij dat de bevinding dat slechts 3 pocent van de scholen onvoldoende scoort op de ‘standaard didactisch’ handelen vooral veroorzaakt wordt omdat de criteria voor afstemming op verschillen niet (altijd) ‘meetellen’ voor het
vooral gebaseerd te zijn op de meer basale didactische vaardigheden zoals een logische leerstofopbouw, gestructureerde opdrachten en heldere uitleg. Het
percentage onvoldoendes op de standaard didactisch handelen zou aanzienlijk hoger zijn, wanneer de criteria over afstemming van het onderwijs volwaardig zouden meetellen voor het oordeel op de standaard.
Tabel 4.2b: Didactisch handelen: Aantal wettelijke criteria onvoldoende Aantal wettelijke
criteria onvoldoende Oordeel op de standaard Onvoldoende Voldoende Goed
0 1 26 9
1 0 7 0
2 0 4 0
3 0 5 0
4 0 5 0
5 1 2 0
6-9 0 0 0
10 1 0 0
Totaal 3 49 9
Criteria die niet aan de wet ontleend zijn
Tabel 4.2a en 4.2c laten zien dat scholen die onvoldoende scoren op de standaard, op nagenoeg alle criteria die niet aan de wet ontleend zijn ook een onvoldoende scoren. Verder wordt duidelijk dat scholen die het oordeel ‘goed’ krijgen op
didactisch handelen op 7 van de 9 criteria minstens voldoende scoren. Er zijn twee criteria waarop scholen die het oordeel ‘goed’ krijgen op didactisch handelen incidenteel onvoldoende scoren.
Het valt verder op dat een aanzienlijk deel van de voldoende scholen onvoldoende scoort op de twee criteria die feedback betreffen. Deze beide criteria die het geven van feedback betreffen, zijn elementen van het didactisch handelen, die in reviews van gerenommeerde wetenschappers zoals Hattie een belangrijke plaats innemen als het gaat om het beïnvloeden van de prestaties van de leerlingen. Deze
informatie gaat in het oordeel op de standaard verloren. Vanuit het oogpunt van validiteit is dit wel iets om ons zorgen over te maken.
Tabel 4.2c: Didactisch handelen: Onvoldoendes bij niet aan de wet ontleende criteria Aantal niet wettelijke
criteria onvoldoende
Oordeel op de standaard Onvoldoende Voldoende Goed
0 1 20 8
1 0 5 0
2 0 9 1
3 0 6 0
4 0 4 0
5 1 2 0
6 0 3 0
7 0 0 0
8 1 0 0
Totaal 3 49 9
Conclusies over didactisch handelen
1. Uit het voorafgaande kunnen we afleiden dat bij de meer basale didactische vaardigheden die in de wet genoemd worden, zich geen fairness probleem voordoet. Scholen die op de standaard ‘didactisch handelen’ voldoende of goed scoren, scoren op de meer basale criteria voor het didactisch handelen, enkele incidenten daargelaten, ook minstens een voldoende. Een oorzaak is hier ook dat inspecteurs nog scoren met het beeld van het oude kader, waarin de basale
elementen van didactiek normindicatoren waren en waar de afstemming geen normindicator was.
2. Anders ligt dit bij alle in de wet genoemde criteria die het inspelen op verschillen tussen leerlingen betreffen. Hier krijgt meer dan een kwart van de scholen die voldoende scoren op de standaard een onvoldoende op de in de wet genoemde criteria voor het inspelen op verschillen. Hier ligt een fairness probleem, omdat de standaard op dit onderdeel niet discrimineert.
Aanbevelingen bij didactisch handelen
Op basis van deze bevindingen bevelen we aan om de standaard ‘didactisch handelen’ bij een volgende herziening te splitsen of anderszins te voorzien in meer precisie. Wij denken dat zowel de scholen als de inspectie er baat bij heeft als we eenduidig kunnen aangeven wat we vinden van:
• ‘Basale vaardigheden in het didactisch handelen’, gebaseerd op criteria uit de wet;
• ‘Differentiatie vaardigheden’, gebaseerd op criteria uit de wet’;
• ‘Didactische vaardigheden’ , gebaseerd op wetenschappelijk onderzoek over ‘wat
‘werkt’ in het onderwijs.
4.3 Zicht op ontwikkeling
Bij de standaard ‘Zicht op ontwikkeling’ scoort 16 procent van de scholen een onvoldoende, 61 procent voldoende en 23 procent goed bij 62 beoordelingen. De inspecteurs maken met de standaard dus een goed onderscheid tussen
onvoldoende, voldoende en goed. De inhoudelijke uitwerking van de standaard verschilt sterk tussen de sectoren PO, VO en SO. In de bijlage kan men alle criteria zien waaruit de standaard is opgebouwd. Dan ziet men ook dat elke sector eigen aanvullende criteria heeft.
In de grafiek ziet men de criteria die door minstens 40 inspecteurs zijn ingevuld.
Hierin ziet men het percentages onvoldoendes op een criterium van de scholen die een onvoldoende, een voldoende of het oordeel goed op de standaard hebben. In de bijlage staat een volledige tabel.
Als 50 procent van de wettelijke criteria onvoldoende is (3 criteria bij de sectoren VO en PO), dan volgt het oordeel onvoldoende. Bij twee wettelijke criteria onvoldoende komen zowel onvoldoendes voor als voldoendes en in één geval zelfs het oordeel goed. Zie hiervoor tabel 4.3 en grafiek 4.3. Bij de sector SO valt op dat er geen onvoldoendes zijn op de standaard terwijl er 4 scholen zijn die 1, 2 of 3 maal op een aan de wet ontleend criterium onvoldoende scoren.
Tabel 4.3: Zicht op ontwikkeling: Aantal wettelijke criteria onvoldoende Aantal wettelijke
criteria onvoldoende
Oordeel op de standaard Onvoldoende Voldoende Goed
0 0 21 13
1 0 13 0
2 3 3 1
3 3 1 0
4 4 0 0
5 of meer 0 0 0
Totaal 10 38 14
Het valt bij de standaard zicht op ontwikkeling op dat er net als bij didactisch handelen een hiërarchie is in de wettelijke criteria. Wanneer de aanwezigheid van
steeds onvoldoende. Maar bij de criteria die analyse, afstemming en het wegwerken van achterstanden betreffen, ligt het anders.
Het speciaal onderwijs kent veel meer elementen binnen de beschrijving van de standaard, die aan de wet ontleend zijn. Er zijn maar 7 scholen voor SO met deze criteria onderzocht. Dat is te weinig voor een valide conclusie, maar de vraag is wel of een standaard met deze complexiteit hier een goed onderscheid kan maken. Bij VO en PO is de standaard eenvoudiger.
Net als bij didactisch handelen is hier de conclusie dat als de basale elementen zoals de systematische verzameling van informatie niet aanwezig zijn, de standaard onvoldoende scoort. Maar het wordt onduidelijker als het gaat om de analyse van stagnatie en het verhelpen van achterstanden. Als dat ontbreekt leidt dat niet altijd tot een onvoldoende voor de standaard.
Grafiek 4.3: Zicht op ontwikkeling
4.4 Veiligheid
Grafiek 4.4: Veiligheid
Van 55 scholen is informatie voor de standaard veiligheid. In 2 gevallen (4 procent) is er sprake van een onvoldoende. 38 procent van de scholen scoort goed en 58 procent scoort voldoende.
We zien dat de standaard onderscheid weet te maken tussen voldoende
en goed (zie grafiek 4.4). Dat is wel opmerkelijk, want de standaard kent alleen criteria die aan de wet zijn ontleend.
Een aantal criteria is op alle scholen voldoende (basiswaarden, het voorkomen van pesten en de respectvolle omgang). Vooral bij criteria die gaan over het
veiligheidsbeleid, de regelmatige meting van de beleving of een aanspreekpunt voor veiligheid zien we meer onvoldoendes. Deze criteria leiden meestal niet tot een negatief oordeel op de standaard. Dit scorepatroon op de criteria is niet verrassend.
Het is bekend uit eerder onderzoek (zie bijv. Onderwijsverslag 2014/2015: 84).
Tabel 4.4: Veiligheid: Aantal wettelijke criteria onvoldoende Aantal wettelijke
criteria onvoldoende Oordeel op de standaard Onvoldoende Voldoende Goed
0 0 17 20
1 0 9 1
2 1 4 0
3 0 1 0
4 0 1 0
5 1 0 0
Totaal 2 32 21
Bij een nadere analyse (zie tabel 4.4) blijkt dat één van de scholen met een
onvoldoende voor de standaard op de helft van de criteria onvoldoende scoorde, de andere school scoorde onvoldoende op twee criteria. Daarnaast zijn er 6 scholen die op 2, 3 of 4 aan de wet ontleende criteria een onvoldoende scoren en wel een voldoende krijgen.
Als we inhoudelijk naar de standaard en de onderliggende criteria kijken, dan zien we dat minder concrete criteria (het voorkomen van pesten, respectvolle omgang) altijd voldoende scoren. Dat is niet zo vreemd omdat men hier alleen een
onvoldoende kan geven als er een contra-indicatie is. Bij de concretere criteria zijn er al snel meer onvoldoendes. Deze criteria leiden niet tot een onvoldoende voor de standaard. We zien dus ook hier fairness vragen.
4.5 Doelen, evaluatie en verbetering
Als we naar de grafiek 4.5 kijken is er sprake van een goed discriminerende standaard . Er vallen veel onvoldoendes (15 procent) maar ook vaak het oordeel goed (21 procent). 64 procent scoort voldoende op de standaard. Het algemene patroon bij de scores indiceert ook dat de onvoldoende scholen op meer criteria onvoldoende scoren. Verder zien we zeer weinig onvoldoende criteria bij de goede scholen. De eerste indicatie voor de fairness van de standaard is dus goed.
Tabel 4.5: Doelen, evaluatie en verbetering: Aantal wettelijke criteria onvoldoende Aantal wettelijke
criteria onvoldoende
Oordeel op de standaard Onvoldoende Voldoende Goed
0 0 34 15
1 2 7 1
2 0 3 0
3 7 5 0
4 2 0 0
5 of meer 0 0 0
Totaal 11 49 16
Grafiek 4.5: Doelen, evaluatie en verbetering
Toch valt bij nadere analyse het volgende op. Er zijn 14 scholen die onvoldoende scoren op de helft of meer van de criteria die aan de wet ontleend zijn: 9 hiervan krijgen een onvoldoende en 5 een voldoende. Zie hiervoor tabel 4.5. Zo wordt op 8 voldoende scholen de voortgang van de resultaten niet geëvalueerd en op 13 voldoende scholen schort het aan de evaluatie van de kwaliteit van de leraren. Bij deze criteria zien we wel degelijk een fairnessprobleem omdat het om vereiste en zeer vitale elementen van de kwaliteitszorg gaan.
4.6 Structuur en cultuur
Bij 69 scholen is deze standaard beoordeeld. Eén school (1 procent) heeft een onvoldoende, 64 procent voldoende en 35 procent goed.
Deze standaard kent voor elke sector maar twee wettelijke criteria. De overige onderdelen uit de uitwerking van de standaard zijn niet aan de wet ontleend. Hier viel bij de nadere analyse het volgende op.
Scholen hebben nooit meer dan één van de twee wettelijke criteria onvoldoende (zie tabel 4.6). Slechts in één geval in combinatie met onvoldoendes bij andere criteria leidt dit tot een onvoldoende. Er zijn ook twee scholen met het oordeel goed die op een wettelijk criterium onvoldoende scoren.
Grafiek 4.6: Structuur en cultuur
Tabel 4.6: Structuur en cultuur, Aantal wettelijke criteria onvoldoende Aantal wettelijke
criteria onvoldoende Oordeel op de standaard Onvoldoende Voldoende Goed
0 0 40 22
1 1 4 2
2 0 0 0
3 0 0 0
Totaal 1 44 24
4.7 Verantwoording en dialoog
Bij de standaard verantwoording en dialoog scoort 18 procent onvoldoende (10 scholen), 54 procent scoort voldoende en 28 procent scoort goed (n=57). Zeven scholen hebben de helft of meer dan de helft van de wettelijke elementen
onvoldoende. Hiervan krijgen 5 scholen een onvoldoende en 2 een voldoende. We zien hier heel mooi dat bij de 16 goede scholen geen enkele element onvoldoende is. Er zijn 12 scholen bij wie dat ook zo is maar die niet het oordeel goed krijgen.
De cesuur tussen onvoldoende en voldoende niet zo eenvoudig te maken. Zo zijn er twee scholen die op geen enkel wettelijk criterium onvoldoende scoren, maar toch een onvoldoende krijgen. Kennelijk spelen de bovenwettelijke criteria hier toch een rol voor het oordeel onvoldoende. Verder is hier ook een gebied bij de wettelijke criteria waar het oordeel naar voldoende of onvoldoende kan gaan (zie tabel 4.7 en grafiek 4.7).
Tabel 4.7: Verantwoording en dialoog: Aantal wettelijke criteria onvoldoende
Aantal onvoldoendes Oordeel op de standaard Onvoldoende Voldoende Goed
Wettelijk 0 2 23 16
1 - 2 3 6 0
3 - 4 5 2 0
Bovenwettelijk
0 5 16 16
1 - 2 4 11 0
3 - 4 0 4 0
5 - 6 1 0 0
Totaal 10 31 16
Grafiek 4.7: Verantwoording en dialoog
4.8 Onderzoek van scorepatronen
Omdat veel inspecteurs de onderliggende criteria hebben ingevuld is het mogelijk om in detail naar het onderliggende scorepatroon bij een standaard te kijken.
We onderscheiden de volgende mogelijkheden.
• De criteria laten een eenduidig onvoldoende patroon zien. De inspecteur vindt zoveel elementen van onvoldoende kwaliteit dat het onmogelijk is om de standaard positief te beoordelen.
• Er zijn meerdere wettelijke criteria onvoldoende, maar uit de gegevens valt niet eenduidig af te leiden welke kanten de beslissing voor de standaard opgaat: soms onvoldoende en soms voldoende.
• Er zijn identieke scoreparen met minstens twee onvoldoendes die wisselend onvoldoende of voldoende krijgen. In dit geval scoren scholen volledig identiek met ieder dezelfde voldoendes en onvoldoendes op de criteria, maar de ene school krijgt een voldoende en de ander een onvoldoende voor de standaard.
• Er zijn situaties waarin maar één criterium onvoldoende is. Dit leidt slechts in een beperkt aantal gevallen tot een onvoldoende.
• Tot slot is er de situatie waarin alle criteria voldoende zijn.
Tabel 4.8: Overzicht van de scorepatronen bij de standaarden Naam van de
Standaard
Beoor- deling stan- daard
Scorepatroon van de criteria Eenduidig
patroon onvol- doende
Meer criteria onvol- doende
Identiek score- paar
Eén criterium onvol- doende
Alle cri- teria vol- doende
Totaal
Zicht op ontwikkeling
Onv 4 5 1 - - 10
Vold - 4 1 13 34 52
Didactisch Handelen
Onv 2 - - - - 3
Vold - 16 - 7 35 58
Veiligheid Onv 1 1 - - - 2
Vold - 6 - 10 37 53
Doelen evaluatie verbetering
Onv 2 - 7 2 - 11
Vold - 4 4 8 49 65
Verantwoording en dialoog
Onv 4 2 1 1 2 10
Vold - 3 2 3 39 47
Structuur en cultuur
Onv - - - 1 - 1
Vold - - - 6 62 68
Totaal Onv 13 8 9 4 2 37
Vold - 33 7 47 256 373
In tabel 4.8 staat het overzicht van deze scorepatronen. Curieus is de situatie van de identieke scoreparen die de grootste contra-indicatie geven voor de fairness. Dit komt gelukkig maar beperkt voor, namelijk in 4 procent van de gevallen en dan het meest bij de standaard ‘Doelen, evaluatie en verbetering’. Verder is het twee keer bij een standaard ‘Verantwoording en dialoog’ voorgekomen dat er geen wettelijke criteria onvoldoende waren, maar dat de inspecteur desondanks een onvoldoende scoorde. Wanneer we de gevallen met één onvoldoende niet meenemen, dan lijkt het erop dat in minstens 10 procent van de gevallen er serieus noodzaak is voor nader overleg over de interbeoordelaarsbetrouwbaarheid. Dit percentage ligt zeker hoger, want ook in het geval van één criterium onvoldoende zijn er verschillende
afwegingen bij de aftestgrens en ook hier zijn identieke scorepatronen aangetroffen die tot een verschillende conclusie leiden.
In de volgende grafiek 4.8 laten we een specifiek scorepatroon zien. Het gaat om de scorepatronen van de standaard ‘Doelen, evaluatie verbetering’ . We presenteren hier alleen alle beoordelingen van scholen waar minstens één wettelijk element onvoldoende scoorde.
Grafiek 4.8: Scorepatroon bij doelen, evaluatie en verbetering
School Sector Score op de standaard
Aantal wettelijke onvoldoendes
Aan de wet ontleende criteria K1 K2 K3 K4 K5
1 PO O 4 O O V O O
2 EC O 4 V O O O O
3 PO O 3 V O O O
4 PO O 3 V V O O O
5 PO O 3 V V O O O
6 EC O 3 V V O O O
7 PO O 3 V V O O O
8 PO O 3 V O O O V
9 PO O 3 V O V O O
10 PO V 3 V O O O
11 EC V 3 V V O O O
12 EC V 3 V O O O V
13 EC V 3 V O O O V
14 PO V 3 V O V O O
15 PO V 2 V V V O O
16 EC V 2 V O O V V
17 EC V 2 V V O O V
18 PO O 1 O V V V V
19 PO O 1 V V V V O
20 PO V 1 V V V O V
21 PO V 1 V V V O V
22 PO V 1 V V V O V
23 PO V 1 G G V O V
24 VO V 1 V V O V V
25 EC V 1 V O V V G
26 PO V 1 V O V V V
27 EC G 1 V O V V G
Toelichting: Omschrijving van de aan de wet ontleende criteria:
K1 De school heeft in haar schoolplan de eigen opdrachten voor het onderwijs omschreven K2 Het schoolplan omvat de voortgang van de ontwikkeling van leerlingen en de
afstemming van het onderwijs op de ontwikkeling van leerlingen
K3 De school evalueert regelmatig de resultaten van haar leerlingen zoals de school dat heeft omschreven in het schoolplan
K4 De school evalueert regelmatig de kwaliteit van het pedagogisch-didactisch handelen van de leraren zoals de school dat heeft omschreven in het schoolplan
K5 Op basis van de evaluaties neemt de school maatregelen ter verbetering van de kwaliteit
Toelichting: Score op de standaard:
Onvoldoende Voldoende Goed
Toelichting: Score op de aan de wet ontleende criteria:
Onvoldoende
Er zijn nog 49 scholen waar alle criteria voldoende scoorden. Deze scholen zijn niet in het overzicht weergegeven
De standaard ‘Doelen, evaluatie en verbetering is wat betreft IBB de meest lastige standaard. In de figuur kan men goed de situaties zien waarin het IBB-overleg het meest gewenst is.
4.9 De oordelen in het mbo
In het mbo zijn bij 2 instellingen pilots uitgevoerd. In totaal zijn op 14 opleidingen één of meer standaarden en de onderliggende fairnessindicatoren beoordeeld. Deze aantallen zijn te klein om conclusies over te trekken. In tabel 4.9 en grafiek 4.9 ziet men de oordelen voor de standaarden. Alleen de standaarden voor kwaliteitszorg, zoals 5.1 doelen, evaluatie en verbetering en 5.2 structuur en cultuur worden regelmatig als onvoldoende beoordeeld. Daarnaast is de kwaliteitsborging voor het examen is meestal onvoldoende. Verder vallen er vrijwel geen onvoldoendes net zo min als het oordeel goed.
Tabel 4.9: Percentage oordelen voor de standaarden bij de pilots in het mbo
Standaarden Onvoldoende Voldoende Goed
Aantal
2.1 onderwijsprogramma 11 89 0 9
2.2 ontwikkeling en begeleiding 0 100 0 9
2.3 didactisch handelen 0 100 0 8
2.4 beroepspraktijkvorming 0 100 0 5
2.5 samenwerking 0 100 0 2
3.1 kwaliteitsborging examinering en diplomering 89 11 0 9
3.2 examen instrumentarium 0 100 0 6
3.3 afname en beoordeling 0 100 0 9
4.1 Veiligheid 0 100 0 2
4.2 Leerklimaat 0 100 0 2
5.1 doelen, evaluatie en verbetering 50 50 0 6
5.2 structuur en cultuur 40 60 0 5
5.3 verantwoording en dialoog 20 80 0 5
Bij de standaard onderwijsprogramma is één onvoldoende gevallen. Daarnaast zien we bij de onderliggende items, dat de mogelijkheden voor maatwerk vaak ontbreken en dus onvoldoende worden gescoord. Dat is dus informatie die je bij het
uiteindelijke oordeel op de standaard niet meer kunt achterhalen. Hier zijn geen verontrustende scorepatronen.
Vergelijkbaar ligt het bij de standaard Ontwikkeling en begeleiding. Incidenteel nemen inspecteurs waar dat docenten onvoldoende de oorzaken bij afwijkende prestaties proberen te achterhalen, maar verder wordt alles overwegend voldoende beoordeeld.
Bij de standaarden voor kwaliteitszorg wordt de onderliggende criteria zeer
gevarieerd beoordeeld. De aantal zijn vooralsnog veel te klein om er conclusies aan te verbinden.
Grafiek 4.9: Oordelen op standaarden in het mbo
4.10 Conclusie en discussie
Het eerste overallbeeld bij de standaarden is gunstig. De afzonderlijke items of criteria blijken een goede voorspellende waarde te hebben voor het eindoordeel op de standaard. Een aantal standaarden heeft een goed onderscheidend vermogen.
Wanneer we echter nauwkeuriger kijken dan zien we bij veel standaarden toch scores die vragen oproepen over de fairness. Men hecht een verschillend belang aan de onderscheiden criteria die in de tekst over de standaard worden genoemd en die men baseert op de wettelijke eisen. Dat kan een bron zijn voor verschillen in interpretatie en verschillen in de strengheid waarmee men oordeelt. Hierbij is het van belang dat in het professionele gesprek deze interpretatieverschillen aan bod komen.
Daarnaast zien we in de oordelen op de standaarden een zeker verlies aan informatie optreden. Dit valt het sterkst op bij de standaard voor didactisch
handelen. De oordelen over de basale kenmerken van didactisch handelen drukken de andere oordelen over het element maatwerk weg. We zien iets dergelijks ook optreden bij zicht op ontwikkeling (de aanwezigheid van toetsen en informatie over de ontwikkeling van leerlingen geeft de doorslag; afstemming is minder van belang) en veiligheid (regelmatige meting is minder van belang). Dit is niet geheel te vermijden, maar bij didactisch handelen achten wij het knelpunt dermate belangrijk dat we hier pleiten om de standaard te zijner tijd op te splitsen.
In par. 4.8 onderzochten we de scorepatronen op de criteria en de standaard. In een beperkt aantal gevallen (4 procent) zien we identieke scorepatronen die wisselend tot een onvoldoende of een voldoende leiden. De analyse laat ook zien dat bij een aanzienlijk aantal cases er serieus noodzaak is voor maatregelen voor de
interbeoordelaarsbetrouwbaarheid omdat het oordeel gezien de scores op de criteria verschillende kanten op kan gaan. Hier zijn meerdere onvoldoendes op de criteria en in sommige gevallen is het oordeel voldoende in andere gevallen onvoldoende.
Daarnaast geeft het hybride karakter van de beoordelingstaak doordat
standaarden zijn opgebouwd uit wettelijke en niet wettelijke criteria een complicatie bij het nastreven van fairness en onderscheidend vermogen. Dit is op te lossen door bij zo veel mogelijk standaarden hier meer onderscheid te maken.
Als we hier niet voor kiezen moeten we op andere wijze de kwaliteit van ons werk waarborgen.
5 Het oordeel op bestuursniveau
5.1 De standaard ‘Doelen, evaluatie en verbetering’ op bestuursniveau
We bespreken eerst de bestuursoordelen in po, vo en so. Mbo volgt in paragraaf 5.4.
Er zijn 6 onvoldoendes bij de standaard ‘Doelen evaluatie en verbetering’, 3
besturen scoren goed en 14 besturen hebben een voldoende. Opmerkelijk is dat met deze standaard een goed onderscheid tussen besturen valt te maken. De besturen die hier onvoldoende scoren hebben tenminste twee wettelijke criteria onvoldoende.
Dit is bij vijf instellingen het geval. Als scholen slechts één wettelijk criterium onvoldoende hebben (dit komt 4 keer voor), dan krijgen ze het oordeel voldoende.
In de grafiek 5.1 ziet men de scores op de verschillende criteria. Besturen die goed scoren, scoren op geen enkel criterium onvoldoende.
Grafiek 5.1: Doelen, evaluatie en verbetering op bestuursniveau
5.2 De standaard ‘Structuur en cultuur’ op bestuursniveau
Hier scoren 2 besturen een onvoldoende, 12 voldoende en 7 goed. Er zijn twee aan de wet ontleende criteria. De twee besturen die een onvoldoende hebben hebben ze allebei onvoldoende. De overige besturen hebben geen aan de wet ontleende criteria onvoldoende. Hier constateren we weinig problemen met fairness.
Grafiek 5.2: Structuur en cultuur op bestuursniveau
10%
10%
10%
19%
26%
57%
45%
60%
57%
68%
38%
45%
53%
62%
37%
33%
45%
30%
38%
26%
43%
50%
47%
33%
37%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Structuur en cultuur Het bestuur en zijn scholen/opleidingen handelen vanuit een duidelijke verantwoordelijkheidsverdeling tussen het
intern toezicht, bestuur, management en personeel van…
Het bestuur werkt volgens een code Goed Bestuur
Kb - Men werkt resultaatgericht en stimuleert eenzelfde houding bij anderen
Kb - Men is aanspreekbaar op gemaakte afspraken en stimuleert eenzelfde houding bij anderen Kb - De visie en de ambities worden op alle niveaus in de
organisatie breed gedragen en er wordt naar gehandeld Kb - Het bestuur functioneert vanuit een transparante en integere cultuur waarin sprake is van zorgvuldig handelen Kb - Men werkt gezamenlijk aan een voortdurende
verbetering van de professionaliteit Kb - Bij het werken aan de verbetering van de professionaliteit houdt men rekening met de gestelde
bekwaamheidseisen en beroepsprofielen Kb - Bij het werken aan de verbetering van de professionaliteit houdt men rekening met de behaalde
resultaten bij de leerlingen
Onvoldoende Voldoende Goed
5.3 De standaard ’Verantwoording en dialoog’ op bestuursniveau
Hier zijn 2 besturen onvoldoende, 11 voldoende en 7 als goed beoordeeld. De twee besturen die onvoldoende zijn beoordeeld hebben 2 of 3 aan de wet ontleende criteria onvoldoende. Vier voldoende besturen hebben 1 of 2 aan de wet ontleende criteria onvoldoende.
Grafiek 5.3: Verantwoording en dialoog op bestuursniveau
5.4 Het oordeel op bestuursniveau in het MBO
In het MBO zijn bij twee besturen zijn de bestuursindicatoren beoordeeld. Bij één bestuur waren de eerste twee kwaliteitsstandaarden onvoldoende (5.1. Doelen evaluatie en verbetering, en 5.2. structuur en cultuur). Bij het andere bestuur was alles voldoende.
5.5 Conclusies
Opmerkelijk is wel dat er sprake is van een behoorlijk gedifferentieerd oordeel op het niveau van het bestuur. Vooralsnog zien we weinig fairnessproblemen. Eventuele afwijkingen zijn beperkt en kunnen we rekenen bij een redelijke marge die tot de discretie van de inspecteur hoort.
Het aantal metingen is zeer beperkt (20 tot 23 besturen). De conclusies kunnen veranderen wanneer we meer metingen zouden doen.
6 De eindoordelen
Er zijn regels afgesproken voor een enkelvoudig eindoordeel. Om dat eindoordeel te bepalen kunnen we de standaarden onderverdelen in een aantal groepen.
Groep 1.
1.1 De resultaten
Groep 2. De zwaarwegende standaarden 2.1 Zicht op ontwikkeling
2.2 Didactisch handelen 3.1 Veiligheid
Groep 3. De overige op de wet gebaseerde standaarden over het onderwijsproces die bij het oordeel worden betrokken.
2.1 Aanbod
2.4 Extra ondersteuning (PO en VO) 2.4 Onderwijstijd (SO)
2.5 Onderwijstijd (VO) 2.5 Samenwerking (PO,SO) 2.6 Toetsing en afsluiting (PO) 2.6 Samenwerking (VO) 2.6 Praktijkvorming (SO) 2.7 Toetsing en afsluiting (SO) 2.8 Toetsing en afsluiting (VO)
Groep 4: Daarnaast kan standaard 4.1 Doelen, evaluatie en verbetering een rol spelen bij de beoordeling.
De beslisregels op schoolniveau zijn.
• Zeer zwak: Groep 1 onvoldoende en één standaard uit groep 2 onvoldoende.
• Zwak: Of groep 1 onvoldoende of één standaard uit groep 2 onvoldoende of twee standaarden uit groep 3 onvoldoende.
• Voldoende: Als groep 1 voldoende is én groep 2 voldoende is en in groep 3 ten hoogste één onvoldoende is.
• Goed: Als alle standaarden minimaal voldoende zijn en groep 4 goed is en twee standaarden uit groep 2 en 3 goed zijn.
Er zijn speciale regels wanneer de resultaten (groep 1) ontbreken. Men wordt dan zeer zwak als twee standaarden uit groep 2 en 4 samen onvoldoende zijn.
Men wordt zwak als één standaard uit groep 2 en 4 samen onvoldoende is.
Er zijn geen regels bepaald voor het aantal standaarden dat minimaal nodig is voor een oordeel.
Doorrekening op de gegevens uit de pilots voor zover ze zijn ingevoerd, leidt tot het volgende resultaat in tabel 6.1.
Tabel 6.1: Berekend en gegeven oordeel bij de scholen voor PO, VO en SO tijdens de pilots Gegeven
eindoordeel
Berekend eindoordeel
Zeer zwak Zwak Voldoende Goed Totaal
Zeer zwak 1 0 0 0 1
Zwak 0 3 3 0 6
Voldoende 0 4 29 5 38
Goed 0 0 1 5 6
Totaal 1 7 33 10 51
De oordelen zoals wij die nu in het geautomatiseerde systeem aantreffen, blijken niet helemaal te matchen met de regels. Het is mogelijk dat een aantal oordelen niet correct is ingevoerd. We trekken vooralsnog geen conclusies over de
oordeelsvorming op het niveau van de school.
Er is een hiërarchie in de standaarden aangelegd. Sommige standaarden zijn belangrijker en wegen zwaarder mee voor het arrangement dan andere. Daar zit een risico in, dat in het verleden bij het toezicht is aangetoond. Bij de
doorslaggevende standaarden zal men nog terughoudender worden bij het verlenen van onvoldoendes. Dit kan een rol spelen bij de standaarden didactisch handelen, zicht op ontwikkeling en veiligheid.