• No results found

KAN HET NIEUWE WAARDINGSKADER DE SCHOLEN EN BESTUREN GOED ONDERSCHEIDEN EN IS DE UITVOERING HIERVAN VOLDOENDE FAIR?

N/A
N/A
Protected

Academic year: 2022

Share "KAN HET NIEUWE WAARDINGSKADER DE SCHOLEN EN BESTUREN GOED ONDERSCHEIDEN EN IS DE UITVOERING HIERVAN VOLDOENDE FAIR?"

Copied!
47
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

KAN HET NIEUWE WAARDINGSKADER DE SCHOLEN EN BESTUREN GOED ONDERSCHEIDEN EN IS DE

UITVOERING HIERVAN VOLDOENDE FAIR?

RAPPORTAGE FAIRNESS-ONDERZOEK

oktober 2016

(2)
(3)

INHOUD

Samenvatting 5

1 Onderzoeksvragen en aanpak 9 1.1 Inleiding 9

1.2 Onderzoeksvragen 9

1.3 Aanpak van het onderzoek 9 2 Respons en non-respons 11 3 Het onderscheidend vermogen 13 3.1 Scores op de standaarden 13

3.2 Vergelijking van de oordelen van deze tweede pilot met de eerste pilot 14 3.3 Oordelen op bestuursniveau 15

3.4 Eerste conclusie over discriminerend vermogen en de vergelijking met vorig jaar 15 4 Onderzoek van de afzonderlijke standaarden op school- en

opleidingsniveau 17

4.1 Inleiding: De rechtvaardigheid of fairness van het waarderingskader 17 4.2 Didactisch handelen 17

4.3 Zicht op ontwikkeling 22 4.4 Veiligheid 24

4.5 Doelen, evaluatie en verbetering 25 4.6 Structuur en cultuur 26

4.7 Verantwoording en dialoog 28 4.8 Onderzoek van scorepatronen 30 4.9 De oordelen in het mbo 32 4.10 Conclusie en discussie 33

5 Het oordeel op bestuursniveau 35

5.1 De standaard ‘Doelen, evaluatie en verbetering’ op bestuursniveau 35 5.2 De standaard ‘Structuur en cultuur’ op bestuursniveau 36

5.3 De standaard ’Verantwoording en dialoog’ op bestuursniveau 37 5.4 Het oordeel op bestuursniveau in het MBO 37

5.5 Conclusies 38

6 De eindoordelen 39

7 Discussie en conclusies 41

Bijlage 1: De omzetting van een standaard in een criterialijst 45 Colofon 47

(4)
(5)

Samenvatting

Het ‘Waarderingskader 2017 van de Inspectie van het Onderwijs’ moet niet alleen voldoen aan wetenschappelijke criteria zoals betrouwbaarheid en validiteit. Het moet ook doelmatig en rechtvaardig (fair) zijn. Deze laatst genoemde aspecten staan centraal in dit rapport.

Het waarderingskader van de inspectie is doelmatig als het geschikt is om onderscheid te maken tussen zwakke en goede scholen en het is rechtvaardig als bij standaarden de oordelen ‘voldoende’, ‘onvoldoende’ en ‘goed’ op dezelfde criteria gebaseerd zijn (‘niet met twee maten meten’).

Steekproef

De pilotonderzoeken van de inspectie waarop dit onderzoek gebaseerd is, stonden onder andere in het teken van het uitproberen van het nieuwe waarderingskader van de inspectie. Voor dit onderzoek gaan we uit van de versie van januari 2016 die gebruikt is bij de pilots. Scholen waarvan tevoren bekend was dat hier zorgen waren over de kwaliteit van het onderwijs, zijn niet onderzocht met het conceptkader.

Bovendien hebben besturen vrijwillig kunnen deelnemen aan het onderzoek. De bezochte scholen en opleidingen zijn dan ook niet representatief voor de populatie.

Dit onderzoek naar doelmatigheid en rechtvaardigheid is uitgevoerd bij 59 scholen voor het primair onderwijs, 6 scholen voor voortgezet onderwijs en 14 scholen voor speciaal onderwijs. Daarnaast zijn 9 opleidingen voor middelbaar beroepsonderwijs onderzocht. Bij zes standaarden: ‘zicht op ontwikkeling’, ‘didactisch handelen’,

‘veiligheid’, ‘doelen, evaluatie en verbetering’, ’structuur en cultuur’, en

‘verantwoording en dialoog’ was de respons voldoende hoog (meer dan 50 scholen) om hierover te kunnen rapporteren.

Aanpak

In het concept ‘Waarderingskader 2017’ van de inspectie wordt de onderbouwing van elke standaard zowel met criteria die aan de wet zijn ontleend als met ‘overige’

criteria uitgewerkt. Bij het concept waarderingskader geldt dat de criteria die aan de wet zijn ontleend, bepalend zijn voor de vraag of een school of opleiding op een bepaalde standaard als voldoende of onvoldoende beoordeeld wordt. Daarom wordt in dit rapport bij de beoordeling van de fairness in eerste instantie alleen gelet op de criteria die aan de wet zijn ontleend. Voor het onderzoek hebben wij alle uitspraken in de tekst van de standaard ondergebracht in een lijst met afzonderlijk te

beoordelen criteria.

Het kan zijn dat een school/opleiding op een standaard een positief beeld laat zien, maar dat aan een bepaald wettelijk element van de standaard niet wordt voldaan.

Als het niet naleven van die deugdelijkheidseis – naar het oordeel van de inspectie - eenvoudig en op korte termijn kan worden hersteld, dan geven we het oordeel voldoende op de standaard.

Hier is sprake van een discretionaire ruimte voor de inspecteur. In dit onderzoek zijn we nagegaan hoe de inspecteur die ruimte gebruikt. Voor dit onderzoek is met een signaleringsgrens van 10 procent bekeken of er meer dan 10 procent afwijkingen zijn. Deze grens is niet bedoeld als norm waar inspecteurs zich aan zouden moeten houden bij. Hij dient slechts om een substantieel gebruik van de beoordelingsruimte op te merken.

Dit sluit meteen aan op de meest recente wijzigingen in het conceptwaarderingskader waar het onderscheid tussen de wettelijke en niet wettelijke elementen zijn aangescherpt en de niet-wettelijke elementen gekoppeld zijn aan de doelen die de school in het schoolplan heeft geschreven.

(6)

De discretionaire ruimte moet niet aan een vast percentage worden opgehangen.

Maar er moet duidelijkheid over zijn hoe men met specifieke deugdelijkheidseisen omgaat en wat men in situaties doet waarbij de beslissing twee kanten op kan gaan.

De vraag is of een dergelijke duidelijkheid er nu wel is en daarom hebben we deze grens gekozen om het gesprek te openen. We kunnen ons goed voorstellen dat in de toekomst afspraken per standaard worden gemaakt over de signalering en ook dat dit niet de vorm van een percentage krijgt.

Heeft het waarderingskader voldoende onderscheidend vermogen?

Aangezien de voor dit onderzoek bezochte scholen niet representatief zijn voor de populatie, is het op dit moment nog niet mogelijk om een definitief antwoord te geven op de vraag of het nieuwe waarderingskader in voldoende mate geschikt is om onderscheid te maken tussen zwakke, voldoende en goede scholen. We kunnen mede door deze niet-representativiteit geen verantwoorde vergelijking treffen tussen de percentages scholen die op grond van dit nieuwe waarderingskader een (on)voldoende kregen en de percentages (on)voldoende waarover in het verleden in het Onderwijsverslag gerapporteerd is. Wel kan gesteld worden dat bij de

standaarden: ‘zicht op ontwikkeling’, ‘doelen, evaluatie en verbetering’ en

‘verantwoording en dialoog’ een substantieel aantal onvoldoendes (14-18procent) is aangetroffen. Bij de standaarden ‘didactisch handelen’, ‘veiligheid’, en ‘structuur en cultuur’ zijn de percentages onvoldoende erg gering (<4 procent).

Over de gehele linie wordt relatief vaak (14-38 procent) het oordeel goed uitgesproken. Als er geen onderscheidend vermogen zou zijn, zouden scholen hetzelfde oordeel krijgen op de standaarden.

De eerste indruk over het onderscheidend vermogen is daarom niet ongunstig. Het onderzoek naar het onderscheidend vermogen zal in de toekomst, wanneer er een grotere en vooral ook representatieve groep scholen met dit waarderingskader bezocht is, verder opgepakt moeten worden.

Zijn de oordelen voldoende rechtvaardig?

De scholen die het oordeel ‘goed’ of ‘voldoende’ krijgen op de standaard ‘zicht op ontwikkeling’, scoren in 35 procent van de gevallen een ‘onvoldoende’ op een of meer op de wet gebaseerde criteria.

Bij didactisch handelen heeft 40 procent van de scholen die een voldoende of goed heeft één of meer tekortkomingen bij de wettelijke criteria.

Bij ‘veiligheid’ heeft 30 procent van de voldoende en goed scorende scholen tekorten op de wettelijke criteria. Bij de standaard ‘doelen, evaluatie en verbetering’ is dat 25 procent, bij ‘structuur en cultuur’ 9 procent, en bij ‘verantwoording en dialoog’ 17 procent.

Deze onvoldoendes op de wettelijke criteria doen zich vooral voor bij het oordeel

‘voldoende’ bij de genoemde standaarden.

Zo zien we bij ‘didactisch handelen’ dat voor het uiteindelijke oordeel niet meetelt wanneer de school niet voldoet aan criteria over afstemming op individuele en groepen leerlingen terwijl die criteria wel aan de wet zijn ontleend.

Vooral bij ‘zicht op ontwikkeling’, ‘didactisch handelen’, ‘veiligheid’, en ‘doelen, evaluatie en verbetering’ overschrijden deze percentages duidelijk de

signaleringsgrens van het gebruik van de discretionaire bevoegdheid van de inspecteur.

Er is bij deze standaarden steeds een groep scholen waar meerdere criteria onvoldoende zijn en waar een deel van de scholen een voldoende krijgt en een ander deel een onvoldoende. Bij sommige standaarden zijn identieke scorepatronen op de criteria gezien, waar de ene school een onvoldoende krijgt en de ander een voldoende. Scholen die een onvoldoende krijgen kunnen er niet op vertrouwen dat er geen scholen zijn die wel een ‘voldoende’ krijgen, terwijl zij evenmin aan deze criteria voldoen. Dit raakt dus de betrouwbaarheid van het oordelen.

(7)

Conclusies

De voor dit onderzoek bezochte scholen zijn niet representatief voor de populatie.

Daarom is het op dit moment nog niet mogelijk om een verantwoorde evaluatie te geven over de vraag of het nieuwe waarderingskader in voldoende mate geschikt is om onderscheid te maken tussen zwakke en goede scholen. Wel kan het signaal afgegeven worden dat relatief vaak het oordeel ‘goed’ wordt uitgesproken.

Bij vijf van de zes onderzochte standaarden (‘zicht op ontwikkeling’, ‘didactisch handelen’, ‘veiligheid’, ‘doelen, evaluatie en verbetering’ en ‘verantwoording en dialoog’) doen zich vragen voor bij de fairness van het oordeel ‘voldoende’ en in een enkel geval ook bij het oordeel ‘goed’. Hier krijgt een deel van de scholen een

‘voldoende’ en soms zelfs ‘goed’ op de standaard terwijl uitdrukkelijk niet voldaan wordt aan in de wet gestelde criteria.

We hebben ervan kennis genomen dat op dit laatste punt al een correctie heeft plaats gevonden. Bij het oordeel goed moeten inmiddels alle wettelijke elementen voldoende zijn.

Wij begrijpen dat in het nieuwe kader de beoordeling van de deugdelijkheid van een standaard centraal staat en dat het ontbreken van bepaalde deugdelijkheidseisen soms maar beperkt van invloed kan zijn op de aangetroffen kwaliteit, bijvoorbeeld als het punt eenvoudig en op korte termijn kan worden hersteld. Het is echter niet altijd duidelijk wanneer dit het geval is en het nog ontbreken van afspraken hierover kan tot fairnessproblemen leiden. Bij een expertoordeel horen ook afspraken over de wijze van omgang met een standaard en procedures voor interbeoordelaarsbetrouw- baarheid.

Aanbevelingen

De keuze om wettelijke en niet-wettelijke eisen gezamenlijk in een standaard te beoordelen leidt tot een hybride beoordelingstaak (voldoet/voldoet niet en het beoordelen van ambities en het overtuigend bereiken daarvan). Voor dit moment constateren we dat het een complicatie geeft voor de fairness van de

beoordelingstaak en voor het onderscheidend vermogen.

We vragen ons af of dit hybride karakter bij alle standaarden op deze manier vol te houden is en we bevelen aan bij volgende fasen van beoordeling en bijstelling van het kader per standaard af te wegen of de beoordelingstaak met voldoende

betrouwbaarheid uit te voeren is. Wij denken dat aanpassingen mogelijk zijn zonder het principe van beoordeling op een relatief hoog abstractieniveau geweld aan te doen. Inmiddels is in het bijgestelde kader al wel een duidelijker onderscheid gemaakt tussen de wettelijke eisen en de niet-wettelijke kwaliteitskenmerken (aangeduid als eigen aspecten van kwaliteit) duidelijker aangegeven. Deze eigen aspecten van kwaliteit kunnen leiden tot het oordeel ‘goed’ als de school hier overtuigend aan voldoet.

We stellen voor de zorg voor de interbeoordelaarsbetrouwbaarheid te intensiveren en dit goed in de sectoren aan te sturen. Voorts bevelen we aan dit

fairnessonderzoek voort ze zetten. Het terugkoppelen van informatie over de oordelen en de beoordelingen van onderliggende criteria bij een oordeel is nodig om het gesprek over de IBB te voeren. In dat gesprek kan ook meer aandacht besteed worden aan de oorzaken voor het gegeven oordeel.

Het nieuwe kader leidt tot andere informatie dan het oude. Soms weten we meer, maar soms minder. In het geval van didactisch handelen bevelen we aan om bij de eerste gelegenheid dat dat kan een splitsing te maken tussen de basale didactische vaardigheden en de afstemming op groepen en individuele leerlingen. We denken dat anders relevante informatie verloren gaat.

(8)
(9)

1 Onderzoeksvragen en aanpak

1.1 Inleiding

Voor de Inspectie van het Onderwijs staat een faire en transparante beoordeling van de schoolkwaliteit centraal. Daarom moet de inspectie voortdurend investeren in een goede interbeoordelaarsbetrouwbaarheid en in onderzoek naar de kwaliteit van het oordeel.

In het fairness onderzoek onderzoeken we of het nieuwe kader leidt tot een werkwijze die voldoende eerlijk is naar de verschillende scholen toe. De inspectie moet zich steeds de vraag stellen of scholen in vergelijkbare omstandigheden ook gelijk worden behandeld. Er mag in de behandeling van scholen geen

rechtsongelijkheid zijn.

Daarnaast willen we weten of de werkwijze aan haar doel beantwoordt, namelijk dat zijn een onderscheid kan maken tussen onvoldoende, voldoende en goede scholen en hun besturen.

1.2 Onderzoeksvragen

De hoofdvragen voor dit onderdeel van het fairness onderzoek zijn:

1. Heeft het waarderingskader voldoende onderscheidend vermogen en worden waar dit nodig is met dit waarderingskader scholen en besturen

gedetecteerd die ‘onvoldoende’ of juist ‘goed’ zijn?

2. Is de gehele werkwijze consistent en navolgbaar zodat de kans op het oordeel ‘onvoldoende’ ‘voldoende’ of ‘goed’ voor iedereen gelijk is?

1.3 Aanpak van het onderzoek

In het nieuwe toezicht zoals dat in de pilots in 2014/2015 en 2015/2016 wordt uitgeprobeerd, werkt de inspectie met een vernieuwd waarderingskader. In dit kader zijn de bekende indicatoren voor de onderwijskwaliteit vervangen door breder geformuleerde standaarden die vaak de informatie van verschillende oude indicatoren samen nemen. Bij de standaarden is een uitwerking (een portret) opgenomen die aangeeft welke elementen van onderwijskwaliteit in de standaard aan bod komen. Een deel van deze elementen is ontleend aan wettelijke vereisten.

Een aantal andere elementen zijn niet aan de wet ontleend maar worden belangrijk geacht voor de onderwijskwaliteit op basis van inbreng van de stakeholders of op basis van wetenschappelijke evidentie.

De inspecteur heeft een grote vrijheid om op basis van zijn of haar kennis van het bestuur en de verantwoording door het bestuur het onderzoek in te richten. De inspecteur kan na overleg het met bestuur bij een verificatieonderzoek, zelf bepalen welke standaarden worden beoordeeld. Het fairnessonderzoek waar het in dit rapport over gaat is uitgevoerd bij de pilots van de tweede ronde. Voor dit onderzoek wordt volledig aangesloten bij de aanpak van de pilots vernieuwd toezicht. Dit betekent dat vanuit het fairness onderzoek geen bijzondere eisen zijn gesteld aan de pilots. De onderzoeksplanning zoals de inspecteur die zelf bepaalde,

Het onderscheid tussen de wettelijke en niet-wettelijke elementen werd door het veld niet duidelijk genoeg

(10)

is volledig gevolgd. We hebben gebruik gemaakt van het waarderingskader zoals dat bij de start van de pilots in januari 2016 bekend was.

Het enige aanvullende onderdeel dat aan de inspecteurs is gevraagd, was het invullen van een onderliggend beoordelingsinstrument.

Dit aanvullende instrument is gebaseerd op het waarderingskader. De verschillende uitspraken in de uitwerking bij de standaarden zijn omgezet in afzonderlijke items of criteria. Wanneer een inspecteur een standaard beoordeelde is aan de inspecteur gevraagd om ook de onderliggende items bij die standaard van een oordeel te voorzien.

Voor het opstellen van de itemlijst is bij elke sector de tekst van de uitwerking van de standaarden gevolgd. De items zijn zoveel mogelijk woordelijk aan de uitwerking van de standaarden ontleend. Omdat in sommige gevallen de inhoud van de

standaard per sector kan verschillen, kunnen ook de items per sector verschillen.

Gelukkig zijn er veel gemeenschappelijke items.

Het scoringsinstrument voor de sectoren PO, VO en SO komt sterk overeen. Voor het MBO is ook een itemlijst gemaakt. Deze wijkt sterk af omdat de uitwerking van de MBO-standaarden verschilt van de andere sectoren en er sprake is van een ander wettelijk regime. Om die reden zullen de oordelen van de pilots MBO apart

geanalyseerd moeten worden.

Het nieuwe waarderingskader heeft tevens aparte onderdelen voor de beoordeling van het bestuur op de gebieden financiën en kwaliteitszorg. Voor de

bestuursstandaarden over kwaliteitszorg is daarom een apart onderzoeksinstrument gemaakt.

Gedurende de pilots die liepen in de periode januari tot april 2016 hebben de inspecteurs de standaarden beoordeeld en het onderliggende instrument ingevuld.

Omdat de inspecteur naar aanleiding van de verantwoording van het bestuur zelf een keuze kan maken voor de te onderzoeken standaarden, verschilt het aantal onderzochte standaarden sterk. Sommige standaarden uit het waarderingskader worden maar weinig gebruikt, andere daarentegen heel vaak. In hoofdstuk 3 (tabel 3.1) staan de percentages vermeld.

(11)

2 Respons en non-respons

Hieronder staat de respons bij het onderzoek.

Tabel 2.1: Aantal onderzoeken bij scholen/opleidingen en besturen.

Sector Uitgevoerde

onderzoeken

Fairnessindicatoren geheel of gedeeltelijk

ingevuld

PO 65 59

VO 17 6

SO 15 14

MBO 14 9 (+5)

Totaal 111 93

Besturen PO, VO en SO 29 23

Besturen MBO 2 2

Opmerkingen bij deze tabel:

• Niet alle geplande scholen zijn bij de pilots onderzocht.

• Daarnaast zijn in een aantal gevallen de fairness-indicatoren niet ingevuld.

• In het mbo zijn twee besturen bezocht en negen opleidingen. Daarnaast zijn de examenstandaarden bij vijf opleidingen onderzocht. Het ging hier om een mbo-instelling en een instelling die mbo en vo combineert. Bij de gecombineeerde mbo-vo-instelling zijn ook een aantal VO-scholen bezocht (waarvan de aantallen bij vo zijn meegenomen).

Bij de analyses in hoofdstuk 3 en 4 is de sector mbo niet betrokken omdat het kader wat betreft de inhoud van de standaarden te sterk afwijkt van de andere sectoren.

De items zijn niet goed met de andere sectoren vergelijkbaar. Aan het eind van hoofdstuk 4 besteden we in een aparte paragraaf aandacht aan het mbo.

(12)
(13)

3 Het onderscheidend vermogen

3.1 Scores op de standaarden

De eerste vraag in het onderzoek is of inspecteur met het kader in staat zijn om een onderscheid te maken tussen goede, voldoende en onvoldoende scholen.

Tabel 3.1 geeft een overzicht van de oordelen op de verschillende standaarden bij de sectoren PO, VO en SO. De veel gebruikte standaarden zijn geel gearceerd.

Tabel 3.1: Scores op de afzonderlijke standaarden

Standaard Onvoldoende Voldoende Goed

Totaal (n =76) Aantal Percentage

Soc. en maatsch. competenties 4 10 1 15 20

Aanbod 0 20 10 30 39

Zicht op ontwikkeling 9 37 13 59 78

Didactisch handelen 2 48 8 58 76

(Extra) ondersteuning 1 7 0 8 11

Onderwijstijd 1 3 0 4 5

Samenwerking 0 13 2 15 20

Praktijkvorming/stage 0 0 2 2 3

Toetsing en afsluiting 1 6 1 8 11

Veiligheid 2 31 20 53 70

Ondersteunend en stimulerend leerklimaat 1 25 13 39 51

Doelen, evaluatie en verbetering 10 47 16 73 96

Structuur en cultuur 1 41 24 66 87

Verantwoording en dialoog 10 30 15 55 72

Grafiek 3.1: Procentuele verdeling van de scores bij de belangrijkste standaarden

(14)

Een eerste blik de tabel 3.1 (laatste kolom) laat zien dat er verschillend gebruik gemaakt wordt van de standaarden. Alleen de standaarden ‘zicht op ontwikkeling’,

‘didactisch handelen’, ‘veiligheid’ en de drie standaarden voor kwaliteitszorg (allen geel gearceerd) zijn in de meeste gevallen beoordeeld.

Verder worden de standaarden ‘aanbod’ en ‘ondersteunend leerklimaat’ nog regelmatig ingevuld. De andere standaarden worden weinig gebruikt. Dit heeft de maken met de keuzes die de inspecteurs bij de pilots gemaakt hebben.

Bij drie standaarden (zicht op ontwikkeling, doelen, evaluatie en verbetering en verantwoording en dialoog) is een substantieel aantal onvoldoendes. Bij de andere drie standaarden is dat gering. Vaak wordt het oordeel goed uitgesproken.

3.2 Vergelijking van de oordelen van deze tweede pilot met de eerste pilot Deze vergelijking is alleen verantwoord te maken voor de sector PO omdat alleen daar een redelijk volume aan beoordelingen van 2016 en 2015 beschikbaar is. Zie de onderstaande tabel 3.2.

Tabel 3.2: Oordelen bij de sector PO in 2015 en 2016 op 6 meest ingevulde standaarden

Standaard Onvoldoende Voldoende Goed

Aantal

Zicht op ontwikkeling 2015 20 59 21 816

2016 22 54 24 46

Didactisch handelen 2015 4 85 11 790

2016 5 80 16 44

Veiligheid 2015 1 41 57 815

2016 5 50 45 42

Doelen, evaluatie en verbetering 2015 11 65 24 816

2016 16 62 22 55

Structuur en cultuur 2015 5 50 46 816

2016 2 61 37 54

Verantwoording en dialoog 2015 4 60 36 816

2016 5 62 33 42

Deze informatie valt verder te vergelijken met de informatie in het Onderwijsverslag 2014/2015. Op respectievelijk p.84-85 (PO), p.113 (VO), p.135-136 (SO) staan de beoordelingen die in de jaren 2012/13 t/m 2014/15 zijn verzameld bij aanzienlijke steekproeven. Hier werd nog gewerkt met de indicatoren van oude

waarderingskaders of met een concept van het nieuwe waarderingskader. We zien in het Onderwijsverslag op sommige onderdelen meer onvoldoendes zoals feedback, afstemming en het analyseren van de ontwikkeling.

Die nuance zie je nu niet meer omdat indicatoren zijn samengevoegd in de nieuwe standaarden. Straks kunnen we die nuance wel zien bij de onderliggende criteria.

Daar staat tegenover dat we in de pilots vaker het oordeel ‘goed’ zien. Hier is wel de vraag wat dit betekent. Ook met het oude kader kon men het oordeel goed geven maar het gebeurde niet. Dat nu meer het oordeel goed’ wordt gegeven, betekent nog niet dat de scholen opeens beter zijn geworden. Het kan een effect zijn van de nieuwe werkwijze.

(15)

3.3 Oordelen op bestuursniveau

Op bestuursniveau zijn bij PO, VO en SO bij 23 besturen beoordelingen beschikbaar.

Hieronder geven we de oordelen op de verschillende standaarden voor

kwaliteitszorg. We zien dat er een onderscheid wordt gemaakt (zie grafiek 3.3).

Grafiek 3.3: Oordeel over indicatoren op bestuursniveau bij PO, SO en VO

3.4 Eerste conclusie over discriminerend vermogen en de vergelijking met vorig jaar

De bevindingen leiden tot de volgende conclusies:

• We zien in ieder geval dat er een discriminerend vermogen is op het niveau van de standaarden tussen onvoldoende en voldoende en voldoende en goed. Vooral dat laatste is zichtbaar. Hoewel het om betrekkelijke kleine aantallen gaat is er wel een patroon te zien.

• Na vergelijking met de informatie in het Onderwijsverslag vermoeden we dat het onderscheidend vermogen om onvoldoendes te zien kleiner is geworden.

Het is niet duidelijk of dit verschil ernstig is en we kunnen nog geen

definitief antwoord op deze vraag geven omdat in deze pilots niet de meest risicovolle scholen aan bod kwamen. Bovendien zijn hiervoor de onderzochte aantallen nog te klein.

• Daarnaast zien we dat voor PO bij de pilots 2016 geen opvallende

verschillen te zien zijn ten opzichte van de pilots 2015. Bij de onderzochte standaarden wordt een vergelijkbaar patroon zichtbaar. Voor VO en SO kunnen we op grond van de pilots hierover geen specifieke conclusies trekken.

Bestuursniveau

• Voor het eerst is ook op bestuursniveau een oordeel gegeven. Op bestuursniveau zien we een gunstig beeld van het onderscheidend vermogen. Inspecteurs kunnen met het kader op bestuursniveau een onderscheid maken tussen voldoende, onvoldoende en goed.

We wijzen er op dat onderscheidend vermogen niet een intrinsieke eigenschap is van het kader. Het is ook afhankelijk van de kwaliteit van de scholen in het veld en de vraag of men het kader kent. Naarmate scholen het kader beter kennen, gaat men er ook beter op inspelen en kan het onderscheidend vermogen lager worden.

Een goed onderscheidend vermogen nu is nog geen garantie voor de toekomst.

(16)
(17)

4 Onderzoek van de afzonderlijke standaarden op school- en opleidingsniveau

4.1 Inleiding: De rechtvaardigheid of fairness van het waarderingskader

Voor dit onderzoek hebben we aan de inspecteurs gevraagd om naast het oordeel op de standaard ook de afzonderlijke items gebaseerd op de uitwerking van de

standaarden van een beoordeling te voorzien. In de analyse die we nu geven, vatten we deze items op als aparte criteria. We maken hierin het volgende onderscheid:

• Aan de wet ontleende criteria;

• Niet aan de wet ontleende criteria. Hier kan men niet het oordeel onvoldoende over geven. Wanneer het criterium niet voldoet, is het oordeel eigenlijk ‘kan beter’.

De analyses in dit hoofdstuk gaan steeds over de vraag of de afzonderlijke criteria onder een standaard een plausibel patroon vertonen in relatie tot de beoordeling van de standaard of dat er onverwachte afwijkingen zijn. Ook gaan we na of er informatie in de afzonderlijke criteria zit die in de beoordeling van de standaard niet meer zichtbaar is.

De kern van fairness is: Mogen scholen die op een standaard het oordeel

‘onvoldoende’ krijgen, omdat zij niet aan bepaalde wettelijke criteria voldoen, erop vertrouwen dat er geen scholen zijn die wel een ‘voldoende’ (of zelfs ‘goed’) krijgen, terwijl zij evenmin aan deze criteria voldoen? Er is hier ruimte voor de ‘persoonlijke discretie’ van een inspecteur vallen, maar de verschillen moeten uitlegbaar zijn.

Het is mogelijk dat in de toekomst specifieke afspraken worden gemaakt per standaard en voor verschillende deugdelijkheidseisen, maar die afspraken zijn er nu nog niet. Daarom is voor dit onderzoek een signaleringsgrens van 10 procent aangehouden. Deze grens is uitdrukkelijk geen voorstel voor een norm, en één norm past ook niet bij de grote verschillen tussen de wettelijke eisen.

In dit hoofdstuk van het fairnessonderzoek staan de volgende vragen centraal:

• Als scholen een standaard onvoldoende hebben op welke criteria scoren zij dan onvoldoende?

• Hoeveel scholen scoren voldoende of goed op een standaard, terwijl de scholen toch op één of meer van de criteria die bij deze standaard horen een

onvoldoende scoren?

Vooraf moet de opmerking geplaatst worden dat op dit moment nog maar over weinig scholen gegevens beschikbaar zijn voor dit onderzoek. Dit geldt vooral voor de sector voortgezet onderwijs. Dat betekent dat de definitieve resultaten kunnen wijzigen wanneer er meer gegevens beschikbaar komen.

We bespreken hier de standaarden waar we beschikken over meer dan 50 scores.

Eerst bespreken we ‘Didactisch handelen’ omdat die standaard gaat over de kern van het onderwijsproces. Vervolgens komen de standaarden zicht op ontwikkeling, veiligheid en de drie standaarden voor kwaliteitszorg aan bod.

4.2 Didactisch handelen

In tabel 4.2a kunnen we op de eerste twee regels aflezen dat 5 procent van de 61 scholen een onvoldoende krijgt op de standaard ‘didactisch handelen’ (3 scholen).

Ongeveer 15 procent van de scholen krijgt het oordeel goed. De overige 80 procent van de scholen scoort op de standaard ‘didactisch handelen’ een voldoende. Alle

(18)

staat hoeveel procent een onvoldoende scoort op een criterium. We maken daarbij een onderscheid tussen de verschillende oordelen op de standaard. Eerst zien we hoeveel procent van de onvoldoende scholen een onvoldoende heeft voor de criteria.

In de volgende kolom staat het percentage onvoldoendes van de scholen die een voldoende voor de standaard hebben en tot slot het percentage onvoldoendes bij de goede scholen.

Tabel 4.2a: Score op de criteria van Didactisch handelen

Onvoldoende Voldoende Goed Aantal Sector

Didactisch handelen Aantal 3 49 9 61

Percentage 5 80 15

Score op criteria die in de wet genoemd worden:

De leraren plannen en structureren hun handelen met behulp van informatie die

zij over leerlingen hebben 50 4 0 55 PVS

De leraren zorgen ervoor dat het niveau van hun lessen past bij het beoogde

eindniveau van leerlingen 100 9 0 54 PVS

De aangeboden leerstof is logisch opgebouwd binnen reeks van lessen alsook

binnen één les 50 0 0 52 PVS

De leerlingen zijn actief en betrokken 50 9 0 54 PVS

Met geschikte opdrachten structureert de leraar het onderwijsaanbod zo dat de

leerling het zich eigen kan maken 50 2 0 55 PVS

Met heldere uitleg structureert de leraar het onderwijsaanbod zo dat de leerling

het zich eigen kan maken 100 2 0 54 PVS

De instructies en spelbegeleiding zijn afgestemd op de behoeften van groepen

en individuele leerlingen 100 40 0 55 PVS

De opdrachten zijn afgestemd op de behoeften van groepen en individuele

leerlingen 100 23 0 54 PVS

De onderwijstijd is afgestemd op de behoefte van groepen en individuele

leerlingen 50 24 0 52 PVS

De afstemming is zowel op ondersteuning als op uitdaging gericht, afhankelijk

van de behoefte van leerlingen 100 29 0 42 P

Score op criteria die niet in de wet genoemd worden:

De leraren hebben hoge verwachtingen van hun leerlingen 100 21 0 53 PVS De leraren concretiseren de hoge verwachtingen door doelen voor hun

leerlingen te stellen 100 31 0 52 PVS

De leraren stimuleren een brede ontwikkeling bij hun leerlingen 50 12 0 52 PVS Bij de instructies en opdrachten gebruiken de leraren passende vakdidactische

principes en werkvormen 100 24 0 41 P

Leraren weten de geplande onderwijstijd effectief te benutten door een

efficiënte lesuitvoering 50 3 0 41 P

De leraren gaan actief na of de leerlingen de leerstof en de opdrachten

begrijpen en of zij daarmee hun doelen gehaald hebben 100 21 0 53 PVS

De leraren geven de leerlingen feedback op hun leerproces 100 38 13 49 PVS De leraren bespreken met de leerlingen wat nodig is om hun doelstellingen te

halen 50 55 13 50 PVS

De lessen zijn zowel op ondersteuning als op uitdaging gericht, afhankelijk van

de behoeften/kenmerken van leerlingen 0 50 0 8 S

(19)

We maken in de tabel een onderscheid tussen de criteria die in de wet genoemd worden en de criteria die om andere redenen zijn toegevoegd. In de laatste kolommen staat het totaal aantal scores dat beschikbaar is en zien we op welke sectoren het criterium betrekking heeft.

Grafiek 4.2 Didactisch handelen

(20)

Bij het criterium ‘De instructie en spelbegeleiding zijn afgestemd op de behoeften van individuele en groepen leerlingen’ ziet men dat van de scholen met een onvoldoende iedereen waarvoor dit criterium is ingevuld een onvoldoende had. Bij de voldoende scholen had 40 procent een onvoldoende en bij de goede scholen zijn op dit criterium geen onvoldoendes gescoord.

Bij de voorlaatste kolom van tabel 4.2a ziet men verder bij hoeveel scholen dit criterium is ingevuld en voor welke sector het geldt. De bevindingen bij de criteria waarvan we meer dan 40 scores hebben staan ook in een grafiek (zie grafiek 4.2).

Deze grafiek bevat dezelfde informatie. Hier duiden we de criteria die niet in de wet genoemd worden aan met Kb (kan beter). De rode balken geven aan hoeveel procent van de scholen onvoldoende scoorde op het criterium. Bij het laatste criterium ‘De leraren bespreken met de leerlingen wat nodig is om hun

doelstellingen te halen’ scoort 55 procent van de scholen die een voldoende op de standaard hebben toch een onvoldoende op het criterium. Bij de analyses van de andere standaarden plaatsen we in dit hoofdstuk alleen de grafiek. Er is een aparte technische rapportage met de onderliggende tabellen beschikbaar.

Criteria die in de wet genoemd worden

We onderzoeken eerst de criteria die in de wet genoemd worden. Tabel 4.2a en de grafiek 4.2 maken duidelijk dat alle scholen die onvoldoende scoren op de standaard

‘didactisch handelen’, op minstens 5 van de 9 wettelijke criteria een onvoldoende krijgen. In tabel 4.2a en 4.2b wordt verder duidelijk dat geen enkele school die het oordeel ‘goed’ krijgt op didactisch handelen op één of meer van de in de wet genoemde criteria een onvoldoende krijgt. Deze beide vaststellingen zijn positief voor de fairness.

Dit ligt anders bij de scholen die ‘voldoende scoren op de standaard ‘didactisch handelen’. Zo’n 23-40 procent van de scholen die op de standaard ‘didactisch handelen’ een voldoende scoren, blijkt op criteria die van de wetteksten zijn afgeleid een onvoldoende te scoren. Bij de voldoende scorende scholen leiden de volgende criteria tot schendingen:

• De leraren zorgen ervoor dat het niveau van hun lessen past bij het beoogde eindniveau van leerlingen;

• De leerlingen zijn actief en betrokken;

• De instructies en spelbegeleiding zijn afgestemd op de behoeften van groepen en individuele leerlingen;

• De opdrachten zijn afgestemd op de behoeften van groepen en individuele leerlingen;

• De onderwijstijd is afgestemd op de behoefte van groepen en individuele leerlingen;

• De afstemming is zowel op ondersteuning als op uitdaging gericht, afhankelijk van de behoefte van leerlingen.

Bij de laatste vier standaarden uit dit rijtje betreffen de schendingen al snel een kwart van de oordelen. Daar komt nog eens bij dat één school voor voortgezet onderwijs en één basisschool op de helft of meer van de wettelijke criteria een onvoldoende scoorden en toch een voldoende kregen op de standaard ‘didactisch handelen. Inmiddels is naar aanleiding van de pilots al verder nagedacht over de werkwijze.

De gesignaleerde verschillen gaan systematisch over het afstemmen van het onderwijs op de voortgang in de ontwikkeling van de leerlingen. Juist dit criterium staat zeer prominent in lid 1 van artikel 8 in de wet op het primair onderwijs.

Daar komt nog eens bij dat de bevinding dat slechts 3 pocent van de scholen onvoldoende scoort op de ‘standaard didactisch’ handelen vooral veroorzaakt wordt omdat de criteria voor afstemming op verschillen niet (altijd) ‘meetellen’ voor het

(21)

vooral gebaseerd te zijn op de meer basale didactische vaardigheden zoals een logische leerstofopbouw, gestructureerde opdrachten en heldere uitleg. Het

percentage onvoldoendes op de standaard didactisch handelen zou aanzienlijk hoger zijn, wanneer de criteria over afstemming van het onderwijs volwaardig zouden meetellen voor het oordeel op de standaard.

Tabel 4.2b: Didactisch handelen: Aantal wettelijke criteria onvoldoende Aantal wettelijke

criteria onvoldoende Oordeel op de standaard Onvoldoende Voldoende Goed

0 1 26 9

1 0 7 0

2 0 4 0

3 0 5 0

4 0 5 0

5 1 2 0

6-9 0 0 0

10 1 0 0

Totaal 3 49 9

Criteria die niet aan de wet ontleend zijn

Tabel 4.2a en 4.2c laten zien dat scholen die onvoldoende scoren op de standaard, op nagenoeg alle criteria die niet aan de wet ontleend zijn ook een onvoldoende scoren. Verder wordt duidelijk dat scholen die het oordeel ‘goed’ krijgen op

didactisch handelen op 7 van de 9 criteria minstens voldoende scoren. Er zijn twee criteria waarop scholen die het oordeel ‘goed’ krijgen op didactisch handelen incidenteel onvoldoende scoren.

Het valt verder op dat een aanzienlijk deel van de voldoende scholen onvoldoende scoort op de twee criteria die feedback betreffen. Deze beide criteria die het geven van feedback betreffen, zijn elementen van het didactisch handelen, die in reviews van gerenommeerde wetenschappers zoals Hattie een belangrijke plaats innemen als het gaat om het beïnvloeden van de prestaties van de leerlingen. Deze

informatie gaat in het oordeel op de standaard verloren. Vanuit het oogpunt van validiteit is dit wel iets om ons zorgen over te maken.

Tabel 4.2c: Didactisch handelen: Onvoldoendes bij niet aan de wet ontleende criteria Aantal niet wettelijke

criteria onvoldoende

Oordeel op de standaard Onvoldoende Voldoende Goed

0 1 20 8

1 0 5 0

2 0 9 1

3 0 6 0

4 0 4 0

5 1 2 0

6 0 3 0

7 0 0 0

8 1 0 0

Totaal 3 49 9

Conclusies over didactisch handelen

1. Uit het voorafgaande kunnen we afleiden dat bij de meer basale didactische vaardigheden die in de wet genoemd worden, zich geen fairness probleem voordoet. Scholen die op de standaard ‘didactisch handelen’ voldoende of goed scoren, scoren op de meer basale criteria voor het didactisch handelen, enkele incidenten daargelaten, ook minstens een voldoende. Een oorzaak is hier ook dat inspecteurs nog scoren met het beeld van het oude kader, waarin de basale

(22)

elementen van didactiek normindicatoren waren en waar de afstemming geen normindicator was.

2. Anders ligt dit bij alle in de wet genoemde criteria die het inspelen op verschillen tussen leerlingen betreffen. Hier krijgt meer dan een kwart van de scholen die voldoende scoren op de standaard een onvoldoende op de in de wet genoemde criteria voor het inspelen op verschillen. Hier ligt een fairness probleem, omdat de standaard op dit onderdeel niet discrimineert.

Aanbevelingen bij didactisch handelen

Op basis van deze bevindingen bevelen we aan om de standaard ‘didactisch handelen’ bij een volgende herziening te splitsen of anderszins te voorzien in meer precisie. Wij denken dat zowel de scholen als de inspectie er baat bij heeft als we eenduidig kunnen aangeven wat we vinden van:

• ‘Basale vaardigheden in het didactisch handelen’, gebaseerd op criteria uit de wet;

• ‘Differentiatie vaardigheden’, gebaseerd op criteria uit de wet’;

• ‘Didactische vaardigheden’ , gebaseerd op wetenschappelijk onderzoek over ‘wat

‘werkt’ in het onderwijs.

4.3 Zicht op ontwikkeling

Bij de standaard ‘Zicht op ontwikkeling’ scoort 16 procent van de scholen een onvoldoende, 61 procent voldoende en 23 procent goed bij 62 beoordelingen. De inspecteurs maken met de standaard dus een goed onderscheid tussen

onvoldoende, voldoende en goed. De inhoudelijke uitwerking van de standaard verschilt sterk tussen de sectoren PO, VO en SO. In de bijlage kan men alle criteria zien waaruit de standaard is opgebouwd. Dan ziet men ook dat elke sector eigen aanvullende criteria heeft.

In de grafiek ziet men de criteria die door minstens 40 inspecteurs zijn ingevuld.

Hierin ziet men het percentages onvoldoendes op een criterium van de scholen die een onvoldoende, een voldoende of het oordeel goed op de standaard hebben. In de bijlage staat een volledige tabel.

Als 50 procent van de wettelijke criteria onvoldoende is (3 criteria bij de sectoren VO en PO), dan volgt het oordeel onvoldoende. Bij twee wettelijke criteria onvoldoende komen zowel onvoldoendes voor als voldoendes en in één geval zelfs het oordeel goed. Zie hiervoor tabel 4.3 en grafiek 4.3. Bij de sector SO valt op dat er geen onvoldoendes zijn op de standaard terwijl er 4 scholen zijn die 1, 2 of 3 maal op een aan de wet ontleend criterium onvoldoende scoren.

Tabel 4.3: Zicht op ontwikkeling: Aantal wettelijke criteria onvoldoende Aantal wettelijke

criteria onvoldoende

Oordeel op de standaard Onvoldoende Voldoende Goed

0 0 21 13

1 0 13 0

2 3 3 1

3 3 1 0

4 4 0 0

5 of meer 0 0 0

Totaal 10 38 14

Het valt bij de standaard zicht op ontwikkeling op dat er net als bij didactisch handelen een hiërarchie is in de wettelijke criteria. Wanneer de aanwezigheid van

(23)

steeds onvoldoende. Maar bij de criteria die analyse, afstemming en het wegwerken van achterstanden betreffen, ligt het anders.

Het speciaal onderwijs kent veel meer elementen binnen de beschrijving van de standaard, die aan de wet ontleend zijn. Er zijn maar 7 scholen voor SO met deze criteria onderzocht. Dat is te weinig voor een valide conclusie, maar de vraag is wel of een standaard met deze complexiteit hier een goed onderscheid kan maken. Bij VO en PO is de standaard eenvoudiger.

Net als bij didactisch handelen is hier de conclusie dat als de basale elementen zoals de systematische verzameling van informatie niet aanwezig zijn, de standaard onvoldoende scoort. Maar het wordt onduidelijker als het gaat om de analyse van stagnatie en het verhelpen van achterstanden. Als dat ontbreekt leidt dat niet altijd tot een onvoldoende voor de standaard.

Grafiek 4.3: Zicht op ontwikkeling

(24)

4.4 Veiligheid

Grafiek 4.4: Veiligheid

Van 55 scholen is informatie voor de standaard veiligheid. In 2 gevallen (4 procent) is er sprake van een onvoldoende. 38 procent van de scholen scoort goed en 58 procent scoort voldoende.

We zien dat de standaard onderscheid weet te maken tussen voldoende

en goed (zie grafiek 4.4). Dat is wel opmerkelijk, want de standaard kent alleen criteria die aan de wet zijn ontleend.

Een aantal criteria is op alle scholen voldoende (basiswaarden, het voorkomen van pesten en de respectvolle omgang). Vooral bij criteria die gaan over het

veiligheidsbeleid, de regelmatige meting van de beleving of een aanspreekpunt voor veiligheid zien we meer onvoldoendes. Deze criteria leiden meestal niet tot een negatief oordeel op de standaard. Dit scorepatroon op de criteria is niet verrassend.

Het is bekend uit eerder onderzoek (zie bijv. Onderwijsverslag 2014/2015: 84).

(25)

Tabel 4.4: Veiligheid: Aantal wettelijke criteria onvoldoende Aantal wettelijke

criteria onvoldoende Oordeel op de standaard Onvoldoende Voldoende Goed

0 0 17 20

1 0 9 1

2 1 4 0

3 0 1 0

4 0 1 0

5 1 0 0

Totaal 2 32 21

Bij een nadere analyse (zie tabel 4.4) blijkt dat één van de scholen met een

onvoldoende voor de standaard op de helft van de criteria onvoldoende scoorde, de andere school scoorde onvoldoende op twee criteria. Daarnaast zijn er 6 scholen die op 2, 3 of 4 aan de wet ontleende criteria een onvoldoende scoren en wel een voldoende krijgen.

Als we inhoudelijk naar de standaard en de onderliggende criteria kijken, dan zien we dat minder concrete criteria (het voorkomen van pesten, respectvolle omgang) altijd voldoende scoren. Dat is niet zo vreemd omdat men hier alleen een

onvoldoende kan geven als er een contra-indicatie is. Bij de concretere criteria zijn er al snel meer onvoldoendes. Deze criteria leiden niet tot een onvoldoende voor de standaard. We zien dus ook hier fairness vragen.

4.5 Doelen, evaluatie en verbetering

Als we naar de grafiek 4.5 kijken is er sprake van een goed discriminerende standaard . Er vallen veel onvoldoendes (15 procent) maar ook vaak het oordeel goed (21 procent). 64 procent scoort voldoende op de standaard. Het algemene patroon bij de scores indiceert ook dat de onvoldoende scholen op meer criteria onvoldoende scoren. Verder zien we zeer weinig onvoldoende criteria bij de goede scholen. De eerste indicatie voor de fairness van de standaard is dus goed.

Tabel 4.5: Doelen, evaluatie en verbetering: Aantal wettelijke criteria onvoldoende Aantal wettelijke

criteria onvoldoende

Oordeel op de standaard Onvoldoende Voldoende Goed

0 0 34 15

1 2 7 1

2 0 3 0

3 7 5 0

4 2 0 0

5 of meer 0 0 0

Totaal 11 49 16

(26)

Grafiek 4.5: Doelen, evaluatie en verbetering

Toch valt bij nadere analyse het volgende op. Er zijn 14 scholen die onvoldoende scoren op de helft of meer van de criteria die aan de wet ontleend zijn: 9 hiervan krijgen een onvoldoende en 5 een voldoende. Zie hiervoor tabel 4.5. Zo wordt op 8 voldoende scholen de voortgang van de resultaten niet geëvalueerd en op 13 voldoende scholen schort het aan de evaluatie van de kwaliteit van de leraren. Bij deze criteria zien we wel degelijk een fairnessprobleem omdat het om vereiste en zeer vitale elementen van de kwaliteitszorg gaan.

4.6 Structuur en cultuur

Bij 69 scholen is deze standaard beoordeeld. Eén school (1 procent) heeft een onvoldoende, 64 procent voldoende en 35 procent goed.

(27)

Deze standaard kent voor elke sector maar twee wettelijke criteria. De overige onderdelen uit de uitwerking van de standaard zijn niet aan de wet ontleend. Hier viel bij de nadere analyse het volgende op.

Scholen hebben nooit meer dan één van de twee wettelijke criteria onvoldoende (zie tabel 4.6). Slechts in één geval in combinatie met onvoldoendes bij andere criteria leidt dit tot een onvoldoende. Er zijn ook twee scholen met het oordeel goed die op een wettelijk criterium onvoldoende scoren.

Grafiek 4.6: Structuur en cultuur

(28)

Tabel 4.6: Structuur en cultuur, Aantal wettelijke criteria onvoldoende Aantal wettelijke

criteria onvoldoende Oordeel op de standaard Onvoldoende Voldoende Goed

0 0 40 22

1 1 4 2

2 0 0 0

3 0 0 0

Totaal 1 44 24

4.7 Verantwoording en dialoog

Bij de standaard verantwoording en dialoog scoort 18 procent onvoldoende (10 scholen), 54 procent scoort voldoende en 28 procent scoort goed (n=57). Zeven scholen hebben de helft of meer dan de helft van de wettelijke elementen

onvoldoende. Hiervan krijgen 5 scholen een onvoldoende en 2 een voldoende. We zien hier heel mooi dat bij de 16 goede scholen geen enkele element onvoldoende is. Er zijn 12 scholen bij wie dat ook zo is maar die niet het oordeel goed krijgen.

De cesuur tussen onvoldoende en voldoende niet zo eenvoudig te maken. Zo zijn er twee scholen die op geen enkel wettelijk criterium onvoldoende scoren, maar toch een onvoldoende krijgen. Kennelijk spelen de bovenwettelijke criteria hier toch een rol voor het oordeel onvoldoende. Verder is hier ook een gebied bij de wettelijke criteria waar het oordeel naar voldoende of onvoldoende kan gaan (zie tabel 4.7 en grafiek 4.7).

Tabel 4.7: Verantwoording en dialoog: Aantal wettelijke criteria onvoldoende

Aantal onvoldoendes Oordeel op de standaard Onvoldoende Voldoende Goed

Wettelijk 0 2 23 16

1 - 2 3 6 0

3 - 4 5 2 0

Bovenwettelijk

0 5 16 16

1 - 2 4 11 0

3 - 4 0 4 0

5 - 6 1 0 0

Totaal 10 31 16

(29)

Grafiek 4.7: Verantwoording en dialoog

(30)

4.8 Onderzoek van scorepatronen

Omdat veel inspecteurs de onderliggende criteria hebben ingevuld is het mogelijk om in detail naar het onderliggende scorepatroon bij een standaard te kijken.

We onderscheiden de volgende mogelijkheden.

• De criteria laten een eenduidig onvoldoende patroon zien. De inspecteur vindt zoveel elementen van onvoldoende kwaliteit dat het onmogelijk is om de standaard positief te beoordelen.

• Er zijn meerdere wettelijke criteria onvoldoende, maar uit de gegevens valt niet eenduidig af te leiden welke kanten de beslissing voor de standaard opgaat: soms onvoldoende en soms voldoende.

• Er zijn identieke scoreparen met minstens twee onvoldoendes die wisselend onvoldoende of voldoende krijgen. In dit geval scoren scholen volledig identiek met ieder dezelfde voldoendes en onvoldoendes op de criteria, maar de ene school krijgt een voldoende en de ander een onvoldoende voor de standaard.

• Er zijn situaties waarin maar één criterium onvoldoende is. Dit leidt slechts in een beperkt aantal gevallen tot een onvoldoende.

• Tot slot is er de situatie waarin alle criteria voldoende zijn.

Tabel 4.8: Overzicht van de scorepatronen bij de standaarden Naam van de

Standaard

Beoor- deling stan- daard

Scorepatroon van de criteria Eenduidig

patroon onvol- doende

Meer criteria onvol- doende

Identiek score- paar

Eén criterium onvol- doende

Alle cri- teria vol- doende

Totaal

Zicht op ontwikkeling

Onv 4 5 1 - - 10

Vold - 4 1 13 34 52

Didactisch Handelen

Onv 2 - - - - 3

Vold - 16 - 7 35 58

Veiligheid Onv 1 1 - - - 2

Vold - 6 - 10 37 53

Doelen evaluatie verbetering

Onv 2 - 7 2 - 11

Vold - 4 4 8 49 65

Verantwoording en dialoog

Onv 4 2 1 1 2 10

Vold - 3 2 3 39 47

Structuur en cultuur

Onv - - - 1 - 1

Vold - - - 6 62 68

Totaal Onv 13 8 9 4 2 37

Vold - 33 7 47 256 373

In tabel 4.8 staat het overzicht van deze scorepatronen. Curieus is de situatie van de identieke scoreparen die de grootste contra-indicatie geven voor de fairness. Dit komt gelukkig maar beperkt voor, namelijk in 4 procent van de gevallen en dan het meest bij de standaard ‘Doelen, evaluatie en verbetering’. Verder is het twee keer bij een standaard ‘Verantwoording en dialoog’ voorgekomen dat er geen wettelijke criteria onvoldoende waren, maar dat de inspecteur desondanks een onvoldoende scoorde. Wanneer we de gevallen met één onvoldoende niet meenemen, dan lijkt het erop dat in minstens 10 procent van de gevallen er serieus noodzaak is voor nader overleg over de interbeoordelaarsbetrouwbaarheid. Dit percentage ligt zeker hoger, want ook in het geval van één criterium onvoldoende zijn er verschillende

(31)

afwegingen bij de aftestgrens en ook hier zijn identieke scorepatronen aangetroffen die tot een verschillende conclusie leiden.

In de volgende grafiek 4.8 laten we een specifiek scorepatroon zien. Het gaat om de scorepatronen van de standaard ‘Doelen, evaluatie verbetering’ . We presenteren hier alleen alle beoordelingen van scholen waar minstens één wettelijk element onvoldoende scoorde.

Grafiek 4.8: Scorepatroon bij doelen, evaluatie en verbetering

School Sector Score op de standaard

Aantal wettelijke onvoldoendes

Aan de wet ontleende criteria K1 K2 K3 K4 K5

1 PO O 4 O O V O O

2 EC O 4 V O O O O

3 PO O 3 V O O O

4 PO O 3 V V O O O

5 PO O 3 V V O O O

6 EC O 3 V V O O O

7 PO O 3 V V O O O

8 PO O 3 V O O O V

9 PO O 3 V O V O O

10 PO V 3 V O O O

11 EC V 3 V V O O O

12 EC V 3 V O O O V

13 EC V 3 V O O O V

14 PO V 3 V O V O O

15 PO V 2 V V V O O

16 EC V 2 V O O V V

17 EC V 2 V V O O V

18 PO O 1 O V V V V

19 PO O 1 V V V V O

20 PO V 1 V V V O V

21 PO V 1 V V V O V

22 PO V 1 V V V O V

23 PO V 1 G G V O V

24 VO V 1 V V O V V

25 EC V 1 V O V V G

26 PO V 1 V O V V V

27 EC G 1 V O V V G

Toelichting: Omschrijving van de aan de wet ontleende criteria:

K1 De school heeft in haar schoolplan de eigen opdrachten voor het onderwijs omschreven K2 Het schoolplan omvat de voortgang van de ontwikkeling van leerlingen en de

afstemming van het onderwijs op de ontwikkeling van leerlingen

K3 De school evalueert regelmatig de resultaten van haar leerlingen zoals de school dat heeft omschreven in het schoolplan

K4 De school evalueert regelmatig de kwaliteit van het pedagogisch-didactisch handelen van de leraren zoals de school dat heeft omschreven in het schoolplan

K5 Op basis van de evaluaties neemt de school maatregelen ter verbetering van de kwaliteit

Toelichting: Score op de standaard:

Onvoldoende Voldoende Goed

Toelichting: Score op de aan de wet ontleende criteria:

Onvoldoende

(32)

Er zijn nog 49 scholen waar alle criteria voldoende scoorden. Deze scholen zijn niet in het overzicht weergegeven

De standaard ‘Doelen, evaluatie en verbetering is wat betreft IBB de meest lastige standaard. In de figuur kan men goed de situaties zien waarin het IBB-overleg het meest gewenst is.

4.9 De oordelen in het mbo

In het mbo zijn bij 2 instellingen pilots uitgevoerd. In totaal zijn op 14 opleidingen één of meer standaarden en de onderliggende fairnessindicatoren beoordeeld. Deze aantallen zijn te klein om conclusies over te trekken. In tabel 4.9 en grafiek 4.9 ziet men de oordelen voor de standaarden. Alleen de standaarden voor kwaliteitszorg, zoals 5.1 doelen, evaluatie en verbetering en 5.2 structuur en cultuur worden regelmatig als onvoldoende beoordeeld. Daarnaast is de kwaliteitsborging voor het examen is meestal onvoldoende. Verder vallen er vrijwel geen onvoldoendes net zo min als het oordeel goed.

Tabel 4.9: Percentage oordelen voor de standaarden bij de pilots in het mbo

Standaarden Onvoldoende Voldoende Goed

Aantal

2.1 onderwijsprogramma 11 89 0 9

2.2 ontwikkeling en begeleiding 0 100 0 9

2.3 didactisch handelen 0 100 0 8

2.4 beroepspraktijkvorming 0 100 0 5

2.5 samenwerking 0 100 0 2

3.1 kwaliteitsborging examinering en diplomering 89 11 0 9

3.2 examen instrumentarium 0 100 0 6

3.3 afname en beoordeling 0 100 0 9

4.1 Veiligheid 0 100 0 2

4.2 Leerklimaat 0 100 0 2

5.1 doelen, evaluatie en verbetering 50 50 0 6

5.2 structuur en cultuur 40 60 0 5

5.3 verantwoording en dialoog 20 80 0 5

Bij de standaard onderwijsprogramma is één onvoldoende gevallen. Daarnaast zien we bij de onderliggende items, dat de mogelijkheden voor maatwerk vaak ontbreken en dus onvoldoende worden gescoord. Dat is dus informatie die je bij het

uiteindelijke oordeel op de standaard niet meer kunt achterhalen. Hier zijn geen verontrustende scorepatronen.

Vergelijkbaar ligt het bij de standaard Ontwikkeling en begeleiding. Incidenteel nemen inspecteurs waar dat docenten onvoldoende de oorzaken bij afwijkende prestaties proberen te achterhalen, maar verder wordt alles overwegend voldoende beoordeeld.

Bij de standaarden voor kwaliteitszorg wordt de onderliggende criteria zeer

gevarieerd beoordeeld. De aantal zijn vooralsnog veel te klein om er conclusies aan te verbinden.

(33)

Grafiek 4.9: Oordelen op standaarden in het mbo

4.10 Conclusie en discussie

Het eerste overallbeeld bij de standaarden is gunstig. De afzonderlijke items of criteria blijken een goede voorspellende waarde te hebben voor het eindoordeel op de standaard. Een aantal standaarden heeft een goed onderscheidend vermogen.

Wanneer we echter nauwkeuriger kijken dan zien we bij veel standaarden toch scores die vragen oproepen over de fairness. Men hecht een verschillend belang aan de onderscheiden criteria die in de tekst over de standaard worden genoemd en die men baseert op de wettelijke eisen. Dat kan een bron zijn voor verschillen in interpretatie en verschillen in de strengheid waarmee men oordeelt. Hierbij is het van belang dat in het professionele gesprek deze interpretatieverschillen aan bod komen.

Daarnaast zien we in de oordelen op de standaarden een zeker verlies aan informatie optreden. Dit valt het sterkst op bij de standaard voor didactisch

handelen. De oordelen over de basale kenmerken van didactisch handelen drukken de andere oordelen over het element maatwerk weg. We zien iets dergelijks ook optreden bij zicht op ontwikkeling (de aanwezigheid van toetsen en informatie over de ontwikkeling van leerlingen geeft de doorslag; afstemming is minder van belang) en veiligheid (regelmatige meting is minder van belang). Dit is niet geheel te vermijden, maar bij didactisch handelen achten wij het knelpunt dermate belangrijk dat we hier pleiten om de standaard te zijner tijd op te splitsen.

(34)

In par. 4.8 onderzochten we de scorepatronen op de criteria en de standaard. In een beperkt aantal gevallen (4 procent) zien we identieke scorepatronen die wisselend tot een onvoldoende of een voldoende leiden. De analyse laat ook zien dat bij een aanzienlijk aantal cases er serieus noodzaak is voor maatregelen voor de

interbeoordelaarsbetrouwbaarheid omdat het oordeel gezien de scores op de criteria verschillende kanten op kan gaan. Hier zijn meerdere onvoldoendes op de criteria en in sommige gevallen is het oordeel voldoende in andere gevallen onvoldoende.

Daarnaast geeft het hybride karakter van de beoordelingstaak doordat

standaarden zijn opgebouwd uit wettelijke en niet wettelijke criteria een complicatie bij het nastreven van fairness en onderscheidend vermogen. Dit is op te lossen door bij zo veel mogelijk standaarden hier meer onderscheid te maken.

Als we hier niet voor kiezen moeten we op andere wijze de kwaliteit van ons werk waarborgen.

(35)

5 Het oordeel op bestuursniveau

5.1 De standaard ‘Doelen, evaluatie en verbetering’ op bestuursniveau

We bespreken eerst de bestuursoordelen in po, vo en so. Mbo volgt in paragraaf 5.4.

Er zijn 6 onvoldoendes bij de standaard ‘Doelen evaluatie en verbetering’, 3

besturen scoren goed en 14 besturen hebben een voldoende. Opmerkelijk is dat met deze standaard een goed onderscheid tussen besturen valt te maken. De besturen die hier onvoldoende scoren hebben tenminste twee wettelijke criteria onvoldoende.

Dit is bij vijf instellingen het geval. Als scholen slechts één wettelijk criterium onvoldoende hebben (dit komt 4 keer voor), dan krijgen ze het oordeel voldoende.

In de grafiek 5.1 ziet men de scores op de verschillende criteria. Besturen die goed scoren, scoren op geen enkel criterium onvoldoende.

Grafiek 5.1: Doelen, evaluatie en verbetering op bestuursniveau

(36)

5.2 De standaard ‘Structuur en cultuur’ op bestuursniveau

Hier scoren 2 besturen een onvoldoende, 12 voldoende en 7 goed. Er zijn twee aan de wet ontleende criteria. De twee besturen die een onvoldoende hebben hebben ze allebei onvoldoende. De overige besturen hebben geen aan de wet ontleende criteria onvoldoende. Hier constateren we weinig problemen met fairness.

Grafiek 5.2: Structuur en cultuur op bestuursniveau

10%

10%

10%

19%

26%

57%

45%

60%

57%

68%

38%

45%

53%

62%

37%

33%

45%

30%

38%

26%

43%

50%

47%

33%

37%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Structuur en cultuur Het bestuur en zijn scholen/opleidingen handelen vanuit een duidelijke verantwoordelijkheidsverdeling tussen het

intern toezicht, bestuur, management en personeel van…

Het bestuur werkt volgens een code Goed Bestuur

Kb - Men werkt resultaatgericht en stimuleert eenzelfde houding bij anderen

Kb - Men is aanspreekbaar op gemaakte afspraken en stimuleert eenzelfde houding bij anderen Kb - De visie en de ambities worden op alle niveaus in de

organisatie breed gedragen en er wordt naar gehandeld Kb - Het bestuur functioneert vanuit een transparante en integere cultuur waarin sprake is van zorgvuldig handelen Kb - Men werkt gezamenlijk aan een voortdurende

verbetering van de professionaliteit Kb - Bij het werken aan de verbetering van de professionaliteit houdt men rekening met de gestelde

bekwaamheidseisen en beroepsprofielen Kb - Bij het werken aan de verbetering van de professionaliteit houdt men rekening met de behaalde

resultaten bij de leerlingen

Onvoldoende Voldoende Goed

(37)

5.3 De standaard ’Verantwoording en dialoog’ op bestuursniveau

Hier zijn 2 besturen onvoldoende, 11 voldoende en 7 als goed beoordeeld. De twee besturen die onvoldoende zijn beoordeeld hebben 2 of 3 aan de wet ontleende criteria onvoldoende. Vier voldoende besturen hebben 1 of 2 aan de wet ontleende criteria onvoldoende.

Grafiek 5.3: Verantwoording en dialoog op bestuursniveau

5.4 Het oordeel op bestuursniveau in het MBO

In het MBO zijn bij twee besturen zijn de bestuursindicatoren beoordeeld. Bij één bestuur waren de eerste twee kwaliteitsstandaarden onvoldoende (5.1. Doelen evaluatie en verbetering, en 5.2. structuur en cultuur). Bij het andere bestuur was alles voldoende.

(38)

5.5 Conclusies

Opmerkelijk is wel dat er sprake is van een behoorlijk gedifferentieerd oordeel op het niveau van het bestuur. Vooralsnog zien we weinig fairnessproblemen. Eventuele afwijkingen zijn beperkt en kunnen we rekenen bij een redelijke marge die tot de discretie van de inspecteur hoort.

Het aantal metingen is zeer beperkt (20 tot 23 besturen). De conclusies kunnen veranderen wanneer we meer metingen zouden doen.

(39)

6 De eindoordelen

Er zijn regels afgesproken voor een enkelvoudig eindoordeel. Om dat eindoordeel te bepalen kunnen we de standaarden onderverdelen in een aantal groepen.

Groep 1.

1.1 De resultaten

Groep 2. De zwaarwegende standaarden 2.1 Zicht op ontwikkeling

2.2 Didactisch handelen 3.1 Veiligheid

Groep 3. De overige op de wet gebaseerde standaarden over het onderwijsproces die bij het oordeel worden betrokken.

2.1 Aanbod

2.4 Extra ondersteuning (PO en VO) 2.4 Onderwijstijd (SO)

2.5 Onderwijstijd (VO) 2.5 Samenwerking (PO,SO) 2.6 Toetsing en afsluiting (PO) 2.6 Samenwerking (VO) 2.6 Praktijkvorming (SO) 2.7 Toetsing en afsluiting (SO) 2.8 Toetsing en afsluiting (VO)

Groep 4: Daarnaast kan standaard 4.1 Doelen, evaluatie en verbetering een rol spelen bij de beoordeling.

De beslisregels op schoolniveau zijn.

• Zeer zwak: Groep 1 onvoldoende en één standaard uit groep 2 onvoldoende.

• Zwak: Of groep 1 onvoldoende of één standaard uit groep 2 onvoldoende of twee standaarden uit groep 3 onvoldoende.

• Voldoende: Als groep 1 voldoende is én groep 2 voldoende is en in groep 3 ten hoogste één onvoldoende is.

• Goed: Als alle standaarden minimaal voldoende zijn en groep 4 goed is en twee standaarden uit groep 2 en 3 goed zijn.

Er zijn speciale regels wanneer de resultaten (groep 1) ontbreken. Men wordt dan zeer zwak als twee standaarden uit groep 2 en 4 samen onvoldoende zijn.

Men wordt zwak als één standaard uit groep 2 en 4 samen onvoldoende is.

Er zijn geen regels bepaald voor het aantal standaarden dat minimaal nodig is voor een oordeel.

Doorrekening op de gegevens uit de pilots voor zover ze zijn ingevoerd, leidt tot het volgende resultaat in tabel 6.1.

(40)

Tabel 6.1: Berekend en gegeven oordeel bij de scholen voor PO, VO en SO tijdens de pilots Gegeven

eindoordeel

Berekend eindoordeel

Zeer zwak Zwak Voldoende Goed Totaal

Zeer zwak 1 0 0 0 1

Zwak 0 3 3 0 6

Voldoende 0 4 29 5 38

Goed 0 0 1 5 6

Totaal 1 7 33 10 51

De oordelen zoals wij die nu in het geautomatiseerde systeem aantreffen, blijken niet helemaal te matchen met de regels. Het is mogelijk dat een aantal oordelen niet correct is ingevoerd. We trekken vooralsnog geen conclusies over de

oordeelsvorming op het niveau van de school.

Er is een hiërarchie in de standaarden aangelegd. Sommige standaarden zijn belangrijker en wegen zwaarder mee voor het arrangement dan andere. Daar zit een risico in, dat in het verleden bij het toezicht is aangetoond. Bij de

doorslaggevende standaarden zal men nog terughoudender worden bij het verlenen van onvoldoendes. Dit kan een rol spelen bij de standaarden didactisch handelen, zicht op ontwikkeling en veiligheid.

Referenties

GERELATEERDE DOCUMENTEN

Aangezien elke school niet evenveel kleuters telt wordt er procentueel gekeken (het aantal kleuters die effectief deelnemen aan een project/activiteit van SVS ten opzichte van

41780 Scholengroep OPRON, Stichting voor Openbaar Primair Onderwijs BAO Openbare Basisschool Meester Neuteboomschool STADSKANAAL www.neuteboomschool.nl ZuidOost 41780

Voor 22 van de 261 besturen geldt dat zij minimaal 1 afdeling onder hun hoede hebben die in minstens 80 procent van de schooljaren waarvoor er data voor de afdeling beschikbaar is

De verantwoordingvoorde keus van deze standaarden ende geselecteerde scholen is te vinden in het onderzoeksplan dat voor dit onderzoek Is opgesteld. Deze standaarden zijn onderzocht

De initiatiefnemer van een nieuwe school dient in de aanvraag een beschrijving op te nemen van de wijze waarop invulling wordt gegeven aan de zorg voor de sociale, psychische

Ik constateer dat de leden van de fracties van de SP, de PvdA, GroenLinks, vKA, de PvdD, DENK, 50PLUS, D66, de VVD, het CDA, de ChristenUnie en Van Haga voor dit gewijzigde

Inmiddels zijn verscheidene frisse scholen ontwikkeld die zo goed als kli- maatneutraal zijn.. De RVO publiceert jaarlijks een overzicht van de vijftien

Als belangenbehartigers van het openbaar en algemeen toegankelijk onderwijs zijn wij voorstanders van een bekostiging van scholen waar eenieder terecht kan,