• No results found

Uitkomsten van het onderzoek

Aantal beoordelingen

Uiteindelijk zijn 44 van de 45 portfolio’s betrokken, één portfolio bleek in compleet en viel om die reden uit. Zeventien beoordelaars traden aan, maar niet allemaal voltooiden ze de volledige sessie van dertig vergelijkin- gen. Uiteindelijk zijn er 423 vergelijkingen voorgelegd en hebben er 417 beoordelingen plaatsgevonden. Dit betekent dat elke beoordelaar gemiddeld 24,5 beoordeling heeft uitgevoerd.

Betrouwbaarheid

De beoordelingen zijn geanalyseerd volgens het Bradly-Terry-Luce model dat resulteert in een logit schatting voor de portfolio’s. De Scale Separation Reliability (SSR) van Rasch (ook bekend als Rasch alpha) wordt gerappor- teerd als maat voor de betrouwbaarheid. De SSR kan binnen de methode van paarsgewijs beoordelen dienen als maat voor de interne consistentie en betrouwbaarheid, en als maat voor de inter-beoordelaarsovereenstemming

(Verhavert et al., 2017). De SSR werd in dit experiment geschat op 0,76. Gedurende het experiment zijn ook tussentijdse SSR-waarden genoteerd. In tabel 1 zijn deze weergegeven.

Tabel 1. SSR-waarden tijdens het experiment

Aantal beoordelingen SSR

240 0,68

286 0,70

380 0,73

Vergelijken we deze uitkomst met de geschatte interne betrouwbaarheid van het CPE vmbo BV uit 2012, 0,59 (Cronbachs alpha, Examenverslag

(Cito, 2012)), dan zien we dat beoordelen volgens paarsgewijs beoordelen

hoger uitkomt, dus betrouwbaarder is.

Qua beoordelaarsovereenstemming zit paarsgewijs beoordelen tussen het huidige beoordelingsmodel (ICC 0,60) en het rubricmodel (ICC 0,83)

(Gitsels et al., 2014).

Een kritische kanttekening die we hierbij moeten maken, is dat de opzet van de beoordeling in deze onderzoeken verschilt: per portfolio geldt een verschillend aantal beoordelingen en dat leidt tot verschillen in betrouw- baarheid. Zo is de betrouwbaarheid van 0,60 bij het huidige beoordelings- model gebaseerd op twee beoordelingen per portfolio. De betrouwbaarheid van 0,83 bij het rubricmodel is eveneens gebaseerd op twee beoordelingen per portfolio. De digitale beoordeling van het rubricmodel (ICC 0,92) is geba- seerd op negen à tien beoordelingen per portfolio (Gitsels et al., 2014). Bij het

paarsgewijs beoordelen was sprake van 417 beoordelingen. Bij elk van deze beoordelingen waren telkens twee portfolio’s betrokken. Er is dus 834 keer een portfolio beoordeeld en er waren 44 portfolio’s in totaal, gemiddeld is elk portfolio negentien keer beoordeeld.

Correlatie van scores

Om uitspraken te kunnen doen over de vergelijkbaarheid van scores bij paarsgewijs (digitaal) beoordelen, het rubricmodel en de huidige vorm van (fysiek) beoordelen bij het CPE vmbo BV hebben we de correlaties tussen de totaalscore per leerling van de drie beoordelingsmethoden berekend (zie tabel 2). Deze geven weer in hoeverre de drie methoden kandidaten op dezelfde wijze ordenen van laag naar hoog vaardig.

Als scores zijn de percentages van de maximumscore gebruikt zoals toe- gekend aan de portfolio’s in het onderzoek uit 2014 volgens het huidige en het rubricmodel. Deze maximumscore kwam tot stand door de toegekende deelscores per onderdeel bij elkaar op te tellen. Voor de scores bij paarsge- wijs beoordelen is uitgegaan van de gerapporteerde latente vaardigheidscores. Tabel 2. De correlaties tussen de totaalscore per kandidaat

Score huidig Score rubric Score paarsgewijs Score huidig 1 0,739 0,96 Score rubric 0,739 1 0,672 Score paarsgewijs 0,96 0,672 1

Uit de tabel is af te lezen dat de correlatie tussen scores met het rubricmodel en paarsgewijs beoordelen 0,67 bedraagt. Voor het huidige model en paars- gewijs beoordelen bedraagt deze 0,96. Deze correlaties zijn respectievelijk middelmatig en zeer hoog te noemen. De gevonden correlaties zijn significant op 1%-niveau.

Gehanteerde criteria

Beoordelaars dienden bij elke vergelijking het doorslaggevend criterium te vermelden. Om hierover uitspraken te kunnen doen is op de notities van de beoordelaars een inhoudsanalyse uitgevoerd. We hebben deze gecodeerd naar de al eerder genoemde dimensies: originaliteit/creativiteit, beeldaspecten, onderzoek/experiment, techniek, concept/idee en zelfreflectie (Groenendijk et al., 2015).

Beoordelaars noteerden vaak meer criteria, ondanks de opdracht om alleen het doorslaggevende criterium te noteren (zie tabel 3).

Tabel 3. Het aantal notities van beoordelaars per dimensie

Dimensie Aantal notities Percentage

Originaliteit/creativiteit 74 13%

Beeldaspecten (in het eindwerkstuk) 141 25%

Onderzoek/experiment (proces) 264 48% Techniek 27 5% Concept/idee 19 3% Zelfreflectie 18 3% Overig 12 2% Totaal 555 100%

Bij bijna de helft van alle beslissingen was een criterium uit de dimensie onderzoek/experiment (proces) doorslaggevend. In negatieve formuleringen gebruikten beoordelaars de volgende kwalificaties: ‘oppervlakkig onderzoek’, ‘mager proces’, ‘beperkt onderzoek’, ‘veilige keuzes’, ‘proces ontbreekt’ en ‘weinig ontwikkeling’. Positieve kwalificaties en criteria waren onder meer: ‘meer technisch en vormgevend onderzoek’, ‘variërend’, ‘betere schetsen’, ‘ijverig’, ‘diepgaand’, ‘interessant proces’, ‘durf’ en ‘doelgericht’.

In een kwart van de gevallen was een criterium uit de dimensie beeld- aspecten (in het eindwerkstuk) doorslaggevend. In deze dimensie gebruikten beoordelaars overwegend positieve kwalificaties, zoals: ‘beeldend technisch interessant’, ‘aspecten kloppen’, ‘sterk beeld’, ‘meer ruimtelijkheid’, ‘interes- sant geschilder[d] (gevarieerder in techniek en compositie en afwisseling van motieven)’, ‘bewuste toepassing beeldaspecten’ en ‘beeldende aspecten als kleur, ruimte en uitsnede zijn op originele en sterke wijze toegepast’. In ruim tien procent van de gevallen ging het om de dimensie originali- teit/creativiteit. Beoordelaars gebruikten vaak termen als ‘spannend’ en ‘ origineel’ of, in negatieve formuleringen, ‘cliché’ of ‘voorspelbaar’.

Vergelijken we deze uitkomsten met de mate waarin onderdelen uit het beoordelingsmodel van het CPE gewicht in de schaal leggen, dan zien we in grote lijnen overeenkomsten. Zo bepaalt het onderdeel ‘Uitvoeren werkstuk’ voor 50 procent de totaalscore in het huidige beoordelingsmodel. Bij paars- gewijs beoordelen wordt 43 procent van de uitkomst bepaald door de hier- mee corresponderende dimensies originaliteit/creativiteit, beeldaspecten (in het eindwerkstuk) en techniek.

In het huidige beoordelingsmodel vallen de volgende onderdelen onder de dimensie onderzoek: oriënteren, beeldend onderzoeken en vaststellen ontwerp. Samen bepalen deze onderdelen 28 procent van de totaalscore. Bij paarsgewijs is dat 48 procent en lijkt onderzoek dus een grotere rol te hebben in het geheel.

Ervaringen van beoordelaars

Ervaringen van beoordelaars zijn per e-mail geïnventariseerd. Alle beoorde- laars ontvingen na afloop een standaardmail met de vraag hoe ze het experi- ment hadden ervaren. Daarbij vroegen we hoeveel tijd iemand had geïnves- teerd en hoe zij het paarsgewijs beoordelen als methode vonden. Ook tijdens het proces van beoordelen bereikten ons soms berichten van beoordelaars. Opmerkingen uit deze e-mails hebben we meegenomen in het totaal. Uit alle reacties bleek dat ruim de helft van de beoordelaars de tijds- investering fors vond. Dit is in lijn met de bevindingen uit eerder onderzoek waarin de inefficiëntie van de methode wordt benoemd (Verhavert et al., 2017). De tool hield de geïnvesteerde tijd automatisch bij en kwam per beoordelaar uit op gemiddeld zo’n elf uur. Dit betreft de brutotijd, de tijd dat een sessie actief was. Hierbij is dus geen rekening gehouden met de mogelijkheid dat de beoordelaar de tool open liet staan, maar niet actief aan het beoordelen was. Op basis van de mediaan gaf de beheerder van de tool een schatting van de actief geïnvesteerde tijd. De meest voorkomende tijdsinvestering per verge- lijking is twee minuten en 45 seconden. Uitgaande van deze tijdsinvestering voor alle 24,5 beoordelingen van een beoordelaar bedraagt de geïnvesteerde tijd per beoordelaar 67 minuten. In de reactie achteraf zeiden beoordelaars gemiddeld zo’n tweeëneenhalf tot drie uur bezig te zijn geweest. Dit komt neer op afgerond zeven minuten per beoordeling.

Daarnaast maakten enkele beoordelaars een opmerking over verschillen in ordening in de portfolio’s. Om de beoordeling te optimaliseren zou het goed zijn als alle pdf’s op een gelijke wijze zijn geordend en allemaal compleet zijn, zo merkten ze op. Het betrof hier verschillen in ordening van de opga- venboekjes, waarin de leerlingen hun proces bewaken en keuzes

verantwoorden.

De beoordelingstool vond men prettig werken en zeer gebruiksvriendelijk. Over de methode van het paarsgewijs beoordelen toonden de beoordelaars zich positief, ze noemden deze ‘geschikt’ en ‘interessant’.