Kwalitatieve resultaten - Testen van betrouwbaarheid en validiteit bij de opleiding Mediastudie

Deel II Testen en evalueren van het prototype van de scoringsrubriek

6 Testen van betrouwbaarheid en validiteit bij de opleiding Mediastudies van de

6.5 Kwalitatieve resultaten

Tijdens de nabesprekingen van de verschillende beoordelingsrondes hebben de beoordelaars opmerkingen gemaakt over de manier waarop zij het gebruik van de scoringsrubriek hebben ervaren. In deze paragraaf worden deze opmerkingen rond vijf thema’s geclusterd en kort besproken.

Likertschalen

De scoringsrubriek werd ervaren als gebruikersvriendelijk, zeker in vergelijking met het nakijkformulier van de opleiding zelf. De beoordelaars merkten op dat het gebruik van de Likertschalen in de scoringsrubriek er voor zorgde dat je geen onderdelen van de beoordeling vergat in te vullen en dat je betrekkelijk makkelijk en snel tot een score kwam. Ze hadden dan ook het gevoel dat het opmaken van een beoordeling met het UvA-nakijkformulier meer tijd kostte dan het opmaken van een beoordeling met behulp van de scoringsrubriek.

Daar stond tegenover dat hun ervaring in de derde beoordelingsronde was dat ze met het formulier van de UvA over een aantal aspecten een genuanceerder oordeel konden uitspreken dan met de scoringsrubriek. Dat speelde met name bij criteria waar in het nakijkformulier van Mediastudies 10 punten of meer te verdelen waren terwijl je bij het vergelijkbare criterium uit de scoringsrubriek slechts kon kiezen uit de 6 alternatieven van de Likertschaal. Deze ervaring kwam vooral in de derde beoordelingsronde aan het licht toen met de scoringsrubriek werkstukken werden beoordeeld die een paar weken eerder al waren beoordeeld met het UvA-nakijkformulier.

Beoordelen van inhoudelijke kennis en competenties

De beoordelaars kwamen regelmatig terug op de vraag of de beoordelingsinstrumenten wel voldoende aandacht besteden aan kennis en competenties die specifiek betrekking hebben op het vak Mediastudies. Daarbij maakten zij onderscheid tussen meer formele criteria - zoals correct gebruik van een citation style in de beschrijvingen van referentielijst en de bronverwijzingen in de tekst - en meer inhoudelijke criteria. Met dat laatste werd dan bijvoorbeeld gedoeld op het beoordelen van de relevantie van een bron voor het beantwoorden van de onderzoeksvraag en de bespreking van begrippen en theorieën, wat in het UvA-nakijkformulier wordt geschaard onder het criterium ‘Theoretisch kader’.

In de scoringsrubriek zoals die door de beoordelaars in dit project werd gebruikt, hadden slechts drie van de zes criteria wat meer betrekking op vakinhoud (oriëntatie, kwaliteit van de primaire bronnen en verwerking van relevante informatie tot nieuwe kennis). Daarbij dient opgemerkt te worden dat deze drie criteria wel extra zwaar mee telden bij het vaststellen van de eindscore, zodat ze samen 6/9 (67%) van het eindcijfer uit maakten. Een van de beoordelaars wees echter op het feit dat dat het gevoel van onvoldoende aandacht voor de inhoud niet altijd weg neemt. Hij verwoordde het als volgt: “Ik denk dat het idee om er meer gewicht aan te geven misschien nog niet voldoende is. Het is namelijk ook een kwantitatief iets, zo van.. hoeveel criteria heb je ten opzichte van de criteria die over de inhoud gaan? Als je twee criteria over inhoud hebt en je hebt er vier over de andere dingen, dan voelt het voor jou als nakijker altijd heel erg dat je niet genoeg met de inhoud bezig bent.”

6

Omdat de beoordelaars met deze ervaring nauw aansloten bij andere geluiden in de academische

wereld over de aandacht voor ‘algemene vaardigheden’ (zie bijvoorbeeld Godwin, 2005, p. 70), zal in paragraaf 6.7 (‘Discussie’) nader worden ingegaan op hun gevoel en de wijze waarop dat strookt met de andere gegevens uit dit onderzoek.

Interbeoordelaarsbetrouwbaarheid voor criterium 1, ‘Oriëntatie’

Waarom ICC(3) juist voor het eerste criterium (oriëntatie) onder het gewenste niveau was, is tijdens de nabespreking met de beoordelaars kort aan de orde geweest. Beoordelaar 2 gaf als mogelij- ke verklaring dat hij juist bij dit criterium extra streng is geweest. Hoewel dat geen gevolgen hoeft te hebben voor de onderlinge consistentie op dat criterium, is zijn opmerking wel aanleiding geweest om na te gaan wat voor de afzonderlijke beoordelaars de gemiddelde score en de standaarddeviatie per criterium was. Vandaar dat in deze paragraaf met kwalitatieve resultaten nog een tabel met kwantitatieve resultaten wordt gegeven.

Tabel 6.14 geeft aan dat het criterium oriëntatie inderdaad een van de twee criteria is waarbij de gemiddelde score van beoordelaar 2 lager is dan die van beoordelaar 1. Bovendien is het verschil daar ook groter dan bij het andere criterium, de bronverwijzingen. Op de andere criteria scoort beoordelaar 2 gemiddeld steeds iets hoger dan beoordelaar 1 of gelijkwaardig.

Tabel 6.14

Gemiddelde scores en standaarddeviaties voor de beoordelingen met de scoringsrubriek bij de opleiding Mediastudies van de UvA

Criterium Beoordelaar 1 Beoordelaar 2

1 Oriëntatie (1-6) 4,1 (0,97) 3,8 (1,15) 2 Literatuurlijst (1-6) 4,5 (1,03) 5,2 (1,01) 3 Primaire bronnen (1-6) 4,3 (1,11) 4,4 (1,30) 4 Bronverwijzingen (1-6) 4,0 (1,00) 3,8 (1,27) 5 Informatieverwerking (1-6) 3,8 (0,98) 3,8 (1,29) 7 Secundaire bronnen (1-6) 4,1 (1,17) 4,4 (1,01) Cijfer (1-10) 6,5 (1,48) 6,6 (1,67)

Consequenties voor studenten

De beoordelaars hadden in een eerder stadium studenten begeleid bij de uitvoering van de betref- fende opdracht maar daarbij geen beoordelingen opgemaakt. Ze waren sowieso nooit eerder inge- zet als beoordelaar van opdrachten in het onderwijs. Dat maakte de betrokkenheid bij het project voor hen aantrekkelijk. Voortbouwend op ervaringen die ze eerder als student-assistent hadden opgedaan konden ze nu een stap verder zetten in hun ontwikkeling als expert op het gebied van mediastudies. Gedurende het project kwam met name beoordelaar 1 er echter ook achter dat ze het wel plezierig vond dat haar beoordelingen geen consequenties zouden hebben voor de betrokken studenten. Het ontbreken van de verantwoordelijkheid om studenten eventueel af te wijzen, werd door haar dan ook niet als negatief ervaren maar eerder als een gunstige omstandigheid om ervaring op te doen met het beoordelen van studentenwerk.

Volgorde waarin de beoordelingscriteria worden gepresenteerd

Tijdens de laatste nabespreking deden de twee beoordelaars de suggestie om bij de scoringsrubriek de volgorde van de criteria te wijzigen. Daarbij ging het met name om de meer formele criteria: criterium 2 (literatuurlijst) en criterium 4 (bronverwijzingen). Dit betreft juist de criteria die bij beoordelaar 2 lager op de factoranalyse laadden.

6.6 Conclusies

Doel van het onderzoek dat in dit hoofdstuk is beschreven, was het vaststellen van de betrouwbaarheid en validiteit van de Scoringsrubriek voor Informatievaardigheden. In het onderzoek zijn daarvan weer verschillende vormen onderscheiden. Ze worden hierna afzonderlijk behandeld.

Onderzoeksvraag a): Interbeoordelaarsbetrouwbaarheid

Op basis van de resultaten uit paragraaf 6.4 kan worden geconcludeerd dat de onderlinge overeenstemming tussen de twee beoordelaars (‘interbeoordelaarsbetrouwbaarheid’) in dit geval goed was te noemen. Aanpalende overeenstemming voor de afzonderlijke criteria was met 80% of hoger zonder meer acceptabel; de aanpalende overeenstemming voor de eindcijfers was iets lager maar had dan ook betrekking op een 10 punts schaal in plaats van een 6 punts schaal. De Intraclass Correlation ICC(3) was alleen voor het eerste criterium (oriëntatie) onder het gewenste niveau van 0,60. Die voor de eindcijfers benaderde de excellente waarde van 0,75.

Voor het feit dat de ICC(3) voor het criterium ‘oriëntatie’ onder het gewenste niveau was, gaf een van de beoordelaars de verklaring dat hij juist bij dat criterium extra streng is geweest. Een andere verklaring is echter dat beoordelaars de neiging hebben om juist bij dit criterium hun eigen accenten te leggen. Het criterium geeft, meer dan veel van de andere criteria, daarvoor relatief veel vrijheid: het gaat om de kwestie of de student goede vragen heeft gesteld en of hij/zij een duidelijke eigen invalshoek heeft gekozen. Het enige andere criterium uit de scoringsrubriek met zo’n meer subjectief karakter is criterium 5, de ‘verwerking van relevante informatie tot nieuwe kennis en/of inzichten’.

In tegenspraak met bovenstaande constatering dat de twee beoordelaars het over het algemeen goed met elkaar eens waren, is de constatering dat de overeenstemming over de beslissing voldoende-onvoldoende wel lager was dan gewenst. Voor vier van de zes afzonderlijke criteria was ICC(3) type A lager dan 0,60, voor ICC(3) type C gold dat zelfs voor vijf van de zes criteria. Gelukkig waren beide typen ICC(3) bij de beslissing voldoende-onvoldoende voor de eindcijfers wel hoger dan 0,60, zij het dat de waarden nog altijd 0,10 lager waren dan bij de score op de volledige schaal van 1-10. Een verklaring voor dit verschijnsel kan worden gevonden in het ontbreken van ervaring bij de beoordelaars met het nemen van deze voor studenten zo belangrijke beslissingen. In de nabesprekingen heeft één van de beoordelaars aangegeven dat zij zich op dat gebied nog erg onzeker voelde en dat ze blij was dat er voor studenten geen consequenties verbonden waren aan de beoordelingen.

6

Een andere verklaring was volgens de beoordelaars echter dat heel veel van de papers die werden

beoordeeld, op het randje van de voldoende of onvoldoende balanceerden. “Dan kan het heel snel zijn dat ze een tik de ene kant op krijgen of net de andere kant op” (beoordelaar 2). Dat beeld van het grote aantal ‘twijfelgevallen’ komt trouwens weer niet overeen met de cijfers die in werkelijkheid door de echte docenten waren toegekend. Díe hadden echter gebruik gemaakt van het volledige nakijkformulier uit bijlage 1 en bestonden zelf weer uit een groep van vijf beoordelaars terwijl de aantallen beoordeelde werkstukken zeer onevenwichtig over hen waren verdeeld. Vanwege de vele variabelen waarover de onderzoeker geen controle had, is besloten om van díe gegevens geen gebruik te maken.

Onderzoeksvragen b) en c): Interne consistentie en homogeniteit (constructvaliditeit)

Waren de waarden voor de indicatoren van de interbeoordelaarsbetrouwbaarheid over het algemeen ‘goed’ te noemen, die voor de interne consistentie van de beoordelingen vielen nog wat beter uit. Vooral beoordelaar 1 wekte de indruk met de scoringsrubriek zeer consistent te kunnen werken. Cronbach’s Alpha benaderde in haar geval de 0,90, wat wordt beschouwd als excellent. Daar staat tegenover dat je in haar geval ook zou kunnen denken dat zij zich bij het scoren van afzonderlijke criteria ook heeft laten leiden door het ‘algemene beeld’ dat zij van het werkstuk had en dat beoordelaar 2 wat meer analytisch en gedifferentieerd was met zijn scores. Het feit dat de standaarddeviatie bij beoordelaar 2 over het algemeen wat hoger is (zie tabel 6.14), bevestigt dat. Voor complexe en samengestelde opdrachten zoals dit onderzoeksvoorstel dat de studenten bij de opleiding Mediastudies dienden te schrijven, geven onderwijskundigen overigens de voorkeur aan een meer holistische benadering. De analytische benadering kan namelijk leiden tot het louter afvinken van afzonderlijke criteria terwijl bij dit soort opdrachten het geheel vaak meer is dan de som van de delen (Hogeschool van Amsterdam, 2014). Het is wel plezierig om te merken dat het verschil in benadering tussen de twee beoordelaars in dit project niet heeft geleid tot extreme verschillen in de beoordelingen.

Met betrekking tot de constructvaliditeit kan in ieder geval gesteld worden dat de item-totaal sta- tistieken voldoende aanwijzingen geven voor de conclusie dat de zes beoordelingscriteria geza- menlijk betrekking hebben op één en het zelfde construct. Dat werd nog eens onderschreven door de uitkomsten van de factoranalyses die werden uitgevoerd op de gegevens van de afzonderlijke beoordelaars. Ook die gaven aan dat de zes beoordelingscriteria verwijzen naar één en de zelfde dimensie. Daarmee is overigens nog steeds niet gezegd dat de beoordelingscriteria verwijzen naar het bedoelde construct informatievaardigheden en dat het model in afbeelding 6.1 correct is. De theoretische exercities in hoofdstuk 4 tijdens het ontwerpen van de scoringsrubriek maken dat echter wel waarschijnlijk. Cronbach en Mehl (1995, p. 294) zeggen in zo’n geval dat de validiteit “acceptabel” is .

Het is dan ook aannemelijk dat de scoringsrubriek een valide afbeelding is van het construct Informatievaardigheden. Wel is door de beoordelaars opgemerkt dat criterium 2 (Bronnenoverzicht/ literatuurlijst) en criterium 4 (Bronverwijzingen in de tekst) inhoudelijk meer met elkaar te maken hebben dan in de huidige presentatie van de scoringsrubriek wordt gesuggereerd. Daaruit volgt de aanbeveling om deze twee criteria in een volgende versie van de scoringsrubriek in elkaars context

te presenteren. Het ligt voor de hand om criterium 4 (Bronverwijzingen in de tekst) dan te verplaat- sen naar positie 2, zodat de volgorde tussen het huidige criterium 2 (Bronnenoverzicht / literatuurlijst) en criterium 3 (Kwaliteit van de gebruikte primaire informatiebronnen) blijft gehandhaafd.

Onderzoeksvraag d): Criteriumvaliditeit

Om te achterhalen in hoeverre de scoringsrubriek ook daadwerkelijk meet wat ze pretendeert te meten, namelijk de informatievaardigheden van een student, zijn de beoordelingen met de rubric vergeleken met beoordelingen die werden opgemaakt met het reeds bestaande beoordelingsin- strument dat door de opleiding zelf werd gebruikt. Vooraf mocht worden aangenomen dat het UvA-nakijkformulier goed zou aansluiten bij de manier waarop de beoordelaars gewend zijn naar de uitwerkingen te kijken. Anders dan de scoringsrubriek kwam het UvA-nakijkformulier immers uit de context waarin de beoordelaars zelf waren opgeleid en waarin ze gewend waren te werken. Voor beide beoordelaars gold dat de twee verschillende soorten beoordelingen hoog met elkaar correleerden, voor een van de beoordelaars zelfs zeer hoog. Maar ook met betrekking tot deze correlaties geldt dat we dan nog steeds niet weten of de scoringsrubriek ook werkelijk het beoogde construct informatievaardigheden meet. Ook hier geldt echter dat de eerder uitgevoerde theoretische exercities dat wel aannemelijk maken.

In document Beoordelen van informatievaardigheden in het hoger onderwijs (pagina 134-138)