Vergelijking van de scoringsrubriek en het UvA-beoordelingsformulier

Deel II Testen en evalueren van het prototype van de scoringsrubriek

6 Testen van betrouwbaarheid en validiteit bij de opleiding Mediastudies van de

6.2 Vergelijking van de scoringsrubriek en het UvA-beoordelingsformulier

De opleiding Mediastudies gebruikt voor het beoordelen van de onderzoeksvoorstellen een eigen beoordelingsformulier dat door hen zelf “Nakijkformulier Toets II” wordt genoemd. Het volledige formulier is hier opgenomen als bijlage 6.1. Dit beoordelingsformulier dat in het vervolg zal worden aangeduid als “het UvA-nakijkformulier”, heeft (anders dan de scoringsrubriek) niet de uitdrukkelijke intentie om informatievaardigheden te beoordelen. Om het te kunnen gebruiken als onderzoeksmateriaal in het kader van de laatste onderzoeksvraag (de vraag in welke mate de scoringsrubriek correleert met een concurrerend beoordelingsinstrument) diende de inhoud van het formulier daarom eerst vergeleken te worden met de inhoud van het construct informatievaardigheden. Daarbij viel op dat de verschillende hoofd- en subcriteria in het UvA-nakijkformulier een wat onevenwichtige indruk maken. Met name bij het onderdeel Methode waarvoor (zonder nadere specificatie) 30 punten zijn te behalen, lijken de subcriteria van verschillende aard. De ene keer gaat het om een evaluatie van het zoekproces, een andere keer om het evalueren van de gevonden bronnen zelf en een derde keer om een indeling in inhoudelijke clusters.

Dat komt ook tot uitdrukking in figuur 6.1. In deze afbeelding worden de deelvaardigheden die zijn onderscheiden in hoofdstuk 1 weergegeven als latente variabelen van het samengestelde construct informatievaardigheden. Deze latente variabelen worden vervolgens gerelateerd aan de indicatoren uit de scoringsrubriek en aan die uit het UvA-nakijkformulier. In werkelijkheid worden de indicatoren of beoordelingscriteria gebruikt om het construct daadwerkelijk te meten. Benadrukt wordt dat het daarbij altijd zal gaan om meer of minder imperfecte metingen. Het onderzoek naar de constructvaliditeit (onderzoeksvragen b en c) is bedoeld om vast te stellen hoe goed die metingen uiteindelijk blijken te zijn.

Een vergelijking van de twee groepen indicatoren maakt ook duidelijk in welke mate de scoringsrubriek en het UvA-nakijkformulier met elkaar én met de inhoud van het begrip informatievaardigheden overeenkomen.

6

3. Kwaliteit van de gebruikte primaire informatiebronnen 2. Bronnen- overzicht / literatuurlĳst Onderkennen van een informatie- behoefte Formuleren van een zoekvraag Selecteren en raadplegen van geschikte informatiebronnen Gebruik van ICT

bĳ het raadplegen van inf. bronnen Selecteren en beoordelen van de inf. die is gevonden Verwerken, hergebruiken en verspreiden van de gevonden inf. Informatie- vaardigheden 1. Probleemstelling 2. Verantwoording 1. Oriëntatie op het onderwerp 4. Methode: evaluatie zoektocht naar bronnen (waar/hoe) 6. Zoektermen 4. Methode: evaluatie gevonden bronnen (betrouwbaar) 4. Methode: gezocht in verschillende catalogi en databases 7. Gebruik van diverse secundaire informatiebronnen 4. Bron- verwĳzingen in de tekst 3. Theoretisch kader 7. Accuratesse: referentielĳst en correct citeren en parafraseren 5. Verwerking van relevante informatie tot nieuwe kennis en/of inzichten 5. Evaluatie 6. Planning

(deelvaardigheid van) informatievaardigheden

indicator uit de scoringsrubriek voor informatievaardigheden indicator uit het UvA nakĳkformulier wordt beoordeeld bĳ indicator …………. 4. Zinvolle en

diverse selectie van bronnen

Figuur 6.1

Vergelijking van de deelvaardigheden behorende bij het construct informatievaardigheden met de indicatoren van het UvA-nakijkformulier en die van de Scoringsrubriek voor Informatievaardigheden

Uit de analyse in figuur 6.1 blijkt dat

• de deelvaardigheid ‘gebruik van ict bij het raadplegen van informatiebronnen’ in geen van beide beoordelingsmodellen als criterium wordt gebruikt en

• dat het UvA-nakijkformulier twee beoordelingscriteria kent die geen deel uitmaken van het theoretische construct informatievaardigheid dat in hoofdstuk 1 is onderscheiden.

Dat het gebruik van ict niet is opgenomen als beoordelingscriterium in de scoringsrubriek, komt voort uit het eerder gekozen uitgangspunt om bij de ontwikkeling van de scoringsrubriek de nadruk te leggen op het gebruik van informatie op een conceptueel niveau en niet op ict-vaardigheden sec. Ook de ontwikkelaars van het nakijkformulier van de UvA hebben blijkbaar geen aanleiding gezien om ICT-gebruik als apart beoordelingscriterium op te nemen.

De twee beoordelingscriteria van het UvA-nakijkformulier die niet in de scoringsrubriek zijn gebruikt - ‘planning’ en ‘evaluatie’ - zijn nauw gerelateerd aan de manier waarop het onderwijs in dit onderdeel van de opleiding Mediastudies is ingericht. In de invulling van het construct informatievaardigheden die in hoofdstuk 1 werd gehanteerd en in de scoringsrubriek ontbreken ze als deelvaardigheid en beoordelingscriterium omdat díe modellen immers zijn bedoeld om meer generiek te worden toegepast.

Het volledige nakijkformulier van de UvA waar de analyse uit figuur 6.1 op is gebaseerd, is opgenomen als bijlage 6.1. In het onderzoek dat in dit hoofdstuk wordt beschreven is van het UvA- nakijkformulier alleen gebruik gemaakt van de criteria die een corresponderend criterium hadden in de scoringsrubriek. Bijlage 6.2 geeft het UvA-nakijkformulier zoals het uiteindelijk in het onderzoek is gebruikt. De criteria die niet zijn gebruikt, zijn in die bijlage grijs afgedrukt.

Tenslotte bleek al vroeg tijdens het onderzoek dat het beoordelingscriterium ‘zoektermen’ uit de scoringsrubriek niet goed gebruikt kon worden omdat in de opgave niet expliciet om vermelding van de gebruikte zoektermen werd gevraagd. Sommige studenten gaven uit zich zelf wel een overzicht van de gebruikte zoekwoorden, anderen beperkten zich in de weergave van hun ‘methode’ echter tot bijvoorbeeld een paar sleutelpublicaties en het gebruik van de ‘sneeuwbalmethode’. De onduidelijkheid hierover leidde tot het besluit om criterium 6 van de scoringsrubriek niet bij het onderzoek te betrekken.

Weging van de verschillende indicatoren

Behalve dat de indicatoren uit het nakijkmodel van de UvA inhoudelijk dienden te corresponderen met die van de scoringsrubriek, was het ook van belang dat de weging van de afzonderlijke indicatoren min of meer vergelijkbaar was. Het gewicht van de afzonderlijke indicatoren van de twee beoordelingsinstrumenten, wordt uitgedrukt in tabel 6.1. Voor de groepering van de indicatoren is uitgegaan van de volgorde die wordt gehanteerd in het nakijkformulier van de UvA. Drie keer komt het voor dat een cel bij een van de twee beoordelingsmodellen twee of meer indicatoren bevat. Dat wordt dan veroorzaakt door het feit dat het andere model voor het corresponderende onderdeel slechts één indicator kent.

6

Tabel 6.1

Weging van de afzonderlijke indicatoren van zowel het UvA-nakijkformulier als van de Scoringsrubriek voor Informatievaardigheden

UvA-nakijkformulier Scoringsrubriek voor Informatievaardigheden

Probleemstelling 10 Oriëntatie op het onderwerp 20

Verantwoording 5

Theoretisch kader 20 Verwerking van relevante informatie tot nieuwe kennis en/of inzichten

20 Methode

• evaluatie zoektocht naar bronnen (waar/ hoe)

• evaluatie gevonden bronnen (betrouwbaar)

• zinvolle en diverse selectie van bronnen • gezocht in verschillende catalogi en

databases

Zoektermen 10*

Kwaliteit van de gebruikte primaire informatiebronnen

20 Gebruik van diverse secundaire

informatiebronnen 10 Evaluatie 10* Planning 5* Accuratesse • referentielijsten

• correct citeren en parafraseren

20 Bronnenoverzicht/literatuurlijst Bronverwijzingen in de tekst

10 10 * Deze criteria zijn in het onderzoek niet gebruikt omdat ze geen corresponderend criterium hadden in de scoringsrubriek respectievelijk het UvA-nakijkformulier

Omdat bij het onderzoek naar de validiteit van de scoringsrubriek twee indicatoren van het UvA- nakijkformulier (Evaluatie en Planning) niet gebruikt zijn, was de in het onderzoek maximaal te behalen score met het UvA-nakijkformulier 85 punten. Voor de scoringsrubriek was het maximum aantal te behalen punten 90, aangezien daar het criterium zoektermen niet in het onderzoek werd betrokken. Tabel 6.2 geeft de weging van de indicatoren die wel gebruikt werden, maar dan uitgedrukt in percentages van het maximaal te behalen aantal punten. Uit de tabel blijkt dat inhoudelijk vergelijkbare indicatoren qua weging wel van elkaar verschillen maar dat die verschillen betrekke- lijk gering zijn. Het grootste verschil bevindt zich bij de eerste groep waar de probleemstelling en verantwoording bij het UvA-nakijkformulier samen voor 17,7% meetellen terwijl het corresponderende criterium in de scoringsrubriek – oriëntatie op het onderwerp – voor 22% deel uitmaakt van de beoordeling.

Tabel 6.2

Wegingspercentages van de in het onderzoek bij Mediastudies daadwerkelijk gebruikte indicatoren

UvA-nakijkformulier Scoringsrubriek voor Informatievaardigheden Probleemstelling 11,8% Oriëntatie op het onderwerp 22%

Verantwoording 5,9%

Theoretisch kader 23,5% Verwerking van relevante informatie tot nieuwe kennis en/of inzichten 22% Methode

• evaluatie zoektocht naar bronnen (waar/hoe)

• evaluatie gevonden bronnen (betrouwbaar)

• zinvolle en diverse selectie van bronnen • gezocht in verschillende catalogi en

databases

35,3%

Kwaliteit van de gebruikte primaire informatiebronnen

22% Gebruik van diverse secundaire

informatiebronnen 11%

Accuratesse • referentielijsten

• correct citeren en parafraseren

23,5% Bronnenoverzicht/literatuurlijst

Bronverwijzingen in de tekst 11%11%

Verschil tussen de twee beoordelingsformulieren

Een vergelijking van de twee volledige beoordelingsmodellen zoals die zijn opgenomen als bijlage 6.2 en bijlage 6.3 maakt duidelijk dat er niet alleen sprake is van verschillen in de criteria die worden gebruikt maar ook van verschillen in de aanpak van het beoordelingsproces. De scoringsrubriek maakt gebruik van een 6 punts Likertschaal en een uitgebreidere toelichting in zinsverband op de criteria terwijl het beoordelingsmodel van de opleiding zelf slechts korte aanduidingen van de beoordelingscriteria kent, die vervolgens wel op een schaal met een grotere spreiding worden beoordeeld. De voor- en nadelen van deze verschillen in aanpak zijn gedurende het onderzoek expliciet onderwerp van gesprek geweest tijdens de nabesprekingen met de beoordelaars.

Verschil tussen het prototype van de scoringsrubriek uit bijlage 4.1 en de versie die bij de opleiding Mediastudies werd gebruikt

Na de eerste trainingsronde werd op verzoek van de beoordelaars besloten om de scoringsrubriek op twee punten aan te passen:

• Voor de duidelijkheid werd bij ieder punt op de Likertschaal het aantal toe te kennen punten voor de score in de laatste kolom toegevoegd

• Omwille van de symmetrie werd de omschrijving van de hoogste categorie op de Likertschaal gewijzigd van “uitstekend” in “zeer goed”.

6 6.3 Methode

Participanten

Het onderzoek is uitgevoerd aan de hand van de uitwerkingen van 80 eerstejaars studenten. Het aantal te beoordelen werkstukken is vooraf om budgettaire redenen tot dat getal beperkt. De gebruikte werkstukken waren random gekozen uit een sample van 119 die weer onderdeel was van een set van circa 300 werkstukken. De sample van 119 was gebaseerd op een groep docenten / begeleiders die op uitnodiging van de coördinerende docent toestemming hadden gegeven om de werkstukken te gebruiken voor het onderzoek. Nadat ook aan alle betrokken eerstejaars studenten toestemming was gevraagd om van hun uitwerking gebruik te mogen maken, bleef de sample van 119 werkstukken over.

Procedure

Voor de beoordelingen van de werkstukken werden twee recent afgestudeerde master studenten gevraagd in de rol van student-assistent. De betreffende oud studenten waren tevens betrokken geweest bij de begeleiding van studenten tijdens het werk aan de opdracht. Ze hadden in die periode echter geen beoordelingen opgemaakt en waren dan ook niet bekend met de eerder toegekende beoordelingen.

De te beoordelen werkstukken zijn vooraf anoniem gemaakt en genummerd. Om counterbalan- cing te kunnen toepassen met het doel storende effecten van de taakvolgorde uit te schakelen, werden de 119 beschikbare uitwerkingen random ingedeeld in drie groepen: 20 werkstukken in een set die gebruikt werd om de beoordelaars vooraf te trainen (groep T), 40 werkstukken in groep A en 40 werkstukken in groep B. Daarnaast was er een restgroep van 19 werkstukken die niet werden gebruikt.

De 80 werkstukken uit groep A en B werden door ieder van de twee beoordelaars twee maal beoordeeld: een maal met de scoringsrubriek voor informatievaardigheden en een maal met het beoordelingsmodel van de opleiding Mediastudies zelf. Voorafgaand aan het beoordelingsproces zijn twee trainingsmiddagen georganiseerd waarin de beoordelaars aan de hand van uitwerkingen uit groep T oefenden met de scoringsrubriek respectievelijk het UvA-nakijkformulier. Aan het einde van de trainingen bereikten de beoordelaars een hoge mate van overeenstemming over de beoordeling van identieke werkstukken. Voor de scoringsrubriek gold dat de beoordelaars aan het einde van de training overeenstemming hadden over alle criteria op één na, waarvoor ze aanpalende overeenstemming bereikten.

Tijdens het eigenlijke beoordelingsproces werkten de beoordelaars niet tegelijkertijd aan de zelfde uitwerkingen. De verdeling van het werk vond plaats volgens onderstaand schema:

Tabel 6.3

Tijdschema voor het beoordelen van de werkstukken bij de opleiding Mediastudies van de UvA

Beoordelaar 1 Beoordelaar 2 Periode

Groep A Scoringsrubriek Groep B Scoringsrubriek Week 1-3 Groep B UvA-nakijkformulier Groep A UvA-nakijkformulier Week 4-6 Groep B Scoringsrubriek Groep A Scoringsrubriek Week 7-9 Groep A UvA-nakijkformulier Groep B UvA-nakijkformulier Week 10-11

De beoordelaars noteerden hun bevindingen op papieren beoordelingsformulieren en legden hun scores vast in een Excel formulier. Bovendien werd na afloop van iedere beoordelingsronde een bijeenkomst georganiseerd waarin de ervaringen werden uitgewisseld en nabesproken.

Data-analyse

De interbeoordelaarsbetrouwbaarheid werd bepaald door zowel voor de afzonderlijke beoordelingscriteria van de scoringsrubriek als voor de eindcijfers vast te stellen in welke mate er sprake was:

• van absolute overeenstemming, • aanpalende overeenstemming en

• overeenstemming over de beslissing voldoende-onvoldoende.

Nadeel van het gebruik van dergelijke percentages overeenstemming is echter dat er geen reke- ning wordt gehouden met de kans dat beoordelaars bij toeval overeenstemmen. In het geval dat er voldoende data beschikbaar zijn, is het dan ook verstandig om gebruik te maken van een geavan- ceerder kengetal. Bij intervaldata zoals die op de Likertschaal van de scoringsrubriek wordt de Intraclass Correlation Coefficient aanbevolen (Hallgren, 2012, p. 29). Van deze coëfficiënt bestaan verschillende types. In dit onderzoek was het type Two-Way Mixed (ICC(3)) het meest passend omdat er sprake was van twee beoordelaars die ieder de zelfde set van werkstukken beoordeelden (Landers, 2011). Bij deze ICC(3) kan vervolgens nog een keuze worden gemaakt tussen een variant waarbij absolute overeenstemming het uitgangspunt is (type A) en een variant waarbij onderlin- ge consistentie het uitgangspunt is (type C). In dit onderzoek worden beide types vastgesteld en gerapporteerd. Als norm werd aangehouden dat een waarde van 0,60 of hoger een indicatie is van een goede interbeoordelaarsbetrouwbaarheid; een waarde vanaf 0,75 werd beschouwd als excellent (Cicchetti, 1994, p. 286).

Tevens werden met behulp van de procedures factoranalyse (extractiemethode Principal Axis Factoring, rotatiemethode Oblimin met Kaizer Normalisatie) en betrouwbaarheidsanalyse in SPSS de homogeniteit en de interne consistentie van de scoringsrubriek vastgesteld.

De derde onderzoeksvraag tenslotte, die naar de criteriumvaliditeit van de scoringsrubriek, werd beantwoord door de Pearson Correlatie Coëfficiënt (r) vast te stellen tussen de eindcijfers die de afzonderlijke beoordelaars gaven met de scoringsrubriek en de eindcijfers die ze gaven met het beoordelingsmodel van de opleiding zelf.

De nabesprekingen met de twee beoordelaars die na afloop van iedere beoordelingsronde zijn georganiseerd, werden opgenomen met een memorecorder en samengevat in een schriftelijk ver- slag. De onderwerpen die tijdens deze nabesprekingen aan de orde kwamen, worden behandeld in een aparte paragraaf met kwalitatieve resultaten.

In document Beoordelen van informatievaardigheden in het hoger onderwijs (pagina 122-128)