• No results found

Kritiek op de bepaling van de grensscores

Kaftandjieva (2010) uit kritiek op de manier waarop de Dialang-grensscores zijn bepaald. Deze procedure wordt de Basket procedure genoemd en is gebaseerd op de intuïtie van experten en niet op empirische data. De procedure houdt geen rekening met de moeilijkheidsgraad van de items in de praktijk. Vele methodes hebben te kampen met een of andere graad van inconsistentie tussen oordeel en empirische gegevens, maar de Basket procedure negeert de inbreng van empirisch onderzoek compleet. Kaftandjieva waarschuwt voor deze tekortkoming aangezien de populariteit van de methode kan leiden tot een significant aantal ongeldige beslissingen in verband met testen.

4 De kwaliteit van een onderzoek wordt bepaald door de betrouwbaarheid en de geldigheid of validiteit. Een

onderzoek is betrouwbaar als het niet door toevalsfouten werd verstoord. Dit betekent dat het onderzoek hetzelfde resultaat zou moeten bieden bij herhaling ervan. Geldigheid heeft betrekking op de vraag of het onderzoek door systematische fouten werd verstoord. Hierbij is de vraag of je meet wat je wilt meten.

33 Een ander punt van kritiek is dat de grensscores de bovengrens van de testscore voor het competentieniveau, dat voorafgaat aan de respectievelijke grensscore, bepalen. Dit wil zeggen dat een gebruiker het maximum aantal items correct kan beantwoorden en zich toch nog kan bevinden op het niveau onder de grensscore. De gebruiker kan volgens de Basket procedure de volgende competentieniveaus behalen:

(Kaftandjieva, 2010, p. 62)

In deze classificatie zien we dat het laagste en het hoogste competentieniveau (A1 en C2) leeg zijn. Deze methode kan geen grensscores bepalen voor deze twee niveaus.

Verder vermeldt Kaftandjieva (2010) dat twee beoordelingen kunnen leiden tot dezelfde grensscore, ook al is de ene beoordelaar consistent en de andere niet. Wanneer een beoordelaar de items zou rangschikken volgens de omgekeerde volgorde van de moeilijkheidsgraad, zouden de grensscores niet verschillen van de andere zolang de frequentiedistributie gelijk blijft. De grensscores zullen m.a.w. enkel van elkaar verschillen indien de frequentiedistributie verschilt. In de Basket procedure blijkt de moeilijkheidsgraad van de items dus geen invloed te hebben op de grensscores. Kaftandjieva vindt dit onlogisch omdat dit niet strookt met wat uit de praktijk gebleken is. Hierdoor wordt zowel het gebruik van de beoordelingen als de bepaling van de grensscores in vraag gesteld.

Een ander belangrijk nadeel van de Basket procedure is dat die kan leiden tot een verkeerde evaluatie van de grensscores, vooral op het einde van een interval waar de ruwe testscores variëren. Dit fenomeen staat bekend als ‘distortion of judgements’ of ‘vertekening van de beoordeling’. De mogelijkheid tot vertekening komt voort uit de formulering en de statistische interpretatie van de beoordelingstaak. De beoordelaar moet definiëren wat het minimumniveau is om alle items correct te beantwoorden. Statistisch gezien, zal de geteste met het goede niveau een hogere kans hebben juist te antwoorden dan fout. De kans op een juist antwoord zal dus hoger zijn dan 50%. Dit wil zeggen dat beoordelaars aan een zeker niveau alle items moeten linken waarbij meer dan 50% het juiste antwoord kan geven, terwijl het slaagpercentage van de voorgaande niveaus minder dan 50% bevat.

34 2.5.3. Methodes om grensscores te bepalen

Kaftandjieva (2010) heeft zes methodes om grensscores te bepalen met elkaar vergeleken. Deze methodes zijn: de Basket procedure, de Compound Cumulative method, de Cumulative Cluster method, de ROC-curve method, de Item Mastery method en de Level Characteristic Curve method. Om de vergelijking mogelijk te maken, heeft Kaftandjieva zes criteria geselecteerd:, de statistische complexiteit, de toepasbaarheid van de methode, de consistentie met empirische data, de standaardafwijking van de grensscores, de misplaatsing van de grensscores en de significantie van de verschillen tussen twee opeenvolgende grensscores. De resultaten van de vergelijking worden gepresenteerd in matrices, één per criteria, in Bijlage 2. Equivalente methodes krijgen waarde 0.5, methodes met een hogere score waarde 1 en methodes met een lagere score waarde 0. In de laatste kolom (Σ) wordt voor elke matrix de rangorde per criteria weergegeven. Hoe hoger de score (maximum 5.5), hoe kwalitatiever de methode wordt gevonden voor het betreffende criterium.

Uit de resultaten blijkt dat volgens het criterium ‘toepasbaarheid van de methode’ de methodes in twee groepen worden opgesplitst. De methodes uit de eerste groep behalen score 4, wat wil zeggen dat ze breed toepasbaar zijn. Deze methodes zijn de Basket procedure, de Compound Cumulative method, de Cumulative Cluster method en de ROC-curve method. De andere twee methodes, de Item Mastery method en de Level Characteristic Curves method, kunnen enkel gebruikt worden bij IRT-testen (Item Response Theory)5.

Volgens het tweede criterium ‘de statistische complexiteit’ is de Basket procedure de eenvoudigste methode, gevolgd door de Compound Cumulative method. Alle andere methodes vereisen het gebruik van statistische software.

Het derde criterium geeft aan of er gebruik gemaakt is van empirische data of niet bij het bepalen van de grensscores. Alle methodes buiten M1 en M6 maken gebruik van een mix van data van de beoordelaars en empirische data. De Basket procedure (M1) en de Level Characteristic Curves method (M6) maken enkel gebruik van data van beoordelaars waardoor ze lager scoren op dit criterium.

5 IRT is een paradigma voor het ontwerp, de analyse en de beoordeling van tests, vragenlijsten, en soortgelijke

meetinstrumenten van vaardigheden, attitudes, of andere variabelen. In tegenstelling tot eenvoudigere alternatieven voor het maken van schalen die de antwoorden uit vragenlijsten evalueren, gaat de IRT er niet van uit dat alle items even moeilijk zijn.

35 ‘Misplaatsing van de grensscores’ is het vierde criterium en bij alle methodes terug te vinden. Het is een gevolg van de formulering van de beoordelingstaak. De Level Characteristic Curves method (M6) geeft de beste balans tussen empirische data en de beoordeling van de grensscores, hier is de misplaatsing het kleinst; de Level Characteristic Curves method krijgt bijgevolg de hoogste score. De methodes die het slechtst scoren, zijn de Basket procedure en de ROC-curve method. Bij deze methodes wordt de hoogste graad van misplaatsing gevonden.

Het voorlaatste criterium geeft een score voor de standaardafwijking van de grensscores. Dit criterium meet m.a.w. hoe groot de kans is dat hetzelfde resultaat bekomen wordt bij een hertoetsing. Die kans is het grootst bij de Compound Cumulative method en het laagst bij de Basket procedure.

Voor het laatste criterium, de significantie van de verschillen tussen twee opeenvolgende grensscores, behalen de Basket procedure en de Item Mastery methode de hoogste score. Dit wil zeggen dat het verschil tussen twee opeenvolgende niveaus groot genoeg is om van juiste grensscores te kunnen spreken.

36

Figuur 8: Resultaten van de vergelijking van de zes methodes (Van Maldergem, 2012, p. 42)

In Figuur 8 is de visuele voorstelling van de resultaten te vinden. Hoe meer het vlak de buitencirkel nadert, hoe geschikter de test voor een bepaald criterium. Logisch gezien, kan men vaststellen dat hoe groter het vlak is, hoe geschikter de methode is om grensscores te bepalen. We zien dat de Compound Cumulative Method (M2) de meest kwalitatieve methode is en de ROC-curve method en de Level Characteristic Curves method de minst kwalitatieve methodes zijn.

We merken ook op dat de Basket procedure, gebruikt in Dialang, niet de meest kwalitatieve methode is en op bepaalde punten erg zwak scoort. Zo wordt de methode niet ondersteund door empirische data, is de standaardafwijking te hoog waardoor hetzelfde resultaat niet gegarandeerd kan worden bij een hertoetsing en is er een hoge kans op onderschatting van de laagste scores en overschatting van de hoogste scores. Kaftandjieva (2010) besluit dan ook dat de validiteit van de basket methode niet gegarandeerd is en raadt dan ook af om deze mode te

37 gebruiken voor het toekennen van scores die bepalend zijn voor belangrijke beslissingen. De methode kan echter wel gebruikt worden bij formatieve beoordelingen zoals Dialang.

Twee van de hoofdontwikkelaars van Dialang, Alderson en Huhta (2005) hebben de bruikbaarheid van de testitems van Dialang onderzocht voor Engels, Frans, Duits, Spaans en Fins. Elk taal bevatte 12 proefboekjes met elk 50 items, waarbij 30 items een belangrijke vaardigheid dekte (lezen, luisteren en schrijven) en 20 items woordenschat of taalstructuren dekte. Elk item komt tweemaal voor in twee proefboekjes om ze daarna te kunnen linken. De boekjes werden willekeurig toegediend aan een proefpersoon, die maar één van de boekjes moest beantwoorden. In totaal werden er 300 items per taal, 60 per vaardigheid, geselecteerd om te proefdraaien. De items werden drie maal beoordeeld en omvatten alle ERK-levels en subvaardigheden. Tijdens de analyse werd gebruik gemaakt van de klassieke en Item Theory Response statistiek. Wegens plaatsgebrek hebben ze enkel de resultaten voor Engels weergegeven. Daaruit blijkt dat de kwaliteit van de test Engels behoorlijk is voor zo’n grootschalig systeem als Dialang. Weinig testitems zijn afgevallen, wat getuigt van een zorgvuldige ontwikkeling. De resultaten tonen ook aan dat de standaardisatieprocedure zeer betrouwbare resultaten kan produceren. Hierbij vermelden ze wel dat de kwaliteit van de standaardisatie kan verschillen van taal tot taal. Daarom pleiten Alderson en Huhta voor meer onderzoek naar de bruikbaarheid van de testitems in de andere Europese talen.