• No results found

Hoofstuk 4: Die loodsing en verfyning van ʼn nagraadse toets van akademiese

2. Die toetsontwikkelingproses voortgesit: Die eerste loodstoetsing van

2.3 Prosedure en benadering

Aangesien dit nie prakties haalbaar was om die totale getal ontwerpte toetsitems binne een enkele toetssessie op kandidate te loods nie, is hierdie items volgens subtoets in ’n reeks kleiner klastoetse verdeel wat elk binne die bestek van een periode deur kandidate afgelê kon word. Optiese leeskaarte wat elektronies per rekenaar by ’n dienspunt van die UV nagesien word, is as antwoordstelle vir hierdie toetse gebruik. Die uiteindelike datastelle vir statistiese analise is saamgestel uit die toetsresultate wat in MS Excel-formaat van hierdie dienspunt ontvang is. Gedetailleerde data-analises is vervolgens met behulp van die Iteman 4.3- en TiaPlus-sagteware vir toets- en itemanalise uitgevoer. Beide hierdie programme genereer elektroniese data-analiseverslae gebaseer op klassieke toetsteorie (“classical test theory”). Die doel van hierdie verslae is om ’n aanduiding van die kwaliteit van die toetsitems te gee aan die hand van hulle psigometriese eienskappe (Guyer & Thompson, 2011:1). Vir die doeleindes van hierdie studie geld die verslae wat deur Iteman 4.3 gegenereer is as die primêre verslae vir die evaluering van toetsitems, terwyl die Tiaplus-verslae enkele addisionele statistiek en grafika verskaf wat telkens gebruik word om die Iteman- resultate te kruiskontroleer en te bevestig. Bykomend hiertoe, en slegs waar toepaslik, word enkele verwerkte data van die Winsteps-program ook by die bespreking van die toetsresultate betrek. Winsteps, anders as Iteman 4.3 en TiaPlus, assisteer met die toepassing van ’n spesifieke vertakking van item- responsteorie (“item response theory”) genaamd Rasch-analise.

Green (2013:xii-xiii) verduidelik dat daar oor die algemeen twee benaderings ten opsigte van die analise van toetsdata is, naamlik klassieke toetsteorie (KTT) en moderne toetsteorie, met laasgenoemde wat ook as item-responsteorie (IRT) bekend staan. KTT behels die analise van toetsdata ten einde aspekte te ondersoek soos die moeilikheidsgraad van items (fasiliteitswaarde), hoe goed items tussen kandidate diskrimineer (diskriminasiewaarde), hoe elke item tot die betroubaarheid van ’n toets bydra, die verhouding tussen die verskillende dele

119

van ’n toets en die verband tussen die eienskappe van kandidate en hulle toetsprestasie. Baie van hierdie analises maak sterk staat op die korrelasiekoëffisiënt12.

KTT gaan van die veronderstelling uit dat omrede vermoëns (bv. taalvermoë) ’n abstrakte entiteit is dit nooit direk deur ’n toets gemeet kan word nie. In hierdie benadering word aanvaar dat ’n toetskandidaat se waargenome telling (“observed score”) die som van twee komponente is, naamlik die werklike telling (“true score”) plus ’n metingsfoutkomponent (“measurement error”), waar laasgenoemde dui op variansie wat nie vermoëverwant is nie, maar eerder onsistematies of willekeurig (“random error”) van aard. Hierdie aanname vorm die kern van KTT waaruit verskeie ander statistiek voortvloei wat deur programme soos Iteman en Tiaplus bereken word (Cito, 2005). Davies et al. (1999:118) verduidelik dat “[e]rror is associated with all measurement of language, and interferes with the attempt to determine the true score of the test taker”. Hoewel ewekansige fout (“random error”) bereken kan word deur die gebruik van ’n statistiek bekend as die standaardmetingsfout (“standard error of measurement”), kan dit nie heeltemal uitgeskakel word nie en beïnvloed dit die betroubaarheid van ’n toets. Bronne van toetsonbetroubaarheid sluit bv. in variansie as gevolg van toetskandidate se gedrag (motivering, angs, ongesteldheid, raaiskote, ens.), faktore wat verband hou met die toetssituasie self (bv. probleme tydens toetsadministrasie), die invloed van agtergrondskennis op toetsprestasie, ens.

Die tweede benadering waarvan hierbo melding gemaak word, naamlik IRT, het ontstaan in ’n poging om in ’n bepaalde leemte van klassieke toetsanalise te voorsien. Alderson, Clapham en Wall (1995:89-92) verduidelik dat dit met KTT nie moontlik is om ’n vasgestelde meting van ’n toets se moeilikheidsgraad te verskaf nie, aangesien ’n toets se eienskappe in hierdie benadering nie van die eienskappe van die kandidate wat dit aflê, geskei kan word nie. Omdat die

12. ’n Korrelasiekoëffisiënt is ’n statistiek wat bereken word op grond van data wat die krag en rigting van die verhouding tussen twee veranderlikes opsom (Bachman, 2004:84).

120

fasiliteitswaarde van items die proporsie van kandidate verteenwoordig wat die items korrek beantwoord het, hang hierdie waarde onvermydelik af van die vermoë van die groep op wie die items uitgetoets word met die implikasie dat die resultate van die analises in werklikheid slegs vir die betrokke steekproef geld en nie vir steekproewe van kandidate op verskillende vaardigheidsvlakke nie (Alderson et al., 1995:89). Dus is daar, soos McNamara (1996:153) dit stel “no way of knowing whether these characteristics of person ability and item difficulty would be maintained for the persons over different items and for the items if they were tried out on different subjects”. By KTT is daar daarom ’n sekere mate van onbestendigheid ter sprake:“traditional reports of candidate ability [...] and item characteristics [...] are potentially unstable [and] more susceptible to change if different test items and test subjects with differing levels of achievement are involved” (Davies et al., 1999:98).

IRT, en in die besonder Rasch-metingsteorie, oorbrug hierdie probleem deur die ontwikkeling van ’n moeilikheidsgraadskaal waarop items gerangskik word onafhanklik van die steekproef waarop dit geloods is (Alderson et al., 1995:90). Green (2013:xii) verduidelik dat IRT op waarskynlikheidsteorie gebaseer is; d.i. die waarskynlikheid van ’n gegewe persoon om ’n spesifieke item reg te beantwoord, word bepaal. Die basiese metode op grond waarvan hierdie waarskynlikheid bepaal word, kan soos volg toegelig word:

If we know how an individual has performed on other items (we have some estimate of his or her ability), and if we know how other individuals have performed on the item in question (we have an estimate of how difficult the item is), then we are in a position to make an estimate of how likely it is that the individual will respond in a particular

way – that is, to choose either the ‘correct’ of the ‘incorrect’ answer. (McNamara,

1996:160)

Dus, indien ’n item maklik is en die kandidaat se vermoë goed is, is die waarskynlikheid hoog dat die item korrek beantwoord sal word. Insgelyks is die kans op ’n korrekte antwoord hoogs onwaarskynlik indien ’n item moeilik en die kandidaat se vermoë swak is. Met ander woorde, wat die Rasch-model doen, is om ’n wiskundige verband te lê tussen individuele vermoë en item- moeilikheidswaarde, en om hierdie verhouding dan in terme van

121

waarskynlikheid uit te druk (McNamara, 1999:153). Volgens Green (2013:xiii) maak IRT dit moontlik om, anders as KTT, sogenaamde steekproef-vrye moeilikheidswaarde (“sample-free item difficulty”) en item-vrye individuele vermoë (“item-free person ability”) te bepaal. McNamara (1999:153) beskou egter beskrywings soos hierdie as misleidend en onverstandig, aangesien alle estimasies van item-eienskappe, insluitende Rasch-estimasies, gebaseer word op response van bepaalde kandidate op bepaalde items, en sal uiteindelik beperk word deur die kwaliteit van die data waarop dit gebaseer word. Volgens hierdie outeur verskaf Rasch-analise “no magic solutions to problems of poor or inadequate data” (McNamara, 1996:154). Datastelle wat te klein is, lewer veral in hierdie benadering probleme op.

Trouens, die IRT-benadering is nie sonder struikelblokke van sy eie nie. Green (2013:xiii) lys verskeie redes waarom hierdie benadering nie voor die voet deur alle toetsontwikkelaars bo KTT verkies en gebruik word nie. Eerstens, vir IRT- analises om enigsins betekenisvol te wees, is ’n relatiewe groot aantal toetsresultate met ’n minimum van 200 kandidate, maar verkieslik meer as 300 individue per toets nodig – ’n vereiste wat nie altyd in die praktyk van taaltoetsing haalbaar is nie, veral nie by loodstoetsing nie. Daarbenewens was IRT-sagteware tot onlangs toe nog nie so geredelik beskikbaar soos KTT- programme nie, en word ook oor die algemeen as minder gebruikersvriendelik beskou. IRT-programme is byvoorbeeld gebaseer op die sogenaamde “log-odd unit scale” waarmee die meeste taaltoetsontwikkelaars nie vertroud is nie.

In hierdie hoofstuk word die toetsdata primêr vanuit die KTT-benadering geanaliseer en beoordeel. Slegs waar moontlik en van toepassing, word metings wat met behulp van Rasch-analise verkry is by die bespreking betrek. Die Rasch- analises wat wel ter sprake kom, word in die meeste gevalle bloot aangewend as verdere ondersteuning vir die interpretasies en gevolgtrekkings waartoe reeds gekom is op grond van die Iteman- en TiaPlus-berekeninge.

122