Discussie - Een ideale taaltest?

5.1.1 Verdeling van de scores

De scores op de C-test waren niet normaal verdeeld. Er kwamen meer hoge scores voor dan lage scores, maar de laagste scores stonden veel verder van het gemiddelde af. De gemiddelde score (64.1) was daarbij ook hoger dan 50, de gemiddelde score waar volgens Raatz & Klein – Braley (2002) naar gestreefd moet worden. Dit zou kunnen betekenen dat deze C-test te makkelijk was voor de populatie bij welke deze is getest. Dit wordt bevestigd door het feit dat acht participanten een score van 90 of hoger hadden. Dit is de score die behaald moet worden door hoogopgeleide, volwassen moedertaalsprekers. Het feit dat deze score door acht participanten werd behaald, kan wijzen op een plafondeffect bij deze participanten. Dit zou betekenen dat de test onvoldoende moeilijk is om het ware taalvermogen van deze participanten te meten. De test lijkt in de huidige vorm daarom niet geschikt om de voortgang van de participanten met deze hoge taalniveaus te meten. Dit zou veranderd kunnen worden door een aantal moeilijkere teksten aan de test toe te voegen.

5.1.2 De teksten

Als we in Tabel 5 en Grafiek 3 naar de scores per tekst kijken, zien we dat deze niet in een rechte lijn aflopen. Idealiter zouden de teksten van een C-test moeten oplopen in moeilijkheid.

Elke tekst moet daarbij moeilijker zijn dan de vorige. In het vorige hoofdstuk is te lezen dat door middel van T-scan is geprobeerd de teksten in moeilijkheid te laten oplopen. De tekstcomplexiteit-analyse die is gedaan met T-scan lijkt relevant te zijn geweest, want er zijn hoge correlaties tussen beide factoren en de tekstscore. Deze correlaties zijn te zien in Tabel 6 in het resultaten hoofdstuk.

In Tabel 5 en Grafiek 3 is te zien dat er op de eerste tekst opvallend veel lager werd gescoord dan de daaropvolgende teksten. Als de teksten op basis van de gemiddelde scores worden geordend van hoog naar laag, zou Tekst 1 op de vijfde plek staan. Er is echter reden om aan te nemen dat dit niet/ niet alleen met de tekst zelf te maken heeft maar met het feit dat mensen aan het C-testformat moesten wennen. Bij een aantal participanten is meegekeken naar hoe ze de test invulden. Zij gaven bij de tweede tekst aan dat het nu makkelijker en sneller ging omdat ze beter snapten hoe de test werkte. Als dit voor alle participanten geldt, is het ook niet opvallend dat in Tabel 5 is te zien dat de eerste tekst meer tijd in beslag nam en dat er meer items werden opengelaten. Het zou interessant zijn als de eerste en de tweede tekst waren omgedraaid bij de helft van de groep. Op die manier had berekend kunnen worden of er inderdaad een effect is dat er voor zorgt dat er lager wordt gescoord op de eerste tekst zonder dat dat iets zegt over het niveau van deze tekst. Op basis van de opmerkingen van de geobserveerde participanten wordt aangenomen dat dit effect aanwezig is al is niet duidelijk in welke mate dit de score op de eerste tekst beïnvloedt. Voorafgaand aan deze C-test is een zo duidelijk mogelijke instructie gegeven over het invullen van de C-test. Toch lijkt het verstandig om voortaan voorafgaand aan de echte C-test niet alleen een voorbeeldtekst te laten zien maar ook een proeftekst in te laten vullen. Deze proeftekst kan de participanten beter bekend maken met het C-testformat voordat zij aan de eigenlijke test beginnen.

De resultaten, zoals die in Tabel 5 zijn af te lezen, laten zien dat het percentage opengelaten items over het algemeen opliep naar mate de score lager werd. Hoe moeilijker een tekst wordt, hoe voor de handliggender het ook is dat er meer items worden opengelaten. Er is in Tabel 6 dan ook een hoge negatieve correlatie aangetoond tussen het aantal opengelaten

32 items en de score op de tekst. Een opengelaten item hoeft echter niet altijd iets te zeggen over de moeilijkheid ervan. Een opengelaten item waar wel naar gekeken is en waarbij geprobeerd is om een antwoord te geven, zegt iets over de moeilijkheid ervan. Een opengelaten item waar niet naar gekeken is omdat er al is opgegeven zegt niet zozeer iets over de moeilijkheid van dit item. Toch lijkt het percentage opengelaten items per tekst wel iets te kunnen zeggen over de moeilijkheid hiervan. Het is namelijk zo dat er in Tekst 12, de laatste tekst, minder opengelaten items zijn dan in Tekst 11. Er zit weliswaar een stijgende lijn in het percentage opengelaten items naar mate de test vorderde maar zeker niet elke tekst heeft een hoger percentage opengelaten dan de voorgaande tekst. Het percentage opengelaten items kan dus zeker niet alleen verklaard worden doordat er steeds meer mensen opgaven en niet meer probeerden. Ten minste een aantal participanten heeft bij elke tekst opnieuw geprobeerd zo veel mogelijk items in te vullen.

De gemiddelde tijd per tekst verschilde maar weinig. Over de eerste tekst werd duidelijk langer gedaan maar tussen de overige teksten zit gemiddeld maar 23 seconden verschil. Het zou te verwachten zijn dat moeilijkere teksten meer tijd zouden kosten maar dat is in Tabel 5 niet af te lezen. Ook is in Tabel 6 te zien dat er geen correlatie is tussen de tijd en de score op een tekst. Het zou kunnen dat een aantal participanten naar mate de test vorderde, verveeld raakten en daardoor minder lang bleven proberen en sneller doorklikten.

Het is aan te bevelen om de volgorde van de teksten van deze C-test te veranderen conform de scores, zoals in Tabel 10, zodat ze beter oplopen in moeilijkheid. Om hierboven genoemde reden zal Tekst 1 wel op de eerste plaats kunnen blijven.

Tabel 10

De teksten van de C-test op volgorde van hoogste naar laagste score

Tekst Score gemiddelden (en

standaarddeviaties) 2. N = 23 81.9% (22.7) 4. N = 24 77.9% (22.7) 3. N = 24 75.9% (28.2) 6. N = 24 70.0% (25.6) 1. N = 22 64.6% (26.2) 5. N = 22 63.7% (24.3) 7. N = 23 61.9% (25.1) 8. N = 24 61.9% (29.4) 12. N = 24 56.0% (29.1) 9. N = 22 52.9% (25.4) 11. N = 25 52.7% (27.7) 10. N = 25 51.0% (30.3)

Noot. totaal N = 55; N per tekst is het aantal items per tekst

5.2 Betrouwbaarheid

De betrouwbaarheid van de C-test was zowel in zijn geheel als per tekst hoger dan de grens van .90 die Raatz & Klein-Braley (2002) opstelden. Dit is in overeenstemming met veel andere onderzoeken waarin een C-test werd ontwikkeld en gevalideerd (Eckes & Grotjahn, 2006;

Raatz & Klein-Braley, 2002). Ook was de interne consistentie van de test hoog aangezien de test een hoge homogeniteit tussen de items, ofwel de teksten liet zien, zie Tabel 7. De test blijkt daarmee voldoende nauwkeurig en precies. Dit garandeert de validiteit van de test niet, maar is hier wel een voorwaarde voor (Van den Bergh & Quené, 2018). Aangezien aan deze voorwaarde is voldaan, kon de validiteit van de test verder worden onderzocht.

5.2.1 Concurrentievaliditeit

Er is geprobeerd de concurrentievaliditeit van de C-test vast te stellen door middel van de correlatie met andere maten van taalvaardigheid, namelijk de LexTALE en het zelfgerapporteerd niveau Nederlands. De analyse van de LexTALE data liet zien dat deze test in dit onderzoek maar matig heeft gepresteerd. De betrouwbaarheid van de LexTALE was namelijk laag (.511) en de test bleek niet intern consistent. Dit is niet in overeenstemming met de resultaten die de Engelse versie van de LexTALE vertoonde in de analyses van Lemhöfer &

Broersma (2012), de ontwikkelaars van de LexTALE. In hun onderzoek gaf de Engelse LexTALE namelijk een betrouwbaarheid van .81 bij moedertaalsprekers van het Nederlands en een betrouwbaarheid van .67 bij moedertaalsprekers van het Koreaans. De moedertaal van de participanten speelde dus wel een grote rol. Het verschil tussen de betrouwbaarheid van de Engelse LexTALE en de Nederlandse LexTALE in dit onderzoek, zou dan ook te maken kunnen hebben met de moedertaal van de participanten. Ook zou het te maken kunnen hebben met het verschil tussen de opbouw van Engelse en Nederlandse woorden of met het feit dat er op het eerste gezicht veel leenwoorden lijken te zijn in de Nederlandse LexTALE, dit zou verwarrend kunnen werken. Het zou ook kunnen zijn dat de non-woorden in de Nederlandse versie meer op bestaande woorden lijken dan de non-woorden in de Engelse versie. Om dit uit te zoeken, is er meer onderzoek nodig naar de Nederlandse versie van de LexTALE en in hoeverre deze test ook in het Nederlands als tweede taal een beeld kan geven van algemene taalvaardigheid. Verder zou moeten worden uitgezocht of de test wellicht alleen een betrouwbaar meetinstrument is voor een groep NT2-leerders met een bepaalde moedertaal en minder voor leerders met een taal die meer verschilt van het Nederlands. Het zou ook interessant zijn om de Nederlandse LexTALE uit te voeren bij hoogopgeleide moedertaalsprekers van het Nederlands om te zien in hoeverre zij de non-woorden kunnen identificeren en of dit een verschil laat zien met de Engelse versie van de LexTALE.

De LexTALE lijkt in de omstandigheden van deze steekproef hoe dan ook geen betrouwbaar meetinstrument voor algemene taalvaardigheid. Er kunnen daarom geen conclusies worden getrokken uit de correlatie tussen beide meetinstrumenten. De lage correlatie (.404) tussen beide meetinstrumenten hoeft daarmee niet af te doen aan de constructvaliditeit van deze C-test. De constructvaliditeit kon door de lage betrouwbaarheid van de LexTALE simpelweg niet worden vastgesteld.

Verder is er geen significant verband gevonden tussen het ERK-niveau dat de participanten zelf dachten te hebben en hun score op de C-test, Spearman correlatie: .277 (p = .041). In Tabel 11 zijn de drie hoogste en laagste scores op de C-test opgenomen samen met het niveau dat deze participanten zelf dachten te hebben. Het is opvallend dat de drie personen met de laagste scores zichzelf gemiddeld even hoog inschatten als de drie personen met de hoogste scores.

34 Tabel 11

De drie hoogste en laagste scores op de C-test met bijbehorend zelfgerapporteerd niveau Participantnummer Score Zelfgerapporteerd niveau Nederlands

222 7% A1 meegerekend worden, heeft deze participant een score van 21%.

Het is mogelijk dat participanten hun niveau Nederlands overschatten of onderschatten. Een groot deel van de participanten volgde op het moment van invullen geen Nederlandse les meer. Het zou daarom kunnen dat ze het niveau van hun laatste cursus hebben ingevuld terwijl hun niveau daar inmiddels al boven is. Op die manier kan iemand zichzelf onderschatten. Ook is het mogelijk dat de participanten niet genoeg bekend waren met de ERK-niveaus. Voor het geval participanten hun niveau niet wisten, was er in de vragenlijst wel een tabel toegevoegd met korte beschrijvingen van de ERK-niveaus. Zie Appendix 7.5 voor de complete vragenlijst, inclusief de ERK-beschrijvingen. De toegevoegde beschrijvingen waren echter mogelijkerwijs niet uitgebreid genoeg waardoor iemand zichzelf een hoger of lager niveau heeft kunnen toerekenen.

In meerdere onderzoeken is zelfevaluatie een niet-betrouwbare meting van taalvaardigheid gebleken. Uit een onderzoek van Edele et al. (2015), bleek dat vrouwen zichzelf vaker onderschatten, net als personen met een hoog cognitief vermogen. Ook bleken bepaalde groepen immigranten hun taalniveau te overschatten. Zelfevaluatie is volgens deze onderzoekers dus niet goed te vergelijken tussen verschillende groepen.

Om deze reden en aangezien de zelfevaluatie in dit onderzoek slechts uit één vraag bestond, lijkt dit geen betrouwbare meting voor taalvaardigheid. Het feit dat er geen correlatie bestaat tussen de zelfgerapporteerde taalniveaus en de score op de C-test, hoeft dus niet ten nadele te zijn van de concurrentievaliditeit van de C-test. Al met al kon de concurrentievaliditeit of externe validiteit van de C-test in dit onderzoek helaas niet goed vastgesteld worden, aangezien zowel de LexTALE als de maat van het zelfgerapporteerd niveau Nederlands niet betrouwbaar of betekenisvol genoeg bleken om de scores van de C-test mee te kunnen vergelijken.

5.2.2 Constructvaliditeit

Uit de Factor Analyse blijkt dat er slechts één onderliggende factor of onderliggend construct gemeten wordt met de C-test. De test is dus unidimensionaal en voldoet daarmee aan deze voorwaarden voor een constructvalide C-test (Raatz & Klein-Braley, 2002).

De multipele regressie analyse liet zien dat de score op de C-test niet verklaard kan worden door de lengte van verblijf en de leeftijd bij aanvang van Nederlands leren. Het kan slechts voor een klein deel verklaard worden door de lengte van educatie en het niveau Nederlands dat de participant zelf dacht te hebben. Dit kan verklaard worden door het feit dat de

35 participantengroep zeer heterogeen was wat betreft deze kenmerken. Verder is er niet gevraagd naar opleidingsniveau terwijl ook dit een rol zou kunnen spelen in het verklaren van de score op individueel niveau. 18.8% van de variantie in de C-test score kon significant verklaard worden door de vier variabelen die samen staan voor taalafstand. Schepens et al., (2020) vonden dat de eerste taal van participanten voor 9-22% de oorzaak was voor de variantie in de score op het spreekvaardigheidsonderdeel op het Staatsexamen. De uitkomsten van dit onderzoek zijn daarmee in overeenstemming.

5.3 Aanbevolen aanpassingen

De C-test die voor dit onderzoek ontwikkeld is, zou kunnen worden verbeterd door een aantal aanpassingen. Zo zouden er moeilijkere teksten aan toegevoegd kunnen worden zodat er minder kans is op een plafondeffect bij participanten die hoog scoren. Verder lijkt het goed om een oefentekst in te laten vullen voorafgaand aan de eigenlijke C-test. Op die manier wordt de score op de eerste 'echte' tekst waarschijnlijk meer betrouwbaar. Daarbij kan de volgorde van de teksten veranderd worden zoals in hoofdstuk 5.1.2 en in Tabel 10 uiteen is gezet.

5.4 Conclusies

De in dit onderzoek ontwikkelde C-test lijkt een voldoende meetinstrument voor algemene taalvaardigheid van leerders van het Nederlands als tweede taal. De scores in de steekproef waren hoger dan het streven was, maar dit lijkt niet problematisch voor de betrouwbaarheid van de test. Zowel de betrouwbaarheid als de interne consistentie van de test waren hoog. De concurrentievaliditeit van deze C-test kon in dit onderzoek helaas niet worden aangetoond.

De constructvaliditeit is enigszins onduidelijk maar lijkt wel in overeenstemming met de literatuur.

Om de test optimaal te kunnen gebruiken zijn er een aantal aanpassingen nodig, zoals het toevoegen van moeilijkere teksten. Als dat niet wordt gedaan, lijkt de test geschikter voor mensen met gemiddelde taalniveaus en niet voor mensen met hogere taalniveaus. Al met al lijkt de C-test die in dit onderzoek is ontwikkeld, na een paar kleine aanpassingen, geschikt te zijn om in het onderzoek naar taalaanleg te gebruiken.

In document Een ideale taaltest? (pagina 31-36)