• No results found

Een ideale taaltest?

N/A
N/A
Protected

Academic year: 2022

Share "Een ideale taaltest?"

Copied!
53
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Een ideale taaltest?

De ontwikkeling en validatie van een Nederlandse C-test

Masterscriptie Marinde Rijneveld (12780618)

Duale Master Nederlands als Tweede Taal en Meertaligheid Begeleid door Sible Andringa

Universiteit van Amsterdam - 2021

(2)

2

Inhoudsopgave

Samenvatting ... 4

1. Inleiding ... 5

2. Theoretische inbedding ... 7

2.1 De definitie van taalvaardigheid ... 7

2.2 Het meten van taalvaardigheid in een tweede taal ... 8

2.3 De C-test ... 9

2.3.1 Validiteit en betrouwbaarheid van de C-test ... 10

2.3.2 Efficiëntie en bruikbaarheid van de C-test ... 12

2.4 De C-test in eerder onderzoek ... 13

3. Methode ... 16

3.1 Selecteren van de teksten en construeren van de test ... 16

3.2 Een pilot van de C-test uitvoeren ... 22

3.2.1 Participanten ... 22

3.2.2 Materialen ... 23

3.2.3 Procedures ... 23

3.3 Analyseren van de resultaten ... 24

4. Resultaten... 25

4.1 De steekproef ... 25

4.1.1 Distributie van de scores ... 25

4.1.2 Scores op de verschillende teksten ... 25

4.2 De betrouwbaarheid ... 27

4.2.1 De betrouwbaarheid van de C-test ... 27

4.2.2 De betrouwbaarheid van de LexTALE... 28

4.3 De validiteit ... 28

4.3.1 Concurrentievaliditeit ... 28

4.3.2 Constructvaliditeit ... 29

5. Discussie ... 31

5.1 De steekproef ... 31

5.1.1 Verdeling van de scores ... 31

5.1.2 De teksten... 31

5.2 Betrouwbaarheid ... 33

5.2.1 Concurrentievaliditeit ... 33

5.2.2 Constructvaliditeit ... 34

5.3 Aanbevolen aanpassingen ... 35

(3)

3

5.4 Conclusies ... 35

6. Bronnen ... 36

7. Appendix ... 40

7.1 Moedertalen van participanten ... 40

7.2 De LexTALE itemanalyse ... 41

7.3 Link naar de test ... 43

7.4 Informatiebrochure en toestemmingsformulier ... 44

7.4.1 Nederlandse versie Informatiebrochure ... 44

7.4.2 Engelse versie informatiebrochure ... 45

7.4.3 Nederlandse versie Toestemmingsformulier ... 46

7.4.4 Engelse versie toestemmingsformulier ... 46

7.5 De taalachtergrondvragenlijst ... 48

7.5.1 Nederlandse versie ... 48

8.5.2 Engelse versie ... 49

7.6 Instructie voor de C-test ... 50

7.6.1 Nederlands ... 50

7.6.2 Engels ... 51

7.7 De teksten van de C-test ... 52

(4)

4

Samenvatting

Deze masterscriptie is gericht op het ontwikkelen en valideren van een meetinstrument dat op een efficiënte manier de taalvaardigheid van NT2-leerders moet kunnen vaststellen en te gebruiken is voor onderzoeksdoeleinden. Dit meetinstrument voor taalvaardigheid is een Nederlandse C-test. In deze scriptie is eerst de literatuur aangaande taalvaardigheidstesten en de C-test onderzocht. Uit de literatuur volgde de ontwikkelingsprocedure die grotendeels gebaseerd is op de stappen die Raatz & Klein-Braley (2002) hebben opgesteld voor het ontwikkelen van een C-test. De procedure begon met het selecteren van geschikte teksten waarbij gebruik is gemaakt van de T-scan voor het bepalen van de leesbaarheid van de teksten. De ontwikkelde C-test is vervolgens online getest bij een groep van 55 volwassen NT2- leerders. Aan de hand van deze pilot is de validiteit en de betrouwbaarheid van de test vastgesteld. Ook is de C-test vergeleken met de LexTALE, een korte woordenschattoets die ook een indicatie kan geven over algemene taalvaardigheid. De betrouwbaarheid van de ontwikkelde C-test is hoog. De concurrentievaliditeit kon in dit onderzoek niet worden vastgesteld. De constructvaliditeit lijkt overeen te komen met de literatuur rondom taalvaardigheid. Om de C-test te optimaliseren worden aan het eind van deze scriptie een aantal verbetersuggesties gedaan.

(5)

5

1. Inleiding

Het meten van het taalvaardigheidsniveau van leerders van een tweede taal, is zowel in de dagelijkse praktijk als in onderzoek naar tweedetaalverwerving, regelmatig nodig. Zo wordt er op taalscholen vaak een taaltest afgenomen om het niveau van de cursist te bepalen om op basis daarvan de cursist in de meest geschikte cursus te kunnen plaatsen. Ook bij opleidingen wordt anderstalige studenten regelmatig gevraagd een taaltest te maken waarbij een bepaalde score vereist is om met de opleiding te kunnen beginnen. Dit is soms ook het geval tijdens sollicitatieprocedures. Daarnaast is het bij onderzoek naar tweedetaalverwerving ook regelmatig nodig om het taalvaardigheidsniveau van participanten in beeld te hebben. Er zijn dan ook veel verschillende taalvaardigheidstesten in de omloop om het niveau van een taalleerder in zijn/haar tweede taal vast te stellen. Deze meetinstrumenten zijn vaak zo uitgebreid dat zowel de afname ervan als de scoring veel tijd in beslag nemen, wat niet altijd wenselijk of haalbaar is. Daarnaast zijn veel gestandaardiseerde meetinstrumenten voor taalvaardigheid niet gratis te gebruiken. Taalvaardigheidstesten zijn vaak zo ontwikkeld dat ze de verschillende subvaardigheden zoals lezen, luisteren, schrijven, spreken en woordenschat door middel van aparte testonderdelen meten. In Nederland zijn de taaltoetsen van Bureau ICE bekende voorbeelden. Zo heeft bureau ICE Toetsplatform Taal voor toetsen die het NT2-niveau meten, de toetsen van VNT2 voor het meten van voortgang in het NT2 en de toetsen van Toetsplatform TOA die voor het meten van taalniveau op het MBO gebruikt worden. Deze toetsen zijn niet gratis, nemen vrij veel tijd in beslag en leggen de focus op alle losse deeltaalvaardigheden en niet op taalvaardigheid in het algemeen.

Naast de vele uitgebreide taaltesten bestaat er echter ook een test waarover de ontwikkelaars beweren dat deze in zo'n 30 minuten accuraat de algemene taalvaardigheid kan meten, mits de test met zorg en volgens de juiste procedure wordt ontwikkeld en afgenomen. Deze snelle taalvaardigheidstest heet de C-test. Dit is een test, bestaande uit verschillende korte teksten waarin, beginnend bij de tweede zin, de laatste helft van elk tweede woord wordt weggelaten.

Op deze manier ontstaan er gatenteksten die door participanten ingevuld kunnen worden.

Sinds de ontwikkeling van de C-test zijn er al meer dan 500 publicaties waarin de C-test werd onderzocht of gebruikt. (Grotjahn, 2020). In deze publicaties lijkt te worden bevestigd dat de C-test een valide meetinstrument kan zijn voor het meten van algemene taalvaardigheid. De C-test lijkt een vrij simpele oplossing voor de nadelen van andere taaltesten. De test lijkt ideaal voor gebruik in alledaagse situaties waar taalvaardigheid snel gemeten moet worden maar ook voor gebruik in onderzoek naar tweedetaalverwerving waarbij het taalniveau van participanten snel en efficiënt gemeten moet worden.

Dit laatste is concreet het geval bij een lopend onderzoeksproject van de Universiteit van Amsterdam waar een longitudinaal onderzoek naar taalaanleg wordt uitgevoerd. In dit onderzoek zal het effect van verschillende cognitieve, conatieve en affectieve factoren op tweedetaalverwerving worden onderzocht. Om tweedetaalverwerving te meten, is er voor dit onderzoek een meetinstrument nodig dat door middel van een voor- en nameting de algemene taalvaardigheid van participanten voor, en na een taalcursus meet en daarmee de eventuele toename van taalvaardigheid vast kan stellen. Dit meetinstrument moet snel en efficiënt zijn en online kunnen worden afgenomen. Aangezien de C-test een meetinstrument lijkt dat aan deze voorwaarden kan voldoen, is in dit onderzoek een Nederlandse C-test ontwikkeld. Er is een pilot uitgevoerd bij een representatieve groep van ruim 50 participanten, en er is, door middel van statistische analyse, onderzocht of de test valide en betrouwbaar is.

Als de test voldoende valide is bevonden, zal deze in bovenstaand onderzoek gebruikt worden.

(6)

6 Aangezien het ontwikkelen van een meetinstrument voor taalvaardigheid in dit onderzoek centraal staat, zal eerst worden stilgestaan bij de definitie van taalvaardigheid. Vervolgens zal er worden stilgestaan bij de methoden waarop taalvaardigheid gemeten kan worden en welke factoren bij dit meten van belang zijn. Hierna zullen de validiteit, de betrouwbaarheid en de efficiëntie en bruikbaarheid van de C-test verder worden uiteengezet. Vervolgens zal worden beschreven hoe de C-test als meetinstrument is gebruikt in eerdere onderzoeken. In het daaropvolgende hoofdstuk zal beschreven worden hoe de C-test in dit onderzoek is ontwikkeld en vervolgens zullen de resultaten van de pilot uiteengezet worden. Als laatste zal in de discussie worden uiteengedaan wat deze resultaten tot gevolg hebben voor het gebruik van de ontwikkelde test en welke conclusies uit dit onderzoek getrokken kunnen worden.

(7)

7

2. Theoretische inbedding

2.1 De definitie van taalvaardigheid

Er bestaan verschillende benaderingen wat betreft het definiëren van taalvaardigheid in een tweede taal. Eén van die benaderingen, die ontstaan is in de jaren '70, stelt dat er één onderliggende taalcompetentie is, die niet onderverdeeld kan worden in aparte deeltaalvaardigheden (Oller, 1979; geciteerd in Sarapuu & Alas, 2016). Taalvaardigheid wordt in deze definitie gezien als unitair. Raatz & Klein-Braley (2002) stellen dat alle vormen van taalgedrag aan elkaar gerelateerd zijn en dus integratief. De argumenten voor het bestaan van een onderliggende taalcompetentie zijn gebaseerd op de hoge correlaties tussen testen die verschillende aspecten van taalvaardigheid meten (Daller & Phelan, 2006). Er zijn ook taalwetenschappers die geloven dat taalcompetentie niet unitair is, maar bestaat uit de interactie tussen verschillende, scheidbare competenties, bijvoorbeeld de grammaticale, sociolinguïstische en strategische competentie. (Canale & Swain, 1980; geciteerd in Sarapuu

& Alas, 2016)

De discussie over een unitaire of scheidbare taalcompetentie is inmiddels verplaatst naar een discussie over hoe taalcompetentie wordt gemeten. Beide visies zijn volgens de panelleden van een symposium op het Language Testing Forum (LTF) in 2010 zoals beschreven in Harsch (2014) namelijk samen te brengen als gesteld wordt dat taalcompetentie zowel als unitair als scheidbaar gezien kan worden, afhankelijk van het doel van de meting en van de manier van verslag doen van de scores van het meetinstrument. De uitkomsten van verschillende onderzoeken waarin taalvaardigheid werd gemeten, rapporteerden zowel scores voor afzonderlijke vaardigheden als voor de algehele taalvaardigheid. Het feit dat deze scores hoge correlaties hebben, rechtvaardigt beiden volgens het LTF. (Harsch, 2014)

Wel moet meegenomen worden dat de manier waarop taalvaardigheid wordt gezien, invloed heeft op de manier waarop het wordt gemeten en ook andersom is dat het geval. Als taalvaardigheid wordt gemeten door middel van meerdere instrumenten die allemaal een andere deelvaardigheid meten, en niet door een integratieve test, heeft dat invloed op de uitkomst van het onderzoek. Het is met die manier van meten ook meer voor de hand liggend dat taalvaardigheid gezien wordt als een combinatie van losse vaardigheden en zo wordt beschreven.

Bij testen die alleen losse onderdelen meten, kan volgens Bachman & Purpura geen duidelijke conclusie worden getrokken over de algemene taalvaardigheid maar alleen over de aparte vaardigheden die gemeten zijn (Bachman & Purpura, 2008). Hulstijn heeft veel onderzoek gedaan naar taalvaardigheid in een tweede taal. Hij onderscheidt niet zozeer de verschillende subvaardigheden maar maakt een onderscheid tussen Basic Language Cognition (BLC) en Higher Language Cognition (HLC). Dit concept is gebaseerd op het verschil tussen de taalvaardigheid in een eerste en in een tweede taal. BLC wordt in deze visie gedefinieerd als mondelinge taalverwerking die verschillende vormen van onbewuste, expliciete kennis en automatische verwerking omvat. HLC bevat minder frequente taalvormen en geschreven taal.

Algemene taalvaardigheid is volgens Hulstijn een combinatie van linguïstische kennis en de verwerkingssnelheid daarvan. (Harsch, 2014; Hulstijn 2012; Hulstijn, 2015)

Recent onderzoek naar taalvaardigheid in een tweede taal laat zien dat het concept taalvaardigheid complex is en niet als simpel unitair of scheidbaar gezien kan worden. Volgens het LTF is het daarom altijd belangrijk om het doel van een meetinstrument dat taalvaardigheid moet meten in de gaten te houden. Soms is een abstracte score voldoende en soms is er meer informatie wenselijk over hoe de score op verschillende deelvaardigheden is.

(8)

8 Het blijft altijd belangrijk om de resultaten op de juiste manier te rapporteren en conclusies daarover niet onjuist te generaliseren. (Harsch, 2014)

2.2 Het meten van taalvaardigheid in een tweede taal

Het meten van het taalvaardigheidsniveau gebeurt zowel in de dagelijkse praktijk als in onderzoeken niet altijd op een efficiënte, betrouwbare of adequate manier (Thomas, 2001).

Er zijn verschillende factoren die van belang zijn bij het ontwikkelen van een meetinstrument voor het meten van taalvaardigheid.

Zo is het belangrijk dat het meetinstrument past bij het doel waarvoor het gebruikt zal worden. Zo is er bij summatieve toetsen een consequentie verbonden aan de uitslag van de test. Als die uitslag een levensbepalende rol heeft, bijvoorbeeld omdat aan de hand van de uitslag de toelating voor een studie wordt bepaald, is het van belang dat die uitslag valide en niet willekeurig is. Dat zou namelijk niet eerlijk zijn. Ook bij een meetinstrument dat gebruikt wordt voor onderzoek is dit belangrijk (Van den Bergh & Quené, 2018). In de onderzoekswereld is het van belang dat het te gebruiken meetinstrument betrouwbaar, valide en efficiënt is. Toch is ook daar het vaststellen van het taalniveau van participanten in het verleden vaak op een manier gedaan die de resultaten van het onderzoek moeilijk te generaliseren maken (Thomas, 2001). Zo is er in verschillende onderzoeken gebruik gemaakt van niet-gevalideerde taaltesten, van het oordeel van de onderzoekers en van de institutionele status van de participanten (hoeveel taalcursussen participanten hadden gevolgd). Een verklaring voor het feit dat er in deze onderzoeken geen gebruik is gemaakt van gestandaardiseerde testen die taalniveau meten, zou simpelweg kunnen zijn dat de onderzoekers geen korte, snelle en makkelijk af te nemen test tot hun beschikking hadden (Thomas, 2001). Omdat het taalniveau van participanten vaak op verschillende, niet- gevalideerde manieren vastgesteld is, is het lastig om onderzoeken met elkaar te vergelijken zelfs als ze een soortgelijk onderwerp hebben. (Hulstijn, 2012)

Om onderzoeken wel met elkaar te kunnen vergelijken is het onder andere belangrijk dat het gebruikte meetinstrument betrouwbaar is. Betrouwbaarheid gaat over de consistentie en precisie van de meting. Een meting moet in dezelfde omstandigheden dezelfde resultaten geven en de score moet niet voortkomen uit willekeurigheid. Hoe minder variatie een instrument laat zien bij herhaling van de meting, hoe hoger de betrouwbaarheid.

Betrouwbaarheid is dus een statistische maat van hoe reproduceerbaar de data zijn die het instrument als output geeft. Betrouwbaarheid kan op verschillende manieren worden vastgesteld. Zo kan er worden gekeken naar stabiliteit en interne consistentie. Op deze onderwerpen zal in een volgend hoofdstuk verder worden ingegaan met betrekking tot het huidige onderzoek.

De betrouwbaarheid van een meetinstrument is niet het enige dat belangrijk is in een onderzoek. Als een meetinstrument betrouwbaar is, maakt dat namelijk duidelijk dat er 'iets' betrouwbaar is gemeten. Maar dat toont nog niet aan wat er gemeten is. Misschien meet het instrument namelijk een ander construct dan wat de bedoeling is. Om te zien of het meetinstrument echt meet wat het zegt te meten, moet gekeken worden naar de validiteit ervan. Voldoende betrouwbaarheid is wel een noodzakelijke, maar geen voldoende voorwaarde voor de validiteit van een meetinstrument. (Van den Bergh & Quené, 2018) De validiteit van een meetinstrument gaat over de mate waarin het instrument meet wat het zou moeten meten. Validiteit kan worden onderverdeeld in drie verschillende vormen. De interne validiteit, dit gaat over de geldigheid van de conclusies die getrokken kunnen worden over de relatie tussen de variabelen van het meetinstrument. De constructvaliditeit, hierbij

(9)

9 wordt de vraag gesteld of inderdaad het hele construct op een adequate manier is gemeten.

En de externe of concurrentie validiteit, hierbij wordt gekeken in hoeverre de conclusies gegeneraliseerd kunnen worden naar andere situaties en groepen. (Van den Bergh & Quené, 2018) Deze vormen van validiteit kunnen op verschillende manieren worden gemeten en vastgesteld. Ook dit zal in een volgend hoofdstuk verder aan de orde komen met betrekking tot het huidige onderzoek.

Een belangrijk aspect waar verder nog rekening mee gehouden dient te worden bij het kiezen of ontwikkelen van een meetinstrument, is de efficiëntie en de bruikbaarheid ofwel het gebruiksgemak voor zowel de afnemers als de participanten. Dit aspect gaat over de kosten die de test met zich meebrengt, de tijd die het kost om de test te construeren, de tijd die nodig is om de test in te vullen en als laatste de tijd en moeite die het kost om de score van de test vast te stellen. Het is belangrijk om ook dit aspect mee te nemen bij het ontwikkelen of kiezen van een meetinstrument, vooral als dit een test is die potentieel ook in vergelijkbare situaties gebruikt kan gaan worden. Als een meetinstrument niet goed te gebruiken is, hebben een hoge betrouwbaarheid en validiteit namelijk ook weinig nut. (Bannigan & Watson, 2009) Verschillende situaties vragen om verschillende meetinstrumenten. Er moet dus bij het ontwikkelen al nagedacht worden over waar en door wie het meetinstrument afgenomen zal worden.

Bovengenoemde factoren zijn stuk voor stuk van essentieel belang voor een meetinstrument dat taalvaardigheid moet meten voor onderzoeksdoeleinden. In dit onderzoek zal de C-test als meetinstrument voor taalvaardigheid worden onderzocht. Er zal in het aansluitende hoofdstuk dan ook worden gekeken naar hoe de C-test aan bovengenoemde factoren voldoet of kan voldoen en op welke manier dit kan worden vastgesteld.

2.3 De C-test

De C-test is in 1981 ontwikkeld door Christine Klein-Braley en Ulrich Raatz en is een variatie op de eerder ontwikkelde Cloze-test. Die test is tot stand gekomen als een poging tot het ontwikkelen van een test die taalvaardigheid als een eenheid meet. Beide testen zijn een operationalisatie van het reduced redundancy principle. De theorie achter dit principe is dat er in talen altijd een mate van redundantie is. Bepaalde taalcomponenten zijn overbodig oftewel redundant voor de informatieoverdracht. Als er elementen worden weggelaten zou een spreker van de taal in staat moeten zijn om deze elementen aan te vullen (Klein-Braley, 1997). Dat is precies wat er ook in de C-test en in de Cloze-test wordt gedaan. De participant wordt een talige boodschap aangeboden waarin delen zijn weggelaten en die hij of zij vervolgens weer moet aanvullen. In de Cloze-test gebeurt dat door middel van een lange tekst waarin woorden zijn weggelaten en in de C-test gaat dat volgens 'de regel van twee': In een tekst wordt vanaf de tweede zin, de tweede helft van elke tweede woord, weggehaald. (Raatz

& Klein-Braley, 1981) Dit kan er als volgt uitzien:

HUISDIEREN

Volgens een jaarlijks onderzoek van de NVG waren er in 2019 meer dan 27 miljoen huisdieren in Nederland. Bijna d_ helft v__ alle huish______ bezat i_ 2019 e__ huisdier.

Hon___ en kat___ werden h__ vaakst a__ huisdier geho____. Etc.

De C-test maakt, in tegenstelling tot de Cloze-test gebruik van meerdere korte teksten en heeft per tekst meer gaten waardoor deze test gezien wordt als meer representatief voor

(10)

10 natuurlijke taal. Daarbij is het voor moedertaalsprekers makkelijk om een hoge C-testscore te halen, en dat is bij de Cloze-test niet het geval (Raatz & Klein-Braley, 1981). Een C-test bestaat uit een variërend aantal losse, op zichzelf staande teksten die oplopen in moeilijkheidsgraad.

Per tekst worden er 20-25 halve woorden weggelaten. Doordat er gebruik wordt gemaakt van losse teksten met verschillende onderwerpen, is er in tegenstelling tot bij de Cloze-test, minder effect van specifieke kennis over het onderwerp van de tekst wat voor een hoge score zou kunnen zorgen die niet alleen wordt weerspiegelt door de taalvaardigheid (Raatz & Klein- Braley, 1981).

2.3.1 Validiteit en betrouwbaarheid van de C-test

Als de C-test inderdaad een instrument is dat taalvaardigheid op een snelle manier in haar algemeenheid kan meten, roept dat de vraag op wat er nou precies gemeten wordt met deze test. Met andere woorden: wat is het construct van deze test en welke conclusies kunnen er op de resultaten van een C-test worden gebaseerd?

De ontwerpers van de C-test, Raatz & Klein-Braley claimen dat de C-test een objectieve test is die altijd en door iedereen kan worden afgenomen zonder dat er een grote invloed is van de onderzoeker wat betreft de scoring en de interpretatie daarvan. Ook vertoont volgens hen een overgrote meerderheid van de ontworpen C-testen een acceptabel betrouwbaarheidsniveau. Dit kan worden vastgesteld op meerdere manieren. Bijvoorbeeld door middel van de split-half methode, de test-hertest methode of door middel van item- analyse met Cronbach's Alpha. Hiermee kunnen de stabiliteit en de interne consistentie van de test worden vastgesteld. Verder is de C-test volgens Raatz & Klein-Braley een model voor 'real-life' taalgebruik. Er worden namelijk veel verschillende testen gebruikt waar willekeurige woorden uit zijn gehaald. Ook het feit dat de C-test correlaties laat zien met zowel mondelinge en schriftelijke taalvaardigheidstesten als met zelf-evaluatie en 'teacher-judgements' geeft de C-test een goede concurrentievaliditeit en externe- en inhoudsvaliditeit. (Raatz & Klein-Braley, 2002)

Vanaf de introductie van de C-test is de vraag 'wat meet deze test precies?' veel bediscussieerd. De C-test heeft in deze discussie veel kritiek gekregen over de onduidelijke constructvaliditeit. Het is namelijk niet direct helder wat het onderliggende construct van de C-test precies is (Babaii & Ansai, 2001). Veel onderzoekers nemen aan dat de C-test de algemene taalvaardigheid kan meten. Volgens Alderson (2002, geciteerd in Daller & Phelan, 2006) kan dit niet waar zijn omdat het concept van een algemene taalvaardigheid volgens hem niet bestaat. Toch zijn er hoge correlaties gevonden tussen scores van testen die verschillende aspecten van taalvaardigheid meten. De resultaten van de C-test zijn in lijn met dit fenomeen.

Zo heeft Jafarpur (2002, geciteerd in Daller & Phelan, 2006) hoge correlaties (.65 tot .80) gevonden tussen de C-test en de English Placement Test (EPT). De EPT is een gestandaardiseerde test die in 90 minuten verschillende taalvaardigheden meet. Hastings (2002, geciteerd in Daller & Phelan, 2006) beschrijft de resultaten van verschillende eerdere onderzoeken aan de Universiteit van Wisconsin-Milwaukee waar studenten de Test of English as a Foreign Language (TOEFL) tegelijk met de C-test aflegden. De TOEFL is een gestandaardiseerde test die ruim drie uur duurt en uit vier onderdelen bestaat. Ook in dit onderzoek zijn hoge correlaties (.87 tot .94) tussen de twee testen gevonden.

Ook in andere talen is er onderzoek gedaan naar de C-test. Zo hebben Eckes & Grotjahn (2006) de C-test vergeleken met alle vier de secties (lezen, luisteren, schrijven, spreken) van de gestandaardiseerde Duitse taalvaardigheidstest TestDaF. Hieruit bleek dat de C-test dezelfde algemene dimensie van taalvaardigheid meette als de vier secties van de TestDaF samen. In

(11)

11 hun onderzoek werd vastgesteld dat de C-test een hoge betrouwbaarheid en validiteit heeft.

Eckes & Grotjahn (2006) stellen dat de C-test een integrale meting kan zijn van het construct dat als 'algemene taalvaardigheid' aangeduid kan worden. Dit definiëren zij als 'het onderliggende vermogen dat zowel kennis en vaardigheden samenbrengt en dat zich uit in alle soorten van taalgebruik'. Door het Rasch analyse model en de confirmatory factor analyse te gebruiken, hebben ze bewijs gevonden dat de C-test een betrouwbaar meetinstrument is van algemene taalvaardigheid. De externe of concurrentievaliditeit van de C-test is door middel van deze analyses ook vastgesteld aangezien bleek dat het gemeten construct overeen kwam met dat van de vier delen van de TestDaF. Verder vond Grotjahn (1992, geciteerd in Eckes & Grotjahn, 2006) hoge correlaties (.74 tot .81) tussen twee Franse C-testen en de Bochum Diagnostic Test for French (BDF, versie I). De BDF is een gestandaardiseerde test die de focus legt op grammatica.

Uit meerdere onderzoeken blijkt dat de C-test zowel de micro-level vaardigheden (zoals congruentie tussen onderwerp en persoonsvorm) als productieve (schrijven en spreken) en receptieve (lezen en luisteren) vaardigheden reflecteert (Raatz & Klein-Braley, 2002; Eckes &

Grotjahn, 2006; Linnemann & Wilbert, 2014). Bij het invullen van een C-test heeft een participant namelijk zijn volledige 'taalverwerkingscompetentie' nodig. Er wordt een beroep gedaan op zowel actieve als passieve processen (Raatz & Klein-Braley, 2002). Door verschillende, hierboven beschreven onderzoeken, is aangetoond dat de C-test een zogenaamde algemene taalvaardigheid kan meten. Althans een groot aspect daarvan. Zoals al eerder is beschreven wordt participanten bij een C-test gemutileerde taal aangeboden die zij vervolgens moeten herstellen. Om dit te doen, moeten participanten gebruik maken van de aanwijzingen die in de overgebleven tekst staan en van de kennis van de taal die ze zelf hebben. Er kunnen fonologische, morphologische, syntactische, collacationele, tekstuele maar ook contextuele, pragmatische, logische en op de situatie gebaseerde aanwijzingen in de tekst zijn. De participanten moeten de gemutileerde tekst interactief verwerken en daarbij de regels die ze kennen matchen met de input die de tekst hen geeft (Klein-Braley, 1994;

geciteeerd in Eckes & Grotjahn, 2006). Algemene taalvaardigheid wordt ook vaak gezien als een samenspel van verschillende vaardigheden, zoals de hogere orde vaardigheden (kennis van de wereld et cetera) en de lagere orde vaardigheden (syntactische kennis) (Hulstijn, 2011).

De C-test lijkt op beide vaardigheden een beroep te doen.

Daarbij moet wel in gedachten gehouden worden dat de C-test gebaseerd is op het reduced redundancy principle en daar een operationalisatie van is. Het meet dus allereerst het vermogen om te gaan met context-gereduceerde taal in een cognitief veeleisende taak.

(Daller, 1999; Daller & Grotjahn, 1999, beiden geciteerd in Eckes & Grotjahn, 2006) In hoeverre dit een afspiegeling is van vaardigheden in het alledaags taalgebruik is niet met cijfers hard te maken. De ontwerpers van de C-test gaan ervanuit dat de C-test een heldere afspiegeling is van dagelijkse taalvaardigheid omdat er gebruik wordt gemaakt van veel verschillende teksten met verschillende onderwerpen. Ook gaan zij er volgens het reduced redundancy principle vanuit dat natuurlijke taal altijd een bepaalde mate van redundantie vertoond en dat een test die een operationalisatie van dit principe is, dus ook de alledaagse taalvaardigheid kan meten.

Een ander punt van kritiek op de C-test gaat over het gebrek aan diens indruksvaliditeit. Dit is de validiteit op het eerste gezicht. Voor mensen die geen expert zijn, lijkt de C-test een begrijpend lezen-test of een intelligentietest te zijn en is het moeilijk te geloven dat de test meer meet dan alleen leesvaardigheid of intelligentie (Jafarpur, 1995; geciteerd in Babaii &

Ansary, 2001). Hoe meer bekendheid de C-test krijgt als meetinstrument voor algemene

(12)

12 taalvaardigheid, hoe minder dit een probleem zal vormen. Het idee van de C-test als leesvaardigheidstest kan overigens weerlegd worden met het feit dat mensen met een hoog leesvaardigheidsniveau zoals dat gemeten is in specifieke leesvaardigheidstesten soms alsnog een lage score halen op de C-test omdat hun productieve vaardigheden laag zijn. Ook zijn er participanten die de tekst inhoudelijk niet goed begrijpen maar toch hoge scores halen doordat hun lexicaal-morfologische verwerking goed is (Eckes & Grotjahn, 2006). Overigens erkennen Raatz & Klein-Braley het probleem van de lage indruksvaliditeit van de C-test. Om deze reden adviseren zij om de C-test te combineren met bijvoorbeeld een woordenschattest of een andere korte test. Meerdere meetinstrumenten kunnen voor een hogere betrouwbaarheid zorgen dus het is altijd goed om andere testen te gebruiken in combinatie met de C-test. Toch stellen zij dat de C-test over het algemeen wel de meest betrouwbare scores laat zien als het gaat om algemene taalvaardigheid. Als er dus maar één test gebruikt kan worden, is de C-test toch bewezen als de meest efficiënte. (Raatz & Klein-Braley, 2002)

2.3.2 Efficiëntie en bruikbaarheid van de C-test

De hoge efficiëntie van de C-test en het gebruiksgemak ervan zijn de belangrijkste voordelen ten opzichte van andere meetinstrumenten met hetzelfde meetdoel. Het ontwikkelen van de C-test neemt relatief weinig tijd in beslag en de kosten zijn niet hoog. Ook het vaststellen van de score neemt niet veel tijd in beslag en is volgens de bedenkers van de C-test een objectief proces. Als alles volgens de juiste procedure wordt ontwikkeld en afgenomen is het volgens hen mogelijk om met dit meetinstrument in 30 minuten op een accurate manier taalvaardigheid in een tweede taal of in een vreemde taal vast te stellen. (Raatz & Klein-Braley, 1997)

In principe kan de C-test bij participanten met elke taalniveau worden afgenomen. De teksten in een C-test zijn oplopend in moeilijkheidsgraad. Het niveau waarop de teksten beginnen zal voor echte beginners in een tweede taal hoogstwaarschijnlijk echter al te moeilijk zijn. Zelfs als ze zonder gaten aangeboden zouden worden. Als we kijken naar niveau A1 van het Europees Referentie Kader (ERK) dan zien we dat daar nog geen sprake is van het begrijpen van teksten maar alleen van losse uitingen. Het is dan ook niet mogelijk om teksten op dit niveau te selecteren voor een C-test. Voor mensen met dit taalniveau begint de C-test dus al boven hun niveau en lijkt een C-test daarom niet geschikt.

De C-test is inmiddels al in veel verschillende talen ontwikkeld en gevalideerd. Zo zijn er onder meer Engelse, Duitse, Franse, Italiaanse, Turkse, Japanse, Chinese, Hebreeuwse, Perzische en Koreaanse C-testen. (Grotjahn, 2020) In de grote meerderheid van de onderzoeken waarin een C-test werd ontworpen en gevalideerd, bleek de test een valide meetinstrument voor algemene taalvaardigheid. De validiteit van de C-test lijkt dus niet gebonden te zijn aan een bepaalde taal of taalfamilie. De test werd in verschillende onderzoeken gebruikt voor jonge moedertaalsprekers, tweede-taalleerders en vreemde-taalleerders.

De C-test is bruikbaar in situaties waarin het algemene taalvaardigheidsniveau moet worden vastgesteld. Bijvoorbeeld voor een toelating of plaatsing of in onderzoeken. Als er meer informatie over specifieke deelvaardigheden (bijvoorbeeld over spreken of schrijven) nodig is dan voldoet de C-test niet. Er kan dan een uitgebreide toets worden afgenomen die informatie over alle deelvaardigheden geeft. Of er kan gekozen worden om wel de C-test af te nemen voor informatie over algemene taalvaardigheid en daarnaast kan dan een tweede toets worden afgenomen die de specifieke deelvaardigheid meet. De C-test geeft namelijk geen informatie over deelvaardigheden.

(13)

13 Een belangrijke vraag over de bruikbaarheid van een meetinstrument dat taalvaardigheid zegt te meten, is natuurlijk ook de vraag of er voortgang gemeten kan worden, en of dat dan met exact dezelfde test kan, of dat er een tweede versie nodig is. Coleman (2002, beschreven in Daller & Phelan, 2006) stelt in zijn onderzoek de vraag of er voortgang kan worden gemeten.

Hij test dit door de C-testscore van middelbare scholieren te vergelijken met die van studenten uit het hoger onderwijs die op dezelfde leeftijd begonnen met de vreemde taal maar al een paar jaar langer onderwijs hadden gehad in deze taal. De groep studenten had systematisch een hogere score dan de eerste groep. Coleman concludeert daaruit dat de C-test in staat is om verschil in taalvaardigheid per leerjaar vast te stellen en dat er voortgang gemeten kan worden. Dit onderzoek is echter geen longitudinaal onderzoek; alle participanten hebben de test namelijk maar één keer gedaan.

Bij een longitudinaal onderzoek kan leer- /geheugeneffect of training een rol spelen. Het kan zijn dat participanten die de test voor de tweede keer maken daardoor automatisch een hogere score hebben zonder dat hun taalvaardigheid is verbeterd. Bogards & Raatz (2002, beschreven in Daller & Phelan, 2006) zochten dit uit door middel van een onderzoek waarbij twee groepen de C-test twee keer aflegden met vier dagen tussen de twee metingen. Eén groep kreeg tussen beide metingen een speciale C-testtraining en de andere groep niet. Beide groepen scoorden hoger op de tweede C-test. De groep die de training kreeg, scoorde de tweede keer 5,4% hoger dan de eerste keer en de groep zonder training scoorde de tweede keer 6,1% hoger dan de tweede keer. De groep met de training scoorde dus niet extra hoog.

Hieruit kan geconcludeerd worden dat training, in ieder geval de 45-minuten durende training in dit onderzoek, geen effect heeft op de score. Wat ook uit dit onderzoek geconcludeerd kan worden is dat het wel effect heeft als dezelfde C-test twee keer wordt afgenomen bij dezelfde participanten. Dit kan komen door leer- of geheugeneffect of doordat de participanten zich het testformat beter eigen hebben gemaakt. In dit onderzoek zaten er vier dagen tussen de eerste en de tweede keer testen. Er kan dus goed sprake zijn geweest van een geheugeneffect.

Dit effect zal minder een rol spelen als er een langere tijd zit tussen de twee keer testen. Er kan uit dit onderzoek worden geconcludeerd dat als dezelfde C-test twee keer wordt afgenomen met daartussen een tijd van langer dan vier dagen, en als er dan een verschil is dat groter is dan 5-6% dit niet toegerekend kan worden aan leer-/ geheugen-/ trainingseffect. Er is bij een verschil dat groter is dan 5-6% sprake van een echte verhoging in taalvaardigheid.

Een verschil kleiner dan 5% maar na een langere tijd zou ook een echte verbetering in taalvaardigheid kunnen reflecteren maar om daar conclusies aan te verbinden, is meer onderzoek nodig. Daller & Phelan (2006) hebben de uitkomsten van bovenstaand onderzoek gebruikt voor een onderzoek waarin zij dezelfde C-test twee keer hebben gebruikt om voortgang te meten na een korte intensieve cursus Engels als tweede taal. Zij zagen een correlatie tussen de eerste en de tweede testafname (studenten die de eerste keer hoog scoorden, scoorden de tweede keer ook hoog) ook maten zij een duidelijke vooruitgang in de scores tussen de twee testafnames. De score op de tweede afname elf weken later, was 24,92% hoger dan die op de eerste afname. Deze onderzoeken lijken uit te wijzen dat de C- test gebruikt kan worden om voortgang te meten en om het effect van een cursus te meten.

2.4 De C-test in eerder onderzoek

Er zijn hierboven al een aantal onderzoeken beschreven waarin verschillende aspecten van de C-test werden onderzocht. Inmiddels zijn er ook heel wat onderzoeken die de C-test als meetinstrument hebben gebruikt bij allerlei doelgroepen om een antwoord te krijgen op een specifieke onderzoeksvraag.

(14)

14 Zo hebben Kliesch et al. (2017) de C-test gebruikt als meetinstrument in hun onderzoek naar het leren van een nieuwe taal op latere leeftijd. Oudere Duitse participanten volgden een cursus Engels. Om het effect van deze cursus te meten werd zowel in de voor- als in de nameting de C-test, samen met twee andere taaltesten (de Hueber assessment test Next A1 en de oral translation test) gebruikt om de Engelse taalvaardigheid te meten. Ter conclusie van het onderzoek werd door de onderzoekers gemeld dat de C-test in dit onderzoek het meest geschikt was om algemene integratieve taalvaardigheid vast te stellen. Deze test was namelijk op zichzelf valide en betrouwbaar bevonden en was makkelijk af te nemen bij de oudere doelgroep van dit onderzoek. Ook was de C-test in dit onderzoek sensitief genoeg om verschillen in taalvaardigheid vast te stellen, zelfs na een korte trainingsperiode. Schüler- Meyer et al. (2019) gebruikten de C-test in een onderzoek naar het profijt dat tweetalige scholieren al dan niet hebben van tweetalige onderwijsstrategieën bij het vak wiskunde. De scholieren in dit onderzoek waren tweetalig Turks-Duits en in beide talen werd hun taalvaardigheid gemeten door middel van een C-test. Zowel de Turkse als de Duitse C-test bleek een hoge betrouwbaarheid te hebben (.874 en .774). De onderzoekers gebruikten de scores op de C-test om informatie te krijgen over de verschillende maten en vormen van tweetaligheid van deze scholieren. De scholieren werden op basis van hun score op de Turkse C-test in twee groepen verdeeld, een groep met een hogere en een groep met een lagere Turkse taalvaardigheid. Vervolgens werd onderzocht of de mate van tweetaligheid een rol speelde bij het effect van de tweetalige onderwijsstrategie. Scholieren met een hogere Turkse taalvaardigheid bleken iets meer profijt te hebben van een tweetalig onderwijsstrategie. De onderzoekers betwijfelen echter of de C-test hier de meest geschikte test was om tweetaligheid mee te meten en specifiek de thuistaal van scholieren waarin de meesten nooit formeel onderwijs hebben ontvangen. Wilbert et al (2011) en Linneman & Wilbert (2014) gebruikten de C-test om leerlingen met een leerstoornis te identificeren door de C-test af te nemen voor, tijdens en na een bepaald onderwijscurriculum. De onderzoekers probeerden hiermee de validiteit van de C-test aan te tonen in de populatie van leerlingen met een leerstoornis. De data toonden aan dat de C-test een beeld kan geven van het vermogen voor cognitieve en academische taalverwerking van de leerlingen met een leerstoornis. Door de C- test konden leerlingen geïdentificeerd worden bij wie de leerstrategieën die werden aangeboden geen of een ander effect vertoonden. Daller, Müller & Wang-Taylor (2020) stellen de C-test voor als een voorspellend meetinstrument voor het academisch succes van internationale studenten. Uit het onderzoek dat zij afnamen bij 134 internationale studenten op een Britse universiteit met verschillende academische achtergronden, bleek de C-test een effectieve voorspeller van het succes van internationale studenten in een academische of trainingscontext. Zij stellen daarom dat de C-test goed als plaatsingstest kan worden gebruikt op universiteiten. Zo zijn er nog meer onderzoeken gedaan waarin de C-test wordt gebruikt als meetinstrument. Voor een overzicht met alle publicaties over de C-test, zie Grotjahn (2020).

Elk meetinstrument komt met voor- en nadelen. De voordelen van de C-test lijken deze echter geschikt te maken voor een onderzoek waarin het meten van taalvaardigheid nodig is, zoals in het longitudinale onderzoek naar taalaanleg vanuit de UvA (zie introductie). Daarom is dit onderzoek gericht op het ontwikkelen en het valideren van een Nederlandstalige C-test.

Indien deze test voldoende betrouwbaar en valide is bevonden, zal deze ingezet worden in het hierboven aangehaalde onderzoek. De vraag die in dit onderzoek centraal stond is als volgt:

(15)

15 In welke mate is deze Nederlandstalige C-test een goed meetinstrument voor algemene taalvaardigheid van leerders van het Nederlands als tweede taal?

Om deze vraag te kunnen beantwoorden is de, voor dit onderzoek ontwikkelde C-test, getest door middel van het uitvoeren van een pilot. Met de resultaten van deze pilot, kon de hoofdvraag beantwoord worden aan de hand van vier deelvragen, namelijk:

1. In welke mate voldoen de scores van de steekproef aan de eisen van een C-test zoals deze door de ontwikkelaars zijn opgesteld?

2. Hoe is de betrouwbaarheid van de test?

3. Hoe is de validiteit van de test?

4. Hoe kan de test aangepast worden voor optimaal gebruik?

Voordat deze vragen beantwoordt zullen worden, zal eerst ingegaan worden op de ontwikkelingsprocedure van de test.

(16)

16

3. Methode

Voor het ontwikkelen van deze Nederlandse C-test, zijn grotendeels de stappen gevolgd die Raatz & Klein-Braley (2002), de bedenkers van de C-test, hebben opgesteld voor het ontwikkelen van een C-test. In dit hoofdstuk zullen de constructie van de testen, de uitvoering van de pilot en de methode van de resultatenanalyse aan de hand van deze stappen worden uitgewerkt.

3.1 Selecteren van de teksten en construeren van de test

De eerste stap die Raatz & Klein-Braley hebben opgesteld, is het vaststellen van de doelgroep waar de test bij zal worden afgenomen. Deze C-test moet geschikt zijn voor de doelgroep van het onderzoek waarin deze test zal worden ingezet. De doelgroep van dat onderzoek bestaat uit volwassen NT2-sprekers van wie het Nederlands ongeveer tussen ERK-niveau A1 en C1 is.

De teksten die in de C-test worden opgenomen, moeten aansluiten op de taalniveaus die de test moet meten. In de situatie van dit onderzoek waren dat dus teksten tussen ERK-niveau A1 en C1. Behalve het niveau van de teksten waren er nog andere uitgangspunten voor de tekstselectie. Zo bevatten de teksten geen specifieke vaktaal of woordenschat en geen verbale humor. De voor deze C-test geselecteerde teksten zijn afkomstig uit verschillende bronnen.

Ze komen uit de lesboeken van Kleurrijker (A1-A2: Taalcompleet; A2-B1: Taalsterk) en van een oefenwebsite, genaamd nt2taalmenu.nl voor niveau B1-B2. Voor het gebruik van deze teksten werd toestemming gegeven door de uitgevers van de betreffende methoden. Voor niveau B2- C1 zijn authentieke teksten gebruikt. Deze teksten waren informatief van aard en werden van websites zonder copyright gehaald. Een aantal teksten is aangepast. Dat wil zeggen dat een aantal woorden werd vervangen door een hoger frequent synoniem en dat er in sommige gevallen signaalwoorden werden toegevoegd aan lange zinnen. De teksten van een C-test zijn altijd korte teksten. In sommige gevallen moesten de teksten zoals ze geschreven waren dus worden ingekort. De teksten omvatten een breed scala aan onderwerpen, zoals gezondheid, huisdieren en werk en ze zijn geschreven in verschillende formats, zoals krantenartikelen, brieven en verhalen. Er zijn op vier verschillende niveaus teksten geselecteerd. Op elk van deze vier niveaus werden aanvankelijk acht teksten geselecteerd, in totaal waren dit dus 32 teksten. Al deze 32 teksten werden in C-format gebracht. Daarbij werd de eerste zin intact gehouden. Daarna werd de helft van elk tweede woord weggelaten. In gevallen met woorden van één letter, namen of getallen werd het woord altijd intact gehouden en werd van het volgende woord de helft weggelaten. Elke tekst bevatte tussen de 20 en 25 gaten. De laatste zin van de tekst werd weer intact gehouden.

De volgende stap was het testen van deze in C-test format gezette teksten bij hoogopgeleide moedertaalsprekers van het Nederlands, de groep die het hoogste taalniveau heeft. Hiermee kan worden aangetoond dat de items juist functioneren. Volgens Klein-Braley (1985) moet een toets die taalvaardigheid in een tweede taal moet meten, vrijwel foutloos ingevuld kunnen worden door hoogopgeleide moedertaalsprekers. Voor de C-test is voor deze groep een score van 90% of meer vereist (Raatz & Klein-Braley, 2002). Als hoogopgeleide moedertaalsprekers een taalvaardigheidstest voor een tweede taal namelijk niet ongeveer foutloos kunnen invullen, kan er volgens hen ook weinig gezegd worden over de score van een leerder van de taal. Om de geselecteerde teksten bij moedertaalsprekers te testen, werden van de 32 teksten twee C-testen gemaakt met elk vier teksten per niveau. Beide testen werden online ingevuld door vier volwassen moedertaalsprekers van het Nederlands. Bij twee van hen werd meegekeken hoe ze de test invulden op mijn computer om zo een beeld te krijgen van hoe het invullen in zijn werk kan gaan. De anderen kregen de test toegestuurd en hebben deze

(17)

17 zelf op hun computer ingevuld en teruggestuurd. Deze deelnemers werd ook gevraagd in te vullen hoe lang ze per test bezig waren. Dit omdat participanten voor de uiteindelijke C-test vijf minuten per tekst krijgen en we wilden zien of dit een tijd was waar volwassen moedertaalsprekers ook binnen konden blijven. Het minimum van 90% dat Raatz & Klein- Braley (2002) stellen, werd in één tekst door één participant niet gehaald, deze participant maakte drie fouten in de tekst (87% goed). Deze tekst is niet in de uiteindelijke C-test opgenomen. Bij 23 teksten maakte niemand een fout, bij de overige teksten werd door één of twee participanten maximaal twee fouten gemaakt. Niemand deed er langer dan vijf minuten over. Bij veertien gaten in verschillende teksten werden door de ingevulde antwoorden van de moedertaalsprekers meerdere invulmogelijkheden gevonden die zowel wat betreft het aantal letters als wat betreft de betekenis binnen de context pasten. Voorbeelden hiervan zijn gaten als va___ wat zowel 'vaak' als 'vaker' kan worden en re___ wat zowel 'rende' als 'reed' kan zijn binnen de context. Uit deze resultaten bleek dat alleen één tekst niet geschikt was omdat er door één van de participanten niet voldaan werd aan de 90%-eis. Verder zijn de teksten niet aangepast. Wel zijn er, aan de hand van de door de moedertaalsprekers ingevulde antwoorden, meerdere invulmogelijkheden gevonden die niet in de originele tekst voorkwamen maar wel goed zullen worden gerekend.

De volgende stap, was het combineren van de teksten tot een C-test. Hierbij moesten de teksten in volgorde van oplopende moeilijkheid komen te staan. Om een beeld te krijgen van de moeilijkheidsgraad van de teksten, is een tekstanalyse uitgevoerd door middel van de T- scan (Pander Maat et al. 2014). De T-scan is een software-tool waarmee Nederlandse teksten automatisch geanalyseerd kunnen worden. De tool geeft informatie over bijna 300 verschillende syntactische en lexicale kenmerken van de tekst in zijn geheel en over de zinnen en de woorden binnen de tekst. In dit onderzoek is er voor gekozen om door middel van de T- scan zes tekstkenmerken te analyseren, namelijk: de frequentie van de woorden in de tekst, de woord- en zinslengte, de waarschijnlijkheid, de afhankelijkheidslengte en de entropie. Dit zijn zes kenmerken aan de hand waarvan informatie over tekstcomplexiteit verkregen kan worden. De kenmerken 'woordlengte' en 'frequentie' zeggen iets over de lexicale complexiteit van een tekst. Woordlengte is een vrij grove indicatie voor lexicale complexiteit. Frequentie is een meer valide meting voor lexicale complexiteit. Hoe frequenter een woord is, hoe vaker iemand dat woord (of een bepaalde vorm van dat woord) waarschijnlijk is tegengekomen.

Frequentie kan op deze manier de bekendheid van een woord voorspellen en daarmee ook de waarschijnlijkheid dat iemand het woord aan diens betekenis kan linken. (Pander Maat et al., 2014) De frequentie van een woord zoals T-scan die in deze analyse weergeeft in de output is gebaseerd op het SoNaR-corpus. Dit is een corpus dat meer dan 500 miljoen woorden bevat en bestaat uit teksten van verschillende genres en uit verschillende domeinen. 'Zinslengte' en 'afhankelijkheidslengte' geven informatie over de zinscomplexiteit binnen een tekst.

Zinslengte is een klassiek tekstkenmerk dat leesbaarheid zou voorspellen. Lange zinnen zouden een tekst moeilijker maken om te lezen, maar dat is niet altijd het geval. Daarom is er een tweede kenmerk voor zinscomplexiteit meegenomen in de analyse, namelijk afhankelijkheidslengte binnen zinnen. Dit is een meer betrouwbaar kenmerk dat zinscomplexiteit en daarmee ook tekstcomplexiteit kan voorspellen. T-scan geeft de afstand tussen verschillende woorden die syntactisch gezien bij elkaar horen. Dat is bijvoorbeeld de afstand tussen het verbum en het subject of de afstand tussen de determinator en het naamwoord, met andere woorden, de afstand tussen het 'hoofd' en de 'afhankelijke' van een constructie. Als er meerdere afhankelijkheden zijn binnen een zin, geeft T-scan de gemiddelde

(18)

18 afhankelijkheidslengte. Hoe groter de afstanden tussen hoofden en hun afhankelijken hoe lastiger de zin te verwerken is voor lezers. (Gibson, 2000 geciteerd in Pander Maat et al., 2014) 'Entropie' en 'waarschijnlijkheid' zijn beide probabiliteitsmaten. Hoe minder waarschijnlijk een woord of een tekstfragment is, hoe lastiger die waarschijnlijk te verwerken zal zijn. De waarschijnlijkheid is hier gebaseerd op de voorwaartse trigram-probabiliteit. Dat is de logaritme van de kans dat een woord zich voordoet, afgaand op de twee woorden die eraan voorafgaan. Die waarschijnlijkheid is afgeleid uit het SoNaR-corpus. Verder is ook de entropie berekend. Dat is een maat voor onzekerheid en voorspelbaarheid van een gehele taaluiting.

Hoe onverwachter een taaluiting is, hoe hoger de entropie en hoe moeilijker de leesbaarheid is. Deze zes kenmerken van tekstcomplexiteit zijn voor alle 32 teksten vastgesteld. Door middel van het statistische analyse programma JASP (Versie 0.14; JASP Team, 2020) is gekeken welke van deze kenmerken significant correleerden, zie Tabel 1.

Tabel 1

Pearson Correlaties (en Significantie) tussen zes kenmerken van tekstcomplexiteit (N = 32)

Kenmerk 1 2 3 4 5 6

1. Frequentie X -.547 (.001)* -.210 (.248) .019 (.920) .646 (.001)* -.198 (.278) 2. Woordlengte -.547 (.001)* X .021 (.907) -.116 (.528) -.289 (.109) .070 (.703) 3. Zinslengte -.210 (.248) .021 (.907) X .807 (.001)* -.109 (.554) .915 (.001)*

4. Afhankelijkheids-

lengte .019 (.920) -.116 (.528) .807 (.001)* X -.022 (.906) .731 (.001)*

5. Waarschijnlijkheid .646 (.001)* -.289 (.109) -.109 (.554) -.022 (.906) X .112 (.542) 6. Entropie -.198 (.278) .070 (.703) .915 (.001)* .731 (.001)* .112 (.542) X

Noot. Significante correlaties zijn gemarkeerd met *

Tabel 1 laat zien dat er een gemiddelde, significante correlatie was tussen de kenmerken woordlengte en frequentie en tussen frequentie en waarschijnlijkheid. Woordlengte en waarschijnlijkheid correleerden niet. Verder bleek uit de analyse dat er hoge, significante correlaties bestonden tussen de kenmerken afhankelijkheidslengte, entropie en zinslengte.

Dit strookt met de verwachtingen zoals beschreven in Pander Maat et al., 2014.

Op basis van de uitkomsten is besloten om woordlengte niet meer mee te nemen in verdere analyse over de complexiteit van de teksten. Dat is gedaan omdat woordlengte alleen een zwakke tot gemiddelde correlatie zien met frequentie. Daarbij blijkt uit verschillende onderzoeken dat woordlengte geen duidelijke indicator is voor lexicale complexiteit, aangezien onder andere samengestelde woorden en afleidingen die semantisch transparant zijn, de uitkomst misleiden (Pander Maat et al., 2014). Als dit kenmerk geen duidelijke indicator is voor lexicale complexiteit is het daarmee ook geen indicator van algemene tekstcomplexiteit. Om deze redenen is besloten om woordlengte niet meer mee te nemen in verdere analyse. Op basis van de correlaties zijn de overige vijf kenmerken onderverdeeld in twee factoren die iets kunnen zeggen over tekstcomplexiteit. De eerste factor is probabiliteit.

Deze factor omvat frequentie en waarschijnlijkheid. De tweede factor is zinscomplexiteit. Deze factor omvat zinslengte, afhankelijkheidslengte en waarschijnlijkheid. Om deze twee factoren goed met elkaar te kunnen vergelijken, werden de scores van de vijf kenmerken die deze factoren omvatten, gerangschikt van 1-32. Dit rangschikken is gedaan omdat hogere scores niet altijd een hogere complexiteit betekenen. Soms staan hogere scores namelijk voor hogere

(19)

19 complexiteit, bijvoorbeeld bij zinslengte, en soms juist voor een lagere complexiteit, bijvoorbeeld bij frequentie. De scores van elk kenmerk zijn zo gerangschikt dat waarde 1 aan de meest complexe tekst werd toegeschreven en waarde 32 aan de minst complexe tekst wat betreft dat kenmerk. De waardes van de probabiliteitsfactor zijn het gemiddelde van de gerangschikte scores van frequentie en waarschijnlijkheid. De waardes van de zinscomplexiteitsfactor zijn het gemiddelde van de gerangschikte scores van zinslengte, afhankelijkheidslengte en entropie. Naast de twee factoren die uit de T-scan naar voren kwamen, was er nog een derde factor, namelijk selectieniveau, die meegenomen werd bij de tekstselectie en het bepalen van de moeilijkheid van de tekst. Het selectieniveau is het ERK- niveau waarop de teksten aanvankelijk werden uitgezocht. Per niveau waren aanvankelijk acht teksten uitgezocht, deze niveaus werden ook gerangschikt. Niveau A2 = waarde 25-32, niveau B1 = waarde 17-24, niveau B2 = waarde 9-16, niveau C1 = waarde 1-8.

De waardes van de probabiliteitsfactor en de zinscomplexiteitsfactor zijn gerangschikt en vervolgens is gekeken of de gerangschikte waardes met elkaar matchten en of ze matchten met de selectieniveaufactor: de waardes die hoorden bij het ERK-niveau waarop de teksten geselecteerd waren. Matchen wil zeggen dat de waardes binnen dezelfde moeilijkheidscategorie vallen. Dus waarde 25-32 voor de minst complexe teksten, waarde 17- 24 voor de iets complexere teksten et cetera., zie Tabel 2.

Tabel 2

Gerangschikte scores op drie factoren voor tekstcomplexiteit per tekst Tekst en het ERK-niveau

waarop deze is geselecteerd

Selectieniveaufactor Probabiliteitsfactor Zinscomplexiteitsfactor

Tekst 1 – A2 25-32 30* 24

Tekst 2 – A2 25-32 32* 15

Tekst 3 – A2 25-32 25* 28*

Tekst 4 – A2 25-32 27* 13

Tekst 5 – A2 25-32 18 22

Tekst 6 – A2 25-32 26* 31*

Tekst 7 – A2 25-32 14 5

Tekst 8 – A2 25-32 23 9

Tekst 9 – B1 17-24 13 26

Tekst 10 – B1 17-24 17* 25

Tekst 11 – B1 17-24 6 20*

Tekst 12 – B1 17-24 28 12

Tekst 13 – B1 17-24 11 30

Tekst 14 – B1 17-24 8 27

Tekst 15 – B1 17-24 16 8

Tekst 16 – B1 17-24 24* 32

Tekst 17 – B2 9-16 31 18

(20)

20

Tekst 18 – B2 9-16 12* 3

Tekst 19 – B2 9-16 19 16*

Tekst 20 – B2 9-16 29 7

Tekst 21 – B2 9-16 2 29

Tekst 22 – B2 9-16 7 11*

Tekst 23 – B2 9-16 21 17

Tekst 24 – B2 9-16 9* 23

Tekst 25 – C1 1-8 1* 2*

Tekst 26 – C1 1-8 22 1*

Tekst 27 – C1 1-8 20 4*

Tekst 28 – C1 1-8 10 14

Tekst 29 – C1 1-8 3* 6*

Tekst 30 – C1 1-8 5* 10

Tekst 31 – C1 1-8 15 19

Tekst 32 – C1 1-8 4* 21

Noot. Waardes die kloppen bij het aanvankelijk geselecteerde niveau zijn gemarkeerd met *.

Voor de uiteindelijke C-test pilot werden teksten geselecteerd op vier verschillende niveaus, vergelijkbaar met de ERK-niveaus A2 tot C1. Per niveau waren drie teksten nodig zodat er een C-test pilot kon worden uitgevoerd met twaalf teksten tussen niveau A2 en C1, oplopend in moeilijkheid. Aan de hand van de gegevens in Tabel 2, zijn per niveau de meest geschikte teksten geselecteerd, zie Tabel 3 voor de selectieprocedure. Deze teksten zijn gecombineerd tot een complete C-test.

Tabel 3

De meest geschikte teksten per niveau

Niveau Tekst Matching

Niveau 1 – A2

Tekst 3 Scores op alle factoren matchen met elkaar en met het bedoelde niveau.

Tekst 6 Scores op alle factoren matchen met elkaar en met het bedoelde niveau.

Tekst 1

Score op probabiliteit matcht met het bedoelde niveau.

Score op zinscomplexiteit is één punt lager dan het bedoelde niveau.

Niveau 2 – B1

Tekst 10

Score op probabiliteit matcht met het bedoelde niveau.

Score op zinscomplexiteit is één punt hoger dan het bedoelde niveau.

Tekst 5

De scores op probabiliteit en zinscomplexiteit matchen met niveau B1, de tekst was aanvankelijk geselecteerd op niveau A2.

Tekst 9 Score op probabiliteit is twee punten hoger dan het bedoelde niveau. Score op zinscomplexiteit is vier punten

(21)

21 minder dan het bedoelde niveau. De tekst matcht het best met de andere teksten.

Niveau 3 – B2

Tekst 22

Score op probabiliteit is twee punten lager dan het bedoelde niveau. Score op zinscomplexiteit matcht met het bedoelde niveau.

Tekst 28

De scores op probabiliteit en zinscomplexiteit matchen met niveau B2, de tekst was aanvankelijk geselecteerd op niveau C1.

Tekst 19

Score op probabiliteit matcht met het bedoelde niveau.

Score op zinscomplexiteit is vier punten hoger dan het bedoelde niveau.

Niveau 4 – C1

Tekst 25 Scores op alle factoren matchen met elkaar en met het bedoelde niveau.

Tekst 29 Scores op alle factoren matchen met elkaar en met het bedoelde niveau.

Tekst 30

Score op probabiliteit matcht met het bedoelde niveau.

Score op zinscomplexiteit is twee punten hoger dan het bedoelde niveau.

Eén van de sterke punten van de C-test is dat deze bestaat uit korte teksten met uiteenlopende thema's. Op die manier wordt voorkomen dat voorkennis over het thema van de test de uitslag voor een groot deel kan bepalen. Tabel 4 laat onder andere zien welke onderwerpen de twaalf geselecteerde teksten omvatten. In Appendix 7.7 zijn alle teksten van de C-test te lezen.

Tabel 4

De teksten van de C-test

Titel Aanvankelijk

tekstnummer Thema Tekstsoort Aantal gaten

1. Werken in een winkel 3 werk kort verhaal 23

2. Ander werk zoeken 6 werk uitleg 23

3. Goede vrienden 1 vriendschap kort verhaal 24

4. Wonen in een flat 10 wonen brief 24

5. Een vreemde droom 9 dromen dagboek 23

6. Boeken ruilen 5 lezen advertentie 24

7. Staatsexamen NT2 22 educatie uitleg 23

8. Elektriciteitsverbruik in

Nederland 19 geschiedenis educatief

artikel 24

9. Groen huis 28 wonen nieuwsbericht 22

10. Meldpunt gevaarlijke honden 25 huisdieren mededeling 25

11. Drukte in natuurgebieden 29 natuur nieuwsbericht 25

12. Te weinig beweging 30 educatie educatief

artikel 24

(22)

22

3.2 Een pilot van de C-test uitvoeren

3.2.1 Participanten

Om participanten te vinden die een representatieve steekproef kunnen vormen voor volwassen NT2-leerders in Nederland, zijn een aantal taalscholen benaderd met de vraag of geïnteresseerden een mailtje konden sturen of hun mailadres wilden doorgeven. Iedereen die mee wilde doen en een volwassen leerder van het Nederlands was, kreeg via zijn of haar e- mail de link naar het onderzoek. De meeste participanten zijn via taalscholen bij dit onderzoek gekomen, de rest is door ons of door onze kennissen benaderd om mee te doen. In totaal hebben 58 participanten de test ingevuld. 55 van de ingevulde testen waren bruikbaar, aangezien drie participanten de test al hadden afgesloten voordat ze bij het C-test gedeelte waren aangekomen.

Van de participanten waren er 31 vrouw, 23 man en één participant anders/ zeg ik liever niet.

De gemiddelde leeftijd van de participanten was 26,9 jaar met een standaarddeviatie van 10,6.

De jongste participant was 18 jaar en de oudste 61. Wat betreft leeftijd was dit een gemêleerde groep. De gemiddelde lengte van educatie in het Nederlands was 2,6 jaar met een standaarddeviatie van 1,3; met een minimum van 1 en een maximum van 6,1 jaar. De gemiddelde lengte van het verblijf in Nederland van de participanten was 5 jaar met een standaarddeviatie van 3,4; met een minimum van 1,4 en een maximum van 21,6 jaar. De participanten hadden negentien verschillende moedertalen. In Appendix 7.1 zijn de moedertalen van de participanten te zien. In Grafiek 1 is te zien welk ERK-niveau Nederlands de participanten zelf dachten te hebben op het moment van invullen van de test.

Grafiek 1

Zelf-gerapporteerd niveau Nederlands van de participanten

Noot. N = 55

A1; N = 6

A2; N = 15

B1; N = 22

B2; N = 8

C1; N = 4

C2; N = 0 0

5 10 15 20 25

Participanten

ERK-niveau

(23)

23 3.2.2 Materialen

Achtergrondvragenlijst

Om wat meer informatie over de participanten te krijgen, is een korte vragenlijst opgesteld.

Deze vragenlijst vormde het eerste deel van de online test. In de vragenlijst is onder andere gevraagd naar sekse, leeftijd op dit moment, bij aankomst in Nederland (age of arrival) en bij aanvang van het leren van Nederlands (age of onset). Ook is gevraagd naar de moedertaal, de beheersing van eventuele andere talen en het ERK-niveau Nederlands dat de participant zelf dacht te hebben. Boven deze laatste vraag zijn korte beschrijvingen van de ERK-niveaus toegevoegd (Deygers et al., 2019) zodat participanten die hier niet mee bekend waren, toch het meest passende niveau konden invullen. De vragenlijst is in zijn geheel te zien in Appendix 7.5.

LexTALE

Na het invullen van de vragenlijst en voor het invullen van de C-test, hebben participanten de LexTALE (Lemhöfer & Broersma, 2012; www.lextale.com) ingevuld. LexTALE staat voor Lexical Test for Advanced Learners of English. De LexTALE is een gevalideerde en gestandaardiseerde test voor woordenschatkennis van leerders van het Engels als tweede taal (ESL) maar de test geeft ook een indicatie voor algemene taalvaardigheid in het Engels als tweede taal. Dat laatste blijkt uit de significante correlaties die de test liet zien met de TOEIC en de Quick Placement Test, beide gestandaardiseerde testen om de vaardigheid in ESL te meten. De LexTALE is initieel ontworpen voor het Engels maar het meetinstrument is ook beschikbaar in het Nederlands en in het Duits. In dit onderzoek is de Nederlandse versie gebruikt. Deze is parallel aan de Engelse versie ontworpen maar is nog niet gevalideerd. Bij het bespreken van de resultaten in het volgende hoofdstuk is daarom ook aandacht worden besteed aan de validiteit en de betrouwbaarheid van de LexTALE in dit onderzoek.

De LexTALE is een meetinstrument dat online in minder dan vijf minuten woordenschatkennis kan meten. Het is een niet-getimede online lexicale decisie taak waarbij participanten telkens een woord op hun scherm te zien krijgen en daarbij moeten aangeven of dit een bestaand woord is in de betreffende taal of niet. In totaal krijgen participanten 63 items waarvan de eerste drie 'oefenitems' zijn. De LexTALE is efficiënt en makkelijk af te nemen en is speciaal ontworpen voor onderzoekers op het gebied van ESL , die snel informatie nodig hebben van de woordenschatkennis of een indicatie van de algemene taalvaardigheid van hun participanten. (Lemhöfer & Broersma, 2012)

C-test

Het derde en laatste deel bestond uit de C-test zelf. De C-test bevatte twaalf losse teksten die op volgorde van oplopende moeilijkheid gesorteerd waren. Participanten kregen voor elke tekst vijf minuten om deze in te vullen. Voorafgaand aan de C-test kregen participanten een instructie inclusief voorbeelden te zien. Deze instructie is te lezen in Appendix 7.6.

3.2.3 Procedures

Participanten kregen een link naar het onderzoek en een participantnummer per email toegestuurd. Zij kregen na het openen van de link, als eerste de keuze om de instructies voor de test in het Engels of in het Nederlands te krijgen. Hierbij kozen 19 participanten voor Engels.

Vervolgens kregen participanten de informatiebrochure te lezen in de taal die ze in de eerste stap hadden gekozen. Daarna volgde het toestemmingsformulier, zie hiervoor Appendix 7.4.

Participanten konden alleen verder naar de test als ze bevestigden dat ze akkoord waren met de voorwaarden. De test bestond in totaal uit drie delen. Als eerste de achtergrondvragenlijst, daarna volgde de instructie voor de LexTALE en de LexTALE zelf en als laatste de instructies voor de C-test en de C-test zelf. Voor de LexTALE konden participanten zoveel tijd nemen als

Referenties

GERELATEERDE DOCUMENTEN

Both the Organisation for Economic Co-operation and Development (OECD) and the World Bank demonstrated their ability to learn from the crisis of development aid experienced in

By offering a systematic and comparative analysis of the social agenda of populist radical right parties, this article contributes to our understanding of the future develop- ment if

Deze getallen worden gevonden door de onderste gractiegrens af te trekken van het gemiddelde ( resp. feet gemiddelde aftrekken van de onderste fractiegrens )en

The framework is a result of studying and applying a number of best practice methods and tools, including customer segmentation, customer lifetime value, value analysis, the

Voor sommige instrumenten zijn voldoende alternatieven – zo hoeft een beperkt aantal mondelinge vragen in de meeste gevallen niet te betekenen dat raadsleden niet aan hun

2) Enkele grondwetsbepalingen staan delegatie niet toe; dan is dus experimenteren bij lager voorschrift niet toegestaan. 3) Is delegatie in concreto mogelijk, dan is, als niet aan

Een nieuw lied van een meisje, die naar het slagveld ging, om haar minnaar te zoeken... Een nieuw lied van een meisje, die naar het slagveld ging, om haar minnaar

Het evalueert de communicatieve vaardigheid van de cursist voor de betrokken richtgraad en stelt vast in welke mate hij in staat is zijn communicatieve intentie te realiseren door