Selecteren van de teksten en construeren van de test

3. Methode

3.1 Selecteren van de teksten en construeren van de test

De eerste stap die Raatz & Klein-Braley hebben opgesteld, is het vaststellen van de doelgroep waar de test bij zal worden afgenomen. Deze C-test moet geschikt zijn voor de doelgroep van het onderzoek waarin deze test zal worden ingezet. De doelgroep van dat onderzoek bestaat uit volwassen NT2-sprekers van wie het Nederlands ongeveer tussen ERK-niveau A1 en C1 is.

De teksten die in de C-test worden opgenomen, moeten aansluiten op de taalniveaus die de test moet meten. In de situatie van dit onderzoek waren dat dus teksten tussen ERK-niveau A1 en C1. Behalve het niveau van de teksten waren er nog andere uitgangspunten voor de tekstselectie. Zo bevatten de teksten geen specifieke vaktaal of woordenschat en geen verbale humor. De voor deze C-test geselecteerde teksten zijn afkomstig uit verschillende bronnen.

Ze komen uit de lesboeken van Kleurrijker (A1-A2: Taalcompleet; A2-B1: Taalsterk) en van een oefenwebsite, genaamd nt2taalmenu.nl voor niveau B1-B2. Voor het gebruik van deze teksten werd toestemming gegeven door de uitgevers van de betreffende methoden. Voor niveau B2-C1 zijn authentieke teksten gebruikt. Deze teksten waren informatief van aard en werden van websites zonder copyright gehaald. Een aantal teksten is aangepast. Dat wil zeggen dat een aantal woorden werd vervangen door een hoger frequent synoniem en dat er in sommige gevallen signaalwoorden werden toegevoegd aan lange zinnen. De teksten van een C-test zijn altijd korte teksten. In sommige gevallen moesten de teksten zoals ze geschreven waren dus worden ingekort. De teksten omvatten een breed scala aan onderwerpen, zoals gezondheid, huisdieren en werk en ze zijn geschreven in verschillende formats, zoals krantenartikelen, brieven en verhalen. Er zijn op vier verschillende niveaus teksten geselecteerd. Op elk van deze vier niveaus werden aanvankelijk acht teksten geselecteerd, in totaal waren dit dus 32 teksten. Al deze 32 teksten werden in C-format gebracht. Daarbij werd de eerste zin intact gehouden. Daarna werd de helft van elk tweede woord weggelaten. In gevallen met woorden van één letter, namen of getallen werd het woord altijd intact gehouden en werd van het volgende woord de helft weggelaten. Elke tekst bevatte tussen de 20 en 25 gaten. De laatste zin van de tekst werd weer intact gehouden.

De volgende stap was het testen van deze in C-test format gezette teksten bij hoogopgeleide moedertaalsprekers van het Nederlands, de groep die het hoogste taalniveau heeft. Hiermee kan worden aangetoond dat de items juist functioneren. Volgens Klein-Braley (1985) moet een toets die taalvaardigheid in een tweede taal moet meten, vrijwel foutloos ingevuld kunnen worden door hoogopgeleide moedertaalsprekers. Voor de C-test is voor deze groep een score van 90% of meer vereist (Raatz & Klein-Braley, 2002). Als hoogopgeleide moedertaalsprekers een taalvaardigheidstest voor een tweede taal namelijk niet ongeveer foutloos kunnen invullen, kan er volgens hen ook weinig gezegd worden over de score van een leerder van de taal. Om de geselecteerde teksten bij moedertaalsprekers te testen, werden van de 32 teksten twee C-testen gemaakt met elk vier teksten per niveau. Beide testen werden online ingevuld door vier volwassen moedertaalsprekers van het Nederlands. Bij twee van hen werd meegekeken hoe ze de test invulden op mijn computer om zo een beeld te krijgen van hoe het invullen in zijn werk kan gaan. De anderen kregen de test toegestuurd en hebben deze

17 zelf op hun computer ingevuld en teruggestuurd. Deze deelnemers werd ook gevraagd in te vullen hoe lang ze per test bezig waren. Dit omdat participanten voor de uiteindelijke C-test vijf minuten per tekst krijgen en we wilden zien of dit een tijd was waar volwassen moedertaalsprekers ook binnen konden blijven. Het minimum van 90% dat Raatz & Klein-Braley (2002) stellen, werd in één tekst door één participant niet gehaald, deze participant maakte drie fouten in de tekst (87% goed). Deze tekst is niet in de uiteindelijke C-test opgenomen. Bij 23 teksten maakte niemand een fout, bij de overige teksten werd door één of twee participanten maximaal twee fouten gemaakt. Niemand deed er langer dan vijf minuten over. Bij veertien gaten in verschillende teksten werden door de ingevulde antwoorden van de moedertaalsprekers meerdere invulmogelijkheden gevonden die zowel wat betreft het aantal letters als wat betreft de betekenis binnen de context pasten. Voorbeelden hiervan zijn gaten als va___ wat zowel 'vaak' als 'vaker' kan worden en re___ wat zowel 'rende' als 'reed' kan zijn binnen de context. Uit deze resultaten bleek dat alleen één tekst niet geschikt was omdat er door één van de participanten niet voldaan werd aan de 90%-eis. Verder zijn de teksten niet aangepast. Wel zijn er, aan de hand van de door de moedertaalsprekers ingevulde antwoorden, meerdere invulmogelijkheden gevonden die niet in de originele tekst voorkwamen maar wel goed zullen worden gerekend.

De volgende stap, was het combineren van de teksten tot een C-test. Hierbij moesten de teksten in volgorde van oplopende moeilijkheid komen te staan. Om een beeld te krijgen van de moeilijkheidsgraad van de teksten, is een tekstanalyse uitgevoerd door middel van de T-scan (Pander Maat et al. 2014). De T-T-scan is een software-tool waarmee Nederlandse teksten automatisch geanalyseerd kunnen worden. De tool geeft informatie over bijna 300 verschillende syntactische en lexicale kenmerken van de tekst in zijn geheel en over de zinnen en de woorden binnen de tekst. In dit onderzoek is er voor gekozen om door middel van de T-scan zes tekstkenmerken te analyseren, namelijk: de frequentie van de woorden in de tekst, de woorden zinslengte, de waarschijnlijkheid, de afhankelijkheidslengte en de entropie. Dit zijn zes kenmerken aan de hand waarvan informatie over tekstcomplexiteit verkregen kan worden. De kenmerken 'woordlengte' en 'frequentie' zeggen iets over de lexicale complexiteit van een tekst. Woordlengte is een vrij grove indicatie voor lexicale complexiteit. Frequentie is een meer valide meting voor lexicale complexiteit. Hoe frequenter een woord is, hoe vaker iemand dat woord (of een bepaalde vorm van dat woord) waarschijnlijk is tegengekomen.

Frequentie kan op deze manier de bekendheid van een woord voorspellen en daarmee ook de waarschijnlijkheid dat iemand het woord aan diens betekenis kan linken. (Pander Maat et al., 2014) De frequentie van een woord zoals T-scan die in deze analyse weergeeft in de output is gebaseerd op het SoNaR-corpus. Dit is een corpus dat meer dan 500 miljoen woorden bevat en bestaat uit teksten van verschillende genres en uit verschillende domeinen. 'Zinslengte' en 'afhankelijkheidslengte' geven informatie over de zinscomplexiteit binnen een tekst.

Zinslengte is een klassiek tekstkenmerk dat leesbaarheid zou voorspellen. Lange zinnen zouden een tekst moeilijker maken om te lezen, maar dat is niet altijd het geval. Daarom is er een tweede kenmerk voor zinscomplexiteit meegenomen in de analyse, namelijk afhankelijkheidslengte binnen zinnen. Dit is een meer betrouwbaar kenmerk dat zinscomplexiteit en daarmee ook tekstcomplexiteit kan voorspellen. T-scan geeft de afstand tussen verschillende woorden die syntactisch gezien bij elkaar horen. Dat is bijvoorbeeld de afstand tussen het verbum en het subject of de afstand tussen de determinator en het naamwoord, met andere woorden, de afstand tussen het 'hoofd' en de 'afhankelijke' van een constructie. Als er meerdere afhankelijkheden zijn binnen een zin, geeft T-scan de gemiddelde

18 afhankelijkheidslengte. Hoe groter de afstanden tussen hoofden en hun afhankelijken hoe lastiger de zin te verwerken is voor lezers. (Gibson, 2000 geciteerd in Pander Maat et al., 2014) 'Entropie' en 'waarschijnlijkheid' zijn beide probabiliteitsmaten. Hoe minder waarschijnlijk een woord of een tekstfragment is, hoe lastiger die waarschijnlijk te verwerken zal zijn. De waarschijnlijkheid is hier gebaseerd op de voorwaartse trigram-probabiliteit. Dat is de logaritme van de kans dat een woord zich voordoet, afgaand op de twee woorden die eraan voorafgaan. Die waarschijnlijkheid is afgeleid uit het SoNaR-corpus. Verder is ook de entropie berekend. Dat is een maat voor onzekerheid en voorspelbaarheid van een gehele taaluiting.

Hoe onverwachter een taaluiting is, hoe hoger de entropie en hoe moeilijker de leesbaarheid is. Deze zes kenmerken van tekstcomplexiteit zijn voor alle 32 teksten vastgesteld. Door middel van het statistische analyse programma JASP (Versie 0.14; JASP Team, 2020) is gekeken welke van deze kenmerken significant correleerden, zie Tabel 1.

Tabel 1

Pearson Correlaties (en Significantie) tussen zes kenmerken van tekstcomplexiteit (N = 32)

Kenmerk 1 2 3 4 5 6

Noot. Significante correlaties zijn gemarkeerd met *

Tabel 1 laat zien dat er een gemiddelde, significante correlatie was tussen de kenmerken woordlengte en frequentie en tussen frequentie en waarschijnlijkheid. Woordlengte en waarschijnlijkheid correleerden niet. Verder bleek uit de analyse dat er hoge, significante correlaties bestonden tussen de kenmerken afhankelijkheidslengte, entropie en zinslengte.

Dit strookt met de verwachtingen zoals beschreven in Pander Maat et al., 2014.

Op basis van de uitkomsten is besloten om woordlengte niet meer mee te nemen in verdere analyse over de complexiteit van de teksten. Dat is gedaan omdat woordlengte alleen een zwakke tot gemiddelde correlatie zien met frequentie. Daarbij blijkt uit verschillende onderzoeken dat woordlengte geen duidelijke indicator is voor lexicale complexiteit, aangezien onder andere samengestelde woorden en afleidingen die semantisch transparant zijn, de uitkomst misleiden (Pander Maat et al., 2014). Als dit kenmerk geen duidelijke indicator is voor lexicale complexiteit is het daarmee ook geen indicator van algemene tekstcomplexiteit. Om deze redenen is besloten om woordlengte niet meer mee te nemen in verdere analyse. Op basis van de correlaties zijn de overige vijf kenmerken onderverdeeld in twee factoren die iets kunnen zeggen over tekstcomplexiteit. De eerste factor is probabiliteit.

Deze factor omvat frequentie en waarschijnlijkheid. De tweede factor is zinscomplexiteit. Deze factor omvat zinslengte, afhankelijkheidslengte en waarschijnlijkheid. Om deze twee factoren goed met elkaar te kunnen vergelijken, werden de scores van de vijf kenmerken die deze factoren omvatten, gerangschikt van 1-32. Dit rangschikken is gedaan omdat hogere scores niet altijd een hogere complexiteit betekenen. Soms staan hogere scores namelijk voor hogere

19 complexiteit, bijvoorbeeld bij zinslengte, en soms juist voor een lagere complexiteit, bijvoorbeeld bij frequentie. De scores van elk kenmerk zijn zo gerangschikt dat waarde 1 aan de meest complexe tekst werd toegeschreven en waarde 32 aan de minst complexe tekst wat betreft dat kenmerk. De waardes van de probabiliteitsfactor zijn het gemiddelde van de gerangschikte scores van frequentie en waarschijnlijkheid. De waardes van de zinscomplexiteitsfactor zijn het gemiddelde van de gerangschikte scores van zinslengte, afhankelijkheidslengte en entropie. Naast de twee factoren die uit de T-scan naar voren kwamen, was er nog een derde factor, namelijk selectieniveau, die meegenomen werd bij de tekstselectie en het bepalen van de moeilijkheid van de tekst. Het selectieniveau is het ERK-niveau waarop de teksten aanvankelijk werden uitgezocht. Per ERK-niveau waren aanvankelijk acht teksten uitgezocht, deze niveaus werden ook gerangschikt. Niveau A2 = waarde 25-32, niveau B1 = waarde 17-24, niveau B2 = waarde 9-16, niveau C1 = waarde 1-8.

De waardes van de probabiliteitsfactor en de zinscomplexiteitsfactor zijn gerangschikt en vervolgens is gekeken of de gerangschikte waardes met elkaar matchten en of ze matchten met de selectieniveaufactor: de waardes die hoorden bij het ERK-niveau waarop de teksten geselecteerd waren. Matchen wil zeggen dat de waardes binnen dezelfde moeilijkheidscategorie vallen. Dus waarde 25-32 voor de minst complexe teksten, waarde 17-24 voor de iets complexere teksten et cetera., zie Tabel 2.

Tabel 2

Gerangschikte scores op drie factoren voor tekstcomplexiteit per tekst Tekst en het ERK-niveau

Noot. Waardes die kloppen bij het aanvankelijk geselecteerde niveau zijn gemarkeerd met *.

Voor de uiteindelijke C-test pilot werden teksten geselecteerd op vier verschillende niveaus, vergelijkbaar met de ERK-niveaus A2 tot C1. Per niveau waren drie teksten nodig zodat er een C-test pilot kon worden uitgevoerd met twaalf teksten tussen niveau A2 en C1, oplopend in moeilijkheid. Aan de hand van de gegevens in Tabel 2, zijn per niveau de meest geschikte teksten geselecteerd, zie Tabel 3 voor de selectieprocedure. Deze teksten zijn gecombineerd tot een complete C-test.

Score op probabiliteit matcht met het bedoelde niveau.

Score op zinscomplexiteit is één punt lager dan het bedoelde niveau.

Niveau 2 – B1

Tekst 10

Score op probabiliteit matcht met het bedoelde niveau.

Score op zinscomplexiteit is één punt hoger dan het bedoelde niveau.

Tekst 5

De scores op probabiliteit en zinscomplexiteit matchen met niveau B1, de tekst was aanvankelijk geselecteerd op niveau A2.

Tekst 9 Score op probabiliteit is twee punten hoger dan het bedoelde niveau. Score op zinscomplexiteit is vier punten

21 minder dan het bedoelde niveau. De tekst matcht het best met de andere teksten.

Niveau 3 – B2

Tekst 22

Score op probabiliteit is twee punten lager dan het bedoelde niveau. Score op zinscomplexiteit matcht met het bedoelde niveau.

Tekst 28

De scores op probabiliteit en zinscomplexiteit matchen met niveau B2, de tekst was aanvankelijk geselecteerd op niveau C1.

Tekst 19

Score op probabiliteit matcht met het bedoelde niveau.

Score op zinscomplexiteit is vier punten hoger dan het

Score op probabiliteit matcht met het bedoelde niveau.

Score op zinscomplexiteit is twee punten hoger dan het bedoelde niveau.

Eén van de sterke punten van de C-test is dat deze bestaat uit korte teksten met uiteenlopende thema's. Op die manier wordt voorkomen dat voorkennis over het thema van de test de uitslag voor een groot deel kan bepalen. Tabel 4 laat onder andere zien welke onderwerpen de twaalf geselecteerde teksten omvatten. In Appendix 7.7 zijn alle teksten van de C-test te lezen.

Tabel 4

De teksten van de C-test

Titel Aanvankelijk

tekstnummer Thema Tekstsoort Aantal gaten

1. Werken in een winkel 3 werk kort verhaal 23

2. Ander werk zoeken 6 werk uitleg 23

3. Goede vrienden 1 vriendschap kort verhaal 24

4. Wonen in een flat 10 wonen brief 24

5. Een vreemde droom 9 dromen dagboek 23

6. Boeken ruilen 5 lezen advertentie 24

7. Staatsexamen NT2 22 educatie uitleg 23

8. Elektriciteitsverbruik in

Nederland 19 geschiedenis educatief

artikel 24

9. Groen huis 28 wonen nieuwsbericht 22

10. Meldpunt gevaarlijke honden 25 huisdieren mededeling 25

11. Drukte in natuurgebieden 29 natuur nieuwsbericht 25

12. Te weinig beweging 30 educatie educatief

artikel 24

In document Een ideale taaltest? (pagina 16-22)