Hoe toets je taalvaardigheid? : een bijdrage tot de discussie

(1)

Hoe toets je taalvaardigheid? : een bijdrage tot de discussie

Citation for published version (APA):

Jochems, W. M. G., & Montens, F. (1986). Hoe toets je taalvaardigheid? : een bijdrage tot de discussie. (Delftse cahiers). Uitgeverij Boom.

Document status and date: Gepubliceerd: 01/01/1986

Document Version:

Uitgevers PDF, ook bekend als Version of Record

Please check the document version of this publication:

• A submitted manuscript is the version of the article upon submission and before peer-review. There can be important differences between the submitted version and the official published version of record. People interested in the research are advised to contact the author for the final version of the publication, or visit the DOI to the publisher's website.

• The final author version and the galley proof are versions of the publication after peer review.

• The final published version features the final layout of the paper including the volume, issue and page numbers.

Link to publication

General rights

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain

• You may freely distribute the URL identifying the publication in the public portal.

If the publication is distributed under the terms of Article 25fa of the Dutch Copyright Act, indicated by the “Taverne” license above, please follow below link for the End User Agreement:

www.tue.nl/taverne Take down policy

If you believe that this document breaches copyright please contact us at: openaccess@tue.nl

(2)

Hoe toets je taalvaardigheid?

(3)

HOE TOETS JE TAAL V AARDIGHEID? EEN BIJDRAGE TOT DE DISCUSSIE

Wim Jochems Frans .Montens

Boom M.eppel Amsterdam

(4)

© Wim Jochems en Frans Montens, 1986 Niets uit deze uitgave mag worden verveelvuldigd en/of openbaar gemaakt door middel van druk, fotocopie, microfilm of op welke andere wijze ook zonder voorafgaande schriftelijke toestemming van de uitgever; No part of this book may be reproduced in any way whatsoever without the written permission of the publisher

Verzorging omslag Studio Boom lliustratie omslag Burkhardt Soli, Leiden Druk Boompers drukkerijen bv, Meppel

CIP-Gegevens Koninklijke Bibliotheek, Den Haag

Jochems , Wim

Hoe toets je taalvaardigheid? - een bijdrage tot de discussie/Montens, Frans - Meppel (etc.) Boom

ISBN 90 6009 780 7

(5)

Voorwoord

In de afgelopen jaren heeft zich in algemene zin een posi-tieve consensus afgetekend over de wenselijkheid van de tot-standkoming van een Certificaat Nederlands als Tweede Taal (Coumou 1982, Montens & Sciarone 1985, Beheydt 1986). Deze consensus heeft in Nederland op bestuurlijk niveau haar uitdrukking gevonden in de instelling van een werkgroep van Onderwijs en Wetenschappen die, voorzover het volwassenen be-treft, tot taak heeft voorstellen terzake uit te werken, en wel met inbegrip van de bij zo'n Certificaat behorende toetsproce-dures.

llet stemt in additionele zin tot tevredenheid dat de werk-groep tot de slotsom is gekomen dat het geconstrueerde on-derscheid tussen Nederlands als Tweede Taal en Nederlands als Vreemde Taal beter kan worden opgeheven, en dat aan een Certificaat Nederlands voor Anderstaligen civiel effect zou moe-ten worden verleend dat voor Nederland en Belgie het best kan worden gewaarborgd door het Verdrag inzake de Neder-landse Taalunie.

De eventuele instelling van een Certificaat Nederlands voor Anderstaligen leidt natuurlijkerwijs tot een discussie over de vraag welke toetsvorm men moet kiezen om vast te stellen of iemand over voldoende kennis van het Nederlands beschikt om in aanmerking te komen voor zo'n Certificaat.

Op universitair niveau is deze discussie al gevoerd blijkens de paging te komen tot een Centrale Toets Nederlands

(6)

(Hulstijn 1986). De hier gebundelde artikelen vormen de bij-drage van de sectie Toegepaste Taalkunde van de Technische Universiteit Delft aan deze discussie. De artikelen zijn geschre-uen uanuit de overtuiging dat in het kader van de universitaire discussie op voorbarige wijze, want op grond van onvoldoende argumenten, gekozen is voor een soort zogenaamde realistische toetsing. Een dergelijke vorm van toetsing is extreem kostbaar en legt een groot beslag op de beschikbare middelen die in feite aan daadwerkelijk onderwijs besteed zouden moeten wor-den. Toetsing behoort van dat onderwijs slechts een klein on-derdeel te zijn.

Om redenen van efficiiintie en op grond van een afweging van kosten en baten heeft de Vakgroep Toegepaste Taalkunde van de Technische Universiteit Delft sinds jaar en dag de voor-keur gegeven aan de veel goedkopere multiple choice cloze-toetsen. Uit de hier gepubliceerde bijdragen blijkt, dat deze multiple choice cloze-toetsen qua nauwkeurigheid de zeer veel duurdere 'realistische' toetsen voor nagenoeg honderd procent benaderen. De, auteurs zijn dan ook de mening toegedaan dat hun bevindingen een zeker belang vertegenwoordigen nu de discussie blijkbaar op een hoger plan wordt gebracht.

Wij danken onze collega M. Klijn-Wuisman voor het verza-melen van een gedeelte van de (vele) gegevens waarop onze conclusies zijn gebaseerd.

Wim ]ochems, Delft Frans Montens, Wijk aan Zee

(7)

Ret meten van vorderingen met een multiple choice cloze-toets.

Samenvatting. In dit artikel wordt verslag gedaan van twee jaar ervaring met een multiple choice cloze-toets ter meting van zowel voor- als eind-kennis van het Nederlands bij buitenlanders. De kwaliteit van deze toets in beide hoedanigheden wordt geevalueerd. Bediscussieerd wordt hoe de toets gebruikt kan worden ter evaluatie van leereffecten binnen een cur-sus 'Nederlands voor buitenlanders'. Het artikel wil een bijdrage zijn aan de discussie rond het vinden van een betrouwbare multifunctionele toets-vorm die op efficiente wijze in staat stelt tot het doen van systematische uitspraken omtrent taalvaardigheid.

1. lnleiding.

In de studiejaren 1982/1933 en 1983/1984 hehben zich res-pectievelijk 280 en 343 toekomstige studenten met een hui-tenlandse vooropleiding tot de Sectie Toegepaste Taalkunde

van de Technische Universiteit te Delft gewend in verband met hun kennis van het N ederlands.

Dat zovelen dit gedaan hebhen vindt zijn verklaring in de invoering in het eerst genoemde studiejaar van een nieuw Academisch Statuut dat bepaalt dat een hezitter van een hui· tenlands diploma 'eerst toegang verkrijgt tot het afleggen van het deshetreffende propedeutisch examen, indien hij ten genoe-gen van de deshetreffende examencommissie het hewijs heeft geleverd van voldoende kennis van de Nederlandse taal om

(8)

het onderwijs met vrucht te kunnen volgen' (Artikel 66, lid 2).

In de praktijk hetekent dit dat zowel anderstalige buiten-landers als van origine nederlandstaligen, die in het buitenland een einddiploma van het middelbaar onderwijs hehaald hebben,

niet aan de T.U. kunnen gaan studeren, voordat ze in het bezit zijn van een verklaring van de Sectie Toegepaste Taal-kunde dat 'hun kennis van het Nederlands geen beletsel vormt voor hun studie aan de T.U.'. Een dergelijke verklaring wordt in beginsel slechts afgegeven na het met voldoende resultaat afleggen van een daartoe ontworpen toets N ederlands, die al snel de 'vruchttoets' werd gedoopt. Buitenlandse aspirant-T.U.-studenten kunnen deze toets op elk door hen gewenst mo-ment afleggen.

Van de genoemde 280 en 343 aspirant-studenten kon de bedoelde verklaring aan respectievelijk 53 (18,9%) en 81 (23,6%) worden uitgereikt na het onmiddellijk afleggen van de vrucht-toets zonder voorafgaand onderwijs Nederlands aan de T.U. Alle anderen, respectievelijk dus 227 en 262 personen, hebben op de een of andere wijze aan het onderwijs N ederlands van de Sectie Toegepaste ·Taalkunde deelgenomen.

Niet elke aankomende 'buitenlandse' aspirant-student bezit eenzelfde kennis van het Nederlands. Ret te geven onderwijs kan dan ook gedifferentieerd worden naar hehoefte. Gezien de beschikbare personele middelen - de ratio docent/student hedraagt ongeveer 1 op 100 - is differentiatie slechts in zeer beperkte mate realiseerbaar. Waar bij zeer kleine aantallen stu-denten per docent zeer verfijnde bepaling van het kennisniveau (op welke wijze dan ook) mogelijk en zinvol is, omdat men het te geven onderwijs totaal kan aanpassen aan de behoefte van het individu, zal men bij de aangegeven grootschaligheid niet kunnen ontkomen aan het 'bij elkaar zetten' van indivi-dueel verhoudingsgewijs nog tamelijk sterk in kennis van het Nederlands verschillende personen die groepsgewijs bepaalde

(9)

gestandaardiseerde vormen van onderwijs zullen volgen. Het moge derhalve duidelijk zijn dat bij het maken van keuzes ten aanzien van zowel het onderwijs Nederlands zelf als de toetsing van voor- en eindkennis van het Nederlands de 'effi-cientie' - doelmatigheid dus - een belangrijk argument be-hoort te zijn. In discussies rond toetsprocedures wordt de na-druk gelegd op zaken als betrouwbaarheid en validiteit (vgl. van der Linden, 1985; Beheydt, 1985). Naar onze overtuiging moet daar de economic van toetsprocedures als derde crite-rium van doorslaggevende betekenis aan worden toegevoegd.

De te volgen vormen van onderwijs komen - voor de hier bedoelde populatie, die qua doel (studeren aan een afdeling

van de T.U.) homogeen is - overeen met een grove indeling naar niveau van kennis van het Nederlands.

De opsplitsing van een totale leergang Nederlands voor bui-tenlanders in cursusdelen is op zich arbitrair. Aan de T.V.-Delft was de situatie (mede op grond van praktische zaken als het daar vigerende kwartaalsysteem en het ontwikkelde, casu quo gebruikte lesmateriaal) in de bedoelde periode als volgt. Zie ook het schematisch overzicht in figuur L

Iemand die zonder enige voorkennis van het Nederlands aan het onderwijs begint - een 'echte' beginner dus -, heeft in beginsel de mogelijkheid de complete leergang in twee kwartalen te doorlopen: een verdeling derhalve in een begin-fase en een eindbegin-fase. De beginbegin-fase bestaat uit de beginnerscur-sus volgens de Delftse methode (Sciarone & Montens, 1984 ), onderverdeeld in een eerste ronde van drie weken gericht op het algemene Nederlands (Montens & Sciarone, 1984) en een tweede ronde van vijf weken gericht op populair natuurweten-schappelijk taalgebruik (Sciarone & Montens, 1983): zie figuur 1, het traject 1-2. In de praktijk blijken slechts weinig bij de Sectie Toegepaste Taalkunde aankomende buitenlandse studen-ten 'echte' beginners. Het merendeel bezit enige voorkennis. Voor mensen van wie de kennis van het Nederlands te groot

(10)

3 Halfgevorderden 4 Gevorderden

s

1 _Beginners 2

6 _{Halfgevorderden} 7

I

_Gevorderden

I

8 weken 8 weken 8 weken _I Tijdsduur

Figuur l. Schematisch overzicht van de opbouw van de cursus en de tijdsduur per onderdeel.

is voor de 'echte' beginnerscursus en te gering voor het on-derwijs in de eindfase - voor een deel dus zogenaamde 'valse' beginners -- hestaat de heginfase van het onderwijs uit het volgen van wat genoemd wordt de 'halfgevorderden-cursus' (zie figuur l, het traject 3-4). In deze cursus van eveneens acht weken wordt enerzijds een traditionele heginnerscursus (de welhekende Familie de Vries) gecomprimeerd doorgewerkt en anderzijds aandacht hesteed aan spreektaal (Hulstijn & Schel-lart, 1978), luisteren schrijfvaardigheid en de wiskundetaal van het Nederlandse V.W.O. (Montens & Korswagen, 1982). Deze cursus omvat dus, met name wat het laatste hetreft, een meer gevorderd aspect dat thuishoort in wat hiervoor de eindfase werd genoemd. Echte beginners met een daartoe vol-doende resultaat over de beginnerscursus kunnen in de eindfa-se een zogenaamde 'gecomhineerde cursus' volgen, waarin zo-wel het materiaal uit de halfgevorderden-cursus als het op col-legetaal gerichte materiaal van de eigenlijke gevorderden-cursus (Korswagen, 1981) in wederom acht weken wordt doorgewerkt (zie figuur l, het traject 6-7). Wanneer hun resultaat over de beginnerscursus minder is of daartoe anderszins aanleiding is, bestaat 'natuurlijk' de mogelijkheid dat de studenten het

(11)

lang-zamer aan doen: eerst de halfgevorderden- en dan pas de ge-vorderden-cursus, waardoor de eindfase zestien weken heslaat (zie figuur 1, de trajecten 3-4 en 4-5) en men ook zou kun-nen zeggen dat de totale leergang in drie fasen verloopt. Stu-denten die in de beginfase de halfgevorderden-cursus hebhen gedaan, doen in de eindfase uitsluitend de gevorderden-cursus (zie figuur 1, traject 4-5), casu quo een gecombineerde cursus waarvan zij het halfgevorderden-gedeelte niet hijwonen. In de hier hesproken periode was nog geen op specifieke afdelingen gericht materiaal voor overgangsonderwijs heschikbaar zodat daar hier niet verder op zal worden ingegaan (zie daartoe Montens & Ruijgrok, 1985 en Montens & Sciarone, 1985).

Het voordeel van de geschetste constructie is dat iedere student een complete leergang in twee kwartalen kan doorlo-pen, terwijl hij - als dat om welke reden dan ook niet het geval is en hij er drie kwartalen over doet - niet gedwongen is inhoudelijk dezelfde cursus te douhleren.

Ten aanzien van de bij de Sectie Toegepaste Taalkunde aankomende studenten hetekent dit alles dat bepaald moet worden op welk van de drie niveau 's - beginners, halfgevor-derden, gevorderden - zij onderwijs kunnen (of zo men wil: moe-ten) volgen. Daartoe wordt een zogenaamde 'instaptoets' afge-nomen. Deze instaptoets heeft de vorm van een multiple choice cloze-toets, dat wil zeggen van een tekst waarin om een hepaald aantal woorden een woord is weggelaten dat moet worden ingevuld door te kiezen uit drie altematieven waarvan er slechts een juist is. Op grond van ervaring heslist het percentage correct gedane items dan in heginsel over inde-ling op een der drie genoemde niveau 's: 0-44%: beginners; 45-74%: halfgevorderden; en 75% en hoger: gevorderden dan wei onmiddellijke afname van de vruchttoets.

Voor de multiple choice cloze-toets werd gekozen (zie daar-toe hij voorbeeld: Oller, 1979), niet aileen omdat deze daar- toets-vorm in de praktijk reeds lang had gehleken te voldoen, maar

(12)

vooral omdat zij in korte tijd kan worden afgenomen (effi-cientie) en de scoring plaatsvindt op een eenduidige wijze die niet athankelijk is van de heoordelaar (ohjectiviteit).

Om dezelfde redenen van efficientie en objectiviteit werd ook in het geval van de hiervoor vermelde vruchttoets geko-zen voor de toetsvorm van een multiple choice cloze-toets. Daarbij wordt dan gebruik gemaakt van tekstmateriaal dat re-presentatief wordt geacht voor (de afdelingen) van een techni-sche universiteit. Om de verklaring van voldoende kennis te verkrijgen, moet de 'kandidaat' minimaal een bepaald percen-tage items (68%) correct doen.

Zowel de instaptoets als de vruchttoets bestaan uit verschei-dene tekstgedeeltes (deeltoetsen genoemd), waardoor binnen een toets verschillende scores met elkaar vergeleken kunnen worden om tot een weloverwogen oordeel te komen.

Om resultaten over de instaptoets en de vruchttoets direct met elkaar te kunnen vergelijken en ter beantwoording van de vraag of dezelfde multiple choice cloze-toets, afgenomen op twee verschillende tijdstippen, gebruikt kan worden voor het meten van vorderingen in het leerproces, werd in de in-staptoets en in de vruchttoets een identieke deeltoets opgeno-men van 46 items, namelijk een inleidende tekst over het hegrip 'energie'.

Het is op de hevindingen ten aanzien van het functioneren van deze deeltoets 'Energie' als onderdeel van de instaptoets en de vruchttoets dat in het nu volgende zal worden ingegaan.

2. Kwaliteit van het meetinstrument.

In het navolgende heperken we ons tot een bespreking van de deeltoets 'Energie'. Deze is zowel opgenomen in de instap-toets die v66r de aanvang van de cursus is afgenomen, als in de vruchttoets welke na de cursus is afgenomen. Hij verschaft

(13)

derhalve een mogelijkheid om de vorderingen van de studen-ten tijdens de cursus te kwantificeren. De deeltoets 'Energie' is opgezet volgens de multiple choice doze-procedure. In een tekst over het onderwerp energie zijn een aantal woorden weggehaald, zodat er 'gaten' ontstaan. De opdracht aan de student is voor elk gat het juiste woord uit drie gegeven aJ. ternatieven aan te kruisen. In aile gevallen is slechts een van de drie alternatieven correct. De tekst bevat 46 gaten, die verkregen zijn door in de oorspronkelijke tekst telkens het zesde woord te witten.

De tekst 'Energie' is ontleend aan een leerboek voor na-tuurkunde voor de derde klas van V.~ .0. en H.A.V.O. (Schweers & van Vianen, 1977, p. 1). Het betreffende frag-ment is de inleiding van een hoofdstuk en bevat geen formu-les, grafieken, tekeningen, definities en dergelijke. De keuze is gebaseerd op twee overwegingen. Ten eerste dient de tekst inhoudelijk algemeen van aard te zijn, zodat specifieke kennis op een bepaald gebied geen rol van betekenis speelt. Ten tweede mag de tekst in taalkundig opzicht noch erg gemak-kelijk, noch erg moeilijk zijn. Deze overweging hangt samen met de functie van de deeltoets, namelijk over een zeer breed spectrum een indicatie geven van beheersing van het Neder-lands. Met andere woorden: de deeltoets dient een groot dis-criminerend vermogen te bezitten. Dit houdt in dat de deel-toets goed in staat moet zijn de groep cursisten 'uit elkaar te trekken' en te splitsen in beginners, halfgevorderden en ge-vorderden die het Nederlands reeds goed beheersen. Is de tekst relatief gemakkelijk (respectievelijk moeilijk), dan maakt zij weinig onderscheid tussen halfgevorderden en gevorderden (respectievelijk tussen beginners en halfgevorderden). De twee-de overweging vormt een noodzakelijke, maar niet voldoentwee-de voorwaarde voor een goed discriminerend vermogen, omdat ook andere kwaliteitsaspecten van de deeltoets een rol spelen.

(14)

in de studiejaren 1982/1983 en 1983/1984 aan 318 studen-ten afgenomen. Deze groep bestaat uit studenstuden-ten die letterlijk nog geen woord Nederlands spreken tot en met studenten aan wie onmiddellijk een bewijs van voldoende kennis van het Nederlands kan worden uitgereikt, zoals bedoeld in artikel 66, lid 2 van het Academisch Statuut. Aan de hand van hun resultaten op de instaptoets zullen we de kwaliteit van de deeltoets 'Energie' heschouwen. In tabel 1 zijn daartoe een aantal gegevens samengebracht.

Aantal studenten n 318 Aantal items k 46 Gemiddelde score X: 22,91 Standaarddeviatie _&,.: 13,29 Betrouwbaarheid rxx' 0,96 Gemiddelde p-waarde p 0,50 Standaarddeviatie

"

0,13 Betrouwbaarheid KR20 0,96 Standaardmeetfout _S£ 2,50

Tabel 1. Gegevens met betrekking tot deeltoets 'Energie' als onderdeel van de instaptoets.

De gemiddelde score van deze studenten bedraagt 22,91, het-geen vrijwel het midden van de schaal is. Ter orientatie: de deeltoets hestaat uit 46 items die elk 0 (fout) of 1 (goed) als score opleveren. De (statistische) hetrouwhaarheid bepaald volgens Kuder-Richardson, formule 20, geeft een coefficient met een zeer hoge waarde (Lord & Novick, 1968, p. 91). Wordt de deeltoets in twee helften gesplitst, de items met een oneven nummer ten opzichte van die met een even num-mer, dan is de betrouwbaarheid volgens de 'split-halves'-metho-de waama 'split-halves'-metho-de Spearman-Brown-formule 'split-halves'-metho-de zogenoem'split-halves'-metho-de 'step-ped-up reliability' geeft, eveneens zeer hoog (Lord & Novick, 1968, p. 112). De standaardmeetfout ten slotte is klein.

(15)

Bovenstaande gegevens maken aannemelijk, dat de deeltoets 'Energie' als meetinstrument van goede kwaliteit is. De he-trouwhaarheid is immers zeer hoog, terwijl de standaardmeet-fout klein is. Bovendien Iaten zij zien, dat de deeltoets een geschikt instrument is voor het meten van vorderingen tijdens de cursus. De zeer grote standaarddeviatie wijst erop, dat de deeltoets hetrekkelijk goed in staat lijkt de groep cursisten 'uit elkaar te trekken'. Bovendien hlijkt uit de gemiddelde score en de gemiddelde p-waarde, dat de toets voor een der-gelijke, heterogene groep als geheel niet te gemakkelijk of te moeilijk is. Overigens dient men te hedenken dat de hetero-geniteit van de groep, die zich uit in een zeer grote standaard-deviatie, de hetrouwhaarheid positief heinvloed heeft. Een ge-ringere standaarddeviatie geeft, ceteris paribus, een lagere he-trouwhaarheid.

3. Meting van leerresultaten.

Bij het hespreken van de vorderingen moeten we ons nood-gedwongen beperken tot de studenten die in de studiejaren

1982/1983 en 1983/1984 de cursus hebhen afgesloten met de vruchttoets. Slechts van hen is immers en de score op de deeltoets 'Energie' als onderdeel van de instaptoets en de sco-re op deze deeltoets als onderdeel van de vruchttoets hekend. De toename van deze score vatten we op als een maat voor de vorderingen die tijdens de cursus zijn gemaakt. In deze paragraaf zullen we voor de deeltoets 'Energie' de scores op de instaptoets vergelijken met die op de vruchttoets ten einde een glohale indruk van het leereffect van de cursus te krijgen. De vraag in welke mate de verschillende cursusdelen tot dat leereffect hebhen bijgedragen komt in paragraaf 4 aan de orde.

Door 148 cursisten is zowel de instaptoets als de vrucht-toets gemaakt. De scores van deze groep op de deelvrucht-toets

(16)

"'

'Energie' zijn in figuur 2 in beeld gebracht.

u IS

Score op de vrudtUuell

Figuur 2. De frekwentieverdelingen van de scores op de deeltoets 'Energie' bij de instaptoets (boven) en de vruchttoets (beneden) voor dezelfde 148 studenten.

Uit de figuur is af te lezen, dat de prestaties ingrijpend ver-heterd zijn. De gemiddelde score is toegenomen van 21,22 bij de instaptoets tot 35,19 bij de vruchttoets, terwijl de stan-daarddeviatie is afgenomen van 13,20 bij de instaptoets tot 5,27 op de vruchttoets, zoals in tabel 2 is weergegeven.

De betrouwbaarheid, bepaald volgens de 'split-halves'-metho-de en 'stepped-up' volgens 'split-halves'-metho-de Spearman-Brown-formule zoals in de vorige paragraaf beschreven, is weliswaar gedaald van 0,96 naar 0,81, maar is nog steeds hoog. Aangenomen mag worden, dat deze daling samenhangt met de aanzienlijke afna-me van de standaarddeviatie. De standaardafna-meetfout is - on-danks deze vermindering van de standaarddeviatie - wederom klein. Ook deze gegevens wijzen erop, dat het gehanteerde

(17)

Vooraf Achteraf Aantal studenten n 148 Gemiddelde score

x

21,22 35,19 Standaarddeviatie _~ 13,20 5,27 Betrouwbaarheid

_rxx'

0,96 0,81 Standaardmeetfout SE 2,64 2,30

Correlatiecoefficient _rxy

o.ps

Tabel 2. Gegevens met betrekking tot de resultaten op de deeltoets 'Energie' vooraf (bij de instaptoets) en en achteraf (bij de vruchttoets) voor dezelfde 148 studenten.

meetinstrument van goede kwaliteit is, zoals ook in de vorige paragraaf is beargumenteerd. Ten slotte is uit het hovenstaande af te leiden dat de groep van 148 studenten gemiddeld een iets lagere score bij de instaptoets heeft hehaald dan de overige stu-denten die de instaptoets hehhen gedaan (21,22, respectievelijk 24,38). Verwonderlijk is dat niet, aangezien studenten met een zeer hoge score op de instaptoets slechts op eigen verzoek naar een cursus worden verwezen.

Op de gegevens van de 148 studenten is een statistische toet-sing uitgevoerd. De toename van de gemiddelde score van 21,22 naar 35,19 is significant op 0,1% (t-toets voor gecorreleerde ge-middelden; t

=

12,25; a

<

0,001; power

>

0,995). Ook de af-name van de standaarddeviatie is significant in dezelfde orde van grootte. Beperken we ons verder tot de toename van de gemid-delde score van de 148 studenten, dan is het geconstateerde ef-fect zeer groot. In termen van Cohen: d = 1,43 (Cohen, 1969, pp. 38 en 46 ). Het ligt voor de hand een dergelijke toename van de gemiddelde score te verklaren als een effect van het ge-volgde onderwijs en niet als een effect van testing* (Campbell

* Als aan personen tweemaal dezelfde test wordt afgenomen, blijkt de score bij de tweede afname vaak iets hoger te zijn dan die bij de eerste afname, ook aJs er geen sprake is van een tussentijds leerproces.Dit verschijnsel wordt 'testing' genoemd.

(18)

& Stanley, 1963, p. 179). Immers, de geconstateerde toename is dermate groot, dat testing hiervoor geen aannemelijke verkla-ring kan geven. ~•lede gelet op de kwaliteit van het gehanteerde meetinstrument kan derhalve geconcludeerd worden, dat de cur-sus globaal gezien een zeer groot leereffect heeft.

4. Analyse van het leereffect.

Alvorens het Ieereffect gedetailleerder te heschouwen is het wenselijk te herinneren aan de opbouw van de cursus. Zoals uit figuur 1 is af te lezen, zijn er vier cursusdelen, namelijk beginners (voortaan aangeduid met

n,

traject 1-2 in figuur 1), halfgevorderden (C, traject 3-4), gevorderden (G, traject 4-5) en een combinatiedeel waarin C en G samen zijn gevoegd tot een deel (C/G, traject 6-7). De cursus kent derhalve twee stromen, te weten een 'langzame' en een 'snelle'. De langzame stroom om vat drie cursusdelen, namelijk B, C en G. De snelle stroom heeft hetzelfde cursusdeel voor beginners als de lang-zame stroom, maar daarna volgt het samengevoegde deel C/G waarin C en G versneld worden behandeld.

Aan de hand van de score op de instaptoets werden de studenten als volgt ingedeeld: I) echte beginners volgen B, waarna afhankelijk van de resultaten aan het eind van B de student de cursus vervolgt met C/G, dan wel met eerst C en dan G afzonderlijk; 2) valse beginners volgen C en daama G; 3) gevorderden volgen G of C/G, afhankelijk van het cursus-aanbod dat op dat moment kan worden gedaan.

Opgemerkt zij dat echte beginners pas aan het eind van cursusdeel B worden ingedeeld in de langzame dan wei de snelle stroom. Anders gezegd: cursusdeel B in de langzame stroom is identiek aan cursusdeel B in de snelle stroom.

Bij de navolgende analyse van het leereffect van de cursus beperken we ons tot de studenten die een van de hierboven

(19)

omschreven stromen op reguliere wijze doorlopen hebben. Al degenen die om zeer uiteenlopende redenen in een of ander opzicht van deze patronen afwijken, Iaten we verder buiten beschouwing. Zodoende resteren er 125 studenten. In tabel 3 is weergegeven welke cursusdelen zij hebben gevolgd tussen instaptoets en vruchttoets.

Stroom Cursus- Aantal i

x

Code Aantal

verloop stuclenten vooraf aehteraf oontacturen

onclerwija Langzaam B+C+G 34 10,24 33,53 I 152 C+G 34 26,47 34,15 II 96 G 20 34,15 37,00 III 48

---Snel B+C/G 29 12,00 36,97 IV 104 C/G 8 31,75 34,00 v 48

Tabel 3. Overzieht van bet verloop van de cursus (n = 125); de mogelijkheden worden I tot en met V genoemcl.

Uit de tabel is af te lezen dat er zich vijf mogelijke manie-ren voordoen waarop studenten aan de cursus 'Nederlands voor buitenlanders' hebben deelgenomen. Deze vijf mogelijkheden zullen we verder I tot en met V noemen, zoals in tabel 3 is aangegeven.

Ten einde een indruk te krijgen van de bijdrage van elk der cursusdelen aan het totale leereffect van de cursus zijn de vijf mogelijkheden afzonderlijk bekeken. Daartoe is voor elke mogelijkheid bepaald wat de gemiddelde score van de studen-ten op de deeltoets 'Energie' bij de instaptoets was en wat hun gemiddelde score was op die deeltoets bij de vruchttoets. Het verschil tussen beide gemiddelden geeft een indicatie van de leerwinst. In figuur 3 is een en ander in beeld gebracht.

Op de horizontale as is als eenheid het contactuur genomen, aangezien het aantal contacturen niet voor aile cursusdelen het-zelfde is (zie tabel 3). De figuur kan als volgt gelezen worden:

(20)

Score(%) Score(%) 100 80 60 40 20 0 100 80 60 40 20 0 B

c

G B C/G

in con tacturen in contacturen Figuur 3. Grafische weergave van de vorderingen ~meten met de

deeltoets 'Energie' (verticale as) ten opzichte van de gevolgde cursusdelen, ui~rukt in aantallen rontacturen (horizontale as, 1 em = 40 rontacturen) voor de Iangzame stroom (linlu) en de melle stroom (rechts).

hoe steiler de lijn, des te groter het leereffect.

Bet eerste wat dan opvalt, is dat het volledig volgen van de snelle stroom (IV) kennelijk niet leidt tot een geringer leereffect dan het volledig volgen van de langzame stroom (I).

Bij de beschouwde studenten is het leereffect van stroom IV zelfs groter dan van stroom I (respectievelijk 54,28% en 50,63%). We kunnen derhalve concluderen dat het versneld doorlopen van de cursus - het materiaal is voor heide stromen immers het· zelfde - niet tot slechtere leerresultaten leidt. Deze conclusie stemt overeen met de ervaring.

Ten tweede ligt als interpretatie van figuur 3 voor de hand dat naarmate de studenten verder in de cursus vorderen, de bij-drage van de cursusdelen aan het leereffect de tendens vertoont geringer te worden. Deze algemene interpretatie verdient nadere heschouwing.

(21)

5. Slotbeschouwing.

De resultaten van dit onderzoek wijzen erop dat een kwali· tatief goede m.c. cloze-toets een geschikt meetinstrument kan zijn voor het zichtbaar maken van vorderingen tijdens het leerproces. Zelfs een betrekkelijk korte toets van 46 items blijkt gevoelig voor de vorderingen die personen in de cursus maken. Zoals al eerder gezegd is, worden aan een dergelijk

toets twee voorwaarden gesteld. Op de eerste plaats dient hij gebaseerd te zijn op een tekst van algemene aard ten einde te voorkomen dat specifieke kennis op een be-paald (vak- of leer-)gebied een belangrijke rol gaat spelen. Deze voorwaarde hangt samen met het gegeven dat er op dit punt belangrijke verschillen kunnen bestaan tussen cur-sisten. Aangezien het hier slechts gaat om het meten van taalvorderingen, dient specifieke kennis op een bepaald ge· hied zo veel mogelijk buiten de meting gehouden te wor-den.De tweede voorwaarde betreft de moeilijkheidsgraad van de toets. Deze zal zodanig mocten zijn dat de toets iiberhaupt vorderingen zichthaar kan maken. Een te moei-lijke of te gemakkemoei-lijke toets schiet in dit opzicht tekort, want een erg moeilijke toets maakt weinig onderscheid tus-sen beginners en halfgevorderden, terwijl een erg gemak-kelijke geen onderscheid maakt tussen halfgevorderden en gevorderden. Daarom mag beslist ook niet geconcludeerd worden dat elke kwalitatief goede m.c. cloze-toets ook een geschikt instrument is voor het meten van vorderin-gen.

De tweede kwestie die we willen beschouwen, betreft de aard van de relatie tussen enerzijds de toename in score op de m.c. cloze-toets, in de vorige paragraaf leereffect ge-noemd, en anderzijds de voortgang in de cursus. Wanneer men tot de conclusie komt dat het leereffect de tendens vertoont af te nemen naarmate men in de cursus vordert, dan moet men daarbij onmiddelliik aantekenen dat de

(22)

grafi-sche weergave van de vorderingen in figuur 3 (de lijnstuk-ken I t/m V) niet wil suggereren dat de vorderingen in het leerproces lineair verlopen. De lijnstukken geven slechts weer welke meetpunten bij elkaar horen, omdat ze over dezelfde personen zijn verkregen. In het navolgende zullen we nader ingaan op de interpretatie van figuur 3.

Stel dat men de beheersing van een taal op zeker moment zou kunnen karakteriseren door het aantal gekende woorden van die taal door een persoon. Die gekende woorden garanderen een zekere dekking van een willekeurige gesproken dan wei geschreven tekst. Anders gezegd: de gekende woorden maken een zeker per-centage uit van alle woorden die in de tekst voorkomen.We noe-men dat het dekkingspercentage. Naarmate de beheersing van die taal toeneemt, dus het aantal gekende woorden toeneemt, neemt de dekking toe en stijgt het dekkingspercentage. Zetten we nu het dekkingspercentage uit tegen de woorden in strikte volgorde van afnemende frekwentie, dan verkrijgen we de ideale dekkings-curve (Sciarone, 1979; Sciarone & Montens, 1985). Zie figuur 4.

Dekking (%) 100 80 60 40 20 0 1000 2000 3000 4000 5000

Woorden naar afnemende frekwentie Figuur 4. ldeale leercurve bij taalverwerving in tennen van

dekking (verticale as) en aantal geleerde woorden naar afnemende frekwentie (horizontale as).

Af te lezen is dat bekendheid met de 500 meest frekwente woorden voor een willekeurige tekst leidt to een

(23)

dekkings-Bekeildheid met de 1000 meest frekwente woorden geeft een dekkingspercentage van circa 70%. Eveneens is af te lezen dat voor een verdere stijging van het dekkingspercentage een onevenredig grote stijging van het aantal gekende woorden no-dig is, waarbij steeds minder frekwente woorden gekend moeten worden. Wij spreken hier van een ideale dekkingscurve, omdat de geschetste relatie slechts deze vorm zal aannemen onder de ideale omstandigheid dat de woorden in strikte volgorde van afnemende frekwentie worden geleerd (en niet meer worden vergeten).

Hoewel onbekend is welke de exacte relatie is tussen ener-zijds het hierboven bedoelde dekkingspercentage en anderener-zijds het percentage items dat iemand correct doet op een multiple choice cloze-toets, lijkt het duidelijk dat men de lijnstukken I t/m V uit figuur 3 moet interpreteren als koordes van de min of meer afgevlakte werkelijke versie van de ideale curve uit figuur 4. In de eerste drie weken van B worden de 1200 meest frekwente woorden van het Nederlands ingevoerd. Het dekkingspercentage kan dan zeer snel tot circa 70% stijgen. In de navolgende cursusdelen zal men 'veel meer' (woorden) moe-ten leren om een verhoudingsgewijs steeds geringere toename van het dekkingspercentage te bereiken. De eindterm van zowel C+G als C/G ligt hij de 80% dekking waarvan wordt aangeno-men dat die in staat stelt tot een redelijk goed begrip van een willekeurige tekst.

Dat de vorderingen, gemeten door de multiple choice cloze-toets, gefuterpreteerd kunnen worden in termen van de geschets-te curve bij taalverwerving - met andere woorden: dat er een structurele overeenkomst hestaat tussen enerzijds het verloop van scores op een m.c. cloze-toets in de cursus en anderzijds het verloop van het dekkingspercentage in het proces van taal-verwerving -, achten wij een belangrijke indicatie voor de va-liditeit van de m.c. cloze-toets als taalvaardigheidstoets.

(24)

De multiple choice cloze-toets als algemene taalvaardigheids-toets.

Samenvatting. In dit artikel wordt een onderzoek besproken naar de me-ting van taalvaardigheid in het Nederlands bij 85 buitenlandse studenten die zich onder andere door Nederlands te leren - hadden voorbereid op een studie aan de Technische Universiteit ~e Delft. Hun taalvaardigheid is zowel gemeten met behulp van een multiple choice cloze-toets als een uitgebreide vier-vaardigheden-toets. Uit vergelijking van de resultaten blijkt dat de multiple choice cloze-toets als meetinstrument van zeer goede kwa-liteit is. Geconcludeerd wordt dat de gehanteerde multiple choice cloze-toets, gezien zijn zeer grote efficiiintie en zijn zeer hoge predicitieve vali-diteit, geschikt is ter vervanging van uitgebreide toetsing van de vier af-zonderlijke vaardigheden.

1. Inleiding.

Buitenlandse studenten die aan een Nederlandse universitaire instelling willen gaan studeren, moeten eerst aantonen dat ze beschik.ken over 'voldoende kennis van de Nederlandse taal om bet onderwijs met vrucht te kunnen volgen' (Academisch Statuut, Artikel 66, lid 2). De Vakgroepen Toegepaste Taal-kunde, die het onderwijs Nederlands voor huitenlanders ver-zorgen, pogen in een landelijk overleg te komen tot een 'Cen-trale Toets Nederlands'. Er hestaat daarhij consensus over de inhoudelijke omschrijving van de frase 'voldoende kennis van

(25)

de Nederlandse taal' en deze wordt in zijn algemeenheid door buitenlanders ontvangende (faculteiten van) universitaire instel-lingen aanvaard.

Bij overeenstemming over het vereiste kennisniveau - waar hier niet verder op zal worden ingegaan - resteert de vraag hoe men studenten het best op het hezit van die kennis kan toetsen. Bij meerderheid is gekozen voor uitgehreide toetsing van 'alle vier de vaardigheden': spreken, luisteren, schrijven en lezen (Hulstijn, 1984). In de toets is tevens een gedeelte opge-nomen uit de uitgehreide hatterij m.c. cloze-toetsen die ontwik-keld is door de Sectie Toegepaste Taalkunde van de Technische Universiteit te Delft (Montens, 1983).

In de zomer van 1985 werd te Delft hij 85 huitenlandse aspirant-studenten zowel de landelijke vier-vaardigheden-toets (CTN) als de 'Delftse' hatterij m.c. cloze-toetsen afgenomen. Het is van onze bevindingen met deze twee toetsvormen dat in dit artikel verslag wordt gedaan.

Men raakt hierhij aan de discussie rond 'integrative versus discrete point testing' in zoverre respectievelijk m.c. cloze-toet-sen en vier-vaardigheden-toetcloze-toet-sen daar voorheelden van vormen (Oller, 1979). Deze discussie is verzand in een controverse over de zogenoemde 'global factor hypothesis', of anders gezegd: in de vraag of er aan taalvaardigheid iets al dan niet ondeelhaars ten grondslag ligt (Oller, 1982). Door deze tamelijk academische discussie is de (multiple choice) cloze-toets als voor de hand liggende toetsvorm in discrediet geraakt (zie voor het Neder-landstalige gehied hij voorbeeld: Beheydt, 1985). Dat is ons in-ziens ten onrechte geheurd.

De m.c. cloze-toets heeft ten opzichte van de gangbare vier-vaardigheden-toets twee belangrijke voordelen. In de eerste plaats is hij relatief zeer snel af te nemen en te scoren, en is het derhalve een zeer efficient toetsinstrument. In de tweede plaats is de scoring geheel onafhankelijk van de heoordelaar en is het in die zin dus een volstrekt ohjectief toetsinstrument.

(26)

Deze twee criteria - een efficientie en objectiviteit - behoren naast andere een grote rol te spelen bij de keuze van een toetsvorm, zeker wanneer het zoals in het onderhavige geval gaat om grote aantallen kandidaten bij wie de toets sterk ge-spreid in ruimte en tijd moet worden afgenomen.

Ondanks het materieel vaak doorslaggevende belang van crite-ria als efficientie en objectiviteit wordt in discussies over toet-sing van taalvaardigheid veelal meer belang gehecht aan betrouw-baarheid en validiteit van toetsen. In het navolgende zal der-halve aan deze beide aspecten aandacht besteed moeten wor-den.

Ten aanzien van de betrouwbaarheid van goed geconstrueer-de multiple choice cloze-toetsen kan men zeggen dat geconstrueer-deze doorgaans zeer hoog is (zie p. 7 t/m 24). Hetzelfde zal - zij het doorgaans in mindere mate ook gelden voor goed

ge-construeerde vier-vaardigheden-toetsen. Een discussie over 'vier-vaardigheden-toetsen versus multiple choice cloze-toetsen' zal zich derhalve toespitsen op de validiteit van die toetsen als toetsen van taalvaardigheid.

De validiteit van vier-vaardigheden-toetsen wordt door de voorstanders ervan bijna als vanzelfsprekend aangenomen op grond van de min of meer vermeende directheid van die toet-sen (Beheydt, 1985 ). In feite ligt er aan uitgebreide toetsing van op welke wijze dan ook verregaand opgesplitste deelvaar-digheden namelijk iets ten grondslag dat men misschien nog het beste kan omschrijven als een 'naturalistische begoocheling'. Het lijkt daarbij alsof de beschrijving van de kwaliteit van iets (in casu taalvaardigheid) in beginsel slechts mogelijk is door een uitputtende taxonomische opsomming van alle kleinste details van dat iets (in casu de vier of meer vaardigheden). Zelfs binnen een feitelijke naturalistische beschrijving wordt echter mede op grond van het hierarchische karakter van elke taxonomie - gekozen voor een beperkt aantal representa-tieve (zo men wil: symbolische) details, dus voor een beperkt

(27)

aantal deelkwaliteiten. Dat taalvaardigheid traditiegetrouw wordt opgesplitst in de vier vermelde vaardigheden hetekent niet dat taalvaardigheid - op zich namelijk een uiterst vaag en onduidelijk hegrip - door die vier vaardigheden volledig en uitsluitend wordt gedekt. In die zin is dus ook vier-vaar-digheden-toetsing een indirecte vorm van toetsen.

W aar de multiple choice cloze-toets doorgaans een heurte-lings glohale, integratieve of indirecte toetsvorm wordt ge-noemd, is het van helang erop te wijzen dat er een structu-rele overeenkomst hestaat tussen enerzijds het verloop van de vorderingen in een taalcursus, gemeten door middel van een multiple choice cloze-toets, en anderzijds het verloop van het dekkingspercentage in het proces van taalverwerving. Als men dat laatste heschouwt als een algemene karakteristiek voor het proces van taalverwerving heeft men daarin een helangrij-ke indicatie voor de hegripsvaliditeit van de multiple choice cloze-toets als taalvaardigheidstoets (zie p. 7 t/m 24). Er is derhalve reden om aan te nemen dat de multiple choice cloze-toets wei degelijk taalvaardigheid meet, en wel op een directe wijze ).

Hoe zulks ook zij, wanneer men op praktische en rationele gronden proheert te komen tot een vergelijkende heoordeling van vier-vaardigheden-toetsen en multiple choice cloze-toetsen, dan moet men hedenken dat het niet gaat om een wedstrijd in vooralsnog altijd hekritiseerhare validiteit. W anneer men door middel van uitgehreide chemische analyse van een he-paalde stof vast weet te stellen dat het een zuur is, dan maakt de wetenschappelijke juistheid van deze 'zware' proce-dure het hekende lakmoespapier niet waardeloos of onweten-schappelijk. Het lakmoespapier dat van hlauw rood wordt, 'voorspelt' op efficiente en hetrouwhare wijze of iets een zuur is of niet, dat wil zeggen voorspelt iets wat de zware procedure ons ook zou leren. Ten aanzien van de multiple choice cloze-toets hetekent dit dat het hij aangenomen

(28)

validiteit van vier-vaardigheden-toetsen in eerste instantie van helang is te hezien hoe het staat met de voorspellende waarde, ofte wei de predictieve validiteit van een multiple choice cloze-toets ten opzichte van een uitgehreide vier-vaar-digheden-toets.

2. Experiment.

Aan 85 huitenlandse studenten werden twee samengestelde toetsen Nederlands voorgelegd: de Centrale Toets Nederlands (kortweg aangeduid met CTN) en de zogenoemde 'Delftse toets'.

De CTN toetst afzonderlijk vier taalvaardigheden, te weten luisteren, sprekcn, lezen en schrijven. Zie ook tahel 1.

De luistertest hestaat uit een video-opname van drie frag-menten uit een populair-wetenschappelijk televisieprogramma. De fragmenten hetreffen 'hct voorkomen van levende organis-men in afgravingen', 'taal en dialect' en 'gedrag hij schoolkin-deren'. Hierover worden 31 vragen gesteld, voornamelijk mul-tiple choice vragen en een enkele invulvraag.

Met hetrekking tot het spreken hestaat de toets uit een spreektest en een spreekopdracht. In heide gevallen wordt een handopname gemaakt van de mondelinge reacties van de kan-didaat. Bij de spreektest reageert hij op 21 opmerkingen uit dagelijkse communicatieve situaties van een student. De eerste lO opmerkingen worden uitsluitend door middel van de band aangehoden, de overige 11 ook nog schriftelijk. Bij de spreek-opdracht moet de kandidaat een monoloog van twee minuten houdcn in het kader van een gesprek met een decaan waarin hij informatie over zichzelf moet verschaffen.

De leestest omvat vijf korte teksten over onderwerpen als 'studeren', 'medicijnen', 'milieu' enzovoort. Over elke tekst worden 5 multiple choice vragen gesteld, in totaal dus 25.

(29)

Schrijven omvat weer twee onderdelen: een schrijftest en een schrijfopdracht. Bij de schrijftest moet de kandidaat een ontbrekende zin toevoegen aan 14 korte tekstfragmenten. Bij de schrijfopdracht krijgt hij twee geografische kaartjes van Nederland voorgelegd waarop de luchtverontreiniging over twee periodes in beeld is gebracht. Hij moet in een essay van 150

a

200 woorden enkele vragen daarover beantwoorden.

Naast deze vier onderdelen bevat de CTN nog een multiple choice doze-test van 100 items ontleend aan de radionieuws-dienst. Deze laatste test is gebruikt als ankertoets om de scores op de andere tests landelijk te kunnen vergelijken. De Delftse toets is een algemene taalvaardigheidstoets in de vorm van een zestal multiple choice cloze-testen. Daarbij worden teksten aangeboden waarin, te beginnen bij een wille-keurig woord, elk zevende woord is weggelaten. De kandidaat moet deze woorden aanvullen door telkens te kiezen uit drie altematieven waarvan er slechts een juist is. De teksten betref-fen onderwerpen van de radionieuwsdienst en fragmenten uit leerboeken wis- en natuurkunde voor het voortgezet onderwijs. Het totaal aantal weggelaten woorden bedraagt 447.

De scoring van de diverse onderdelen van de toetsen loopt uiteen. Bij aile cloze-testen alsmede bij de luistertest en de leestest wordt per item 0 (fout) of 1 (goed) gescoord over-eenkomstig de sleutel. Bij de spreektest en de schrijftest wordt per item de score 0, 1 of 2 gegeven: 2, indien een adekwaat, begrijpelijk antwoord is gegeven waarin nog wei een enkele grammaticale fout mag voorkomen; l, indien een antwoord is gegeven dat niet geheel adekwaat is, grammaticale fouten bevat maar wel redelijk begrijpelijk is; 0, in aile overige gevallen. De prestaties bij de spreekopdracht en de schrijfopdracht wor-den beide beoordeeld op een schaal die loopt van 0 tot en met 7. Aileen voor deze twee opdrachten ontbreekt een een-duidig scoringsvoorschrift.

(30)

Toets Onderdeel Aantal Vorm Aard Score

items p. item

CTN Cloze-test 100 multiple choice schriftelijk 0-1 Luistertest 31 multiple choice video-opname 0-1 Spreektest 21 aanvullen bandopname 0-1-2 Spreekopdracht 1 monoloog bandopname 0-7 Leestest 25 multiple choice schriftelijk 0-1 Schrijftest 14 aanvullen schriftelijk 0·1·2 Schrijfopdracht 1 essay schriftelijk 0-7 Delftse toets Cloze-testen 447 multiple choice schriftelijk 0·1 Tabel 1. Overzicht van de afgenomen testen (voor nadere toelichting zij

vetwezen naar de tekst).

12% vrouwen en 88% mannen. De personen waren atkomstig uit 17 verschillende landen, te weten Iran (30), Indonesie (26 ), Marokko (9), Turkije (3), Duitsland, Egypte, Syrie en Ethiopie (elk 2), de Verenigde Staten, Zuid-Afrika, Ghana, Guyana, Nige-ria, ltalie, Mozambique, Afghanistan en Pakistan (elk 1 ). De gemiddelde leeftijd van de proefpersonen bedroeg 23,2 jaar. Alvorens aan de Delftse toets deel te nemen had 12% van de proefpersonen gedurende 8 weken een cursus Nederlands aan de T.U. gevolgd. Dit betekent dat zij bij aanmelding aldaar reeds een redelijke voorkennis van het Nederlands hadden. 44% van de proefpersonen had gedurende 16 weken een cursus gevolgd. Van hen begon de helft zonder enige voorkennis van het Nederlands aan de cursussen, de andere helft bezat al wel enige voorkennis. 19% van de proefpersonen had gedurende 24 weken een cursus Nederlands gevolgd en 25% gedurende meer dan 24 weken. Laatstgenoemde groepen begonnen zonder voor-kennis van het Nederlands aan de cursussen.

(31)

3. ResuUaten.

Alvorens de meetinstrumenten met elkaar te vergelijken, is het nodig een indicatie te geven van de kwaliteit van elk der gebruikte testen. Daartoe worden in tabel 2 een aantal gege-vens gepresenteerd met betrekking tot de vijf onderdelen van de Centrale Toets Nederlands.

Onderdelen van de Centrale Toets Nederlands Cloze-test Luistert. Spreekt. l.eestest Schrijft.

Aantal per~nen n 85 85 85 85 85

Aantal items k 100 31 21* 25 14*

Gemiddelde score

x

69,68 15,99 26,67 13,02 17,89

Stand. deviatie _\ 11,36 5,20 9,07 4,20 5,45

Gemid. ,re,waarde

p

0,70 0,52 - 0,52

Stand. ev. p-waariien :~P _0,24 _0,22 _- _0,17

-Betrouwb. KR20 of _txx' 0,89 0,79 0,88 0,72 0,83

Stand. meetfout _Sr; 3,77 2,38 3,14 2,22 2,25

Tabel 2. Gegevens over de vijf onderdelen van de Centrale Toots Neder-lands voor dezelfde 85 personen, exclusief de spreekopdracht en de schrijfopdracht (voor een toelichting hierop zij verwezen naar de tekst). (* De score per item is 0, 1 of 2).

De betrouwbaarheid van de doze-test, de luistertest en de leestest is bepaald met behulp van de Kuder-Richardson-formu-le 20 (Lord & Novick, 1968, p. 91). Voor de spreektest en de schrijftest, waarbij elk item de score 0, l of 2 kan opleve-ren, is de betrouwbaarheid bepaald via de 'split-halves'-methode, waama de Spearman-Brown-formule de zogenoemde 'stepped-up reliability' geeft (ibidem, p. 112). Hierbij is elk van de twee testen in twee helften gesplitst, de items met een oneven num-mer ten opzichte van die met een even numnum-mer. De betrouw-baarheid van elk van de vijf testen is betrekkelijk hoog. Een rechtstreekse vergelijking op dit aspect is niet mogelijk, omdat

(32)

de testen in lengte verschlllen.

In tabel 2 zijn geen gegevens opgenomen met betrekking tot de spreekopdracht en de schrijfopdracht. De reden daartoe is dat de kwaliteit van deze twee meetinstrumenten te wensen overlaat. Zoals eerder beschreven wordt bij deze opdrachten een door de persoon uitgesproken, respectievelijk uitgeschreven tekst beoordeeld op een schaal van 0 tot en met 7. Ten ein-de een indruk te krijgen van ein-de betrouwbaarheid van het oor-deel zijn een aantal uitgesproken teksten (vastgelegd op de band) en geschreven teksten voorgelegd aan een tweede, onaf-hankelijke beoordelaar die eveneens goed bekend is met de voorgeschreven heoordelingsprocedure. De steekproef omvatte 12 van de 85 personen en is verkregen door vanaf persoon nummer 6 telkens de zevende erop volgende te nemen. Deze spreiding is gewenst in verband met een eventueel instrumen-tatie-effect (Campbell & Stanley, 1971, pp. 175 en 179). De interbeoordelaarshetrouwhaarheid is voor beide opdrachten re-delijk; voor de spreekopdracht 0,63 en voor de schrijfopdracht 0,66. Opvallend is echter dat beide beoordelaars verschillende standaards blijken te hanteren. Bij de spreekopdracht gaf beoor-delaar 1 in vergelijking met beoorbeoor-delaar 2 gemiddeld 1 ,5 punt meer op een schaal die loopt van 0 tot en met 7. Bij de schrijfopdracht bedraagt het verschll gemiddeld bijna 1 punt. In absolute zin bestaat er dus een beduidend verschll tussen beide beoordelingen. Om deze reden zullen we in de verdere analyse van de resultaten de spreekopdracht en de schrijfop-dracht buiten beschouwing Iaten.

Ten einde een indruk te krijgen van de samenhang binnen de Centrale Toets Nederlands zijn de correlaties berekend tussen de resterende vijf onderdelen van deze toets. De gege-vens zijn te vinden in tabel 3.

De correlatiecoefficienten hehben veelal een hoge waarde. · Ter illustratie: aile correlatiecoeffieienten met een waarde gro-ter dan 0,50 zijn significant (a₁

=

0,01, power

=

0,99; Cohen,

(33)

Ooze-test Luistertest Spreektest Leestest Schrijftest

Luistertest 0,72

-Spreektest 0,52 0,61

-Leestest 0,62 0,60 0,23

-Schrijftest 0,74 0,66 0,73 0,46

-Tabel 3. Correlaties tussen de vijf onderdelen van de Centrale Toets Nederlands, exclusief de spreek- en de schrijfopdracht.

1969, p. 82). Dit lijkt erop te wijzen dat datgene wat de vijf testen meten - wat dat verder ook precies moge zijn - samen-hang vertoont. Ook uit onderzoek naar een eerdere versie van de Centrale Toets Nederlands is een duidelijke samenhang ge-bleken (Janssen-van Dieten, 1984, p. 6). Een eenduidige inter-pretatie van de gegevens in tabel 3 is vooralsnog niet te geven. Ter toelichting hiervan het volgende. De lage correlatie tussen de prestaties op de spreektest en de leestest kan gelnterpreteerd worden als een relatief gering verband tussen de vaardigheden spreken en lezen, maar kan wellicht ook ten dele samenhangen met de inhoud van het voorafgaande onderwijs. Duidelijk is wel dat de doze-test er niet in negatieve zin uitspringt.

Vatten we de Centrale Toets Nederlands op als een samen-gestelde test, bestaande uit vijf componenten, dan is de be-trouwbaarheid van de totale toets 0,84. De bebe-trouwbaarheid van deze toets exdusief de doze-test, dus van de samengestel-de test bestaansamengestel-de uit samengestel-de componenten luisteren, spreken, lezen en schrijven, is iets lager, namelijk 0,80. Onze condusie is der-halve dat de Centrale Toets Nederlands exclusief de spreekop-dracht en de schrijfopdracht van aanvaardbare kwaliteit is.

Met betrekking tot de Delftse toets zijn in tabel 4 een aan-tal gegevens samengebracht. Zoals eerder gezegd, bestaat deze toets uit zes multiple choice doze-testen. Ook van deze testen is de betrouwbaarheid, bepaald met behulp van de Kuder-Richardson-formule 20, wederom betrekkelijk hoog. De

(34)

stan-Onderdelen van de Delftse toets I II Ill IV v VI Aantal personen n 85 85 85 85 85 85 Aantal items k 100 70 30 100 101 46 Gemiddelde score

x

65,44 41,79 16,04 65,80 63,40 33,33 Stand. deviatie _~ 13,15 8,86 4,00 12,02 13,49 5,34 Gem. p-waarde p 0,65 0,60 0,54 0,66 0,63 0,73

Stand. dev. p-waarden s 0,24 0,19 0,18 0,20 0,19 0,21

Betrouwbaarheid KRztt 0,91 0,83 0,62 0,88 0,90 0,76

Stand. meetfout _SE 3,95 3,65 2,47 4,16 4,27 2,62

Tabel 4. Gegevens over de zes onderdelen van de Delftse toets voor dezelfde 8S personen als in tabel 2.

daard meetfout van de testen is van vergelijkhare grootte, gelet op de lengte van de testen (cf. Lord, 1959). Bovenstaande gege-vens maken aannemelijk dat de Delftse toets als meetinstrument eveneens van aanvaardbare kwaliteit is.

In het voorgaande zijn twee belangrijke aspecten van de toet-sen buiten beschouwing gebleven, namelijk efficientie en validiteit. Zoals uit tabel 5 blijkt, vergen afname en correctie bij de Centra-le Toets Nederlands veel tijd. Voor 85 personen is dat ongeveer 72 uur als de testbatterij in een keer kan worden afgenomen. Ter vergelijking: voor de zes onderdelen van de Delftse toets te zamen is dat 18 uur. Vanuit het oogpunt van efficientie zou een dergelijke batterij cloze-testen dus de voorkeur verdienen hoven het vier-vaardigheden-gedeelte van de Centrale Toets Nederlands. Resteert derhalve de vraag naar de validiteit van de gehanteerde cloze-testen. Op deze vraag zullen we in het nuvolgende ingaan. Stel dat 'taalvaardigheid' uit vier en niet meer dan vier compo-nenten bestaat, namelijk: luistervaardigheid, spreekvaardigheid, lees-vaardigheid en schrijflees-vaardigheid. Deze veronderstelling 1igt overi-gens impliciet ook aan de Centrale Toets Nederlands ten grond-slag. Stel vervolgens dat de vier componenten even zwaar wegen en dus in gelijke mate bijdragen tot wat eerder 'taalvaardigheid'

(35)

Onderdeel Wijze van Afnametijd Correctietijd Totale tijds-afname per groep per persoon kosten voor in minuten in minuten 85 perS<men

in uren Cloze-test g, p 45 2 3,6 Luistertest g, p, v 60 5 8,1 Spreektest g, a 15

]

15 21,6 Spreekopdracht g, a 5 Leestest g, p 90 5 8,6 Schrijftest g, p

]

120 20 30,3 Schrijfopdracht g, p

Tabel 5. Gegevens met betrekking tot de eft""tcientie van de Centrale Toets Nederlands. Legenda tweede kolom: g, groepsgewijs af te nemen; p, 'potlood en papier test'; a, andio-opname-appa-ratuur vereist; v, tevens video-afspeel-appaandio-opname-appa-ratuur vereist.

is genoemd. Een plausihel uitgangspunt dat een andere ge-wichtsverdeling rech tvaardigt, onthreekt ons vooralsnog*. Stel ten slotte dat de luistertest, de spreektest, de leestest en de schrijftest uit de Centrale Toets Nederlands respectievelijk luistervaardigheid, spreekvaardigheid, leesvaardigheid en schrijf-vaardigheid meten. Gelet op de inhoud van deze testen, die juist met het oog op die vaardigheden zijn ontworpen, is ook dit aannemelijk. De drie hovenstaande veronderstellingen leiden tot de volgende stelling: de beste schatter, E, van

taalvaardig-heid is de som van de prestaties van een persoon op de vier testen, zodanig dat de vier testen een gelijk gewicht hebben.

Omdat de vier testen qua lengte van schaal uiteenlopen, kan niet rechtstreeks van de ruwe scores op elk van de vier testen

* Maximalisering van de betrouwbaarheid van de samengestelde toets, bestaande uit

vier componenttesten met een gefixeerde lengte, Ievert de volgende gewichtsverdeUng op: 0,56, 0,61, 0,36 en 0,61 (Lord & Novick, 1968, pp. 123-124). lnhoudelijk is zo'n gewichtsverdeUng niet interessant, reden om er in dit verband verder ook geen aan· dacht aan te besteden.

(36)

gehruik worden gemaak.t*. Daarom wordt de mwe score op een test gedeeld door het maximum van de schaal van de hetreffende test. Op deze wijze wordt de ruwe score omgezet in een percentage: het percentage dat een persoon op die test hereikt. Door de percentages van een persoon op de vier testen te sommeren en de som door vier te delen,

wordt een nieuwe score verkregen, de zogenoemde E-score, die een waarde van 0 tot en met 100 kan aannemen. Kortom:

E-score

=

₂₅(luisterscore + spreekscore + Jeesscore + schrijfscore)

31 42 25 28

Op deze wijze is voor elk van de 85 personen een E-score hepaald aan de hand van zijn score op de luistertest, de spreektest, de leestest en de schrijftest. De verkregen E-score van een persoon wordt geacht de beste schatter te zijn van zijn 'taalvaardigheid '.

In het navolgende zullen we het verhand tussen de E-score van een persoon en zijn score op een Cloze-test, de zogenoem-de C-score, nazogenoem-der heschouwen. Als eerste nemen we de doze-test uit de Centrale Toets Nederlands, die relatief de kleinste meetfout heeft. In figuur 1 is de samenhang tussen de E-score en de C-score van de 85 personen in heeld gehracht. De fi-guur laat zien dat er een duidelijk positief verhand hestaat tussen de E-score en deze C-score van de personen. De pro-duct-moment-correlatiecoefficient hedraagt 0,79 zoals uit kolom 1 van tahel 6 is af te lezen. Wordt de betrouwhaarheid van beide metingen hierin hetrokken, dan hedraagt de werkelijke correlatie, gecorrigeerd voor attenuatie, i XY' 0, 94 (Nunnally,

1978, p. 220). Vergelijken we de E-scores van de personen met hun score op de eerste cloze-test van de Uelftse toets, dan zien we vrijwel hetzelfde. De

product-moment-correlatiecoeffi-* Dit is overigens een belangrijke reden waarom een benadering via variantie-analyse {zie bij voorbeeld: Winer, 1970, p. 105 e.v.) niet zinvol is.

(37)

100 E-score C.T.N. 90 80 70 60 50 40 30 20 10 0

E'

10 20 30 40 50 60 70 80 90 100 C-score C.T.N.

Figuur 1. Scatterdiagram van de score op de doze-test van de Centrale Toets Nederlands (C-score: horizontale as) en de score op de overige testen van de Centrale Toets Nederlands (E-score: verticale as) voor aile 85 personen. E' is de regressielijn van E op C.

cient bedraagt 0, 78 (zie kolom 3 van tabel 6 ). Correctie voor attenuatie leidt tot een werkelijke correlatie van 0,91. Kortom: de scores van de 85 personen op elk van beide clo-ze-testen correleren zeer hoog met hun E-scores, afgeleid uit de luistertest, de · spreektest, de leestest en de schrijftest.

(38)

C'i~Core E~re C~re C.T.N. C.T.N. D.T.l Schaalbereik 0-100 0-100 0-100 Gemiddelde score X: 69,68 57,85 65,44 Standaarddeviatie _~ 11,36 15,27 13,15 Betrouwbaarheid KR20 of a 0,89 0,80 0,91 Standaardmeetfout _SE 3,77 6,83 3,95

Correlatie met E-score

rxy 0,79 -- 0,78

Disattenuated corre- _...

latie met E-score rxy 0,94 - 0,91

Tabel 6. De C-score van 85 personen vergeleken met hun E-score, een uit de testen luisteren, spreken, lezen en schrijven van de C.T.N. afgeleide score voor 'taalvaardigheid'; C-score C.T .N. staat voor de cloze-test uit de Centrale Toets Nederlands en C-score D.T.l voor de eerste cloze. test uit de Delftse toets.

Ook de overige vijf cloze-testen van de Delftse toets vertonen een goede samenhang met de 'E-test'. De correlatiecoefficien-ten lopen uiteen van 0,58 voor de vierde doze-test tot 0,79 voor de vijfde cloze-test uit de Delftse toets. Eeperken we ons tot de laatste twee in verband met de lengte van de meetschaal, dan zijn de correlatiecoefficienten na correctie voor attenuatie respectievelijk 0,69 en 0,93.

De interpretatie van de gegevens ligt voor de hand. Datne wat door elk van beide cloze-testen uit tabel 6 wordt ge-meten, hangt zeer nauw samen met datgene wat wordt geme-ten door de 'E-test', de samengestelde test die luistervaardig-heid, spreekvaardigluistervaardig-heid, leesvaardigheid en schrijfvaardigheid af-zonderlijk meet. Lezen we de correlatiecoefficienten, gecorri-geerd voor attenuatie, als validiteitscoefficienten, dan heeft elk van heide cloze-testen een zeer hoge predictieve validiteit. Met andere woorden: is hij voorheeld de score van een persoon op de cloze-test van de Centrale Toets Nederlands hekend,

(39)

dan is een zeer goede voorspelling mogelijk van zijn taalvaar-digheid zoals we die eerder hebben geoperationaliseerd. De regressievergelijking is in dit geval:

E' 1,06 C - 16,14

waarin E' de voorspelde E-score is op grond van de gevon-den C-score (Allen & Yen, 1979, p. 31). Zie ook figuur I.

De implicatie van het voorgaande zal duidelijk zijn. In de praktijk kan volstaan worden met het afnemen van een doze-test, bij voorkeur de cloze-test uit de Centrale Toets Neder-lands. In het laatste geval kan via bovenstaande regressieverge-lijking een goede voorspelling worden gemaakt van de E-score van een persoon. Zoals uit tabel 5 is af te leiden, Ievert een dergelijke werkwijze .een enorme besparing van tijdskosten: de cloze-test vergt immers nog geen 5% van de totale tijdskosten van de Centrale Toets Nederlands.

4. Slotbeschouwing.

Samenvattend kan men op grond van dit vergelijkend onder-zoek het volgende vaststellen.

De twee nader beschouwde multiple choice cloze-testen zijn als meetinstrument kwalitatief goed, met name gelet op

betrouw-baarheid en standaardmeetfout. De betrouwbaarheid van beide multiple choice cloze-testen is zeer hoog, terwijl de standaard-meetfout van beide aanmerkelijk geringer is dan die van de vier-vaardigheden-toets opgevat als een samengestelde test {zie tabel 6 ).

In zijn algemeenheid voldoen de multiple choice cloze-testen ten aanzien van de objectiviteit beter dan de hier beschreven vier-vaardigheden-toets. Dit komt doordat beoordelaars in een aantal gevallen (met name bij de schrijf- en de spreekopdracht, in mindere mate ook bij de schrijf· en de spreektest)

(40)

verschil-lende standaards blijken te gebruiken, hetgeen bij een multi-ple choice cloze-toets geheel onmogelijk is. Dit is voor de toetsing van het Nederlands bij buitenlanders met name van praktische betekenis vanwege de veelheid van in plaats zeer gespreide instellingen waar toetsen worden afgenomen.

In verhouding tot de vier-vaardigheden-toets is de efficientie van de multiple choice cloze-testen in termen van totale tijds-kosten uitermate hoog (een factor 20). Het verschil in dit op-zicht is zo groot dat een van beide multiple choice cloze-tes-ten 85 maal achtereenvolgens individueel afgenomen - bij minimalisatie van de tijdskosten, door de kandidaat de test in een aparte ruimte af te Iaten leggen nog altijd 'zes maal zo efficient' is als de vier-vaardigheden-toets bij een groep van 85 person en afgenomen in een keer, waarbij verdere minima-lisatie van tijdskosten onaannemelijk is. Dit is voor de toetsing van het N ederlands bij buitenlanders met name van praktische betekenis vanwege hun in de tijd zeer gespreide en veelal onregelmatige instroom.

De predictieve validiteit van de multiple choice cloze-testen ten aanzien van de 'taalvaardigheid' zoals gemeten door de vier-vaardigheden-toets - waarvan de begripsvaliditeit in de praktijk door de overgrote meerderheid van toetsers als van-zelfsprekend wordt aangenomen - is zeer hoog.

Met het oog op de vier hierboven gehanteerde criteria kan men derhalve besluiten dat een multiple choice cloze-toets van de hier beschreven kwaliteit in de praktijk zeer wel kan dienen ter veroanging van een uitgebreide vier-vaardigheden-toets. Om re-denen van objectiviteit en efficientie verdient zulks voor het me-ten van vorderingen me-ten aanzien van Nederlands als tweede taal - althans bij personen met een vooropleiding die vergelijkbaar is met die van de hier beschreven proefpersonen - zelfs aanbeveling.