Toetsing van de taalvaardigheid Engels via Dialang in het Hoger onderwijs

(1)

FACULTEIT LETTEREN

Masterproef aangeboden door Elodie DELHOMME tot het behalen van de graad van Master in de Meertalige Communicatie

Promotor: Sophie DEBRAUWERE

Academiejaar 2014 – 2015 Master in de meertalige communicatie

Toetsing van de taalvaardigheid Engels via

DIALANG in het Hoger Onderwijs

(2)

(3)

Summary

The topic of this masters is testing the proficiency in English of students studying at a college of further education or university via Dialang. This test offers language students the opportunity to assess their language skills in 14 different European languages. The levels in Dialang are derived from the six levels of the CEFR. It is important to know that Dialang is a formative test because it provides the learners with feedback, but does not provide any kind of certification.

The first chapter contains a literature review on the strengths and weaknesses of the Common European Framework of Reference (CEFR) and the online diagnostic test Dialang. Furthermore, the literature review consists of an overview of different research on the proficiency in English such as the European Survey of Language Competence (ESLC). In the conclusion the future of the CEFR is debated.

In the second chapter there is an explanation outlining what the research questions are and how the experiment was conducted with the students of Applied Linguistics, Masters in Multilingual Communication, Office Management and Business Management. Firstly, I examined the proficiency in English of all the students. Secondly, I analysed whether the students reached the standards set by the Flemish government. And thirdly, I investigated factors that possibly influenced their proficiency in English e.g. mother tongue.

This research has already been conducted for French (Van Maldergem, 2012), Spanish (Schut, 2011; Nobile, 2011) and German (Konanowicz, 2012). The results showed that generally the students did not reach the standard set for each language. For English the standard is C1 for a university degree and B2 for a college of further education degree. The results demonstrate that the levels attained by the students of Office Management and Business Management were significantly lower than the expected standard. Although the majority of the students of Applied Linguistics and the Masters in Multilingual Communication did not reach the standard, the levels attained by them were not significantly lower.

More research needs to be conducted to be able to compare students from other Flemish universities and colleges of further education.

(4)

(5)

Voorwoord

Deze meesterproef werd gerealiseerd om mijn diploma Master in de Meertalige Communicatie aan de Katholieke Universiteit Leuven te behalen. Hierbij heb ik op de hulp kunnen rekenen van een aantal personen en daarom zou ik deze personen graag willen bedanken. Eerst zou ik graag mijn promotor Sophie Debrauwere willen bedanken voor haar begeleiding en kritische opmerkingen. Haar hulp is zeer belangrijk geweest om deze masterproef tot een goed einde te brengen.

Vervolgens wil ik Valerie Van den Broeck bedanken, mijn medestudent die een gelijkaardige meesterproef heeft uitgewerkt, voor haar hulp bij de voorbereiding, de afname van de DIALANG-testen en de verwerking van de data in SPSS.

Verder gaat mijn dank uit naar de docenten die hun colleges hebben afgestaan om mee te werken aan deze masterproef: E. Van Steendam, L. Teeuwen, F. Noé-Haesendonck, M. Humblé, V. Graind’orge, H. Denruyter, B. Van Vreckem, B. Coessens en R. Vandenbossche. Ook mevrouw M. Raedts wordt bedankt voor de informatie die ze ons heeft verschaft over de statistische verwerking in SPSS.

Daarna bedank ik alle studenten uit Toegepaste Taalkunde, Meertalige Communicatie, Office Management en Bedrijfsmanagement Marketing en Logistiek die hebben deelgenomen aan de DIALANG-testen.

Ten slotte zou ik graag Karine De Baerdemaeker en Evie Van Eycke, samen met mijn familie en vrienden willen bedanken voor hun enorme hulp en steun gedurende dit schooljaar.

Elodie Delhomme

(6)

(7)

Inhoudstafel

SUMMARY ... 3 VOORWOORD ... 5 INHOUDSTAFEL ... 7 1. INLEIDING ... 10 2. LITERATUURSTUDIE ... 12 2.1. INLEIDING ... 12

2.2. HET EUROPEES REFERENTIEKADER (ERK) ... 12

2.2.1. Het ontstaan ... 12

2.2.2. Beschrijving en doelstellingen... 13

2.2.3. ERK-schalen ... 14

2.3. KRITIEK OP HET EUROPEES REFERENTIEKADER ... 16

2.3.1. Nut van het ERK ... 16

2.3.2. Geen empirische onderbouwde descriptoren ... 16

2.3.3. Vage descriptoren ... 17

2.3.4. Problematische linguïstische descriptoren ... 17

2.3.5. Geen universele descriptoren ... 18

2.3.6. Complex taalgebruik ... 19

2.3.7. Complex en onoverzichtelijk geheel van categorieën ... 20

2.3.8. Behoefte aan concretisering per taal ... 20

2.3.9. Geen geïntegreerde vaardigheden ... 20

2.3.10. Gebruik van het ERK in de praktijk ... 21

2.3.10.1. Onwetenschappelijk gebruik van de ERK-schalen in handboeken en examens ... 21

2.3.10.2. Overwaardering van de ERK-niveaus ten koste van de taalbeschrijving .. 22

2.3.10.3. Onderwaardering van de meertalige dimensie van het ERK ... 22

2.3.10.4. Beperkt gebruik van afgeleide producten van het ERK zoals het Taalportfolio ... 22

2.3.10.5. Invloed op het ERK van belanghebbende partijen ... 23

(8)

2.3.12. Conclusie kritiek ERK ... 24

2.4. DIALANG ... 24

2.4.1. Doel Dialang ... 25

2.4.2. Gebaseerd op het ERK ... 25

2.4.2.1. Meertalig programma ... 26

2.4.2.2. Kalibratie van de uitspraken voor zelfevaluatie ... 26

2.4.2.3. Ontwikkeling van de testitems ... 27

2.4.2.4. Grensscores bepalen ... 28

2.4.3. Werking Dialang ... 30

2.4.4. Voordelen ... 31

2.5. KRITIEK OP DIALANG ... 33

2.5.1. Weinig empirisch onderzoek ... 33

2.5.2. Kritiek op de bepaling van de grensscores ... 33

2.5.3. Methodes om grensscores te bepalen ... 35

2.5.4. Dialang is beperkt ... 38

2.5.5. Kritiek op de praktijk van Dialang ... 39

2.5.6. Traduttore, traditore ... 39

2.5.7. Conclusie kritiek op Dialang ... 40

2.6. RECENTE STUDIES NAAR DE TAALVAARDIGHEID ENGELS ... 41

2.6.1. HISBUS English proficiency testing project ... 41

2.6.2. Satakuna Polytechnic study ... 41

2.6.3. ESLC-onderzoek ... 43 2.6.3.1. Methode en verloop ... 43 2.6.3.2. Resultaten ... 44 2.6.3.2.1. Resultaten Frans ... 44 2.6.3.2.2. Resultaten Engels ... 45 2.6.3.2.3. Resultaten factoren ... 47 2.6.3.2.3.1. Resultaten geslacht ... 48 2.6.3.2.3.2. Resultaten migratiestatus ... 48 2.6.3.2.3.3. Resultaten thuistaal ... 48

2.6.3.2.3.4. Resultaten sociaaleconomische status ... 48

2.6.3.2.3.5. Resultaten onderwijsniveau ... 48

2.6.4. Vergelijking Dialang en ESLC-onderzoek ... 48

(9)

2.6.6. Business English Index ... 52

2.6.7. Onderzoek naar correlatie tussen vaardigheden ... 54

2.6.8. Conclusie onderzoek naar taalvaardigheid Engels ... 54

2.7. CONCLUSIE ... 55

3. ONDERZOEKSDOEL EN ONDERZOEKSVRAGEN ... 56

3.1. ONDERZOEKSDOEL ... 56

3.2. ONDERZOEKSVRAGEN ... 59

3.3. MOGELIJKE RUISFACTOREN ... 63

4. OPZET EN UITVOERING VAN HET ONDERZOEK ... 64

4.1. KEUZE EN VERANTWOORDING VAN DE ONDERZOEKSSTRATEGIE ... 64

4.2. SAMENSTELLING VAN DE RESPONDENTEN ... 64

4.3. DE MEETINSTRUMENTEN ... 65

4.4. DATAVERZAMELING ... 72

4.5. VERWERKING EN PREPARATIE VAN DE GEGEVENS ... 74

4.6. BESCHRIJVING EN VERANTWOORDING VAN DE ANALYSE- BESLISSINGEN ... 74 5. RESULTATEN ... 76 6. CONCLUSIE EN DISCUSSIE ... 161 6.1. CONCLUSIE ... 161 6.2. DISCUSSIE ... 169 REFERENTIELIJST ... 172 BIJLAGEN OP CD-ROM ... 174

(10)

9 1. Inleiding

Dankzij het Europees Referentiekader (afgekort ERK) en alle afgeleide producten is er de laatste tien jaar een groeiende interesse voor taalvaardigheid in het algemeen en vreemdetalenverwerving en –evaluatie in het bijzonder. Binnen het vreemdetalenonderwijs neemt het Engels als lingua franca een bijzondere plaats in. Het is dan ook niet toevallig dat er in 2013 een grote Europese studie over de taalkennis Engels van leerlingen uit het Secundair Onderwijs, de European Survey on Language Competences (afgekort ESLC), werd gepubliceerd.

In het verlengde van de huidige tendensen koppelt deze meesterproef de taalvaardigheid Engels van studenten Hoger Onderwijs aan de ERK-niveaus en de Dialang-taaltesten: de taaltoetsen werden afgenomen van de studenten Toegepaste Taalkunde & Meertalige Communicatie (KULeuven Campus Brussel), Office Management en Bedrijfsmanagement Marketing en Logistiek (HUBrussel).

In navolging van het ERK werden de lees-, schrijf- en luistervaardigheid en de kennis woordenschat en grammatica geanalyseerd. Deze resultaten werden met de opgelegde eindtermen voor de bachelor en voor de master vergeleken. Vervolgens werd er onderzocht welke onafhankelijke variabelen samenhangen met de taalvaardigheid. Uit het ESLC-onderzoek bleek al dat de moedertaal/thuistaal en het diploma Secundair Onderwijs de taalvaardigheid Engels beïnvloeden. Daarnaast werd de variabele ‘exposure of contact met Engels buiten de lessen’ en de variabelen ‘opleiding’ en ‘studiejaar’ geanalyseerd. Uit vorige studies en meesterproeven Schut (2011), Nobile (2011), Van Maldergem (2012) en Konanowicz (2012) waren ook al de variabelen bekend die geen samenhang met het niveau vertoonden, zoals geslacht, talencombinatie binnen de studie TT, extra taalstages/cursussen. Deze variabelen werden aangepast of niet in de studie opgenomen.

Als studente Toegepaste Taalkunde Engels/Spaans heb ik veel energie in Taalvaardigheid Engels gestoken. Ik wilde mijn kennis Engels wel eens op een ERK-schaal uitgedrukt zien en was ook benieuwd naar de resultaten van de professionele en academische bachelors. De vergelijking van beide opleidingsniveaus is relevant want bachelors Bedrijfsmanagement en

Office Management kunnen via een schakeljaar doorstromen naar bepaalde

masteropleidingen. Bij mijn weten is het de eerste keer dat de taalvaardigheid Engels van studenten Hoger Onderwijs via de Dialang-testen onderzocht wordt. Het onderzoek is verder wetenschappelijk relevant omdat het voor de eerste keer wordt uitgevoerd.

(11)

10 De maatschappelijke relevantie van deze meesterproef was voor mij een grote motivatie. Tijdens de afname van de test kregen de deelnemende studenten al een idee van hun niveau Engels; ze waren allen erg geïnteresseerd. Deze studie is ook relevant voor de betrokken docenten omdat zij een beeld krijgen van het klasniveau en via de foutieve antwoorden van de hiaten in de kennis Engels. Op het BELTA-congres van 22 maart 2014, waar de eerste resultaten van deze studie werden voorgesteld, bleken ook andere docenten Engels geïnteresseerd in de resultaten. Als laatste geldt de relevantie voor curriculumontwikkelaars en de uitgevers van handboeken: de eersten kunnen empirisch vaststellen of de studenten de eindtermen die zij vooropstellen ook echt halen, de laatste groep kan de handboeken aanpassen aan de noden van de studenten.

De onderzoeksvragen van deze thesis zijn terug te vinden in hoofdstuk 3. Er wordt onderzocht welk niveau de studenten behalen voor de verschillende taalvaardigheden Engels (met uitzondering van spreken), of ze in het eerste jaar instromen met het niveau dat de Vlaamse Overheid oplegt aan het Secundair Onderwijs en of ze uitstromen met de eindtermen die het Hoger Onderwijs zelf bepaalt. Ook wordt er onderzocht welke factoren een invloed hebben op de taalvaardigheid Engels. De onderzoeksvragen in deze studie zijn gebaseerd op conclusies van vorige studies en HUB-meesterproeven op de taalvaardigheid Spaans (Schut, 2011; Nobile, 2011), Frans (Van Maldergem, 2012) en Duits (Konanowicz, 2012).

De onderzoeksmethode (van opzet over testafname tot verwerking van de data) wordt uitgebreid besproken in hoofdstuk 4. In hoofdstuk 5 staan de resultaten per onderzoeksvraag en deze worden kritisch doorgelicht en besproken in de Conclusie.

Het kwantitatieve deel wordt voorafgegaan door een literatuurstudie (hoofdstuk 2) waarin achtereenvolgens het ERK, Dialang en bestaande kwantitatieve studies over taalvaardigheid (Engels) worden toegelicht. Omdat het thema erg ruim is en er een overvloed aan publicaties bestaat, werd er gefocust op de sterke en zwakke punten van het ERK en Dialang. De meeste bronnen worden ook geciteerd in vorige meesterproeven, maar er werd op toegezien om in deze studie de recentste publicaties op te nemen, zoals het verslag van het ‘European Survey on Language Competences’ (zie hoofdstuk 2) en de bijdrages op het congres ‘Language testing in Europe: Time for a new CEFR (2013)1.

1

(12)

11 2. Literatuurstudie

2.1. Inleiding

Deze literatuurstudie bevat de achtergrondinformatie die nodig was om onderzoek uit te voeren naar de taalvaardigheid Engels via Dialang. Eerst wordt het Europees Referentiekader besproken. Dit document beschrijft taal en deelt taalbeheersing op in zes niveaus. Het werd ontworpen om verschillende Europese talen vergelijkbaar te maken. Het ERK vormde de basis voor Dialang, het programma dat we hebben gebruikt tijdens ons experiment. Dialang is een diagnostisch programma waarmee taalleerders hun taalvaardigheid kunnen testen. Voor beide projecten worden ook enkele punten van kritiek gegeven. In het laatste deel komen enkele recente onderzoeken over de taalvaardigheid Engels aan bod. Twee van deze onderzoeken hebben ook Dialang gebruikt als meetinstrument. De overige onderzoeken hebben allemaal scores op basis van de ERK-niveaus gebruikt.

2.2. Het Europees Referentiekader (ERK) 2.2.1. Het ontstaan

De Europese integratie heeft gezorgd voor een gemeenschappelijke wetgeving en de vervaging van grenzen met als gevolg vrij verkeer van personen, goederen, diensten en kapitaal. Samen met de globalisering, die plaatsvond in de jaren ’90, is de handel en de arbeidsmarkt fel veranderd. Er was steeds meer nood aan talenkennis zodat bedrijven konden blijven concurreren op de markt. Bijgevolg groeide de behoefte aan een gemeenschappelijk referentiekader voor vreemdetalenonderwijs, die de kwaliteit van het onderwijs zou verzekeren; het Europees Referentiekader was geboren.

In 1961 besloten de Europese ministers van Onderwijs gezamenlijk een inspanning te leveren om het talenonderwijs te verbeteren en te stimuleren. Een belangrijk resultaat van deze beslissing was de publicatie van het Treshold level in 1975. De Nederlandse vertaling luidde het Drempelniveau (de Jong, 2002). Het boek was bedoeld als “een algemeen beschrijvingsmodel voor de beheersing van talen in functionele zin: wat iemand met een taal kan doen en hoe goed” (de Jong, 2002, p. 27). Dankzij de beschrijving van minimale competentieniveaus en eindtermen bleek het model uitermate geschikt te zijn voor beginnerscursussen. Het gebruik leerde echter dat het Drempelniveau de competenties van taalleerders had onderschat: deze haalden de eindtermen al ruim voor het einde van de cursus. Ten gevolge hiervan werden de meest noodzakelijke noties en functies uit het Drempelniveau

(13)

12 gegroepeerd in een ‘Tussenniveau’, zoals de naam laat vermoeden is dit het niveau tussen ‘geen kennis’ en ‘het Drempelniveau’. Beide publicaties liggen aan de basis van de zes ERK-niveaus, “waarbij ieder volgend niveau het voorafgaande niveau volledig omvat zoals dat in het Referentiekader is uitgewerkt” (de Jong, 2002, p. 28).

De beslissing om een Europees Referentiekader te maken viel in 1991, tijdens de conferentie ‘Transparency and Coherence in Language Learning in Europe: Objectives, Evaluation, Certification’. Niet toevallig vond de conferentie plaats in Zwitserland; het land is immers een weerspiegeling van de Europese taalonderwijspolitieke problematiek. Met zijn 4 talen en 26 kantons waarbij elk kanton zijn eigen onderwijssysteem hanteert, was er duidelijk behoefte aan vergelijkbaarheid tussen leerdoelen en bereikte niveaus in het talenonderwijs. (de Jong, 2002). De conferentie resulteerde in twee actiepunten: eerst moest er een Europees Referentiekader voor talen ontwikkeld worden met een beschrijving van beheersingsniveaus en daarop volgend “een internationaal herkenbaar taalvaardigheidsdocument in de vorm van een portfolio” (de Jong, 2002, p. 28). In 2001, mondden deze actiepunten uit in de uitgave van het Common European Framework of Reference for Languages: Learning, Teaching, Assessment (CEFR) door de Raad van Europa.

2.2.2. Beschrijving en doelstellingen

Het ERK wil een gemeenschappelijke basis verschaffen door taalvaardigheid op alomvattende wijze te beschrijven. Het Referentiekader beschrijft de kennis en vaardigheden die taalleerders moeten ontwikkelen om op een efficiënte manier te kunnen communiceren. Daarnaast bevat de beschrijving de culturele context van taal en vaardigheidsniveaus waarmee de taalleerders hun niveau kunnen meten in iedere fase van het leerproces. “Het Gemeenschappelijk Europees Referentiekader is bedoeld om de belemmeringen weg te nemen in de communicatie tussen deskundigen die werkzaam zijn op het gebied van moderne talen, belemmeringen die voortkomen uit de verschillen tussen de onderwijsstelsels in Europa” (Nederlands Taalunie, 2008, p. 7). Het ERK dient als hulpmiddel voor leerders, docenten, materiaalontwikkelaars, examencommissies en onderwijsbestuurders. Het helpt hen hun inspanningen te situeren en te coördineren. Het vergroot ook de doorzichtigheid van lesprogramma’s, syllabussen en kwalificaties waardoor de internationale samenwerking wordt bevorderd. (Nederlandse Taalunie, 2008)

(14)

13 2.2.3. ERK-schalen

Het ERK is de meest complete beschrijving van ‘taal’, maar is zelf taalonafhankelijk. Deze verdienstelijke poging om taal in al zijn complexiteit te beschrijven, wordt echter vaak gereduceerd tot de ERK-niveaus.

De ERK-schalen drukken op een positieve manier uit wat een taalleerder kan begrijpen en produceren op een bepaald niveau. Ze zijn een hulpmiddel om de verworven vaardigheden te evalueren en maken het mogelijk om taalleerders van dezelfde taal of verschillende talen met elkaar te vergelijken. Het ERK bevat zes taalniveaus gaande van A1 naar C2. Deze indeling in niveaus is geen nieuw concept en bestond al vóór de uitgave van het ERK. Het gaat hier enkel om een nieuwe kijk op de klassieke indeling: basisniveau (A), middenniveau (B) en gevorderd niveau (C) (Gouveia, 2010). De drie klassieke niveaus zijn elk verder ingedeeld in twee subniveaus. Het basisniveau wordt onderverdeeld in A1 (Breakthrough) en A2 (Waystage), “waarbij A1 ongeveer halverwege ligt op weg naar beheersing op niveau A en A2 gelijkstaat aan A” (de Jong, 2002, p. 32). Het middenniveau wordt op zijn beurt onderverdeeld in B1 (Treshold) en B2 (Vantage) en het gevorderd niveau wordt onderverdeeld in C1 (Effective Operational Proficiency) en C2 (Mastery), zoals afgebeeld in Figuur 1. Omdat sommige namen van de subniveaus moeilijk te vertalen zijn, is er een vertakt systeem opgesteld dat vertrekt vanuit de drie algemene niveaus: A, B en C. (Nederlands Taalunie, 2008). Ook de Jong (2002) en Slotema (2010) stellen vast dat er meestal gekozen wordt voor de overeenkomstige letter-cijfercombinatie.

Klassieke indeling 6 ERK-niveaus Boomstructuur

Basisniveau A1 Breakthrough A Basisgebruiker ↙ ↘ A1 A2 A2 Waystage Middenniveau B1 Treshold B Onafhankelijk gebruiker ↙ ↘ B1 B2 B2 Vantage

(15)

14

Gevorderd niveau C1 Effective Operational

Proficiency C Vaardige gebruiker ↙ ↘ C1 C2 C2 Mastery

Figuur 1: evolutie van de indeling in niveaus

Volgens de Jong (2002, p. 32) kunnen de gebruikers van het ERK “zelf bepalen tot welke graad van verfijning zij een niveau-indeling willen hanteren.” Zo kan niveau A1 verder verdeeld worden in A1.1 en A1.2. A1.1 ligt dan ongeveer halverwege op weg naar A1 en A1.2 is gelijk aan niveau A1.

Figuur 2:visuele voorstelling van de plusniveaus

In de visuele voorstelling wordt een onderscheid gemaakt tussen de criteriumniveaus (zoals A2 of A2.1) en de plusniveaus (zoals A2+ of A2.2). De plusniveaus bevatten steeds een concretere beschrijving van de vaardigheden waarover een taalleerder moet beschikken. Figuur 3 toont het verschil tussen het criteriumniveau en het plusniveau aan voor luisteren. Het voordeel van deze indeling is dat de niveaus kunnen worden aangepast aan de behoeften van specifieke gebruikers zonder het hoofddoel te verliezen.

A2

Kan genoeg begrijpen om te kunnen voldoen aan behoeften van concrete aard, wanneer er helder en langzaam wordt gearticuleerd.

Kan frasen en uitdrukkingen begrijpen die verband houden met zaken van de meest directe prioriteit (elementaire persoons- en familiegegevens, boodschappen doen, plaatselijke geografie, werk), wanneer er helder en langzaam wordt gearticuleerd. Figuur 3: criteriumniveau (A2.1) en plusniveau (A2+): luistervaardigheid

Het Gemeenschappelijk Europees Referentiekader geeft een specifieke beschrijving van wat de taalleerders moeten kennen per niveau. Deze beschrijving is terug te vinden in Bijlage 1.

(16)

15 2.3. Kritiek op het Europees Referentiekader

Geen enkele taalbeschrijving werd meer bestudeerd dan het Europees Referentiekader. Hieronder volgt een overzicht van de belangrijkste kritieken op het ERK, ook van de grondleggers ervan zoals Alderson en North.

2.3.1. Nut van het ERK

In het algemeen, vraagt Little (2007) zich af of het ERK wel zinvol is, omdat het niet kan worden opgelegd door de Raad van Europa. Het doel van het ERK is het vreemdetalenonderwijs kwalitatiever maken en vergelijkbaar maken met andere landen. Maar dat doel kan niet worden opgelegd. De Raad van Europa kan enkel raad geven, voorstellen formuleren en motiveren en oefent geen rechtstreekse invloed uit op het onderwijsbeleid van de lidstaten. De lidstaten beslissen dus zelf of ze het ERK in hun onderwijsbeleid willen integreren en op welke manier.

In België werd echter besloten het Europees Referentiekader als basis te gebruiken om de eindtermen te bepalen in het talenonderwijs. Voor elke taal in de verschillende onderwijsvormen of studierichtingen werd bepaald welk eindniveau behaald moest worden. Hiervoor werd gesteund op de beschrijvingen die het ERK biedt per schaal. De eindcompetenties voor Engels voor ASO, TSO en BSO verschillen. Studenten die het ASO verlaten, moeten het niveau B1 behalen voor Engels. Voor TSO ligt het niveau tussen A2 en B1 en voor BSO ligt het niveau op A2.

2.3.2. Geen empirische onderbouwde descriptoren

Om de beperkingen ervan te kunnen evalueren, is het belangrijk te weten hoe de schalen van het ERK tot stand zijn gekomen. Het ERK is ontstaan door een samenwerking van verschillende docenten die zich hebben laten leiden door hun intuïtie om het raamwerk tot stand te brengen, zoals aangegeven in Fulcher (2004). De ontwikkelaars van het ERK erkennen dat ze niet kunnen terugvallen op empirische data: “… what is being scaled is not necessarily learner proficiency, but teacher/raters’ perception of that proficiency – their common framework” (North, 2000, geciteerd in Fulcher, 2004) Verder geven ook Little (2007) en Alderson en Huhta (2005) aan dat de descriptoren niet theoretisch onderbouwd zijn.

(17)

16 2.3.3. Vage descriptoren

Layton (2004) stelt vast dat de descriptoren, door hun vage beschrijvingen, onderhevig zijn aan subjectieve interpretatie. Hij geeft als voorbeeld de eerste zin van het niveau B1 voor ‘het schrijven van verslagen en essays’: Can write short, simple essays on topics of interest. Wat betekent ‘short’ of ‘simple’? Verder bevat de beschrijving ook geen informatie over het linguïstisch niveau van het essay zoals hoeveel fouten er gemaakt mogen worden.

Baglantzi (2012) stelt een kloof vast tussen de kennis van de leerlingen en de beschrijving van de vaardigheden in het ERK voor grammatica. De studenten scoren goed op de test taalstructuren van Dialang. Dit is ook normaal volgens haar aangezien er veel aandacht wordt besteed aan grammatica in het taalonderwijs, maar de taalstructuren die leerlingen aanleren, worden niet opgenomen in het ERK. Ook hier zijn de descriptoren te vaag aangezien ze geen specifieke taalstructuren vermelden.

Verder wordt er bezwaar gemaakt tegen het illustratieve karakter van het ERK door Hulstijn (2009). De descriptoren dienen enkel ter illustratie en dienen niet letterlijk overgenomen te worden. Volgens hem gebruiken de ERK-auteurs dit als uitvlucht om geen afgebakende en coherente linguïstische beschrijvingen van de zes niveaus te moeten voorzien. Dit bemoeilijkt het om dieper in te gaan op een niveaubeschrijving en zonder concrete invulling kan het ERK niet goed gebruikt worden door docenten en examenontwikkelaars.

Zowel Jones (2013), Corrigan (2013) en Hildén en Härmälä (2013) hebben ondervonden hoe moeilijk het is om het ERK als basis te gebruiken voor het ontwikkelen van een test. Ze gaven allemaal aan dat de descriptoren niet gedetailleerd genoeg waren waardoor ze de meeste descriptoren zelf moesten aanvullen.

2.3.4. Problematische linguïstische descriptoren

Little (2007) geeft aan dat de linguïstische kwaliteit van sommige schalen bekritiseerd kan worden. In tabel 3 in de Nederlandse Taalunie (2008, p. 29) worden de kwalitatieve aspecten van gesproken taal opgesomd. ‘Vloeiend zijn in een gesproken taal’ betekent dat je niet mag aarzelen, maar dit strookt niet met de realiteit. Moedertaalsprekers aarzelen soms ook tijdens het spreken en dit maakt hen daarom niet minder vloeiend. Ook de schaal voor fonologische beheersing (zie Figuur 4) geeft geen realistisch beeld. De schaal beschrijft een norm die geleidelijk aan het niveau van een moedertaalspreker benadert. De evolutie reflecteert de werkelijkheid in tweetalig onderwijs maar als de afstand tussen moedertaalsprekers en

(18)

17 leerling van de vreemde taal groot is, is het heel belangrijk om zich onmiddellijk te focussen op een goede fonologische beheersing.

Figuur 4: Fonologische beheersing in de Nederlandse Taalunie (2008, p. 29)

2.3.5. Geen universele descriptoren

De projecten Dutch CEFR grid2 en Ebafls3 hebben aangetoond dat het ERK er niet in slaagt om gelijke niveaus te vestigen onder de Europese taaltesten. Tardieu (2010, p. 226) legt het als volgt uit: “Un item qui dans mon pays est réussi par un élève au niveau B1 peut l’être dans un autre pays par un élève à un niveau A2 seulement.” Volgens Tardieu zou dit fenomeen te wijten zijn aan culturele verschillen in het domein van de evaluatie. Er is met andere woorden geen garantie dat ‘mijn B2 Frans’ gelijk is aan ‘jouw B2 Frans’ en al helemaal niet dat ‘mijn

2

De Dutch CEFR Construct GRID laat testontwikkelaars toe om luisteren leestesten te analyseren zodat ze deze kunnen linken aan het ERK. Informatie over taken, teksten en items van de test wordt in het rooster

gebracht door hun kenmerken te specificeren volgens beschrijvingen uit het ERK (bv. Bron van de tekst, het type discours, geschatte moeilijkheidsgraad, enzovoort). De analist moet echter volledig vertrouwd zijn met ERK om het rooster effectief te kunnen gebruiken.

3_{EBAFLS beoogt de ontwikkeling van een Europese databank om gebruikt te worden voor de koppeling van de}

nationale tests en examens aan het ERK. Aan het project werken acht landen mee (Frankrijk, Duitsland, Hongarije, Luxemburg, Nederland, Schotland, Spanje en Zweden). In het project gaat het om de talen Engels, Frans en Duits en de vaardigheden lezen en luisteren op de niveaus A2, B1 en B2 . De databank zal bestaan uit artikels voor lees- en luistertesten afkomstig uit verschillende examens die zijn gebruikt in een van de

deelnemende landen, en waarvan is vastgesteld dat ze werken op dezelfde manier in de verschillende deelnemende landen.

(19)

18 B2 Frans’ gelijk is aan ‘jouw B2 Engels’. Soms gaat het universele aspect van de descriptoren verloren in de vertaling. Takala (2012) haalt aan dat slecht vertaalde testen een invloed kunnen hebben op de kwaliteit en daardoor ook het niveau van de test. Ook het Certificaat Nederlands als Vreemde Taal (CNaVT) geeft aan dat supranationale transparantie in taalniveaus een keerzijde heeft.

Wanneer de ERK-niveaus intuïtief gehanteerd worden of wanneer de tientallen tabellen gedeeltelijk of oppervlakkig toegepast worden om examenniveaus te bepalen, hebben we geen stap vooruit gezet. Integendeel zelfs, door unaniem dezelfde niveaus te hanteren op verschillende manieren wordt er een vals gevoel van uniformiteit gecreëerd, wat gevaarlijker is dan zichtbare heterogeniteit. (CNaVT, 2010, p. 2)

Alderson (2007) stelt dat het ERK een Europees raamwerk is, ook al is het grotendeels gebaseerd op ideeën uit de Anglo-Amerikaanse wereld. “The influence of Wilkins (1976), Canale and Swain (1980), and Bachman (1990) is particularly evident in the CEFR” (Alderson, 2007, p. 660). Daarom pleit Alderson voor meer onderzoek naar L2-taalverwerving in andere talen dan het Engels om een accuratere beschrijving te bekomen van de ERK-niveaus. De nood aan meer onderzoek wordt ook aangehaald in het werk van Alderson en Huhta (2005): “Clearly more research remains to be done – not all the languages have been fully piloted, for example – but the evidence so far indicates that the design and development work behind the system is of very high quality” (p. 320).

2.3.6. Complex taalgebruik

Bamber (2003) heeft de Engelse versie van het ERK in detail bestudeerd en concludeert dat het document slecht geschreven is. De complexe zinsconstructies en het jargon dragen niet bij tot duidelijkheid. Het document staat vol met Latijns-Engelse woorden, woorden die precies lijken maar eigenlijk niets betekenen. Bamber geeft als voorbeeld een deel van hoofdstuk 2 Approach adopted.

Any form of language use and learning could be described as follows: Language use, embracing language learning, comprises the actions performed by persons who as individuals and as social agents develop a range of competences, both general and in particular communicative language competences. (Council of Europe, 2011, p. 9)

Volgens hem kunnen de laatste drie lijnen op een eenvoudigere en kortere manier uitgelegd worden. “Language is moulded by the individual and society" (p. 4).

(20)

19 2.3.7. Complex en onoverzichtelijk geheel van categorieën

Een ander punt van kritiek van Bamber (2003) heeft te maken met het aantal categorieën aan taalactiviteiten die het ERK telt. Het Referentiekader geeft aan dat de taalactiviteiten zich binnen 4 domeinen afspelen, waarbinnen 14 thema’s horen, die verder zijn opgedeeld in 8 subcategorieën en die op hun beurt uit 6 subcategorieën bestaan. Dit maakt een totaal van 2688 categorieën waarbij het ERK aangeeft dat deze indeling niet uitputtend is. Bamber (2003) drijft de spot met deze aangeving van het ERK. Het grote aantal categorieën is absurd veel en helemaal niet aantrekkelijk voor docenten om te lezen.

2.3.8. Behoefte aan concretisering per taal

Bij aanvang wilde het ERK universeel en taaloverschrijdend zijn, maar heel wat onderzoekers sturen nu aan op de concretisering van het Referentiekader.

Hulstijn (2009) pleit voor een concretere en gedetailleerdere invulling van de verschillende domeinen van het ERK in termen van linguïstische kennis en vaardigheid. Enkel in dat geval kan het onderwijs iets aanvangen met het raamwerk. Deze invulling is al gebeurd voor het niveau B1 in het Engels (The Threshold level English) en het Nederlands (Drempelniveau Nederlands als vreemde taal) en voor het niveau A2 in het Engels (Way Stage). Ook voor het Spaans bestaat er een concrete invulling: het 2000 tellende pagina’s Plan Curricular (2006), ontworpen door het Instituto Cervantes. Het is ingedeeld in de ERK-niveaus en dekt quasi de volledige Spaanse taal, van de klassieke woordenschat, fonologie, grammatica, spelling tot de discursieve genres, functies van de taal in concrete situaties, pragmatische strategieën, culturele referenties, socioculturele voorschriften, interculturele codes enzovoort. Hulstijn wijst ons erop dat deze concrete invulling zeer belangrijk is en nog voor de andere niveaus en talen moet gebeuren vooraleer het ERK kan worden ingevoerd in het T2-onderwijs. Hij geeft echter wel toe dat een concrete invulling op de hoogste niveaus C1 en C2 niet mogelijk is. Ook Figueras (2008) vermeldt dat het ERK te weinig concreet is en niet onmiddellijk bruikbaar omdat het open, flexibel en taaloverschrijdend is.

2.3.9. Geen geïntegreerde vaardigheden

Schuurmans en Steverlynck (2008) verwijzen naar de taxonomische aard van het Referentiekader, wat betekent dat communicatie wordt opgesplitst in afzonderlijke componenten. De onderverdeling van de talige communicatievaardigheden in spreken, luisteren, lezen en schrijven is een kunstmatige ingreep. Het is namelijk zo dat reële

(21)

20 communicatiesituaties een mix van taalvaardigheden bevatten. “Daarom moeten de vaardigheden in het onderwijs zoveel als mogelijk geïntegreerd worden aangeboden” (Schuurmans en Steverlynck, 2008, p. 13).

2.3.10. Gebruik van het ERK in de praktijk

2.3.10.1 Onwetenschappelijk gebruik van de ERK-schalen in handboeken en examens

Door de vage beschrijvingen in het ERK wordt het vaak verkeerd gebruikt of soms zelfs misbruikt. Een taaldocent gebruikt vaak zijn intuïtie om de ERK-tabel te relateren aan zijn toetsen. “Deze relateringsmethode houdt echter een risico op onvolledigheid en subjectiviteit in” (CNaVT, 2010, p. 3).

Figueras (2008) vermeldt hierbij dat de ERK-schalen zeer snel zijn overgenomen door examencommissies die hun examens en gecertificeerde diploma’s op deze schalen baseerden. Er werd echter geen moeite gedaan om de validiteit van deze examens na te gaan. De Jong was een van de eerste die kritiek uitte op de missende wetenschappelijke link tussen het ERK en de toepassing ervan tijdens het eerste Internationaal Congres van ALTE in Barcelona in 2001. Om het probleem te verhelpen, werd er een werkgroep opgericht die een handboek vervaardigde om examens op een correcte manier af te stemmen op de ERK-schalen. Dit resulteerde in 2009 in de publicatie van de Manual for relating examinations to the CEFR.

ALTE heeft in april 2011 nog een andere handleiding ontwikkeld namelijk de Manual for Language Test Development and Examining. Deze dient als complement bij de vorige en focust op de aspecten die niet aan bod kwamen in de handleiding van 2009. De recente handleiding, Manual for Language Test Development and Examining, is een gereviseerde versie van het document Users’ Guide for Examiners uit 1996. (Council of Europe, 2009) Little (2007) vermeldt echter dat dit handboek niet kan verzekeren dat alle testen op niveau B1 ook werkelijk niveau B1 vertegenwoordigen. Het kan ook niet verzekeren dat een test Engels op niveau B1 gelijk staat aan een test Duits op niveau B1.

Ook Little (2007) geeft aan dat vele handboekontwikkelaars de vroegtijdige conclusie hebben gemaakt dat de zes schalen als een teken van kwaliteit dienen. De ERK-schalen worden gehanteerd als marketinginstrument.

(22)

21 Verder heeft ook Bamber (2003) kritiek op het gebruik van het ERK, meer bepaald over de toepassing in handboeken. De handboeken nemen louter enkele standaardzinnen over maar niet de essentie van het ERK. Hij adviseert een grammaticagerichte aanpak met rollenspel zodat de leerlingen ook echt de taal gebruiken in verschillende situaties.

Het intergouvernementeel forum voor taalbeleid van de Raad van Europa onderzocht in 2007 de toepassingen van het ERK in Europa met als objectief deze toepassingen te evalueren. Het forum erkent de volgende problemen (Figueras, 2008):

2.3.10.2 Overwaardering van de ERK-niveaus ten koste van de taalbeschrijving Het ERK wordt voornamelijk verticaal gebruikt: gebruikers richten zich op de 6 niveaus en hebben geen aandacht voor de horizontale beschrijving waarin de categorieën en het taalgebruik beschreven staan. Dit leidt tot een simplistisch en eenzijdig gebruik van het ERK.

Het ERK werd te snel geïmplementeerd door organisaties die niet vertrouwd zijn met kwalitatieve evaluatieprocessen. Dit heeft als gevolg dat zij geen wetenschappelijk antwoord kunnen geven op de vraag: Is mijn B1 gelijk aan jouw B1? Ook in Europa is men niet erg vertrouwd met evaluatieprocessen, wat blijkt uit de reacties op de Preliminary version of a Manual for relating examinations to the CEFR van 2003.

2.3.10.3 Onderwaardering van de meertalige dimensie van het ERK

Er wordt onvoldoende aandacht besteed aan de meertalige dimensie van het ERK en dat terwijl we in een meertalig Europa leven. Dit reflecteert een slechte balans tussen de nood aan een lingua franca (het Engels) en de nood om de bescherming en het bewustzijn van inheemse talen te bevorderen.

2.3.10.4 Beperkt gebruik van afgeleide producten van het ERK zoals het

Taalportfolio

Een van de afgeleide producten van het ERK is het Europees Taalportfolio (ETP). Het ETP is een gevalideerd instrument waarmee een taalleerder zijn ervaringen met het leren van vreemde talen kan documenteren. Taalleerders kunnen aangeven welke talen ze kennen en op welk ERK-niveau ze zitten voor elke taal. Het ETP geeft nadien suggesties om de taalbeheersing te verbeteren. Het bestaat uit drie delen: taalpaspoort (behaalde niveau in de verschillende talen), taalbiografie (ervaringen met het leren van talen) en dossier (voorbeelden van eigen werk). Het gebruik van het ETP is niet verplicht, de keuze ligt bij de docent.

(23)

22 Uit een onderzoek van Vinck (2008) naar het gebruik van het Europees Taalportfolio in 20 Belgische ondernemingen blijkt echter dat het ETP niet veel succes heeft. Er werd vastgesteld dat het ETP niet gekend is onder de ondernemingen en dat ze hun eigen beoordelingsmethodes moeten gebruiken. 50% geeft ook aan dat ze het ETP niet willen gebruiken en dit om verschillende redenen. De voornaamste reden is dat ondernemingen geen methode zoeken om taalvaardigheden te beoordelen, juist omdat technische vaardigheden belangrijker worden gevonden. Wat wel interessant is aan het portfolio is het Talenpaspoort omdat dat gebruik maakt van de ERK-schalen.

2.3.10.5 Invloed op het ERK van belanghebbende partijen

Little (2007) vindt dat examencommissies en taaltestagentschappen een te grote invloed kunnen uitoefenen op het toekomstig gebruik van het ERK.

2.3.11. De toekomst van het ERK

Van 27 tot 29 mei 2013 vond het congres ‘Language Testing in Europe: Time for a New Framework?’ plaats. Tijdens dit congres werd het ERK uitgebreid besproken in termen van taaltoetsing. Er werd gedebatteerd over de volgende topics:

 In hoe ver kunnen/moeten de niveaubeschrijvingen concreter gemaakt worden voor woordenschat en grammatica?

 Hoe kunnen we garanderen dat onze testen de juiste ERK-niveaus meten?

 Wat is het doel van onze testen en welke beslissingen moeten we hierbij nemen?

 Hoe linken we onze testen aan het ERK? Hoe praktisch en operationeel is het ERK voor concrete testsituaties?

Uit de bevindingen is gebleken dat de deelnemers zich ervan bewust zijn dat het ERK zowel positieve als negatieve punten heeft. Er wordt niet gepleit voor een nieuw raamwerk, maar wel voor een concretere versie van het bestaande. Zo erkent Devaux (2013) dat het ERK een handig werk is omdat het gemeenschappelijke concepten bevat die kunnen gebruikt worden in een meertalige omgeving, maar hij voegt hier wel aan toe dat het ERK geen zelfstandig, kant-en-klaar werk is. Volgens Hulstijn (2013) is de grootste bedreiging van het ERK de mogelijkheid tot verschillende interpretaties van de niveaus, wat leidt tot ongewenste verschillen in evaluatiepraktijken binnenin en tussen talen. Om deze bedreiging tegen te gaan, stelt hij voor om ‘het bereik van de woordenschat’ extra te definiëren door meer

(24)

23 woordenschat toe te voegen, voorts suggereert hij dat woordenschattesten deel zouden uitmaken van taalvaardigheidsexamens.

Een andere oplossing wordt aangeboden door Knight (2013), die een project heeft opgestart om de descriptoren voor de referentieniveaus Engels voor woordenschat en grammatica concreter te maken. Het gaat hier om een aanvulling van het ERK en geen vervanging. De descriptoren geven aan wat taalleerders kennen en kunnen op elk ERK-niveau. De databank voor woordenschat bevat woorden, zinnen, werkwoorden en uitdrukkingen, maar ook de manier waarop deze worden gebruikt en hun verschillende betekenissen. De databank voor grammatica bevat informatie over de taalstructuren die taalleerders kunnen gebruiken per niveau. Ook hier worden de verschillende toepassingen en betekenissen beschreven. Dit project bestaat tot hier toe enkel voor Engels. Ideaal zou zijn dat er zulke databanken worden aangemaakt voor de verschillende Europese talen.

2.3.12 Conclusie kritiek ERK

We stellen vast dat het grootste punt van kritiek de onvoldoende empirische basis is. Verder is een van de doelen van het Europees Referentiekader het harmoniseren van beoordeling en certificering van het vreemdetalenonderwijs in de lidstaten. Nu is de vraag of het ERK daar wel in geslaagd is. Om een taaloverschrijdend raamwerk te zijn, konden de ERK-auteurs niet taalspecifiek in detail treden maar dat maakt het nu net moeilijk om het ERK toe te passen. Het is ook gebleken dat culturele verschillen blijven heersen, al is het dan in het domein van de evaluatie. Na al deze negatieve punten is uit het congres ‘Language Testing in Europe: Time for a New Framework?’ toch gebleken dat het ERK nuttig is, maar dat bijkomend onderzoek noodzakelijk is om het Referentiekader gebruiksvriendelijker te maken. Mogelijke oplossingen hiervoor worden gegeven door Hulstijn (2013) en Knight (2013).

2.4. Dialang

Dialang is een online computerprogramma dat je gratis kan downloaden en waarmee je het taalniveau van een persoon kan testen. Het werd gefinancierd door de Europese Commissie onder Socrates/LINGUA (Action D) en door 25 andere Europese instellingen, voornamelijk universiteiten. Het programma baseerde zich op het Europees Referentiekader waarvan het de taalniveaus overnam. De ERK-niveaus beginnen met A1 (het laagste niveau) en gaan tot C2 (het hoogste niveau). Hiermee willen de makers van het programma een systeem voorstellen

(25)

24 dat geldig en betrouwbaar is en het mogelijk maakt alle Europese talen met elkaar te vergelijken (Puig Soler, z.j.).

Dialang is een diagnostische test en biedt geen certificaat achteraf (Alderson & Huhta, 2005). Het programma bevat 5 testen (luisteren, lezen, schrijven, taalstructuren en woordenschat) die je kunt maken in 14 Europese talen: Deens, Nederlands, Engels, Fins, Frans, Duits, Grieks, Italiaans, Spaans, Portugees, Zweeds, Iers, IJslands en Noorweegs. De verschillende testen kunnen op drie niveaus worden afgelegd namelijk ‘gemakkelijk’ wat staat voor A1-A2, ‘gemiddeld’ wat staat voor B1-B2 en ‘moeilijk’ wat staat voor C1-C2.

2.4.1. Doel Dialang

Het doel van deze diagnostische test is taalstudenten, zowel jongeren als volwassenen, te helpen achterhalen wat hun sterke en zwakke punten zijn en ze zo helpen hun kennis te verbeteren (Zhang & Thompson, 2004). Na elke toets krijgt de gebruiker een score uitgedrukt in een van de schalen van het ERK, van A1 tot C2, en een beschrijving van zijn sterke en zwakke punten via feedback.

2.4.2. Gebaseerd op het ERK

De meeste uitspraken voor zelfevaluatie in Dialang zijn gebaseerd op de Engelse versie van het Europees Referentiekader. “In dit opzicht is DIALANG een rechtstreekse toepassing van het referentiekader voor beoordelingsdoeleinden” (Nederlandse Taalunie, 2008, p. 202). In 1998 ging een Dialang-werkgroep voor zelfevaluatie aan de slag om alle uitspraken in het ERK te onderzoeken en enkel de meest heldere, concrete en simpele uitspraken te selecteren. De uitspraken hadden betrekking op de domeinen: lezen, luisteren, schrijven en spreken. De uitspraken voor spreken werden echter achterwege gelaten in de verdere ontwikkeling van Dialang, aangezien het systeem geen testen biedt in dit domein. De Nederlandse Taalunie (2008) bemerkt dat er enkele aanpassingen zijn gedaan aan de uitspraken om ze beter te laten passen in de context van de zelfevaluatie. Zo werd de formulering veranderd van ‘Kan…’ naar ‘Ik kan…’ omdat het zo beter aangeeft dat de beoordeling door de leerder zelf moet gebeuren en niet door de docent (zie Figuur 5). Andere uitspraken werden gesimplificeerd en adequater gemaakt voor het doelpubliek. Indien het ERK onvoldoende materiaal bevatte voor de basis, werden er ook nieuwe uitspraken ontwikkeld. Na deze aanpassingen werden de uitspraken gecontroleerd door dr. Brian North samen met een groep van vier taaltoetsen onderwijsdeskundigen.

(26)

25 CEFR

(1) Can understand short simpel personal letters.

(2) Can understand enough to manage simple, routine exchanges without undue effort.

DIALANG:

(1) I can understand short simple personal letters.

(2) I can understand enough to manage simple, routine exchanges without too much effort.

Figuur 5: ontwikkeling Dialang-uitspraken voor zelfevaluatie

2.4.2.1. Meertalig programma

“Omdat Dialang een meertalig systeem is, moesten de uitspraken voor zelfevaluatie vervolgens uit het Engels worden vertaald in de overige dertien talen” (Nederlandse Taalunie, 2008, p. 202). Er werd een procedure opgesteld waaraan de vertalers zich moesten houden. De richtlijnen voor vertaling en onderhandeling concentreerden zich op het belangrijkste kwaliteitscriterium, namelijk de begrijpelijkheid voor de taalleerders. Voor elke taal vertaalden twee of drie deskundigen de uitspraken in hun eigen taal, onafhankelijk van elkaar. Nadien kwamen ze bij elkaar om eventuele verschillen te bespreken en tot een overeenkomst te komen over de formulering. De kwaliteit van de vertalingen werd ook nog eens gecontroleerd door de werkgroep voor zelfevaluatie.

2.4.2.2. Kalibratie van de uitspraken voor zelfevaluatie

Nederlandse taalunie (2008) geeft aan dat er tot nu toe nog maar één kalibratiestudie is uitgevoerd met de uitspraken over zelfevaluatie. “Kalibratie is een procedure waarmee op statistische wijze de moeilijkheid van onderdelen, uitspraken en dergelijke wordt vastgesteld en daarvoor een schaal wordt geconstrueerd” (p. 203). De uitspraken werden in het Zweeds of het Engels voorgelegd aan 304 respondenten. Uit de analyse bleek dat “meer dan 90% van de uitspraken kon worden geschaald” (p. 203), m.a.w. dat zij geschikt waren voor het toegepaste statistische model. De drie zelfevaluatieschalen (lezen, luisteren en schrijven) waren zeer homogeen. Dit bleek uit de hoge betrouwbaarheidsindices (Cronbach’s alpha) .91, .93 en .94 respectievelijk. De Nederlandse Taalunie gaat ervan uit dat de uitspraken voor zelfevaluatie in de verschillende talen grotendeels gelijk zijn dankzij de zorgvuldige vertaalprocedure.

(27)

26 Dialang baseert zich op de ERK-schalen niet enkel voor de zelfevaluatie, maar ook voor de toetsscore (beknopte versie) en voor feedback en advies (uitgebreidere versie). De toetsscore is een score op een van de schalen van het Referentiekader en gaat van A1 tot C2. Verder wordt ook de betekenis van die score toegelicht. De schalen zijn “gevalideerd door 12 deskundige beoordelaars die elke beschrijving hebben toegewezen aan één van de zes niveaus” (Nederlandse Taalunie, 2008, p. 203). Zoals eerder besproken, is Dialang een diagnostisch systeem en heeft het als doel zijn gebruikers te verschaffen van informatie die hen zal helpen zichzelf te verbeteren. Vandaar de functies feedback en advies die een gedetailleerdere beschrijving geven van wat leerders op een bepaald niveau zouden moeten kunnen. De leerders krijgen ook de mogelijkheid om hun eigen niveau te vergelijken met het niveau er juist boven of onder.

2.4.2.3. Ontwikkeling van de testitems

De ontwikkeling van de testitems gebeurde door 14 ‘assessment development teams’, één per taal, dat bestond uit ervaren taaldocenten en gespecialiseerde testontwikkelaars. Elk team bevatte tussen drie en tien leden. In totaal, werden er meer dan 30.000 items geproduceerd door de schrijvers. Tijdens die eerste fase werden ook alle uitspraken voor zelfevaluatie geselecteerd uit het ERK en vertaald in de 14 talen, en werden de meeste woordenschattesten geproduceerd. Nadien werd er een pilootproject opgestart voor alle talen en werd deze proefgedraaid. Aan het project deden 5154 personen mee, voornamelijk tussen 18 en 25 jaar. De jongeren uit deze leeftijdscategorie worden door de Europese Commissie beschouwd als het doelpubliek van Dialang. Er werden voldoende data verzameld om een empirisch onderbouwde test te genereren voor Engels, Frans, Duits, Spaans en Fins. Vooraleer de testpersonen aan de test konden beginnen, moesten ze een enquête invullen. Engels omvatte met 42% het grootste aandeel van de populatie. Dit wil dus zeggen dat er meer testen waren voor deze taal, maar toch verschilden de resultaten Engels niet significant van de andere talen. Vervolgens werden de resultaten van het project geanalyseerd en onbetrouwbare items werden geschrapt. (Alderson & Huhta, 2005)

Volgens Alderson en Huhta (2005) bestond de standaardisatieprocedure uit twee fasen. In de eerste fase evalueerden experts elk testitem. Zij moesten aangeven of een taalleerder op een bepaald ERK-niveau in staat was om het item correct te beantwoorden. Om deze beoordeling op de juiste manier te laten gebeuren, hebben alle experts een training gevolgd in het interpreteren van het ERK. De experts moesten voor elk item de volgende vraag

(28)

27 beantwoorden: “Do you agree (yes/no) that a person with language proficiency at level Z should be able to answer the following item correctly?” (p. 315) Omdat deze procedure nogal uitputtend was, werd de tweede fase vereenvoudigd. Vijf tot tien beoordelaars stelden per item vast op welk niveau het zich situeerde. Deze handeling werd nog eens herhaald om de inter- en intrabeoordelaarsbetrouwbaarheid te garanderen. Nadien werden de grensscores bepaald voor de verschillende niveaus via de Basket procedure.

2.4.2.4. Grensscores bepalen

Kaftandjieva (2010) stelt vast dat methodes om grensscores te bepalen vaak gebruikt worden in testsituaties, terwijl ze nog niet uitgebreid onderzocht zijn en hun betrouwbaarheid nog niet is aangetoond. Dit vormt een probleem aangezien de interpretatie van de testscore direct afhankelijk is van de vastgelegde grensscores. Het feit dat er meer dan 60 methodes bestaan om grensscores te bepalen, maakt het ook niet gemakkelijker om de juiste methode te kiezen voor een bepaalde situatie. Kaftandjieva voert daarom onderzoek naar de toepasbaarheid en interne validiteit van zes methodes om grensscores te bepalen. Ze beschrijft niet alleen de karakteristieken van elke methode maar somt ook de voor- en nadelen op. De nadelen worden besproken in paragraaf 2.5.2. Voor Dialang werd gebruik gemaakt van de Basket procedure om grensscores vast te stellen. De procedure wordt omschreven door Noijens en Kuijper (2006):

A judge is asked to put each item into a labelled basket corresponding to the minimum CEFR-level that is needed to carry out the task in the item. … If an item is placed in basket B1, this means that according to the judge, a person at level B1 should be able to carry out the task correctly and by implication mastery is assumed at all higher levels (persons at levels B2 and higher). It cannot be expected, however, that a person at level A2 (or lower) will be able to carry out the task correctly. (Noijons & Kuijper, 2006, p. 37)

Kaftandjieva (2010) vermeldt dat bij deze methode elke grensscore gelijk is aan het totale aantal items die, volgens een beoordelaar, correct beantwoord kunnen worden op alle niveaus lager dan de respectievelijke grensscore. Indien de frequentiedistributie van de items over de verscheidene competentieniveaus voor verschillende beoordelaars gelijk is, zullen ook de grensscores gelijk zijn. Om een bepaald niveau te halen, moet de gebruiker niet alleen alle items behorend tot de lagere niveaus correct beantwoorden, maar ook minstens één item dat behoort tot niveau X of een niveau hoger dan X. Dit betekent concreet dat de gebruiker het

(29)

28 niveau B1 behaalt als hij 10 items correct beantwoord heeft (niveau A2 = 9; +1). Zodra de gebruiker alle items uit A2 en B1 plus één item uit B2 correct beantwoordt, behaalt hij het niveau B2. Hier geldt wel dat het aantal items van de voorgaande niveaus niet gelijk mag zijn aan nul of aan het maximum aantal items. Dit heeft als gevolg dat de grensscores A1/A2 en C1/C2 niet bepaald kunnen worden. A1 en C2 worden dus beschouwd als lege categorieën, zoals geïllustreerd in Figuur 6. Ook Huhta en McLaughin (2004) onderzochten de grensscores die werden bepaald bij Dialang. Uit Figuur 7 kunnen we ook afleiden dat er geen grensscore bepaald is voor niveau A1 en niveau C2. In 2.5.2. wordt dit punt van kritiek verder besproken.

Figuur 6: Basket procedure (Kaftandjieva, 2010, p. 61)

Figuur 7: de grensscores voor Dialang (Huhta & McLaughin, 2004)

Kaftandjieva (2010) geeft aan dat de Basket procedure verschillende voordelen heeft.

 Ten eerste vereist de toepassing van de methode minder tijd dankzij de enkele beoordelingsronde. Samen met zijn eenvoud en gebruiksvriendelijkheid vormt dit een

(30)

29 interessante methode voor situaties waar middelen en technische expertise beperkt zijn.

 Ten tweede vereist de Basket procedure geen speciale statistische methodes of software, wat het interessant maakt voor interne beoordeling en niet-gestandaardiseerde testen van docenten.

 Ten derde biedt de procedure een hele reeks mogelijkheden aangezien het kan gebruikt worden in dichotome testitems, met twee categorieën, en polytome testitems, met meer dan twee categorieën.

 Een vierde voordeel is de duidelijke interpretatie van de resultaten zodat deze kunnen beschreven worden in klare taal, begrijpbaar voor een breed publiek.

 Een laatste voordeel is het feit dat de grensscores bepaald kunnen worden vóór de uitvoering van de test omdat men daarvoor enkel de beoordeling nodig heeft. Dit kan echter ook beschouwd worden als een punt van kritiek omdat de procedure zich niet houdt aan een belangrijk advies voor standaardisatie (zie 2.5.2).

Huhta (2010) geeft aan dat de bepaalde grensscores niet voor elke taal gelijk zijn. Voor het niveau B1 voor Engels ‘lezen’ kan de grensscore 45 zijn (van 0-100) maar voor het Spaans misschien 56. De reden voor deze verschillende grensscores is dat elke taal zijn eigen beoordelaars had die de grensscores bepaalden.

Naast voordelen bestaan er ook enkele belangrijke nadelen die de validiteit van de hele procedure in vraag stellen en daarmee ook de validiteit en de geschiktheid van de grensscores. Deze nadelen worden uitgebreid besproken in 2.5.2.

2.4.3. Werking Dialang

Eerst kiest de gebruiker de taal en de vaardigheid waarvoor hij een test wil afleggen. Hij kan ook de taal kiezen waarin hij de instructies wil lezen. Dit mag een andere taal zijn dan de taal van de test zelf. Nadien krijgt hij de mogelijkheid om een plaatsingstest (VSPT – Vocabulary Size Placement Test) te maken, die inschat welk taalvaardigheidsniveau de gebruiker beheerst (Baglantzi, 2012). De plaatsingstest werd ontworpen door Paul Meara en de item-schrijvers (Alderson & Huhta, 2005.) Deze test bestaat uit 75 werkwoorden, waarvan er 25 onbestaand zijn. Het is aan de gebruiker om aan te duiden welke werkwoorden bestaand zijn en welke onbestaand. Het doel van de plaatsingstest is de gebruiker een taalvaardigheidstest aan te bieden op maat van zijn niveau. Aan de hand van de resultaten kan de gebruiker in een van de drie verschillende categorieën uitkomen: gemakkelijk, gemiddeld en moeilijk (Zhang &

(31)

30 Thompson, 2004). De gebruiker is niet verplicht deze test in te vullen, al is het hem wel aangeraden. Het gebruik van de plaatsingstest beïnvloedt evenmin het uiteindelijke resultaat. Indien de gebruiker de test overslaat, krijgt hij automatisch testen op middelmatig niveau. (Baglantzi, 2012) Volgens Alderson en Huhta (2005) werd de plaatsingstest geïntroduceerd omdat er onzekerheid heerste over de geschiktheid van de zelfevaluatie als schatter van het taalvaardigheidsniveau van de gebruiker. Ontwikkelaars opteerden voor een woordenschattest omdat kennis van woordenschat nodig is voor lezen, luisteren en schrijven. Deze test laat ook toe op korte tijd informatie te verschaffen over de taalvaardigheid van de gebruiker. Na de plaatsingstest volgt de zelfbeoordeling, die gebruik maakt van de Ik kan-uitspraken van het ERK. De gebruikers krijgen 18 uitspraken en moeten aanduiden wat voor hen van toepassing is. De uitspraken verschijnen in de moedertaal van de gebruiker zodat deze alles begrijpt. De zelfbeoordeling is beschikbaar voor lezen, schrijven en luisteren en is ook vrijblijvend. Eens de twee testen zijn ingevuld of overgeslagen, kan de gebruiker een van de vijf taalvaardigheidstoetsen kiezen die elk 30 vragen bevatten. Alderson en Huhta (2005) en Baglantzi (2012) geven aan dat er vier antwoordmogelijkheden zijn: een meerkeuzevraag, een uitklapbaar keuzemenu, een invulvraag of een korte antwoordvraag. Elke vraag moet beantwoord worden om naar de volgende vraag te kunnen overgaan. Eens alle vragen zijn beantwoord, is het resultaat, uitgedrukt in een ERK-niveau, te zien. Dialang geeft geen gemiddelde voor alle vaardigheden samen. Corda (2008) stelt echter dat volgens de principes van het ERK, het niveau van de student gelijk is aan het laagste niveau dat de student behaald op alle onderdelen afzonderlijk.

2.4.4. Voordelen

Takala (2012) refereert naar Dialang als een pionierswerk. Het systeem is taaloverschrijdend aangezien het testen bevat in 14 verschillende Europese talen. Er werd gekozen om de resultaten te koppelen aan de ERK-schalen omdat zij een vergelijking tussen de verschillende talen mogelijk maken, al werd deze doelstelling in het vorige hoofdstuk in vraag gesteld. Bovendien is Dialang gratis te downloaden van het internet wat het voor veel mensen toegankelijk maakt (Van Onna & Jansen, 2008).

CNAVT (2009) bestempelt diagnostische toetsen als ‘low stake toetsen’ m.a.w. toetsen waaraan geen normering of selectie gekoppeld is. Dat zorgt voor een lagere stressfactor bij de leerlingen en daarom zullen ze ook eerlijker zijn over hun eigen sterktes en zwaktes. Docenten kunnen hun leerlingen ook eerst een zelfbeoordeling laten invullen om die achteraf

(32)

31 te vergelijken met de diagnostische toets. Deze vergelijking zet de leerlingen aan om na te denken over hun eigen taalverwervingsproces. Verder ontwikkelt het een bewustzijn van hun eigen mogelijkheden en grenzen. Een hoger bewustzijn leidt dan weer tot een versnelling van het taalverwervingsproces en tot een verhoging van de motivatie. Eerder onderzoek in de cognitieve psychologie van Flower en Hayes (1977, geciteerd in Takala, 2012) heeft aangetoond dat effectief leren bestaat uit een aantal processen waaronder de vaardigheid om te plannen en zichzelf te beoordelen. Een effectieve leerder kan plannen hoe hij/zij een taak zal uitvoeren, het proces volgen en beoordelen en eventueel het resultaat bewerken.

Een ander aspect dat Dialang zo innovatief maakt is de feedback op zes verschillende manieren. Na de plaatsingstest krijgen de gebruikers een score tussen 1 en 1000 met een korte beschrijving van de betekenis. Deze beschrijving is echter niet gebaseerd op het ERK (Alderson & Huhta, 2005). Tijdens het maken van een van de taalvaardigheidstesten kan de gebruiker opteren voor directe feedback. Nadat de gebruiker heeft geantwoord, verschijnt er een pop-up waarin de gebruiker kan zien of hij het juiste heeft geantwoord of niet. Indien hij fout had geantwoord, verschijnt er ook het correcte antwoord. Na alle testen kan de gebruiker zijn ERK-niveau bekijken onder ‘uw niveau’. Op dat moment is er ook nog eens de mogelijkheid om de antwoorden te controleren onder ‘antwoorden nakijken’. Als de gebruiker op het nummer van het foute antwoord klikt, krijgt hij, net zoals bij de directe feedback, het juiste antwoord te zien. Een vijfde vorm van feedback is de optie ‘feedback zelfbeoordeling’ waarbij de gebruiker kan nagaan of de zelfbeoordeling overeenkomt met het behaalde niveau. De laatste vorm van feedback is er via ‘advies’ waarbij Dialang het huidige niveau beschrijft en aanbevelingen geeft om een hoger niveau te bereiken. De mogelijkheid om de feedback in je moedertaal te kunnen lezen, maakt de optie nog interessanter. Alderson en Huhta (2005) vermelden dat de verschillende manieren van feedback mogelijk zijn omdat de Dialang-testen op de computer worden afgelegd.

Uit een onderzoek van Yang (2003, geciteerd in Baglantzi, 2012) en Floropoulou (2002, geciteerd in Baglantzi, 2012) is gebleken dat de meest bruikbare vormen van feedback de correcte antwoorden en het advies zijn. Daarnaast heeft het onderzoek van Yang aangetoond dat de verklarende feedback het leerproces vergemakkelijkt, zelfs meer dan een score dat zou doen. Uit het onderzoek van Baglantzi is eveneens gebleken dat de kennis over de fouten en daarnaast de score, de meest bruikbare vormen van feedback waren.

(33)

32 Huhta (2010) vermeldt dat Dialang een belangrijke impact heeft gehad op onderzoek naar taaltoetsing. Vóór Dialang waren systematische werken over het diagnostisch testen en beoordelen van de vaardigheid van de tweede en vreemde taal vrij zeldzaam. Dankzij de ontwikkeling van Dialang is de taaltestgemeenschap zich ervan bewust geworden hoe weinig er geweten is over het diagnosticeren van vreemde talen. Dialang speelde ook een rol in de bevordering van de wetenschap rond taalonderwijs. Het is gebruikt als een onderzoeksinstrument in verschillende studies, waarin onderzoekers nood hadden aan een betrouwbare en valide manier om informatie te verzamelen over de taalvaardigheid van leerlingen.

2.5. Kritiek op Dialang

Het programma is uniek in zijn soort en kreeg veel lof, maar elke medaille heeft zijn keerzijde. Er wordt kritiek geuit op verschillende aspecten van het programma en door verschillende experten. Hun commentaren worden weergegeven in de volgende paragrafen.

2.5.1. Weinig empirisch onderzoek

Een eerste punt van kritiek is dat er weinig empirisch onderzoek is gedaan naar de betrouwbaarheid en geldigheid4 van de testen in Dialang waardoor we niet met zekerheid kunnen bewijzen of de testen wel voldoen aan bovenvermelde twee criteria. (Zhang & Thompson, 2004)

2.5.2. Kritiek op de bepaling van de grensscores

Kaftandjieva (2010) uit kritiek op de manier waarop de Dialang-grensscores zijn bepaald. Deze procedure wordt de Basket procedure genoemd en is gebaseerd op de intuïtie van experten en niet op empirische data. De procedure houdt geen rekening met de moeilijkheidsgraad van de items in de praktijk. Vele methodes hebben te kampen met een of andere graad van inconsistentie tussen oordeel en empirische gegevens, maar de Basket procedure negeert de inbreng van empirisch onderzoek compleet. Kaftandjieva waarschuwt voor deze tekortkoming aangezien de populariteit van de methode kan leiden tot een significant aantal ongeldige beslissingen in verband met testen.

4_{De kwaliteit van een onderzoek wordt bepaald door de betrouwbaarheid en de geldigheid of validiteit. Een}

onderzoek is betrouwbaar als het niet door toevalsfouten werd verstoord. Dit betekent dat het onderzoek hetzelfde resultaat zou moeten bieden bij herhaling ervan. Geldigheid heeft betrekking op de vraag of het onderzoek door systematische fouten werd verstoord. Hierbij is de vraag of je meet wat je wilt meten.

(34)

33 Een ander punt van kritiek is dat de grensscores de bovengrens van de testscore voor het competentieniveau, dat voorafgaat aan de respectievelijke grensscore, bepalen. Dit wil zeggen dat een gebruiker het maximum aantal items correct kan beantwoorden en zich toch nog kan bevinden op het niveau onder de grensscore. De gebruiker kan volgens de Basket procedure de volgende competentieniveaus behalen:

(Kaftandjieva, 2010, p. 62)

In deze classificatie zien we dat het laagste en het hoogste competentieniveau (A1 en C2) leeg zijn. Deze methode kan geen grensscores bepalen voor deze twee niveaus.

Verder vermeldt Kaftandjieva (2010) dat twee beoordelingen kunnen leiden tot dezelfde grensscore, ook al is de ene beoordelaar consistent en de andere niet. Wanneer een beoordelaar de items zou rangschikken volgens de omgekeerde volgorde van de moeilijkheidsgraad, zouden de grensscores niet verschillen van de andere zolang de frequentiedistributie gelijk blijft. De grensscores zullen m.a.w. enkel van elkaar verschillen indien de frequentiedistributie verschilt. In de Basket procedure blijkt de moeilijkheidsgraad van de items dus geen invloed te hebben op de grensscores. Kaftandjieva vindt dit onlogisch omdat dit niet strookt met wat uit de praktijk gebleken is. Hierdoor wordt zowel het gebruik van de beoordelingen als de bepaling van de grensscores in vraag gesteld.

Een ander belangrijk nadeel van de Basket procedure is dat die kan leiden tot een verkeerde evaluatie van de grensscores, vooral op het einde van een interval waar de ruwe testscores variëren. Dit fenomeen staat bekend als ‘distortion of judgements’ of ‘vertekening van de beoordeling’. De mogelijkheid tot vertekening komt voort uit de formulering en de statistische interpretatie van de beoordelingstaak. De beoordelaar moet definiëren wat het minimumniveau is om alle items correct te beantwoorden. Statistisch gezien, zal de geteste met het goede niveau een hogere kans hebben juist te antwoorden dan fout. De kans op een juist antwoord zal dus hoger zijn dan 50%. Dit wil zeggen dat beoordelaars aan een zeker niveau alle items moeten linken waarbij meer dan 50% het juiste antwoord kan geven, terwijl het slaagpercentage van de voorgaande niveaus minder dan 50% bevat.