Ik zie, ik zie wat jij niet ziet, maar wel hoort

(1)

Ik zie, ik zie wat jij niet ziet,

maar wel hoort.

Een onderzoek naar het verschil tussen luistervragen met en zonder beelden.

IRENE MARINISSEN

11123397

Masterscriptie

Nederlands als tweede taal en meertaligheid

Universiteit van Amsterdam

Begeleider: dhr. dr. S.J. (Sible) Andringa Tweede lezer: prof. dr. F. (Folkert) Kuiken

Juni 2017 Nijmegen

(2)

2

Voorwoord

Deze scriptie had nooit kunnen worden zoals het nu is zonder de hulp van een aantal mensen. Als eerste wil ik Petra Roël bedanken voor het helpen vinden van een goed en interessant onderwerp voor mijn scriptie. Daarnaast wil ik Radboud In’to Languages bedanken voor de mogelijkheden om mijn toetsen af te nemen bij vier dagcursussen. Cursisten van deze dagcursussen ben ik vervolgens ook zeer dankbaar voor hun medewerking door mijn toetsen te maken. Zonder hun bijdrage had ik geen resultaten gehad. Verder wil ik Anne van Sluijs, Floor Arts, Kees Marinissen en Merijn Aerns bedanken voor hun bijdrage gedurende het proces. Hier en daar wat feedback en hulp van jullie had ik af en toe nodig en daar was ik heel blij mee. Als laatste, maar vooral niet in het minst, wil ik Sible Andringa bedanken voor zijn begeleiding en feedback gedurende mijn hele scriptieproces. Het was fijn dat Sible mij zo vrij heeft gelaten en dat ik hem kon mailen wanneer ik dat wilde. Daarnaast was hij wel kritisch op de momenten dat het nodig was en vond hij het geen probleem dat ik mijn scriptie met een strakke planning heb geschreven. Ik heb genoten van het schrijfproces en ik hoop dat jullie ook zo genieten tijdens het lezen van mijn masterscriptie.

Irene Marinissen Nijmegen, juni 2017

(3)

3

Inhoudsopgave

0. Samenvatting ... 4 1. Inleiding ... 5 2. Theoretische achtergrond ... 7 2.1 Luisteren ... 7 2.1.1 Luisterproblemen in T2 ... 8 2.1.2 Visuele informatie ... 9

2.1.3 Luisteren in het (N)T2-onderwijs ... 10

2.2 Luistertoetsen ... 11

2.2.1 Ontwikkeling van luistertoetsen ... 12

2.2.2 Video’s in T2-luistertoetsen ... 14 2.3 Het onderzoek ... 17 3. Methode ... 19 3.1 Deelnemers ... 19 3.2 Materialen ... 20 3.3 Procedure ... 22 3.4 Analyse ... 23 4. Resultaten ... 23

4.1 Betrouwbaarheid van de toets ... 23

4.2 Audio versus video ... 24

4.3 Vragenlijst ... 25

5. Discussie ... 26

5.1 Kritiek op het onderzoek ... 27

5.1.1 Positieve aspecten ... 27 5.1.2 Negatieve aspecten ... 28 5.2 Vervolgonderzoek ... 30 6. Conclusie ... 32 Referenties ... 32 Bijlagen ... 36

Bijlage A – Europees Referentiekader luisteren ... 36

Bijlage B – Bron en tekst van de videofragmenten ... 37

Bijlage C – Luistertoets versie 1 ... 43

Bijlage D – Luistertoets versie 2 ... 49

Bijlage E – Antwoordblad ... 55

(4)

4

0. Samenvatting

In dit onderzoek is er gekeken naar het verschil tussen resultaten van een vraag in een luistertoets met beelden en dezelfde vraag zonder beelden. Dit onderzoek is gedaan bij leerders van het Nederlands als Tweede Taal (NT2) die aan het eind van hun halfgevorderde cursus zijn bij Radboud In’to Languages in Nijmegen. Als ze deze cursus afronden, zouden ze ongeveer op taalniveau B1 moeten zitten. Er zijn twee versies van een luistertoets gemaakt met 15 vragen. Alle vragen komen overeen, alleen de ene versie heeft de eerste helft van de vragen als audiovragen en de tweede helft als videovragen, en de andere versie heeft het precies andersom. De toetsen zijn afgenomen vlak voordat de NT2-leerders hun cursus afrondden. De resultaten van de toetsen laten zien dat het per vraag verschilt of het toevoegen van beelden een effect heeft op het begrip van luistervragen. Beelden toevoegen bij de ene luistervraag voegen niks toe, maar zorgen ook niet voor problemen terwijl deze bij een andere vraag voor afleiding zorgen. De luistertoetsen waren echter niet heel betrouwbaar, waardoor de conclusies niet sterk zijn en er vervolgonderzoek nodig is.

(5)

5

1. Inleiding

Video’s zijn fragmenten met audio en beeld en zijn tegenwoordig niet meer weg te denken uit het dagelijks leven. Zowel de televisie als het internet zijn wereldwijd te gebruiken en maken

wereldwijde informatieoverdracht door middel van bijvoorbeeld televisiebeelden en internetvideo’s heel toegankelijk. Een opmerking als “Oh, heb jij dat ene filmpje ook gezien?” komt regelmatig voorbij en het wordt steeds hipper om zelf video’s te maken en zoveel mogelijk views te scoren op YouTube, Facebook of andere Social Media.

In het onderwijs wordt hierop ingespeeld: zo zoeken verschillende docenten regelmatig video’s op om te gebruiken als ondersteuning van hun lesmateriaal. Deze ontwikkeling is voor het onderwijs positief. Hughes (2007) zegt namelijk dat taalleerders om moeten kunnen gaan met taal van moedertaalsprekers en daarom moeten opdrachten en teksten zo authentiek en realistisch mogelijk zijn. Video’s van internet zijn vaak authentiek en zijn er in alle vormen en maten. Ze geven een realistisch beeld van de desbetreffende taal, ook al bevat de ene video spontanere spraak dan de andere.

In verschillende landen, ook in Nederland, is men bezig met het uitzoeken in hoeverre video’s ook in luistertoetsen gebruikt kunnen worden. Luistertoetsen bestonden eerst alleen uit

audiofragmenten en nu worden audiofragmenten steeds vaker afgewisseld met videofragmenten. Het toevoegen van videobeelden aan een luistertoets kan echter wel problemen opleveren. Een toets moet namelijk valide zijn, dus de toets moet dan ook echt toetsen wat er getoetst moet worden (Wagner 2006, Hughes 2007, Andringa 2015). De validiteit van een toets kan echter

beïnvloed worden door een bias. Bias kan optreden wanneer iemand een vraag in bijvoorbeeld een luistertoets kan beantwoorden zonder naar de tekst te luisteren (Andringa 2015). Het toevoegen van beeld aan een luistertoets zou dit effect kunnen hebben (Wagner 2006). Als er bijvoorbeeld een video is waarbij de spreker zegt dat hij naast de Toren van Pisa staat en de vraag in de toets is “Waar staat de spreker?”, dan kan deze vraag beantwoord worden door te kijken naar de video en niet per se door naar de spraak te luisteren.

Toch denken veel mensen en onderzoekers dat videobeelden wel een toevoeging zijn voor een luistertoets, doordat luistervragen beter gemaakt worden met beelden dan luistervragen zonder beelden (Parry and Meredith 1984, Shin 1998, Sueyoshi and Hardison 2005, Wagner 2010b, Cross 2011, Wagner 2013, Koster 2014, Pardo-Ballester 2016). Niet iedereen is het hier echter mee eens (Gruba 1993, Coniam 2001, Ockey 2007, Londe 2009, Suvorov 2009, Wagner 2010a, Suvorov 2011). In het huidige onderzoek wordt er dan ook onderzoek gedaan naar het verschil tussen luistervragen met en zonder beelden in luistertoetsen Nederlands voor anderstaligen om te kijken of er een verschil in resultaten te zien is.

(6)

6 In hoofdstuk 2 wordt er dieper op de theorie ingegaan als achtergrondinformatie voor dit onderzoek. In hoofdstuk 3 wordt de methode van het onderzoek besproken en de resultaten staan in hoofdstuk 4. De resultaten worden bediscussieerd in hoofdstuk 5 en daar wordt een conclusie uit getrokken in hoofdstuk 6.

(7)

7

2. Theoretische achtergrond

2.1 Luisteren

Luisteren is een vaardigheid die bestaat uit twee processen. Het eerste proces is het verstaan van de spraak en het tweede proces is het begrijpen van de boodschap van de spraak (Hosea 2015). Het verstaan gebeurt door het herkennen van klanken en woorden in een spraaksignaal. Het begrijpen gebeurt door het verstane signaal te interpreteren. De eerste stap voor een luisteraar is dus het verstaan van het spraaksignaal, want zonder de verstavaardigheid kan een luisteraar een boodschap niet begrijpen.

Het spraaksignaal is een akoestisch signaal. Dit signaal bestaat uit fonemen. Dit zijn

betekenisvolle klanken van een taal, die gecombineerd kunnen worden om zo woorden en zinnen te vormen (Buck 2001). Als fonemen gecombineerd worden, kunnen ze elkaar echter wel beïnvloeden. Het woord “zak’’ klinkt als /zαk/ terwijl de k in “zakdoek” (/zαgduk/) anders klinkt, namelijk als /g/ in plaats van als /k/ door de invloed van de d die erna komt. Dit heet co-articulatie.

De spraakinput bestaat dus uit foneemcombinaties en deze moeten dus herkend worden door de luisteraar. Hiervoor hoeft diegene niet per se elk woord of elke foneem te kunnen verstaan. Luisteraars zijn namelijk in staat om een volgend woord of foneem te voorspellen. Het kan dus zijn dat een luisteraar een zin al heeft verstaan voordat de spreker klaar is met spreken (Grosjean 1980, Buck 2001). Een woord kan voorspeld worden op basis van de context (Grosjean 1980, Buck 2001). Een voorbeeld hiervan is zin 1. Op basis van de context zijn woorden als train en truck zeer frequent gekozen om in te vullen op de open plaats in deze zin (Grosjean 1980).

1) ‘Stephen worked on a _______.’ (Grosjean 1980, pg. 278)

Een foneem kan daarnaast ook voorspeld worden. Fonemen voorspellen kan te maken hebben met co-articulatie. Zo kan een luisteraar na het horen van cap uit het Engelse woord captain al

voorspellen dat de lettergreep tain erop volgt (Grosjean 1980), doordat de foneem p in captain anders klinkt dan in bijvoorbeeld de woorden cap of capsize. Dit betekent wel dat een luisteraar goed moet luisteren naar wat er gezegd wordt en het begin van het spraaksignaal ook goed moet kunnen verstaan.

Als een luisteraar erin slaagt om de spraakinput te verstaan, is de volgende stap dus om te begrijpen van wat diegene heeft verstaan. Dit gebeurt met de hulp van de al aanwezige algemene taalkennis van een luisteraar (Buck 2001, Hosea 2015). Hier worden zowel de al geleerde

(8)

8 Deze kennis kan de luisteraar helpen om de input te verstaan. Een voorbeeld van de te gebruiken kennis is de betekenis van al eerder geïdentificeerde woorden. Als een luisteraar alle woorden van een zin al kent, is het makkelijker om het verstane spraaksignaal te begrijpen dan wanneer diegene slechts een paar woorden kent (Hosea 2015).

2.1.1 Luisterproblemen in T2

In het algemeen is luisteren een vaardigheid waar concentratie voor nodig is. Als iemand problemen heeft met luisteren, komt dit vaak doordat diegene afgeleid is, niet geïnteresseerd is of aan iets anders denkt (Buck 2001). Dit geldt voor zowel luisteraars in een eerste taal (T1) als luisteraars in een tweede taal (T2).

T2-leerders kunnen ook nog andere problemen hebben met het luisteren in de T2. Zo kunnen ze verschillende klanken in de T2 soms niet herkennen, omdat dit nieuwe klanken voor hen zijn (bijvoorbeeld de ui-klank in het Nederlands: dit is een klank die bijna niet in andere talen voorkomt) of ze horen verschillende klanken terwijl dit in de T2 dezelfde klank is (bijvoorbeeld de verschillende uitspraken van de r in het Nederlands: deze uitspraakverschillen zorgen niet voor

betekenisverschillen) (Hosea 2015). Dit komt door de invloed van de klanken in de T1 van de leerder. Als er in de T1 bepaalde klanken niet bestaan, zijn deze klanken moeilijker te verstaan in een T2 dan klanken die bestaan in zowel de T1 als de T2. Een ander luisterprobleem kan zijn dat een T2-leerder verschillende klanken in de T2 wel kent, maar niet in een uiting van een T2-spreker herkent doordat het anders klinkt dan de vorm van de klank die opgeslagen is. Daarnaast kan volgens Hosea (2015) niet elke T2-leerder alle woorden herkennen in een spraaksignaal. Als iemand zegt “Ik weet het niet” klinkt dit als /kweetətniet/. Dit klinkt als één woord waardoor het voor sommige leerders lastig is om alle woorden uit deze zin te halen en ze te herkennen.

Naast problemen in de klankherkenning kan de uitspraak van woorden ook voor een ander probleem zorgen. Als een T2-leerder bijvoorbeeld weet hoe een bepaald woord geschreven moet worden en dan de uitgesproken variant hoort, kan er een mismatch ontstaan doordat het

spraaksignaal niet overeenkomt met hoe het woord opgeslagen is in het hoofd van de leerder (Goh 2000). Dit kan gebeuren door co-articulatie, zoals met de woorden “zak” en “zakdoek”: een T2-leerder kan de woorden “zak’’ en “doek” kennen en kan dan denken dat dit klinkt als /zαkduk/ terwijl “zakdoek” in de werkelijkheid klinkt als /zαgduk/. Ook intonatie kan voor een mismatch zorgen. Zo kan iemand het woord “hostel” wel kennen, maar het zelf uitspreken en herkennen als “hosTEL” (dus met de klemtoon op “tel”), waardoor het niet herkent wordt als iemand het uitspreekt als “HOStel” (met de klemtoon op “hos”) (Goh 2000).

Naast het feit dat een T2-leerder moeite kan hebben met het verstaan van de T2, kan diegene ook begripsproblemen hebben. Als een uiting verstaan is, betekent dit niet dat de

(9)

9 boodschap ook begrepen is. Dit kan volgens Buck (2001) en Hosea (2015) te maken hebben met de minimale taalkennis van een leerder, de ontbrekende achtergrondkennis van een leerder of het moeilijk kunnen onderscheiden van wel en niet belangrijke informatie (bijvoorbeeld de uiting “eh” of “even denken” is qua informatie minder belangrijk dan een zin als “Kun je morgen afspreken?”).

2.1.2 Visuele informatie

In de praktijk kunnen docenten tijdens NT2-lessen inspringen op de luisterproblemen van hun cursisten door specifieke versta- of begripsvaardigheidsoefeningen te doen. In Kalsbeek (2015) en Hosea (2015) worden veel mogelijkheden in het NT2-onderwijs beschreven en een voorbeeld hiervan is het gebruik van video’s. Ze zeggen dat T2-leerders meer motivatie krijgen door beelden te zien tijdens het luisteren, dus door oefeningen te doen met video’s in plaats van alleen audiofragmenten. Dit komt doordat leerders in het dagelijks leven gewend zijn om beelden te zien als ze aan het luisteren zijn en al deze informatie daarom tegelijkertijd verwerken. Ze moeten niet alleen verbale informatie verwerken, maar ook non-verbale informatie, zoals mondbewegingen (Kellerman 1990) en gezichtsuitdrukkingen, en informatie om de spreker heen als die informatie er is (Baltova 1999, Guichon and McLornan 2008). De mondbewegingen kunnen informatie bevatten die de

luistervaardigheid ten goede komt (Kellerman 1990). Dit is het geval wanneer er alleen een spreker in beeld is, maar ook als er een spreker in beeld is met tekst-ondersteunende beelden. De informatie om de spreker heen is alleen het geval met tekst-ondersteunende beelden, dus de spreker wijst bijvoorbeeld naar een zichtbare auto, wanneer hij over een auto praat. De auto die dan zichtbaar is, is dan het tekst-ondersteunende beeld. Bij het communiceren in het algemeen zijn beide soorten visuele informatie vaak zeer van belang, zeker voor T2-leerders. Als zij bij het luisteren talige kennis van de T2 missen, kunnen ze die informatiekloof regelmatig vullen door visuele informatie te gebruiken (Buck 2001).

Visuele informatie kan echter ook voor problemen zorgen. Zo hebben McGurk and

MacDonald (1976) onderzoek gedaan naar het effect dat ontstaat wanneer er /ba/ gehoord wordt en /ga/ gezien wordt door lipbewegingen. De meeste proefpersonen hoorden vervolgens /da/ doordat dus auditieve en visuele informatie incongruent zijn en /da/ een soort middenweg is van /ba/ en /ga/. Dit wordt het McGurk effect genoemd. Toch neemt niet iedereen dit effect waar, want er was ook nog een aantal proefpersonen die de auditieve input /ba/ hoorde (McGurk and MacDonald 1976) en dus geen invloed hadden van de visuele informatie, al was dit wel de minderheid van alle proefpersonen. De visuele informatie had dus zeker een invloed op de auditieve input.

McGurk and MacDonald (1976) hebben deze invloed van visuele informatie gevonden bij T1-sprekers. Hirata and Kelly (2010) hebben gekeken naar de invloed van visuele informatie bij

(10)

T2-10 sprekers, namelijk bij zes Engelse moedertaalsprekers die het Japans leerden. Deze participanten kregen vier verschillende trainingen voor het leren van Japanse fonemen: alleen auditieve input, auditieve input en mondbewegingen als visuele input, auditieve input en handgebaren als visuele input, en auditieve input met zowel mondbewegingen als handgebaren als visuele input. Hirata and Kelly (2010) concludeerden dat het horen van fonemen en het zien van mondbewegingen ervoor zorgden dat fonemen beter waargenomen worden dan alleen het horen. Dit hebben Navarra and Soto-Faraco (2007) ook gevonden in hun onderzoek. Het zien van handgebaren heeft geen invloed op de waarnemingen van de fonemen (Hirata and Kelly 2010).

Het toevoegen van visuele informatie aan een auditieve input kan dus voor een andere waarneming zorgen bij zowel T1-luisteraars als T2-luisteraars dan een input met alleen geluid. De invloed van de visuele informatie hangt dan wel af van het al dan niet overeenkomen met de auditieve informatie. Als de visuele informatie niet overeenkomt, kan het voor een andere

waarneming zorgen (McGurk and MacDonald 1976) en als het wel overeenkomt, kan het voor een betere waarneming zorgen (Navarra and Soto-Faraco 2007, Hirata and Kelly 2010).

2.1.3 Luisteren in het (N)T2-onderwijs

In het T2-onderwijs worden er regelmatig video’s gebruikt in plaats van audiofragmenten om de luistervaardigheid van T2-leerders te verbeteren. Dan is er dus zowel een visuele als auditieve input. Dit komt echter de luistervaardigheid niet altijd ten goede. Het kan namelijk zorgen voor afleiding of voor begrip zonder dat er geluisterd zou worden naar de spraak (Hosea 2015). Dit is in lijn met Guichon and McLornan (2008) en Moreno and Mayer (1999). Zij zeggen dat videobeelden alleen een afleiding zijn wanneer de beelden niet direct in verband staan met de gesproken taal. Dan zijn de beelden in combinatie met de audio moeilijker te verwerken. Daarnaast kunnen beelden ook afwijken van de culturele verwachtingen van een T2-leerder waardoor deze problemen veroorzaken bij het luisteren in plaats van een aanvulling zijn op het begrip (Rubin 1995).

In hoeverre video’s gebruikt worden in het hedendaagse T2-onderwijs hangt af van de benaderingen die een bepaalde instelling hanteert en in hoeverre de docent video’s wil gebruiken bij het lesmateriaal. Binnen het NT2-onderwijs geldt dit ook. Zo heeft Koster (2014) een recente

ontwikkeling in het (N)T2-onderwijs onderzocht, namelijk de Dynamische, usage-based benadering

(DUB)(Verspoor and Hong 2013, Koster 2014, Kalsbeek 2015). Deze benadering focust zich op het aanbieden van frequente en betekenisvolle taalelementen. Woorden worden bijvoorbeeld in clusters geleerd met bijbehorende intonatie en deze clusters worden dan regelmatig herhaald zodat het ingeslepen wordt. Verspoor and Hong (2013) tonen aan dat DUB een goede invloed heeft op het

(11)

11 leren van een T2. Koster (2014) bevestigt deze invloed van DUB binnen het NT2-onderwijs. Zowel Hong & Verspoor als Koster hebben in hun onderzoek een film als input gebruikt. Koster (2014) heeft gemerkt dat het gebruiken van een Nederlandse film tijdens NT2-lessen de NT2-leerders motiveert. Motivatie is in het algemeen van belang bij het leren van een taal (Dörnyei 1994, Dörnyei 1998, Dörnyei and Skehan 2003, Koster 2014). Daarnaast is een film volgens haar een betekenisvolle en authentieke input, wat hoort bij DUB. Zo zegt ze “Een film kan veel meer authentieke input bieden in een klaslokaal dan een enkele docent ooit zal kunnen.”(Koster 2014, pg. 29). De Nederlandse film is in Koster’s onderzoek in fragmenten van enkele minuten gesplitst. Deze fragmenten werden met herhaling na elkaar gebruikt in de lessen. In alle fragmenten werden taalelementen in clusters impliciet aangeboden inclusief culturele en sociale aspecten door de beelden bij het geluid. Alle NT2-leerders scoorden hoger op de toetsen na de lessen met de DUB benadering en ze waren zeer tevreden met deze benadering.

2.2 Luistertoetsen

Video’s kunnen niet alleen gebruikt worden tijdens lessen als aanvulling of vervanging van het huidige lesmateriaal, maar ze kunnen ook gebruikt worden in luistertoetsen in plaats van of afgewisseld met audiofragmenten. Maar kan dat zomaar? Waar moet een luistertoets in de eerste plaats aan voldoen? En waarvoor dient een luistertoets?

Luistertoetsen kunnen afgenomen worden om te kijken op welk niveau de luistervaardigheid van de desbetreffende persoon zit (Buck 2001) volgens het Common European Framework of

Reference for Languages (CEFR) (Council 2001). Hierin staan de taalniveaus beschreven, die gelden

voor alle Europese talen. In Nederland is er naar aanleiding van het CEFR een Europees

Referentiekader (ERK) in het Nederlands opgesteld (Taalunie and van Europa 2008). In bijlage A staan de niveaubeschrijvingen voor het luisteren in het Nederlands beschreven. Deze niveaubeschrijvingen zijn nog redelijk globaal: hoe kan er dan een goede luistertoets gemaakt worden bij een specifiek taalniveau?

Naast het testen van iemands luistervaardigheidsniveau kunnen luistertoetsen ook

afgenomen worden aan het eind van cursussen om te kijken of iemand het luistereindniveau van de cursus wel behaald heeft (Buck 2001). Ook kunnen luistertoetsen gedurende een cursusreeks gegeven worden, zodat docenten een indicatie hebben van het luisterniveau van cursisten op dat moment. Als het niveau vervolgens te laag blijkt te zijn, zouden docenten kunnen besluiten meer aandacht te besteden aan de luistervaardigheid (Buck 2001, Andringa 2015).

Het toetsen van een luistervaardigheid kan op verschillende manieren. Zo zou de

(12)

12 met spreken (Andringa 2015). Dan zouden er vragen gesteld kunnen worden (wat een beroep doet op de luistervaardigheid) waarop de cursist mondeling moet antwoorden (wat een beroep doet op de spreekvaardigheid) (Buck 2001). Ook kan de luistervaardigheid afzonderlijk van andere

taalvaardigheden getoetst worden. Dan is er geen interactie aanwezig aangezien de toetsdeelnemer alleen hoeft te luisteren naar wat er gezegd wordt (Buck 2001). De deelnemer zou dan vragen kunnen beantwoorden op papier. Een luistertoets is een geschikte toets om meerkeuzevragen bij te maken (Hughes 2007). Hughes (2007) benadrukt wel dat als er gekozen wordt voor

meerkeuzevragen, er dan korte en eenvoudige antwoordopties gegeven moeten worden. Toetsdeelnemers houden alle antwoordmogelijkheden van een vraag in hun hoofd tijdens het beluisteren van het bijbehorende fragment. Als er dan veel lange en/of complexe antwoordopties zijn, is het lastiger dit voor elkaar te krijgen en dan ook nog het goede antwoord te kiezen. Er kunnen ook open vragen gesteld worden, maar dan moeten toetsdeelnemers wel genoeg tijd krijgen om de vragen volledig te kunnen beantwoorden, doordat ze meer moeten opschrijven (Buck 2001).

Het is echter onmogelijk om de luistervaardigheid volledig onafhankelijk te testen van andere taalvaardigheden. Bij een luistertoets met gesloten vragen moeten deelnemers vragen en

antwoorden lezen waardoor een goede leesvaardigheid ook van belang is. Bij een toets met open vragen moeten er antwoorden geschreven worden waarbij een goede schrijfvaardigheid goed van pas komt (Buck 2001). Dit kan geminimaliseerd worden door een luistertoets te maken met gesloten vragen en waarbij zowel de vragen als antwoorden voorgelezen worden. Dan kunnen deelnemers lezen en/of luisteren.

2.2.1 Ontwikkeling van luistertoetsen

Een luistertoets kan dus op verschillende manieren gemaakt worden. Het maken gebeurt in verschillende stappen. Als eerste moet er vastgesteld worden op welk niveau de toets de luistervaardigheid gaat testen en wat precies het doel is van de toets: toetst het iemands

luistervaardigheidsniveau of is het om te kijken of iemand het eindniveau van een cursus wel kan halen? Daarna moet de testmethode gekozen worden. Vervolgens moet de toets van hoge kwaliteit gemaakt worden. Er is een aantal punten waar dan opgelet moet worden bij het maken van zo’n toets, namelijk de validiteit en betrouwbaarheid van een toets en het minimaliseren van effecten zoals een bias (Andringa 2015). De validiteit van een toets houdt in dat de toets, dus in dit geval een luistertoets, ook echt meet wat het zou moeten meten, namelijk de luistervaardigheid. Dus als er een luistervraag is met beeld en geluid, dan moet de vraag te beantwoorden zijn aan de hand van het geluid en niet alleen het beeld.

(13)

13 Niet alleen moet de toets valide zijn, hij moet ook betrouwbaar zijn. Een toets is betrouwbaar wanneer goede toetsdeelnemers de toets ook daadwerkelijk goed maken en slechte deelnemers slecht. De betrouwbaarheid kan alleen vastgesteld worden door resultaten van toetsen statistisch te analyseren. Verder is een toets betrouwbaarder als het objectief beoordeeld kan worden. Een luistertoets bestaat vaak uit gesloten vragen, namelijk meerkeuzevragen. Dan kan het beoordelen van gesloten vragen objectief en dus eerlijk gebeuren, wat de betrouwbaarheid ten goede komt. Daarnaast is luisteren een receptieve vaardigheid die met gesloten vragen getoetst kan worden, wat lastiger is bij productieve vaardigheden, zoals spreken en schrijven. Daarnaast moet een toets van goede kwaliteit ook externe effecten beperken om bias te voorkomen. Dus bijvoorbeeld invloeden van achtergrondkennis van toetsdeelnemers of verschillen in taalkennis tussen de deelnemers moeten geminimaliseerd worden (Andringa 2015).

Een goede luistertoets met gesloten vragen moet dus vragen bevatten van hoge kwaliteit met goede bijbehorende fragmenten. Om deze te kunnen ontwikkelen moet er op een aantal aspecten gelet worden volgens Hughes (2007). Zo moeten luisterfragmenten beelden en geluid hebben van goede kwaliteit, omdat het bij slechte fragmenten lastiger is om goed te kunnen luisteren naar wat er gezegd wordt. Dit kan de validiteit van een toetsvraag aantasten. Het beste is om authentiek materiaal te gebruiken, omdat er dan natuurlijke spraak geproduceerd wordt en het belangrijk is dat T2-leerders om leren gaan met de taal van T1-sprekers. Als er toch fragmenten zelf gemaakt worden voor een toets, moet er wel gezorgd worden voor natuurlijke uitingen waardoor het authentiek lijkt. Het belangrijkste bij zowel authentieke als zelfgemaakte fragmenten is dat er gelet wordt op de spreekstijl, het spreektempo en woordgebruik: deze aspecten moeten namelijk passen bij het taalniveau dat getoetst wordt (Hughes 2007). De input moet namelijk te begrijpen zijn voor de luisteraar waarbij het best mogelijk is om een klein beetje nieuwe informatie te geven.

De vragen bij de fragmenten moeten ook van hoge kwaliteit zijn. Een eerste stap is door te luisteren naar het fragment en te bedenken wat een luisteraar precies zou moeten begrijpen uit dat fragment. Hierover zou dan een vraag gesteld kunnen worden. Als twee belangrijke fragmenten met vragen te dicht na elkaar komen, kunnen toetsdeelnemers gemakkelijk informatie missen waardoor ze een vraag niet kunnen beantwoorden (Hughes 2007). Dit kan voorkomen worden door de deelnemers tijd te geven tussen fragmenten, zodat ze een vraag kunnen beantwoorden en de volgende vraag kunnen lezen.

(14)

14

2.2.2 Video’s in T2-luistertoetsen

Er zijn dus globale richtlijnen voor het ontwikkelen van een luistertoets met videofragmenten, maar toch wordt er nog veel onderzoek gedaan naar de werkelijke effecten van het toevoegen van beelden bij een vraag in een T2-luistertoets.

Er zijn verschillende onderzoeken gedaan naar luistertoetsen met en zonder

beeldfragmenten erbij. Het allereerste onderzoek is gedaan door Parry and Meredith (1984). Zij hebben een onderzoek opgezet waar twee groepen meededen aan het experiment: de ene groep kreeg vragen over videofragmenten en de andere groep kreeg dezelfde vragen over alleen het audiodeel van die videofragmenten. Alle deelnemers hadden één jaar, twee jaar of al drie jaar Spaans geleerd. Iedereen uit alle drie de jaarlagen was willekeurig over de groepen verdeeld. De vragen met videobeelden zijn uiteindelijk beter gemaakt dan de vragen met audiofragmenten. Daarnaast hebben de leerders in het algemeen aangegeven dat videobeelden ervoor zorgden dat ze gemotiveerder zijn om op te letten, wat een invloed gehad zou kunnen hebben op de resultaten van het onderzoek.

Naar aanleiding van dit onderzoek zijn meer onderzoekers gaan kijken naar de invloed van beelden bij luistertoetsen. Zo is er in onderzoeken gekeken naar hoe vaak deelnemers naar het beeldscherm kijken tijdens een kijken luistertoets door middel van eye-tracking tijdens het maken van een kijk-luistertoets (Alderson, Clapham et al. 1995, Brett 1997, Gruba 1997). Uit hun

onderzoeken bleek dat deelnemers vaak alleen naar hun papier keken in plaats van naar het videofragment dat afgespeeld werd. Wagner (2007) vond daarentegen juist dat het per deelnemer verschilt of diegene veel of weinig naar het beeldscherm keek: de ene persoon keek 17% van de tijd naar het beeldscherm en de andere 100%. Hierbij was het wel zo dat deelnemers slechter scoorden op de toets, wanneer ze vaker naar de video keken (Wagner 2010a). De deelnemers zaten op vier verschillende taalniveaus, maar maakten allemaal dezelfde toets. Dit heeft wellicht invloed gehad op de resultaten van het onderzoek.

Daarnaast was het niet zeker of het kijken naar het beeldscherm ook betekent dat een deelnemer iets met de visuele input doet. Daarom heeft Wagner na dit onderzoek in 2010 nog een ander onderzoek gedaan door te kijken naar het verschil tussen een luistertoets en een kijken luistertoets. Hierbij kreeg de ene groep de luistertoets zonder beelden en de andere groep de luistertoets met beelden. Uit dit onderzoek kwam naar voren dat er geen significante verschillen waren tussen de twee groepen deelnemers (Wagner 2010b). Toch zag Wagner (2010b) wel een klein verschil in resultaten, ook al was dit verschil niet significant. De luistertoets met beelden is namelijk iets beter gemaakt dan de luistertoets zonder beelden, doordat de non-verbale informatie uit de beelden ervoor zorgde dat deelnemers beter presteerden (Wagner 2010b). Het feit dat de ene groep

(15)

15 een toets met alleen audiofragmenten heeft gemaakt en de andere groep een toets met

videofragmenten zou een effect gehad kunnen hebben op de niet-significante uitkomsten. Cross (2011) bevestigt wat Wagner (2010b) concludeerde, namelijk dat non-verbale communicatie in videobeelden het begrip positief beïnvloedt. Dit is alleen het geval wanneer de auditieve en visuele informatie congruent zijn. Dit houdt in dat het spraaksignaal en de beelden met elkaar overeenkomen. Zodra auditieve en visuele informatie zichtbaar incongruent zijn en dus niet met elkaar overeenkomen, vormen de videobeelden juist een probleem voor het begrip (Cross 2011). Dit is ook wat McGurk and MacDonald (1976) hadden gezien in hun onderzoek met het

McGurk Effect.

In onderzoek van Wagner (2013) is ook een verschil gevonden tussen een toets met alleen videobeelden en een toets met alleen audiofragmenten, waarbij de toets met videobeelden beter is gemaakt. Het probleem met dit onderzoek is echter wel dat er niet te controleren is in hoeverre toetsdeelnemers ook daadwerkelijk naar de video’s kijken. Als iemand een toets maakt met videofragmenten, heeft diegene de keuze om af en toe of volledig weg te kijken van het beeld wanneer diegene dat prefereert (Wagner 2013). Bij alleen audiovragen is deze keuzevrijheid er niet en moet men het doen met het spraakgeluid als enige mogelijke input.

Pardo-Ballester (2016) is het gedeeltelijk eens met Cross (2011), Wagner (2010b) en Wagner (2013). In haar onderzoek heeft ze 246 leerders van het Spaans luistertoetsen laten maken met zowel audiofragmenten als videofragmenten. Dit heeft ze gedaan bij leerders op twee verschillende niveaus. Ze concludeert dat het voordeel van video’s in luistertoetsen voor T2-leerders afhangt van het taalniveau van de te leren taal. Taalleerders met een laag taalniveau scoren namelijk beter op toetsen met alleen audio. Bij videofragmenten moesten deze leerders zich meer concentreren op zowel het bekijken van de beelden en het beluisteren van de spraak in plaats van op het

beantwoorden van de vragen. De taalleerders met een hoger taalniveau scoorden in het onderzoek van Pardo-Ballester (2016) beter op toetsen met videobeelden in plaats van de audiovragen. Toch zouden haar uitkomsten wel beïnvloed kunnen zijn doordat ze alleen video’s heeft gebruikt met tekst-ondersteunende beelden. Dit is niet het enige mogelijke beeldsoort dat een video kan hebben. Er kan namelijk ook alleen een spreker in beeld zijn zonder beelden er omheen. Wellicht zou Pardo-Ballester (2016) andere resultaten gevonden hebben als ze ook beelden met alleen een spreker in beeld had gebruikt.

Niet alle onderzoeken suggereren dat videobeelden een positieve invloed hebben op de luistervaardigheid van T2-leerders. Coniam (2001) vond bijvoorbeeld iets heel anders. Hij zegt dat studenten audiofragmenten beter begrijpen dan videofragmenten en dat daarom een luistertoets beter uit alleen audiofragmenten kan bestaan (Coniam 2001). Toch was er geen significant verschil in zijn onderzoek tussen video- en audiofragmenten. Dit is ook het geval bij het onderzoek van Gruba

(16)

16 (1993) en Londe (2009). Londe (2009) heeft daarbij ook nog fragmenten met een talking head (een bewegend beeld gevuld met alleen het hoofd van de spreker) toegevoegd, maar ook deze

fragmenten voegden niet significant iets toe vergeleken met de video- of alleen audiofragmenten. Sueyoshi and Hardison (2005) hebben ongeveer hetzelfde gedaan als Londe (2009) met

audiofragmenten, fragmenten met een talking head en video’s. De audiofragmenten bevatten in het onderzoek van Sueyoshi and Hardison (2005) ook alleen auditieve informatie. De talking head bevatte alleen gezichtsbewegingen als visuele informatie naast de auditieve informatie. De video’s bevatten niet alleen gezichtsbewegingen, maar ook gebaren en houding van de spreker als visuele informatie naast auditieve informatie. Londe (2009) vond dus geen verschillen, maar Sueyoshi and Hardison (2005) wel: zij zagen dat de deelnemers met alleen audio significant slechter scoorden dan de deelnemers die wel een beeld zagen, ongeacht het soort beeld. Alle visuele informatie lijkt dus nuttig te zijn, gezien hun resultaten.

Gruba (1993), Coniam (2001), Sueyoshi and Hardison (2005) en Londe (2009) hebben echter onderzoek gedaan met video’s waarin alleen sprekers in beeld zijn (als er beeld was) en niet met tekst-ondersteunende beelden. Ze hebben namelijk allemaal beelden gebruikt van een docent die een college aan het geven was. Dit zou invloed gehad kunnen hebben op het feit dat videobeelden soms geen toevoeging zijn aan de gesproken tekst.

Coniam (2001) heeft in zijn onderzoek ook gemerkt dat de meerderheid van de studenten (56%) met het videofragment liever een audiofragment hadden gehad. Slechts 36% van deze groep studenten had geen voorkeur en rest was blij met het videofragment. Van de studenten met het audiofragment wilde 36% liever een videofragment en was 9% blij met het audiofragment. De meerderheid (55%) had bij deze groep juist geen voorkeur. Dus eigenlijk willen degenen met het videofragment liever geen beelden zien en degenen met het audiofragment vinden het vaak prima. Dit is anders dan wat verschillende andere onderzoekers hebben gevonden, zoals Progosh (1996), Wagner (2010a) en Koster (2014). Zij concluderen allemaal dat participanten juist een voorkeur hebben voor videobeelden bij de audio. Progosh (1996) vond zelfs dat bijna 92% van de studenten video’s prefereerden. Koster (2014) merkte vervolgens dat de voorkeur voor videobeelden zorgden voor meer motivatie onder studenten waardoor ze uiteindelijk beter presteerden op toetsen. Shin (1998) suggereert ook dat videobeelden zorgen voor een betere prestatie bij de luistervaardigheid, al moet er volgens hem nog wel veel onderzoek naar gedaan worden.

Dat de voorkeur van een T2-leerder invloed heeft op het presteren heeft ook Ockey (2007) gemerkt. Hij heeft gekeken naar het verschil tussen niet-bewegende beelden bij een luisterfragment en wel-bewegende beelden bij een luisterfragment. De niet-bewegende beelden waren afbeeldingen die een tijd in beeld waren en een tekst-ondersteunende functie hadden. De wel-bewegende

(17)

17 hebben beide luisterfragmenten beluisterd (en gezien), hier vragen over gemaakt en daarna hun mening gegeven. De resultaten waren zeer divers. Degenen die de niet-bewegende beelden prefereerden, hebben de vragen bij dit fragment beter gemaakt doordat ze vonden dat de bewegende beelden een afleiding vormden. Andere toetsdeelnemers vonden wel-bewegende beelden juist prettiger en hebben vervolgens de vragen bij dit fragment beter gemaakt. Zij vonden namelijk dat de overgang naar een andere afbeelding bij de niet-bewegende beelden een afleiding vormden en scoorden op deze toets daarom slechter (Ockey 2007). Ockey (2007) concludeert daarom dat niet-bewegende beelden waarschijnlijk beter zijn dan wel-bewegende beelden als er slechts één beeld te zien is die tekst-ondersteunend is. Zo zouden er geen afleidingen kunnen zijn. Al denkt hij dat alleen audio ook een goede optie is aangezien er dan helemaal geen visuele afleidingen zijn. Desondanks gaat zijn voorkeur uit naar een video doordat een video veel authentieker is dan alleen audio (Ockey 2007).

Suvorov (2011) heeft ook onderzoek gedaan naar het verschil tussen niet- en wel-bewegende beelden in een luistertoets. Hij heeft echter ook nog alleen audiofragmenten toegevoegd aan zijn toets. Zijn resultaten laten zien dat er geen significant verschil is tussen het toevoegen van niet-bewegende beelden en het gebruiken van alleen audio. Wel is er een verschil tussen niet- en wel-bewegende beelden waarbij er met wel-wel-bewegende beelden slechter gescoord werd dan met niet-bewegende beelden. Dit is hetzelfde tussen wel-niet-bewegende beelden en alleen audio: hier waren de resultaten bij de fragmenten met bewegende beelden ook slechter dan de resultaten van alleen audiovragen. Dat een toets met bewegende beelden slechter gemaakt wordt, zou kunnen komen doordat bewegende beelden een afleiding kunnen vormen voor het beantwoorden van luistervragen (Suvorov 2011). Deze verschillen komen overeen met wat hij gevonden had in zijn eerdere onderzoek (Suvorov 2009).

2.3 Het onderzoek

Moet men wel of geen videobeelden gebruiken in een luistertoets? Dit is een vraag die dus zeer verschillend beantwoord wordt door onderzoekers. Zoals hiervoor beschreven is, zijn er onderzoeken waaruit blijkt dat videobeelden een goede invloed hebben op de luistervaardigheid van T2-leerders (Parry and Meredith 1984, Shin 1998, Sueyoshi and Hardison 2005, Cross 2011, Wagner 2013, Koster 2014, Pardo-Ballester 2016). Er zijn echter ook onderzoeken waar geconcludeerd wordt dat

videobeelden juist een afleiding vormen (Ockey 2007, Suvorov 2009, Wagner 2010a, Suvorov 2011, Pardo-Ballester 2016) of niet voor een verschil zorgen vergeleken met alleen audiofragmenten (Gruba 1993, Coniam 2001, Londe 2009, Wagner 2010b). Toch zijn videobeelden vaak wel

authentieker dan audiofragmenten (Coniam 2001, Hughes 2007, Ockey 2007, Koster 2014), al is deze reden niet voldoende om te kunnen concluderen dat videobeelden toegevoegd moeten worden aan

(18)

18 een luistertoets. Beelden toevoegen aan een luistertoets moet namelijk het begrip van de

luistervragen ten goede komen en dat kan een authentieke video niet zonder onderzoek garanderen. Kortom, er is nog geen sluitend bewijs dat videobeelden wel of geen goede toevoeging zijn voor een luistertoets. Daarom wordt er in het huidige onderzoek weer gekeken naar de invloed van videobeelden in een luistertoets en dan om precies te zijn bij een NT2-luistertoets op B1-niveau. De onderzoeksvraag voor het onderzoek luidt: In hoeverre helpt beeld bij begrip van luistervragen? De verwachting is dat de luistervragen met beelden beter gemaakt zullen worden dan dezelfde vragen zonder beeld. De reden voor deze verwachting is doordat de meerderheid van de onderzoeken suggereert dat beelden bij luistervragen een positief effect hebben op de toetsresultaten (Parry and Meredith 1984, Shin 1998, Sueyoshi and Hardison 2005, Cross 2011, Wagner 2013, Koster 2014, Pardo-Ballester 2016). Van al deze onderzoeken hebben Sueyoshi and Hardison (2005)

geconcludeerd dat het niet uitmaakt wat voor beelden er in luistervragen gebruikt worden, want allemaal hebben ze een goede invloed op de score van een luistertoets. Het enige probleem was dat zij geen tekst-ondersteunende beelden hebben gebruikt, waardoor deze conclusie toch niet helemaal opgaat voor werkelijk alle beelden. Al heeft Pardo-Ballester (2016) daarentegen alleen

tekst-ondersteunende beelden gebruikt en vond met deze beelden ook een positief effect. Dit ondersteunt de conclusie van Sueyoshi and Hardison (2005). Daarnaast heeft Cross (2011) gezegd dat beelden een toevoeging zijn, zolang de beelden congruent zijn met de audio. In het huidige onderzoek zijn al deze suggesties meegenomen: de videofragmenten bestaan uit tekst-ondersteunende beelden en beelden met alleen een spreker die zichtbaar is. Daarnaast zijn alle beelden congruent. Dit zou er allemaal voor moeten zorgen dat beelden een positieve invloed hebben op het begrip van luistervragen.

(19)

19

3. Methode

Voor dit onderzoek zijn er twee verschillende luistertoetsen ontwikkeld en afgenomen. De luistertoetsen bevatten zowel audio- als videofragmenten waar vragen over gesteld werden. Dit wordt verder besproken in paragraaf 3.2.

3.1 Deelnemers

In totaal waren er 42 cursisten die met dit onderzoek hebben meegedaan. Alle cursisten zijn hoog opgeleid en waren aan het eind van hun cursus NT2 voor halfgevorderden bij Radboud In’to Languages in Nijmegen. Als ze deze cursus goed afronden, hebben ze taalniveau B1. Alle cursisten waren verdeeld over vier verschillende groepen. Één groep bestond uit cursisten die al eerder een halfgevorderden cursus hebben gedaan en deze niet hebben gehaald. Op dit moment deden ze de cursus opnieuw. Twee van de vier groepen hadden de oefentoets versie 1 gemaakt en de andere twee groepen versie 2. In totaal hebben 18cursisten versie 1 gemaakt en 24 cursisten versie 2. In grafiek 1 is te zien welke nationaliteiten er precies welke versie hebben gemaakt. De meerderheid komt uit Syrië. Niemand kreeg een beloning voor zijn of haar deelname.

(20)

20

3.2 Materialen

Er zijn twee oefenluistertoetsen ontwikkeld voor cursisten die een B1-examen moesten gaan maken. Beide toetsen bestonden uit 15 items waarvan de ene helft audiovragen waren en de andere helft videovragen. Alle fragmenten zijn van oorsprong video’s, zijn van YouTube gehaald en zijn

opgeslagen als MP4. De link naar de video’s en de uitgeschreven gesproken teksten staan in bijlage B. Elk fragment was gekozen op basis van de onderwerpen, die bij voorkeur zo divers mogelijk moesten zijn, en op basis van het niveau van de sprekers: elke NT2 B1-luisteraar moet de uitingen kunnen volgen en moet hier vragen over kunnen beantwoorden. De vragen waren gemaakt met het in acht nemen van de in paragraaf 2.2.1 beschreven richtlijnen. De onderwerpen van de fragmenten zijn:

(21)

21

woning studenten, Kensington, voedsel in topsport, Freek Vonk, rookverbod bij voetbalvereniging OBW, ongelukken spoorwegovergang en fietsenbeleid in Den Haag.

In het programma Cyberlink PowerDirector 9 zijn alle Mp4-bestanden bewerkt: ze zijn in fragmenten geknipt en achter elkaar gezet. Tussen alle fragmenten zijn korte pauzes geplaatst, zodat de cursisten vragen konden lezen en beantwoorden. De lengte van de pauzes zijn gebaseerd op de pauzes uit de TANG-toetsen (Tilburg University, de Universiteit van Amsterdam et al.). Ze kregen 10 seconden voor het beantwoorden van een vraag, 15 seconden voor het lezen van een vraag en 10 seconden voor het lezen van een context, die als inleiding dient van een fragment. Dit is een voorbeeld van een context bij de fragmenten over Kensington: Fragment 4 en 5 gaan over

Kensington. Kensington is een Nederlandse band. Een Nederlandse presentator, Humberto Tan, gaat Kensington opzoeken in Rome.

Het complete bestand met alle bewerkte video’s is opgeslagen als een AVI-bestand. De duur van dit bestand was 17 minuten en 28 seconde. Dit was daarom ook de totale duur van de

luistertoets. De cursisten zijn in twee groepen verdeeld waarvan de ene groep versie 1 kreeg en de andere groep versie 2. In tabel 1 is te zien welke vragen met audiofragmenten waren in welke versie en welke vragen met videofragmenten. In bijlage C is de volledig toets versie 1 gevoegd en in bijlage D de volledige toets versie 2.

Bij elk fragment is een vraag gesteld. Alle vragen zijn zo gemaakt dat een luisteraar moet verstaan en begrijpen wat er gezegd wordt om antwoord te kunnen geven. De volgorde van de vragen in beide toetsen kwam overeen. Dus vraag 1 in versie 1 was dan bijvoorbeeld hetzelfde als vraag 1 in versie 2. Het enige verschil tussen de versies was dat een vraag in de ene toets een audiovraag was en in de andere toets een videovraag. Bij de audiovragen zijn de beelden van een video achterwege gelaten in PowerDirector. Daarnaast waren zeven vragen met tekst-ondersteunende beelden en acht vragen met alleen een spreker in beeld. Dit is gedaan doordat Pardo-Ballester (2016) in haar onderzoek alleen tekst-ondersteunende beelden had gebruikt en dacht dat dit haar resultaten beïnvloed zou kunnen hebben. Door ook fragmenten te gebruiken met alleen een spreker in beeld, die dus niet tekst-ondersteunend zijn, speelde deze factor geen rol in het huidige onderzoek. Verder wordt hier niet naar gekeken in de analyse. In tabel 2 is te zien dat de soorten beelden goed verdeeld zijn over de twee toetsen.

Tabel 1. Soorten vragen Versie 1 Versie 2

Audiovragen Vraag 1 t/m 8 Vraag 9 t/m 15

(22)

22 Tabel 2. Soorten beelden

Tekst-ondersteunende beelden Vraag 1, 2, 4, 5, 9, 10, 11 Alleen spreker in beeld Vraag 3, 6, 7, 8, 12, 13, 14, 15

Deze soorten beelden in fragmenten zijn ook redelijk gelijk verdeeld over de versies. Dit is weergegeven in tabel 3.

Tabel 3. Verdeling beelden over audio- en videovragen

Video versie 1 Video versie 2

Tekst-ondersteunende beelden Vraag 9, 10, 11 Vraag 1, 2, 4, 5

Alleen spreker in beeld Vraag 12, 13, 14, 15 Vraag 3, 6, 7, 8

Er is gekozen voor een oefentoets in het huidige onderzoek om het effect van Wagner (2010a) te beperken. Hij dacht namelijkeen observatie-effect gevonden te hebben, waarbij de resultaten van de deelnemers beïnvloedt zijn, doordat ze merkten dat ze geobserveerd en gefilmd werden. Hij adviseerde onderzoekers daarom om dit observatie-effect te minimaliseren. In het huidige onderzoek is dit geminimaliseerd door cursisten een oefentoets te laten maken: het was voor hen een oefening voor de echte eindtoets die twee weken later was, waardoor ze minder of geen druk voelden om op het moment van de oefentoets extra goed te presteren. Daarnaast zijn ze niet gefilmd en wisten ze dat de resultaten anoniem verwerkt zouden worden.

3.3 Procedure

De oefentoets is afgenomen aan het begin van de les van elke groep. Er is gekozen voor een les in de laatste lesweek voor hun officiële eindtoets in de verwachting dat alle cursisten op dat moment op niveau B1 zitten. De eindtoets vond twee weken later plaats (want ze hadden een lesvrije week tussen de laatste lesweek en de toetsweek). Alle cursisten kregen bij aanvang van de les een vragenboekje (zoals in bijlage C en D met resp. versie 1 en 2) en een antwoordblad (zie bijlage E). Ze kregen 30 seconden de tijd om de instructie op het vragenboekje te lezen.

Zodra iedereen alle benodigde papieren had, moest iedereen stil zijn en begon de

oefentoets. Het AVI-bestand werd afgespeeld op een groot scherm in het klaslokaal. De cursisten kregen gedurende de toets de mogelijkheid om in stilte hun antwoorden in het vragenboekje te schrijven. Na ongeveer 18 minuten was de toets klaar. De antwoordbladen werden vervolgens ingenomen. Daarna kregen de cursisten de mogelijkheid om hun mening te geven over de toets. Dit konden ze anoniem op een vragenformulier schrijven (zie bijlage F). Wanneer ze dat gedaan hadden, werden de vragenformulieren ingenomen en kregen ze de mogelijkheid om de oefentoets klassikaal

(23)

23 te bespreken. Dit had geen invloed op de resultaten van dit onderzoek, doordat de officiële

antwoordenbladen al ingenomen waren voordat de nabespreking plaatsvond.

Twee weken na het maken van de oefentoets hadden de cursisten dus een officiële eindtoets gemaakt. Dit was een TANG-toets luisteren (Tilburg University, de Universiteit van Amsterdam et al.). De resultaten van deze eindtoets waren door de docenten van de vier halfgevorderde groepen NT2 doorgestuurd om te kunnen gebruiken in dit onderzoek als gestandaardiseerde toets.

3.4 Analyse

Voor de analyse is een betrouwbaarheidstest gedaan in SPSS met Reability Analysis. Hieruit kwam een zeer lage betrouwbaarheidsscore waardoor er een selectie is gemaakt van vragen die samen de hoogst mogelijke betrouwbaarheid hadden. Dit waren vraag 1, 2, 3, 10 en 11. De andere vragen zijn vervolgens uit de analyse gelaten. Bij deze vragen horen de fragmenten:

- Woning studenten (vraag 1, 2 en 3)

- Freek Vonk (vraag 10)

- Rookverbod bij voetbalvereniging OBW (vraag 11)

De andere vier fragmenten worden dus niet meegenomen in de analyse.

Na deze betrouwbaarheidstest is er een ANCOVA-toets in SPSS gedaan met de geselecteerde vragen. De TANG-toets resultaten waren gebruikt als covariaat.

4. Resultaten

4.1 Betrouwbaarheid van de toets

Cronbach’s alfa is 0.109 als de betrouwbaarheid in SPSS met een Reability Analysis getoetst wordt. In tabel 1 is te zien wat de P-waarde van elke vraag is en wat de alfa wordt als deze vraag verwijderd wordt. Een P-waarde geeft het percentage weer van het aantal kandidaten dat een vraag goed heeft beantwoord. Hoe hoger de P-waarde, hoe meer kandidaten de vraag goed hebben gemaakt.

Tabel 1. Gemiddelde waardes per vraag (P en alfa). Vraag P-waarde Alfa als de vraag verwijderd

wordt 1 81 0.087 2 76 -0.008 3 86 0.068 4 55 0.152 5 45 0.136 6 71 0.148 7 38 0.060 8 48 0.032 9 55 0.152

(24)

24 10 83 -0.019 11 31 0.017 12 67 0.236 13 76 0.199 14 55 0.201 15 36 -0.029 N = 42

Er is geen patroon te zien in de meer betrouwbare vragen en de mindere als er gekeken wordt naar zowel de P-waarde en de alfa van elke vraag. Zo hebben vraag 2 en 13 dezelfde P-waarde, maar verschillen in betrouwbaarheid: de alfa wordt -0.008 als vraag 2 uit de analyse gelaten zou worden en de alfa wordt 0.199 als vraag 13 weggelaten zou worden.

In SPSS is er steeds één voor één de minst betrouwbare vraag weggehaald en opnieuw een

Reability Analysis gedaan. De minst betrouwbare vraag was elke keer de vraag waar de alfa het

hoogst was als deze vraag weggelaten zou worden. In tabel 1 is dat dus vraag 12. Deze vraag is daarom als eerste uit de analyse gelaten. Uiteindelijk bleven alleen vraag 1, 2, 3, 10 en 11 over en kon de alfa niet hoger worden. Deze vragen zijn vervolgens meegenomen in de analyse.

De alfa is 0.52 met vraag 1, 2, 3 , 10 en 11 . Dit is dus de hoogst haalbare alfawaarde voor de oefentoets terwijl de voorkeur uitgaat naar een waarde boven de 0.7 om de toets betrouwbaar te kunnen noemen. Deze geanalyseerde vragen waren bijna allemaal tekst-ondersteunende beelden, want vraag 3 was het enige fragment met alleen een spreker in beeld en de andere vier (vraag 1, 2, 10 en 11) waren tekst-ondersteunend. De verhouding audio-video was meer in verhouding per versie: in versie 1 waren vraag 1, 2 en 3 audiovragen en vraag 10 en 11 videovragen en in versie 2 waren vraag 1, 2 en 3 videovragen en 10 en 11 audiovragen.

4.2 Audio versus video

Tabel 2. Waardes per geanalyseerde vraag Vraag P-waarde als

audiovraag P-waarde als videovraag 1 67 92 2 67 83 3 78 92 10 88 78 11 50 6

Door het kleine aantal vragen en de lage betrouwbaarheid is een analyse tussen de groepen met een ANCOVA de meest geschikte toets om te doen. Hierbij worden vraag 1, 2 en 3 vergeleken tussen versie 1 (audiovragen) en versie 2 (videovragen) en vraag 10 en 11 tussen versie 1 (videovragen) en versie 2 (audiovragen). In tabel 2 zijn de P-waardes van deze vragen te zien als audio- en videovraag.

(25)

25 De P-waardes van vraag 11 zijn de enige lage waardes (als audiovraag: P = 50, als videovraag: P = 6). De gewenste P-waarde is rond de 70. Audiovraag 11 was door de meerderheid goed beantwoord met antwoord B (50%), door 33% niet goed gekozen met antwoord C en door 17% niet goed gekozen met antwoord A. Bij videovraag 11 antwoordde de meerderheid (61%) met antwoord A, 6%

antwoord B en 33% antwoord C. Gemiddeld is antwoord A door 36% van de cursisten, antwoord B door 31% van de cursisten en antwoord C door 33% van de cursisten gekozen. Alle antwoorden van vraag 11 zijn dus gemiddeld door een redelijk gelijk aantal cursisten gekozen, al verschilt dit dus wel per vraagsoort (audio versus video). Bij alle andere vragen is de ene afleider vaker gekozen dan de andere afleider en dit verschil is dan hetzelfde in beide versies van de toets. Er is dus geen patroon in fouten te herkennen.

Er is net geen significant verschil tussen audio en video bij vraag 1 tot en met 3,

F(1,39)=3.915, p=0.055. Het gemiddelde van de videovragen is 2.7 en het gemiddelde van de

audiovragen 2.1. De videovragen lijken dus beter te zijn gemaakt dan de audiovragen, maar het verschil is dusdanig klein dat het te verwaarlozen is. Er is echter wel een significant verschil tussen audio en video bij vraag 10 en 11, F(1,39)=5.759, p=0.021, waarbij de audiovragen beter gemaakt zijn dan de videovragen. Het gemiddelde van de audiovragen is 1.4 en het gemiddelde van de

videovragen is 0.8.

4.3 Vragenlijst

Over het algemeen hebben de cursisten aangegeven dat ze heel blij waren met de luistertoets als oefentoets. Ze vinden dat er te weinig geoefend wordt voor de vaardigheid luisteren en waren daarom blij dat ze op deze manier konden oefenen voor de echte toets die twee weken later plaats vond. Wel zeiden ze dat ze te weinig tijd hadden tussen de fragmenten door om contexten en vragen te lezen en vragen te beantwoorden. Daarnaast vonden ze de meeste fragmenten moeilijk doordat de mensen te snel of te zacht praten in hun ogen. Dit vonden alle cursisten.

Verder waren er nog vier (9,5%) van de 42 cursisten die expliciet hebben aangegeven de videovragen makkelijker te vinden dan de audiovragen zonder te weten dat hier het onderzoek over gaat. Alle andere cursisten hebben hier niks over genoemd.

(26)

26

5. Discussie

In dit onderzoek werd er onderzocht of beelden bij NT2-luistertoetsen een positieve invloed hadden op de resultaten. Dit is gedaan door halfgevorderde NT2-cursisten een oefentoets te laten maken vlak voordat ze hun eigen officiële toets moesten maken op B1-niveau. Uit de resultaten van de oefentoetsen bleek dat beeld bij vraag 1-3 niets toevoegde aan het begrip van luistervragen, doordat er geen significant verschil gevonden was. Het maakte dus bij deze vragen niet uit of er wel of geen beelden zichtbaar waren voor de resultaten van de luistertoetsen NT2 op B1-niveau: als er beelden waren, werd er hetzelfde gescoord als wanneer er geen beelden waren. Deze resultaten kwamen overeen met de onderzoeken van Gruba (1993), Coniam (2001), Londe (2009) en Wagner (2010b) aangezien zij ook geen verschil gevonden hadden tussen videofragmenten en audiofragmenten in een T2-luistertoets. Hieruit kan geconcludeerd worden dat toetsontwikkelaars zelf kunnen kiezen of ze wel of geen beelden toevoegen aan fragmenten in een luistertoets, zolang ze zich maar aan de richtlijnen houden van Hughes (2007) en Andringa (2015). Daar valt echter wat op af te dingen, want er is in het huidige onderzoek niet getest in hoeverre cursisten bij de desbetreffende vragen ook daadwerkelijk naar het beeldscherm keken wanneer er een videofragment bij een vraag was. De cursisten hadden op zo’n moment namelijk de keuze om wel, niet of af en toe naar het beeldscherm te kijken (Wagner 2013). Misschien hadden de cursisten de videovragen wel net zo beantwoord als audiovragen, dus door alleen naar de spraak te luisteren en niet naar het beeldscherm te kijken en is er daarom geen verschil gevonden tussen luistervragen met en zonder beeld. Al waren deze drie vragen als videovragen wel iets beter gemaakt dan als audiovragen, ook al was dit verschil niet significant en dus te verwaarlozen. Het is daarom wel interessant om hier in vervolgonderzoek weer naar te kijken.

Er zijn echter nog wel andere resultaten gevonden in de analyse, namelijk bij de analyse van de vragen 10 en 11. Deze twee vragen zijn als audiovragen namelijk significant beter gemaakt dan als videovragen. De beelden waren voor deze vragen dus geen toevoeging voor het begrip van de luistervragen, maar een afleiding. Dit komt overeen met de onderzoeken van Ockey (2007), Suvorov (2009), Wagner (2010a), Suvorov (2011) en Pardo-Ballester (2016). Dit kan komen doordat de P-waardes van vraag 11 veel lager waren dan de P-P-waardes van de andere vragen. Vraag 11 was dus door veel minder cursisten goed beantwoord dan vraag 1, 2, 3 en 10. Dit kan de resultaten van de analyse beïnvloed hebben en geleid hebben tot dit negatieve effect van de beelden op het begrip van deze luistervraag. Lage P-waardes betekenen echter vaak iets anders, namelijk dat een vraag niet goed in elkaar zit of wellicht te moeilijk was voor de doelgroep. Dit betekent dat het gevonden verschil zeer in twijfel getrokken moet worden.

(27)

27 Een andere mogelijkheid zou kunnen zijn dat de NT2-leerders uit dit onderzoek moeite hadden met multimodaal verwerken, dus met het verwerken van zowel auditieve als visuele input. Ze moesten namelijk verbale informatie, non-verbale informatie en soms ook visuele informatie die om de spreker heen zichtbaar was verwerken (Baltova 1999, Guichon and McLornan 2008). McGurk and MacDonald (1976) hebben geconcludeerd dat visuele informatie een belangrijke rol speelt bij het verstaan van spraak en dat dit niet altijd hetzelfde resultaat geeft als het verstaan van spraak zonder visuele informatie.

Er waren nog wel vier cursisten die hadden aangegeven de videovragen makkelijker te vinden dan de audiovragen zonder dat er om het verschil tussen audio en video gevraagd werd, ook al is dit niet in de resultaten terug te zien. Hun mening kwam overeen met wat Progosh (1996), Wagner (2010a) en Koster (2014) concludeerden, namelijk dat T2-leerders beelden bij luistervragen een toevoeging zouden vinden. Welke videofragmenten de vier cursisten beter vonden, is niet bekend en ook niet te achterhalen op basis van de huidige resultaten, doordat de vragenlijsten anoniem zijn ingevuld. Daarom is er ook niet te zien in de huidige resultaten of de videovragen ook daadwerkelijk beter gemaakt zijn door deze cursisten.

Als de conclusies van dit onderzoek waar blijken te zijn, dan zijn deze best opmerkelijk aangezien er meer onderzoeken zijn die wel een verschil hebben gevonden, waarvan er meer een positief verschil gevonden hebben (Parry and Meredith 1984, Shin 1998, Sueyoshi and Hardison 2005, Cross 2011, Wagner 2013, Koster 2014, Pardo-Ballester 2016) dan een negatief verschil (Ockey 2007, Suvorov 2009, Wagner 2010a, Suvorov 2011, Pardo-Ballester 2016). In dit onderzoek komt juist naar voren dat de resultaten verschillen per vraag. Dit is een zeer interessant aspect, dat nog meer vervolgonderzoek nodig heeft voordat er definitieve conclusies getrokken kunnen worden.

5.1 Kritiek op het onderzoek

Elk onderzoek heeft z’n positieve en negatieve aspecten en zo ook dit onderzoek. Deze worden hieronder weergegeven.

5.1.1 Positieve aspecten

Het was goed dat er in één luistertoets zowel audio- als videofragmenten zaten om zo geen effect te hebben van individuele verschillen, wat wellicht wel bij Wagner (2010b) een rol gespeeld zou kunnen hebben. Hij had namelijk de ene groep een luistertoets met alleen video’s laten maken en de andere groep een toets met alleen audiofragmenten. Daarnaast was het goed dat er rekening gehouden was met de soorten beelden in de luistertoets, namelijk door ongeveer evenveel tekst-ondersteunende

(28)

28 beelden te selecteren als beelden met alleen een spreker in beeld en door zeer diverse onderwerpen uit te kiezen. Dit hebben veel andere onderzoeken niet gedaan. Zo hadden o.a. Gruba (1993), Coniam (2001), Sueyoshi and Hardison (2005) en Londe (2009) alleen een spreker in beeld en waren het fragmenten van hetzelfde college. Daarnaast had Pardo-Ballester (2016) alleen

tekst-ondersteunende beelden gebruikt, wat ook een effect had kunnen hebben op haar

onderzoeksresultaten. Of de beeldsoorten en/of de onderwerpen een effect hadden op de prestaties van de cursisten is echter niet onderzocht in dit onderzoek. Hier zou in de toekomst naar gekeken kunnen worden.

Verder was het goed om de luistertoets als oefentoets te laten maken. Cursisten waren hierdoor zeer ontspannen en gemotiveerd: iedereen zag dit als een goede oefening voor de echte toets waardoor ze goed hun best gingen doen. Ze werden niet gefilmd en ze wisten dat de resultaten anoniem gebruikt zouden worden voor dit onderzoek. Hierdoor was het observatie-effect dat

Wagner (2010a) noemde zeer ingeperkt.

Het vierde positieve aspect is dat de toets geprojecteerd werd en achter elkaar door liep. Hierdoor werden cursisten gedwongen om op te blijven letten, hadden ze geen tijd om tussendoor te overleggen of te praten en leerden ze alvast een luistertoets te maken onder tijdsdruk. Dit ging namelijk ook zo bij de TANG-toets luisteren (Tilburg University, de Universiteit van Amsterdam et al.).

5.1.2 Negatieve aspecten

Er is rekening gehouden met een mogelijk effect tussen individuen door met een zo homogeen mogelijke groep te onderzoeken om op die manier alle persoonsgebonden invloeden te beperken. Daarom was er in het huidige onderzoek gekozen voor groepen met alleen hoger opgeleiden op ongeveer B1-niveau, waarvan de meerderheid uit Syrië kwam. Op deze manier zijn grote verschillen tussen cursisten en groepen geminimaliseerd. Dit leverde echter niet de beste resultaten op, want deze cursisten waren niet representatief voor alle NT2-ers in Nederland. Alle conclusies gelden dus eigenlijk voornamelijk voor hoger opgeleide Syriërs met een B1-taalniveau. Daarnaast was het niet 100% zeker dat iedere cursist op taalniveau B1 zat doordat ze nog de toetsen op B1-niveau moesten gaan maken. Ook waren er mogelijk verschillen tussen de groepen die versie 1 en versie 2 hebben gemaakt, doordat er één groep was die de halfgevorderden cursus voor een tweede keer deed. Dit zijn factoren die allemaal een invloed op de resultaten kunnen hebben gehad.

Daarnaast is er in de analyse alleen naar verschillen gekeken tussen audiovragen tussen versie 1 en dezelfde vragen als videovragen in versie 2. Dit betekent dat er een vergelijking is gemaakt tussen groepen in plaats van binnen elk individu. Dit heeft Wagner (2010b) ook gedaan en

(29)

29 had mogelijk invloed op zijn resultaten. Dit kan bij het huidige onderzoek ook het geval zijn en zou in vervolgonderzoek anders aangepakt moeten worden door een vergelijking te maken tussen

audiovragen en videovragen van elke toetsdeelnemer.

Verder waren er, zoals eerder genoemd, verschillende soorten beelden als videofragment gekozen en waren er verschillende onderwerpen, wat dus in eerste instantie positief was. Toch had het niet heel veel meerwaarde. Doordat er bij de analyse tien van de vijftien vragen niet

meegenomen waren, werden sommige fragmenten uit de toets helemaal niet getest in de analyse: van de zeven fragmenten was de analyse gedaan met vragen van maar drie fragmenten. Dit waren voornamelijk tekst-ondersteunende fragmenten (namelijk 4 van de 5 geanalyseerde vragen) dus alles waar op gelet was bij het ontwikkelen van de toets, had bij de analyse geen toegevoegde waarde meer. Daarnaast was de toets nog steeds niet heel betrouwbaar op het moment dat er een analyse gedaan werd met de vijf overgebleven vragen en de P-waardes van vraag 11 daarbij ook nog eens zeer laag waren. Het was beter geweest als de luistertoetsen eerst gepre-test waren voordat ze gebruikt werden voor dit onderzoek. Dan konden er meer conclusies getrokken worden op basis van de resultaten. Nu zijn het meer speculaties en kan er eigenlijk niks met zekerheid gezegd worden.

De toets werd geprojecteerd in een klaslokaal en iedereen keek naar hetzelfde grote beeldscherm. Dit had als gevolg dat de cursisten die achterin zaten. Zij zagen en/of hoorden het minder goed dan de cursisten die voorin het lokaal zaten. Het zou beter geweest zijn als iedereen hetzelfde beeld tegelijkertijd op een eigen computer had kunnen zien met een eigen koptelefoon op. Dan had iedereen het beeld even groot voor zich en het volume zelf naar wens in kunnen stellen. Nu werd er opgemerkt dat het soms niet goed te verstaan was, doordat sommige fragmenten te zacht waren. Ook vonden ze dat er te weinig tijd was tussen de fragmenten door om de context en de vragen te kunnen lezen en de vragen te kunnen beantwoorden. Hoogstwaarschijnlijk hebben de cursisten hier gelijk in, want er is tijd gegeven voor het lezen van de context terwijl dit bij officiële toetsen, bijvoorbeeld bij de TANG-toets luisteren (Tilburg University, de Universiteit van Amsterdam et al.), voorgelezen wordt. Als het voorgelezen zou worden, zouden toetsdeelnemers kunnen luisteren en meelezen tegelijkertijd. Daarbij duurt het (mee)lezen van de context dan zo lang als ervoor nodig is om het uit te spreken, namelijk totdat alle woorden uit de context uitgesproken zijn. Nu zagen cursisten op het beeldscherm staan dat ze de context moesten lezen en moesten op dat moment met hun ogen naar het opgavenboekje toe om de context te zoeken en te lezen. Dit kostte al een paar seconden waardoor ze minder tijd hadden om de context te lezen. Daarnaast hadden ze voor elke context evenveel leestijd terwijl de ene context langer was dan de andere context. Als ze dan te weinig tijd hadden voor het lezen en verwerken van de context, waren ze ook te laat met het

(30)

30 beginnen te lezen van de vraag. Hierdoor zouden ze elke keer te weinig tijd hebben voor alles wat ze daarna nog moesten lezen of beantwoorden.

Met andere woorden, de fragmenten kwamen te snel na elkaar waardoor ze sneller informatie misten en soms meer moeite hadden met het beantwoorden van een vraag dan dat ze normaal gesproken zouden hebben (Hughes 2007). Dit zou dus beïnvloed kunnen zijn, doordat ze in de stress schoten door het tijdtekort of doordat ze te laat op gingen letten bij een volgend fragment. Dan richtten ze te laat hun aandacht op een fragment, namelijk op het moment dat het fragment al bezig was, doordat ze nog aan het lezen waren. Hierdoor hadden ze mogelijk net het cruciale deel gemist hebben om de vraag te beantwoorden of misten ze wellicht het deel wat van belang was om te begrijpen waar het fragment over ging, wat het beantwoorden van de vraag bemoeilijkt.

Hoogstwaarschijnlijk hebben daarom deelnemers regelmatig een antwoord gegokt in plaats van antwoord gegeven op basis van wat ze gehoord hebben. Dit maakt de toetsresultaten nog onbetrouwbaarder.

5.2 Vervolgonderzoek

Zoals hiervoor is gebleken, zijn er nog heel wat meer onderzoeken nodig naar dit onderwerp. De opzet van het onderzoek was goed, alleen de uitvoering viel tegen. De toets zou aangepast moeten worden door vragen aan te passen, meer vragen erbij te maken en meer tijd te maken voor het lezen van de context. De context zou wellicht ook voorgelezen kunnen worden waarbij participanten mee kunnen lezen in hun vragenboekje. Daarna zou er een pre-test moeten komen waar de toets getest kan worden. Aan de hand van de resultaten van de pre-test moet de toets weer aangepast worden, net zo lang totdat de toets betrouwbaar is. Daarnaast zijn er meer participanten nodig om de toetsen te laten maken. Zij zouden het beste versie 1 of versie 2 random toegewezen kunnen krijgen, zodat eventuele groepsverschillen geen rol spelen. Alle participanten kunnen vervolgens het beste ieder achter een eigen computer de toegewezen toets maken. Zo kunnen ze zelf het volume regelen en kan er met zekerheid gezegd worden dat alle participanten het beeld bij videovragen goed gezien hebben.

Er zou in een vervolgonderzoek ook gekeken kunnen worden naar verschillen tussen het gebruik van audio en video in luistertoetsen op verschillende taalniveaus, zoals Pardo-Ballester (2016) heeft gedaan, alleen dan binnen het NT2-onderwijs en met meer dan twee verschillende niveaus. Dit zou mogelijk zijn met de opzet van het huidige onderzoek. Het vergt alleen wat

aanpassingen aangezien elke toets dan op elk taalniveau afgestemd zou moeten worden. De huidige toets is echt alleen gericht op B1-leerders van het Nederlands.

(31)

31 Een andere mogelijkheid zou een onderzoek kunnen zijn naar het effect van de soorten beelden in een kijken luistertoets NT2. Dan zou er gekeken kunnen worden naar het effect van tekst-ondersteunende beelden, alleen een spreker in beeld of helemaal geen beeld. Dit is anders dan wat Sueyoshi and Hardison (2005) en Londe (2009) hadden gedaan. Zij hadden bij de

videofragmenten alleen een spreker in beeld waarbij er verschil was tussen de spreker volledig in beeld of alleen het hoofd van de spreker. Zij concludeerden beiden dat er geen verschil was tussen deze twee soorten beelden. Daarom is één beeldsoort met alleen een zichtbare spreker voldoende, één beeldsoort met tekst-ondersteunende beelden en één variant waar geen beelden zijn. Wellicht is er een verschil te vinden tussen deze drie varianten. Daarnaast zouden participanten hun mening kunnen geven over de soorten beelden. Dan zou er gekeken kunnen worden naar het verschil in presteren en waar ze een voorkeur voor hebben. Koster (2014) suggereerde dat studenten meer gemotiveerd waren, doordat ze videobeelden prefereerden en vervolgens presteerden ze daardoor weer beter. Dit zou in vervolgonderzoek beter onderzocht kunnen worden met dus de mogelijkheid om een mening te geven over wat voor soort beelden dan beter zijn volgens toetsdeelnemers.

Als laatste zou het ook interessant zijn om meer te onderzoeken in hoeverre mensen naar de videobeelden kijken in combinatie met een van de vorige suggesties. Dus als bijvoorbeeld beelden geen toevoeging blijken te zijn, komt dit dan doordat de meerderheid er niet naar kijkt, zoals Alderson, Clapham et al. (1995), Brett (1997) en Gruba (1997) concludeerden? Of doordat het werkelijk niks toevoegt? Of als participanten tekst-ondersteunende beelden prefereren, is het dan ook zo dat ze liever wegkijken als er een spreker in beeld is? Of kijken ze dan wel gewoon naar de beelden? En als er luistertoetsen zijn voor verschillende taalniveaus, scoren alle deelnemers op alle taalniveaus dan slechter op hun toets wanneer ze vaker naar een video kijken of verschilt dit per niveau? Wagner (2010a) vond dit verschil wel, maar kan dit bevestigd worden als er per taalniveau een luistertoets is die op het niveau is afgestemd in plaats dat er één toets is voor vier verschillende niveaus?

(32)

32

6. Conclusie

Kortom, het antwoord op de vraag In hoeverre helpt beeld bij begrip van luistervragen? is aan de hand van de resultaten te beantwoorden dat beeld soms geen effect heeft op het begrip van luistervragen en soms wel, namelijk een negatief effect. Dit verschilt per vraag. Beide conclusies zijn tegen de verwachtingen in. Er werd verwacht dat beelden een toevoeging zouden zijn aan het begrip van luistervragen, maar nu is er gebleken dat het per vraag verschilt of het een invloed heeft of niet. In dit onderzoek was het positieve effect echter niet significant, waardoor de hypothese verworpen moet worden. Bij de ene luistervraag is beeld toevoegen namelijk een afleiding voor het begrip van de vraag en bij de andere luistervraag is beeld geen toevoeging, maar ook geen afleiding, volgens de huidige resultaten. Toch zijn deze conclusies op basis van de resultaten niet betrouwbaar, doordat de toets uit het huidige onderzoek onbetrouwbaar is en het onderzoek op veel manieren verbeterd zou kunnen worden, zoals eerder beschreven is. Er is dus nog veel meer onderzoek nodig om de vraag van het huidige onderzoek goed te kunnen beantwoorden.

Referenties

Alderson, J. C., et al. (1995). Language test construction and evaluation, Ernst Klett Sprachen. Andringa, S. (2015). Toetsing en evaluatie. Handboek Nederlands als vreemde taal in het volwassenenonderwijs. B. Bossers, F. Kuiken and A. Vermeer. Bussum.

Baltova, I. (1999). "Multisensory language teaching in a multidimensional curriculum: The use of authentic bimodal video in core French." Canadian Modern Language Review 56(1): 31-48. Brett, P. (1997). "A comparative study of the effects of the use of multimedia on listening comprehension." System 25(1): 39-53.

Buck, G. (2001). Assessing listening, Cambridge University Press.

Coniam, D. (2001). "The use of audio or video comprehension as an assessment instrument in the certification of English language teachers: A case study." System 29(1): 1-14.

Council, O. E. (2001). Common European framework of reference for languages, Cambridge university press.

Cross, J. (2011). "Comprehending News Videotexts: the Influence of the Visual Content." Language Learning & Technology 15(2): 44-68.