Hoezo spontaan?

(1)

Hoezo spontaan?

Een onderzoek naar de perceptie en productie van spontane en geacteerde high

arousal emoties

Masterscriptie

Neerlandistiek: Taal en Tekst in Gebruik

Joanne Schuitemaker

S2165066

(2)

2

Abstract

Emotionele spraak kun je herkennen aan de prosodie. Zo is boze spraak vaak intenser en meer opgewonden dan verdrietige spraak, maar blije spraak heeft net als boze spraak een moge mate van opwinding. Welke akoestisch kenmerken zorgen er dan voor dat we boze spraak toch kunnen onderscheiden van blije spraak? En welke invloed heeft de mate van spontaniteit op de perceptie en productie van emotionele spraak met een hoge mate van opwinding?

Dat is in dit scriptieonderzoek onderzocht: met behulp van 21 blije en boze spontane fragmenten, afkomstig van de Nederlandse televisie, en 21 blij en boze geacteerde fragmenten zijn verschillende analyses op pitcheigenschappen en een perceptie-experiment uitgevoerd. Voor het perceptie-experiment waren alle frequenties boven de 500 Hz verwijderd, zodat de fragmenten klonken alsof iemand achter een deur stond te praten. 52 participanten hebben deze gemaskeerde fragmenten beoordeeld als boos of blij.

Uit het perceptie-experiment is gebleken dat boze en blije spraak in de gemaskeerde fragmenten niet te onderscheiden waren. Bovendien bleek uit analyses van de pitch-range dat er hierin geen verschil bestond tussen blije en boze spraak. Daarmee bevestigt dit onderzoek eerder onderzoek, zoals Gilbers et al. (2015) waaruit is gebleken dat emoties met een hoge mate van opwinding niet verschillen wat betreft deze pitch-eigenschappen.

(3)

3

Inhoudsopgave

Abstract ... 2 1. Inleiding ... 5 2. Literatuurreview ... 7 2.1 Emoties ... 7 2.1.1. Emoties in spraak ... 8

2.1.2 Mogelijk- en moeilijkheden in taalkundig emotie-onderzoek ... 12

2.2. Spontane vs. geacteerde spraak ... 13

2.2.1. Ideaalpatronen in spraak ... 14

2.3. Onderzoeksvragen ... 16

3. Hypotheses ... 18

4. Methode ... 19

4.1. Materiaal ... 19

4.1.1. Spontane fragmenten: pre-test ... 19

4.1.2. Geacteerde fragmenten ... 19 4.2. Perceptie-experiment ... 19 4.3. Participanten ... 20 4.4. Analyses fragmenten ... 20 4.3.1. Pitcheigenschappen en modaliteit ... 20 4.3.1. Force of Articulation ... 21 5. Resultaten ... 22 5.1. Pre-test ... 22 5.2. Perceptie-experiment ... 23

5.3. Akoestische kenmerken van blije en boze spraak ... 24

5.3.1. Pitch range ... 24

5.3.2. Voice Onset Time ... 25

5.4. Spontane vs. geacteerde spraak ... 26

5.4.1. spontane en geacteerde spraak in het perceptie-experiment ... 26

5.4.2. Invloed van spontaniteit op de pitch range ... 26

5.4.3. Dominante pitches en modaliteit ... 27

6. Discussie ... 29

6.1. Perceptie-experiment ... 29

6.1.1. Blij en boos niet herkend... 29

6.1.2. Geacteerde fragmenten vaker correct herkend dan spontane fragmenten ... 29

6.2. Analyses emotionele spraak ... 30

(4)

4

6.2.2. Voice Onset Time ... 31

6.2.3. Dominante pitches en modaliteit ... 32

7. Conclusies ... 33

Bibliografie ... 34

Bijlage ... 37

1. Vragenlijst beoordelen emoties ... 37

(5)

5

1. Inleiding

“Ik vond het zó leuk om te doen, ik weet niet of het ergens naar klonk, maar het was in ieder geval héél leuk om te doen!” vertelde Susan Smit, nadat ze voor de eerste keer dirigent had gespeeld voor het programma Meastro van AVROTROS. Ze was duidelijk erg blij, dat was te horen aan het woord ‘leuk’ dat ze twee keer gebruikte, maar ook aan de manier waarop ze het zei.

Haar boodschap werd dus op twee manieren overgebracht: met behulp van semantische informatie en met behulp van para-linguïstische informatie. De semantische informatie bevat de betekenissen van waarden en zinnen en de para-linguïstische informatie verwijst naar de manier waarop woorden worden uitgesproken. De prosodie speelt hierbij de sleutelrol, zo kan bijvoorbeeld de lettergreep met de klemtoon verlengd worden en kunnen de snelheid en de toon verhoogd worden. Op die manier kunnen met de para-linguïstische informatie impliciete boodschappen overgebracht worden, bijvoorbeeld de emotionele toestand van de spreker (Nwe et al., 2003). Maar ook ironie of vragen worden duidelijk gemaakt door de prosodie. Het belang van prosodie is goed te zien bij de volgende zin: “I suppose you think England is going to win the

World Cup.” Deze zin kan op verschillende manieren geïnterpreteerd worden: als een grapje, een

oprechte vraag of als een meer agressieve uitdaging. Wat de intentie van de spreker was, kan afgeleid worden uit zijn prosodie (Cowie et al., 2001).

Hoe de het lichaam en daarbij de prosodie wordt beïnvloed door emoties werd in 1981 door Williams en Stevens beschreven. Zij schreven dat door emoties met een hoge mate van opwinding, zoals angst, boosheid en blijheid wordt het sympathisch zenuwstelsel beïnvloed, hierdoor gaat het hart sneller kloppen, de bloeddruk gaat omhoog, de mond wordt droger en er zijn incidentele samentrekkingen van spieren. Maar ook het stemgeluid wordt beïnvloed, dit wordt namelijk luider, sneller en intenser. De andere kant op werkt het ook: door emoties met een lage mate van opwinding zoals verdriet gaan hartslag en bloeddruk omlaag, speekselafscheiding omhoog en wordt het stemgeluid langzamer en minder intens (Williams en Stevens, 1981).

In meer recent onderzoek wordt duidelijk welke akoestische cues bij deze emoties met hoge en lage mate van opwinding een rol spelen. Bijvoorbeeld in het onderzoek van Gilbers et al. (2015). Uit dit onderzoek bleek onder andere dat emoties met een hoge mate van opwinding een hogere gemiddelde toonhoogte en een grotere verschil in toonhoogte hadden dan emoties met een lage mate van opwinding. Op die manier kunnen bijvoorbeeld de emoties boos (met een hoge mate van opwinding) en verdrietig (met een lage mate van opwinding) van elkaar onderscheiden worden. Het is echter onduidelijk hoe mensen het onderscheid maken tussen negatieve en positieve emoties met dezelfde mate van opwinding, dus bijvoorbeeld tussen blij en boos.

(6)

6

onderzochte emoties maar deels natuurlijke emotiepatronen simuleren. Schrerer (2003) gaat in zijn artikel ook op deze kwestie in. Wanneer acteurs wordt gevraagd om zinnen emotioneel uit te spreken, kan het niet uitgesloten worden dat zij duidelijke cues voor emoties extra benadrukken en meer subtiele cues missen. De geacteerde spraak zou dan meer de socioculturele normen en verwachtingen reflecteren dan de psychofysiologische effecten op de stem wanneer emoties voorkomen onder normale omstandigheden.

In dit scriptieonderzoek zal gekeken worden of mensen het verschil tussen negatieve en positieve emoties met gelijke waarde van opwinding kunnen waarnemen wanneer de semantische informatie gemaskeerd is. Tevens zal onderzocht worden of geacteerde emotionele spraak andere akoestische cues bevat dan spontane emotionele spraak. De vraag die in dit onderzoek gesteld wordt is dan ook: Hoe maken mensen onderscheid tussen negatief en positief geladen emotionele spraak en welke invloed heeft de mate van spontaniteit op de perceptie?

(7)

7

2. Literatuurreview

2.1 Emoties

In dit scriptieonderzoek staan emoties centraal. Emoties kunnen vanuit veel verschillende disciplines worden bekeken. Bijvoorbeeld vanuit de biologie, psychologie of sociologie, maar ook vanuit de taalkunde. Binnen te taalkunde kan ook vanuit verschillende perspectieven naar emoties gekeken worden. In deze scriptie is ervoor gekozen om een fonologisch perspectief te nemen en minder de nadruk te leggen op de sociolinguïstische aspecten van dit onderwerp.

Toch zal er eerst kort algemeen ingegaan worden op de verschijning die wij ‘emotie’ noemen, te beginnen met de vraag: wat zijn emoties eigenlijk? Dat lijkt wellicht een simpele vraag, iedereen kent immers wel emotionele gevoelens. Desalniettemin is het lastig een goede definitie van emoties te geven. Frijda (2005) geeft in het begin van zijn boek ‘De Emoties’ de volgende definitie van het begrip emotie: ‘de innerlijke determinant van instrumenteel gedrag en niet-instrumentele gedragsaspecten’ (p13). Hiermee wordt bedoeld dat de emotie een innerlijke omstandigheid is die gedrag bepaalt. Neem bijvoorbeeld het gedrag van iemand die opeens met borden begint te smijten. Hoogstwaarschijnlijk zijn de gebroken borden niet het gewenste eindresultaat, daarom kan zijn gedrag beschreven worden in termen van boosheid of woede.

De emotie in het voorbeeld hierboven is vergankelijk en zal waarschijnlijk niet langer dan een paar minuten duren. Daarom wordt dit ook wel een emotie in engere zin genoemd. Dit verwijst naar een opwinding op kortere termijn (Nwe et al., 2003). De emotie is op dat moment tijdelijk de dominante factor in het mentale leven: de emotie zet aan tot bepaalde acties. Een andere term voor deze korte termijn emotie is full-blown-emotie. Tegenover de emotie in engere zin staat de emotie in brede zin. De emotie in brede zin zou een onderliggende emotie genoemd kunnen worden. Deze kleurt de gedachtes en acties van iemand zonder dat de emotie de controle overneemt (Cowie et al., 2001).

(8)

8

Als emotionele expressies vaak correct geïnterpreteerd worden, rijst de vraag of deze dan ook als communicatief gedrag gezien kunnen worden. Volgens Nwe et al. (2003) behoort de emotionele toestand van de spreker tot de para-linguïstische informatie die spraak overbrengt. Aan de hand van de informatie die de luisteraar afleidt uit de toestand van de spreker kan hij of zij de boodschap van de spreker (beter) interpreteren, wat dat betreft is emotionele expressie dus wel communicatief. Maar volgens Ekman (2012) zijn de emotionele expressies van de spreker in eerste instantie niet bedoeld als communicatief. Hij stelt dat expressies vaak onvrijwillig zijn; wanneer een emotie optreedt, worden altijd impulsen naar bijvoorbeeld de gezichtsspieren gestuurd, daar kunnen we niet over kiezen. In het geval van zulke ‘echte’ emotionele expressies is er dus geen sprake van een communicatief doel. Wanneer de emoties echter geveinsd of geacteerd worden, zijn ze wel vrijwillig en intentioneel. Deze zogenaamde ‘false expressions’ zijn volgens Ekman (2012) dan ook anders dan echte emotionele expressie.

Spontane emoties verschillen dus in ieder geval qua communicatief doel van geacteerde emoties. Dit onderzoek gaat in op de invloed die de mate van spontaniteit heeft op het stemgeluid. Hiervoor worden veelal emoties in de bredere zin gebruikt.

2.1.1. Emoties in spraak

Voordat verder ingegaan wordt op het verschil tussen geacteerde en spontane emoties, zal eerst de invloed van emotie op spraak besproken worden. In de inleiding werd al genoemd dat emoties het sympathisch zenuwstelsel beïnvloeden. Bij emoties met een hoge mate van opwinding gaat onder andere het hart sneller kloppen en gaat de bloeddruk omhoog, maar daarbij wordt ook het stemgeluid beïnvloed, dit wordt luider, sneller en intenser. Bij emoties met een lage mate van opwinding gaat dit precies andersom: hartslag en bloeddruk gaan omlaag en ook wordt het stemgeluid langzamer en minder intens (Williams en Stevens, 1981).

De invloed die emotie op spraak heeft kan met behulp van verschillende akoestische kenmerken beschreven worden. Wanneer naar het prosodische domein gekeken wordt, kunnen bijvoorbeeld de variabelen toonhoogte (de fundamentele frequentie), intensiteit en tempo gebruikt worden om het stemgeluid te beschrijven. Daarnaast kan in termen van gespannen (tense), ruw (harsh) en hees (breathy) de stemkwaliteit beschreven worden (Nwe et al., 2003).

(9)

9

Boosheid

Blijdschap

Angst

Verdriet

mean pitch

Verhoogd Verhoogd Verhoogd verlaagd

Pitch range

Veel groter Veel groter Vergroot Verkleind

intensiteit

Verhoogd Verhoogd Normaal verlaagd

spreeksnelheid

Hoog Verhoogd, laag Verhoogd,

verlaagd Verlaagd

stemkwaliteit

Gespannen, hees, zware borst toon, schetterend Gespannen, hees, schetterend Gespannen, onregelmatige intonatie Laks, resonerend

Tabel 1: akoestische kenmerken emotie

In deze tabel is te zien dat sommige spraakeigenschappen niet specifiek bij individuele emoties horen. Dat impliceert dat het mogelijk is dat bepaalde emotie gemakkelijk voor een andere emotie kan worden aangezien (Nwe et al., 2003). Boosheid en blijdschap hebben bijvoorbeeld veel gemeenschappelijke kenmerken.

Kenmerkend voor boosheid en blijdschap is namelijk dat deze emoties een hoge mate van opwinding kennen. Dit wordt ook wel arousal genoemd en is één van de twee parameters waarlangs emoties gerangschikt kunnen worden. De andere parameter is de waarde (valence) van de emotie. Deze kan positief of negatief zijn, dit is bijvoorbeeld het verschil tussen blij en boos. In de rest van deze scriptie zal de Engels term arousal gebruikt worden in plaats van het Nederlandse woord opwinding.

Luo et al. (2007) suggereren dat sprekers met behulp van de toonhoogte alleen onderscheid kunnen maken tussen hoge en lage arousal-emoties en niet tussen emoties met verschillende waardes. Gilbers et al. (2015) bevestigen dit op basis van onderzoek met behulp van nonsensuitingen. Zij hebben een onderzoek gedaan naar pitcheigenschappen in emotionele spraak waarbij proefpersonen niet-bestaande frases hebben uitgesproken met verschillende emotionele ladingen. Zie tabel 2 voor deze emoties en de verdeling langs de parameters waarde en opwinding.

Tabel 2: parameters en emoties

Waarde

Arousal

Positief Negatief Hoog Blijdschap Boosheid

Laag Opluchting Verdriet

(10)

10

hoge en een lage mate van arousal. Bij de emoties met een hoge mate van arousal was de mean pitch significant hoger en de pitch range significant groter. Daarnaast waren er ook significant meer dominante pitches waargenomen bij emoties met een hoge mate van arousal dan bij emoties met een lage mate van arousal. Het verschil tussen emoties met dezelfde mate van arousal, maar met verschillende waardes, zoals boos en blij, was niet aan te tonen met behulp van pitcheigenschappen.

Maar zoals in tabel 1 al aangegeven is, heeft emotie niet alleen invloed op de pitcheigenschappen in spraak. Ook bijvoorbeeld de duur, pauzes en formantwaardes in de spraak worden beïnvloed door emoties. Yildirim et al. (2004) hebben onderzoek gedaan naar akoestische kenmerken van emotionele spraak, vergeleken met neutrale spraak. Zij hebben een semiprofessionele actrice zinnen uit laten spreken met verschillende emotionele prosodie: verdriet, boosheid, blijdschap en neutraal. Deze zinnen zijn onder andere geanalyseerd op duur, spreeksnelheid en toonhoogte. Er is gebleken dat uitingen die geladen zijn met een boze, blij of verdrietige emotie langer duren dan neutrale uitingen. Ook hebben verdrietige, boze en blije spraak grotere variatie in spreeksnelheid dan neutrale spraak. Deze verschillen zijn waar te nemen tussen alle emoties, behalve tussen boos en blij. Uit de analyses van de toonhoogte (pitcheigenschappen) bleek dat boze en blije spraak een hogere gemiddelde pitch hebben dan neutrale spraak. Er wordt dan ook geconcludeerd dat blijdschap en boosheid (net als neutraal en verdriet) dezelfde akoestische eigenschappen delen in de spraak van hun actrice. Dit komt dus overeen met de gegevens uit het onderzoek van Gilbers et al (2015).

(11)

11

de blije uitingen werd een verhoging van beide formanten gevonden, al werd de eerste formant meer beïnvloed door de emotie dan de tweede formant.

Om de nauwkeurigheid van articulatie te meten, hebben Kienast en Sendlemeier (2000) niet alleen de formantwaardes van de klinkers gemeten, maar ook assimilaties en verwijdering van segmenten. Dit hebben zij gedaan met behulp van het ‘Lautminderungsquotient’ (LMQ) dat ontwikkeld was door Hildebrandt (1963). Uit de resultaten is gebleken dat in boze spraak minder vaak segmenten werden verwijderd dan in alle andere emoties en dat assimilatie minder vaak voorkwam in boze spraak dan in neutrale spraak. Ook in blije spraak komt assimilatie minder vaak voor dan in neutrale spraak.

Er werd geconcludeerd op basis van de gegevens van de formantenanalyse en segmentreductie dat de zinnen waarin boosheid werd geuit het meest nauwkeurig werden gearticuleerd in vergelijking met andere emoties en met neutrale spraak. Deze hogere mate van nauwkeurigheid bij de productie van klinkers kan verklaard worden door het feit dat klinkers in zinnen met een boze emotionele lading zijn verlengd en doordat in boze spraak meer beklemtoonde lettergrepen zijn (en minder onbeklemtoonde lettergrepen). In lange en beklemtoonde lettergrepen worden klinkers preciezer gearticuleerd. (Kienast, Paeschke en Sendlmeier, 1999; Paeschke, Kienast en Sendlemeier, 1999; Lindblom, 1963; Moon en Lindblom 1994).

In Tatham en Morton (2004) is een tabel opgenomen van Stibbard (2001) waaruit ook blijkt dat in boze spraak de beklemtoonde lettergrepen langer duren en dan in blije spraak en dat er minder lettergrepen per seconde in de gemiddelde uiting voorkomen dan in blije spraak. Uit deze tabel blijkt tevens dat er geen verschillen in mean pitch en pitch range zijn tussen blije en boze spraak.

Emoties met dezelfde mate van arousal kunnen meestal dus niet gekarakteriseerd worden met behulp van pitcheigenschappen. In tegenstelling tot emoties met een verschillende mate van arousal. Deze worden niet alleen gekenmerkt door verschillen in pitcheigenschappen, maar ook door centralisatie van klinkers bij low arousal emoties en decentralisatie van klinkers bij high arousal emoties.

(12)

12

blijk opnieuw dat boosheid en blijdschap erg dicht bij elkaar liggen qua akoestische kenmerken. Zie figuur 1.

In deze figuur zijn drie stadia te zien waarin emoties herkend worden. In het eerste stadium wordt gekeken naar het ‘activatie level’, dat wil zeggen de mate van arousal. In het tweede stadium wordt gekeken naar de sterkte van het spraaksignaal. Als deze bij low arousal emoties laag is, dan kun je verdriet horen, is deze bij high arousal emoties laag, dan kun je angst horen. Is deze echter bij high arousal hoog, dan hoor je blijdschap of boosheid. Het verschil tussen deze twee wordt in het derde stadium alleen nog gemaakt door de waarde van de emotie, de ‘evaluation dimension’. Hoe dit verschil wordt gemaakt is nog onduidelijk, daarom zal in dit scriptieonderzoek met behulp van een perceptie-experiment gekeken worden of mensen zelf het verschil tussen blije en boze emoties wel kunnen horen aan de intonatie als de semantische inhoud gemaskeerd is.

2.1.2 Mogelijk- en moeilijkheden in taalkundig emotie-onderzoek

Als emotie in de prosodie zou kunnen worden herkend door apparaten, zouden er tal van mogelijkheden open gaan. Het zou bijvoorbeeld gebruikt kunnen worden in games en educatieve software om enthousiasme of verveling te detecteren, of in life-support systemen om paniek te detecteren of bij commerciële producten (Ang et al., 2002). Maar het labelen van emoties is nog niet zo gemakkelijk. Ten eerste wordt emotie overgebracht op een glijdende schaal, waardoor er (soms onnatuurlijke) grenzen moeten worden getrokken. Ten tweede variëren emoties enorm per persoon en per context; wat bij de ene persoon in een bepaalde context heel boos is, zal voor een ander misschien wel een andere betekenis hebben (Ang et al., 2002). Ten derde is er veel onderzoek gedaan waarbij geacteerde emoties werden geanalyseerd en beoordeeld. Zoals in de inleiding al genoemd is, kan het niet worden uitgesloten dat acteurs duidelijke cues voor emoties extra benadrukken en subtiele cues missen. Het kan dus zo zijn dat geacteerde emoties meer de socioculturele normen en verwachtingen reflecteren dan de psychofysiologische effecten op de stem van spontane emoties (Schrerer 2003). Daarom gaat het volgende hoofdstuk over het verschil tussen spontane en geacteerde spraak.

(13)

13

2.2. Spontane vs. geacteerde spraak

In veel onderzoek naar emotie(herkenning) in spraak is gebruik gemaakt van geacteerde data. Maar het is tot nog toe onduidelijke in welke mate geacteerde emoties representatief zijn voor echte emoties. Wilting, Krahmer en Swerts (2006) hebben onderzoek gedaan naar de relatie tussen audiovisuele expressie van geacteerde en spontane emoties. Hierbij hebben ze onder andere gekeken hoe de perceptie van geacteerde emoties verschilt van de perceptie spontane emoties. Participanten in dit onderzoek kregen sprekers in verschillende emotionele toestanden te zien en moesten op een 7-puntsschaal aangeven hoe sterk de getoonde emotie was. Er werd geconcludeerd dat geacteerde emotie extremer waargenomen werd dan de spontane emotie. Het verschil tussen geacteerde en echte emoties was het grootst bij de negatieve condities. In dit experiment werd echter alleen het gezicht van de spreker getoond; het stemgeluid was verwijderd.

Geacteerde emoties in gezichtsexpressie zijn dus duidelijk sterker dan spontane emoties. Maar hoe zit dat in spraak? Onderzoek van Levin, Schaffer en Snow (1982) heeft aangetoond dat het verschil tussen spontane en geacteerde spraak zichtbaar is door de posities van pauzes, de spreeksnelheid en de precisie van articulatie. Dit hebben zij onderzocht door docenten van een basisschool verhalen te laten voorlezen (niet spontaan) en te laten vertellen (wel spontaan). Deze verhalen hebben ze opgenomen en in stukjes van ongeveer 10 seconden geknipt. Vervolgens zijn de fragmenten door participanten beoordeeld op spontaniteit en bleek dat de voorgelezen fragmenten accuraat van de vertelde fragmenten werden onderscheiden. Al deze fragmenten zijn geanalyseerd en daaruit bleek dat in voorgelezen (niet spontaan) spraak de spreeksnelheid hoger lag, de articulatie preciezer was en dat pauzes bijna altijd samenvielen met de grammaticale zinsbouw in de voorgelezen spraak. Uit vergelijkbaar onderzoek van Laan (1997) was de bleek dat voorgelezen niet alleen afwijkt qua tempo van spontane spraak, maar dat voorgelezen spraak ook meer pitchvariatie en minder klinkerreductie bevat.

(14)

14

frequenties, afgerond op have tonen. Op die manier is een histogram gemaakt waarin te zien was welke halve tonen het meest frequent voorkwamen en welke afstand er tussen die tonen was. Bij de fragmenten die meerdere pieken, dus meerdere toonhoogtes, lieten zien in het histogram, kon onderscheid gemaakt worden tussen mineur en majeur: de blije Teigetje sprak in majeur en de sombere Iejoor in mineur.

Gilbers en Van Eerten (2010) hebben spontane en geacteerde blije spraak vergeleken en daarbij specifiek gekeken naar pitchvariatie en modaliteit. 22 participanten werd gevraagd om over hilarisch passages uit een film of boek te vertellen (spontane spraak). Daarna hebben 2 actrices de tekst van de participanten nagespeeld. Alle fragmenten waren in stukken van 5-10 seconden geknipt en daarvan zijn frequentieplots, gebaseerd op de pitch van elke lettergreep, gemaakt. De pitches waren afgerond op have tonen. Uit de analyses bleek dat geacteerde blije spraak vaker modaliteit bezat dan spontane emotionele spraak. Dat wil zeggen dat er in de geacteerde spraak meer variatie bestond in toonhoogte/pitch en dat de meest voorkomende toonhoogtes/pitches, afgerond op halve tonen, een afstand van 4 halve tonen tot elkaar hadden. Omdat dit niet of nauwelijks voorkwam in de spontane spraak, introduceerden Gilbers en Van Eerten (2010) modaliteit als een extra akoestische parameter om geacteerde spraak van spontane spraak te onderscheiden.

2.2.1. Ideaalpatronen in spraak

Geacteerde spraak verschilt dus van spontane spraak doordat de spreeksnelheid vaak lager ligt, de posities van pauzes samenvallen met de grammaticale zinsbouw, er minder klinkerreductie voorkomt, meer pitchvariatie is en soms zelfs modaliteiten te onderscheiden zijn in geacteerde spraak.

Je zou kunnen zeggen dat geacteerde spraak op een meer ideale manier gerealiseerd wordt dan spontane spraak. Dat heeft er mee te maken dat geacteerde spraak zich beter aan bepaalde ‘cue constraints’ houdt dan spontane spraak. Dat wil zeggen dat bij geacteerde spraak andere contraints voorrang krijgen dan bij normale spraak.

Constraints zijn beperkingen die aan de grammatica van een taal worden opgelegd. Elke

(15)

15

en jij voor een groen stoplicht, hoef je degene die van recht komt niet meer voor te laten. In dat geval is er een andere regel die belangrijker is van toepassing en mag de regel ‘rechts gaat voor’ geschonden worden.

De rangschikking van de constraints bepaalt dus hoe dat wat in je hoofd zit, wordt gerealiseerd. Er bestaan verschillende soorten constraints. Aan de ene kant heb je de

correspondence constraints, die vereisen dat de output zo veel mogelijk gelijk blijft aan de input

(de oppervlaktevorm is gelijk aan de onderliggende vorm). Hierdoor wordt het luistergemak vergroot. Aan de andere kant heb je de markedness constraints. Een voorbeeld hiervan is de constraint ‘least effort’, deze constraint pleit voor zo weinig mogelijk articulatorische inspanning. Hierdoor ontstaat bijvoorbeeld klinkerreductie en assimilatie, waardoor het sprekersgemak wordt vergroot. Correspondence constraints en markedness constraints zijn potentieel met elkaar in conflict. Om toch tot een optimale realisatie te komen, worden mogelijke realisaties geëvalueerd door de constraints en uiteindelijk wordt de meest optimale output gerealiseerd.

Naast de correspondence constraints en markedness constraints zijn er ook de eerder genoemde cue-constraints, deze zorgen ervoor dat de oppervlaktevorm zo ideaal mogelijk wordt vormgegeven, ze beschrijven de geïdealiseerde vormen als optimaal. Een voorbeeld van zo’n cue constraint is volgens Gilbers en Van Eerten (2010) dus modaliteit: wanneer de cue constraints hun input gaan evalueren, zijn ze tevreden als blije spraak majeurmodaliteit laat zien en verdrietige spraak mineurmodaliteit. Deze cue-constraint voor modaliteit is echter in conflict met de articulatorische constraint ‘least effort’, want de cue-constraint geeft aan hoe je de realisatie zo ideaal mogelijk kunt maken en de articulatorische constraint juist hoe je de realisatie met zo min mogelijk inspanning kunt maken. Bij geacteerde spraak zijn (in extreme gevallen) modaliteiten waar te nemen en in spontane spraak niet, daarom wordt gesteld dat geacteerde spraak zich vaker aanpast aan de cue-constraints en dat de spontane spraak zich vaker aanpast aan de articulatorische constraint ‘least effort’. Deze constraints hebben dus niet een strikte hiërarchie, ze overlappen elkaar (Gilbers en Van Eerten, 2010).

Voor emotionele spraak bestaat dus een cue-constraint, die het gebruik van mineur- of majeurmodaliteiten als optimaal beschrijft. Dit zou je ook een ideaalpatroon of cognitief templaat kunnen noemen. Dit ideaalpatroon wordt vooral toegepast in zeer overdreven geacteerde spraak zoals bij Teigetje en Iejoor. Deze geacteerde spraak zou vergelijkbaar kunnen zijn met de manier waarop mensen tegen jonge kinderen praten, in beide gevallen is namelijk sprake van een overdreven realisatie.

(16)

16

gearticuleerd. Hierdoor is de klinkerdriehoek van moeders die tegen kinderen praten twee keer zo groot als normaal (Kuhl, 2004, p.839). Deze overdreven manier van spreken helpt kleine kinderen om de belangrijkste kenmerken van de klanken van hun taal te leren.

Het taalaanbod dat kleine kinderen krijgen is dus een ideale, ofwel extra duidelijke, vorm. Bij de productie van spraak spelen ideaalpatronen dus een rol, maar deze zijn ook bij de perceptie van spraak van belang. Wanneer je bijvoorbeeld iemand niet helemaal goed kan verstaan, vul je zelf aan wat de denkt te horen op basis van ‘hoe jij denkt dat het zou moeten’/de ideaalpatronen van jouw taal. Een voorbeeld is het “mama-appelsap-fenomeen”. De songteksten in een voor Nederlanders vreemde taal, worden soms verkeerd verstaan. Een Nederlander hoort bijvoorbeeld “waar is toch dat zebrahondje voor”, wanneer de zanger “vai estar pro sempre aonde for” (Lambada). Dit fenomeen laat zien dat ideaalpatronen ook de perceptie van akoestische signalen beïnvloeden.

Misschien zijn het niet zo zeer de eerder genoemde socioculturele normen en verwachtingen die voor het verschil tussen geacteerde en spontane spraak zorgen, maar cognitieve ideaalpatronen die de productie van geacteerde spraak sturen.

2.3. Onderzoeksvragen

Emotie beïnvloedt het stemgeluid: door emoties wordt de spraak soms intenser en sneller of juist andersom. Emoties in spraak kunnen middels twee parameters verdeeld worden: de arousal-parameter en de waarde-arousal-parameter. Met behulp van pitcheigenschappen kunnen emoties met een verschillende mate van arousal gekarakteriseerd worden. Maar emoties met eenzelfde mate van arousal en verschillende waardes lijken niet goed met behulp van pitcheigenschappen gekarakteriseerd te kunnen worden. Boos en blij zijn voorbeelden van emoties met een hoge mate van arousal en met verschillende waardes. Tot nu toe is er geen duidelijkheid hoe deze emoties met behulp van akoestisch kenmerken van elkaar kunnen worden onderscheiden. Daarom wordt in deze scriptie onderzocht of mensen eigenlijk het onderscheid tussen boze en blije emoties weten te maken als zij niet de inhoud van de spraak horen, maar alleen de gemiddelde pitch en de pitch range. De eerste vraag die in dit onderzoek wordt gesteld is dan ook:

Herkennen mensen positieve en negatieve emoties met dezelfde mate van arousal als alleen de prosodie te horen is?

Een vraag die bij deze eerste vraag hoort is:

Zijn er akoestische kenmerken die het verschil maken tussen boze en blije emotionele spraak?

(17)

17

subtielere akoestische kenmerken waar nog weinig onderzoek naar is gedaan. Daarom zijn de volgende twee deelvragen bij dit onderwerp te onderscheiden:

o Is pitch een factor die het verschil tussen blije en boze spraak maakt?

o Is Voice Onset Time een factor die het verschil tussen blije en boze spraak maakt?

Veel onderzoek naar emoties in spraak heeft gebruik gemaakt van geacteerd materiaal. Maar geacteerde emoties zijn niet altijd hetzelfde als spontane emoties. Ten eerste niet omdat spontane/echte emoties niet zo zeer tot een communicatief doel dienen en geacteerde emoties wel. Ten tweede verschillen geacteerde emoties van spontane emoties in akoestische kenmerken zoals de spreeksnelheid en de posities van pauzes. Daarom worden in dit scriptieonderzoek niet alleen geacteerde, maar ook spontane emoties gebruikt. Op die manier kan onderzocht worden welke invloed de mate van spontaniteit van emoties op de perceptie en productie van spraak heeft. De tweede onderzoeksvraag is dan ook:

Welke invloed heeft de mate van spontaniteit op de perceptie en productie van emotionele spraak?

Omdat eerder onderzoek van Gilbers en Van Eerten (2010) aangetoond heeft dat in geacteerde spraak vaker modaliteiten worden gevonden dan in spontane spraak, wordt hier in dit onderzoek ook naar gekeken. Daarnaast wordt gekeken of er een verschil in pitch range bestaat tussen geacteerde en spontane spraak. Daarom zijn de volgende deelvragen bij dit onderwerp te onderscheiden:

o Komt in geacteerde spraak vaker modaliteit voor dan in spontane spraak?

(18)

18

3. Hypotheses

In dit scriptieonderzoek wordt allereerst gekeken naar het onderscheid tussen blije en boze spraak. Middels een perceptie-experiment waarbij participanten gemaskeerde blije en boze fragmenten te horen krijgen, zal gekeken worden of mensen het onderscheid tussen boze en blije spraak kunnen horen wanneer de semantische inhoud niet hoorbaar is. Tijdens dit experiment kunnen de participanten dus enkel de gemiddelde pitch en de pitch range horen. Op basis van de eerder besproken literatuur kan verwacht worden dat mensen het onderscheid tussen blije en boze spraak niet kunnen horen wanneer alleen de toonhoogtes van het geluid te horen zijn.

Omdat in eerder onderzoek vooral gekeken is naar de pitcheigenschappen en intensiteit van high arousal-emoties, zal dit onderzoek de boze en blije fragmenten niet alleen op pitch analyseren, maar ook op meer subtiele parameters, in dit geval zal dat de Voice Onset Time zijn. Er is gekozen voor de Voice Onset Time omdat deze een manier is om de kracht van de articulatie te meten, andere parameters zouden de mate van reductie of sterkte-zwakte ratio van lettergrepen kunnen zijn (Gilbers et al., 2013). Er wordt verwacht dat, als er een verschil te meten zou kunnen zijn tussen boze en blije emotie, de VOT één van de parameters kan zijn die het verschil maakt tussen high arousal-emoties met verschillende waardes. De boze spraak zou een grotere VOT hebben dan de blije spraak, omdat uit onderzoek van Kienast en Sendlemeier (2001) is gebleken dat in boze spraak preciezer wordt gearticuleerd en omdat de acteurs die aan dit onderzoek hebben meegewerkt aangaven dat zij pittiger, duidelijker en meer staccato articuleerden wanneer zij boos acteerden. In eerder onderzoek is VOT nog niet gebruikt om onderscheid tussen high-arousal emoties aan te tonen.

Het tweede deelonderwerp van dit onderzoek is het verschil tussen spontane en geacteerde emotionele spraak. Uit de literatuur is gebleken dat geacteerde spraak herkenbaar is door positie van pauzes, spraaksnelheid, precisie van articulatie en de soms zelfs door de aanwezigheid van modaliteiten (Levin et al, 1982; Gilbers en Van Eerten, 2010). Bij de productie van spraak spelen zogenaamde ideaalpatronen een rol, in geacteerde spraak worden deze afgezwakt door lenitie-effecten, maar in geacteerde spraak helpen deze juist om een optimale realisatie te creëren. Daarom wordt verwacht dat de geacteerde spraak eerder als boos of blij herkend wordt, als de inhoud niet te horen is, dan de spontane spraak.

(19)

19

4. Methode

4.1. Materiaal

Voor dit scriptieonderzoek zijn spontane en geacteerde geluidsfragmenten gebruikt. De spontane geluidsfragmenten komen van de Nederlandse televisie. Uit de tv-programma’s Utopia, De wereld draait door, Maestro, Ik vertrek, RTL-late night, Man bijt hond en de Rijdende rechter zijn de spontane geluidsfragmenten gehaald. De criteria voor deze fragmenten waren dat er geen achtergrondmuziek te horen moest zijn en dan er maar één persoon tegelijk aan het woord was. In totaal waren er 38 fragmenten geselecteerd waarvan 11 uitingen van blije mannen, 9 uitingen van blije vrouwen, 10 uitingen van boze mannen en 8 uitingen van boze vrouwen. Om uit deze fragmenten een selectie te maken van de meest blije en boze fragmenten, is een pre-test ontworpen en uitgevoerd.

4.1.1. Spontane fragmenten: pre-test

Er zijn in totaal 38 fragmenten tussen de 1 en 8 seconden geselecteerd die ofwel uitingen van boze mensen ofwel uitingen van blije mensen bevatten. Om de meest blije en meest boze fragmenten te selecteren is een pre-test gehouden. Alle fragmenten zijn genummerd en met behulp van een Ipad, een koptelefoon en een vragenlijst zijn de fragmenten beoordeeld door twee vrouwelijke en een mannelijke student.

Op de vragenlijst konden de proefpersonen aangeven hoe blij of boos ze de fragmenten vonden klinken op een Likert-schaal van 1 tot 5. Eerst zijn de 20 blije fragmenten laten horen en daarna 18 boze fragmenten. Bij elk fragment moesten de proefpersonen aangeven of ze het fragment neutraal, een beetje blij/boos, redelijk blij/boos, duidelijk blij/boos of erg duidelijk blij/boos vonden klinken. Zie de bijlage voor het invulformulier. De proefpersonen konden zelf de geluidsfragmenten afspelen, zo vaak als ze wilden.

4.1.2. Geacteerde fragmenten

De geselecteerde spontane fragmenten zijn getranscribeerd en vervolgens op blije en boze wijze voorgelezen door een acteur en een actrice. De acteur heeft de uitingen die door een man gedaan waren nagespeeld en de actrice de uitingen die door een vrouw waren gedaan. Deze geacteerde fragmenten zijn opgenomen in een speciaal ingerichte audiostudio met behulp van het programma Adobe Audition. De acteur en actrice hebben de originele fragmenten van tevoren niet beluisterd en ze werden geïnstrueerd om de zinnen zo blij en boos mogelijk te acteren.

4.2. Perceptie-experiment

(20)

20

en vervolgens is er een FFT filter overheen gelegd, zodat alle frequenties boven de 500Hz niet meer te horen waren.

Alle gemaskeerde fragmenten zijn in willekeurige volgorde aan proefpersonen laten horen. Zij kregen van tevoren de volgende uitleg bij het experiment:

“Je krijgt in totaal 42 geluidsfragmenten te horen. Deze fragmenten bestaan uit uitingen van boze of blije mensen, maar ze klinken alsof iemand achter een deur staat te praten. De semantische inhoud is dus moeilijk te horen. De intonatie daarentegen is nog wel duidelijk hoorbaar. Het is de bedoeling dat je op basis van de intonatie aangeeft of je een blije of een boze spreker hoort.

De fragmenten die je te horen krijgt duren tussen de 1 en 10 seconden. Elk fragment krijg je 2 keer te horen en daarna geef je op onderstaand formulier aan of je een boze of blije spreker denkt te horen. Je mag elke keer maar 1 hokje aankruisen.”

Het invulformulier is opgenomen in bijlage 2. De participanten hadden bij elk fragment de keuze tussen boos of blij. Voordat het definitieve invulformulier is gemaakt, is eerst één keer getest met een formulier waarbij de proefpersoon ook de optie ‘neutraal/weet ik niet’ kon invullen. Uit deze test was gebleken dat dit bij twijfel vaak werd ingevuld, daarom is deze optie in het definitieve formulier verwijderd. Uit deze test bleek bovendien dat de semantische inhoud van de fragmenten inderdaad niet meer te verstaan was, dus de fragmenten uit de test waren klaar voor gebruik.

4.3. Participanten

In totaal hebben 52 participanten meegewerkt aan het perceptie-experiment. Dit waren 46 leerlingen van de middelbare school uit klas vwo 5, deze leerlingen waren tussen de 16 en 18 jaar oud. Deze leerlingen waren verdeeld over twee groepen en zij hebben in een klaslokaal deelgenomen aan het experiment. De overige 6 participanten waren studenten of ouderen en hebben individueel deelgenomen aan het experiment.

4.4. Analyses fragmenten

4.3.1. Pitcheigenschappen en modaliteit

(21)

21

Om te concluderen of er sprake was van modaliteit is de volgende formule gebruikt (Gilbers et al., 2010): er moeten minstens twee pieken te constateren zijn, de horizontale afstand tussen deze pieken moet minsten twee semitonen zijn (anders kunnen er geen twee pieken zijn) en de verhouding van de verticale afstanden van beide pieken ten opzichte van het laagst gelegen dal tussen die pieken mag niet meer dan 2,5 zijn.

4.3.1. Force of Articulation

Aangezien de acteurs aangaven niet alleen hun toonhoogte aan te passen wanneer zij blij of boos moesten spreken, maar ook de kracht van de articulatie, zijn de fragmenten ook hierop geanalyseerd. De actrice gaf aan dat haar articulatie “pittiger” en “duidelijker” was wanneer zij boos acteerde dan wanneer zij blij acteerde. Ook de acteur gaf aan dat hij bij de boze emotie meer “nadruk legt op korte klinkers”, dit zou geïnterpreteerd kunnen worden als meer staccato.

De kracht van articulatie kan op verschillende manieren gemeten worden. Ten eerste zou je naar de intensiteit van de spraak kunnen kijken, echter is hier het probleem dat dit medebepaald wordt door de afstand van de spreker tot de microfoon. Het is niet mogelijk geweest om dat in dit onderzoek constant te houden. Een andere manier waarop fortitie/kracht van articulatie gemeten kan worden is met de Voice Onset Time (Gilbers et al., 2013). Wanneer deze verlengt wordt krijg je een krachtigere realisatie van het geluid. Een voorbeeld is het woord ‘thee’, in het Nederlands gerealiseerd als [te:], dit wordt krachtiger wanneer het uitgesproken wordt als [th_{e:]. (Het klinkt dan ook meer als Duits.)}

(22)

22

5. Resultaten

In dit hoofdstuk zullen de resultaten gepresenteerd worden. Paragraaf 5.1. zal gaan over de pre-test, paragraaf 5.2. over het perceptie-experiment, paragraaf 5.3. over de akoestische kenmerken van blije en boze spraak en paragraaf 5.4. zal gaan over geacteerde en spontane spraak.

5.1. Pre-test

In tabel 3 zijn de resultaten van de pre-test te zien. Drie proefpersonen hebben op een vijfpunts Likert-schaal aangegeven hoe blij of boos ze de fragmenten vonden klinken. De eerste 20 fragmenten bevatten blije uitingen en de laatste 18 bevatten boze uitingen. Bij elk fragment moesten de proefpersonen aangeven of ze het (1) neutraal, (2) een beetje blij/boos, (3) redelijk blij/boos, (4) duidelijk blij/boos of (5) erg duidelijk blij/boos vonden klinken. Voor elk fragment is de gemiddelde beoordeling berekend en op basis van deze gegevens is een selectie gemaakt van de meest duidelijke fragmenten. De fragmenten met de nummers 18, 7, 19, 10, 6, 14, 12, 2, 20 en 13 zijn geselecteerd als blije fragmenten en de nummers 34, 27, 26, 25, 24, 23, 36, 35, 33 en 32 zijn geselecteerd als boze fragmenten. Bij dit selectieproces is rekening gehouden met de verdeling van mannelijke en vrouwelijke stemmen, zodat bij het perceptieonderzoek per emotie 5 mannenstemmen en 5 vrouwenstemmen te horen zijn.

Fragment Milou Nathalie Jelger Gemiddelde

(23)

23 6 3,5 5 2 3,5 33 3,5 4 3 3,5 10 3 5 3 3,666667 19 5 4 2 3,666667 35 3 4 4 3,666667 36 2 5 4 3,666667 23 4 4 4 4 24 4 5 3 4 25 4 4 4 4 26 4 4 4 4 27 3,5 5 4 4,166667 7 4 5 4 4,333333 34 4 5 4 4,333333 18 5 5 5 5

Tabel 3: resultaten pre-test

5.2. Perceptie-experiment

Met behulp van het perceptie-experiment is onderzocht of mensen boze spraak van blije spraak kunnen onderscheiden wanneer zij alleen de intonatie van de spraak horen. De 52 participanten moesten bij 42 fragmenten kiezen of zij deze boos of blij vonden klinken. Ze moesten dus een gedwongen keuze maken en daardoor was er 50% kans dat ze het goed zouden invullen. De resultaten van het onderzoek zijn als volgt: van de 2184 vragen waren in totaal 1248 goed beantwoord. Gemiddeld genomen hebben de participanten dus 24 van de 42 vragen goed beantwoord. Met behulp van een Chi-Kwadraat test is berekend of deze gevonden waarden significant afwijken van de verwachte waarden. Er bleek geen significant verschil te zijn, X2 _{(51) =}

39,47; p = 0,88. In figuur 2 is de boxplot te zien die weergeeft hoe veel goede antwoorden er gegeven werden.

Figuur 2: boxplot aantal goede antwoorden perceptie-experiment

15 17 19 21 23 25 27 29 31

Aantal goede antwoorden

(24)

24

5.3. Akoestische kenmerken van blije en boze spraak

Het doel van dit deel van het onderzoek was om te kijken of er akoestische kenmerken zijn die boze van blije spraak onderscheiden. Er is geanalyseerd op pitch range en op Voice Onset time.

5.3.1. Pitch range

Allereerst is er naar de pitch range gekeken. Deze is met behulp van het programma PRAAT berekend voor alle fragmenten die ook zijn gebruikt voor het perceptie-experiment. Met behulp van een univariate ANOVA test is gekeken of er significante verschillen bestaan in pitch range tussen boze en blije spraak. In tabel 4 is de gemiddelde pitch range van alle fragmenten opgenomen. Er is een klein verschil te zien tussen de blije en de boze spraak, maar een univariate ANOVA test heeft uitgewezen dat dit verschil niet significant is. Er is ook gekeken naar de geacteerde en spontane spraak apart, maar ook in deze categorieën is gebleken dat en geen significant verschil bestaat tussen boze en blije spraak wat betreft pitch range. Zie figuur 3 voor boxplots van de pitch range van boze en blije spraak.

Tabel 4: gemiddelde pitch range in Hz

Boos

Blij

Geacteerd 226,7 234,5

Spontaan 201,8 247,5

Totaal 214,2 240,4

(25)

25

5.3.2. Voice Onset Time

Van zeventien stemloze plofklanken aan het begin van de lettergreep is de Voice Onset Time gemeten om te onderzoeken of de kracht van de articulatie op deze manier het stemgeluid beïnvloedt bij verschillende emoties. In tabel 5 zijn de resultaten opgenomen. Er is te zien dat de Voice Onset Time in de blije spraak groter is dan in de boze spraak. Dit zijn echter gegevens van één persoon, waardoor het niet zinvol is statistiek toe te passen.

Lettergreep

blij

VOT

duur

lettergreep

VOT/Duur

lettergreep

To 16,7 79 0,21 Ko 21 177 0,12 Kan 16,4 92,8 0,18 Keer 31,3 203,3 0,15 Kans 22,4 261,4 0,09 Pa 18,7 75,3 0,25 tu 51,1 145,2 0,35 to 29,7 122,2 0,24 keer 4,8 123,4 0,04 gemiddeld: 23,56667 142.18 0.18 Boos Te 28,9 254 0,11 kan 16,3 236,6 0,07 Kan 10,2 215,8 0,05 po 19,6 138 0,14 pijn 4,7 228,9 0,02 Kont 32,6 354,7 0,09 te 21,8 200,5 0,11 Ko 18,9 123,6 0,15 gemiddeld: 19,125 219.03 0.093

(26)

26

5.4. Spontane vs. geacteerde spraak

5.4.1. spontane en geacteerde spraak in het perceptie-experiment

Tijdens het perceptie-experiment hebben de participanten geluisterd naar 42 fragmenten waarvan 21 spontaan waren en 21 geacteerd. Om de invloed van de spontaniteit op de perceptie te onderzoeken, is gekeken of de participanten de geacteerde fragmenten vaker of juist minder vaak goed herkenden dan de spontane fragmenten. De 52 participanten konden bij elk fragment aangeven of ze het boos of blij vonden klinken, dus in totaal zijn er 2148 antwoorden om te analyseren. De spontane fragmenten werden 512 keer fout herkend en 580 goed. De geacteerde fragmenten werden 424 fout herkend en 668 keer goed. Met behulp van een Chi-Kwadraat test is berekend of dit verschil significant is. Er werd een significant verschil gevonden tussen de groepen (X2(1) = 14,479; p = 0,000142). De emoties in de geacteerde fragmenten werden vaker correct herkend dan de emoties in spontane fragmenten.

5.4.2. Invloed van spontaniteit op de pitch range

Eerder in dit hoofdstuk is besproken welke invloed de emoties boosheid en blijdschap hebben op de pitch range, in deze paragraaf wordt besproken welke invloed de mate van spontaniteit heeft op de pitch range van emotionele spraak. De pitchanalyses die met behulp van het programma PRAAT zijn gemaakt, zijn vergeleken met een univariate ANOVA test. De geacteerde fragmenten hadden een gemiddelde pitch range van 230,9 Hz en de spontane fragmenten hadden een gemiddelde pitch range van 224,6 Hz. In figuur 4 is te zien hoe de pitch range in spontane en geacteerde taal van elkaar verschillen. Dit verschil is echter erg klein en niet statistisch significant.

(27)

27

5.4.3. Dominante pitches en modaliteit

Om de vraag te beantwoorden of er vaker modaliteit voorkomt in geacteerde spraak, zijn van alle 42 geselecteerde fragmenten histogrammen gemaakt waarop te zien is welke toonhoogtes het meeste voorkomen in de spraak. In figuur 5 is een voorbeeld te zien van zo’n histogram van spontane spraak en in figuur 6 is een histogram te zien van geacteerde spraak.

Figuur 5: spontane spraak

Figuur 6: geacteerde spraak

In deze histogrammen zijn de toonhoogtes te zien van de zin: “De dokter, jahaha daar is ‘ie!” Op de horizontale as staan de halve tonen, zoals bekend van de muziek, en op de verticale as staat de frequentie van die halve tonen aangegeven. Er is te zien dat in de spontane spraak vooral op de toonhoogte gesproken wordt die overeenkomt met de B uit de muziek. In de geacteerde spraak daarentegen is te zien dat er drie toonhoogtes dominant zijn, in dit geval de F, A# en de C. Van alle 42 fragmenten is een dergelijk histogram gemaakt, vervolgens zijn alle dominante toonhoogtes

(28)

28

(29)

29

6. Discussie

6.1. Perceptie-experiment

6.1.1. Blij en boos niet herkend

Het eerste doel van dit scriptieonderzoek was om te onderzoeken of mensen verschillende high arousal emoties van elkaar konden onderscheiden als zij alleen de intonatie konden horen. Hiervoor is een perceptie-experiment gehouden waarbij 52 participanten naar 20 boze en 22 blije fragmenten moesten luisteren. Deze fragmenten klonken alsof iemand achter een deur stond te praten, want alle frequenties boven de 500Hz waren verwijderd. Uit de resultaten is gebleken dat de participanten in dit onderzoek de fragmenten niet konden herkennen als boos of blij. Gemiddeld genomen hadden de participanten 24 van de 42 fragmenten goed herkend, een getal dat bijna gelijk is aan de gokkans.

Deze uitkomst in is lijn met de hypothese die eerder gesteld was. Op basis van de literatuur werd verwacht dat het verschil tussen een boze en een blije emotie in spraak niet te horen zou zijn. Boze en blije emoties hebben namelijk allebei een hoge mate van arousal, dat wil zeggen dat de het stemgeluid niet alleen luider, sneller en intenser wordt, maar ook dat de toonhoogte gemiddeld genomen hoger ligt, de pitch range groter is en er meer dominante pitches aanwezig zijn dan bij emoties met een lage mate van arousal (Gilbers et al., 2015). Dat mensen dan toch emoties op basis van hun waarde kunnen herkennen (Banse en Schrerer, 1996), zal waarschijnlijk niet te maken hebben met de toonhoogte en pitch range, want deze waren in dit experiment nog duidelijk hoorbaar. Om erachter te komen welke parameters dan wel een rol spelen bij het onderscheiden van high arousal emoties, zal gezocht moeten worden in meer subtielere parameters, zie paragraaf 6.2.2.

6.1.2. Geacteerde fragmenten vaker correct herkend dan spontane fragmenten

In het perceptie-experiment waren 21 spontane fragmenten opgenomen en 21 geacteerde fragmenten. Deze fragmenten bestonden uit dezelfde uitingen, uitgesproken door verschillende personen. Uit de resultaten is gebleken dat de geacteerde fragmenten significant vaker juist werden herkend dan de spontane fragmenten. Hoewel dit in lijn is met de gestelde hypothese, is dit wel een opvallend resultaat.

(30)

30

in de geacteerde spraak beter herkennen dan de emotie in de spontane spraak. In spontane spraak wordt de emotie immers minder ideaal gerealiseerd, waardoor participanten deze spraak moeilijk konden matchen met hun cognitieve templaten.

Opvallend is dit resultaat wel, omdat uit eerder onderzoek is gebleken dat boze en blije emoties in spraak niet te herkennen zijn met behulp van de mean pitch en pitch range. Toch herkenden participanten significant vaker de geacteerde emotie dan de spontane emotie. Dit zou kunnen komen doordat de kwaliteit van de geacteerde fragmenten in sommige gevallen beter was dan die van de spontane fragmenten. De spontane fragmenten waren namelijk van de televisie gehaald en daar was soms meer ruis te horen dan bij de geacteerde fragmenten die waren opgenomen in de studio. Maar er is ook een andere mogelijke verklaring. In Tatham en Morton (2004) is namelijk een tabel opgenomen van het onderzoek van Stibbard (2001) waaruit blijkt dat boze en blije emoties wel hetzelfde zijn qua mean pitch en pitch range, maar verschillen qua F0 variatie. Dat wil zeggen dat de veranderingen in toonhoogtes bij boze emoties anders verlopen dan bij blije emoties, namelijk onregelmatig bij boosheid en soepel (smooth) bij blijdschap. De variatie in toonhoogte is nog wel te horen wanneer alle frequenties boven de 500 Hz worden weggehaald in spraak, dus hieraan hebben de participanten de emoties wellicht herkend. Dit betekent ook dat in geacteerde spraak dus duidelijkere variatie in toonhoogte aanwezig is dan in spontane spraak. Daarnaast was in het perceptie-expriment naast de toonhoogtes natuurlijk ook het ritme van de spraak nog te horen in de gemaskeerde fragmenten.

Waar wel rekening mee gehouden moet worden bij het trekken van conclusies, is dat de spontane fragmenten zijn ingesproken door allemaal verschillende personen en dat de geacteerde fragmenten zijn ingesproken door twee personen. De geacteerde fragmenten kunnen dus niet rechtstreeks vergeleken worden met de spontane fragmenten, omdat ze niet uitgesproken zijn door dezelfde persoon.

6.2. Analyses emotionele spraak

Voor dit scriptie-onderzoek is niet alleen een perceptie-experiment gedaan, maar de fragmenten die daarvoor gebruikt zijn, zijn ook geanalyseerd op pitch range en Voice Onset Time. In paragraaf 6.2.1. zullen de resultaten die de pitch range betreffen worden bediscussieerd en in paragraaf 6.2.2. zal een kleine discussie over de Voice Onset Time volgen.

6.2.1. Pitch range

Met behulp van het programma PRAAT is de pitch range van de geselecteerde fragmenten vastgesteld. Uit de resultaten is gebleken dat de pitch range van boze emoties niet significant verschilde van de pitch range van blije emoties. Eerder onderzoek heeft dit ook aangetoond, dus dit is geheel in lijn met de verwachtingen.

(31)

31

geacteerde spraak, omdat deze spraak vaak veel overdrevener is gerealiseerd dan spontane spraak. Toch is in dit onderzoek geen significant verschil gevonden in de pitch range tussen spontane en geacteerde spraak. Deze bevindingen moeten echter wel met enige voorzichtigheid behandeld worden, want naast het feit dat de spontane fragmenten van andere sprekers komen dan de geacteerde fragmenten, speelt de vraag hoe spontaan de fragmenten echt zijn ook een rol. De spontane fragmenten komen namelijk uit televisieprogramma’s zoals Utopia (real life soap) en De Wereld Draait Door (talkshow), waarin de kandidaten zich waarschijnlijk wel bewust zijn van de camera’s die op hen gericht staan. Het grote probleem is dan ook de onrealistische aanname dat spraak uit de media een directe expressie is van het ‘echte’ gevoel van de spreker (Scherer, 2013). Hoewel we hebben aangenomen dat de spraak op televisie niet vooraf bedacht is, zou het wel mogelijk zijn dat bijvoorbeeld Utopia gescript is. Bovendien is het niet ondenkbaar dat de mensen in programma’s als De Wereld Draait Door of RTL Late Night zich zodanig bewust zijn van hun publiek en de camera’s dat ze hun spraak daaraan aanpassen. Wanneer geacteerde spraak in de toekomst zal worden vergeleken met spontane spraak, zal de spontane spraak streng geselecteerd moeten worden.

6.2.2. Voice Onset Time

Uit eerder onderzoek én uit dit onderzoek is gebleken dat emoties met een hoge mate van arousal niet van elkaar onderscheiden kunnen worden met behulp van mean pitch en pitch range. Om toch een verschil te kunnen beschrijven, lijkt het van belang om naar subtielere parameters te gaan kijken. Gilbers et al. (2015) toonden immers aan dat emoties als blijdschap en boosheid door participanten in het algemeen goed worden waargenomen, wanneer naar onzinzinnen wordt geluisterd. Er moeten dus indicatoren zijn die het verschil maken tussen boze en blije spraak. Uit eerder onderzoek van Kienast en Sendlemeier (2001) bleek al dat boze spraak qua articulatie nauwkeuriger was dan blije spraak. Dat wil zeggen dat er minder segmenten weggelaten worden en er minder assimilatie plaatsvindt dan in blije spraak.

Om erachter te komen hoe mensen het verschil tussen boze en blije spraak maken, is ook aan de acteurs gevraagd hoe zij denken te articuleren wanneer zij boos of blij acteren. Hun antwoorden waren als volgt:

 Actrice: “Als ik toneelspeel, boos of blij, gebruik ik opeens de huig-r terwijl ik normaal altijd

de tongpunt-r gebruik. Daarnaast vond ik mijzelf af en toe haast Fries klinken. Als ik blij acteer ga ik hoger praten en als ik boos acteer ga ik harder en luider, de articulatie is dan pittiger en ik spreek echt alles duidelijk uit. Dat doe ik niet bij blij, omdat het voor mijn gevoel bij boos belangrijker is dat alles goed over komt.”

 Acteur: “Ik heb het idee dat ik, als ik blij acteer, de lange klinker iets verder uitrek. En als ik

(32)

32

Uit de resultaten is gebleken dat er qua toonhoogte geen verschil te vinden is tussen de boze en de blije spraak, daarom is ook een analyse uitgevoerd die de intensiteit betreft. In dit geval is de Voice Onset Time van stemloze plofklanken aan het begin van een lettergreep gemeten. De verwachting was dat de VOT in boze spraak groter zou zijn, omdat de acteurs aangeven pittiger en meer staccato te articuleren. Toch is dat uit de resultaten van dit onderzoek niet gebleken, in blije spraak leek de VOT zelfs groter te zijn. Maar duidelijke conclusies kunnen hier niet uit getrokken worden, er is namelijk maar van 17 stemloze plofklanken van één persoon de VOT gemeten. Om representatievere resultaten te verkrijgen, zou van meer klanken en meer personen de VOT gemeten moeten worden. In toekomstig onderzoek kan dan ook gekeken worden naar deze en andere subtiele parameters die de kracht van articulatie beschrijven, bijvoorbeeld naar de ratio van sterke en zwakke lettergrepen of naar reductieprocessen.

6.2.3. Dominante pitches en modaliteit

Uit het onderzoek van Schreuder (2006) is gebleken dat Teigetje en Iejoor in respectievelijk majeur- en mineurmodaliteit spreken. Vervolgens heeft het onderzoek van Gilbers en Van Eerten (2010) aangetoond dat modaliteiten meer in geacteerde spraak voorkomen dan in spontane spraak. In dit scriptieonderzoek is gebleken dat in geacteerde spraak inderdaad meer dominante pitches voorkomen dan in spontane spraak, maar in de blije spraak was geen majeurmodaliteit aan te wijzen. Een verklaring hiervoor is dat Teigetje en Iejoor veel extremer acteren dan de acteurs in dit onderzoek. Bij Teigetje en Iejoor is het communicatieve doel dan ook om aan kinderen hun vrolijke en sombere karakter over te brengen, daarbij worden blijkbaar de modaliteiten die we kennen uit de muziek toegepast als een soort ideaalpatroon.

(33)

33

7. Conclusies

De centrale vraag die in het begin van deze scriptie werd gesteld was: hoe maken mensen onderscheid tussen negatief en positief geladen emotionele spraak en welke invloed heeft de mate van spontaniteit op de perceptie? Om deze vraag te beantwoorden zijn verschillende analyses en een perceptie-experiment uitgevoerd.

Het perceptie-experiment heeft uitgewezen dat mensen geen onderscheid tussen negatief en positief geladen emotionele spraak maken met behulp van toonhoogte-eigenschappen. De participanten in dit onderzoek konden boze en blije spraak namelijk niet herkennen wanneer de frequenties boven 500 Hz waren verwijderd.

Vervolgens hebben analyses van de fragmenten uit het experiment bevestigd dat er qua pitch range geen verschillen te vinden zijn tussen boze en blije spraak. Omdat uit eerder onderzoek ook al gebleken is dat pitch-eigenschappen geen onderscheidende functie hebben bij emoties met een hoge mate van arousal, is in dit scriptie-onderzoek ook een subtielere parameter geanalyseerd: de Voice Onset Time. Uit deze analyses is gebleken dat ook deze geen onderscheidende functie heeft wat betreft boze en blije spraak. De steekproef die hier is genomen is echter erg klein en waarschijnlijk niet representatief.

(34)

34

Bibliografie

Ang, J., Dhillon, R., Krupski, A., Shriberg, E., Stolcke, A. (2002). Prosody-based automatic detection of annoyance and frustration in human-computer dialog. ICSLP, 3, 2037-2040. Ayadi, M.E., Kamel, M.S., Kerray, F. (2011). Survey on speech emotion recognition: Features, classification schemes, and databases. Pattern Recognition, 44, 572-587.

Banse, R., Scherer, K.R., (1996). Acoustic profiles in vocal expression. Journal of Personality and

Social Psychology, volume 70, No 3, 614-636.

Boersma, P., Weenink, D. (1992-2015). PRAAT: a system for doing phonetics. http://www.praat.org.

Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N., Votsis, G., Kollias, S., Fellenz, W., Taylor, J.G. (2001). Emotion recognition in Human-Computer Interaction. IEEE Signal processing magazine. 33-76.

Ekman, P. (2012) Should we call it expression or communication? Innovation: the European

journal of social science research, 10:4, 333-344.

Frijda, N.H. (2005). De emoties. Een overzicht van onderzoek en theorie. (6de_{druk). Amsterdam:}

Bert Bakker.

Gilbers, D., Eerten, L. van. (2010). Musical modality in spontaneous and acted speech. ICMP11, 360-363.

Gilbers, D.G., Bos, L.S., Heeres, T., Muller, M., Vries, N. de & Wierenga, E. (2010). Modaliteit als parameter: verschillen tussen spontane en geacteerde spraak. TABU, 38, 110-120.

Gilbers, D.G., Jonkers, J., Scheer, F. van der, Feiken, J. (2013). On the force of articulation in foreigh accent sydrome. In: Gooskens, C & Bezooijen, R. (Eds.), phonetics in Europe Perception

and production. (pp. 11-32). Frankfurt am Main: Peter Lang AG.

Gilbers, S., Fuller, C., Gilbers, D., Broersma, M., Goudbeek, M., Free, F., & Baskent, D., (2015). Perception of acoustic emotion cues in normal-hearing listeners and cochlear-implant users.

I-Perception. 1-19.

Hildebrandt, B. (1963). Die arithmetische Bestimmung der durativen Funktion. Eine neue Methode der Lautdauerbewertung. Zeitschrift für Phonetik, Sprachwissenschaft und

(35)

35

Jong, N.H. De, Wempe, T. (2009). PRAAT script to detect syllable nuclei and measure speech rate automatically. Behavior Research Methods 41 (2), 385-390.

Kienast, M., Paeschke, A. & Sendlmeier, W. F. (1999). Articulatory reduction in emotional speech.

Proceedings Eurospeech 99, Budapest, Vol. 1, 117-120.

Kienast, M., Sendlemeier, W.F. (2000). Acoustical analysis of spectral and temporal changes in emotional speech. SpeechEmotion, 92-97.

Kuhl, P.K. (2004). Early language acquisition: cracking the speech code. Nature reviews

neuroscience, 5, 831-843.

Laan, G.P.M. (1997). The contribution of intonation, segmental durations, and spectral features to the perception of a spontaneous and a read speaking style. Speech Communication, 22, 43-65. Levin, H., Schaffer, C.A. (1982). The prosodic and paralinguistic features of reading and telling stories. Language and speech, 25:1, 43-54.

Lindblom, B. (1963). Spectrographic study of vowel reduction. JASA 35, 1773-1781.

Lugger, M., Janoir, M.-E., Yang, B. (2009). Combining classifiers with diverse feature sets for robust speaker independent emotion recognition. EURASIP, 24-29.

Luo, X., Fu, W.-J., & Galvin, J.J. (2007). Vocal emotion recognition by normal-hearing listeners and cochlear implant users. Trends in Amplification, 11, 301-315.

Moon, S.-J. & Lindblom, B. (1994). Interaction between duration, context, and speaking style in English stressed vowels. JASA 96, 40-55.

Nwe, T.L., Foo, S.W., Silva, L.C. de. (2003). Speech emotion recognition using hidden Markov models. Elsevier Speech Communications Journal, Vol. 41, Issue 4. 603-623.

Paeschke, A., Kienast, M. & Sendlmeier, W. F. (1999). F0-contours in emotional speech.

Proceedings ICPhS 99, San Francisco, Vol. 2, 929-932.

Scherer, K.R. (2003). Vocal communication of emotion: A review of research paradigms. Speech

Communication, 40, 227-256.

Scherer, K.R. (2013). Vocal markers of emotion: Comparing induction and acting elicitation.

Computer Speech and Language, 27, 40-58.

(36)

36

Stibbard, R. (2001). Vocal expression of emotion in non –laboratory speech. Ph.D. thesis, University of Reading.

Tatham, M., Morton, K. (2004). Expression in Speech, Analysis an Synthesis. Oxford: Oxford university press.

Williams, C.E., Stevens, K.N. (1981). Vocal correlates of emotional states. In: Darby, J.D. (ed.),

Speech Evaluation in Psychiatry (pp. 189-220). New York: Grune and Stratton.

Wilting, J., Krahmer, E., Swerts, M. (2006). Real vs. acted emotional speech. Interspeech, 805-808. Yildirim, S., Bulut, M., Lee, C.M., Kazemzadeh, A., Busso, C., Deng, Z., Lee, S., Narayanan, S. (2004). An acoustic study of emotions expressed in speech. Proc. Internat. Conf. on Spoken Language

(37)

37

Bijlage

1. Vragenlijst beoordelen emoties

Je krijgt straks in totaal 38 fragmenten te horen. Deze fragmenten bestaan uit uitingen van boze of blije mensen. Het is de bedoeling dat je op dit formulier aangeeft op een schaal van 5 hoe boos of blij je een uiting vindt klinken. Je mag de fragmenten meerdere keren beluisteren. Ze duren tussen de 1 en 8 seconden.

 1 = neutraal (niet blij of boos)  2 = een beetje blij/boos  3 = redelijk blij/boos  4 = duidelijk blij/boos  5 = erg duidelijk blij/boos

Hoe blij vind je de volgende fragmenten klinken?

Neutraal Erg blij

(38)

38

Hoe boos vind je de volgende fragmenten klinken?

Neutraal Erg boos

(39)

39

2. Invulformulier perceptie-experiment

Perceptie-experiment

Fijn dat je meedoet aan dit experiment voor mijn masterscriptie.

Je krijgt in totaal 42 geluidsfragmenten te horen. Deze fragmenten bestaan uit uitingen van boze of blije mensen, maar ze klinken alsof iemand achter een deur staat te praten. De semantische inhoud is dus moeilijk te horen. De intonatie daarentegen is nog wel duidelijk hoorbaar. Het is de bedoeling dat je op basis van de intonatie aangeeft of je een blije of een boze spreker hoort. De fragmenten die je te horen krijgt duren tussen de 1 en 10 seconden. Elk fragment krijg je 2 keer te horen en daarna geef je op onderstaand formulier aan of je een boze of blije spreker denkt te horen. Je mag elke keer maar 1 hokje aankruisen.

(40)

(41)

(42)

(43)

43

Fragment 42

Boos Blij