• No results found

5.3 Vervolgonderzoek

5.3.2 Toepassingen en uitbreidingen

Het voornaamste mogelijke vervolgonderzoek zou de combinatie met andere analyses zijn. In combinatie met videobeelden van de spreker en spraakherkenning kan nog veel specifiekere feed- back gegeven worden.

Daarnaast kan de stap gemaakt worden naar een kwalitatief oordeel. Het programma zou tips kunnen geven als een score lager of hoger is dan het ingestelde doel. Een voorbeeld hiervan is de gebruiker aan te sporen gebruik te maken van andere intonatiepatronen – door een vraag te stellen bijvoorbeeld – en zo hoger te scoren op de toonhoogtevariatie.

Door het experiment met TED sprekers is al een mogelijk doel bepaald. Hier kan meer onderzoek naar gedaan worden. Ook kan aan de hand van de ratings op TED.com een doel verbonden worden aan een rating als funny. Iemand die een grappig praatje wil geven, kan dit dan als referentie gebruiken. Door de scores van elk praatje mee te laten wegen afhankelijk van hoe grappig de kijkers de talk vonden, kan een gemiddelde bepaald worden. Een voorbeeld voor de termen funny, persuasive en informative, gebaseerd op de resultaten uit het vorige hoofdstuk, is te zien in Figuur 5.1. Hier is zichtbaar dat serieuzere praatjes een hoger tempo hebben – wat overeenkomt met eerdere bevindingen – maar hier zou nog meer onderzoek naar gedaan moeten worden voordat het als betrouwbaar beschouwd kan worden.

Toonhoogte

Variatie

Tempo

20

40

60

80

100

Funny

Informative

Persuasive

20

40

60

80

100

20

40

60

80

100

Figuur 5.1: Gewogen gemiddelde van scores per rating

Hincks (2005) suggereert feedback te geven via een gemodelleerd gezicht. Met VR zou ook een zaal vol mensen gesimuleerd kunnen worden, om zo realistischere feedback te geven aan de spreker.

Bibliografie

Aarts, Ronald M (1992). “A comparison of some loudness measures for loudspeaker listening tests”. In: Journal of the Audio Engineering Society 40.3, p. 142–146.

Apple, William, Lynn A Streeter en Robert M Krauss (1979). “Effects of pitch and speech rate on personal attributions.” In: Journal of Personality and Social Psychology 37.5, p. 715. doi: 10.1037/0022-3514.37.5.715.

Atal, Bishnu S en Suzanne L Hanauer (1971). “Speech analysis and synthesis by linear prediction of the speech wave”. In: The Journal of the Acoustical Society of America 50.2B, p. 637–655. doi: 10.1121/1.1974658.

Baken, Ronald J en Robert F Orlikoff (2000). Clinical measurement of speech and voice. Cengage Learning.

Boersma, Paul (1993). “Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound”. In: Proceedings of the institute of phonetic sciences. Deel 17. 1193. Amsterdam, p. 97–110.

Boersma, Paul en David Weenink (2009). Praat: doing phonetics by computer (Version 5.1. 05)[Computer program]. Retrieved May 1, 2009. doi: 10.1097/aud.0b013e31821473f7. De Cheveign´e, Alain en Hideki Kawahara (2002). “YIN, a fundamental frequency estimator for

speech and music”. In: The Journal of the Acoustical Society of America 111.4, p. 1917–1930. doi: 10.1121/1.1458024.

Ghahremani, Pegah e.a. (2014). “A pitch extraction algorithm tuned for automatic speech re- cognition”. In: Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, p. 2494–2498. doi: 10.1109/icassp.2014.6854049.

Hincks, Rebecca (2005). “Measures and perceptions of liveliness in student oral presentation speech: A proposal for an automatic feedback mechanism”. In: System 33.4, p. 575–591. doi: 10.1016/j.system.2005.04.002.

Hincks, Rebecca en Jens Edlund (2009). “Promoting increased pitch variation in oral presenta- tions with transient visual feedback”. In: Language Learning & Technology 13.3, p. 32–50. Huang, Xuedong e.a. (2001). Spoken language processing: A guide to theory, algorithm, and

system development. Prentice Hall PTR.

Kasi, Kavita en Stephen A Zahorian (2002). “Yet another algorithm for pitch tracking”. In: Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on. Deel 1. IEEE, p. I–361. doi: 10.1109/icassp.2002.1005751.

Kormos, Judit en Mariann D´enes (2004). “Exploring measures and perceptions of fluency in the speech of second language learners”. In: System 32.2, p. 145–164. doi: 10.1016/j.system. 2004.01.001.

Ladefoged, Peter en Sandra Ferrari Disner (2012). Vowels and consonants. John Wiley & Sons. Lee, Byung Suk (2012). “Noise robust pitch tracking by subband autocorrelation classification”.

Proefschrift. Columbia University.

McLeod, Philip en Geoff Wyvill (2003). “Visualization of musical pitch”. In: null. IEEE, p. 300. doi: 10.1109/cgi.2003.1214486.

McLeod, Phillip en Geoff Wyvill (2005). “A smarter way to find pitch”. In: Proceedings of In- ternational Computer Music Conference, ICMC.

Pfau, Thilo en G¨unther Ruske (1998). “Estimating the speaking rate by vowel detection”. In: Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference on. Deel 2. IEEE, p. 945–948. doi: 10.1109/icassp.1998.675422.

Shannon, Claude E (1949). “Communication in the presence of noise”. In: Proceedings of the IRE 37.1, p. 10–21. doi: 10.1109/jproc.1998.659497.

Smith, Bruce L e.a. (1975). “Effects of speech rate on personality perception”. In: Language and Speech 18.2, p. 145–152.

Streeter, Lynn A e.a. (1977). “Pitch changes during attempted deception.” In: Journal of perso- nality and social psychology 35.5, p. 345. doi: 10.1037/0022-3514.35.5.345.

Talkin, David (1995). “A robust algorithm for pitch tracking (RAPT)”. In: Speech coding and synthesis 495, p. 518.

BIJLAGE A

Voorbeeldrapport

Testresultaten

5 juni 2016

1 Toonhoogte

De toonhoogte wordt gemeten in Hertz.

0

50

100

150

200

250

300

Tijd (s)

50

100

150

200

250

300

Toonhoogte (Hz)

Toonhoogte gedurende de sessie

Figuur 1: Toonhoogte

2 Variatie

De variatie wordt uitgedrukt als het Pitch Variation Quotient. Dit wordt bere- kend volgens

P V Q=σ µ

waarin µ de gemiddelde frequentie is in Hz en σ de standaardafwijking, ook in Hz.

0

50

100

150

200

250

300

Tijd (s)

0.0

0.2

0.4

0.6

0.8

1.0

Variatie ()

Variatie gedurende de sessie

Figuur 2: Variatie

3 Tempo

Het tempo is gemeten in lettergrepen per seconde. Let op dat niet alleen het tempo binnen zinnen invloed heeft op de score, maar ook de stiltes ertussen. Meer en langere stiltes resulteren in een lager gemiddeld tempo.

4 Overzicht

Het radardiagram in figuur 4 geeft een overzicht weer van de metingen uit deze sessie. De waardes voor de verschillende gemeten aspecten zijn omgezet naar een score van nul tot honderd. De behaalde scores staan in tabel 1.

Aspect Waarde Score

Toonhoogte 196.581024137 Hz 58.6324096547 Variatie 0.423129901612 42.3129901612 Tempo 4.37749029612 lettergrepen/s 45.9163432039

Tabel 1: Scores voor deze sessie

0

50

100

150

200

250

300

Tijd (s)

3.0

3.5

4.0

4.5

5.0

5.5

6.0

Tempo (lettergrepen/s)

Tempo gedurende de sessie

Figuur 3: Tempo

Toonhoogte

Variatie

Tempo

20

40

60

80

100

20

40

60

80

100

20

40

60

80

100

Figuur 4: Radardiagram voor deze sessie 3

GERELATEERDE DOCUMENTEN