Introductie - Taalvariatie in het semantische domein NOT.UNTIL

Temporele connectieven zijn voegwoorden die een temporele bijzin of een

bijwoordelijke bepaling introduceren. De bijzin geeft een tijdsspecificatie mee aan de gebeurtenis die wordt beschreven in de hoofdzin (Wälchli, 2018). In dit onderzoek ligt de focus op temporele connectieven die een volledige bijzin introduceren, zoals de voorbeelden in (1). In dergelijke zinnen wordt zowel in de hoofd- als bijzin een gebeurtenis beschreven. In (1) wordt steeds in de hoofdzin de gebeurtenis ‘het naar de winkel gaan’ beschreven en in de bijzin steeds de gebeurtenis ‘het thuiskomen van mijn moeder’. Een temporeel connectief heeft het vermogen om de

gebeurtenissen in de hoofd- en bijzin op een temporele manier aan elkaar te

verbinden Een temporeel connectief kan enerzijds een ordening van gebeurtenissen in de tijd aangeven. Dit kan bijvoorbeeld met een connectief zoals ‘voordat’, welke gebruikt wordt in voorbeeld (1a) (hier onderstreept). Anderzijds kan een temporeel connectief een overlap van tijd beschrijven. Dit kan bijvoorbeeld met een connectief zoals ‘terwijl’ zoals in voorbeeld (1b) (hier onderstreept).

(1) a. Ik ga naar de winkel voordat mijn moeder thuiskomt.

b. Ik ga naar de winkel terwijl mijn moeder thuiskomt.

Bij het gebruik van sommige temporele connectieven is de temporele relatie wat complexer en worden er bovendien restricties opgelegd aan het aspectuele karakter van de hoofd- of bijzin. Dit is het geval bij het Engelse temporele connectief ‘until’.

‘Until’ combineert namelijk alleen met duratieve zinnen die een activiteit of

gebeurtenis beschrijven. Beschouw bijvoorbeeld een zin als in (2a). Hier combineert het connectief ‘until’ met de duratieve activiteit ‘schrijven’. Zin (2b), waar ‘until’ wordt gebruikt in een niet-duratieve context, is grammaticaal incorrect (De Swart, 1996).

(2) a. Susan wrote until midnight.

b. *Susan wrote a letter until midnight.

Pagina 4 van 43

Wat opvallend is aan zinnen met ‘until’, is dat ‘until’ in een negatief polaire context wel te combineren valt met niet-duratieve activiteiten. Vergelijk zin (2b) en (3) (De Swart, 1996).

(3) Susan did not write a letter until midnight.

In de zinnen (2b) en (3) wordt precies dezelfde activiteit beschreven, maar de negatief polaire context van het voorbeeld in (3) zorgt ervoor dat de zin, in

tegenstelling tot de zin in voorbeeld (2b), grammaticaal correct is. Dit is precies wat negatief polaire ‘until’-constructies zo interessant maakt.

In de literatuur wordt er gediscussieerd over deze ‘not…until’-constructie. De Swart (1996) werkt drie verschillende formele analyses van dergelijke constructies uit, die in de literatuur worden benoemd, om deze constructies beter te kunnen

begrijpen. Dit zijn de scope-analyse, de ambiguïteitshypothese en de benadering van lexicale compositie. De Swart (1996) vraagt zich af welk van deze analyses het meest toereikend is en komt tot de conclusie dat deze analyses semantisch en pragmatisch equivalent aan elkaar zijn. Volgens De Swart zouden de verschillende besproken analyses wellicht kunnen voortkomen uit taalvariatie tussen talen

onderling. Verschillende talen zouden verschillend omgaan in de uitdrukking van het semantische domein NOT.UNTIL.¹ Het onderzoek van De Swart (1996) wordt verder uitgewerkt in hoofdstuk 3.1. Deze variatie in de manier waarop NOT.UNTIL wordt uitgedrukt in verschillende talen, die De Swart (1996) al kort noemt, vormt het

uitgangspunt van dit onderzoek. Het gaat hier dus om de vraag hoe in verschillende talen een zin zoals in (3) wordt uitgedrukt.

Met deze vraag houdt onder andere Bernhard Wälchli (2018) zich bezig. Hij doet onderzoek naar de distributie van temporele connectieven in het semantische domein in verschillende talen en vraagt zich af welke onderlinge taalvariatie er bestaat tussen die talen. Wälchli (2018) heeft met een corpus van 72 verschillende talen onderzocht hoe de meest voorkomende temporele connectieven, welke

corresponderen met het Engelse ‘until’, ‘before’ en ‘as long as’, zijn verdeeld over de semantische ruimte. De vraag die hier wordt gesteld is of deze connectieven onder de connectieven vallen die een ordening van gebeurtenissen in de tijd beschrijven, zoals in zin (1a), een overlap beschrijven van gebeurtenissen in de tijd, zoals in zin (1b), of een heel andere relatie. Uit Wälchli’s onderzoek bleek dat er in het

semantische domein van de onderzochte connectieven, een globale clustering aan te wijzen viel van drie clusters die respectievelijk overeenkomen met de Engelse

temporele connectieven ‘until’, ‘before’ en ‘as long as’. Maar, met het toepassen van een meer granulaire analyse, bleek dat er nog een vierde cluster aan te wijzen viel, welke tussen de clusters lag die respectievelijk beschreven worden met de Engelse connectieven ‘before’ en ‘until’. Dit cluster heeft een duidelijke categorisatie: een

1 Een constructie geschreven tussen enkele aanhalingstekens, zoals ‘until’, refereert naar de vorm die wordt gebruikt om een semantische relatie uit te drukken. Een constructie geschreven in hoofdletters refereert naar de relatie in het semantische domein, dus naar de betekenis.

Pagina 5 van 43

negatie in de hoofdzin. Dit is dan ook precies het cluster waar de constructie

‘not…until’ veelvuldig in voorkwam. In veel talen is deze zone niet gelexicaliseerd, waardoor er taalvariatie kan ontstaan. Wälchli stelt dat in talen waar de zone niet gelexicaliseerd is, het verschilt of deze zone op dezelfde manier wordt gecodeerd als UNTIL, of juist als BEFORE. Het gehele onderzoek van Bernhard Wälchli wordt uitgewerkt in Hoofdstuk 3.2.

Er lijkt dus inderdaad variatie te zitten in de manier waarop talen NOT.UNTIL uitdrukken. Het is daarom interessant om het corpusonderzoek van Wälchli (2018) verder uit te bouwen en in te zoomen op het vierde cluster waarin de constructie

‘not…until’ werd geclassificeerd in dat onderzoek. Mijn onderzoek zal een reproductie zijn van het onderzoek van Wälchli (2018), maar dan met een moderner tekstcorpus en een focus op Europese talen. Voor dit onderzoek worden de talen Duits,

Nederlands, Engels, Frans en Zweeds beschouwd. Bovendien zal er in dit onderzoek de gehele constructie van de zin worden beschouwd en niet alleen het connectief zelf, zoals bij Wälchli (2018) het geval was. Er zit namelijk een duidelijk verschil in de classificatie van ‘not…until’ en ‘until’ in de semantische ruimte.

Vanuit de onderzoeken van De Swart (1996) en Wälchli (2018) krijgen we een verwachting over hoe NOT.UNTIL wordt uitgedrukt in het Duits, Nederlands, Zweeds en Engels. In eerder onderzoek van het onderzoeksteam van Time in Translation, waar dit onderzoek deel vanuit maakt, zijn er aanwijzingen gevonden voor hoe dit in het Frans wordt uitgedrukt. Het eerdere onderzoek van het onderzoeksteam van Time in Translation is kort uiteengezet in hoofdstuk 4.

Deze bovengenoemde assumpties kunnen vertaald worden naar hypothesen die in dit onderzoek aan de hand van een tekstcorpus worden getoetst. Deze

hypothesen beschrijven allemaal een verwachting over hoe NOT.UNTIL wordt uitgedrukt in een van de bovengenoemde talen. Deze hypothesen zijn uitgewerkt in hoofdstuk 4. In dit onderzoek staat de vraag centraal in hoeverre deze hypotheses, geformuleerd aan de hand van de onderzoeken van De Swart (1996), Wälchli (2018) en Time in Translation, kloppen, om zo een beter beeld te krijgen van de

semantische ruimte van NOT.UNTIL in de talen Frans, Duits, Engels, Zweeds en Nederlands. Het doel van dit onderzoek is dus om te onderzoeken of er inderdaad sprake is van taalvariatie zoals De Swart (1996) doet vermoeden en Wälchli (2018) al bewijst op het niveau van puur het connectief.

Bovenstaande onderzoeksvraag wordt, zoals eerder kort benoemd,

onderzocht aan de hand van een parallel multilinguistisch tekstcorpus. Dit corpus bestaat uit tekstdata waarbij elk datapunt parallel vertalingen omvat in verschillende vertalingen van dezelfde zin. Het belang van het gebruik van een dergelijk corpus. is dat de betekenis tussen de vertalingen van eenzelfde zin altijd stabiel is. We kunnen aan de hand van een analyse van een parallel multilinguistisch tekstcorpus

onderzoeken hoe in verschillende talen NOT.UNTIL wordt uitgedrukt. Het corpus dat in dit onderzoek gebruikt wordt is het corpus Europarl. Vanuit dit corpus wordt er een dataset gegenereerd, waar elk datapunt bestond uit een tupel van de vijf

verschillende talen die worden beschouwd in dit onderzoek. Door annotatie van deze

Pagina 6 van 43

datapunten, met verschillende talen als brontaal, wordt de data inzichtelijk gemaakt.

Het is belangrijk om vanuit verschillende talen te annoteren, om zo variatie in talen zichtbaar te maken. Op het overzicht van de annotaties wordt er een descriptieve analyse toegepast. Hierdoor kunnen we een uitspraak doen over welke constructies er in welke taal voorkwamen. De precieze onderzoeksmethode is verder uitgewerkt in hoofdstuk 6.

Uit dit onderzoek zal blijken dat er meer variatie in de semantische ruimte NOT.UNTIL bestaat dan er in eerste instantie in de literatuur gesuggereerd werd. De Swart (1996) en Wälchli (2018) gaan beide uit van het principe dat talen stabiel zijn in hun vertalingen. Het onderzoek van Wälchli bevestigde dit idee in eerste instantie, maar reproductie van zijn onderzoek op een ander tekstcorpus wijst iets anders uit.

De resultaten van dit onderzoek zijn verder uitgewerkt in hoofdstuk 7 en worden besproken aan de hand van de geformuleerde hypothesen in hoofdstuk 8. In hoofdstuk 9 wordt er kort besproken wat voor regelmaat of tendensen we in de dataset kunnen aanwijzen.

Dit onderzoek is geschreven binnen het onderzoeksveld van kunstmatige intelligentie en zal uiteindelijk bijdragen aan het verbeteren van Natural Language Processing, een van de belangrijkste onderzoeksgebieden binnen dit veld. Praktisch zal dit onderzoek bijdragen aan het automatisch vertalen. In hoofdstuk 2 wordt er verder ingegaan op de relevantie van dit onderzoek voor dit vakgebied.

In document Taalvariatie in het semantische domein NOT.UNTIL (pagina 4-7)