Discourse presentation dimensions - Computationele analyse 3.1 Inleiding

Hoofdstuk 3: Computationele analyse 3.1 Inleiding

3.4 Discourse presentation dimensions

De afgelopen jaren is het aantal computationele onderzoeken naar stijl enorm gestegen en zijn er nieuwe ontdekkingen gedaan. Promovenda Kim Jautze en haar collega’s onderzochten bijvoorbeeld het verschil tussen chicklit en literatuur en toonden met stylometrische hulpmiddelen aan dat literaire teksten over het algemeen complexere zinnen hebben dan chicklit. Chicklit-auteurs maken daarnaast meer gebruik van verkleinwoorden, terwijl literaire auteurs door het gebruik van voorzetselconstituenten en betrekkelijke bijzinnen een taalgebruik hebben dat overwegend beschrijvend is.175

In het artikel ‘Measuring the Style of Chick Lit and Literature’ gaat Jautze hier verder op in door de taalpatronen van de twee genres met elkaar te vergelijken. Jautze gebruikt hiervoor de discourse presentation dimensions zoals beschreven door taalkundige Jesse Egbert.

Egbert beschrijft in zijn artikel ‘Style in Nineteenth Century Fiction’ (2012) hoe hij met een multidimensionale analyse taalpatronen in literaire teksten onderzoekt. Hij legt uit hoe het doel van deze analyse is om een groot aantal variabelen te reduceren tot een aantal dimensies. Deze dimensies bestaan uit kenmerken die zo vaak voorkomen in verschillende teksten, dat ze een substantieel deel van de onderlinge overeenkomsten verklaren. Deze manier van analyseren gaat er vervolgens van uit dat deze variabelen niet toevallig samen voorkomen, maar juist een indicatie zijn voor onderliggende dimensies. Deze dimensies zijn opgebouwd uit tegenovergestelde kenmerken; dit betekent dat wanneer het ene kenmerk veel aanwezig is, het tegenovergestelde kenmerk minder frequent of zelfs afwezig zal zijn en andersom.176

Egbert onderscheidt een aantal dimensies, waarvan ik voor mijn eigen analyse gebruik zal maken van de volgende twee: thought presentation versus description dimension (waarin een onderscheid wordt gemaakt tussen auteurs die de gevoelswaarde en de weergave van gedachten benadrukken en auteurs die de nadruk leggen op beschrijvingen) en dialogue

versus narration dimension (waarin een onderscheid wordt gemaakt tussen een interactieve en

174_{Ibidem: 44-45.}

175_{Kim Jautze et al. ‘From High Heels to Weed Attics: A Syntactic Investigation of Chick Lit and Literature.’} Proceedings of the Computational Linguistics for Literature Workshop, Atlanta, Georgia, 14 juni 2013: 80. 176_{Jesse Egbert. ‘Style in Nineteenth Century Fiction. A Multi-Dimensional Analysis.’ Scientific Study of}

een informationele manier van vertellen).177 Deze dimensies hebben allemaal hun eigen kenmerken.

Eigenschappen van de description dimension zijn bijvoorbeeld de aanwezigheid van veel voorzetsels (die drukken namelijk ruimtelijke of temporele relaties uit en worden daarom gebruikt voor gedetailleerde beschrijvingen), lidwoorden en het gebruik van het aanwijzend voornaamwoord ‘die’. 178 Deze kenmerken worden allemaal geassocieerd met een gedetailleerde manier van beschrijven. De focus ligt op het efficiënt beschrijven van personen, plaatsen en gebeurtenissen.179

Tegenovergesteld hieraan staat de thought presentation dimension. Deze dimensie wordt gekenmerkt door emotioneel geladen taalgebruik, zoals het mentale werkwoord ‘weet’, onbepaalde voornaamwoorden zoals ‘veel’, affectieve bijvoeglijke naamwoorden (‘heel’ en ‘goed’), het modale werkwoord ‘kan’ dat een mogelijkheid uitdrukt, het bijwoord ‘misschien’ dat waarschijnlijkheid uitdrukt, en bepaalde bijwoorden met een nadrukkelijk effect (‘maar’, ‘toch’).180 Al dit woordgebruik biedt inzichten in de psyché van de verteller of het personage.181

De dialogue dimension wordt onder andere gekenmerkt door de aanwijzende voornaamwoorden ‘dat’ en ‘daar’, voornaamwoorden in de eerste en tweede persoon (typerend voor conversaties), en de tegenwoordige tijd.182

Tegenover de dialogue dimension staat de narration dimension, waarin over het algemeen de verleden tijd wordt gebruikt (voor beschrijvingen van gebeurtenissen uit het verleden), voornaamwoorden in de derde persoon en onbepaalde voornaamwoorden (‘iets’ en ‘alles’).183

Het onderzoek van Jautze, dat gebruikmaakte van deze dimensies, liet zien dat literaire auteurs meer beschrijvingen en vertellingen gebruiken (descriptions en narratives), terwijl auteurs van chicklit meer gedachteweergaven en dialogen gebruiken (thought presentations en dialogues).184 Deze gegevens impliceren dat literaire auteurs relatief veel zelfstandige

177_{Ibidem: 188-189.}

178_{Egbert 2012: 175; Kim Jautze, ‘Measuring the Style of Chick Lit and Literature.’ (10-07-2014). Huygens} Instituut voor Nederlandse Geschiedenis. Poster. http://dharchive.org/paper/DH2014/Poster-838.xml. Geraadpleegd op 1 juni 2017.

179_{Egbert 2012: 175.} 180_{Ibidem; Kim Jautze 2014.} 181_{Jautze 2014.}

182_{Ibidem; Egbert 2012: 177.} 183_{Egbert 2012: 178; Jautze 2014.} 184_{Kim Jautze 2014.}

naamwoorden gebruiken, terwijl chicklit-auteurs daarentegen juist meer gebruikmaken van de tegenwoordige tijd en van voornaamwoorden in de eerste en tweede persoon.

3.5 Deelhypotheses

Uit het vorige hoofdstuk bleek dat lezers en critici het over het algemeen niet eens zijn wat de beoordeling van Spaanse bestsellers betreft. Dat wat lezers als literair beschouwen, vinden critici vaak te commercieel of te oppervlakkig. Zoals ik al aangaf, wil ik onderzoeken of de boeken uit het corpus zowel kenmerken hebben die een tekst mogelijk meer literair maken, als kenmerken die een tekst mogelijk minder literair maken. In dat geval is het namelijk goed mogelijk dat lezers vooral onder de druk zijn van de vermeende literaire kwaliteiten van een boek, terwijl critici meer letten op kenmerken die over het algemeen als minder literair worden beschouwd. Deze redenering zal ik aan de hand van een aantal deelhypotheses toetsen.

De eerste deelhypothese is dat Het geluid van de nacht meer overeenkomsten vertoont met Het negende schrift van Maya dan met boeken van Carlos Ruiz Zafón. Hoewel de Wereldbibliotheek in haar prospectus (zie afbeelding 1) impliceert dat Dueñas en Ruiz Zafón een vergelijkbaar publiek aantrekken en dat hun werk dus overeenkomsten vertoont, wijzen lezersreacties en recensies erop dat Dueñas meer gemeen heeft met Allende. Zo worden beide boeken geassocieerd met jeugdliteratuur en krijgen de kritiek dat de verhaallijnen teveel door elkaar lopen of dat er teveel overbodige details worden gegeven. Vanwege deze receptie ga ik na of de twee romans meer overeenkomsten vertonen met de dialogue en thought

presentation dimension dan de andere boeken uit het corpus. Ik zal dit onderzoeken door met

het programma Stylo (zie paragraaf 3.6.2 voor meer informatie over dit programma) te kijken naar de posities van de verschillende boeken ten opzichte van de rest van het corpus. Ook zal ik de honderd meest voorkomende woorden analyseren. Vervolgens zal ik met het programma AntConc (zie paragraaf 3.6.3 voor meer informatie over dit programma) naar de woorden kijken die de belangrijkste verschillen tussen de twee boeken veroorzaken.

De tweede deelhypothese is dat De hand van Fatima minder ‘literaire’ kenmerken heeft – zoals een hoge gemiddelde zinslengte, veel lexicale variatie, en veel eigenschappen van de narrative en description dimension – dan de andere boeken uit het corpus. Deze hypothese is gebaseerd op de reacties van lezers, die vonden dat de roman ‘literair niet op [kan] tegen Ruiz Zafón’ en te populair geschreven was, en recensies van critici die ofwel ontbraken ofwel vielen over het simpele register.

De derde en laatste deelhypothese betreft Het spel van de engel. Bij dit boek lagen de meningen van lezers en (voornamelijk Nederlandse) critici het meest uiteen. De lezers waren vrijwel uitsluitend positief, terwijl de Nederlandse critici dat juist niet waren. Ik ga onderzoeken of de kritiek dat de roman niet stijlvast is en rommelig is geschreven objectief te onderbouwen is en of dit tweede deel van ‘Het kerkhof der vergeten boeken’ inderdaad stilistisch en linguïstisch ondergeschikt is aan De schaduw van de wind en De gevangene van

de hemel. Dit doe ik door onder andere te kijken naar de gemiddelde zinslengte en de lexicale

variatie. Het voornaamste punt van kritiek was dat de roman niet stijlvast was. Dit wil ik onderzoeken door de roman in fragmenten op te delen en met behulp van Stylo te kijken hoe deze verschillende delen zich tot elkaar verhouden.

3.6 Analyse

3.6.1 Voyant-analyse

Om te beginnen ga ik kijken naar enkele standaardgegevens van de boeken uit het corpus zoals het aantal unieke woorden, de gemiddelde zinslengte en de lexicale variatie. Dit doe ik met behulp van Voyant Tools, een online-applicatie voor tekstanalyse die voor iedereen toegankelijk is en makkelijk is in gebruik. Voyant geeft snel en overzichtelijk enkele basisgegevens van ingevoerde teksten weer.185

Met Voyant heb ik het totaal aantal woorden, het aantal unieke woorden, de lexicale variatie en de gemiddelde zinslengte van alle boeken uit het corpus bepaald. De resultaten hiervan zijn te vinden in tabel 4. Daarnaast heb ik ook de originele Spaanse teksten met Voyant geanalyseerd (zie daarvoor tabel 5) om te kijken in hoeverre de vertalingen afwijken van het origineel.

Om te beginnen valt het grote verschil in lengte op. Het boek met de meeste woorden (De hand van Fatima) is bijna viereneenhalf keer zo lang als het kortste boek (De gevangene

van de hemel). Dit derde deel in de tetralogie ‘Het kerkhof der vergeten boeken’ is ook

opvallend korter dan de eerste twee delen. Het is daarom te begrijpen dat critici het boek onafgerond vonden in vergelijking met de vorige delen. Naast deze twee uitschieters naar boven en beneden wijkt ook Dueñas’ Het geluid van de nacht af. Het is een stuk langer dan de rest van het corpus. Bij het analyseren van de meest gebruikte woorden moet hier dus rekening mee worden gehouden.

185_{Stéfan Sinclair en Geoffrey Rockwell (2016). Voyant Tools. Geraadpleegd op 3 mei 2017. http://voyant-} tools.org/.

Tabel 4: Voyant-analyse corpus.

Tabel 5: Voyant-analyse Spaanse originelen.

Als we vervolgens kijken naar het aantal unieke woorden (types), heeft het langste boek er relatief het meest en het kortste boek het minst. Dit is logisch vanwege de grote verschillen in totale lengte. Het zegt daarom meer om de lexicale variatie te bestuderen. Deze lexicale variatie is het resultaat van de type-token-ratio (TTR) en wordt berekend door het aantal types (het aantal unieke woorden) te delen door het aantal tokens (het totaal aantal woorden). De TTR kan nooit hoger zijn dan 1. In dat geval is ieder woord namelijk uniek. Hoe hoger de TTR (hoe dichter bij de 1), hoe meer lexicale variatie een tekst dus heeft.

Aantal woorden (tokens) Unieke woorden (types) Lexicale variatie Gemiddelde zinslengte (woorden)

Allende – La isla bajo el mar 144.958 16.042 0,111 20,4 Allende – El cuaderno de Maya 122.527 15.894 0,130 22,2 Dueñas – El tiempo entre costuras 205.572 20.728 0,101 17,5 Falcones – La mano de Fátima 305.574 22.877 0,075 16,3 Ruiz Zafón – La sombra del viento 158,640 16.717 0,105 14,5 Ruiz Zafón – El juego del ángel 155.198 15.035 0,097 13,3 Ruiz Zafón – El prisionero del cielo 68.046 10.162 0,149 14,7

Aantal woorden (tokens) Unieke woorden (types) Lexicale variatie Gemiddelde zinslengte (woorden)

Allende – Het eiland onder de zee Vert. Rikkie Degenaar

162.848 13.969 0,086 22,6 Allende – Het negende schrift van Maya

Vert. Rikkie Degenaar

141.768 14.453 0,102 23,4 Dueñas – Het geluid van de nacht

Vert. Jacqueline Visser

211.626 18.055 0,085 18,0 Falcones – De hand van Fatima

Vert. Marga Greuter en Joke Mayer

321.786 18.256 0,057 16,4 Ruiz Zafón – De schaduw van de wind

Vert. Nelleke Geel

167.658 15.145 0,090 15,1 Ruiz Zafón – Het spel van de engel

Vert. Nelleke Geel

161.515 13.918 0,086 13,8 Ruiz Zafón – De gevangene van de hemel

Vert. Nelleke Geel

Na deze berekening zijn de resultaten omgedraaid: De gevangene van de hemel heeft de meeste woordvariatie en De hand van Fatima de minste (zie tabel 4). Hoewel langere teksten over het algemeen vaker een kleinere woordvariatie hebben dan kortere teksten (woordherhaling is na een paar honderdduizend woorden onvermijdelijk), is de lexicale variatie van Falcones (0,057) wel erg laag.

Ook in vergelijking met andere genres valt de lage lexicale variatie van Falcones op. Lili Burki liet in haar onderzoek naar de literaire kwaliteiten van thrillers bijvoorbeeld zien dat de lexicale variatie van zes Nederlandse en Engelse thrillers tussen de 0,084 en 0,129 ligt.186 Ook bij de historische romans die Sterre Houweling voor haar masterscriptie onderzocht, ligt de TTR veel hoger, namelijk tussen de 0,114 en 0,133 (de historische roman Het lot van de familie Meijer van Charles Lewinsky vormt hierop een uitzondering, met een TTR van 0,075).187

Hier moet wel bij worden opgemerkt dat het door mij onderzochte corpus helemaal uit vertalingen bestaat. Zoals in tabel 4 en 5 te zien is, zijn alle vertalingen iets langer dan het origineel. Bij de meeste boeken is de procentuele toename niet zo groot (tussen de drie en acht procent), maar bij beide romans van Isabel Allende is het woordenaantal procentueel gezien het meest toegenomen (twaalf procent bij Het eiland onder de zee en zestien procent bij Het negende schrift van Maya). Doordat daarnaast het aantal unieke woorden bij alle Spaanse originelen hoger is dan bij de vertalingen, is de lexicale variatie van de vertalingen lager dan in het Spaans. Die afname is procentueel het grootst bij Allende en Falcones (22,5 procent bij Het eiland onder de zee, 21,5 procent bij Het negende schrift van Maya en 24 procent bij De hand van Fatima).

Tot slot heeft Voyant de gemiddelde zinslengte van alle boeken berekend. Uit andere onderzoeken is gebleken dat thrillers over het algemeen vrij korte zinnen hebben (gemiddeld tussen de acht en veertien woorden), terwijl boeken die als hoog-literair beschouwd worden, zoals Umberto Eco’s De begraafplaats van Praag en Edwin Mortiers Godenslaap, een hoge gemiddelde zinslengte hebben van respectievelijk 25,9 en 21,1 woorden.188

Zoals in tabel 4 te zien is, doet Carlos Ruiz Zafón onder voor de rest: zijn zinnen zijn gemiddeld het kortst. Isabel Allende steekt er met een gemiddelde zinslengte van 23 woorden duidelijk bovenuit, en Dueñas en Falcones zitten in het midden.

186_{Lili Burki, ‘Big data en het menselijk oog.’ Masterscriptie. Universiteit van Amsterdam, 2015: 51.} 187_{Sterre Houweling, ‘Te literair.’ Masterscriptie. Universiteit van Amsterdam, 2016: 48.}

188_{Burki 2015: 51; Houweling 2016: 47; Anne Ter Hark. ‘Willen we elke geur en kleur wel weten?’} Masterscriptie. Universiteit van Amsterdam, 2016: 33.

Uit tabel 5 volgt echter dat de gemiddelde zinslengtes in het Spaans dichter bij elkaar liggen, en bij de vertalingen onevenredig zijn toegenomen. Deze toename ligt bij het hele corpus tussen de 0,5 en 5,5 procent, behalve bij Het eiland onder de zee, waarbij de gemiddelde zinslengte van de vertaling met 10,5 procent is toegenomen.

3.6.2 Stylo-analyse

Om de positie van de zeven romans ten opzichte van elkaar te kunnen bepalen, zal ik gebruikmaken van het pakket Stylo in het programma R. Stylo vergelijkt teksten naar aanleiding van woordfrequentie en plaatst ze vervolgens op een bepaalde afstand van elkaar. Het is ontwikkeld door computationele literatuurwetenschappers Maciej Eder, Jan Rybicki en Mike Kestemont en wordt gebruikt om verschillen tussen teksten te visualiseren.189

Binnen Stylo zijn er verschillende manieren waarop de resultaten getoond kunnen worden, zoals een Cluster Analysis, waarbij teksten visueel worden geclusterd met de teksten waar ze het meest op lijken aan de hand van een analyse van de most frequent words (MFW); een Bootstrap Consensus Tree, gevormd door een combinatie van verschillende clusteranalyses waardoor dit een betrouwbaarder resultaat geeft dan de Cluster Analysis; en een Principal Components Analysis, die de verschillen tussen teksten vanuit meerdere dimensies visualiseert. Meestal zijn dit twee dimensies, een horizontale en verticale as.

Op de Bootstrap Consensus Tree op afbeelding 2 is een eerste analyse van de tien tot honderd meest gebruikte woorden te zien. De culling is nul procent, wat inhoudt dat er gekeken is naar de honderd meest gebruikte woorden uit het totale corpus. Deze honderd woorden hoeven dus niet per se in alle zeven teksten voor te komen. Bij een culling van honderd procent wordt alleen gekeken naar woorden die in alle onderzochte teksten voorkomen.

Over het algemeen clusteren teksten van dezelfde auteur vaak samen, zoals goed te zien is bij de drie boeken van Ruiz Zafón. Afbeelding 2 laat echter ook zien dat dit bij Allende niet het geval is. Allendes Het eiland onder de zee vertoont hier meer overeenkomsten met De hand van Fatima, terwijl Het negende schrift van Maya meer toetrekt naar Het geluid van de nacht. Een eerste verklaring hiervoor zou kunnen zijn dat de boeken die bij elkaar clusteren dezelfde vertaler hebben. In hoofdstuk 2 hebben we echter kunnen

189_{Maciej Eder, Jan Rybicki en Mike Kestemont. ‘Stylometry with R: A Package for Computational Tekst} Analysis. R Journal. 8:1 (2016) 107-121.

R is te downloaden via https://cran.r-project.org. Ik heb gebruikgemaakt van de versie 3.3.3 ‘Another Canoe’ (06-03-2017).

zien dat iedere Spaanse auteur zijn eigen Nederlandse vertaler heeft. Dat kan dus geen verklaring zijn voor deze opmerkelijke clustering.

Afbeelding 2: Bootstrap Consensus Tree van de 10-100 meest voorkomende woorden uit het gehele corpus.

De overeenkomst tussen Falcones en Allende lijkt echter vooral gebaseerd te zijn op hun gebruik van voornaamwoorden. Wanneer deze in de analyse worden weggelaten, verandert ook de Bootstrap Consensus Tree (zie afbeelding 3). Het eiland onder de zee en De hand van

Fatima staan nu verder van elkaar verwijderd, maar Het negende schrift van Maya vertoont

nog steeds meer overeenkomsten met Dueñas’ Het geluid van de nacht dan met Allendes Het

eiland onder de zee. Dit valt grotendeels te verklaren aan de hand van het gebruikte

perspectief. Het geluid van de nacht en Het negende schrift van Maya zijn namelijk allebei vanuit een ik-perspectief geschreven, terwijl Falcones in De hand van Fatima een hij- perspectief hanteert. In Het eiland onder de zee komen beide perspectieven voor, maar de derde persoon overheerst.

Zoals ik al eerder aangaf moet er rekening worden gehouden met het grote verschil in lengte tussen de zeven boeken. In de Bootstrap Consensus Trees op afbeelding 2 en 3 is geen

gebruikgemaakt van sampling; ieder boek is in zijn geheel geanalyseerd. Ter controle heb ik beide analyses uitgevoerd met een random sample van 73.000 woorden – de lengte van het kortste boek uit het corpus: De gevangene van de hemel –, waar zo goed als dezelfde resultaten uitkwamen.

Afbeelding 3: Bootstrap Consensus Tree van de Afbeelding 4: Bootstrap Consensus Tree van de 10-1000 10-100 meest voorkomende woorden, zonder meest voorkomende woorden, zonder voornaamwoorden. voornaamwoorden. Random sample van 73.000 woorden.

Als er echter gekeken wordt naar een Bootstrap Consensus Tree van de tien tot duizend meest gebruikte woorden (culling is nul procent, random sample van 73.000 woorden; zie afbeelding 4), dan trekt Dueñas opeens meer toe naar Falcones’ De hand van Fatima en wordt het opeens wel zichtbaar dat Het negende schrift van Maya en Het eiland onder de zee door dezelfde auteur zijn geschreven. Dit levert vragen op over de inhoud van de honderd meest voorkomende woorden, en vragen over welke woorden per boek voor het grootste verschil

met de rest van het corpus zorgen. In de paragrafen 3.6.3 en 3.6.4 zal ik dit nader onderzoeken.

3.6.3 Woordgebruik

In de vorige paragraaf heb ik met behulp van het programma Stylo laten zien hoe Het geluid

van de nacht en Het negende schrift van Maya naar elkaar toe trekken als er slechts gekeken

wordt naar de honderd meest voorkomende woorden. Met het programma AntConc heb ik vervolgens van alle zeven boeken de honderd meest voorkomende woorden bepaald. AntConc is een gebruiksvriendelijk programma, ontwikkeld door Laurence Anthony, dat onder andere woordenlijsten maakt op basis van woordfrequentie. Ook kun je er makkelijk woordclusters mee onderzoeken en teksten met elkaar vergelijken.190

Naar aanleiding van de honderd meest voorkomende woorden per boek heb ik gekeken naar de mate waarin de boeken kenmerken vertonen van de vier verschillende

discourse presentation dimensions (narrative, dialogue, description en thought presentation;

zie paragraaf 3.4).Op afbeelding 5-7 zijn de resultaten hiervan te zien. Met verschillende kleuren heb ik de eigenschappen van alle dimensies aangegeven, zie hiervoor de legenda in tabel 6.

Narrative dimension (derde persoon, ‘iets’, ‘alles’, verleden tijd)

Dialogue dimension (eerste en tweede persoon, ‘dat’, ‘daar’, tegenwoordige tijd) Description dimension (voorzetsels, lidwoorden, ‘die’)

Thought presentation dimension (‘kan’, ‘weet’, ‘heel’, ‘veel’, ‘goed’, ‘maar’) Tabel 6: Legenda bij afbeelding 5-7.

Je kunt niet een-op-een stellen dat als een boek kenmerken van de narrative of description

dimension bezit het dan automatisch onder literatuur valt of vice versa. Toch valt er een en

ander te zeggen over de resultaten in afbeelding 5-7. Het eerste wat opvalt is dat alle boeken over kenmerken beschikken van alle vier de discourse dimensies, maar dat de mate waarin verschilt.

In document De Spaanse bestseller: literaire juweeltjes over overgewaardeerd proza? (pagina 44-74)