Henriëtte van Grandpré in cijfers en statistieken

2. 1 Vooraf

In het eerste deel van dit onderzoek heb ik Henriëtte van Grandpré vergeleken met andere achttiende- eeuwse romans. Van Zuylekom en De Witte willen bepaalde Verlichtingsideeën overbrengen aan de lezer en zetten daar diverse middelen voor in (speaking names, scherp afgetekende personages) die te onderscheiden zijn door simpelweg lezen. In het tweede deel van deze scriptie analyseer ik de Henriëtte nog een keer, maar dan met behulp van een methode uit de eenentwintigste eeuw: een kwantitatieve analyse met behulp van computerprogramma’s. Dit heet stylometrisch onderzoek en houdt in dat een speciaal ontworpen computerprogramma grafieken of lijsten met woorden samenstelt op basis van de meest frequente woorden in een tekst. Het is op die manier mogelijk om een analyse van een tekst te maken en zo bepaalde patronen te ontdekken die anders niet waren opgevallen.147_{Een toelichting op} stylometrisch onderzoek heb ik eerder in de inleiding gegeven.

De gegevens die deze analyse oplevert, zal ik interpreteren en toelichten. De bedoeling van deze kwantitatieve component is nagaan of de beweringen en interpretaties die ik in de kwalitatieve analyse uiteen heb gezet bevestigd of ontkracht kunnen worden. Daarbij is het op deze manier ook mogelijk om nieuwe (veelzeggende) patronen in de roman ontdekken.

Voor de analyse heb ik gebruik gemaakt van het styloscript in R en het computerprogramma Antconc. Beide programma’s werken met TXT-bestanden. Met behulp van het programma AbbyReader heb ik Henriëtte van Grandpré overgezet van een PDF-bestand naar een TXT-bestand. Om een vergelijkende analyse uit te voeren, gebruik ik twee andere romans nodig: De historie van mejuffrouw Sara Burgerhart van Betje Wolff en Aagje Deken en Het land, in brieven van Elizabeth Maria Post.148 Om de begrijpelijkheid van de grafieken en analyses te vergroten, volgt eerst een grafiek met een overzicht van alle brieven per personage, en hun totaal aantal tokens. Tokens zijn woordvoorkomens en zijn het totaal aantal individuele woorden. Spaties en interpunctie tellen niet mee. Omdat AntConc en R beter en nauwkeuriger werken naarmate de bestanden groter zijn, heb ik 1500 woorden als ondergrens genomen. Personages met minder woorden zijn niet meegenomen in de analyse, maar hieronder voor de volledigheid wel genoemd. Voor de Graaf van Hurt heb ik een uitzondering gemaakt, omdat hij een belangrijk personage is.

Henriëtte van Grandpré deel 1

Personage Aantal brieven Totaal aantal tokens

Charles van Grandpré 6 2992

Louise van Grandpré 7 5624

Clara van Audas 1 4777

François Dalmont 3 1878

Sophia Dalmont 5 8071

Graaf van Hurt 6 1495

Julie Renné 2 2487

Baron du Clos 1

147_{Van Dalen-Oskam 2013: 4.}

Pater Roussillon 1

Pollisson 1

Therese Baville-Dalmont 2

Graaf van Grandpré 1

Henriëtte van Grandpré deel 2

Personage Aantal brieven Aantal tokens

Henriëtte van Grandpré 5 4126

Lotje Dalmont 2 2758 Beauvoisin 3 3206 Virtus 2 3551 Veaucoeur 4 1063 Clotilde Prengel 2 1784 Karel Prengel 2 1559 Luxe 1 Mevrouw Grospoint 2 Theadon 4

Mevrouw Dalmont 1 (ingesloten)

2.2 Werkwijze

Zowel Antconc als R zoeken in tekstbestanden naar overeenkomsten en doen dat op basis van de meest frequente woorden. Van Dalen-Oskam beschrijft dat R werkt op basis van een ‘stylo’ script, gemaakt door twee Poolse onderzoekers. ‘R is een voor iedereen gratis beschikbaar softwarepakket voor statische analyses en visualisaties. Maciej Eder schreef het script dat de statistische analyses doet en visualisaties genereert. […] Jan Rybicki schreef een user interface dat door het runnen van het script binnen de R-werkomgeving wordt aangeroepen.’149_{R wordt vooral gebruikt voor auteursherkenning.} Als teksten op woorden als ik, en, maar, of, want, hij, zij, etc. sterk overeenkomen, is er een grote kans dat zij geschreven zijn door dezelfde auteur.150_{Het is echter ook mogelijk om stilistische verschillen op} te sporen.

In de bestanden is alle vertellerstekst verwijderd. Dat zijn de opmerkingen van de schrijvers (die sporadisch voorkomen, bijvoorbeeld: Deeze regels waren op het addres geschreven of Mevrouw Audas bedoelt hier niet den Heer Dalmont wiens Vrouw Henriëtte tot zich nam; het vervolg zal dit doen zien.151 Ook de nummeringboven de brief (‘dertiende brief’) is weggehaald. Voor de vergelijkingen van Henriëtte van Granpré met andere briefromans heb ik de volledige roman, dus beide delen samen, gebruikt. In het tweede deel van deze analyse kijk ik naar de roman zelf. Daarvoor heb ik de roman opgedeeld in bestanden per personage. Zoals eerder aangegeven zijn alleen personages met meer dan 1500 woorden in de analyse betrokken.Overigens zijn de bestanden idealiter nog groter, maar dat was met de tekst van Henriëtte van Grandpré helaas niet mogelijk.

149_{Van Dalen-Oskam 2013: 21.} 150_{Handleiding gebruik R, UvA 2013.}

34 In R moet gekozen worden tussen twee opties: normal sampling en random sampling.Normal sampling betekent dat het complete ingevoerde bestand (dit kan de gehele roman zijn of alle brieven van één personage) wordt opgedeeld in samples die vervolgens allemaal met elkaar worden vergeleken. Het kan daardoor zijn dat er in de grafiek meer samples voorkomen van een bestand met veel woorden en minder samples van een bestand met weinig woorden. De tweede optie is random sampling, waarbij steeds een willekeurig fragment van het ingevoerde bestand wordt gekozen. Daardoor hebben alle fragmenten dezelfde lengte. Wat is voor Henriëtte van Grandpré de beste methode? Maciej Eder, die het styloscript van R schreef, zegt: ‘random sampling is more reliable than anything else.’ Een kanttekening daarbij is: ‘However, if your original texts are long enough (>10,000 tokens) and stylistically consistent, e.g. they do not contain substantially different narrative vs. dialogue passages, you don't really need to use any sampling. Random sampling is the best way to flatten the effect of (possible) authorial inconsistencies, because the procedure harvests a desired number of single tokens (e.g. 5,000) from the entire input text.’152_{Voor Henriëtte van Grandpré is het betrouwbaarder om random sampling} te gebruiken. De personageteksten komen niet in de buurt van 10.000 tokens en zijn niet stilistisch consistent. Er zitten passages in waarbij de dialogen letterlijk worden weergegeven. Dit ziet er zo uit:

Hurt. Zij is mijn Nicht, ik heb haar van eene onzer Vrienden gehaald, om ze eenigen tijd op mijn landgoed te laaten doorbrengen.

Dalmont. ô! Het zal mij misschien eene van die Nichten zijn, die gij bij het dozijn telt… etc. 153 Deze dialogen worden afgewisseld met meer narratieve tekst, bijvoorbeeld:

Mijn Echtgenoot hielp de Vrouw uit het rijdtuig, en geboodt aan een van zijne Knechts, om een van onze rijdtijgen te gaan haalen; deeze deedt zo; en toen ging mijn Dalmont, naar Hurt, en zijne Vrienden, die zig een weinig van de Chais verwijderd hadden. De Graaf vloekte vreezelijk, en zwoer zich te zullen wreeken, toen hij de Vrouw met mijn Man zag aankomen.154

Deze manieren van schrijven wisselen elkaar door de gehele roman af. Vanwege die stilistische inconsistentie is random sampling dus de beste methode voor deze romanfragmenten. Dat betekent dat random sampling in dit onderzoek toegepast is in alle grafieken die gemaakt zijn met het styloscript in R. Alle bestanden (zowel de afzonderlijke romans als de personageteksten) zijn ingedeeld in fragmenten van 1000 tokens. Het styloscript kiest uit elk bestand een willekeurig fragment en vergelijkt die met elkaar.

Behalve R zal ik ook gebruik maken van AntConc, een concordantieprogramma. Het werkt iets anders dan R. Antconc is erg nuttig om overeenkomende frases, meest voorkomende of juist afwijkende woorden, op te sporen in grote tekstbestanden. AntConc vergelijkt eveneens op frequente woorden, maar visualiseert dit niet in een grafiek. In plaats daarvan is het mogelijk om lange woordenlijsten te doorzoeken en woordenlijsten van verschillende romans met elkaar te vergelijken. In de lijsten staan de meest frequente woorden bovenaan. AntConc berekent ook de relatieve woordfrequentie, zodat het

152_{Met Karina Dalen-Oskam heb ik overlegd wat het meest betrouwbaar is in het geval van Henriëtte van} Grandpré. Zij nam daarvoor contact op met Maciej Eder, van de universiteit van Krakau, die antwoordde per e- mail.

153_{De Witte en Van Zuylekom, Henriëtte van Grandpré: 89.} 154_{De Witte en van Zuylekom, Henriëtte van Grandpré: 92.}

35 effect van teksten met ongelijke lengtes wordt genormaliseerd.155_{Daarbij is het programma in staat een}

Keyword List op te stellen, waarbij wordt weergegeven welke woorden relatief vaker voorkomen in de ene roman dan in de andere.

2.3 Henriëtte van Grandpré ten opzichte van andere romans

Henriëtte van Grandpré is een zedenkundige briefroman en heeft vorm, ideeën en zelfs fragmenten uit Sara Burgerhart van Wolff en Deken overgenomen. Met behulp van de eerdergenoemde computerprogramma’s probeer ik in deze paragraaf vast te stellen hoe groot de invloed van Wolff en Deken op De Witte en Van Zuylekom is en hoe groot de overeenkomst eigenlijk is.

Door beide romans in zijn geheel in R in te voeren, worden random samples vergeleken op overeenkomende woorden. De grafiek die daaruit voortkomt ziet er zo uit:

In deze Cluster Analysis is goed te zien dat beide romans meteen in het begin van elkaar scheiden. Aan de bovenste tak bevinden zich alle personages van Henriëtte van Grandpré, aan de onderste tak die van Sara Burgerhart. Voor de volledigheid volgt er nu een Principal Components Analysis met dezelfde bestanden.

155_{Kestemont 2013: 46.}

36 Ook in deze grafiek zijn beide romans duidelijk gescheiden: aan de linkerkant (op -10) staan de personages van De historie van mejuffrouw Sara Burgerhart en aan de rechterkant (op +10) die van Henriëtte van Grandpré. Dat betekent dat de romans niet door dezelfde schrijvers zijn geschreven, maar dat stond niet ter discussie. Het betekent ook dat de schrijfstijl van beide schrijversduo’s niet erg op elkaar lijkt. Krol schrijft dat een ‘humoristische, speelse stijl’ typerend was voor Wolff en Deken.156_In het vorige hoofdstuk kwam al aan de orde dat volgens Krol navolgers er vaak niet in slaagden (de stijl van) Sara Burgerhart te evenaren. Dat zou een verklaring kunnen zijn voor dit verschil. Er zit weinig humor in Henriëtte van Grandpré, maar dat is een element dat R niet kan meten. Om duidelijk te krijgen in hoeverre Sara Burgerhart en Henriëtte van Grandpré precies van elkaar verschillen, volgt later in dit hoofdstuk nog een vergelijking met een referentiecorpus. Nu zal ik eerst met behulp van AntConc een vergelijking maken. Dit computerprogramma kan preciezer aanwijzen waarin de twee romans van elkaar verschillen. In AntConc worden twee teksten vergeleken op keyness. Woorden met een hoge keyness zijn woorden ‘which occur unusually frequently in comparison with some kind of reference corpus.’157 Ten eerst is er dus een referentiecorpus nodig. Welke tekst het beste als referentiecorpus kan dienen wordt beschreven in ‘A guide to corpus linguistics’:

One of them is assumed to be a large word list which will act as a reference corpus. The other one is the word list which will be analysed, which is automatically assumed to be the one created from the smaller of the two corpora chosen. The intention is to find out which words characterize the corpus

the user wants to analyse.158 156_{Krol 2004: 69.}

157_{Scott 2010: 38.}

158_{‘A guide to corpus linguistics’. Internet: 27 december 2012. <http://fss.plone.uni-}

giessen.de/fss/faculties/f05/engl/ling/help/materials/restricted/clguide.pdf/file/A%20Guide%20to%20Corpus%20Linguistics. pdf>

37 Sara Burgerhart is in deze analyse het referentiecorpus. Niet alleen omdat het een groter bestand is, maar ook omdat ik wil weten waarin de Henriëtte afwijkt van Sara Burgerhart en niet andersom. Sara Burgerhart is eerder verschenen en zou Henriëtte van Grandpré beïnvloed kunnen hebben.

In deze vergelijking is het dus zo dat woorden met een lage keyness zowel in de Henriëtte als in Sara Burgerhart veel voorkomen. Woorden met een hoge keyness komen in Henriëtte van Grandpré veel vaker dan in Sara Burgerhart.

Deze lijst bevat de woorden uit Henriëtte van Grandpré met de hoogste keyness:

Een aantal woorden zou eigenlijk niet op deze lijst moeten verschijnen. Dit zijn Ik, mij, mijne, gij, en mijn. Dit zijn namelijk woorden die typisch zijn voor een briefroman, en zij bevestigen het genre. Omdat Sara Burgerhart ook een briefroman is, komen die woorden daar ook voor en zijn ze niet afwijkend. De verklaring is een verschil in spelling. De woorden staan ook in de Keyword List van Sara Burgerhart, maar zijn daar gespeld als myne, my, myn. Dat geldt ook voor zyne, zy, gy, dus in deze analyse negeer ik deze woorden.

Ook de namen zijn logisch te verklaren: die scoren hoog op keyness omdat de brieven ondertekend worden met een naam en in Henriëtte van Grandpré andere briefschrijvers voorkomen dan in Sara Burgerhart.

De volgende inhoudswoorden staan in de lijst: vrouw (met de hoogste keyness, van 402.831), moeder, vader, zuster, altijd, man, graaf, heer, mevrouw, ouders, kind, leeven, god, meisje, echtgenoot, vriend (de laatste, met een keyness van 111.126 – woorden die onder de 100 scoorden heb ik niet meer geselecteerd). Van deze woorden kan leeven afwijken door de spelling. Uit deze woorden wordt

38 duidelijk dat Sara Burgerhart en Henriëtte van Grandpré duidelijk verschillen qua thema en dat zorgt voor een ander woordgebruik. Het thema van Henriëtte is duidelijk: familie. In het eerste deel draait de plot voor een groot deel om Henriëtte en de zoektocht naar haar ouders, vandaar moeder, vader, ouders en kind. Sara is wees en daarom ontbreken die woorden bij haar. Ook zuster, man, meisje, echtgenoot en vriend zeggen iets over familiaire of sociale relaties. God als hoogfrequent woord ondersteunt mijn bewering uit het voorgaande hoofdstuk: God is een belangrijk aspect van het verhaal, omdat deugdzaamheid en het geloof de kern van de Nederlandse Verlichting waren.Heer en mevrouw is een aanspreekvorm die volgens deze analyse veel minder vaak voorkomt in Sara Burgerhart.

Deze analyse heeft duidelijk gemaakt dat de Henriëtte qua thema en schrijfstijl afwijkt van Sara Burgerhart. Toch zou het zo kunnen zijn dat deze twee romans meer op elkaar lijken dan blijkt uit deze analyse. Om dit na te gaan, volgt nu een vergelijking met een andere roman als referentie. Dit is Het land, in brieven (1788) van Elizabeth Maria Post. Deze keuze is niet willekeurig: het is ook een briefroman en uit de kwalitatieve analyse bleek dat De Witte en Van Zuylekom ook uit deze roman elementen hebben ‘geleend’. Een analyse met R levert de volgende grafiek op:

Deze Principal Components Analysis laat zien dat Henriëtte van Grandpré meer op Het land, in brieven lijkt dan op Sara Burgerhart. De grafiek doet voor een ongeoefend oog wellicht wat chaotisch aan, maar het gaat eigenlijk alleen om de drie namen rechtsboven in de grafiek: Sofia, Eufrozyne en Emilia. Dit zijn de personages van Het land, in brieven. Zij clusteren daar samen en staan aan dezelfde kant als Henriëtte van Grandpré. Beide romans hebben een behoorlijke afstand ten opzichte van Sara Burgerhart, dat is de wirwar van namen aan de linkerkant. Tenslotte is er te zien dat Emilia en Henriëtte overlappen rechtsboven in de grafiek. Omdat dit opmerkelijk is, volgt hier een tweede analyse van dezelfde romans, maar dan in een Cluster Analysis.

Uit deze grafiek komt naar voren dat het clusteren van Henriëtte en Emilia enigszins misleidend was: in deze Cluster Analysis komen ze niet bij elkaar in de buurt. Dit kan te maken hebben met het random samplen. Deze grafiek bevestigt echter wederom dat Henriëtte van Grandpré meer op Het land, in brieven lijkt dan op Sara Burgerhart: in de grafiek splitst de roman van Wolff en Deken zich meteen af. Daarna splitsen Het land, in brieven en Henriëtte van Grandpré pas. Voor vervolgonderzoek zou het interessant zijn om te onderzoeken waarin Henriëtte van Grandpré dan precies op Het land, in brieven lijkt. Voor nu fungeert dit bestand alleen als referentiecorpus.

2.4 Interne analyse Henriëtte van Grandpré

De bovenstaande analyses door R kunnen niet alleen worden gebruikt voor een vergelijking tussen verschillende romans, maar ook voor delen van één roman. In het geval van een briefroman is dit goed te onderscheiden: alle personages hebben hun eigen brieven en dus hun eigen tekst. In de volgende grafieken worden de personages van Henriëtte van Grandpré onderling met elkaar vergeleken.

Bij deze grafieken moet ik eerst een kanttekening plaatsen. Door de random sampling (waarbij steeds een willekeurig fragment van 1000 woorden wordt geselecteerd uit de ingevoerde tekst) treden er bij herhaling van de experimenten soms verschuivingen op. Dat betekent dat een grafiek waarin dezelfde gegevens opnieuw worden ingevoerd, nooit helemaal hetzelfde wordt als zijn voorganger. De fragmenten zijn namelijk steeds ietsje anders. Bij de eerste twee grafieken, de Cluster Analysis en Principal Components Analysis, zijn die verschuivingen niet zo groot. In de Cluster Analysis komen dezelfde personages vaak aan één ‘tak’ en in de Principal Components Analysis bevinden alle personages, behalve Prengel en Veaucoeur zich aan de linkerkant. (Dit wordt in de grafieken duidelijker.) Prengel en Veaucoeur scoren ook steeds 10 en 25 (zie de as onderaan de grafiek). In de Bootstrap Consensus Tree zijn de verschuivingen echter groter. Een aantal personages blijft dicht bij elkaar

40 (dezelfde clusters als in de andere grafieken), maar toch heeft de grafiek elke keer een ander uiterlijk. Dit betekent dat de stijl van de personages niet heel concreet en stabiel is en daarom fluctueert het. Afhankelijk van het sample lijken ze in meer of mindere mate op elkaar. Dit is niet vreemd, want het zijn immers steeds dezelfde auteurs die het schrijven.

Ik ga uit van de clusters die in verschillende grafieken tevoorschijn komen en zo blijven bij herhaling van de grafiek. De eerste grafiek, een Cluster Analysis, ziet er zo uit:

Ten eerste valt op dat de personages van deel 1 en deel 2 grofweg van elkaar worden gescheiden. Bovenaan clusteren personages van deel 1, aan de onderkant die van deel 2. Toch is het geen strikte scheiding. De eerste twee personages die ‘afslaan’ in de grafiek zijn Veaucoeur en Karel Prengel en zij staan samen helemaal onderaan. Omdat ze uit deel 1 komen, zou hun plaats logischerwijs bovenaan zijn. Dat Veaucoeur en Prengel als tweetal daar staan, betekent dat ze het meest van de rest van de rest verschillen, maar in dat verschil op elkaar lijken. Als ze in de volgende analyses weer apart staan, kan ik gaan onderzoeken waar dit verschil vandaan komt en daar conclusies aan verbinden. Eén grafiek vormt nog niet voldoende bewijs. Dit geldt ook voor Louise, die zich in deze grafiek tussen de personages van deel 2 bevindt.

Ten slotte valt in deze grafiek op dat het viertal Virtus, Charlotte, Henriëtte en Beauvoisin bij elkaar cluster en Clotilde Prengel hoort daar ook bij. Dit ondersteunt mijn bewering in het vorige hoofdstuk, dat deze vier jongeren erg overeenkomen: volgens deze grafiek komt hun taalgebruik en stijl ook overeen. Als dit klopt, gebeurt dit in de volgende grafiek weer.

In R laat ik nu met dezelfde gegevens een Principal Components Analysis maken. De grafiek ziet er als volgt uit:

41 In deze grafiek staan Veaucoeur en Karel Prengel weer apart. Toch wordt hier duidelijk dat ze minder met elkaar verbonden zijn dan de voorgaande Cluster Analysis deed vermoeden. Veaucoeur staat uitzonderlijk ver naar rechts. De verklaring daarvoor is dat hij zoveel Frans gebruikt in zijn brieven; een

In document Volg uw Burgerhart! Een onderzoek naar de invloed van Wolff en Dekens 'De historie van mejuffrouw Sara Burgerhart' op 'Henriëtte van Grandpré' van J.E. de Witte en M. van Zuylekom (pagina 33-64)