Ondersteuning van computerprogramma’s

Hoofdstuk 4: Methodologie

4.1. Kwantitatief onderzoek

4.1.1 Ondersteuning van computerprogramma’s

Voor het gebruik van de computerprogramma’s werden alle aangeleverde manuscripten —Word-bestanden of Pdf-bestanden — geconverteerd naar txt-bestanden. Bij deze conversie worden redactionele wijzigingen ingevoerd als opmerkingen niet meegenomen door het converteerprogramma Calibre. Bijgevolg worden enkel de wijzigingen die aangebracht zijn in de tekst met wijzigingen bijhouden overgezet bij de conversie. Hierdoor moeten de opmerking in de kantlijn dus handmatig onderzocht worden tijdens de analyse.

Om een correcte analyse van de redactiefasen mogelijk te maken, is in alle manuscripten, waarin reeds een voettekst, een colofon en een nawoord stond, het nawoord, de colofon en de voettekst verwijderd. Op deze manier wordt tijdens de kwantitatieve verwerking enkel op data afkomstig uit het verhaal gefocust, en kunnen allerhande data uit het nawoord en de voettekst de resultaten niet beïnvloeden.

4.1.1.1 AntConc

Ik hanteer het programma AntConc om word lists, keyword lists, concordance plots te maken ende collocate-tool te gebruiken. Deze vier tools zijn handig bij het verwerven van inzicht in verband met de woordenschat van een tekst.

De allereerste tool is de word list-tool. Nadat het txt-bestand geüpload is, klik je het balkje word list aan. Vervolgens maakt deze tool een gerangschikte lijst van de woorden uit een geüpload corpus (meerdere bestanden) of een document. Deze woordenlijst bevat dus alle woorden die voorkomen in een bepaalde tekst of in alle teksten uit het corpus. In deze lijst zijn, naast de woorden zelf, ook de frequentie van elk woord en een

rangschikking terug te vinden. Vervolgens is het mogelijk om een selectie van woorden uit deze woordenlijst te kopiëren en te plakken in een Excel-bestand. Denk hierbij bijvoorbeeld aan de 200 meest voorkomende woorden uit het bestand

‘Over_liefde_ZitaTheunynck_nulversie’ met hun frequentie en gerangschikt op frequentie van hoog naar laag. Wanneer de gegenereerde woordenlijst woorden uit een corpus bevat, zal de frequentie van elk woord gelijk zijn aan de som van de afzonderlijke

frequenties uit alle teksten in de corpus. Deze tool is vooral handig om de frequentie van bepaalde woorden op te sporen en om te onderzoeken welke woorden veel gebruikt worden door de auteur.

Op gelijkaardige wijze is het programma in staat om keyword lists te genereren: een gerangschikte lijst van woorden uit een tekst die de grootste afwijkende frequenties tonen met het referentiebestand of -corpus. Deze woordenlijst kan dus beschouwd worden als een verzameling van de grootste woordelijke afwijkingen van de basistekst ten opzichte van de referentietekst. Deze lijst bestaat uit de gerangschikte woorden, hun frequentie, de keyness en tot slot het effect. De woorden worden gerangschikt van hoge naar lage keyness. Een hoog getal in de keyness-kolom wijst op een groot verschil in de woordfrequentie en dus in keyness. Een laag cijfer daarentegen wijst op een klein

verschil in de woordfrequentie. Een positief getal toont een stijging in frequentie aan, terwijl een negatief cijfer een daling aantoont. Deze tool is zeer handig om de grootste vocabulaire verschillen tussen teksten te onderzoeken en om tekstplaatsen met

opvallende wijzigingen op te sporen. Ik hanteerde hierbij alle standaardinstellingen, behalve bij Keyword Statistic Treshold — waar ik koos voor all values — en bij Keyword Statistic — ik gebruikte er Log-Likelihood. Deze verkregen woordenlijsten kunnen

60 eenvoudig omgezet worden in Excel-bestanden, waardoor de resultaten van

verschillende zoekopdrachten gemakkelijk vergeleken kunnen worden.

Wanneer de concordance plot-tool actief is, stelt AntConc een rechthoekige figuur op waarin hij het aantal hits van een ingevuld woord in de werkbalk onderaan weergeeft en aangeeft waar in het geüploade document of documenten deze hits terug te vinden zijn. Het aantal hits is gelijk aan het aantal weergaven en wordt rechts van de balk

weergegeven. De positie van elke weergave wordt in de rechthoekige balk weegegeven door middel van een verticale lijn. Bovendien wordt elke weergave genummerd. De rechthoekige balk stelt het plot van het verhaal voor, waarbij links het begin en rechts het einde van het verhaal is. Logischerwijze zal de eerste weergave van het uitgekozen woord dus altijd links weergegeven worden. Wanneer de weergaves elkaar kort opvolgen zal de afstand tussen de verticale lijnen kleiner worden. Met behulp van deze tool kan dus een abstract beeld verworven worden van waar in de tekst het gekozen woord gebruikt worden.

Om de specifieke tekstuele context van het gekozen woord te kunnen observeren, is het gebruik van de concordance-tool aan te raden. Deze functie geeft van elke hit van het gekozen woord de tekstuele contexten weer. Wanneer de corpus uit meerdere teksten bestaat zal het naast de tekstuele context, ook de tekst waarin het in deze context voorkomt weergeven.

Tot slot hanteer ik af en toe de collocate-tool. Hiermee kan ik een lijst van alle woorden die voorkomen in de buurt van het uitgekozen woord, opvragen. Bijgevolg worden alle woorden die deel uitmaken van de tekstuele context op basis van frequentie geordend. Ook kan handmatig gekozen worden hoe ruim de tekstuele context is: de gebruiker kan zelf het maximum aantal woorden links en rechts van het uitgekozen woord instellen. Wanneer ik bijvoorbeeld kies om de ‘afstand’ van de tekstuele context in te stellen op twee woorden links en drie woorden rechts, zal het programma alle woorden die voorkomen binnen het bereik van twee woorden links en drie woorden rechts van het gekozen woord weergeven. De woorden zijn gerangschikt van hoog naar laag op basis van frequentie. Bovendien geeft het programma per woord aan op welke positie ten opzichte van het gekozen woord het zich bevindt en hoe vaak het op die positie voorkomt.

61 In het artikel “Big data, magna data: Nieuwe mogelijkheden voor onderzoek naar teksten en handschriften” (Van Dalen-Oskam) en in de masterscripties van de studenten die bijdroegen aan Rietstaps onderzoek Het redactieproces ontleed worden expliciete voorbeelden van hoe deze tools gebruikt worden, gegeven.

4.1.1.2 Stylo Package for R

Voor dit onderzoek hanteer ik versie 3.5.8 van Stylo Package for R. Ik maak voornamelijk gebruik van Stylo om Clusteranalyses en Bootstrap Consensus Trees te genereren. Met behulp van deze figuren is het mogelijk om de relationele verhoudingen of de

verwantschap tussen de verschillende manuscripten (Zeventien in totaal) van Het wordt spectaculair. Beloofd. weer te geven. Het programma groepeert de manuscripten

namelijk op basis van verwantschap, waardoor clusters van manuscripten ontstaan die gelijkenissen vertonen. Door de weergave van de manuscripten in clusters kunnen de manuscripten op basis van de grootte van de afwijkingen toegekend worden aan de bijbehorende redactiefasen.

Aangezien dit programma enkel werkt op basis van een corpus en dus niet op basis van losstaande txt-bestanden, heb ik allereerst alle zestien manuscripten in een corpus samengebracht. Alle manuscripten waren toen al omgezet naar een txt-bestand waarin het nawoord, de colofon en de voettekst weggehaald werden. De map waarin dit corpus werd opgeslagen, kreeg de naam: ‘HWSB_ZColVoett_Dankw’. Vervolgens had deze map een map die ‘Corpus’ heette en waarin alle manuscripten opgeslagen werden. Stylo

functioneert namelijk enkel met txt-bestanden uit de corpusmap: wanneer de map waarin de bestanden opgeslagen zijn een andere naam heeft, zal het programma geen figuren genereren. Vervolgens kan ik de corpus selecteren en de opdracht geven om hier een

Clusteranalyse of Bootstrap Consensus Tree van te maken. Op figuur 5 en 6 is een voorbeeld van een Clusteranalyse of Bootstrap Consensus Tree te zien.

De horizontale lijnen in de Clusteranalyse geven de graad van afwijking tussen de versies weer: een korte horizontale lijn wijst op een minuscule afwijkingsgraad tussen de

clusters, terwijl een lange horizontale lijn op grote verschillen tussen de clusters wijst. Wanneer documenten tot dezelfde cluster behoren, wil dit zeggen dat de verschillen tussen de documenten miniem zijn. Het getal onderaan geeft weer hoe ruim de

62 zoekopdracht was. Staat er bijvoorbeeld 750 MFW dan is de figuur gemaakt op basis van de 750 meest voorkomende woorden — zoals in het onderstaande voorbeeld. Bovendien is in hetzelfde voorbeeld gekozen voor een minimumwaarde van 50 MFW en een

maximumwaarde van 750 MFW. De afwijkingen en verwantschappen tussen de

manuscripten worden berekend op basis van meerdere metingen. Het aantal metingen is afhankelijk van de gekozen instellingen. De metingen in dit voorbeeld hadden een

increment van 100, waardoor de metingen gebeurden in een veelvoud van 100. Wanneer zoals in het onderstaande voorbeeld de metingen uitgevoerd zijn op basis van de 750 meest frequente woorden met de desbetreffende minimum- en maximumwaarden, worden er dus 8 analyses uitgevoerd: op het niveau van 50 MFW, 150 MFW, 250 MFW,350 MFW, 450 MFW, 550 MFW, 650 MFW en 750 MFW. Uiteindelijk wordt het gemiddelde van de metingen weergegeven in de Clusteranalyse.

In de Bootstrap Consensus Tree worden op een alternatieve wijze deze onderliggende relaties tussen de bestanden uit het corpus weergegeven. De instellingen voor het opmaken van deze figuur zijn dezelfde als bij de Clusteranalyse. Daarentegen liggen andere metingen aan de basis van deze visuele weergave. De Bootstrap Consensus Tree

iseen visueel statistische weergave gebaseerd op een verscheidenheid aan resultaten, die voortkwamen uit meerdere clusteranalyses met verschillende MFW en culling

waarden. Ook worden de verwantschappen en afwijkingen niet weergegeven door horizontale lijnen, maar door hoofd- en zijvertakkingen van het middelpunt.

Figuur 5. Voorbeeld van aan clusteranalyse.

Figuur 6. Voorbeeld van een Bootstrap Consensus Tree.

Een uitgewerkt voorbeeld van een studie met behulp van dit computerprogramma, is terug te vinden in “Epistolary voices. The case of Elisabeth Wolff and Agatha Deken” (Van Dalen-Oskam).

4.1.1.3 Juxta

Het computerprogramma Juxta gebruik ik om teksten of tekstdelen van verschillende manuscripten met elkaar te vergelijken. Onder de comparison-tool kunnen er twee teksten of tekstfragmenten vergeleken worden en zal het programma in het groen aangeven welke veranderingen hebben plaatsgevonden. Op deze manier biedt het programma ondersteuning bij het opsporen van redactionele wijzigingen in de

manuscripten. Zo kan in Juxta gericht gezocht worden naar expliciete voorbeelden van wijzigingen rond bijvoorbeeld de karakterisering. Doordat alle verschillen tussen de twee teksten weergegeven worden in het groen, verloopt het doorlopen van de wijzigingen snel en eenvoudig en kunnen alle verschillen met betrekking tot karakterisering

makkelijk opgemerkt worden. Vervolgens neem ik screenshots van enkele verschillen en gebruik ik ze als voorbeelden in de scriptie. Bovendien is dit programma een perfecte aanvulling op de resultaten uit AntConc: in Juxta kunnen eenvoudig voorbeelden gevonden worden van het cijfermateriaal uit de keyness-tool in AntConc. Tot slot kan onder de vergelijking ook informatie teruggevonden worden omtrent de bronnen van en afbeeldingen uit de teksten die gebruikt worden in de vergelijking.

4.1.1.4 Voyant

Met behulp van de Voyant-tool verwierf ik inzicht in het aantal tokens, unieke woorden, de zinslengte en lexicale variatie in verscheidene versies van het manuscript.

Voyant is een webapplicatie waar bestanden kunnen geüpload worden en de applicatie vervolgens allerlei cijfermateriaal in verband met het woordgebruik (zoals het aantal tokens, unieke woorden, de zinslengte en lexicale variatie) van de tekst opzoekt.

Daarnaast geeft de applicatie de geüploade teksten weer en maakt het visuele weergaves van de verwantschap tussen de teksten, gebaseerd op bovenstaande informatie, en van de meest frequente woorden. Tot slot geeft het ook informatie in verband met de tekstuele context van woorden en de meest frequente woordcombinaties.

In document Niets is wat het lijkt… Het redactieproces van de debuutroman Het wordt spectaculair. Beloofd. (pagina 58-64)