RESULTATEN VAN HET ONDERZOEK - BR-al, NBR-al vs 1615ONB-KLQUAK, 1619BR-HQ geeft mogelijk uitslu

Waer in (uyt lust) by een vergadert zijn, veel Minnelijcke Liedekens, (noyt voor desen gedruckt) gestelt op verscheyden nieuwe Stemmen: by een gebracht door vier

TST 35 BR-al, NBR-al vs 1615ONB-KLQUAK, 1619BR-HQ geeft mogelijk uitsluitsel

8. RESULTATEN VAN HET ONDERZOEK

Na het intensieve onderzoek in het vorige hoofdstuk wordt het tijd de eindbalans op te maken.

In de eerste plaats ging het om de vraag of ‘de auteursidentificatiemethode een adequaat

onderscheidingsmiddel is om auteur en werk uit een groep 17^e-eeuwse literaire werken met elkaar te verbinden’.

Een paar kanttekeningen: Hoe gingen we in het verleden om met de data over auteur en werk?

Bronnenonderzoek leverde vaak verbluffende resultaten en uit stoffige bibliotheken wisten literatuurhistorici ons te verblijden met tal van moeilijk te bereiken bewijzen van het verband tussen auteur en werk. Ook in de loop van dit onderzoek heb ik bij de zoektocht naar enkele ankerpunten dankbaar gebruik gemaakt van het speurwerk van deze schatgravers. En deze uiterst waardevolle praktijk moet vooral zo blijven.

Er is echter ook een andere, minder positieve, kant aan dit verhaal. In veel gevallen zijn de bewijzen echter in het verleden onvindbaar gebleken of in de loop van de tijd door allerlei oorzaken zoekgeraakt. Dan moeten we het doen met de constatering dat we de identificatie niet zullen kunnen realiseren.

In dit afgeronde onderzoek heb ik een alternatieve aanpak willen introduceren om het onbevredigende gevoel van het niet kennen van de identiteit van een literair werk of het ten onrechte toewijzen van een werk aan een auteur weg te nemen.

De methode biedt echter meer mogelijkheden dan net geschetst. Vergelijking van stukken tekst met de bedoeling vast te kunnen stellen of ze door dezelfde hand zijn geschreven komt in onze huidige maatschappij verrassend vaak voor. Wat te denken van scripties of werkstukken van studenten die liever lui zijn dan moe, ofwel die iets te gretig proberen te profiteren van het werk van ijverige collega-studenten. Plagiaat of handige ontlening willen we graag uitbannen, vandaar het succes van allerlei tools om oneerlijk verkregen teksten te kunnen analyseren en misbruik aan het licht te brengen. Bij dit proces is een handig softwareprogramma uiterst welkom. Het in het onderzoek gebruikte softwareprogramma is zeker niet onmiddellijk geschikt voor het hier gegeven voorbeeld maar past wel in deze ontwikkeling.

Er zijn echter wel een paar voorwaarden verbonden aan het op de juiste manier toepassen van deze methode.

Zoals we hebben gezien moeten de gegevens digitaal beschikbaar zijn of gemaakt kunnen worden. Bij dit onderzoek heb ik laten zien hoe de gegevens geschikt gemaakt kunnen worden voor het juiste gebruik in de uiteindelijke onderzoekssoftware.

Er moeten ook meerdere teksten van een auteur beschikbaar zijn binnen de groep primaire werken om tot een vergelijking te kunnen komen. Het volstaat niet om maar één tekst in de groep primaire werken te plaatsen. Het programma zal dan een gedeeld-door-0-fout opleveren en het programma stopt en geeft een foutmelding. Ter voorkoming van het vastlopen van het programma moet het uitgangspunt bij de keuze van de teksten aan deze voorwaarde zijn voldaan.

Het verschil in lengte tussen de teksten wordt gedeeltelijk opgeheven door gebruik te maken van relatieve frequenties, maar als het verschil tussen de teksten te groot wordt is dit nadelig voor een correcte analyse.

Ervaring bij de toetspraktijk in dit onderzoek leert dat het voor het juist functioneren van de software van doorslaggevend belang is tijdens het draaien van het softwareprogramma DELTACALC alle andere

programma’s op de computer (en zeker die van het programma Excel) volledig te sluiten. Gebeurt dit niet dan

wordt het programma uiterst traag en kan zelfs totaal vastlopen. Eigenlijk geldt hetzelfde voor het openen van de OMREKENINGSTABEL WOORDFREQUENTIES. Het gaat natuurlijk om een enorme hoeveelheid data die beschikbaar moet komen en dat heeft tijd nodig. Geduld is daarbij een schone zaak.

Is het vernieuwde programma DELTACALC2019 uiteindelijk een beter programma gebleken dat een eerdere versie uit 2017? Daarover kan ik kort zijn. Het vervallen van de eerdere beperking in de hoeveelheid woorden van een woordfrequentielijst maakt het programma veel bruikbaarder. Daardoor was ik in staat lijsten van meer dan 4000 woorden te gebruiken en dat betekende een toegenomen accuratesse en toepasbaarheid.

Het is wel van belang het programma goed te leren kennen, vooral met betrekking tot waar de uiteindelijke gegevens op het werkblad zijn terug te vinden. Ben je eenmaal vertrouwd dan levert dit geen probleem op.

Wel heb ik de schema’s met daarin de slotconclusies die op het werkblad op diverse, ver uit elkaar gelegen plekken zijn gelokaliseerd, in een veel handzamer en daarmee praktischer werkblad onder de naam

CONCLUSIES 3N BR-NBR-BETW¹³⁴ ondergebracht.

De conclusies zijn ondergebracht in het volgende schema.

Oorspronkelijke vraagstelling

Welke test? Conclusie Verwachting vs

conclusie?

TST 02 br, hlft vs BR-hlft

TST 03 BR-hlft vs BR-hlft Categorie BR

zelfstandige categorie

TST 04 BR-br vs NBR-br Categorie BR verschillend van NBR

TST O5 hlft vs Nal, BR-hlft

DOMEIN ST intern groep? TST 09 BR-br, DOMEIN ST-brhlft vs DOMEIN ST-ST-brhlft

DOMEIN ST (intern

DOMEIN VE intern groep? TST 10 BR-br, DOMEIN VE-brhlft vs DOMEIN VE-VE-brhlft

DOMEIN VE (intern één auteur: MATTHIJS VAN VELDEN)

Identiek 1

DOMEIN CR intern groep? TST 11 BR-br, DOMEIN CR-brhlft vs DOMEIN CR-CR-brhlft

DOMEIN CR (intern één auteur: A.P.

CRAEN)

Identiek 1

134 Zie 650 BREDERO ONDERZOEK 2020/35 CONCLUSIES BREDERO ONDERZOEK 2020/

91 PEG-werken een domein? TST 11A ST-brhlft, VE-brhlft,

CR-brhlft vs ST-hlft, VE-hlft,

TST 12 NBR-hlft vs NBR-hlft Geteste werken NBR behoren tot één categorie.

Identiek 1

Onderscheid NBR en domein COSTER?

TST 13 NBR-br vs DOMEIN COST-al

TST 15 NBR-br vs WHO-al DOMEIN WHO eigen domein (één auteur)

TST 19 NBR-br vs DOMEIN PEG-al

TST 20 DOMEIN COST-al vs DOMEIN PCH-al

TST 21 DOMEIN COST-al vs DOMEIN WHO-al

TST 22 DOMEIN COST-al vs DOMEIN ST-al

92 Onderscheid DOMEIN

COST en DOMEIN VE?

TST 23 DOMEIN COST-al vs DOMEIN VE-al

TST 24 DOMEIN COST-al vs DOMEIN CR-al COST en werk PEG, ander werk VE en CR?

TST 25 DOMEIN COST-al vs WERK PEG, ander werk VE en

TST 26 DOMEIN COST-hlft vs DOMEIN COST-hlft

TST 27 DOMEIN PCH-hlft vs DOMEIN PCH-hlft

TST 28 DOMEIN WHO-hlft vs DOMEIN WHO-hlft

DOMEIN WHO één domein, W.D. HOOFT

= auteur

Identiek 1

DOMEIN ST één domein? TST 28A COST-br, DOMEIN ST-hlft vs DOMEIN ST-hlft

DOMEIN ST één domein. J.J. STARTER

= auteur

Identiek 1

DOMEIN VE één domein? TST 28A COST-br, DOMEIN VE-hlft vs DOMEIN VE-hlft

DOMEIN VELDEN één domein, M. VAN VELDEN = auteur

Identiek 1

DOMEIN CR één domein? TST 28A COST-br, DOMEIN CR-hlft vs DOMEIN CR-hlft

TST 32 COST-al, PCH-al vs 1617BETW-WAR

93 Wie schreef (vers 1 -362)

van 1619BETW-ISAB?

TST 33 COST-al, PCH-al vs 1619BETW-ISAB is redelijk goed aan te tonen SAMUEL COSTER, al is de onderlinge betrokkenheid conclusies. 42x wel, 4x niet =

90,5% deel 4 is geschreven door J.J.

STARTER, deel 1 t/m 3 zijn

TST 36: Deze tweedeling in 1638BETW-OO tussen werk VE en werk BR kan worden aangetoond

Kunnen we nu na de volledige testprocedure vaststellen dat het softwareprogramma er inderdaad adequaat in slaagt auteurs in de 17^e-eeuwse teksten met hun werk te identificeren? Het antwoord is positief.

Allereerst is de testprocedure reproduceerbaar gebleken. Wordt de test onder dezelfde omstandigheden (met dezelfde procedure) nogmaals uitgevoerd, dan komt er telkens dezelfde uitslag uit. Uiteraard is van essentieel belang dat de aangeleverde data voor het uiteindelijke identificatieprogramma ook op transparante en uniforme wijze tot stand zijn gekomen. Vandaar de nadruk op de uniforme geautomatiseerde voorbereiding bij de datasoftware met KWIC CONCORDANCE en WERKBLAD RELATIEVE WOORDFREQUENTIELIJST.

Verder is bij elke test met DATACALC2019 SPREADSHEET een verwachting uitgesproken en later een conclusie.

Dat is in totaal bij 42 testen gebeurd, waarbij in 38 gevallen het verwachtingspatroon relateerde met de uiteindelijke conclusie 38/42=90,5%). In vrijwel alle gevallen komt de verwachting en de conclusie echter wel met elkaar overeen. Daarmee kunnen we spreken van een betrouwbaarheidsindicatie van 93,3 %. Weliswaar hebben we hier niet te maken met een spijkerhard bewijs, maar is het toch zinvol dit gegeven mee te wegen in de uiteindelijke eindconclusie of het programma adequaat functioneert.

Wat houden we nu uiteindelijk over aan dit onderzoek:

In document 12 MEI 2020 BREDERO STYLOMETRISCHE AUTEURSIDENTIFICATIE G.A.J. VESTERING (pagina 90-95)