Stageverslag Huygens ING Naam: Luck van Leeuwen Opleiding: BA Nederlands Stagebegeleider RUG: Janneke Weijemars Stagebegeleider stagegever: Karina van Dalen-Oskam Periode: februari 2017- maart 2017

(1)

Stageverslag Huygens ING Naam: Luck van Leeuwen Opleiding: BA Nederlands

Stagebegeleider RUG: Janneke Weijemars

Stagebegeleider stagegever: Karina van Dalen-Oskam Periode: februari 2017- maart 2017

Inhoudsopgave

(2)

1. Voorwoord 2 2. De organisatie en het onderzoeksproject 3 3. Stageplan en het verloop van de stage 4

4. Evaluatie en reflectie 11

5. Een vooruitblik 14

Appendix I: De complexiteit van literatuur 15

(3)

1. Voorwoord

In aanloop naar het scriptietraject waarmee ik m’n bachelor afsluit, sprak ik met één van mijn docenten (Janneke Weijemars) over mijn toekomst in het vakgebied en of het mogelijk is om mijn scriptie op een hoger plan te tillen. Ik had toen nog 10 ECTS over aan vrije ruimte, en twijfelde over de invulling daarvan. Weijermars wees me op mogelijkheden om bij het HuygensING stage te gaan lopen in de vorm van een onderzoeksstage. Hoewel het doen van een onderzoeksstage in je bachelor niet persé gebruikelijk is, heb ik er toch voor gekozen om een gok te wagen en een mail te sturen naar Karina van Dalen-Oskam, afdelingshoofd moderne letterkunde aan het HuygensING en hoogleraar computationele literatuurwetenschap aan de Universiteit van Amsterdam.

Ik kwam er achter dat er bij het HuygensING een onderzoeksproject liep dat me erg aansprak: The Riddle of Literary Quality. Dit project trok snel m’n aandacht aan omdat het beoogt een brug te slaan tussen twee onderzoeksvelden die in eerste instantie erg ver van elkaar verwijderd lijken: die van de op digitale onderzoeksmethoden gestoelde taalkunde en taalbeheersing tegenover de van oudsher op kwalitatief onderzoek gerichte letterkunde. Het leek me een gouden kans om mijn opgedane kennis in taalbeheersing en letterkunde te combineren en vervolgens te praktiseren bij een onderzoeker die kenner is op beide terreinen.

En zo begon ik vol moed aan deze opdracht: een taak die niet zo rechtlijnig bleek als we vooraf hadden afgesproken en waarin we dientengevolge heel wat verschillende zijwegen hebben bewandeld. Onderzoek doen leidt vaker tot nieuwe vragen dan tot concrete antwoorden: het voornaamste doel van dit stageverslag is om op dat proces waarin de academicus (in opleiding) in verzand kan raken te reflecteren en hoe ik heb geprobeerd, en er niet altijd in ben geslaagd, me daar uit te werken.

Ik raad de lezer overigens van harte aan om eerst het onderzoeksverslag en dan het stageverslag te lezen. Op die manier heeft hij of zij een beter beeld bij de vele termen die in het stageverslag naar voren komen.

(4)

2. De organisatie en het project

2.1. Huygens ING

Het Huygens ING heet voluit het ‘Huygens Instituut voor Nederlandse Geschiedenis’. Kort gezegd doet het Huygens onderzoek op het terrein van geschiedenis en cultuur. Dat gebeurt op dit moment op vier deelgebieden: Geschiedenis, Letterkunde, Wetenschapsgeschiedenis en Digital Humanities. De bedoeling is dat specialisten op deze deelterreinen veel met elkaar samenwerken. Een belangrijke samenwerkingspartner van het Huygens is het Meertens Instituut. Sinds het begin van 2017 is het Huygens gehuisvest is hetzelfde pand als het Meertens: een onderzoeksbureau dat vooral onderzoek doet naar de Nederlandse taal.

Bij het Huygens lopen op dit moment een flink aantal verschillende onderzoeken: zo wordt er gewerkt aan een editie van de Volledige Werken van W.F. Hermans en doen een aantal academici onderzoek naar online repertoirevorming. Het Huygens heeft als belangrijke doelstelling om het werk van onderzoekers voor de relatieve leek toegankelijk te maken. Dat doet het Huygens bijvoorbeeld door overzichtelijke, informatieve websites op te richten. Een bekend voorbeeld daarvan is het Literatuurmuseum: een website waarop door kenners geschreven, begrijpelijke artikels verschijnen.

2.2. The Riddle of Literary Quality

Het onderzoeksproject waarin ik participeerde is oorspronkelijk begonnen in januari 2012 als samenwerkingsverband tussen het Huygens ING, Fryske Academy en Institute for Logic, Language and Computation. Centraal uitgangspunt in dit onderzoek vormt het gegeven dat niet alleen sociologische of culturele factoren bijdragen aan de collectieve waardebepaling van literatuur, maar dat juist ook formele tekstkenmerken daarbij van groot belang zijn.

Formele tekstkenmerken zijn variabelen op alle niveaus van de tekst (woord, zin, alinea, etc.) die op één of andere wijze objectief meetbaar zijn. Dat kunnen zogenaamde low-level paterns zijn als woorden zinslengte en woordvoorkomens, maar ook high-level paterns waarbij er eerst handelingen nodig zijn voordat ze geoperationaliseerd kunnen worden. Voorbeelden daarvan zijn syntactische structuur, semantische variabelen, teksttopics en narrativiteit. Voor een uitgebreider theoretisch kader verwijs ik naar het onderzoeksverslag dat is bijgeleverd als Appendix I.

The Riddle wil de relatie tussen deze formele tekstkenmerken en waardebepaling van literatuur onderzoeken. Een probleem hierbij is het gegeven dat iets als literaire kwaliteit berust op subjectiviteit: lezers hebben allerlei verschillende argumenten om te bepalen of een boek literair is of niet. Daarom voerden de onderzoekers van The Riddle het Nationaal Lezersonderzoek uit: 14.000 mensen werden gevraagd om 4000 verschillende romans uit de periode 2007-2012 te beoordelen. Die boeken hoefden ze niet perse gelezen te hebben: juist oordelen over niet-gelezen romans vormen een belangrijk onderzoeksobject.

Het project bestond onder andere uit het ontwikkelen van tools waarmee het onderzoek gedaan kon worden. Andreas van Cranenburgh heeft daar met zijn promotieschrift Topic Modeling and Literary Quality (2016) een fundamentele bijdrage aan geleverd. Andere uitkomsten zijn een aantal artikels en publicaties op de website van The Riddle. Hoewel het onderzoek op het moment dat ik insprong aan een formeel einde was gekomen, betekent dat niet dat daarmee alle vragen waren beantwoord. Ik ben aangesteld als stagiair om een nieuwe onderzoeksvraag te bedenken, deze te beantwoorden en daarvan verslag te doen.

(5)

3. Stageplan en het verloop van de stage

Hieronder is mijn stageplan opgenomen. Het plan heeft in velerlei opzichten anders uitgepakt dan we vooraf hadden afgesproken: een reflectie daarop is later in dit verslag te lezen.

3.1. Stageplan

(in te vullen door de student, ter goedkeuring van de docent)

Stageperiode: 6-2-2017 t/m 28-4-2017

Persoonlijke gegevens stagiair

Naam

Studentnummer: s2794047 Adres: Hoendiepskade 6

Postcode & Woonplaats 9718BD Groningen

Tel. nr.: 0681688451 E-mail: luckvanleeuwen@hotmail.com

Stagedocent

Naam: Janneke Weijermars Opleiding: Nederlands

Stagegever

Naam: HuygensING

Adres: Oudezijds Achterburgwal 185

Postcode & Woonplaats: 1012 DK Amsterdam

Tel.nr.: Branche:

Begeleider namens de stagegever

Naam: Prof. Dr Karina van Dalen-Oskam

Functie: Hoofd afdeling Letterkunde,

(6)

projectleider The Riddle of Literary Quality

Tel.nr.: 020-2246864

Korte omschrijving van de organisatie en/of sector waartoe de stagegever behoort Het Huygens ING is een onderzoeksinstituut van de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW). Het onderzoekt teksten en bronnen uit het verleden met behulp van nieuwe methoden en technieken. Het instituut staat voor innovatie in de onderzoeksmethoden, maar ook voor een beter begrip van de Nederlandse cultuur en geschiedenis bij een breed publiek.

Stage-opdracht / globale omschrijving van de inhoud van de stage

De student zal deel uitmaken van het onderzoeksteam van het computational humanities project The Riddle of Literary Quality, dat in de afrondende fase is. Hij zal meewerken aan het uitvoeren van onderzoek waarin lezersmeningen worden gevraagd in experimenten en stilometrisch onderzoek wordt gedaan naar de teksten waarover die meningen worden gevraagd. Hij zal ervaring opdoen in het lezen van digital humanities publicaties in de stilometrie en in het gebruik van software voor letterkundig onderzoek.

Tijdpad van de specifieke taken die tijdens de stage zullen worden uitgevoerd (incl.

eventuele niet-opdrachtgebonden taken)

Week 1 en 2: Inlezen in The Riddle of Literary Quality

Week 3 en 4: Lezen stilometrische publicaties en leren werken met AntConc Week 5 en 6: Leren werken met Stylo; uitwerken van een onderzoekscasus Week 7 en 8: Eerste stappen eigen onderzoekscasus

Week 9 en 10: Verder met onderzoekscasus, aanvullend leeswerk Week 11 en 12: Schriftelijk verslag van de onderzoekscasus.

Leeruitkomsten (learning outcomes) met te verwerven competenties

De stage in de opleiding Nederlandse Taal- en Cultuur heeft de volgende doelstellingen en leeruitkomsten:

1. Kennismaken met de praktijk van het HuygensING. De student is in staat om adequaat te functioneren in deze organisatie.

2. De tijdens de opleiding verworven kennis, inzichten en vaardigheden toepassen door een

(7)

concreet eindproduct te leveren in de vorm van een onderzoeksverslag, wat zal bestaan uit een deelonderzoek in het project The Riddle of Literary Quality.

3. De eigen werkzaamheden weergeven in een kritisch verslag; de student is getuige het stageverslag in staat goed gestructureerd verslag te leggen van de stage waarbij het verloop van de stage juist en volledig beschreven wordt. Het verslag is toegankelijk geschreven, is goed verzorgd en geeft blijk van analytisch vermogen.

4. De student is in staat om met voldoende diepgang te reflecteren op:

- het eigen handelen en de eigen competenties - het realiseren van de persoonlijke leeruitkomsten

- de toepasbaarheid van de in de opleiding verworven kennis, vaardigheden en attitudes tijdens de stage

- het nut van de stage voor het maken van adequate loopbaankeuzes in de toekomst.

5. Op persoonlijk niveau wil de student vaardigheden opdoen op het terrein van de digital humanities. Dat bestaat uit een aantal deelvaardigheden:

- Het kunnen lezen en reflecteren op artikelen op het terrein van de digital humanities - Het synthetiserend kunnen schrijven over ontwikkelingen in digital humanities

- Een degelijk onderzoek uit kunnen voeren dat past in de traditie van het onderzoeksproject - Kritisch kunnen reflecteren op de gekozen onderzoeksmethode en het uiteindelijke

onderzoeksverslag

Aard en frequentie van de begeleiding door de stagegever

Elke maandag of dinsdag een uur overleg om de stand van zaken en de voortgang te bespreken, met in de eerste en laatste twee weken ook elke dinsdag een uur.

Aard en frequentie van de begeleiding door de stagedocent

Ik schrijf iedere twee weken een logboek voor m’n stagebegeleider. Indien daar grote

problemen mee zijn, hoor ik dat. Zo nee, dan kan het werk gewoon voorgezet worden. Verder zal er op het HuygensING een tussentijdse evaluatie plaatsvinden met stagebegeleider en stagedocent. Tot slot vindt er nog een eindgesprek plaats met stagedocent.

3.2. Verloop stage

M’n stage is in de praktijk anders gelopen dan vooraf verwacht. In dit hoofdstuk geef ik een beschrijving van de werkzaamheden die ik heb verricht en tegen welke problemen ik ben aangelopen. Een uitgebreide reflectie is dit nog niet: hoewel er wel het één en ander geflecteerd wordt, kom ik verder in het verslag nog met een algemene reflectie en beschouwing op mijn werk.

Week 1 en 2

Voordat ik kon beginnen aan het stellen van een onderzoeksvraag moest ik in de eerste weken vooral inlezen. We hadden eigenlijk al vrij snel een gerichter kader opgesteld om vanuit te lezen. Deze kwam voort uit een met Karina gevoerd gesprek over canonvorming en literatuuronderwijs: ook dit onderdeel van het literaire veld doet mee aan het toekennen van

(8)

symbolisch kapitaal. Ik vroeg me af welke rol het literatuuronderwijs daarin speelt. Nadat we globaal het onderzoeksterrein hadden afgebakend bestond de volgende stap uit het inlezen op deze gebieden. Dat betrof enerzijds het vergaren van kennis over de technische aspecten van onderzoek binnen de digital humanities, oftewel het lezen van literatuur over stilometische tools en onderzoeksmethoden. Anderzijds moest ik inlezen in waardebepaling in het literatuuronderwijs. Ik stuitte al snel op het proefschrift van Theo Witte: Het oog van de meester (2008), waarin Witte een poging waagt om literaire werken te classificeren op basis van complexiteit. Deze classificatie speelt weer een grote rol in het onderwijs, want hij wordt gebruikt voor Lezenvoordelijst.nl. Zo bracht de eerste week het onderzoek voorzichtig op gang.

In de tweede week begon ik met het volgen en opschrijven van de redenering van Witte: hoe is hij precies tot zijn classificering gekomen? Ik heb gepoogd hierover contact op te nemen met Witte: helaas was hij gedurende m’n hele stageperiode in het buitenland. Ik moest het dus doen met het proefschrift, hetgeen eigenlijk geen belemmering vormde: Het oog van de meester bleek een goed geschreven boek met weliswaar veel uitweidingen, maar wel een rode draad. In de tweede week ben ik tevens op het spoor gekomen van T-scan: een tool waarmee volautomatisch een enorm scala aan ruim 300 formele tekstkenmerken gedestilleerd kan worden uit een groot aantal teksten. Dit leek mij de ideale tool om de romans te analyseren. Ik heb me deze week dus ook verdiept in het lezen van de handleiding van T-scan.

Week 3 en 4

Week 3 en 4 stonden in het teken van het vergaren van kennis op een terrein waarin ik van oudsher niet thuis ben: middelen van kwantitatief onderzoek. Deze weken bestonden dan ook uit heel wat leesarbeid, waarin een breed spectrum aan artikelen en primaire artikelen voorbij kwam: zie voor een compleet overzicht de literatuuropgave van het onderzoeksverslag in Appendix I. Een van de werken die ik met name in week 3 heb gelezen was Quantitative Research in Linguistics: een werk over kwantitatief onderzoek dat weliswaar voor taalbeheersers is geschreven, maar dat prima van toepassing bleek op mijn onderzoek. Het voorziet in een basale uitleg over kernbegrippen in de statistiek én hoe je deze uiteindelijk toepast in Excel: de software waar ik mee wilde gaan werken. Vooral dat toepassen is wel van belang, omdat ik uiteindelijk met T-scan een analyse van een aantal literaire werken uit wilde voeren. Ik bleek al snel in staat om Excel enigszins te operationaliseren, maar het starten in T- scan ging niet bepaald gesmeerd. Hoewel ik de tool op zich wel operationeel kreeg, hebben we veel gesteggel gehad over het corpus. Ik heb in eerste instantie geprobeerd om literaire werken in m’n corpus op te nemen die zowel in het proefschrift van Witte staan alsook zich bevinden in het corpus van The Riddle of Literary Quality. Dat is uiteindelijk niet helemaal gelukt: het proefschrift van Witte is verschenen in 2008; The Riddle begon erna. Ik had dus te maken met de beschikbaarheid van de werken, en zaken als auteursrecht. Dat auteursrecht vormde in deze fase best een probleem: we wilden de teksten niet via de Universiteit van Nijmegen analyseren (T-scan is daar gehuisvest), want dan waren we de controle over de teksten kwijt. We hebben dus geprobeerd T-scan werkend te krijgen op het Huygens. Ik heb met Karina afgesproken dat, mocht dit niet lukken, ik de komende week meer leeswerk zou verrichten.

Week 4, 5 en 6.

(9)

In week 4 van m’n stage was ik helaas ziek, daardoor heb ik één week niet veel kunnen doen.

Ik heb in week 5 twee extra dagen gewerkt om dit te compenseren. Vanwege de auteursrechtelijke redenen hierboven hebben we destijds besloten om het corpus zo in te richten dat we alleen teksten analyseerden die zowel voorkwamen in The Riddle of Literary Quality als ook Lezenvoordelijst.nl. Omdat we T-scan niet werkend gekregen op het Huygens hebben we na contact met de Universiteit van Nijmegen besloten om de teksten wel gewoon via T-scan in Nijmegen te analyseren: zij hebben ons op het hart gedrukt dat ze niks met de teksten gingen doen. Ook moesten er een aantal problemen opgelost worden: van niet alle niveaus in de schaalindeling van Lezenvoordelijst.nl konden we teksten bemachtigen; zie voor meer informatie over deze schaalindeling Appendix I. Deze problemen hebben nog best wat kopzorgen opgeleverd. Verder moesten de teksten ook geprepareerd worden voor T-scan.

Daarvoor moesten een aantal taken handmatig gebeuren: de eerste 3000 woorden van de romans moesten zo voorbereid worden dat T-scan er geen problemen mee zou hebben.

Specifieker gesteld: Alpino (een volautomatische grammatica-parser) moest in staat zijn de zinnen te analyseren. Daarvoor moest ik bepaalde interpunctie, hoofdstuktitels en vreemde tekens weghalen en te lange zinnen herformuleren. In deze fase ben ik ook een aantal teksten gaan testen. Dat ging zeker niet foutloos: ik ben lang vastgelopen op bepaalde kleine zaken (zoals het aanvinken van verkeerde instellingen). Ook zat er veel tijd tussen invoeren van data en het analyseren ervan omdat het parsen van zinnen door Alpino een zeer tijdrovend gebeuren is, waardoor ik maar mondjesmaat de testuitkomsten kon bekijken. Deze gaten heb ik opgevuld met het opstellen van het theoretisch kader en nadenken over welke variabelen ik exact wilde gaan meten en waarom.

Week 7 en 8

Na een lange periode lezen, kennismaken met verschillende tools, nadenken over de onderzoeksvraag en het vaststellen van het theoretisch kader kon ik in deze week starten met het operationaliseren van het onderzoek. De literaire werken waren al in T-scan ‘gestopt’, maar de eerste analyses gingen mis: een aantal teksten konden niet op syntactische complexiteit onderzocht worden. Er heeft veel tijd ingezeten om uit te zoeken wat er precies mis ging, maar de oplossing was uiteindelijk behoorlijk simpel: we hadden de bestanden niet in het goede formaat opgeslagen. Ik heb de analyses een aantal keren opnieuw uit moeten voeren, maar ben in week 7 wel met de eerste resultaten aan de slag gegaan. Die waren op het eerste gezicht al bemoedigend, en nadere analyses – die ik vorige week al had uitgevoerd – bevestigden dat bemoedigende begin. Ik ben dan ook begonnen met het intuïtief en systematisch beschrijven van de resultaten. Ik merkte dat ik dat als letterkundige behoorlijk lastig vond; op deze manier schrijven is binnen het academisch discours van letterkundigen niet perse gebruikelijk. Het was dus een kwestie van veel schrappen en dan weer toevoegen, tot er uiteindelijk iets op papier staat dat ‘sense’ maakt en recht doet aan de feiten. Met een deel van de statistische verwerking zat ik nog in m’n maag: ik wilde op één of andere manier nog controleren welke variabelen uiteindelijk het meeste correleren met de (impliciete) opvattingen over literaire complexiteit van de docenten.

Wat in ieder geval opviel is dat de zinslengte inderdaad toeneemt naarmate het niveau van de literaire tekst stijgt: dat is ook het vermoeden wat de docenten hebben. Ondanks dat de recente literatuur zinslengte als ‘dom’ kenmerk beschouwt – geen goede graadmeter voor leesbaarheid, laten deze uitkomsten zien dat zinslengte in ieder geval wel correleert met de indeling van Lezenvoordelijst.nl. Welke conclusies ik daar aan ga verbinden, laat ik nog even in het midden.

(10)

Verder stond enkele weken terug een intervisiebijeenkomst op het programma. Het was een bijeenkomst over ‘traineeships’. In een zaal voor letteren-studenten kwam de directeur van TraineeshipPlaza, een platform dat een brug wil bouwen tussen afgestudeerden en werkgevers die traineeships aanbieden, uitleggen wat de voordelen zijn van traineeships.

Dat bleek nog een hels karwei, want heel veel voorbeelden waren niet echt van toepassing op

‘ons’. En andere voorbeelden, zoals ‘een advocatenkantoor dat vanwege de hoge vraag ook letteren-studenten zoekt, omdat zij eveneens goed kunnen lezen’, vond ik erg vergezocht. Ik was overduidelijk niet de enige, want er waren behoorlijk wat kritische vragen vanuit de zaal.

Dat maakte het geheel erg levendig.

Tot slot had ik bij m’n stagebegeleider aangekaart dat ik het tot dusver wel een erg

‘interne’ opdracht vond. En daarmee bedoel ik dat ik veel lees, veel leer en allerlei toepassingen leer kennen waar ik nog nooit van had gehoord, maar dat er van samenwerking helemaal geen sprake is. Toen begreep ik dat zoiets waarschijnlijk inherent is aan een onderzoeksinstituut als het Huygens (maar zeker ook het Meertens). Ik moest denken aan Het Bureau van J.J. Voskuil; een werk dat steeds sterker op m’n netvlies terugkomt naarmate ik hier langer zit. Afijn: ik vond dat ik initiatief moest nemen en heb voorgesteld om eens in gesprek te gaan met andere medewerkers van het Huygens. Uiteindelijk hoopte ik – in het kader van m’n editiescriptie maar ook uit eigen interesse – in contact te komen met de medewerkers die werken aan de editie van W.F. Hermans, maar ook met diegenen die werken aan Textual Scholarship.

Week 9 en 10

Aan het begin van week 9 waren alle resultaten binnen. Ik ging spoedig aan de slag met het beschrijven van de resultaten. Ik heb het beschrijven afgewisseld met wat extra leeswerk zodat ik ze kon inbedden in een breder kader. Het valt wat moeilijk te omschrijven wat ik precies heb gedaan omdat ik in deze week eigenlijk tegen heel weinig problemen ben aangelopen. Ik moest eerst de resultaten zo overzichtelijk mogelijk in Excel krijgen. Daarvoor bleek het eerder aangehaalde boek van Rasinger van heel veel nut. Daarna heb ik de resultaten zo neutraal mogelijk beschreven en voor feedback opgestuurd naar Karina. In week 10 heb ik die feedback geprobeerd zo nauwkeurig mogelijk te verwerken en heb ik tevens het schrijven van het theoretisch kader en de inleiding nagenoeg volledig afgerond.

Week 11 en 12

In week 11 en 12 heb ik m’n onderzoeksverslag zo goed als afgerond. Verder heb ik twee bijeenkomsten gehad die van belang waren: allereerst het evaluatiegesprek met Janneke Weijemars en Karina van Dalen op 18 april. Het bleek een goed, positief gesprek waarin helaas ook de belangrijkste deficiëntie van m’n onderzoek naar voren kwam: de beperkingen van m’n corpus. De onderzoeksresultaten bleken hoopgevend, maar in lang niet alle gevallen statistisch relevant. Ik heb het in de afgelopen weken vaak aangekaart, maar toch kwamen Karina en ik steevast tot de conclusie dat we het er maar mee moesten doen. Tijdens het gesprek hebben we het ook over een publicatie gehad. Hoewel de kwaliteit van m’n stuk voor Karina voldoende was, is een publicatie op dit moment niet mogelijk, juist door de beperkingen van het corpus. Wel is het mogelijk om bijvoorbeeld een artikel voor Vooys te schrijven. Ik hield een gemengd gevoel aan dit gesprek over: enerzijds was ik blij met de complimenten maar anderzijds baalde ik dat ik toch niet harder heb geprobeerd om het corpus te vergroten. In de algemene reflectie kom ik hier nog verder op terug.

De tweede bijeenkomst was een afdelingsvergadering van de sectie Letterkunde van het Huygens. Het was erg leuk om daarbij aanwezig te zijn en te horen over de verschillende onderzoeksprojecten. Ik heb na afloop nog met enkelen nagepraat over mijn onderzoek. Dit leverde interessante inzichten op. Verder viel het me op dat de samenwerking tussen de

(11)

verschillende onderzoekers erg marginaal is: er lijkt enorm veel kennis te zijn, maar ik denk dat die veel beter benut kan worden als de krachten meer gebundeld zouden worden.

Aan het einde van de twaalfde week was ik bijna klaar. Ik moest nog wat aanpassingen doen:

dit heb ik in week 13 gedaan (na m’n stageperiode). Karina heeft de conceptversie nog van feedback voorzien, en deze heb ik nog verwerkt. Het resultaat is het onderzoeksverslag dat is opgenomen in Appendix I.

4. Evaluatie en reflectie

Na een periode van werk is het na afloop tijd voor reflectie. Centraal hierin staat de evaluatie op en reflectie van het stageplan. Ik ga daarbij ook in op m’n eigen competenties en vaardigheden, met een blik op de toekomst: wat ging goed, wat ging er minder goed en vooral: hoe kwam dat dan?

4.1. Kennismaken met de praktijk van het HuygensING. De student is in staat om adequaat te functioneren in deze organisatie.

Ik kan allereerst met volle overtuiging zeggen dat ik voldoende kennis heb gemaakt met de

‘praktijk van het HuygensING’. Deze praktijk bleek alleen niet bijzonder veelzijdig: ik heb, net als alle andere stagiairs en onderzoekers, veel tijd achter m’n eigen computer gespendeerd.

Daar las ik studiemateriaal en schreef ik aan m’n onderzoeksverslag; het was een behoorlijk autodidactisch gebeuren. Dit nam zo ongeveer 80% van de tijd in beslag. Op drie manieren werd er geïntervenieerd in deze dagelijkse praktijk: de intervisiebijeenkomst, de besprekingen met Karina en de afdelingsvergadering. Ik bespreek hieronder alleen de intervisiebijeenkomst en de besprekingen met Karina.

De intervisiebijeenkomst was erg interessant, maar stond helemaal los van mijn eigen onderzoekspraktijk. Het bleek een mooie kans om te netwerken en een aantal stagiairs even te spreken, maar tot samenwerking of vervolgcontact heeft het niet geleid. Dat is grotendeels mijn eigen schuld: ik had dit kunnen ondervangen door bijvoorbeeld de organisatie van de volgende intervisiebijeenkomst mede te organiseren. Het is moeilijk te zeggen waarom ik dat niet heb gedaan: kortgezegd had ik het in ieder geval al druk genoeg.

Dan de besprekingen met Karina: deze waren heel waardevol. Los van de feedback op m’n stukken en het meedenken met mijn onderzoek bleek Karina een hele fijne gesprekspartner. Vooral het slotgesprek, waarin we het hadden over de toekomst van de neerlandistiek en mijn plek daarin, heeft me stevig aan het denken gezet over mijn eigen toekomst. Dankzij deze gesprekken ben ik er des te meer van overtuigd dat digitale onderzoeksmethoden van groot belang zijn in het (toekomstige) letterkundige onderzoek.

Omdat ik een onderzoeksstage heb uitgevoerd wil ik nog reflecteren op de onderzoekspraktijk van het Huygens ING. Of ik adequaat heb kunnen participeren, vind ik lastig te beoordelen, maar de afgelopen periode heeft me wel geleerd dat dit vermoedelijk niet de toekomstige onderzoekspraktijk is waarin ik zou willen functioneren. Daarvoor is het gebrek aan samenwerking voor mij te gering en is er te weinig diversiteit in de werkzaamheden. Ik zou liever in een project willen functioneren dat meer interdisciplinair van aard is en-/ of meer samenwerkingsverbanden aangaat met andere deeldisciplines van de neerlandistiek. En dan los van de inhoud: ik geloof sterk dat de beste ideeën tot stand komen als mensen veel met elkaar spreken. Ik vind dit ‘gesprek’ bij het Huygens te weinig aanwezig.

Het kan, daar ben ik eerlijk in, ook aan m’n eigen inzet gelegen hebben: ik zat soms zo vastgekluisterd in mijn eigen onderzoek dat ik een flink aantal pauzes heb overgeslagen. Dat waren pauzes waarin ik in de kantine het gesprek met anderen aan had kunnen knopen. Ik streef er naar om me daar in de toekomst meer voor open te stellen.

4.2. De tijdens de opleiding verworven kennis, inzichten en vaardigheden toepassen door een

(12)

concreet eindproduct te leveren in de vorm van een onderzoeksverslag, wat zal bestaan uit een deelonderzoek in het project The Riddle of Literary Quality.

Het onderzoek dat ik heb uitgevoerd bevond zich eigenlijk grotendeels op het terrein waar een enorme hiaat in mijn kennis en vaardigheden zat: kwantitatief onderzoek. Mijn specialisatie Taalbeheersing bleek niet voldoende om goed uit te voeten te kunnen met Excel. Daar heb ik dus een flinke slag in moeten slaan. In algemene zin heeft dit mijn kijk op het vakgebied van de neerlandistiek overigens ingrijpend veranderd: op mijn netvlies staat een proefschrift als De structuur van de Max Havelaar van Sötemann. Vergelijk je dat met het promotieschrift van Andreas Cranenburgh, dan is dat een wereld van verschil: de formalistische kijk op literatuur heeft in mijn ogen belang ingeboet. Het heeft me daardoor verder verwijderd van het onderzoek dat louter kwalitatief van aard is, zoals structurele tekstanalyse.

Het belangrijkste wat ik uit m’n studie heb kunnen meenemen is het omgaan met (lastige) theorie. Tijdens m’n bachelor heb ik heel wat academische artikels gelezen en me deze ‘eigen’ moeten maken. Dat bleek tijdens deze stages goed van pas te komen: dankzij deze vaardigheden kon ik relatief theorie en praktijk met elkaar verbinden. Ik heb veel geschakeld tussen lezen en meteen schrijven, soms zelfs iets te veel: op zekere momenten was ik bezig met resultaten, inleiding én theoretisch kader. Dit kwam juist doordat de theorie me zo aansprak, waardoor ik continue nieuwe literatuur wilde blijven lezen en verwerken.

Daardoor heb ik soms ook teveel hooi op m’n vork genomen: in de toekomst zal ik beter moeten doseren.

4.3.Het kunnen lezen van en reflecteren op artikelen op het terrein van de digital humanities Al snel bleek dat de digital humanities een nogal breed spectrum omvat: daar heb ik me tijdens het schrijven van het stageplan ernstig op verkeken. Ik heb zeker publicaties gelezen die zeer breed zijn. Het betrof dan vooral stukken over de technische aspecten van onderzoek op het gebied van de digital humanities, zoals de complexe handleiding van T-scan en de oratie van Karina van Dalen-Oskam die ze uitsprak toen ze benoemd werd tot hoogleraar computationele literatuurwetenschap aan de Universiteit van Amsterdam. Een groot deel van de artikels was echter veel specifieker van aard: het betreft een breed scala aan publicaties over met name de meetbaarheid van lexicale en syntactische complexiteit. Daarin stond steeds opnieuw de vraag centraal of bepaalde kenmerken van complexiteit ook daadwerkelijk iets zeggen over de leesbaarheid van teksten.

Mijn eigen onkunde werd vooral duidelijk met betrekking tot de publicaties in het Engels. Dat bleek een probleem, want veel onderzoek binnen de digital humanities is in het Engels geschreven. Ik hoop dat ik daarin stappen heb kunnen zetten, maar daar ben ik nog niet zo zeker van. In het Engels schrijven is écht nog een brug te ver. Ik wil dit in de toekomst, en deze zomer al, aanpakken door meer Engelse literatuur te lezen en de Nederlandstalige romans een beetje links te laten liggen.

Of ik ben geslaagd in het reflecteren op de artikelen vind ik lastig te zeggen. Concreet is dit hopelijk duidelijk in m’n onderzoeksverslag, maar ik kan in ieder geval zeggen dat de vele literatuur me flink aan het denken heeft gezet. Ik heb dit denkproces geprobeerd te vatten in het schrijven van samenvattingen.

Tot slot vond ik bij tijd en wijlen het autodidactische aspect van de stage erg lastig. De artikels waren lang niet altijd heel begrijpelijk. Omdat ik nooit college heb gevolgd in digital humanities of stilometrie en we op de stage geen ruimte konden vinden voor intensieve training, moest ik veel zelf uitzoeken. Daardoor lag het tempo soms lager dan ik had gewild.

Ik zal in de toekomst sneller om hulp moeten vragen in dit soort situaties. Dat ik er toch zelf zo goed ben uitgekomen stemt me overigens wel tot tevredenheid: het heeft me doen inzien dat je zelf ook studie kan maken naar onderwerpen die je interessant vindt. Hulp is niet altijd nodig voor een intrinsieke motivatie.

(13)

4.4. Het synthetiserend kunnen schrijven over ontwikkelingen in digital humanities

Ik heb heel wat samenvattingen geschreven. Dat kan ik de toekomst zeker van nut zijn: ik ben zeker van plan me tijdens mijn onderzoeksmaster verder te bekwamen binnen de digital humanities. De samenvattingen zijn overigens lang niet altijd heel ‘synthetiserend’ van aard:

juist door de specificiteit van heel wat publicaties was dit niet altijd nodig en nuttig. De uiteindelijke synthese zit hem vooral in de connectie tussen literatuuronderwijs en digital humanities. Ik hoop van harte dat ik daarin geslaagd ben, maar ik heb er ook m’n twijfels bij.

Ten eerste moest ik soms de beoordelingen van leraren wel heel erg los interpreteren om ze te kunnen vatten in formele, meetbare tekstkenmerken, en ten tweede is het proefschrift van Witte niet direct te koppelen aan Lezenvoordelijst.nl: laatstgenoemde is een stuk later opgericht. In de toekomst zal ik eerder bij dit soort vraagstukken stil moeten staan.

Uiteindelijk was ik met zoveel enthousiasme aan dit project begonnen dat ik geen grote ommezwaai meer durfde te maken. En hoewel die ook weer niet nodig was, had ik het project wellicht wel vaker en gestructureerder bij moeten sturen.

4.5. Een degelijk onderzoek uit kunnen voeren dat past in de traditie van het onderzoeksproject

Het bleek best lastig om ‘de traditie’ van The Riddle te vangen. Ik heb ten eerste geprobeerd kennis te maken met de traditie van digital humanities. Dat bestond vooral uit heel erg veel leeswerk. Vaak gaat het echter alle kanten op en wordt deze ‘traditie’ door verschillende onderzoekers ook anders geïnterpreteerd. Ik heb er tijdens het onderzoek altijd naar gestreefd om me in die traditie te begeven, en had op een gegeven moment een stuk van 6000 woorden op papier staan met theoretisch kader. Dat heb ik voor het uiteindelijke verslag drastisch in moeten korten. ‘Schrijven is schrappen’ bleek, hoewel wat cliché, daarbij een uitmuntend adagium: teveel zijwegen leidt af van de hoofdkwestie. Ik vind mezelf normaal gesproken best sterk in het onderscheiden van hoofd- en bijzaken, maar ik kan me door mijn enthousiasme uiteindelijk ook verliezen in de veelvoud aan informatie die voor het oprapen ligt. Kortgezegd komt het er op neer dat ik beter moet leren structureren en moet focussen op het beantwoorden van een zo specifiek mogelijke hoofdvraag, met uiteraard oog voor de context. Deze groei hoop ik te maken binnen mijn onderzoeksmaster, door goede vakken te kiezen en mijn zwakke punten kenbaar te maken bij docenten.

(14)

5. Een vooruitblik

In dit slothoofdstuk wil ik vooruitblikken op mijn toekomst in het vakgebied van de neerlandistiek. Specifiek wil ik ingaan op hoe deze stage heeft bijgedragen aan de vorming van mijn toekomstplannen.

Allereerst heb ik aan het werken met kwantitatieve onderzoeksmethoden een dubbel gevoel overgehouden: enerzijds ben ik overtuigd geraakt van het nut van deze technieken en zie ik goed in wat voor meerwaarde het heeft op academisch onderzoek. Anderzijds kwam ik ook tot de conclusie dat ik het niet ontzettend leuk vond. In het begin haalde ik enorm veel voldoening uit het leren van de nieuwe vaardigheden en het onder de knie krijgen van de software, maar later begon ik weer uit te kijken naar het schrijven van m’n scriptie. Doordat ik scriptie en stage afgelopen periode met elkaar combineerde bleek dit ook daadwerkelijk goed mogelijk. Voor de toekomst betekent dit dat ik me best nog wil gaan toeleggen op onderzoek binnen de digital humanities, maar dan wel als deelvaardigheid: ik behoef geen enorme hoeveelheid technische kennis zoals bijvoorbeeld het programmeren van de tools.

Ten tweede heb ik veel geleerd over de praktische werking van een onderzoeksinstituut als het Huygens. Dit spreekt me niet enorm aan: ik vind dat er te weinig samenwerking is, hetgeen in mijn ogen kan leiden tot tunnelvisie. Dit is echter alleen op basis van wat ik gezien heb, want zoals ik eerder heb aangegeven kan het ook komen doordat ik me zelf er niet voldoende voor heb ingezet.

Ten derde zijn de eerste resultaten van het onderzoek veelbelovend. Ik zie binnen mijn researchmaster volgend jaar voldoende ruimte om dit project weer op te vatten en door te zetten. Met een groter en gevarieerder corpus zouden we deze resultaten kunnen valideren.

Mogelijk zou dit nog bij het Huygens kunnen.

Tot slot wil ik graag aanstippen dat deze stage mijn passie voor onderzoek doen alleen maar heeft vergroot: al als kind stelde ik altijd vragen over alles aan mijn ouders en dat ben ik eigenlijk nooit meer kwijt geraakt. Dat mijn nieuwsgierigheid altijd geprikkeld werd is voor een groot deel te danken aan hen, maar ook gepassioneerde docenten en stagebegeleiders tijdens m’n studie Nederlands hebben daar mede voor gezorgd. Mijn toekomst ligt, hoe dan ook, ergens in of rondom het vakgebied van de neerlandistiek. Wat het precies gaat zijn, valt moeilijk te zeggen, maar ik ben zeer gemotiveerd om de komende jaren hard te blijven werken aan mijn houding, kennis en vaardigheden. Deze stage vormde daarvoor een mooi ijkpunt, maar na de zomer begint er weer een nieuwe lente en een nieuw geluid.

(15)

Appendix I:

De complexiteit van literatuur

Een onderzoek naar de lexicale en syntactische complexiteit in de literaire werken van Lezenvoordelijst.nl

Inleiding

Literaire kwaliteit wordt al decennia onderzocht. Het wetenschappelijke paradigma dat op dit moment dominant is kent onder andere haar oorsprong in Les Règles des Arts¹ waarin een sociale definitie van literatuur naar voren komt. Bourdieu stelt dat de waarde van literatuur bepaalt wordt door de instituties in het literaire veld: uitgeverijen, recensenten maar vooral ook de zogenaamde ‘culturele elite’. Zijn definitie leidt tot de uiterste conclusie dat alles literatuur zou kunnen zijn, mits de culturele actoren daar daadwerkelijk overeenstemming over bereiken. Bourdieu heeft de literatuursociologie op deze manier op de kaart gezet, maar daar waar paradigma’s ontstaan, kiemt uit de ene paradigma weer een nieuwe benadering voor letterkundig onderzoek.

Zo dachten ook de onderzoekers² die in januari 2012 begonnen met het project The Riddle of Literary Quality. Zij stellen dat niet alleen sociologische of culturele factoren een rol spelen bij het bepalen van de waarde van literatuur, maar dat ook formele tekstkenmerken bepalend zijn voor de perceptie van literaire kwaliteit. In de Proposal³ stellen ze dat zowel low-level als high-level paterns daarbij van belang zijn. Met low-level paterns worden teksteigenschappen bedoelt die men direct kan herleiden uit de tekst, zoals woorden zinslengte en woordvoorkomens. High-level paterns zijn niet direct te herleiden uit de tekst;

er zijn handelingen nodig voordat deze geoperationaliseerd kunnen worden. High-level paterns zijn bijvoorbeeld syntactische structuur, semantische variabelen, teksttopics en narrativiteit. Gemene deler van het operationaliseren van deze variabelen is dat ze op één of andere wijze meetbaar moeten zijn. Dat wil zeggen dat er verschillende tools bij elkaar moeten komen die dat kunnen doen; die in staat zijn om op empirische grondslagen informatie te vergaren.

Wie de relatie tussen literaire kwaliteit en inherente tekstkenmerken wil onderzoeken, stuit al snel op het probleem dat ‘literaire kwaliteit’ een subjectief oordeel is: lezers besluiten op basis van allerlei verschillende argumenten dat een boek literair of niet-literair is. Om dit te ondervangen voerden de onderzoekers van The Riddle het Nationaal Lezersonderzoek uit, waarin ongeveer 14.000 mensen in totaal 138.000 beoordelingen hebben gegeven over 400 romans, verschenen in de periode 2007-2012. Het corpus bestond uit de populairste⁴ boeken

1 In de literatuurlijst opgenomen in het Engels als: The Rules of Arts. Genesis and Structure of the Literary Field (1996)

2 Onderzoekers van het Huygens ING, Fryske Akademy en Institute for Logic, Language and Computation.

3 Proposal, 2017.

4 Enerzijds de bestverkochte boeken, en anderzijds de meest gelezen boeken in de bibliotheek.

(16)

uit deze 5 jaar. De lezers werden niet alleen gevraagd om meningen te geven over boeken die ze gelezen hadden, maar ook over boeken die ze niet hadden gelezen. Uitkomsten van dit onderzoek zijn onder andere gepubliceerd door de drie promovendi betrokken bij dit project:

Andreas van Cranenburgh, Kim Jautze en Corina Koolen.⁵ Een deel van de publicaties is gericht op het ontwikkelingen van tools die in staan zijn de stilistische elementen op statistisch verantwoorde, betrouwbare en valide wijze te meten. Andere publicaties zijn er gericht op toepassing: het leggen van de relaties en het interpreteren daarvan. Het onderzoek is tot op heden nog niet voltooid; er komt meer aan. Maar het onderzoek heeft ook nieuwe vragen opgeleverd. In dit onderzoek introduceer ik één van die vragen.

Lezenvoordelijst.nl

De website Lezenvoordelijst.nl is tegenwoordig niet meer weg te denken uit het literatuuronderwijs. Zowel op het VMBO als HAVO en VWO wordt deze site door docenten gebruikt om het literatuuronderwijs voor de klas vorm te geven. De kern van de website is een ranglijst van literaire werken, waarop een breed scala aan recent en minder recent werk gerangschikt is op een niveau van 1 tot 6, waarbij niveau 1 de makkelijkste boeken representeert en niveau 6 de moeilijkste. Een eerste opzet van de lijst is in 2008 gemaakt door Theo Witte, en wordt jaarlijks nog aangevuld met meerdere werken. Het is de bedoeling dat de lijst wordt gebruikt door docenten om de leerlingen literaire werken voor te schotelen die passen bij het niveau dat ze op dat moment hebben: het niveau representeert niet alleen het niveau van het werk, maar ook dat van een leerling. Omdat leerlingen tijdens hun middelbareschooltijd een ontwikkeling doormaken op het gebied van literaire competentie, zijn middelen om die groei te monitoren belangrijk. Een goede monitoring van die groei leidt namelijk ook tot een betere aanpassing van literatuuronderwijs aan de behoeftes en competenties van de leerlingen: de leerling zal in dat geval op het juiste moment een stapje omhoog kunnen zetten naar een moeilijker literair werk. Om docenten daarbij te ondersteunen biedt Lezenvoordelijst.nl ook dossieropdrachten aan; ook die zijn weer afgestemd op het corresponderende niveau van literaire competentie.

Hoe de classificatie van het literaire werk tot stand is gekomen en welke argumenten daaraan ten grondslag liggen, legt Theo Witte uit in zijn proefschrift Het oog van de meester.

Witte laat het oordeel in eerste instantie aan een docentenpanel over, die zo representatief mogelijk moet zijn: andere docenten moeten zich zo veel mogelijk kunnen herkennen in de onderzoeksresultaten. Hij kiest daarom voor een “gerichte steekproef van ‘typerende’

gevallen” (p. 103). Uiteindelijk is het inderdaad een zeer gerichte steekproef te noemen, want er bleven slechts zes docenten over die gedurende een periode van drie jaar mee wilden werken aan het onderzoek.

Het is goed mogelijk dat je eerst de eerst de criteria vaststelt op basis waarvan je de literaire werken indeelt, maar Witte kiest grotendeels voor de weg die andersom loopt: hij laat de docenten eerst de literaire werken classificeren op een schaal van zes niveaus, waarna de docenten gezamenlijk in discussie gaan over wat die teksten dan precies kenmerkt en wat de leerlingen moeten kunnen om zich de teksten ‘eigen te maken’ en daar ook over te spreken.

Om de docenten toch iets van een gemeenschappelijk kader mee te geven voordat ze overgaan op classificering, laat hij de docenten eerst ‘gemeenschappelijke ijkpunten en normen’

formuleren (p. 107). Uiteindelijk zijn deze geformuleerd in termen waaruit blijkt wat een

5 In bijvoorbeeld: Rich Statistical Parsing and Literary Language (Van Cranenburgh, 2016) en Topic Modeling

(17)

leerling ‘zou moeten kunnen’. Dat betekent bijvoorbeeld dat een leerling op niveau zes in staat is om ‘zeer complexe literaire werken [te] lezen, begrijpen en waarderen’ (p.107).

Na het vaststellen van deze ijkpunten en normen zijn de docenten aan de slag gegaan met het classificeren van circa 170 literaire werken. Pas daarna hebben de docenten en Theo Witte concreet de criteria geformuleerd.⁶⁷ Wat opvalt aan deze criteria is dat ze soms behoorlijk nauwkeurig zijn, bijvoorbeeld op het gebied van de syntaxis: op niveau 1 zijn de zinnen zeer ‘eenvoudig gestructureerd’ en bevatten ze ‘korte zinnen’, terwijl op niveau 6 de werken ‘complexe en minder gangbare zinsconstructies (o.a. vergelijkingen)’ bevatten.

Recente ontwikkelingen in de computationele literatuurwetenschap maken het mogelijk om dit soort beweringen relatief makkelijk te fact-checken. Aan de hand van een digitale tool om teksten te analyseren op formele tekstkenmerken zoals lexicale en syntactische complexiteit onderzoek ik of de docenten met hun vermoedens in de buurt zitten en of hun genoemde criteria daadwerkelijk correleren met de corresponderende inschaling van de literaire werken op de website van Lezenvoordelijst.nl. Daarnaast denk ik dat het zinvol is om in het kader van het differentiëren van literaire werken ten behoeve van het literatuuronderwijs ook te kijken naar andere lexicale en syntactische kenmerken dan diegene die de docenten noemen. Daarom luidt de hoofdvraag als volgt: ‘Zijn de verschillende niveaus van de literaire werken van Lezenvoordelijst.nl van elkaar te onderscheiden op lexicale en syntactische complexiteit?’

Tekstcomplexiteit

Leesbaarheidsonderzoek

In dit onderzoek streef ik ernaar om een verband om het eventuele verband tussen de classificatie van Lezenvoordelijst.nl en de meetbare distinctieve tekstkenmerken van de romans op de lijst in kaart te brengen. Soortgelijke vragen zijn niet nieuw. Het stellen van dit type vragen kent een lange traditie dat komt uit de taalbeheersingshoek; het is pas vrij recent overgewaaid naar het letterkundige onderzoeksveld. In deze paragraaf zet ik uiteen uit welke traditie het leesbaarheidsonderzoek komt. In de volgende paragraaf schets ik hoe het leesbaarheidsonderzoek uiteindelijk in verband is gebracht met de notie van literaire kwaliteit.

Eén van de eerste belangrijke publicaties op het terrein van leesbaarheidsonderzoek kwam van de handen van Dale en Chall in 1948. Vanuit de gedachte dat ‘readability is an important selling point for [the publishers] newspapers is an advent that is still quite new on the publishing horizon’⁸ deed hij onderzoek naar de relatie tussen teksten en de begrijpelijkheid ervan. De formule zou kunnen voorspellen hoe goed een leerling op school een bepaalde tekst zou kunnen begrijpen. Later waren het bijvoorbeeld nog Klare (1963) en Bormuth (1966) die studies zouden publiceren op dit terrein, maar een grote opleving kreeg het leesbaarheidsonderzoek pas rond 2000 door de opmars van de computationele taalkunde.

Onderzoekers als Collins-Thompson & Callan (2005), Schwarm & Ostendorf (2006) en Heilman e.a. (2007) stonden een theorie voor waarin statistiek werd gebruikt om de relatie tussen distinctieve tekstkenmerken en begrijpelijkheid te onderzoeken. Belangrijk kenmerk van deze theorie is dat de data niet handmatig wordt doorzocht, maar dat er tools worden gebruikt om de vaak grote corpora te analyseren. Dit leidt tot de inductie van variabelen die kunnen voorspellen in hoeverre een tekst begrijpelijk is.

6 Witte, Het oog van de meester, 560.

7 Zie bijlage 1.

8 Dubay, The Classic Readability Studies.

(18)

Hoewel er veel onderzoek is gedaan op dit terrein, is er ook behoorlijk wat kritiek gekomen. Deze kritiek heeft vooral te maken met de causale validiteit van de gedestilleerde predictoren.⁹ Er is namelijk lang niet altijd een sterke causale relatie tussen voorspellers en de leesbaarheid; in de beste gevallen is er sprake van correlatie. Zo is zinslengte niet direct relationeel te verbinden aan zinscomplexiteit. Uit de hoek van wetenschappers die zich bezighouden met tekstverbetering is er ook kritiek: de statistische aanpak gaat er te gemakkelijk vanuit dat teksten begrijpelijker gemaakt kunnen worden aan de hand van

‘domme’ tekstkenmerken als woorden zinslengte. Teksten zijn ingewikkelder dan dat. Toch biedt de opkomst van de computationele taalbeheersing ook verregaande mogelijkheden;

mede omdat het steeds beter mogelijk wordt om ook complexere tekstkenmerken te vatten in modellen en analyseerbare variabelen.

Computationele literatuurwetenschap

De ideeën van taalbeheersers met betrekking tot het onderzoek doen naar tekstbegrijpelijkheid aan de hand van formele, meetbare tekstkenmerken heeft invloed gehad op het vakgebied van de letterkunde en mede bijgedragen aan de opkomst van een nieuw vakgebied: de computationele literatuurwetenschap. Binnen dit vakgebied worden computationele tools gebruikt om op empirische wijze letterkundige verschijnselen te toetsen. Zodoende kan bijvoorbeeld onderzocht worden hoe features die met het blote oog niet te meten zijn, zoals hoe lexicale- en syntactische kenmerken van een tekst, zich verhouden tot de perceptie van literatuur door lezers¹⁰ en hoe de perceptie van literaire kwaliteit door de jaren heen kan veranderen.¹¹

In dit artikel wordt de nadruk gelegd op lexicale en syntactische complexiteit: hoewel deze features niet geheel onomstreden zijn, heeft de recente ontwikkeling van nieuwe tools het mogelijk gemaakt om deze tekstkenmerken snel en gemakkelijk uit grote hoeveelheden teksten te destilleren.

Lexicale en syntactische complexiteit

Woordmoeilijkheid

Het voorspellen van woordmoeilijkheid gaat vaak gepaard met het operationaliseren van vormkenmerken: de semantische lading van een woord is tot dusver nog niet onderzocht in relatie tot lexicale complexiteit.¹² Woordlengte is zo’n kenmerk dat mogelijk iets zou kunnen zeggen over begrijpelijkheid, maar vanuit de hoek van de psycholinguïstiek is dat tot dusver nog niet bewezen. Ten eerste is bewezen dat de mate waarin het decoderingsproces van woorden moeilijker is, afneemt na de basisschool.¹³ Ten tweede weten we wel dat er langer wordt gekeken naar langere woorden, maar of daarmee de begrijpelijkheid wordt beïnvloed is onduidelijk.¹⁴

Een andere maat die in het kader van woordmoeilijkheid vaak wordt genoemd, is woordfrequentie. Woordfrequentie is in feite hoe vaak een woord voorkomt in teksten om ons heen. Er is een reeks overtuigend onderzoek voor handen dat aantoont dat frequente woorden

9 Selzer, The place of readability formulas; Anderson, Conceptual and empirical bases en Redish, Readabilty formulas has even more limitations.

10 Van Cranenburgh, A Data-Oriented Model.

11 Van Cranenburg, Rich Statistical Parsing, 103.

12 Pander Maat, Leesbaarheidsonderzoek, 5.

13 Aghababian & Nazir, Developing normal reading skills.

(19)

sneller voorgelezen worden, lezers er minder lang naar kijken en dat ze deze woorden sneller herkennen.¹⁵ De vraag is alleen: hoe bepaal je precies wat een frequent woord is? Dat is inderdaad een problematische kwestie: er zijn enorm veel woorden om ons heen, maar niet alle soorten teksten worden even vaak gelezen en hebben evenveel invloed. Het bepalen van een corpus waaraan de frequenties ontleend worden is dus van cruciaal belang. Zo is aangetoond dat de grootte van het corpus uitmaakt: indien het corpus aan woorden groter wordt, wordt het verband tussen woordfrequentie en voorleestijd sterker.¹⁶

Al met al wordt woordmoeilijkheid al sinds lange tijd beschouwt als sterkste voorspeller van tekstbegrijpelijkheid.¹⁷ Een verklaring daarvoor is dat er een sterke relatie is tussen de perceptie van moeilijke woorden en moeilijke teksten. Dat wil zeggen: indien een tekst veel woorden bevat die door lezers als moeilijk worden beschouwt, wordt de tekst – in het algemeen – ook moeilijker bevonden.¹⁸

Zinsmoeilijkheid

Onderzoekers van tekstbegrijpelijkheid hebben in het verleden zinslengte vaak beschouwd als indicator van zinscomplexiteit.¹⁹ Er is nog niet zoveel bewijs dan zinskenmerken correleren met zinsbegrijpelijkheid. Het is daarom wel opvallend dat het gedachtegoed achter Lezenvoordelijst.nl zinslengte wel degelijk als kenmerk van literaire complexiteit beschouwt.

Methode

Dit hoofdstuk staat in het teken van de methode waarmee ik het onderzoek uit zal voeren.

Mijn methode heeft als doel om op betrouwbare en valide wijze te onderzoeken of er op tekstueel niveau relaties bestaan tussen de manier waarop Witte (2008) de literaire werken heeft gewaardeerd en de lexicale en syntactische kenmerken van diezelfde teksten. Bovendien wil ik dat doen op basis van kwantitatief en deductief²⁰ onderzoek: de hierboven gesuggereerde relaties wil ik aantonen op basis van bestaand onderzoek dat er op lijkt te wijzen dat syntactische en lexicale kenmerken goede voorspellers zijn van tekstcomplexiteit.

Om dat te doen, heb ik in de inleiding een beeld geschetst van de methode van Witte. Het meest concrete resultaat van dat onderzoek is de competentiematrix.²¹ Uit die competentiematrix blijkt dat de waardering van literaire werken voor een deel samenhangt met inherente, formele tekstkenmerken. Die kenmerken moet ik zo operationaliseren dat ik ze kan meten met een tool. Ik ben daarin beperkt: hetgeen ik wil meten moet ook daadwerkelijk meetbaar zijn.

T scan

Voor mijn onderzoek maak ik gebruik van T-scan. In Pander Maat & Kraf (2014) wordt een overzicht geschetst van de recente ontwikkelingen in de toepasbaarheid van T-scan als tool om tekstcomplexiteit te meten. De huidige versie destilleert ongeveer 300 ‘features’, waarvan velen zowel op tekst-, als ook op alinea-, zins- en zelfs op woordniveau toepasbaar zijn. Dit kan T-scan doen doordat het in feite een soort samenvoegsel is van meerdere tools die zijn

16 Burgess, The effect of corpus size.

18 Anderson & Davidson, Conceptual and empircal bases, 1988.

20 Rasinger, Quantitative Research in Linguistics, 11.

(20)

ontwikkeld sinds de opkomst van de computationele linguïstiek. Die tools zijn volgens de meest recente handleiding²²:

1. Frog om een morfologische analyse uit te voeren en woordsoorten te benoemen.²³ 2. Alpino om volautomatisch zinnen te ontleden.²⁴

3. SoNaR²⁵ en Subtlex-NL²⁶ voor frequentielijsten van woordvoorkomens.

4. Referentie Bestand Nederlands als lexicale database.²⁷ Interpretatie van criteria Witte (2008)

Voor een juiste operationalisering van de criteria die het docentenpanel hanteerde om tot een wijze van rangordening te komen, is het van groot belang het juiste moment in het onderzoek als uitgangspunt te nemen. In dit onderzoek is ervoor gekozen om de tabel die op p. 560-561 is opgenomen te gebruiken als de bron waaruit ik de variabelen ga destilleren. De argumentatie daarachter is meervoudig. Als eerste is dit de meest compacte weergave van de distinctieve kenmerken die de docenten in oplopende volgorde als kenmerken van literaire complexiteit beschouwen. Ten tweede is dit model als laatste gevalideerd en daarmee dus het meest recent.²⁸ Zoals ik eerder al aanstipte is dit model niet gebruikt om tot de schaalindeling van de literaire werken te komen, maar eerder andersom: de tabel is een representatie van de vermoedens die de docenten hebben met betrekking tot de literaire complexiteit van de beoordeelde werken.

Informatie over de geschatte distinctieve tekstkenmerken vindt men in de vijfde rij:

‘Vertrouwd met literair taalgebruik’.

22 Handleiding T-scan. Versie 1 augustus 2016

23 Van den Bosch, An efficient memory-based morphosyntactic tagger and parser for Dutch.

24 Bouma, Alpino.

25 Oostdijk, SoNaR User Documentation.

26 Keuleers, SUBTLEX-NL.

27 Martin, Referentie Bestand Nederlands.

(21)

Figuur 1: Weergave van een deel van ‘bijlage 3’ in Witte.²⁹

Uit de hierboven genoemde beschrijvingen kunnen de volgende tekstkenmerken gedestilleerd worden die direct te meten zijn met T-scan:

Niveau 1: ‘eenvoudig gestructureerde, korte zinnen’

Niveau 2 en 3: ‘veel lange, maar helder gestructureerde zinnen’

Niveau 4: ‘veel lange, tamelijk complexe zinnen’

Niveau 5 en 6: ‘complexe en minder gangbare zinsconstructies (o.a. vergelijkingen)

Daarnaast wordt niveau 1 qua literair taalgebruik gekenmerkt door het feit dat het ‘alledaagse’

taal betreft en naarmate het niveau toeneemt gaat het taalgebruik steeds verder van de leerling afstaan, wordt deze gevarieerder en genuanceerder en op het hoogste niveau worden de literaire werken gekenmerkt door ‘poëtisch’ en zelfs ‘ouderwets’ taalgebruik.

Operationalisering variabelen in T-scan

De hierboven genoemde variabelen zijn te meten via T-scan. Zinslengte kan gemeten worden dankzij de geautomatiseerde Alpino-parser en de ‘alledaagsheid’ kan geoperationaliseerd worden aan de hand van de frequentielijsten van SoNaR en Subtlex-NL. Dat zijn echter niet voldoende variabelen om de literaire werken duidelijk te onderscheiden van elkaar op basis van niveau van literaire competentie. Daarom zijn er een aantal aanvullende variabelen opgenomen in dit artikel. Wat betreft de lexicale complexiteit is een ‘low-level feature’

toegevoegd: woordlengte – in zowel letters als fonemen. Wat betreft de zinsmoeilijkheid is de ruimte tussen de verschillende afhankelijkheden in de zin een aanvulling op de ‘low-level feature’ zinslengte.

Verantwoording corpus

In mijn onderzoek maak ik gebruik van een selectie van 15 romans van Lezenvoordelijst.nl.

De beschikbaarheid van deze romans is echter beperkt. Omwille van deze beschikbaarheid is besloten om die literaire werken te nemen die opgenomen zijn in het corpus van The Riddle of