The Riddle of Literary Quality: Op zoek naar conventies van literariteit

(1)

The Riddle of Literary Quality

Op zoek naar conventies van literariteit

Karina van Dalen-Oskam

Er was nogal wat opschudding toen op 7 juli 2011 de start van het project The Riddle of Literary Quality werd aangekondigd. Doel van dit onderzoeksproject is om literaire kwaliteit via digitale weg te onderzoeken. Er ontstonden discussies tussen verschillende taal- en letterkundigen; de nodige kritiek werd geuit. Toch bleven we onverminderd nieuwsgierig naar dit project. Inmiddels loopt het al ruim anderhalf jaar en beginnen de eerste resultaten naar buiten te komen. De redactie van Vooys vroeg Karina van Dalen-Oskam, onderzoeksleider van het veelbesproken project, naar de opzet, achtergronden en eerste resultaten van ‘The Riddle’.

Het project in grote lijnen

In het computational humanities project The Riddle of Literary Quality (kortweg The Riddle) gaan we na welke formele verschillen er zijn tussen Nederlandse of naar het Nederlands vertaalde romans die als zeer literair worden aangemerkt door lezers en romans die dat predikaat niet krijgen. Ook kijken we of er formele verschillen te vinden zijn tussen romans die door lezers als goed of slecht beoordeeld worden. Onder formele eigenschappen verstaan we tekstuele eigenschappen, tekstkenmerken, die we onderscheiden in low-level en high-level patronen. De hypothese die we willen testen is de veronderstelling dat er correlaties zijn tussen formele eigenschappen en lezersopinies. Correlaties die we met het blote oog nooit zouden kunnen zien, maar die met behulp van de computer misschien wel zichtbaar worden. Is het bijvoorbeeld zo dat de boeken die hedendaagse lezers ‘literair’ noemen, gemiddeld een complexere zinsstructuur hebben? En zo ja, welke andere kenmerken treden daar vaak bij op? Bevatten als ‘weinig literair’ aangemerkte romans gemiddeld minder verschillende woorden? Gaan verschillen in omvang van woordenschat bijvoorbeeld samen met verschillen in gebruik van lange, meestal moeilijke woorden in verschillend gewaardeerde romans? Het gaat dus nooit om maar één eigenschap of aspect tegelijk, maar juist om patronen van samen voorkomende eigenschappen, frequente combinaties. Die kunnen we pas vaststellen als we veel gegevens met elkaar combineren.

We definiëren low-level patronen als eenvoudig met de computer meetbare

eigenschappen zoals omvang van de woordenschat, gemiddelde zinslengte, frequentie van bepaalde woorden, en zo verder. High-level patronen zijn computationeel een stuk uitdagender, want daarvoor zijn een aantal technische tussenstappen nodig. Die zijn dus moeilijker te

analyseren. We konden onmogelijk alle high-level tekstuele patronen in dit project aanpakken – het automatisch herkenbaar maken van aspecten als motieven en narratieve structuur

bijvoorbeeld moet noodgedwongen voor nu buiten beschouwing blijven. We kozen ervoor om syntactische complexiteit verder uit te werken op basis van eerder werk van Rens Bod en zijn collega’s aan de UvA. Er zijn ook enkele eigenschappen die tussen low en high-level in zweven,

(2)

zoals woordsoortfrequenties. Daarvan proberen we er eveneens een paar mee te nemen in onze analyse. Is er bijvoorbeeld een verschil in het gebruik van bijvoeglijk naamwoorden en bijwoorden in romans die als ‘literair’ worden aangemerkt en romans uit genres die dat predikaat gewoonlijk niet krijgen, zoals de thriller of chick-lit? En met welke andere eigenschappen lijken de woordsoortfrequenties samen te hangen? Vragen als deze zijn menselijkerwijs onmogelijk te beantwoorden als je zou moeten lezen en turven, maar met de huidige stand van computertechnologie behoren antwoorden wel degelijk tot de

mogelijkheden. En die antwoorden kunnen nieuwe wegen in het onderzoek openen. De formele tekstuele eigenschappen analyseren we met software die we voor onze specifieke doeleinden hebben aangepast of zelf schrijven. We passen de software toe op digitale bestanden van de romans. Dat is mogelijk omdat in de laatste jaren het e-book ook in Nederland is opgekomen, en omdat de meeste uitgevers van de romans die wij willen

analyseren ons behulpzaam zijn geweest door ons de bestanden van de romans digitaal ter beschikking te stellen. Omdat we onze software aan het eind van het project voor iedereen open willen stellen voor gebruik, zullen andere onderzoekers onze analyses kunnen herhalen en controleren. De bestanden van de romans kunnen wij niet beschikbaar maken.

De lezersopinies over de romans die we willen analyseren hebben we verzameld door een grote online enquête, Het Nationale Lezersonderzoek. We wijzen dus niet zelf aan welke boeken wij een hoge of een lage literariteit toekennen of goed of slecht vinden (of iets

ertussenin). Daarvoor gebruiken we de meningen van de bijna 14.000 respondenten van onze enquête. Aan het eind van het project zullen we ook de gegevens die we in de enquête hebben verzameld beschikbaar maken, zodat onze weergave van de resultaten door andere

onderzoekers gecontroleerd kan worden en de gegevens ook voor ander onderzoek gebruikt kunnen worden.

Al onze metingen zullen dus in principe door anderen herhaald en gecontroleerd kunnen worden op juistheid. Over onze interpretaties van de metingen, van zowel de computationele tekstanalyse als de enquête, is uiteraard van mening te verschillen. Maar omdat de

onderliggende data transparant tot stand zijn gekomen, kunnen er vruchtbare discussies over mogelijke interpretaties ontstaan.

Achtergrond en voorgeschiedenis

Een project als The Riddle, hoe vreemd het ook lijkt, komt niet zomaar uit de lucht vallen. Het komt in feite voort uit een combinatie van ontwikkelingen in verschillende vakgebieden en mijn eigen achtergrond.

Na mijn studie Nederlands in Utrecht (met als specialisatie Middelnederlandse

letterkunde) was ik van 1988 tot 2002 werkzaam op het Instituut voor Nederlandse Lexicologie (INL). Ik was daar een van de redacteurs van het Vroegmiddelnederlands woordenboek

(1200-1300), een van de eerste woordenboeken ter wereld die in alle processen van de

werkzaamheden intensief gebruik maakten van de mogelijkheden van nieuwe

computertechnologie. Het Vroegmiddelnederlands woordenboek was gebaseerd op het Nederlandstalige tekstuele materiaal uit alle overgeleverde documenten die met zekerheid konden worden gedateerd als dertiende-eeuws. Het merendeel van deze teksten, zowel literaire

(3)

als ambtelijke en lexicografische werken, was uitgegeven door Maurits Gysseling in zijn

monumentale Corpus Gysseling. Alle woorden uit dit corpus dienden te worden beschreven in ons woordenboek. Teksten die alleen in een later handschrift waren overgeleverd, werden zorgvuldig buiten het corpus gehouden. Op deze manier werden het woordenboek en het corpus waarop het was gebaseerd een solide basis voor een taalkundige en lexicografische vergelijking met teksten uit later tijd of teksten die nog niet met zekerheid gedateerd konden worden als dertiende-eeuws.

Deze strikt empirische benadering paste binnen de internationale ontwikkelingen in de lexicografie (het samenstellen van woordenboeken) en de taalkunde en is te omschrijven als corpuslexicografie en corpuslinguïstiek. Over corpusliteratuurwetenschap werd toen nog niet gesproken, maar dat was wel waar ik vanuit mijn letterkundige achtergrond over nadacht. Deze empirische benadering, gebruikmakend van software om steeds alle vindplaatsen van een woord in samenhang te analyseren en in een woordenboekartikel te beschrijven, zette mij op het spoor van de mogelijkheden die deze aanpak ook voor literatuurwetenschappelijk

onderzoek zou kunnen hebben. Mijn eerste eigen experimenten in die richting betroffen een analyse van alle eigennamen in Jacob van Maerlants Rijmbijbel (1271), een van de teksten uit het dertiende-eeuwse corpus. Ik zette op een rij welke namen er in de Rijmbijbel voorkwamen en welke er uit de belangrijkste Middeleeuws-Latijnse brontekst afkomstig waren en kwam zo op het spoor van een aantal namen in passages die Maerlant op andere bronnen bleek te hebben gebaseerd. Vervolgens probeerde ik uit te vinden om welke redenen die passages waren toegevoegd.

Het woordenboek moest in tien jaar worden afgerond, want men dacht bij aanvang nog dat de inzet van de computer het hele proces danig zou versnellen. In de praktijk bleek dat anders. De computer maakte het mogelijk om een veel groter aantal gegevens te analyseren dan daarvoor, en de woordenboekartikelen werden daardoor veel vollediger dan ooit tevoren, maar de tijd die het analyseren zelf kostte werd daardoor niet verminderd. Kortom: de

computer versnelde het proces nauwelijks, maar betekende wel een enorme kwaliteitswinst van het eindproduct. Een strikt empirische benadering als deze was ook alleen maar mogelijk gebruikmakend van de nieuwe technologische ontwikkelingen.

In 2002, toen het woordenboek daadwerkelijk af was, verruilde ik het INL voor de KNAW, eerst bij het Nederlands Instituut voor Wetenschappelijke Informatiediensten (NIWI), en vanaf 2005 bij het Huygens Instituut en (vanaf 2011) het Huygens ING. Een van mijn taken was het opzetten van een onderzoeksprogramma in de Digital Humanities. Ik kon mij toen intensief verdiepen in wat er tot dan toe in de Digital Humanities (toen nog Humanities Computing genoemd) op literatuurwetenschappelijk gebied was gedaan. Twee tijdschriften waren daarvoor van belang: Computers and the humanities en Literary and linguistic computing. Wat ik

tegenkwam viel me niet mee. De meeste artikelen die over literaire werken gingen, beschreven methoden die moesten helpen om de onbekende of betwiste auteur van een werk vast te stellen. De methoden die daarvoor werden ingezet, waren over het algemeen moeilijk te doorgronden, niet alleen door de wiskundige en statistische onderbouwingen in de artikelen, maar vooral ook omdat ze uitsluitend gericht waren op een ja/nee-antwoord. Daarna hield het op, terwijl het voor mij dan juist pas interessant werd. Ik wilde weten hoe de onderzochte auteurs van elkaar verschilden, om dat weer als uitgangspunt voor verdere analyses te kunnen nemen. Maar daar waren de methoden niet op gericht.

(4)

Dat begon te veranderen toen John Burrows in 2002 zijn Delta-procedure lanceerde, eveneens een methode om vast te stellen wie de waarschijnlijke auteur was van een betwiste tekst. Als basis nam hij de 150 hoogstfrequente woorden in een corpus waarin de betwiste tekst was opgenomen samen met een groep teksten van de auteurs die in aanmerking kwamen voor het auteurschap. Now we’re talking, dacht ik; woorden, daar kan ik wat mee. De Delta-score die het verschil tussen de teksten in het corpus uitdrukt, werd door Burrows berekend op basis van de gemiddelde frequentie van elk van die 150 hoogstfrequente woorden en de bij elkaar

opgetelde afwijkingen van die woordfrequenties ten opzichten van het voorkomen in het hele corpus (ik zal hier niet verder in de statistische details treden). De tekst waarvan de Delta-score het dichtste ligt bij de score van de betwiste tekst, is hoogstwaarschijnlijk van de hand van de auteur die ook verantwoordelijk was voor de betwiste tekst. Door de procedure toe te passen op teksten waarvan het auteurschap zeker is, konden Burrows en andere onderzoekers vaststellen dat deze methode zeer succesvol was.

De hoogst frequente woorden in elke tekst zijn meestal functiewoorden, zoals ik, zij, hij,

en, de, in, om en zo verder. Inhoudswoorden (waaronder zelfstandig naamwoorden) komen

meestal in veel lagere frequenties voor dan functiewoorden. Het fascineerde me enorm dat auteurs in de frequentiepatronen van hun gebruik van toch heel gewone, niet inhoudsgebonden woorden, van elkaar onderscheiden konden worden. Het feit dat de methode ook laat zien over

welke woorden het ging, geeft concrete aanknopingspunten voor de stap naar interpretatie: hoe

verschillen auteurs van elkaar? Hoe zetten ze bepaalde taalkundige elementen in om hun werk vorm te geven? Of ze dat nu bewust of onbewust doen maakt in feite niet uit.

De methoden die werden gebruikt voor auteursherkenning bleken niet alleen auteurs goed van elkaar te kunnen onderscheiden, maar ook verschillende genres. En een van de vragen die zich al snel aan mij (en ook aan anderen) opdrong was: zijn literaire romans ook te zien als een eigen genre, en is er dan een verschil te meten tussen werken van een hoge en van een lage literariteit? Max Louwerse (inmiddels hoogleraar Cognitive Psychology and Artificial Intelligence in Tilburg) wees mij op de door Willie Van Peer geredigeerde en in 2008 gepubliceerde bundel

The quality of literature. Linguistic studies in literary evaluation. In de bundel presenteert een

keur aan onderzoekers zeer uiteenlopende manieren waarop de ‘hoge’ literatuur aantoonbaar onderscheiden kan worden van andere vormen van literatuur. Alle auteurs presenteerden nuttige experimenten, maar daar zaten er maar weinig bij waarvan ik een veelbelovend vervolg verwachtte. De bijdrage waarin ik zelf de meeste aanknopingspunten vond, was de laatste in de bundel: Renate von Heydebrand en Simone Winko’s artikel ‘The qualities of literatures. A concept of literary evaluation in pluralistic societies’ (p. 223-239). Ze vatten hierin samen en bouwen verder op wat zij in hun boek Einführung in die Wertung von Literatur. Systematik – Geschichte – Legitimation (1996) aan de orde hadden gesteld. Het artikel in de bundel The quality of literature beschrijft hun analysemodel, gebaseerd op eerder onderzoek naar

waardetoekenning en de canon, en op uitkomsten van empirisch onderzoek in met name ‘social psychology and the psychology of cognition’. In hun abstract schrijven ze: ‘We argue that the evaluation of literature has to be considered in social terms, not merely as an individual act. Our model is designed to facilitate the analysis of evaluation. Its advantage, in our view, lies in abandoning the notion of literary quality as a property intrinsic to the text, without denying

that there have to be textual properties corresponding to the value expectations which people bring to literature. It also provides a basis for a pluralistic evaluation of literature, going beyond

(5)

the convention of aesthetic autonomy and taking into account the entire spectrum of social functions associated with literature’ (p. 122). Het door mij gecursiveerde deel was het aspect waar ik ooit zelf wel onderzoek naar zou willen doen, vanuit de ontwikkelingen in de digital humanities en zonder de sociologische aspecten uit het oog te verliezen.

De kans om zulk onderzoek daadwerkelijk uit te voeren kwam toen de KNAW geld beschikbaar stelde voor een aantal projecten in wat zij het Computational Humanities Program noemde. Voorwaarde was dat er in een project werd samengewerkt tussen tenminste twee KNAW-instituten en ten minste één partner van een universiteit. En die universitaire partner moest zich nadrukkelijk al bewezen hebben in Natural Language Processing, Artificial

Intelligence, of Computational Sciences. Het thema van de call was, beknopt gezegd, het ontwikkelen van innovatieve tools voor het ontdekken van ‘high-level patterns’ ter

beantwoording van een geesteswetenschappelijke onderzoeksvraag. Het voorstel The Riddle of

Literary Quality, waarvan de grote lijnen al aan het begin van dit artikel werden geschetst, werd

samen met drie andere voorstellen gehonoreerd.

The Riddle is een samenwerkingsproject van Huygens ING (Huygens Instituut voor Nederlandse Geschiedenis), een instituut van de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) en de Fryske Akademy (ook verbonden aan de KNAW), in de persoon van Hanno Brand (inmiddels directeur van de FA) en het Institute for Logic, Language and Computation (ILLC) van de Universiteit van Amsterdam, in de persoon van Rens Bod, hoogleraar Digitale en computationele geesteswetenschappen aan de UvA. Er zijn drie PhD-studenten aan The Riddle verbonden: Andreas van Cranenburgh, Corina Koolen, en Kim Jautze, en een

developer, Hayco de Jong. Het project heeft bovendien een ThinkTank kunnen bijeenbrengen van nationale en internationale specialisten op de belangrijkste gebieden waarop het project zich beweegt. Het project ging in januari 2012 van start.

Stand van zaken

Inmiddels is het project ongeveer op de helft. Wat hebben we tot nu toe gedaan? De

werkzaamheden hebben zich geconcentreerd op drie onderdelen: het opzetten en uitvoeren van de enquête Het Nationale Lezersonderzoek, het ontwikkelen van de eerste versies van een aantal analysetools inclusief het testen daarvan op een klein corpus van romans, en het

bedenken van de manieren waarop wij de tools die we ontwikkelen het beste beschikbaar kunnen maken voor andere onderzoekers. Om bij het laatste te beginnen: we zijn van mening dat onze onderzoeksresultaten gecontroleerd en herhaald moeten kunnen worden door onderzoekers zonder dat zij daarvoor moeten leren programmeren. Dat betekent dat we de tools beschikbaar willen stellen in een toegankelijke interface, en in een technische omgeving die door iedereen gemakkelijk kan worden aangeroepen of geïnstalleerd. We zijn daar hard mee bezig, ook in samenwerking met digital humanities-onderzoekers in de stilometrie

(computational stylistics) in het buitenland. Voor nu ga ik daar niet dieper op in.

De resultaten van een eerste pilot van aspecten van de tekstanalyse zijn gepubliceerd in het artikel ‘From high heels to weed attics: a syntactic investigation of chick lit and literature’. De drie PhD-studenten en de developer die aan The Riddle verbonden zijn, Kim Jautze, Corina Koolen, Andreas van Cranenburgh, en Hayco de Jong, analyseren hierin een aantal aspecten van

(6)

zinsstructuren in een klein corpus van chick-lit-romans en romans die op basis van literaire prijzen als ’literair’ kunnen worden aangemerkt. Door het toepassen van specialistische

software kunnen zij aantonen dat er inderdaad statistisch significante verschillen zijn tussen de twee genres. De chick-lit-romans uit het corpus bevatten meer samengestelde zinnen dan de literaire romans, en de literaire romans hebben meer complexe zinnen. Verder vonden zij verschillende aanwijzingen dat de chick-lit-romans in bijvoorbeeld dialogen dichter aansluiten bij alledaags taalgebruik, terwijl de literaire romans een meer beschrijvend taalgebruik

bevatten. In vervolgonderzoek wordt dit verder uitgewerkt. In een lezing op de laatste

aflevering van het congres Achter de verhalen (26 – 28 maart 2013 in Brussel) hebben we het onderzoek naar syntactische eigenschappen gecombineerd met experimenten waarin ook een aantal andere tekstuele kenmerken werden meegenomen, waaronder register en

woordfrequenties. De resultaten hopen we binnenkort te publiceren.

Veel werk is er ook gaan zitten in het opzetten van de enquête naar lezersmeningen. We hebben hiervoor de hulp ingeroepen van een specialist in marktonderzoek, economisch

psycholoog Erica Nagelhout van Nagelhout MRS. Met haar hulp hebben we Het Nationale Lezersonderzoek opgezet, dat liep van 4 maart tot 27 september 2013. We vroegen van onze respondenten een aantal persoonlijke gegevens (leeftijd, geslacht, postcode, opleidingsniveau). Verder wilden we weten hoeveel boeken ze ongeveer per jaar lezen en of ze alleen fictie, alleen non-fictie of allebei lezen. Ook vroegen we hun houding tegenover een aantal stellingen, die ons moeten helpen vaststellen of we te maken hebben met lezers die (volgens de omschrijving van Von Heydebrand en Winko) primair een heteronome lezersrol aannemen, waarin ze lezen voor hun plezier en het bijvoorbeeld belangrijk vinden om zich met een personage te kunnen identificeren, dan wel of ze primair een autonome lezersrol hebben, waarin ze vooral lezen omwille van de esthetische ervaring. We houden het namelijk niet voor onmogelijk dat

eenzelfde boek heel verschillend gewaardeerd wordt door lezers met verschillende lezersrollen. De antwoorden op deze vragen maken het ons mogelijk om die hypothese daadwerkelijk te testen.

De kern van de enquête bestond uit een lijst van 400 romans. Eerst vroegen we de respondenten om aan te vinken welke van die romans ze hadden gelezen. Vervolgens konden ze van zeven van de aangevinkte boeken aangeven hoe literair en hoe goed (beide op een schaal van 1 (minst) tot 7 (meest)) ze die vonden (en nog eens zeven boeken als ze wilden, etc.). In een vrij veld vroegen we ze voor een van de beoordeelde boeken hun mening toe te lichten. Daarna gaven we ze de kans maximaal zeven boeken die ze niet hadden gelezen te scoren op de twee schalen.

Omdat we voor ons onderzoek zoveel mogelijk meningen per boek nodig hebben om statistisch relevante observaties te kunnen doen, hebben we ervoor gekozen om zelf een lijst op te stellen van niet meer dan 400 romans. Als iedereen zelf titels had mogen noemen, dan waren er waarschijnlijk veel meer boeken genoemd, maar zouden maar weinig boeken voldoende opinies gekregen hebben voor betrouwbare statistische analyses. In het vaststellen van de boekenlijst wilden we zo zuiver mogelijk te werk gaan. De respondenten zouden immers voor ons aanwijzen wat als ‘literair’ te beschouwen. Zelf wilden we dat niet doen, want anders zouden de resultaten gebaseerd zijn op onze eigen aannames, en zouden onze conclusies niet overtuigend zijn. We kozen ervoor om de lijst te baseren op de verkoopcijfers en

(7)

lezersreacties dachten te kunnen krijgen. Ook besloten we dat de boeken op de lijst niet meer dan vijf jaar geleden voor het eerst gepubliceerd moesten zijn (helaas zijn er een paar oudere titels tussendoor geglipt). Op die manier wilden we voorkomen dat respondenten zouden zeggen: dat boek mocht ik op school voor de lijst lezen, dus dat is literatuur (in een enkel geval komen we een opmerking tegen van een respondent die zich inderdaad hierop beroept, bijvoorbeeld over Het diner van Herman Koch).

De criteria voor het opstellen van de lijst van romans ten behoeve van de enquête hebben logischerwijs ook geleid tot de vaststelling van het corpus van romans dat we met onze software-in-ontwikkeling willen analyseren. Als je tekstuele, linguïstische kenmerken wilt combineren met lezersmeningen, op zoek naar correlaties, dan moeten meningen en

tekstkenmerken wel dezelfde boeken betreffen. Op dit moment zijn we ons corpus voor zover mogelijk aan het completeren, zodat we in de tweede helft van The Riddle tekstanalyses en meningen kunnen combineren op de manier die we hebben bedacht.

We zijn ons zeer bewust van de beperkingen van ons onderzoek. Omdat we ons baseren op recente romans en op huidige meningen van een groep respondenten die meer dan

gemiddelde affiniteit met lezen en met literatuur heeft (straks meer hierover), hebben onze observaties en interpretaties uitsluitend betrekking op wat op dit moment bij de respondenten levende conventies van literariteit zijn. Vanuit methodologisch standpunt vinden we dat echter geen nadeel. We creëren zo juist een referentiepunt waarmee we uitkomsten van toekomstig onderzoek naar andere taalgebieden en andere tijdperioden kunnen gaan vergelijken. In ons project hopen we dat bij wijze van experiment te kunnen doen voor moderne Friese literatuur en voor Amerikaanse en Britse romans van rond 1900. In vervolgprojecten hopen we verder te bouwen op de resultaten van deze experimenten en van het project als geheel, om dan meer inzicht te krijgen in bijvoorbeeld canonvorming en de ontwikkeling door ruimte en tijd van stilistische aspecten als uitdrukking van literaire conventies.

Daarnaast verwachten we ook veel literatuursociologische observaties te kunnen doen, en denken we meer zicht te kunnen krijgen op het samenspel van sociologische en tekstuele factoren op conventies van literariteit. We ontkennen het grote belang van sociologische factoren dus niet, maar denken dat de tijd en de techniek nu rijp zijn om uit te zoeken wat daarnaast de rol van tekstuele factoren in de vorming van opinies over literariteit kan zijn.

Op de website van Het Nationale Lezersonderzoek hebben we een aantal resultaten van de enquête gepubliceerd. Meer dan 70 procent van de respondenten blijkt hoog opgeleid te zijn. De meesten zijn vrouw, en 50 jaar of ouder. Dat wijkt niet veel af van wat in andere leesonderzoeken is vastgesteld. Vandaar dat we denken dat de enquête ons een heel goede inkijk kan geven in welke conventies van literariteit er bij het huidige hoger opgeleide

lezerspubliek leven. Ik geef enkele voorbeelden uit de resultaten; voor meer verwijs ik naar de website. Vijftig tinten grijs van E.L James komt er niet best vanaf. En degenen die het boek niet hebben gelezen, geven het een nog lagere waardering dan die het wel hebben gelezen. Dat lijkt een trend voor veel boeken, behalve voor de boeken die als het meest literair worden gezien, wat een bruikbaar uitgangspunt lijkt voor verder onderzoek. De top tien van beste boeken verschilt in maar enkele titels van de top tien van meest literaire boeken. Beide bevatten alleen mannelijke auteurs. Vrouwelijke auteurs bezetten de hele top tien van minst literair gevonden boeken. In de top tien van slechtste boeken overheersen de vrouwen wel, maar ze hebben gezelschap van James Worthy en Kluun. Een eerste blik op de waardering voor een aantal titels

(8)

lijkt erop te wijzen dat de respondenten vertaalde romans uit een bepaald genre net even beter vinden dan origineel Nederlandse romans uit hetzelfde genre. Allemaal heel verleidelijke

observaties die we op dit moment diepgaander aan het onderzoeken zijn.

In The Riddle werken alle projectleden mee aan het beantwoorden van de hoofdvragen van het onderzoek. Maar de drie PhD-studenten hebben elk ook hun eigen onderwerp, en werken dat binnen de bredere kaders uit voor hun proefschrift. Andreas van Cranenburgh is werkzaam op het terrein van de computerlinguïstiek en concentreert zich op onderzoek naar het analyseren van zinsbouw en patronen daarin. Ook ontwikkelt hij een maat voor syntactische complexiteit. Corina Koolen gebruikt haar literatuurwetenschappelijke en computerlinguïstische expertise om te onderzoeken of er verschillen zijn in het gebruik en de functie van

beschrijvingen van fysieke kenmerken van personages in romans die door de respondenten van de enquête verschillend worden gewaardeerd. Kim Jautze combineert linguïstische en

literatuurwetenschappelijke benaderingen in stilometrisch onderzoek naar de literaire thriller. Regelmatig presenteren de projectleden hun werk op conferenties. Zo waren we met twee papers vertegenwoordigd op de eerste jaarlijkse digital humanities conferentie DHBenelux, die in juni 2013 plaatsvond in Den Haag. Op het wereldwijde digital humanities congres DH2014 in Lausanne presenteerden we twee long papers en een poster. Nieuwe ontwikkelingen melden we op onze projectwebsite. We merken dat ons project door heel veel mensen in binnen- en buitenland op de voet gevolgd wordt. We zijn dus niet de enigen die erg benieuwd zijn naar de uiteindelijke resultaten.

Websites

Website The Riddle of Literary Quality: http://literaryquality.huygens.knaw.nl

Website Het Nationale Lezersonderzoek: http://www.hetnationalelezersonderzoek.nl/ Website DH2014, Lausanne: http://dh2014.org

Website DHBenelux: http://dhbenelux.eu

Webpagina Andreas van Cranenburgh: http://staff.science.uva.nl/~acranenb/ Blog van Corina Koolen: http://www.looksinbooks.com

Blog van Kim Jautze: http://kimjautze.blogspot.nl

Bibliografie

Kim Jautze, Corina Koolen, Andreas van Cranenburgh & Hayco de Jong. ‘From high heels to weed attics: a syntactic investigation of chick lit and literature’. In: Proceedings of the Workshop

on Computational Linguistics for Literature (co-organized with North Atlantic Association of

Computational Linguistics (NAACL), Atlanta (US), 10-14 June 2013), p. 72-81. http://www.aclweb.org/anthology/W13-1410

Kim Jautze, Karina van Dalen-Oskam, Erica Nagelhout, Hayco de Jong, Corina Koolen, GertJan Filarksi and The Riddle of Literary Quality Team. ‘The development of a large online survey of readers’ opinions’ (under review)

(9)

Kim Jautze, Corina Koolen, Andreas van Cranenburgh en Karina van Dalen-Oskam. ‘Meetbare genrekenmerken. The Riddle of Literary Quality’ (in voorbereiding)

Willie Van Peer (ed.). The quality of literature. Linguistic studies in literary evaluation.

Amsterdam / Philadelphia: John Benjamins, c. 2008 (Linguistic approaches to literature (LAL) Volume 4)

Renate von Heydebrand & Simone Winko. Einführung in die Wertung von Literatur. Systematik –

Geschichte – Legitimation. Paderborn etc.: Ferdinand Schoeningh, 1996

W.J.J. Pijnenburg e.a. Vroegmiddelnederlands Woordenboek. Woordenboek van het Nederlands

van de dertiende eeuw in hoofdzaak op basis van het Corpus-Gysseling. Leiden/Groningen:

Gopher Publishers, 2001. 4 Dln. Toelichting op