• No results found

Het ongezochte vinden

N/A
N/A
Protected

Academic year: 2021

Share "Het ongezochte vinden"

Copied!
1
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Het ongezochte vinden

T

oen Bruno Becker, oprich-ter en eerste directeur van wat nu het Oost-Europa Instituut van de Amster-damse universiteit is, ooit een be-paald citaat van Aristoteles nodig had, las hij het complete oeuvre van Aristoteles door om het te vinden. Tegenwoordig kunnen we zoveel ge-duld niet meer opbrengen: als we in-formatie zoeken, nemen we direct onze toevlucht tot digitale tekstbe-standen die via bibliotheken of Google beschikbaar worden gesteld.

Geesteswetenschappers gebrui-ken digitale historische teksten nog vooral om woorden, namen, uit-drukkingen of citaten in op te zoe-ken. Ze willen achterhalen sinds wanneer een woord of een uitdruk-king voorkomt, ze bekijken wat er in een bepaalde periode over een specifiek begrip – ‘s l av e r n ij ’, ‘demo-cratie’ – wordt gezegd, of hoe er op een bepaald moment werd gedacht over het werk van een auteur. Of ze bekijken op welk moment metafo-ren in zwang komen (drankzucht als ‘kanker van de maatschappij’), om-dat hieruit maatschappelijke veran-deringen blijken. Voor dit soort on-derzoek bieden digitale teksten ge-weldige mogelijkheden.

Dergelijk onderzoek – hoe inte-ressant ook – is niet meer dan het automatiseren van het oude,

hand-matige leeswerk zoals door Becker en anderen vóór het digitale tijd-perk werd ondernomen. Willen we echt nieuwe resultaten boeken in het geesteswetenschappelijk zoek, dan moeten we nieuwe onder-zoeksmethoden aanwenden die de jonge digitale wereld ons aanreikt. Een daarvan is dat we niet langer zoeken naar de bekende weg, maar dat we de computer serendipitair voor ons laten zoeken. Dat kan door grote hoeveelheden tekstbestanden automatisch te laten analyseren. Hiervoor bestaan allerlei program-ma’s. Die programma’s tellen alles in een tekst wat telbaar is, zoals de hoeveelheid zinnen, de gemiddelde lengte van een zin, de hoeveelheid woorden, de hoeveelheid lettergre-pen per woord, de meest voorko-mende woordcombinaties en de fre-quentie van woorden.

Dit komt u misschien bekend voor: dergelijke tellingen vormen de basis van de beroemde leesbaar-heidsformule die de Amerikaan Ru-dolf Flesch in 1948 heeft ontwikkeld en die in de meeste versies van Mi-crosoft Word is ingebouwd. De for-mule rekent op basis van de gemid-delde zinslengte en het gemidgemid-delde aantal lettergrepen per woord uit hoe moeilijk een tekst is: een tekst met veel lange zinnen en woorden scoort laag in leesbaarheid.

Wellicht bent u sceptisch over het idee dat het domweg tellen van woorden kan leiden tot nieuwe in-zichten, maar daarmee onderschat u de mogelijkheden van dit soort sta-tistische tekstanalyse. Een tekstana-lyseprogramma kan automatisch overeenkomsten en verschillen tus-sen twee tekstbestanden vaststellen, en aangeven welke woorden of woordcombinaties typerend zijn voor een bepaalde tekst of een be-paalde auteur. Uiteraard moet een onderzoeker de resultaten kritisch beoordelen.

Tekstanalyse kan bijvoorbeeld munitie leveren voor de discussie die wordt gevoerd over de vraag of de verschillen tussen het Standaard-nederlands in Nederland en België toenemen of juist afnemen. Het feit dat Vlamingen steeds vaker kleed vervangen door jurk wijst op een af-nemend verschil, maar hoogfre-quente combinaties als ‘zich interes-seren aan’ of ‘Ik zou het zelf zo wil-len gezegd hebben’ spreken dat weer tegen. Aan de universiteit van Leuven zijn onderzoekers al enkele jaren bezig de verschillen te meten tussen teksten uit Nederland en uit België. Hun voorlopige conclusie is dat het geschreven taalgebruik van de twee landen naar elkaar toe groeit. Uit ander onderzoek blijkt dat de uitspraakverschillen juist

groter worden.

Een spannend onderzoek waar-voor ik tekstanalyse graag zou inzet-ten, is het vergelijken van het taalge-bruik van kranten uit Nederland en uit Nederlands-Indië in de eerste helft van de 20ste eeuw. Mijn hypo-these is namelijk dat veel verande-ringen in het Nederlands – nieuwe Nederlandse woorden of construc-ties – in Indië zijn ontstaan of geac-cepteerd geraakt.

Ik kwam op het idee doordat het me opviel dat Indische kranten vaak de oudste bron zijn voor een Neder-lands woord: haatzaaien bijvoor-beeld, maar ook ‘gewone’ woorden als reuzeleuk, piepklein, knoerthard en knotsgek. Misschien is dat ge-woon toeval, maar misschien ook niet: de Indonesische maatschappij verschilde aanzienlijk van de Neder-landse, wat noopt tot neologismen. In de eerste helft van de 20ste eeuw waren er bovendien meer tweetalige Nederlanders en Indonesiërs dan

ooit tevoren: uit onderzoek is be-kend dat tweetaligheid leidt tot taal-veranderingen en taalvernieuwin-gen.

Als tweetaligheid in Indië een motor van taalverandering is ge-weest, zou dat ook uit andere taalfei-ten moetaalfei-ten blijken. Volwassenen die een tweede taal leren, hebben moei-te onregelmatige vormen moei-te leren. Lastig vinden zij bijvoorbeeld de verleden tijd van sterke werkwoor-den (woei, joeg, ervoer, verschool), omdat de meeste Nederlandse werk-woorden zwak zijn. De verwachting is dan ook dat in Indische kranten vaker dan in Nederlandse sprake zal zijn van waaide, jaagde, ervaarde, verschuilde. En van ‘een jonge meis-je’ in plaats van ‘een jong meisje’, omdat bijvoeglijke naamwoorden meestal op -e uitgaan.

Mijn handen jeuken om tekstana-lytische programma’s op kranten los te laten. Nu stuiten we echter op de praktische bezwaren. Niets dan lof voor de digitale krantenbestanden van de Koninklijke Bibliotheek, maar in hun huidige vorm zijn ze nog niet geschikt voor dit soort on-derzoek. De computerprogramma’s verslikken zich nog te vaak in de spellingvariatie van oude teksten. Maar daar wordt aan gewerkt. Zodra er vorderingen zijn, zal ik dat hier melden.

C O L U M N

N I C O L I N E VA N D E R S I J S

Vlamingen vervangen

steeds vaker kleed door

jurk, maar interesseren

zich nog wel

‘aan’ iets

Referenties

GERELATEERDE DOCUMENTEN

Bij haar andere project, Electric Sheep (Han Swolfs, Michaël Brijs & Lies Van Gasse) staat de zoektocht naar de gemeenschappelijke componenten van poëzie, muziek en

In het besef dat de geografi e van de Bijbel ook in dienst staat van de boodschap die de Bijbelschrijvers willen verkondigen, wil deze reeks niet een beeld reconstrueren van

Ondanks alle operationele en logistieke hoofdbrekens, wijst Phil graag op de hoogtepunten: “Als dit jaar ons iets heeft geleerd, dan is het dat we tot grote dingen in staat zijn

De lijst wordt onder meer gebruikt bij de examens voor het certificaat Nederlands als Vreemde Taal (die sinds 1985 onder de Nederlandse Taalunie vallen).. De lijst is ook gebruikt

Gebruikerservaring tip: Voordat je aan de slag gaat met WeSeeDo Direct is het handig om eerst goed te testen met bijvoorbeeld een collega.. Wanneer je er niet uitkomt of je hebt

Wanneer je gebruik maakt van de button op de website of als je wilt dat collega’s een gesprek naar jou kunnen doorverbinden dan sleep je de slider naar rechts.. Je geeft dan aan dat

Markus 3:29 - maar wie gelasterd zal hebben tegen de Heilige Geest, die heeft geen vergeving in eeuwigheid (aión), maar is onderworpen aan eeuwige (aiónios) veroor- deling..

Van den Nagel: ‘Wij transporteren zowel eigen hout als hout van derden en hebben met onze vier stam- houtwagens passend transport beschikbaar voor zowel korthout als langhout..