PAROLE: een nieuw tekstcorpus raadpleegbaar voor onderzoek

tilly dutilh-ruitenBerg, Jesse de does & truus kruyt*

Op de INL website (http://www.inl.nl/) is een nieuw corpuszoeksysteem met webgebaseerde interface beschikbaar. Het betreft een corpus van hedendaags geschreven Nederlands van 20 miljoen woorden – de Nederlandse pendant van een serie Europese PAROLE-tekstcorpora. Op het gebied van retrieval, taalkundige verrijking en data-inspectie zijn nieuwe functionaliteiten ontwikkeld, die voor onze eerdere online cor-pora nog niet te realiseren waren. Het corpus is daardoor veel soepeler raadpleegbaar. Boven-dien is het van een zeer uitgebreide help- en documentatiecomponent voorzien.

In dit artikel zal de nadruk liggen op nieuwe aspecten van de taalkundige verrijking (I en IV.1) en de corpusinterface (II). Daarnaast belichten we de achtergrond van het PAROLE-corpus (III) en de ontwikkeling van ruw corpus tot com-pleet retrievalsysteem (IV), waarbij ook andere vormen van corpusverrijking aan bod komen (IV.2). We laten zien dat verrijken geen doel op zich is en slechts van nut voor de onderzoeker in combinatie met op maat gesneden zoekmogelijk-heden.

I Het PAROLE-corpus: een eerste impressie

Het PAROLE-corpus is een verrijkt corpus: de teksten zijn geclassificeerd naar publicatiemedi-um, onderwerp en periode; de structuur, opmaak en lay-out zijn gecodeerd volgens de richtlijnen van het Text Encoding Initiative (TEI)1 en alle 20 miljoen woorden van het corpus zijn verrijkt met lemma en gedetailleerde woordsoortinfor-matie volgens de PAROLE/EAGLES-standaard2. Nieuw is bovendien dat er niet alleen een zeer gedetailleerd woordsoortstelsel is toegepast waarmee ook vormen van scheidbaarheid en positie getagd zijn, maar ook dat onderzoekers een twintigtal zogeheten patronen ter beschik-king staan. Patronen zijn voorgedefinieerde complexe zoekvragen, waarmee gezocht wordt naar zinsdelen en zinsstructuren die bepaalde syntactische kenmerken gemeen hebben; echter zonder dat ze expliciet syntactisch gecodeerd zijn. Hier volgt een voorbeeld van een van de patronen:

(1) Werkwoordgroep_deelwoord_na_hulpwerk-woord

* Instituut voor Nederlandse Lexicologie, Postbus 9515, 2300 RA Leiden. E-mailadres: ruitenberg@inl.nl. 1 Zie http://etext.lib.virginia.edu/teip4/

Patroon: ws=(VRB(type=aux,mood=ind), (ART|PRN(type=pers)|PRN(type=dem)|ADP|CON| DET|ADJ|NOU|ADV)*))?, ws=(VRB(mood=part), (UNIQUE, VRB (type=aux,mood=inf)*, VRB(typ e=mai,mood=inf))?)

Resultaat: werkwoordgroepen met

hulpwerk-woord en deelhulpwerk-woord eventueel gevolgd door te met één of meer infinitieven. Tussen hulpwerk-woord en deelhulpwerk-woord mag iets anders staan. Zie de concordanties in het scherm van fig. 1.

Er is ook een patroon voor de omgekeerde volg-orde: werkwoordgroep_deelwoord vóór

hulpwerk-woord. Een ander voorbeeld is een patroon met

scheidbare werkwoorden en pronominale adver-bia, toegepast op een subcorpus van boeken:

(2) Scheidbaarpatroon_werkwoord_eerst Patroon:ws=(VRB(mood=ind,construct=sep), (NOU|ADJ|ADP|INT|RES|DET|ART| NUM|ADV(construct=-))*,ADV(construct=sep), (NOU|ADJ|ADP|INT|RES|DET|ART| NUM|ADV(construct=-))*,ADP(construct=sepADV), ADP(construct=sepVRB))

Resultaat: zie de concordanties in het scherm van

fig. 2. Elke concordantie bevat een combinatie van een scheidbaar werkwoord en een scheidbaar pro-nominaal adverbium, met het werkwoord voor-aan. Voor meer details zie § IV.1.2 . Onderzoekers kunnen patronen naar eigen wens aanpassen.

II Het vierde online INL-corpus, een product van zijn tijd

Zoals de drie bestaande INL-corpuszoeksystemen (het 5 Miljoen Woorden Corpus uit 1994, het 27

Miljoen Woorden Krantencorpus uit 1995 en het 38 Miljoen Woorden Corpus uit 1996) gebouwd zijn

volgens de mogelijkheden van hun tijd, zo is ook dit nieuwste corpuszoeksysteem ontwikkeld met hedendaagse mogelijkheden (Van der Kamp & Kruyt, 2004).

Figuur 1: een van de resultaatschermen, Concordanties, met concordanties van patroon (1) gezocht in een sub-corpus van ruim 3 miljoen woorden.

Figuur 2: een van de resultaatschermen, Concordanties, met concordanties van patroon (2) gezocht in een sub-corpus van ruim 3 miljoen woorden.

Figuur 3: het scherm Geavanceerd zoeken, met in het editveld vraag (3) met een combinatie van de categorieën woordvorm en woordsoort.

De interface van het PAROLE-corpuszoek-systeem bestaat uit vijf tabbladen: Zoeken,

(Sub)corpusselectie, Resultaat, Instellingen en Help& Info. Elk tabblad heeft één of meer schermen.

Het tabblad Resultaat heeft de meeste schermen, omdat daarin dynamisch de hele reeks resultaten van zoekacties getoond wordt. Nieuw is dat er voor het zoeken een splitsing is aangebracht tus-sen Eenvoudig en Geavanceerd zoeken. De onder-zoeker die start in Eenvoudig zoeken, kan in één zoekcategorie (dus óf Woordvorm, óf Lemma, óf Patroon, etc.) één of meer zoektermen invullen en die combineren met een operator (AND, OR, NOT) of een wildcard (*, ?). De onderzoeker die in Geavanceerd zoeken (fig. 3) start, kan daar-entegen alle zoekcategorieën combineren, dus een vraag formuleren met zowel woordvorm als lemma en/of woordsoort, TEI-tag etc. en daarbij ook nog gebruik maken van drie extra operato-ren: ALS, Binnen en Afstand.

De ALS-operator dient om de zoekvraag te ver-fijnen, bijv.:

(3) wv=schoot ALS ws=VRB(type=mai, mood = ind, tense=impf, person=3, number=sg, construct=sep)

Resultaat: alle woordvormen van schoot als scheidbaar werkwoord. Op die manier wordt de werkwoordsvorm schoot onderscheiden van de voorkomens van schoot als zelfstandig naam-woord en van schoot als niet-scheidbaar werk-woord. Zie fig. 3 voor de zoekvraag en fig. 4 voor de presentatie van één van de concordanties in het scherm Concordantie met Tags.

Met de Binnen-operator kan men zoeken binnen een TEI-gemarkeerd tekstgebied, zoals <head> (kopje) of <s> (zin).

Afstand- of proximity-search is een functi-onaliteit waarmee men aangeeft hoeveel woor-den er tussen twee zoektermen mogen staan, bijvoorbeeld om de slaagkans van een zoekvraag te vergroten. Vergelijk de zoekvragen 4a en b:

(4) a. ws=PRN(type=refl), ws=VRB(mood=part,

tense=past), ws=VRB

b. ws=PRN(type=refl)/1..3 ws=VRB(mood=

part,tense=past), ws=VRB

Bij zoekvraag a. worden alleen constructies als

zich gefrustreerd voelen gevonden, omdat de komma

betekent dat de woordsoorten elkaar direct moeten opvolgen in de zin. Bij zoekvraag b., met de afstandsoperator /1..3, worden er meer instanties van dezelfde constructie gevonden, namelijk ook zich uiterst gefrustreerd of zich heel erg

gefrustreerd voelen, omdat de afstandsoperator een

afstand tot 3 woorden toestaat tussen de eerste twee zoektermen.

Nieuw is dat de zoektaal het gebruik van uitgebreide reguliere expressies toestaat. In het geavanceerde zoekscherm heeft de onderzoeker dus een groot aantal mogelijkheden om zoekvra-gen te stellen of aan te passen, waarna de vrazoekvra-gen opgeslagen en bewaard kunnen worden voor volgende sessies (fig. 3).

Ook kan men nu zoeken naar statistische col-locaties, dat wil zeggen naar tweetallen woorden die significant vaak in elkaars omgeving voor-komen. Een collocatie bestaat uit een zoekterm en een collocatiewoord. De onderzoeker kan bij zoekterm en collocatiewoord aangeven of hij op woordvorm of op lemma wil zoeken. Bovendien kan de woordsoort als restrictie toegevoegd worden. Verder is de afstand tussen zoekterm en collocatiewoord naar beide richtingen instelbaar en is er keuze uit verschillende parameters voor de wijze van zoeken en de wijze van berekenen en presenteren (fig.5).

Zoals is gebleken, hebben onderzoekers veel mogelijkheden om het systeem naar eigen hand te zetten. In het instellingenscherm kunnen bovendien nog de default instellingen worden aangepast, zoals de concordantiegrootte, het zoekdomein en het (sub)corpus waarmee men standaard wil werken. Verder bieden de resul-taatschermen uitgebreide sorteer-, selecteer- en filtermogelijkheden om de output naar wens

Figuur 4: een van de resultaatschermen, Concordantie met tags, waarin een concordantie in drie scrolbare kolommen getoond wordt als opeenvolging van woordvormen, van woordsoorten en van lemma’s.

Figuur 5: een van de resultaatschermen, Collocatielijst, met uitvoer van een vraag naar de collocaties van

toe te snijden en kunnen de resultaten (met een maximum van 1000 concordanties) in een oog-wenk naar de eigen werkplek gemaild worden voor verder onderzoek. Vermeldenswaard is nog de schermgebonden Help & Info functionaliteit. Zodra de onderzoeker uit één van de meer dan twintig schermen van de applicatie de Help &

Info-tab aanklikt, verschijnt de

gebruikershand-leiding precies daar, waar de functionaliteiten van het betreffende scherm behandeld worden. En vanuit dat helpscherm is direct ook weer alle informatie aanklikbaar, zoals de plattegrond van de applicatie, de corpusdocumentatie, de over-zichten van de woordsoorttags, de lijst van TEI-tags en hun opmaakwaardes enz. (fig.6).

III Achtergrond PAROLE-corpus

Het eind 2004 opgeleverde corpus is een

opti-malisering van het PAROLE-corpus zoals het destijds binnen het Europese PAROLE-project (1990-1998) volgens internationale standaarden is gebouwd. PAROLE is een acroniem van

Pre-paratory Action for Linguistic Resources Organisation for Language Engineering. Het is ook de naam van

een door de Europese Commissie geïnitieerd en gesubsidieerd project om te voorzien in de groei-ende behoefte aan hedendaagse elektronische taalbronnen, voor met name de taaltechnologie. Op grond van voorafgaande evaluatiestudies in het NERC-project (1991-1993) en de haalbaar-heidstudies in het PAROLE-1-project (1993-1995) zijn er standaarden geformuleerd voor de opbouw en verrijking van tekstcorpora en lexica. Instituten uit 14 Europese landen hebben hier-aan meegewerkt. In PAROLE-2 is er vervolgens aan de hand van die standaarden voor elk van

Figuur 6: De gebruikershandleiding, hier getoond aan het begin van de helptekst bij Geavanceerd zoeken. Rechts bovenaan het keuzemenu om ofwel naar de Globale werkwijze, ofwel direct naar de functionaliteiten per scherm-onderdeel door te gaan, met daaronder de toelichting en tips. Links de navigatiebalk met doorklikmogelijkheden naar de corpusdocumentatie en gedetailleerde overzichten van tags, patronen, classificaties etc.

de 14 talen een tekstcorpus en voor 13 talen een computationeel lexicon gebouwd (1996-1998); zie Kruyt (1998) en www.inl.nl.

De uitgangspunten bij de samenstelling van de PAROLE-corpora waren: hergebruik van reeds bestaande elektronische teksten en lexica, uitwis-selbaarheid/harmonisatie met de andere Euro-pese corpora en haalbaarheid. De duur van het PAROLE-2 project was slechts 2 jaar. Vanuit die haalbaarheidsgedachte is er gewerkt met stelsels van verplichte en optionele verrijking (er was bij-voorbeeld maar één van de drie tekstclassificaties verplicht). Verder zijn bij de codering van tekst-structuur, opmaak, lay-out en woordsoort zoveel mogelijk automatische procedures toegepast. Bovendien is destijds slechts een zeer klein deel (1,25 %) van de teksten met woordsoort geco-deerd en vervolgens handmatig gecorrigeerd.

IV Van ruw corpus naar compleet corpuszoeksysteem

Het Nederlandse PAROLE-corpus was medio 1998 gereed. Maar daarmee was dan ook alles gezegd. Want binnen een beperkte tijd een cor-pus opleveren dat voldoet aan de gestelde voor-waarden is één ding, maar zo’n corpus is dan nog niet zichtbaar, laat staan bevraagbaar. Het verschil tussen het ruwe corpus van 1998 en het nu opgeleverde PAROLE-corpuszoeksysteem van 2004 is dan ook enorm. In de afgelopen periode zijn naast de automatische taalkundige verrij-king van het totale corpus ook de webgebaseerde interface en het zoeksysteem ontwikkeld, en wel zo dat iedere vorm van verrijking bevraagbaar en gericht onderzoekbaar is. Beide trajecten zijn afgelegd dankzij de goede samenwerking tussen de afdelingen Taalbank en Automatisering.

IV.1 De taalkundige verrijking van het PAROLE-corpus

In het kort komt taalkundig verrijken erop neer dat een woordsoorttag en een lemma (trefwoord) worden toegekend aan ieder woord. Daarvoor zijn nodig een tagger, een tagset (woordsoort-stelsel) en een tag- en lemmatiseerlexicon.

Het zou binnen het bestek van dit artikel te ver voeren om uitgebreid in te gaan op het geheel van de automatische tagging en lem-matisering en de daarop gevolgde selectieve correctieslagen om de output van de tagger te verbeteren. Dit is tot in detail beschreven en verantwoord in de corpusdocumentatie bij het corpus en – specifiek over de automatische tag-ging – in De Does & Van der Voort van der Kleij (2002). Maar enkele punten zullen we hier wel aansnijden.

IV.1.1 Tagset en tagmethode

De Nederlandse PAROLE-tagset (http://www. inl.nl/corp/parole-tagsetnew.html) is gebaseerd op de PAROLE multilingual corpus tagset (Volz & Lenz, 1996), die op zijn beurt gebaseerd is op EAGLES. Een PAROLE-woordsoorttag bestaat uit een hoofdwoordsoortcode en een type (sub-categorie), gevolgd door een lijst van kenmerken (features), bijv. (5) a. NOU(type=comm,gender=fm,number=sg) b. VRB(type=main, mood=ind, tense=impf, person=3,number=sg) c. DET(type=dem,person=-, gender=n,number=sg).

Het betreft hier: a. een gewoon zelfstandig naamwoord, de-woord en enkelvoud; b. een hoofdwerkwoord in de aantonende wijs, onvol-tooid verleden tijd en derde persoon enkel-voud; c. een aanwijzende determiner (bijvoeglijk gebruikt voornaamwoord), onzijdig, enkelvoud, zonder specificatie voor persoon. Het type en de kenmerken staan altijd op een vaste positie in de tag. Indien een kenmerk niet van toepassing is of indien er geen waarde is toegekend, staat op die positie een streepje.

Voor de woordsoorttoekenning is gebruik gemaakt van een functionele tagmethode, die uitgaat van het toekennen van de woordsoort op grond van het gebruik van een woord in zijn context. Het gaat daarbij vooral om nominalisa-ties (de derde, het afbreken, de kortere) en enkele

andere transcategorisaties, zoals de overgang van bijvoeglijke naamwoorden en deelwoorden naar bijwoord (Dutilh & Kruyt, 2002).

IV.1.2 De consequenties van automatische tagging

Automatisch taggen heeft verschillende conse-quenties. Enerzijds ‘ziet’ de tagger anders c.q. minder, waardoor functionele informatie niet altijd herkend wordt (nominalisaties van infini-tieven zijn bijvoorbeeld moeilijk te herkennen). Bijgevolg zijn enkele kenmerken of waarden die niet betrouwbaar konden worden toegekend, aangepast of helemaal uit de oorspronkelijke tagset verwijderd, zoals het kenmerk main verb

function met de waarden transitief, intransitief, onpersoonlijk en reflexief. Anderzijds is er ook

een feature met verschillende waardes aan de oorspronkelijke tagset toegevoegd, doordat er in de correctieslagen juist gebruik gemaakt kon worden van de al aanwezige woordsoortcode-ring. Tijdens de correctie wordt namelijk zeer systematisch naar groepen woordsoorten geke-ken. Hulpmiddel bij het vinden van die groepen is, onder andere, de positie van een woordsoort ten opzichte van andere woordsoorten. Er kan bijvoorbeeld aan alle adjectieven die binnen bepaalde condities voor een zelfstandig naam-woord staan, een positionele waarde,

pre-nomi-naal of attributief, toegekend worden. Dat zegt

dan direct ook iets over de resterende groep van adjectieven, die niet aan die conditie voldoen. Deze krijgen voor dat kenmerk een streepje. Hetzelfde principe geldt voor voorzetsels: mar-keer voorzetsels die hoofd van een PP zijn (in de

auto, op de tafel) met een waarde initial. Van de

resterende voorzetsels weten we dan dat ze niet aan die voorwaarde voldoen. Bij het zoeken naar de scheidbare delen van voornaamwoordelijke bijwoorden (erop, waarvan, e.d.) en werkwoor-den (opschieten, aannemen, e.d.) kon het zoek-domein zodoende beperkt worden tot de

non-initial voorzetsels (in ons corpus een reductie

met 2,5 miljoen instanties van voorzetsels). Dergelijke informatie kan, als hulpmiddel bij de correctie, tijdelijk aan de tag toegevoegd

worden, maar als zo’n waarde nog extra zoek-mogelijkheden biedt en bovendien betrouwbaar is, kan hij ook blijvend worden toegekend. Zo zijn enkele waarden van een nieuw kenmerk – door ons construction genoemd – toegevoegd aan de tagset. Het betreft de zojuist genoemde waarden voor positie attributief en initial en enkele waarden voor scheidbaarheid: sep(arated) voor scheidbare werkwoorden en bijwoorden en

sepVrb en sepADV voor voorzetsels, adjectieven,

bijwoorden en zelfstandige naamwoorden die een gescheiden deel van een werkwoord of van een pronominaal bijwoord zijn. Dit kenmerk heeft het ook mogelijk gemaakt een groot aantal (maar niet alle) scheidbare werkwoorden en pronominale voornaamwoorden als zodanig te lemmatiseren (dus aanlopen, omlopen etc. i.p.v. allemaal lopen, en erop in plaats van er). Dat niet alle scheidbare werkwoorden zijn gevonden, komt doordat de patronen waarmee gezocht is niet 100 % waterdicht zijn, bijvoorbeeld in het geval van bijzinnen die tussen het scheidbare deel en het bijbehorende werkwoord stonden:

(6) Hij schold zijn broer, die hij al drie jaar niet

gezien had, verschrikkelijk uit.

De instantie van het scheidbare werkwoord

uitschelden in voorbeeld (6), zal bijvoorbeeld niet

gevonden worden met het bestaande patroon. Verder zijn als gevolg van ambiguïteit bijvoor-beeld de werkwoorden die beginnen met weer (weerkeren e.d.) niet meegenomen; weer was dermate ambigu dat er geen goede resultaten verkregen werden.

Door deze toevoegingen aan de tagset kan de corpusonderzoeker veel gerichter zoeken. Het is nogal een verschil of je bij een onderzoek naar

predicatieve of vrije adjectieven onderzoek doet

op een set van 280.000 niet-attributieve adjec-tieven, of op alle 1.330.000 adjectieven in het corpus. Daarnaast hebben we de bij de correctie gebruikte patronen uitgebreid met andere moge-lijk interessante constructies, om zo de zoekmo-gelijkheden op het corpus te vergroten (zie § I).

IV.2 Andere vormen van corpusverrijking

Binnen het kader van corpusonderzoek maakt de in § I genoemde TEI-codering van tekststructuur (kopjes, alinea’s, zinnen e.d.) en opmaak (vet, cursief e.d.) het eveneens mogelijk gericht(er) in teksten te zoeken, omdat het zoekdomein beter af te bakenen is. Zo kan men zoeken bin-nen de zin, maar ook in verbanden ruimer dan de zin, in een alinea of tekstdivisie, terwijl TEI-tags voor opmaak, zoals <hi rend=”IT “> of <hi rend=”BO”>, het zoeken naar of binnen cursieve of vetgedrukte tekstelementen mogelijk maken.

Verder fungeren de bibliografische (auteur, titel, jaar) en de classificatorische verrijking (onderwerp en publicatiemedium) als parame-ters voor het maken van subcorpusselecties. Bijvoorbeeld, omdat een zoekvraag op een twin-tig-miljoen-woordencorpus vaak een gigantische output genereert, of omdat men alleen in boe-ken, op een bepaald onderwerp of binnen een bepaalde periode wil zoeken. Kortom, deze ver-rijking maakt het mogelijk gericht en/of vergelij-kend onderzoek te doen op één of meerdere op het eigen onderzoek toegesneden subcorpora.

Tot slot

Het ontwikkelen en bouwen van een dergelijk corpuszoeksysteem is zeer tijdrovend. Vandaar dat het PAROLE-retrievalsysteem niet alleen als model zal dienen voor een onderdeel van ons huidige project – het tekstencorpus van de Geïntegreerde Taalbank (Kruyt, 2004) – maar dat het direct al, in aangepaste vorm, toegepast is binnen andere INL-projecten: het ANW pro-ject (Moerdijk, 2004) en het Groene Boekje. Ook vanuit het buitenland is interesse voor het PAROLE-retrievalsysteem getoond.

Toekomstige gebruikers van het PAROLE-corpus kunnen vooraf, dus zonder inloggen, vanuit de Nederlandse of vanuit de Engelstalige interface alle corpusgegevens en documentatie inzien om te bepalen of het corpus een geschikt onderzoeksinstrument voor hen is; zie: http:// parole/html/main info_dutch.html. Net als de andere INL-corpora is het PAROLE corpus

gra-tis raadpleegbaar voor niet-commerciële onder-zoeksdoeleinden.

Bibliografie

Does, J. de & J. van der Voort van der Kleij (2002). Tagging the Dutch PAROLE Corpus.

In: M. Theune et al. (eds.), Computational

Linguistics in the Netherlands 2001; Selected Papers from the Twelfth CLIN Meeting.

Amster-dam – New York: Rodopi, 62-76. Ook op www.inl.nl.

Dutilh, M.W.F. & J.G. Kruyt (2002).

Imple-mentation and Evaluation of PAROLE PoS in a National Context. In: Manuel González Rodríguez & Carmen Paz Suarez Araujo,

Proceedings of the third International Conference on Language Resources and Evaluation, Parijs,

1615-1621. Ook op www.inl.nl.

Kamp, P.H.J. van der & J.G. Kruyt (2004).

Putting the Dutch PAROLE Corpus to Work, in: M.T. Lino, M. F. Xavier, F. Ferreira, R. Costa, R. Silva (eds.), Proceedings of the 4th

International Conference on Language Resources and Evaluation, Paris: ELRA, 1767-1770. Ook

op www.inl.nl.

Kruyt, J.G. (1998). Elektronische

woordenboe-ken en tekstcorpora voor Europese taaltech-nologie. Trefwoord 12, Jaarboek Lexicografie 1997-1998, 28-42. Ook op www.inl.nl.

Kruyt, J.G. (2004). The Integrated Language

Database of 8th—21st-Century Dutch. In: M.T. Lino, M. F. Xavier, F. Ferreira, R. Costa, R. Silva (eds.), Proceedings of the 4th

Interna-tional Conference on Language Resources and Evaluation, Paris: ELRA, 1751-1754. Ook op

In document 10 jaar Nederlandse Taalkunde (pagina 134-143)