• No results found

Niet alles over één kam scheren

N/A
N/A
Protected

Academic year: 2021

Share "Niet alles over één kam scheren"

Copied!
65
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Niet alles over één kam scheren

Een onderzoek naar de relatie tussen zegswijzen en tekstdomeinen

(2)

Inleiding

1 Uitgangspunten en onderzoeksvragen - Inleiding

1.1 Zegswijzen

1.2 Onderzoek naar zegswijzen en andere metaforische constructies 1.2.1 Literatuur en onderzoek buiten de informatiekunde

1.2.2 Literatuur en onderzoek binnen de informatiekunde 1.2.3 De rol van informatiekunde

1.3 Onderzoeksvragen 1.3.1 Kernvraag en deelvragen 1.3.2 Relevantie onderzoeksvragen 1.4 Rubricering 1.5 Onderzoeksgebied 2 Methodologie - Inleiding

2.1 Selectie van kranten en tijdschriften 2.2 Benoeming van domeinen

2.3 Selectie van zegswijzen 2.4 De mg_m_search-tool 3 Het script

- Inleiding

3.1 Acties van het script beschreven in hoofdlijnen 3.2 Acties van het script nader beschreven

3.2.1 Inlezen zegswijzen

3.2.2 Creatie datastructuur resultaten 3.2.3 Creatie datastructuur artikelinformatie 3.2.4 Uitvoer mg_m_search per zegswijze 3.2.5 Creatie resultaatweergave

4 Resultaten - Inleiding 4.1 De resultaten

4.2 Beantwoording onderzoeksvragen en suggesties voor vervolgonderzoek 4.2.1 Beantwoording deelvragen

4.2.2 Beantwoording kernvraag

5 Samenvatting resultaten en suggesties voor vervolgonderzoek

Bijlage 1

Scriptimplementatie

1 Implementatie Inlezen zegswijzen

2 Implementatie Creatie datastructuur resultaten 3 Implementatie Creatie datastructuur artikelinformatie 4 Implementatie Uitvoer mg_m_search per zegswijze 5 Implementatie Weergave resultaten

(3)

Inleiding

In alle talen ter wereld,dus ook inde Nederlandse taal, komen spreekwoorden, zegswijzen en andere uitdrukkingen voor. Ze hebben altijd een figuurlijke, metaforische betekenis.

Zegswijzen verschillen van spreekwoorden omdat ze als zin of deel van een zin een verschillende vorm kunnen hebben. Een zegswijze als 'met het verkeerde been uit bed stappen' bijvoorbeeld, kan, om maar één van de vele mogelijkheden te noemen, voorkomen als 'Marie was, zonder enige aanwijsbare oorzaak, met het verkeerde been uit bed gestapt.' Spreekwoorden als 'Oost west, thuis best' zijn daarentegen onveranderlijk.

Alleen al aan zegswijzen kent de Nederlandse taal (en alle andere talen) duizenden

uitdrukkingen. De titel van deze scriptie 'niet alles over één kam scheren' is er één van. Er zijn zegswijzen die al honderden jaren bestaan, er zijn er die geleidelijk verdwijnen en er komen elk jaar zegswijzen bij. Onder andere Johann Cruijff is een regelmatige leverancier: 'Je gaat het pas zien als je het door hebt'.

Door de digitalisering van grote hoeveelheden tekstverzamelingen hebben we als

informatiekundigen de mogelijkheid onderzoek te doen naar de soort en frequentie van deze uitdrukkingen. Dergelijk onderzoek kan van belang zijn voor wetenschappers van

verschillende disciplines: linguisten op zowel syntactisch als semantisch gebied, socio-linguisten en letterkundigen, maar ook communicatiedeskundigen en psychologen. Ook buiten de wetenschap is de belangstelling voor uitdrukkingen groot, zoals onder andere blijkt uit regelmatige publicaties hierover in het tijdschrift Onze Taal.

De laatste jaren is er onder andere binnen de communicatiekunde en de psychologie in toenemende mate belangstelling voor de functie van uitdrukkingen. Net als elke andere taaluiting kunnen uitdrukkingen immers effect hebben op de aantrekkelijkheid, de

begrijpelijkheid en de overtuigingskracht van teksten. Maatschappelijk gezien is dat onder andere van belang voor (politieke) toespraken, voorlichting en reclameboodschappen (commercieel of ideëel). Er is daarnaar al veel kwalitatief onderzoek verricht, kwantitatief onderzoek voor zover mij bekend nauwelijks.

Er is alle reden om het onderzoek naar de functie en het effect van uitdrukkingen te

ondersteunen met methoden en technieken die binnen de informatiekunde worden ontwikkeld. Door het onderzoeken en doorzoeken van omvangrijke databestanden kan veel meer feitelijke informatie worden verzameld dan binnen de merendeels kwalitatieve onderzoeken van andere wetenschappelijke disciplines mogelijk is.

Mijn onderzoek wil bouwstenen aandragen voor de in dit rapport geformuleerde overtuiging dat voor een goed begrip van zegswijzen onderzoek nodig is naar de relatie tussen zegswijzen en de semantische tekstcontext waarin ze gebruikt worden. Daarmee hoop ik duidelijk te maken dat zowel de zegswijzen als de tekstcontexten niet over één kam te scheren zijn. Dit onderzoeksrapport is als volgt opgebouwd. In hoofdstuk 1 geef ik een beschrijving van de onderzoeksvragen en de uitgangspunten die ik daarbij in acht genomen heb. In hoofdstuk 2 ga ik in op de door mij gebruikte methodologie, met onder andere een beschrijving van het corpus, een benoeming van de tekstdomeinen (de context) en mijn selectie van zegswijzen. In hoofdstuk 3 beschrijf ik het script dat ik voor mijn onderzoek heb gemaakt. De

scriptimplementatie is te vinden in bijlage 1. In hoofdstuk 4 geef ik antwoord op de

(4)
(5)

1 Uitgangspunten en onderzoeksvragen

In dit hoofdstuk bespreek ik mijn onderzoeksvraag en de daarbij gehanteerde uitgangspunten. In mijn onderzoek staat de taalvorm 'zegswijze' centraal. Omdat zegswijzen in de literatuur op verschillende wijzen worden omschreven, geef ik in paragraaf 1.1 eerst een definitie van dit begrip. In paragraaf 1.2 geef ik een kort overzicht van literatuur en onderzoek op gebied van zegswijzen. Daarbij maak ik onderscheid tussen onderzoek binnen en buiten de discipline informatiekunde. In paragraaf 1.3 presenteer ik mijn onderzoeksvragen, verdeeld in een kernvraag en deelvragen. Bovendien ga ik in deze paragraaf in op de relevantie van de onderzoeksvragen. In paragraaf 1.4 staat de ‘rubricering’centraal, één van de aspecten die komt kijken bij de beantwoording van de onderzoeksvragen. Hier wordt ingegaan op het probleem van een variabele en niet-eenduidige rubrieksclassificatie die wordt gehanteerd in de gedigitaliseerde kranten en tijdschriften waarin de zegswijzen in dit onderzoek worden vergeleken. Ten slotte geef ik in paragraaf 1.5 een beschrijving van het corpus dat ik voor dit onderzoek heb gebruikt, en de selectie van kranten en tijdschriften hieruit.

1.1 Zegswijzen

In de Nederlandse taal komen veel metaforische uitdrukkingen voor. Dit zijn min of meer vaste combinaties van woorden waarvan de combinatie een figuurlijke of metonymische betekenis heeft. Dit houdt in dat de betekenis niet wordt bepaald door de betekenis van elk van de woorden waaruit de constructie bestaat, maar door de combinatie als geheel, die als één betekenisdragend element kan worden beschouwd. Zo’n uitdrukking komt daardoor statistisch gezien frequenter voor dan je op basis van toeval zou kunnen verwachten. Uitdrukkingen worden doorgaans onderverdeeld in verschillende soorten zoals

spreekwoorden, zegswijzen en gezegdes. In de vakliteratuur wordt aan deze soorten echter niet altijd een eenduidige betekenis gegeven. Uitgeverij Van Dale gaf bijvoorbeeld in de periode 1999-2007 maar liefst drie boeken uit met verschillende titels voor een sterk vergelijkbare inhoud: Van Dale Idioomwoordenboek (1999), Van Dale Groot

Spreekwoordenboek (2000), en Van Dale Groot Uitdrukkingenwoordenboek (2006). Deze laatste uitgave is een herziening van de eerst genoemde uitgave. In het voorwoord van het Idioomwoordenboek geeft de inleider zonder omwegen toe dat de redactie zich niet heeft bekommerd om het verschil tussen de verschillende categorieën (spreekwoord, zegswijze, spreuk, gezegde, uitdrukking, frase en vergelijking). Als neutrale term koos de redactie voor 'uitdrukking'. Ook in onderzoek, bijvoorbeeld binnen de letterkunde en communicatiekunde, wordt aan de verschillende soorten uitdrukkingen niet altijd een eenduidige betekenis

gegeven.

Een mogelijke verklaring voor de niet-eenduidigheid is dat onderzoek en literatuur zich voornamelijk richten op de inhoudelijke aspecten van spreekwoorden en andere uitdrukkingen en veel minder, of in het geheel niet, om de vormaspecten. Maar wat de vorm betreft bestaan er wel degelijk grote verschillen. Het Genootschap Onze Taal1 zegt daarover het volgende:

"In het dagelijks taalgebruik worden deze termen vaak door elkaar gebruikt. In de inleiding van een van de gezaghebbendste spreekwoorden- en gezegdenboeken, Nederlandsche

spreekwoorden, spreekwijzen, uitdrukkingen en gezegden van F.A. Stoett, maakt de auteur

het onderstaande onderscheid, dat grotendeels ondersteund wordt door Van Dale (2005).

1

Het Genootschap Onze Taal is een erkend forum voor taalliefhebbers en taalkundigen. Het Genootschap geeft een tijdschrift uit en heeft een druk bezochte site met onder andere een taaladviesdienst. Ook heeft het

(6)

Kenmerkend voor een spreekwoord is de onveranderlijkheid van de formulering en de

woordkeus. Een spreekwoord heeft altijd de vorm van een mededelingszin (het is bijvoorbeeld geen vraag) met de persoonsvorm in de tegenwoordige tijd (als er een persoonsvorm

aanwezig is). Het is een uitspraak met een algemene levenswijsheid, een bevestiging van de orde der dingen: zo gaat het nu eenmaal in de wereld. Voorbeelden van spreekwoorden zijn: 'Na regen komt zonneschijn', 'Boontje komt om zijn loontje' en 'Oost west, thuis best.'

Een gezegde is een vaste verbinding van woorden met een figuurlijke betekenis, die geen werkwoord bevat en dus op zichzelf nooit een zin vormt. Bijvoorbeeld: met hart en ziel, een open deur, een vrolijke frans.

Er bestaat ook nog een derde categorie: de zegswijzen. Deze kunnen wel een zin vormen (in tegenstelling tot gezegden), en het onderwerp en de werkwoordstijd kunnen aangepast worden (dit in tegenstelling tot spreekwoorden). Een zegswijze is bijvoorbeeld 'Het loopt de spuigaten uit', of in 'aangepaste' vorm: 'Het lawaai liep de spuigaten uit.'

Ten slotte wordt ook uitdrukking veel gebruikt. Volgens Van Dale (2005) is dat een "vaste, idiomatische verbinding van woorden, met een figuurlijke of metonymische betekenis, bijvoorbeeld iemand van haver tot gort kennen". In de praktijk wordt uitdrukking als een soort algemeen, overkoepelend begrip gebruikt voor alle vaste verbindingen met een figuurlijke betekenis."

In mijn onderzoek beperk ik mij tot de zegswijzen in de Nederlandse taal. Enkele voorbeelden:

- de spuigaten uit lopen - uit de mouw schudden - in petto hebben

- het onderspit delven - in iets verzeild raken

Door het qua vorm niet-gefixeerde karakter is het uitdagend om ze in teksten als zodanig te identificeren. Ook is het interessant dat deze constructies ondanks hun metaforische karakter zeer gangbaar zijn in nagenoeg alle vormen van taalgebruik.

Definitie

Voor de definitie die ik binnen dit onderzoek hanteer, heb ik mij gebaseerd op de hierboven geciteerde beschrijving van het Genootschap Onze Taal.

Een zegswijze is een frequent gebruikte, min of meer vaste combinatie van woorden die een zin kan vormen. In de context van een zin is een zegswijze altijd verbonden aan een variabel onderwerp, en aan het in de zegswijze voorkomende werkwoord waarvan de tijd kan variëren. Bovendien kan de plaats van de delen van een zegswijze in de zin variëren. De constructie als geheel heeft altijd een figuurlijke betekenis.

Ter toelichting: een zegswijze bevat altijd een onveranderlijk en een veranderlijk deel. Onveranderlijk zijn één of meer voor een zegswijze kenmerkende woorden.

Voorbeeld onveranderlijk deel zegswijze

- Ik had nog een appeltje met hem te schillen - Ik had nog een peertje met hem te schillen * - Hij was over het paard getild

(7)

- De onderwijzer trok de teugels aan

- De onderwijzer hield de teugels stevig vast *

De mogelijkheden tot variëteit blijken uit de volgende voorbeelden van zegswijzen:

Variabel onderwerp: 'uit de mouw schudden'

- Ik schudde de voorbeelden moeiteloos uit de mouw

- De spreker schudde de voorbeelden moeiteloos uit de mouw - De studenten schudden de voorbeelden moeiteloos uit de mouw

Variabele werkwoordstijd: 'een appeltje te schillen hebben'

- Ik heb nog een appeltje met hem te schillen - Ik had nog een appeltje met hem te schillen

Variabele plaats in de zin: 'de beest uithangen'

- Hij hing de beest uit

- Hij hing voor de zoveelste keer de beest uit - Helaas heeft hij de beest weer eens uitgehangen - De beest uithangen, daar was hij goed in.

Constructie grammatica

Binnen de taalkunde hebben de door mij onderzochte zegswijzen de laatste jaren veel belangstelling. Binnen de theorie van de zogenoemde 'constructie grammatica' (construction grammar), worden vaste combinaties van een vorm en betekenis/functie, als de voornaamste bouwstenen van de grammatica gezien. Dat levert een benadering op waarbij niet de

afzonderlijke woorden, maar hele zinnen of zinsdelen centraal staan, zoals dat bij zegswijzen en andere uitdrukkingen het geval is.

1.2 Onderzoek naar zegswijzen en andere metaforische constructies

Zowel binnen informatiekunde als andere wetenschappelijke disciplines zoals letterkunde, communicatiekunde en psychologie, vindt onderzoek plaats naar zegswijzen en andere uitdrukkingen. Daarbij is een grote lijnen een tweedeling zichtbaar:

Informatiekunde voert vooral empirisch, kwantitatief onderzoek uit dat gericht is op de vormaspecten van uitdrukkingen. De overige disciplines richten zich meer op de betekenis van uitdrukkingen. Het onderzoek binnen die disciplines heeft een meer kwalitatief karakter. Om deze tweedeling te verduidelijken zal ik in deze paragraaf van zowel informatiekunde als van andere wetenschappelijke disciplines enkele voorbeelden geven van onderzoek en

literatuur op gebied van uitdrukkingen. Ten slotte geef ik aan welke rol informatiekunde bij verder onderzoek naar zegswijzen zou kunnen spelen.

1.2.1 Literatuur en onderzoek buiten de informatiekunde

Hier volgen enkele voorbeelden van literatuur en onderzoek naar uitdrukkingen binnen andere disciplines dan informatiekunde. Eerst bespreek ik het oudste standaardwerk over

(8)

Het standaardwerk van Stoett

In 1901 verscheen het boek Nederlandsche spreekwoorden, spreekwijzen, uitdrukkingen en

gezegden van de Nederlandse taalkundige F.A. Stoett. Tientallen jaren was dit het enige

standaardwerk over uitdrukkingen in de Nederlandse taal. Het doel van Stoett was tweeledig: 1) Het aanbieden van een grote verzameling 'spreekwijzen' en deze waar nodig verklaren, waarbij hij veel aandacht besteedde aan de etymologie. Volledigheid beoogde hij zeker niet. In zijn voorwoord zegt hij daarover:

“Het spreekwoordenboek, dat thans post multos casus gereed is, wil geen aanspraak maken

op den naam van volledig. Het is slechts een begin, waarop kan worden voortgebouwd en waaraan uit den aard der zaak veel moet ontbreken. Niemand gevoelt dit beter dan ik zelf, die nu het boek voor mij ligt, menig artikel zou kunnen uitbreiden of inlasschen. Waar onze taal duizenden uitdrukkingen en gezegden kent, is het wel niet doenlijk ze alle op te nemen.”

Ondanks de door Stoett genoemde 'onvolledigheid', beschrijft hij in zijn boek 2.688 spreekwoorden en andere uitdrukkingen.

2) Het beschrijven van de oudste vorm en betekenis van de uitdrukkingen was het tweede belangrijke doel van Stoett. En dat was nodig ook, schrijft hij in zijn voorwoord: “(...) om een einde te maken aan het onwetenschappelijk gegis, dat men vooral bij de verklaring van spreekwijzen nog zoo dikwijls aantreft.”

Stoett geeft in zijn boek geen enkele definitie van de verschillende soorten uitdrukkingen, en ook om de taalkundige verschijningsvormen bekommert hij zich niet. Enigszins verwonderlijk omdat een tweede standaardwerk van Stoett de syntaxis van het Middelnederlands tot

onderwerp had.2 In zijn standaardwerk over spreekwoorden en andere uitdrukkingen staat de betekenis volledig centraal. Hij geeft in zijn voorwoord aan waarom hij heeft gekozen voor een alfabetische ordening en niet voor een thematische:

“Natuurlijk zou het hoogst belangwekkend en leerzaam zijn alle uitdrukkingen, die ontleend

zijn aan het vroegere rechtswezen en het ridderwezen, aan bijgeloof en mythologie, aan sprookjes, fabels en tooneelstukken, aan oude zeden, gewoonten en gebruiken, aan den Bijbel en aan de klassieke en moderne litteratuur, aan het zeewezen en het soldatenleven, den landbouw en het dierenrijk, aan de school, de kerk en de geschiedenis, of die haar ontstaan te danken hebben aan volksscherts en volkshumor, overzichtig bij elkander geplaatst te zien, doch ik meende dat, de practische bezwaren daargelaten, aan eene dergelijke indeeling nog niet kon worden gedacht, zoolang er nog zooveel onbekend en twijfelachtig is.”

Thematisch gericht onderzoek

Het lijkt erop dat talloze onderzoekers zich de verzuchting van Stoett over de wenselijkheid van een thematische benadering ter harte hebben genomen en dat tot op de dag van vandaag. Een kleine zoektocht in het register van de Bibliografie van de Nederlandse Taal- en

Literatuurwetenschap (BNTL) levert een groot aantal publicaties op van thematisch gerichte onderzoeken naar spreekwoorden, zegswijzen en andere uitdrukkingen. Een kleine

bloemlezing van de gekozen thema's: honden, paard en ezel, vrouwen, de dood, dans en muziek, de duivel, geestelijke zaken. Ook de vele onderzoeken naar regionale uitdrukkingen zijn thematisch van opzet, met een bepaalde plaats of streek als thema. Verreweg de meeste

2

(9)

van deze onderzoeken hebben doelstellingen die sterk vergelijkbaar zijn met die van Stoett: het gaat de onderzoekers om het aanleggen van verzamelingen van uitdrukkingen, en om die waar nodig etymologisch te verklaren of duiden.

Functiegericht onderzoek

De laatste jaren is met name binnen de communicatiekunde in toenemende mate

belangstelling voor de functie van metaforisch taalgebruik. Daarbij gaat het om de vraag welk effect metaforisch taalgebruik op teksten heeft. Zijn teksten met zegswijzen en andere

uitdrukkingen aantrekkelijker, begrijpelijker, of overtuigender dan teksten waarin deze vormen niet voorkomen, of is juist het tegenovergestelde het geval? De bevindingen kunnen van groot belang zijn voor bijvoorbeeld reclameboodschappen en politieke of ideële

campagnes (gevaren van roken, alcohol, verkeerde voeding, enzovoort).

Het past niet binnen het kader van deze scriptie om uitgebreid in te gaan op de veelheid aan onderzoek op dit terrein. Ik volsta met op te merken dat er binnen het vakgebied

communicatiekunde geen communis opinio lijkt te zijn over de effecten van het gebruik van taalmetaforen, zoals blijkt uit een kleine zoektocht op internet naar recente onderzoeken. De conclusies van de onderzoeken lopen sterk uiteen. De effecten van taalmetaforen op de aantrekkelijkheid, begrijpelijkheid en overtuigingskracht variëren, afhankelijk van het

onderzoek, van positief of negatief tot neutraal. Opmerkelijk is wel dat een groot aantal tekst- en communicatieadviseurs hun opdrachtgevers op welke gronden dan ook, het gebruik van zegswijzen en andere figuurlijke uitdrukkingen in persuasieve teksten ontraadt, omdat het de begrijpelijkheid en daardoor ook de overtuigingskracht van de teksten in de weg zou staan. Ook de sociale psychologie heeft belangstelling voor de effecten van metaforisch taalgebruik. Als tegenwicht voor de nogal afwijzende houding uit de hoek van de communicatiekunde, geef ik hier een weergave van zes argumenten pro het gebruik van metaforen, zoals die zijn beschreven door Rene Huijsman in zijn publicatie 'Metaforen, de manier, of een manier naar overreding':

1 Pleasure or Relief

Voor het doorgronden van een metaforische uitdrukking is (soms) enige inspanning nodig. Maar als dat dan tóch lukt, veroorzaakt dat bij de lezer/luisteraar een zekere mate van ‘opluchting’ zodat deze de betekenis ervan beter begrijpt dan bij een omschrijving in ‘gewone’ taal.

2 Communicator Credibility

Een lezer/luisteraar heeft onbewust bewondering voor schrijvers/sprekers die met een treffend gekozen woordbeeld (de metafoor) een vergelijking weten te maken met de ‘werkelijkheid’. Daardoor vindt de lezer/luisteraar de betreffende schrijver/spreker, ook weer onbewust, geloofwaardiger.

3 Reduced Counterarguments

Het argument van de Reduced Counterarguments is strategisch van aard. Het begrijpen van een metafoor kost de lezer/luisteraar meer mentale energie dan voor een non-metaforische woordconstructie nodig is. Daardoor houdt deze minder mentale energie over om

(10)

4 Resource Matching

De term Resource matching is afkomstig uit de neuropsychologie. Voor het verwerken van metaforen is extra mentale capaciteit nodig (cognitieve elaboratie). Metaforen die als argument in persuasieve communicatie worden gebruikt, worden - na de verwerkingsfase - beter in het geheugen opgenomen.

5 Stimulated Elaboration

Metaforen kunnen zowel positieve als negatieve associaties oproepen. Een spreker/luisteraar kan daar in zijn argumentatie gebruik van maken door de lezer een bepaalde kant op te sturen. Een positief ‘geladen’ metafoor kleurt de ‘neutrale’ werkelijkheid in positieve richting; een negatief geladen metafoor beïnvloedt het zicht op de werkelijkheid in negatieve richting.

6 Superior Organization

Metaforen breiden het aantal semantische associaties in ons brein uit. Dat is ook het geval bij metaforen die als argument worden gebruikt. Door deze uitbreiding van de ‘semantische paden’ in ons brein, worden ze prominenter in het geheugen opgeslagen en daardoor beter onthouden en begrepen. De overtuigingskracht van degene die een metafoor gebruikt, neemt hierdoor toe.

1.2.2 Literatuur en onderzoek binnen de informatiekunde

Binnen de informatiekunde en daaraan verwante disciplines, wordt vooral empirisch

onderzoek verricht op het gebied van vormaspecten van metaforische constructies. Denk bij vormaspecten aan bijvoorbeeld frequentie van voorkomen, of aan (aspecten van) de

inhoudelijke structuur. De empirische benadering berust op de veronderstelling dat de kennis over een taal kan worden afgeleid uit het taalkundige bewijs dat wordt gevonden in grote hoeveelheden tekst.

Onderzoek Villada Moirón

Een voorbeeld van onderzoek op gebied van uitdrukkingen binnen de informatiekunde is het proefschriftonderzoek van Begoña Villada Moirón, Data-driven identification of fixed

expressions and their modifiability.3 Doel van haar onderzoek, dat zich richt op

Nederlandstalige collocationele voorzetselgroepen en hulpwerkwoordconstructies, is tweeledig:

1) Het zo accuraat mogelijk automatisch identificeren van uitdrukkingen. Op deze manier kunnen nieuwe uitdrukkingen worden toegevoegd aan ‘uitdrukkingswoordenboeken’, die worden gebruikt voor het zo volledig mogelijk in kaart brengen van het totaal aan

uitdrukkingen in het dagelijks taalgebruik. Daarbij worden de uitdrukkingen beschreven in termen van hun grammaticale structuur, en in hoeverre deze structuur aan variatie onderhevig is.

2) Het vaststellen in hoeverre de geïdentificeerde uitdrukkingen in het gebruik aan

grammaticale variatie onderhevig zijn. Als dit voor een uitdrukking is vastgesteld kan, in het woordenboek waaraan de betreffende uitdrukking is toegevoegd, een beschrijving voor die uitdrukking worden gegeven in termen van grammaticale modificeerbaarheid.

3

(11)

Zij voerde het onderzoek uit door middel van empirisch corpusonderzoek, waarbij ze zowel gebruik maakte van statistiek (co-occurrence en frequentie), als van grammaticale labels in de corpustekst.

Onderzoek Moon

Een ander onderzoeksvoorbeeld binnen de informatiekunde is het boek Fixed expressions and

idioms in English: a corpus-based approach van Rosamund Moon.4

Het betreft hier een kwantitatief tekst-gebaseerd onderzoek naar 6776 FEI's (Fixed

expressions and idioms) in twee corpora van respectievelijk 18 en 323 miljoen woorden. De aanpak van Moon is puur descriptief. Ze geeft een uitvoerige beschrijving van de

grammaticale verschijningsvormen en het gebruik van de FEI's, maar doet geen uitspraken over de communicatieve effecten van de door haar onderzochte uitdrukkingen. Eén van haar stellingen is dat de betekenis en het effect van uitdrukkingen alleen te achterhalen is als ze worden geanalyseerd in de tekst-context waarin ze voorkomen. Moon merkt op dat het bestuderen van uitdrukkingen in hun natuurlijke context vragen doet rijzen over veel bestaande ideeën over uitdrukkingen, en beveelt daarom een meer gebruiks/context-gecentreerde benadering aan.

1.2.3 De rol van informatiekunde

Zoals ik hiervoor heb aangegeven is het onderzoek naar zegswijzen en andere uitdrukkingen binnen disciplines als letterkunde, communicatiekunde en psychologie grotendeels

kwalitatief. Het ontbreken van een communis opinio over het effect van uitdrukkingen kan onder andere worden veroorzaakt door de geringe hoeveelheid kwantitatief onderzoek, zoals dat bijvoorbeeld door Villada Moirón en Moon is uitgevoerd.

Naar mijn mening kan informatiekunde op verschillende manieren bijdragen aan verder onderzoek naar uitdrukkingen, onder andere ten dienste van de al genoemde

wetenschappelijke disciplines. Enkele voorbeelden:

1 Kwantitatief onderzoek zou niet alleen nieuwe uitdrukkingen kunnen signaleren (zoals bij Villada Moirón), maar ook kunnen aangeven welke uitdrukkingen er geleidelijk verdwijnen of (syntactisch of semantisch) veranderen.

2 Kwantitatief onderzoek zou kunnen helpen bij het bestuderen van effecten van het gebruik van uitdrukkingen. Bijvoorbeeld: hoe vaak komen zegswijzen voor in respectievelijk

informatieve en persuasieve teksten? De hoogte van de frequentie zou namelijk effect kunnen hebben op de aantrekkelijkheid, de begrijpelijkheid en de overtuigingskracht van teksten. 3 Kwantitatief onderzoek zou de frequentie van uitdrukkingen in respectievelijk mondeling en schriftelijk (of digitaal) taalgebruik kunnen vergelijken.

4 Kwantitatief onderzoek zou (conform Moon) de relatie tussen uitdrukkingen en tekstcontext kunnen helpen duiden.

5 Kwantitatief onderzoek kan gebruikt worden om de betekenis van variabele uitdrukkingen te bestuderen.

6 Kwantitatief onderzoek naar uitdrukkingen kan gebruikt worden om taalkundige theorieën op de proef te stellen (construction grammar).

4

(12)

1.3 Onderzoeksvragen

In paragraaf 1.3.1 presenteer ik de kernvraag en deelvragen van mijn onderzoek. Vervolgens geef ik in paragraaf 1.3.2 de relevantie van mijn onderzoek aan.

1.3.1 Kernvraag en deelvragen Kernvraag

Heeft de context invloed op zegswijzen? Met context wordt hier bedoeld: semantisch te onderscheiden domeinen in artikelen5 in kranten en tijdschriften.

Ik probeer deze vraag te beantwoorden door de frequentie van zegswijzen te vergelijken binnen drie verschillende semantische domeinen in kranten- en tijdschriftartikelen uit het Twente Nieuwscorpus. Dat wil zeggen het domein Cultuur, het domein Wetenschap en economie, en het domein Oorlog en criminaliteit. In paragraaf 2.2 komt aan de orde hoe ik deze drie domeinen heb samengesteld.

Deelvragen

1 Bestaan er, tussen de domeinen, significante verschillen in het totale aantal zegswijzen? 2 Hoe verhouden de drie domeinen zich tot elkaar wat betreft de distributie van de zegswijzenfrequenties?

3 Zijn er, per domein, zegswijzen die voor dit domein kenmerkend genoemd kunnen worden gezien hun relatief hoge frequentie?

Een voorzichtige verwachting is dat binnen het domein Cultuur meer zegswijzen worden gebruikt dan in de overige twee domeinen. De inhoud van artikelen op dit gebied leent zich doorgaans meer voor beeldend, of speels taalgebruik.

1.3.2 Relevantie onderzoeksvragen

Mijn onderzoek is te zien als een eerste bescheiden stap in de richting van het door Moon voorgestelde gebruiks/contextgerichte onderzoek. Hoewel zegswijzen zeer gangbaar zijn in gesproken en geschreven taal, is er nog weinig empirisch onderzoek verricht naar het gebruik van zegswijzen in relatie tot de context van een tekst. De tekstcontext wordt bepaald door de inhoud, het doel en het gebruik van een tekst. Een literaire tekst is bijvoorbeeld niet te vergelijken met een juridische tekst. Ook als teksten inhoudelijk gezien over hetzelfde onderwerp gaan, kan de context van die teksten verschillen. Een medisch handboek over suikerziekte is iets anders dan een bijsluiter over medicijnen tegen suikerziekte. Hier verschilt zowel het doel als het gebruik.

De tekstcontext van de artikelen in de door mij onderzochte kranten en tijdschriften, is

inhoudelijk gezien zeer gevarieerd: duizenden onderwerpen worden erin beschreven. Het doel van de artikelen is in hoofdlijnen te karakteriseren als informatief, hoewel sommige artikelen ook persuasief bedoeld zijn. Alle artikelen zijn wat het gebruik betreft bedoeld om een groot publiek te informeren, te amuseren of te overtuigen.

De resultaten van mijn onderzoek kunnen een beeld geven van hoe, per domein, de zegswijzefrequenties zich tot elkaar verhouden. De resultaten van mijn onderzoek kunnen

5

(13)

bovendien duidelijk maken óf en in welke mate de tekstcontext van invloed is op de

frequentie van het gebruik van zegswijzen. Mijn onderzoek kan hierdoor een aanzet zijn voor nader contextgericht onderzoek binnen bijvoorbeeld taalkunde, communicatiekunde,

etymologie, of psychologie. Er kunnen dan op steviger gronden uitspraken worden gedaan over onder andere het effect van zegswijzen.

De interpretatie van de uitkomsten in termen van functionaliteit vallen buiten mijn onderzoek. De beoordeling van de effectiviteit van uitdrukkingen op bijvoorbeeld de aantrekkelijkheid, begrijpelijkheid en overtuigingskracht van de teksten valt buiten het vakgebied van de informatiekunde.

1.4 Rubricering

De artikelen in kranten en tijdschriften zijn inhoudelijk gezien altijd thematisch

onderverdeeld. De Volkskrant van 2011 heeft bijvoorbeeld door de week twee katernen: een nieuwskatern, en een op 'human interest' gericht V-katern. Het nieuwskatern is onderverdeeld in de rubriek ‘Ten eerste’ (met het belangrijkste nieuws) en daaropvolgend de rubrieken ‘Binnenland’, ‘Buitenland’, ‘Opinie en debat’, ‘Economie’, en ‘Sport’. Het V-katern heeft per dag wisselende rubrieken zoals kunst, media, eten, wonen, film, leven, mode, fotografie, theater en televisie. De zaterdageditie heeft een eigen ordening bestaande uit thematische katernen, die weer zijn onderverdeeld in vele subrubrieken. Andere kranten, maar ook tijdschriften, hebben een eigen, maar vergelijkbare indeling van het nieuws en de andere informatie.

Een artikel over welk onderwerp dan ook wordt in een krant lang niet altijd met een eenduidige rubrieksnaam aangeduid. Denk aan een artikel over voetbal dat kan zijn

gerubriceerd als ‘sport’, ‘voetbal’, ‘uitslagen’, ‘sportnieuws’, enzovoort. Bovendien wordt een rubriek regelmatig met meer dan één rubrieksterm aangeduid, denk bijvoorbeeld aan de termreeks ‘sport - spel - vermaak’.

Voor dit onderzoek heb ik een aantal Nederlandstalige kranten en tijdschriften in beschouwing genomen, waarvan de tekstinhoud is vastgelegd in xml-bestanden.

De rubricering die binnen elk van de xml-bestanden wordt gehanteerd, wijkt af van de zojuist beschreven papieren en via internet beschikbare edities van diezelfde kranten en tijdschriften. De door mij gebruikte xml-bestanden, inclusief de daarin gehanteerde tag-structuur, zal ik in paragraaf 1.5 nader toelichten.

Ondanks de variabiliteit, zowel binnen de publieksedities als binnen de xml-bestanden, is het mogelijk om een lijn te zien in de rubrieksclassificatie: verschillende rubriekstermen die worden gebruikt, zijn vaak te reduceren tot een bepaald semantisch ‘gebied’, dat met één term kan worden aangeduid. Onder dat gebied kunnen dan meerdere termen vallen die semantisch gezien aan elkaar verwant zijn. Om dit te verduidelijken: onder het gebied ‘Cultuur’ kunnen semantisch gezien onder andere de volgende termen vallen: kunst, cultuur, dans, theater, film, literatuur, fictie, museum/musea.

(14)

De (rubrieks-) termen die ik onder elk van deze domeinen laat vallen kunnen weer worden beschouwd als 'deeldomeinen': onder bijvoorbeeld de term ‘sport’ die onder het domein Cultuur valt, vallen rubrieken over voetbal, tennis, zwemmen, enzovoort.

Een verantwoording van de keuze van deze drie domeinen en een beschrijving van de daarbij behorende (deel-) termen behandel ik in paragraaf 2.2.

1.5 Onderzoeksgebied

Voor het beantwoorden van de onderzoeksvraag heb ik artikelen uit kranten en tijdschrifen uit het Twente Nieuws Corpus6 (TwNC) geanalyseerd. Het TwNC is een database met

nieuwsgerelateerd tekstmateriaal. Een groot deel van dit corpus bestaat uit krantenteksten van verschillende Nederlandse dagbladen en tijdschriften. Het corpus bevat daarnaast online krantenmateriaal van het WWW, en teletekst ondertiteling van NOS Acht Uur Journaals en actualiteitenrubrieken zoals 2Vandaag en NOVA. Al het tekstmateriaal is afkomstig uit de periode 1994 tot en met 2005, en is opgeslagen in de vorm van xml-bestanden.

Hier volgt een overzicht van (de bronnen van) al het corpusmateriaal:

Kranten -Volkskrant -NRC Handelsblad -Parool -Trouw -Algemeen Dagblad -Dordtsch Dagblad Tijdschriften -Elsevier -Groene Amsterdammer -HP de Tijd -Vrij Nederland Autocues

- Autocues van het 8 uur journaal

Teletekst

-Teletekst van het 8 uur Journaal -Teletekst van NOVA

-Teletekst van 2Vandaag

(15)

Voor mijn onderzoek heb ik alle bestanden in beschouwing genomen die tot de bron ‘kranten’7 en ‘tijdschriften’ worden gerekend.

De kranten en tijdschriften hebben doorgaans bestandsnamen waarin de naam van de krant/het tijdschrift voorkomt, en de datum in de volgorde jaar, maand, dag. Bijvoorbeeld: - Volkskrant19991126.xml - Volkskrant19991127.xml - Trouw19990430.xml - Trouw19990501.xml - hpt19991015.xml - hpt19991022.xml

Elk bestand bevat meerdere artikelen, die elk tot een bepaalde rubriek zijn geclassificeerd die is aangeduid aan de hand van een term of een 'termreeks'. Een artikel over een film kan bijvoorbeeld geclassificeerd zijn aan de hand van de enkele term ‘film’, of de termreeks ‘film - vermaak - cultuur - media - televisie’. Een artikel kan tot één van de drie samengestelde domeinen worden gerekend als ten minste een bepaald percentage van de rubriekstermen van dat artikel correspondeert met de termen van dat samengestelde domein. Zie bijlage 1,

paragraaf 3 voor verdere details over dit criterium. Elk van de artikelen bevat, naast de rubriek van dat artikel, gegevens als de datum van het artikel en de auteursnaam.

Tag-structuur

Omdat het om xml-bestanden gaat, is de tekstuele bestandsinhoud aan de hand van xml-tags gestructureerd. Elk bestand is globaal gezien op de volgende manier opgebouwd:

De root-tag is een ‘kranten’-tag met als attribuutwaarde de krantnaam. Hierbinnen komen meerdere ‘artikel’-tags voor, die de artikelen in die krant representeren. Binnen elk van die artikel-tags komen (als siblings) de volgende child-tags voor:

- de ‘dat’-tag, met als attribuutwaarde de datum van het artikel

- meerdere ‘p’(paragraaf)-tags. Elke p-tag bevat als inhoud één van de regels van dat artikel. Het kan daarbij overigens ook om de titelregel gaan.

- een ‘htr’- en/of ‘ru’-tag. Elk van deze tags representeert de rubriek(en) waartoe het artikel in die krant/dat tijdschrift wordt gerekend. Zowel de htr- als de ru-tag bevat als inhoud een term of termreeks. Een voorbeeld: <kranten name="Algemeen_Dagblad"> <artikel> <dat>19940226</dat> <ti>

<p>Zonnebril moet beter zicht geven</p> </ti>

<le>

<p>HEEMSTEDE - De Amerikaanse fabrikant Bausch &amp; Lomb heeft een nieuw soort zonnebril ontwikkeld die automobilisten een beter zicht op de weg geeft.</p>

</le> <te>

<p>artikeltekst-regel</p>

7

(16)

<p>artikeltekst-regel</p> .

. </te>

<htr>delicten; recht; criminaliteit; taxivervoer; verkeer en vervoer; openbaar vervoer</htr> <ru>wetenschap</ru> </artikel> . . </kranten>

Overige child-tags binnen de artikel-tag, zoals die voor de auteur-, dag- en id van het artikel, heb ik bij de beschrijving van de tag-structuur buiten beschouwing gelaten. Dit omdat die overige tags inhoudelijk gezien niet relevant zijn voor dit onderzoek.

De volgende gegevens zijn relevant voor mijn onderzoek. Voor elk artikel: - de artikeltekst. Hierin wordt gezocht naar voorkomens van zegswijzen.

- de rubriekstermen. Als bijvoorbeeld in artikel X een voor dit onderzoek in beschouwing genomen zegswijze Y voorkomt, moet aan de hand van de rubriekstermen van artikel X worden nagegaan of artikel X tot (tenminste) één van de drie samengestelde domeinen kan worden gerekend en zo ja, welke. Wordt artikel X bijvoorbeeld tot het domein Cultuur gerekend, dan kan vervolgens de score van zegswijze Y binnen domein Cultuur worden opgehoogd met 1.

- de datum, de krantnaam, het artikelnummer, en de naam van het bestand waarin het artikel voorkomt. Deze gegevens zijn noodzakelijk voor het zoek-proces. Zie voor verdere details bijlage 1, paragraaf 3.

Inhoudelijk zijn de bestanden op een dusdanig uniforme manier gestructureerd, dat dit een uniforme methodologie voor de gegevensextractie mogelijk maakt.

Aantal woorden en artikelen

Voor de volledigheid volgt hier een weergave, in de vorm van tabellen, van het aantal woorden en het aantal artikelen per domein. De eerste tabel geeft daarbij het totale aantal woorden en het totale aantal artikelen weer voor elk van de drie domeinen, en voor het totaal aan domeinen. De tweede tabel geeft daarbij het aantal en percentage artikelen/woorden weer dat tot tenminste één van de drie domeinen is geclassificeerd, versus het aantal en percentage artikelen/woorden dat tot geen van de drie domeinen is geclassificeerd.

(17)

Afb 1: Aantal woorden en artikelen per domein

D1 D2 D3 Totaal domeinen

Aantal artikelen 156.618 82.148 227.155 465.921 Aantal woorden 53.987.778 24.812.833 90.203.522 1.690.041.33

Afb 2: Aantal/percentage artikelen en woorden behorend tot één van de drie domeinen Van D1, D2 of D3 Niet van D1, D2 of D3 Totaal

(18)

2 Methodologie

In dit hoofdstuk geef ik aan welke stappen ik heb gezet voor de beantwoording van de onderzoeksvraag. Dat wil zeggen: de selectie van kranten en tijdschriften (paragraaf 2.1), de benoeming van domeinen (paragraaf 2.2), en de selectie van zegswijzen (paragraaf 2.3). 2.1 Selectie van kranten en tijdschriften

Van het TwNC nam ik de kranten en tijdschriften in beschouwing, omdat de artikelen daarvan consistent tot één of meer rubrieken zijn geclassificeerd, wat vergelijking van zegswijzen tussen domeinen mogelijk maakt.

2.2 Benoeming van domeinen

Ik stelde drie domeinen samen voor vergelijking van zegswijzen: 1 Cultuur

2 Wetenschap en economie 3 Oorlog en criminaliteit

Deze drie domeinen zijn niet met eenduidige criteria van elkaar te onderscheiden. Toch nemen ze in kranten en tijdschriften een vaste, vaak voor de lezer herkenbare plaats in, zelfs zonder dat de door mij gekozen trefwoorden voor de domeinen zijn genoemd. Een

voorzichtige verwachting is dat binnen het domein Cultuur de meeste zegswijzen voorkomen. Het gaat hier vaak om artikelen met een zekere amusementswaarde. Het laagste aantal

zegswijzen zou ik verwachten bij de vaak meer zakelijke artikelen uit de domeinen Wetenschap en economie en Oorlog en criminaliteit.

Elk van deze drie domeinen is samengesteld, dat wil zeggen dat het domein uit meerdere semantisch gerelateerde termen bestaat. Elk van de termen van een domein komt als rubrieksterm relatief frequent voor in het corpus.

Hier volgt een overzicht van de termen die onder elk van de drie domeinen vallen.

Domein 1: Cultuur

Film, muziek, literatuur, kunst, cultuur, pop, televisie/tv, media, boek, theater, dans, spel, sport, omroep, fictie, museum/musea

Domein 2: Wetenschap en economie

Industrie, techniek, wetenschap, bedrijf/bedrijven, economie, financiën, politiek, macht, betrekkingen, partij, bank, verzekering, handel, regering

Domein 3: Oorlog en criminaliteit

Terrorisme, moord, delict, criminaliteit, (on)recht, conflict, onrust, fraude, corruptie, geweld, oorlog, misdaad/misdaden, wapen(s)

Bij het bepalen van de termen die onder elk domein vallen, ging ik als volgt te werk:

Voor elk van de domeinen stelde ik een lijst samen van tussende 13 en 16 daaronder vallende termen. In elk van de drie domein-termreeksen moest tenminste tachtig procent van de termen aan de volgende voorwaarde voldoen: de term komt met een absolute frequentie van

(19)

voorwaarde is de som van de termfrequenties voor elk van de drie domeinen in grote lijnen gelijk: deze ligt steeds ongeveer tussen de 50.000 en 70.000.

Om bovenstaande voorwaarde voor de termfrequentie te laten gelden, ben ik op de volgende manier te werk gegaan. Met de benodigde Unix commando’s creëerde ik een lijst bestaande uit alle htr- en ru-tags, met inhoud, van het corpus. In deze lijst werd bij elke tag (één tag per regel) de absolute frequentie van die tag vermeld. De tags stonden daarbij in aflopende

volgorde van frequentie (hogere frequenties bovenaan, lagere frequenties daaronder). Op deze manier kon ik voor elk van de termen bepalen of de frequentie ervan voldeed aan het

criterium. De term voldeed als de tag waarbinnen de term voorkwam een absolute frequentie had van tenminste 1000, of als de som van de frequenties van de tags waarbinnen de term voorkwam tenminste 1000 bedroeg. Aangezien ik voor elk van de drie domeinen een groot aantal termen als mogelijke kandidaat had geselecteerd, bleven er steeds genoeg termen over die aan de voorwaarde voldeden.

2.3 Selectie van zegswijzen

Ik creëerde een lijst met zegswijzen, zodat per zegswijze uit die lijst kan worden nagegaan hoe frequent deze voorkomt binnen elk van de drie domeinen. Met deze informatie kan uiteindelijk de onderzoeksvraag worden beantwoord.

Eerst volgt een beschrijving van de criteria aan de hand waarvan ik de zegswijzen selecteerde. Vervolgens geef ik een verwijzing naar de lijst van zegswijzen die ik heb samengesteld aan de hand van deze criteria, en die ik voor dit onderzoek heb gebruikt.

Selectiecriteria

Alle zegswijzen moesten voldoen aan de door mij in paragraaf 1.1 gedefinieerde definitie. Dat wil zeggen:

- De woordsamenstelling bevat een onderwerp, bijvoorbeeld ‘het’ in ‘het loopt de spuigaten uit’. Dit onderwerp is variabel: het loopt de spuigaten uit versus dat loopt de spuigaten uit, enzovoort.

- De woordsamenstelling bevat een werkwoord, bijvoorbeeld ‘loopt’ in ‘het loopt de

spuigaten uit’. De tijdsvorm van dit werkwoord is variabel: het loopt de spuigaten uit versus het liep de spuigaten uit, enzovoort.

- De woordsamenstelling bevat een (voor die zegswijze) kenmerkend woord, bijvoorbeeld ‘spuigaten’ in ‘het loopt de spuigaten uit’, of ‘hoofd’ inv ‘hij ziet iets over het hoofd’. - De delen van de woordsamenstelling kunnen een variabele plaats in de zin innemen. Volgens deze criteria heb ik at random een lijst met 250 zegswijzen samengesteld. Daarbij heb ik gebruik gemaakt van het standaardwerk van Stoett en van de

(20)

2.4 De mg_m_search-tool

Om de gebruiksfrequentie van zegswijzen te kunnen vergelijken tussen rubrieksdomeinen creëerde ik een script dat, binnen de artikeltekst van elk van de door mij samengestelde domeinen, naar voorkomens zoekt van zegswijzen en de frequentie ervan bijhoudt. Dit script wordt besproken in het hoofdstuk 3.

De tool die binnen dit script wordt gebruikt om naar voorkomens van zegswijzen te zoeken, is mg_m_search.8

Mg_m_search

De mg_m_search-tool kan, in de vorm van een unix-commando, worden gebruikt voor het vinden van tekstpatronen aan de hand van syntactische informatie. Met de tool kan

bijvoorbeeld worden gezocht naar woordconstructies die een bepaald zelfstandig naamwoord bevatten, in combinatie met een bepaald werkwoord dat zowel mag variëren in tijd ('loop' versus 'liep') als in getal (enkelvoud of meervoud), bijvoorbeeld 'lopen' versus 'loop(t)'. De artikeltekst van het TwNC is, aan de hand van de Alpino9 dependency parser, voorzien van grammaticale labels. Hierdoor bevat de tekst syntactische informatie, aan de hand waarvan mg_m_search kan worden gebruikt voor het zoeken naar zegswijzen, die zijn te identificeren aan de hand van gegeven syntactische criteria.

Deze criteria worden aan de tool ‘meegegeven’ aan de hand van een Xpath10 query: aan de hand van het statement ./mg_m_search spuigaten -s '//node[@root="loop_uit"]' kan

bijvoorbeeld worden gezocht naar zinnen die het zelfstandig naamwoord ‘spuigaten’ bevatten en daarbij een vorm van het werkwoord ‘uitlopen’.

Ik gaf de voorkeur aan mg_m_search voor het zoeken naar voorkomens van zegswijzen, omdat deze tool in staat is om te zoeken naar syntactische patronen, waarbij de vorm van bepaalde elementen mag variëren. Van de zegswijze ‘ergens in verzeild raken’ bijvoorbeeld, vindt mg_m_search alle verschillende vormen waarbij de verschillen worden veroorzaakt door variatie in onderwerp, werkwoordsvorm en woordvolgorde. Bijvoorbeeld: 'ik raak ergens in verzeild' versus 'wij raakten ergens in verzeild' (verschillen in onderwerp en

werkwoordsvorm) versus 'Jan was daar in verzeild geraakt' (andere woordvolgorde). Niet-syntactische zoekmethoden die meer (alleen) woordgericht zijn, zouden door de variabiliteit in onderwerp, werkwoord, en woordvolgorde waarschijnlijk meer zegswijzen over het hoofd zien.

(21)

3 Het script

In dit hoofdstuk bespreek ik het script, aan de hand waarvan naar zegswijzen wordt gezocht in elk van de drie domeinen.

In paragraaf 3.1 bespreek ik de acties van het script in hoofdlijnen. In paragraaf 3.2 wordt elk van deze acties nader beschreven: het inlezen van de zegswijzen (paragraaf 3.2.1), de creatie van een datastructuur voor de resultaten (paragraaf 3.2.2), de creatie van een datastructuur voor de artikelinformatie (paragraaf 3.2.3), de uitvoer van mg_m_search per zegswijze (paragraaf 3.2.4), en de creatie van de resultaatweergave (paragraaf 3.2.5). De technische details heb ik zoveel mogelijk buiten beschouwing gelaten. Op deze manier kan de lezer die niet met programmeren bekend is ook volgen hoe het script te werk gaat. Om dezelfde reden heb ik de scriptimplementatie in een bijlage weergegeven (Bijlage 1).

3.1 Acties van het script beschreven in hoofdlijnen

Om tot een beantwoording te komen van mijn vraagstelling, heb ik een Perl11 script gecreëerd, aan de hand waarvan wordt berekend wat de frequentie is van elke zegswijze binnen elk van de drie domeinen. Ik gebruikte Perl als programmeertaal omdat deze scripttaal uitgebreide mogelijkheden bezit op met name het gebied van reguliere expressies, die ik bij het analyseren van de corpustekst vaak gebruikte.

Hier volgt een uiteenzetting van de werkwijze die in het script wordt gehanteerd om per domein de zegswijzefrequenties te berekenen.

1) De zegswijzenlijst wordt ingelezen. Van elke ingelezen zegswijze X worden alle voorkomens12 gezocht in de corpusartikelen.

2) Voor elk voorkomen van zegswijze X gaat het script na of het artikel waarin X voorkomt tot ten minste één van de drie domeinen kan worden gerekend. Als dit het geval is, wordt voor elk domein D waartoe het artikel behoort de volgende actie uitgevoerd:

Verhoog de score voor zegswijze X in domein D met 1. De scorestructuur die zo ontstaat heeft de volgende vorm:

Score zegswijze1 in DomeinA: <score> Score zegswijze1 in DomeinB: <score> Score zegswijze1 in DomeinC: <score> Score zegswijze2 in DomeinA: <score> Score zegswijze2 in DomeinB: <score> Score zegswijze2 in DomeinC: <score> .

.

3) Als alle zegswijzen op deze manier in beschouwing zijn genomen, genereert het script een overzicht van de resultaten: per zegswijze wordt de genormaliseerde frequentie weergegeven van die zegswijze binnen elk van de drie domeinen. Daarbij wordt de frequentie van domein A en domein B van alle mogelijke domeinenpaar-combinaties steeds naast elkaar

gepresenteerd, waarbij het significantieniveau van het frequentieverschil tussen domein A en

11

http://www.perl.org/

12

(22)

domein B zichtbaar is. Hierdoor ontstaat ook een goed beeld van hoe de domeinen zich tot elkaar verhouden.

Het script geeft de genormaliseerde frequentie weer in plaats van de absolute frequentie, omdat de hoeveelheid artikelen of woorden per domein sterk kan verschillen. Normalisatie, dat wordt gebruikt bij vergelijking van subcorpora, kan deze verschillen ‘vereffenen’. De invloed van de verschillen op het vergelijkingsresultaat wordt dan zoveel mogelijk geminimaliseerd.

3.2 Acties van het script nader beschreven 3.2.1 Inlezen zegswijzen

De in beschouwing te nemen zegswijzen bevinden zich in een aparte file, die door het script wordt ingelezen. Het script slaat de ingelezen zegswijzen op in een daartoe bestemde

structuur.

3.2.2 Creatie datastructuur resultaten

Het script creëert een datastructuur die de uiteindelijke resultaten zal bevatten: voor elk van de drie domeinen wordt aangegeven wat binnen dit domein de absolute freqentie van

voorkomen is (in het subcorpus van artikelen die tot dit domein zijn geclassificeerd) van elk van de ingelezen zegswijzen.

De structuur is als volgt opgebouwd:

Domein ‘Wetenschap en economie’ => <frequentie zegswijze1>, <frequentie zegswijze2> … Domein ‘Oorlog en criminaliteit’ => <frequentie zegswijze1>, <frequentie zegswijze2> … Domein ‘Cultuur’ => <frequentie zegswijze1>, <frequentie zegswijze2> … Elk domein komt in de structuur dus uit op de absolute frequentie van achtereenvolgens alle ingelezen zegswijzen. De eerste absolute frequentie waar elk domein op uitkomt

correspondeert met de (locatie van de) eerste zegswijze uit de lijst met ingelezen zegswijzen, de tweede absolute frequentie met de tweede zegswijze uit die lijst, enzovoort. Zo is steeds te achterhalen op welke zegswijze elke frequentie uit de resultatenstructuur betrekking heeft. Alle zegswijzefrequenties van de resultatenstructuur krijgen de waarde ‘0’ als beginwaarde. Deze waarden worden gaandeweg opgehoogd, als binnen de artikeltekst van het corpus voorkomens worden gevonden van de ingelezen zegswijzen. Als bijvoorbeeld de vijfde ingelezen zegswijze is gevonden in een artikel dat tot domein X behoort, wordt de vijfde op domein X uitkomende frequentie verhoogd met 1 (frequentie = frequentie + 1).

3.2.3 Creatie datastructuur artikelinformatie

Het script creëert een datastructuur die informatie zal bevatten over de corpusartikelen. In deze structuur is elk corpusjaar opgedeeld in elk van de twaalf maanden. Elke combinatie corpusjaarX-maandY komt uit op een daarmee corresponderende verzameling

informatieregels: per corpusartikel van jaarX-maandY een informatieregel. Elke

informatieregel bevat gegevens over dat artikel zoals krantnaam, datum, en domein(en) waartoe het artikel is geclassificeerd.

(23)

Vervolgens wordt een apart script uitgevoerd dat, als output, voor elk corpusartikel één informatieregel genereert. Dat wil zeggen één regel per artikel. Een regel kan niet betrekking hebben op meer dan één artikel.

De door het script gegenereerde informatieregels worden ten slotte ondergebracht in de datastructuur voor de artikelinformatie, geordend op basis van de jaar-maand combinatie. Elk van deze drie stappen wordt nu achtereenvolgens beschreven.

Stap 1: Creatie structuur exclusief artikelinformatie De structuur die wordt gecreëerd is als volgt opgebouwd:

JaarX =>

Maand1 binnen jaarX => verzameling informatieregels van corpusartikelen van maand1 binnen jaarX

Maand2 binnen jaarX => verzameling informatieregels van corpusartikelen van maand2 binnen jaarX

. .

Maand12 binnen jaarX => verzameling informatieregels van corpusartikelen van maand12 binnen jaarX

JaarY =>

Maand1 binnen jaarY => verzameling informatieregels van corpusartikelen van maand1 binnen jaarY

Maand2 binnen jaarY => verzameling informatieregels van corpusartikelen van maand2 binnen jaarY

. .

Maand12 binnen jaarY => verzameling informatieregels van corpusartikelen van maand12 binnen jaarY

. .

De informatieregels die uitkomen op elke jaar-maand combinatie zijn daarin nog niet ondergebracht.

Stap 2: Verkrijgen artikelinformatie

Het script dat per corpusartikel een informatieregel genereert, wordt nu uitgevoerd. Hier volgen de handelingen die dit script daartoe achtereenvolgens uitvoert.

1) De inhoud van elk van de corpusbestanden wordt ingelezen

2) Van elk ingelezen corpusbestand worden alle artikelen in beschouwing genomen (in volgorde van voorkomen)

3) Per artikel wordt een informatieregel geprint, die de gegevens bevat over dat artikel:

(24)

domein ‘Wetenschap en economie’ | artikel behoort wel/niet tot domein ‘Oorlog en criminaliteit’].

Voor artikelen die niet tot één van de drie domeinen zijn geclassificeerd, wordt geen informatieregel geprint.

De meeste gegevens in de informatieregel kunnen binnen het artikel worden afgeleid uit tags, zoals die voor de artikeldatum. Voor de domeingegevens (artikel behoort wel/niet tot domein Cultuur, wel/niet tot domein Wetenschap en economie, wel/niet tot domein Oorlog en

criminaliteit) wordt een wat uitgebreidere methode gehanteerd. De stappen die deze methode volgt komen nu achtereenvolgens aan bod:

- De krantenrubriek van het artikel wordt vastgelegd. Deze wordt vaak, binnen het artikel, aan de hand van een termreeks aangeduid: de rubriekstermen. Voorbeeld: ‘kunst; cultuur; dans en theater; film’.

- Per rubrieksterm gaat het script naof deze correspondeert met termen uit de drie vooraf vastgelegde domein-termreeksen.13 Als tenminste 50% van de rubriekstermen als term correspondeert14 met termen uit één van de drie domein-termreeksen X, dan wordt het artikel tot domein X geclassificeerd. Dit wordt dan weergegeven in de informatieregel.

Ik hield een 50%-grens aan, omdat bij een lagere grens (bijvoorbeeld 30%) een artikel al gauw te snel tot een domein wordt gerekend; de kans dat een klein percentage van de

rubriekstermen correspondeert met de vooraf vastgelegde termen uit een domein is vrij groot, ook al behoort het artikel semantisch gezien niet tot dat domein. Het kan worden gezien als ‘toeval’. Op dezelfde manier is bij een hogere grens (bijvoorbeeld 70%) de kans vrij groot dat een artikel ten onrechte niet tot een bepaald domein wordt gerekend; er is altijd wel een bepaald percentage aan rubriekstermen dat ‘toevallig’ niet correspondeert met termen uit één van de domein-termreeksen, ook al behoort het artikel semantisch gezien tot dat domein. 4) Als alle corpusartikelen in beschouwing zijn genomen en voor elk van die artikelen de daarmee corresponderende informatieregel is geprint, wordt het tijdens het proces berekende aantal artikelen en woorden per domein geprint. Deze worden uiteindelijk gebruikt bij de berekening voor de normalisatie van de resultaten.

Stap 3: Onderbrengen artikelinformatie in structuur

Zodra het script is uitgevoerd dat voor elk van de corpusjaren regels voor de artikelinformatie genereert, wordt de output van dit script ondergebracht in de datastructuur voor

artikelinformatie: regels voor artikelen van jaarX-maandY worden in de structuur ondergebracht in de daarvoor bestemde locatie.

3.2.4 Uitvoer mg_m_search per zegswijze

Achtereenvolgens worden de volgende handelingen verricht:

1) Op elk van de ingelezen zegswijzen wordt het mg_m_search commando uitgevoerd. Dit commando zoekt naar voorkomens van de zegswijze in de artikeltekst van het corpus.

13

Zie paragraaf 2.2 Benoeming van domeinen. Elk samengesteld domein bestaat uit een reeks van termen, die semantisch gezien tot dat domein kunnen worden gerekend.

14

(25)

Voor elke gevonden zegswijze print het commando een regel naar het scherm die informatie bevat over het artikel waarin de zegswijze voorkomt. Het gaat hier om dezelfde gegevens die ook voorkomen in de regels voor de artikelinformatie, alleen ontbreken hier de gegevens over het domein van het artikel. Naast informatie over het artikel, bevat zo’n regel overigens ook de zin in het artikel waarin de betreffende zegswijze voorkomt.

Hier volgen enkele voorbeelden van mg_m_search outputregels.

Voorbeeld 1: mg_m_search resultaten voor zegswijze ‘tegen de lamp lopen’

COMPACT/A/ad19990402/ad19990402-62-3-2.xml In 1997 [liepen] beleggers tegen de lamp na het handelen met voorkennis in aandelen van de verenfabrikant Weweler .

COMPACT/A/ad19990609/ad19990609-5-1-1.xml Een notoire kunstgebittendief die vooral actief was in Alphen aan den Rijn en omgeving is maandag tegen de lamp [gelopen] . COMPACT/A/ad19990920/ad19990920-1-7-1.xml Wie dan de illegaliteit in gaat en tegen de lamp [loopt] , kan opgesloten worden .

COMPACT/A/ad19991019/ad19991019-109-1-3.xml Hij [liep] tegen de lamp toen hij op de luchthaven een vals paspoort liet zien .

Voorbeeld 2: mg_m_search resultaten voor zegswijze ‘op dreef zijn’

COMPACT/A/ad19990118/ad19990118-130-10-3.xml Na afloop [was] Kasparov weer ouderwets op dreef tijdens de analyse .

COMPACT/A/ad19990121/ad19990121-91-9-5.xml Kate Winslet en Christopher Eccleston [zijn] geweldig op dreef in een film die niet echt vrolijk stemt .

COMPACT/A/ad19990211/ad19990211-134-7-3.xml Gebrek aan vorm [is] het niet , want bij Arsenal [is] hij de laatste weken juist op dreef geraakt .

COMPACT/A/ad19990205/ad19990205-8-4-6.xml " Ik [was] de enige verdachte sinds mensenheugenis die er ernstig bezwaar tegen maakte als hij uit zijn cel werd gehaald , omdat hij net zo lekker op dreef [was] met zijn nieuwe boek " , zei hij .

Aan de voorbeelden is al goed te zien dat bepaalde zegswijzen relatief veel voor lijken te komen in een bepaalde semantische context. Zo verduidelijken de resultaten dat de zegswijze ‘tegen de lamp lopen’ relatief vaak voorkomt in teksten die tot het domein Oorlog en

criminaliteit kunnen worden gerekend. En dat de zegswijze ‘op dreef zijn’ vaak voorkomt binnen een Cultuur-context.

2) Om te bepalen of het artikel tot één van de drie domeinen is geclassificeerd (en zo ja, welke), wordt elke mg_m_search outputregel gematched met elk van de informatieregels over de corpusartikelen, die dezelfde jaar-maand combinatie bevat als de mg_m_search

(26)

Als de informatieregel is gevonden die qua gegevens volledig correspondeert met de mg_m_search regel, achterhaalt het script, aan de hand van de domeingegevens in de informatieregel, tot welk van de drie domeinen het artikel behoort waarin de zegswijze voorkomt. Vervolgens wordt de resultatenstructuur geüpdatet:voor elk van de drie domeinen X wordt de score van [zegswijze-in-domein X] verhoogd met 1, als het artikel (ook) tot domein X behoort.

Voorbeeld

Een mg_m_search regel over een artikel met daarin een voorkomen van één van de ingelezen zegswijzen bevat de volgende informatie:

COMPACT/A/ad19990108/ad19990108-73-10-3

Deze regel wordt gematched met alle artikelinformatie-regels van hetzelfde jaar en dezelfde maand: januari 1999

De corresponderende regel (van de artikelinformatie) die wordt gevonden is:

/ad#/ad#19990108#73#ad19990108#%%%#Wetenschap en economie#%%%

Tussen de twee matchende regels corresponderen, van links naar rechts, de volgende gegevens:

- de krantnaam: ‘A’ in de mg_m_search regel vs ‘ad’ in de artikelinformatie-regel (want beide afkortingen staan voor ‘Algemeen Dagblad’)

- de datum: in beide regels ‘19990108’

- het artikelnummer: de ‘73’ in de mg_m_search output vs de ‘73’ in de artikelinformatie- regel

- de filenaam exclusief de ‘.xml’: in beide regels ‘ad19990108’.

Doordat alle gegevens corresponderen, is duidelijk dat ook de artikelinformatie-regel betrekking heeft op het door mg_m_seach gevonden artikel waarin de zegswijze voorkomt. Nu kan het domein van het artikel worden achterhaald: in de artikelinformatie-regel staat voor elk van de drie domeienen aangegeven of het artikel daar wel of niet toe behoort. Het artikel in dit voorbeeld behoort tot het domein Wetenschap en economie.

Nu het artikeldomein is achterhaald, wordt de resultatenstructuur geüpdatet:

Score van [zegswijze in domein Wetenschap en economie] = score van [zegswijze in domein Wetenschap en economie] + 1

3.2.5 Weergave resultaten

De resultaten worden nu, door het script, weergegeven in een tabel.15

In deze tabel16 is zichtbaar wat, voor elke zegswijze, de op woorden genormaliseerde frequentie is van die zegswijze binnen elk van de drie domeinen.

Per absolute zegswijzefrequentie binnen een domein is de (weergegeven) genormaliseerde frequentie op de volgende manier berekend:

15

Zie hoofdstuk 4 voor een toelichting van de resultatentabel, waarvan twee 'versies' bestaan.

16

(27)

(absolute frequentie * 1000000) / <aantal woorden dat het domein bevat waarbinnen die frequentie voorkomt>.

De uitkomst van deze berekening geeft aan hoe vaak die zegswijze, per miljoen woorden, gemiddeld voorkomt binnen dat domein.

In de tabel worden, per zegswijze, de genormaliseerde frequenties van elke mogelijke domeinenpaar-combinatie met elkaar vergeleken.

Het significantieniveau van het frequentieverschil wordt daarbij weergegeven. Om die te berekenen gebruikte ik een Chi-square17 test. Deze test berekent, aan de hand van de twee meegegeven frequenties (waarvan moet worden berekend of ze significant verschillen), hoe waarschijnlijk het is dat het verschil tussen de twee genormaliseerde frequenties (uit

respectievelijk subcorpus X en Y) te wijten is aan toeval: de ‘maximum likelihood estimation’. Voor de maximum likelihood estimation berekent de test eerst de verwachte gemiddelde frequentie, op basis van beide meegegeven frequenties. Als de frequenties ver genoeg uit elkaar liggen, gaat de test er van uit dat het significant onwaarschijnlijk is dat beide frequenties uit dezelfde populatie zegswijzen afkomstig zijn. De test werkt het beste met grotere samples.

Voor het gebruiken van de Chi-square test om de significantie van elk frequentieverschil te berekenen, werd binnen het script de online applicatie op

http://sigil.collocations.de/wizard.html gebruikt. Hier volgt een beschrijving van het gebruik van deze applicatie.

Gebruik van de applicatie voor de significantieberekening

Het betreft een online applicatie voor het berekenen van het significantieniveau van het verschil tussen twee ingevoerde absolute frequenties:

1) <abs. frequentie1 binnen corpus1> 2) <abs. frequentie2 binnen corpus2>

Als het verschil significant is, wordt daarbij de mate van significantie weergegeven: het verschil kan significant zijn op niveau p < .05 (minst significant als significant),

op niveau p < .01 (significanter als significant), of op niveau p < .001 (meest significant als significant).

Voor de berekening worden voor elk van de frequenties <abs. frequentie1 binnen corpus1> en <abs. frequentie2 binnen corpus2> de volgende gegevens ingevoerd:

- invoerveld 'Frequency count': de absolute frequentie. Voorbeeld: zegswijze 'Over het hoofd zien' komt 24 keer voor binnen het domein Cultuur. De ingevoerde frequentie in dit veld is daarom 24

- invoerveld 'Sample size': het aantal woorden (tokens) waaruit het corpus bestaat waarin de frequentie is gesignaleerd. Voorbeeld: het domein Cultuur bevat 90203522 woorden. De ingevoerde corpusgrootte in dit veld is daarom 90203522.

17

(28)

De 'sample size'-invoer is nodig, omdat de applicatie de berekening van het

significantieniveau van het frequentieverschil uitvoert op basis van de op (per miljoen) woorden genormaliseerde frequentie. Om die op woorden genormaliseerde frequentie te berekenen, is naast de absolute frequentie ook het aantal woorden nodig van het corpus waarin de (absolute) frequentie is gesignaleerd.

(29)

4 Resultaten

In dit hoofdstuk komen de onderzoeksresultaten aan bod. Deze zijn in volledige vorm opgenomen in bijlage 2, waarin achtereenvolgens twee resultatentabellen worden weergegeven. De eerste tabel geeft de genormaliseerde zegswijzenfrequenties weer per domein. De tweede tabel geeft per domein de Chi-Square waarden weer van de daarin voorkomende zegswijzen.

In paragraaf 4.1 volsta ik met een toelichting van de weergave van de resultaten in bijlage 2, die betrekking hebben op de genormaliseerde zegswijzenfrequenties per domein. Vervolgens beantwoord ik in paragraaf 4.2 de onderzoeksvragen. De onderzoeksvragen worden

beantwoord op basis van beide tabellen in bijlage 2: de tabel met genormaliseerde zegswijzenfrequenties per domein, en de tabel met Chi-Square waarden per domein. 4.1 De resultaten

Hier volgt eerst toelichting van de resultaten, zoals die zijn weergegeven in bijlage 2. Het gaat hierbij om de genormaliseerde zegswijzenfrequenties per domein.

Resultatentabel

Het onderzoek is aan de hand van het script uitgevoerd op basis van 250 zegswijzen. De resultaten zijn door het script weggeschreven naar een html-file, in de vorm van een tabel. Zie bijlage 2. Hier volgt een voorbeeld van de output van deze tabel.

Voorbeeld output

D1 = domein Wetenschap en economie D2 = domein Oorlog en criminaliteit D3 = domein Cultuur.

In de drie kolommen worden de genormaliseerde frequenties, op basis van het aantal woorden per domein, met elkaar vergeleken. In de linkerkolom domein 1 en domein 2, in de middelste kolom domein 1 en domein 3, en in de rechterkolom domein 2 en domein 3.

Voorbeeld 'het spits afbijten', linkerkolom

De 1.00 geeft de genormaliseerde frequentie weer van 'het spits afbijten' binnen het domein Wetenschap en economie. De 0.48 geeft de genormaliseerde frequentie weer van 'het spits afbijten' binnen het domein Oorlog en criminaliteit.

Kleuren

De achtergrondkleur van elke cel representeert het significantieniveau van het frequentieverschil tussen de twee domeinen18. Daarbij kan elke cel één van vier achtergrondkleuren aannemen:

Rood = het frequentieverschil is niet significant

Oranje = het frequentieverschil is significant op niveau p < .05 (matig significant)

18

(30)
(31)

4.2 Beantwoording onderzoeksvragen

Hier volgt de beantwoording van de onderzoeksvragen op basis van de resultaten. Daarbij worden eerst de deelvragen beantwoord. Op basis van het antwoord op elk van de deelvragen beantwoord ik vervolgens de kernvraag.

4.2.1 Beantwoording deelvragen

1 Bestaan er, tussen de domeinen, significante verschillen in het totale aantal zegswijzen?

Om deze vraag te beantwoorden berekende ik, voor elk domein, de som van de absolute zegswijzefrequenties. Elk van de drie verkregen sommen normaliseerde ik op basis van het aantal woorden per domein, om zo verschillen in corpusgrootte te vereffenen. Elk van de genormaliseerde sommen geeft aan hoeveel zegswijzen er gemiddeld, per miljoen woorden, voorkomen in het domein waarop de som betrekking heeft. Hier volgt een weergave van de drie genormaliseerde sommen per domein.

Som zegswijzefrequenties per domein

Domein Som (genormaliseerd)

D1 691,12

D2 766,38

D3 725,98

Aan de hand van de Chi-square test19 ging ik vervolgens na of er tussen de drie sommen significante verschillen bestaan. Volgens de applicatieresultaten was het frequentieverschil van de sommen van elke mogelijke domeinenpaar-combinatie uit de drie domeinen, siginificant op niveau p < .001.

2 Hoe verhouden de drie domeinen zich tot elkaar wat betreft de distributie van de zegswijzefrequenties?

Per domein volgt hier een een weergave van de gemiddelde zegswijzefrequentie van dat domein, met daarbij de daarvan afgeleide standaarddeviatie. Deze standaarddeviatie is berekend aan de hand van de STDEV-functie in Excel.

Zowel de gemiddelde zegswijzefrequentie als de daarbij behorende standaarddeviatie is per domein steeds weergegeven aan de hand van 1) de absolute waarde, en 2) de absolute waarde, genormaliseerd op basis van het aantal woorden dat het betreffende domein bevat (‘per miljoen woorden’). Door het normaliseren worden hier wederom de verschillende afmetingen van de domeinen vereffend.

19

(32)

Gemiddelde zegswijzefrequentie en de standaarddeviatie

Domein Gemiddelde zegswijzefrequentie Standaarddeviatie

Absoluut Genormaliseerd Absoluut Genormaliseerd

D1 149 2,76 376,64 6,98

D2 76 3,06 210,29 8,48

D3 262 2,90 681,27 7,55

Uit het overzicht blijkt dat het genormaliseerde gemiddelde van de zegswijzefrequentie tussen de 2,76 en 3,06 ligt. Kijken we naar de genormaliseerde standaarddeviatie, dan zien we dat die erg hoog is (drie keer zo hoog als het genormaliseerde gemiddelde). De spreiding van de zegswijzefrequenties is dus hoog. Deze is met 8,48 het hoogst bij domein 2, gevolgd door domein 3 met 6,98 en domein 1 met 7,55.

Deze hoge standaarddeviatie duidt erop dat we niet met een normaalverdeling te maken hebben. Dat wordt duidelijk als we de frequenties van de verschillende zegswijzen in een grafiek weergeven (oplopend gerangschikt):

0 1000 2000 3000 4000 5000 6000 7000 8000 1 13 25 37 49 61 73 85 97 109 121 133 145 157 169 181 193 205 217 229 241

Zegswijzen, oplopend gerangschikt

F re q u e n ti e v a n v o o rk o m e n i n d o m e in Domein 1 Domein 2 Domein 3

Referenties

GERELATEERDE DOCUMENTEN

[r]

Refrein. Er is maar één Bron, Breng je lege kom. De Heer, Die schenkt het vol. Eén bron, je bent nooit dorstig meer!. Refrein. title: There’s only one well by Marty Funderbuck,

Ook al moet ik gaan door het water met Hem, Maar ik maak me geen zorgen ook al zink ik

Geen enkele traan wordt vergeten, geen enkel gebed niet gehoord.. Geen enkele vraag onbegrepen, want Hij hoort en weet

- Organiseer bijeenkomsten zodat sportinclusief denkende organisaties uit de sociale sector en vitale maatschappelijk gerichte sportverenigingen elkaar leren kennen.. - Blijf

• Hoe meer gecentraliseerd leidende organisatie en hoe minder contacten tussen perifere. organisaties, hoe meer effectiever

Helaas komt het nog steeds voor dat mensen zonder opleiding binnen Internal Audit worden geplaatst en meteen zelfstandig aan het werk gaan.. Erg pijnlijk vind ik dat het

Op almaar meer plaatsen in ons land wordt een niet-eucharisti- sche gebedsdienst de standaard- vorm voor een uitvaart.. Het gaat dan om een woord- en gebeds- dienst