Genderverschillen in Taalgebruik: Een Analyse van Krantenartikelen in Nederlandse Landelijke Dagbladen

(1)

U

NIVERSITEIT VAN

A

MSTERDAM

B

ACHELORSCRIPTIE

Genderverschillen in Taalgebruik: Een

Analyse van Krantenartikelen in

Nederlandse Landelijke Dagbladen

Auteur: Quinten OOSTDAM Begeleider: Loek STOLWIJK Tweede beoordelaar: Maarten MARX 23 augustus 2017

(2)

1

Samenvatting

In deze thesis zijn artikelen uit het jaar 2016 van de vijf grootste Nederlandse lande-lijke dagbladen onderzocht op genderverschillen in taalgebruik. Hiervoor werden in totaal 91.334 artikelen verzameld en met behulp van de voornaam van de auteur geclassificeerd op geslacht. In 73% van de gevallen kon het geslacht van de au-teur worden bepaald. Vervolgens zijn de artikelen geanalyseerd op linguïstische en psychologische dimensies om te bepalen in welke mate genderverschillen zich voor-doen. Hierbij werd ook gekeken of de krant waarin het artikel was gepubliceerd of de sectie waarin het artikel was geplaatst, een rol speelde. Uit de resultaten kwam naar voren dat vrouwen gemiddeld langere artikelen schrijven dan mannen. Dit verschil was met name aanwezig bij de Volkskrant. Bij de overige kranten werden slechts verwaarloosbare of kleine effecten gevonden op de linguïstische dimensies. Op het gebied van psychologische dimensies werd duidelijk dat wederom vrou-welijke journalisten bij de Volkskrant relatief meer gebruik maken van subjectieve woorden. Bij de overige kranten werden geen genderverschillen gevonden bij de psychologische dimensies. Wanneer naar de verschillende secties wordt gekeken, kwam naar voren dat in de sectie Opinie meer subjectieve woorden gebruikt wor-den door vrouwen, zij gebruikten ook meer negatieve emotiewoorwor-den dan mannen. Tevens kwam naar voren dat het merendeel van de verzamelde artikelen was ge-schreven door mannen, en dat dit per krant sterk verschilt. Zo wordt bij het NRC Handelsblad meer dan de helft van de artikelen door vrouwen geschreven, tegen-over slechts 24% bij de Telegraaf. Het percentage artikelen geschreven door vrouwen werd ten slotte vergeleken met het percentage vrouwelijke journalisten wereldwijd. Daaruit bleek dat de verhouding mannen/vrouwen in de Nederlandse journalistiek meer in balans is dan in de rest van de wereld.

(3)

2

Inhoudsopgave

1 Inleiding 3

2 Theoretisch kader 5

2.1 Mannen en vrouwen in de journalistiek . . . 5

2.2 Linguïstische verschillen in taalgebruik . . . 5

2.3 Psychologische verschillen in taalgebruik . . . 6

2.4 Hard en zacht nieuws. . . 7

3 Methode 9 3.1 Verzamelen van de krantenartikelen . . . 9

3.2 Het geslacht van de auteur bepalen. . . 10

3.2.1 Voornaam van de auteur bepalen . . . 10

3.2.2 Namen dataset van de Nationale Verzekeringsbank . . . 10

3.2.3 Koppeling van voornaam aan geslacht . . . 11

3.3 Opschonen van de secties . . . 11

3.4 Linguïstische analyse . . . 11

3.5 Psychologische analyse . . . 12

3.5.1 Positieve en negatieve woorden . . . 12

3.5.2 Sentimentanalyse . . . 12

3.6 Significantie en effectgroottes . . . 13

4 Analyse en evaluatie 14 4.1 Beschrijving van de data . . . 14

4.2 Zijn er verschillen in het aantal krantenartikelen geschreven door man-nen en vrouwen? . . . 14

4.3 Verschillen mannen op linguïstieke dimensies van vrouwen? . . . 16

4.4 Verschillen mannen op psychologische dimensies van vrouwen?. . . . 17

5 Conclusie 18 6 Reflectie 20 Bibliografie 22 Bijlagen 24 A Verwerken van LexisNexis HTML bestanden . . . 25

B Voornaam van de auteur bepalen . . . 27

C Verwerken van namen databestand. . . 28

D Opschonen van de secties . . . 29

E Linguistieke dimensies bepalen . . . 30

(4)

3

1 Inleiding

Binnen de journalistieke studies is al veel onderzoek gedaan naar genderverschil-len (Djerf-Pierre,2011; Lobo, Silveirinha, Torres da Silva, & Subtil,2015; Ross,2001; Steiner, 2012). Uit deze studies komt naar voren dat mannelijke verslaggevers re-latief oververtegenwoordigd zijn in de journalistiek en dat er verschillen zijn in de onderwerpen waarover ze schrijven en het taalgebruik dat ze hanteren.

In de bovenstaande studies staan vooral algemene genderverschillen in de me-dia centraal. Onderscheid tussen monderlinge en schriftelijke verslaglegging wordt daarbij niet gemaakt. Met name geschreven journalistieke teksten zijn nog weinig inhoudelijk geanalyseerd op taalgebruik. Het is dus nog onduidelijk of genderver-schillen in de journalistiek terug te vinden zijn in geschreven teksten.

In deze thesis wordt een methode beschreven waarmee krantenartikelen verza-meld en geclassificeerd kunnen worden op geslacht van de auteur. Door een grote hoeveelheid Nederlandse krantenartikelen uit landelijke dagbladen te verzamelen, kan gekeken worden of in de Nederlandse landelijke dagbladen daadwerkelijk gen-derverschillen in taalgebruik te vinden zijn. Tegelijkertijd wordt het op die manier mogelijk om te kijken of mannelijke verslaggevers ook in deze media oververtegen-woordigd zijn.

In deze thesis wordt een uitgebreide analyse uitgevoerd op de verzamelde arti-kelen om te kijken of er verschillen te vinden zijn tussen krantenartiarti-kelen van man-nen en vrouwen op het gebied van linguïstische en psychologische dimensies.

De linguïstische dimensies die worden onderzocht zijn het gemiddeld aantal woorden per artikel, het gemiddeld aantal langere woorden en het gebruik van vraagtekens. De psychologische dimensies die worden onderzocht zijn de positi-viteit, negativiteit en subjectiviteit van de artikelen. Voor beide dimensies wordt ook gekeken of er andere factoren zijn die invloed hebben, zoals de krant waarin het artikel is gepubliceerd of de sectie waarin het artikel is geplaatst. Daarbij wordt tevens gekeken of er verschillen zijn in het aantal krantenartikelen geschreven door mannen en vrouwen.

De hoofdvraag van het onderzoek is: Zijn er verschillen tussen krantenartikelen ge-schreven door mannen en vrouwen? Deze hoofdvraag wordt uitgesplitst in de volgende deelvragen:

1. Verschillen mannen op linguïstische dimensies van vrouwen?

(a) Zijn er verschillen in linguïstische dimensies tussen artikelen van ver-schillende kranten?

(b) Zijn er verschillen in linguïstische dimensies tussen artikelen van ver-schillende secties?

2. Verschillen mannen op psychologische dimensies van vrouwen?

(a) Zijn er verschillen in psychologische dimensies tussen artikelen van ver-schillende kranten?

(5)

Hoofdstuk 1. Inleiding 4 (b) Zijn er verschillen in psychologische dimensies tussen artikelen van

ver-schillende secties?

Bij het beantwoorden van de hoofdvraag wordt ook ingegaan op de vraag of er verschillen zijn in het aantal artikelen die geschreven zijn door mannen en vrouwen.

(6)

5

2 Theoretisch kader

In dit hoofdstuk wordt als eerste ingegaan op verschillen in het aantal mannen en vrouwen in de journalistiek (2.1). Vervolgens wordt eerder onderzoek naar gender-verschillen besproken met betrekking tot de linguïstische (2.2) en pyschologische dimensies (2.3). Ten slotte wordt ingegaan op het onderscheid hard en zacht nieuws in relatie tot mannelijke en vrouwelijke journalisten (2.4).

2.1 Mannen en vrouwen in de journalistiek

Over de jaren heen zijn er verschillende studies gedaan naar het aantal mannen en vrouwen in de journalistiek. De eerste studie naar Nederlandse journalisten werd gedaan door Muskens (1968). Hieruit bleek dat slechts 5% van de beroepsgroep uit vrouwen bestond. In het jaar 2000 was dit aantal gegroeid tot 33% (Deuze & Dim-oudi,2002) en zes jaar later bestond 38% van de beroepsgroep uit vrouwen (Pleijter, Hermans, & Vergeer,2012). Als deze trend door zou zetten, dan zou het percentage medio 2016 ongeveer 46% moeten zijn. De geschiedenis wijst dus uit dat het aan-tal vrouwelijke journalisten in Nederland over de jaren heen is toegenomen, maar dat vrouwen nog steeds in de minderheid zijn. Wereldwijd gezien liggen de per-centages een stuk lager. Het The Global Media Monitoring Project doet onderzoek naar het aantal vrouwen in de journalistiek en rapporteerde in 1995 een percentage van slechts 17% vrouwelijke journalisten (Marchese & Hogarth,1995). In 2000 werd dit onderzoek opnieuw gedaan en de uitkomst was bijna hetzelfde, het percentage vrouwen was slechts toegenomen met 1% (Spears, Seydegart, & Gallagher,2000). In 2005 werd een percentage gevonden van 21% (Gallagher et al.,2005) en in 2010 en 2015 24% (Macharia, O’Connor, & Ndangam,2010; Macharia,2015). Wereldwijd is er dus een overduidelijke minderheid van vrouwen in de journalistiek, in dat op-zicht doet Nederland het dus relatief goed (zie figuur2.1).

2.2 Linguïstische verschillen in taalgebruik

In het veel geciteerde boek The Female Brain (Brizendine,2006) wordt beweerd dat vrouwen meer praten dan mannen. Vrouwen zouden volgens dit boek zo’n drie keer zoveel woorden per dag gebruiken dan mannen, namelijk 20.000 woorden tegen-over 7.000 woorden door mannen. Het is echter de vraag of de genoemde aantallen wel kloppen. Een meta-analyse van 73 studies onder kinderen liet namelijk zien dat meisjes iets spraakzamer waren dan jongens, maar dit verschil was minimaal (Lea-per & Smith,2004). Een soortgelijk onderzoek werd uitgevoerd onder volwassenen, en daarbij werd gevonden dat mannen iets spraakzamer waren (Leaper & Ayres, 2007). Mehl, Vazire, Ramirez-Esparza, Slatcher, en Pennebaker (2007) gebruikten spraakrecorders om de gesprekken van proefpersonen op te nemen. Vervolgens tel-den zij hoeveel woortel-den de proefpersonen gebruikten. Er werd geen significant ver-schil gevonden in het aantal woorden dat door mannen en vrouwen werd gebruikt. Geschreven tekst is ook onderzocht, Newman, Groom, Handelman, en Pennebaker

(7)

Hoofdstuk 2. Theoretisch kader 6 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 0% 20% 40% 60% 80% 100% Jaar Per centage vr ouwelijke journalisten

Vrouwelijke journalisten in Nederland Vrouwelijke journalisten wereldwijd

FIGUUR 2.1: Aantal vrouwelijke journalisten in Nederland en we-reldwijd

(2008) ontdekten dat vrouwen iets meer woorden gebruiken dan mannen, maar dit verschil was niet significant. Schler, Koppel, Argamon, en Pennebaker (2006) von-den dat vrouwen iets meer woorvon-den dan mannen gebruikten in blogs. Er is dus op voorhand geen reden om aan te nemen dat vrouwen meer woorden gebruiken dan mannen. Onderzoek heeft uitgewezen dat de verschillen minimaal zijn.

In een studie van Mulac en Lundell (1994) werd onderzoek gedaan naar onder andere de gemiddelde zinslengte van essays geschreven door mannen en vrouwen. Hieruit kwam naar voren dat vrouwen gemiddeld langere zinnen produceren. Dit onderzoek werd echter slechts gedaan met een sample van 20 essays van mannelijke en 20 essays van vrouwelijke studenten. Op grond van het huidige onderzoek is er dus geen duidelijk beeld van de gemiddelde zinslengte in schriftelijk taalgebruik van mannen en vrouwen.

2.3 Psychologische verschillen in taalgebruik

Taalverschillen tussen mannen en vrouwen zijn een populair onderwerp waar veel onderzoek naar is gedaan (Goldshmidt & Weller,2000). Verschillen in het uitdruk-ken van emoties vallen hieronder, enkele onderzoeuitdruk-ken over dit onderwerp worden beschreven. Schler et al. (2006) voerden een vergelijkbaar onderzoek uit als in deze thesis wordt beschreven, in plaats van krantenartikelen gebruikten zij blogposts. Hiervoor hadden zij een grote hoeveelheid blogs gedownload van het internet waar-van het geslacht waar-van de auteur bekend was. De totale corpus waar-van dat onderzoek telde bijna 300 miljoen woorden. Uit de analyse kwam naar voren dat vrouwen vaker zowel positieve als negatieve emotiewoorden gebruiken in hun vlogs. Een soortgelijk resultaat werd gevonden in het onderzoek van Newman et al. (2008). Zij onderzochten een sample van 14000 teksten verzameld uit 70 verschillende onder-zoeken. Ook hier kwam naar voren dat vrouwen vaker emotiewoorden gebruiken, zowel positieve als negatieve. Dit effect was echter zeer klein. Goldshmidt en Weller

(8)

Hoofdstuk 2. Theoretisch kader 7 (2000) rapporteren wel een significant resultaat, zij onderzochten 11 samples waar-bij in alle gevallen vrouwen verbaal meer hun gevoelens uitten. Op basis van deze literatuur kan gezegd worden dat vrouwen meer emoties uiten in teksten. Dit wordt ook bevestigd door andere auteurs (Mukherjee & Liu,2010; Schiffman,2002; Stop-pard & Gunn Gruchy,1993).

Het tellen van woorden die met emotie te maken hebben, geeft inzicht in de mate waarin emotie wordt geuit. Dit geeft echter nog niet altijd een goed inzicht in het sentiment van de tekst. Zo kan de auteur van een nieuwsartikel de menin-gen van andere mensen citeren, waardoor het beeld aangetast wordt. Ook kunnen onkenningen worden gebruikt, bijvoorbeeld de uitspraak “niet leuk”. Wanneer er simpelweg positieve en negatieve woorden geteld worden, zal in dat geval “leuk” onterecht als positief worden beschouwd. Een sentimentanalyse houdt rekening met bovenstaande problemen waardoor een beter beeld geschetst kan worden van het sentiment van een tekst, daarom wordt in dit onderzoek naast het tellen van emotiewoorden, ook een sentimentanalyse uitgevoerd. Zie voor een toelichting van deze methodiek3.5.2.

Het analyseren van emotie in tekst met behulp van computertechnieken is de laatste jaren sterk gegroeid (Pang & Lee,2008). Eerder onderzoek waarbij ook sen-timentanalyses werden uitgevoerd, werd onder andere gedaan door Thelwall, Wil-kinson, en Uppal (2010). Zij onderzochten comments op het sociale netwerk My-Space. Vrouwen plaatsten vaker positieve reacties op berichten op het sociale net-werk. Daarnaast ontvingen zij ook vaker positieve reacties op de berichten die zij zelf hadden geplaatst. Dit effect werd niet gevonden bij negatieve reacties. Clark (1997) vond geen significante verschillen in sentiment bij mannen en vrouwen.

Met behulp van een sentimentanalyse kan ook subjectiviteit in teksten worden gemeten. Een eerdere studie waarin subjectiviteit werd onderzocht, werd onder andere gedaan door Mulac, Studley, en Blau (1990). Zij onderzochten essays van kinderen in verschillende leeftijdsklassen op de aanwezigheid van meningen als in-dicator van de subjectiviteit van een tekst. Hieruit kwam naar voren dat jongens in alle leeftijdsklassen vaker hun mening gaven dan meisjes. Thomson en Murachver (2001) onderzochten mailconversaties, zij konden geen verschil vinden in het aantal meningen.

2.4 Hard en zacht nieuws

North (2016) vond dat mannen voornamelijk over “hard nieuws” schrijven en vrou-wen meer over “zacht nieuws”. Er zijn echter geen eenduidige definities van hard en zacht nieuws. Onderscheid maken tussen hard en zacht nieuws kan daarom lastig zijn. Hard nieuws wordt door Fedler, Bender, Davenport, en Drager (2004) gedefinieerd als “een feitelijke presentatie van gebeurtenissen die nieuwswaardig geacht wordt”. Normaal gesproken is hard nieuws gericht op “serieuze verhalen over belangrijke onderwerpen”. Hieronder vallen de onderwerpen politiek, econo-mie (Lehman-Wilzig & Seletzky,2010; Allan, Branston, & Carter, 2002), grote mis-daad/ongevallen (Fedler et al.,2004) en kwesties van publiek belang (Baum,2003). Hard nieuws vraagt om snelle publicatie en wordt gezien als het meest prestigieuze type nieuws en voornamelijk door mannen gedaan (Ross & Carter,2011).

Zacht nieuws hoeft niet direct gepubliceerd te worden, omdat dit type nieuws minder “informatieve waarde” heeft. Het is gericht op “features”, dit zijn bijvoor-beeld onderwerpen als lifestyle, reizen, films, boeken, en andere interesses van men-sen (Allan et al.,2002; Brooks, Kennedy, Moen, & Ranly,2010). Ook ongebruikelijke

(9)

Hoofdstuk 2. Theoretisch kader 8 evenementen vallen hieronder (Lehman-Wilzig & Seletzky,2010). Zacht nieuws is, in tegenstelling tot hard nieuws, gericht op het vermaken van de lezer en kan emo-ties opwekken bij de lezer (Fedler et al.,2004).

Een soortgelijk onderzoek naar de onderwerpen waar mannen en vrouwen over schrijven is nog niet eerder uitgevoerd met Nederlandse krantenartikelen. Het is dus interessant om te kijken of het verschil tussen hard en zacht nieuws ook terug te vinden is bij Nederlandse kranten.

(10)

9

3 Methode

Voor dit onderzoek werden krantenartikelen uit het jaar 2016 van de vijf grootste Nederlandse landelijke dagbladen verzameld en vervolgens samengevoegd in een dataset. Omdat er onderzoek wordt gedaan naar geslachtsverschillen, moest voor ieder artikel allereerst het geslacht van de auteur bepaald worden. Hiervoor is een methode ontwikkeld. In dit hoofdstuk wordt beschreven hoe de data is verkregen, op welke manier de artikelen zijn geclassificeerd en welke analyses worden gedaan.

3.1 Verzamelen van de krantenartikelen

De data die in dit onderzoek is gebruikt bestaat uit krantenartikelen van de vijf grootste Nederlandse landelijke dagbladen. Zie tabel3.1voor de oplages van alle Nederlandse landelijke dagbladen. De vijf grootste landelijke dagbladen zijn De Telegraaf, AD/Algemeen Dagblad, de Volkskrant, NRC Handelsblad en Trouw. De artike-len die gebruikt werden voor dit onderzoek zijn afkomstig van deze vijf landelijke dagbladen. Om deze artikelen te verkrijgen, is gebruik gemaakt van de LexisNexis Academic databank (http://academic.lexisnexis.nl/). Dit is een doorzoekbare data-base die artikelen bevat die afkomstig zijn uit verschillende bronnen. Met de Power Search functie kon er gezocht worden op artikelen van een specifiek dagblad. Er kan een datumbereik worden ingesteld voor de publicatiedatum. Het maximum aan-tal resultaten van LexisNexis is beperkt tot 3000 items. Om onder de 3000 items te blijven, zijn de zoekopdrachten verdeeld over periodes van 1 maand. Bij iedere zoekopdracht is de term “LENGTH > 300” toegevoegd om ervoor te zorgen dat al-leen artikelen van meer dan 300 woorden werden verkregen. Hier is voor gekozen omdat bij kortere artikelen vaak geen auteur vermeld wordt en de limiet van 3000 items anders te snel bereikt wordt.

Na het uitvoeren van de zoekopdracht geeft LexisNexis een overzicht van de re-sultaten. De resultaten kunnen vervolgens gedownload worden in verschillende for-maten. LexisNexis biedt de mogelijkheid om resultaten te downloaden als spread-sheet, dit format bevatte echter niet de tekst van de artikelen. Door de resultaten te downloaden in HTML formaat, werd ook de tekst van de artikelen geëxporteerd. LexisNexis kan slechts 200 resultaten per keer exporteren, daarom zijn bij iedere zoekopdracht losse HTML bestanden gedownload van items 1 - 200, 201-400 enzo-voorts. In totaal zijn er 490 HTML bestanden geëxporteerd. Met behulp van Python en Beautifulsoup zijn de webpagina’s gescraped, de broncode hiervan is te vinden in bijlageA. De volgende elementen zijn bepaald voor ieder artikel: Auteur, Datum, Krant, Sectie, Tekst, Titel en Aantal woorden. Deze elementen zijn geëxporteerd naar een Excel spreadsheet.

(11)

Hoofdstuk 3. Methode 10 TABEL3.1: Oplages Nederlandse landelijke dagbladen periode 2016

Q2 t/m 2017 Q1 Krant Oplage De Telegraaf 415.306 AD 360.799 de Volkskrant 258.783 NRC Handelsblad 143.821 Trouw 104.530

Het Financieele Dagblad 48.363

Reformatorisch Dagblad 43.970

nrc.next 30.692

Nederlands Dagblad 20.882

Cijfers afkomstig van “NOM oplagerapportage” (2017)

3.2 Het geslacht van de auteur bepalen

3.2.1 Voornaam van de auteur bepalen

De eerste stap in het bepalen van het geslacht van de auteur is het bepalen van de voornaam. Aan de hand van de voornaam kan in veel gevallen het geslacht van de auteur afgeleid worden, omdat namen meestal kenmerkend zijn voor mannen of vrouwen.

De “auteur” die vermeld wordt bij een artikel is niet altijd een naam. Soms wordt als “auteur” slechts “de redactie” genoemd of “van onze correspondent”. Dit soort “auteurs” zijn niet aan een geslacht te koppelen en kunnen dus niet gebruikt wor-den in het onderzoek. Soms staat de naam van de auteur wel vermeld, maar staat er iets voor, zoals “van onze verslaggever”. Hier moest rekening mee worden ge-houden bij het bepalen van de voornaam. Omdat de waarde die vermeld wordt als auteur zo inconsistent is, is gekozen voor een simpele oplossing: Alle namen uit de namen dataset die wordt beschreven in de volgende stap, zijn omgezet naar een Re-gular Expression in Python. ReRe-gular Expressions zijn patronen die een computer kan herkennen in teksten. Het programma is voor ieder artikel de kolom “auteur” langs-gelopen en de eerste voornaam die werd gevonden is opgeslagen in een nieuwe ko-lom voornaam. De broncode van dit programma is te vinden in bijlageB. Met deze methode kon een groot gedeelte van de voornamen worden gevonden zonder dat de data volledig moest worden opgeschoond. De namen dataset bevatte wel na-men die problena-men veroorzaakten, zoals na-mensen die “van” of “door” heetten. Deze werden verkeerd geclassificeerd doordat er bijvoorbeeld “door onze verslaggever” staat. Ook mensen met een naam van 1 letter komen voor. Om fouten te voorkomen, zijn dit soort namen uit de data verwijderd.

3.2.2 Namen dataset van de Nationale Verzekeringsbank

Na het bepalen van de voornaam van de auteur, moest het geslacht van de au-teur hieruit afgeleid worden. Om te bepalen of een naam mannelijk of vrouwelijk is, werd gebruik gemaakt van een dataset van de Sociale Verzekeringsbank die de 10.000 meest voorkomende voornamen bevat van kinderen die van 1983 tot en met 2006 zijn aangemeld bij de Sociale Verzekeringsbank. Deze dataset is beschikbaar

(12)

Hoofdstuk 3. Methode 11 TABEL3.2: Oorspronkelijke en gewijzigde sectienamen

Naam sectie Gewijzigd naar

sportwereld sport

v opening, ten eerste, in het nieuws, nieuwsdienst,

nederland, binnenland, buitenland nieuws

opinie en debat opinie

media, cultuur cultuur en media

financieel economie

gesteld door het Meertens Instituut. Dit komt neer op vrijwel alle Nederlandse voor-namen die meer dan 27 keer zijn gegeven in die periode. De data was aangeleverd in XML-formaat. Dit is verwerkt en omgezet naar een Pandas dataframe met de ko-lommen naam, aantal mannen en aantal vrouwen. Vervolgens moest bepaald worden welk geslacht bij welke naam hoort. Hiervoor is het ratio mannen/vrouwen voor iedere naam berekend. Wanneer een naam in 95% of meer van de gevallen tot een bepaald geslacht behoort, werd deze geclassificeerd als zijnde van dat geslacht en werd in een nieuwe kolom geslacht een “M” of een “V” geplaatst. De broncode die gebruikt is om de namen dataset te verwerken is terug te vinden in bijlageC.

3.2.3 Koppeling van voornaam aan geslacht

Nadat het verwerken van de namen dataset en het bepalen van het geslacht van de auteur, konden de twee datasets aan elkaar gekoppeld worden om het geslacht van de auteur te bepalen. De twee datasets zijn samengevoegd door een merge uit te voeren in Pandas, waarbij de voornamen van de auteurs gekoppeld werden aan de namen uit de dataset van de Nationale Verzekeringsbank. Dit houdt in dat wanneer de naam van een auteur voorkwam in de namen dataset, de kolommen van deze twee datasets werden samengevoegd. Hierdoor onstond een nieuwe dataset die een nieuwe kolom geslacht bevatte met daarin het geclassificeerde geslacht van de voornaam van de auteur.

3.3 Opschonen van de secties

Omdat de data afkomstig is uit verschillende kranten, waren de secties van de ar-tikelen soms verschillend. Iedere krant heeft namelijk eigen sectienamen. De sec-tie “Sport” wordt bijvoorbeeld bij het Algemeen Dagblad “Sportwereld” genoemd. Vanwege de verschillen tussen de kranten, zijn de grootste overeenkomende secties gereduceerd naar vijf secties: Sport, Nieuws, Opinie, Economie en Cultuur en Media. In tabel3.2is te zien hoe de sectienamen zijn gewijzigd en in bijlageDstaat de bron-code. In deze thesis wordt onderzoek gedaan naar geslachtsverschillen binnen deze vijf secties.

3.4 Linguïstische analyse

Van de teksten van de artikelen zijn verschillende linguïstische eigenschappen vast-gesteld. De meeste van deze eigenschappen konden gemakkelijk met behulp van Python worden verkregen, zie bijlageE. Het aantal woorden was al opgeslagen in

(13)

Hoofdstuk 3. Methode 12 TABEL3.3: Emotiewoorden

Emotie Woorden

Positief toegenegen, zelfverzekerd, verfrist, betrokken, hartelijk, gesterkt, gestimuleerd, aandachtig, liefdevol, open, trots, hersteld, betoverd, teder, vastberaden, uitgerust, geboeid, vol mededogen, veilig, zeker Negatief bang, afkeer, onrust, verward, angstig, haatdragend, alert, geagiteerd,

ambivalent, paniek, minachtend, gealarmeerd, aarzelend, ontsteld, geschrokken, onthutst, ongerust, vijandig, nerveus, onzeker, walging

de dataset omdat dit door al LexisNexis werd vermeld. De Natural Language Tool-kit (NLTK) module in Python kan tekst opsplitsen in woorden en zinnen. Hiermee kon gekeken worden hoeveel woorden van meer dan zes letters de tekst bevatte en hoeveel zinnen er in voorkwamen, waarna ook het aantal woorden per zin bepaald kon worden. Het aantal vraagtekens in de tekst is ook geteld. De aantallen woor-den van meer dan zes letters en vraagtekens zijn omgezet naar een waarde per 100 woorden. Hierdoor werden de aantallen niet beinvloed door de lengte van de tekst.

3.5 Psychologische analyse

3.5.1 Positieve en negatieve woorden

Om te onderzoeken hoe negatief of positief er geschreven wordt, worden negatieve en positieve woorden geteld. Hiervoor is een lijst met negatieve woorden en een lijst met positieve woorden gebruikt, afkomstig van Hottinga (2011). In tabel3.3zijn voorbeelden van positieve en negatieve woorden uit deze lijst te zien. Met behulp van een Regular Expression zijn alle woorden uit de kolom tekst gehaald. Vervolgens wordt voor ieder woord gekeken of deze voorkomt in een van de lijsten. Indien een woord voorkomt in een lijst, wordt deze geteld als positief of negatief woord. Zie bijlageFvoor de broncode hiervan. Dit resulteerde in de twee kolommen positieve-woorden en negatievepositieve-woorden. Ook deze aantallen zijn omgezet naar een relatief getal om ervoor te zorgen dat de lengte van de tekst geen invloed heeft.

3.5.2 Sentimentanalyse

Tekst kan worden ingedeeld in twee categorieën: feiten en meningen. Meningen bevatten het sentiment en de gevoelens van mensen over iets. De Python module pattern is ontwikkeld om het sentiment van een tekst te bepalen en heeft een Neder-landse versie pattern.nl (Smedt & Daelemans,2012). Deze module bevat een lexicon van woorden die geannoteerd zijn met scores voor sentimentpolariteit. Op basis van de gemiddelde scores van deze woorden wordt het sentiment van een tekst bepaald. Volgens de auteurs heeft de module een nauwkeurigheid van 82% (getest op boek-recensies). De sentiment functie van pattern.nl is toegepast op de tekst van ieder artikel om het sentiment te bepalen. Zie bijlageFvoor de broncode hiervan. Hier kwamen twee waarden uit: een waarde van het sentiment, ook wel sentimentpolariteit genoemd (negatief positief) en een waarde van de subjectiviteit (objectief -subjectief). De sentimentpolariteit wordt uitgedrukt in een waarde tussen -1 en 1 en de subjectiviteit wordt uitgedrukt in een waarde tussen 0 en 1.

(14)

Hoofdstuk 3. Methode 13

3.6 Significantie en effectgroottes

Bij dit onderzoek wordt gebruik gemaakt van een zeer grote dataset. Daarom is ge-kozen om gebruik te maken van effectgroottes. Een effectgrootte is een maat die gebruikt wordt om gemiddeldes te vergelijken. Voor iedere dimensie worden effect-groottes berekend om een beeld te geven van het verschil tussen de gemiddeldes van mannen en vrouwen. De effectgrootte kan zowel positief als negatief zijn. Een positieve effectgrootte betekent een hoger gemiddelde bij de vrouwen, een negatieve effectgrootte betekent een hoger gemiddelde bij de mannen. In dit onderzoek zijn de artikelen ongelijk verdeeld over mannen en vrouwen. De effectgroottes zijn daarom berekend volgens de methode van Hedges en Olkin (1985). Hier is voor gekozen omdat deze methode gebruikt kan worden bij groepen van verschillende groottes. Volgens Cohen (1988) worden effectgroottes van d < 0, 2 gezien als verwaarloos-baar. Effecten worden gekarakteriseerd als klein wanneer d ≥ 0, 2, medium wanneer d ≥ 0, 5en groot wanneer d ≥ 0, 8.

Voordat de effectgroottes werden berekend, zijn t-testen uitgevoerd om te con-troleren of de gemiddeldes significant van elkaar verschillen. Na iedere t-test werd gekeken of de significatie onder de grens van p < 0, 05 lag. Wanneer p groter was dan 0, 05, werd ns genoteerd. De uitkomsten van de significante t-testen werden gebruikt om de effectgroottes te berekenen volgens de methode die hierboven is beschreven. Alle genoemde effectgroottes in de tabellen zijn dus significant met p < 0, 05.

(15)

14

4 Analyse en evaluatie

4.1 Beschrijving van de data

De ruwe dataset bestond uit 91.334 artikelen. In totaal bestond de dataset uit iets meer dan 46 miljoen woorden. Er waren 19.019 artikelen waarbij helemaal geen auteur werd vermeld. Zoals in de methode werd beschreven, kan de auteur ook “redactie” zijn of “verslaggever”. Van de 72315 artikelen waarbij een waarde was vermeld bij “auteur”, kon in 3.606 gevallen geen naam worden ontdekt. Dit kwam doordat de auteur niet uit een naam bestond, of de naam niet kon worden gevonden in de namen dataset. De artikelen waarbij geen voornaam gevonden was, konden niet worden geclassificeerd op geslacht. Deze artikelen konden daarom niet gebruikt worden voor dit onderzoek en zijn uit de data verwijderd. Na het verwijderen van deze artikelen bleven er 68.709 artikelen over. Van deze artikelen waren er 1.957 die een auteur hadden met een ambigue naam, dus een naam die zowel mannen als vrouwen kunnen hebben. Ook deze artikelen konden niet geclassificeerd worden op geslacht en zijn uit de data verwijderd. Uiteindelijk zijn er 66.752 artikelen ge-classificeerd op geslacht, wat neerkomt op 73% van de oorspronkelijke ruwe dataset. Deze artikelen zijn gebruikt voor het onderzoeken van de verschillende dimensies voor iedere krant. De resultaten hiervan zijn te zien in tabel4.1. Er is ook gekeken naar effecten per sectie. Alleen de vijf grootste secties zijn hiervoor gebruikt, zoals beschreven werd in de methode. Na het opschonen van de secties en het selecte-ren van de vijf grootste secties, bleven er 49.690 artikelen over. Deze artikelen zijn onderzocht en de resultaten hiervan zijn terug te vinden in tabel4.2.

4.2 Zijn er verschillen in het aantal krantenartikelen

geschre-ven door mannen en vrouwen?

Van de 66.752 geclassificeerde artikelen waren er 23.571 geschreven door vrouwen. Dat komt neer op 35,3%. Dit resultaat is vergelijkbaar met de 38% die in 2006 gevon-den werd door Pleijter et al. (2012). Als we er vanuit gaan dat zowel mannelijke als vrouwelijke journalisten gemiddeld evenveel artikelen schrijven, kan gesteld wor-den dat het aantal vrouwelijke journalisten in Nederland in 2017 lichtelijk is gedaald ten opzichte van 2006. Dat is opvallend, aangezien de geschiedenis juist een toename liet zien. Wanneer de cijfers worden vergeleken met de percentages wereldwijd, zien we dat het percentage vrouwelijke journalisten in Nederland ruim 11%-punt hoger ligt.

Uit tabel4.1komt naar voren dat er grote verschillen zijn in het aantal vrouwen tussen de verschillende kranten. De percentages lopen uiteen van 23,8% vrouwen bij de Telegraaf tot 56,6% vrouwen bij het NRC Handelsblad. Het NRC Handels-blad is de enige krant waarbij de meerderheid van de artikelen door vrouwen is ge-schreven. Opvallend is dat deze twee kranten beide getypeerd worden als liberale kranten. Het NRC Handelsblad wordt echter bestempeld als een “kwaliteitskrant” en De Telegraaf wordt meer gezien als een “populaire” krant. Dat houdt in dat de

(16)

Hoofdstuk 4. Analyse en evaluatie 15 TABEL4.1: Aantallen artikelen per krant (absolute aantallen en

per-centages) en effectgroottes van linguïstisch en psychologische dimen-sies (Cohen’s d).

AD Telegraaf Volkskrant NRC Trouw Totaal Beschrijvend

Aantal artikelen 10.228 10.153 18.509 14.342 13.520 66.752 Waarvan vrouwelijk 26% 23,8% 28,9% 56,6% 37,3% 35,3% Linguïstisch

Aantal woorden ns ns 0,725** 0,098 0,087 0,349* Woorden per zin -0,084 -0,262* -0,187 -0,091 -0,295* -0,157 Woorden >6 letters -0,213* -0,216* -0,376* -0,047 -0,269* -0,175 Vraagtekens 0,167 0,099 0,356* -0,082 0,024 0,173 Psychologisch Sentimentpolariteit 0,024 0,03 0,096 -0,077 0,086 0,005 subjectiviteit 0,15 0,123 0,302* -0,058 0,136 0,084 Emotiewoorden 0,054 0,06 0,161 ns 0,13 0,052 Negatief 0,049 0,056 0,11 ns 0,099 0,058 Positief ns ns 0,125 ns 0,091 0,019 ns = Niet significant (p > 0,05) * = Klein effect ** = Medium effect

Telegraaf een relatief groot gehalte amusement bevat. Kwaliteitskranten richten zich voornamelijk op politiek, wetenschap, kunst, literatuur en economie. Opvallend is dat amusementskranten zich meer richten op zacht nieuws, dat vaker door vrou-wen wordt geschreven, maar in het geval van de Telegraaf vormt de sectie Sport waarschijnlijk een uitzondering. Bij kwaliteitskranten komt sport minder aan bod, wat het verschil zou kunnen verklaren tussen het aantal mannelijke en vrouwelijke artikelen bij het NRC Handelsblad en de Telegraaf. Artikelen uit de sectie sport worden namelijk bijna alleen maar door mannen geschreven, zoals uit de volgende paragraaf blijkt.

Uit tabel 4.2 blijkt dat er grote verschillen zijn in het aantal mannen en vrou-wen tussen de verschillende secties. Artikelen uit de sectie Sport, iets dat stereo-typisch geassocieerd wordt met mannen, worden slechts in 13,5% van de gevallen door vrouwen geschreven. Een mogelijke verklaring hiervoor kan zijn dat sport over het algemeen gezien wordt als een mannelijk domein (Pedersen & Kono,1990; Snyder & Spreitzer,1983). Artikelen over Cultuur & Media worden het vaakst door vrouwen geschreven, namelijk in 49,2% van de gevallen. Een mogelijke verklaring hiervoor is dat Cultuur en Media een typische vorm van zacht nieuws is. Zoals in het theoretisch kader werd beschreven, schrijven vrouwen vaker over dit type nieuws (North,2016).

Mannen schrijven dus meer krantenartikelen dan vrouwen. Dit geldt voor alle secties en voor alle kranten behalve het NRC Handelsblad.

(17)

Hoofdstuk 4. Analyse en evaluatie 16 TABEL4.2: Aantallen artikelen per sectie (absolute aantallen en

per-centages) en effectgroottes van linguïstisch en psychologische dimen-sies (Cohen’s d).

Sport Economie Nieuws Opinie C & M Totaal Beschrijvend

Aantal artikelen 7.840 7.422 26.948 3.588 3.892 49.690 Waarvan vrouwelijk 13,5% 36,6% 35,7% 27,2% 49,2% 32,8% Linguïstisch

Aantal woorden 0,79** 0,535** 0,449* 0,139 ns 0,413* Woorden per zin -0,114 -0,262* -0,2* -0,267* 0,098 -0,107 Woorden >6 letters ns -0,212* -0,253* -0,334* ns -0,123 Vraagtekens ns 0,162 0,213* 0,235* -0,079 0,172 Psychologisch Sentimentpolariteit -0,124 ns 0,076 ns ns ns Subjectiviteit -0,177 0,104 0,141 0,24* -0,089 0,063 Emotiewoorden ns ns 0,069 0,222* ns ns Negatief ns 0,056 0,062 0,221* ns 0,036 Positief ns ns 0,039 0,097 ns -0,018 ns = Niet significant (p > 0,05) * = Klein effect ** = Medium effect

4.3 Verschillen mannen op linguïstieke dimensies van

vrou-wen?

In tabel4.1 zijn bij de kolom Totaal de effectgroottes te zien die berekend zijn over de gehele dataset van 66.752 artikelen. Het aantal woorden is de enige dimensie die een klein effect laat zien, de overige dimensies laten verwaarloosbare effecten zien. Vrouwen gebruiken over het algemeen dus iets meer woorden in krantenartikelen. Het onderzoek van Newman et al. (2008) dat in het theoretisch kader werd beschre-ven vond een iets hoger gemiddelde bij het aantal woorden dat vrouwen gebruiken, dit was echter niet significant. Ook de resultaten van andere studies die behandeld werden in het theoretisch kader liepen uiteen. Daarentegen is bij de Volkskrant een groot effect te zien, en bij de andere kranten geen of verwaarloosbare effecten. Het grote effect wordt dus voornamelijk veroorzaakt door de Volkskrant en is dus niet representatief voor alle kranten. Er kunnen dus niet zomaar conclusies verbonden worden aan deze getallen, dus op basis van dit onderzoek kan niet gezegd worden dat mannen en vrouwen verschillen qua linguïstiek.

Wanneer de kranten afzonderlijk bekeken worden, valt een medium tot groot effect op bij de Volkskrant op de dimensie aantal woorden. Dit terwijl de andere kranten geen of verwaarloosbare effecten hebben. Dit betekent dus dat vrouwen gemiddeld langere artikelen schrijven bij de Volkskrant. Ook gebruiken zij meer vraagtekens en woorden van >6 letters.

Wanneer de effecten van geslacht per sectie worden bekeken, wordt duidelijk dat er grote verschillen zijn bij voornamelijk de sectie Sport. Hoewel de overgrote meer-derheid van de sportartikelen door mannen werd geschreven, laten de effectgroottes zien dat vrouwen gemiddeld meer woorden gebruiken in sportartikelen.

(18)

Hoofdstuk 4. Analyse en evaluatie 17

4.4 Verschillen mannen op psychologische dimensies van

vrou-wen?

Wanneer de effectgroottes van de psychologische dimensies in tabel4.1 wordt be-keken, zijn bij Totaal slechts verwaarloosbare effecten te vinden. Als dit vergeleken wordt met eerder onderzoek, komen deze resultaten overeen.

Als de effecten van de psychologische dimensies per krant worden bekeken, valt op dat de Volkskrant verschilt van de andere kranten op het gebied van subjectivi-teit, vrouwen schrijven bij de Volkskrant subjectiever dan mannen.

Bij de secties valt op dat er bij de sectie opinie subjectiever wordt geschreven door vrouwen dan door mannen. Daarnaast worden ook meer emotiewoorden gebruikt, voornamelijk negatief.

(19)

18

5 Conclusie

Wanneer we kijken naar het aantal artikelen in landelijke dagbladen geschreven door mannen en en vrouwen, laten de resultaten zien dat het aantal artikelen ge-schreven door vrouwen een stuk minder is dan het aantal artikelen gege-schreven door mannen. Dit lijkt een indicatie te zijn dat er ook minder vrouwelijke journalisten werkzaam zijn bij landelijke dagbladen. Echter, hier kunnen ook andere factoren een rol spelen die niet in het onderzoek zijn meegenomen. Zo is het bijvoorbeeld mogelijk dat vrouwelijke journalisten vaker parttime werken en als gevolg daarvan dus minder artikelen schrijven. Wanneer het gevonden percentage van 35,3% wordt vergeleken met het wereldwijde percentage vrouwelijke journalisten van 24%, kan daarentegen wel gezegd worden dat Nederland het relatief goed doet.

De percentages mannelijke en vrouwelijke journalisten verschillen per krant. Vrouwen zijn het meest ondergerepresenteerd bij de Telegraaf, waarbij slechts 23,8% van de artikelen door vrouwelijke journalisten werd geschreven. Bij het NRC Han-delsblad is de verhouding mannen/vrouwen veel meer in balans. Bij deze krant werd 56,6% van alle artikelen door vrouwelijke journalisten geschreven. Deze on-derlinge verschillen tussen de kranten kunnen wellicht deels worden verklaard van-uit een inhoudelijke oriëntatie. De Telegraaf kan getypeerd worden als een populaire krant die meer de nadruk legt op sport en financiën. Artikelen over deze onderwer-pen zijn meer populair en worden voornamelijk door mannen geschreven, wat een verklaring kan zijn voor de oververtegenwoordiging van mannen bij De Telegraaf. Het NRC Handelsblad wordt meer gezien als een kwaliteitskrant, waarbij onderwer-pen als politiek, wetenschap en kunst meer aandacht krijgen. Over deze artikelen wordt meer geschreven door vrouwen, waardoor de verdeling mannnen/vrouwen bij deze krant meer in evenwicht is.

Naast de ongelijke verdeling mannen/vrouwen bij de verschillende kranten, was er ook een ongelijke verdeling te zien bij de verschillende secties. Artikelen van de sectie sport werden in slechts 13,5% van de gevallen door vrouwen geschre-ven. Daarentegen werden artikelen uit de sectie Cultuur en Media in 49,2% van de gevallen door vrouwen geschreven. Verklaringen hiervoor zijn dat sport voorname-lijk wordt gezien als een mannevoorname-lijk domein en Cultuur en Media een vorm van zacht nieuws is, wat vaker door vrouwen wordt geschreven.

Er zijn dus duidelijke verschillen in de aantallen artikelen geschreven door man-nen en vrouwen, en de verdeling daarvan. Wanneer we de deelvragen van het on-derzoek met betrekking tot genderverschillen in taalgebruik willen beantwoorden, dan leveren de resultaten het volgende beeld op.

Verschillen mannen op linguïstieke dimensies van vrouwen?

Uit de cijfers komt naar voren dat vrouwen gemiddeld langere artikelen schrijven, maar na een onderlinge vergelijking van de kranten bleek dit effect voornamelijk door de Volkskrant te worden veroorzaakt. Hoe het komt dat vrouwen in de Volks-krant langere artikelen schrijven, blijft onduidelijk. Wellicht dat verder onderzoek hier antwoord op kan geven. Op de overige linguïstische dimensies zijn bij enkele kranten voornamelijk verwaarloosbare en enkele kleine effecten gevonden. Er kan

(20)

Hoofdstuk 5. Conclusie 19 dus gezegd worden dat er verschillen zijn in linguïstische dimensies tussen artike-len van de verschilartike-lende kranten, maar dit beperkt zich echter tot een enkel medium effect bij de Volkskrant en een aantal kleine effecten bij kranten als het AD, De Te-legraaf en Trouw. Het NRC Handelsblad is hierop een uitzondering. Bij deze krant worden slechts verwaarloosbare effecten gevonden.

Wat betreft de secties zijn kleine tot medium effecten te zien in het aantal woor-den bij de secties Sport, Economie en Nieuws. Hoewel artikelen uit deze secties voornamelijk door mannen worden geschreven, zijn het klaarblijkelijk de vrouwe-lijke journalisten die met betrekking tot deze secties langere artikelen schrijven. Bij deze aantallen moet wel een kanttekening worden geplaatst: uit de cijfers van de verschillende kranten kwam namelijk naar voren dat het effect bij aantal woorden relatief groot was bij de Volkskrant (zie tabel4.1). Het gevonden effect voor het aan-tal woorden bij artikelen uit de secties Sport, Economie en Nieuws moet daarom voor een deel worden toegeschreven aan de Volkskrant. Bij de secties Economie, Nieuws en Opinie werden kleine effecten gevonden bij de dimensies woorden per zin en woorden >6 letters. Mannen gebruiken bij die secties dus iets meer woorden per zin en langere woorden. Met betrekking tot de eerste deelvraag, kan gecon-cludeerd worden dat de verschillen tussen mannen en vrouwen op de linguïstieke dimensies in zeer beperkte mate geconstateerd zijn. Wel zijn er enige verschillen gevonden tussen kranten en secties onderling, maar deze verschillen zijn verwaar-loosbaar of zeer klein.

Verschillen mannen op psychologische dimensies van vrouwen?

Wanneer de resultaten van alle artikelen worden bekeken, zijn slechts zeer kleine effecten te zien bij de psychologische dimensies. De cijfers van de verschillende kranten laten alleen een klein effect zien bij de dimensie subjectiviteit. Vrouwen schrijven bij de Volkskrant iets subjectievere artikelen dan bij de overige dagbladen. Wanneer gekeken wordt naar de overige dimensies, zijn bij de alle kranten slechts verwaarloosbare effecten te vinden. Wanneer gekeken wordt naar effecten op de psychologische dimensies per sectie, is te zien dat vrouwen subjectievere opinie-artikelen schrijven waarbij zij ook meer - voornamelijk negatieve - emotiewoorden gebruiken dan mannen. Bij de overige secties zijn veel effecten niet significant en verder verwaarloosbaar. Met betrekking tot de tweede deelvraag is er dus alleen een verschil te zien bij de Volkskrant op het gebied van subjectiviteit en in de opi-niesectie op het gebied van subjectivieit en negatieve emotiewoorden.

Zijn er verschillen tussen krantenartikelen geschreven door mannen en vrouwen?

Zoals uit de beantwoording van de deelvragen blijkt, zijn er verschillen gevonden worden tussen krantenartikelen geschreven door mannen en vrouwen. De sectie waarin het artikel wordt geplaatst en de krant waarin het artikel gepubliceerd wordt speelt daarbij een rol. De effecten zijn klein tot medium. Grote effecten zijn niet gevonden. Er zijn dus wel verschillen in krantenartikelen geschreven door mannen en vrouwen, maar deze verschillen zijn minimaal.

(21)

20

6 Reflectie

Wat betreft de sample zijn er een aantal reflectiepunten die voor een beter resul-taat hadden kunnen zorgen. Allereerst waren de artikelen slechts uit het jaar 2016 afkomstig. Hier is voor gekozen omdat LexisNexis slechts een beperkt aantal arti-kelen per keer kan exporteren. Als het mogelijk was geweest om alle artiarti-kelen van meerdere jaren te verkrijgen, zou het onderzoek een beter beeld geven van eventuele genderverschillen over een langere periode.

Met betrekking tot het totaal aantal artikelen in de oorspronkelijke ruwe dataset, moet een kanttekening geplaatst worden. Van de ruim 90.000 verzamelde artikelen moest een behoorlijk deel (ruim 22.000) verwijderd worden, omdat de auteur van het artikel niet vermeld was of het niet mogelijk bleek om het geslacht van de auteur te bepalen. Dit kan de respresentativiteit van de sample hebben aangetast. Tegelij-kertijd is de uiteindelijke hoeveelheid geanalyseerde artikelen nog groot genoeg om significante effecten te vinden.

Een derde kanttekening betreft de analyse van de artikelen per sectie. Deze ana-lyse werd uitgevoerd op alle artikelen per sectie. Daarbij werd geen rekening ge-houden met de verdeling van de artikelen over de verschillende kranten. Sommige kranten schrijven meer over sport en economie dan anderen. Hier had voor ge-corrigeerd kunnen worden door voor elke sectie een gelijk aantal artikelen uit de verschillende kranten te selecteren. Hiervoor is echter niet gekozen omdat daarvoor een groot deel van de artikelen verwijderd zou moeten worden, wat de representa-tiviteit aan zou tasten.

De vierde kanttekening betreft de emotiewoorden-analyse. Deze geeft mogelijk geen volledig correct beeld, omdat hierbij slechts woorden uit een lijst worden ge-teld. Ontkenningen en citaten worden niet herkend door deze methode, waardoor woorden onterecht als positief of negatief kunnen worden geteld. Hierdoor kan de postitiviteit/negativiteit van een artikel dus onjuist zijn. De sentimentanalyse houdt hier wel rekening mee, dus die cijfers geven een beter beeld van de daadwerkelijke positiviteit of negativiteit van een artikel.

De vijfde kanttekening betreft de namen dataset. Deze bestond uit de 10.000 meest voorkomende voornamen die in de periode van 1983 tot en met 2006 wa-ren aangemeld bij de Nationale Verzekeringsbank. Dit was de grootste dataset die beschikbaar was. Hoewel met deze dataset een groot deel van de namen geclassifi-ceerd kon worden, waren er ook een aantal namen die niet in de dataset voorkwa-men. Met een grotere dataset was het mogelijk geweest om meer namen te classifice-ren. Het Meertens instituut kon helaas geen grotere dataset verstrekken in verband met de contractuele verplichtingen die het is aangegaan bij het verkrijgen van de dataset. Ondanks de kleinere namen dataset, kon het geslacht van de overgrote meerderheid van de auteurs worden bepaald. Van de 72.315 artikelen waarbij een auteur vermeld was, kon in slechts 3606 gevallen geen geslacht worden bepaald.

Ondanks bovenstaande kanttekeningen, werden er significante resultaten ge-vonden met betrekking tot genderverschillen in taalgebruik. Het is zeer aannemelijk dat er verschillen zijn op het gebied van linguïstische en psychologische dimensies tussen artikelen geschreven door mannen en vrouwen. Hoewel deze verschillen

(22)

Hoofdstuk 6. Reflectie 21 klein zijn, zouden dit soort gegevens wel ingezet kunnen worden als features om een systeem te bouwen dat teksten automatisch kan classificeren op basis van ge-slacht, zelfs wanneer de naam van de auteur onbekend is. Hoewel de resultaten beperkt zijn, kunnen deze dus wel degelijk nuttig zijn. Wellicht dat in vervolgon-derzoek ook andere dimensies onderzocht kunnen worden om meer zicht te krijgen op mogelijke genderverschillen in Nederlandse landelijke dagbladen.

(23)

22

Bibliografie

Allan, S., Branston, G., & Carter, C. (2002). News, gender and power. Routledge. Baum, M. A. (2003). Soft news and political knowledge: Evidence of absence or

ab-sence of evidence? Political Communication, 20(2), 173–190. Brizendine, L. (2006). The female brain. Broadway Books.

Brooks, B. S., Kennedy, G., Moen, D. R., & Ranly, D. (2010). Workbook for News Repor-ting and WriRepor-ting. Macmillan.

Clark, C. (1997). Misery and company: sympathy in everyday life. The University of Chicago Press Chicago.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences . Hilsdale. NJ: Lawrence Earlbaum Associates, 2.

Deuze, M. & Dimoudi, C. (2002). Online journalists in the Netherlands: Towards a profile of a new profession. Journalism, 3(1), 85–100.

Djerf-Pierre, M. (2011). The difference engine: Gender equality, journalism and the good society. Feminist Media Studies, 11(01), 43–51.

Fedler, F., Bender, J. R., Davenport, L., & Drager, M. W. (2004). Reporting for the media. Oxford University Press, USA.

Gallagher, M. et al. (2005). Who makes the news. Global media monitoring project. Goldshmidt, O. T. & Weller, L. (2000). “Talking emotions”: Gender differences in a

variety of conversational contexts. Symbolic Interaction, 23(2), 117–134.

Hedges, L. V. & Olkin, I. (1985). Statistical Methods for Meta-Analysis. Academic Press. Hottinga, W. (2011). Gevoelens – een lijst van beschrijvende woorden.http://www. walterhottinga.nl/gevoelens-een-lijst-van-beschrijvende-woorden/. Geraad-pleegd op 28-06-2017.

Leaper, C. & Ayres, M. M. (2007). A meta-analytic review of gender variations in adults’ language use: Talkativeness, affiliative speech, and assertive speech. Personality and Social Psychology Review, 11(4), 328–363.

Leaper, C. & Smith, T. E. (2004). A meta-analytic review of gender variations in child-ren’s language use: talkativeness, affiliative speech, and assertive speech. De-velopmental psychology, 40(6), 993.

Lehman-Wilzig, S. N. & Seletzky, M. (2010). Hard news, soft news,‘general’news: The necessity and utility of an intermediate classification. Journalism, 11(1), 37– 56.

Lobo, P., Silveirinha, M. J., Torres da Silva, M., & Subtil, F. (2015). “In Journalism, we are all Men” Material voices in the production of gender meanings. Journalism Studies, 1–19.

Macharia, S. (2015). Who Makes the News?: Global Media Monitoring Project 2015. World Association for Christian Communication.

Macharia, S., O’Connor, D., & Ndangam, L. (2010). Who Makes the News?: Global Me-dia Monitoring Project 2010. World Association for Christian Communication. Marchese, J. & Hogarth, M. (1995). Global Media Monitoring Project: Women’s

Par-ticipation in the News. Toronto, MediaWatch (National Watch on Images of Women in the Media)[En ligne, réf. du 15-02-2010] URL:< http://www. who-makesthenews. org/report s/gmmp-reports. html.

(24)

BIBLIOGRAFIE 23 Mehl, M. R., Vazire, S., Ramirez-Esparza, N., Slatcher, R. B., & Pennebaker, J. W. (2007). Are Women Really More Talkative Than Men? Science, 317(5834), 82– 82.

Mukherjee, A. & Liu, B. (2010). Improving gender classification of blog authors. In Proceedings of the 2010 conference on Empirical Methods in natural Language Pro-cessing (pp. 207–217). Association for Computational Linguistics.

Mulac, A. & Lundell, T. L. (1994). Effects of gender-linked language differences in adults’ written discourse: Multivariate tests of language effects. Language & Communication, 14(3), 299–309.

Mulac, A., Studley, L. B., & Blau, S. (1990). The gender-linked language effect in primary and secondary students’ impromptu essays. Sex Roles, 23(9), 439–470. Muskens, G. J. (1968). Journalist als beroep: een sociologische analyse van de leden van de

N (ederlandse) V (ereniging van) J (ournalisten). Sociologisch Instituut.

Newman, M. L., Groom, C. J., Handelman, L. D., & Pennebaker, J. W. (2008). Gen-der differences in language use: An analysis of 14,000 text samples. Discourse Processes, 45(3), 211–236.

North, L. (2016). The Gender of “soft” and “hard” news: Female journalists’ views on gendered story allocations. Journalism Studies, 17(3), 356–373.

NOM oplagerapportage. (2017).http://www.nommedia.nl/1854400/Print-oplage. html. Geraadpleegd op 10-08-2017.

Pang, B. & Lee, L. (2008, januari). Opinion Mining and Sentiment Analysis. Found. Trends Inf. Retr. 2(1-2), 1–135.

Pedersen, D. M. & Kono, D. M. (1990). Perceived effects on femininity of the partici-pation of women in sport. Perceptual and Motor Skills, 71(3), 783–792.

Pleijter, A., Hermans, L., & Vergeer, M. (2012). Journalists and journalism in The Netherlands. In D. Weaver & L. Willnat (Red.), The global journalist in the 21st century (pp. 242–254). Routledge.

Ross, K. (2001). Women at work: Journalism as en-gendered practice. Journalism Stu-dies, 2(4), 531–544.

Ross, K. & Carter, C. (2011). Women and news: A long and winding road. Media, Culture & Society, 33(8), 1148–1165.

Schiffman, H. (2002). Bibliography of gender and language.

Schler, J., Koppel, M., Argamon, S., & Pennebaker, J. W. (2006). Effects of Age and Gender on Blogging. In AAAI spring symposium: Computational approaches to analyzing weblogs (Deel 6, pp. 199–205).

Smedt, T. D. & Daelemans, W. (2012). Pattern for python. Journal of Machine Learning Research, 13(Jun), 2063–2067.

Snyder, E. E. & Spreitzer, E. (1983). Change and variation in the social acceptance of female participation in sports. Journal of Sport Behavior, 6(1), 3.

Spears, G., Seydegart, K., & Gallagher, M. (2000). Who makes the news. Global media monitoring project.

Steiner, L. (2012). Failed theories: Explaining gender difference in journalism. Review of Communication, 12(3), 201–223.

Stoppard, J. M. & Gunn Gruchy, C. D. (1993). Gender, context, and expression of positive emotion. Personality and Social Psychology Bulletin, 19(2), 143–150. Thelwall, M., Wilkinson, D., & Uppal, S. (2010). Data mining emotion in social

net-work communication: Gender differences in MySpace. Journal of the Association for Information Science and Technology, 61(1), 190–199.

Thomson, R. & Murachver, T. (2001). Predicting gender from electronic discourse. British Journal of Social Psychology, 40(2), 193–208.

(25)

24

(26)

25

A

Verwerken van LexisNexis HTML bestanden

import pandas as pd import os

from bs4 import Bea utifu lSoup , Comment import r e import s t r i n g # f i l e s v e r z a m e l e n f i l e s = [ ] d a t a d i r = os . getcwd ( ) + " / L e x i s d a t a " f o r d i r e c t o r y in os . walk ( d a t a d i r ) : f o l d e r = d i r e c t o r y [ 0 ]

t h e f i l e s = [ item f o r item in d i r e c t o r y [ 2 ] i f not item . s t a r t s w i t h ( " . " ) ] i f len( t h e f i l e s ) > 0 : f o r t h e f i l e in t h e f i l e s : f i l e s . append ( f o l d e r + ’ / ’ + t h e f i l e ) d a t a s e t = [ ] def p r o c e s s f i l e s ( ) : i = 0 f o r f i l e in f i l e s : k r a n t = f i l e . s p l i t ( " / " ) [ 9 ] i +=1 p r i n t s t r( i ) + " / " + s t r ( len ( f i l e s ) ) soup = B e a u t i f u l S o u p ( open ( f i l e ) , " lxml " )

comments=soup . f i n d _ a l l ( s t r i n g =lambda t e x t : i s i n s t a n c e ( t e x t , Comment ) ) comment = comments [ 0 ]

comment . e x t r a c t ( ) newtext = s t r ( soup )

newtext = newtext . r e p l a c e ( " <!−− Hide XML s e c t i o n from browser " , " " ) newtext = newtext . r e p l a c e ( "−−>" , " " )

newsoup = B e a u t i f u l S o u p ( newtext , " lxml " ) docs = newsoup . f i n d _ a l l ( " d o c f u l l " )

f o r doc in docs :

wordelement = doc . f i n d _ a l l ( " span " , t e x t = "LENGTH: " ) i f( len ( wordelement ) > 0 ) :

e l = wordelement [ 0 ]

words = e l . f i n d _ n e x t _ s i b l i n g ( ) . t e x t e l s e :

words = " Onbekend "

s e c t i o n e l e m e n t = doc . f i n d _ a l l ( " span " , t e x t = "SECTION : " ) i f( len ( s e c t i o n e l e m e n t ) > 0 ) :

e l = s e c t i o n e l e m e n t [ 0 ]

s e c t i o n = e l . f i n d _ n e x t _ s i b l i n g ( ) . t e x t e l s e :

s e c t i o n = " Onbekend "

(27)

26 i f( len ( dateelement ) > 0 ) : e l = dateelement [ 0 ] date = e l . f i n d _ n e x t _ s i b l i n g ( ) . t e x t e l s e : date = " Onbekend " t i t l e e l e m e n t = doc . f i n d _ a l l ( " span " , { " c l a s s " : " c6 " } ) i f( len ( t i t l e e l e m e n t ) > 0 ) : t i t l e = t i t l e e l e m e n t [ 0 ] . t e x t e l s e : t i t l e = " Onbekend "

authorelement = doc . f i n d _ a l l ( " span " , t e x t = " BYLINE : " ) i f( len ( authorelement ) > 0 ) :

e l = authorelement [ 0 ]

author = e l . f i n d _ n e x t _ s i b l i n g ( ) . t e x t e l s e :

author = " Onbekend "

t e x t = " " . j o i n ( [ item . t e x t f o r item in doc . f i n d _ a l l ( " div " ) i f len( item . t e x t ) > 3 0 0 ] ) d a t a s e t . append ( { " t i t l e " : t i t l e , " auteur " : author , " t e k s t " : t e x t , " woorden " : words , " k r a n t " : krant , " s e c t i e " : s e c t i o n , " datum " : date } ) %time p r o c e s s f i l e s ( )

(28)

27

B

Voornaam van de auteur bepalen

import r e

namen = pd . read_csv ( " data/names . csv " ) #namen d a t a s e t i n l e z e n # a l l e e n namen van > 1 l e t t e r

namen = [ naam . lower ( ) f o r naam in namen . name . v a l u e s i f len ( naam ) > 1 ] # R e g u l a r E x p r e s s i o n maken van d e namen

namenexp = " (\\b " + " \\b|\\b " . j o i n ( namen ) + " \\b ) " regex = r e . compile ( namenexp , f l a g s = r e . I | r e . X )

# m e t h o d e om voornaam e r u i t t e h a l e n def findname ( s t r i n g ) : h i t s = r e . f i n d a l l ( regex , s t r i n g ) i f len( h i t s ) > 0 : naam = h i t s [ 0 ] e l s e: naam = " n i e t gevonden " r e t u r n naam df [ " voornaam " ] = df . aute ur # o m z e t t e n n a a r l o w e r c a s e

df [ " voornaam " ] = df . voornaam . apply ( lambda x : x . lower ( ) ) # v e r b o d e n woorden s t r i p p e n

s t r i p = [ " cor res pond ent " , " r e d a c t e u r " , " medewerker " , " medewerkster " , " r e d a c t i e " , " t e k s t " , " v e r s l a g g e v e r s " " v e r s l a g g e v e r " ,

" v e r s l a g g e e f s t e r " , " van " , " door " , " onze " ] remove = " | " . j o i n ( s t r i p )

s t r i p r e g e x = r e . compile ( remove , f l a g s = r e . IGNORECASE) # i g n o r e c a s e df [ " c l e a n " ] = df . voornaam . apply ( lambda x : r e . sub ( s t r i p r e g e x , " " , x ) ) df [ " voornaam " ] = df . voornaam . apply ( lambda x : findname ( x ) )

(29)

28

C

Verwerken van namen databestand

#namen XML f i l e n a a r CSV import xml . e t r e e . ElementTree as ET import csv f i l e = " data/voornamen . xml " t r e e = ET . p a r s e ( f i l e ) r o o t = t r e e . g e t r o o t ( )

with open ( ’ data/names . csv ’ , ’w’ ) as c s v f i l e : w r i t e r = csv . w r i t e r ( c s v f i l e ,

d e l i m i t e r = ’ , ’ , quotechar= ’ | ’ ,

quoting=csv .QUOTE_MINIMAL)

w r i t e r . writerow ( [ " gender " , " name " , " t o t a l " ] ) f o r r e c o r d in t r e e . f i n d a l l ( ’ r e c o r d ’ ) :

gender = r e c o r d . f i n d ( " g e s l a c h t " ) . t e x t . encode ( " u t f −8" ) name = r e c o r d . f i n d ( " voornaam " ) . t e x t . encode ( " u t f −8" )

t o t a l = r e c o r d . f i n d ( " t 8 3 0 6 " ) . t e x t . encode ( " u t f −8" ) w r i t e r . writerow ( [ gender , name , t o t a l ] )

#CSV l e z e n met p a n d a s import pandas as pd

namen = pd . read_csv ( " data/names . csv " ) namen . head ( )

# Omzetten n a a r t a b e l met f o r m a a t Voornaam G e s l a c h t df = namen . p i v o t _ t a b l e ( index= " name " ,

columns= " gender " , aggfunc=sum , margins=True ) df = df . t o t a l df . columns . name = " " df [ " r a t i o " ] = df [ "M" ]/ df [ " A l l " ] df = df . f i l l n a ( 0 ) df = df . r e s e t _ i n d e x ( ) df = df . drop ( df . index [ 0 ] ) df . columns = [ " voornaam " , "M" , "V" , " A l l " , " r a t i o " ] #Man / Vrouw b e p a l e n def manVrouw ( x ) : i f x < 0 . 0 5 : r e t u r n "V" e l i f x > 0 . 9 5 : r e t u r n "M" df [ " g e s l a c h t " ] = df . r a t i o . apply ( manVrouw ) # E x p o r t e r e n n a a r E x c e l f i l e df [ [ " voornaam " , " g e s l a c h t " ] ] . t o _ e x c e l ( " namen . x l s x " )

(30)

29

D

Opschonen van de secties

compleet [ " s e c t i e " ] = compleet [ " s e c t i e " ] . r e p l a c e ( t o _ r e p l a c e = " v opening " , value= " nieuws " )

compleet [ " s e c t i e " ] = compleet [ " s e c t i e " ] . r e p l a c e ( t o _ r e p l a c e = " t e n e e r s t e " , value= " nieuws " )

compleet [ " s e c t i e " ] = compleet [ " s e c t i e " ] . r e p l a c e ( t o _ r e p l a c e = " i n h e t nieuws " , value= " nieuws " )

compleet [ " s e c t i e " ] = compleet [ " s e c t i e " ] . r e p l a c e ( t o _ r e p l a c e = " nieuwsdienst " , value= " nieuws " )

compleet [ " s e c t i e " ] = compleet [ " s e c t i e " ] . r e p l a c e ( t o _ r e p l a c e = " nederland " , value= " nieuws " )

compleet [ " s e c t i e " ] = compleet [ " s e c t i e " ] . r e p l a c e ( t o _ r e p l a c e = " binnenland " , value= " nieuws " )

compleet [ " s e c t i e " ] = compleet [ " s e c t i e " ] . r e p l a c e ( t o _ r e p l a c e = " b u i t e n l a n d " , value= " nieuws " )

compleet [ " s e c t i e " ] = compleet [ " s e c t i e " ] . r e p l a c e ( t o _ r e p l a c e = " vandaag " , value= " nieuws " )

(31)

30

E

Linguistieke dimensies bepalen

# G e m i d d e l d e a a n t a l woorden p e r z i n

compleet [ " woordenperzin " ] = compleet . t e k s t . apply ( n l t k . s e n t _ t o k e n i z e ) compleet . woordenperzin = compleet . woordenperzin . apply ( lambda x : len ( x ) ) compleet . woordenperzin = compleet . woorden/compleet . woordenperzin

# Woorden > 6 l e t t e r s

compleet [ " woordenzesplus " ] = compleet . t e k s t . apply ( n l t k . word_tokenize ) compleet . woordenzesplus = compleet . woordenzesplus . apply ( lambda x : len( [ word f o r word in x i f len ( word ) > 6 ] ) )

compleet [ " woordenzesplus " ] =

compleet [ " woordenzesplus " ]/ compleet [ " woorden " ] ∗ 100 # V r a a g t e k e n s

compleet [ " v r a a g t e k e n s " ] = compleet . t e k s t . apply ( lambda x : x . count ( " ? " ) )

(32)

31

F

Bepalen van psychologische dimensies

# S e n t i m e n t

compleet [ " s e n t i m e n t " ] = compleet [ " t e k s t " ] . apply ( s e n t i m e n t )

compleet [ " s e n t i m e n t p o l a r i t e i t " ] = compleet [ " s e n t i m e n t " ] . apply ( lambda x : x [ 0 ] ) compleet [ " s u b j e c t i v i t e i t " ] = compleet [ " s e n t i m e n t " ] . apply ( lambda x : x [ 1 ] ) # N e g a t i v e / p o s i t i v e words ( H o t t i n g a )

emotionspos = [ u ’ toegenegen ’ , u ’ z e l f v e r z e k e r d ’ , u ’ v e r f r i s t ’ , u ’ betrokken ’ , u ’ h a r t e l i j k ’ , u ’ g e s t e r k t ’ , u ’ g e s t i m u l e e r d ’ , u ’ a a n d a c h t i g ’ ,

u ’ l i e f d e v o l ’ , u ’ open ’ , u ’ t r o t s ’ , u ’ h e r s t e l d ’ , u ’ betoverd ’ , u ’ t e d e r ’ , u ’ vastberaden ’ , u ’ u i t g e r u s t ’ , u ’ geboeid ’ , u ’ v ol ’ , u ’ mededogen ’ , u ’ v e i l i g ’ , u ’ zeker ’ , u ’ verjongd ’ , u ’ g e f a s c i n e e r d ’ , u ’ v r i e n d e l i j k ’ , u ’ z e l f b e w u s t ’ , u ’ vernieuwd ’ ,

u ’ ge\ x e f n t e r e s s e e r d ’ , u ’ zachtmoedig ’ , u ’ g e s t i m u l e e r d ’ , u ’ ge\ x e f n t r i g e e r d ’ , u ’warm ’ , u ’ dankbaar ’ , u ’ e n e r g i e k ’ ,

u ’ g e s t i m u l e e r d ’ , u ’ dankbaar ’ , u ’ e n t h o u s i a s t ’ , u ’ n i e u w s g i e r i g ’ , u ’ hoopvol ’ , u ’ e r k e n t e l i j k ’ , u ’ geanimeerd ’ , u ’ v e r d i e p t ’ , u ’ bemoedigd ’ , u ’ g e r a a k t ’ , u ’ g e p a s s i o n e e r d ’ , u ’ waakzaam ’ , u ’ o p t i m i s t i s c h ’ , u ’ o n t r o e r d ’ , u ’ g e p r i k k e l d ’ , u ’ v e r w a c h t i n g s v o l ’ , u ’ l e v e n d i g ’ , u ’ v r e d i g ’ , u ’ opgebeurd ’ , u ’ verbaasd ’ , u ’ g e c e n t r e e r d ’ , u ’ g e s t i m u l e e r d ’ , u ’ e x t a t i s c h ’ , u ’ v e r b l u f t ’ , u ’ g e l i j k m o e d i g ’ , u ’ e n e r g i e k ’ , u ’ g e e s t d r i f t i g ’ , u ’ verlangend ’ , u ’ g e l u k k i g ’ , u ’ e n t h o u s i a s t ’ , u ’ g e l u k z a l i g ’ , u ’ v e r r a s t ’ , u ’ g e r u s t ’ , u ’ h e l d e r ’ , u ’ geanimeerd ’ , u ’ h a r t s t o c h t e l i j k ’ , u ’ v e r s t e r k t ’ , u ’ kalm ’ , u ’ g e p a s s i o n e e r d ’ , u ’ opgewekt ’ , u ’ verwonderd ’ , u ’ ontspannen ’ , u ’ g e p r i k k e l d ’ , u ’ opgewonden ’ , u ’ vurig ’ , u ’ opgelucht ’ , u ’ l e v e n d i g ’ ,

u ’ s t r a l e n d ’ , u ’ verbaasd ’ , u ’ uitbundig ’ , u ’ v r o l i j k ’ ,

u ’ r u s t i g ’ , u ’ v e r b l u f t ’ , u ’ u i t g e l a t e n ’ , u ’ b l i j ’ , u ’ s e r e e n ’ , u ’ verlangend ’ , u ’ v e r r u k t ’ , u ’ f r i v o o l ’ , u ’ s t i l ’ , u ’ v e r r a s t ’ , u ’ geamuseerd ’ , u ’ tevreden ’ , u ’ v e r s t e r k t ’ , u ’ ge\ x e f n s p i r e e r d ’ , u ’ g e l u k k i g ’ , u ’ vervuld ’ , u ’ verwonderd ’ , u ’ opgetogen ’ ,

u ’ voldaan ’ , u ’ vurig ’ , u ’ verbaasd ’ , u ’ uitbundig ’ , u ’ verwonderd ’ ]

emotionsneg = [ u ’ bang ’ , u ’ a f k e e r ’ , u ’ o n r u s t ’ , u ’ verward ’ , u ’ a n g s t i g ’ , u ’ haatdragend ’ , u ’ a l e r t ’ , u ’ g e a g i t e e r d ’ , u ’ ambivalent ’ ,

u ’ paniek ’ , u ’ minachtend ’ , u ’ gealarmeerd ’ , u ’ a a r z e l e n d ’ , u ’ o n t s t e l d ’ , u ’ geschrokken ’ , u ’ o n t h u t s t ’ , u ’ ongerust ’ , u ’ v i j a n d i g ’ , u ’ nerveus ’ , u ’ onzeker ’ , u ’ walging ’ ,

u ’ ongemakkelijk ’ , u ’ p e r p l e x ’ , u ’ v e r s c h r i k t ’ , u ’ ontdaan ’ , u ’ o n t h u t s t ’ , u ’ v e r b i j s t e r d ’ , u ’ v e r s t e e n d ’ , u ’ o p g e l a t e n ’ , u ’ ontmoedigd ’ , u ’ v e r l o r e n ’ , u ’ v e r o n t r u s t ’ , u ’ o n b e h a a g l i j k ’ , u ’ o n t s t e l d ’ , u ’ wantrouwend ’ , u ’ ongemakkelijk ’ , u ’ verbaasd ’ , u ’ t r e u r i g ’ , u ’ beschaamd ’ , u ’ verbouwereerd ’ , u ’ bedroefd ’ , u ’ vermoeid ’ , u ’ s c h u l d i g ’ , u ’ v e r s c h r i k t ’ , u ’ melancholiek ’ ,

u ’ f u t l o o s ’ , u ’ verward ’ , u ’ ontmoedigd ’ , u ’ l e e g ’ , u ’ ge\xebrgerd ’ , u ’ ongelukkig ’ , u ’ l u s t e l o o s ’ , u ’ p i j n ’ , u ’ boos ’ ,

u ’ t e r n e e r g e s l a g e n ’ , u ’ s l a p e r i g ’ , u ’ a l l e e n ’ , u ’ g e f r u s t r e e r d ’ , u ’ t e l e u r g e s t e l d ’ , u ’ u i t g e b l u s t ’ , u ’ berouwvol ’ , u ’ ge\ x e f r r i t e e r d ’ ,

(33)

32 u ’ v e r d r i e t i g ’ , u ’ u i t g e p u t ’ , u ’ gebroken ’ , u ’ ongeduldig ’ ,

u ’ wanhopig ’ , u ’ v e r s l a g e n ’ , u ’ gekweld ’ , u ’ ontevreden ’ , u ’ t r i e s t ’ , u ’ gekwetst ’ , u ’ ontstemd ’ , u ’ machteloos ’ , u ’ m i s e r a b e l ’ , u ’ afwezig ’ , u ’ hopeloos ’ , u ’ ontredderd ’ , u ’ kwaad ’ , u ’ a f s t a n d e l i j k ’ ,

u ’ h u l p e l o o s ’ , u ’ f u r i e u s ’ , u ’ a p a t h i s c h ’ , u ’ moedeloos ’ ,

u ’ gespannen ’ , u ’ razend ’ , u ’ g e l a t e n ’ , u ’ k o e l ’ , u ’ c h a g r i j n i g ’ , u ’ verontwaardigd ’ , u ’ onge\ x e f n t e r e s s e e r d ’ , u ’ kwetsbaar ’ , u ’ ge\ x e f r r i t e e r d ’ , u ’ woedend ’ , u ’ o n v e r s c h i l l i g ’ , u ’ g e v o e l i g ’ , u ’ overweldigd ’ , u ’ wraakzuchtig ’ , u ’ t e r u g g e t r o k k e n ’ , u ’ h u l p e l o o s ’ , u ’ r u s t e l o o s ’ , u ’ v e r v e e l d ’ , u ’ onzeker ’ , u ’ zenuwachtig ’ , u ’ verlangend ’ , u ’ vervreemd ’ , u ’ w i e b e l i g ’ , u ’ a f g u n s t i g ’ , u ’ hunkerend ’ , u ’ j a l o e r s ’ , u ’ n o s t a l g i s c h ’ , u ’ smachtend ’ ] def negwords ( t e x t ) : negwords = 0 t o k e n i z e r = RegexpTokenizer ( r ’ \w+ ’ ) tokens = t o k e n i z e r . t o k e n i z e ( t e x t ) lower = [w. lower ( ) f o r w in tokens ] f o r token in lower : i f token in emotionsneg : negwords +=1 r e t u r n negwords def poswords ( t e x t ) : poswords = 0 t o k e n i z e r = RegexpTokenizer ( r ’ \w+ ’ ) tokens = t o k e n i z e r . t o k e n i z e ( t e x t ) lower = [w. lower ( ) f o r w in tokens ] f o r token in lower :

i f token in emotionspos : poswords +=1

r e t u r n poswords

compleet [ " negatievewoorden " ] = compleet . t e k s t . apply ( lambda x : negwords ( x ) )

compleet [ " negatievewoorden " ] = compleet [ " negatievewoorden " ]/ compleet [ " woorden " ] ∗ 100 compleet [ " positievewoorden " ] = compleet . t e k s t . apply ( lambda x : poswords ( x ) )