Blijft U bij de les? Een methode voor het bepalen of sprekers in een debat zich bij het onderwerp houden

(1)

Blijft U bij de les?

Een methode voor het bepalen of sprekers in een debat zich bij het

onderwerp houden

Bachelorscriptie Informatiekunde Jesse Bouma

10056947

Begeleider: dhr. dr. M.J. (Maarten) Marx 17-06-2015 

(2)

Abstract

Tegenwoordig worden in Nederland alle parlementaire documenten digitaal openbaar gemaakt. Dit paper richt zich op de documenten van de Tweede Kamer debatten van de zittingsjaren 1999 tot en met 2011. Met behulp van deze data wordt naar een methode gezocht waarmee bepaald kan worden in hoeverre sprekers in een Tweede Kamer debat bij het onderwerp (“bij de les”) blijven. Dit wordt gedaan door het woordgebruik van sprekers met elkaar te vergelijken. Hoe groter de gelijkenis in het woordgebruik, hoe meer er over hetzelfde onderwerp gepraat wordt. De Cosine Similarity blijkt een ideale maat voor het bepalen van de gelijkenis van stukken tekst. Twee maten voor “bij de les” blijven worden onderzocht, de MRR van sprekers en de pure cosine similarity waarde. Twee methodes worden geëvalueerd. Een methode die het woordgebruik van een spreker met de rest van het debat vergelijkt, en een methode die het woordgebruik van een spreker met het woordgebruik van de startspreker vergelijkt. De laatstgenoemde methode blijkt het beste uit de evaluatie te komen. De MRR maat werkt daarbij het best. De cosine similarity waarde kan echter in meer detail de verschillen tussen de sprekers laten zien. Voor beide methodes worden mogelijke toepassingen besproken. 

(3)

Inhoudsopgave

Abstract...2

1. Introductie...4

1.1. Onderzoeksvragen...5

2. Gebruikte technieken...6

2.1. Maat voor gelijkenis...6

2.1.1. Metriek...6 2.1.2. Afwijking...6 2.1.3. Gelijkenis...7 2.1.4. Cosine similarity...7 2.2. TF-IDF...8 3. De data...9 3.1. Dataset...9 3.2. Filteren...9 3.3. Voorbewerken...10 3.4. Datastructuur...10 4. Aanpak...11 4.1. Methodes...11 4.1.1. Methode 1...11 4.1.2. Methode 2...11

4.2. Maten voor “bij de les blijven”...11

4.2.1. De MRR “terugvind-maat”...11

4.2.2. De cosine similarity binnen het debat...12

5. Resultaten...13

5.1. Resultaten methode 1...13

5.2. Resultaten methode 2...14

6. Evaluatie...16

6.1. Het vergelijken van de methodes...16

6.2. Evaluatie met debatten...18

6.2.1. Debat 1...18 6.2.2. Debat 2...19 6.2.3. Debat 3...20 6.3. Toepassingen...21 7. Conclusie...23 8. Bibliografie...24 9. Appendix...26 9.1. Resultaten methode 1 - MRR...26

9.2. Resultaten methode 1 - Cosine Similarity...28

9.3. Resultaten methode 2 - MRR...29

(4)

1. Introductie

Tegenwoordig worden in Nederland alle parlementaire documenten digitaal openbaar gemaakt. Hieronder vallen de Kamerverslagen, de schriftelijke verslagen van alle handelingen van zowel de Eerste als de Tweede Kamer. Van de afgelopen 200 jaar zijn deze documenten digitaal beschikbaar. Staten-Generaal Digitaal bevat de parlementaire

documenten van 1814 tot 1995 . Vanaf 1995 worden deze documenten gepubliceerd via 1

de website van de Nederlandse overheid . De Universiteit van Amsterdam heeft de 2 Kamerverslagen over 13 jaar (1999 t/m 2011) beschikbaar in een zeer rijk XML formaat , 3 waarin bijvoorbeeld de sprekers gemarkeerd zijn met hun functie en zelfs het type van elk gesproken woord in vermeld staat.

Dit paper richt zich op Tweede Kamer debatten uit laatstgenoemde dataset. Debatten in de Tweede Kamer hebben een bepaalde structuur, zie figuur 1.1. Vaak begint een minister met spreken over een bepaald onderwerp. Deze beginspreker heeft de meeste invloed op de richting van het debat en het bepalen van het onderwerp. Vervolgens hebben meerdere sprekers de mogelijkheid hun mening te geven over het onderwerp en in te gaan op de minister. Er is altijd de mogelijkheid een spreker te interrumperen.

Figuur 1.1. De structuur van een debat in de Tweede Kamer. De minister begint met spreken, omdat deze het meest te zeggen heeft over een onderwerp. Vervolgens zijn de andere sprekers aan de beurt. Interrupties zijn bij alle sprekers mogelijk. Van een spreker kan de gelijkenis van het woordgebruik met andere sprekers bepaald worden. Deze gelijkenis geeft een beeld van hoe erg de sprekers het over hetzelfde onderwerp hebben.

http://www.statengeneraaldigitaal.nl 1 https://www.overheid.nl 2 http://ode.politicalmashup.nl/data/summarise/folia/ 3

(5)

In dit onderzoek wordt gezocht naar een methode waarmee bepaald kan worden in hoeverre sprekers zich bij het onderwerp houden (“bij de les blijven”) van het debat. Dit wordt gedaan door het woordgebruik van de sprekers met elkaar te vergelijken. Deze vergelijking wordt op twee manieren gedaan. De eerste manier is om het woordgebruik van een spreker te vergelijken met het woordgebruik van alle andere sprekers in het debat, waaronder de startspreker. Maar omdat de startspreker wellicht het meest het onderwerp van het debat bepaalt, is de tweede manier het vergelijken van het woordgebruik van een spreker met het woordgebruik van alleen de startspreker van het debat. Hoe groter de gelijkenis in het woordgebruik van sprekers, hoe meer deze sprekers zich bij hetzelfde onderwerp houden. Met behulp van literatuur en gerelateerde onderzoeken zal naar een geschikte maat van gelijkenis tussen twee stukken tekst gezocht worden.

Er is geen methode bekend waarmee het mogelijk is te bepalen in hoeverre sprekers zich bij hetzelfde onderwerp houden. En omdat er gezocht zal worden naar zo’n methode zullen meerdere methodes geëvalueerd en tegen elkaar af gezet worden. Verschillende voorstellen voor mogelijke methodes zullen worden gedaan evenals mogelijke toepassingen.

1.1. Onderzoeksvragen

Dit onderzoek zal antwoord geven op een aantal onderzoeksvragen. Om structuur te geven aan dit verslag hebben de verschillende onderzoeksvragen een naam gekregen. Er is één hoofdvraag (RQ). Deze hoofdvraag bestaat uit een tweetal subvragen (RQ1 en RQ2). De tweede subvraag is weer onderverdeeld in drie subvragen (RQ2.1 t/m RQ2.3). Al deze subvragen helpen bij het beantwoorden van de hoofdvraag. De onderzoeksvragen zijn als volgt:

RQ: Wat voor methode kan ontwikkeld worden voor het bepalen of een spreker in een

debat zich “bij de les houdt”?

RQ1: Welke maat van gelijkenis tussen stukken tekst is het meest geschikt voor deze methode?

RQ2: Hoe presteren verschillende methodes met het bepalen of een spreker zich "bij de les houdt”?

RQ2.1: Wat is het effect van het vergelijken van verschillende delen van een debat?

RQ2.2: Hoe verschillen verscheidene maten voor “bij de les blijven” met elkaar?

RQ2.3: Komen de resultaten van de methodes overeen met met de hand bepaalde gelijkenissen in een debat? 

(6)

2. Gebruikte technieken

2.1. Maat voor gelijkenis

Allereerst moet een geschikte maat voor gelijkenis gevonden worden voor dit onderzoek. Er zijn veel verschillende maten voor gelijkenis en afwijking die gebruikt worden om stukken tekst met elkaar te vergelijken. Een aantal zullen hier besproken worden. Tenslotte zal de meest geschikte maat gekozen worden voor gebruik in dit onderzoek.

2.1.1. Metriek

Het is belangrijk te realiseren of een maat wel een metriek, ook wel afstand, is. Een metriek dient aan een viertal eisen te voldoen (Uhlmann, 1991):

Als d(x, y) de afstand is tussen punt x en punt y, dan moet:

1. De afstand symmetrisch zijn. Dat wil zeggen dat de afstand van x naar y even groot moet zijn als de afstand van y naar x, d(x, y) = d(y, x).

2. De afstand tussen punt x en punt y mag niet negatief zijn, 0 <= d(x, y). 3. De afstand is 0 alleen als de punten identiek zijn, d(x, x) = 0.

4. De driehoeksongelijkheid moet voldoen. De weg van punt x naar punt z naar punt y is altijd langer dan de weg van punt x naar punt y, d(x, y) <= d(x, z) + d(z, y).

Het is van belang dat de gelijkenis maat die gezocht wordt voor dit onderzoek een metriek is, omdat daardoor de maten voor gelijkenis van verschillende sprekers in de debatten bij elkaar opgeteld mogen worden. Zo is het mogelijk om bijvoorbeeld de gemiddelde gelijkenis uit te rekenen van sprekers.

2.1.2. Afwijking

De divergence, ook wel afwijking, wordt in de statistiek als maat gebruikt voor hoe verschillend twee frequentieverdelingen zijn (Dodge et al., 2003). De Kullback-Leibler divergence doet dit door te meten wat het gemiddeld aantal bits is dat verloren gaat wanneer de eerste frequentieverdeling geëncodeerd zou worden door middel van de tweede frequentieverdeling (Manning, 1999). Deze maat is zodoende het verschil in entropy tussen twee frequentieverdelingen en wordt daarom ook wel relatieve entropy genoemd (Cover & Thomas, 1991). De KL divergence is echter niet symmetrisch, nooit negatief en kan mogelijk oneindig zijn en wordt daarom vaak als afstand gezien tussen twee frequentieverdelingen en niet als maat (Manning, 1999). De Jensen-Shannon divergence, gebaseerd op de KL divergence, is echter wel symmetrisch en heeft altijd een eindige waarde (Lin, 1991).

(7)

2.1.3. Gelijkenis

Voor de gelijkenis tussen stukken tekst is de Cosine Similarity, zie 2.1.4., één van de meest populaire maten (Huang, 2008). De hoek tussen twee vectoren wordt vaak als een maat voor afwijking gebruikt, terwijl de cosinus van de hoek een maat voor gelijkenis is omdat de cosinus de handige eigenschap heeft dat deze 1.0 is voor geheel gelijke vectoren en 0.0 voor totaal ongelijke vectoren (Singhal, 2001).

Een andere, wat simpelere, maat voor similarity is de Jaccard Coëfficiënt. Deze waarde is simpelweg het aantal woorden wat in beide stukken tekst voorkomt gedeeld door het aantal woorden van de union van beide stukken tekst (Friburger et al., 2002).

Verder wordt de Block Distance, ook wel Manhattan Distance, nog wel eens gebruikt. Deze meet de afstand van het ene punt naar het andere als er alleen over een rooster bewogen mag worden en meet dus de som van de verschillen tussen de coördinaten van de twee punten (Gomaa & Fahmy, 2013). Ook de bekende Euclidean Distance wordt wel eens gebruikt voor het bepalen van de afstand tussen twee stukken tekst en bevat direct alle eigenschappen van een metriek (Huang, 2008).

2.1.4. Cosine similarity

Stukken tekst kunnen als woord-vectoren gerepresenteerd worden. Deze vectoren bestaan uit de frequenties van de woorden. De cosinus van de hoek tussen twee van deze vectoren wordt de cosine similarity genoemd (Tata & Patel, 2007). De cosine similarity wordt berekend door het inproduct van de twee vectoren te delen door de som van de lengte van de twee vectoren:

Hoe kleiner de hoek tussen twee vectoren, hoe groter de cosinus. Een grote cosinus geeft dus een grote gelijkenis aan. In het geval van vectoren met alleen maar positieve waarden ligt de cosinus tussen de 0 en de 1.

Hier volgt een simpel voorbeeld om de cosine similarity toe te lichten. Vector a is [1, 1, 0] en vector b is [1, 0, 1]. De cosine similarity tussen a en b is dan (1*1 + 1*0 + 0*1) / (wortel(1^2 + 1^2) * wortel(1^2 + 1^2)) = 0.5. Dit betekent een hoek van 60 graden tussen de vectoren. Stel nu dat b is [1, 1, 1]. De cosine similarity wordt dan (1*1 + 1*1 + 0*1) / (wortel(1^2 + 1^2) * wortel(1^2 + 1^2 + 1^2)) = 0.81. Nu is de hoek ongeveer 35 graden. Kleinere hoek betekent grotere cosinus en betekent een grotere gelijkenis.

In dit onderzoek zal de cosine similarity als maat voor gelijkenis tussen de stukken tekst van de debatten gebruikt worden. De cosine similarity is een robuuste metriek voor het scoren van de gelijkenis tussen twee strings (Tata & Patel, 2007). Een belangrijke eigenschap van cosine similarity is dat deze onafhankelijk is van de lengte van de

(8)

documenten (Huang, 2008). De maat is namelijk afhankelijk van de hoek tussen de twee vectoren, waarbij de lengte van de vectoren geen invloed hebben. Dit betekent dat twee documenten met verschillende aantallen woorden maar wel met dezelfde samenstelling van die woorden als identiek worden beschouwd. Voor dit onderzoek is dit erg handig omdat de grootte van de stukken tekst van de debatten erg met elkaar kunnen verschillen.

De cosine similarity kan makkelijk omgezet worden naar een metriek, de zogenaamde angular similarity (Van Dongen & Enright, 2012). Deze maat heeft alle eigenschappen van een metriek, wat later in dit onderzoek van pas komt. De angular similarity wordt als volgt berekend:

waarbij sim die cosine similarity zoals hierboven is.

2.2. TF-IDF

De TF-IDF waarde van elk woord in elke scene zal worden uitgerekend. Deze waarde geeft aan hoe belangrijk een woord is in het hele corpus. TF-IDF bepaalt de relatieve frequentie van een woord vergeleken met het inverse aantal van dat woord over alle documenten in het corpus (Ramos, 2003). Dit zal duidelijker worden door eerst uit te leggen wat TF inhoudt en vervolgens uit te leggen wat IDF inhoudt.

TF staat voor term frequency, en is simpelweg het aantal keer dat een term voorkomt in een document (Hiemstra, 2000). De notatie tf(t, d) geeft aan hoe vaak term t in document d voorkomt. Als voor alle woorden alleen deze waarde uitgerekend zou worden, dan zouden woorden die vaker voorkomen ook belangrijker zijn.

Echter kunnen woorden in meerdere documenten van het corpus vaak voorkomen. Als een woord vaak voorkomt in alle documenten van het corpus dan is dit woord ook niet belangrijk. Het woord maakt een document dan namelijk niet meer uniek. Met alleen de TF waarden wegen alle termen allemaal even zwaar mee. Maar met de IDF waarde worden veel voorkomende woorden minder belangrijk en worden zeldzame woorden belangrijker. IDF staat voor Inverse Document Frequency (Ramos, 2003). Deze waarde geeft aan hoe belangrijk een term is. Veel voorkomende woorden krijgen een lage IDF en zeldzame woorden krijgen een hoge IDF. IDF wordt als volgt berekend:

.

Tenslotte is de TF-IDF waarde de vermenigvuldiging van TF met IDF. Zo krijgen onbelangrijke woorden, zoals stopwoorden, een lagere TF-IDF waarde doordat hun IDF lager is dan die van belangrijkere woorden die minder vaak voorkomen in het corpus. 

(9)

3. De data

3.1. Dataset

De dataset bevat 13 jaar aan verslagen van alle Handelingen van zowel de Eerste als 4 Tweede Kamer. Het gaat om de zittingsjaren 1999 tot en met 2011. Per jaar worden er tussen de 1000 en 2000 Handelingen verricht en per Handeling is het verslag beschikbaar in een rijk xml formaat.

De vele xml-tags in de verslagen maken het makkelijk de data te doorzoeken. Een aantal tags in het bijzonder zijn voor dit onderzoek erg bruikbaar voor het filteren van de data. Zo heeft elk verslag een uniek ID gekregen en is er een tag voor in welke Kamer de Handeling is verricht. Ook voor elke spreker is een uniek ID gegenereerd en is de functie vastgesteld, zoals “Voorzitter” of “Minister”.

Om structuur te geven aan de handelingen van de sprekers worden verscheidene xml-tags gebruikt. Een debat bestaat uit meerdere sprekers die één voor één hun praatje mogen houden, zie figuur 1.1. Dit praatje met alle gebeurtenissen daaromheen, zoals interrupties, wordt een “scene” genoemd. In de scene-tag staat wie er aan het woord is en wat zijn of haar functie is.

Scenes bestaan uit “speeches”. Een speech is datgene wat gezegd wordt door de spreker die de scene is gestart of door een spreker die interrumpeert. Ook per speech wordt aangegeven wie de spreker is en wat zijn of haar functie is.

De daadwerkelijk gesproken tekst per speech is weer opgedeeld in alinea’s. Per alinea is aan elk woord een tag toegewezen. In die tag zit vervolgens een tag voor het lemma van het gesproken woord, een tag voor de part-of-speech tag van het gesproken woord en een tag met daarin het daadwerkelijk gesproken woord. Deze tags laten zien hoe rijk aan informatie de xml bestanden zijn. Dit maakt het aanzienlijk makkelijker om de benodigde data voor dit onderzoek uit deze gigantische dataset te filteren.

3.2. Filteren

Om de benodigde data voor dit onderzoek uit de dataset te halen zullen alle xml bestanden afgegaan moeten worden. Vanwege de hoeveelheid kunnen de xml bestanden echter niet allemaal tegelijk in het geheugen geladen worden. De dataset bestaat namelijk uit tientallen gigabytes. Daarom is een zogenaamde streaming xml parser gebruikt. Streaming houdt in dat één bestand per keer kan worden verwerkt en niet alle bestanden tegelijk. Zo neemt maar één bestand per keer geheugen in beslag. Hiermee is het mogelijk de xml bestanden in de dataset één voor één in het geheugen te laden, er de benodigde data uit te filteren, de benodigde berekeningen ter plekke daarop los te laten en tenslotte het xml bestand weer uit het geheugen te verwijderen.

http://ode.politicalmashup.nl/data/summarise/folia/

(10)

In dit onderzoek wordt per debat het woordgebruik van sprekers op scene-niveau met elkaar vergeleken. Dit wordt gedaan op debatten in de Tweede Kamer waar de minister de startspreker is. Elke scene-spreker heeft meestal van tevoren een stuk tekst opgeschreven en leest dit voor. Dit is de tekst die per scene eruit wordt gehaald. Deze ingestudeerde teksten bestaan vaak uit grote alinea’s. De scene moet minimaal 500 woorden bevatten om meegenomen te worden. Interrupties in een scene worden weggelaten. De eerste alinea van de scene-spreker na een interruptie is meestal een antwoord op de interruptie en wordt daarom ook weggelaten.

De gefilterde stukken tekst, nog steeds met xml tags, worden per debat door de xml stream één voor één opgeleverd. De volgende stap is het toepassen van een aantal voorbewerkingen op de tekst.

3.3. Voorbewerken

Voor elk gesproken woord is ook een xml tag aanwezig met het lemma van het woord daarin. Het omzetten van de woorden naar lemma’s is dus al gedaan. Omdat in dit onderzoek de lemma’s gebruikt worden worden deze eruit gefilterd. Het gebruik maken van de lemma’s van woorden is namelijk een handige techniek om de betekenis van woorden minder dubbelzinnig te maken. Lemmatisering is een methode om de vorm van woorden te normaliseren (Korenius et al., 2004). Hierdoor ziet een programma verschillende vervoegingen van een woord niet meer als twee verschillende woorden maar als hetzelfde woord. De woorden worden omgezet naar hun basis vorm, hun lemma.

Ook is voor elk gesproken woord een xml tag aanwezig met de Part of Speech-tag, het woordtype. PoS taggen hoeft daarom ook niet meer. Alleen de zelfstandig naamwoorden (nouns) zullen gebruikt worden in dit onderzoek en worden daarom uit de data gefilterd. Door alleen zelfstandig naamwoorden te gebruiken zullen de meeste stopwoorden wel overgeslagen worden. Voor de zekerheid worden toch met de NLTK module in Python alle Nederlandse stopwoorden uit de overgebleven data verwijderd. Het verwijderen van stopwoorden maakt het immers makkelijker onderscheid te maken tussen documenten (Srividhya & Anitha, 2010).

3.4. Datastructuur

Voor de gefilterde lemma’s van de zelfstandig naamwoorden worden de TF-IDF waarden per scene uitgerekend. Deze waarden worden in een Python dictionary opgeslagen, met als key het woord en als value de TF-IDF waarde. Deze dictionary is weer de waarde in een dictionary met als key de spreker, die een uniek ID heeft. Tenslotte is deze dictionary weer de waarde in de dictionary met als key het debat ID. Dit is de uiteindelijke datastructuur waarmee de documenten, die de debatten voorstellen, gerepresenteerd worden. 

(11)

4. Aanpak

4.1. Methodes

Nu alle scenes omgezet zijn in woord vectoren, kan de cosine similarity uitgerekend worden tussen deze vectoren. Omdat in dit onderzoek gezocht wordt naar een geschikte methode zal dit op twee verschillende manieren gedaan worden. Later zullen beide methodes geëvalueerd worden om te kijken hoe geschikt deze zijn.

4.1.1. Methode 1

Met methode 1 wordt elke scene vergeleken met de rest van het debat als geheel. Voor elke scene zullen alle andere scenes in het debat samengevoegd worden tot één woord vector. Tussen de vector van de scene en de vector van de rest van het debat zal de cosine similarity uitgerekend worden.

Deze methode zal een maat geven die aangeeft hoe een spreker zich bij het onderwerp van het hele debat houdt. De gelijkenis wordt bepaald tussen een spreker en alle andere sprekers in een debat.

4.1.2. Methode 2

Methode 2 zal zich beperken tot het vergelijken van elke scene met de scene van de startspreker van het debat. Voor elke scene die niet het begin is van een debat, zal de cosine similarity uitgerekend worden tussen de woord vector van die scene en de woord vector van de scene die in dat debat begint. Deze methode levert een maat op die aangeeft in hoeverre een spreker zich bij het onderwerp houdt waar de startspreker het over heeft.

4.2. Maten voor “bij de les blijven”

Per methode zullen weer twee gelijkenis maten uitgerekend worden. Ook hier omdat een geschikte maat nog gevonden moet worden. Later in de evaluatie zal dit verder onderzocht worden.

4.2.1. De MRR “terugvind-maat”

Deze maat is gebaseerd op een soort zoekmachine. Voor deze maat wordt de gelijkenis van een scene met alle andere debatten uitgerekend. Dit geeft voor een scene voor elk debat, waaronder het eigen debat, een cosine similarity waarde. De debatten worden vervolgens geordend op basis van de cosine similarity. Hoe hoger het debat waar de scene bij hoort eindigt in deze ordening, hoe hoger de score.

(12)

Laat W(s, d) de woorden zijn van een spreker s in een debat d. In de zoekmachine zou dit de query zijn. Van een spreker wordt dan voor alle debatten d’ ∈ D, waarbij D de volledige dataset is, de gelijkenis sim(W(s, d), W(d’)) uitgerekend. Deze gelijkenis waarden worden geordend en het juiste debat komt op een bepaalde rank te staan, waarbij 1 het beste is. De score van spreker s in debat d, ook wel RR genoemd, wordt bepaald door:

. Een score van 1 is het hoogst, het debat is dan op de eerste

plek geëindigd. De tweede plek levert een RR van 0.5 op, de derde plek van 0.33, en zo verder met steeds kleine stapjes naar beneden.

MRR staat voor Mean Reciprocal Rank en is een veelgebruikte maat in Information

Retrieval (IR). MRR is het gemiddelde van de reciprocal rank, het delen van 1 door de

rank van het correcte antwoord (Voorhees, 1999). In dit geval de rank van het debat. MRR is echter wel heel gevoelig voor veranderingen aan de top van rankings (Ogilvie & Callan, 2003). Want zoals laten zien is de MRR een stuk lager als een debat op de tweede rank eindigt in plaats van op de eerste plek. Pas bij lagere ranks wordt het verschil in MRR ook kleiner.

Deze maat wordt beïnvloedt door de andere debatten in de dataset. Hierover meer in de evaluatie.

4.2.2. De cosine similarity binnen het debat

De tweede maat beschouwt alleen de gelijkenis met het eigen debat en niet de andere debatten in de dataset. Voor elke scene wordt de cosine similarity uitgerekend tussen de scene zelf en het debat waar het bij hoort, ofwel met methode 1 ofwel met methode 2. Deze score wordt niet beïnvloedt door de andere debatten in de dataset. Daardoor zegt deze maat ook niks over hoe een spreker zich verhoudt met de onderwerpen in andere debatten. De maat geeft alleen de gelijkenis aan met het eigen debat en ten opzichte van de andere sprekers in dat debat. Deze maat is een stuk simpeler dan de MRR maat en daardoor ook een stuk sneller. 

(13)

5. Resultaten

In total zijn 220 debatten gebruikt waar beide methodes op werden uitgevoerd. In deze debatten kwamen 294 unieke sprekers aan het woord in 1589 scenes. Er zijn 58 unieke ministers die de debatten zijn begonnen. Gemiddeld bevatte een scene 371.22 zelfstandig naamwoorden.

Wanneer de zoekmachine totaal willekeurig een debat zou teruggeven, dan is de MRR over alle debatten 0.009. Het juiste debat komt gemiddeld rond de 110e plek in de zoekresultaten. Dit is natuurlijk waanzinnig laag en zegt niet veel. Echter kan deze waarde later als vergelijkingsmateriaal dienen voor de resultaten. Zo wordt een beter beeld

verkregen van hoe “goed” de resultaten van de twee methodes zijn.

Alleen van de sprekers die minstens aan 5 debatten hebben meegedaan zijn de gemiddelde scores in de resultaten meegenomen. Dit resulteert in een lijst van in totaal 104 unieke sprekers. Van beide methodes volgen hier de resultaten.

5.1. Resultaten methode 1

Met methode 1, waarbij de hele debatten de te doorzoeken documenten zijn, is een MRR behaald van 0.73 over alle debatten.

Voor de volledige lijst van de MRR scores per spreker zie appendix 9.1. De MRR waarden van de hoogst scorende 15 sprekers en de laagst scorende 15 sprekers zijn als volgt:

Hoogste 15 sprekers: Laagste 15 sprekers:

Giskes 1.0 Van Ardenne-van der Hoeven 0.53

De Geus 1.0 Ouwehand 0.52

Van den Berg 1.0 De Jager 0.51

Vergeer 1.0 Koenders 0.51

Luchtenveld 1.0 Van Beek 0.48

Waalkens 1.0 Plasterk 0.45

De Wit 1.0 Benschop 0.45

Scheltema-de Nie 1.0 Heemskerk 0.4

Korthals 1.0 Rutte 0.4

Stellingwerf 1.0 Timmermans 0.37

Vos 1.0 Cramer 0.28

Lambrechts 1.0 Knapen 0.26

Hirsch Ballin 0.96 Van Gennip 0.25

Dittrich 0.95 Van der Knaap 0.23

Schippers 0.94 Ybema 0.17

Zie appendix 9.2 voor de volledige lijst met de gemiddelde cosine similarity waarden. Over alle sprekers is de gemiddelde cosine similarity 0.29 met een mediaan van 0.29. Hier volgen de cosine similarity waarden van de 15 hoogst scorende sprekers en de 15 laagst scorende sprekers:

(14)

Stellingwerf 0.38 Herben 0.25

Korthals 0.38 Van Bommel 0.24

Dijsselbloem 0.37 Verbugt 0.24

Donner 0.36 Van As 0.23

Dittrich 0.35 Verburg 0.23

Netelenbos 0.35 Waalkens 0.23

Hamer 0.35 Van Dam 0.23

Nicolaï 0.34 Heemskerk 0.23

Vergeer 0.34 Knapen 0.22

Balkenende 0.34 Cramer 0.22

De Geus 0.34 De Jager 0.22

Vos 0.34 De Boer 0.21

Hirsch Ballin 0.33 De Roon 0.2

Van den Berg 0.33 Duivesteijn 0.19

Van Aartsen 0.33 Ouwehand 0.18

5.2. Resultaten methode 2

Methode 2, met alleen de teksten van de ministers als documenten, behaalde een MRR van 0.59 over alle debatten.

Voor de volledige lijst van de MRR scores per spreker zie appendix 9.3. De 15 sprekers met de hoogste MRR waarden en de 15 sprekers met de laagste MRR waarden zijn als volgt:

Waalkens 1.0 Van Beek 0.39

De Boer 1.0 Koenders 0.37

Lambrechts 1.0 Pechtold 0.36

Van der Steenhoven 1.0 Verdonk 0.35

De Wit 0.93 Van Ardenne-van der Hoeven 0.35

Luchtenveld 0.92 Marijnissen 0.34

Vergeer 0.9 Dijksma 0.33

Van Haersma Buma 0.9 Melkert 0.31

Scheltema-de Nie 0.9 Wijn 0.31

Stellingwerf 0.9 Van der Knaap 0.3

Van den Berg 0.86 Schultz van Haegen-Maas Geesteranus 0.26

Dijsselbloem 0.86 Rutte 0.22

Hirsch Ballin 0.86 Van Gennip 0.21

Korthals 0.85 Knapen 0.04

(15)

In appendix 9.4 is de volledige lijst met de gemiddelde cosine similarity waarden te vinden. Over alle sprekers is met methode 2 de gemiddelde cosine similarity 0.2 met een mediaan van 0.19. De cosine similarity waarden van de 15 hoogst scorende sprekers en de 15 laagst scorende sprekers zijn als volgt:

Korthals 0.32 Pechtold 0.16

Hirsch Ballin 0.29 Hessing 0.16

Netelenbos 0.29 Van der Vlies 0.16

Donner 0.28 De Jager 0.16

De Geus 0.27 Weekers 0.16

Borst-Eilers 0.26 Van As 0.16

Van Bijsterveldt-Vliegenthart 0.26 Van Bommel 0.15

Plasterk 0.26 Atsma 0.15

Dijsselbloem 0.26 Cramer 0.15

De Vries 0.25 Herben 0.15

Van Hoof 0.25 De Roon 0.15

Remkes 0.25 Verbugt 0.14

Zalm 0.25 Ouwehand 0.13

Vergeer 0.25 Knapen 0.12

(16)

6. Evaluatie

De resultaten laten zien hoe beide methodes presteren in het terugvinden van de debatten die bij de scenes horen. Methode 1 scoort hoger met een MRR van 0.73 tegenover 0.59 van methode 2. Dit betekent dat voor beide methodes gemiddeld een scene tussen plek 1 en plek 2 wordt teruggevonden. De eerste plek levert namelijk een MRR waarde van 1 op en de tweede plek een MRR waarde van 0.5. Ook de MRR waarden van de individuele sprekers vallen hoger bij methode 1 dan bij methode 2. Met methode 1 hebben hebben meer individuele sprekers een MRR waarde van 1. Met methode 2 zijn er meer sprekers met een lage MRR waarde en is de laagste waarde ook lager dan bij methode 1.

De cosine similarity waarden liggen bij methode 1 met een gemiddelde van 0.29 iets hoger dan bij methode 2 met een gemiddelde van 0.2. Wat betreft de spreiding van de cosine similarity waarden lijken beide methoden erg op elkaar.

6.1. Het vergelijken van de methodes

Door de resultaten van de verschillende methodes tegen elkaar af te zetten wordt het duidelijk hoe de methodes met elkaar verschillen. Een aantal scatter plots zullen hierbij helpen. Ook wordt de Pearson correlatie tussen de variabelen van elke scatter plot uitgerekend.

Fig. 6.1. Methode 1, waarbij het woordgebruik van Fig. 6.2. Methode 2, waarbij het woordgebruik van de spreker vergeleken wordt met het hele de spreker vergeleken wordt met dat van debat. De MRR maat af gezet tegenover de startspreker. De MRR maat af gezet de cosine similarity maat. Elk punt is een tegenover de cosine similarity maat. Elk spreker met zijn gemiddelde waarden van punt is een spreker met zijn gemiddelde beide maten. Pearson correlatie is 0.33. waarden van beide maten. Pearson De twee maten verschillen sterk. correlatie 0.30. Sterk verschil tussen de

maten.

Figuur 6.1. illustreert de correlatie tussen de variabelen MRR en cosine similarity van methode 1. Elke spreker is een punt in de plot. De punten in de plot zijn erg verspreid. De

(17)

correlatie is ook laag: 0.33. Dit betekent dat de ordening van sprekers erg verschilt tussen de MRR waarden en de cosine similarity waarden.

Figuur 6.2. lijkt op figuur 6.1. Ook hier vormen de punten een wolk met veel

spreiding. Ditmaal met de MRR waarden en cosine similarity waarden van methode 2. De correlatie is hier 0.30. Ook dit is erg laag en suggereert een groot verschil tussen de ordening van de sprekers op basis van de MRR waarden en de ordening van de sprekers op basis van de cosine similarity waarden.

Zoals te zien verschillen de twee maten, MRR en cosine similarity, sterk. Daarom zal gekeken moeten worden, met behulp van een evaluatie, welke maat meer geschikt is voor welke toepassing. Hierover meer in 6.2. en 6.3.

Naast het vergelijken van de twee maten binnen een methode, kunnen beide methodes ook met elkaar vergeleken worden.

Fig. 6.3. De MRR maat van methode 1 af gezet Fig. 6.4. De cosine similarity maat van methode 1 tegenover de MRR maat van methode 2. af gezet tegenover de cosine similarity Elk punt is een spreker met zijn MRR maat van methode 2. Elk punt is een waarden van beide methodes. Pearson spreker met zijn gemiddelde cosine correlatie is 0.73. De twee methodes similarity van beide methodes. Pearson correleren sterk. correlation is 0.77. De twee methodes

correleren sterk.

In figuur 6.3. en figuur 6.4. worden respectievelijk de MRR waarden en de cosine similarity waarden tussen methode 1 en methode 2 vergeleken. De punten in deze twee grafieken zijn minder willekeurig verspreid. Te zien is dat naarmate de waarde van de ene methode oploopt, de waarde van de andere methode ook hoger wordt. De correlaties zijn hoog en positief. Voor de MRR waarden tussen beide methodes is de correlatie 0.73 en voor de cosine similarity waarden is de correlatie zelfs 0.77.

Het verschil tussen de twee methodes lijkt minder groot te zijn dan het verschil tussen de twee maten. Welke voor- en nadelen de twee methodes hebben zal bekeken worden in de evaluatie.

(18)

6.2. Evaluatie met debatten

Deze resultaten zeggen echter nog niks over in hoeverre sprekers in een debat zich daadwerkelijk bij het onderwerp van desbetreffend debat houden. De ordening van de sprekers op basis van de cosine similarity waarden laat echter wel zien in hoeverre de sprekers bij het onderwerp blijven ten opzichte van elkaar.

Daarbij geven de resultaten van de MRR waarden ook een beeld van hoe sprekers zich bij het onderwerp van een debat houden ten opzichte van de onderwerpen van andere debatten in de dataset. Immers, wanneer er veel overlap zou zijn in de onderwerpen van de verschillende debatten, dan zouden beide methodes minder goed presteren met de MRR maat. De kans is dan groter dat de tekst van een scene lijkt op de tekst van een debat met een soortgelijk onderwerp. En wanneer de onderwerpen van de debatten juist sterk afgebakend zouden zijn, zonder overlap, dan zouden beide methodes betere resultaten opleveren. Voor een scene is het debat dan makkelijk terug te vinden omdat er weinig andere debatten zijn met soortgelijke onderwerpen.

Om te kijken of deze methodes ook werken voor het bepalen van het “bij de les blijven” binnen een debat zal er een extra evaluatie uitgevoerd moeten worden. Daarom worden er drie debatten “met de hand” gelezen en wordt voor elke spreker een score bepaald voor in hoeverre deze zich bij het onderwerp houdt. Het gevoel van de lezer van in hoeverre iemand zich aan het onderwerp houdt is echter niet heel nauwkeurig. Daarom wordt voor deze score een 3-puntsschaal gebruikt: “goed bij de les”, “gemiddeld bij de les”, “slecht bij de les”.

De eerste twee debatten zijn willekeurig gekozen. Het derde debat is op basis van “chaos” gekozen. Dit debat, over de internetfilm Fitna, heeft veel verschillende meningen. Daarom is het interessant om te kijken hoe de methodes daarop presteren.

Beide methodes moeten worden geëvalueerd. Daarom worden de gekozen debatten zowel geëvalueerd op het bij het onderwerp blijven van de minister (methode 2) als bij het onderwerp blijven van de rest van het debat (methode 1).

6.2.1. Debat 1

Dit debat , zie tabel 6.1., gaat over de vuurwerkramp in Enschede en heeft 5 plaatsgevonden op 26-04-2001. Een aantal sprekers in dit debat wijken sterk af van het onderwerp van de rest van het debat. Deze zijn ook beoordeeld met “slecht bij de les” in de evaluatie van methode 1. De andere sprekers zijn daardoor allemaal “gemiddeld bij de les” omdat de onderwerpen verschillen. Echter hebben 5 sprekers een RR score van 1.0, het hoogst haalbare. Dit laat zien dat de RR waarden wel erg hoog vallen en dat het verschil de tussen de sprekers met een score van 1.0 niet zichtbaar is.

http://resolver.politicalmashup.nl/nl.proc.ob.d.h-tk-20002001-4831-4856?view=html

(19)

De cosine similarity waarden van methode 1 zeggen niet veel meer. Bij veel sprekers liggen deze waarden dicht bij elkaar. Methode 1 lijkt bij dit debat sprekers al snel als “goed bij de les” te bestempelen. De rest van het debat is natuurlijk groot en een scene krijgt met methode 1 blijkbaar al snel een hoge gelijkenis score, ook al lijkt maar een klein deel van de rest van het debat op de scene.

De evaluatie van methode 2 op dit debat komt meer overeen met de waarden van zowel de RR als de cosine similarity. De sprekers die “slecht bij de les blijven” hebben ook daadwerkelijk lage waarden en de sprekers met “goed”, op een paar uitzonderingen na,

Tabel 6.1. Evaluatie debat 1

hebben ook de hoogste waarden. Er worden met methode 2 ook minder RR scores van 1.0 toegewezen. Daardoor kan er meer onderscheid gemaakt worden tussen de sprekers met hoge scores.

6.2.2. Debat 2

Dit debat gaat over het aftreden van staatssecretaris Nijs en heeft plaatsgevonden op 6 09-06-2004. In dit debat lijkt, nadat het één keer gelezen is, iedereen zich goed aan het onderwerp te houden. Iedereen heeft het ongeveer over hetzelfde en er zijn weinig sterke meningsverschillen. De scores zijn bij beide methodes en bij beide maten ook er hoog.

http://resolver.politicalmashup.nl/nl.proc.ob.d.h-tk-20032004-5318-5330?view=html 6 Sprekers RR methode 1 Cos sim methode 1 Evaluatie methode 1 RR methode 2 Cos sim methode 2 Evaluatie methode 2 De Vries (minister)

Pronk 0.5 0.42 Gemiddeld 1.0 0.40 Goed

Netelenbos 0.25 0.14 Slecht 0.01 0.12 Slecht

De Grave 0.33 0.29 Slecht 0.03 0.15 Slecht

G.M. de Vries

0.06 0.33 Slecht 0.17 0.24 Gemiddeld

Melkert 1.0 0.44 Gemiddeld 0.2 0.22 Gemiddeld

De Hoop Scheffer

1.0 0.49 Gemiddeld 0.5 0.26 Goed

Slob 1.0 0.51 Gemiddeld 1.0 0.28 Goed

Van den Berg

1.0 0.43 Gemiddeld 0.33 0.19 Gemiddeld

(20)

De RR scores zijn allemaal 1.0 en geven verder geen informatie over de verschillen tussen de sprekers. De cosine similarity waarden verschillen wel licht. Het grootste verschil met methode 2 bij Halsema, die wat lager uitkomt dan de rest. Het is interessant om te kijken of deze kleine verschillen toch iets zeggen over de onderlinge verschillen tussen de sprekers en hun “bij de les blijven”. Wellicht geven deze kleine verschillen meer de details weer tussen de sprekers.

Nadat het debat nog een keer is doorgenomen blijkt dat Halsema wel in een klein opzicht verschilt met de rest van de sprekers. Halsema komt met veel nieuwe vragen, kritisch gericht op de VVD. De andere sprekers doen dit niet. In dat opzicht wijkt Halsema licht af van het onderwerp van de minister. Het hoort allemaal nog wel bij het onderwerp, maar het verschil is er wel met de andere sprekers. Dit detail kan de oorzaak zijn van de wat lagere cosine similarity waarde bij methode 2.

6.2.3. Debat 3

Dit debat gaat over de internetfilm Fitna en heeft plaatsgevonden op 01-04-2008. Bij dit 7 debat is methode 1 erg lastig te evalueren. Verschillende sprekers beginnen over andere onderwerpen. Maar ze houden zich nooit of goed bij het onderwerp of totaal niet bij het onderwerp van de rest van het debat. Wel houden de sprekers zich allemaal redelijk bij het onderwerp. Echter krijgen de sprekers allemaal hoge waarden toegewezen met methode 1. Net als bij de eerdere evaluaties duidt dit op een toewijzing van te hoge scores door methode 1.

De evaluatie van methode 2 komt goed overeen met de resultaten van methode 2, vooral met de RR waarden. In tegenstelling tot de evaluatie van debat 2 zijn het de cosine similarity maten die erg dicht bij elkaar liggen en komen juist de RR waarden beter overeen met de evaluatie. De cosine similarity waarden zijn ook erg laag vergeleken met de andere debatten. Wellicht zeggen de kleine verschillen wel iets over de verschillen

http://resolver.politicalmashup.nl/nl.proc.ob.d.h-tk-20072008-4924-4937?view=html 7 Sprekers RR methode 1 Cos sim methode 1 Evaluatie methode 1 RR methode 2 Cos sim methode 2 Evaluatie methode 2 Balkenende (minister)

Halsema 1.0 0.42 Goed 1.0 0.28 Goed

Van Aartsen 1.0 0.50 Goed 1.0 0.50 Goed

Van

Nieuwenhov en

1.0 0.41 Goed 1.0 0.37 Goed

(21)

tussen de sprekers. Maar als absolute maat voor “bij de les blijven” lijkt de cosine similarity hierdoor niet geschikt.

6.3. Toepassingen

Op basis van de evaluatie werkt methode 2 het best en met name de RR maat. Deze maat presteert het best met het bepalen of een spreker zich bij het onderwerp van de startspreker houdt. Ook wordt methode 2 niet beïnvloedt door andere sprekers die zich mogelijk niet bij het onderwerp houden. Dit is bij methode 1 wel het geval. Ook lijkt methode 1, ook al correleert deze sterk positief met methode 2, al snel te hoge scores te geven aan een scene als maar een klein deel van de rest van het debat lijkt op die scene. Methode 2 heeft hier geen last van.

Een RR score van 1.0 geeft in ieder geval ook aan dat er geen ander debat in de dataset is die meer gelijkenis toont met de scene dan het debat van de scene zelf. En wanneer de RR scores toch nog te hoog uitvallen bij methode 2, zoals te zien was in debat 2, dan kan de cosine similarity helpen om de “details” in het debat te laten zien. Daardoor kunnen toch nog de onderlinge verschillen tussen de sprekers duidelijk worden. Als maat voor “bij de les blijven” is de cosine similarity in dit geval echter minder betrouwbaar. Omdat het onderwerp toch vaak bepaald wordt door de startspreker en de sprekers daarna ingaan op dat onderwerp, krijgt methode 2 de voorkeur in dit onderzoek.

Methode 2 is ook een stuk sneller uit te voeren dan methode 1, omdat er een stuk minder tekst vergeleken hoeft te worden. Een mogelijke toepassing is een programma dat, zodra een debat in tekst formaat beschikbaar is, de sprekers een score geeft op hoe goed ze bij het onderwerp blijven. En snelheid is hier natuurlijk belangrijk. Helemaal als dit real-time zou worden uitgevoerd.

Sprekers RR methode 1 Cos sim methode 1 Evaluatie methode 1 RR methode 2 Cos sim methode 2 Evaluatie methode 2 Hirsch Ballin (minister)

Ter Horst 1.0 0.47 Gemiddeld 1.0 0.23 Goed

Hamer 1.0 0.55 Gemiddeld 1.0 0.16 Goed

Slob 1.0 0.40 Gemiddeld 0.02 0.10 Gemiddeld

Pechtold 1.0 0.43 Gemiddeld 1.0 0.13 Goed

Halsema 1.0 0.21 Gemiddeld 0.5 0.07 Gemiddeld

Marijnnissen 1.0 0.38 Gemiddeld 0.02 0.11 Slecht

(22)

Er zijn meer interessante toepassingen mogelijk. Sprekers kunnen gegroepeerd worden per politieke partij om zo het verschil tussen partijen en hun “bij de les blijven” te zien. Sprekers kunnen ook gegroepeerd worden op basis van coalitie en oppositie. Wellicht verschillen de gemiddelde scores van deze groepen met elkaar.

Ook zouden de ministers een score kunnen krijgen op basis van hoe goed ze de sprekers in het debat bij het onderwerp kunnen houden. Wellicht dwalen sprekers bij de ene minister sneller van het onderwerp af dan bij de ander.

Het zou ook interessant zijn om methode 2 ook buiten een politiek debat toe te passen. Dit kan bijvoorbeeld op een talkshow met een vergelijkbare structuur als een debat, waarbij één persoon, de presentator, begint met spreken en het onderwerp of de onderwerpen van het programma toelicht. De gasten kunnen dan een score krijgen op hoe zij zich bij het onderwerp van de presentator houden.

Methode 1 kan echter ook handig zijn voor bepaalde toepassingen. Stel alleen de scene van een spreker is bekend en men wil weten bij welk debat dit stuk tekst hoort. Methode 1 is dan ideaal om een archief van debatten mee te doorzoeken om zo het juiste debat terug te vinden. 

(23)

7. Conclusie

De hoofdvraag (RQ) van dit onderzoek is of er een methode ontwikkeld kan worden voor het bepalen of een spreker in een debat zich bij het onderwerp houdt. Hiervoor is allereerst onderzocht wat een geschikte maat is voor het bepalen van de gelijkenis tussen twee stukken tekst in een debat (RQ1). De meestgebruikte maat voor het bepalen van de gelijkenis tussen twee stukken tekst is de cosine similarity. Deze maat is onafhankelijk van de lengte van de documenten en daarom ideaal voor de methodes in dit onderzoek. Ook is de cosine similarity makkelijk om te zetten naar een metriek.

Vervolgens is aan de hand van RQ2 onderzocht hoe verschillende methodes presteren met het bepalen of een spreker zich “bij de les houdt”. Daarvoor is vergeleken wat het effect is van het vergelijken van verschillende delen van een debat (RQ2.1). Op twee manieren wordt de tekst van een spreker vergeleken met het debat. De eerste methode is het vergelijken van de tekst van de spreker met de rest van het debat. In de evaluatie blijkt dat dit echter vaak te hoge scores oplevert waardoor het minder zegt over hoe goed de spreker bij het onderwerp blijft. De tweede methode vergelijkt de tekst van de spreker met alleen de tekst van de startspreker van het debat. Deze methode correleert sterk met de eerste methode, maar de waarden zijn over het algemeen lager. Hierdoor is makkelijker onderscheid te maken tussen de verschillende sprekers. En omdat de startspreker grote invloed heeft op het onderwerp van het debat, zegt deze methode ook meer over hoe goed een spreker bij het onderwerp blijft.

Twee maten voor “bij de les blijven” zijn voorgesteld en vergeleken (RQ2.2), de MRR maat en de cosine similarity binnen het debat. De twee maten hebben geen correlatie, maar hebben wel allebei hun nut. De MRR maat is een grovere maat dan de cosine similarity, vooral bij de hoge scores. De cosine similarity kan echter weer meer details weergeven tussen de sprekers, wanneer de MRR waarden allemaal hoog uitvallen. De MRR wordt wel beïnvloedt door de debatten in de rest van de dataset.

Tenslotte zijn de twee methodes, allebei met twee maten voor “bij de les blijven”, geëvalueerd. Wanneer een debat gelezen wordt en aan elke spreker met de hand een score van “bij de les” blijven wordt gegeven, komen deze resultaten dan overeen met de resultaten van de methodes (RQ2.3)? Methode 2 komt het best overeen met de evaluatie en dan met name de MRR maat. Mocht er met meer detail naar de verschillen tussen de sprekers onderling gekeken worden, dan is het nuttig om ook de cosine similarity maat hierbij te gebruiken. De MRR hangt natuurlijk wel af van de documenten in de rest van de dataset en daarom kan de methode totaal anders presteren bij andere datasets. Maar op basis van de gebruikte dataset zou dit een goed werkende methode zijn voor het bepalen van hoe goed sprekers “bij de les” van Tweede Kamer debatten blijven. 

(24)

8. Bibliografie

Cover, T. M., & Thomas, J. A. (1991). Entropy, relative entropy and mutual information. Elements of Information Theory, 12-49.

Dodge, Y., Cox, D., Commenges, D., Solomon, P. J., & Wilson, S. (2003). The Oxford dictionary of statistical terms. Oxford University Press.

Friburger, N., Maurel, D., & Giacometti, A. (2002, August). Textual similarity based on proper names. In Proc. of the workshop Mathematical/Formal Methods in Information Retrieval (pp. 155-167).

Gomaa, W. H., & Fahmy, A. A. (2013). A survey of text similarity approaches. International Journal of Computer Applications, 68(13), 13-18.

Hiemstra, D. (2000). A probabilistic justification for using tf× idf term weighting in information retrieval. International Journal on Digital Libraries, 3(2), 131-139.

Huang, A. (2008, April). Similarity measures for text document clustering. In Proceedings of the sixth new zealand computer science research student conference (NZCSRSC2008), Christchurch, New Zealand (pp. 49-56).

Korenius, T., Laurikkala, J., Järvelin, K., & Juhola, M. (2004, November). Stemming and lemmatization in the clustering of finnish text documents. In Proceedings of the thirteenth ACM international conference on Information and knowledge management (pp. 625-633). ACM.

Lin, J. (1991). Divergence measures based on the Shannon entropy. Information Theory, IEEE Transactions on, 37(1), 145-151.

Manning, C. D. (1999). Foundations of statistical natural language processing. H. Schütze (Ed.). MIT press.

Ogilvie, P., & Callan, J. (2003). Language models and structured document retrieval. Fuhr et al.[126], 18-23.

Ramos, J. (2003, December). Using tf-idf to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning.

Singhal, A. (2001). Modern information retrieval: A brief overview. IEEE Data Eng. Bull., 24(4), 35-43.

Srividhya, V., & Anitha, R. (2010). Evaluating preprocessing techniques in text categorization. International journal of computer science and application, 47(11).

Tata, S., & Patel, J. M. (2007). Estimating the selectivity of tf-idf based cosine similarity predicates. ACM Sigmod Record, 36(2), 7-12.

Uhlmann, J. K. (1991). Satisfying general proximity/similarity queries with metric trees. Information processing letters, 40(4), 175-179.

(25)

Van Dongen, S., & Enright, A. J. (2012). Metric distances derived from cosine similarity and pearson and spearman correlations. arXiv preprint arXiv:1208.3145.

Voorhees, E. M. (1999, November). The TREC-8 Question Answering Track Report. In TREC (Vol. 99, pp. 77-82). 

(26)

9. Appendix

9.1. Resultaten methode 1 - MRR

Giskes 1.0 De Geus 1.0 Van den Berg 1.0 Vergeer 1.0 Luchtenveld 1.0 Waalkens 1.0 De Wit 1.0 Scheltema-de Nie 1.0 Korthals 1.0 Stellingwerf 1.0 Vos 1.0 Lambrechts 1.0 Hirsch Ballin 0.96 Dittrich 0.95 Schippers 0.94 Leers 0.93 Dijsselbloem 0.93 Schutte 0.93 Rosenmöller 0.92 Hoekema 0.92 Herben 0.91 Melkert 0.9 Slob 0.9 Wolfsen 0.9 Van der Steenhoven 0.9 Poppe 0.88 Van der Staaij 0.88 Dijkgraaf 0.87 Borst-Eilers 0.87 Van Aartsen 0.87 Bakker 0.87 Verburg 0.87 De Hoop Scheffer 0.86 De Boer 0.85 Wilders 0.84 Hofstra 0.84 De Graaf 0.84 Vendrik 0.83 Hamer 0.83 Depla 0.82 Rouvoet 0.8 Weekers 0.78 Van Gent 0.77 Jan de Vries 0.77 Pechtold 0.76 Van Dam 0.76 Bos 0.76 Van Bommel 0.76 Verbugt 0.75 Van Haersma Buma 0.75 Brinkhorst 0.75

(27)

Van der Hoeven 0.75 Crone 0.75 Eurlings 0.75 Van der Vlies 0.75 Marijnissen 0.73 De Grave 0.72 Buijs 0.71 Hessing 0.71 Van der Ham 0.71 Kant 0.71 Van Middelkoop 0.7 Kok 0.7 De Roon 0.68 Halsema 0.68 Netelenbos 0.68 Nicolaï 0.68 Pronk 0.67 Verhagen 0.66 Verdonk 0.66 Atsma 0.66 Elias 0.65 Zalm 0.65 Duivesteijn 0.65 Teeven 0.65 Van Bijsterveldt-Vliegenthart 0.64 Van As 0.64 Hoogervorst 0.63 Kamp 0.63 Donner 0.63 Dijksma 0.61 Van Geel 0.61 Balkenende 0.6 Van Hoof 0.59 De Vries 0.58 Remkes 0.57 Schultz van Haegen-Maas Geesteranus 0.55 Wijn 0.55 Huizinga-Heringa 0.54 Van Ardenne-van der Hoeven 0.53 Ouwehand 0.52 De Jager 0.51 Koenders 0.51 Van Beek 0.48 Plasterk 0.45 Benschop 0.45 Heemskerk 0.4 Rutte 0.4 Timmermans 0.37 Cramer 0.28 Knapen 0.26 Van Gennip 0.25 Van der Knaap 0.23 Ybema 0.17

(28)

9.2. Resultaten methode 1 - Cosine Similarity Stellingwerf 0.38 Korthals 0.38 Dijsselbloem 0.37 Donner 0.36 Dittrich 0.35 Netelenbos 0.35 Hamer 0.35 Nicolaï 0.34 Vergeer 0.34 Balkenende 0.34 De Geus 0.34 Vos 0.34 Hirsch Ballin 0.33 Van den Berg 0.33 Van Aartsen 0.33 Rosenmöller 0.33 Elias 0.33 Bos 0.33 De Hoop Scheffer 0.33 Scheltema-de Nie 0.33 De Graaf 0.33 Koenders 0.33 Leers 0.32 Van Bijsterveldt-Vliegenthart 0.32 Rouvoet 0.32 De Vries 0.32 Dijksma 0.32 Zalm 0.32 Lambrechts 0.32 De Wit 0.31 Van Hoof 0.31 Giskes 0.31 Kok 0.31 Remkes 0.31 Van Middelkoop 0.31 Plasterk 0.31 Rutte 0.31 Melkert 0.31 Verhagen 0.3 Luchtenveld 0.3 Van Geel 0.3 Wolfsen 0.3 Benschop 0.3 Hoekema 0.3 Halsema 0.3 Poppe 0.3 Van Gennip 0.3 Pronk 0.3 Slob 0.29 Van der Hoeven 0.29 Borst-Eilers 0.29 Huizinga-Heringa 0.29 Eurlings 0.29 Van Gent 0.29

(29)

Brinkhorst 0.29 Marijnissen 0.29 Van der Steenhoven 0.29 Jan de Vries 0.28 Ybema 0.28 Van Beek 0.28 Van der Staaij 0.28 Weekers 0.28 Bakker 0.28 De Grave 0.28 Buijs 0.28 Hofstra 0.27 Hessing 0.27 Kamp 0.27 Vendrik 0.27 Hoogervorst 0.27 Verdonk 0.27 Schultz van Haegen-Maas Geesteranus 0.27 Van Ardenne-van der Hoeven 0.27 Wilders 0.27 Atsma 0.27 Wijn 0.27 Schutte 0.26 Teeven 0.26 Van der Ham 0.26 Pechtold 0.26 Schippers 0.26 Depla 0.26 Crone 0.26 Van der Vlies 0.25 Van Haersma Buma 0.25 Dijkgraaf 0.25 Timmermans 0.25 Van der Knaap 0.25 Kant 0.25 Herben 0.25 Van Bommel 0.24 Verbugt 0.24 Van As 0.23 Verburg 0.23 Waalkens 0.23 Van Dam 0.23 Heemskerk 0.23 Knapen 0.22 Cramer 0.22 De Jager 0.22 De Boer 0.21 De Roon 0.2 Duivesteijn 0.19 Ouwehand 0.18 9.3. Resultaten methode 2 - MRR Waalkens 1.0 De Boer 1.0 Lambrechts 1.0

(30)

Van der Steenhoven 1.0 De Wit 0.93 Luchtenveld 0.92 Vergeer 0.9 Van Haersma Buma 0.9 Scheltema-de Nie 0.9 Stellingwerf 0.9 Van den Berg 0.86 Dijsselbloem 0.86 Hirsch Ballin 0.86 Korthals 0.85 Hamer 0.85 Vos 0.83 Giskes 0.82 Poppe 0.82 Wolfsen 0.82 Van Dam 0.8 Slob 0.8 Depla 0.8 Dijkgraaf 0.79 Van der Staaij 0.78 Vendrik 0.78 De Geus 0.76 Van der Ham 0.76 Borst-Eilers 0.76 Dittrich 0.76 Hoekema 0.75 Verburg 0.73 Kok 0.71 Jan de Vries 0.7 Wilders 0.69 Van Gent 0.69 Kant 0.69 Rouvoet 0.69 Van der Hoeven 0.68 Leers 0.68 De Roon 0.68 Hofstra 0.67 Bos 0.65 Schippers 0.65 Buijs 0.64 Brinkhorst 0.64 Van der Vlies 0.63 Crone 0.62 Elias 0.61 Plasterk 0.61 Herben 0.61 Van Geel 0.61 Schutte 0.59 Bakker 0.58 Donner 0.57 Nicolaï 0.57 De Vries 0.57 De Graaf 0.55 Verbugt 0.54 Zalm 0.54

(31)

Balkenende 0.54 Remkes 0.53 Hoogervorst 0.52 Van Middelkoop 0.52 Halsema 0.52 Atsma 0.51 Van Bijsterveldt-Vliegenthart 0.51 Van As 0.51 Weekers 0.5 Van Hoof 0.5 Heemskerk 0.49 Van Aartsen 0.49 De Hoop Scheffer 0.48 Eurlings 0.48 Pronk 0.47 De Grave 0.46 Huizinga-Heringa 0.45 Teeven 0.45 Netelenbos 0.45 Cramer 0.44 Ouwehand 0.44 Kamp 0.43 Rosenmöller 0.43 De Jager 0.43 Benschop 0.43 Verhagen 0.42 Van Bommel 0.42 Ybema 0.42 Timmermans 0.4 Hessing 0.39 Van Beek 0.39 Koenders 0.37 Pechtold 0.36 Verdonk 0.35 Van Ardenne-van der Hoeven 0.35 Marijnissen 0.34 Dijksma 0.33 Melkert 0.31 Wijn 0.31 Van der Knaap 0.3

Schultz van Haegen-Maas Geesteranus 0.26 Rutte 0.22 Van Gennip 0.21 Knapen 0.04 Duivesteijn 0.04 9.4. Resultaten methode 2 - Cosine Similarity Korthals 0.32 Hirsch Ballin 0.29 Netelenbos 0.29 Donner 0.28 De Geus 0.27 Borst-Eilers 0.26 Van Bijsterveldt-Vliegenthart 0.26 Plasterk 0.26

(32)

Dijsselbloem 0.26 De Vries 0.25 Van Hoof 0.25 Remkes 0.25 Zalm 0.25 Vergeer 0.25 Elias 0.25 Balkenende 0.25 Benschop 0.24 Kok 0.24 Van Geel 0.23 Nicolaï 0.23 Van Gennip 0.23 Luchtenveld 0.23 Bos 0.23 Pronk 0.23 Ybema 0.23 Hamer 0.23 Van der Hoeven 0.22 Van der Steenhoven 0.22 De Wit 0.22 Van Aartsen 0.22 Vos 0.22 De Graaf 0.22 Stellingwerf 0.21 Van Haersma Buma 0.21 Scheltema-de Nie 0.21 Lambrechts 0.21 Brinkhorst 0.21 Van den Berg 0.21 Poppe 0.21 Huizinga-Heringa 0.21 De Grave 0.21 Dijksma 0.2 Koenders 0.2 Slob 0.2 Dittrich 0.2 Leers 0.2 Hoogervorst 0.2 Giskes 0.2 Rouvoet 0.2 Hoekema 0.2 Rutte 0.2 Van Ardenne-van der Hoeven 0.2 Van der Knaap 0.19 Schippers 0.19 Melkert 0.19 Schultz van Haegen-Maas Geesteranus 0.19 Depla 0.19 Van Beek 0.19 Verdonk 0.19 Verhagen 0.19 Dijkgraaf 0.19 De Hoop Scheffer 0.19 Jan de Vries 0.19 Wilders 0.19

(33)

Van der Staaij 0.19 Crone 0.19 Timmermans 0.19 Van Middelkoop 0.18 Bakker 0.18 Van der Ham 0.18 Eurlings 0.18 Rosenmöller 0.18 Verburg 0.18 Halsema 0.18 Wijn 0.18 Wolfsen 0.18 Van Dam 0.18 Heemskerk 0.18 Kamp 0.18 De Boer 0.18 Hofstra 0.18 Vendrik 0.17 Teeven 0.17 Waalkens 0.17 Marijnissen 0.17 Schutte 0.17 Van Gent 0.17 Buijs 0.17 Kant 0.16 Pechtold 0.16 Hessing 0.16 Van der Vlies 0.16 De Jager 0.16 Weekers 0.16 Van As 0.16 Van Bommel 0.15 Atsma 0.15 Cramer 0.15 Herben 0.15 De Roon 0.15 Verbugt 0.14 Ouwehand 0.13 Knapen 0.12 Duivesteijn 0.11