Een vergelijking tussen de kennis in scripties en hun abstracts door middel van keyword extraction

(1)

Een vergelijking tussen de kennis in scripties en

hun abstracts door middel van keyword

extraction

Bas Pronk

Universiteit van Amsterdam

Supervisor

Toon Abcouwer

Bachelor Thesis Informatiekunde

16 juli, 2019

(2)

Acknowledgements

Dit is mijn thesis ”Een vergelijking tussen de kennis in scripties en hun abstracts door middel van keyword extraction”. Ik heb deze thesis geschreven in het kader van mijn afstuderen aan de opleiding informatiekunde aan de Universiteit van Amsterdam. Ik heb deze thesis geschreven in de periode maart tot en met juli 2019.

Graag wil ik mijn begeleider Toon Abcouwer bedanken voor alle hulp en feedback bij deze thesis.

(3)

Abstract

De Universiteit van Amsterdam heeft een database met een groot aantal scripties. Bijna al deze scripties hebben sleutelwoorden en ab-stracts. In dit onderzoek zal worden geanalyseerd of deze abstracts en sleutelwoorden een goed beeld van wat er in de scripties staat geven. Voor de analyse zijn er eerst een aantal sleutelwoorden uit de scripties door middel van het keyword extraction algoritme TextRank gehaald. Er is daarna onderzocht hoeveel van deze woorden terugkomen in het abstract en overeenkomen met de door mensen gemaakte sleutel-woorden.Uit de resultaten is gebleken dat 8 van de 15 automatisch gegenereerde sleutelwoorden terugkomen in het abstract. Verder is gebleken dat gemiddeld 50% van de automatisch gegenereerde sleutel-woorden overeenkomen met de door mensen gemaakte sleutelsleutel-woorden. Ten slotte is met de laatste analyse aangetoond dat 7 van de 15 au-tomatisch gegenereerde sleutelwoorden uit de tekst overeenkomen met de automatisch gegenereerde sleutelwoorden uit het abstract. Met de resultaten wordt geconcludeerd dat het abstract en de sleutelwoor-den een goed beeld geven van de kennis in een scriptie. Ten slotte wordt aangeraden om dezelfde analyse uit te voeren met een grotere steekproef, maar dit dan eventueel te doen met alleen abstracts. Daar-naast wordt het gebruik van het TextRank algoritme aangeraden bij het maken van een nieuwe kennisrepresentatie van scripties.

(4)

Inleiding

Op dit moment zijn er meer dan 50.000 scripties in de database van de Univer-siteit van Amsterdam (UvA) (T. Abcouwer, persoonlijke communicatie, 9 juli 2019). Al deze scripties zijn in feite een weergave van de kennis die studenten hebben opgedaan tijdens hun bachelor of master programma’s. Dit is een enorme bron van ongebruikte kennis. Er kan worden aangenomen dat deze bron van kennis waarde heeft, omdat alle scripties door meerdere correctors zijn nagekeken en minimaal met een voldoende zijn beoordeeld. Voor toekomstige werkgevers kunnen scripties goed dienen voor het vormen van een beeld van de kennis en vaardigheden van de afstudeerders. Voor zowel werkgevers als studenten kan het dus van pas komen om te laten zien waar studenten hun scripties over hebben geschreven. Echter, de scripties van studenten zijn vaak erg groot. De kennis binnen de scripties zal dus op een beknopte wijze moeten worden weergegeven. Zo kunnen werkgevers en andere genteresseerden snel zien waar een student zijn scriptie over heeft geschreven en is de belangrijke kennis makkelijk te achterhalen. Deze beknopte versies van de scripties zijn in feite kennisrepresentaties van wat er in de scripties staat. Een ander voordeel van zo een kennisrepresentatie is dat de weergave, makkelijker dan de scripties zelf, kan worden verbonden aan andere weergaven die vergelijkbare informatie bevatten. Hierdoor kunnen scrip-ties met dezelfde onderwerpen aan elkaar worden gelinkt. Dit is voordelig voor de studenten, omdat studenten op deze manier vergelijkbare onderzoeken kunnen vinden. Daarnaast is het voordelig voor de Universiteit, omdat deze een beter beeld krijgt van welke kennis er wordt vergaard onder hun afstudeerders.

Op dit moment is Toon Abcouwer (hoogleraar Universiteit van Amsterdam) bezig met het omzetten van scripties in nieuwe kennisrepresentaties. Om ver-volgens een database te ontwikkelen met daarin kennisrepresentaties in plaats van scripties. Deze thesis is een deel van dit project dat in zijn geheel uit drie delen bestaat. Het eerste deel van het project bestaat uit het ontwikkelen van

(6)

een nieuwe kennisrepresentatie. Het tweede deel bestaat uit het vinden van een manier om contact te leggen met de schrijver van de scripties. Het laatste deel bestaat uit onderzoeken hoe het project moet worden uitgevoerd om niet de Gen-eral Data Protection Regulations te overtreden. Deze scriptie zal bijdragen aan het eerste deel; het ontwikkelen van een betere representatie van de kennis in een scriptie.

Voor het ontwikkelen van een nieuwe kennisrepresentatie is het belangrijk om bestaande manieren waarop de kennis in scripties wordt weergegeven te beoorde-len. Een kennisrepresentatie die bijna elke scriptie bevat is het abstract. Het abstract is een korte samenvatting van een wetenschappelijk artikel. Elk weten-schappelijk artikel heeft een abstract. Met het abstract kan de lezer er snel achterkomen waar een bepaald onderzoek over gaat. Verder kan de lezer zien hoe het onderzoek is uitgevoerd en wat voor resultaten er uit het onderzoek zijn gekomen. De vraag is of deze korte samenvatting kan dienen als kennisrepre-sentatie voor de scriptie. Als dit zo is, dan is het ontwikkelen van een nieuwe kennisrepresentatie niet nodig. Naast het abstract hebben scripties vaak ook sleutelwoorden. Dit zijn een aantal woorden die volgens de schrijver van de scrip-tie de inhoud van de scripscrip-tie het beste beschrijven. Deze zijn in feite dus ook een kennisrepresentatie van wat er in een scriptie staat. Er zal dus ook moeten worden onderzocht of dit een geschikte kennisrepresentatie is.

De belangrijkste eigenschap van een geschikte kennisrepresentatie is dat de representatie daadwerkelijk overkomt met wat er in de tekst staat. Er zijn ver-schillende manieren om dit te analyseren. Analyses die vaak voor vergelijkbare sit-uaties dienen, maken gebruik van menselijke assessors (Ufnalska Hartley, 2009). Echter, de grote omvang van de UvA databases en het grote aantal scriptie in het algemeen zorgt ervoor dat het niet haalbaar is om abstracts en sleutelwoorden te analyseren met menselijke assessors. Om de scripties, abstracts en sleutelwoorden

(7)

te analyseren zal een computergestuurde methode veel passender zijn.

Natural language processing en text mining zijn domeinen met technieken die dit soort analyses uit kunnen voeren. Een techniek die wordt gebruikt om te achterhalen waar een tekst over gaat is keyword extraction. Keyword extraction is een text mining methode die wordt gebruikt om automatisch de woorden, die de tekst het beste kunnen beschrijven, uit een tekst te halen (Beliga, Metrovi Martini-Ipi, 2015). Bij een scriptie zullen deze woorden dus beschrijven wat voor kennis er in die scriptie staat. Hierdoor zullen deze woorden goed kunnen dienen als nieuwe kennisrepresentatie. Naast het automatisch maken van een nieuwe kennisrepresentatie kan keyword extraction ook gebruikt worden voor het analy-seren van hoeveel het abstract overeenkomt met de scriptie. Dit kan geanalyseerd worden door te kijken hoeveel van de automatisch gegenereerde sleutelwoorden terugkomen in het abstract. Ditzelfde kan worden gedaan voor de door mensen gemaakte sleutelwoorden. Hier kan worden gekeken naar hoeveel van de menseli-jke sleutelwoorden hetzelfde zijn als de automatisch gegenereerde sleutelwoorden. Dit onderzoek zal deze analyse uitvoeren over een aantal scripties uit de UvA database. De analyse zal worden gebruikt om een antwoord te zoeken op de volgende onderzoeksvraag:

Hoeveel komt het abstract van een scriptie en de door mensen gemaakte sleutel-woorden overeen met de kennis in die scriptie?

Voor het beantwoorden van de onderzoeksvraag zal er een analyse met key-word extraction key-worden uitgevoerd. Deze analyse zal ten eerste bestaan uit het automatisch verkrijgen van een aantal sleutelwoorden uit de scripties. Daarna worden deze woorden met het abstract vergeleken. Om te begrijpen waarom het abstract met deze analyse wordt onderzocht, zal er in het eerste deel van het

(8)

the-oretisch kader worden beschreven waarom het abstract waarschijnlijk geen goede kennisrepresentatie is. In het tweede deel van het theoretisch kader zal de tech-niek keyword extraction uitgebreider worden worden toegelicht, zodat beter kan worden begrepen waarom juist keyword extraction een goede techniek is om het abstract te onderzoeken. In het derde deel van het theoretisch kader zal wor-den uitgelegd wat het TextRank algoritme is. Dit is het specifieke algoritme dat wordt gebruikt voor de analyse. Het theoretisch kader wordt afgesloten met een beschrijving van de deelvragen die worden gebruikt om de onderzoeksvraag te beantwoorden. Daarna zal in de methode worden uitgelegd hoe het TextRank al-goritme is toegepast in het analyseren van de scriptie. Daarna zullen de behaalde resultaten uit de analyse worden gerapporteerd. Ten slotte zal worden uitgelegd wat deze resultaten precies betekenen voor de hoofdvraag en wat eventueel in de toekomst onderzocht kan worden over het abstract als kennisrepresentatie en nieuwe vormen van kennisrepresentaties van scripties.

(9)

Theoretisch kader

2.1 Abstract als kennisrepresentatie

De vraag of het abstract een goede representatie is van de kennis in een weten-schappelijk artikel of een scriptie is niet ongegrond. Ten eerste wordt het abstract niet gebruikt voor dit doeleinde. De functie van het abstract is om de lezer een idee te geven of het artikel of de scriptie de moeite waard is om te lezen (Alexan-drov & Hennerici, 2007). Nadat de lezer heeft beoordeeld dat het onderzoek de moeite waard is om te lezen, zal diegene het artikel moeten lezen om er achter te komen hoe het onderzoek daadwerkelijk is verlopen. Het abstract zal dus eigen-lijk nooit alle kennis van het onderzoek bevatten. Een andere eigenschap van abstracts is dat de abstracts eigenlijk altijd beknopt zijn (Cross & Openheim, 2006). Dit komt doordat onderzoekers vaak veel artikelen moeten lezen om er ´

e´en te vinden die relevant is. Hierdoor hebben te uitgebreide abstracts minder kans om gelezen te worden (Alexandrov & Hennerici, 2007). Deze beknoptheid zorg ervoor dat vrijwel nooit alles wat in een scriptie of onderzoek staat terug te vinden is in het abstract.

Naast dat het ontwerp van een abstract het eigenlijk niet toelaat om alle kennis van een onderzoek te bevatten, bevatten veel abstracts van artikelen ook fouten. Zo is er in het onderzoek van Pitkin & Branagan (1998) aangetoond dat 27% van de onderzochte abstracts fouten bevatten waarvan zelfs een klein deel van de abstracts een foute conclusie bevatte. Onderzoeken naar artikelen in specifieke domeinen hebben vergelijkbare resultaten (Harris et al., 2002; Ward, Kendrach & Price,2004). Andere onderzoeken kijken of er een verschil is tussen verschillende soorten abstracts. Uit deze onderzoeken is gebleken dat het gebruik van gestructureerde abstract voor minder fouten in het abstract zorgt dan het gebruik van een vrije abstract (Sharma & Harrison, 2006). Een gestructureerd

(10)

2.2 Keyword Extraction

abstract is een abstract dat wordt onderverdeeld op basis van de hoofdstukken in een artikel. Vaak hebben deze delen de IMRaD structuur. Echter, deze vorm van abstracts bevatten ook regelmatig incorrecte data (Siebers, 2000).

Voor het ontdekken van fouten in abstracts en het bepalen of de abstract voldoende informatie bevat, bestaan er al een aantal analyses. Veel gebruikte analyses zijn checklists, beoordelingsschalen en leesbaarheidsmetingen (Ufnalska & Hartley, 2009). De eerste twee methodes maken gebruik van menselijke as-sessors en zijn hierdoor niet bruikbaar voor het beoordelen van een groot aantal abstracts. De laatstgenoemde methode is een methode om de leesbaarheid van een stuk tekst te meten. Dit kan bijvoorbeeld de Fleisch-Kincaid reliability test zijn. Deze test beoordeelt hoe leesbaar een samenvatting is op basis van het aan-tal woorden, het aanaan-tal zinnen en het aanaan-tal lettergrepen (Ufnalska & Hartley, 2009). Dit soort testen zijn niet bruikbaar om te kijken of de informatie in het abstract overeenkomt met de informatie in de tekst.

2.2 Keyword Extraction

Bestaande technieken zijn dus niet voldoende om te analyseren of het abstract een goede kennis representatie is. De grootte van de scriptie database zorgt ervoor dat het belangrijk is om een tijdsefficinte analyse te vinden waarmee geanalyseerd kan worden of een abstract dezelfde informatie als een scriptie bevat. Binnen het domein van Text Mining en Natural Language processing bestaan er technieken die voor zo een analyse kunnen worden gebruikt. Een Text Mining techniek die met name geschikt is voor het weergeven van de kennis in scripties is keyword extraction. Dit is het automatisch vinden van belangrijke sleutelwoorden die de beste weergave van de inhoud van de tekst geven (Beliga, Metrovi & Martini-Ipi, 2015). Keyword extraction is makkelijk te implementeren en kan goed gebruikt

(11)

worden om een stuk tekst te indexeren, samen te vatten of te categoriseren. Dankzij de groei van big data wordt gebruik van methodes zoals keyword extraction steeds belangrijker. Er wordt dan ook veel onderzoek in dit domein gedaan. Hierdoor zijn er veel verschillende keyword extraction technieken on-twikkeld. Deze verschillende technieken kunnen ruwweg worden onderverdeeld in vijf verschillende categorien; Statistische algoritmes, Linguistiche algoritmes, netwerk gebaseerde algoritmes, machine learning algoritmes en overige algoritmes (Onan,Korukolu & Bulut, 2016). Binnen deze categorien wordt vaak ook onder-scheid gemaakt tussen supervised en unsupervised. Supervised algoritmes kiezen sleutelwoorden op basis van gelabelde data. Dit houdt in dat deze algoritmes eerst een groot aantal teksten, waar al sleutelwoorden voor gekozen zijn, nodig hebben. Het algoritme zoekt dan naar sleutelwoorden door naar de eigenschap-pen van de al bestaande sleutelwoorden te kijken (Beliga, Metrovi & Martini-Ipi, 2015). Unsupervised algoritmes kiezen sleutelwoorden op basis van de structuur en andere eigenschappen van de tekst.

Statistische technieken proberen sleutelwoorden te vinden door middel van statistische maatstaven. Een van de meest gebruikte maatstaven is de tf-idf score (Lott, 2012). De tf-idf score wordt gebruikt wanneer er sleutelwoorden voor specifieke documenten, uit een verzameling van documenten, moeten worden gehaald. De tf-idf score kijkt naar hoe vaak een woord in een document voorkomt en hoe vaak het in andere documenten in de collectie voorkomt. Woorden die veel in ´e´en document en weinig in de andere documenten uit de collectie voorkomen, krijgen een hogere tf-idf score. De woorden met de hoogste tf-idf score worden als sleutelwoorden gezien. Andere statistische maatstaven die vaak worden gebruikt zijn de frequentie van woorden en het Patricia - Tree model (Chien, 1997).

Lingu¨ıstische keyword extraction algoritmes nemen ook lingu¨ıstische infor-matie mee met het uitkiezen van sleutelwoorden. Dit zijn bijvoorbeeld algoritmes

(12)

die part of speech (POS) tag informatie gebruiken (Hulth, 2003). POS tags zijn tags die die aangeven welke woordsoort een bepaald woord heeft op basis van de manier waarop dat woord in een zin gebruikt wordt (Jellinek, 1985). Andere al-goritmes kijken naar de betekenis van woorden of andere lingu¨ıstische informatie. Vanwege de complexiteit van linguistisch informatie binnen de informatica zijn de lingu¨ıstische algoritmes vaak zelf ook complex (Beliga, Metrovi & Martini-Ipi, 2015).

Machine learning algoritmes zijn vaak erg succesvol in het vinden van de juiste sleutelwoorden (Mihalcea & Tarau, 2004). Er zijn talloze verschillende algoritmes met varirende prestaties binnen deze categorie. De machine learning algoritmes zijn supervised algoritmes. Dit houdt in dat de algoritmes gelabelde data nodig hebben om te kunnen werken. In het geval van keyword extraction zijn dit stukken tekst met al van te voren bepaalde sleutelwoorden. Het is zeer arbeidsintensief om bij grote aantallen teksten al van te voren sleutelwoorden te bepalen. Hierdoor is het gebruik van machine learning algoritmes vaak afhankelijk van of de data al is gelabeld. Verder zijn modellen vaak niet overdraagbaar tussen domeinen en moet het algoritme dus bij elk domein weer opnieuw worden getraind met nieuwe gelabelde data (Beliga, Metrovi & Martini-Ipi, 2015). Machine learning algoritmes die voor keyword extraction kunnen worden gebruikt zijn; Na¨ıve Bayes classifier (Frank et al.,1999) en support vector machine (Zhang, Xu & Tang, 2006). Bij netwerk algoritmes wordt de tekst weergegeven als een graaf. Dit is een data representatie die bestaat uit aantal punten die verbonden zijn met lijnen. Deze lijnen duiden relaties aan tussen de punten. Bij keyword extraction zijn de punten verschillende woorden (Beliga, Metrovi & Martini-Ipi, 2015). Re-laties tussen deze knooppunten kunnen op allerlei verschillende manieren wor-den bepaald. Zo zijn er onder andere modellen waar relaties worwor-den bepaald door; de betekenis van woorden, hoe dicht woorden bij elkaar staan en of ze tot

(13)

2.3 Textrank

dezelfde woordsoort behoren. De sleutelwoorden worden dan bepaald door te berekenen welke knooppunten het meest centraal zijn of door de verbindingen tussen knooppunten bij elkaar op te tellen. Het voordeel van de netwerk algo-ritmes tegenover statistische algoalgo-ritmes is dat de algehele structuur van de tekst mee wordt genomen in het vinden van sleutelwoorden, terwijl bij simpele statis-tische algoritmes de woorden als losse woorden worden gezien (Mihalcea & Tarau, 2004).

2.3 Textrank

Deze netwerk algoritmes zijn op dit moment de meest populaire unsupervised keyword extraction technieken. E´en van de bekendere netwerk algoritmes voor het vinden van sleutelwoorden in een stuk tekst is het TextRank algoritme. Dit algoritme is gebaseerd op het PageRank algoritme van Brin & Page (1998). Dit algoritme wordt gebruikt om te bepalen hoe hoog een pagina in de Google zoek-machine verschijnt. Dit gebeurt door voor elke pagina een bepaalde waarde te berekenen en vervolgens de paginas te rangschikken op basis van deze waarde. De waarde wordt berekend op basis van hoeveel er van andere webpaginas naar die pagina wordt gelinkt. Links van paginas die zelf een hoge score hebben tellen zwaarder mee dan links die geen hoge score hebben. Het TextRank algoritme houdt dezelfde principes aan, maar past deze toe op woorden in een stuk tekst in plaats van webpaginas. Het n aantal woorden met de hoogste score worden bij TextRank gezien als de sleutelwoorden.

De formule voor het berekenen van de scores van de woorden is als volgt:

S(vi) = (1 − d) + d ∗P_jIn(v_i₎_|Out(v1

(14)

2.3 Textrank

Hier is S de score van een bepaald woord, IN het aantal woorden dat linkt naar een bepaald woord en OUT het aantal woorden waar vanuit het woord waar de score van wordt berekend naartoe wordt gelinkt. Verder is d een dempende factor. Dit is een overblijfsel uit het random surfer model van Brin en Page (1998). Dit staat voor de kans dat een internetgebruiker naar een willekeurige pagina gaat in plaats van een gelinkte pagina. Deze waarde is bijna altijd 0.85. De formule wordt in iteraties berekend. Bij de eerste iteratie krijgen alle woorden dezelfde score. De formule wordt dan gebruikt om de nieuwe score van elk woord te berekenen. Nadat dit voor alle woorden is gedaan, begint een nieuwe iteratie waar de score weer voor elk woord wordt berekend. De iteraties stoppen wanneer de scores van de woorden, tussen twee iteraties, vrijwel gelijk blijven.

Om dit algoritme uit te kunnen voeren moet het stuk tekst waar het algo-ritme over wordt berekend eerst worden weergegeven als een graaf. Mihalcea & Tarau (2004) doen dit als volgt. Ten eerste zullen alleen woorden met de POS tag noun of verb gebruikt worden. Dit betekent dat alleen de woorden die als zelfstandig naamwoord of als werkwoord worden gebruikt, worden meegenomen in de analyse. Dit gebeurt mede doordat voorzetstels en lidwoorden een hoge score krijgen, terwijl deze woorden niet tekenend zijn voor de inhoud van de tekst. Door alleen naar de werkwoorden en zelfstandig naamwoorden te kijken, zijn de beste resultaten behaald (Mihalce & Tarau, 2004). De tweede stap is het vastellen van de relaties tussen woorden. Deze relatie wordt bepaalt door middel van co occurrence. Dit houdt in dat er een relatie bestaat tussen twee woorden wanneer deze dicht bij elkaar in de tekst verschijnen. Hoeveel woorden er tussen de twee woorden kunnen staan, wordt bepaald door een window. Bij een win-dow met een grootte van vier hebben alle woorden die binnen vier woorden met elkaar in de tekst verschijnen een relatie. Nadat de relaties zijn bepaald kan het algoritme over de graaf van woorden worden berekend.

(15)

2.4 Deelvragen

Het TextRank algoritme houdt zich goed op tegen de succesvolle supervised algoritmes. In het onderzoek van Mihalcea & Tarau (2004) wordt een precision en recall gemeten die bijna even hoog is als de supervised algoritmes. De teksten die bij deze evaluatie gebruikt zijn, zijn abstracts van wetenschappelijke artikelen. Het succes van dit algoritme kan met name worden verklaard door het feit dat sleutelwoorden worden bepaald door te kijken naar de structuur van de hele tekst en niet alleen naar eigenschappen van de woorden zelf.

Het TextRank algoritme kan dus worden gebruikt om concepten die een beeld geven van waar de tekst over gaat uit een tekst te halen. Dit algoritme leent zich dus goed voor de taak om te kijken of dezelfde concepten terug komen in een abstract of een stel, door mensen gemaakte, sleutelwoorden. Daarnaast presteert het algoritme ook vrij goed binnen het domein van wetenschappelijke artikelen (Mihalcea & Tarau, 2004). Verder is het algoritme ook niet supervised. Dit is voordelig, omdat veel scripties geen door mensen gemaakte sleutelwoorden bevat-ten en omdat het voor het onderzoek belangrijk is dat de sleutelwoorden op een andere manier dan alleen naar de eigenschappen van de door mensen gemaakte sleutelwoorden te kijken, worden gevonden. Met deze laatste methode zullen de computer-gegenereerde sleutelwoorden altijd op de door mensen gemaakte sleutelwoorden lijken. Ten slotte is het algoritme geschikt voor dit onderzoek, omdat de methode vrij simpel toepasbaar is. Dit is belangrijk vanwege de weinig beschikbare tijd voor dit onderzoek.

2.4 Deelvragen

Het onderzoek omtrent het abstract heeft uitgewezen dat er genoeg aanleiding is om te onderzoeken of het abstract van een scriptie goed kan dienen als kennis-representatie voor de kennis in een scriptie. Om dit te onderzoeken zal er een

(16)

2.4 Deelvragen

analyse met keyword extraction worden uitgevoerd. Deze techniek werkt goed voor deze analyse, omdat het goed kan omgaan met grote aantallen scripties en geen menselijk assessor nodig heeft. Er zijn verschillende keyword extraction technieken. Uit deze technieken is TextRank de meest geschikte voor de analyse van dit onderzoek. Deze methode is namelijk makkelijk te implementeren, heeft in het verleden al goed gewerkt bij wetenschappelijke teksten, werkt met verschil-lende talen en is unsupervised. Vanwege deze redenen zal het TextRank algoritme worden gebruikt om dit onderzoek uit te voeren. De sleutelwoorden die door dit algoritme gevonden worden, zullen worden vergeleken met het abstract van een aantal scripties in de database van de Universiteit van Amsterdam. Dit onder-zoek zal uit verschillende stappen bestaan. Ten eerste zal er door middel van Python een aantal belangrijke sleutelwoorden met TextRank uit de tekst worden gehaald. Deze woorden zullen vervolgens met het abstract worden vergeleken. De resultaten van deze analyse zullen worden gebruikt om de eerste deelvraag van het onderzoek te beantwoorden.

De eerste deelvraag van het onderzoek is:

Hoeveel komen de abstracts van scripties overeen met de door TextRank bepaalde sleutelwoorden uit die scripties?

Met deze vraag zal een deel van de hoofdvraag beantwoord worden. Echter, het tweede deel van de hoofdvraag moet ook worden onderzocht. Er moet dus worden onderzocht hoeveel de door mensen gemaakte sleutelwoorden overeenkomen met wat er in de daadwerkelijke tekst staat. Om dit te beoordelen zullen de au-tomatisch gegenereerde sleutelwoorden ook met de door mensen gemaakte sleutel-woorden worden vergeleken. De de door mensen gemaakte sleutelsleutel-woorden worden hierin gezien als de juiste sleutelwoorden. Deze vorm van analyse is vaak ook de

(17)

2.4 Deelvragen

manier waarop keyword extraction algoritmes worden beoordeeld. De resultaten die uit deze analyse komen zullen worden gebruikt om de volgende deelvraag te beantwoorden.

De tweede deelvraag is:

Hoeveel komen de door mensen gemaakte sleutelwoorden overeen met de sleutel-woorden die automatisch zijn gegenereerd?

Ten slotte zal er ook nog worden gekeken of het keyword extraction algo-ritme dezelfde sleutelwoorden als het abstract uit de tekst haalt. Door dit te onderzoeken zal ten eerste nog duidelijker worden of het abstract kan dienen als kennisrepresentatie. Daarnaast zal door deze analyse duidelijk worden of Tex-tRank dezelfde woorden uit het abstract en de tekst haalt. Dit bepaalt of het TextRank algoritme wel echt over de hele tekst moet worden uitgevoerd. Door het keyword extraction algoritme alleen over de abstracts uit te voeren, wordt de tijd die nodig is voor het analyseren van grote aantallen scripties, aanzienlijk minder.

De derde deelvraag is:

Hoe verschillen de sleutelwoorden die zijn verkregen door TextRank uit de tekst met de woorden die zijn verkregen door middel van TextRank uit het abstract?

Na het uitvoeren van de analyses en het beantwoorden van de vragen, zal er een duidelijk beeld moeten zijn van hoe het abstract werkt als kennisrepresentatie en hoe goed het keyword extraction algoritme werkt als kennisrepresentatie.

(18)

Methode

3.1 Data verzameling

De data voor de analyse bestaat uit dertig scripties uit de Uva database. Deze scripties zijn gedownload van de webiste http://www.scriptiesonline.uba.uva.nl/. De scripties zijn gekozen door eerst de zoekterm organizational change te ge-bruiken. Uit de lijst met scripties die met deze zoekterm naar boven kwamen, zijn alle scripties gekozen die zowel sleutelwoorden als een abstract hebben. Verder zijn alleen masterscripties en scripties in het engels gekozen. Er is voor mas-terscripties gekozen, omdat deze altijd in het engels zijn geschreven en dit de dataverzameling makkelijker heeft gemaakt. Er is voor de taal engels gekozen, omdat deze taal beter werkt met POS tags en zodat het algoritme zich maar met ´

eén taal hoeft bezig te houden. Alle dertig scripties zijn gedownload en toegevoegd in één map. De abstracts en sleutelwoorden zijn handmatig uit de tekst gehaald en zijn allemaal via het programma Jupyter Notebooks en de Python extensie pandas in een tabel geplaatst. De scripties zijn uitgelezen met de Python extensie PyPDF2. Bij twee scripties zijn de appendixen verwijderd, omdat dit grote inter-views in het Nederlands waren. Door de appendixen werden de sleutelwoorden aanzienlijk benvloedt. Na het verwijderen van de appendixen is de tekst in zijn volledigheid in de pandas tabel geplaatst.

De keyword extraction is uitgevoerd met Python via het programma Jupyter Notebooks. Voor de analyse is een class uit een blogpost op medium gebruikt (Understand TextRank for Keyword Extraction by Python, 2019). Deze class bestaat uit een aantal functies die verschillende onderdelen van de analyse uitvo-eren. De eerste functie haalt alle stopwoorden uit de tekst. deze woorden worden bepaald met de Python extensie nlp. De tweede functie filtert de woorden, die de POS tag noun of verb niet hebben, er uit. De derde functie zet alle woorden die

(19)

3.2 De analyse

overblijven in een lijst. De derde functie bepaalt de links tussen woorden. Deze worden bepaald door een variabele genaamd window. Deze variabele is het aantal woorden dat maximaal tussen twee gelinkte woorden kan staan. De vierde functie gebruikt de lijst van woorden om een matrix te maken waarin de waardes staan hoe vaak twee woorden met elkaar gelinkt worden. Binnen deze matrix heeft elke kruising tussen twee woorden de waarde ´e´en. Deze waarde wordt gedeeld door het aantal connecties dat een woord heeft. Ten slotte voert de functie analyze de analyse uit. De functie gebruikt de matrix om de verschillende scores voor de woorden te berekenen. Binnen de functie wordt de Textrank formule iteratief over elk woord berekend tot het verschil van alle scores kleiner is dan de vari-abele min diff of tot het aantal iteraties groter wordt dan de varivari-abele steps. De formule gebruikt de variabele d als damping factor. De uiteindelijke scores per woord worden opgeslagen in een dictionary met de naam word weights.

3.2 De analyse

Voor elke scriptie wordt er een nieuwe class aangemaakt. Over deze class wordt de functie analyze aangeroepen. Nadat deze functie klaar is worden de woorden met de 15 hoogste scores toegevoegd aan de tabel waar het abstract en de de door mensen gemaakte sleutelwoorden al in staan. De computer-gegenereerde sleutel-woorden worden daarna vergeleken met de de door mensen gemaakte sleutelwo-orden. Hiervoor worden de menselijk sleutelwoorden opgebroken. Dit houdt in dat een woord zoals organizational change wordt gezien als de woorden organi-zational en change. Hier is voor gekozen omdat de woorden die door TextRank worden gevonden ook altijd los staan. Nadat de woorden zijn opgebroken worden ze met elkaar vergeleken. Alleen woorden die precies hetzelfde zijn gespeld wor-den als een match gezien. Het aantal woorwor-den dat hetzelfde is, wordt in de tabel

(20)

3.3 Berekenen van de resultaten

genoteerd. Daarnaast wordt genoteerd hoeveel dit procentueel is van het aantal door mensen gemaakte sleutelwoorden. De laatste metriek is belangrijk, omdat er variatie zit tussen de hoeveelheid door mensen gemaakte sleutelwoorden in een scriptie. Na de vergelijking met menselijke sleutelwoorden, wordt het abstract vergeleken met de automatisch gegenereerde sleutelwoorden. Hiervoor is gekeken hoeveel van de computer-gegenereerde woorden er in de abstracts terug te vinden zijn. Deze waarde is ook genoteerd in de tabel. Ten slotte zijn er sleutelwoorden met TextRank uit de abstracts gehaald. Deze zijn met de door mensen gemaakte sleutelwoorden vergeleken. Het aantal overeenkomsten is ook genoteerd in de tabel.

3.3 Berekenen van de resultaten

De resultaten in de tabel zijn verwerkt met de functies van pandas. Voor de kolommen met overeenkomsten tussen menselijke sleutelwoorden en automatisch gegenereerde sleutelwoorden zijn gemiddelden en standaarddeviaties berekend met de functies .mean() en .std(). Verder is de functie .corr() gebruikt op de kolommen met de lengte van de scriptie en de kolom met het aantal woorden dat voorkomt in de abstracts. Deze functie berekent de pearson correlation tussen twee kolommen.

(21)

Resultaten

De resultaten zullen per deelvraag worden behandeld. Ten eerste worden de resultaten die relevant zijn voor de eerste deelvraag behandeld.

Hoeveel komen de abstracts van scripties overeen met de door TextRank bepaalde sleutelwoorden uit die scripties?

De resultaten tonen aan dat de meerderheid van de computer-gegenereerde sleutelwoorden terug zijn te vinden in de Abstract. Van alle scripties is er geen scriptie waarbij de door computer-gegenereerde sleutelwoorden niet terug te vinden zijn in het abstract. Gemiddeld komen acht van de vijftien computer-gegenereerde sleutelwoorden voor in het abstract van diezelfde scripties. De stan-daardafwijking van de aantallen woorden die voorkomen in het abstract is 2,8. Er kan dus worden gesteld dat voor de meerderheid van de scripties de abstracts veel overeenkomen met de door TextRank bepaalde sleutelwoorden.

Naast het gemiddelde aantal sleutelwoorden in het abstract, is er ook gekeken naar of het aantal sleutelwoorden dat voorkomt in een abstract correleert met de lengte van het abstract. De lengte van de abstracts is, voor de meeste abstracts, vrijwel hetzelfde. De abstracts bevatten gemiddeld 232 woorden en hebben een standaarddeviatie van 86 woorden. De correlatie van het aantal woorden tegen-over het aantal sleutelwoorden in de abstract is 0,04 en is dus eigenlijk verwer-pelijk.

Hieronder zullen de resultaten van de tweede deelvraag worden behandeld.

Hoeveel komen de door mensen gemaakte sleutelwoorden overeen met de sleutel-woorden die automatisch zijn gegenereerd?

(22)

Bij het vergelijken van de door computer-gegenereerde sleutelwoorden met door mensen gemaakte sleutelwoorden is gebleken dat dat de meeste scripties de door mensen gemaakte sleutelwoorden bevatten, waarvan sommige door mensen gemaakte sleutelwoorden overeenkomen met de computer-gegenereerde sleutelwo-orden. Er zijn in totaal 25 van de 30 scripties waarbij dit het geval is. Gemiddeld komen 50% van de computer-gegenereerde sleutelwoorden overeen met de door mensen gemaakt sleutelwoorden. De standaardafwijking van alle percentages is 21%.

Er kan dus worden gesteld dat er altijd wel de door mensen gemaakte sleutel-woorden met computer-gegenereerde sleutelsleutel-woorden met elkaar overeenkomen. Het percentage overeenkomende woorden van het totale aantal door mensen gemaakte sleutelwoorden is gemiddeld. Dit gemiddelde percentage blijft vrijwel gelijk bij het verminderen van het aantal sleutelwoorden. Slechts wanneer er minder dan zeven sleutelwoorden worden meegenomen in de analyse gaat het percentage overeenkomsten aanzienlijk omlaag.

Ten slotte is het algoritme uitgevoerd over de abstracts van de scripties. De sleutelwoorden die hieruit zijn verkregen zijn met de sleutelwoorden, die uit het de volle tekst zijn verkregen met TextRank, vergeleken. Deze analyse werd veel sneller uitgevoerd dan bij het gebruik van TextRank met de gehele tekst. Het gebruik van TextRank bij het abstract duurde minder dan ´e´en seconde, terwijl het gebruik van TextRank bij de gehele tekst ongeveer zeven minuten duurde. De woorden die uit het abstract zijn verkregen komen redelijk overeen met de woorden die uit de tekst zijn verkregen. Zo komen gemiddeld zeven van de 15 woorden met elkaar overeen. De standaardafwijking van het aantal woord dat overeenkomt is twee. Deze resultaten kunnen worden gebruikt om deze vraag te beantwoorden:

(23)

Hoe verschillen de sleutelwoorden die zijn verkregen door TextRank uit de tekst met de woorden die zijn verkregen door middel van TextRank uit het abstract?

Op basis van de benoemde resultaten kan worden geconcludeerd dat de woor-den dus met elkaar overeenkomen. Woorwoor-den die ervoor zorgen dat de overeenkom-sten minder zijn, zijn woorden zoals study. Deze woorden komen vaak voor in abstracts, maar niet in de volledige teksten. Dit soort woorden zeggen wel waar de tekst over gaat.

(24)

Conclusie

De resultaten van de deelvragen schetsen een onverwachts beeld. Ten eerste laat het antwoord op de eerste deelvraag zien dat veel belangrijke concepten die in de tekst staan terugkomen in het abstract. Dit laat zien dat wat er in het abstract staat wel een goed beeld schept van wat er in de scriptie staat. Verder is er uit de resultaten gekomen dat de lengte van het abstract en het aantal sleutelwoorden in het abstract niet met elkaar overeenkomen. Hieruit kan worden geconcludeerd dat de grootte van een abstract er niet voor zorgt dat het abstract een completer beeld geeft van de scriptie en dat de uitgevoerde analyse betere resultaten behaald bij grotere abstracts.

De resultaten die antwoord geven op de tweede deelvraag laat zien dat de de door mensen gemaakte sleutelwoorden ook redelijk overeenkomen met wat er in het abstract staat. Echter, dit betekent niet dat de de door mensen gemaakte sleutelwoorden ook minder overeenkomen met de tekst. Hier zijn verschillende verklaringen voor. Ten eerste zijn er de door mensen gemaakte sleutelwoor-den die niet specifiek in de tekst worsleutelwoor-den genoemd, maar nog wel veel kunnen zeggen over de tekst. Zo is bij ´e´en van de scripties de woorden meta en study deel van de de door mensen gemaakte sleutelwoorden. Dit zijn woorden die veel zeggen over de tekst. Deze woorden zijn echter niet vaak terug te vinden in de tekst. Andere redenen waarom een woord wel voorkomt in de lijst met door mensen gemaakte sleutelwoorden kan zijn dat een sleutelwoord een overkoe-pelende betekenis heeft of omdat een sleutelwoord vaak op een andere manier wordt gebruikt in de tekst. Verder heeft het lage percentage ook te maken met het feit dat de de door mensen gemaakte sleutelwoorden niet worden gefilterd op POS tags. Hierdoor zitten er ook bijvoeglijke naamwoorden en voorzetsels tussen. Het lage percentage overeenkomsten in de resultaten kan dus eigenlijk wel als substantieel worden beschouwd.

(25)

beeld. Hier komen de sleutelwoorden evenveel overeen met de sleutelwoorden uit de tekst als de automatisch gegenereerde sleutelwoorden met de door mensen gemaakte sleutelwoorden. Hier kan het lagere percentage ook worden verklaard aan de hand van de eerder genoemde redenen. Met de resultaten van de derde deelvraag kan dus weer worden geconcludeerd dat het abstract goed overeenkomt met wat er in de tekst staat. Hetzelfde kan worden gezegd over de menselijke sleutelwoorden op basis van de resultaten van de tweede deelvraag.

Al met al tonen de antwoorden op de drie deelvragen dat de abstracts en sleutelwoorden een goed beeld geven van wat voor kennis er in de scripties staat.

(26)

Discussie

6.1 Interpretaties

In dit onderzoek zijn een aantal belangrijke termen uit de tekst gehaald. Daarna is onderzocht hoe vaak deze woorden in het abstract voorkomen en hoeveel de automatisch gegenereerde sleutelwoorden overeenkomen met de door mensen gemaakte sleutelwoorden. De methode die voor het vinden van de belangrijke termen is gebruikt, is getest door Mihalcea, Tarau (2004). De methode is in dit onderzoek op exact dezelfde manier toegepast als bij deze onderzoekers. Hierdoor is het gebruik van deze methode in dit onderzoek valide.

De analyse van automatisch gegenereerde sleutelwoorden met het abstract laat zien dat de termen die belangrijk zijn in de tekst ook terugkomen in de meeste abstracts van de scripties. Dit houdt in dat abstracts wel vaak een goede representatie geven van welke kennis er in de scriptie worden behandeld. Verder zorgt dit ervoor dat er meer kan worden gedacht aan het gebruik van de abstracts als een legitieme kennisrepresentatie. Echter, er zal nog meer onderzoek moeten worden gedaan om het abstract als een definitieve kennisrepresentatie te kun-nen zien. Zo zal ook de accuraatheid van een abstract van scripties onderzocht moeten worden. Ander onderzoek heeft al uitgewezen dat dit vaak niet goed gaat bij reguliere wetenschappelijke onderzoeken. Het zal dus ook bij scripties moeten worden onderzocht. Verder heeft het abstract ook niet zozeer de juiste kwaliteiten om in een grote database toegepast te worden. Abstracts zijn bijna altijd in verschillende vormen en zullen dus moeilijk aan elkaar te koppelen zijn. Deze eigenschap bij kennisrepresentaties zorgt voor een betere kwaliteit database, omdat zo scripties met hetzelfde onderwerp aan elkaar gekoppeld kunnen worden. Voor het maken van een echte kennisrepresentatie van scripties kan het ab-stract zelf dus waarschijnlijk niet worden gebruikt. Des al niettemin kan het abstracte wel als basis worden gebruikt om een nieuwe kennisrepresentatie te

(27)

6.1 Interpretaties

bouwen. Bijvoorbeeld door middel van keyword extraction van het abstract. Dit wordt ondersteund door de resultaten van de analyse bij de derde deelvraag.

Een keyword extraction van het abstracts zal ook een stuk minder lang duren dan een keyword extraction van de hele tekst. Bij de analyse van dertig scripties duurde het verkrijgen van de sleutelwoorden 5,5 minuten. Bij het verkrijgen van sleutelwoorden bij 30 abstracts deed het algoritme er twee seconden over. Deze aantallen zullen exponentieel stijgen wanneer er meer scripties moeten worden geanalyseerd. Alleen het abstract gebruiken voor sleutelwoorden heeft hier dus wel echt meerwaarde.

Kijkend naar de vergelijking van automatisch gegenereerde sleutelwoorden met door mensen gemaakte sleutelwoorden kan worden gesteld dat de bestaande door mensen gemaakte sleutelwoorden van scripties ook goed kunnen dienen als kennisrepresentatie, omdat veel belangrijke woorden in de tekst hetzelfde zijn als de door mensen gemaakte sleutelwoorden. Echter, de meerderheid van de scripties heeft geen door mensen gemaakte sleutelwoorden. Hierdoor zal het niet realistisch zijn om de alleen de door mensen gemaakte sleutelwoorden als kennisrepresentatie te gebruiken.

Bij de vergelijking van de verschillende soorten sleutelwoorden is het moeilijk om te bepalen of de door mensen gemaakte sleutelwoorden de tekst beter dekken dan de automatisch gegenereerde sleutelwoorden. Doordat taal vrij ambigu is, is het moeilijk om te bepalen welke woorden echt het beste de inhoud van een tekst dekken. Het grote verschil tussen de door mensen gemaakte sleutelwoorden en de automatische sleutelwoorden, is dat de automatisch gegenereerde sleutelwoorden woorden bevatten die niet in de tekst staan. Deze woorden kunnen de tekst nog steeds goed beschrijven, maar het is moeilijk om te zeggen dat deze woorden de tekst beter kunnen beschrijven. Dit zal verschillen per individuele scriptie en op basis van individuele preferentie. Dit laatste zal toch altijd een factor bij

(28)

6.2 limitaties

sleutelwoorden zijn, aangezien er geen exact antwoord is op de vraag hoe goed een bepaald woord een stuk tekst dekt.

6.2 limitaties

De eerste limitatie van dit onderzoek is de kleine steekproef die is gebruikt. Deze kleine steekproef zal ten koste zijn geweest van de externe validiteit. Er is voor deze kleine steekproef gekozen, omdat er weinig tijd beschikbaar was voor dit on-derzoek en doordat alle scripties handmatig uit de UvA scriptie database gedown-load moesten worden. Echter, het zal met toegang tot deze database alleen een kwestie van rekenkracht zijn om hetzelfde onderzoek over een grotere steekproef oftewel de gehele database uit te voeren.

De tweede limitatie komt voort uit het gebruik van een POS tagger bij het verkrijgen van de sleutelwoorden. Vanwege de oneindige complexiteit van taal en de grootte van de teksten, kunnen de woorden in een tekst nooit foutloos worden getagd. Hierdoor zullen er voor de analyse sommige zelfstandig naamwoorden en werkwoorden uitgefilterd worden en andere woordsoorten zullen juist niet uitge-filterd worden. Verder wordt de POS tagger ook niet gebruikt om de de door mensen gemaakte sleutelwoorden te filteren. De reden hiervoor is dat de POS tagger alleen goed werkt bij echte zinnen en niet bij losse woorden (The Stanford NLP Group, 2004). Het niet gebruiken van een POS tagger bij de door mensen gemaakte sleutelwoorden heeft er voor gezorgd het percentage bij sommige scrip-ties iets lager is uitgevallen.

De laatste limitatie is het feit dat er voor sommige scriptie extra handmatig werk moest worden uitgevoerd. Dit gebeurde in de vorm van het verwijderen van sommige appendixen en het handmatig verkrijgen van de abstracts en de door mensen gemaakte sleutelwoorden. Deze handmatige handelingen hebben ervoor gezorgd dat de analyse iets meer werk heeft gekost. Bij het uitvoeren

(29)

6.3 Vervolgonderzoek

van de analyse met een groter aantal scripties kan dit voor nog meer extra tijd zorgen. Bij het uitvoeren van de analyse over een groter aantal scripties zal hier een oplossing voor gevonden moeten worden. Wellicht dat er gebruik kan worden gemaakt van natural language processing om de abstracts automatisch te detecteren. Er zal meer onderzoek moeten worden gedaan om te kijken of dit mogelijk is.

6.3 Vervolgonderzoek

De gebruikte steekproef in dit onderzoek is erg klein, maar de analyse is goed schaalbaar. Om de analyse over een groter aantal scripties te doen, zal eerst toe-gang moeten worden verkregen tot de scriptiedatabase van de UvA. Daarnaast zal er gebruik moeten worden gemaakt van een computer met veel vermogen, aangezien het uitvoeren van de analyse op een groot aantal scripties erg duur zal zijn. Op basis van de resultaten zal deze analyse wel de moeite waard zijn. Hierdoor zal duidelijk worden of de resultaten omtrent het abstract aanhoudt bij een grotere steekproef en dus het advies om abstracts als basis voor een kennis-representatie van de scriptie te gebruiken nog steeds gegeven kan worden. Verder zal er met een grotere analyse ook een beter beeld verschijnen van hoe TextRank met een grotere steekproef presteert.

Deze prestatie was erg hoog. Dit is namelijk te zien in wat voor sleutelwoorden er door dit algoritme werden gegenereerd. Deze geven een goed beeld voor wat er in de tekst staat. Het feit dat de sleutelwoorden vaak in het abstract voorkomen, bewijst ook dat het niet willekeurige woorden zijn. Door deze hoge prestatie kan het algoritme wellicht worden gebruikt om een nieuwe kennisrepresentatie te maken. In toekomstig onderzoek kan er bijvoorbeeld worden gekeken naar hoe het TexTrank samenvattings algoritme werkt met scripties. Dit is een algoritme dat dezelfde principes als het TextRank sleutelwoorden algoritme aanhoudt, maar

(30)

6.3 Vervolgonderzoek

deze principes op zinnen toepast in plaats van woorden (Mihalcea Tarau, 2004). Door dit te doen kan het algoritme automatisch gegenereerde samenvattingen maken. Verder kan ook de prestatie zelf nog verder worden onderzocht. Dit kan bijvoorbeeld worden gedaan door de schrijvers van scripties te vragen of de computer-gegenereerde sleutelwoorden of samenvattingen een goed beeld geven van wat er in de scriptie staat.

Bij het creren van zo een kennisrepresentatie kunnen het abstract en de door mensen gemaakte sleutelwoorden wel nog rol hebben. Zo kunnen automatische gegenereerde sleutelwoorden de de door mensen gemaakte sleutelwoorden supple-menten, omdat hier belangrijke woorden tussen zitten die niet vaak in de tekst voorkomen. Verder kunnen de automatisch gegenereerde samenvattingen en wo-orden, gegeneerd worden met het abstract in plaats van de hele tekst. Door de automatisch gegenereerde informatie te complementeren met de bestaande in-formatie zal er een compleet beeld verschijnen van waar een scriptie overgaat.

(31)

Referenties

Alexandrov, A.V. & Hennerici, M.G. (2007). Writing good abstracts. Cere-brovascular Diseases, 23, 256–259.

Beliga, S., Meˇstrović, A. & Martinˇcić-Ipˇsić, S. (2015). An overview of graph-based keyword extraction methods and approaches. Journal of informa-tion and organizainforma-tional sciences, 39, 1–20.

Brin, S. & Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. Computer networks and ISDN systems, 30, 107–117.

Chien, L.F. (1997). Pat-tree-based keyword extraction for chinese information retrieval. In ACM SIGIR Forum, vol. 31, 50–58, Citeseer.

Frank, E., Paynter, G.W., Witten, I.H., Gutwin, C. & Nevill-Manning, C.G. (1999). Domain-specific keyphrase extraction. Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence, 2, 668–673.

Harris, A.H., Standard, S., Brunning, J.L., Casey, S.L., Goldberg, J.H., Oliver, L., Ito, K. & Marshall, J.M. (2002). The accuracy of abstracts in psychology journals. The Journal of psychology, 136, 141–148.

Hulth, A. (2003). Improved automatic keyword extraction given more linguistic knowledge. In Proceedings of the 2003 conference on Empirical methods in nat-ural language processing, 216–223, Association for Computational Linguistics.

Jelinek, F. (1985). Self-organized language modelling for speech recognition. dordrecht. Impact of Processing Techniques on Communication, J. Skwirzinski, ed .

Lott, B. (2012). Survey of keyword extraction techniques. UNM Education, 50, 1–11.

(32)

REFERENTIES

Mihalcea, R. & Tarau, P. (2004). Textrank: Bringing order into text. In Proceedings of the 2004 conference on empirical methods in natural language processing, 404–411.

Onan, A., Koruko˘glu, S. & Bulut, H. (2016). Ensemble of keyword ex-traction methods and classifiers in text classification. Expert Systems with Ap-plications, 57, 232–247.

Pitkin, R.M. & Branagan, M.A. (1998). Can the accuracy of abstracts be improved by providing specific instructions?: A randomized controlled trial. JAMA, 280, 267–269.

Sharma, S. & Harrison, J.E. (2006). Structured abstracts: do they improve the quality of information in abstracts? American journal of orthodontics and dentofacial orthopedics, 130, 523–530.

Siebers, R. (2000). How accurate is data in abstracts of research articles? New Zealand Journal of Medical Laboratory Science, 54, 22–23.

The Stanford NLP Group (2004). Stanford log-linear part-of-speech tagger. Geraadpleegd 5 juni 2019, van https://nlp.stanford.edu/software/tagger.shtml.

Ufnalska, S. & Hartley, J. (2009). How can we evaluate the quality of abstracts. European Science Editing, 35, 69–72.

Understand TextRank for Keyword Extraction by Python (2019). Geraadpleegd 20 juni 2019, van https://towardsdatascience.com/textrank-for-keyword-extraction-by-python-c0bae21bcec0.

(33)

REFERENTIES

Ward, L.G., Kendrach, M.G. & Price, S.O. (2004). Accuracy of abstracts for original research articles in pharmacy journals. Annals of Pharmacotherapy, 38, 1173–1177.

Zhang, K., Xu, H., Tang, J. & Li, J. (2006). Keyword extraction using support vector machine. In international conference on web-age information management , 85–96, Springer.

(34)

(35)

(36)

(37)

(38)

Appendix B (lijst met gebruikte scripties)

Boer__N._de_5738857_MSc_BA(scriptie26).pdf" Dillon_Marie_110851692c_MSc._BA(scriptie20).pdf" Duijkers__Andr__(scriptie21).pdf" Elsen_Sophie_10876596_MSc_BA(scriptie16).pdf" Felser_Marie-Christine_11085487_MSc_BA(scriptie22).pdf" Holtbach__Emilie(scriptie30).pdf" Hussainali_Zienat_10000265_MSc_BA.(scriptie27)pdf.pdf" Kamphuis_Anique_11399007_MScBA.pdf" Koks__A__10475451__MSc_EPBK(scriptie28).pdf" Lottse__Anita_scriptie8.pdf" Morais_Saul_10846328_MSc_BA(scriptie23).pdf" Oostveen_Anna_10203931_MSc_BA(scriptie24).pdf" Ozcelik__M.__10891951__MBA(scriptie29).pdf" Petrova_Preslava_10827129_MSc_BA_scriptie10.pdf" Scriptie1-1-88(Eveline Sintnicolaas).pdf"

scriptie2(Maurits van den Eijkel).pdf" scriptie3(M.I. Hooiveld).pdf" scriptie4_Mulder.A.R.G._Mth.pdf" scriptie5(s.jamal).pdf" scriptie6.pdf" T1hesis_Project_Iris_Maijer_10757112_scriptie9-1-17.pdf" Verbruggen_Eline_11111941_MSc_BA(scriptie25).pdf" vragt__Marly_van(scriptie 11).pdf" Welleweerd__Marjet._10649638_MsC_BA(scritpie12).pdf" Wilde_Hannah_de_10901728_MSc_EPMS(scriptie17).pdf" Wolpers_Victoria_11186658_MSc_BA.(scriptie18)pdf.pdf" A._Al-Bouawad(scriptie19).pdf" Alderin__Kristina_11372990_MSc_BA(scriptie13).pdf" Alderlieste_Jeroen_10901744_MSc_EPMS(scirptie14).pdf" Beunk__Edwin__11146664__MSc_EPMS(scriptie15.pdf"

Een vergelijking tussen de kennis in scripties en hun abstracts door middel van keyword extraction