• No results found

Automatisch detecteren en classificeren van Nederlandse vragen op Twitter

N/A
N/A
Protected

Academic year: 2021

Share "Automatisch detecteren en classificeren van Nederlandse vragen op Twitter"

Copied!
67
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Automatisch detecteren en

classificeren van Nederlandse

vragen op Twitter

T.T.K Teunissen

Augustus 2012

Masterscriptie Informatiekunde Faculteit der Letteren Rijksuniversiteit Groningen

Supervisor: Dr. G. Bouma

(2)
(3)

Inhoudsopgave

1 Inleiding 4

2 Twitter als vraagbaak 6

2.1 Motivaties voor het stellen van vragen volgens Morris et al. . 6

2.2 Motivaties om vragen te beantwoorden volgens Morris et al . 8 2.3 Motivaties om vragen te beantwoorden volgens Raban en Har-per . . . 8

2.4 Motivaties om vragen niet te beantwoorden . . . 8

2.5 Motivatie voor automatische vraagdetectie . . . 10

3 Gerelateerd onderzoek 11 3.1 Automatisch detecteren en classificeren van Engelstalige vra-gen op Twitter volvra-gens Li et al . . . 11

3.2 Taxonomie van Efron en Winget . . . 14

3.3 Taxonomie van Morris et al . . . 16

4 Corpora 18 4.1 Twitter Corpus . . . 18

4.1.1 Tweets . . . 18

4.1.2 Twitter API . . . 18

4.1.3 Nederlandse tweets selecteren . . . 19

4.1.4 Samenstellen tweetcorpus . . . 20

4.1.5 Tweets Labelen . . . 21

4.1.6 Criterea labelen tweets . . . 21

4.1.7 Resultaat: het corpus . . . 23

4.2 Geclassificeerd vraagcorpus . . . 23

4.3 Nederlands UGC vraagcorpus . . . 24

4.3.1 User Generated Content vragen . . . 24

4.3.2 Bron . . . 25 5 Vraagdetectie op Twitter 26 5.1 Vraagindicatoren . . . 26 5.1.1 Vraagteken . . . 26 5.1.2 Vraagwoorden . . . 27 5.1.3 PV-voor . . . 29

5.1.4 Question Embedding Verbs . . . 29

5.1.5 #DTV (Lazyweb) . . . 30

(4)

5.2 Regelgebaseerde vraagherkenning . . . 31

5.2.1 Wat is regelgebaseerde vraagherkenning? . . . 31

5.2.2 Features . . . 32

5.3 Vraagdetectie op basis van Machine Learning . . . 34

5.3.1 Wat is Machine Learning? . . . 34

5.3.2 Features . . . 34

5.3.3 Featureselectie: van kandidaat naar finalist . . . 35

5.3.4 Classifiers . . . 36 5.4 Evaluatie . . . 37 5.4.1 Precision en recall . . . 38 5.4.2 Accuracy . . . 39 5.4.3 Kappa-score . . . 40 5.5 Experimenten . . . 42 5.5.1 Regelgebaseerde methode . . . 42 5.5.2 ML-methode . . . 44

5.5.3 Conclusie: regelgebaseerde vs ML-gebaseerde vraag-detectie . . . 47

6 Vraagclassificatie op twitter 49 6.1 Taxonomie voor vraagclassificatie . . . 49

6.1.1 Overlap en onderscheid met eerder werk . . . 49

(5)

1

Inleiding

Twitter is een van de belangrijkste en meest populaire microblogservices op het web. Wereldwijd heeft Twitter zo’n 455 miljoen gebruikers en er worden elke dag zo’n 175 miljoen tweets gepubliceerd. Nederlandsers publiceren da-gelijks zo’n 2 miljoen tweets en leveren daarmee een relatief grote bijdrage [Tjong Kim Sang, 2011]. Twitter verschilt van andere informatiebronnen op twee belangrijke punten: Twitter is niet alleen een realtime informatiebron maar ook een sociale zoekservice. Gebruikers zetten hun twitternetwerk om informatie te vinden. Met name in situaties waarin een persoonlijk, subjec-tief of contextgevoelig antwoord nodig is presteert een sociaal netwerk vaak beter dan een computer. Meer dan 10% van de Engelstalige Twitter gebrui-kers stelt wel eens een vraag op Twitter en meer dan 13% van alle tweets zijn vragen. Uit de in maart 2011 gepubliceerde cijfers van Twitter blijkt dat er 1620 tweets per seconden gepost worden, dit zijn dus zo’n 210 vragen per seconden, waarvan vele door gebruikers beantwoord worden. Bovendien is Twitter het afgelopen jaar sterk gegroeid, dus dit getal zal ook gegroeid zijn. Kortom: Twitter is een platform vol vragen en bijbehorende antwoor-den. En daarmee een interessant terrein voor Q&A onderzoek.

(6)
(7)

2

Twitter als vraagbaak

Het stellen van vragen op Twitter valt binnen het domein van social search. Bij social search wordt informatie online gevonden niet door middel van een zoekmachine maar met behulp van sociale bronnen, zoals een vriend of een onbekend persoon online met de benodigde kennis.

Uit onderzoek van Wells and Rainie [2008] is gebleken dat internetgebruikers vaak gebruik maken van een mix van internet- en social search. Tweets die een vraag bevatten kunnen als een social search query gezien worden. Om meer inzicht te krijgen in de verschillen tussen zoekmachinevragen en Twit-tervragen is het interessant om de motivatie van gebruikers om een vraag te stellen en/of te beantwoorden te bestuderen. Dit hoofdstuk behandelt enkele eerdere onderzoeken naar dit onderwerp.

2.1 Motivaties voor het stellen van vragen volgens Morris et al.

Morris et al. [2010] hebben de motivaties om vragen te stellen op sociale net-werken in kaart gebracht door middel van een onderzoek onder 443 Twitter-gebruikers (Microsoft werknemers). Van de deelnemers geeft 28% aan dage-lijks een vraag te stellen op Twitter. Zo’n 51% stelt wekedage-lijks een vraag. De vragen die gesteld worden vari¨eren van relatief simpel tot redelijk complex.

“Why are men so stupid?”

“Point and shoot camera just died - need to replace it today for vacation tomorrow. Tell me what to buy/not buy. Think under $200”

Tabel 1: Voorbeeldvragen Morris et al

De onderzoekers hebben aan de deelnemers gevraagd welke factoren een grote spelen bij de keuze voor het stellen van een vraag op een sociaal net-werk als Twitter. Zij gaven hiervoor 242 factoren die vervolgens tot 13 hoofdcategorie¨en zijn teruggebracht (zie tabel 2).

(8)

Onderwerp Percentage Uitleg

1. Vertrouwen 24.8% Deelnemers hebben meer vertrouwen in antwoorden van hun vrienden op een sociaal netwerk dan in de antwoorden van een zoekmachine

2. Vraag naar subjectieve in-formatie

21.5% Sociale netwerken zijn beter in het beantwoorden van subjectieve vragen; zoals aanbevelingen en opinies. 3. Geloof dat zoekmachines

niet werken

15.2% Deelnemers waren van mening dat een zoekmachine hun vraag niet zou kan beantwoorden of dat de antwoorden niet uptodate genoeg zijn voor recente gebeurtenissen.

4. Specifieke doelgroep 14.9% Het kunnen stellen van een vraag aan specifieke groep mensen met domein-kennis.

5. Sociaal verbinden 12.4% Door het stellen van een vraag wordt niet alleen voldaan aan een informatie-behoefte maar geeft een gebruiker ook aan dat hij ge¨ınteresseerd is in een on-derwerp.

6. Antwoord snelheid 6.6% Betere antwoord snelheid dan bij een zoekmachine.

7. Context 5.4% Sociaal netwerk heeft meer kennis van locatie, familie situatie of andere voor-keuren.

8. Eerdere zoekpoging via zoekmachine voldeed niet

5.4%

9. Gemak 5.4% Deelnemers ontvangen liever een kant-en-klaar antwoord van een vriend dan zelf eindeloos via een zoekmachine te moeten zoeken.

10. Kwaliteit antwoorden 5.4% Deelnemers ontvangen liever een kant-en-klaar antwoord van een vriend dan zelf eindeloos via een zoekmachine te moeten zoeken.

11. Kan geen kwaad 3.3% Het stellen van een vraag via een social netwerk is relatief eenvoudig, kost niets en kan geen kwaad.

12. Leuk om te doen 2.1% Het stellen van vragen en het krijgen van antwoorden is een leuke activiteit. 13. Antwoord verkrijgen is

niet urgent

1.7% Sommige vragen zijn niet urgent, het toevallig verkrijgen van een antwoord is een prettige bijkomstigheid.

(9)

2.2 Motivaties om vragen te beantwoorden volgens Morris et al

Onderzoek naar het antwoordcomponent in Q&A valt buiten de scope van dit onderzoek, echter de studie van Morris et al. [2010] naar het antwoord-component kan het functioneren van vragen op Twitter van meer context voorzien. Zij stellen dat 93.5% van de door hun onderzochte vragen be-antwoord werden, waarvan 24.3% binnen 30 minuten en 42.8% binnen een uur. Uiteraard is het ontvangen van een antwoord sterk afhankelijk van het netwerk van een Twitteraar. Daarnaast kan het voorkomen dat een vraag aan de aandacht van een potenti¨ele beantwoorder ontglipt, gezien de grote stroom aan berichten die sommige gebruikers dagelijks ontvangen. Het per-centage gebruikers die een bruikbaar antwoord ontvingen bedroeg 69.3%. Opvallend is dat korte vragen de beste antwoorden ontvangen. Daarnaast merken Morris et al op dat een vraag die uit meerdere zinnen bestaat minder snel beantwoord wordt doordat deze teveel op een reguliere tweet lijkt. Morris et al hebben de beweegredenen van gebruikers om vragen te be-antwoorden in kaart gebracht: zij kwamen tot een lijst bestaande uit 10 verschillende categorie¨en. Tabel 3 toont deze lijst inclusief de bijbehorende percentages en (additionele) uitleg van de categorie¨en.

2.3 Motivaties om vragen te beantwoorden volgens Raban en Harper

Raban and Harper [2008] hebben een soortgelijk onderzoek als Morris et al gedaan naar vragen op Q&A sites. Zij stellen dat er intrinsieke en extrinsieke factoren bestaan voor gebruikers om een vraag te beantwoorden op een Q&A site. Bij intrinsiek wordt er door de gebruiker waarde gehecht aan het kunnen tonen van kennis en een unieke contributie kunnen leveren. Bij extrinsiek spelen reputatiesystemen en monetaire betalingen een rol. Voor Twitter geldt dat vrijwel alleen de intrinsieke factoren een rol spelen. Het kunnen tonen van kennis en een unieke bijdrage kunnen leveren heeft voor veel twitteraars een positieve invloed op hun reputatie en kan voor sommige meer professionele gebruikers als een goede marketingtool dienen.

2.4 Motivaties om vragen niet te beantwoorden

(10)

Motivatie Percentage Uitleg 1. Altru¨ısme 37%

2. Expertise 31.9% Gebruiker heeft het gevoel dat hij spe-ciale kennis heeft rondom het onder-werp van de vraag.

3. Kenmerken van de vraag zelf

15.4% Is de vraag interessant, urgent of voelt de beantwoorder zich aangesproken? 4. Eigenschap van de relatie 13.7% Relatie tot de vragensteller is

belang-rijk, de vraag van een goede vriend wordt eerder beantwoord.

5. Sociale connectie 13.5% Door de interactie die ontstaat tus-sen vragensteller en beantwoorder kun-nen nieuwe vriendschappen ontstaan of oude herleven.

6. Vrije tijd 12.3% Beantwoorder vindt het leuk om vra-gen te beantwoorden als vrijetijdsbe-steding.

7. Sociaal kapitaal 10.5% Wanneer een gebruiker andermans vra-gen beantwoord, dan neemt de kans dat zijn vragen in de toekomst beant-woord worden toe.

8. Verplichting 5.4% Doordat de beantwoorder in het verle-den zelf veel antwoorverle-den heeft ontvan-gen, voelt hij zich verplicht andermans vragen te beantwoorden.

9. Humor 3.7% Beantwoorder denkt dat hij een grap-pig antwoord heeft.

10. Ego 3.4% Beantwoorder wil laten zien dat hij veel kennis heeft.

(11)

zijn van de juistheid van hun antwoord een rol. Het beantwoorden van de vragen vindt plaats binnen het publieke domein en dit werpt voor sommige gebruikers een drempel op omdat ze geen reputatieschade willen oplopen. Daarnaast kan de persoonlijke aard van de vraag een rol spelen (24,1%). Vragen over politiek, geloof, sex, dating, geld en gezondheid worden liever niet publiekelijk beantwoord.

2.5 Motivatie voor automatische vraagdetectie

Er kan geconcludeerd worden dat er een basis bestaat voor social search naast internet search. Vooral subjectieve vragen kunnen beter beantwoord worden door middel van social search. Mensen zijn bereid om vragen te stellen middels sociale netwerken, mits de vraag niet te priv´e is. Het verkrij-gen van een antwoord is afhankelijk van het netwerk van een gebruiker en de bereidheid van gebruikers om eventuele reputatieschade op te lopen wanneer ze minder overtuigd zijn van de juistheid van hun antwoord. Een tool die de juiste vragen buiten het netwerk van een gebruiker zou kunnen tillen ver-groot de kans dat deze beantwoord wordt. Morris et al. [2010] suggereren dat een dergelijke tool bovendien een voortraject van question routing zou kun-nen zijn. Zo’n vraagaggregatietool kent meer toepassingen. Het versterken van sociale verbanden is een van de motivaties voor het beantwoorden van vragen op Twitter. Deze motivatie werkt nog sterker wanneer deze buiten het eigen netwerk kan plaatsvinden. Gebruikers kunnen elkaar ontdekken middels het stellen en beantwoorden van vragen. Daarnaast kan vraagde-tectie ook commercieel interessant zijn: bepaalde vragen kunnen impliciete opdrachten voor bedrijven bevatten. Zo kan een vraag over een specifiek probleem met een espressoapparaat tot een opdracht voor een monteur lei-den.

(12)

3

Gerelateerd onderzoek

Het belangrijkste onderzoek naar automatische vraagdetectie en -classificatie op Twitter is gedaan door Li et al. [2011] en richt zich op het Engels. Dit onderzoek volgt in grote lijnen hun onderzoek, maar richt zich op het Ne-derlands.

3.1 Automatisch detecteren en classificeren van Engelstalige vragen op Twitter volgens Li et al

Li et al introduceren een methode voor het automatisch identificeren van vragen met een hoge informatiewaarde op Twitter (Qweets). Ze doen dit aan de hand van een eigen samengesteld corpus met daarin 2045 Engelsta-lige tweets waarvan 227 als vraag geannoteerd zijn. Deze tweets zijn een sample van 1 uur tweets die door middel van de Twitter-API op 18 april 2011 verkregen zijn.

De methode is een tweetrapsstrategie: in stap 1 worden vragen automatisch gedetecteerd en in stap 2 worden vragen op intentieniveau geclassificeerd op basis van een door hun gedefinieerde taxonomie.

Voor het automatisch detecteren onderzoeken ze een regelgebaseerde en een op Machine Learning gebaseerde oplossing1, hiervoor gerbuiken zij de vol-gende indicatoren:

1. Aanwezigheid van een vraagteken

2. Aanwezigheid van een 5W1H-vraagwoord2 3. Taalkundige constructies

4. Prefixspan (Prefix-projected Sequantial Pattern Mining)3

Door middel van het Prefixspan-algoritme zijn op basis van 850.00 Yahoo-Answers-vraagtitels frequent voorkomende vraagpatronen verkregen (bij-voorbeeld: how to of where can I ). Deze vraagpatronen dienen als features voor de op ML-gebaseerde vraagdetectie. Li et al ontdekken dat veel van de verkregen patronen niet in hun tweetcorpus aanwezig zijn en hierdoor vallen de resultaten van deze op ML-gebaseerde oplossing tegen.

1

Deze methoden worden in hoofdstuk 5 besproken.

2

Zie 5.1.2 voor uitleg 5W1H-vraagwoorden

(13)

Daarentegen presteert de regelgebaseerde oplossing voldoende. Vraagdetec-tie op basis van enkel de indicator aanwezigheid van een vraagteken resul-teert in een precisie van 0.97 en een recall van 0.85 (F1score van 0.90)4. Het

toevoegen van de indicator aanwezigheid van een 5w1h-vraagwoord verlaagt de precisie naar 0.55, maar verhoogt de recall naar 0.97. In een poging om een zo’n hoog mogelijke precision en recall te verkrijgen worden twee heu-ristieken aan de 5W1H-regel toegevoegd. Allereerst: de restrictie dat het 5w1h woord aan het begin van de zin moet staan. Ten tweede: er worden enkele hulpwerkwoorden aan de 5w1h-vraagwoordenindicator toegevoegd. Zo wordt what in aangevulde vorm what is. Het toevoegen van deze heu-ristieken zorgt voor een lagere precision van 0.95 en een hogere recall van 0.91 (F1score van 0.93). Ondanks dat het een significante verbetering voor

de F1score is ten op zichte van de initi¨ele indicatoren, verliest de indicator

precisie.

De tweede stap in de strategie omvat het automatisch classificeren van de vraagtweets op basis van intentie. Hiervoor zijn meerdere ML-algoritmes (Random Forrest, SVM, J48 en Logistic Regression) getest, waarbij Random Forrest het beste presteerde. Zij stellen de volgende features (onderverdeeld in 4 hoofdklassen) voor:

1. Vraag

(a) Geciteerde vraag, de vraag wordt geciteerd

(b) Sterke emotie, de tweet bevat uitdrukkingen van sterke emotie als !??!

2. Context

(a) URL, de tweet bevat een url

(b) Telefoonnummer of emailadres, de tweet bevat adresinfor-matie

(c) Sterke emotie

(d) Verklarende zin na vraag, de zin na de vraag is verklarend (e) Unigrammen, woorden die voorkomen in de tweet

3. Vraag-context

(a) Zelf vraag stellen en beantwoorden

(14)

(b) Overeenkomst tussen tweet en titel van naar verwijzende webpagina

4. Tweet specifiek

(a) @gebruiker, worden andere gebruikers in tweet vermeld (@) (b) Retweet, is of bevat de tweet een retweet

(c) Hashtag, bevat de tweet een hashtag (#)

Op basis van deze attributen trachten zij de vragen in de volgende klassen in te delen, waarbij ze met name ge¨ınteresseerd zijn in de klasse Qweets:

1. Advertenties: vraag heeft wervend karakter. Stelt vraag aan de lezer en wordt gevolgd door een advertentietekst.

“Incorporating your business this year? Call us today for a free consul-tattion with one our attorneys. 8555298753 http: // buz. tw/ FjJCV ” 2. Titel (nieuws)artikel op het web: vraag is de titel van een (nieuws)artikel

en wordt in combinatie met een link naar het artikel gepubliceerd.

“New post: Pregnancy Miracle - A Miracle or a Scam? http://bit.ly/36Zhj” 3. Vraag met antwoord: deze tweets bevatten een vraag gevolgd door

het antwoord.

“I even tried staying away from my using my Internet for a couple of hours. The result? Insanity!”

4. Vraag als citaat: deze tweets citeren een vraag van een andere ge-bruiker.

“I think Brian has been drinking in there because I’m hearing him complain about girls, and then he goes “Wright, are you sure youre not gay?””

5. Retorische vraag: deze tweets bevatten een retorische vraag. Dit zijn vragen die geen antwoord verwachten. Maar de lezer aan het denken zetten.

“You ruined my life and Im supposed to like you?”

6. Qweets: dit type tweets zijn volgens Li et al voor hun de belangrijkste klassen en vragen om informatie of hulp.

(15)

Context- en tweetspecifieke features blijken een belangrijke rol te spelen voor het onderscheid tussen Qweets en non-Qweets. Retweets spelen een belangrijke rol en Hashtags zijn minder behulpzaam. Maar dit kan komen doordat Li et al alleen kijken naar de aanwezigheid van een hashtag en niet naar specifieke hashtags als #lazyweb (#dtv). Opvallend genoeg leiden uni-grammen tot een lage precisie. Dit zou kunnen komen doordat Li et al met een beperkte dataset werken.

De resultaten van het onderzoek vallen tegen, reden voor Li et al om te stellen dat Qweetextractie geen triviaal probleem is. Met name retorische vragen en vragen met antwoorden worden onjuist geclassificeerd. Li et al merken op dat het ook voor de mens soms moeilijk is om de intentie van de vragensteller te achterhalen en deze vragen daardoor moeilijk te classificeren zijn. Er wordt voorgesteld om in vervolgonderzoek meer naar de syntax van deze klasse te kijken en meer trainingdata te verkrijgen.

Het werk van Li et al is deels gebaseerd op eerder onderzoek van Efron and Winget [2010] en Morris et al. [2010]. Anders dan bij Li et al was in deze werken het doel niet het automatisch classificeren van vragen, maar inzicht verkrijgen in de soort vragen die op sociale netwerken gesteld wor-den. Vervolgens stellen beide onderzoeksgroepen op basis van hun inzichten hun eigen taxonomie op. Bij het samenstellen van de klassen is geen re-kening gehouden met of het computationeel mogelijk is om deze klassen te onderscheiden. De vraag of de expressiviteit van de klassen afdoende is om ook door middel van Machine Learning een geschikte classifier te genere-ren wordt niet door hun onderzocht. Daarnaast is in de onderzoeken niet gekeken naar de mogelijke attributen die een klassen kunnen voorspellen.

3.2 Taxonomie van Efron en Winget

(16)

genera-tie diep zijn, een categorie kent dus geen subcategorieen. Daarnaast moet elke categorie minimaal een tweet bevatten. Op basis van de resultaten van de vijf proefpersonen hebben Efron en Winget een uiteindelijke taxonomie samengesteld. Hierbij dient als basis dat categorie¨en voldoende accommoda-tie (bestaat er voor elke tweet een categorie) en expressiviteit (bevatten de klassen genoeg onderscheid) bevatten. Zij kwamen tot de volgende klassen (helaas worden in het onderzoek geen voorbeeldtweets gepubliceerd):

1. Advertenties: tweet bevat een vraag en een antwoord en een link naar een externe website. Deze tweets zijn niet verzonden door een (bona fide) vriend van de gebruiker.

2. Sociaal: bevat eveneens een vraag en een antwoord en een link naar een externe website. Deze tweets zijn wel verzonden door een (bona fide) vriend van de gebruiker.

3. Feitelijk / Verduidelijking: vragen in deze klasse hebben over het algemeen een antwoord. Ook kunnen deze tweets een vraag bevatten ter verduidelijking van een eerdere tweet.

4. Opinie: deze klasse bevat vragen naar de opinie van gebruikers. Deze vragen kunnen zowel aan een individu als aan een groep gericht zijn. 5. Uitnodigen tot actie: deze klasse bevat vragen met een uitnodiging

tot een bepaalde actie. Hierbij kan gedacht worden aan uitnodigingen voor of mededelingen over een gebeurtenis.

6. Retorisch / Uitdrukken van opinie of status: deze klasse bevat-ten retorische vragen. Deze tweets bevatbevat-ten een vraag om een state-ment te plaatsen en de lezer aan het denken te zetten.

7. Coordineren actie: deze klasse bevat vragen die gebruikers stellen wanneer ze trachten met elkaar af te spreken.

8. Niet duidelijk / Diverse: vragen die niet in een van de eerdere klas-sen past of onduidelijk is welke klasse het beste gekozen kan worden. 9. Niet een vraag: vragen die wel in de testset waren opgenomen maar

uiteindelijk geen vraag zijn.

(17)

5.4.3) stellen de onderzoekers dat er moderate agreement is tussen de proef-personen. De klasse advertentie heeft een hoge overeenstemming. Sociaal, feitelijk en opinie hebben een relatief lage overeenstemming, dit geeft aan dat deze klassen voor de proefpersonen moeilijker te onderscheiden zijn. Net als Li et al merken Efron en Winget op dat classificeren op intentieniveau een complexe taak is.

3.3 Taxonomie van Morris et al

Morris et al. [2010] hebben eveneens onderzoek gedaan naar de typen vragen die mensen op sociale netwerken stellen. Zij hebben een onderzoek onder 624 personen (werknemers van Microsoft) gehouden, waarvan 443 personen actieve Twittergebruikers zijn. Op basis van de resultaten van het onderzoek zijn zij tot de volgende taxonomie gekomen:

1. Aanbeveling (recommendation): subjectieve open vragen. “Building a new playlist, any ideas for good running songs?” 2. Opinie (opinion): subjectieve open vragen

“Should I buy the Kitchen-Aid ice cream maker?”

3. Feitelijke kennis (factual Knowledge): objectieve feitelijke vra-gen.

“Anyone know a way to put excel charts in Latex?” 4. Retorisch (rhetorical)

“Is there anything in life you’re afraid you won’t achieve?”

5. Invitatie (invitation): gebruiker uitnodigen voor een gebeurtenis “Who wants to go to Nava Lounge tonight?

6. Gunst (favor): vraag om gunst van andere gebruiker. “Needing a babysitter in a big way tonight..anyone??”

7. Connectie (social connections): vraag om voorgesteld te worden aan mensen met specifieke kenmerken.

(18)

8. Aanbieding (offer): vraag aan gebruikers of ze ge¨ınteresseerd zijn in het ontvangen van een object of dienst.

“Could anyone of my friends use boys size 4 jeans?”

(19)

4

Corpora

Voor dit onderzoek zijn twee corpora gebruikt: een twittercorpus en en corpus met user generated vragen. Het twittercorpus wordt ingezet voor vraagdetectie en vraagclassificatie in hoofdstuk 5 en 6. Het corpus met user generated vragen wordt ingezet voor vraagclassificatie in hoofdstuk 6. In dit hoofdstuk wordt uitgelegd hoe de corpora zijn opgebouwd.

4.1 Twitter Corpus

4.1.1 Tweets

Dit onderzoek richt zich op automatisch verwerken van tweets. Tweets zijn berichten die gebruikers op Twitter publiceren. Tweets verschillen op be-langrijke punten van andere tekstberichten. Tjong Kim Sang [2011] stelt dat op basis van onderzoek naar woordfrequenties dat een tweet meer ver-wantschap toont met gesproken dan met geschreven taal. Daarnaast zijn er ook formele verschillen tussen tweets en reguliere geschreven taal: een tweet bevat maximaal 140 karakters tekst en bevat naast tekstuele informatie ook meta-informatie. De restrictie van 140 karakters zorgt ervoor dat mensen woorden afkorten of spellingsvarianten gebruiken, zodat hun boodschap in de 140 karakters gevat kan worden. Dat maakt het een redelijk idiomatische taal, die afwijkt van andere corpora. Meta-informatie voor tweets bestaat uit bijvoorbeeld publicatiedatum, informatie over de verstuurder, retweets en hashtags om het onderwerp van een tweets te duiden of hier commentaar op te geven. Voorbeeld van een Tweet:

RT @ibm From TREC to Watson http: // bit. ly/ 3ths #NLP

Retweet Gebruiker Link Tag RT IBM from Trec to Watson http://bit.ly/3ths #NLP

Tabel 4: Metainformatie in een tweet

4.1.2 Twitter API

(20)

hoeveelheid API-aanroepen die dagelijks gemaakt mogen worden. Deze API heeft mede voor de populariteit van Twitter gezorgd: door de API werd het voor ontwikkelaars buiten Twitter mogelijk om applicaties te bouwen op ba-sis van Twitter-data. Momenteel bestaan er al zo’n 1.2 miljoen applicaties die op basis van de Twitter-API werken.

Voor het samenstellen van een Nederlands twittercorpus is gebruik gemaakt van de search-API van Twitter. Middels de search-API kunnen op basis van keywords publieke Tweets worden opgehaald. De Twitter search-API biedt een optie om Nederlandse tweets te selecteren, echter deze functionaliteit werkt niet feilloos. Voor deze selectie wordt niet gekeken naar de tekstuele inhoud van een tweet, maar naar de door de gebruiker aangegeven ‘stand-plaats’. Aangezien Twitter een internationaal medium is, komt het dikwijls voor dat gebruikers meertalig twitteren of in een andere taal twitteren dan op basis van de standplaats verondersteld kan worden. Iemand met stand-plaats Amsterdam kan in het Frans twitteren. Standstand-plaats is dan ook geen betrouwbaar criterium en er zal dan ook alsnog voor elke tweet bepaald dienen te worden of deze een Nederlandstalige is.

4.1.3 Nederlandse tweets selecteren

Door het idiomatisch taalgebruik op Twitter en de maximale lengte van 140 karakters is taalidentificatie voor tweets een uitdagende taak. De lengte van een document heeft namelijk invloed op taalidentificatie: het is moeilijker om de taal te identificeren van korte berichten.

In dit onderzoek wordt de methode van Tjong Kim Sang [2011] gevolgd. Hij heeft in zijn onderzoek een top-n lijst samengesteld (tabel 5) met voor het Nederlands meest unieke hoogfrequente woorden.

Op basis van deze woorden kunnen tweets worden binnengehaald met een hoge taalzekerheid voor het Nederlands. Er is een selectie gemaakt van de door Tjong Kim Sang gevonden hoogfrequente woorden voor het Ne-derlands, aangezien niet alle gevonden hoogfrequente woorden specifiek zijn voor het Nederlands. Zo stelt Tjong Kim Sang ook dat je en de in het Frans voorkomen. Deze woorden zijn niet meegenomen in de lijst die gebruikt wordt voor de selectie van Nederlandse tweets. Geselecteerde woorden:

ik, een, het, niet, dat, maar, voor, ook, als, heb, naar, nog, echt, moet, weer, mijn, zijn, bij en jij.

(21)

Top 10 woorden Positie Twitter Kranten 1. ik de 2. je van 3. de het 4. een een 5. en in 6. het en 7. niet dat 8. rt te 9. is is 10. dat op

Tabel 5: Top10 meest unieke hoogfrequente Nederlandse woorden volgens Tjong Kim Sang [2011]

aanwezig moet zijn. Deze query dient als input voor de search-API. De OR-query:

ik OR een OR het OR niet OR dat OR maar OR voor OR ook OR als OR heb OR naar OR nog OR echt OR moet OR weer OR mijn OR zijn OR bij OR jij

Aangezien het corpus voor vraagclassificatie gebruikt gaat worden zou in een vervolgonderzoek bekeken kunnen worden in hoeverre deze woorden vol-doende representatief zijn voor vragende zinnen. Voor dit onderzoek wordt aangenomen dat deze woorden voldoende representatief zijn.

4.1.4 Samenstellen tweetcorpus

(22)

Id UserId Datum Tweet

23222 169405239 2012-02-14 14:00:01 Mag je na be¨eindiging van een tijdelijk #contract een #zzp (freelancecontract) aangaan met je werkgever? #dtv

Tabel 6: Voorbeeld van opgeslagen record

4.1.5 Tweets Labelen

Om tweets te kunnen labelen is er een (webgebaseerde) interface ontwikkeld (figuur 1), waarbij tweets random uit de database worden geselecteerd en een annoteerder kan aangeven of de tweet wel of niet een vraag is.

Figuur 1: Webgebaseerde annotatietool

4.1.6 Criterea labelen tweets

Het bepalen of een tweet wel of niet een vraag bevat is minder eenvoudig dan het in eerste instantie lijkt. Er zijn verschillende type probleemgevallen:

1. Tweet met zowel vragende als stellende zin

(23)

2. Tweet met meer dan ´e´en vraag

“Hoe zou het met de onbaatzuchtige vastenactie van @katholiekpuntnl gaan? Heeft Eric van den Berg er al veel volgers bij gekregen?” 3. Tweet met vraag die verbazing uitdrukt

“@sandra1978megan Hahaha echt?? Temperament???” 4. Tweet met ernstige taalfouten

“@ellissw ga je nog een keer almere komen??/ zou ik keer zeeland komen”

5. Nederlandstalige tweet met Engelstalige vraag

“@ollie1962 Thanks Margy. Mijn nieuwe wandelschoenen zitten in hun inloopperiode. BTW See you Saturday?”

6. Tweet met en-jij vraag

“@FloorBoumans ja zeker! jij ook toch?”

7. Tweet met stellende zinsconstructie en een vraagteken

“@Elinex97 ow shit et verkeerde antwoord, ik bedoelde kaas 64 pun-ten?”

8. Tweet met gebiedende wijs met vraagteken

“@salinelove1D :) haha ik vind ze allemaal leuk maar Niall is mijn favoriet stuur es een foto dan?”

9. Tweet met een ellipsis

“@manonbrul nu al ? ik ben al klaar wakker vanaf kwart over 5 . . . ” 10. Tweet met alleen een vraagwoord

“@lonnekeroosje echt? waar?” 11. Tweet met vraag in tag

“Naar school #doeeix #totzo?”

(24)

De kwaliteit van de vraag heeft geen invloed op de annotatie: ook tweets met ernstige taalfouten zijn gewoon als vraag geannoteerd. In het algemeen is gekozen voor een inclusieve benadering. Als de tweet een vraag bevat is hij als vraagzin gelabeld, ongeacht of er naast een vraag ook nog een stellende zin in de tweet aanwezig is - zelfs als alleen de hashtag een vraag bevat. Ook retorische vragen en vragen waarbij een vraagteken ontbreekt worden als vraagzin gelabeld. En ook als de vraag een verkapte opdracht of een uitdrukking van verbazing is, wordt de tweet toch als vraag gelabeld. 4.1.7 Resultaat: het corpus

In totaal zijn er 8295 tweets geannoteerd. Hiervan zijn 8041 tweets daad-werkelijk Nederlandstalig en 928 tweets zijn als vraag gelabeld. Op basis van het corpus is 11.5% van de geannoteerde tweets een vraag.

Corpus in cijfers

Totaal Subset met vragen Aantal tweets 8295 928

Aantal tweets met url 668 56 Aantal tweets met hashtag 1409 255 Aantal tweets met retweet 1808 179 Aantal tweets met vraagteken 1346 916 Gemiddeld aantal woorden per tweet 12.98 12.89

Tabel 7: Twittercorpus in cijfers

4.2 Geclassificeerd vraagcorpus

Dit corpus dient als basis voor automatische vraagclassificatie. Hiervoor is een geannoteerd corpus nodig van vragen. Het eerder beschreven twittercor-pus bevat slecht 928 vragen, wat voor training van een classifier onvoldoende data is om alle kenmerken van de verschillende klassen voldoende te leren. De 928 vragen uit het eerdere twittercorpus zijn wel als basis genomen voor het classificatiecorpus, maar vervolgens is het corpus aangevuld met vra-gen die automatisch zijn verkrevra-gen op basis van de regels besproken in het hoofdstuk vraagdetectie. Hierdoor is een corpus verkregen met 2718 als vraag geidentificeerde tweets.

(25)

gecontroleerd of de tweet daadwerkelijk een vraag bevat en uit het corpus verwijderd indien dit niet het geval is. De tweets zijn vervolgens geclas-sificeerd op basis van intentie. Hiervoor is wederom een (webgebaseerde) annotatieinterface ontwikkeld (figuur 2). De annoteerder wordt verplicht een van de zeven vooraf gedefinieerde klassen te selecteren. In hoofdstuk 6 worden de klassen uitgebreid toegelicht.

Figuur 2: Webgebaseerde annotatietool

4.3 Nederlands UGC vraagcorpus

Om extra trainingsmateriaal te verzamelen voor de vraagclassificatie in hoofdstuk 6 is er gezocht naar een aanvullende bron met vergelijkbaar ma-teriaal. Dit is gevonden in de vorm van User Generated Content vragen op fora en vraag- en antwoordsites. Efron and Winget [2010] laten zien dat het detecteren van vragen op Twitter gerelateerd is aan vraag- en subvraagde-tectie in UGC.

4.3.1 User Generated Content vragen

Vragen in tweets tonen overeenkomst met vragen op webfora. De vragen zijn kort en in beide gevallen gaat het om niet geredigeerde teksten van diverse auteurs. Een verschil tussen de twee types is dat vragen op Twitter meta-informatie bevatten, zoals een geadresseerde (@) of een onderwerp (#) en UGC-vragen niet. Voorbeeldvraag van ugc-website:

(26)

4.3.2 Bron

Het corpus is opgebouwd uit tekstfragmenten van de Nederlandse QA-website goeievraag.nl. Met behulp van de search-API van Google is een lijst samen-gesteld van de pagina’s die een vraag bevatten. De vraag op de pagina kan automatisch uit de title-tag ge¨extraheerd worden. Elke ge¨extraheerde vraag wordt in een database opgeslagen samen met een referentie naar de afkomstige pagina. Daarnaast wordt ook de rubriek opgeslagen waaronder de vraag op de betreffende website geclassificeerd was.

Vraag URL Rubriek

Heeft de BBC ook een soort uitzendinggemist?

www.goeievraag.nl/vraag/ bbc-soort-uitzendinggemist. 294199

computers &internet

Tabel 8: Voorbeeld van opgeslagen record

(27)

5

Vraagdetectie op Twitter

Vraagdetectie lijkt in eerste instantie een eenvoudige taak, echter Cong et al. [2008] stellen dat het geen triviale taak is. Uit hun analyse van 1000 vra-gen op een User Generated Content (UGC) vravra-gensite blijkt dat vravra-gen op veel verschillende manieren gesteld worden en vaak op een zeer informele wijze, wat detectie bemoeilijkt. In dit hoofdstuk wordt onderzocht hoe vra-gen in tweets het beste gedetecteerd kunnen worden. Allereerst worden de mogelijke indicatoren voor vragen in een tweet besproken. Vervolgens een regelgebaseerde en een op Machine Learning (ML) gebaseerde oplossing gein-troduceerd alsmede de gebruikte evaluatiemethode. Het hoofdstuk eindigt met de implementatie en de resultaten van beide methoden.

5.1 Vraagindicatoren

De belangrijkste indicatoren voor vraagzinnen in het Nederlandse zijn vraag-teken, vraagwoorden, de pv-voor-constuctie en question embedding verbs. Daarnaast kunnen Twitterspecifieke kenmerken gebruikt worden voor vraag-detectie, zoals het label durf te vragen (#dtv).

5.1.1 Vraagteken

Voor het Nederlands geldt dat een zin eindigen met een vraagteken een zeer sterke indicator is voor een vraagzin. Echter bij UGC, zoals Twitter, kan een vraagteken ook ontbreken of ingezet worden om emotie mee uit te drukken (verbazing, frustratie, woedend). Zo eindigde in het vragencorpus van Cong et al. [2008] (1000 vragen uit UGC-fora) 30% van de door hun onderzochte vragen niet op een vraagteken en bevatte 9% wel een vraagteken, zonder dat het daadwerkelijk vragen waren.

Voorbeeld van een vraag zonder vraagteken:

“Waar kan ik een Swatch rebel in Amsterdam kopen” Voorbeeld van gebruik van vraagteken om emotie uit te drukken:

“@johan legt sigaren voor 74 punten. Dat is toch niet normaal ?!?”

(28)

tussen zinnen.

Voorbeeld van meta-informatie in tweet:

“@Observator0: Hoe maak ik een screenshot met mijn htc? #dtv #DurfTeVragen > Door je fotocamera erbij te pakken.”

Voorbeeld van vraagteken in url verwijzing:

“Interessant artikel als je meer wilt weten over Big Data http: // blogs. gartner. com/ ?id= 122&auth= 4&redirect= false ” 5.1.2 Vraagwoorden

Voor het Engels zijn de zogenaamde 5W1H woorden (who, what, where, when, why, how ) op de eerste positie van een zin goede indicatoren voor vraagdetectie [Li et al., 2011]. Het Nederlands kent ook een dergelijk type woorden. Dit type woorden is onder te verdelen in de volgende klassen:

1. Vragend persoonlijk voornaamwoord wie, wat, wat voor, welk(e)

2. Vragende bezittelijke voornaamwoorden wiens, wier

3. Vragende bijwoorden waar, wanneer, hoe 4. Vragend telwoord

hoeveel

5. Vragend bijwoord + voorzetsel

waarmee, waarom, waardoor, waaronder, waarachter, waarlangs, .. Voor het Nederlands geldt dat een vraagwoord niet altijd op de eerste positie hoeft te staan. Wel is het vraagwoord in vragende hoofdzinnen vrijwel altijd onderdeel van het eerste zinsdeel.

Met wie ga jij?

(29)

En van wie houd jij?

Dus hoe gaan we het nu doen?

Een overzicht van de meest frequente woorden op de eerste positie in het UGC-vraagcorpus laat zien dat de vraagwoorden hier zoals verwacht zeer sterk vertegenwoordigd zijn (zie figuur 3). In dit corpus komen de volgende vraagwoorden voor.

wie, wat, welk, welke, wiens, wier, waar, wanneer, hoe, hoeveel, waarmee, waarom, waardoor, waaronder, waarachter, waarlangs, waarbij, waaraan, waaruit, waarvan, waarop, waartoe, waarin, waarover, waarnaar

(30)

5.1.3 PV-voor

In het Engels is een hulpwerkwoord op de eerste positie een sterke indicator voor een vraag [Li et al., 2011]. Hierin verschilt het Nederlands van het Engels: in het Nederlands gaat een vraagzin niet altijd gepaard met een hulpwerkwoordconstructie. Wel kan de positie van het werkwoord in het Nederlands als indicator dienen. Het Nederlands kent de zogenaamde pv-voor constructie [Haeseryn, 1997]. Dit is een zinsconstructie waarbij het vervoegde werkwoord (persoonsvorm) op de eerste positie in de zin staat.

Is dit een vraag?

5.1.4 Question Embedding Verbs

Sommige stellende zinnen hebben toch een vragende betekenis. Het zijn bepaalde werkwoorden die een declaratieve zin een vragende semantiek ge-ven. Deze werkwoorden heten question embedding verbs [Karttunen, 1977]. Efron and Winget [2010] geven als voorbeeld:

I would like to know where you will be after the plenary Dit betekent hetzelfde als

Where will you be after the plenary?

Er bestaat geen kant en klare lijst met dit type werkwoorden voor het Engels [Efron and Winget, 2010]. Daarom stellen zij de volgende adhoc samenge-stelde lijst voor waarbij * een wildcard is:

1. I* [try*,like,need] to find 2. I* [try*,like,need] to know 3. I*m looking for

4. I*wonder*

(31)

5.1.5 #DTV (Lazyweb)

Twitter biedt een mogelijkheid om een tweet expliciet te markeren als vraag. In het Nederlands kan dit met de durf-te-vragen-labels #dtv of #durftevra-gen. Dit is de Nederlandse interpretatie van het Amerikaanse begrip lazy-web. Durf-te-vragen-tweets hebben een grote spreiding, ze worden vaak door gebruikers geretweet. Merk op dat #dtv in tegenstelling tot #durftevragen ambigu is. Het komt ook voor dat #dtv gebruikt wordt als afkorting voor een ander begrip, bijvoorbeeld Delftse Tennis Vereniging. Door de restrictie van 140 karakters zijn gebruikers over het algemeen spaarzaam met karak-ters en daardoor wordt het label #dtv toch meer ingezet. Mochten er echter voldoende karakters beschikbaar zijn, dan kan het ook voorkomen dat ge-bruikers beide labels gebruiken in ´e´en tweet.

Voorbeelden van #dtv en #durftevragen:

“Welke combi van fruit is lekker in een smoothie? #dtv #durftevragen” “Wie kent een leuk, betaalbaar en vooral kindvriendelijk restau-rantje in Emmen e.o.? #dtv #kindvriendelijk #restaurant #emmen” “Hoe krijg ik een vetvlek (spattende worstjes) uit een leren schoen? #dtv #huishoudtip”

Niet elke tweet met een #dtv label bevat een expliciete vraag. Door de populariteit van #dtv wordt het ook ingezet voor impliciete vragen en als een methode om een grotere spreiding te bewerkstelligen:

“RT @sportontmoeting: @sportontmoeting 2012 kan niet zonder sponsors. We zoeken er nog wel een paar! #dtv”

5.1.6 Prefixspan

Naast eerder genoemde taalkundige indicatoren bestaan er ook methodes om op basis van patroonherkenning indicatoren te verkrijgen. Bij patroonher-kenning wordt getracht om op basis van automatisch- of semi-automatische analyse niet eerder bekende patronen in data te ontdekken. Binnen de con-text van dit onderzoek houdt patroonherkenning in dat op basis van strings als I want to buy office software and wonder which software is the best het patroon wonder which ... is kan worden ge¨extraheerd ‘[Cong et al., 2008]. Wanneer dit patroon alleen voorkomt in zinnen die als vraag gelabeld zijn kan het patroon als indicator dienen voor vraagherkenning.

(32)

Sequantial Pattern Mining ) ontworpen door Pei et al. [2001]. Het algoritme extraheert patronen van frequent voorkomende sequenti¨ele elementen (woor-den in een set van sequenties (zinnen). Tabel 9 toont een voorbeeld voor het herkennen van patroon AC in een set van 3 regels.

Pos0 Pos1 Pos2 Pos3

Line1 A B C B

Line2 A C A B

Line3 C A A C

Tabel 9: Voorbeeld voor herkennen patroon AC

Hierbij kan als parameter worden opgegeven het minimaal aantal maal dat een sequentie moet voorkomen (minimal support ) en de maximale af-stand tussen de elementen (maximum pattern length). Omdat taal geken-merkt wordt door een hoge diversiteit aan woorden en constructies, is er een grote set met zinnen nodig om het algoritme voldoende te kunnen laten presteren. De diversiteit kan beperkt worden door de originele zinnen te herschrijven naar een formaat waarbij keywords als vraagwoorden en (mo-dale) werkwoorden worden behouden en de resterende woorden tot part-of-speech-tags worden gereduceerd. Hierdoor kan met een beperktere set een beter resultaat behaald worden.

5.2 Regelgebaseerde vraagherkenning

5.2.1 Wat is regelgebaseerde vraagherkenning?

Regelgebaseerde vraagdetectie is een klassieke methode waarbij op basis van deterministische, handgeschreven regels wordt bepaald of een tekst wel of geen vraag bevat. Om deze regels voor vraagdetectie te kunnen bepalen, kunnen de eerdere beschreven vraagindicatoren als leidraad dienen.

Een voordeel van regelgebaseerde systemen is de relatieve eenvoud waarmee regels opgesteld kunnen worden en de snelheid waarmee eerste resultaten behaald kunnen worden. Bovendien is het systeem zeer accuraat wanneer de regels geschreven zijn door experts. De classificatie criteria zijn eenvou-dig controleerbaar en te herleiden zolang het aantal regels beperkt is [Sasaki, 2008].

(33)

kunnen zijn, waardoor classificatie verslechtert. Wanneer de set met regels groeit wordt het onderhoud van de regels complexer. Het is niet eenvoudig om goede regels te schrijven als de hoeveelheid data groot is en de data divers van aard is. Regels zijn matig toepasbaar bij grote hoeveelheden di-verse informatie [Grootveld and Huijsen, 2005]. De regels zijn alleen in te zetten voor het specifiek geselecteerde domein: wanneer het domein ver-andert, dienen de regels aangepast te worden. Het is moeilijk de enorme variatie in taal te vatten in handgeschreven regels. Hierdoor is de dekking van regelgebaseerde systemen over het algemeen laag.

5.2.2 Features

In 5.1 zijn de volgende algemene indicatoren voor vraagzinnen in het Neder-lands ge¨ıntroduceerd:

1. Aanwezigheid vraagteken aan het einde van een zin

2. Aanwezigheid vraagwoord op eerste positie / zinsdeel in een zin 3. Aanwezigheid werkwoord op eerste positie in een zin

4. Question embedding verbs

De indicatoren kunnen worden aangevuld met de voor Twitter specifieke indicator:

5. Aanwezigheid #dtv in tweet

Daarnaast is er een methode ge¨ıntroduceerd om mogelijke indicatoren te genereren

6. Prefixspan

Deze lijst met indicatoren is als uitgangspunt genomen voor het samen-stellen van de regels. De indicator Question embedding verbs wordt in dit onderzoek echter niet toegepast door het ontbreken van een complete en onderbouwde lijst met werkwoordsconstructies voor het Nederlands. Pre-fixspan is eveneens buiten beschouwing gelaten. Li et al. [2011] liet al zien dat de inzet van prefixspan geen positief effect heeft op vraagdetectie. Voor het Nederlands is bovendien veel minder corpusdata beschikbaar. Een pilot met prefixspan op het Nederlandse vraagcorpus toonde dan ook aan dat het corpus te klein is om bruikbare patronen te genereren.

(34)

wordt de indicator benaderd door een regel die controleert of er een vraag-teken in de tweet aanwezig is. De aanwezigheid van een werkwoord aan het begin van een zin wordt gecontroleerd door middel van een lijst met werkwoorden. Voor het samenstellen van deze lijst is CELEX5 gebruikt. De lijst bevat alleen woorden die ofwel alleen voorkomen als werkwoord, ofwel het meest frequent voorkomen als werkwoord. Alleen de 100 meest frequente werkwoorden uit deze lijst zijn gebruikt. Dit alles heeft geleid tot de volgende set aan regels:

Regel 1. QM 2. VFP 3. DTV 4. QW 5. QM ∧ QW 6. QM ∧ VPF 7. QM ∧ DTV 8. QM ∧ DTV ∧ QW 9. QM ∧ DTV ∧ VFP 10. QM ∨ QW 11. QM ∨ VFP 12. QM ∨ DTV 13. QM ∨ ( QW ∧ DTV ) 14. QM ∨ ( VFP ∧ DTV ) 15. QM ∧ ( VFP ∨ QW ) 16. QM ∧ ( VFP ∨ QW ∨ DTV )

Tabel 10: Set aan regels voor automatische vraagdetectie. QM = Vraagte-ken in zin, VFP = Werkwoord op eerste positie, DTV = Durft te vragen tag en QW = Vraagwoord op eerste positie

5

(35)

5.3 Vraagdetectie op basis van Machine Learning

In de vorige paragraaf is het probleem van vraagdetectie benaderd door mid-del van een regelgebaseerd systeem. Vraagdetectie is echter ook te defini¨eren als een classificatieprobleem. Een classificatieprobleem is op te lossen door middel van Machine Learning (ML). In deze paragraaf wordt deze alterna-tieve benadering onderzocht.

5.3.1 Wat is Machine Learning?

Bij (Supervised) Machine Learning wordt op basis van gelabelde data een model afgeleid. Met behulp van dit model wordt voor elke nieuwe, ongela-belde, instantie het label voorspeld. In het geval van vraagdetectie bepaalt het model van elke zin of het label vraag of geen vraag moet worden toe-gekend. De input voor een ML-systeem is gelabelde corpusdata en een lijst met featurekandidaten. Deze kandidaten zijn handmatig bepaald op basis van de corpusdata. Op voorhand hoeft niet vast te staan of al deze fea-tures bijdragen aan de classificatie. De performance van een ML-systeem wordt in grote mate bepaald door de uiteindelijke selectie van features en de classificatiemethode. In de volgende paragrafen worden deze componenten besproken.

Het voordeel van ML-systemen is dat ze domeinonafhankelijk zijn. Presteren ook zeer goed wanneer er sprake is van grote hoeveelheden data. Nadeel van ML-systemen is dat ze een blackbox zijn: het is van buitenaf weinig inzichte-lijk waarom een bepaalde klasse wordt gekozen. Het is dan ook niet mogeinzichte-lijk om fouten van het systeem eenvoudig handmatig te corrigeren. Daarnaast is er veel (kostbare) geannoteerde data nodig om een ML-systeem te trai-nen. De performance hangt direct samen met de hoeveelheid beschikbare trainingsdata.

5.3.2 Features

(36)

Feature Definitie

QM De tweet bevat een vraagteken QW De tweet bevat een vraagwoord

QW1 De tweet bevat op de eerste positie een vraagwoord

VFP De tweet bevat op de eerste positie een werkwoord RE De tweet bevat een retweet symbool

EMO De tweet bevat uitdrukkingen van sterke emotie !?! URL De tweet bevat een url

SMILE De tweet bevat een emoticon

DTV De tweet bevat een DTV symbool (#) HASH De tweet bevat een onderwerp symbool (#) QMn Het aantal vraagtekens

TWEETn Lengte van de tweet

@ De tweet bevat een adressering (@johndoe) Unigrammen Woorden in de tweet

Tabel 11: Features voor vraagherkenning

5.3.3 Featureselectie: van kandidaat naar finalist

(37)

functio-neren niet onafhankelijk: een feature kan op zichzelf niets bijdragen maar in combinatie met andere features wel een significant verschil maken [Guyon and Elisseeff, 2003]. Featuresselectie kan opgevat worden als een zoekpro-bleem binnen het domein van mogelijke featuresubsets [Talavera, 2005]. On-danks dat dit zoekprobleem op verschillende manieren opgelost kan worden zijn de filter - en wrappermethode de meest voorkomende benaderingen voor featuresubsetselectie. De filtermethode evalueert de subsets op basis van de algemene eigenschappen van de dataset en werkt onafhankelijk van het geko-zen classificatiealgoritme. De featureselectie vindt dan ook plaats voordat de classificatie start. Hierdoor wordt overfitting ten op zichten van het classifi-catiealgoritme vermeden. De wrappermethode daarentegen evalueert wel op basis van het op voorhand gekozen classificatiealgoritme en levert daardoor vaak betere resultaten. De wrappermethode is computationeel complexer doordat het op basis van het classificatiealgoritme meer zoekoperaties moet uitvoeren. Ondank de kans op overfitting ten opzichte van het classificatie-algoritme presteren wrappermethoden het beste. Voor het onderzoek zijn zowel de filter- als de wrappermethode getest.

5.3.4 Classifiers

Geen enkele ML-methode is bruikbaar voor alle classificatieproblemen [Frank et al., 2005]. Het bepalen van het best presterende algoritme is sterk afhan-kelijk van de dataset en de keuze staat niet op voorhand vast. De keuze van het classificatiealgoritme heeft grote impact op de uiteindelijke prestatie van de methode. Voor het bepalen van het beste ML-algoritme voor vraagdetec-tie zijn op basis van Li et al. [2011] enkele classifiers geselecteerd. De gekozen classifiers zijn Naive Bayes, Random Forest en SVM. Allereerst zal er die-per worden ingegaan op de gekozen classifiers. In Frank et al. [2005] wordt voorgesteld om met een Naive Bayes-classifier te starten aangezien deze het minst complex is, het snelst leert en classificeert en over het algemeen goed presteert.

Naive Bayes

(38)

deze aanname is zelden in overeenstemming met de werkelijkheid. Wan-neer features sterke gelijkenis vertonen, bestaat het gevaar dat deze het model onevenredig veel be¨ınvloeden. Daarom is het belangrijk om geheel van elkaar onafhankelijke attributen te selecteren. Ondanks deze aanname presteren Naive Bayes-classifiers vaak opvallend goed. Grootveld and Huij-sen [2005] stellen bovendien dat het een van de meest effici¨ente technieken is voor (tekst)categorisatie. Naive Bayes leert en classificeert snel doordat er geen optimalisatie hoeft plaats te vinden. Slechts een enkele iteratie over de trainingsset is nodig voor training.

Random Forest

Random Forest [Breiman, 2001] is een decision tree classifier en net als Naive Bayes een accuraat en effici¨ent ML-algoritme [Caruana et al., 2008]. Bij een Random-Forest-classifier wordt telkens op basis van een klein, willekeurig ge-selecteerd, gedeelte van de dataset een classificatieboom gegenereerd. Deze classificatiebomen voor de subsets worden samengevoegd tot een classifi-catieboom voor de hele dataset. worden vervolgens samengevoegd om de uiteindelijke classificatie te bepalen. Random Forest heeft als voordeel dat het robuust is tegen ruis in de trainingset en doordat er willekeurige selec-ties plaatsvinden tijdens het trainingsproces neemt de kans op overfitting af. Maar daartegenover staat dat het trainen van een model een hoge cpu-tijd heeft.

SVM

(39)

5.4 Evaluatie

Om de effectiviteit van de regelgebaseerde en op ML-gebaseerde methode uit te drukken worden precision en recall, accuracy en Kappascore berekend. 5.4.1 Precision en recall

Precision en recall zijn bekende evaluatiemetrieken uit de Information Re-trieval. Met behulp van deze indicatoren kunnen de prestaties van verschil-lende methoden met elkaar vergeleken worden. Ook een aanpassing in een methode kan op basis van deze scores ge¨evalueerd worden. Om precision en recall te kunnen berekenen moeten de waarden voor true positives, false positives en false negatives worden bepaald. Voor een true positive binnen de context van dit onderzoek geldt dat de tweet als vraag gelabeld is en de regel deze juist classificeert. Dit is dus een juist resultaat. Bij een false positive wordt een tweet met label niet vraag door de regel onjuist als vraag geclassificeerd. Dit is dus een niet verwacht resultaat. Bij een false negative wordt een tweet die gelabeld is als vraag, als niet vraag geclassificeerd. Dit zijn dus resultaten die missen. Op basis van de scores voor true positives en false positives kan de precision worden berekend en op basis van de true positives en false negatives de recall.

P recision = tp tp + f p

Recall = tp tp + f n

Wanneer precision en recall bekend zijn kan de F1score worden bepaald.

F1 = 2 ·

precision · recall precision + recall

F1score geeft een beter inzicht in het daadwerkelijke resultaat van een

(40)

tradeoff tussen precision en recall. Het hangt van de taak af welke van de twee het meeste gewicht moet krijgen.

Een nadeel van precision en recall is dat deze scores zich richten op de positieve voorbeelden en voorspellingen maar niet hoe goed het algoritme negatieve gevallen heeft afgehandeld [Powers, 2008]. True negatives worden noch in de berekening van precision, noch in de berekening van recall ge-bruikt. In tabel 5.4.1 is te zien dat recall alleen gebruik maakt van de +R (real positives) kolom en precision alleen van de +P (predicted positive) rij.

+R -R +P tp fp pp

-P fn tn pn rp rn 1

Tabel 12: Waarheidstabel: +R = real positives, textbf-R = real negative, textbf+P = textbfpredicted positives en textbf-P = textbfpredicted negati-ves

Een tweede nadeel is dat precision scores in bepaalde gevallen oneigenlijk hoog kunnen uitvallen. Tabel 13 toont een voorbeeld met slechts 1 true positive en 1 false positive en resulteert in een precision van 0.5. Deze precision blijft 0.5 ongeacht het aantal false negatives en true negatives. Zouden Q5 tot en met Q100 allemaal false negative zijn, dan heeft dit geen invloed op de precision score: deze blijft 0.5.

Vraag Predictie Correct Antwoord TP FP FN TN

Q1 Y N •

Q2 Y Y •

Q3 N Y •

Q4 N N •

(41)

5.4.2 Accuracy

In tegenstelling tot precision en recall is accuracy een evaluatiemetriek die w`el kijkt naar true negatives. Het is een simpele en intu¨ıtieve evaluatieme-thode, die aangeeft hoeveel procent van alle instanties juist geclassificeerd is.

Accuracy = tp + tn p + n

Nadeel van accuracy is dat het geen verschil maakt tussen verschillende typen fouten (false positives vs false negatives). Wanneer een bepaalde klasse (bijvoorbeeld niet vraag) veruit in de meerderheid is, dan bereikt accuracy eenvoudig een hoge score [Sasaki, 2008].

5.4.3 Kappa-score

Bij een onevenwichtige verdeling in de dataset geeft accuracy vaak een te rooskleurig beeld. In deze gevallen geeft het simpelweg classificeren op ba-sis van de grootste categorie al een hoge score. Wanneer bijvoorbeeld een classificatiesysteem een accuracy van 85% heeft, lijkt dit hoog. Wanneer classificeren op basis de grootste categorie echter al een accuracy van 75% geeft, is de verbetering door het systeem relatief klein. De Kappastatistiek [Cohen, 1960] voorkomt deze vertekening door de accuracy te normaliseren op basis van de baselinescore van de kansmethode.

κ = P r(a) − P r(e) 1 − P r(e)

(42)

Kappascore Overeenstemming

≺ 0 Systeem presteert minder dan de kansmethode 0.01 - 0.20 Geringe overeenstemming

0.21 - 0.40 Matige overeenstemming 0.41 - 0.60 Redelijke overeenstemming

0.61 - 0.80 Voldoende tot goede overeenstemming 0.81 - 0.99 Bijna perfect

Tabel 14: Interpretatie Kappascore volgens [Viera and Garrett, 2005]

Tabel 15 geeft meer inzicht in hoe de Kappastatistiek werkt. In het volgende schema wordt een voorbeeld getoond, waarbij de classificatie van goldstandard (R) wordt afgezet tegen het classificatiesysteem (P):

R

Wel vraag Geen vraag

P Wel vraag 20 15 35 Geen vraag 10 55 65 30 70 100

Tabel 15: Resultaten classificatiesysteem R (goldstandard) en P

Op basis van de true positives en de true negatives uit bovenstaand voorbeeld kan de accuracy worden bepaald:

Accuracy = 20 + 55

100 = 75%

(43)

R

Wel vraag Geen vraag P Wel vraag 30 ×

35

100= 10.5 35

Geen vraag 70 ×10065 = 45.5 65

30 70 100

Tabel 16: Berekenen Kappascore

Accuracy = 10.5 + 45.5

100 = 56% Vervolgens kan de Kappascore berekend worden:

κ = 75 − 56

100 − 56 = 0.43

Deze score is volgens tabel 14 te interpreteren als redelijke overeenstem-ming.

5.5 Experimenten

5.5.1 Regelgebaseerde methode Preprocessing

Alvorens de regels toe te passen wordt van elke geannoteerde tweet auto-matisch de waarden voor de vraagindicatoren bepaald. In hetzelfde proces wordt een kopie van de tweet gemaakt die wordt ontdaan van @adresseringen en rt-symbolen. Dit is nodig voor het correct bepalen van de aanwezigheid van een vraagwoord of persoonsvorm aan het begin van een zin.

Origineel RT @Olsterhof: Weet jij onder welke code het weertype vandaag valt? #dtv Preprocessed Weet jij onder welke code het weertype vandaag valt? #dtv

(44)

Resultaten

Het uitvoeren van het experiment geeft het volgende resultaat:

Regel Precision Recall F1 Accuracy Kappa

1. QM 0.71 0.99 0.83 95.18 0.88 2. VFP 0.19 0.29 0.23 77.77 0.44 3. DTV 0.68 0.18 0.28 89.53 0.66 4. QW 0.35 0.38 0.37 84.72 0.58 5. QM ∧ QW 0.78 0.38 0.51 91.62 0.74 6. QM ∧ VPF 0.75 0.28 0.41 90.60 0.70 7. QM ∧ DTV 0.84 0.17 0.28 90.05 0.67 8. QM ∧ DTV ∧ QW 0.86 0.09 0.17 89.36 0.64 9. QM ∧ DTV ∧VFP 0.81 0.06 0.11 88.97 0.63 10. QM ∨ QW 0.50 0.99 0.66 88.28 0.73 11. QM ∨ VFP 0.39 0.99 0.57 82.34 0.62 12. QM ∨ DTV 0.68 0.99 0.81 94.65 0.86 13. QM ∨ ( QW ∧ DTV ) 0.70 0.99 0.82 95.01 0.87 14. QM ∨ ( VFP ∧ DTV ) 0.70 0.99 0.82 95.08 0.87 15. QM ∧ ( VFP ∨ QW ) 0.77 0.61 0.68 93.37 0.81 16. QM ∧ ( VFP ∨ QW ∨ DTV) 0.77 0.64 0.70 93.68 0.82

Tabel 18: Resultaten regelgebaseerde methode

(45)

Analyse

Op basis van deze cijfers kan worden geconcludeerd is dat het hebben van een vraagteken (QM) de meest significante regel is, het zorgt voor de hoog-ste recall. Wanneer QM wordt aangevuld met de aanwezigheid van DTV en QW wordt de hoogste precision behaald, echter dit geeft ook een zeer lage recall. De hoogste F1score wordt bereikt op basis van alleen QM. De

regel QM geeft ook de hoogste kappascore, deze score is volgens tabel 14 te interpreteren als bijna perfect. Over het algemeen kan gesteld worden dat taalkundige features weinig toevoegen. Question embedding verbs zouden wellicht wel iets kunnen toevoegen aangezien deze juist voorkomen wanneer geen vraagteken aanwezig is.

5.5.2 ML-methode

De ML-experimenten bestaan telkens uit 3 stappen. 1. Preprocessing en compileren van de dataset 2. Featureselectie

3. Classificatie

Elk van deze stappen zal nader besproken worden. Voor het opzetten van deze ML-experimenten is WEKA6gebruikt. Dit is een toolkit waarmee

een verzameling van ML-algoritmes kan worden toegepast en de bijbeho-rende resultaten kunnen worden ge¨evalueerd. Het SVM-algoritme wordt niet standaard door WEKA ondersteund . Hiervoor is gebruik gemaakt van de plugin LIBSVM [Chang and Lin, 2011].

Preprocessing

Het twittercorpus dient naar een voor WEKA geschikt ARFF -fileformaat (Attribute Relation File Format) geconverteerd te worden. Dit is een tekst-bestand dat een beschrijving van de features (attributes) bevat en voor elke instantie de waarden van deze features.

@attribute QM {TRUE,FALSE} @attribute QMn NUMERIC @attribute VFP {TRUE,FALSE}

(46)

@attribute QW {TRUE,FALSE} @attribute DTV {TRUE,FALSE} @attribute RE {TRUE,FALSE} @attribute EMO {TRUE,FALSE} @attribute SMILE {TRUE,FALSE} @attribute URL {TRUE,FALSE} @attribute HASH {TRUE,FALSE} @attribute length NUMERIC

@attribute isquestion {TRUE,FALSE} Voorbeeld gelabelde Tweet in ARFF-formaat:

“zijn er nog bekende die ook naar #tedxmaastricht gaan?#dtv” wordt:

@data

TRUE, TRUE, 1, TRUE, FALSE, TRUE, FALSE, FALSE, FALSE, FALSE, TRUE, 59, TRUE

Featureselectie

(47)

Filter Wrapper

Classifier NaiveBayes RandomForest SVM

QM • • • QMn • • QW • VFP • QW • DTV • • RE • • EMO • SMILE • URL HASH • LENGTH USERS

Tabel 19: Featureselection o.b.v. van wrapper en filter methoden

Wat opvalt is dat in overeenstemming met de verwachting alle selectie-methoden het feature vraagteken (QM, QMn) selecteren. De taalkundige features (VFP,QW) en twitterspecifieke DTV worden ook relatief vaak gese-lecteerd in vergelijking met twittermetafeatures als RE, HASH, LENGTH. Daarnaast hebben relatief veel selectiemethoden de sentimentsfeatures EMO en SMILE geselecteerd. Deze worden waarschijnlijk gebruikt als indicator voor niet-vragende zinnen, maar dit blijkt niet uit deze resultaten. Naive Bayes gebruikt slechts ´e´en feature (QM) voor classificeren. Op basis van dit schema kan niet bepaald worden welke selectiemethode het best presteert. Welke selectiemethode het best presteert komt later naar voren wanneer de ML-algoritmen worden ge¨evalueerd.

Classifier evaluatie 10-fold cross-validation

(48)

gedeeld: 1 part is bedoeld voor evaluatie en de andere 9 voor trainen. Dit proces wordt 10x herhaald, zodat elke tweet 1 maal als testdata en 9 maal als trainingsdata.

Voor ML-onderzoek is 10-fold cross-validation de standaard geworden. Resultaten

Voor elke methode is op basis van de standaard featureset, de filterfeatureset en de wrapperfeatureset getest. De best presterende featureselectiemethode is vervolgens geselecteerd. Voor alle 3 de methoden geldt dat de wrap-permethode de best presterende featureset genereerde. Tabel 20 toont de resultaten op basis van de wrapperfeaturesets.

Accuracy Precision Recall F1score Kappa

Naive Bayes 95.18 0.71 0.99 0.83 0.80 Random Forest 94.60 0.73 0.88 0.83 0.72 SVM 95.35 0.73 0.96 0.83 0.80

Tabel 20: Resultaten op basis van de wrapperfeaturesets

Analyse

Wanneer gekeken wordt naar de resultaten kan er geconcludeerd worden dat het uitvoeren van een wrapperfeatureselectie een positieve bijdrage levert aan de performance van de classifiers. De Naive Bayes en SVM classifiers scoren zowel op Kappa als op F1score het hoogste. Naive Bayes scoort iets

beter in recall en SVM in precisie. De verschillen tussen classifiers zijn echter niet significant. Gezien de lage cpu tijd van Naive Bayes in combinatie met de hoge recall heeft deze classifier de voorkeur.

5.5.3 Conclusie: regelgebaseerde vs ML-gebaseerde vraagdetec-tie

(49)

dat ze zeer infrequent zijn. Er is een zeer groot trainingcorpus nodig om voldoende voorkomens te verzamelen voor training.

Accuracy Precision Recall F1score Kappa

Naive Bayes 95.14 0.71 0.99 0.83 0.80 Random Forest 94.60 0.73 0.88 0.79 0.72 SVM 95.35 0.72 0.96 0.83 0.80 QM 95.18 0.90 0.99 0.83 0.89

Tabel 21: Resultaten ML-methoden en best presterende regelgebaseerde methode (QM)

(50)

6

Vraagclassificatie op twitter

In hoofdstuk 5 is besproken hoe Nederlandse vragen automatisch gedetec-teerd kunnen worden. In dit hoofdstuk wordt de vervolgstap besproken: het classificeren van vragen op intentieniveau. De eerste stap in het classifica-tieproces is het samenstellen van een taxonomie. In hoofdstuk 2 werden al enkele taxonomie¨en voor vraagintentie uit de literatuur besproken. Deze vormen de basis voor het voorstel dat in dit hoofdstuk gedaan wordt.

6.1 Taxonomie voor vraagclassificatie

6.1.1 Overlap en onderscheid met eerder werk

In hoofdstuk 2 is het onderzoek besproken dat Li et al, Efron en Winget, en Morris et al gedaan hebben naar vraagclassificatie op basis van intentie. Het verschil tussen het werk van Li et al en de andere twee is dat Li et als doel had tweets automatisch te classificeren, terwijl de andere onderzoeken pure analyses zijn van vraagtypen op Twitter. De vraag of het computationeel mogelijk is om deze klassen te onderscheiden speelt in de analyses geen rol. Dit onderzoek richt zich net als Li et al op automatische classificatie. In tegenstelling tot Li et al wordt dit gedaan tegen de achtergrond van de in hoofdstuk 1 geschetste toepassingen zoals question routing en lead-generatie. Toepassingen dus waarbij vragen uit het netwerk getild worden en algemeen beschikbaar gemaakt worden.

Ondanks de verschillende uitgangspunten van Li et al, Efron en Winget, en Morris et al bestaat er enige overlap in de voorgestelde klassen. In alle drie de taxonomie¨en bestaat een klasse voor vragen naar feitenkennis, retorische vragen en vragen met een wervend karakter (advertenties).

Naast overeenkomsten bestaan er ook belangrijke verschillen. Een van de meeste belangrijke klassen in de taxonomie van Li et al is Qweets. Qweets worden door Li et al omschreven als tweets die een vraag naar informatie of om hulp bevatten.

De taxonomie¨en van Efron en Winget, en Evans et al maken een veel gede-tailleerder onderscheid. De taxonomie van Efron en Winget bevat klassen voor feiten, opinie, uitnodigen tot actie en co¨ordineren van actie. De taxono-mie van Morris et al bevat klassen voor aanbeveling, opinie, feiten, invitatie, gunst, connectie en aanbieding.

(51)

te delen. Maar het fijnmazige onderscheid van de meer gedetailleerde taxo-nomie¨en is niet nodig en onwenselijk gegeven de beperkte omvang van het trainingscorpus (hoe meer klassen, des te minder voorbeelden per klasse). Er is voor gekozen om de klassen feiten en opinie van Efron en Winget over te nemen. Opinie bevat in deze ook wat Moris et al als aanbeveling be-noemen. Daarnaast wordt een nieuwe klasse gedefinieerd: vraag en aanbod. Deze klasse is met name interessant voor leadgeneratie en omvat de klassen uitnodigen tot actie (Efron en Winget), invitatie, gunst, connectie en aan-bieding (Morris et al). Qweets van Li et al worden dus ‘opgedeeld’ in drie categorie¨en:

1. Feitelijk 2. Opinie

3. Vraag en aanbod

Geen van de voorgestelde taxonomie¨en houdt er rekening mee dat de relevan-tie van een vraag mede bepaald wordt door de personen die de vraag kunnen beantwoorden (scope). Voor de toepassingen die dit onderzoek voor ogen heeft is dit echter een belangrijk gegeven dat in de taxonomie ge¨ıncorporeerd dient te worden.

6.1.2 Scope

Wanneer de vragen uit het Nederlandstalige tweetcorpus worden onderzocht valt op dat een groot deel van de vragen te omschrijven is als conversationele vragen. Deze vragen kunnen alleen beantwoord worden door de betrokke-nen en hebben een lage informatiewaarde voor niet-betrokkebetrokke-nen. Enkele voorbeelden:

“@chinoo waarom ben jij al zo vroeg op school?”

“@hansexterkate hoi Hans, ook al aan de koffie? Nog plannen voor vandaag?”

“@mist3red Ga je volgende week ook naar Den Haag?? #cpc”

(52)

deze klassen worden gebruikt om andere gebruikers uit te nodigen tot het voeren van een conversatie of vormen onderdeel van een conversatie. Er kan dus gesteld worden dat vragen op Twitter ook een sociale en conversationele functie vervullen. De onderzoekers merken op dat vragen op Twitter (be-halve direct messages) tussen gericht en publiek te plaatsen zijn. Dit komt doordat ondanks het gericht stellen van een vraag aan een gebruiker middels het @-symbool, deze vraag ook te lezen is door iedereen binnen het netwerk van de vragensteller. Hierdoor is de vraag dus impliciet gezien nooit gericht aan ´e´en persoon. De vraag is in hoeverre gebruikers ge¨ınteresseerd zijn in (conversationele) vragen van anderen waar zij verder niets aan kunnen bij-dragen.

Morris et al stellen dat de meeste vragen in hun Twittercorpus impliciet aan een specifieke gebruiker worden gesteld. In het corpus was slechts 20.9% van de vragen aan ‘iedereen’ gericht. Bij het stellen van een vraag aan iedereen werden de woorden anyone, someone, somebody of anybody gebruikt. Ook kwamen vragen met een specifieke scope gebruikers voor zoals: developer of Hey Seattle tweeps. Morris et al verwerken dit inzicht niet in hun taxono-mie.

Het bestaan van een conversationele vraagklasse wordt ook door Harper et al. [2009] vastgesteld. Zij merken op dat er twee typen vragen bestaan op Q&A sites: conversationele vragen en informatieve vragen (vragen op Twit-ter zijn sTwit-terk gerelateerd aan vragen op Q&A sites). Conversationele vragen worden gesteld om een discussie te starten. Informatieve vragen richten zich meer op feitenkennis en hebben een hogere archivale waarde. Vragen met een archivale waarde zijn minder moment gebonden, toegankelijk voor een groter publiek en dus voor algemeen gebruik waardevoller.

Opvallend genoeg benoemen Li et al niet dit onderscheid. Er kan aange-nomen worden dat dit type tweets ook in hun corpus veelvuldig voorkomt. Vermoedelijk bevat de categorie Qweets dan ook zowel vragen gericht aan een algemeen publiek als vragen aan een specifieke gebruiker.

In theorie kan een driedeling gemaakt worden op basis van de scope van de vraag:

1. Algemeen, vragen die door iedereen beantwoord kunnen worden (ui-teraard mits de persoon het antwoord bezit).

“Is het in Amerika nu 12 of 6 uur vroeger? #dtv”

(53)

2. Netwerk, vragen die door meerdere mensen binnen je eigen netwerk (juist) beantwoord kunnen worden.

“zijn we maandag/dinsdag vrij? #dtv #noordik” “Waarom gaat iedereen naar dord?”

3. Persoonlijk, directe vragen aan een andere gebruiker en alleen door deze gebruiker beantwoord kan worden.

“@Maxvanekeren welke heb je?”

“@TOOOMx oki wat voor baan heb je dan?”

Voor de toekomstige applicaties waar dit onderzoek zich op richt zijn alleen de vragen met een algemene scope relevant. De netwerk en persoonlijke vragen zijn in de klasse conversationeel opgenomen en worden niet verder op intentie geclassificeerd.

6.1.3 De vraagklassen

Op basis van de besproken literatuur en de toepassingen waar dit onderzoek zich op richt is de volgende taxonomie opgesteld:

1. Feit 2. Opinie 3. Vraag en aanbod 4. Retorische vraag 5. Advertentie 6. Vraag in titel 7. Conversationeel

(54)

Feit

Feitelijke vragen bevatten een verzoek om objectieve informatie. Deze vra-gen hebben een hoge archivale waarde.

Wat is 1 vinkje bij whatsapp en wat zijn 2 vinkjes?

Waar kan ik een tweet terugvinden die ik aan favorieten heb toegevoegd? #dtv

Opinie

Opinievragen bevatten een verzoek om subjectieve informatie: iemands on-derdeel, mening of suggestie.

“Morgenochtend vertrek ik heerlijk naar New York. Nog last mi-nutes tips mensen?”

“Een eetschema maken lijkt me moeilijk. Ik ga vandaag eens een poging wagen. Iemand tips of links? #dtv”

Vraag en aanbod

Deze vragen bevatten geen verzoek om informatie, maar gaan over goederen of diensten die worden aangeboden of gevraagd.

“Wie heeft er een (interim) opdracht voor een P&O specialist? Beschikbaar per 8 maart voor 32 uur, administratief goed onder-legt”

“Iemand gisteren of vandaag bij Snow Patrol? Zou je een review willen schrijven voor Musicspotter? Laat het weten! #dtv” Retorisch

Retorische vragen hebben wel een vraagvorm, maar hebben niet de intentie van een vraag. Ze zijn meer een uitdrukking van bijvoorbeeld emotie.

“Waarom heeft animal planet altijd van die hartverscheurende reclames waar je niet normaal naar kan kijken?? It makes me feel so bad!! :(”

(55)

Advertentie

Dit zijn vragen met een wervend karakter. Ze bevatten vaak een verwijzing naar een externe bron.

“Ben jij ondernemend en wil je samen met mede-ondernemers aan de slag in de uitzendbranche? lees dan http: // t. co/ kLHPJQp8 of bel 030-2667730”

“RT @RaboNopUrk: Vanavond starten 31 enthousiaste onder-nemers aan ons Rabo #Starterstraject, ook meedoen? Dat kan http: // t. co/ HskcDCwD ”

Vraag in titel

Dit zijn tweets die de titel bevatten van een artikel waarnaar verwezen wordt. Deze titel bevat een vraag.

“Hoe besteedt Spanje zijn geld?: De krant La Informacion toont vandaag op zijn website in een dynamisch grafisch ... http: // t. co/ hU1zrFut ”

“Rechter: Webshop? Detailhandel, dus winkelruimte huren! -Webwinkel mag niet zomaar op elke locatie — Tweakers Nieuws http: // t. co/ Kuo7iInG ”

Conversational

Dit zijn vragen die slechts door een select gezelschap beantwoord kunnen worden. Ze maken veelal deel uit van een conversatie.

“@tuiinkabouter Waarom was jij trouwens niet bij de film??” “@OhSnapItzAmelie uhhm danique en ik gaan rond 12en en als je wilt kan je eerst naar mij toe komen zodat we samen kunnen fietsen?”

Referenties

GERELATEERDE DOCUMENTEN

hand flower thinning treatment at full bloom significantly reduced the number of fruitlets that had to be thinned by hand during commercial hand thinning compared to the control

De hashtags geven extra infor- matie over het soort event, voor het onderzoek willen we deze informatie graag be- nutten voor het detecteren van events en non-events.. Voor

Het blijkt dat de kleur van het mengsel van GGN’s en melamine afhankelijk is van het gehalte melamine, waardoor bepaling van het gehalte melamine mogelijk wordt. De

− Wanneer in vraag 16 een onjuiste molaire massa van melamine is gebruikt en dezelfde fout in vraag 20 opnieuw is gemaakt, dit hier niet aanrekenen. − Wanneer in vraag 16

Wanneer deze niet wordt bereikt en alle afbeeldingen reeds overlopen zijn zal er worden overgegaan naar een volgende manier om data te genereren.. Dit zal in een eerste stap

The aims of this project were three-fold: (i) to identify promising TB vaccine candidates by screening a panel of novel MTB antigens, by stimulating whole blood cultures in vitro

We expect that out-of-school activities with similar properties (topic and organization), for which pupils have been prepared, and with instructors who are trained at

So when using the clinical beam structure of the IBA C230 cyclotron, it would still be possible to use the anti- coincidence filter to remove prompt counts from the beam-on