• No results found

In dit onderzoek wordt gepleit voor het maken van een onderscheid tussen conversationele en niet-conversationele vragen op Twitter. Zeker voor prak-tische toepassingen is het belang dat deze twee van elkaar te onderscheiden.

Hoewel de verschillen tussen deze twee wel door anderen benoemd zijn, is dit onderzoek een eerste poging om deze klassen automatisch te detecteren. Hoewel de eerste resultaten bemoedigend zijn is er ruimte voor verbetering. Vraagclassificatie naar intentie op basis van structurele kenmerken is lastig. Uit de resultaten van de experimenten blijkt dat met name de klasse van retorische vragen extreem slecht presteert. Er kan geconcludeerd worden dat met de huidige featureset retorische vragen niet geclassificeerd kunnen worden. Li et al kwamen voor het Engels ook tot deze conclusie. Meer algemeen kan er gesteld worden dat er voor veel gevallen meer semantische en/of encyclopedische kennis nodig is. Het volgende voorbeeld valt onder de categorie feiten:

“huh is het nou al bekent wie de mol is ?”

Een variant hiervan met exact dezelfde structuur valt echter in de klasse conversationeel:

“huh is het nou al bekent wie de BOB is ?”

Met de huidige featureset en corpus is het niet mogelijk om deze van elkaar te onderscheiden.

De beperkte omvang van het corpus en de onevenwichtige distributie van tweets over klassen hebben een grote invloed op de prestaties van de clas-sificatiealgoritmen. Het verschil in prestaties van de gekozen leeralgoritmen is zeer klein. Naive Bayes presteert in alle experimenten het beste, maar het verschil met SVM is niet statistisch significant. Het kiezen van de juiste features heeft meer invloed op de prestaties van de classificatietaak dan de gekozen leertechniek. Een opvallend resultaat is dat POS-tags geen positieve invloed hebben op de classificatie. Li et al [2011] merken dit ook op, maar een afdoende verklaring ontbreekt nog.

7 Conclusie

Dit onderzoek is een eerste poging tot het automatisch detecteren en clas-sificeren van Nederlandse vragen op Twitter. Het volgt de door Li et al voorgestelde tweestapsstrategie, waarbij in stap 1 vragen automatisch gede-tecteerd worden en in stap 2 de vragen op basis van een eigen samengestelde taxonomie geclassificeerd worden.

Twitter heeft zo’n 455 miljoen gebruikers en wordt door velen gebruikt als een zogeheten social search tool, waarbij gebruikers hun online netwerk inzet-ten om tot hun antwoord te komen. Vooral subjectieve vragen kunnen beter beantwoord worden door middel van social search. Uit eerder onderzoek is gebleken dat mensen bereid zijn om vragen te stellen en te beantwoorden middels sociale netwerken, mits de vraag niet te priv´e is en ze geen reputa-tieschade erdoor kunnen oplopen.

Mogelijke toepassingen van extractie van vragen zouden kunnen zijn question-routing en lead-generatie, en meer algemeen toepassingen waarvoor het be-langrijk is dat vragen uit het netwerk getild worden en algemeen beschikbaar zijn.

Voor dit onderzoek zijn drie eigen samengesteld: een corpus met 26452 Ne-derlandse UGC vragen, een corpus met 8295 NeNe-derlandse tweets waarvan is aangegeven of ze wel of geen vraag bevatten en een corpus met 2718 tweets voorzien van een van de in het onderzoek vastgestelde klassen. Deze corpora zijn ingezet voor de detectie- en classificatietaken in dit onderzoek.

Er is onderzocht hoe vragen in tweets het beste gedetecteerd kunnen worden. De mogelijke vraagindicatoren zijn besproken en vervolgens is een regelgeba-seerde en een op Machine Learning(ML) gebaregelgeba-seerde oplossing ge¨ıntroduceerd. Deze methoden zijn niet alleen met F1score ge¨evalueerd, maar ook met be-hulp van Kappascore. Kappascore geeft beter inzicht in hoe de voorgestelde methoden presteren ten op zicht van een methode die werkt op basis van enkel selecteren de grootste categorie. Er is aangetoond dat regelgebaseerde systemen beter presteren dan ML-systemen voor deze taak. Drie type indi-catoren zijn onderzocht. Allereerst is gekeken naar specifieke eigenschappen van tweets. Ten tweede zijn de taalkundige eigenschappen van vragen getest voor automatische vraagdetectie. Tot slot is er geprobeerd om op basis van sequentieherkenning patronen te genereren die als mogelijke features voor vraagdetectie kunnen dienen. De werking van deze methode was niet be-vredigend. Het matig presteren van de patroonherkenner lijkt te wijten te zijn aan de beperkte omvang van het vragencorpus (26452 vragen). Van alle voorgestelde indicatoren blijkt de aanwezigheid van een vraagteken veruit de belangrijkste indicator te zijn. Dit is in overeenstemming met het onderzoek

van [Li et al., 2011]. Vraagdetectie zou verbeterd kunnen worden door ques-tion embedding verbs verder te onderzoeken. Hierdoor kunnnen ook vragen zonder vraagteken worden gedetecteerd. Een bijkomend probleem hierbij is dat vragen zonder vraagteken infrequent zijn en hiervoor dus een zeer groot trainingscorpus nodig is om voldoende voorkomens te verzamelen voor trai-ning.

Op basis van enkele eerdere onderzoeken naar vragen op Twitter is een eigen taxonomie, bestaande uit 7 klassen, voorgesteld. Opvallend is dat geen van de in eerdere onderzoeken voorgestelde taxonomie¨en rekening houdt met het feit dat de relevantie van een vraag mede bepaald wordt door de personen die de vraag kunnen beantwoorden (scope). Voor de toepassingen die dit onderzoek voor ogen heeft is dit echter een belangrijk gegeven dat in de taxonomie ge¨ıncorporeerd dient te worden. Vragen op Twitter (behalve di-rect messages) zijn tussen gericht en publiek te plaatsen. Dit komt doordat ondanks het gericht stellen van een vraag aan een gebruiker middels het @-symbool, deze vraag ook te lezen is door iedereen binnen het netwerk van de vragensteller. De vraag rijst namelijk in hoeverre gebruikers ge¨ınteresseerd zijn in (conversationele) vragen van anderen waar zij verder niets aan kunnen bijdragen. Op basis van dit gegeven incorporeert dit onderzoek de conver-sationele klasse in de voorgestelde taxonomie. Deze converconver-sationele klasse beslaat maar liefst 82.7% van de vragen in het classificatiecorpus en wordt gekenmerkt door het feit dat het conversaties van persoonlijke aard zijn tus-sen personen die voor de meeste praktische toepassingen niet relevant zijn. Het bestaan van deze klasse wordt niet genoemd door Li et al, wat opmer-kelijk is aangezien dergelijke tweets ook in hun corpus voor moeten komen en zij streven naar het detecteren van zogeheten Qweets die een vraag naar (algemene) informatie bevatten.

Hoewel de eerste resultaten van automatische classificatie door middel van Machine Learning bemoedigend zijn is er ruimte voor verbetering. De verbe-tering moet niet zozeer verwacht worden van nieuwe classificatiealgoritmen, alswel van het toevoegen van features. Voor de n-grammen op basis van POS-tags, heeft geen enkele configuratie een positieve invloed op de classifi-catie. Hoewel dit niet in lijn is met de verwachting, rapporteert ook Li et al. [2011] soortgelijke resultaten. Het feature is in de uiteindelijke experimenten dan ook niet meegenomen. Intentie bepalen op basis van structurele elemen-ten is een complexe taak. Uit de resultaelemen-ten van de experimenelemen-ten blijkt dat met name de klasse van retorische vragen zeer slecht te herkennen is. Li et al kwamen voor het Engels ook tot deze conclusie. Vraagclassificatie op basis van intentie kan verbeterd worden door het gebruik van semantische en en-cyclopedische kennis. Echter de grootste verbetering kan verwacht worden

Referenties

Breiman, L. (2001). Random forests. Machine Learning , 45(1), 5–32. Caruana, R., Karampatziakis, N., en Yessenalina, A. (2008). An empirical

evaluation of supervised learning in high dimensions. In Proceedings of the 25th international conference on Machine learning, ICML ’08, pages 96–103, New York, NY, USA. ACM.

Chang, C.-C. en Lin, C.-J. (2011). LIBSVM: A library for support vec-tor machines. ACM Transactions on Intelligent Systems and Techno-logy, 2, 27:1–27:27. Software available at http://www.csie.ntu.edu. tw/~cjlin/libsvm.

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement , 20(1), 37–46.

Cong, G., Wang, L., Lin, C.-Y., Song, Y.-I., en Sun, Y. (2008). Finding question-answer pairs from online forums. In Proceedings of the 31st an-nual international ACM SIGIR conference on Research and development in information retrieval , SIGIR ’08, pages 467–474, New York, NY, USA. ACM.

Efron, M. en Winget, M. (2010). Questions are content: a taxonomy of questions in a microblogging environment. In Proceedings of the 73rd ASIS&T Annual Meeting on Navigating Streams in an Information Eco-system - Volume 47 , ASIS&T ’10, pages 27:1–27:10, Silver Springs, MD, USA. American Society for Information Science.

Frank, E., Hall, M. A., Holmes, G., Kirkby, R., Pfahringer, B., en Witten, I. H. (2005). Weka: A machine learning workbench for data mining., pages 1305–1314. Springer, Berlin.

Grootveld, M. en Huijsen, W. (2005). Automatische Classificatie - De Tech-nieken. Telematica Instituut.

Guyon, I. en Elisseeff, A. (2003). An introduction to variable and feature selection. The Journal of Machine Learning Research, 3, 1157–1182. Haeseryn, W. (1997). Algemene Nederlandse spraakkunst . Number v. 2 in

Algemene Nederlandse spraakkunst. M. Nijhoff.

Harper, F. M., Moy, D., en Konstan, J. A. (2009). Facts or friends?: dis-tinguishing informational and conversational questions in social q&a

sites. In Proceedings of the 27th international conference on Human fac-tors in computing systems, CHI ’09, pages 759–768, New York, NY, USA. ACM.

Honeycutt, C. en Herring, S. C. (2009). Beyond microblogging: Conver-sation and collaboration via twitter. In Proceedings of the Forty-Second Hawai’i International Conference on System Sciences (HICSS-42). Los Alamitos, CA., pages 1–10, Los Alamitos, CA, USA. IEEE Computer Society.

Karttunen, L. (1977). Syntax and semantics of questions. Linguistics and Philosophy, 1(1), 3–44.

Li, B., Si, X., Lyu, M. R., King, I., en Chang, E. Y. (2011). Question identification on twitter. In Proceedings of the 20th ACM international conference on Information and knowledge management , CIKM ’11, pages 2477–2480, New York, NY, USA. ACM.

Morris, M., Teevan, J., en Panovich, K. (2010). What do people ask their social networks, and why?: a survey study of status message q&a behavior. In Proceedings of the 28th international conference on Human factors in computing systems, CHI ’10, pages 1739–1748, New York, NY, USA. ACM.

Pei, J., Han, J., Mortazavi-Asl, B., en Pinto, H. (2001). Prefixspan: Mining sequential patterns efficiently by prefix-projected pattern growth. In Pro-ceedings of the 17th International Conference on Data Engineering , ICDE ’01, pages 215–, Washington, DC, USA. IEEE Computer Society.

Powers, D. M. W. (2008). Evaluation evaluation. In Proceedings of the 2008 conference on ECAI 2008: 18th European Conference on Artificial Intel-ligence, pages 843–844, Amsterdam, The Netherlands, The Netherlands. IOS Press.

Raban, D. R. en Harper, F. M. (2008). Motivations for answering questions online abstract.

Ramaswami, M. en Bhaskaran, R. (2009). A study on feature selection techniques in educational data mining. CoRR, abs/0912.3924.

Sasaki, Y. (2008). Automatic Text Classification.

Schrijver, B. (2006). Classificeren met vertrouwen : contextgevoelige tekst-classificatie met betrouwbaarheidsindicatie.

Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Comput. Surv., 34(1), 1–47.

Talavera, L. (2005). An evaluation of filter and wrapper methods for feature selection in categorical clustering. In Proceedings of the 6th international conference on Advances in Intelligent Data Analysis, IDA’05, pages 440– 451, Berlin, Heidelberg. Springer-Verlag.

Tjong Kim Sang, E. (2011). Het gebruik van twitter voor taalkundig onder-zoek. TABU , 39(1-2), 62–72.

Vapnik, V. N. (1995). The nature of statistical learning theory. Springer-Verlag New York, Inc., New York, NY, USA.

Viera, A. J. en Garrett, J. M. (2005). Understanding Interobserver Agree-ment: The Kappa Statistic. Family Medicine, 37(5), 360–363.

Wells, A. T. en Rainie, L. (2008). The internet as social ally. First Monday, 13(11).