The Spotlight on Twitter: Twitter analysis inspired by cognitive theory on consciousness

(1)

De Spotlight op Twitter

Twitter-analyse geïnspireerd door theorieën over bewustzijn

Eindverslag Thema III - deel 2 (opdracht 5)

Rens Baardman, 10587772 Teuntje Bril, 10548106 Philemon Huising, 10541756 Anna van Vree, 10542930

29 januari 2016 aantal woorden: 4700 begeleider: Ger Post

hoofddocent: Dr. Machiel Keestra

ABSTRACT

Twitter is een veelgebruikt micro-blogging platform. Journalisten gebruiken exemplarische tweets steeds meer om meningen over actuale onderwerpen te tonen. Er is echter nog geen goede manier om tweets van een goede context te voorzien en binnen een groter gesprek te plaatsen. In dit paper gebruiken wij de Global Workspace Theory – een theorie over bewustzijn uit de cognitie – om een tool op te stellen die we kunnen toepassen op twitter. Op basis daarvan stellen we een methode voor om groepen van tweets te maken die qua onderwerp bij elkaar horen. Er kan dan worden bepaald welk onderwerp op dat

moment het belangrijkste is; dit is dan het ‘gespreksonderwerp’ van Twitter. Zo kan op een transparantere manier worden gepeild en gedeeld waar gesprekken op Twitter over gaan. 

(2)

Grote hoeveelheden mensen gebruiken Twitter om hun meningen te delen. Het is daarmee het grootste micro-blogging platform en een van de best bezochte sites ter wereld. Op

piekmomenten - zoals de finale van het WK 2014 - wordt er tot wel 620.000 TPM verstuurd 1

(Twitter, 2014). Wegens de grote hoeveelheid data die relatief makkelijk te verkrijgen is wordt Twitter veel gebruikt voor wetenschappelijk en maatschappelijk onderzoek. Zo zijn sentimenten op Twitter gebruikt om beurskoersen (Bollen et al., 2010) en verkiezingen (Tumasjan et al., 2010) te voorspellen, en zijn real-time tweets gebruikt om aardbevingen te monitoren (Sakaki et al., 2010). Daarnaast wordt Twitter veel door journalisten gebruikt. Zij monitoren het dagelijks tweet-verkeer om het laatste nieuws op te pikken (pers. comm. met Community Manager NOS, 29 januari 2016). Dit heeft de laatste jaren geleid tot een grotere zichtbaarheid van Twitter in het nieuws; (de gemeenschap op) Twitter maakt deels ook het nieuws, bijvoorbeeld als er op Twitter ophef over een bepaald onderwerp is. 2 3 4

Ze gebruiken dan enkele exemplarische tweets die moeten laten zien hoe de discussie op Twitter over dat onderwerp verloopt. Hoewel er diverse trendmonitoring-tools voor Twitter zijn die journalisten ook gebruiken , is het tot nu toe moeilijk om de context van een gesprek aan te 5

geven waarin een tweet is geplaatst. Ook zijn er nog geen goede mogelijkheden om te bepalen of tweets representatief zijn voor een grotere groep Twitteraars, en welke gesprekken of

meningen er momenteel op Twitter lopen over bepaalde onderwerpen.

Wij willen daarom een nieuw soort Twitter analyse tool ontwikkelen, die in staat is coherente en representatieve output uit Twitter te halen. Dit zou betrouwbaarheid, objectiviteit en context kunnen verlenen aan de genoemde uitspraken van journalisten. Hiernaast kan zo’n tool ook gebruikt worden voor wetenschappelijk onderzoek in sociologie, media studies, politicologie en psychologie; disciplines die gebruik maken van publieke opinie en de ontwikkeling van

Tweets per minute 1

zie bijvoorbeeld deze bericht van de NOS: “Twitter viert feest: meest gehate man op internet opgepakt” 2

op http://nos.nl/op3/artikel/2075844-twitter-viert-feest-meest-gehate-man-op-internet-opgepakt.html en “Wilders twittert foto Marokkaans parlement, Twitter haakt in” op http://nos.nl/op3/artikel/2075992-wilders-twittert-foto-marokkaans-parlement-twitter-haakt-in.html

van de NRC: “Harde kritiek op zwarte zegsvrouwen, maar ook veel bijval” op http://www.nrc.nl/next/ 3

2015/11/09/harde-kritiek-op-zwarte-zegsvrouwen-maar-ook-veel-1556883, naar aanleiding van een stuk over ‘Black Twitter’ een anti-racistische beweging op Twitter

en van de Volkskrant: “Bijbeluitspraken Donald Trump grote hit op Twitter” op http://www.volkskrant.nl/ 4

tech/bijbeluitspraken-donald-trump-grote-hit-op-twitter~a4132296/

de NOS gebruikt bijvoorbeeld Tweetdeck, Hootsuite en Coosto (pers. comm. met Community Manager 5

(3)

verschillende meningen en standpunten. Wij willen deze tool ontwikkelen ondere andere aan de hand van de Global Workspace Theory (GWT), een theorie vanuit de cognitie over het

bewustzijn. Door parallelen te trekken tussen de werking van Twitter en het brein kunnen de verscheidene processen die volgens GWT leiden tot bewustzijn opnieuw geïnterpreteerd en toegepast worden op Twitter.

Onze vraagstelling hierbij is: kunnen we een analyse-tool voor Twitter maken die geïnspireerd is door theorieën over bewustzijn uit de cognitieve wetenschappen? Hierbij is de Global

Workspace Theory de belangrijkste van deze theorieën, maar ook andere ideeën uit de cognitie komen later terug. Belangrijke deelvragen zijn hoe we cognitieve theorieën op Twitter kunnen toepassen, en wat onze tool toe kan voegen ten opzichte van huidige Twitter-analyse tools, die voornamelijk op (standaard) trend-analyse zijn gebaseerd. Kunnen we context geven en zo de berichten op Twitter duiden op een maatschappelijk relevante manier?

We hopen in dit paper een tool te schetsen die relatief eenduidige uitkomsten kan geven met een zekere mate van representativiteit voor de Twitter-gemeenschap in het geheel. Het moet de belangrijkste gespreksonderwerpen kunnen bepalen, en daar ook specifieke meningen of opmerkingen over kan vinden en kan bepalen hoeveel mensen die opvattingen delen. Dit kan over relatief feitelijke dingen gaan, bijvoorbeeld dat er massaal live wordt getwitterd over een doelpunt dat is gescoord tijdens een WK voetbal, maar ook over reacties op artikelen of meningen over recente gebeurtenissen. Een goede tool moet deze dingen helder en

nauwkeurig kunnen bepalen. Om het gebruiksvriendelijk te maken, zou een online dashboard gemaakt kunnen worden, waar gebruikers zoals journalisten of opiniepeilers gemakkelijk kunnen zien wat de belangrijkste onderwerpen en meningen zijn. Daarbij moet het ook duidelijk zijn hoe dat is bepaald en welke aannames daaraan ten grondslag liggen. Zo kan deze

(4)

Methodologie

Het lijkt misschien vreemd om Twitter met het brein te vergelijken, maar op kleine schaal

hebben ze enkele karakteristieke kenmerken gemeen. Wij hopen dit te kunnen gebruiken om op grote schaal ideeën over het brein op Twitter te kunnen toepassen. Wat ze gemeen hebben is dat beiden gebaseerd zijn op een netwerkstructuur waar informatie overheen loopt. In het brein zijn de knooppunten de neuroncellen, de verbindingen zijn de axonen (uitgaand) en dendrieten (inkomend). Op Twitter zijn de individuele twitteraars de knooppunten. Een twitteraar kan andere twitteraars volgen (‘follow’) en zo een timeline opbouwen: een verzameling

chronologisch geordende tweets van de twitteraars die hij volgt: dit is de inkomende verbinding. Een twitteraar kan dan zelf Tweets versturen, die aankomen bij zijn volgers (‘followers’): dit is de uitgaande verbinding. De netwerkkenmerken over bijvoorbeeld de gemiddelde connectiviteit van de knooppunten en de gemiddelde afstand tussen twee knooppunten (deze blijkt klein te zijn, wat ook wel ‘small-world phenomenon’ wordt genoemd) (“Neuro-tweets: #hashtagging the brain”, 2011).

Over dit netwerk wordt informatie verstuurd. In de hersenen zijn dit elektrische signalen; bij Twitter zijn dit de tweets: korte boodschappen van maximaal 140 tekens. Beide systemen hebben een manier om informatie te verspreiden over het netwerk. Neuronen zullen ‘vuren’ en zo een elektrisch signaal doorsturen als de ontvangen elektrische signalen boven een

drempelwaarde komen. Een twitteraar kan een tweet van een andere twitteraar doorsturen (‘retweeten’) naar zijn eigen volgers, als hij de boodschap van dat bericht interessant genoeg vindt voor zijn volger en/of de mening van de tweet deelt. Net zoals in het neuronaal netwerk van het brein uiteindelijk vele neuronen die op microschaal informatie (elektrische signalen) uitwisselen, samen op macroschaal intelligent handelen kunnen bewerkstelligen, hopen wij in Twitter op een vergelijkbare manier een output op macroschaal te kunnen extraheren

gebaseerd op onderlinge interacties tussen twitteraars.

Global Workspace Theory: verantwoording

De GWT is een conceptuele theorie die laat zien hoe bewustwording plaatsvindt. Volgens de theorie komt er interne en externe sensorische informatie onze hersenen binnen. Verschillende processen zorgen ervoor dat er één stukje informatie in de ‘spotlight’ komt, waardoor de

informatie beschikbaar wordt voor andere hersengebieden. Wij zijn ons op dat moment bewust van dit stukje informatie. Binnen de cognitieve neurologie is de GWT één van de belangrijkste

(5)

en meest aangehangen theorieën over bewustzijn (Block, 2009). Het belangrijkste empirisch bewijs is dat de theorie het globale activatie fenomeen verklaard. Het is geconstateerd dat bij de verwerking van onbewuste en bewuste informatie op dezelfde locaties in de hersenen een gelijke grootte activatie plaatsvind (Sergent & Naccache, 2012). Na 300 ms vind er bij bewuste informatie globale activatie in vele hersengebieden plaats, terwijl bij onbewuste informatie activatie lokaal blijft en eerder verdwijnt (Dehaene, Sergent & Changeux, 2003). Dit past precies in de GWT, waar sensorische informatie op dezelfde manier verwerkt wordt tot het in de

‘spotlight’ komt te staan. Het moment dat de spotlight aangaat is na 300 ms, wanneer andere gebieden de informatie krijgen en er dus globale activatie is. Daarnaast leent de GWT zich goed voor (algoritmische) modelleringen (Baars & Franklin, 2009). Baars en Frankin beargumenteren zelfs geslaagd te zijn in het maken van een systeem (LIDA) met functies van het bewustzijn op basis van de GWT in biocomputational manner. De algemeenheid van de theorie en haar elegante theater-metafoor zorgen ervoor dat de GWT relatief makkelijk toe te passen is op systemen die op eerste instantie niet op hersenen lijken, zoals Twitter.

Global Workspace Theory

De Global Workspace Theory (Baars & Franklin, 2005, 2007 & 2012) stelt dat coördinatie en controle in het brein plaatsvindt door middel van een centrale informatie-uitwisseling. Deze uitwisseling vindt plaats in de global workspace. Als informatie zich in de global workspace bevindt, kan het gebruikt worden bij bijvoorbeeld het geheugen, taal en cognitieve controle. Deze theorie gebruikt de metafoor van een ‘theater van mentaal functioneren’. In het theater zijn verschillende acteurs op het podium. De acteur die in de spotlight staat, wordt gezien door het publiek.

Als je deze metafoor vertaalt naar de hersenen, is het eerst belangrijk te bepalen wat er

allemaal in de spotlight kan staan. Dit zijn stukjes informatie, of events, die het resultaat zijn van input-processen. Input-processen zijn op lagere schaal bezig met het verwerken van je

waarnemingen en je interne representaties, oftewel elementen. Elementen en events kunnen zowel extern (bijv. visueel, auditief) of intern (bijv. herinneringen, gedachten) zijn. In de

hersenen zijn altijd veel input-processen tegelijkertijd bezig. Een input-proces kan bijvoorbeeld het beeld van een kopje koffie verwerken, terwijl een ander proces de geur van diezelfde koffie verwerkt en een derde het geblaf van je hond. Als verschillende input-processen consistent zijn, zoals het ruiken en zien van koffie, worden ze gebundeld. De elementen van het zien en ruiken van koffie worden geïntegreerd tot het event ‘daar staat koffie’. Het geblaf van de hond heeft niks met dit event te maken en wordt dus verwerkt door een concurrerend input-proces.

(6)

hetgeen waar we ons op dat moment bewust van zijn. Er kan maar één event in de spotlight staan, maar het wisselen tussen events kan zo snel gaan dat het wordt ervaren als multitasking. Het theater zelf is in het brein de global workspace. Dit is het werkgeheugen, waar informatie zit waar we ons op dat moment, of vlak daarvoor, bewust zijn geweest. Sommige aanhangers van de GWT denken dat hier ook informatie bevindt waar we niet onze aandacht op gevestigd hebben (Block, 2009). Dit zou verklaren waarom informatie soms later doordringt als de aandacht gevestigd was op iets anders. In deze theorie verdwijnt het event niet meteen, maar blijft het een korte tijd in de global workspace, zodat het alsnog onder de spotlight kan komen te staan. Voor andere wetenschappers, zoals Baars zelf, blijft de twijfel of iets in ons

werkgeheugen kan komen als we niet onze aandacht erop vestigen (pers. comm. met Bernard Baars, 21 oktober 2015). In dat geval is de Global Workspace gewoon wat er in de spotlight staat. Om de theorie te kunnen operationaliseren gaan wij uit van het idee dat de Global Workspace informatie bezit die niet perse in de spotlight hoeft te staan.

De spotlight kan aangestuurd worden door het bewust richten van de aandacht op een specifiek event. Deze aansturing is vanuit de frontale cortex, die zorgt voor cognitieve controle (Kane & Engle, 2002). De spotlight kan echter ook zonder deze cognitieve controle ergens op gezet worden. Hierbij zijn veel hersengebieden betrokken, zoals pijnsystemen, gebieden betrokken bij het geheugen en emotionele centra. De hersengebieden die de spotlight aansturen zou je kunnen zien als de mensen achter de schermen van het theater. Deze mensen schrijven het script, hebben het stuk geregisseerd en besturen letterlijk de spotlight. Oftewel: zij bepalen welke acteur te zien is voor het publiek. Zij staan in het donker, wat voor de GWT betekent dat de aansturende processen onbewust gebeuren. Hoe de spotlight gestuurd wordt heeft te maken met het aantal neurale verbindingen tussen de input processen en de aansturende gebieden. Een event heeft een grotere kans om in de spotlight te komen als het bijvoorbeeld een

emotionele reactie oproept. Een voorbeeld hiervan is het ‘cocktail party effect’ (Cherry, 1953), waarbij je het geklets van andere mensen niet bewust meemaakt totdat je iets relevants hoort, zoals je eigen naam. Toegepast op de Global Workspace Theory zou dit betekenen dat deze naam een invloed heeft op de amygdala, die vervolgens de spotlight zo aanstuurt dat het proces dat de conversatie van de buren interpreteert wint.

In de metafoor van het theater is er vervolgens nog het publiek. Dit is een belangrijk aspect in de GWT, en zorgt ervoor dat we ons daadwerkelijk bewust zijn van dingen. Het publiek in een theater heeft een reactie op de scene die zich in de spotlight afspeelt. Ze voelen een bepaalde emotie, er komt een herinnering op borrelen of ze grijpen de hand van hun buurman. De rest van je hersenen hebben ook reacties op datgene wat in de spotlight staat, waar we ons bewust van zijn. Deze reacties zijn de output-processen. Zo kunnen we woorden formuleren en

(7)

gedachten hebben over onze bewuste ervaringen, kan deze ervaring ertoe leiden dat we een herinnering naar boven halen of dat we een opmerking maken over de ervaring. Zo zou het event ‘daar staat koffie’ kunnen leiden tot het proces van koffie drinken. Als het event ‘de hond blaft’ echter gewonnen had, zou dit kunnen leiden tot het aaien van de hond.

Van Theory naar Tool

Door de algemeenheid van de GWT en haar gebruik van de theater metafoor is zij makkelijk te vertalen naar een ‘tool’ – een instrument om systemen weer te geven, te interpreteren en te analyseren. De theorie wordt dan zo vertaald en uitgelegd dat het op veel dingen uit

verschillende domeinen toepasbaar is. In de onderstaande figuur (figuur 1) wordt GWT als tool vormgegeven.

fig. 1 - een grafische abstractie van onze tool

In de GWT zijn ten eerste de verschillende dingen die we intern of extern kunnen waarnemen belangrijk. Die waarnemingen kunnen zo klein zijn als een ‘pixel’ (beeldpunt) op je netvlies van datgene dat je voor je ziet, of een noot in de muziek die je luistert. Toegepast op een ander systeem kunnen elementen alle soorten input of data zijn. De inputprocessen koppelen elementen aan elkaar en verwerken ze samen tot een bundel elementen, die samen een event vormen, zoals het bekijken van een videoclip. In de tool moeten inputprocessen de elementen verwerken tot hapklare brokjes, ingedeeld op samenhang of relevantie. Deze events bevinden zich in de global workspace. De aansturende processen moeten de verschillende events tegen elkaar wegen om uiteindelijk de spotlight op één event te zetten. Met het winnende

(8)

outputprocessen. Deze outputprocessen hebben vervolgens weer invloed op aansturende processen. Bijvoorbeeld als de videoclip, het winnende event, ervoor zorgt dat je daarna in de

supermarkt naar het bekende liedje luistert in plaats van naar je moeder die vraagt of je een pak melk wilt pakken.

Van Tool naar Twitter

Om de tool concreet op Twitter toe te passen is een korte schets van de functionaliteit en eigenschappen van Twitter noodzakelijk. Twitter is een microblogplatform (Java et al., 2007) – een platform waar je met korte statusupdates (in de regel minder dan 200 tekens, op Twitter minder dan 140 tekens) gemakkelijk in blogvorm je activiteiten en interesses kan delen met connecties. Twitteraars (ook wel ‘tweeps’ genoemd) versturen tweets, korte teksten met daarin 6

eventueel links of foto’s . Er is de mogelijkheid om andere twitteraars direct aan te spreken (met 7

behulp van het ‘@’-teken, gevolgd door de gebruikersnaam ofwel Twitter-handle van de andere persoon; bijvoorbeeld @BarackObama), waardoor ook gesprekken kunnen worden gevoerd. Het is mogelijk het onderwerp van de tweet indexeerbaar te vermelden met één of meerdere ‘hashtags’ (het ‘#’-teken gevolgd door het onderwerp of een afkorting daarvan; bijvoorbeeld #tvoh voor het televisieprogramma ‘The Voice of Holland’ ).8

Een twitteraar heeft followers: andere twitteraars die deze twitteraar volgen; zij krijgen op hun persoonlijke ‘timeline’ de tweets van deze persoon binnen in chronologische volgorde , samen 9

met de tweets van alle andere twitteraars die zij volgen. Zo’n 20% à 25% van de twitter-’relaties’ is wederkerig: daarbij volgen twee twitteraars elkaar (Kwak et al., 2010). De rest van de

verbindingen is dus eenrichtingsverkeer. Een twitteraar kan een tweet op zijn timeline ‘retweeten’ (RT), dat wil zeggen dat deze wordt doorgestuurd naar zijn eigen followers. Daarnaast is het mogelijk om tweets van andere ‘leuk te vinden’, zodat het succes van een tweet kan worden aangegeven. De tweet wordt dan niet verder gedeeld met de eigen volgers.

maximaal 140 tekens dus, oorspronkelijk om Twitter bruikbaar te maken als sms-service. Overigens zijn 6

er plannen om de tekenlimiet op te schroeven (‘Beyond 140’ wordt het project intern genoemd), zie bijvoorbeeld: http://recode.net/2015/09/29/twitter-plans-to-go-beyond-its-140-character-limit/

Twitter biedt link-verkorter services aan, om het gemakkelijker te maken binnen de teken-limiet te blijven 7

veel televisieprogramma’s hebben een specifieke hashtag zodat er een ‘gezamenlijk gesprek’ kan 8

ontstaan onder alle twitteraars die dat programma op dat moment bekijken

in principe in chronologische volgorde, Twitter voert ook experimenten uit met andere volgordes; zie 9

bijvoorbeeld: http://motherboard.vice.com/read/twitter-is-testing-timelines-that-arent-in-chronological-order?utm_source=mbtwitter

(9)

fig. 2 - voorbeeld van een timeline met vier tweets. Duidelijk te zien is dat er links en foto’s kunnen worden toegevoegd; dat er andere twitteraars kunnen worden gementioned (@CNNAshleigh, eerste tweet); dat er hashtags

kunnen worden toegevoegd (#Clinton, vierde tweet). De vierde tweet is een retweet: oorspronkelijk getweet door @BBCRajiniV, daarna geretweet door BBC News (@BBCWorld)

Het is mogelijk om met API’s (Application Programming Interface) op automatiseerbaar manier grote aantallen tweets binnen te halen. Deze data kan dan worden gebruikt door bijvoorbeeld onderzoekers of social media analytici. Er zijn voor gratis gebruik wel limieten in de hoeveelheid data die kan worden opgevraagd; tot 2010 was er een white-list waarop onderzoekers konden staan, zodat ze een veel hogere limiet konden krijgen. In de data die per tweet wordt

opgevraagd zit naast de gebruikersnaam, tweet-tekst en tijdstip nog meer informatie die kan worden gebruikt, zoals locatie-informatie (op basis van GPS of door de gebruiker ingevulde informatie) en ook informatie over het apparaat waarmee de tweet is verzonden.10

zie voor een uitgebreidere analyse bijvoorbeeld: http://gizmodo.com/5520314/the-anatomy-of-a-tweet 10

(10)

Vertaling van schema naar Twitter

We hebben het schema, onze tool, als metafoor opgesteld om de Global Workspace Theory algemeen toe te kunnen passen, en we denken dat het specifiek geschikt is om toe te passen op Twitter. Om dit te kunnen doen moeten we het schema vertalen naar Twitter:

- elementen: de kleinste soorten data of input op Twitter. Alhoewel het niet uitgesloten is

dat er ook andere manieren zijn om het kleinste deeltje informatie op het Twitter-netwerk te bepalen, gaan wij ervan uit dat tweets de elementen in ons schema zijn. Ze hebben een (relatief) eenduidige, simpele boodschap en worden via het Twitter-netwerk

verspreid. We beperken ons hierbij tot een bepaalde tijdsperiode, net zoals in een brein gebeurt: niet alle informatie die ooit is binnengekomen is even relevant. Voornamelijk is recente informatie relevant, en daar kan op worden geselecteerd.

- inputprocessen: op Twitter zijn er geen standaard processen die tweets samenvoegen

tot een bundel samenhangende tweets. Het inputproces zullen wij dus zelf moeten maken. Wij zullen hiervoor in dit onderzoek standaard clusteringmethodes gebruiken om tweets te bundelen op hun inhoud. Er zijn echter andere interpretaties mogelijk voor het maken van inputprocessen, die bijvoorbeeld op andere methodes in de Kunstmatige Intelligentie zijn gebaseerd. Volgens ons schema moeten deze methodes uitwisselbaar zijn: ze hoeven niet hetzelfde te werken of dezelfde uitkomst te geven, maar wel

aansluiten op de rest van het schema. Dit biedt mogelijkheden voor modulaire systemen van verschillende componenten (inputprocessen, aansturende processen, etc.) die de gebruiker naar wens kan combineren.

- events: dit zijn de uitkomsten van onze inputprocessen. In ons geval zijn dat dus

bundels met inhoudelijk samenhangende tweets. In een ideaal geval zou een event bestaan uit tweets met dezelfde, consistente, eenduidige mening of opmerking.

- aansturende processen en spotlight: dit is een eigen algoritme, dat op basis van

eigenschappen van events, en extern aangegeven voorkeuren of parameters, een event kiest dat op dat moment in de spotlight komt. Wij stellen voor dat dit concreet betekent dat elk event een score krijgt op basis van de tweets die in het event zitten. Het event met de hoogste score komt dan in de spotlight terecht: dat is het winnende event. Het winnende event is zelf geen tweet, maar een bundel van tweets. Het is wel mogelijk om representatieve tweets per event te kiezen, zodat het voor mensen interpreteerbaar wordt wat zo’n bundel inhoudt.

- outputprocessen: als het winnende event op een voor mensen interpreteerbare manier

(11)

om een dashboard te maken waarop het winnende event per tijdsperiode kan worden getoond. Deze informatie kan dan worden gebruikt door bijvoorbeeld journalisten.

Implementatie

In dit onderzoek is een belangrijke stap voor de tool het ‘begrijpen’ van enkele Tweets. Op basis van de inhoud moeten de Tweets kunnen worden ingedeeld in groepen. In eerste instantie zouden alle Tweets worden ingedeeld op het hoofd onderwerp. Deze groep moet vervolgens worden opgesplitst in clusters van Tweets die inhoudelijk ongeveer hetzelfde zeggen over dit onderwerp. Er zijn binnen de kunstmatige intelligentie reeds technieken ontwikkeld om de inhoud van langere teksten en berichten voor een computer begrijpelijk te maken. Het bepalen van de inhoud van een enkele Tweet is echter niet zo makkelijk. Microblog-analyse wordt

bemoeilijkt door het creatieve taalgebruik op blogs zoals Twitter, de hoge informatie dichtheid en de korte lengte van de berichten (Meij et al., 2012). Dit is een uitdaging waar veel onderzoekers zich afgelopen jaren en nog steeds over buigen en wat in dit onderzoek ook centraal zal staan. Als concrete methode voor de implementatie van de tool is gekozen voor clustering; een vorm van unsupervised machine learning. Clustering is een methode waarbij algoritmes gebruikt worden om in niet-gelabelde data onderliggende structuren te herkennen. Concreet betekent dat tweets uit een dataset worden geanalyseerd op inhoud door een algoritme. Tweets die inhoudelijk veel overeenkomsten hebben, “dicht bij elkaar liggen”, worden samen genomen in een cluster (zie afbeelding voor een grafische representatie waarbij 3 clusters worden

(12)

fig 3. uitkomst van een K-means clustering op sample-data. Figuur via http://stats.stackexchange.com/questions/ 133656/how-to-understand-the-drawbacks-of-k-means (overigens is ook een van de moeilijkheden van K-means clustering hier te zien: er wordt voornamelijk gefocused op dichte clusters. Andere methoden van clustering zijn daar

beter voor geschikt)

Meestal wordt voor dit soort analyses het standaard K-Means algorithm gebruikt. Naar hoeveel clusters het algoritme zoekt wordt gebruikelijk handmatig gekozen. Dit biedt een uitdaging en een beperking voor dit onderzoek. Immers betekent dit dat vooraf vastgesteld moet worden hoeveel “opinies” er bestaan in het netwerk. Dit vormt één van de uitdagingen. Een oplossing is om handmatig een deel van de dataset te analyseren en in te delen in gewenste aantal clusters. Een andere grotere uitdaging is het bepalen van de afstanden tussen enkele Tweets. In andere woorden: wanneer kunnen Tweets worden geïnterpreteerd als inhoudelijk gelijkend? Hiervoor worden semantische analyses gebruikt. Zo kunnen Tweets gelinkt worden aan een lemma in Wikipedia, om ze zo van extra categoriseerbare semantische informatie te voorzien (Meij et al., 2012). Een succesvolle inhoudelijke clustering is de vertaling van de inputprocessen in onze tool, die tweets bundelen tot clusters met samenhangende tweets. Deze worden dan verder als

events behandeld.

Het selecteren van een cluster

Van de events moet er één uitgekozen worden; deze komt dan in de spotlight. Wij stellen voor dat er een score per event wordt gemaakt, die gebaseerd is op hoe ‘belangrijk’ dat event is. Wij stellen de volgende kenmerken voor om een score per event te bepalen:

- het aantal tweets in een event (gemeten in een bepaald tijdsvak) - de gemiddelde score of verdeling van scores per tweet, gebaseerd op:

- hoe ‘krachtig’ een boodschap is

- het percentage van de volgers die het bericht retweet en/of ‘leuk vindt’ - het sentiment van een tweet, dat wil zeggen hoe positief of negatief de

toon van een tweet is (een standaard maat uit de Twitter-analyse, zie bijvoorbeeld Pak en Paroubek (2010))

- hoe groot het bereik van een tweet is (inclusief alle retweets)

- tijdsfactoren, zoals hoelang geleden de tweet is geplaatst, en hoe recent hij nog geretweet wordt

- tijdsfactoren per event, zoals de toename van het aantal tweets in een event (eerste tijdsafgeleide van het aantal tweets)

(13)

Elk event krijgt dan een score toegewezen: hoe hoger de score, hoe belangrijker dit event. Het event met de hoogste score komt dan in de spotlight terecht en wordt het winnende event. Om de uitslag van dit algoritme voor mensen interpreteerbaar te maken, is het verstandig representanten te kiezen per event: een aantal exemplarische tweets die het cluster beschrijven of samenvatten. Er zijn verschillende methodes om dit te doen. Een voorbeeld wordt

beschreven door Rosa et al. (2011), waarbij een aantal tweets per cluster wordt geselecteerd, op basis van hun representativiteit en diversiteit (om een zo breed mogelijke dekking van representanten van dit cluster te krijgen). Het is ook mogelijk om dit te combineren met de eerder opgestelde score per tweet: hoe hoger de score, hoe belangrijker, dus hoe groter de kans dat deze als representant wordt gekozen.

Discussie

In dit paper hebben wij een proof-of-principle gemaakt voor de ontwikkeling van een Twitter-analyse tool die gebaseerd is op de Global Workspace Theory. We hebben een algemene tool opgesteld die op allerhande systemen waarover informatie wordt getransporteerd, kan worden toegepast. Specifiek stellen wij dat Twitter hier een geschikt voorbeeld van is. We maakten een concrete vertaling van deze tool op Twitter. Hiermee kunnen ontwikkelaars aan de slag om bijvoorbeeld een online tool te maken waarmee Twitter-data kan worden geanalyseerd. Uit ons interview met een journalist (pers. comm. met Community Manager NOS, 29 januari) 2016) is duidelijk geworden dat hoewel er Twitter-tools gebruikt worden, journalisten vaak zelf moeten oordelen wanneer iets representatief is en wanneer niet, op basis van hun kennis van de context. De ontwikkeling van deze tool kan journalisten helpe om overzichtelijker en

misschien objectiever deze keuze te kunnen maken. Ook biedt het een makkelijke manier om specifieke onderwerpen te onderzoeken op Twitter.

Bias

In literatuur wordt er weinig gesproken over de bias in het gebruik van bepaalde Twitter-analyse tools. De tools op zich zijn functioneel, niet interpretatief: er worden technische handelingen verricht, waar niet zozeer een (maatschappelijke) betekenis aan wordt gegeven. De term bias refereert naar een systematische afwijking die vaak voortkomt uit bepaalde voorkeuren. Zo zou men zich zorgen kunnen maken om hoe representatief een uitkomst daadwerkelijk is. Het is bijvoorbeeld mogelijk dat alleen Engelstalige tweets gebruikt kunnen worden, en dat als

resultaat daarvan de ‘representatieve output’ die geclaimd wordt, in werkelijkheid geen rekening houdt met niet-Engelstalige twitteraars. Uit dit voorbeeld moet duidelijk zijn dat de tool op zich

(14)

geen bias heeft maar louter technische beperkingen, in dit geval de onmogelijkheid om andere talen te analyseren. Er zou pas sprake zijn van een bias als iemand (bijvoorbeeld een journalist) beweert dat een uitkomst representatief is voor de Twitter gemeenschap. Er is dus pas sprake van bias als men kijkt naar het gebruik van de tool, naar wat er beweerd wordt dat de uitkomst zou betekenen. Er zijn een aantal mogelijkheden om te voorkomen dat een tool wordt gebruikt om beweringen te doen waarvoor de tool zich niet leent. De eerste en meest makkelijke

oplossing is om bij de ontwikkeling van de tool duidelijke informatie te verschaffen waardoor het duidelijk moet worden voor gebruikers waarvoor de tool een geschikt instrument is (en waarvoor niet).

Een andere oplossing voor het probleem is om een objectieve maat van ‘betrouwbaarheid’ te ontwikkelen. Vaak is dit wat een tool op zich doet. Zo kan een tool de mate van verbondenheid in een netwerk berekenen. Op die manier kan de bewering dat een bepaald twitteraar invloedrijk is, worden onderbouwd. Toegepast op de hier te ontwikkelen twitter-analyse tool moet men dan denken aan een maat waarmee aangegeven wordt hoe representatief een tweet is. Er zijn een aantal indicaties die hiervoor gebruikt kunnen worden, en die komen elk met hun eigen

aannames. Er moet rekening gehouden worden met in hoeverre een gekozen cluster ook een besproken onderwerp is op Twitter.

Mogelijkheden voor verdere ontwikkeling

De GWT maakt met zijn theater metafoor duidelijk dat de informatie die in de spotlight komt te staan beschikbaar is voor vele gebieden in het brein met verschillende functies. Die informatie zit in het werkgeheugen. Dit is een belangrijk aspect van bewustzijn dat het mogelijk maakt om verbindingen te leggen tussen gedachten en ervaringen en herinneringen of om een

denkproces door te lopen. Als iemand zich bewust is geworden van een probleem, kan iemand bewust kiezen om na te gaan wat de beste actie zou zijn. Bij zo’n vraag komen heel veel dingen kijken: heb ik genoeg ervaring om het doen? Heb ik er genoeg energie voor? Heb ik andere belangrijke dingen te doen? Vervolgens wordt een beslissing gemaakt. Hier is duidelijk een feedback loop te zien. Wat in de spotlight komt heeft namelijk – dankzij de beschikbaarheid van die informatie voor de rest van het brein – invloed op wat er daarna in de spotlight komt. Dit is in ons Twitter tool echter niet het geval. Van de data die op dat moment op Twitter is wordt een representatieve output gecreëerd, maar deze heeft verder geen invloed op de ontwikkeling van de stand van Twitter en heeft ook geen verdere invloed op de spotlight. Het is mogelijk om te proberen zo een feedback loop te creëeren. Één manier om dit te doen is om de ontwikkelde tool als online functie op beschikbaar maakt voor twitteraars. Op deze manier kunnen zij

interactief omgaan met de uitkomsten van de tool, bijvoorbeeld door op de uitkomsten van de spotlight te reageren. Een andere mogelijkheid is om elk uur het huidige event in de spotlight

(15)

samen te vatten, en door een automatisch Twitter-account te twitteren. Andere twitteraars kunnen dit vervolgens retweeten of ‘leuk vinden’. De uitkomsten van de spotlight hebben dan vervolgens invloed op het systeem van Twitter. Dit geeft aanleiding tot nieuwe onderzoeken over het belang van feedback-loops in informatie-systemen.

Bibliografie

Baars, B. J. (2005). Global workspace theory of consciousness: toward a cognitive neuroscience of human experience. Progress in brain research, 150, 45-53.

Baars, B. J. (2007). The global workspace theory of consciousness. The Blackwell companion to consciousness, 236-246.

Baars, B. J., & Franklin, S. (2009). Consciousness is computational: The LIDA model of global workspace theory. International Journal of Machine Consciousness, 1(01), 23-32.

Block, N. (2009). Comparing the major theories of consciousness.

Bollen, J., Mao, H., & Zeng, X. (2011). Twitter mood predicts the stock market. Journal of Computational Science, 2(1), 1-8.

Cherry, E. C. (1953). Some experiments on the recognition of speech, with one and with two ears. The

Journal of the acoustical society of America, 25(5), 975-979.

Dehaene, S., Sergent, C., & Changeux, J. P. (2003). A neuronal network model linking subjective reports and objective physiological data during conscious perception. Proceedings of the National Academy of Sciences, 100(14), 8520-8525.

Franklin, S., Strain, S., Snaider, J., McCall, R., & Faghihi, U. (2012). Global workspace theory, its LIDA model and the underlying neuroscience.Biologically Inspired Cognitive Architectures, 1, 32-43.

Java, A., Song, X., Finin, T., & Tseng, B. (2007, August). Why we twitter: understanding microblogging usage and communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis (pp. 56-65). ACM.

Kane, M. J., & Engle, R. W. (2002). The role of prefrontal cortex in working-memory capacity, executive attention, and general fluid intelligence: An individual-differences perspective. Psychonomic bulletin &

review, 9(4), 637-671.

Kwak, H., Lee, C., Park, H., & Moon, S. (2010, April). What is Twitter, a social network or a news media?. In Proceedings of the 19th international conference on World wide web (pp. 591-600). ACM.

Pak, A., & Paroubek, P. (2010, May). Twitter as a Corpus for Sentiment Analysis and Opinion Mining. In LREC (Vol. 10, pp. 1320-1326).

Rosa, K. D., Shah, R., Lin, B., Gershman, A., & Frederking, R. (2011). Topical clustering of tweets. Proceedings of the ACM SIGIR: SWSM.

Sakaki, T., Okazaki, M., & Matsuo, Y. (2010, April). Earthquake shakes Twitter users: real-time event detection by social sensors. In Proceedings of the 19th international conference on World wide web (pp. 851-860). ACM.

(16)

Sergent, C., & Naccache, L. (2012). Imaging neural signatures of

consciousness:“What,”“when,”“where,” and “how” does it work. Archives italiennes de biologie, 150(2/3), 91-106.

Tumasjan, A., Sprenger, T. O., Sandner, P. G., & Welpe, I. M. (2010). Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment. ICWSM, 10, 178-185.

University of Cambridge (2011). Neuro-tweets: #hashtagging the brain, op: http://www.cam.ac.uk/ research/news/neuro-tweets-hashtagging-the-brain