Systematisch zoeken binnen Social Media

(1)

woensdag 8 juni 2011 - Robert Jan Daams - 0748386 - Opinity

Systematisch zoeken binnen Social Media

Het volgende onderzoek wordt ondersteund door de ontwikkeling van een test-case waarbij methodes verkend worden voor het efficiënt verzamelen van gegevens binnen Social Media.

(2)

pagina 2

Samenvatting

Het onderwerp van dit onderzoek is het filteren van informatie afkomstig van Social Media.

De probleemstelling van dit onderzoek luidt als volgt:

Hoofdvraag

Is het mogelijk middels een webapplicatie relevante informatie te vinden binnen Social Media?

Deelvragen

1. Hoe kan informatie efficiënt gefilterd worden?

2. Hoe kan worden bepaald welke informatie het meest relevant is?

3. Kan de applicatie zo worden opgezet zodat deze later flexibel uit te breiden is met bronnen?

Test-case

Dit onderzoek wordt ondersteund door de ontwikkeling van een test-case waarbij methodes verkent worden voor het efficiënt verzamelen van gegevens binnen Social Media.

Belangrijkste conclusies

Ja, het is mogelijk middels een webapplicatie relevante informatie te vinden binnen Social Media.

 Zoals besproken in het eerste hoofdstuk is de hoeveelheid informatie die op een persoon afkomt in deze tijd erg groot. De behoefte voor informatie filtering wordt groter naar mate de hoeveelheid beschikbare informatie toeneemt. Efficiënte filtermethodes kunnen uitkomst bieden. De grote zoekmachines van deze tijd zijn ons voor gegaan in deze stelling.

 Er zijn verschillende technieken beschikbaar voor het ordenen van de resultaten op basis van relevantie. Een combinatie van een aantal technieken die kijken naar een zo groot mogelijke context vormen samen de formule voor het succesvol en tijdig vinden van informatie. Het is niet gegeven welke technieken per definitie beter zijn dan anderen. Sommige technieken zijn geheim en sommige zijn discutabel. Uitgebreid testen en evalueren beschrijven de te nemen weg.

 Vaak is het ontdekken van trends een onderdeel van de zoektocht naar informatie. Trends helpen de gebruiker te sturen met het opzetten van de juiste zoekopdracht.

 Door het volledige proces van het zoeken naar informatie te overzien, worden de verschillende fases duidelijk. Door de inzet van de juiste tool of tools per fase kan de mate van succes positief worden beïnvloedt.

 Door gebruik te maken van een populair Content Management Systeem kan veel ontwikkeltijd bespaard worden. Daarnaast is het idee om software gratis te delen met anderen een erg inspirerend principe en kan daarnaast uiteindelijk zorgen voor hogere kwaliteitsnormen.

(3)

pagina 3

Voorwoord

Het kunnen omgaan en beheersen van informatie is in dit informatietijdperk een sterke kwaliteit. Dat zowel het bedrijf waar ik werkzaam ben en ik deze mening delen, was dan ook de aanleiding voor dit onderzoek.

Door het volgen van de minor ben ik verder geïnspireerd in het ondernemen. Om succesvol te kunnen ondernemen is het van belang dat je beschikt over de juiste marktinformatie. Dit onderzoek was daarom een stap in de goede richting om methodes te verkennen die je kunnen bijstaan in het bemachtigen van deze informatie.

Niet alle modules die zijn opgeleverd als resultaat van dit onderzoek zijn in hun volledigheid bruikbaar in productieomgevingen. Deze dienen als prototype voor het bewijzen van diverse methodes en dienen daarnaast als basis voor modules die in de toekomst wel volledig zijn in te zetten.

Mijn dank gaat uit naar de Hogeschool Rotterdam en Opinity voor het bieden van inspiratie, mogelijkheden en middelen voor dit onderzoek.

(4)

pagina 4

Inhoud

1. Inleiding ... 5

1.1. Aanleiding ... 5

1.2. Bedrijf ... 5

1.3. Opdracht ... 6

1.4. Onderzoeksmethode ... 6

1.5. Afbakening ... 7

2. Hoe kan informatie efficiënt gefilterd worden? ... 9

2.1. Information Overload ... 9

2.2. Zoekprofielen ... 10

2.3. Real-time Trend Suggestions ... 10

2.4. Real-time Results ... 12

2.5. Conclusies ... 13

3. Hoe kan worden bepaald welke informatie het meest relevant is? ... 14

3.1. Datamining Social Media ... 14

3.2. Zoekmachines ... 15

3.3. Local indexing ... 16

3.4. Relevantie binnen context ... 16

3.5. Document Matching ... 17

3.6. Relevantie bepaling aan de hand van The Vector Space Model ... 18

4. Hoe kan er ingespeeld worden op het aanbod van verschillende bronnen van informatie? ... 21

4.1. Centraliseren ... 21

4.2. Op basis van modules ... 21

4.3. Uitbreiden met modules... 22

5. Conclusies en antwoord op de hoofdvraag ... 25

6. Referenties... 26

7. Bijlagen ... 27

(5)

pagina 5

1. Inleiding

1.1. Aanleiding

Goede ervaringen tijdens mijn stage en duale traject hebben mij ertoe gemotiveerd om met het bedrijf waar ik op dit moment nog steeds werk, genaamd Opinity, te onderhandelen over een afstudeeropdracht. Omdat het een jong maar snel groeiend bedrijf is, heb ik vanaf het begin al het idee gehad dat ik hier veel kon leren.

Het is ook erg interessant dat het bedrijf mij voldoende vrijheid biedt, dit heb ik dan ook gemerkt bij het onderhandelen over mijn stage en duale opdrachten.

Een periode is het onzeker geweest wat ik zou kunnen gaan doen voor mijn afstudeeropdracht. Er waren meer dan genoeg aanknopingspunten, waardoor het moeilijk was om de juiste te kiezen in overeenstemming met het bedrijf. Tot nu toe heb ik mij bezig gehouden met een aantal projecten, waarbij ik voornamelijk bezig was de interne processen voor de collega’s wat aangenamer te maken, voornamelijk door de inzet van het intranet. Daarom leek het mij ook interessant om nog meer te kunnen betekenen voor dit bedrijf, verhogen van het commerciële succes van het bedrijf.

Vanuit het bedrijf was hier duidelijk behoefte aan, al meerdere malen heb ik hier signalen van opgevangen.

Lang heb ik mij verbaasd over de verschillende beweegredenen van mensen om Social Media in te zetten om hun doel te bereiken. Mijn onverschilligheid tegenover Social Media heeft ervoor gezorgd dat ik het nooit zo serieus heb genomen als sommige andere studenten. Tegenwoordig kom ik echter steeds vaker situaties tegen waarbij verschillende Social Media ingezet worden om de bedrijfsvoering te bevorderen, veelal succesvol ook. Daarom leek het mij de ideale combinatie om diep in de wereld van Social Media te duiken om te kijken waar deze potentieel ingezet zouden kunnen worden ter bevordering van de bedrijfsvoering. Omdat ik hiervoor veel gedaan heb voor de interne bedrijfsvoering van Opinity, leek het mij ook erg leuk en verstandig om deze opdracht te beperken tot een marktanalyse met behulp van Social Media. Daarmee kwam mijn afstudeerproject ter wereld.

1.2. Bedrijf

Dit bedrijf sprak mij aan door de vrijheid die je krijgt bij de opdrachten en de manier van meedenken van de begeleiders. Uiteraard wordt er van je verwacht dat je goed werk levert, maar je wordt vrij gelaten om je eigen draai eraan te geven. De afwisseling van zakelijk maar sfeervol, heeft mijn motivatie vast weten te houden.

Opinity B.V. Realisatie van web applicaties en ICT infrastructuur.

bezoekadres Ter Steeghe Ring 59 3331 LX Zwijndrecht e-mail info@opinity.nl telefoon 078 620 19 40 contactpersoon Mylou Japenga

e-mail mylou.japenga@opinity.nl

(6)

pagina 6

1.3. Opdracht

De opdracht is voortgekomen deels uit de wens om de voornaamste bedrijfsactiviteiten te bevorderen vanuit het office management. Dit wil voornamelijk zeggen dat Opinity, met het oog op uitbreiding, meer opdrachten en personeel zoekt.

Opinity heeft nog niet de groei bereikt die zij graag had gezien, vandaar dat hier kansen liggen. Mede door de opzet van de opdracht zijn bijkomende voordelen dat er aandacht besteedt kan gaan worden aan trends. Feitelijk bestaat de opdracht dus uit het vinden van opdrachten, personeel en het bijhouden van trends. Deze invalshoek is erg interessant voor het bedrijf maar ook voor mij, op deze manier ben ik in staat om mij te verdiepen in de verschillende aspecten van het verzamelen van relevante informatie. Er zijn erg veel verschillende internetbronnen waarbij informatie onttrokken kan worden, echter is besloten om de concentratie bij de meest voor de hand liggende bron neer te leggen; Twitter. Twitter is namelijk het centrale informatiekanaal waar andere informatiebronnen zoals vacaturesites, RSS-feeds en nieuwsbrieven ook samenkomen. In de onderliggende hoofdstukken zal deze opdracht tot in het detail uitgelegd worden.

Hoofdvraag

Deelvragen

4. Hoe kan informatie efficiënt gefilterd worden?

5. Hoe kan worden bepaald welke informatie het meest relevant is?

6. Kan de applicatie zo worden opgezet zodat deze later flexibel uit te breiden is met bronnen?

1.4. Onderzoeksmethode

Om de onderzoeksvraag te kunnen beantwoorden zal er een ‘proof of concept’

gemaakt worden, oftewel een werkende applicatie die in ieder geval de belangrijkste functionaliteiten zal ondersteunen. Hierbij wordt uitgegaan van de opgestelde Moscow lijst. Deze applicatie zal automatisch functionaliteiten bieden welke volledig te configureren zijn in de gebruikersinterface. Aan de hand van deze applicatie zal er dan ook bewezen kunnen worden of de aanpak meerwaarde kan bieden aan de zoektocht naar de juiste informatie voor het bedrijf. Omdat de applicatie ruimte biedt voor het opslaan van de informatie die gevonden wordt aan de hand van de zoekprofielen, wordt het op die manier ook mogelijk maken om bepaalde statistieken te genereren, waaraan een aantal conclusies verbonden kunnen worden. In de Moscow lijst zal opgenomen worden of deze functionaliteit prioriteit heeft, of dat dit voornamelijk een aanknopingspunt is waar later verder op gebouwd kan worden. Op deze conclusies zou eventueel een bedrijfsstrategie beter afgestemd kunnen worden, dus het is een interessante feature.

De onderzoeksmethode is dan ook de uitvoerende methode. Door het maken van de applicatie en het realiseren van de belangrijkste functionaliteiten is het mogelijk om te bepalen in hoeverre dit als een succes wordt ervaren door de eindgebruikers.

Daarnaast kunnen er aan de hand van metingen en bepaalde statistieken bepaald

(7)

pagina 7 worden hoeveel en welke informatie er beschikbaar komt met de inzet van deze applicatie. De combinatie van de twee bovenstaande methodes zullen moeten uitwijzen of het onderzoek uitkomst kan bieden.

1.5. Afbakening

Grenzen

Dit onderzoek is op macro niveau uit te voeren, wanneer alle mogelijke internetbronnen aangesproken worden om vervolgens alle informatie te verzamelen met betrekking tot een bepaald onderwerp. Vooral met betrekking tot trends kan dit zeer accurate resultaten opleveren, immers wordt dan duidelijk wat er op dit moment het meest besproken wordt in Nederland. Ook levert dit uiteraard zeer goede resultaten op voor zowel potentieel interessante opdrachten als personeel, de kans is dan namelijk groot dat niemand ontsnapt aan het oog van de applicatie. Met het oog op de haalbaarheid, zijn hieronder de grenzen afgebakend:

 De informatiebron wordt beperkt tot Twitter.

 Twee zoekprofielen die automatisch Twitter aanspreken voor het verzamelen van berichten.

 De berichten zullen binnen gehaald worden aan de hand van zoekprofielen, waarbij er mogelijkheden zijn tot het invoeren van criteria:

 Zoekwoorden (via UI)

 Hashtags (via UI)

 Locatie: Nederland (statisch)

 De applicatie zal een invoegtoepassing (module) worden voor Drupal (versie 6).

 Deze applicatie zal compatible zijn met het Content Management Systeem Drupal.

 Splitsing van ontwikkeling naar 4 delen, deze delen zullen worden beschreven aan de hand van de Moscow-methode.

Requirements

 Must have this

 Applicatie in de vorm van een Drupal (versie 6) module.

 Overdraagbaar naar andere Drupal installaties.

 De standaarden van Drupal in acht genomen.

 De module biedt functionaliteiten:

 Periodiek zoeken naar Twitter berichten, met de optie om dit ook handmatig te kunnen doen.

 Twee verschillende zoekprofielen, afgestemd op de verschillende doelen.

 Zoekprofielen kunnen via de interface open bijgesteld worden.

 De resultaten worden opgeslagen in de Drupal database, zodat deze gemakkelijk en onafhankelijk van de Twitter website aangesproken kunnen worden.

(8)

pagina 8

 Een interactieve interface biedt deze opgeslagen berichten aan.

 De interface biedt filter mogelijkheden, feitelijk de 2^e laag filter, om zo nog efficiënter de gezochte informatie aan te bieden:

 Het werken met modules moet het mogelijk maken voor andere ontwikkelaars om hun bijdrage te kunnen leveren.

 Er worden een aantal Plugins geleverd die de gebruiker bij staan bij het opstellen van zoekprofielen en de informatie beter kunnen waarderen aan de hand van relevantie.

 Statistieken voor de binnengehaalde berichten.

 Should have this if at all possible

 Geavanceerde statistieken bijhouden met betrekking tot de berichten in de database.

 Het mogelijk maken voor de gebruiker om trends te ontdekken.

 Won't have this but would like to have this in the future

 Evaluatie op basis van langdurig werken met de applicatie. Feedback verzamelen en eventueel toepassen op het product.

 De applicatie optimaliseren zodat het binnenhalen en verwerken van de berichten niet langer dan enkele seconden duurt.

 Meerdere API’s (zoals Twitter) aanspreken als bron.

(9)

pagina 9

2. Hoe kan informatie efficiënt gefilterd worden?

2.1. Information Overload

Een van de gevolgen van de snelle veranderingen en innovatieve toepassingen van het (digitale) tijdperk wordt ook wel Information Overload genoemd. De website Frankwatching ( Sander Duivestein, 8 maart 2011,

http://www.frankwatching.com/archive/2011/03/08/over-information-overload-en- filter-failure-een-nieuw-rapport/) heeft hier een artikel over gepubliceerd waarin zij dit onderwerp bespreken. Zij baseren een aantal conclusies op de uitspraken van Clay Shirky, gemaakt tijdens de Web 2.0 Expo in New York (Clay Shirky, 18 september 2008, http://web2expo.blip.tv/file/1277460/%20). De conclusies omvatten de problemen die mensen tegenwoordig tegen het lijf lopen door het grote hoeveelheid aan informatie. Social Media speelt hier dan ook een grote rol in. Zij benoemen het filteren van informatie, zeker in de toekomst, meer als een noodzaak dan een luxe. Tegenwoordig is er geen gebrek meer aan informatie (zoals voor het digitale tijdperk wel het geval was) maar een overvloed. Dit zorgt ervoor dat men keuzes moet maken met betrekking tot welke informatie er relevant is en welke niet. Het is immers voor een mens tegenwoordig verre van mogelijk om alle informatie tot zich te nemen.

Geheel tegen de draad in beweert Clay Shirky (Clay Shirky, 18 september 2008, http://web2expo.blip.tv/file/1277460/%20)dat deze trend niet een kwestie is van teveel informatie, maar van filters die falen de gebruiker de juiste informatie voor te schotelen. Shirky zegt dat dit probleem al bestaat sinds de uitvinding van de drukpers. Nicholas Carr (Nicholas Carr, 7 maart,

http://www.roughtype.com/archives/2011/03/situational_ove.php) kan zich hier prima in vinden, maar is wel specifieker over het probleem. Carr maakt namelijk een onderscheid tussen Situational Overload en Ambient Overload. Bij

eerstgenoemde kan men spreken van een specifiek stukje informatie waar iemand naar op zoek is. Echter in veel gevallen is deze problematiek niet buitengewoon ingewikkeld om op te lossen. Als voorbeelden kunnen de reisplanners van verschillende vervoersmaatschappijen genoemd worden die feitelijk het filteren uit handen nemen. Aan de hand van een datum, een tijd en een begin- en eindpunt kan men middels een ingewikkelde vergelijking

(algoritme) de gewenste gegevens presenteren aan de gebruiker, meestal binnen enkele (mili-) seconden. Wanneer er echter van Ambient Overload sprake is, Carr spreekt hier over “information that is of immediate interest to us”, is de oplossing minder dichtbij. Het overgrote deel van deze informatie bestaat dan ook uit (vaak real-time) informatie uit de sociale netwerken.

De bewering dat er behoefte voor filtering van informatie is wordt bijgestaan door de organisatie Information Overload Research Group (Resource Center,

http://iorgforum.org/about-iorg/). Deze organisatie zet zich in ter behoeve van het oplossen van het probleem Information Overload. Daarnaast is er zelfs een Information Overload Awareness Day (20 oktober, 2010,

http://www.informationoverloadday.com/) geweest in oktober 2010. Dit allemaal om mensen erop te wijzen dat dit een serieus probleem is en dat zij er niet alleen

(10)

pagina 10 voor staan. Er zijn serieuze initiatieven onderweg om de problemen van

overvloeden aan informatie te tackelen, dit onderzoek biedt hier dan ook aandacht aan.

2.2. Zoekprofielen

De eerste stap in het onderzoek die genomen is naar het bijstaan van de gebruiker in de zoektocht naar informatie is het inzetten van zoekprofielen. Dit wordt door alle tools gebruikt als basis om op verder te bouwen. Tijdens het opstellen van het zoekprofiel worden alle wijzigingen opgeslagen zodat deze later te raadplegen zijn. Het principe van het kunnen bewaren van een zoekopdracht is essentieel voor dit onderzoek. De website van Twitter biedt dit principe zelf sinds kort ook aan, maar kan niet alle wensen met betrekking tot functionaliteit invullen. Het enige voordeel wat de Twitter site te bieden heeft bij het opslaan van het zoekprofiel, is dat deze niet opnieuw ingevoerd hoeft te worden. Het voordeel voor het lokaal opslaan van een zoekprofiel is echter dat deze ingezet kan worden om automatisch zoekopdrachten uit te voeren. De Twitter website vereist vooralsnog dat de gebruiker eerst inlogt op de website en handmatig de opdracht uitvoert. Daarom is er een systeem opgezet om de gebruiker een profiel op te laten stellen samen met een interval. Zo wordt deze zoekopdracht automatisch herhaald door middel van een schema (Cronjob). Bijkomend voordeel is dat de kans groter is dat alle relevante berichten gevonden worden, zeker door elk uur opnieuw te zoeken. De techniek achter Twitter zorgt er namelijk regelmatig voor dat er problemen zijn met de capaciteit.

Dit idee is erg interessant voor de gebruiker, zeker omdat ook de gevonden berichten lokaal worden opgeslagen. Op die manier heeft een gebruiker altijd toegang tot de informatie en is minder afhankelijk van het online of offline zijn van de Twitter website. Wijzigingen in het zoekprofiel kunnen gemaakt worden, direct wanneer er een moment van inspiratie aanwezig is. Door het schematisch updaten worden dan de wijzigingen direct opgepakt Daarnaast is de interface ook meer beïnvloedbaar door ontwikkelaars. Later in dit onderzoek zal duidelijk worden welke mogelijkheden dit idee kunnen bieden.

2.3. Real-time Trend Suggestions

Zoals in hoofdstuk 2.1 Information Overload is besproken, is het belangrijk om de gebruiker bij te staan bij het vinden van de juiste informatie. Een tool zou dus eigenlijk een stukje werk uit handen van de gebruiker moeten nemen. Het filteren van informatie is altijd een proces waar de gebruiker centraal in staat. Ambient Overload kan er echter voor zorgen dat het moeilijk is om overzicht te blijven houden. Actuele informatie kan overweldigend zijn binnen de Social Media, maar juist ook erg interessant. Door te kijken wat er speelt onder de mensen, kan hier slim op worden ingespeeld.

Onderwerpen die binnen een korte tijd razend populair worden zijn dan ook vroegtijdig te herkennen door te kijken naar Social Media. Dan wordt er hier wel gesproken over bijvoorbeeld de top tien trends, zoals deze te vinden zijn op de Twitter website. Dan wordt hier niet gesproken over trends die in relatie staan tot de informatie waar de gebruiker mogelijkerwijs naar op zoek is. Door trends op deze manier in te zetten betekent het eigenlijk dat de Ambient Overload alleen maar verergerd wordt.

(11)

pagina 11 Interessant voor dit onderzoek is het inzetten van technieken die voorzien in het op de hoogte houden van de gebruiker van opkomende relevante trends. Feitelijk is het weergeven van trends in het algemeen een kwestie van de informatie filteren. Er wordt gesuggereerd dat de opkomende trends mogelijk interessant kunnen zijn voor de gebruiker omdat deze geconstateerd worden op basis van populariteit. Veel webshops bieden tegenwoordig een interessant mechanisme om een vorm van trends aan te bieden. Dit is op een lokale schaal en daarom al een stuk interessanter. Het principe berust op het omschrijven van verschillende producten om vervolgens aanbevelingen te doen voor producten, die een deel van deel van deze beschrijving delen. Daarnaast wordt ook de geschiedenis van de handelingen van andere gebruikers in acht genomen door wederom te kijken naar populariteit. Het algoritme achter het aanbevelingssysteem bepaalt de mate waarin bepaalde factoren gewogen worden tegenover overige factoren. Door deze zo efficiënt mogelijk af te stemmen kan het de gebruiker erg aangenaam gemaakt worden en bepaald daarmee voor een groot deel het succes van de webshop.

Om de juiste informatie te kunnen vinden tussen de grote hoeveelheid die beschikbaar is, is het dus belangrijk om de juiste tools in te zetten. Deze tools kunnen het de gebruiker een stuk makkelijker maken, maar niet zonder de juiste omschrijving van de te vinden informatie. Dergelijke tools zijn dan ook altijd afhankelijk van de invoer van de gebruiker, hoe geavanceerd de techniek de tool ook is. Wat namelijk een belangrijke rol speelt is het feit dat informatie verandert over tijd, net zoals onderwerpen die besproken worden en technieken die populair zijn. het gebruik van een aanbevelingssysteem zal daarom soms falen om de gebruiker de juiste nieuwe suggesties te bieden. Het systeem kan niet out-of-the-box gaan denken. Daarnaast worden producten in een webshop altijd beheerd volgens een bepaalde structuur.

Wanneer de structuur dynamisch is en in handen van de eindgebruiker, zoals bij Social Media, zijn dergelijke tools opeens minder aantrekkelijk.

Het is daarom ook erg belangrijk om niet alleen aandacht te schenken aan de techniek van de tools, maar ook aan de invoer van de gebruiker zelf. Dit is een belangrijke stap in het proces van informatie vinden, waar de tools niet altijd op afgestemd zijn. Daarom wordt hier een techniek besproken die als doel heeft om het gat in het proces op te vullen bij het zoeken binnen Social Media. De gebruiker stelt een zoekopdracht op door de te vinden informatie samen te vatten in een korte beschrijving. De beschrijving is meestal dan ook niet meer dan een aantal steekwoorden. Door de juiste steekwoorden met elkaar te combineren kan er een context gecreëerd worden voor de tools om documenten mee te doorzoeken.

Daarnaast is er ook context voor de gebruiker nodig om de juiste steekwoorden te kiezen. Bij sommige zoekopdracht ontbreekt er altijd een deel van de context. Wanneer er bijvoorbeeld gezocht wordt naar frameworks voor een specifieke scripttaal, kan er altijd een nieuwe frameworks opkomen en razendsnel populair worden. Maar wanneer het frameworks vrij nieuw is en daarom nog maar een kort leven heeft op internet, zal niet elke tool deze frameworks een even grote kans geven als al langer bekende frameworks. En daarom ook lager gepositioneerd worden in de zoekresultaten. Het binnen korte tijd snel populair worden van een bepaald onderwerp wordt ook wel een trend genoemd. Als individueel of als bedrijf kunnen inspelen op trends is een belangrijke manier van het kunnen onderscheiden van concurrenten. De insteek is hier

(12)

pagina 12 dan ook een tool in te zetten die het aanbieden van relevante onderwerpen mogelijk maakt.

Op een aantal websites is er de mogelijkheid om trends op te vragen via een API (Thematthariss, 29 april, 2011, http://dev.twitter.com/doc/get/search). Bedrijven zoals Google of Twitter bieden dit gratis aan gebruikers aan. Het probleem is vaak wel dat deze in een beperkte vorm worden aangeboden en daarom niet altijd bruikbaar zijn.

Eerder is al vermeld dat er zoveel verschillende onderwerpen zijn, zodat de bovenste trends meestal niet relevant zijn. Er moet dus een manier zijn om trends te kunnen opvragen aan de hand van een context, in dit geval een steekwoord. Een trend die mogelijk in dezelfde categorie valt als het steekwoord of op een manier verbonden is.

Omdat er geen volledige beschikbaarheid is tot het zoeken door de data van bijvoorbeeld Twitter is het daarom erg moeilijk om gericht te zoeken naar trends binnen een categorie. Ook het dataminen van grote hoeveelheden Twitter data, het analyseren van alle woorden en het maken van een gestructureerde lijst is alleen mogelijk met de juiste middelen. Daarom wordt binnen deze testcase gebruik gemaakt van de beschikbare API op de website whatthetrend.com (Whatthetrend.com).

Middels deze API is het mogelijk om relevante trends te vinden aan de hand van een steekwoord. Deze trends worden ontdekt aan de hand van een grote hoeveelheid Twitter data. De ontwikkelaars achter eerdergenoemde website zijn zelf ook betrokken bij het binnenhalen en lokaal analyseren van grote hoeveelheden Tweets. Daarnaast wordt er van de gebruikers gevraagd mee te werken aan het herkennen, bijhouden en omschrijven van trends.

Uit de resultaten van een aantal tests is gebleken dat bijvoorbeeld bij de scripttaal 'PHP' er interessante matches naar voren kwamen zoals de release van een nieuwe versie en van bijvoorbeeld conferenties. De testcase is zo opgezet dat bij de configuratie van een zoekprofiel er een aparte invoer is om een bepaald steekwoord te testen. Deze test geeft als resultaten de top tien meest relevante trends aan de hand van een ingevoerd steekwoord. Bijkomend voordeel voor de gebruiker is dat de API naast de namen van de trends ook een beschrijving en een link meestuurt. Deze link verwijst door naar de website van de API waarop extra informatie te vinden is over de trend in kwestie. Deze functionaliteit geeft de gebruiker als het ware inspiratie en aanknopingspunten voor het kunnen herkennen van trends. Helaas is ook deze API net zo beperkt als de bron van informatie waaraan deze gekoppeld is. Toch zijn er dusdanig goede resultaten geconstateerd dat er van uit gegaan kan worden dat deze API een goede testcase heeft geboden voor dit onderzoek.

2.4. Real-time Results

Tijdens het testen is gebleken dat er een goede basis is voor het binnenhalen van informatie voor een specifiek onderwerp. Ook is gebleken hoe belangrijk het is om de juiste zoekopdracht op te stellen. Twitter berichten zijn kort maar krachtig, waardoor het veranderen van een zoekwoord drastische gevolgen kan hebben voor de resultaten. Het zoeken door een miniblog zoals Twitter vereist daarom een andere aanpak dan het zoeken door grotere documenten. Door het instellen van een schema voor periodieke zoekopdrachten, is het voor de gebruiker lastig om in te schatten wat dit voor kwantitatieve resultaten zal opleveren. Daarom wordt het binnenhalen van informatie op de korte termijn gecombineerd met de lange termijn. Na het opstellen van

(13)

pagina 13 een zoekprofiel is het mogelijk voor de gebruiker om Real-Time te testen hoeveel berichten dit als resultaat zal opleveren. Daarnaast wordt de keuze geboden om deze berichten ook direct op te halen van de server. Zodoende is het mogelijk gebruikers een inschatting te geven van de resultaten op de lange termijn aan de hand van het zoekprofiel.

2.5. Conclusies

1. Information overload

Tegenwoordig is er een overvloed aan informatie, dit bemoeilijkt het vinden van de juiste informatie. Er is een uitgesproken behoefte aan het filteren van informatie. Deze behoefte strekt zover dat dit problemen veroorzaakt in het dagelijkse leven door alle informatie die op een persoon afkomt. Er zijn veel verschillende perspectieven op het gebied van filteren en daarom is niet iedereen het eens over de juiste oplossing. Met de komst van meer informatie stijgt de behoefte tot het kunnen filteren van deze informatie.

2. Zoekprofielen

Het inzetten van zoekprofielen is de basis van de opzet van de applicatie.

Tevens is dit ook de basis voor verschillende tools die elk hun toegevoegde waarde kunnen leveren bij de zoektocht naar informatie.

3. Real-Time Trend Suggesties

Tools zijn niet alleen goed voor het doorzoeken van grote hoeveelheden informatie, maar kunnen ook worden ingezet om de gebruiker te helpen bij het opstellen van een zoekprofiel. De besproken tool stelt de gebruiker in staat om relevante termen te ontdekken aan de hand van een ingevoerde term. Dit heeft als voordeel dat de gebruiker een bron van inspiratie kan aanspreken om het zoekprofiel beter af te stellen op de onderwerpen die op dat moment spelen in de wereld van Social Media.

4. Real-Time Results

Door dat de gebruiker in staat is een gebruikersprofiel op te stellen en deze via een schema automatisch aan te roepen, is het belangrijk om bij het opstellen van het profiel een goed beeld te krijgen van de te verwachten resultaten. Real-Time Results biedt de mogelijkheid om een zoekprofiel te testen.

5. Samengevat

In dit hoofdstuk zijn verschillende tools besproken die het de gebruiker makkelijker maken om zoekopdrachten op te stellen. Door te proberen een beeld te krijgen van opkomende trends en de toekomstige resultaten kan het vinden van de juiste informatie via Social Media makkelijker gemaakt worden. De inzet van effectieve zoekopdrachten maken het mogelijk om de grote hoeveelheid informatie welke achter Social Media schuilt te filteren.

(14)

pagina 14

3. Hoe kan worden bepaald welke informatie het meest relevant is?

3.1. Datamining Social Media

Twitter is een vorm van Social Media en maakt daarnaast onderdeel uit van de web2.0 technologieën. Twitter vertoont ook grote overeenkomsten met blogs, daardoor wordt deze vorm ook wel een micro-blogging service genoemd (Journal of Computer- Mediated Communication, 13(1), Boyd, d. m., & Ellison, N. B. article 11., 2007) http://jcmc.indiana.edu/vol13/issue1/boyd.ellison.html). Dit is te vergelijken met bloggen, maar dan met korte berichten die vanaf verschillende apparaten verstuurt kunnen worden, inclusief mobiele apparaten. Deze Tweets zijn dan ook door iedereen op te zoeken, behalve wanneer de afzender ervoor kiest om deze geheim te houden.

Samengevat is Twitter het platform voor het plaatsen en het vinden van berichten van miljoenen gebruikers, waarbij de essentie van gedachtegangen, activiteiten of bedoelingen duidelijk worden. Dit maakt Twitter dan ook een goed uitgangspunt om opkomende trends (How Marketers Are Using Social Media to Grow Their Businesses, Michael Stelzner,april 2010), te kunnen herkennen of om de mate van populariteit te bepalen van bepaalde onderwerpen (Centre for Sensor Web Technologies School of Computer Science and Informatics University College Dublin Ireland, Owen Phelan, Kevin McCarthy & Barry Smyth CLARITY).

Een van de meest opvallen de verschillen is echter, dat de berichten maar een beperkt aantal karakters mag bevatten. Dit idee is te vergelijken met de populaire Short Message Service (SMS) waar onder andere met de mobiele telefoon gebruik van te maken is. Een zogenoemde Tweet kan, net zoals een SMS, maar een beperkte grootte zijn. Dit is zelfs 20 karakters minder dan bij de SMS, 140 om precies te zijn. Dit kan als nadelig ervaren worden, omdat dit niet altijd voldoende kan zijn. Zeker niet als er ook namen van ontvangers of links naar websites in voorkomen, waar in veel gevallen wel sprake van is.

Er zijn al verschillende technieken beschikbaar om dit probleem te tackelen, voornamelijk het omzetten van een lange link naar een korte link zoals www.tinyURL.com (http://tinyurl.com/). Een groot voordeel van dit principe is echter wel dat gebruikers gedwongen worden om de essentie van de boodschap te formuleren binnen de 140 karakters. De meeste zoekmachines gebruiken dan ook enkel het bericht zelf om de mate van relevantie te bepalen. In dit onderzoek is dit alleen maar het eerste niveau. Door naar vroegere testresultaten te kijken is geconcludeerd dat vrijwel elk bericht dat door het eerste niveau heen komt, een bron van verborgen informatie bevat. Deze zogenoemde bron komt in de vorm van een website, waarvan de link opgenomen is in het Twitter bericht. Door deze bron mee te wegen in het zoeksysteem kunnen er betere resultaten gepresenteerd worden aan de gebruiker.

De informatie achter de verschillende Social Media heeft dus een aantal verschillen met overige data die te vinden is op internet met betrekking tot structuur en samenhang. Dit zorgt ervoor dat er met datamining van Social Media rekening gehouden moet worden met andere factoren en dat andere methodes van zoeken beter zullen werken. Social Media is nog vrij nieuw en daarvoor is er veel aandacht

(15)

pagina 15 voor het vinden van de juiste filters. Er is tot sinds de opkomst immers erg veel Social Media data gecreëerd, veel meer in verhouding tot alle overige data op het internet.

Daarom is de bron van informatie veel groter in potentie en dus ook vele malen waardevoller. Niet alleen komt dit door het volume, maar ook doordat deze informatie inzicht biedt in de vraag van de consument. Social Media reflecteert immers de behoeftes en irritaties van de mensen. In dit hoofdstuk wordt dan ook gekeken naar de structuur en de onderliggende samenhang van informatie achter Social Media.

3.2. Zoekmachines

Op dit moment domineren een aantal bedrijven de structurering en de presentatie van de beschikbare informatie op het internet. Initiatieven als Google Search, Microsoft Bing en Yahoo Search bieden allen vergelijkbare functionaliteiten, namelijk het presenteren van relevante informatie aan de hand van zoektermen. Dankzij slimme (en vaak geheime) methodes zijn zulke systemen in staat om binnen enkele milliseconden een zoekopdracht uit te voeren en relatief goede resultaten te presenteren. Het perspectief van goede resultaten is onderhevig aan discussie, echter zijn bovengenoemde drie zoekmachines het meest gebruikt en daarvan kan afgeleid worden dat deze de betere resultaten weten te presenteren. Hoe dit systeem feitelijk te werk gaat is het doorlopen van zoveel mogelijk websites, het zogenoemde crawlen (The Anatomy of a Large-Scale Hypertextual Web Search Engine, Sergey Brin and Lawrence Page, Stanford University), waarbij een analyse gemaakt wordt per website waarna deze wordt opgenomen in een database. Dit wordt een index genoemd en wordt dan ook automatisch periodiek bijgewerkt. Dit is geen waterdicht systeem en zal op een willekeurig moment nooit een volledig beeld van het internet bevatten, maar het is wel bruikbaar.

Echter, een goed bijgewerkte index database staat nog niet garant voor accurate zoekresultaten. Een belangrijk onderdeel van het geheim van elke zoekmachine is dan ook de manier waarop een zoekterm wordt geanalyseerd en vervolgens vergeleken met de inhoud van de index database. Het zoeken met een algemene zoekterm bijvoorbeeld auto geeft een onbruikbaar grote hoeveelheid resultaten terug. Nu is het enerzijds aan de gebruiker om deze zoekterm zoveel mogelijk te specificeren, afhankelijk van de te vinden informatie op datum, plaats of aanvullende zoektermen.

Anderzijds is het aan de vergelijking van de zoekmachine, ook wel algoritme genoemd, om te bepalen welke resultaten relevanter zijn dan anderen. Dit wordt ook wel de Pagerank (The Anatomy of a Large-Scale Hypertextual Web Search Engine, Sergey Brin and Lawrence Page, Stanford University) van een bepaald webadres genoemd.

Deze Pagerank wordt bepaald door een aantal factoren, zoals de overige inhoud naast het woord auto van de betreffende website. Een meer gecompliceerde berekening is het tellen van doorverwijzingen van andere websites naar de desbetreffende website.

Door de combinatie van een efficiënte crawler, een nauwkeurige index en een slim algoritme kan bijvoorbeeld Google Search vandaag de dag functioneren als ideale zoekmachine. Deze stelt de gebruiker van elk niveau in staat om informatie te vinden op het internet.

In eerste oogopslag lijkt het zoeken binnen Social Media hetzelfde te gaan als zoeken door het internet met bijvoorbeeld Google. Het is mogelijk om via verschillende interfaces een zoekopdracht op te geven. De gegeven interface stuurt een tool aan die

(16)

pagina 16 vervolgens de rest doet. In hoofdstuk 2 is ingegaan op een aantal methodes om het gebruikers makkelijker te maken een zoekprofiel op te stellen. Dit is een goede voorbereidende methode voor het opstellen van zoekprofielen, echter is het ook mogelijk om een verbeterende methode toe te passen. In deze case is er een tool gemaakt om het succes van een zoekprofiel te bepalen. Dit proces beslaat vooral het bijhouden van een geschiedenis van de gebruikersacties. Google leert ons dat zoeken op een intelligentere manier bestaat uit het inzetten van deze geschiedenis in het voordeel van de gebruiker. Daarom worden er tijdens de test statistieken verzamelt over de kwantitatieve resultaten van de unieke zoekprofielen.

3.3. Local indexing

Een methode die tegenwoordig al op verschillende manieren wordt ingezet is het bijhouden van een geschiedenis van de handelingen van de gebruiker. In dit onderzoek kan dit ook gebruikt worden om inzicht te krijgen in effectieve zoekopdrachten. Het principe is om de verschillende versies van zoekopdrachten op te slaan en tegenover de kwantitatieve resultaten te zetten. Concreet betekent dit dat elk bericht wordt opgeslagen met het bijbehorende zoekprofiel waarmee het bericht gevonden is. Zo kan er op een simpele manier een overzicht gecreëerd worden door de resultaten te groeperen op het bijbehorende zoekprofiel. Op deze manier wordt er ook effectief onderscheid gemaakt tussen de verschillende versies van de zoekprofielen.

3.4. Relevantie binnen context

Twitter biedt net zoals alle vormen van Social Media een behoorlijk brede context waarin de berichten geplaatst worden. Deze context bestaat uit de informatie die gekoppeld is aan het bericht, van afzender tot volgelingen. Niet elk aspect van de context is even relevant, daarom moet bepaald worden welke factoren mee kunnen wegen in de uiteindelijke relevantiewaarde. Daarnaast is niet elke factor praktisch te implementeren vanwege technische of juridische beperkingen. Een voorwaarde voor het gebruik van de applicatie binnen deze case is dat hier geen Twitter account voor nodig moet zijn. Sommige API's of API-requests vereisen namelijk dat de zender ingelogd is. Hieronder wordt ingegaan op een aantal van deze omgevingsfactoren om zo een beter beeld te krijgen van de relevantie van een bericht.

Een factor die een grote toegevoegde waarde kan betekenen voor de uiteindelijke relevantie is het aantal keer dat dit bericht voorkomt binnen het Twitter netwerk, de zogenoemde Retweets. Het aantal Retweets van een bericht is te achterhalen door het aanspreken van de API van Tweetmeme.com. Wanneer de unieke identificatie van het bericht gefilterd kan worden, kan middels een simpele API- request het aantal herhalingen achterhaald worden. Deze factoren worden in de applicatie meegenomen als wegingsfactor. Er wordt uitgegaan van een maximaal aantal Retweets van honderd. Elke getal als resultaat boven de honderd, wordt naar beneden afgesteld. De factor zal een maximale weging hebben van 1.2, maar niet lager dan 1, dus het zal altijd een verhoging zijn van de oorspronkelijke waarde. Een standaard bericht krijgt een waarde van 1. Dus wanneer er een bericht met één Retweet vergeleken wordt met een account zonder Retweets, zal de relevantieweging 1.01 > 1 bepaald worden.

(17)

pagina 17 De berekening is als volgt: z = x * (y / 500) waar;

Y het aantal Retweets is (niet groter is dan 100),

X de oorspronkelijke relevantiewaarde van het bericht is, en Z de nieuwe relevantiewaarde zal worden.

Naast het tellen van Retweets kan er een waarde gehecht worden aan een bericht door te kijken naar de auteur van het bericht. Door deze te analyseren op basis van populariteit, oftewel het aantal mensen die ingeschreven staan voor het ontvangen van Tweets (Followers), kan er wederom een waarde toegekend worden. Een auteur met meer Followers weet immers meer mensen te interesseren dan iemand met minder Followers. Er kan dus aangenomen worden dat deze informatie meer impact heeft. Bij het maximale aantal volgelingen wordt uitgegaan van duizend. Het doel is om de relevantiewaarde met maximaal een waarde van 1.2 te verhogen wanneer er een maximaal aantal volgelingen is geconstateerd. Geen volgelingen betekent dat de relevantiewaarde onaangepast blijft.

De berekening die plaatsvindt, is als volgt: Z = X * (Y / 5000) waar;

Y het aantal volgelingen is (niet groter is dan 1000), X de oorspronkelijke relevantiewaarde van het bericht is, en Z de nieuwe relevantiewaarde zal worden.

3.5. Document Matching

De techniek die hier besproken zal worden berust op het idee om de context van de Tweet zo breed mogelijk in te zetten. De grote meerderheid van de gevonden Twitter berichten bevatten namelijk een link naar een externe bijlage. Dit is meestal in de vorm van een website. Eerder is voorgesteld dat het opstellen van zoekprofielen een belangrijke basis is voor het vinden van informatie. Door dit zoekprofiel niet alleen toe te passen op de Tweet zelf, maar ook op de externe bijlage is er een veel grotere context beschikbaar om de relevantie te bepalen. De bijlage van de berichten bevatten een bron aan informatie. Maar deze informatie komt elke keer in een willekeurige formatie, elke website maakt gebruik van een eigen structuur dankzij het ontbreken van webstandaarden. Een aantal technieken kunnen toegepast worden om alle relevante informatie van de website te filteren.

1) Eerst wordt de volledige inhoud van de website gekopieerd door middel van cURL - een tool bedoeld voor data overdracht.

2) Het één op één kopiëren van deze website is niet alleen onpraktisch maar juridisch ook niet toegestaan. Vandaar dat de volgende stap inhoudt het filteren van alle afbeeldingen, scripts en HTML tags. Op deze manier blijft alleen de tekst over.

3) De volgende stap is het ordenen van de informatie door een lijst te maken van alle woorden, zodat deze de zelfde structuur heeft als de zoekopdracht.

4) Het is belangrijk om vervolgens de woordenlijst te vergelijken met de Nederlandse lijst van stamwoorden. Dit heeft als gevolg dat bijvoorbeeld werkwoorden worden teruggebracht naar de stam-vorm. Het doel hiervan is om het aantal variaties van elk woord terug te dringen. Het stemmen van de woordenlijst valt binnen deze case buiten de scope.

(18)

pagina 18 5) De volgende stap die gezet wordt is het wegstrepen van de meeste woorden aan

de hand van een stop-woordenlijst. Woorden zoals voorzetsels worden weggelaten waardoor er uiteindelijk een lijst van woorden overblijven die grotendeels de inhoud beschrijven.

6) Uiteindelijk blijft er een lijst met woorden over, waar verschillende technieken op losgelaten kunnen worden

In het volgende hoofdstuk wordt er verder gebouwd op de basis zoals hierboven is beschreven. Het belangrijkste idee is hier dat er een brede context gecreëerd wordt om de zoekopdracht mee te vergelijken. Er wordt als het ware een index aangemaakt voor alle berichten die met het zoekprofiel waren gevonden. Een simpele implementatie zou kunnen zijn het toepassen van het zoekprofiel op de woordenlijst en de overeenkomende woorden te tellen. Hoe vaker dit woord voorkomt of hoe meer overeenkomsten er zijn, hoe relevanter het bericht is. Deze stelling is echter niet waterdicht want er wordt alleen gekeken naar de overeenkomsten en niet naar de verschillen. Daarnaast kan een gebruiker dit systeem makkelijk beinvloeden door expres veel dezelfde woorden te laten voorkomen om zo hoger in de positionering te eindigen. Dit is een probleem wat alle grote zoekmachines omzeilen door een extra aantal stappen te nemen voor de resultaten definitief te bepalen.

3.6. Relevantie bepaling aan de hand van The Vector Space Model

Deze methode (Simple Search:The vector space Model, Ian Barber, 17 september, 2009) bouwt verder op de genoemde Document Matching methode. De methode zoals eerder beschreven in 3.4 Document Matching bekijkt simpelweg hoeveel termen van het oorspronkelijke zoekprofiel ook voorkomen in het bijgevoegde document. Veel technieken die zoekmachines gebruiken blijven tot op de dag van vandaag geheim omdat dit behoort tot de succesformule van de bedrijven achter deze zoekmachines. Echter bestaat er wel een bekende en erkende methode die toegevoegde waarde kan leveren aan Document Matching. Het berust op het principe om niet alleen te kijken of een bepaalde term voorkomt en hoe vaak, maar ook door deze in de context van de documenten te zetten. Daarmee wil een term die vaak voorkomt binnen een document niet per definitie zeggen dat dit document dus ook sterker gerelateerd is aan het zoekprofiel. Er wordt er juist gekeken naar de zeldzaamheid van de termen binnen een bereik van een aantal documenten. Op die manier is de context veel breder en kunnen er geavanceerdere berekeningen, oftewel algoritmes op losgelaten worden. Het algoritme wat getest wordt in dit onderzoek is het Vector Space Model. Dit model is erg zwaar voor de server waar het op draait, dus zijn er beperkingen ingevoerd. Het model schaalt mee met de context, dus dit betekent dat hoe meer documenten gebruikt worden om vergelijkingen mee uit te voeren, hoe consistenter de resultaten zullen zijn. Vanwege de beperkte middelen zullen er nooit meer dan tien documenten naast elkaar gezet worden. Dit model combineert twee waarderingen om tot een relevantiewaarde te komen. De stappen die genomen worden zijn als volgt:

1) Creëer een woordenlijst als context zoals beschreven in 3.4 Document Matching.

In de ideale situatie bestaat deze lijst uit woorden die de inhoud zo compleet

(19)

pagina 19 mogelijk beschrijven. Er zou gezegd kunnen worden dat het document daarmee gecategoriseerd wordt. Hoe meer documenten er meegenomen kunnen worden in deze categorisatie, hoe scherper de uitkomsten.

a) Vervolgens wordt er gekeken naar de Term Frequency (TF), de mate waarin woorden uit de zoekopdracht voorkomen in een document. Dit kan per document gedaan worden, omdat er geen extra context voor nodig is. Kortom het simpel optellen van de overeenkomsten.

b) Dan volgt er een berekening die resulteert in de Inverse Document Frequency (IDF). Deze wordt berekend door alle documenten te tellen en het getal te delen door het aantal documenten welke een bepaalde term bevatten. De waarde die uit die berekening komt beschrijft de zeldzaamheid van de term binnen de relevante documenten. Hier wordt vervolgens de log waarde van genomen, om zo te voorkomen dat een term die twee keer zo vaak voorkomt ook twee keer zo vaak zal wegen.

2) Door de uitkomsten van 1a. en 1b. samen te voegen ontstaat er de TF-IDF waardering.

3) Deze TD-IDF waardering is nog niet representatief genoeg voor een documentwaardering. Er moet eerst nog een ongelijkheid rechtgetrokken worden, documenten hebben namelijk verschillende lengtes. Dit wordt gedaan door de score van een document te delen door het totaal aantal woorden welke document bevat. Hieruit rolt een waarde tussen de 1 en de 2, waarbij 2 de perfecte match is. Deze stap wordt ook wel de normalisatie genoemd.

De waarde als resultaat van bovengenoemde stappen wordt toegekend aan de Tweet die gevonden is met het zoekprofiel. Deze eerder genoemde stappen zijn enkel een samenvatting van de precieze berekening gebaseerd op (Simple Search:The vector space Model, Ian Barber, 17 september, 2009). Dit is een vrij eenvoudige implementatie van het Vector Space Model, maar geeft een vrij helder beeld van het principe. Geavanceerde zoekmachines implementeren een uitgebreider mechanisme om elke term en elk document te wegen. Ook is het niet zeldzaam dat er verschillende extra stappen worden genomen. Bovengenoemde beschrijving valt echter binnen de scope van dit onderzoek en wordt meegenomen in de totale weging van elk zoekresultaat.

Het Vector Space Model ontleent zijn naam aan het principe dat TF-IDF waarden als een Vector in een grafiek (space) kunnen worden uitgezet. Deze waarden kunnen vervolgens vergeleken worden met de zoekopdracht, welke altijd een perfecte match is. Door de afstand van de zoekopdracht met de verschillende Vectors te berekenen, ontstaat er een relevantiewaarde. Dit is alleen mogelijk door de lengte van elk document te aanschouwen als een gelijke van elkaar door deze te normaliseren.

(20)

pagina 20

3.7. Conclusies

1. Datamining Social Media

Zoeken door informatie binnen Social Media is anders dan het doorzoeken van overige informatie op internet met betrekking tot de structuur en samenhang van de informatie. Dit zorgt ervoor dat er met datamining van Social Media rekening gehouden moet worden met andere factoren en dat andere methodes van zoeken beter zullen werken.

2. Zoekmachines

Door de combinatie van een efficiënte Crawler, een nauwkeurige Index en een slim Algoritme kan effectief zoeken mogelijk gemaakt worden.

3. Local Indexing

Door van te voren na te denken over de structuur van de data, kan later eenvoudig een overzicht opgevraagd worden. Dan kunnen de resultaten van de verschillende versies van zoekopdrachten makkelijk met elkaar vergeleken worden.

4. Relevantie binnen context

Door te kijken naar de context waarin bepaalde informatie zich bevindt, kan beter bepaald worden hoe relevant deze informatie is. Hoe meer factoren in acht worden genomen, hoe nauwkeuriger de resultaten.

5. Document Matching

Een van de voordelen van de Twitter berichten is dat de context eenvoudig uitgebreid kan worden door de link, die meegestuurd wordt in het bericht, mee te laten wegen. Door de bijgevoegde informatie te filteren op beschrijvende woorden ontstaat er een lijst die vergeleken kan worden met het zoekprofiel om overeenkomsten te ontdekken.

6. Relevantie bepaling aan de hand van The Vector Space Model

Nadat er een woordenlijst is gemaakt kunnen er verschillende methodes toegepast worden om de relevantiewaarde te berekenen. Bij Document Matching worden er alleen overeenkomsten geteld, waardoor meer overeenkomsten een hogere waarde betekenen. Bij het Vector Space Model wordt er juist gekeken naar de zeldzaamheid van termen binnen de documenten om op die manier juist de zeldzaamheid te belonen met een hogere waarde. Ook worden de niet overeenkomstige woorden meegenomen in de context waardoor er een realistischere inschatting gegeven kan worden.

7. Samengevat

In dit onderzoek zijn verschillende technieken besproken om de relevantie te bepalen aan de hand van een bepaalde context. Door zoveel mogelijk factoren mee te laten wegen wordt de relevantie nauwkeuriger. Het Vector Space Model beschrijft op een inspirerende manier hoe informatie tegenover een veel grotere context gezet kan worden. Dit is de basis voor alle zoekmachines die de markt tegenwoordig domineren.

(21)

pagina 21

4. Hoe kan er ingespeeld worden op het aanbod van verschillende bronnen van informatie?

4.1. Centraliseren

Dit onderzoek wordt ondersteund door een test-case waarbij Twitter als uitgangspunt wordt genomen. Twitter wordt daarmee ingezet als een bron van informatie voor zowel kwantitatieve als kwalitatieve resultaten. In de bijlage Kwantitatief onderscheidend vermogen wordt Twitter vergeleken met andere vormen van Social Media. Daar is duidelijk geworden dat Twitter maar één van de meest gebruikte Social Media Tools is. Echter dient dit zelfde hoofdstuk als bewijs dat er aangenomen kan worden dat Twitter niet de enige rijke bron van informatie is. Er is dan ook potentie voor betere resultaten wanneer er meerdere bronnen ingezet kunnen worden. Informatie analyse specialisten ondersteunen immers de aanname dat de resultaten nauwkeuriger worden naar mate er meer bronmateriaal beschikbaar is. Dit betekent in ieder geval betere kwantitatieve resultaten. Deze test-case gebruikt Twitter als bron van informatie, maar maakt een logische scheiding tussen informatieontsluiting en informatieverwerking. Vanwege de goed ervaringen met een modulaire aanpak is er gekozen om dit principe hier ook toe te passen. Dit met het oog op toekomstige uitbreiding van zowel bronnen als functionaliteiten.

4.2. Op basis van modules

Drupal is een Content Management Systeem (CMS) (Drupal Open Source Content Management System, http://www.drupal.com/) welke bekend staat om de modulaire opzet. Op het moment van schrijven bestaan er meer dan negen duizend modules zoals te zien is op figuur 1, die gebruikt kunnen worden om de

basis installatie van Drupal uit te breiden. Er is gekozen voor het scheiden van verschillende functionaliteiten en daarnaast om zoveel mogelijk gebruik te maken van al bestaande modules. Hieronder zal een korte beschrijving volgen welke de functionaliteiten neerlegt bij bestaande modules en in welke zin

daar verder op gebouwd kan worden met het oog op de toekomst.

Één van de modules die ingezet wordt is de Taxonomy module, welke de mogelijkheid biedt om een woordenlijst op te stellen. Dit biedt feitelijk de nodige functionaliteit en de interface voor het opstellen van een zoekprofiel. Via deze interface stellen wij gebruikers in staat om zoekprofielen op te stellen en aan te passen. Dit kan gedaan worden door het toevoegen van termen, waarbij er door een aantal tekens toe te voegen onderscheid gemaakt kan worden tussen de categorieën. Dit is toegelicht in figuur 2.

Figuur 1: Drupal statistieken per 13 mei 2011

(22)

pagina 22 Categorie Betekenis

woord Moet minimaal één van deze woorden bevatten

#woord Moet minimaal één van deze tags bevatten -woord Mag dit woord niet bevatten +woord Moet dit woord bevatten +#woord Moet deze tag bevatten

-#woord

Mag deze tag niet bevatten

Figuur 2: Richtlijnen voor het opstellen van zoekprofielen.

De presentatie van de gegevens wordt ondersteund door de Views module figuur 3. Deze module stelt ons in staat om gegevens die opgeslagen zijn in de database op te vragen en te presenteren op vrijwel elke gewenste manier. Deze module biedt standaard niet de koppeling naar de juiste database tabel, maar door de uitbreidingsmogelijkheden van Drupal

eenvoudig te realiseren.

De Views module is in staat om de volledige functionaliteiten toe te passen op de opgehaalde gegevens, op basis van

eerder genoemde

koppeling.

Functionaliteiten houden in maar zijn niet beperkt tot het plaatsen van resultaten in een tabel, het sorteerbaar maken van deze tabel, het filteren van resultaten, het verdelen van de resultaten over verschillende pagina's en

4.3. Uitbreiden met modules

Binnen de Drupal community wordt er

gesproken over

contributions, wanneer gebruikers zelf modules aanleveren die functionaliteiten bieden binnen het Drupal CMS. Voor dit onderzoek zijn er vier modules gebouwd. Deze modules passen in het Drupal CMS doordat zij conform de structuur van Drupal zijn opgebouwd. Enerzijds is er een platform ontwikkeld waarbij er woordenlijsten

Figuur 3: De Views module voor Drupal

(23)

pagina 23 opgesteld kunnen worden. Deze woordenlijsten worden met behulp van de Taxonomy module opgesteld en kunnen door het platform aangeroepen worden. Het platform transformeert deze woordenlijsten naar zoekprofielen zoals afgebeeld in figuur 4. Het platform biedt mogelijkheden om Sub-Modules te installeren. Sub-Modules in deze context zijn in feite modules die afhankelijk zijn van het platform. Een Sub-Modules heeft als taak om een specifieke bron aan te spreken. In deze test-case spreekt de Sub-Module de Twitter zoekmachine aan. De Sub-Module interpreteert zoekprofielen en zet deze om naar een voor de bron begrijpbaar zoekcommando. Vervolgens levert de Sub-Module de resultaten op en geeft deze door aan het platform. Het platform verzamelt op deze manier alle resultaten en slaat deze op in de database. Het platform biedt een aantal mogelijkheden welke voor de gebruiker aan te passen zijn via een interface. Sub-Modules bevatten geen interface want deze worden gestuurd door het platform. Er is bij de opbouw van het platform rekening gehouden met de verschillen tussen API's. Gevolg hiervan is wel dat de Sub-Modules conform de structuur van het platform moeten werken. Voor ontwikkelaars die hiermee verder gaan is er rekening gehouden met het scheiden van functionaliteiten binnen de modules en zijn ze voorzien van commentaar.

Naast de Sub-Modules zijn er ook plugins gebruikt in het onderzoek in de vorm van Features. Twee modules zijn uitgerust met elke twee Features. Enerzijds is als resultaat van hoofdstuk twee een tweetal Features ondergebracht in de module Search Archive Insights. Anderzijds heeft hoofdstuk drie bijgedragen aan twee Features die terugkomen in de Feature-Module Search Archive Relevancy. Deze modules zijn bedoeld om de resultaten van dit onderzoek extra te ondersteunen. Ze moeten uitgebreid geoptimaliseerd en getest worden voordat ze gebruikt kunnen worden in productie-omgevingen.

4.4. Conclusies

1. Centraliseren

Het platform dient als basis voor de verwerking en presentatie van gegevens.

Tevens biedt het de mogelijkheid om zoekprofielen op te stellen en op te slaan.

Periodiek uitvoeren van deze zoekprofielen behoort ook tot de mogelijkheden.

Echter is de module Search & Archive als losstaande module niet functionerend.

Sub-Modules moeten gekoppeld worden aan het platform, waardoor deze zullen Figuur 4: Een voorbeeld woordenlijst van de

Taxonomy Drupal module

(24)

pagina 24 functioneren als een overbrugging tussen het platform en de bron, bijvoorbeeld Twitter.

2. Op basis van modules

Door gebruik te maken van een populair CMS kan er ingehaakt worden op al bestaande functionaliteiten binnen dit CMS. Een aantal modules moet dan ook geïnstalleerd worden voordat er gebruik gemaakt kan worden van de functionaliteiten zoals beschreven in dit onderzoek. Dit heeft er dan ook voor gezorgd dat bestaande functionaliteiten ingezet konden worden zonder dat hier ontwikkeltijd aan verloren is gegaan.

3. Uitbreiden met modules

Er is rekening gehouden tijdens de opzet met toekomstige uitbreiding van Sub- Modules en Feature-Modules. Deze modules moeten zich houden aan dezelfde datastructuur om compatible te zijn.

4. Samenvatting

Voor deze testcase zijn er een aantal modules ontwikkeld. Het werken met modules heeft een aantal duidelijke voordelen, maar het voornaamste voordeel is nog wel dat deze in de toekomst gedeeld kunnen worden met de Drupal community. Dit zou ervoor kunnen zorgen dat ook andere ontwikkelaars mee gaan denken en zo bij kunnen dragen aan het verbeteren van Search & Archive.

(25)

pagina 25

5. Conclusies en antwoord op de hoofdvraag

In dit hoofdstuk wordt het onderzoek afgesloten door antwoord te geven op de hoofdvraag en deze aan te vullen met mijn aanbevelingen. Hieronder de hoofdvraag zoals gesteld tijdens de aanvang van dit onderzoek:

Hoofdvraag

Antwoord

Ja, dit is mogelijk.

Aanbevelingen

 Zoals besproken in het eerste hoofdstuk is de hoeveelheid informatie die op een persoon afkomt in deze tijd erg groot. De behoefte voor informatie filtering wordt groter naar mate de hoeveelheid beschikbare informatie toeneemt. Efficiënte filtermethodes kunnen uitkomst bieden. De grote zoekmachines van deze tijd zijn ons voor gegaan in deze stelling.

 Er zijn verschillende technieken beschikbaar voor het ordenen van de resultaten op basis van relevantie. Een combinatie van een aantal technieken die kijken naar een zo groot mogelijke context vormen samen de formule voor het succesvol en tijdig vinden van informatie. Het is niet gegeven welke technieken per definitie beter zijn dan anderen. Sommige technieken zijn geheim en sommige zijn discutabel. Uitgebreid testen en evalueren beschrijven de te nemen weg.

 Vaak is het ontdekken van trends een onderdeel van de zoektocht naar informatie. Trends helpen de gebruiker te sturen met het opzetten van de juiste zoekopdracht.

 Door het volledige proces van het zoeken naar informatie te overzien, worden de verschillende fases duidelijk. Door de inzet van de juiste tool of tools per fase kan de mate van succes positief worden beïnvloed.

 Door gebruik te maken van een populair Content Management Systeem kan veel ontwikkeltijd bespaard worden. Daarnaast is het idee om software gratis te delen met anderen een erg inspirerend principe en kan daarnaast uiteindelijk zorgen voor hogere kwaliteitsnormen.

(26)

pagina 26

6. Referenties

- Sander Duivestein, 8 maart 2011,

http://www.frankwatching.com/archive/2011/03/08/over-information-overload-en- filter-failure-een-nieuw-rapport/

- Clay Shirky, 18 september 2008, http://web2expo.blip.tv/file/1277460/%20 - Nicholas Carr, 7 maart,

http://www.roughtype.com/archives/2011/03/situational_ove.php - Resource Center, http://iorgforum.org/about-iorg/

- 20 oktober, 2010, http://www.informationoverloadday.com/

- Thematthariss, 29 april, 2011, http://dev.twitter.com/doc/get/search - Website met statistieken voor trends, Whatthetrend.com

- Journal of Computer-Mediated Communication, 13(1), Boyd, d. m., & Ellison, N.

B. article 11., 2007) http://jcmc.indiana.edu/vol13/issue1/boyd.ellison.html

- How Marketers Are Using Social Media to Grow Their Businesses, Michael Stelzner,april 2010

- Centre for Sensor Web Technologies School of Computer Science and Informatics University College Dublin Ireland, Owen Phelan, Kevin McCarthy &

Barry Smyth CLARITY

- Website met URL verkortingsservice, http://tinyurl.com/

- The Anatomy of a Large-Scale Hypertextual Web Search Engine, Sergey Brin and Lawrence Page, Stanford University

- (Simple Search:The vector space Model, Ian Barber, 17 september, 2009 - Drupal Open Source Content Management System, http://www.drupal.com/

- http://nl.wikipedia.org/wiki/Social_media

(27)

pagina 27

7. Bijlagen

Wat is Twitter en waarom is juist Twitter geschikt als informatiebron?

Met de opkomst van Social media is het internet onherroepelijk veranderd en tegenwoordig zelfs onlosmakend verbonden. Vrijwel alle internetgebruikers worden eerder vroeger dan later geconfronteerd met Social Media. Voor diegene die toch behoren tot de uitzondering op de regel, zal hieronder een korte introductie volgen.

Daaruit zal blijken dat Twitter ook behoort tot een vorm van Social Media en dat de fundamentele verschillen tussen Twitter en andere vormen van Social Media niet voor iedereen even helder zijn. Wat maakt Twitter zo onderscheidend en hoe kunnen deze eigenschappen een rol spelen in een business case?

Een definitie

Dat Social Media een vloedgolf aan veranderingen teweeg heeft gebracht in de online wereld ( samenleving) moge duidelijk zijn. Om te begrijpen waarom Social Media de kracht heeft om veranderingen van dergelijke proporties te realiseren, is een heldere definitie belangrijk. Daarom volgt hier de definitie, zoals beschreven op

Wikipedia: “Social media of sociale media is een verzamelbegrip voor online platformen waar de gebruikers, met geen of weinig tussenkomst van een

professionele redactie, de inhoud verzorgen. Tevens is er sprake van interactie en dialoog tussen de gebruikers onderling.” (http://nl.wikipedia.org/wiki/Social_media).

Hieruit blijkt dat Social Media zich uit op verschillende manieren en het is daarom niet altijd direct duidelijk of een bepaald platform of bepaalde site als Social Media

bestempeld mag worden. Echter bij de volledige implementatie van Social Media kan gesproken worden van een Social Networking Site (SNS) (Journal of Computer- Mediated Communication, 13(1), Boyd, d. m., & Ellison, N. B. article 11., 2007) http://jcmc.indiana.edu/vol13/issue1/boyd.ellison.html). Belangrijk is daarom eerst de grenzen op te zoeken van deze Social Networking Sites, of te bepalen aan welke criteria zo’n platform moet voldoen wil het tot de categorie Social Networking Sites behoren.

In dit onderzoek wordt uitgegaan van Social Networking Sites, dit model/ type moet voldoen aan de voorwaarden die hieronder staan beschreven wanneer voldaan is aan de voorwaarden zoals hieronder beschreven. Deze platformen bieden omvatten de volgende basis functionaliteiten tenminste onderstaande functionaliteiten aan, aan het grote publiek:

1. De bezoeker van de Social Networking Site moet in staat zijn om een persoonlijk profiel op te stellen binnen de scope van de site dat in ieder geval voor een deel publiekelijk toegankelijk is.

2. De gebruiker moet in staat kunnen zijn een vorm van contactenlijst op te bouwen op basis van andere profielen (van gebruikers).

3. Als er dan uiteindelijk sprake is van een web van contactlijsten, waarbij gebruikers ook inzage hebben in (delen van) contactenlijsten van andere personen, spreekt men van een Social Networking Site.

(28)

pagina 28 Zelfs met het in acht nemen van de bovenstaande criteria is het niet altijd direct helder of er sprake is van een Social Networking Site. Het is immers aan de beheerders van de site zelf om te bepalen hoe de implementatie van de verschillende functionaliteiten het beste tot zijn recht komen. In tijden van felle veranderingen kent innovatie veel vele rare uitspattingen, dus variaties die op de grens liggen komen veelvuldig voor.

Social Networking Sites zijn dan ook ontstaan vanuit een basisbehoefte naar het beheren, uitbreiden en controleren van het sociale netwerk. Iedereen heeft immers een sociaal netwerk, of dit nu bestaat uit kennissen, zakelijke contacten of vaak een combinatie van beiden, mensen zijn altijd van elkaar afhankelijk en van nature sociale wezens. Deze Social Media Sites verlengen als het ware de natuurlijke behoefte van de mens van sociale interactie.

De opkomst

Uit onderzoek is gebleken (Journal of Computer-Mediated Communication, 13(1), Boyd, d. m., & Ellison, N. B. article 11., 2007)

http://jcmc.indiana.edu/vol13/issue1/boyd.ellison.html) dat een van de eerste grote Social Networking Sites die opkwam, in 1997, Six Degrees.com genoemd is. Dat wil zeggen, de eerste uit in soort die voldoet aan alle drie de criteria, zoals eerder genoemd . Er waren destijds al wel verschillende partijen die delen van de functionaliteiten toegevoegd hadden aan hun product, met name AIM of ICQ. In tegenstelling tot veel van de grotere platformen van vandaag, was de levensduur van Six Degrees.com niet lang, de sluiting van deze website en haar services vond plaats in 2000. Er werd gezegd dat er op dat moment gewoonweg geen belangstelling genoeg was, omdat het concept zijn tijd ver vooruit was.

Kwantitatief onderscheidend vermogen

Om inzicht te krijgen in hoeverre Twitter zich kan differentiëren en op welke manier dit zich manifesteert, volgen hieronder de resultaten van het onderzoek van Social Media Examiner (How Marketers Are Using Social Media to Grow Their Businesses, Michael Stelzner,april 2010) en worden de belangrijkste conclusies besproken. Het doel is dan ook om de mate van gebruik van Social Media te bepalen, wat gepresenteerd is in figuur 1.A en 2.A en dan met name de vergelijking van Twitter met andere Social Media Tools, zie Figuur 3.A. Daarnaast is het belangrijk om te weten welke voordelen het gebruik van met zich mee brengen, zie figuur 4.A.