Modellen voor de verbinding van folksonomie en ontologie

Hoewel het toekomstbeeld van Morville (2005), waarin folksonomieën bestaan uit de constante en veranderlijke invoer van gebruikers die daarmee de duurzamere ontologieën voeden, zeer tot de verbeelding spreekt, is er nog geen eenduidig model waarmee dit bereikt kan worden. Dit heeft alles te maken de complexiteit van de doelstelling. In de praktijk kunnen folksonomie en ontologie op verschillende manieren met elkaar verbonden worden, waarbij iedere methode bepaalde sterktes en zwaktes heeft. Deze hebben vooral te maken met de verhouding tussen folksonomie en ontologie: wordt veel macht gegeven aan de gebruiker die via de folksonomie de ontologie beheert, of worden bestaande ontologieën gebruikt om betekenis te koppelen aan een folksonomie? In dit hoofdstuk zal ik de

verschillende modellen, alsmede hun sterktes en zwaktes, in kaart brengen.

Het is vooraf belangrijk om in ogenschouw te nemen dat de discussie rond de verbinding tussen folksonomie en ontologie niet alleen gefixeerd is op de totstandkoming van betekenis. Kim et al. (2008b) noemen drie manieren waarop het Semantic Web kan bijdragen aan folksonomieën:

- Verfijning van kennisrepresentatie (via entiteiten en relaties) - Kennisuitwisseling (via RDF als standaardformaat)

- Mogelijkheid tot verwerking door machines (vooral handig voor grote hoeveelheden gegevens)

De verbinding is kortom niet alleen gericht op de ontwikkeling van semantiek (het eerste punt) maar ook op uitwisseling en verwerking van gegevens. Deze laatste twee punten kunnen bereikt worden door de bezigheid van het taggen in een vocabulaire te vatten, zoals SIOC gebruikt wordt voor sociale netwerken. Hoewel een dergelijke vocabulaire niet direct gericht is op betekenis, is het hier toch van belang. Ten eerste kunnen ze gebruikt worden om een tag daadwerkelijk aan betekenis te koppelen (nog losstaand van hoe die betekenis tot stand komt). Ten tweede kan de conceptualisatie van de actie van het taggen via een vocabulaire daadwerkelijk bijdragen aan betekenis. Om die reden wordt in dit hoofdstuk ook aandacht besteed aan dergelijke vocabulaires, ofwel het modelleren van folksonomieën in ontologieën.

4.1 Het modelleren van folksonomieën in ontologieën

Het semantisch representeren van folksonomieën is met name gericht op kennisuitwisseling en verwerking door machines. Het concept is simpel: wanneer folksonomieën uit

verschillende domeinen op een universele manier geconceptualiseerd worden kunnen ze aan elkaar verbonden worden en kan een machine over het geheel redeneren. De

grondlegger van dit principe is Tom Gruber (2007). Gruber heeft veel aandacht voor het sociale aspect van het taggen. Bij zijn conceptualisatie van de actie van het taggen betrekt hij naast de resource die getagd wordt en de tag zelf namelijk ook de persoon die de tag

aanbrengt. Op deze manier kan niet alleen van resources bekeken worden welke tags er voor gebruikt worden maar kan ook van personen in kaart gebracht worden welk tags ze

gebruiken. Dit maakt verschillende toepassingen mogelijk. Denk bijvoorbeeld aan een verbinding tussen personen die grotendeels dezelfde tags gebruiken en dus hetzelfde over zaken denken. Daarnaast kan het sociale netwerk bij het taggen betrokken worden,

waarmee voorstellen gedaan kunnen worden aan gebruikers voor het gebruik van tags op basis van tags die vrienden voor dezelfde resource gebruikten. De conceptualisatie van de sociale bezigheid van het taggen leidt dus niet direct tot semantische verbanden tussen tags, maar wel tot sociale verbanden. Dit is van nut bij het zoeken en maken van tags.

Naast de resource, tag en persoon houdt Gruber er rekening mee dat het systeem, waarmee hij een website of gemeenschap bedoelt, waarin getagged wordt meespeelt. Een belangrijke notie die hij hier maakt is dat systemen verschillende taggingconventies kunnen hebben, en ook objecten die getagd worden van invloed kunnen zijn op de betekenis van een tag. Dezelfde tags in verschillende systemen kunnen een verschillende betekenis hebben. Met andere woorden: de kijk op de wereld kan verschillen tussen systemen en communities. Daarom betrekt Gruber bij de conceptualisatie een klasse ‘source’, waarmee het systeem benoemd kan worden. Tot slot houdt Gruber rekening met mensen die van kwade wil zijn, de zogeheten ‘negative taggers’, die ervoor zorgen dat bij een zoekopdracht met een bepaalde tag totaal niet overeenkomende resources teruggegeven worden. De oplossing van Gruber is dat mensen spammers kunnen wegstemmen met een negatief oordeel. Dit oordeel wordt vervolgens opgenomen in de conceptualisatie via een ‘+’ of een ‘-‘.

Gruber past de ontologie toe om de actie van het taggen te conceptualiseren, waarin de verbanden tussen de verschillende componenten semantisch in kaart gebracht kunnen worden. In zijn model houdt Gruber rekening met verschillen tussen domeinen. Zijn idee is dat de ontologie in het Semantic Web zeer goed toegepast kan worden om te redeneren over verschillende domeinen waarbij de discrepanties in acht worden genomen en op basis daarvan verbanden tussen tags gevonden kunnen worden. De nadruk ligt voor Gruber dus op uitwisseling en verwerking door machines, waarbij de semantiek de vorm heeft van personen die in een bepaalde community tags verbinden aan resources. Toch is er in zijn model ook sprake van semantische verrijking van de tags zelf. Door tags te beschrijven in RDF wordt het gebruik van URI’s voor tags mogelijk. Tags kunnen zo een eigen identificatie krijgen. Dit principe kan veel problemen verhelpen die aanwezig zijn bij huidige

folksonomieën en veroorzaakt worden door menselijke fouten. Er zijn bijvoorbeeld veel tags die op hetzelfde wijzen en slechts van elkaar verschillen in spelling of naamgebruik, zoals ‘Den Haag’, ‘Denhaag’, ‘DH’ en ‘ ’s Gravenhage’. Mensen weten dat deze tags hetzelfde zijn, maar een computer ziet het verschil niet. Met het Semantic Web kunnen deze tags echter gekoppeld worden aan dezelfde URI, en dus hetzelfde geïdentificeerd worden. Een ander probleem is ambiguïteit. Het is bij een tag ‘jaguar’ niet duidelijk of het hier over het dier of de auto gaat. Wanneer voor beide betekenissen echter een verschillende URI gebruikt wordt kan deze ambiguïteit verholpen worden. URI’s zijn kortom zeer waardevol om tags op een uniforme manier te identificeren. Wel vraagt Gruber zich af of het goed is om voor

verschillende domeinen en gemeenschappen dezelfde URI’s te gebruiken, aangezien de betekenis van een term in de ene gemeenschap kan verschillend van de betekenis van dezelfde term in een andere gemeenschap.

Hoewel Gruber de eerste was die uitvoerig uiteenzette hoe de folksonomie semantisch gecodeerd kan worden heeft hij dit nooit uitgewerkt in een daadwerkelijke ontologie. Wel zijn anderen met zijn ideeën aan de slag gegaan. De meest uitgebreide ontologie is de Social

Semantic Cloud of Tag (SCOT), die door Kim et al. (2008a) beschreven wordt. Hun focus is lichtelijk anders dan die van Gruber. Zij focussen zich op de totstandkoming van een geheel van tags van een enkele persoon of groep personen. Daarbij wijzen zij op de luiheid van mensen om resources te taggen. Mensen die bijvoorbeeld in een bepaald domein een rijke collectie van tags hebben opgebouwd, zullen niet gemotiveerd zijn om hetzelfde binnen een nieuw domein te doen. Daarnaast zou het kunnen dat de gebruiker inconsistent is in het gebruik van tags, en vergeet welke tags hij in een domein heeft gebruikt. Deze problemen kunnen verholpen worden door iemands tags op een universele manier te coderen en zo te kunnen hergebruiken op verschillende plekken. SCOT is lichtelijk gebaseerd op de ideeën van Gruber, maar daar worden verschillende elementen aan toegevoegd. In concrete zin

fungeert SCOT als verbinding tussen verschillende gevestigde vocabulaires op het Semantic Web: FOAF voor personen, SIOC voor sociale resources als posts, gebruikers en netwerken, en Simple Knowledge Organisation System (SKOS) voor de conceptualisatie van tags zelf. SCOT voegt hier klassen als de ‘scot:Tagcloud’ en ‘skot:Tag’ aan toe.

De tagcloud sluit goed aan op de tag-activiteiten van een persoon of gehele groep, datgene waar de folksonomie in essentie over gaat dus. Binnen de tagcloud-klasse worden groepen gebruikers, groepen tags van gebruikers en specifieke websites of fora van

gebruikers gerepresenteerd, met specifieke properties als ‘scot: hasUsergroup’, ‘scot: hasMember’ en ‘scot: composedOf’. Een afgebakende groep gebruikers kan vervolgens gecodeerd worden met SIOC en afzonderlijke gebruikers met FOAF.

De bovengenoemde functies van SCOT zijn leuk en aardig, maar het wordt

interessant als de auteur de semantische functies van SCOT beschrijven. Het blijkt namelijk dat SCOT gebruikt kan worden om statistische informatie over tags bij te houden, wat als middel kan dienen om de collectieve intelligentie van tags te benutten. Dit kan gedaan worden via de klasse ‘scot:Tag’. Met de bijbehorende property ‘scot: frequency’ kan

bijvoorbeeld gerepresenteerd worden hoe vaak een tag voorkomt. Daarnaast is het binnen SCOT mogelijk om de betekenis van een tag te specificeren op basis van haar context, ofwel de tags die vaak in combinatie met de tag gebruikt worden. Hiervoor is er de property ‘scot:cooccurFrequency’. Een tag ‘jaguar’ die vaak in combinatie met ‘jungle’ of ‘lion’

gebruikt wordt zal wijzen op de jaguar als dier. De SCOT vocabulaire maakt het dus makkelijk om informatie uit grote hoeveelheden tags te herleiden. Een andere meerwaarde van SCOT is de mogelijkheid die het biedt om linguïstische relaties tussen tags aan te geven. Via verschillende properties van SCOT kunnen de uiteenlopende linguïstische relaties in kaart gebracht worden, van simpele verschillen als woorden die los van elkaar of aan elkaar geschreven zijn tot meer semantische relaties als woorden die synoniemen van elkaar zijn. SCOT biedt daarmee veel mogelijkheden om woorden die hetzelfde zijn maar lichtelijk van elkaar verschillen aan elkaar vast te knopen en daarbij te specificeren wat de woorden van elkaar onderscheidt.

Op semantisch niveau maakt SCOT het dus makkelijk om de semantiek van woorden te achterhalen op basis van woorden waar ze vaak samen mee gebruikt worden, en

daarnaast om woorden die semantisch gezien hetzelfde zijn dezelfde identificatie te geven. Wat betreft het hergebruik van gegevens denken Kim et. al. aan een model dat aansluit op de oorspronkelijke folksonomie. Iemand kan een zogeheten ‘personal SCOT’ hebben, een persoonlijke folksonomie, dat op meerdere plekken gebruikt kan worden en ook door anderen buiten de persoon zelf. Daarnaast is er een ‘group SCOT’, dat de gecombineerde tags van een community bevat, en waarin dus de verschillende mogelijkheden tot het combineren van tags binnen SCOT toegepast zijn.

SCOT is een zeer uitgebreide ontologie voor het beschrijven van tags en hun relaties. De grootste meerwaarde is de mogelijkheid om de frequentie en context van tags te

coderen en relaties tussen tags te specificeren. Semantisch gezien draagt SCOT vooral bij aan het identificeren van specifieke tags. Semantische relaties, zoals klasse en subklasse of klasse en instantie, spelen daarbij geen rol. SCOT is met oog op semantiek van tags dus aan de veilige kant, maar kan met haar klassen voor tags die samen voorkomen en frequenties van tags wel gebruikt worden voor statistische onderzoeken naar de relatie tussen tags. Kim et. al. geven niet aan hoe SCOT in de praktijk gebruikt gaat worden. Het wordt niet duidelijk of de tags en hun relaties door gebruikers aangegeven worden of achteraf vanaf een

centrale plek. Aan dit laatste aspect wordt wel aandacht besteed door Alexandre Passant en Paul Laublet.

In de lijn van de ideeën van Gruber en de ontologie van Kim et al. hebben Passant en Laublet (2008) een ontologie gemaakt om het taggen op het web te representeren: Meaning Of A Tag (MOAT)⁹. MOAT is zoals de naam al zegt gericht op de betekenis van tags. Binnen MOAT bestaat de actie van het taggen uit vier factoren: de gebruiker, resource, tag en betekenis. Bij deze betekenis wordt veel waarde gehecht aan de gemeenschap die de tag gebruikt. Binnen MOAT wordt betekenis gebaseerd op bestaande URI’s in het Semantic Web. In de praktijk werkt MOAT met een speciale server, de MOAT server, die zorgt voor de koppeling van tags aan betekenis. Mensen kunnen hier gebruik van maken wanneer ze een speciale client installeren. Op basis van deze client krijgt de gebruiker na het koppelen van één of meerdere tags aan een resource (bijvoorbeeld een blog) van de MOAT server een lijst van betekenissen van de tag binnen de gemeenschap voorgeschoteld. Het gaat hier dus niet om alle URI’s in het Semantic Web die bij een tag passen, maar om URI’s die door mensen binnen de gemeenschap zelf gekoppeld zijn aan een tag. Op basis van de lijst kan de gebruiker de betekenis kiezen die hij voor ogen had. Via RDF worden de tag, resource en gebruiker

vervolgens gekoppeld aan de gekozen URI. Maar aangezien de focus ligt op betekenis binnen een gemeenschap hebben mensen ook de kans om nieuwe betekenissen te definiëren, wanneer men geen URI ziet die bij de eigen tag past. In dat geval kan de hele gemeenschap deze nieuwe betekenis hergebruiken. De gebruiker hoeft daarbij niet zelf op zoek naar bruikbare URI’s; dat doet de MOAT server voor hem. Een bijkomend voordeel van MOAT dat de schrijvers benadrukken is dat via de URI’s gebruik gemaakt kan worden van het web van Linked Data. Dit maakt het bijvoorbeeld mogelijk om zoekopdrachten te geven als ‘vindt alle blogs die getagged zijn met Franse Steden’.

MOAT is een interessant model met oog op betekenis, zeker wanneer hier de kritiek van Clay Shirky bij wordt betrokken. Shirky is wars van ontologieën aangezien hierbij door een relatief klein aantal mensen de wereld in een strak omlijnd model gevat wordt. In dat licht is het problematisch om bestaande URI’s van ontologieën te betrekken bij tags in folksonomieën. Passant en Laublet weten hier echter een eigen draai aan te geven door de macht bij de gebruiker en de gemeenschap te leggen. Gebruikers kunnen in hun model zelf beoordelen of een URI met een specifieke betekenis, in de vorm van de instantiëring van klassen en relaties met andere resources, past bij de betekenis die ze voor ogen hadden met een tag. Betekenis wordt zo niet opgelegd aan een grote groep mensen; mensen mogen zelf kiezen. Hier wordt aan de andere kant wel een prijs voor betaald, doordat gebruikers meer moeite moeten doen. In plaats van simpelweg een resource te taggen, moet men voor de toepassing van MOAT een client installeren, bij iedere tag beoordelen welke URI hierbij past

en soms zelfs beoordelen welke URI in het gehele Semantic Web past bij een tag. Voordeel is wel dat MOAT werkt met betekenis van een gemeenschap, waardoor het gebruik sneller zal gaan naarmate de collectie betekenissen in een gemeenschap opgebouwd is. Iemand die een nieuwe URI kiest voor een tag helpt daarmee iedereen in de gemeenschap. De rol van de gemeenschap is ook voordelig met oog op menselijke fouten. Wanneer iemand

bijvoorbeeld een URI selecteert die niet goed overeenkomt met de bedoelde betekenis van een tag, kan dit gecorrigeerd worden vanuit de gemeenschap door een andere URI op te zoeken en hier massaal voor te kiezen. Een mogelijk probleem dat echter niet door de gemeenschap is op te lossen zijn de beschikbare URI’s. Passant en Laublet lijken er vanuit te gaan dat voor iedere tag een URI op het Semantic Web te vinden is, terwijl het Semantic Web juist nog niet zo uitgebreid is. Daarnaast bestaat de kans dat mensen het niet eens zijn met de betekenis van een URI. Kortom, MOAT biedt slimme oplossingen voor een aantal problemen bij het koppelen van folksonomie en ontologie, maar dit gaat ten koste van enkele andere problemen.

Het modelleren van de folksonomy in een ontologie is vooral gunstig met oog op uitwisseling tussen applicaties en personen en binnen gemeenschappen. Daarnaast draagt het bij aan betekenis van tags. Ten eerste door tags te koppelen aan unieke URI’s, waardoor

verschillende termen die op hetzelfde wijzen ook op dezelfde manier geïdentificeerd kunnen worden en dubbelzinnige tags juist onderscheiden kunnen worden. Ten tweede kan een vocabulaire gebruikt worden om statistische informatie bij te houden over (combinaties van) tags en om verbanden tussen tags op het gebied van spelling te beschrijven, zoals dat met SCOT gedaan kan worden. MOAT is tot slot geschikt voor het koppelen van tags aan betekenis zoals dit gezien wordt binnen een gemeenschap. Deze modellen zorgen echter niet direct voor het vinden van daadwerkelijke semantische relaties tussen tags. MOAT laat het aan de gebruiker over om een URI uit een dataset of ontologie te kiezen, die dan al bepaalde relaties met andere resources heeft waar de gebruiker geen invloed meer op kan uitoefenen. SCOT kan met haar tags die gericht zijn op de frequentie van tags die samen voorkomen wel gebruikt worden als middel om relaties te achterhalen. De daadwerkelijke relaties kunnen op een automatische manier achterhaald worden via statistische technieken, die in de volgende paragraaf worden besproken.

4.2: Automatische integratie van folksonomieën en het Semantic Web

Hoewel folksonomieën weinig structuur hebben maakt de relatie tussen gebruiker, tag en resource het mogelijk om verbanden tussen tags te vinden. Tags die samen voor een resource gebruikt worden hebben bijvoorbeeld iets met elkaar te maken, evenals

verschillende tags die aan dezelfde resources gekoppeld zijn. Deze verbanden zeggen echter niets over de aard van de relatie tussen tags. Hier kan het Semantic Web een belangrijke rol bij spelen, zo stellen Specia en Motta (2007). Zij beschrijven een methode om tags in

folksonomieën te clusteren, en op basis daarvan te koppelen aan concepten en klassen van het Semantic Web.

Voor Specia en Motta heeft de combinatie van folksonomie en ontologie als doel om op een gerichte manier zoekopdrachten uit te kunnen voeren, groepen van gerelateerde tags te kunnen visualiseren en bij het taggen van een resource door een gebruiker suggesties te geven voor tags. Om dit te bereiken hebben ze een methode ontwikkeld die bestaat uit drie stappen: opschonen van tags, clusteren van tags, en identificatie van concepten en

relaties. Ze stellen dat vooral die derde stap hun methode bijzonder maakt, aangezien het clusteren van tags al vaak toegepast is in het verleden zonder dat hierbij iets bekend werd over de aard van de relatie van tags. Specia en Motta bereiken dit wel door gebruik te maken van de relaties die reeds gespecificeerd zijn op het Semantic Web.

Het opschonen van tags houdt in dat onbruikbare tags met weinig semantiek, zoals eigennamen (Dirk), fotografische termen bij Flickr (Canon XP 83) en cijfers, worden

verwijderd uit de dataset. Van dergelijke termen bestaan vaak geen concepten in

ontologieën op het Semantic Web. Daarnaast worden tags die slechts verschillen van elkaar in spelling bij elkaar gevoegd en worden geïsoleerde tags en tags die beneden een bepaalde frequentie voorkomen verwijderd. Bij het Clusteren van tags wordt gekeken naar tags die samen voorkomen. Clusters ontstaan wanneer er tags zijn die onderling een bepaald aantal keer voorkomen (dus tag A komt een bepaald aantal keer voor met tag B en tag C, en tag B

In document De toekomst van het Web (pagina 43-70)