• No results found

Clickstreams analyseren met Grammatica Inductie

N/A
N/A
Protected

Academic year: 2022

Share "Clickstreams analyseren met Grammatica Inductie"

Copied!
10
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Clickstreams analyseren met Grammatica Inductie

Mark Kroon

Korte Prinsengracht 50-III Mark.Kroon@student.uva.nl

June 30, 2006

Begeleiding:

M. van Someren & S. Katrenko

(2)

Abstract

In de afgelopen jaren zijn veel websites ontwikkeld tot omvangrijke en zeer complexe informatiebronnen. De informatie waar men naar op zoek is kan hierin soms moeilijk te vinden zijn vanwege de grote hoeveelheid informatie die vaak ongestructureerd wordt aangeboden. Met behulp van web usage mining wordt geprobeerd de gebruiker te modelleren en soms zelfs de structuur van de website te verbeteren. Mijn onderzoek is erop gericht om te ontdekken of methoden afkomstig uit de grammatica in- ductie misschien in staat zijn om onderliggende structuur van websites te leren. Deze geleerde structuren zouden een goede hulp kunnen zijn bij het ontwerpen van de navigatie-structuur van een website. In dit onderzoek heb ik het algoritme ADIOS gebruikt om te leren van data afkomstig van een website met een probleem-ge¨ori¨enteerde structuur. Dit algoritme bli- jkt niet in staat te zijn de onderliggende structuur te reproduceren of tot een praktisch bruikbaar niveau te benaderen.

(3)

Contents

1 Introductie 3

2 Grammatica Inductie 4

2.1 ADIOS . . . 5

3 Experimenten & Resultaten 5

3.1 Data . . . 5 3.2 Experimenten & Evaluatie . . . 6 3.3 Resultaten. . . 6

4 Conclusie & Discussie 7

5 Referenties 9

(4)

1 Introductie

In de afgelopen jaren zijn veel websites ontwikkeld tot omvangrijke en zeer com- plexe informatiebronnen. De informatie waar men naar op zoek is kan hierin soms moeilijk te vinden zijn vanwege de grote hoeveelheid informatie die vaak ongestructureerd wordt aangeboden. Dit probleem wordt mede veroorzaakt door de onervarenheid van een groot deel van de huidige internetgebruikers.

Vanuit een commercieel oogpunt is het interessant om onderzoek te doen naar manieren om bezoekers makkelijk te laten navigeren over de website en zodoende geen potenti¨ele klanten te verliezen. Hiervoor maakt men gebruik van user modeling, waarbij aan de hand van de acties van de bezoeker op de web- site wordt getracht persoonlijke service aan te bieden. Veelgebruikte methoden voor het ondersteunen van navigatie van de bezoeker zijn recommender systems, hiermee worden pagina’s aangeboden die vanwege het onderwerp mogelijk in- teressant zijn voor de bezoeker. De relevante pagina’s worden bij elkaar gezocht op basis van hun inhoud.

Een andere insteek voor het groeperen van pagina’s wordt gedaan met web usage mining. Bij web usage mining wordt niet gekeken naar de inhoud van de pagina’s, maar hoe ze gebruikt worden. Data van bezoekers wordt verzameld als clickstreams, sequenties van achtereenvolgens bezochte pagina’s.

Een groot deel van het onderzoek dat is gedaan op het gebied van web usage mining is gebaseerd op clustering. Men kan pagina’s op onderwerp clusteren door na te gaan of ze vaak gezamelijk voorkomen in een clickstream. Naast clustering kan men met de web usage data associaties leren tussen verschillende pagina’s. Een associatie geeft de kans dat gegeven het voorkomen van pagina A in een clickstream de kans op het voorkomen van pagina B. Een andere insteek voor het gebruik van clickstreams houdt ook rekening met de ordening.

Sequentiele patronen in clickstreams geven niet alleen overeenkomst in onderw- erp weer, maar ook de volgorde waarin ze bezocht worden. Een voorbeeld van een methode die hier rekening mee houdt zijn Kde-orde markov modellen, waar de verwachting van de eerstvolgende pagina in de clickstream wordt bepaald aan de hand van laatste K bezochte pagina’s.

Ordening van webpagina’s is voor sommige websites speciaal van belang om- dat de gewenste informatie voor een bezoeker soms onbegrijpelijk is zonder eerst een andere pagina te bezoeken. Bezoekers, en met name onervaren bezoekers, die de oplossing van een probleem zoeken op een website hebben vaak moeite met het formuleren van de gewenste informatie in steekwoorden. Hiervoor is soms kennis nodig die opgedaan moet worden op een andere pagina op de web- site. Een pagina met een oplossing voor het probleem en een inleidende pagina hiervoor kunnen dus wel over hetzelfde onderwerp gaan, maar hebben een totaal andere functie binnen het navigatie-proces. Zulke websites vereisen een prob- leem ge¨ori¨enteerde navigatie.

Hollink et al. (Hollink et al. 2006) heeft recent een methode voorgesteld voor het vinden van stages. Stages zijn groepen pagina’s die dezelfde rol spelen binnen het navigatie-proces van de bezoeker. De stages worden gevonden door de pagina’s te groeperen aan de hand van de plaats waarin ze voorkomen in de

(5)

clickstream. Het vinden van zulke stages kan helpen bij het ontwerpen van de probleem ge¨ori¨enteerde navigatie.

Het is interessant om te methode van Hollink et al. uit te breiden zodat er naast functie ook op onderwerp gegroepeerd kan worden. Het uiteindeli- jke resultaat zou dan een boom moeten zijn waarin de wortel de beginpagina voorsteld, de bladeren de pagina’s met oplossingen en de tussenliggende knopen zijn informatieve pagina’s die de bezoeker helpen een weg van wortel naar blad te vinden. In deze representatie kan men de takken van de boom zien als een groep pagina’s die bij elkaar horen op onderwerp en de stages zijn terug te vin- den als onderlinge ordening van de knopen in de weg van wortel naar blad.

In dit onderzoek ga ik mij richten op het vinden van patronen in clickstreams die een bovenstaande navigatie-structuur weergeven. Dit ga ik doen met behulp van grammatica inductie. Binnen grammatica inductie vallen methoden die een formele grammatica kunnen leren van voorbeeldzinnen. Ik heb voor deze aanpak gekozen omdat de navigatie structuur die hierboven beschreven staat te vatten is als een reguliere taal waarvan de zinnen, de sequenties van bezochte pagina’s als paden van wortel naar blad kunnen worden opgevat. De clickstreams zouden deze zinnen moeten benaderen en het is een simpele stap van de grammatica de navigatie-structuur te achterhalen.

Ik zal een experiment beschrijven waarbij een grammatica geleerd wordt met clickstreams afkomstig van een volledig gestripte website (website zonder navigatie-structuur en links in de tekst). In het ideale geval zou de geleerde grammatica overeenkomstig zijn met de navigatie-structuur die nu weggelaten is.

2 Grammatica Inductie

Grammatica inductie (grammar induction of grammatical inference) is een vorm van inductief leren, waarbij er in dit geval als input een verzameling sequenties is. Er wordt een aanname gemaakt dat er een formele grammatica G bestaat die deze sequenties genereert. Het doel van grammatica inductie is het vinden van een G0die G benaderd.

Grammatica inductie heeft een lange geschiedenis, al sinds de vijftiger jaren zijn er algoritmen ontwikkeld voor het leren van grammatica’s over zinnen.

Helaas is er al vroeg vastgesteld dat geen enkel algoritme is dat garandeerd een formele grammatica die overeen komt met een taal uit de Chomsky hi¨erarchie kan leren met een eindig aantal positieve voorbeeldzinnen. Voor dit onderzoek is dit slecht nieuws, omdat we met clickstreams juist enkel positieve voorbeelden tot onze beschikking hebben.

Ondanks dit slechte nieuws zijn er toch een aantal pogingen gedaan om formele talen te leren met enkel positieve voorbeelden. Veel ontwikkelde algo- ritmen gebruiken ook hulpmiddelen zoals de mogelijkheid tot vragen aan een externe bron of een zin wel of niet binnen de te leren taal valt. Ook dit is helaas niet van toepassing in het domein van web usage. Een algoritme dat geen ex- tra hulpmiddelen nodig heeft en heeft bewezen in praktische situaties effici¨ent

(6)

context vrije grammatica’s te kunnen leren is ADIOS. Vanwege deze resultaten heb ik deze methode gekozen voor het experiment.

2.1 ADIOS

Automatic DIstillation Of Structures (ADIOS) is een algoritme voor het ont- dekken van patronen uit platte tekst of sequenties. Het heeft bewezen goed te presteren op het leren van simpele en complexe context vrije grammatica’s alsook in andere domeinen als psycholingu¨ıstiek en bio-informatica.

Het algoritme gaat alsvolgt in zijn werk: eerst worden de sequenties gean- noteerd met speciale begin- en eindsymbolen. De sequenties worden daarna geladen in een graaf waarbij elke sequentie een pad van begin tot eind voorsteld.

Van deze graaf worden op statistische wijze patronen gezocht. Patronen zijn in dit geval sub-paden uit de graaf die door een significant aantal paden worden gedeeld.

Ook zoekt het algoritme naar equivalentie klassen, dit zijn groepen symbolen (in dit geval pagina’s) die gegeven de context in de graaf met elkaar verwissel- baar zijn.

De uiteindelijke grammatica is een beetje verscholen achter de interne rep- resentatie van ADIOS, maar is verzekerd dat er net zoveel zinnen gegenereerd kunnen worden als de originele dataset, plus extra omdat er binnen patronen alle knopen verbonden worden. Deze consequenties lijken geen voordeel voor ADIOS te zijn omdat onze data waarschijnlijk veel ruis bevat.

Desalniettemin zou ADIOS ook de belangrijke patronen moeten kunnen ex- traheren en dus ook een groot deel van de navigatie-structuur goed moeten beschrijven. Dit algoritme heeft bewezen een goede leerder te zijn voor simpele en complexe context vrije grammatica’s.

3 Experimenten & Resultaten

3.1 Data

De data gebruikt voor de experimenten is afkomstig van de SeniorGezond web- site die ook beschreven wordt in (Hollink et al. 2006). Voor het vergaren van deze data werd de website eerst aangepast, de navigatie-structuur en de links in de tekst werden verwijdert. Op deze manier zal de invloed van de structuur van de website op de bezoeker worden geminimaliseerd. De beginpagina bestaat uit een alfabetische lijst van alle aanwezige pagina’s, de titel van elke pagina beschrijft heel kort de inhoud.

Aan 30 proefpersonen is gevraagd 10 taken uit te voeren op de website. De taken bestaan uit het simuleren van een bezoek aan de SeniorGezond site van iemand uit de doelgroep van deze website. Bij elke taak moet er een probleem worden opgelost met informatie van de site. Elk probleem is zo geformuleerd dat er informatie van meerdere pagina’s nodig is voor het vinden van een oplossing.

De proefpersonen waren allen studenten en vallen daarom buiten de doelgroep

(7)

van de site, waardoor de kans op direct aankomen bij de pagina met de oplossing verkleint wordt.

Van alle proefpersonen zijn per taak de serverlogs opgeslagen als een sequen- tie van bezochte pagina’s.

3.2 Experimenten & Evaluatie

Alle clickstreams hebben als input gediend voor het ADIOS algoritme, waarmee grammatica G0is geconstrueerd. De werkelijke probleem-ge¨ori¨enteerde navigatie- structuur van de SeniorGezond website is gemodelleerd en beschreven als gram- matica G. G is door ADIOS foutloos geleerd, zodat de interne representatie van ADIOS precies de navigatie-structuur van SeniorGezond beschrijft.

Voor het bepalen van de recall en precision van G0 heb ik van beide gram- matica’s 4000 nieuwe zinnen gegenereerd. De recall van G0wordt gegeven door de proportie van de gegenereerde zinnen van G dat door grammatica G0wordt geaccepteerd als legale zin. De precision wordt gegeven door de proportie van de gegenereerde zinnen van G0dat door grammatica G wordt geaccepteerd.

Van de twee bovenstaande meetwaarden is de precision het belangrijkste vanwege de praktische toepassing en omdat de recall vertroebeld kan zijn als de taken van het experiment niet goed gespreid zijn over de website waardoor niet alle pagina’s bezocht hoeven worden om de taken te volbrengen. Gram- matica G bevat ideale zinnen, wat wil zeggen dat hiermee een ideale bezoeker is gemodelleerd die de kortste weg naar de oplossing vind (in het geval van de Se- niorGezond site binnen 3 stappen). Omdat dit een onrealistisch geval is heb ik ook de precision bepaald met alle zinnen van G0met lengte kleiner of gelijk aan 3. En daarnaast is ook de minimale edit distance bepaald van elke zin van G0

met een zin van G, hiermee kan men een indicatie bepaald worden van de afwi- jking tussen de twee grammatica’s zonder dat deze extreem door ruis be¨ınvloed wordt. De edit distance van twee sequenties wordt gegeven door het minimale aantal operaties (toevoegen, vewijderen, vervangen) dat moet worden toegepast op de ene sequentie om de andere te krijgen. Edit distance wordt gewoonlijk gebruikt als maat voor de hoeveelheid verschil tussen twee sequenties. Hoe deze waarde precies ge¨ınterpreteerd moet worden is moeilijk, maar het zou niet al te groot moeten zijn.

Omdat er weinig ervaring is met het evalueren van dit soort representaties heb ik ook nog een subjectieve evaluatie van de structuur van de gegenereerde grammatica van de data van 1 taak gedaan. Ik ben geen expert in het domein van de SeniorGezond site, maar een grote gelijkenis van de geleerde grammatica en de navigatie-structuur is toch een pluspunt. En ook in praktische situaties is het zeer waarschijnlijk dat er handmatig een geleerde grammatica verbeterd wordt.

3.3 Resultaten

Met optimaliseren van de parameters van het ADIOS algoritme was het mo- gelijk om een recall van 90,1% te halen en een precision van 7,2% Met enkel de

(8)

zinnen van lengte 3 of korter kon de precision worden verhoogt naar 27,8%. De minimale edit distance bedraagd gemiddeld 14,3 per gegenereerde zin.

De subjectieve gevonden overeenkomst tussen de grammatica en de navi- gatiestructuur is niet erg goed. Het valt op dat ADIOS erg veel relaties tussen pagina’s vind die onverwacht zijn gegeven de structuur. Ook al lijkt het erop dat een lichte meerderheid van de relaties niet erg afwijkend is van de structuur, het is onmogelijk om handmatig de grammatica om te zetten naar de originele structuur.

4 Conclusie & Discussie

Met dit onderzoek heb ik als doel gehad met ADIOS, een grammatica induc- tie algoritme, een verzameling clickstreams te leren en daarmee de originele navigatie-structuur te reproduceren. De clickstreams waren afkomstig van een website met een duidelijke probleem ge¨ori¨enteerde structuur en de voorkennis van de proefpersonen die de clickstreams maakten werd geminimaliseerd.

Omdat er nog geen onderzoek is gedaan op dit specifieke gebied is het moeil- ijk om de behaalde resultaten te evalueren. Toch is het mogelijk om te conclud- eren dat het ADIOS algoritme met een hoge recall en een lage precision teveel generaliseerd. De resultaten zijn wel iets beter als er slechts naar de gegenereerde grammatica tot een bepaalde diepte kijkt, namelijk de diepte van de originele navigatie-structuur. Maar in een praktische situatie is dat ondenkbaar omdat deze diepte onbekend is.

In een poging om de gelijkenis van de grammatica met de structuur te vinden heb ik de minimale edit distance voor iedere gegenereerde zin van de grammat- ica met een pad van de navigatie-structuur. Deze waarde is moeilijk te inter- preteren, maar lijkt toch aan de hoge kant met zijn 14,3. Ook hieruit kunnen we concluderen dat het algoritme overgeneraliseerd en dus kan de geleerde gram- matica veel meer zinnen genereren dan dat de navigatie-structuur accepteerd.

Een bestudering van de geleerde grammatica door een non-expert van de data geeft ook aan dat de methode duidelijk overgegeneraliseerd heeft. De structuur van de website was hierdoor zo ondergesneeuwd dat het onmogelijk is om handmatig de juiste structuur hieruit te reconstrueren.

Over ADIOS kan ik dus met zekerheid zeggen dat dit algoritme ongeschikt is voor web usage mining. En dat het praktisch geen benadering van de navigatie- structuur van een website kan geven. Over grammatica inductie methoden in het algemeen moet ik wat voorzichtiger zijn. De redenen dat ADIOS heeft gefaald gelden niet per s´e voor alle grammatica inductie methoden. ADIOS kan, ondanks dat het gedeeltelijk statistisch gebaseerd is, moeilijk met ruis omgaan.

Elke fout in de voorbeeldzinnen zal terugkomen in de geleerde grammatica. Een mede oorzaak van de slechte resultaten is dat ADIOS misschien te grof geschut is, ADIOS is immers in staat context vrije grammatica’s te leren en de navigatie- structuur is te schrijven als een reguliere grammatica. Hierdoor is het mogelijk dat ADIOS in¨efficient met de data omgaat en naar diepere patronen zoekt die niet voor kunnen komen.

(9)

Gegeven de resultaten van clustering-methoden op onderwerp en de resul- taten van Hollink et al. behaald op het vinden van stages lijkt het mogelijk deze twee tegelijk te leren zijn. Het is nog niet uit te sluiten of dit met grammatica inductie kan. Daarom is verder onderzoek naar de geschiktheid van grammatica inductie op het gebied van usage mining niet onterecht.

(10)

5 Referenties

Hollink, V., M. van Someren, B. Wielinga: 2006, Discovering stages in web nav- igation for problem-oriented navigation support.

Lee, L.: 1996, Learning of Context-Free Languages: A Survey of the Litera- ture.

Pierrakos, D., G. Paliouras, C. Papatheodorou, C.D. Spyropoulos: 2003, Web Usage Mining as a Tool for Personalization: A Survey. User modeling and User-Adapted Interaction (13), 311-372.

Solan, Z., D. Horn, E. Ruppin, S. Edelman: 2003, Unsupervised learning of natural languages.

Stumme, G., A. Hotho, B. Berendt: 2002, Semantic Web Mining, State of the Art and Future Directions. European Conference on Machine Learning, 1-13.

Referenties

GERELATEERDE DOCUMENTEN

Door alle nieuwe kennis en ervaringen die ze hebben opgedaan weten ze welke mogelijkheden er voor hen zijn en kunnen hun talenten zo optimaal benutten.. Dit draagt, samen met

[r]

De Graaf, boomverzorger in de eigen bomenploeg van de gemeente Dronten, heeft twaalf exempla- ren van de Dendro Tree Wear aangeschaft voor boombescherming tijdens gemeentelijke

Daarnaast kan Snap Core worden gebruikt op de apparaten die speciaal zijn ontwikkeld voor ondersteunde communicatie te gebruiken. Deze hebben bijvoorbeeld een extra

De afstand tussen 2 punten drukt de gelijkenis tussen categorieen uit met betrekking tot hun samenstel 1 ing uit de groepen die door de andere variabele gedefinieerd zijn.. In

In dit document worden de stappen beschreven om een diagnostische bundel van Advanced Malware Protection (AMP) voor Endpoints Public Cloud op Windows-apparaten te analyseren om een

De gassingsleider monitort de concentratie van het ontsmettingsmiddel in de lading van het onbemande schip (duwbak) en zodra de lading arbeidsveilig gelost kan worden, geeft hij het

Voor het opstellen van de duurzaamheidsvisie zal een interne werkgroep worden opgericht en zal een aantal ‘meedenksessies‘ als ook een aantal individuele gesprekken