Kan Google Glass het geheugen ondersteunen?

(1)

Dementerenden hebben moeite met zelfstandig leven: de kwaliteit van hun leven verbeteren is belangrijk. Moderne technologie zoals Google Glass kan hierbij helpen als memory support system. Eerdere studies hebben aangetoond dat mensen bij het herinneren terugkijken naar de locatie van de originele stimulus. Dit kan gebruikt worden om een applicatie te ontwikkelen die met behulp van een eye tracker patronen van oogbewegingen herkent en koppelt aan gerichte informatie. In dit onderzoek is het verband tussen oogbewegingen en geheugen gerepliceerd, waarna deze data zijn gebruikt om met machine learning een leer-algoritme te maken dat kon voorspellen waar de oorspronkelijke stimulus zich bevond. Dit algoritme kan gebruikt worden om specifieke, veelvoorkomende situaties waar dementerenden in terecht komen te herkennen en hen de informatie te bieden die zij dat moment nodig hebben.

AUTEURS

-

Michelle Appel

10170359, major Kunstmatige Intelligentie

-

Nils Hulzebosch

10749411, major Kunstmatige Intelligentie

-

Fabienne Meijer

10524479, major Wijsbegeerte

-

Fried Schölvinck

10729267, major Brein & Cognitie

DOCENTEN

- Rudolf Sprik - Machiel Keestra - Evert Glebbeek

(2)

INHOUDSOPGAVE

ABSTRACT 1

INHOUDSOPGAVE 2

INTRODUCTIE 2

THEORETISCH KADER 3

Google Glass als MMS 3

BCI 5

Eye tracking 5

Oogbewegingen helpen het geheugen 6

Oogafwijkingen bij dementerenden 6

Leren met ML 7

Indeling 8

METHODEN 8

Experiment 1: repliceren verband oogbewegingen en geheugen 8

Experiment 2: leer-algoritme maken met ML 11

Methode 1: Per persoon voorspellen (heatmap-representatie) 11

Methode 2: Per fixatie voorspellen 13

RESULTATEN 13

Statistische analyse 13

Fixation count 15

Fixation duration 15

Machine learning 16

DISCUSSIE & CONCLUSIE 17

Conclusie 19

LITERATUURLIJST 20

APPENDIX A. Uitleg leer-algoritmes machine learning 23

(3)

INTRODUCTIE

Dementie is in een vergrijzende samenleving een groeiend probleem. Bij dementie takelt het geheugen langzaam af, waardoor alledaagse taken steeds lastiger worden (Alzheimer Nederland, 2016). Mensen leven gemiddeld acht jaar met de ziekte; het verbeteren van de zelfstandigheid van dementerenden is een belangrijk maatschappelijk doel. Nieuwe technologie, zoals Google Glass, kan hier een bijdrage aan leveren. De Glass is een in 2013 ontwikkelde bril met alle functies van een computer, zoals bellen, mailen en foto’s maken.

De Glass zou dementerenden kunnen ondersteunen door te fungeren als memory support system (MSS) (Vradenburg, 2014). Hiervoor moet de Glass werken als een Brain Computer Interface (BCI). Dit is een directe verbinding tussen de hersenen en een computer. Een niet-invasieve vorm van BCI is een eye tracker (ET). Deze registreert de bewegingen van ogen op kleine schaal met infrarood licht (Jacob & Kam, 2003). De ET kan signalen van de drager registreren en op basis hiervan relevante informatie bieden. Ook de Glass beschikt hierover.

Belangrijk hierbij is een eerder aangetoond verband tussen oogbewegingen en geheugen: mensen kijken bij het herinneren terug naar de originele locatie van de stimulus, zelfs al die niet meer aanwezig is (Laeng, Bloem, D’Ascenzo et al, 2014). Hieruit zou kunnen volgen dat de Glass patronen van oogbewegingen kan herkennen als specifieke situaties en hiervoor gerichte informatie geven. Om te zorgen dat de Glass zijn drager goed leert kennen, kan gebruik worden gemaakt van machine learning (ML). Deze tak van kunstmatige intelligentie ontwikkelt leer-algoritmes die

voorspellingen kunnen doen op basis van eerdere data (Bishop, 2006). Een applicatie in de Glass die gebruik maakt van dit principe kan zo door oefening steeds beter herkennen in welke situatie de drager zich bevindt.

DIt onderzoek probeert de vraag te beantwoorden of het mogelijk is zo’n applicatie te maken. Twee deelvragen zijn van belang: kan het verband tussen oogbewegingen en geheugen worden gerepliceerd en kan ML gebruikt worden om voorspellingen te doen over oogbewegingen? Dit vraagstuk kan alleen interdisciplinair worden opgelost. Brein en Cognitie is nodig om uit te leggen hoe de BCI en dementie werkt, Kunstmatige Intelligentie om de ML te ontwerpen en uit te voeren. Wijsbegeerte wordt gebruikt om verdiepende achtergrond te geven bij het principe van het MMS.

THEORETISCH KADER

Google Glass als MMS

In een vergrijzende samenleving waar de levensverwachting blijft stijgen is de zorg voor ouderen onverminderd belangrijk. Momenteel zijn in Nederland zo’n 270.000 dementerenden (Alzheimer Nederland, 2016). Zij zijn vergeetachtig, hebben problemen met dagelijkse handelingen zoals boodschappen doen of koffiezetten. Ook raken ze de weg kwijt en vergeten waar ze spullen hebben achtergelaten. Mensen leven gemiddeld acht jaar met de ziekte (Alzheimer Nederland, 2016).

Daarom is het belangrijk de kwaliteit van leven van dementerenden te verbeteren. Nieuwe technologie kan daaraan bijdragen door te ondersteunen bij taken die lastig zijn, zodat zij langer zelfstandig kunnen wonen. Een voorbeeld hiervan is de in 2013 door Google gemaakte Google Glass: een bril met alle functies van een computer. Via hun bril konden gebruikers onder andere

internetten, bellen en foto’s nemen (Miller, 2013). De Glass maakt ook gebruik van augmented reality, waarbij de bril informatie projecteert die relevant is voor de situatie waar iemand zich dat

(4)

moment bevindt. De Glass is momenteel in ontwikkeling en niet commercieel verkrijgbaar (Eadiccio, 2015).

De bril is niet alleen een handige gadget, maar ook bruikbaar als medisch apparaat (Nosta, 2013; Farr, 2014; Garloch, 2015). De Glass is multi-inzetbaar: bij operaties, om gesprekken tussen artsen en patiënten te livestreamen en medische gegevens bij te houden. Ouderen zouden de Glass bijvoorbeeld kunnen gebruiken om herinneringen in te stellen voor het innemen van medicatie (Jumreornvong, 2015).

Dementerenden kunnen profiteren van Glass als een MMS om zelfstandig te functioneren (Vradenburg, 2014). Het idee van de MMS is gebaseerd op de extended mind (EM) van Clark en Chalmers (1998). In deze filosofie wordt ervan uitgegaan dat cognitie niet alleen in de hersenen zit, maar mensen hun lichaam en omgeving gebruiken om cognitieve processen uit te voeren. De theorie van EM is gebouwd op het functionalisme (Putnam, 1960, Searle, 1980; Fodor, 1985). Deze

filosofische stroming ziet mentale toestanden als computationele processen. Dit betekent dat zij meervoudig realiseerbaar zijn en niet brein-gebonden zijn.

Een belangrijk argument voor EM is het parity principle: als we een object gebruiken om ons te helpen bij een cognitief proces, en we dat normaal gesproken in ons hoofd zouden doen, dan hoort dat object bij het cognitieve proces. Clark & Chalmers gebruiken als voorbeeld de aan lichte Alzheimer lijdende Otto, die gebruik maakt van een notitieblok om zijn geheugen te ondersteunen (Clark & Chalmers, 1998). Volgens Clark & Chalmers functioneert zijn notitieblok op dezelfde manier als het biologische geheugen van de gezonde Inga. Als Inga hoort dat er een expositie is in het MoMa gebruikt zij haar geheugen om zich het adres te herinneren. Otto raadpleegt zijn notitieblok voor hetzelfde doel. Hoewel de verschillen tussen de twee opvallend zijn, zijn ze volgens Clark & Chalmers oppervlakkig: wat telt is de rol die beide systemen grofweg spelen voor beide mensen. Aangezien die hetzelfde is - ze halen informatie op en gebruiken die - moeten we het notitieblok zien als onderdeel van Otto’s cognitieve proces: zijn geheugen (Clark & Chalmers, 1998).

EM bleek een vruchtbare theorie, die navolging kreeg binnen en buiten de filosofie. Onder andere robotici hebben hun vakgebied gebruikt om de validiteit van de theorie aan te tonen. Door robots te koppelen en hun interacties te observeren met behulp van evolutionaire robotica kon een onderzoeksgroep aantonen dat het gehele interactieproces eigenschappen had die niet konden worden toegeschreven aan de bijdrage van de individuele robots. (Froese, Gershenson & Rosenblueth, 2013).

Ook is EM te onderbouwen met empirische onderzoeken (Clark, 2009). Zo helpt gesticulatie bij het uitrekenen van wiskundige sommen en is schrijven actief onderdeel van het denkproces: we formuleren niet eerst volledige zinnen voor we ze opschrijven, maar denken terwijl we schrijven (Clark, 2009; Jarvis, 2014).

‘Cognition just ain’t in the head’, schreven Clark & Chalmers in 1998. ‘All the components in the system play an active causal role, and they jointly govern behavior in the same sort of way that cognition usually does. If we remove the external component the system’s behavioral competence will drop, just as it would if we removed part of its brain’ (Clark & Chalmers, 1998, p2). Hiermee zeggen ze dat processen buiten het brein niet alleen dienen als hulp voor cognitieve processen, maar daar ook noodzakelijk onderdeel van uitmaken. Om die reden moeten ze beschouwd worden als onderdeel van de cognitie.

Als de Glass fungeert als MMS, wordt het onderdeel van het cognitieve systeem van dementerenden. De Glass zou net zo onmisbaar worden als Otto’s notitieblok. Vanwege de huidige afkeer jegens afhankelijkheid van mobieltjes en andere technologie, kan het zijn dat hier niet direct

(5)

positief op wordt gereageerd. EM laat zien dat dergelijke angst ongegrond is: ook gezonde mensen zijn continu afhankelijk van de omgeving om cognitieve taken uit te voeren. Wel lijkt ons geheugen te veranderen door het gebruik van technologie. We onthouden minder zelf en vertrouwen vooral het apparaat (Risko & Gilbert, 2016). Voor dementerenden is dit geen probleem: zij moeten juist vertrouwen op ondersteuning van de Glass. De Glass zou dementerenden langer zelfstandig kunnen houden: een voordeel in het huidige politieke klimaat van zelfredzaamheid in de zorg.

BCI

Vanuit dit principe wilde onze groep de mogelijkheden onderzoeken die de Glass heeft om zo’n MMS te worden. Naast het projecteren van handige informatie denken wij dat het mogelijk moet zijn de Glass intuïtiever te integreren. Dit kan bijvoorbeeld als BCI: een directe communicatie tussen de hersenen en een computer (Ortiz-Rosario & Adeli, 2013). BCI’s kunnen bijvoorbeeld patiënten helpen die last hebben van ALS, of Locked-In Syndrome (Ortiz-Rosario & Adeli, 2013). Ook dementerenden, die beperkt zijn in uitingsmogelijkheden, kunnen baat hebben bij een BCI.

Brein-signalen worden opgevangen en omgezet in cursorbewegingen of spraakopdrachten. Deze signalen kunnen zowel invasief als non-invasief worden verkregen (Ortiz-Rosario & Adeli, 2013). De non-invasieve methode is populair vanwege het gebruiksgemak en de lage gezondheidsrisico’s. Het is wel lastiger het signaal goed op te vangen zonder achtergrondruis (Ortiz-Rosario & Adeli, 2013).

Het elektro-encefalogram (EEG) is de meest gebruikte techniek voor non-invasieve BCI’s. Zo’n twintig elektronen worden op het hoofd geplaatst om brein-signalen op te vangen (Ortiz-Rosario & Adeli, 2013). Ook andere toepassingen winnen aan populariteit, bijvoorbeeld hybride BCI’s, waarbij van meer dan één signaaltype gebruik wordt gemaakt (Ortiz-Rosario & Adeli, 2013).

De meeste vormen van BCI vereisen van hun gebruikers dat zij hun hersenactiviteit zelf reguleren door middel van extensieve training. Recente studies laten zien dat ook onvrijwillige signalen, zoals emoties en oogbewegingen, informatie kunnen overdragen die gebruikt kan worden om een BCI te besturen (Liberati, Da Rocha, Van der Heiden et al., 2012).

Eye tracking

Een andere niet-invasieve vorm van BCI is eye tracking. Een ET registreert zeer nauwkeurig

oogbewegingen (Cornsweet, 1958). Dit gebeurt door infrarood licht op een proefpersoon te richten die naar een stimulus kijkt. Een optische sensor analyseert hoe oog het licht reflecteert - de Purkinje reflex. Zo kan worden bepaald hoe de ogen over het scherm bewegen. (Jacob & Kam, 2003).

Oogbewegingen worden onderverdeeld in fixaties en saccades. Fixaties zijn focus-momenten van het oog en saccades zijn snelle oogbewegingen om een nieuw focuspunt te vinden, zoals tijdens het lezen (Bylsma, Rasmusson, Xeno et al., 1995). De ET registreert een patroon van fixaties en saccades. De ET kan de microsaccades die ogen maken terwijl ze fixeren niet registreren, maar iets grotere saccades wel (Majaranta & Bulling, 2014).

De data uit een ET worden meestal gevisualiseerd als statische afbeeldingen van de scan-patronen of heatmaps. Een afbeelding met scan-scan-patronen laat zien in welke volgorde mensen naar stimuli kijken en waar de verschillende fixatiepunten op het scherm terecht komen, een heatmap laat zien waar de meeste proefpersonen naar kijken (Majaranta & Bulling, 2014). Ook kan de ET laten zien hoe lang het duurde tot een proefpersoon voor het eerst naar een bepaalde area of interest

(6)

(AOI) keek, hoe lang de fixaties duurden en hoeveel fixaties binnen de AOI vielen (Majaranta & Bulling, 2014).

Deze visualisaties worden gebruikt om uitspraken te doen over hoe mensen zich focussen als ze bepaalde stimuli bekijken (Richardson & Spivey, 2004). De ET wordt zowel voor medische als commerciële toepassingen gebruikt: adverteerders kunnen zien naar welk deel van een advertentie het meest wordt gekeken (Wedel & Pieters, 2014), en in de medische wereld worden ETs

bijvoorbeeld gebruikt om autisme te diagnosticeren (Pierce, Marinero, Hazin et al., 2016).

Voor ons onderzoek moet de ET signalen doorgeven aan Google Glass over de patronen van oogbewegingen. De Glass gebruikte in eerste versies spraakcommando’s, maar in 2014 vroeg Google patenten aan voor het gebruik van eye tracking (Braaten, 2014). De nieuwe Glass kan dus gebruik maken van de ingebouwde ET om als BCI te fungeren. Een in eerdere studies aangetoonde link tussen oogbewegingen en geheugen is hierbij belangrijk.

Oogbewegingen helpen het geheugen

Empirische studies hebben laten zien dat ogen zich tijdens het ophalen van visuele herinneringen bewegen in de richting van de originele locatie van de stimulus. Dit doen ze zelfs als de stimulus daar niet meer is (Spivey & Geng, 2001; Laeng & Teodorescu, 2002; Staudte & Altmann, 2008; Hannula & Ranganath, 2009; Johansson & Johansson, 2009; Laeng, Bloem, D’Ascenzo et al, 2014; Schölz, Von Helversen & Vrieskamp, 2015; Wantz, Martarelli & Mast, 2016; Meister & Buffalo, 2016).

Dit werd bijvoorbeeld getest door proefpersonen afbeeldingen te laten zien in verschillende kwadranten op het scherm en later vragen te stellen over de afmetingen van deze afbeeldingen. Proefpersonen keken bij het nadenken in het kwadrant van de originele afbeelding. Een aantal studies liet zien dat het beperken van oogbewegingen tijdens recall zorgt dat mensen herinneringen slechter ophalen, terwijl vrij kunnen bewegen juist zorgt voor verbeterde herinnering. Werd het kijkveld tot een vierkant beperkt, dan bleven proefpersonen binnen dat vierkant in de richting van de oorspronkelijke stimulus kijken (Spivey & Geng, 2001; Laeng & Teodorescu, 2002; Johansson & Johansson, 2009; Laeng, Bloem, D’Ascenzo et al, 2014; Schölz, Von Helversen & Vrieskamp, 2015). Bij één studie bleken de visualisaties redelijk nauwkeurig te reconstrueren waar mensen naar hadden gekeken: een driehoek met een naar boven wijzende punt (Laeng, Bloem, D’Ascenzo et al, 2014).

Deze studies suggereren dat de rol van de ogen in het ophalen van herinneringen een daadwerkelijke functie heeft. Bij het opslaan van visuele herinneringen wordt ook de spatiële locatie in acht genomen. Het terugkijken naar de oorspronkelijke locatie kan helpen bij het herinneren (Laeng & Teodorescu, 2002; Laeng, Bloem, D’Ascenzo et al, 2014; Meister & Buffalo, 2016).

Volgens de onderzoeken helpen met name bij geheugentaken waar het antwoord lastig is (Johansson & Johansson, 2009; Schölz, Von Helversen & Vrieskamp, 2015). Voor gezonde mensen komt dit neer op ingewikkelde geheugentaken, maar voor dementerenden worden ook eenvoudige taakjes lastig. Daar komt bij dat de ogen van dementerenden niet hetzelfde werken als die van gezonde mensen.

Oogafwijkingen bij dementerenden

Bij dementerenden neemt ook de werking van de ogen langzaam af. Bepaalde oogafwijkingen zijn kenmerken van dementie. Hieronder vallen afwijkingen in saccades, smooth pursuit-oogbewegingen en fixatie-problemen (Bylsma, Rasmusson, Xeno et al, 1995; Crawford, Higham, Renvoize et al, 2005;

(7)

Anderson & MacAskill, 2013). Smooth pursuit-oogbewegingen komen voor als de ogen een bewegend object volgen (Bylsma, Rasmusson, Xeno et al, 1995).

Dementerenden hebben moeite met de zogenaamde ‘antisaccade test’, waarbij mensen wordt gevraagd de neiging naar een plotseling verschijnende stimulus te kijken te onderdrukken en juist de andere kant op te kijken. Dementerenden kunnen de reflexieve saccade niet onderdrukken, vertonen minder correctie-saccades en hebben een vertraging in saccades (Crawford, Higham, Renvoize et al, 2005). Daarnaast hebben ze moeite bewegende objecten bij te houden in smooth pursuit (Anderson & MacAskill, 2013). Al deze afwijkingen komen vooral voor bij gemiddeld tot zware dementie (Anderson & MacAskill, 2013).

Dit leidt ook tot zichtproblemen. Kleine empirische studies making melding van bijvoorbeeld diepteperceptie (Armstrong & Kergoat, 2015). Ook zijn er leesproblemen, oog-handcoördinatie-problemen of oog-handcoördinatie-problemen met gezichtsherkenning (Armstrong & Kergoat, 2015). Een Google Glass-BCI is dus niet meer nuttig voor mensen met zware dementie, vanwege de gevorderde aantasting van de ogen. Daarnaast moet de Glass rekening houden met de verminderde kwaliteit van oogbewegingen van dementerenden.

Leren met ML

Dit levert geen problemen op als de Glass wordt afgesteld op oogbewegingen van een specifieke drager in specifieke situaties. Dit behelst visuo-spatiële situaties, zoals een route volgen of een pincode herinneren. De Glass neemt hierbij de functie van het geheugen over: waar iemand normaal gesproken in het hoofd een afbeelding reconstrueert van de te lopen route registreert de Glass nu oogbewegingen die horen bij deze herinneringen en projecteert de benodigde informatie. Hierbij is belangrijk dat de Glass leert welke oogbewegingen horen bij welke situaties.

Deze techniek werkt alleen bij veelvoorkomende situaties waar telkens naar ongeveer dezelfde herkenningspunten gekeken wordt. Zo kan de Glass een patroon herkennen van

oogbewegingen in specifieke richtingen en bepalen welke informatie nodig is, bijvoorbeeld uitleg hoe koffie gezet moet worden.

Om de Glass dit te leren kan het beste gebruik worden gemaakt van ML. Dit is een onderzoeksveld binnen de kunstmatige intelligentie dat algoritmes en technieken ontwikkelt om computers dingen te laten leren (Bishop, 2006). ML-Algoritmes kunnen met bekende data voorspellingen doen over nieuwe data. Het computerprogramma leert patronen herkennen en koppelt daaraan de bijbehorende acties (El Naqa & Murphy, 2015). Voor mensen is dit te ingewikkeld om te maken; als de Glass het ‘zichzelf’ aan kan leren, heeft dat voordelen.

Er zijn verschillende manieren om ML toe te passen. Welke manier het beste past, hangt af van het soort probleem dat de computer moet oplossen. In de situatie van de Glass moeten patronen van oogbewegingen worden gelinkt aan bepaalde acties, die worden gekozen uit een bekende set van acties. De Glass ziet bijvoorbeeld aan oogbewegingen naar beneden (voordeur), naar rechtsonder (boodschappentas) en naar links (winkelstraat) dat de drager de route naar de supermarkt probeert te herinneren en projecteert deze. Deze situaties heten ‘classificatieproblemen’. Bij classificaties moet de computer voorspellen in welke vooraf vastgestelde categorieën de gegeven data thuishoren.

Classificatieproblemen vallen onder ‘supervised learning’, een tak van ML waarbij computers een functie afleiden uit gelabelde data (Mohri, Rostamizadeh & Talwalkar, 2012). Hiervoor bestaan verschillende methoden. Welke methode het beste resultaat oplevert, is van tevoren niet te bepalen:

(8)

dit is onder meer afhankelijk van de grootte, kwaliteit en aard van de data, en hoe het algoritme zich vertaalt in de gebruikte instructies (Mohri, Rostamizadeh & Talwalkar, 2012).

Als een van de methodes erin slaagt oogbewegingen te koppelen aan de juiste actie, kan dit in de Glass gebruikt worden om te voorspellen welke handeling de gebruiker van plan is uit te voeren. Hoe vaker iemand de Glass gebruikt, hoe meer data wordt verzameld en hoe beter de Glass zal voorspellen. Op die manier hebben dementerenden de beschikking over een praktische, intuïtief te gebruiken bril, die hen kan ondersteunen bij dagelijkse bezigheden.

Indeling

In ons onderzoek willen we de vraag beantwoorden of het mogelijk is, gebruikmakend van het verband tussen oogbewegingen en geheugen, een applicatie te ontwikkelen voor Google Glass met behulp van ML om de kwaliteit van leven van dementerenden te verbeteren.

Het is voor ons niet mogelijk binnen dit onderzoek een volledige applicatie te ontwikkelen. Daarom hebben we het praktische deel van dit onderzoek gesplitst in twee deelgebieden.

Experiment 1 probeert het eerder aangetoonde verband tussen oogbewegingen en geheugen te repliceren door proefpersonen woordjes te laten leren die op een specifieke plek op het

computerscherm staan, en hen te vragen deze op een later moment te herinneren. Hierbij wordt de testopzet gebruikt zoals in Laeng, Bloem, D’Ascenzo et al. (2014), waarbij voor de stimuli is gekozen voor woorden in plaats van afbeeldingen. Gegeven de uitkomsten van eerder onderzoek is de hypothese dat dit verband inderdaad gerepliceerd kan worden. Om te controleren of het verband in dit experiment is aangetoond, zullen we statistische analyse toepassen.

Experiment 2 onderzoekt of het mogelijk is met behulp van de in experiment 1 verzamelde data een leer-algoritme te maken dat kan voorspellen waar de woorden op het scherm hebben gestaan, gegeven de oogbewegingen tijdens recall. De hypothese is dat het mogelijk is om betere voorspellingen dan willekeurig te doen, mits de kwaliteit van de data uit experiment 1 goed genoeg is.

De bevindingen van de twee experimenten worden toegelicht in de resultaten. Daarna geeft de discussie de beperkingen van dit onderzoek aan, evenals aanbevelingen voor toekomstig

onderzoek. Dit wordt afgesloten met een conclusie.

METHODEN

Experiment 1: repliceren verband oogbewegingen en geheugen

Aan dit experiment hebben 20 proefpersonen van tussen de 19 en 25 jaar deelgenomen zonder bril of oogafwijkingen. De proefpersonen zijn onderverdeeld in twee groepen van elk 10 personen, één controlegroep en één experimentele (prime)groep.

De proefpersonen werd gevraagd mee te doen aan een onderzoek rondom de vraag of pupildilatatie verandert als men woordjes probeert te herinneren. Zij werden getest met behulp van een ET van het bedrijf Tobii (Tobii Technology, Zweden). De software voor de ET kwam van het programma Tobii Studio (Tobii Technology, Zweden). De coverstory werd gebruikt om te voorkomen dat mensen zich bewust bezig zouden houden met hun oogbewegingen, waardoor deze geforceerd zouden worden.

De groepen deden een nagenoeg identiek experiment, waarbij zij als doel hadden woorden te leren van een scherm (zie Afbeelding 2 en 3). De controlegroep kreeg de woorden in het midden

(9)

van het scherm te zien, de experimentele groep aan de linkerkant. Het experiment was opgedeeld in drie delen, waarbij voorafgaand steeds een scherm te zien was met specifieke instructies (zie

Afbeelding 1).

Afbeelding 1. Het verloop van de twee taken. In het eerste deel (bovenste plaatje) kregen de proefpersonen drie woordenlijsten te zien, die zij moesten onthouden. In het tweede deel (middelste plaatje) deden de

proefpersonen een afleidende taak, waarbij zij naar negatieven van afbeeldingen moesten kijken om de gezichten te herkennen. In het laatste deel (onderste plaatje) kregen de proefpersonen een wit scherm te zien voor de recall-fase, waarbij ze de geleerde woordjes moesten opnoemen. De blauw-gekleurde gebieden geven de verwachte plaats aan waar de proefpersonen zouden kijken.

In deel één moesten de proefpersonen Engelstalige woorden leren van drie opeenvolgende schermen. Op elk scherm stonden zes woorden en was dertig seconden in beeld. Hen werd verteld dat ze later zo veel mogelijk woorden moesten opnoemen en dat ze de woorden zo goed mogelijk moesten onthouden.

Deel twee bestond uit een afleidende taak. De proefpersonen kregen driemaal een negatief gekleurde afbeelding van een beroemdheid te zien, steeds gevolgd door een wit scherm. Bij de afbeelding stond een gekleurde stip in het midden van het scherm. Tijdens het witte scherm moesten zij met hun ogen knipperen, waardoor de ‘normale’ afbeelding zichtbaar werd. De afleidende taak was zo geconstrueerd dat er met de volgende zaken rekening is gehouden:

- De afleidende taak moet dienen als maskering voor de werkelijke taak en moet daardoor van zekere duur zijn, om te voorkomen dat de koppeling tussen de eerste taak en het terughalen wordt gemaakt (Tulving & Schacter, 1990).

- Door de opzet van de taak wordt ‘memory rehearsal’ enigszins tegengegaan, omdat de persoon ergens anders mee bezig is (Thompson & Clayton, 1974).

(10)

- Een afleidende taak moet de echte metingen zo min mogelijk beïnvloeden: door de statische vorm van deze taak worden oogbewegingen van het eerste deel nauwelijks beïnvloed. - Doordat aan het begin van het experiment werd genoemd dat de pupildilatatie gemeten

werd, worden proefpersonen nog meer op het verkeerde been gebracht. Achteraf gaf geen enkele proefpersoon aan door te hebben waar het experiment werkelijk over ging.

In het laatste deel moesten proefpersonen zo veel mogelijk geleerde woorden opnoemen, terwijl zij naar een wit scherm bleven kijken, getiteld Whitescreen. Tijdens het opnoemen werden hun

oogbewegingen geregistreerd door de ET. De proefpersonen mochten net zo lang doorgaan totdat zij geen woorden meer wisten.

Voor de data-analyse zijn oogbewegingen tijdens de Whitescreen belangrijk. In de literatuur worden zowel de dwell time (de duur van de fixaties in een bepaalde AOI) als de hoeveelheid fixaties in een bepaalde AOI genoemd als waardes om te herleiden of proefpersonen meer terugkijken naar de originele stimulus tijdens recall (Laeng, Bloem, D’Ascenzo et al, 2014; Johansson & Johansson, 2013; Meister & Buffalo, 2016). Daarom ligt de focus van de analyse voornamelijk op de ‘fixation count’ en ‘fixation duration’, twee meetwaarden die uit Tobii Studio te exporteren zijn. Deze waarden vertellen hoe vaak en hoe lang er naar de gekozen AOI van de Whitescreen is gekeken.

Afbeelding 2 & 3. De testopzet in het Betalab op Science Park 904. De computer maakt gebruik van de Tobii-eye tracker, bovenaan het scherm gemonteerd. De eye tracker maakt voor analyse van de data gebruik van het programma Tobii Studio.

Experiment 2: leer-algoritme maken met ML

Vanuit de Tobii ET is het mogelijk informatie over de gaze duration en x- en y-coördinaten van de fixatiepunten van geteste proefpersonen te exporteren via Tobii Studio. Deze worden voor het tweede experiment geëxporteerd naar Excel en vervolgens CSV formaat, een geschikt formaat voor Python. In het CSV-bestand staan deze coördinaten in chronologische volgorde. Hierbij is het

belangrijk te noemen dat wegens technische beperkingen alleen data van fixaties op het scherm kan worden geëxporteerd; fixaties buiten het scherm zijn niet meegenomen in dit gedeelte.

(11)

ML wordt in dit experiment gebruikt om te voorspellen of proefpersonen de geleerde woorden links of in het midden te zien kregen, aan de hand van oogbewegingen tijdens recall. De datatransformatie, het toepassen van de leer-algoritmen en de evaluatie zijn gedaan in Python 2.7, gebruikmakend van de applicatie Jupyter Notebook. De geschreven code is bijgevoegd in Appendix B.

Voor ML is het belangrijk goede voorspellende variabelen te kiezen, ook wel features genoemd. Een feature is een individuele meetbare eigenschap van het fenomeen dat wordt

bestudeerd (El Naqa & Murphy, 2015). Vanwege de beperkte grootte van de dataset konden niet veel verschillende features gekozen worden: meer features dan datapunten leidt tot overfitting (Bishop, 2006). Dit betekent dat het leer-algoritme te ‘gevoelig’ op de trainingsdata traint, waardoor het slecht voorspelt op nieuwe data. De data uit de CSV moeten getransformeerd worden naar data in de vorm van features die gebruikt kunnen worden om ML op toe te passen. In de onderstaande twee methodes wordt per methode beschreven hoe de features worden gekozen.

Methode 1: Per persoon voorspellen (heatmap-representatie)

Voor de features wordt gekozen voor een heatmap-representatie. Elke feature representeert een ‘blok’ in het scherm dat aangeeft hoe lang er in totaal naar dat blok is gekeken. In Afbeelding 4 is deze representatie te zien. In de optimale situatie zouden deze blokken zo klein mogelijk zijn (bijvoorbeeld een hoogte en breedte van enkele tientallen pixels), omdat dan meer patronen

herkend kunnen worden en betere voorspellingen kunnen worden gemaakt. Dit zou leiden tot enorm veel features, omdat het scherm uit 1920x1200 pixels bestaat, wat zou zorgen voor extreme

overfitting. Omdat maar een kleine dataset kan worden gebruikt, wordt het aantal features

gereduceerd tot 3 (verticaal) x 5 (horizontaal) vlakken van 384x400 pixels, oftewel 15 features. Dit is een afweging tussen het verliezen van informatie uit data (door heel weinig features te kiezen) en het probleem van overfitting (door teveel features te kiezen).

Van de 20 proefpersonen hebben maar 16 personen bruikbare data; 9 van de priming-groep en 7 van de controlegroep. Er zijn dus 16 ‘heatmaps’ van 15 features (zie Afbeelding 4). Dit is erg weinig, en kan als gevolg hebben dat de leer-algoritmen niet goed getraind worden, waardoor ze slechte voorspellingen zullen doen.

2 sec 4 sec 10 sec 4 sec 0 sec

Afbeelding 4. Voorbeeld van de visualisatie van de gekozen datastructuur. Het beeldscherm is opgedeeld in 15 blokken. Hoe donkerder de kleur van het blok, hoe langer er in totaal naar dat blok is gekeken. In elk blok staat hoe lang er naar is gekeken in seconden.

De data wordt eerst genormaliseerd. Hierbij worden alle waarden getransformeerd in getallen tussen -1 en 1 (afbeelding 5). Dit schaalt alle waarden, waardoor ML-algoritmes sneller en beter een model kunnen trainen. Elke waarde representeert de genormaliseerde waarde van een waarde uit de datastructuur (Zie Afbeelding 5 voor een voorbeeld).

(12)

-0.14 0.56 0.72 -0.19 -0.28

-0.14 0.04 0.16 0.19 -0.20

Afbeelding 5. Genormaliseerde data van de gekozen datastructuur. Elk getal representeert de genormaliseerde waarde van de totale tijd dat er door een persoon in dat blok gekeken is.

Nadat de data is getransformeerd kunnen de leer-algoritmes worden toegepast. In dit onderzoek worden Decision Trees, K-Nearest Neighbors, Logistic Regression, Gradient Boosting, Neural Networks en Random Forest gebruikt, omdat die op basis van het soort probleem en de data goed lijken te passen bij de taak. Meer informatie over deze algoritmes in Appendix A.

Om een model te trainen worden de data gesplitst: twee willekeurige personen van de controlegroep en twee willekeurige personen van de experimentele groep (25% van de data) worden gekozen als test data. De overige data, 12 proefpersonen (75% van de data), worden gebruikt om het model te trainen. Elk leer-algoritme traint een model met de trainingsdata en doet dan

voorspellingen op de testdata. Deze voorspellingen worden vergeleken met het echte label (‘links’ of ‘midden’). Hieruit wordt de nauwkeurigheid berekend: het aantal correcte voorspellingen.

Dit proces (vanaf het random kiezen van trainen testdata tot het berekenen van de nauwkeurigheid) wordt 5000 maal herhaald, zodat elke keer een andere combinatie van trainen testdata ontstaat. Hierdoor vermindert de invloed van anomalieën (outliers), wat een

betrouwbaarder evaluatie oplevert. De 5000 herhalingen zijn gekozen omdat hiervoor convergentie van de nauwkeurigheden plaatsvindt (zie Figuur 1). Na afloop is de gemiddelde nauwkeurigheid van elk algoritme berekend door alle nauwkeurigheden te delen door het aantal herhalingen. Deze bleek voor alle algoritmes rond 50% of lager te liggen: even goed als willekeurig voorspellen. Uit deze evaluatie bleek dat de algoritmes met deze datastructuur geen verbanden konden ontdekken. Dit komt waarschijnlijk door een te groot aantal features of een te kleine dataset. Daarom is gekozen voor een andere datastructuur, resulterend in andere features en een andere dataset.

Methode 2: Per fixatie voorspellen

In plaats van een heatmap-achtige datastructuur per proefpersoon wordt ditmaal gekozen voor features gebaseerd op individuele fixaties van proefpersonen. De volgende 5 features worden gebruikt: gaze duration (in ms), x- en y-coördinaat (in pixels), AOI (links), AOI (midden). Belangrijk is dat nu niet meer per proefpersoon wordt gekeken, maar per fixatie. Daardoor zijn meer datapunten beschikbaar: 602 datapunten van de priming-groep en 259 datapunten van de controlegroep.

Deze data worden willekeurig verdeeld in 80% train data en 20% test data, zodat beide klassen in beide datasets voorkomen. De toepassing van de leer-algoritmen is grotendeels gelijk gebleven. Een extra voorspeller wordt toegevoegd: een combinatie van algoritmes met de beste performance. Deze kijkt per datapunt naar voorspellingen van de algoritmes en kiest de meest voorkomende voorspelling als eigen voorspelling. Op deze manier worden mogelijk goede eigenschappen van algoritmen gecombineerd.

Na 5000 herhalingen zijn bijna alle nauwkeurigheden rond de 70%. Altijd ‘links’ voorspellen geeft ook een nauwkeurigheid van 70%. Dit komt door een ongelijke verdeling van datapunten (602 : 259), ongeveer 70% (experimenteel) tot 30% (controle). De algoritmes zijn daardoor grotendeels op de data van de experimentele groep getraind en voorspellen daardoor (bijna) altijd ‘links’. Ook dit zijn geen goede voorspellers, omdat altijd ‘links’ voorspellen even goed is.

(13)

Om dit probleem op te lossen wordt de techniek gebruikt waarbij willekeurig data van de overgerepresenteerde klasse verwijderd wordt. Daardoor neemt de grootte van deze dataset af. Dit wordt zo gedaan dat beide klassen bijna evenveel datapunten hebben. Tijdens elke herhaling wordt deze data willekeurig verwijderd, zodat gevarieerd wordt getraind en getest.

Na 5000 herhalingen worden opnieuw de gemiddelde nauwkeurigheden berekend. Ditmaal levert het hogere nauwkeurigheden op die in de resultaten beschreven staan.

RESULTATEN

Statistische analyse

Voor de analyse van de data uit experiment 1 is gezocht naar hoe vaak (fixation count) en hoe lang (fixation duration) de deelnemers naar de linkerkant van het scherm keken tijdens het herinneren van woordjes. Bij het herinneren keken de deelnemers naar ‘Whitescreen’, zoals beschreven in de methodesectie. Op dat Whitescreen is een AOI gemaakt. Het einde van de AOI valt precies in het midden tussen de twee sets woorden van de controle- en experimentele groep (zie Afbeelding 6 & 7). Op de visualisaties is te zien dat veel proefpersonen buiten de randen van het scherm keken, dit zijn fixatiepunten in het grijze gebied. Omdat deze datapunten wel informatie bieden over al dan niet naar links kijken, is gekozen de AOI deels buiten het scherm te leggen. Hierbij is gekozen outliers buiten de AOI te houden, zoals te zien op de afbeeldingen.

Afbeelding 6. Visualisatie data eye tracker van alle proefpersonen (N=10) van de controleconditie op Whitescreen, tot 45 seconden. De area of interest is in het roze aangegeven.

(14)

Afbeelding 7. Visualisatie data eye tracker van alle proefpersonen (N=10) van de experimentele conditie op Whitescreen, tot 45 seconden. De area of interest is in het groen aangegeven.

Alleen de data van de eerste 45 seconden van het Whitescreen zijn meegenomen, omdat niet alle proefpersonen even lang over dit deel van de taak deden. Aangezien proefpersonen woorden mochten opnoemen tot ze niets meer wisten, waren er proefpersonen die na 45 seconden geen woorden meer konden herinneren, waar anderen soms tot 120 seconden doorgingen. De begrenzing zorgt dat de tijd die proefpersonen kregen geen invloed heeft op het aantal datapunten per

proefpersoon en daarmee niet voor een scheef beeld zorgt in de analyse. Het totale aantal fixaties kwam voor de experimentele groep op 580 seconden tegenover 412 seconden voor de

controlegroep.

Volgens onze hypothese zou inderdaad een verband gevonden worden waarbij proefpersonen vaker terug keken naar links als de stimulus daar was gepresenteerd. Om de hypothese te toetsen werd gekeken of het aantal datapunten in het groene vlak (experimentele conditie) groter was dan in het roze vlak (controleconditie), en of het aantal seconden dat mensen spenderen in het groene vlak groter was dan in het roze vlak. De data zijn geanalyseerd met het programma RStudio.

Fixation count

De data in de experimentele conditie zijn niet normaal verdeeld (zie Tabel 1), W=106, p=0,002986. De data in de controleconditie zijn ook niet normaal verdeeld, W=0,5347, p=3,998e-06. Met de non-parametrische vervanger van de t-toets, de Mann-Whitney-Wilcoxon Test, is gevonden dat

deelnemers in de experimentele conditie significant meer naar de AOI keken dan deelnemers in de controleconditie, p=0,002986.

Fixation duration

De data is in beide condities is normaal verdeeld (zie Tabel 1). Met een t-toets is gevonden dat deelnemers in de experimentele conditie significant langer naar de AOI keken dan deelnemers in de controleconditie, p=0,02559.

Tabel 1 laat de gebruikte data zien. Het verschil tussen beide groepen is goed te zien, evenals dat de data bij fixation count niet normaal verdeeld is. Dit komt met name door proefpersoon Ctrl_07. Deze zorgt voor een groot deel van de ‘counts’, namelijk 22. Daarnaast zijn bij de controleconditie enkele

(15)

nulwaardes te zien. Dit betekent dat deze deelnemers niet naar de linkerkant van het scherm hebben gekeken. Deze data worden wel meegenomen in de analyse, vandaar de keuze voor ‘Include Zeros’.

Tabel 1. Datatabel ‘Whitescreen’ experimentele (N=10) en controleconditie (N=10) voor de

gemiddelden van de fixation count (in aantallen) en fixation duration (in seconden) binnen de area of interest van de twee groepen met proefpersonen, tot 45 seconden.

Tobii Studio geeft bij elke deelnemer met een percentage aan in hoeverre de ET erin geslaagd is oogbewegingen van de deelnemer te registreren. Deze percentages lopen uiteen van 54% tot 94%. Er is een controle gedaan op de invloed van deze percentages tussen groepen. De experimentele conditie heeft een gemiddelde van 72%, de controleconditie 77%. De percentages in de

controleconditie zijn niet normaal verdeeld, W=0,7849, p=0,009506. Met de non-parametrische vervanger van de t-toets, de Mann-Whitney-Wilcoxon Test, is gevonden dat de percentages in beide groepen niet significant van elkaar verschillen, p=0,1805. Met deze bevindingen kan worden gesteld dat de gevonden resultaten bij fixation count en duration niet kunnen worden verklaard door een verschil in de prestatie van de ET en in hoeverre oogbewegingen van de deelnemers zijn

geregistreerd. Machine learning

Met de gevonden data uit experiment 1 is met verschillende algoritmes geprobeerd een goede voorspeller te maken (zie Figuur 1)

(16)

Figuur 1. Nauwkeurigheden voor zes algoritmes bij verschillende aantallen herhalingen. Zoals men kan zien verandert de nauwkeurigheid bij de 5000 iteraties nauwelijks meer. Als gevolg van deze convergentie is 5000 herhalingen als meetpunt gekozen voor de gemiddelde nauwkeurigheid. In Tabel 2 zijn de nauwkeurigheden van de gebruikte algoritmes voor methode 2 weergegeven. Ook zijn de nauwkeurigheden van altijd ‘links’ of altijd ‘rechts’ voorspellen weergegeven. De hoogst behaalde nauwkeurigheid is 75.5%.

Algoritme Gemiddelde nauwkeurigheid

Neural Networks +/- 50% K-Nearest Neighbors 65.4% Logistic Regression 70.9% Decision Trees 72.6% Gradient Boosting 74.2% Random Forest 75.5%

Combinatie van bovenstaande algoritmes 74.4%

Altijd ‘links’ voorspellen 50.6%

Altijd ‘rechts’ voorspellen 49.4%

Altijd willekeurig voorspellen +/- 50%

Tabel 2. Gemiddelde nauwkeurigheden van de verschillende algoritmes na 5000 herhalingen.

(17)

DISCUSSIE & CONCLUSIE

In dit praktische onderzoek is geprobeerd antwoord te geven op twee vragen: is het effect waarbij ogen terugkijken naar de locatie van de originele stimulus tijdens recall te repliceren, en is het mogelijk met deze data een leer-algoritme te maken dat kan voorspellen waar de stimulus zich bevond, op basis van oogbewegingen? In bredere zin wilde dit onderzoek bekijken of het mogelijk is een applicatie te ontwikkelen voor Google Glass waarbij met behulp van een ET patronen van oogbewegingen herkend kunnen worden als specifieke situaties waarvoor gerichte acties nodig zijn. Te denken valt hierbij aan het zetten van een kopje koffie of het lopen van de route naar de

supermarkt.

Ons onderzoek verliep niet altijd gestructureerd. Het was vervelend toen de ET verplaatst bleek zonder ons medeweten en afspraken maken ging niet altijd volgens plan. Wel heeft iedereen zijn best gedaan en unieke bijdragen geleverd aan het onderzoek, waardoor we elkaar goed konden aanvullen.

Met betrekking tot ons praktische onderzoek kunnen enkele kanttekeningen worden gezet bij de opzet en uitvoer.

Om het beginnen is het leren van woorden niet de meest geschikte taak om dit effect te onderzoeken. In andere studies wordt gebruik gemaakt van afbeeldingen, waar tijdens recall vragen over gesteld worden in het kader van de grootte of inhoud. Woorden zijn wellicht iets te eenvoudig te onthouden: ingewikkelder stimuli zouden sterkere resultaten kunnen geven.

Verder deden weinig proefpersonen mee aan dit onderzoek. Twintig in totaal, tien per groep. Voor de statistische analyse bleken twintig proefpersonen genoeg, maar in de aangehaalde literatuur in de inleiding worden minimaal dertig proefpersonen gebruikt. Met meer proefpersonen zal waarschijnlijk ook de performance van de ML algoritmen omhoog gaan.

Bovendien heeft niet elke proefpersoon hetzelfde percentage geregistreerde

oogbewegingen. Hoewel dit tussen de groepen niet significant verschilt, betekent het dat de ET niet bij iedereen alle oogbewegingen heeft meegenomen. Dit kan te maken hebben met het feit dat de belangrijkste taak aan het einde van het experiment zat, waardoor proefpersonen wellicht meer moeite hadden met stilzitten dan aan het begin van de taak.

Daar komt bij dat in de instructies niet is vermeld dat proefpersonen specifiek naar het scherm moesten te kijken. Dit is gedaan omdat het teveel de nadruk zou leggen op het belang van naar het scherm kijken, waardoor de proefpersonen zich misschien te bewust zouden worden van hun ogen en zouden gaan staren. In plaats daarvan is alleen vermeld dat proefpersonen hun hoofd stil moesten houden. Wellicht heeft dit gezorgd dat proefpersonen hun ogen sloten of op een dusdanige manier bewogen dat ze niet te registreren waren door de ET.

Het totale aantal fixatiepunten tussen de groepen tijdens recall verschilt: de ET heeft 580 seconden van de experimentele groep geregistreerd, tegenover 412 seconden bij de controlegroep, zelfs na correctie voor het aantal seconden dat proefpersonen kregen om woorden uit het geheugen op te halen. Dit verschil zou een verklaring kunnen zijn voor het significante resultaat, hier kan niet voor gecontroleerd worden achteraf omdat dit verschil van tevoren niet was verwacht.

Desondanks leverde ons onderzoek voor beide condities significante resultaten op. Dit is in lijn met eerdere empirische studies. Voor vervolgonderzoek kan het beste worden gewerkt met meer proefpersonen, met een taak die voor de proefpersonen wat lastiger is, waardoor de kans groter is dat zij hun ogen zullen gebruiken om het geheugen te ondersteunen.

(18)

Van de 20 proefpersonen bleken 16 datasets bruikbaar voor ML. Dit leverde beperkingen voor deze toepassing. Met een grote hoeveelheid data kunnen patronen in de data beter worden herkend. Met weinig proefpersonen is dit lastig en worden de leer-algoritmen niet optimaal getraind. Een oplossing zou het vergoten van de dataset zijn door meer proefpersonen te gebruiken, zodat de algoritmen beter worden getraind en de nauwkeurigheid omhoog gaat. Dit was binnen de beperkte tijd van dit onderzoek niet mogelijk.

Een andere manier om de nauwkeurigheid te vergroten bij een kleine dataset is verminderen van het aantal features. Het verminderen van het aantal features van 15 naar 5 bleek een positief effect te hebben op de nauwkeurigheid. Een nadeel is dat informatie wordt genegeerd: er wordt naar losse fixaties gekeken en niet naar het geheel. Daardoor worden mogelijke verbanden misschien niet gevonden.

Verder belangrijk is dat fixatiepunten die buiten het scherm vielen niet werden geëxporteerd in de ruwe data, waardoor bruikbare data verloren ging. Het toevoegen van deze data zou de modellen waarschijnlijk beter trainen, waardoor nauwkeurigheid omhoog gaat.

Ook zijn de data die worden gebruikt voor ML hun temporele eigenschap kwijt; alle data worden behandeld alsof ze op hetzelfde tijdstip zijn verzameld. Misschien is tijd ook een indicatieve feature en kan het in vervolgonderzoek worden gebruikt.

Ten slotte zijn met dit onderzoek zijn maar twee klassen getest: woorden stonden links of woorden stonden in het midden. In werkelijkheid kunnen woorden overal staan; een nuttig vervolgonderzoek zou dit effect op meer dan twee klassen kunnen onderzoeken. Dit is net zo de moeite waard als het aantal proefpersonen verhogen.

Aan de hand van de door dit onderzoek verzamelde data en gekozen datastructuur is het Random Forest algoritme het meest effectief gebleken in het voorspellen van de locatie van de woorden. Dit algoritme doet in 75.7% van de gevallen een correcte voorspelling.

Conclusie

In dit onderzoek is een poging gedaan met literatuurstudie en praktisch onderzoek te bekijken of het mogelijk is een applicatie te ontwikkelen voor Google Glass die gebruikt zou kunnen worden als MMS voor dementerenden. Voor deze mensen wordt zelfstandig leven steeds lastiger en een dergelijk systeem kan hen helpen langer onafhankelijk te blijven.

Uit de literatuur is te concluderen dat een MMS voor dementerenden mogelijk moet zijn. De Glass zou onderdeel worden van het cognitieve systeem van dementerenden en daarmee voor hen onmisbaar worden. Hiervoor is nodig dat de Glass adequaat is ingericht om deze functie te vervullen. Daarvoor moeten oogbewegingen herkenbaar zijn voor de Glass en kan deze alleen gebruikt worden in terugkerende situaties waar oogbewegingen hetzelfde zijn. Ook is de Glass alleen geschikt voor licht tot gemiddeld dementerenden, vanwege de aftakeling van de ogen bij dementie. Dit betekent dat het leer-algoritme zeer specifiek afgestemd moet zijn op oogbewegingen van de drager: veel testmomenten zijn nodig om een goede voorspelling te doen.

Een echte applicatie die in Google Glass gebruikt zou kunnen worden is momenteel nog niet voorhanden. Op basis van ons praktische onderzoek valt in ieder geval te concluderen dat het mogelijk is een leer-algoritme te maken dat redelijk in staat is te voorspellen bij welke patronen oogbewegingen horen. Dit moet verbeterd worden om de applicatie werkbaar te maken. Daarvoor moet voor specifieke dragers wordt bijgehouden hoeveel oefenmomenten met de Glass nodig zijn om tot een dataset te komen die door het leer-algoritme te gebruiken is om betrouwbare

(19)

Hiervoor zijn ten eerste veel trainingsdata nodig. Bovendien zijn features nodig als locatie, tijd, huidige staat van dementie, en een grote hoeveelheid features die patronen in oogbewegingen representeren. Daarbij is de temporele eigenschap van belang.

De applicatie waarin dit leer-algoritme verwerkt wordt, moet de te herkennen patronen kunnen koppelen aan gerichte acties op basis van classificatie.

Tot slot zijn clinical trials nodig om te observeren of dementerende mensen daadwerkelijk goed met de Glass kunnen omgaan en de bril het gewenste effect heeft: het ondersteunen van dementerenden bij alledaagse, veelvoorkomende handelingen. Als dit positief uitpakt, kunnen zij hier bijzonder mee geholpen zijn.

LITERATUUR

Alzheimer Nederland (2016). Cijfers en feiten over dementie. via: https://www.alzheimer-nederland.nl/sites/default/files/directupload/factsheet-dementie-algemeen.pdf

Anderson, T. J., & MacAskill, M. R. (2013). Eye movements in patients with neurodegenerative disorders. Nature Reviews. Neurology, 9(2), 74–85.

Armstrong, R. A., & Kergoat, H. (2015). Oculovisual changes and clinical considerations affecting older patients with dementia. Ophthalmic and Physiological Optics, 35(4), 352–376.

Bishop, C. (2006). Pattern recognition. Machine Learning.

Braaten, J. (2014). Google Patents More Eye-Tracking Technology for Glass. Glass Alamanac, via: http://glassalmanac.com/google-patents-eye-tracking-technology-glass/2426/

Bylsma, F. W., Rasmusson, D. X., Rebok, G. W., Keyl, P. M., Tune, L., & Brandt, J. (1995). Changes in visual fixation and saccadic eye movements in Alzheimer’s disease. International Journal of Psychophysiology, 19(1), 33–40.

CBS (2015). Sterfte aan dementie gestegen tot 12,5 duizend. via: https://www.cbs.nl/nl-nl/nieuws/2015/38/sterfte-aan-dementie-gestegen-tot-12-5-duizend

Clark, A. (2009). Memento’s Revenge: The Extended Mind, Extended. MIT Press. Clark, A. & Chalmers, D. (1998). The Extended Mind. analysis, 58(1), 7-19

Cornsweet, T. (1958) New Technique for the Measurement of Small Eye Movements. J. Opt. Soc. Am.48, 808-811.

Crawford, T. J., Higham, S., Renvoize, T., Patel, J., Dale, M., Suriya, A., & Tetley, S. (2005). Inhibitory control of saccadic eye movements and cognitive impairment in Alzheimer’s disease. Biological Psychiatry, 57(9), 1052–1060.

Eadiccio, L. (2015). See the new version of Google’s wildest product. TIME, via: http://time.com/4163067/google-glass-2-photos-2015/

(20)

El Naqa, I., & Murphy, M. J. (2015). What Is Machine Learning?. Machine Learning in Radiation Oncology (pp. 3-11).

Farr, C. (2014). Start-up launches ‘first wearable health record’ for Google Glass. Reuters, via: http://www.reuters.com/article/us-google-health-idUSKBN0EN2MG20140612

Fodor, J. A. (1985). Fodor's guide to mental representation: The intelligent auntie's vade-mecum. Mind, 94(373), 76-100.

Froese, T., Gershenson, C., & Rosenblueth, D. A. (2013). The dynamically extended mind: A Minimal Modeling Case Study. 2013 IEEE Congress on Evolutionary Computation, CEC 2013.

Garloch, K. (2015). Charlotte doctor: Google Glass saves time, helps me put focus on patients. The Charlotte Observer, via:

http://www.charlotteobserver.com/living/health-family/karen-garloch/article45336984.html

Hannula, D. E., & Ranganath, C. (2009). The Eyes Have It: Hippocampal Activity Predicts Expression of Memory in Eye Movements. Neuron.

Jacob, R. J., & Karn, K. S. (2003). Eye tracking in human-computer interaction and usability research: Ready to deliver the promises. Mind, 2(3), 4.

Jarvis, B. (2014). Evaluating the Extended Mind. Philosophical Issues, 24 (1): 209-229. Johansson, R., & Johansson, M. (2014). Look here, eye movements play a functional role in memory retrieval. Psychological Science, 25(1), 236-242.

Jumreornvong, O. (2015). When Old Meets New: Google Glass and The Elderly. Stanford Journal of Medical Health, via: http://web.stanford.edu/group/sjph/cgi-bin/sjphsite/when-old-meets-new-google-glass-and-the-elderly/

Laeng, B., & Teodorescu, D.-S. (2002). Eye scanpath during visual imagery reenact those of perception of the same visual scene. Cognitive Science, 26, 207–231.

Laeng, B., Bloem, I. M., D’Ascenzo, S., & Tommasi, L. (2014). Scrutinizing visual images: The role of gaze in mental imagery and memory. Cognition,131(2), 263-283.

Liberati, G., Da Rocha, J. L. D., Van Der Heiden, L., Raffone, A., Birbaumer, N., Olivetti Belardinelli, M., & Sitaram, R. (2012). Toward a brain-computer interface for Alzheimer's disease patients by combining classical conditioning and brain state classification. Journal of Alzheimer's Disease, 31(s3), S211-S220.

Majaranta, P., & Bulling, A. (2014). Eye tracking and eye-based human–computer interaction. Advances in physiological computing (pp. 39-65). Springer London.

Meister, M. L., & Buffalo, E. A. (2015). Getting directions from the hippocampus: The neural connection between looking and memory. Neurobiology of learning and memory.

Menary, R. (2010). Cognitive Integration and the Extended Mind. MIT Press. Miller, C. (2013). Google Searches for Style. The New York Times, via:

http://www.nytimes.com/2013/02/21/technology/google-looks-to-make-its-computer-glasses-stylish.html

Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2012). Foundations of machine learning. MIT press.

Nosta, J. (2013). Inside The Operating Room With Google Glass. Forbes, via: http://www.forbes.com/sites/johnnosta/2013/06/21/google-glass-in-the-operating-room/#2c8cbc4c5d61

Ortiz-Rosario, A. & Adeli, H. (2013). Brain-computer interface technologies: from signal to action. Reviews in the Neurosciences. 24(5): 537-552.

(21)

Pierce, K., Marinero, S., Hazin, R., McKenna, B., Barnes, C. C., & Malige, A. (2016). Eye tracking reveals abnormal visual preference for geometric images as an early biomarker of an autism spectrum disorder subtype associated with increased symptom severity. Biological psychiatry, 79(8), 657-666.

Putnam, H. (1960). Minds and machines. Prentice-Hall, Inc.

Richardson, D. C., & Spivey, M. J. (2004). Eye tracking: Characteristics and methods. Encyclopedia of biomaterials and biomedical engineering, 568-572.

Risko, E. & Gilbert, S. (2016). Cognitive Offloading. Trends in Cognitive Sciences. RIVM (2014). Dementie. via:

http://www.eengezondernederland.nl/Trends_in_de_toekomst/Ziekten/Dementie

Schölz, A., von Helversen, B., & Rieskamp, J. (2015). Eye movements reveal memory processes during similarity-and rule-based decision making. Cognition, 136, 228-246.

Searle, J. R. (1980). Minds, brains, and programs. Behavioral and brain sciences, 3(03), 417-424.

Spivey, M. J., & Geng, J. J. (2001). Oculomotor mechanisms activated by imagery and memory: Eye movements to absent objects. Psychological Research.

Staudte, M., & Altmann, G. T. M. (2008). Recalling what was where when seeing nothing there. Psychonomic Bulletin & Review.

Thompson, J. T., & Clayton, K. N. (1974). Presentation modality, rehearsal-prevention conditions, and auditory confusions in tests of short-term memory. Memory & cognition, 2(3), 426-430.

Tulving, E., & Schacter, D. L. (1990). Priming and human memory systems. Science, 247(4940), 301-306.

Vradenburg, G. (2014). Alzheimer’s: Google Glass As A Brain Prosthetic. The Huffington Post, via:

http://www.huffingtonpost.com/george-vradenburg/alzheimers-google-glass-as-brain-prosthetic_b_4637488.html

Wantz, A. L., Martarelli, C. S., & Mast, F. W. (2016). When looking back to nothing goes back to nothing. Cognitive processing, 17(1), 105-114.

Wedel, M., & Pieters, R. (2014). Brand Search Benefits of Online Advertising: An Eye-Tracking Experiment. Marketing Dynamics Conference.

(22)

APPENDIX A. Uitleg leer-algoritmes machine learning

K-Nearest Neighbours is een simpel algoritme waarbij wordt gekeken naar de features en welke

klasse het dichtst bij is volgens euclidische afstand (Bishop, 2006). Hierbij wordt gekeken naar de K-punten die het dichtbij liggen. Het model leert van voorbeelden en classificeert een nieuwe set features op basis van de totale kleinste afstand van features tot een van de voorbeelden (Bishop, 2006).

Decision Trees is een simpel algoritme gebaseerd op een boom. Elke splitsing splitst de data op in

een zekere grenswaarde van een bepaalde feature (Bishop, 2006). Hierbij wordt er als eerst gesplitst bij features die het best (lijken te) voorspellen. Uiteindelijk wordt bij de zogenaamde leaf nodes een klasse bepaald (Bishop, 2006).

Random Forest traint een model door meerdere keren Decision Trees te runnen en er een

gemiddelde van te nemen als getraind model. Dit zorgt voor een verkleinde kans op overfitting, wat bij Decision Trees vaak het geval is.

Gradient Boosting is een model dat zijn voorspelling doet op basis van meerdere modellen (vaak

beslisbomen) om zo een betere voorspelling te krijgen. Het lijkt op Random Forest, maar gebruikt kleinere en daarmee ‘zwakkere’ beslisbomen. Waar Random Forest meer kans heeft op overfitting, heeft Gradient Boosting meer kans op underfitting.

Logistic Regression is een iteratief algoritme, waar uiteindelijk met een formule voorspeld kan

worden bij welke klasse features horen (Bishop, 2006). Eerst leert het model van voorbeelden via een iteratief proces. Er wordt een hypothese

h(x )=

1 1+e

−θTx opgesteld, waarbij

θ

de gewichten van de features voorstelt, x zijn de features en h(x) is de klasse die wordt voorspelt. De gewichten θ worden elke iteratie een beetje bijgesteld, zodat het uiteindelijk past bij de data van de voorbeelden. Wanneer een nieuwe set features komt is het de bedoeling dat dit model voorspelt tot welke klasse het behoort (Bishop, 2006).

Artificial Neural Networks is een speciale vorm van machine learning, gebaseerd op logistic

regression, maar dan met meer lagen (Yegnanarayana, 2009). Logistic regression geeft de

mogelijkheid te classificeren op basis van features. Een Artificial Neural Network doet dit ook, maar gebruikt complexere verbanden om data te classificeren (Yegnanarayana, 2009).

(23)

APPENDIX B. Python-code (Jupyter Notebook) voor machine learning

# UvA - Bèta Gamma - 2017 - THEMA 3

# Python code for the Machine Learning part, using sklearn # Fabienne Meijer (10524479, major Wijsbegeerte) # Fried Schölvinck (10729267, major Brein & Cognitie) # Michelle Appel (10170359, major Kunstmatige Intelligentie) # Nils Hulzebosch (10749411, major Kunstmatige Intelligentie) # imports importcsv importrandom importmath importtime importoperator importnumpyasnp importmatplotlib.pyplotasplt

fromrandomimport randint

fromsklearn.neighborsimport KNeighborsClassifier fromsklearnimport linear_model

fromsklearnimport tree

fromsklearn.ensembleimport GradientBoostingClassifier fromsklearn.ensembleimport RandomForestClassifier

# reading in data from csv file

defread_data(filename): withopen(filename, 'rU') as f: f.readline()

return [[float(x) for x in row] for row in csv.reader(f, delimiter=',')]

# every file stores the gaze, x and y data and AOIs from one person

prime1 = read_data("prime1.csv") prime2 = read_data("prime2.csv") prime3 = read_data("prime3.csv") prime4 = read_data("prime4.csv") prime5 = read_data("prime5.csv") prime6 = read_data("prime6.csv") prime7 = read_data("prime7.csv") prime8 = read_data("prime8.csv") prime9 = read_data("prime9.csv") control1 = read_data("control1.csv") control2 = read_data("control2.csv") control3 = read_data("control3.csv") control4 = read_data("control4.csv") control5 = read_data("control5.csv") control6 = read_data("control6.csv") control7 = read_data("control7.csv")

# from all files apart, make one big list for prime and one for control, # with each index being a list of 5 features (gaze, x, y, AOI-left, AOI-centre)

deftransformAllData(data): allData = []

counter =0

for data_file in data: for datapoint in data_file:

allData.insert(counter, datapoint) counter +=1

return allData

(24)

# get one column form a matrix

defcolumn(matrix, i):

return [row[i] for row in matrix]

# get all data

allPrimeFiles = [prime1, prime2, prime3, prime4, prime5, prime6, prime7, prime8, prime9] allPrimeData = transformAllData(allPrimeFiles) # has 602 samples

allControlFiles = [control1, control2, control3, control4, control5, control6, control7, control8] allControlData = transformAllData(allControlFiles) # has 259 samples

# randomly choose training (roughly 80%) and test (roughly 20%) data

defdetermineTrainingAndTestData(prime, control): train_X = [] train_Y = [] test_X = [] test_Y = [] train_counter =0 test_counter =0

for primeData in prime:

# exclude some samples from the first class to solve the problem of skewed class-distribution

if random.uniform(0, 1) >0.58: if random.uniform(0, 1) <0.8:

train_X.insert(train_counter, primeData) train_Y.insert(train_counter, 1)

train_counter +=1

else:

test_X.insert(test_counter, primeData) test_Y.insert(test_counter, 1)

test_counter +=1

for controlData in control: if random.uniform(0, 1) <0.8:

train_X.insert(train_counter, controlData) train_Y.insert(train_counter, 0)

train_counter +=1

else:

test_X.insert(test_counter, controlData) test_Y.insert(test_counter, 0)

test_counter +=1

return train_X, train_Y, test_X, test_Y

# K NEAREST NEIGHBORS CLASSIFICATION

defKNNClassif(train_X, train_Y, test_X, test_Y): KNNClass = KNeighborsClassifier(n_neighbors =5) KNNClass.fit(train_X, train_Y)

KNNClassScore = KNNClass.score(test_X, test_Y) KNNClassPred = KNNClass.predict(test_X) return KNNClassScore, KNNClassPred

# DECISION TREES (CLASSIFICATION)

defDecisionTreesClassif(train_X, train_Y, test_X, test_Y): DCClass = tree.DecisionTreeClassifier()

DCClass = DCClass.fit(train_X, train_Y) DCClassScore = DCClass.score(test_X, test_Y) DCClassPred = DCClass.predict(test_X) return DCClassScore, DCClassPred

# GRADIENT BOOSTING (CLASSIFICATION)

defGradientBoostingClassif(train_X, train_Y, test_X, test_Y):

GBClass = GradientBoostingClassifier(n_estimators =100, learning_rate =1.0, max_depth =1, random_state =0).fit(train_X, train_Y)

(25)

GBClassScore = GBClass.score(test_X, test_Y) GBClassPred = GBClass.predict(test_X) return GBClassScore, GBClassPred

# RANDOM FOREST (CLASSIFICATION)

defRandomForestClassif(train_X, train_Y, test_X, test_Y): RFClass = RandomForestClassifier(n_estimators =10) RFClass = RFClass.fit(train_X, train_Y)

RFClassScore = RFClass.score(test_X, test_Y) RFClassPred = RFClass.predict(test_X) return RFClassScore, RFClassPred

# LOGISTIC REGRESSION

defLogisticRegr(train_X, train_Y, test_X, test_Y): LR = linear_model.LogisticRegression() LR.fit(train_X, train_Y)

LRScore = LR.score(test_X, test_Y) LRPred = LR.predict(test_X) return LRScore, LRPred

# compare all votes from the learning algorithms and choose the highest occurence # of either 0 or 1 as the label for the prediction

defvoteForClassX(test_Y, allPredictions):

current_predictions = []

for i inrange(len(test_Y)): votes = []

for j inrange(len(allPredictions)):

votes.insert(j, round(allPredictions[j][i]))

zeros = (votes).count(0)

if zeros >= (len(votes) /2): current_predictions.insert(i, 0) else:

current_predictions.insert(i, 1)

return getAccuracy(test_Y, current_predictions) # return accuracy after voting # calculate accuracy by looking at difference betwen prediction and real

defgetAccuracy(real, predicted): correct =0

for i inrange(len(real)):

iffloat(real[i]) ==float(predicted[i]): correct +=1

returnfloat(correct) /len(real)

# run all learning algorithms for a certain amount of iterations and calculate average accuracies

defrunAlgorithms(prime, control, iterations): LRAcc =0 KNNClassAcc =0 DCClassAcc =0 GBClassAcc =0 RFClassAcc =0 alwaysZeroAcc =0 alwaysOneAcc =0 combinedAcc =0

for i inrange(iterations):

train_X, train_Y, test_X, test_Y = determineTrainingAndTestData(prime, control)

(26)

KNNClassPred = KNNClassif(train_X, train_Y, test_X, test_Y)[1] DCClassPred = DecisionTreesClassif(train_X, train_Y, test_X, test_Y)[1] GBClassPred = GradientBoostingClassif(train_X, train_Y, test_X, test_Y)[1] RFClassPred = RandomForestClassif(train_X, train_Y, test_X, test_Y)[1] LRAcc += getAccuracy(LRPred, test_Y)

KNNClassAcc += getAccuracy(KNNClassPred, test_Y) DCClassAcc += getAccuracy(DCClassPred, test_Y) GBClassAcc += getAccuracy(GBClassPred, test_Y) RFClassAcc += getAccuracy(RFClassPred, test_Y)

alwaysZeroAcc += getAccuracy(np.zeros(len(test_Y)), test_Y) alwaysOneAcc += getAccuracy(np.ones(len(test_Y)), test_Y)

allPredictions = [DCClassPred, GBClassPred, RFClassPred, LRPred, KNNClassPred] combinedAcc += voteForClassX(test_Y, allPredictions)

print"LOGISTIC REGRESSION: ", float(LRAcc) / iterations

print"K NEAREST NEIGHBORS (CLASSIFICATION): ", float(KNNClassAcc) / iterations print"DECISION TREES (CLASSIFICATION): ", float(DCClassAcc) / iterations print"GRADIENT BOOSTING (CLASSIFICATION): ", float(GBClassAcc) / iterations print"RANDOM FOREST (CLASSIFICATION): ", float(RFClassAcc) / iterations print"COMBINED ALGORITHMS ACCURACY: ", float(combinedAcc) / iterations print" "

print"ALWAYS PREDICT ZERO: ", float(alwaysZeroAcc) / iterations print"ALWAYS PREDICT ONE: ", float(alwaysOneAcc) / iterations print" "

returnNone

start = time.time()

runAlgorithms(allPrimeData, allControlData, 5000) end = time.time()