• No results found

Spoorzoeken in Leiden: Van WiFi-signalen tot bewonerkansen

N/A
N/A
Protected

Academic year: 2021

Share "Spoorzoeken in Leiden: Van WiFi-signalen tot bewonerkansen"

Copied!
37
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Spoorzoeken in Leiden

Van WiFi-signalen tot bewonerkansen

Charlotte Maria Hartman 10563997

Bachelor thesis Credits: 12 EC

Bachelor Opleiding Informatiekunde University of Amsterdam Faculty of Science Science Park 904 1098 XH Amsterdam Supervisor Dr. D. Heinhuis ILPS, IvI Faculty of Science University of Amsterdam Science Park 904 1098 XH Amsterdam 5 juli 2017

(2)

Inhoudsopgave

1 Introductie 1 1.1 City traffic . . . 1 1.2 Onderzoeksvraag . . . 1 2 Theoretisch Kader 3 2.1 WiFi Tracking . . . 3

2.2 Locatie gebaseerd profileren . . . 4

2.3 Bayesiaanse aanpak . . . 5 3 Methode 6 3.1 Signaleringen . . . 7 3.2 Kans bewoner . . . 11 4 Onderzoeksresultaten 14 4.1 Bewoneraantallen . . . 15 4.2 Validatie . . . 16 4.3 Gedragspatronen . . . 20 4.4 Herkomst bezoekers . . . 22 4.5 Stabiliteit . . . 24 5 Conclusie 24 6 Discussie 26 Referenties 28

(3)

Samenvatting

In deze scriptie is onderzocht in hoeverre WiFi-signaleringen van toestellen in winkelgebeiden herleid kunnen worden tot de woonplek van de eigenaar. Hiervoor is acht weken aan data over Leiden en omge-ving geanalyseerd. Deze data is verzameld door het onderzoeksbureau City Traffic in de winkelgebieden van Leiden.

Na een literatuuronderzoek over WiFi-tracking en locatie gebaseerd profileren, is gekozen voor een methode gebaseerd op Bayesiaanse sta-tistiek. Door middel van externe bronnen over Leiden zijn de WiFi-signaleringen omgezet naar handelbare gedragspatronen per week. Op basis van deze patronen is voor elk gesignaleerd toestel per wijk bere-kend hoe groot de kans is om bij een bewoner van die wijk te behoren. De gevonden bewoner aantallen en het gedrag van de gevonden bewoners zijn geanalyseerd. Een vergelijking met externe informatie, de stabiliteit door de tijd en uitwisseling tussen de wijken zijn gebruikt ter validatie. Ondanks de goede resultaten zijn er ook verbeterpunten, die door meer meetpunten gerealiseerd kunnen worden.

(4)

1

Introductie

1.1 City traffic

City Traffic1 is een onderzoeksbureau dat voor hun klanten in de retail-sector in de winkelgebieden van veertig gemeentes in Nederland passanten telt. Hierbij meten ze het aantal unieke bezoekers in een winkelgebied, of deze vaker terug komen (bezoekersfrequentie) en de verblijftijd van de be-zoekers (als er een duidelijke begin- en eindtijd geregistreerd is). City Traffic wil naast deze simpele tellingen van passanten ook graag koopstromen on-derzoeken. Het gaat er bij koopstromen om door aan de hand van de data te bepalen in hoeverre inwoners van de ene gemeente winkelen in andere plaatsen, of waar het winkelpubliek van verschillende winkelgebieden hun woonplek heeft. Deze koopstroominformatie is interessant voor de klan-ten van City Traffic, voornamelijk voor gemeentes en projectontwikkelaars. Koopstromen geven inzicht over het functioneren van winkelgebieden. Voor een gemeente is het interessant de verzorgingsgebieden van deze winkels te kennen, en aan de hand van deze informatie kan er gewerkt worden aan een toekomstbestendig winkelaanbod voor bewoners en bezoekers.

1.2 Onderzoeksvraag

City Traffic voert deze metingen uit door middel van meetkastjes die WiFi-signalen opvangen. Deze kastjes zijn net buiten winkels geplaatst, en vangen hiermee van alle voorbijgaande smartphones signalen op, mits deze de WiFi functie aan hebben staan. Dit levert per stad gigantische datasets aan sig-naleringen op.

Het past in het huidige Big Data tijdperk om hier mee nieuwe kennis te willen vergaren. Het is verleidelijk om te stellen dat met deze data gemak-kelijk de koopstromen van een stad te herleiden zijn, het tegenovergestelde lijkt waar. Zo zijn de observaties die City Traffic maakt onvolledig. Enkel toestellen met de WiFi functie ingeschakeld, worden gemeten. Hiernaast dekken de meetkastjes van City Traffic niet elke gemeente, en binnen een gemeente worden niet alle wijken en winkelstraten gedekt in gelijke mate. In sommige wijken zijn een tiental meetpunten aanwezig, in een andere slechts een enkele.

Verder is het gedrag van consumenten nogal wisselvallig. Ten eerste maken niet alle consumenten gebruik van WiFi buitenshuis. Dit maakt een observatie van alle smartphones al onmogelijk. Ten tweede heeft niet

1

(5)

elke consument slechts ´e´en smartphone. Sommigen hebben meerdere in hun bezit, wisselen van smartphone of lenen ze uit aan anderen. Ten derde kent het verplaatsingsgedrag van consumenten een grote diversiteit; je hebt mensen die in nachtdienst werken, die winkelen in de stad waar een familielid woont, die door winkelstraten fietsen zonder er ooit te kopen, die wonen in een winkelgebied, die hun woning nooit verlaten, et cetera.

De data van City Traffic levert geen mogelijkheid om te controleren of de uitkomsten correct en betrouwbaar zijn. Vanuit algemene gegevens buiten de data om is enige vorm van validatie mogelijk, maar niet genoeg om tot honderd procent nauwkeurigheid te komen. De data van City Traffic is wel een rijke schat aan gedragsdata waar veel mee mogelijk is. Het type persoon achter een toestel zal nooit met honderd procent zekerheid bepaald kunnen worden. Mensen later echter overal sporen achter, zo ook hier in de vorm van WiFi signaleringen. Dit leidt tot de volgende onderzoeksvraag:

In hoeverre is het mogelijk om op basis van beperkte observaties van WiFi-signalen te bepalen of een toestel bij een bewoner van een wijk behoort?

Deze onderzoeksvraag zou het bedrijf City Traffic kunnen helpen om die-pere inzichten te leveren aan hun klanten op basis van de grote hoeveelheden gegevens die ze dagelijks verzamelen. De behoefte bestaat om een set aan regels te krijgen die wekelijks kunnen worden toegepast om analyses te doen op stromen van bezoekers van de ene locatie naar de andere. Het zou ver-leidelijk zijn om de hoofdvraag gelijk met ‘niet’ te beantwoorden, aangezien een aantal factoren het onderzoek tegenwerken. De meetpunten van City Traffic bedekken niet het gehele woongebied van Leiden, niet iedereen heeft een smartphone en gebruikt daarbij WiFi buitenshuis, en het gedrag van mensen is zeer wisselend en complex. Dit leidt tot de volgende deelvragen: Deelvraag 1 Hoe kunnen gedragspatronen gebruikt worden om

woonplek-ken te herleiden?

Deelvraag 2 Hoe kunnen nieuwe observaties de voorspellingen verbeteren? Deelvraag 3 Hoe kan City Traffic hier in de toekomst verder mee werken? In de volgende sectie volgt allereerst een blik op de theorie rondom dit onderwerp. Hiervoor is gekeken naar literatuur over het gebruik van WiFi in Nederland en het volgen van mensen door middel van WiFi-signalen. Een tweede onderwerp is het locatie gebaseerd profileren waarbij gekeken wordt

(6)

naar observaties van personen, en hoe daaruit profielen opgemaakt kunnen worden. Ten derde wordt Bayesiaanse statistiek behandeld, een statisti-sche methode voor het berekenen van kansen. In sectie 3 zal de methode beschreven staan, in sectie 4 de onderzoeksresultaten met in sectie 5 de be-antwoording van de onderzoeksvraag en deelvragen. In sectie 6 staan de beperkingen van dit onderzoek, en de mogelijke uitbreidingen en aanpassin-gen voor in de toekomst.

2

Theoretisch Kader

2.1 WiFi Tracking

De meetkastjes van City Traffic vangen WiFi-signalen op van voorbijko-mende smartphones. Als op een smartphone de WiFi functie ingeschakeld is, zoekt dit toestel constant naar een WiFi signaal in de omgeving. De smartphone zend hiervoor met een bepaald tijdsinterval een ping uit, op zoek naar een netwerk (Falcone, Colone, Macera & Lombardo, 2012). Deze ping bevat onder andere het MAC-adres van de smartphone. Een MAC-adres is een uniek identificatienummer, en is terug te leiden naar persoonlijke infor-matie over de eigenaar. Een meetkastje van City Traffic vangt deze pings op, en slaat daarmee de MAC-adressen op van passerende smartphones.

Passanten volgen aan de hand van WiFi is helaas niet waterdicht. Er zijn verschillende factoren hier invloed op hebben. Zo is niet de gehele bevolking in het bezit van een smartphone. Begin 2015 was dit 81%, en het jaar daarvoor 72% (De Bruyckere, 2015). De tweede factor betreft het gebruik van WiFi. Van alle smartphone gebruikers maakt niet elke gebruik van WiFi. Zo blijkt uit onderzoek van TelecomNieuwsNet (2016) dat 63% van de smartphone gebruikers buitenshuis gebruik maken van WiFi netwerken. Van de smartphones waar de WiFi functionaliteit op ingeschakeld is, is er geen 100% zekerheid dat deze smartphones worden gesignaleerd door de kastjes van City Traffic. De pings die smartphones versturen om connectie te kunnen maken met netwerken, zijn niet constant. Tussen twee pings zit een tijdsverschil van enkele secondes. Het verschilt per smartphone hoeveel secondes dit precies is. Uit onderzoek van Qin, Zhang, Li en Sun (2013) is gebleken dat smartphones van Android elke vijftien secondes een ping versturen, in tegenstelling tot andere smartphones, die dit elke drie tot vijf secondes doen.

(7)

2.2 Locatie gebaseerd profileren

Het profileren van personen wordt in verschillende werkgebieden gebruikt. Enkele voorbeelden hiervan zijn bij de politie of in winkelketens. Om misda-digers snel op te kunnen pakken stelt de politie een profiel op. Op basis van de misdaad worden grote persoons- en gedragskenmerken bepaald (Douglas & Burgess, 1986), waarmee de misdadiger terug te vinden is. In winkel-ketens wordt profileren gebruikt om consumentengedrag te analyseren, en op basis van de product aankopen een profiel van de consument te schet-sen. Dit profiel kan de winkelketen gebruiken om toekomstige aankopen te voorspellen en de consumenten kortingen op maat aan te bieden (Ferguson, 2016; Duhigg, 2016; Eldering, 2001).

Bij deze twee voorbeelden wordt gebruik gemaakt van kenmerken in het gedrag om een profiel op te stellen. Voor het bepalen van identiteit kan er ook gebruik worden gemaakt van de locatie waarop de persoon wordt gesignaleerd. Een persoon kan aan de hand van zeven kenmerken worden ge¨ıdentificeerd (Marx, 1999). Deze zeven kenmerken worden ook wel de “seven dimensions of identity knowledge” genoemd, en zijn als volgt (met de Nederlandse vertaling in de rechterkolom);

1. Legal name 2. Locatability

3. Pseudonyms linked to name or location

4. Pseudonyms that are not lin-ked to name or location

(a) For policy reasons

(b) Audience does not realize it’s a pseudonym 5. Pattern knowledge 6. Social categorization 7. Symbols of (non)eligibility 1. Legale naam 2. Vindbaarheid

3. Pseudoniemen verbonden aan namen of locaties

4. Pseudoniemen niet verbonden aan namen of locaties

(a) Om beleidsredenen (b) Publiek weet niet dat het

een pseudoniem is. 5. Patronenkennis

6. Sociale categorisatie

7. Symbolen van (non)subsidiabiliteit Voor het profileren vanuit observaties zijn enkele van deze dimensies re-levant. “Pattern knowledge” (patronenkennis) stelt dat de patronen in het stedelijke leven ervoor zorgt dat we mensen herkennen, ondanks dat we ze niet kennen. Mensen hebben over de dag heen vaak herhalende patronen. Zo volgen veel mensen in de ochtend hetzelfde traject op de trein of metro. Medepassagiers zullen elkaar herkennen, maar zullen elkaar vaak niet per-soonlijk kennen. Van dit principe maakt Fritsch (2008) ook gebruik. Hij

(8)

stelt dat dat profileren gebaseerd moet zijn op een set aan kenmerken voor een bepaalde groep personen. In data kan dan naar “data-holdings” gezocht worden die passen bij de kenmerken. De basis hiervan is dat een persoon tijdens de nacht op zijn of haar woonplek zal verblijven, en overdag op zijn of haar werkplek.

“Locatability” (vindbaarheid) (Marx, 1999) betreft eerder de locatie ken-nen van een persoon, en de bereikbaarheid tot die locatie. Hiermee wordt meer een waar over een persoon beantwoord, waar verblijft iemand, waar gaat iemand naar toe, dan de vraag wie de persoon daadwerkelijk is. Het identificeren aan de hand van locatie wordt in meerdere onderzoeken ge-bruikt. Mulder, Danezis, Batina en Preneel (2008) tonen in hun onderzoek aan dat het mogelijk is aan de hand van locatie gegevens van gebruikers van mobiele netwerken, de gebruikers zelf te identificeren. Deze identificatie ge-beurd aan de hand van een locatie profiel dat is opgezet op basis van eerdere bewegingen.

Fritsch (2008) toont in onderzoek ook de toepassing van deze locatie gebaseerde profilering. In dit onderzoek wordt een hypothetisch persoon over de loop van een dag gevolgd. Aan de hand van signaleringen wordt een profiel geschetst. Zo wijzen de vele signaleringen in een hotel erop dat dit hoogstwaarschijnlijk de verblijfsplaats van deze persoon is. Een signalering rond etenstijd duidt op de plek waar de persoon een avondmaaltijd nuttigt, en door middel van de signaleringen over de rest van de dag kan bepaald worden hoe de rest van de tijd gespendeerd wordt. In dit voorbeeld wordt gebruik gemaakt van op tijd gebaseerde locatie tracking. Door middel van databases over de omgeving worden de signaleringen geanalyseerd en het profiel afgemaakt.

2.3 Bayesiaanse aanpak

City Traffic ontvangt continue nieuwe data van alle meetkastjes. Dit cre¨eert de behoefte om de uitkomsten van eerdere analyses te kunnen bijstellen aan de hand van nieuwe data. In de huidige literatuur is geen vergelijk-baar onderzoek te vinden dat werkt met het bijstellen van uitkomsten. De beschreven voorbeelden richten zich meer op het profileren op een aantal aspecten of zelfs daadwerkelijk identificeren. Aangezien het voor dit onder-zoek wel van belang is om uitkomsten te kunnen bijstellen, is ervoor gekozen af te wijken van al bestaande profileer methodes. Wel zijn er aspecten en aannames uit de literatuur overgenomen en gebruikt. Om de uitkomsten te updaten zal gebruik gemaakt worden van een methode gebaseerd op Baye-siaanse statistiek. BayeBaye-siaanse statistiek is een methode voor het berekenen

(9)

van de kans dat een hypothese waar of onwaar is, op basis van waargeno-men gebeurtenissen. Bayesiaanse statistiek werkt vanuit een voorafgaand vastgestelde kans, de `a priori kans, en update deze met alle nieuw gevonden data. Op deze wijze kan voor elke hypothese berekend worden hoe groot de kans is dat deze zal plaatsvinden (McGrayne, 2011; Silver, 2012).

P (A ∩ B) = P (B ∩ A)

P (A ∩ B) = P (A|B) × P (B) = P (B|A) × P (A) (1) P (A|B) = P (B|A) × P (A)

P (B) (2)

Door de vermeningvuldigingsregels (1) te combineren, komt men op de simpele vorm van de regel van Bayes (2). Onder de noemer staat hier P (B), door middel van de wet van totale kansen (3) is deze uit te breiden tot de uitgebreide formule van Bayes (4) (Zwillinger & Kokoska, 1999).

P (B) = P (B|A) × P (A) + P (B|¬A) × P (¬A) (3)

P (A|B) = P (B|A) × P (A)

P (B|A) × P (A) + P (B|¬A) × P (¬A) (4) De waardes van deze formule kunnen door middel van een beslissings-boom worden berekend (Hacking, 2001). De eerste vertakking van deze boom gaat tussen de kans dat de hypothese waar is (P (A)) en de kans dat deze niet waar is (P (¬A)), twee kansen die samen opgeteld op ¨e¨en uitkomen. Na beide volgt een tweede vertakking tussen de kans dat de data verzameld wordt (P (B)) en de kans dat deze niet verzameld wordt (P (¬B)), ook hier-bij zijn de kansen van de twee hier-bij elkaar horende vertakkingen opgeteld ¨e¨en. Dit geeft een beslissingsboom als weergegeven in figuur 1. Vanuit de waardes voor elke vertakking kan de formule voor Bayes worden ingevuld.

3

Methode

In hoeverre is het mogelijk om op basis van beperkte observaties van WiFi-signalen te bepalen of een toestel bij een bewoner van een wijk behoort?

Om de onderzoeksvraag te kunnen beantwoorden, moeten eerst gedrags-patronen in de data herkend worden. Door middel van externe informatie

(10)

P (¬A) P (¬B|¬A) P (B|¬A) P (A) P (¬B|A) P (B|A)

Figuur 1: Beslissingsboom Bayesiaanse statistiek

over Leiden zullen de WiFi-signaleringen omgezet worden naar bruikbare in-formatie per toestel. Gedragspatronen zijn echter vrij complex, al helemaal om over acht weken tijd te analyseren. Om dat herkenbaar en handelbaar te maken, zal er per week en per wijk naar de data gekeken worden. Binnen die weken zullen de gedragspatronen in segmenten worden opgedeeld. Op basis van deze segmenten wordt vervolgens berekend hoe groot de kans is dat een toestel bij een bewoner behoort. Hiervoor zal Bayesiaanse statistiek gebruikt worden. Beginnend met een initi¨ele kans voor de eerste week aan data, zal elke nieuwe week aan data de kans bijstellen voor elk toestel om bij een bewoner te horen. Deze kansen zullen per wijk berekend worden, wat gezamenlijk een kans voor Leiden en omgeving levert.

3.1 Signaleringen

Voor dit onderzoek zijn acht weken aan data van City Traffic over Leiden gebruikt. In Leiden heeft City Traffic 41 meetkastjes staan, elk geplaatst buiten een winkel zoals weergegeven in figuur 2. Elk meetkastje vangt WiFi pings op van alle smartphones met WiFi aan die de winkel passeren. Dit levert over acht weken 11.418.185 signaleringen op. Elke signalering wordt in de database van City Traffic onder het volgende stramien opgeslagen:

BTcode - Datum - Tijd - MAC-adres

De BTcode staat voor de locatie van het meetkastje, en welke winkel deze geplaatst is. Omdat MAC-adressen persoonlijke informatie over de eigenaar van een toestel bevatten, worden deze door City Traffic versleuteld in de database opgeslagen. Door middel van textit‘hashing’ worden het MAC-adres opgeslagen in de vorm van een - eveneens unieke - maar willekeurige reeks van getallen en letters.

(11)

Figuur 2: Meetpunten City Traffic in Leiden en omliggende gemeentes

Figuur 3: Meetpunten Katwijk Figuur 4: Meetpunten centrum Lei-den

Deze signaleringen zijn omgezet naar een signalering per toestel. Hierbij is extra informatie over Leiden gebruikt om de signaleringen uit te breiden. Als eerste zijn datum en tijd omgezet naar Dag 1 tot Dag 7 en Uur 1 tot Uur 24, met een 1 voor een signalering op die dag of dat uur, en een 0 voor geen signalering. Elk MAC-adres is omgezet naar een ToestelID. De BTcode staat voor de locatie van het meetkastje.

In figuur 2 zijn alle meetkastjes op een kaart weergegeven, in figuur 3 en figuur 4 zijn de locaties van Katwijk aan Zee en Leiden Centrum

(12)

weerge-Wijknummer Wijk Inwoneraantal Gecorrigeerd 1 Leiden Centrum 87.790 44.7990 2 Zoeterwoude Rijndijk 2.570 1.311 3 Leiden Merenwijk 14.570 7.435 4 Oestgeest 22.670 11.569 5 Vijf Meiplein 18.610 9.267 6 Katwijk 0 0 7 Leiderdorp 26.910 13.732 8 Zoeterwoude Dorp 5.150 2.628 9 Voorschoten 11.160 5.695 10 Rijnsburg 15.060 7.685

11 Katwijk aan Zee 27.170 13.865

Tabel 1: Algemene gegevens wijken

geven. Om te kunnen bepalen of een toestel bij een bewoner van een wijk hoort, is het van belang om te weten in welke wijk een toestel gesignaleerd is. Hiervoor is gekeken naar de locatie van alle meetkastjes ten opzichte van el-kaar. Op basis van de verschillende winkelcentra waarin de kastjes geplaatst zijn, is een verdeling van elf wijken gemaakt. Voor elk van deze wijken is aan de hand van de postcodes opgezocht hoeveel inwoners de wijk heeft. Op basis van het smartphone en WiFi gebruik in Nederland (sectie 2.1) zijn deze aantallen ook omgerekend naar een gecorrigeerd inwoneraantal. Samen is deze informatie weergegeven in tabel 1.

De grootste wijken hierin zijn Leiden Centrum en Katwijk aan Zee. Op-vallend is Katwijk met nul inwoners. Dit inwoneraantal komt doordat dit meetpunt toebehoort aan een winkel in een industriegebied. In dit gebied zijn enkel winkels aanwezig, en geen woonhuizen. In Leiden Centrum (fi-guur 4) zijn dertien kastjes verspreid over de winkelstraten, en in Katwijk aan Zee (figuur 3) zijn dit tien meetkastjes. In de overige omliggende wijken van Leiden zijn de winkelgebieden minder groot, hooguit een of twee straten. De meetkastjes van City Traffic zijn allemaal bij winkels geplaatst, wat de kans om winkelpersoneel te signaleren zeer groot maakt. Zoals in sectie 2.2 beschreven staat, zijn mensen over het algemeen overdag op hun werk-plek, en zullen ze ‘s nachts thuis. Op basis van dit gegeven kan in wijken een onderscheid gemaakt worden tussen winkelpersoneel en overige personen (waaronder bewoners). Voor elke signalering is bepaald of deze binnen of buiten werktijd valt. Hiervoor is eerst per wijk gekeken naar de

(13)

openings-Dag Openingstijden Wijken Maandag 13.00 - 18.00 Alle Dinsdag 09.00 - 18.00 Alle Woensdag 09.00 - 18.00 Alle

Donderdag 09.00 - 18.00 Leiden Merenwijk, Oestgeest, Vijf Meiplein, Zoeterwoude dorp, Voor-schoten, Rijnsburg en Katwijk aan Zee

09.00 - 21.00 Leiden centrum, Zoeterwoude Rijn-dijk, Leiderdorp en Katwijk

Vrijdag 09.00 - 18.00 Leiden centrum, Zoeterwoude

Rijndijk, Vijf Meiplein, Leider-dorp,Katwijk en Katwijk aan Zee 09.00 - 21.00 Leiden Merenwijk, Oestgeest,

Zoeter-woude dorp, Voorschoten en Rijns-burg

Zaterdag 09.00 - 18.00 Alle

Zondag 12.00 - 17.00 Alle, behalve Vijf Meiplein, Katwijk en Katwijk aan Zee

Tabel 2: Openingstijden Leiden

tijden van de winkels (tabel 2). Aangezien winkelpersoneel ook gesignaleerd kan worden in het naar en van werk gaan, is voor het berekenen van de werk-tijd een uur voor tot een uur na de openingswerk-tijden genomen. Dit is in de data weergegeven door middel van BinnenWTijd 1 tot BinnenWTijd 7 voor sig-naleringen binnen werktijden, en BuitenWTijd 1 tot BuitenWTijd 7 voor de signaleringen buiten werktijden, beide zijn per dag van de week bekeken. Door de toevoeging van werktijden in de data, is een eerste stap in ge-dragspatronen herkenning gemaakt. Om deze patronen nog herkenbaarder te maken, zijn de signaleringen opgedeeld in segmenten. Zoals in sectie 2.2 beschreven staat, baseert Fritsch (2008) in onderzoek iemands verblijfplaats (woonplek) op het aantal keer dat iemand daar gesignaleerd wordt; meer signaleringen op een plek duiden een grotere waarschijnlijkheid aan van ie-mands woonplek. Ook stelt hij dat personen ’s nachts thuis doorbrengen, een aanname waarop de binnen en buiten werktijd verdeling is gemaakt. Samen leveren deze twee aannames een verdeling in negen segmenten op. Hiervoor is gekeken hoe vaak een toestel is gesignaleerd, en of deze

(14)

signale-ringen enkel binnen, enkel buiten of zowel binnen als buiten werktijd waren. Dit levert de segmenten als weergegeven in tabel 3. Per week is voor elk toestel bepaald in welk segment de signaleringen vielen.

Een dag Twee tot vier

dagen

Vijf tot zeven dagen

Binnen werktijd (1) 1x binnen (2) 2-4x binnen (3) 5-7x binnen Buiten werktijd (4) 1x buiten (5) 2-4x buiten (6) 5-7x buiten Binnen en buiten (7) 1x beide (8) 2-4x beide (9) 5-7x beide

Tabel 3: Segmenten

3.2 Kans bewoner

Door middel van Bayesiaanse statistiek (sectie 2.3) kan voor elk toestel be-rekend worden hoe groot de kans is dat deze bij een bewoner van elke wijk van Leiden hoort. Hierbij zijn er twee mogelijkheden, het toestel is wel gesignaleerd in een wijk, of het toestel is niet gesignaleerd. Op basis van de beslissingsboom van Bayes (sectie 2.3) is voor elke mogelijkheid een for-mule gemaakt. De beslissingsboom is als volgt opgesteld; de eerste vertak-king gaat tussen de kans op een bewoner (P (B)) en de kans op een niet bewoner(P (¬B)). De tweede vertakking gaat tussen de kans gesignaleerd te worden (P (S))en de kans niet gesignaleerd te worden (P (¬S)). Dit levert de boom zoals weergegeven in figuur 5, met aan het einde van de vier takken de kansen om wel of niet gesignaleerd te worden, gegeven dat iemand wel of niet een bewoner is.

P (¬B) P (¬S|¬B) P (S|¬B) P (B) P (¬S|B) P (S|B)

Figuur 5: Beslissingsboom kans bewoner

(15)

de waardes zijn. Deze waardes zijn op basis van de volgende vier variabelen, waarbij alle waardes gecorrigeerd zijn op het smartphone en WiFi gebruik in Nederland (sectie 2.1).

W Het aantal inwoners van een wijk I Het totaal aantal inwoners van Nederland b Het aantal gesignaleerde bewoners

n Het aantal gesignaleerde niet bewoners

P (B) en P (¬B) zijn berekend op basis van het aantal inwoners van de wijk en het aantal inwoners van Nederland. Elke bewoner van Nederland heeft een kans inwoner van een wijk in Leiden te zijn, dat maakt de kans P (B) = WI . De kans om bewoner te zijn en om niet bewoner te zijn moeten samen op ¨e¨en uitkomen, dat maakt P (¬B) = 1 − WI. Deze waardes zijn de initi¨ele kans voor elk toestel om bij een bewoner van een wijk te behoren, de `a priori kans. Enkel in de eerste week wordt deze berekening gebruikt. De uitkomst van de eerste week is de `a priori kans van de tweede week, en zo voorts. Zo update elke nieuwe week aan data de kans voor elk toestel.

P (S|B) en P (S|¬B) zijn de kans op een bepaalde signalering, gegeven dat iemand wel of niet een bewoner is. Hiervoor is het eigenlijk nodig om een groep bewoners bekend te hebben, en wanneer deze gesignaleerd zijn. In de data van dit onderzoek is dit echter niet bekend, daarom is een schatting gemaakt. Deze schatting is gemaakt op basis van gegevens die wel bekend zijn, namelijk de inwoneraantallen van elke wijk en hoeveel toestellen er elke week buiten werktijd gesignaleerd zijn. Eerst is berekend hoeveel dagen per week elk toestel gesignaleerd is. Door middel van een cumulatieve gamma-verdeling is vervolgens berekend hoeveel procent van de toestellen bij een bewoner zouden moeten horen. Hiervoor is het principe gebruikt dat, hoe meer dagen per week een toestel buiten werktijd gesignaleerd is, hoe groter de kans. Hiervoor zijn 0,01% voor niet gezien in een week, en 99,99% voor zeven dagen gezien in de week als onder- en bovengrens gebruikt. Opgeteld komen de aantallen hiervan uit op het gecorrigeerde wijkinwoneraantal. Dit levert de percentages als weergegeven in tabel 4. Katwijk (wijk 6) is in deze tabel niet weergegeven, aangezien deze wijk geen inwoners heeft.

Vervolgens zijn over vier weken aan data de aantallen per segment per wijk berekend. Deze aantallen zijn gewogen met de bewoner percentages. Dit levert voor de vier weken hoeveel bewoners er per segment zijn gesigna-leerd, en door deze aantallen van de totale hoeveelheid unieke signaleringen

(16)

Wijk 1 2 3 4 5 6 7 1 0,01% 0,07% 1,67% 9,88% 27,95% 51,16% 71,83 2 0,27% 8,37% 33,81% 63,51% 83,89% 94,01% 98,05 3 11,93% 52,71% 82,6% 94,9% 98,71% 99,71% 99,94 4 18,4% 62,45% 87,92% 96,83% 99,27% 99,84% 99,97 5 4,42% 34,27% 69,03% 88,8% 96,61% 99,1% 99,78 7 43,99% 83,79% 96,35% 99,27% 99,87% 99,98% 99,99 8 23,47% 68,28% 90,63% 97,7% 99,5% 99,9% 99,98 9 69,48% 94,19% 99,02% 99,84% 99,98% 99,99% 99,99 10 75,73% 95,88% 99,35% 99,9% 99,99% 99,99% 99,99 11 9,65% 48,3% 79,82% 93,79% 98,36% 99,61% 99,92

Tabel 4: Kans om bewoner te zijn per aantal dagen van de week buiten werktijd gesignaleerd te zijn op basis van de cumulatieve gamma-verdeling.

af te halen, levert dit ook hoeveel niet bewoners er per segment zijn gesig-naleerd. Door vieren gedeeld levert dit een gemiddeld aantal bewoners (b) en niet bewoners (n) om in de berekeningen per week te kunnen gebrui-ken. Voor de kans om gesignaleerd te zijn, gegeven een bewoner maakt dit P (S|B) = Wb alle gesignaleerde bewoners, gedeeld door het totaal aantal wijkinwoners. De kans om gesignaleerd te zijn, gegeven dat iemand niet een bewoner is maakt P (S|¬B) = I−Wn , het aantal gesignaleerde niet bewoners, gedeeld door het aantal niet wijkinwoners (alle inwoners van Nederland, minus het aantal inwoners van de wijk).

P (¬B) P (¬S|¬B) 1 −I−Wn P (S|¬B) n I−W 1 −WI P (B) P (¬S|B) 1 −Wb P (S|B) b W W I

Figuur 6: Beslissingsboom kans bewoner met waardes

P (¬S|B); de kans om niet gesignaleerd te zijn gegeven dat iemand een bewoner is, en P (¬S|¬B); de kans niet gesignaleerd te zijn gegeven dat

(17)

iemand geen bewoner is, zijn berekend op basis van de uitkomsten van ge-signaleerde bewoners en niet bewoners. P (S|B) en P (¬S|B) zijn samen opgeteld ´e´en. Dit maakt P (¬S|B) = 1 − Wb . Hetzelfde geldt voor P (S|¬B) en P (¬S|¬B), wat leidt tot P (¬S|¬B) = 1 − I−Wn . Dit levert de waardes als weergegeven in beslissingsboom 2 (figuur 6). Met de beslissingsboom compleet met waardes voor elke tak, zijn de formules opgesteld. Als een toestel een signalering in een wijk heeft, wordt P (B|S) uitgerekend; de kans dat een toestel bij een bewoner van een wijk hoort, gegeven de signalering (formule (5)). Hiervoor is gekeken naar de signaleringen van het toestel in een week, en in welk segment deze vallen.

P (B|S) = P (S|B) × P (B)

P (S|B) × P (B) + P (S|¬B) × P (¬B) (5) Voor elke wijk waarin een toestel niet wordt gesignaleerd, is ook berekend hoe groot de kans is om bij een bewoner te behoren, maar dit maal gegeven dat er geen signalering is; P (B|¬S). Deze berekening is gemaakt door middel van formule (6). Hiervoor is gebruik gemaakt van het aantal toestellen per week dat niet in een wijk gesignaleerd zijn (dus enkel in andere wijken).

P (B|¬S) = P (¬S|B) × P (B)

P (¬S|B) × P (B) + P (¬S|¬B) × P (¬B) (6) Deze twee formules leveren per week voor alle wijken op hoe groot de kans is voor een toestel bij een bewoner van een wijk te behoren. Opgeteld levert dit voor elk toestel de kans op bij een bewoner van de gemeente Leiden te behoren.

4

Onderzoeksresultaten

De methode die in dit onderzoek ontwikkeld is, berekent voor elk gesigna-leerd toestel in de omgeving van Leiden hoe groot de kans is dat het toestel bij een bewoner van een wijk behoort. Hiermee is getracht de volgende hoofdvraag te beantwoorden:

In hoeverre is het mogelijk om op basis van beperkte observaties van WiFi-signalen te bepalen of een toestel bij een bewoner van een wijk behoort?

Een antwoord op deze vraag zal in drie stappen gegeven worden. Om te kijken in hoeverre het bepalen van bewoners per wijk gelukt is, zal eerst ge-keken worden naar de gevonden bewoneraantallen per wijk, en hoe deze

(18)

uit-stap is het analyseren van de bewonerkansen, en hoe deze zich vormen over tijd. Als derde zal er gekeken worden naar de gedragspatronen van de ge-vonden bewoners die deze data oplevert.

Voor al deze analyses zal Leiden Centrum apart gevisualiseerd worden2. Voor elke analyse is ervoor gekozen om deze voor twee of enkele wijken weer te geven, aangezien alle wijken een overvloed aan grafieken zou leveren. Hierbij is steeds gekozen voor wijken die geschikt of interessant waren voor de desbetreffende analyse.

4.1 Bewoneraantallen

De methode van dit onderzoek berekent voor alle toestellen hoe groot de kans is dat het toestel bij een bewoner van een wijk behoort. In grafiek 7 zijn voor alle wijken de geschatte bewoneraantallen op basis van de bewonerkansen weergegeven, en in grafiek 8 is deze visualisatie voor Leiden Centrum te zien. Deze aantallen zijn berekend door het aantal gesignaleerde toestellen in een wijk per week te nemen, gewogen op de bewonerkans voor elk toestel. Een toestel met 20% kans om bewoner van een wijk levert dus ook maar 0.2 bewoner van die wijk op.

Figuur 7: Gevonden bewoneraantallen in alle wijken per week.

2

De aantallen van Leiden Centrum liggen veel hoger dan de aantallen in de overige wijken. Als Leiden gezamenlijk met de overige wijken gevisualiseerd zou worden, zou dit een onleesbare grafiek opleveren. Daarom is er gekozen Leiden los van de overige wijken weer te geven

(19)

Figuur 8: Gevonden bewoneraantallen in Leiden Centrum per week

4.2 Validatie

In dit onderzoek is geen echte validatie van de uitkomsten mogelijk. Om toch een vorm van validiteit te hebben, is een vergelijking gemaakt tussen de gevonden bewoner aantallen en de wijkinwoneraantallen zoals deze in realiteit zijn. Hierin is voor elke wijk de laatste week (week 44) aan uit-komsten genomen, in vergelijking met het aantal wijkinwoners. Zo is het verschil tussen de voorspellingen en de verwachting weergegeven. In grafiek 9 is deze vergelijking voor Leiden centrum gemaakt, en in grafiek 10 voor de overige wijken.

Zoals te zien is in deze twee grafieken, verschilt de uitkomst van week 44 in het merendeel van de wijken redelijk met het wijkinwoneraantal. Enkel het Vijf Meiplein, Zoeterwoude Dorp, Voorschoten en Rijnsburg hebben een uitkomst die dicht bij de verwachting zit. Voor de grote verschillen in de overige wijken zijn enkele verklaringen mogelijk. De eerste verklaring betreft de meetpunten per wijk. Het aantal meetpunten verschilt behoorlijk per wijk. In wijken met tien meetpunten is het makkelijker alle bewoners te signaleren dan in een wijk met slechts een paar meetpunten. Hetzelfde geldt voor het oppervlakte van de wijk, in een kleine wijk is het makkelijker dan een grote wijk. In tabel 5 staat voor alle wijken het aantal meetpunten, oppervlakte en het aantal inwoners weergegeven. In een wijk als Leiderdorp kan de dichtheid van de meetpunten van invloed zijn geweest.

(20)

Figuur 9: Vergelijking van de gevonden bewoneraantallen in Leiden Centrum met de verwachte wijkinwoneraantallen.

Figuur 10: Vergelijking van de gevonden bewoneraantallen in de wijken met de verwachte wijkinwoneraantallen.

slechts vier meetpunten. Hierdoor is waarschijnlijk het grootste deel van de bewoners in de signaleringen gemist. Ook de ligging van de meetpunten heeft invloed op de uitkomsten. In Merenwijk en Oestgeest bevinden de meetpunten zich in winkelcentra, waar veel winkels in een klein gebied zijn.

(21)

Dit zorgt voor een soortgelijke situatie als in Leiden Centrum en Katwijk aan Zee; veel bezoekers van buitenaf, en daardoor een hoger bewoneraantal dan verwacht.

Wijk Oppervlakte (km2) Meetpunten Inwoneraantal

Leiden Centrum 10.86 13 44.7990 Zoeterwoude Rijndijk 2.77 2 1.311 Leiden Merenwijk 1.57 2 7.435 Oestgeest 6.75 4 11.569 Vijf Meiplein 2.78 2 9.267 Leiderdorp 10.17 4 13.732 Zoeterwoude Dorp 13.53 1 2.628 Voorschoten 2.67 1 5.695 Rijnsburg 5.08 1 7.685

Katwijk aan Zee 4.81 10 13.865

Tabel 5: Gegevens per wijk; aantal meetpunten, inwoners en oppervlakte Een tweede mogelijke verklaring voor de verschillen ligt in de bewoner-kansen. Voor de aantallen zoals weergegeven in grafiek 7 en grafiek 8 zijn alle toestellen met een bewonerkans meegenomen in de berekening. Door de bewonerkansen in vier groepen te verdelen, van 0 tot 25%, 25 tot 50%, 50 tot 75% en 75 tot 100%, kunnen de percentages per wijk over de weken heen geanalyseerd worden. Hiermee kan bekeken worden hoe de bewonerkansen zich over de tijd heen vormen, en of het aantal toestellen met een hogere bewonerkans dichter bij de wijkinwoneraantallen liggen.

In grafiek 11 is deze analyse voor Leiden Centrum weergegeven. Hierin is te zien hoe in week 44 meer dan 800.000 toestellen een bewonerkans kleiner dan 25% hebben. Deze groep is waarschijnlijk zo groot omdat er elke week nieuwe bezoekers in Leiden komen, die bij signaleringen een kleine kans om bewoner te zijn krijgen. In de berekening voor bewoneraantalen worden deze allemaal meegeteld. Ook al zijn deze aantallen gewogen op de bewonerkans, het levert nog steeds een grote groep bewoners op. De toestellen met een hogere bewonerkans echter (> 75%), zijn de toestellen waarover met gro-tere zekerheid gezegd kan worden dat deze bij een bewoner behoren. In grafiek 12 zijn deze aantallen voor Leiden Centrum, Zoeterwoude Rijndijk, Zoeterwoude Dorp en Katwijk aan Zee vergeleken met de echte inwoneraan-tallen van de wijken. Te zien is dat in elk van deze wijken de aaninwoneraan-tallen van toestellen met een kans boven de 75% al dichter bij de verwachting liggen.

(22)

Figuur 11: Bewonerkansen in Leiden Centrum.

Figuur 12: Vergelijking van de bewoneraantallen met een kans hoger dan 75% met de verwachte wijkinwoneraantallen in Leiden Centrum, Zoeter-woude Rijndijk, ZoeterZoeter-woude Dorp en Katwijk aan Zee.

Een verklaring voor deze verschillen, en dat de aantallen bij 75% een betere uitkomst vormen, kan terug te leiden zijn naar het soort wijk. Leiden Centrum en Katwijk aan Zee zijn twee wijken met meer winkels en andere trekpleisters voor bezoekers (strand en stadscentrum) dan de overige wijken.

(23)

Ook in Zoeterwoude Rijndijk is dit een mogelijke verklaring. In deze wijk bevindt zich een uitvalsweg van Leiden. In elk van deze drie wijken is de oorzaak te vinden voor bezoekers van buitenaf, wat kan leiden tot veel toe-stellen met een kleine bewonerkans. Als deze allemaal meegenomen worden in de berekening, leidt dit tot hogere aantallen bewoners.

Concluderend kan gesteld worden dat de methodiek nog niet voor alle wijken perfect het aantal bewoners correct weet te schatten. De reden hier-voor is dat het instrument nog beperkt is in tijd (acht weken) en plaats. Als er langer gemeten wordt met meer meetpunten zouden ook voor de gro-tere plaatsen zoals Leiden Centrum bewonersaantallen worden geschat die dichter in de buurt liggen van de werkelijkheid.

4.3 Gedragspatronen

De data van dit onderzoek werd voorheen door City Traffic enkel gebruikt voor tellingen van unieke toestellen en de verblijfstijd van deze toestellen in steden. Deze methode levert een manier om uit grote datasets aan ruwe data de bewoners per wijk te filteren. Zoals in voorgaande grafieken te zien is, is dit niet met 100% zekerheid mogelijk, maar kan er wel een groep toestellen met een hoge bewonerkans (> 75%) in elke wijk aangewezen worden. Dit levert een groep bewoners per wijk op, en aantallen die redelijk dicht op de realiteit zitten.

Naast het filteren van bewoners per wijk kunnen met deze methode ook de gedragspatronen herleid worden door te analyseren waar en wanneer de gevonden bewoners gesignaleerd worden. Hiervoor is gekeken naar alle toe-stellen met een bewonerkans hoger dan 75%. Deze groep is gekozen omdat dit de toestellen zijn met de hoogste kans om bij bewoners te behoren. Aangezien het interessant is om te weten in hoeverre de gedragspatronen verschillen met de bezoekers van de wijk is een vergelijking gemaakt met alle toestellen met een bewonerkans van onder de 25%. Aangezien deze toe-stellen zo een kleine bewonerkans hebben, kunnen ze met enige zekerheid als bezoekers van de wijk worden aangewezen. Er is gekeken naar het aantal bewoners en bezoekers per uur, per dag en buiten werktijd voor enkele wij-ken. Hierin zijn de blauwe lijnen in elke grafiek de bewoners van een wijk, en de grijze lijnen de niet bewoners.

In grafiek 13 en grafiek 14 is weergegeven hoeveel bewoners en niet be-woners er per uur van de dag gemiddeld in Leiden Merenwijk en het Vijf-meiplein worden gesignaleerd. In beide wijken is te zien dat overdag (tussen 11.00 en 19.00) beide groepen personen redelijk vaak worden gesignaleerd. Opvallend is echter dat er na acht uur ’s avonds tot acht uur ’s ochtends

(24)

Figuur 13: Gemiddeld aantal gesig-naleerde bewoners en niet bewoners in Leiden Merenwijk per uur

Figuur 14: Gemiddeld aantal gesig-naleerde bewoners en niet bewoners in het Vijf Meiplein per uur

bijna geen enkele bezoeker gesignaleerd wordt, enkel bewoners van de wijk. Dit komt overeen met de stelling van Fritsch (2008), dat mensen tijdens de nacht op hun woonplek verblijven, en overdag op hun werk. Bewoners zie je dan ook in beide wijken over de gehele dag, al dan wel minder in de nacht.

Figuur 15: Gemiddeld aantal gesig-naleerde bewoners en niet bewoners in Leiden Centrum per dag

Figuur 16: Gemiddeld aantal gesig-naleerde bewoners en niet bewoners in Rijnsburg per dag

Ten tweede de aantallen per dag van de week. In grafiek 15 en grafiek 16 is weergegeven hoeveel bewoners en niet bewoners er per dag gemiddeld worden gesignaleerd in Leiden Centrum en Rijnsburg. De verwachting zou zijn dat in het weekend meer bewoners gesignaleerd zouden worden, aange-zien iedereen dan vrij is van werk. In Rijnsburg is dit terug te aange-zien door een hoger aantal bewoners op vrijdag en zaterdag dan doordeweeks. Het aantal niet bewoners is echter nog hoger, wat een gevolg kan zijn van de koop-avond op vrijdag in deze wijk (tabel 2). Op zondag dalen beide aantallen, en zien we bijna alleen maar bewoners van de wijk. In Leiden Centrum is

(25)

het aantal niet bewoners echter de gehele week hoger dan het aantal bewo-ners, en veranderd enkel het aantal niet bewoners door de week heen, met de hoogste aantallen in het weekend. Dit is hoogstwaarschijnlijk het gevolg van het soort wijk dat Leiden Centrum is, zoals ook al eerder uitgelegd staat in sectie 4.1.

Figuur 17: Gemiddeld aantal gesig-naleerde bewoners en niet bewoners in Leiden Centrum buiten werktijd per dag

Figuur 18: Gemiddeld aantal gesig-naleerde bewoners en niet bewoners in Rijnsburg buiten werktijd per dag

Als laatste de aantallen buiten werktijd in Leiden Centrum en Rijnsburg. In grafiek 17 en grafiek 18 is weergegeven hoeveel bewoners en niet bewo-ners er gemiddeld buiten werktijd worden gesignaleerd. In Leiden Centrum is het aantal bewoners bijna de hele week hoger dan het aantal niet bewo-ners, enkel zaterdag is hier een uitzondering op. Het verschil op zaterdag is waarschijnlijk een gevolg van het uitgaansleven. Hierdoor zijn ook mensen buiten de bewoners van het centrum aanwezig. In Rijnsburg echter, zijn er door de hele week heen enkel bewoners buiten werktijd gesignaleerd. Dit wijst erop dat de niet bewoners die door de week heen gesignaleerd worden, allemaal werken of winkelen in deze wijk.

4.4 Herkomst bezoekers

Naast het herleiden van de gedragspatronen van de bewoners, kan deze me-thode ook de herkomst van bezoekers in een wijk herleiden. In grafiek 19 is voor Leiden Centrum weergegeven per week wat de woonplek is voor alle gesignaleerde toestellen. Hierbij is er per week berekend hoe veel toestellen gesignaleerd worden in Leiden Centrum, gewogen op de bewonerkans van deze toestellen. Hierbij zijn enkel de toestellen weergegeven die niet Leiden Centrum als woonplek hebben. De eerste bezoekers van Leiden Centrum

(26)

Figuur 19: Herkomst signaleringen Leiden centrum per week

wijk. Dit zijn de omliggende wijken van Leiden Centrum, hierdoor ligt het in de lijn der verwachtingen om veel bezoekers uit deze wijken terug te zien.

Figuur 20: Herkomst signaleringen Voorschoten per week

In grafiek 19 is voor Voorschoten weergegeven per week wat de woon-plek is voor alle gesignaleerde toestellen. In Voorschoten komen de meeste signaleringen uit Leiden Centrum, dit is ook in alle overige wijken terug te

(27)

zien (Appendix A). De tweede wijk is hier het Vijf Meiplein. Dit is een ver-gelijkbare situatie als bij de herkomst in Leiden Centrum. Vijf Meiplein en Voorschoten zijn aangrenzende wijken, wat het aannemelijk maakt om veel bezoekers uit deze wijk terug te zien. Door de herkomst van de bezoekers te bepalen is een eerste stap gezet in het analyseren van de koopstromen tussen de wijken.

4.5 Stabiliteit

In alle voorgaande grafieken is te zien dat de uitkomsten van analyses over tijd na enkele weken stabiel worden. In grafiek 7 zijn de bewonersaantallen van alle wijken over tijd weergegeven. De eerste weken lopen deze aantallen nog flink op, maar na week 40 worden deze voor bijna alle wijken redelijk stabiel.

Figuur 21: Bewonerkansen boven de 75% in Leiderdorp

Figuur 22: Bewonerkansen boven de 75% in Voorschoten

Voor Leiderdorp (grafiek 21) en Voorschoten (grafiek 22) is weergegeven hoe de bewonerkansen zich in de loop der weken ontwikkelen. Zoals in sectie 4.1 uitgelegd staat, zijn de toestellen met een bewonerkans boven de 75% de toestellen die met de grootste zekerheid bij een bewoner behoren, en daarmee het interessants. In zowel Leiderdorp als Voorschoten is te zien hoe deze groep eerst vrij klein is, en dan groeit in de eerste weken. Ook hier worden de waardes na week 40 stabiel. Uit deze stabiliteit na week 40 is af te leiden dat de ontwikkelde methode enkele weken nodig heeft om betrouwbare resultaten te leveren.

5

Conclusie

(28)

In hoeverre is het mogelijk om op basis van beperkte observaties van WiFi-signalen te bepalen of een toestel bij een bewoner van een wijk behoort?

Voor het beantwoorden van de hoofdvraag is een aanpak geschetst die inzicht levert over de eigenaar van een toestel. Voor deze aanpak is allereerst gekeken naar literatuur over gedragspatronen van mensen, en het analyseren ervan om de eerste deelvraag te kunnen beantwoorden: Hoe kunnen ge-dragspatronen gebruikt worden om woonplekken te herleiden? Ge-dragspatronen worden veelal gebruikt in het profileren van mensen, waarin voornamelijk gewerkt wordt met enkele standaard aannames over het ge-drag van de mens, zoals dat deze ’s nachts op een woonplek en overdag op de werkplek verblijft. Op basis daarvan, en door middel van externe bronnen over Leiden en de winkels erin zijn de WiFi-signaleringen van City Traffic uitgebreid. Voor elk toestel is geanalyseerd of deze binnen of buiten werktijd van winkels werd gesignaleerd en hoe vaak per week. Dit leverde voor elk gesignaleerd toestel een gedragspatronen per week op. Deze gedragspatro-nen zijn vervolgens omgerekend naar een kans voor elk toestel om bij een bewoner te behoren. In de onderzoeksresultaten (sectie 4.3) is te zien hoe deze patronen ook weer terug te vinden zijn in de gevonden bewoners.

City Traffic meet continue, wat een behoefte cre¨eert aan de mogelijk-heid de uitkomsten te upgraden met nieuwe informatie. Vandaar de tweede deelvraag van dit onderzoek: Hoe kunnen nieuwe observaties de voor-spellingen verbeteren? Bayesiaanse statistiek geeft de mogelijkheid om met elke nieuwe week aan data de uitkomst van de week ervoor bij te stellen. De berekening vindt plaats vanaf de eerste week dat een toestel gesignaleerd wordt. In deze eerste week wordt een initi¨ele bewoner kans gebruikt voor de berekening. Daarna wordt de uitkomst steeds ge¨updatet met elke nieuwe week aan data.

Als laatste de derde deelvraag van dit onderzoek: Hoe kan City Traf-fic hier in de toekomst verder mee werken? De uitkomsten van dit onderzoek leveren voor een grote set aan ruwe data een methode om be-woners uit de data te filteren. Voor City Traffic levert deze methode een manier om koopstroominformatie te verkrijgen. In sectie 4.3 staat een voor-beeld weergegeven van de herkomst van bezoekers. Daar werd voor Leiden Centrum geanalyseerd wat de herkomst van bezoekers was, om aan te tonen wat de woonplek van de bezoekers in die wijk waren. Deze analyse zou ook voor steden uitgevoerd kunnen worden. City Traffic voert metingen uit in veertig gemeentes in Nederland. Deze methode kan toegepast worden op elk van deze gemeentes om zo de koopstromen binnen elk van deze gemeentes,

(29)

en tussen de steden in kaart te brengen. De enige nodige aanpassing hierin zouden de verschillende openingstijden van winkels voor elke gemeente zijn. Naast de koopstroominformatie zou City Traffic deze methode ook voor an-dere doeleinden toepasbaar kunnen maken. Het doel van dit onderzoek was de bewoners van een wijk herleiden, maar elke andere groep personen zou ook herleid kunnen worden, mits daar de juiste informatie over beschikbaar is.

In dit onderzoek is aangetoond dat op basis van de beperkte observaties van City Traffic, externe bronnen over Leiden en Bayesiaanse statistiek be-rekend kan worden hoe groot de kans is dat een gesignaleerd toestel bij een bewoner behoort. Deze berekening is niet met honderd procent zekerheid mogelijk. In de onderzoeksresultaten (sectie 4) is door middel van verschil-lende analyses aangetoond in hoeverre de bewoners van een wijk bepaald kunnen worden, en in hoeverre die uitkomsten realistisch en betrouwbaar zijn.

6

Discussie

Eerder is beschreven dat een berekening met honderd procent zekerheid niet mogelijk is. De data van City Traffic is een rijke schat aan gedragsdata, maar menselijk gedrag is te complex om bewoners slechts met signaleringen bij winkels tot hun woonplek te herleiden. Daarom is in dit onderzoek ervoor gekozen voor elk toestel een kans te berekenen per wijk, welke aangeeft hoe groot de kans is dat het toestel bij een bewoner ervan behoort. Dit onderzoek had een aantal beperkingen, en de geschetste aanpak is zeker voor verbetering vatbaar.

De eerste beperking betreft Bayesiaanse statistiek: In de literatuur zijn enkele vergelijkbare onderzoeken te vinden, waarbij helaas geen echte me-thodes gebruikt worden voor het analyseren van grote groepen personen. De gevonden onderzoeken waren veelal gericht op het analyseren van een enkel persoon. Bij die analyse (Fritsch, 2008) werd gebruik gemaakt van externe bronnen met aanvullende informatie over de omgeving, een methode die wel is overgenomen voor dit onderzoek. Aangezien er geen duidelijke methode in de literatuur terug te vinden was, is gekozen om te werken met Bayesi-aanse statistiek. Dit is een statistische methode die werkt met kansen, en het geeft de mogelijkheid uitkomsten te upgraden met nieuwe data. Twee factoren die in dit onderzoek gewenst waren.

De tweede beperking betreft de data afkomstig van de meetpunten. Zo-als ook in de uitkomsten van sectie 4 te zien is, heeft week 39 een ‘dipje’

(30)

in het aantal signaleringen. Dit dipje wordt veroorzaakt door onderhoud dat aan twaalf meetpunten werd uitgevoerd. Hierdoor voerden deze meet-punten een week lang geen metingen uit, wat resulteert in een dip in het aantal signaleringen. Over een langere periode, en over meer steden zou dit eventueel niet eens opvallen, maar over deze acht weken in enkel Leiden is het gevolg meteen te merken. Vooral omdat deze uitval vrij vroeg in de data zit, waarin de bewonerkans voor alle toestellen nog gekalibreerd moet wor-den. Doordat er geen signaleringen plaatsvonden, werd voor veel toestellen de bewonerkans berekend op basis van de formule voor geen signaleringen. Hierdoor gingen alle kansen omlaag, waar ze misschien wel hoger hadden moeten worden.

Ten derde was er in dit onderzoek geen validatie mogelijk. Dit had eventueel opgelost kunnen worden door het gebruik van externe informatie, zoals het vragen op straat aan mensen wat hun woonplek is. Ook voor de bewonergroep zou dit een oplossing geweest zijn. Voor de berekening met Bayesiaanse statistiek was informatie nodig over de kans op een signalering, gegeven dat iemand een bewoner is (P (S|B)). Hiervoor heb je in het ideale geval een groep bewoners bekend, en de informatie over wanneer deze gesig-naleerd worden door de week heen. Deze groep bewoners was niet bekend binnen de data van dit onderzoek. Daarom is nu een schatting gemaakt op basis van de data zelf, om het aantal bewoners per segment te berekenen. Er was binnen de scope van dit onderzoek geen ruimte om dit met externe bronnen te berekenen, een oplossing die eleganter geweest zou zijn.

De verbeterpunten, en eventuele aanpassingen voor vervolgonderzoek, betreffen enkele stukken aan ongebruikte informatie over Leiden en de meet-kastjes van City Traffic. Ten eerste het aantal meetpunten per wijk. Zoals in sectie 4.1 beschreven staat, verschilt het aantal meetpunten behoorlijk per wijk. In combinatie met het aantal inwoners en wijk oppervlakte van alle wijken, maakt het in sommige wijken makkelijker om de bewoners te signaleren dan andere. Deze dichtheid van meetpunten is in dit onderzoek niet meegenomen in de berekening. In vervolgonderzoek zou dit een extra dimensie aan de berekening kunnen toevoegen. Ook zou City Traffic kunnen overwegen om het aantal meetpunten per wijk uit te kunnen breiden. Nu staan deze puur in winkelgebieden, maar een uitbreiding naar woongebieden zou het herleiden van bewoners stukken makkelijker maken. Een tweede stuk aan informatie is het bereik van de meetpunten. De pings die de meetkasten opvangen worden per smartphone met verschillende tijdsintervallen verstuur (sectie 2.1). Dit levert een extra onzekerheidsfactor die in vervolgonderzoek meegenomen zou kunnen worden.

(31)

Referenties

De Bruyckere, S. (2015). Majority of the elderly in the Ne-therlands has a smartphone. Telecompaper. Verkregen van http://www.telecompaper.com/pressrelease/majority-of-the -elderly-in-the-netherlands-has-a-smartphone--1088067 Douglas, J. E. & Burgess, A. E. (1986). Criminal profiling: A viable

in-vestigative tool against violent crime. FBI L. Enforcement Bull., 55 , 9.

Duhigg, C. (2016). How companies learn your secrets. NY Times. Verkre-gen van http://www.nytimes.com/2012/02/19/magazine/shopping -habits.html?pagewanted=1

Eldering, C. (2001, oktober 2). Consumer profiling system. Google Patents. Verkregen van https://www.google.com/patents/US6298348 (US Patent 6,298,348)

Falcone, P., Colone, F., Macera, A. & Lombardo, P. (2012). Localization and tracking of moving targets with wifi-based passive radar. In Radar conference (radar), 2012 ieee (pp. 0705–0709).

Ferguson, D. (2016). How supermarkets get your data – and what they do with it. The guardian. Verkregen van http://www.theguardian.com/ money/2013/jun/08/supermarkets-get-your-data

Fritsch, L. (2008). Profiling and location-based services (lbs). In Profiling the european citizen (pp. 147–168). Springer.

Hacking, I. (2001). An introduction to probability and inductive logic. Cam-bridge University Press.

Marx, G. T. (1999). What’s in a name? some reflections on the sociology of anonymity. The Information Society, 15 (2), 99–112.

McGrayne, S. B. (2011). The theory that would not die: how bayes’ rule cracked the enigma code, hunted down russian submarines, & emerged triumphant from two centuries of controversy. Yale University Press.

(32)

Mulder, Y. d., Danezis, G., Batina, L. & Preneel, B. (2008). Identification via location-profiling in gsm networks. Proceedings of the 7th ACM workshop on Privacy in the electronic society - WPES ’08 . doi: 10 .1145/1456403.1456409

Qin, W., Zhang, J., Li, B. & Sun, L. (2013). Discovering human presence activities with smartphones using nonintrusive wi-fi sniffer sensors: the big data prospective. International Journal of Distributed Sensor Networks.

Silver, N. (2012). The signal and the noise: Why so many predictions fail-but some don’t. Penguin.

TelecomNieuwsNet. (2016). Nederlanders gebruiken vaker WiFi buitens-huis.

Zwillinger, D. & Kokoska, S. (1999). Crc standard probability and statistics tables and formulae. Crc Press.

(33)

A

Appendix: Herkomst wijken

Figuur 23: Herkomst signaleringen Zoeterwoude Rijndijk per week

(34)

Figuur 25: Herkomst signaleringen Oestgeest per week

(35)

Figuur 27: Herkomst signaleringen Katwijk per week

(36)

Figuur 29: Herkomst signaleringen Zoeterwoude dorp per week

(37)

Referenties

GERELATEERDE DOCUMENTEN

Stopcontact, in het bijzonder voor radiodistributie, met meer dan e£n stel aansluitcontacten, met het kenmerk, dat de toegang tot iedere contactopening door elkander boven

"P-OK" wijst erop dat tijdens de opslag van de documenten in het geheugen voor latere verzending een geheugenoverloop is opgetreden of een document verkeerd werd

& I)it draagbare toestel heeft de naam „Wereldwijd” meegekregen.. De radio kennen we het beste door de radio-omroep. Het ge- luid dat in de studio wordt

let op dat hierbij de ventilatorkabels "achter" de ventilatoren liggen en dat de ventilatoren op hun oorspronkelijke positie terug geplaatst worden De linker ventilator

Indien een spoedoproep is beantwoord tijdens een actief gesprek, is er tegelijkertijd een wachtend gesprek (knipperende lijntoets) alsook een actief gesprek (spoed). Om

• Om een gesprek in de wachtstand te zetten, drukt u tijdens het gesprek op de displaytoets waar ‘Wacht’ boven staat. • Het gesprek staat in de wacht en de lijntoets op

De standenschakelaar (niet meegeleverd met het toestel) wordt aangesloten op de modulaire connector type RJ12 (connector X14) welke aan de achterzijde van de displaykap van het

BSH en de door haar ingeschakelde hulppersonen en derden kunnen bovendien niet aansprakelijk worden gesteld door (of namens) een deelnemer voor enige schade, direct