Universiteit van Amsterdam
Bachelor thesis
De kracht van storytelling
in datavisualisatie
Rens Gingnagel
Bachelorscriptie Informatiekunde
Faculteit der Natuurwetenschappen, Wiskunde en Informatica Scriptie Supervisor: Maarten Marx
Abstract
Data en datavisualisatie worden steeds belangrijker in onze samenleving. Binnen datavisualisatie kunnen er allerlei storytelling technieken worden gebruikt die helpen bij het overbrengen van een verhaal. Alhoewel er eerder onderzoek is gedaan naar deze storytelling technieken is er echter nog niet onderzocht wat het verschil in effectiviteit is tussen datavisualisatie die gebruik maakt van storytelling technieken en datavisualisatie die dit niet doet. Het doel van dit onderzoek is om een gedeelte van dit gat te dichten. Dit leidt tot de volgende onderzoeksvraag: heeft het gebruik van storytelling invloed op de effectiviteit van datavisualisatie in de context van explanatory analysis? Om antwoord te geven op deze vraag zijn in dit onderzoek twee datavisualisaties gebouwd bovenop een dataset van een
Nederlandse actiegroep voor het primair onderwijs. De ene datavisualisatie maakt gebruik van storytelling technieken en de andere doet dit niet. Beide
datavisualisaties zijn doorlopen door vijf testpersonen. Na het doorlopen van de datavisualisatie vulden de proefpersonen een door de onderzoeker opgestelde vragenlijst in, die drie thema’s meet die gerelateerd zijn aan de effectiviteit van datavisualisatie in de context van explanatory analysis. Deze thema’s waren algemene ervaring, engageren en activeren. Gemiddeld scoort de datavisualisatie die gebruikt maakt van storytelling op alle thema’s hoger dan de de andere
datavisualisatie. Deze resultaten geven aanleiding om te denken dat storytelling bij datavisualisatie in de context van explanatory analysis een positief effect heeft. Echter, door de kleine sample-size van tien respondenten kan er geen significant verschil tussen de twee groepen aangetoond worden. Op basis hiervan wordt aanbevolen om een vervolgonderzoek te organiseren waarbij er gebruik wordt gemaakt van een grotere sample-size.
1.Inleiding 3 1.1 Onderzoeksaanpak 5 2. Theoretisch kader 5 2.1 Datavisualisatie 5 2.1.1 Context 5 2.2 Storytelling 7 2.2.1. Visual storytelling 8 2.3 Storytelling affordances 8
2.3.1 Visual narrative tactics 9
2.3.2 Narrative structure tactics 9
2.4 Interactiviteit in datavisualisatie 10
2.5 Author-driven vs. reader-driven stories 10
2.6 Effectiviteit datavisualisatie meten 11
3. Datavisualisatie 12
3.1 Dataset 12
3.2 Datavisualisatie techniek 13
3.3 Datavisualisatie met storytelling 14
3.3.1 Begin 14
3.3.2 Midden 15
3.3.3 Eind 15
3.3.4 Storytelling affordances 16
3.4 Datavisualisatie zonder storytelling affordances 19
4. Methode 19 4.1 Onderzoeksdesign 19 4.2 Studiepopulatie 19 4.3 Vragenlijst 19 4.4 Dataverzameling 20 4.5 Data analyse 21 6. Resultaten 21 7. Discussie 23 7.1 Limitaties 25 7.2 Vervolgonderzoek 25 7.3 Sociale relevantie 26 8. Conclusie 26 9. Appendix 27 Referenties 30
1.Inleiding
In de afgelopen decennia hebben innovaties op het gebied van informatie- en communicatietechnologie elkaar in rap tempo opgevolgd. De ontwikkeling van computers ging van mainframe naar minicomputers naar PC’s. Met de originele iPhone werd in 2007 de smartphone met touchscreen zoals wij die nu kennen voor het eerst geïntroduceerd (Sarwar & Soomro, 2013). Dit leidde tot massaal mobiel gebruik, locatie informatie en een explosie aan beeldmateriaal. Elke nieuwe golf aan technologie leidt tot nieuwe mogelijkheden en toepassingsgebieden. Zo zien we thans door steeds goedkopere en krachtiger sensoren het ontstaan van het internet of things en augmented reality (Coetzee & Eksteen 2011). En is er opnieuw veel aandacht voor de opkomst van artificial intelligence, een term die al sinds 1955 in gebruik is (Marvin Minsky et al, 2006).
Gedreven door al deze ontwikkelingen groeit de hoeveelheid gegenereerde data exponentieel (Hashem et al, 2015). Het volume van de data wordt niet alleen groter maar data speelt ook een steeds belangrijkere rol in onze besluitvorming. Data heeft invloed op verkiezingen, helpt doktoren bij het redden van levens in
ziekenhuizen en maakt zelfrijdende auto’s mogelijk. Met de opkomst van Big Data is er zelfs een filosofie genaamd Dataïsme ontstaan die beargumenteerd dat ons hele universum bestaat uit datastromen en dat de waarde van ieder ding of entiteit bepaald wordt door zijn bijdrage aan deze grote datastroom (Harari, 2016).
Een groot gedeelte van deze data wordt geconsumeerd door op computers draaiende algoritmes. Echter, het verwerken van data is ook voor mensen een belangrijke taak. Denk bijvoorbeeld aan een burger die zich voor verkiezingen laat informeren of een CEO die beslissingen op basis van een rapport moet maken. Door de specifieke kwaliteiten en tekortkomingen van het brein heeft de mens andere behoeften op het gebied van dataverwerking dan een computer.
Daarom is het belangrijk dat we ons in de wetenschap naast de technische kant ook bezig houden met de menselijke kant van dataverwerking. Datavisualisatie is het vakgebied wat zich bezighoudt met deze mens-computer interactie. Binnen de
datavisualisatie probeert men data te visualiseren om de gebruiker zo te helpen om patronen te ontdekken of om een bepaalde boodschap over te brengen.
Het gebruik van datavisualisatie kan worden opgedeeld in twee belangrijke
categorieën: de exploratory analysis en de explanatory analysis (Knaflic, 2016). Over de eerste categorie, waarbij datavisualisatie de mens helpt om tijdens onderzoek patronen in data te ontdekken, is al veel in de wetenschap geschreven. Binnen de explanatory analysis, de tweede categorie, wordt data gevisualiseerd om zo een boodschap aan een publiek over te kunnen brengen. Naar de tweede categorie is een stuk minder onderzoek gedaan (Kosara & Mackinlay, 2013).
Heer en Segel (2010) analyseerden in hun paper de rol van storytelling (verhalen vertellen) in datavisualisatie. Ze deden dit door een reeks case studies te doen van bestaande datavisualisaties en vervolgens een classificering te maken van de gebruikte storytelling technieken. Deze focus op storytelling is erg interessant aangezien verhalen voor het menselijk brein een zeer efficiënte vorm van
informatie zijn om te verwerken (Gershon & Page, 2001). Het efficient overbrengen van informatie is ook een van de belangrijkste doelen van datavisualisatie.
Datavisualisatie is in essentie een vorm van visuele storytelling (Heer & Segel, 2010). Alhoewel het geproduceerde overzicht van categorieën en technieken erg interessant is testen Heer en Segel (2010) de effectiviteit van deze technieken niet.
Kosara en Mackinlay (2013) publiceerden een vergelijkbaar onderzoek waarbij zij het gegeven overzicht van Heer en Segel op een aantal vlakken uitbreiden. Zij sloten hun paper af met de suggestie dat vervolgonderzoek hard nodig is. Sinds de publicatie van deze onderzoeken is de effectiviteit van storytelling technieken nog niet onderzocht.
Door de kracht van open-source software zoals Dash en Vega-Lite is het bouwen van (interactieve) datavisualisatie applicaties in de afgelopen jaren een stuk toegankelijker geworden. Dat maakt dit een uitermate geschikt moment om een bijdrage te leveren aan het door Kosara en Mackinlay (2013) gesuggereerde vervolgonderzoek. In dit onderzoek wordt bekeken of het gebruik van storytelling invloed heeft op de effectiviteit van datavisualisatie in de context van explanatory
1.1 Onderzoeksaanpak
Deze vraag wordt beantwoord door twee datavisualisaties te ontwikkelen op basis van dezelfde dataset. In de eerste datavisualisatie zitten storytelling technieken verwerkt die beschreven zijn in het theoretisch kader, in de tweede datavisualisatie worden deze niet gebruikt. Beide visualisaties worden door een onafhankelijke groep respondenten doorlopen. Vervolgens wordt de effectiviteit gemeten door alle respondenten na afloop een vragenlijst te laten invullen en de resultaten te
analyseren.
2. Theoretisch kader
2.1 Datavisualisatie
Aan het begin van zijn grondleggende werk ‘The Visual Display of Quantitative Information’ definieert statisticus Edward Tufte (1983) datavisualisatie, ook wel data graphics genoemd, als volgt: “Data graphics visually display measured quantities by means of the combined use of points, lines, a coordinate system, numbers, symbols, shading, and color.” (p. 9). Datavisualisatie bevindt zich daarmee op het interdisciplinaire kruisvlak van statistiek, design en wiskunde. Doordat de interactiviteit van de computer zich uitstekend voor datavisualisatie leent, is daar in de afgelopen jaren informatica bij gekomen.
Datavisualisatie helpt mensen bij het verwerken van potentieel grote hoeveelheden kwantitatieve data door deze visueel weer te geven. Een goed vormgegeven
visualisatie kan een gigantische hoeveelheid data punten samenvatten in één figuur (Tufte, 1983).
2.1.1 Context
In haar boek “Storytelling with Data, A Data Visualization Guide for Business Professionals” beschrijft Cole Nussbaumer Knaflic (2016) het belang van de context waarin datavisualisatie gebruikt wordt. Hierbij maakt ze het onderscheid tussen datavisualisatie in een context van exploratory analysis en explanatory
analysis.
Bij exploratory analysis ligt de focus van de visualisatie voornamelijk op het ontdekken van patronen in data. Datavisualisatie is in de context van exploratory analysis een hulpmiddel om ruwe data om te zetten in relevante informatie. Hier is datavisualisatie onderdeel van het onderzoekende proces. Een goed voorbeeld is Anscombe’s quartet. Anscombe was een Engelse statisticus die vier datasets identificeerde die door middel van beschrijvende statistische toetsen ongeveer gelijk ogen maar op het moment dat ze worden geplot als een grafiek duidelijk andere verbanden zichtbaar maken. Hiermee liet hij zien dat datavisualisatie een belangrijke plek heeft naast statistische berekeningen (Tufte, 1983).
Figuur 1 - Anscombe’s quartet
Bij de tweede vorm, explanatory analysis probeert de maker de informatie die hij/zij heeft verkregen in de exploratory analysis op een effectieve manier te visualiseren om deze vervolgens naar een publiek te kunnen communiceren. Het explanatory analysis proces speelt zich vaak af nadat de exploratory analysis doorlopen is. Voordat een bepaalde boodschap aan mensen overgebracht kan worden moet deze boodschap eerst in de ruwe data gevonden worden.
Een goed voorbeeld van data visualisatie in de context van explanatory analysis is het klassieke werk van de Fransman Charles Joseph Minard. In 1869 visualiseerde hij de mars van het leger van Napoleon richting Moskou en de terugtocht van Moskou naar Frankrijk. De met de hand getekende visualisatie toont in één
oogopslag de verschillende dimensies van de data zoals tijd, plaats en grootte van het leger (Tufte, 1983). Étienne-Jules Marey beschreef de kracht van deze
visualisatie met de uitspraak: “[de visualisatie] defies the pen of the historian in its brutal eloquence” (1857, pp. 192-197). Dit onderzoek focust zich op
datavisualisatie in de context van de explanatory analysis.
Figuur 2 - Minard’s mars van Napoleon
2.2 Storytelling
The Oxford English Dictionary definieert een verhaal als “an account of a series of events, facts, etc., given in order and with the establishing of connections between them.” (2018). Hierbij staat de oorzaak-gevolg relatie centraal. Storytelling is iets wat in alle samenlevingen een belangrijke rol speelt. In veel volkeren wordt met behulp van verhalen essentiële informatie overgedragen en de sociale normen versterkt (Sugiyama, 2001).
Voor het overdragen van informatie tussen mensen zijn verhalen een uitermate geschikt medium. Informatie in verhalende vorm is voor het menselijk brein
makkelijker op te slaan dan losse feiten (Gershon & Page, 2001). De oorzaak-gevolg structuur van een verhaal is hoe de wereld om ons heen ook functioneert.
2.2.1. Visual storytelling
Het vertellen van verhalen beperkt zich niet tot gesproken tekst of boeken. Verhalen kunnen ook visueel verteld worden. Een medium waarbij het visueel
verhalen vertellen zich bij uitstek ontwikkeld heeft is de wereld van de stripboeken. Door restricties van het medium, een statische serie plaatjes, worden auteurs gedwongen om creatieve manieren te verzinnen om dimensies zoals tijd te
representeren. In The Art Of Comics beschrijft Scott McCloud (1993) verschillende technieken die door stripboek schrijvers gebruikt worden om een verhaal te
vertellen en ondersteunen.
Net als stripboeken is ook datavisualisatie in de context van explanatory analysis in veel gevallen een vorm van visueel verhalen vertellen. Het eerder beschreven
voorbeeld van Minard laat dit goed zien. Met behulp van de verschillende
dimensies vertelt hij op een krachtige manier het verhaal van het Franse leger dat door alle omstandigheden met slechts een fractie van haar troepen terug kwam.
2.3 Storytelling affordances
Net als de elementen die gebruikt worden om een verhaal in stripboeken te
versterken zijn dit soort elementen ook in de data visualisatie te ontdekken. Kosara en Mackinlay (2013) noemen deze elementen binnen de datavisualisatie storytelling
affordances. Zij definiëren deze storytelling affordances als volgt: ‘Features of a
visualization that provide a narrative structure and guide the reader through a story.’.
Segel en Heer (2010) hebben met behulp van een serie casestudies storytelling in het datavisualisatie landschap geanalyseerd en gecategoriseerd. Hierbij delen zij
storytelling affordances op in twee hoofdcategorieën: visual narrative tactics en narrative structure tactics. Visual narrative tactics definiëren zij als: “visual devices
that assist and facilitate the narrative” (2010). Narrative structure tactics worden gedefinieerd als: “non-visual mechanisms that assist and facilitate the narrative” (2010). Met deze twee hoofdcategorieën worden de storytelling affordances
opgesplitst tussen visueel en non-visueel. Hier maken Segel en Heer (2010) een verdere indeling die hieronder beschreven staat.
2.3.1 Visual narrative tactics
(i) visual structuring
Visual structuring zijn visuele technieken die je binnen die visualisatie kan
gebruiker bijvoorbeeld om te weten waar hij/zij moet beginnen. Voorbeelden van technieken om dit te bereiken zijn: een progress bar (voortgangsbalk), een timeline slider, een establishing shot, een checklist en consistent visueel platform.
(ii) highlighting
Met behulp van highlighting (benadrukken) kun je de aandacht van de gebruiker een bepaalde kant op trekken die belangrijk is voor het verhaal. Je kan dit o.a. bereiken met behulp van kleur, beweging, contrast, grootte, etc. Denk bijvoorbeeld aan een dikgedrukt stuk tekst wat de aandacht trekt.
(iii) transition guidance
Bij transition guidance probeer je de gebruiker te helpen bij het wisselen tussen verschillende scènes in de visualisatie zodat de gebruiker niet verward raakt. Technieken om dit te bereiken zijn: geanimeerde transities tussen scènes en de continuïteit van objecten. In een visualisatie kun je dit doen door de overgang tussen verschillende detailniveaus te animeren.
2.3.2 Narrative structure tactics
(i) ordering
Ordering is de tactiek die gebruikt kan worden om aan te geven hoe de gebruiker
door de visualisatie heen moet lopen. Dit kan bijvoorbeeld lineair, door de auteur bepaald, of (gedeeltelijk) non-lineair zijn waarbij de gebruiker zelf kan kiezen hoe hij/zij door de visualisatie heen gaat. Een film is een voorbeeld van een strikt lineaire ordening. Veel games zijn (gedeeltelijk) non-lineair.
(ii) interactivity
Interactivity gaat over de manieren waarop de gebruiker interactie met de
visualisatie aan kan gaan en hoe hij/zij over deze interactie leert. Een aantal interactie technieken zijn: filtering (filteren), selecting (selecteren), searching
(zoeken) en navigating (navigeren). Een voorbeeld is een datavisualisatie waarbij je kan selecteren welke jaartallen je mee wilt nemen.
Technieken om over de interactie te leren zijn: explicit instruction, tacit tutorial en
initial configuration. De uitleg kan bijvoorbeeld interactief of expliciet uitgeschreven
(iii) messaging
Messaging refereert naar de manieren waarop de maker observaties en commentaar
over de visualisatie naar de gebruiker overbrengt. Dit kan bijvoorbeeld gedaan worden met korte teksten(labels, captions, headlines, annotations) en langere teksten(articles, introductions, summaries).
Samen vormen de beschreven technieken een palet aan mogelijkheden waar de maker uit kan kiezen om zo het verhaal van de visualisatie op een optimale manier over te brengen.
2.4 Interactiviteit in datavisualisatie
Segel en Heer focussen zich in hun case studies voornamelijk op de klassieke journalistieke vormen van data visualisatie zoals deze bijvoorbeeld door kranten gemaakt worden. Een van de gevolgen hiervan is dat interactiviteit relatief weinig aandacht krijgt in de paper van Segel en Heer. Dit zal onder andere komen door het feit dat de paper in 2010 gepubliceerd is. Nu, 8 jaar verder, is de ontwikkeling van de beschikbare data visualisatie tools een stuk verder en is interactiviteit
makkelijker te realiseren.
Interactiviteit in data visualisatie geeft ons nieuwe krachtige storytelling affordances waar men vroeger in de tijd van papieren visualisaties nog geen toegang tot had. Het toevoegen van interactiviteit aan visualisaties kan helpen op drie belangrijke gebieden van de communicatie: begrip van de data, vertrouwen in de data en een gevoel van betrokkenheid (Ma et al, 2012).
2.5 Author-driven vs. reader-driven stories
Verhalen begeven zich ergens op het spectrum van author-driven stories tot reader-driven stories (Segel en Heer, 2010). Een film is een voorbeeld van een volledig author-driven story. Een visualisatie die volledig bestaat uit interactie met een dataset zal waarschijnlijk erg dicht tegen een volledig reader-driven story aan zitten. Een volledig author-driven verhaal biedt ons de mogelijkheid om een verhaal perfect te vertellen maar zorgt er wel voor dat we de eerder beschreven voordelen van interactiviteit mislopen. Een volledig reader-driven verhaal levert de voordelen van de interactiviteit op maar betekent tegelijk dat we geen ingepland verhaal kunnen vertellen. Voor veel data visualisaties in de context van explanatory
analysis zal de beste weg ergens in het midden liggen. Dit conflict wordt ook wel de
narrative paradox genoemd (Ma et al, 2012). Wohlfart and Hauser (2007) stellen een
taxonomie voor die data visualisaties op vier verschillende punten op dit spectrum plaatst:
Passive storytelling
Hier bevindt het verhaal zich volledig aan de author-driven kant van het spectrum.
Storytelling with interactive approval
In deze categorie pauzeert het verhaal op verschillende punten waarbij de
gebruiker de interactie met het verhaal aan kan gaan. Denk hierbij bijvoorbeeld aan het aanpassen van de representatie van de data in een visualisatie. Wanneer de gebruiker tevreden is gaat het verhaal weer verder.
Semi-interactive storytelling
Bij semi-interactive storytelling heeft de gebruiker niet af en toe input maar heeft hij/zij complete controle over een gehele sectie van de visualisatie.
Total separation from the story
Deze categorie bevindt zich volledig aan de reader-driven kant van het spectrum. De gebruiker heeft complete controle over alle aspecten van de visualisatie.
2.6 Effectiviteit datavisualisatie meten
Het meten van het succes van datavisualisatie in de context van explanatory analysis is iets wat nog weinig onderzocht is (Kosara & Mackinlay, 2013). Door de
subjectieve aard is de effectiviteit niet te meten door simpelweg bij te houden hoe snel en accuraat een testpersoon een bepaalde taak uitvoert. Relevante meetpunten zijn onder andere betrokkenheid, interesse, retentie van belangrijke punten en het verkrijgen van de relevante informatie om een besluit te kunnen maken (Kosara & Mackinlay, 2013).
Mahyar et al (2015) stellen een taxonomie voor die het niveau van betrokkenheid van de gebruiker met de datavisualisatie weergeeft aan de hand van de uitvoer van verschillende niveaus cognitieve taken. Deze cognitieve taken, geordend van lage engagement naar hoge engagement, zijn als volgt:
Expose (Viewing): de gebruiker weet hoe hij de data moet lezen.
Involve (Interacting): de gebruiker gaat de interactie met de visualisatie aan en
manipuleert de data.
Analyze (Finding Trends): de gebruiker analyseert de data, vindt trends, eventuele
outliers etc.
Synthesize (Testing Hypotheses): de gebruiker is in staat om een eigen hypothese
op te stellen en deze te evalueren.
Decide (Deriving Decisions): de gebruiker in staat om beslissingen te maken op
basis van de verschillende opgestelde hypotheses.
Figuur 3 - engagement taxonomie (Mahyar et al, 2015)
3. Datavisualisatie
3.1 Dataset
Aan de basis van iedere datavisualisatie staat een dataset, zonder data is er niets om te visualiseren. In deze studie is er gebruik gemaakt van een bestaande dataset opgezet met een bepaald doel. Hier is voor gekozen vanwege tijdsefficiëntie
aangezien de studie zoals eerder beschreven niet gericht is op de explorative analysis, het distilleren van een verhaal uit een dataset. De focus van deze studie ligt op de representatie van deze data en het verhaal.
De dataset is afkomstig van de actiegroep #POinactie
(https://lerarentekortisnu.nl/). Deze actiegroep maakt zich hard voor een betere CAO voor docenten in het primair onderwijs. Volgens de actiegroep zorgt de gebrekkige CAO voor het huidige lerarentekort. Om de CAO onderhandelingen
kracht bij te zetten hebben zij scholen en docenten in het hele land gevraagd te registreren wat er gebeurt op het moment dat een docent onverhoopt, bijvoorbeeld door ziekte, niet voor zijn/haar klas kan staan. Mede door het lerarentekort kan hier vaak geen goede oplossing voor gevonden worden. Denk hierbij bijvoorbeeld aan het naar huis sturen of verdelen van een klas.
De dataset is op de website beschikbaar gemaakt in het open CSV formaat. In deze dataset zijn per registratie de volgende waarden beschikbaar:
● datum ● schoolnaam ● stad ● groep ● aantal kinderen ● gekozen oplossing
Deze dataset is aan het begin van het onderzoek schoongemaakt door overtollige spaties te verwijderen en alle gemeentenamen naar kleine letters te veranderen.
Om ook de context van het verhaal goed te kunnen vertellen is de datavisualisatie aangevuld met data van de Rijksoverheid (“Lerarentekort primair onderwijs”, 2018). Hierbij gaat het om een kaart van Nederland die met behulp van kleur laat zien hoe groot het verwachte lerarentekort op verschillende plekken in Nederland in 2020 zal zijn. Daarnaast gaat het om een open CSV bestand met daarin het (verwachte) lerarentekort in FTE(fulltime-equivalent) van 2015 tot en met 2025.
3.2 Datavisualisatie techniek
De datavisualisaties zijn gebouwd in Dash(https://dash.plot.ly/), een open-source Python datavisualisatie library. Dash is declaratief, dit betekent dat niet iedere component van de visualisatie handmatig geprogrammeerd hoeft te worden. De programmeur beschrijft in het bestand welke visualisaties met een bepaalde configuratie getoont moeten worden. Vervolgens genereert Dash onder de motorkap de juiste D3.js (https://d3js.org/) visualisaties. D3.js is een bekende datavisualisatie library voor het web. Daarnaast maakt Dash relatief makkelijke interactie tussen deze componenten mogelijk.
De realtime data analyse wordt gedaan met behulp van de Python library Pandas (https://pandas.pydata.org/). Python kan op hoge snelheid gigantische
hoeveelheden data verwerken.
Een groot voordeel aan het gebruik van Dash is dat het de ontwikkelingstijd van datavisualisaties verkort. Daarnaast biedt het de mogelijkheid om interactiviteit aan visualisaties toe te voegen. Door de korte onderzoekstijd en de aard van het onderzoek zijn beide zaken erg belangrijk.
De volledige code van de visualisaties is te vinden op de Github repository van de onderzoeker (https://github.com/rgingnagel/bachelor-thesis-final).
3.3 Datavisualisatie met storytelling
De datavisualisatie met storytelling techniek heeft een vaste verhaalstructuur, dat wil zeggen dat het een duidelijk begin, midden en eind heeft. In het begin wordt het probleem geïntroduceerd en de context geschetst, in het midden vindt het conflict plaats en aan het eind wordt het probleem afgesloten. Ten behoeve van het
overzicht zijn er van het begin, midden en eind drie afzonderlijke afbeeldingen gemaakt die hieronder weergegeven zijn. In de werkelijke visualisatie zijn deze drie secties samen één lange webpagina. Een functionele versie van de datavisualisatie is te vinden op de volgende URL: https://visualisatie-b.herokuapp.com/
3.3.1 Begin
Een afbeelding van het begin van de visualisatie is weergegeven op figuur 4. De visualisatie start met een tekst die de gebruiker introduceert tot het probleem en relevante context geeft. Daaronder wordt een kaart van Nederland weergegeven die met behulp van kleur laat zien hoe groot het verwachte lerarentekort op
verschillende plekken in Nederland in 2020 zal zijn.
3.3.2 Midden
Een afbeelding van het midden van de visualisatie is weergegeven op figuur 5. In het middenstuk maakt de gebruiker kennis met de gevolgen van het lerarentekort. Waar het probleem in de introductie nog abstract blijft komt de gebruiker hier in aanraking met de data en kan deze zelf verkennen.
De sectie start met een stuk tekst die de gevolgen van het lerarentekort en de interactieve visualisatie introduceert. Daarna volgt er een tekst die uitlegt hoe de interactieve visualisatie gebruikt kan worden. Bovenaan de visualisatie kan de gebruiker met behulp van de timeline slider selecteren welke data hij/zij wilt visualiseren, deze staat standaard op alle data ingesteld. Links is een kaart van Nederland te zien, hier zijn de verschillende Nederlandse gemeenten op geplot. De verschillende oplossingen die gekozen worden bij een zich voordoend lerarentekort worden weergegeven met een schaal van rood(erg) naar groen(minder erg). De kleur van de marker wordt berekend op basis van de meest voorkomende oplossing in de specifieke gemeente. De gebruiker kan op een gemeente klikken om de
specifieke statistieken van deze gemeente aan de rechterzijde tonen. Rechtsboven staat een tabel die voor de betrokken gemeente aangeeft bij hoeveel leerlingen een oplossing voorkwam. Daaronder bevindt zich een horizontale stacked bar chart die voor dezelfde gemeente weergeeft hoe de oplossingen in percentages verdeeld zijn. Daaronder toont hij ter vergelijking in een tweede staaf ook de verdeling voor Nederland als geheel. De kleuren komen overeen met de gebruikte kleuren voor de markers op de kaart. Door over de stacked bar chart te hoveren ziet de gebruiker de specifieke percentages. Op het moment dat de gebruiker de gegevens voor heel Nederland wilt zien klikt hij/zij op de “Toon Nederland” knop.
3.3.3 Eind
Een afbeelding van het eind van de visualisatie is weergegeven op figuur 6. Wanneer de gebruiker klaar is met de interactieve visualisatie scrolt hij/zij door naar het eind. Hier wordt een samenvatting gegeven van wat de gebruiker heeft gezien. Vervolgens wordt er met behulp van een grafiek aangegeven dat dit pas het begin van het probleem is aangezien het verwachte lerarentekort groeit. De
visualisatie sluit af met een call to action: er moet voor docenten in het primair onderwijs een betere CAO komen.
3.3.4 Storytelling affordances
De genummerde markers op figuren 4, 5 en 6 laten voorbeelden zien van de
gebruikte storytelling affordances. Hieronder zijn de soorten storytelling affordances die in de datavisualisatie zijn gebruikt uiteengezet op basis van de categorisering van Segel en Heer (2010). De nummering van de categorieën komt overeen met de nummering van de markers.
1.Visual structuring
Kleur consistentie tussen kaart markers en de stacked bar chart
Door de kleuren tussen de kaart markers en de stacked bar chart consistent te maken wordt er voor de gebruikers een link tussen de elementen gecreëerd.
Timeline slider
Met behulp van de timeline slider kan de gebruiker zelf de gevisualiseerde tijd aanpassen en weet hij/zij precies waar hij in het verhaal zit.
2. Highlighting
Dikgedrukte tekst
Door gedeelten van de tekst dik te drukken wordt de aandacht van de gebruiker richting informatie getrokken die relevant is voor het verhaal.
Rode highlight in grafiek
Door het gedeelte vanaf 2018 rood te maken in de grafiek in het einde van de
visualisatie wordt de aandacht van de gebruiker richting de verwachte groei van het lerarentekort getrokken.
3. Ordering
Narrative structuur visualisatie(begin, midden en eind)
Door een duidelijke structuur in de visualisatie aan te brengen is het voor de gebruiker makkelijker om het verhaal te volgen.
Sortering van oplossingen
In de tabel en de stacked bar chart staan de oplossingen zo gesorteerd dat de ‘ergste’ oplossingen boven staan en de minst ‘erge’ oplossingen onder. Zo wordt de
aandacht van de gebruiker richting de grootte van het probleem getrokken.
4. Interactivity
Interactiviteit van de kaart
De kaart is interactief(klikbaar, zoombaar en beweegbaar) waardoor de gebruiker de gevisualiseerde data naar zijn eigen hand kan zetten.
De werking van de interactiviteit van de visualisatie wordt in een zogenaamde explicit tutorial aan de gebruiker uitgelegd.
Knop om terug te gaan naar Nederland
Met behulp van deze knop kan de gebruiker de data voor heel Nederland tonen.
5. Messaging
Introductie
De introductie zorgt er voor dat de gebruiker de juiste kennis heeft om het probleem in context te plaatsen.
Eind samenvatting
In de eind samenvatting wordt het probleem nog is benadrukt en krijgt de gebruiker een call-to-action mee.
Figuur 4 - storytelling datavisualisatie begin
Figuur 5 - storytelling datavisualisatie midden
3.4 Datavisualisatie zonder storytelling affordances
In de datavisualisatie zonder storytelling affordances (zie Appendix 9.2 figuur 9) is exact dezelfde dataset en tekst gebruikt als in de datavisualisatie met storytelling
affordances. Dit betekent dat het begin en eind van beide visualisaties dezelfde tekst
en figuren bevatten maar dat de non-storytelling datavisualisatie geen storytelling
affordances bevat zoals dikgedrukte tekst en highlighting in de grafiek. Daarnaast
verschilt het middenstuk van beide visualisaties. Waar de datavisualisatie met
storytelling affordances een interactieve visualisatie bevat zoals getoond in figuur 5,
bevat de datavisualisatie zonder storytelling affordances een knop die de gebruiker doorstuurt naar de datavisualisatie op de website van #POinactie (zie Appendix 9.2 figuur 10). Deze website toont dezelfde data als het interactieve middenstuk van de storytelling datavisualisatie maar dan zonder storytelling affordances.
4. Methode
4.1 Onderzoeksdesign
Het doel van dit kwantitatieve onderzoek was om te meten of het gebruik van
storytelling invloed heeft op de effectiviteit van datavisualisatie in de context van
explanatory analysis. Voor dit onderzoek zijn er twee door de onderzoeker
gebouwde datavisualisaties met elkaar vergeleken met behulp van een vragenlijst.
4.2 Studiepopulatie
Aan het onderzoek hebben tien respondenten deelgenomen die via het persoonlijk netwerk van de onderzoeker zijn benaderd. Vanwege de beperkte duur van dit onderzoek is gekozen om geen grotere respondenten groep te includeren. De tien respondenten zijn random opgesplitst in twee onafhankelijke groepen van vijf. De respondenten wisten niet in welke groep ze zaten. Alle respondenten waren
mannelijke WO studenten met een technische invalshoek.
4.3 Vragenlijst
Het doel van de vragenlijst (zie Appendix 9.1) was om de effectiviteit van de datavisualisatie te meten. Zoals beschreven in hoofdstuk 2.6 is hier weinig over
beschreven in eerdere literatuur. Gebaseerd op het werk van Kosara en Mackinlay (2013) is er voor gekozen om in de vragenlijst drie thema’s te toetsen die een indicatie van de effectiviteit geven: algemene ervaring, engagement en activatie. Daarnaast wordt ook relevante context voor het onderzoek getoetst.
Ieder thema werd getoetst aan de hand van een aantal vragen waar met een vijfpunts likertschaal antwoord op gegeven kon worden. Naast het toetsen van de thema’s werd er met behulp van de vraag “Hoe geïnteresseerd was je over dit onderwerp voordat je aan deze test begon?” getoetst of interesse van de groepen voor het doorlopen van de visualisaties gelijk lag. Deze interesse kan invloed hebben op de uitkomst van de andere vragen. Bij één vraag: “Wat voor cijfer zou je deze website geven?” is er voor gekozen om het antwoord de vorm van een tien punts likertschaal te geven uit de verwachting dat dit voor de respondent
natuurlijker aanvoelt. Vervolgens is deze vraag omgeschaald naar een vijfpunts likertschaal door de antwoorden door twee te delen. Zo kan de vraag vergeleken worden met de rest van de vragen.
Daarnaast bevatte de vragenlijst twee open vragen: “Wat was het verhaal dat de website volgens jou over probeerde te brengen?” en “Wat voor emoties voel je op dit moment over het onderwerp?”. De eerste open vraag diende er voor om een indicatie te krijgen of de respondent het verhaal werkelijk begreep. Het doel van de tweede open vraag was om extra context, wat moeilijk met een likertschaal te meten is, over de respondent te verkrijgen.
4.4 Dataverzameling
Zoals besproken in hoofdstuk 3 zijn er op basis van een bestaande dataset twee datavisualisaties gebouwd. In de eerste datavisualisatie is gebruik gemaakt van de
storytelling affordances zoals deze beschreven zijn in het theoretisch kader. In de
tweede datavisualisatie zijn deze storytelling affordances niet gebruikt. Om het onderzoek eerlijk te laten verlopen is uiteraard gebruik gemaakt van exact dezelfde data en tekst bij beide datavisualisaties, slechts de aanwezigheid van storytelling technieken verschilt.
Het onderzoek werd op het Science Park afgenomen op 22 juli 2018. De
De respondent werd gevraagd om plaats te nemen achter de computer van de onderzoeker, waarop in volledig scherm de datavisualisatie weergegeven werd waar hij/zij bij was ingedeeld. Het doel van het gebruik van het volledige scherm was om de afleiding voor de respondent te minimaliseren. Vervolgens werd er aan de respondent gevraagd om de datavisualisatie te doorlopen alsof het een
journalistiek artikel was. Hierbij werd vermeld dat er aansluitend op het onderzoek een kleine vragenlijst zou komen en dat de onderzoeker in de ruimte ernaast
aanwezig was om eventuele vragen te beantwoorden. Voor het afzonderen van de respondent tijdens de datavisualisatie is gekozen om invloeden van de onderzoeker op de respondent te minimaliseren. Wanneer de respondent aangaf de
datavisualisatie doorlopen te hebben, opende de onderzoeker de Google Forms vragenlijst en vroeg de respondent deze naar waarheid in te vullen. Na het afronden van de vragenlijst werd de respondent bedankt voor de deelname aan het
onderzoek.
4.5 Data analyse
Er waren geen respondenten met vragen tijdens het onderzoek en alle verzamelde data kon in de analyse geïncludeerd worden. Door de kleine sample size van dit onderzoek voldoet de data niet aan de basis assumpties voor het uitvoeren van een independent two-tailed t-test. Om inzicht te krijgen in eventuele trends in de data is er voor gekozen om de gemiddelde verschillen voor ieder thema tussen de twee groepen te berekenen en vergelijken. Voor het vergelijken van de gemiddelden is gebruik gemaakt van Google Sheets.
6. Resultaten
De effectiviteit van de visualisaties werd door middel van een vragenlijst gemeten aan de hand van drie thema’s: algemene ervaring, engageren en activeren.
Daarnaast werd voor het onderzoek relevante context gemeten.
Context
Op een schaal van een tot vijf scoorde de groep van de visualisatie met storytelling op de vraag “Hoe geïnteresseerd was je over dit onderwerp voordat je aan deze test begon?” gemiddeld 0.2 hoger dan de groep met visualisatie zonder storytelling. Dit
betekent dat de groep met storytelling voor het maken van de test gemiddeld meer geïnteresseerd was in het onderwerp dan de groep zonder storytelling.
Op de open vraag “Wat was het verhaal dat de website volgens jou over probeerde te brengen?” gaven alle respondenten een antwoord wat in lijn lag met de beoogde boodschap van de visualisaties. De vraag “Wat voor emoties voel je op dit moment over het onderwerp?” bleek voor respondenten moeilijk te beantwoorden en leverde geen bruikbare data op.
Algemene ervaring
De gemiddelde resultaten van de vragen uit de categorie algemene ervaring worden weergegeven in figuur 7. Op alle vier de vragen scoorde de groep van de visualisatie met storytelling gemiddeld hoger. Van de vier vragen is het gemiddelde verschil tussen de groepen 0.6875 op een schaal van een tot vijf. Dit betekent dat de groep met storytelling het doorlopen van de visualisatie gemiddeld een betere ervaring vond dan de andere groep dat vond.
Figuur 7 - resultaten algemene ervaring
Engageren
De gemiddelde resultaten van de vraag uit de categorie engageren worden
weergegeven in figuur 8. Bij dit thema scoort de groep van de datavisualisatie met
storytelling gemiddeld op een schaal van een tot vijf 0.6 hoger dan de
datavisualisatie zonder storytelling.
Activeren
De gemiddelde resultaten voor de vragen uit de categorie engageren en activeren zijn weergegeven in figuur 8. Op alle drie de vragen scoort de groep van de
visualisatie met storytelling gemiddeld hoger. Van de drie vragen is het gemiddelde verschil tussen de groepen 0.47 op een schaal van een tot vijf.
Figuur 8 - resultaten engageren en activeren
7. Discussie
Onderzocht is of het gebruik van storytelling invloed heeft op de effectiviteit van datavisualisatie in de context van explanatory analysis. Met behulp van een
vragenlijst werd de effectiviteit van de doorlopen visualisaties getest aan de hand van drie thema’s: algemene ervaring, engagement en activatie. Daarnaast werd voor het onderzoek relevante context gemeten.
In de vragenlijst werd aan iedere respondent gevraagd hoe geïnteresseerd hij/zij in het onderwerp was voor de start van het onderzoek. De groep van de
datavisualisatie met storytelling scoorde hierbij op een schaal van een tot vijf gemiddeld 0.2 hoger dan de groep zonder storytelling. Dit geeft de indicatie dat de groep met storytelling voor het maken van de test gemiddeld iets meer
geïnteresseerd was in het onderwerp dan de andere groep. Dit zou ervoor kunnen zorgen dat de groep van de datavisualisatie met storytelling op de drie thema’s iets hoger scoort dan de andere groep.
Op het thema algemene ervaring scoorde de groep die de datavisualisatie met
storytelling had doorlopen op een schaal van een tot vijf gemiddeld 0.6875 hoger
dan de andere groep. Dit geeft de indicatie dat de groep met storytelling het doorlopen van de visualisatie gemiddeld een betere ervaring vond dan de andere groep.
Op het thema engageren scoorde de groep die de datavisualisatie met storytelling had doorlopen op een schaal van een tot vijf gemiddeld 0.6 hoger dan de andere groep. Dit zou een indicatie kunnen zijn dat de groep met storytelling na het doorlopen van de visualisatie gemiddeld meer geëngageerd was dan de andere groep.
Op het thema activeren scoorde de groep die de datavisualisatie met storytelling had doorlopen op een schaal van een tot vijf gemiddeld 0.47 hoger dan de andere groep. Dit zou een indicatie kunnen zijn dat de groep met storytelling na het doorlopen van de visualisatie gemiddeld meer geactiveerd was dan de andere groep.
Met respectievelijk 0.6875, 0.6 en 0.47 zijn de verschillen tussen de groepen op het gebied van de getoetste thema’s een stuk groter dan het verschil van 0.2 in
interesse vooraf. Dit betekent dat als de getoetste thema’s als indicator voor
effectiviteit gebruikt worden, storytelling een positieve invloed lijkt te hebben op de effectiviteit van datavisualisaties in context van explanatory analysis.
Zoals beschreven door Kosara en Mackinlay (2013) is er in het domein van
gedaan. Dat maakt dit onderzoek en de bijbehorende resultaten erg relevant voor de wetenschap. Echter, er zitten aan het onderzoek in zijn huidige vorm ook een aantal limitaties.
7.1 Limitaties
Een limitatie van dit onderzoek was de grootte van de sample size. Ondanks dat de resultaten van dit onderzoek een trend in de data lieten zien, konden er door de kleine sample-size van tien respondenten geen statistische toetsen worden uitgevoerd. Met deze reden konden er geen uitsluitend verband worden aangetoond.
De resultaten van dit onderzoek laten een trend in de data zien maar door de kleine sample-size van tien respondenten kunnen geen harde conclusies getrokken worden. Om de juiste statistische toetsen te kunnen uitvoeren is een grotere sample-size nodig.
De studiepopulatie van dit onderzoek was erg homogeen. Alle respondenten waren mannelijke WO-studenten met een technische oriëntatie. Om een betere
weerspiegeling van de werkelijkheid te geven is een grotere diversiteit aan proefpersonen gewenst.
7.2 Vervolgonderzoek
Op basis van de resultaten van dit onderzoek is vervolgonderzoek nodig. De
zichtbare trend in de data geeft het vermoeden dat een vervolgonderzoek met een studiepopulatie die voldoet aan de basisassumpties van de independent two-tailed t-toets eventueel significante resultaten zou kunnen opleveren. Naast het rekening houden met de bovengenoemde limitaties van het huidige onderzoek volgen er hier een aantal andere suggesties voor een mogelijk vervolgonderzoek:
Retentie
Wellicht heeft het gebruik van storytelling technieken ook invloed op de retentie van een verhaal. Dit zou getest kunnen worden door respondenten een maand na het uitvoeren van het onderzoek een tweede vragenlijst op te sturen. Zo kan getest worden in hoeverre het verhaal onthouden wordt.
Bio-sensoren
Emoties kunnen aan de hand van zaken als transpiratie en de hartslag gemeten worden door bio-sensoren (Haag et al, 2004). Het zou in vervolgonderzoek erg interessant kunnen zijn om tijdens het doorlopen van de datavisualisatie in realtime de opgewekte emoties bij de respondenten te volgen. Zo kan er
bijvoorbeeld bepaald worden welk gedeelte van de visualisatie bij de respondent voor de meeste stimulatie zorgt.
Opdelen storytelling affordances
In dit onderzoek werden alle storytelling affordances in een datavisualisatie getest. Echter, het is ook erg nuttig om te weten of bepaalde storytelling affordances meer impact hebben dan andere storytelling affordances. Dit kan getest worden door de groep op te splitsen in meerdere groepen en verschillende visualisaties te
gebruiken.
7.3 Sociale relevantie
Naast de beschreven wetenschappelijke relevantie kan dit onderzoek ook een grote sociale relevantie hebben. In de huidige tijd waarin data een steeds centralere rol heeft wordt datavisualisatie een steeds belangrijker vakgebied. Het succesvol kunnen communiceren van data kan op veel plekken van onze samenleving een belangrijke impact maken. Juist nu techniek steeds belangrijker wordt is het van belang dat het menselijk aspect niet uit het oog wordt verloren en er voor gezorgd wordt dat mens en machine een symbiose kunnen vormen.
8. Conclusie
In dit onderzoek werd onderzocht of het gebruik van storytelling invloed heeft op de effectiviteit van datavisualisatie in de context van explanatory analysis. De van storytelling gebruikmakende datavisualisatie scoorde op alle getoetste thema’s hoger dan de datavisualisatie zonder deze storytelling technieken. Deze resultaten wekken het vermoeden dat het gebruik van storytelling technieken een positieve invloed heeft op de effectiviteit van datavisualisatie. Vanwege de wetenschappelijke en sociale relevantie van dit onderwerp, is het van belang om in de toekomst
vervolgonderzoek uit te voeren om de uitkomsten van dit onderzoek statistisch te kunnen onderbouwen.
9. Appendix
9.1 Vragenlijst
Context
1. Wat was het verhaal dat de website volgens jou over probeerde te brengen? (open vraag)
2. Hoe geïnteresseerd was je over dit onderwerp voordat je aan deze test begon? (vijfpunts likertschaal)
3. Welk gedeelte van de data visualisatie liet de meeste indruk achter? (begin/midden/eind)
4. Wat voor emoties voel je op dit moment over het onderwerp? (Als je er niets bij voelt kan je 'niet' invullen.) (open vraag
Algemene ervaring
5. Voegden de interactieve elementen iets toe aan de beleving van de website? (vijfpunts likertschaal)
6. Hoe ervoer je het doorlopen van deze website? (vijfpunts likertschaal) 7. Heb je het idee dat je een goed begrip hebt van de gepresenteerde data?
(vijfpunts likertschaal)
8. Wat voor cijfer zou je deze website geven? (1-10)
Engageren
9. Hoe geëngageerd ben je over het onderwerp na het doorlopen van de website? (vijfpunts likertschaal)
Activeren
10. Hoe waarschijnlijk is het dat je na deze test meer over het onderwerp gaat lezen? (vijfpunts likertschaal)
11. Hoe waarschijnlijk is het dat je je vrienden meer over het onderwerp gaat vertellen? (vijfpunts likertschaal)
12. Hoe waarschijnlijk is het dat deze nieuwe kennis je acties zal beïnvloeden? (vijfpunts likertschaal)
9.2 Afbeeldingen datavisualisatie zonder storytelling affordances
Figuur 10 - statistieken non-storytelling visualisatie
Referenties
- Coetzee, L., & Eksteen, J. (2011, May). The Internet of Things-promise for the future? An introduction. In IST-Africa Conference Proceedings, 2011 (pp. 1-9). IEEE.
- Gershon, N., & Page, W. (2001). What storytelling can do for information visualization. Communications of the ACM, 44(8), 31-37.
- Graziosi, B. (2002). Inventing Homer: the early reception of epic. Cambridge University Press.
- Haag, A., Goronzy, S., Schaich, P., & Williams, J. (2004, June). Emotion recognition using bio-sensors: First steps towards an automatic system. In
Tutorial and research workshop on affective dialogue systems (pp. 36-48).
Springer, Berlin, Heidelberg.
- Harari, Y. N. (2016). Homo Deus: A brief history of tomorrow. Random House. - Hashem, I. A. T., Yaqoob, I., Anuar, N. B., Mokhtar, S., Gani, A., & Khan, S. U.
(2015). The rise of “big data” on cloud computing: Review and open research issues. Information Systems, 47, 98-115.
- International Statistical Congress. Emploi de la cartographic et de la
methode graphique en general pour les besoins speciaux de la statistique. In Proceedings, pages 192–197, Vienna, 1858. 3rd Session, August
31-September 5, 1857.
- Knaflic, C. N. (2015). Storytelling with data: A data visualization guide for
business professionals. John Wiley & Sons.
- Kosara, R., & Mackinlay, J. (2013). Storytelling: The next step for visualization. Computer, 46(5), 44-50.
- Lerarentekort primair onderwijs. (2018). Geraadpleegd op 6 juli 2018, van https://www.rijksoverheid.nl/onderwerpen/werken-in-het-onderwijs/aanp ak-tekort-aan-leraren/lerarentekort-primair-onderwijs
- Ma, K. L., Liao, I., Frazier, J., Hauser, H., & Kostis, H. N. (2012). Scientific storytelling using visualization. IEEE Computer Graphics and Applications, 32(1), 12-19.
- Mahyar, N., Kim, S. H., & Kwon, B. C. (2015, October). Towards a taxonomy for evaluating user engagement in information visualization. In Workshop on
- McCarthy, J., Minsky, M. L., Rochester, N., & Shannon, C. E. (2006). A proposal for the dartmouth summer research project on artificial intelligence, august 31, 1955. AI magazine, 27(4), 12.
- McCloud, S. (1993). Understanding comics: The invisible art. Northampton,
Mass.
- Narrative. (2018). In The Oxford English dictionary (3d edition). Retrieved from
http://www.oed.com/view/Entry/125146
- Sarwar, M., & Soomro, T. R. (2013). Impact of Smartphone’s on Society.
European journal of scientific research, 98(2), 216-226.
- Segel, E., & Heer, J. (2010). Narrative visualization: Telling stories with data.
IEEE transactions on visualization and computer graphics, 16(6), 1139-1148.
- Sugiyama, M. S. (2001). Food, foragers, and folklore: The role of narrative in human subsistence. Evolution and Human Behavior, 22(4), 221-240.
- Tufte, E., & Graves-Morris, P. (2014). The visual display of quantitative information.; 1983.
- Wohlfart, M., & Hauser, H. (2007, May). Story telling for presentation in volume visualization. In Proceedings of the 9th Joint Eurographics/IEEE VGTC
conference on Visualization (pp. 91-98). Eurographics Association.