ONTWERPPROCES DATAVISUALISATIE - Natuurlijke datapatronen

38

Aan deze resultaten is te zien dat de variabele voor de grootte goed overkomt. De kijker kan meteen conclusies trekken zoals dat Rotterdam een grotere oppervlakte heeft dan Amsterdam, en dat Almere zelfs ook iets groter is als Amsterdam. Maar bij deze eerste resultaten was er aan adressendichtheid nog maar één variabele gekoppeld in plaats van twee, en daarom komen de verschillen in het patroon hier nog niet goed over. Dit is ook gebleken uit de resultaten van de eerste enquête, waarbij het niemand lukte om de juiste volgorde van de tien visualisaties te benoemen.

Daarna is de dichtheid van het nervenpatroon nog aangepast, en bij de tweede enquête had 82% procent van de deelnemers de volgorde helemaal goed, en 18% had één fout. De resultaten van het vernieuwde

vertakkingspatroon met aangepaste dichtheid zijn op deze pagina te zien.

Niveau

In hoofdstuk 1 is een meetschaal van data benoemd. Het is belangrijk om eerst vast te stellen welk niveau of niveaus van data goed werken met het systeem. Eigenlijk zou het systeem met alle genoemde niveaus van data kunnen werken, maar vooral de kwantitatieve data (interval en ratio) zal toch de meeste mogelijkheden geven. Omdat bij de kwalitatieve data eigenlijk alleen hoe vaak bepaalde items voorkomen in vergelijking met het totaal gebruikt kan worden voor visualisatie, en bij de kwantitatieve data kunnen juist de waarden van deze items gevisualiseerd worden.

Datasets

Het is wel belangrijk om op te merken dat het onderwerp van visualisatie in zekere mate

ondergeschikt is aan het systeem, omdat het doel was onderzoek te doen naar de mogelijkheden van een natuurlijk systeem voor datavisualisatie. Het onderwerp van de dataset voor visualisatie dient ter illustratie/ als voorbeeld om het functioneren van het systeem te demonstreren. Daarom zijn de volgende drie datasets

geselecteerd.

1. Verstedelijking van de tien grootste Nederlandse steden, variabelen:

adressendichtheid, oppervlakte, stad en jaartal. 2. Koopkracht Nederland van 2002 – 2010. 3. Veel voorkomendheid van woorden in

bepaalde tekst. Deze dataset is gekozen om ook data van de nominale schaal te visualiseren.

die ‘groeit’. Maar ook weer de interessante tegenstrijd om een natuurlijk proces in te zetten voor de visualisatie van verstedelijking. De combinatie van een dergelijk onderwerp met een natuurlijk systeem zet de kijker ook aan het denken. De reacties in de enquête waren hierop ook zeer uiteenlopend. Enkelen vonden het geen goede combinatie omdat het tegenstrijdig was, terwijl anderen denken aan de ‘roots’ van de mens, of het uitbeelden van menselijkheid met een natuurlijke vorm, maar ook dingen als ‘abstract’ of ‘conflict’ worden genoemd. Deze vorm zou veelbelovend kunnen zijn, want datavisualisaties worden extra interessant als de kijker er een verhaal of mening bij vormt.

De volgende dataset over de koopkracht van Nederland is ook gekozen met een bepaalde metafoor in gedachten: de visualisatie van 2010 is heel ‘kaal’ in vergelijking met de rest. Dit refereert natuurlijk naar de financiële crisis. In 2010 is de koopkracht van de Nederlandse bevolking met 0,5 procent afgenomen. Dit is de grootste koopkrachtdaling sinds 1985. Het was ook mogelijk om deze negatieve waarde te visualiseren omdat het systeem werkt met een bepaald bereik: door een minimum en maximum aan te houden en weer te geven hoe de andere waarden zich hier tot verhouden.

In het algemeen kan het systeem dus werken met verschillende datasets, maar het is wel aangeraden om onderwerpen te kiezen die een bepaalde connectie hebben met de vorm van de visualisatie, omdat deze dan sterker over komt. Dus vooral kwantitatieve data, die een bepaalde groei doormaakt of een serie om een vergelijking te maken. En het is ideaal als er een achterliggend metafoor bij past.

40

in hoofdstuk 1) is gekozen de volgende te gebruiken. Grootte, om een bepaalde waarde

uit de dataset te communiceren. In het geval van verstedelijk staat de grootte van de visualisatie voor de oppervlakte van de stad. Hierdoor is gekozen om juist geen verandering in vorm te creëren, want als er verschillende vormen gebruikt worden voor visualisaties is het voor mensen niet meer mogelijk om de grootte in te schatten. Textuur komt terug in de dichtheid

van het vertakkingspatroon. Kleurtint word

ook gebruikt om een waarde uit de dataset te communiceren, in het geval van verstedelijking is dat elke stad met een andere kleur wordt gevisualiseerd. En als laatste kleurhelderheid,

deze wordt gebruikt om de nerven weer te geven. Op de aanhechtingspunten overlappen de nerven elkaar, door de helderheid is dit te zien. In visualisaties met een hogere dichtheid van nerven zitten deze aanhechtingspunten dichter op elkaar. En omdat dit zichtbaar is draagt het bij aan het begrip van het vertakkingspatroon.

Onderzoeksvragen

Verschillende onderzoeksvragen die zijn

tegengekomen in het ontwerpproces van de vorm waren:

Hoeveel variabelen zijn er te visualiseren zonder dat het onoverzichtelijk wordt?

Omdat het systeem met vier variabelen werkt is het in theorie ook mogelijk om vier maatstaven van data hieraan te koppelen. Het is echter aangeraden om er twee te visualiseren, ondanks dat het systeem wel vier variabelen bevat die beïnvloed kunnen worden. De visualisatie wordt herkenbaarder als er meerdere variabelen van het systeem toegepast worden op één maatstaaf van data. Dit is ook gebleken uit de resultaten van het onderzoek: bij de eerste enquête herkende 95% van de deelnemers de visualisatie met de hoogste dichtheid, maar dat was dan ook het enige. Het was niet duidelijk genoeg voor de deelnemers om een bepaalde volgorde van

hoge dichtheid naar lage dichtheid te kunnen aangeven. Dit kwam omdat bij die visualisaties nog niet meerdere variabelen aan één bepaalde maatstaaf van data gekoppeld waren. Bij de tweede enquête zijn zelfs drie van de vier variabelen van het systeem aan de maatstaaf van de data gekoppeld. En hierbij werd in bijna alle gevallen (82%) de complete volgorde goed aangegeven. In een paar gevallen werden twee visualisaties van waarden van de data die erg dicht bij elkaar lagen door elkaar gehaald. Welke vorm krijgt de visualisatie? Bijvoorbeeld: coördinaten, cirkel, bol, tekst: naam item uit dataset.

Om deze vraag te beantwoorden was het ook belangrijk om te bepalen of de vorm van de visualisatie herkenbaar moest zijn, zodat een bepaalde maatstaaf uit de dataset direct te herkennen was aan de corresponderende vorm. Er is toen bepaald dat herkenbaarheid door de vorm niet noodzakelijk was om een aantal verschillende redenen. Ten eerste omdat dit door andere preattentieve variabelen opgelost kan worden zoals kleurverschil. En het zou ook afdoen aan het organische gevoel van de visualisatie. Maar vooral omdat de grootte van de visualisatie ook een variabele is, en hierdoor moet de vorm voor elke visualisatie hetzelfde zijn, anders kan de gebruiker het verschil in grootte niet inschatten. Toen is gekozen voor een cirkel omdat deze van de geometrische vormen het meest natuurlijk overkwam. Uit de enquête bleek dat dit ook overeenkwam met de opvattingen van de deelnemers. Een kleine 80 % vond een cirkel de beste vorm voor visualisatie. Dit was nog verder onderverdeeld in 30% voor een cirkelvorm met startpunt onderaan in visualisatie, en 48% voor een cirkelvorm met centraal startpunt. Hierover zo meer.

Een of meerdere startpunten?

Één startpunt. Anders wordt er door de

dat er meerdere variabelen weergegeven worden, en het is niet handig om mogelijk verwarring te veroorzaken. Dit geeft wel aan dat er een mogelijkheid bestaat om verschillende groepen van vertakking in de datavisualisatie te creëren met dit systeem, en op die manier meerdere maatstaven van een dataset te visualiseren, wat ook kan resulteren in het visualiseren van grotere datasets. Hiervoor is nu bewust niet gekozen omdat die verschillende groepen vertakkingen dan door veel meer verschillende variabelen voor dichtheid van de vertakking beïnvloed moesten worden. Daar was nu geen behoefte aan en zou ook voor een te verwarrende visualisatie kunnen zorgen.

Waar komt de locatie van het startpunt? In het midden, omdat dit voor een gelijkmatige verdeling van de vertakking zorgt, in vergelijking met als de locatie van het startpunt aan de rand van of buiten de vorm ligt. Hierdoor is de vertakkingsdichtheid beter te interpreteren. In een van de vragen uit de eerste enquête werd deelnemers gevraagd of ze verschil in dichtheid tussen twee visualisaties zagen. Bij deze visualisaties begon het startpunt in het midden onderaan, en ze waren gegenereerd met precies dezelfde variabelen. Op dit moment was de willekeurigheid nog niet uit het systeem gehaald dus de visualisaties zagen er verschillend uit doordat de vertakkingen andere locaties hadden, maar de dichtheid was precies hetzelfde. Toch zegt 42% verschil in vertakking te zien. Dit illustreert dat de locatie van het startpunt voor onduidelijkheid heeft gezorgd.

42 Esthetiek

Zoals eerder genoemd heeft de keuze van de dataset in combinatie met de vorm tot veel reacties bij de deelnemers van de enquete opgeroepen. Zo ook bij de vraag of deze visualisaties als esthetisch ervaren worden. In theorie zou dit wel het geval moeten zijn, omdat de verschillende aspecten van deze methode voor visualisatie nomaal op zichzelf al esthetisch zijn, namelijk de wiskundige kant, en veel hiermee samenhangend: de natuurlijke kant, maar ook het gebruik van een systeem. De reacties van de deelnemers zijn echter redelijk uiteenlopend: sommigen vinden het verniewend, anderen juist te abstract, maar het wordt ook mooi gevonden door structuur, verwijzing naar natuur en eenvoud.

Taxonomie

Als het systeem onderverdeeld in een bepaald gebied van datavisualisatie zou worden, dan past het niet in een van de genoemde categorieën voor taxonomie (zoals genoemd in hoofdstuk 1). Dit komt omdat er gewerkt wordt met een (natuurlijk) systeem, en dit is een totaal andere aanpak dan waarmee de datavisualisaties in de verschillende categorieën van taxonomie tot stand zijn gekomen. Maar ook omdat dit systeem geschikt is voor het genereren van een serie van visualisaties, en dit komt ook niet overeen met de genoemde categorieën.

Het is ook benoemd dat het belangrijk is dat de taxonomie mee te verandert met de ontwikkelingen in het gebied, daarom zou er een nieuwe categorie kunnen ontstaan waar dit systeem wel onder valt, als er nog meer interesse hiernaar is in het vakgebied en meer mensen hiermee gaan experimenteren.

ze een verschil zien en 58% dat het dezelfde dichtheid is.

In document Natuurlijke datapatronen (pagina 36-43)