Discriminatie in Big Data

(1)

Literatuur Review

Student: Eric Louwers

Studentnummer: 11853751

Datum: 01-07-2020

Begeleider: Arjan Vreeken

2e Examinator: Imke Brummer

Bachelorscriptie Informatiekunde

Faculteit der Natuurwetenschappen, Wiskunde en Informatica

Universiteit van Amsterdam

Abstract

Discriminatie in big data is een probleem dat de wetenschap steeds meer bezighoudt. Favaretto et al hebben in 2019 een literatuur review geschreven op basis van literatuur over discriminatie in big data in de periode 2010 tot en met 2017. Deze literatuurreview vult de literatuur aan vanuit het jaar 2018. De centrale onderzoeksvraag van deze literatuur review is: “Wat zijn de nieuwste inzichten op het gebied van discriminatie in big data in het jaar 2018 en hoe verhouden deze zich tot de resultaten uit het onderzoek van Favaretto et al?” De literatuur van 2018 presenteert verschillende oorzaken, gevolgen, belemmeringen en oplossingen. De belangrijkste bevindingen zijn dat het internet of things een steeds grotere rol speelt in big data, transparantie de belangrijkste oplossing is om discriminatie te

bestrijden, wetgeving rondom discriminatie in big data onvoldoende bescherming biedt en dat het anonimiseren van personen tot op heden onmogelijk blijkt. De inzichten benadrukken de complexiteit van het onderwerp en vormen geen voldoende oplossing voor de huidige en toekomstige uitdagingen. Er is dringend meer onderzoek nodig naar de bestrijding van discriminatie in big data.

(2)

Inhoudsopgave

1. Inleiding ... 4

2. Theoretisch Kader ... 5

2.1 Big data ... 5

2.2 Discriminatie ... 7

3. Methodiek ... 9

3.1 Literatuur reviews ... 9

3.2 Selectie artikelen ... 10

3.3 Analyse artikelen ... 11

3.4 Beschrijving resultaten ... 12

4. Resultaten Literatuuronderzoek ... 13

4.1 Literatuurselectie ... 13

4.2 Oorzaken ... 14

4.2.1 Algoritmische fouten ... 14

4.2.3 De Digitale kloof... 14

4.2.4 Data linkage ... 15

4.2.5 Conclusies ... 15

4.3 Gevolgen ... 16

4.3.1 Sociale marginalisatie en stigmatisering ... 16

4.3.2 Verergeren van bestaande ongelijkheden... 17

4.3.3 Economische discriminatie ... 17

4.3.4 Discriminatie op het gebied van gezondheidsvoorspelling ... 18

4.3. Conclusies ... 18

4.4 Belemmeringen ... 19

4.4.1 Black box algoritmen ... 19

4.4.2 Menselijke vooroordelen ... 20

4.4.3 Conceptuele uitdagingen ... 20

4.4.4 Wet- en regelgeving ... 21

4.4.5 Conclusies ... 22

4.5 Oplossingen ... 23

4.5.1 Technische oplossingen ... 23

4.5.2 Menselijke oplossingen ... 24

4.5.3 Wet- en regelgeving ... 25

4.5.4 Conclusies ... 25

(3)

5.1 Focus van de literatuur ... 27

5.1.1 Globale focus ... 27

5.1.2 Focus van oorzaken ... 28

5.1.3 Focus van gevolgen ... 28

5.1.5 Focus van de oplossingen ... 29

5.2 Uitdagingen uit de periode 2010 tot en met 2017 ... 30

5.2.1 Gebrek aan een consensus van een werkbare definitie van discriminatie ... 30

5.2.2 Het tekort aan empirisch onderzoek ... 31

5.2.3 Het gebrek aan het leggen van de relatie van big data vanuit de vier dimensies en

discriminatie ... 32

5.2.4 De tragere snelheid van de ontwikkeling van de wetgeving ten opzichte van de

ontwikkelingen van big data. ... 32

5.2.5 Conclusies ... 32

5.3 Huidige Uitdagingen ... 32

6. Conclusie en discussie ... 33

6.1 Samenvatting van de resultaten ... 33

6.2 Belangrijkste resultaten ... 34

6.3 Discussie... 35

6.3.1 Limitaties en aanbevelingen ... 35

6.3.2 Reflectie op het onderzoeksproces ... 35

Referenties ... 37

(4)

1. Inleiding

Een van de populairste onderwerpen in de wetenschappelijke literatuur van de computerwetenschappen is ongetwijfeld big data. Big data wordt beschreven als “de kunst en wetenschap van het analyseren van enorme hoeveelheden informatie, die als doel hebben het identificeren van patronen, verkrijgen van nieuwe inzichten en het voorspellen van antwoorden op complexe problemen” (Crawford, 2013). Over de voordelen die big data onze samenleving biedt lijkt geen twijfel te bestaan. Big data wordt door velen als de drijfveer van

technologische ontwikkelingen beschouwd en zou nadrukkelijk aanwezig zijn bij de ontwikkeling van de samenleving. Mayer-Schönberger en Kennedy Cukier (2013) schrijven in het boek “Big Data: A revolution that will transform how we live, work and think” dat de voordelen voor de gehele maatschappij immens zouden zijn en een deel van de oplossingen zouden zijn op globale problemen als klimaatverandering, geneeskunde en economische ontwikkeling.

Naast deze voordelen brengt big data ook uitdagingen met zich mee. Voorbeelden hiervan zijn kwesties met betrekking tot privacy, veiligheid, geïnformeerde toestemming, identiteit en discriminatie (Granville, 2014, Favaretto et al., 2019 ). Het laatste is volgens Favaretto et al. (2019) onderbelicht ten opzichte van de andere uitdagingen.

Favaretto et al. (2019) hebben een grootschalig literatuuronderzoek verricht dat alle artikelen met betrekking tot discriminatie en big data afkomstig uit zes grote databases heeft verzameld. De artikelen komen uit de periode van 2010 tot en met 2017. Op basis van alle relevante resultaten van deze artikelen is er geprobeerd om antwoord te geven op vragen in drie verschillende gebieden. Het eerste gebied heeft betrekking op het begrijpen van de oorzaken en gevolgen van discriminatie in big data. Het tweede gebied focust op het identificeren van de belemmeringen van eerlijke data mining en op het derde gebied staat het onderzoeken naar potentiële oplossingen voor deze belemmeringen centraal. In totaal zijn er 61 relevante onderzoeken gevonden waaruit de resultaten zijn opgenomen.

De literatuur review heeft een aantal belangrijke bevindingen opgeleverd. Ten eerste lijkt de belangrijkste humane oplossing van discriminatie in big data transparantie te zijn. Andere mogelijke oplossingen zijn vooral gericht op praktische algoritmische methoden. Verder benadrukken Favaretto et al (2019) de noodzaak voor empirische studies. Ook opmerkelijk is dat veel onderzoeken uit de periode focussen op de negatieve aspecten van big data op discriminatie, terwijl big data ook ingezet kan worden om

discriminatie tegen te gaan.

In de discussie van de paper worden verschillende problemen beschreven. Allereerst zijn veel van de onderzoeken die in deze literatuur review opgenomen theoretisch van aard. Ook zijn er geen onderzoeken geweest die discriminatie volgens de traditionele dimensies onderzoeken. Bovendien is de absentie van een algemeen geaccepteerde definitie van discriminatie opmerkelijk. Veel onderzoeken behandelen de term discriminatie als duidelijk en voor zichzelf sprekend. Los van het feit dat er veel verschillende definities in verschillende gebieden voor discriminatie zijn, is dit volgens Favaretto et al. (2019) ook een probleem. Discriminatie heeft in praktijken als machine learning een heel andere betekenis dan in de volksmond. Technisch gezien komt hier veel meer bij kijken. Implementeren van ethisch verantwoorde algoritmen wordt onmogelijk zonder duidelijke definitie. Als laatste wordt het als problematisch genoemd dat de wetgeving achterloopt op de ontwikkeling, en dat deze kloof alleen maar groter dreigt te worden (Favaretto et al., 2019). Adequate oplossingen hierop zijn nog niet bekend, mede doordat mensen werkzaam in het juridische gebied vaak te weinig verstand hebben van de complexiteit van big data. Meer samenwerking op deze gebieden is vereist.

Favaretto et al. (2019) laten zien dat veel problemen rondom big data en discriminatie nog niet fatsoenlijk zijn geadresseerd. Er is onvoldoende onderzoek geweest om hier adequaat een antwoord op te geven. Het is de vraag of er in de meest recente literatuur over het onderwerp discriminatie in big data aanvullingen zijn op de nu al bekende oorzaken, gevolgen, belemmeringen en oplossingen. Dit wordt in deze scriptie behandeld, waarbij de volgende centrale onderzoeksvraag wordt beantwoord: “Wat zijn de nieuwste inzichten op het gebied van discriminatie in big data in het jaar 2018 en hoe verhouden deze zich tot de resultaten uit het onderzoek van Favaretto et al. (2019)?” In deze literatuurscriptie zal informatie verzameld worden over discriminatie in big data van 2018 en vergeleken worden met de studie van Favaretto et al. (2019). Het gaat hierbij om de periode van 1 januari 2018 tot en met 31 december 2018. De deelvragen zijn geformuleerd als volgt:

(5)

1. Wat zijn de nieuwe inzichten rondom de oorzaken en gevolgen van discriminatie in big data en hoe verhouden deze zich tot de bevindingen van Favaretto et al. (2019)?

2. Wat zijn de nieuwe inzichten met betrekking tot belemmeringen die een eerlijke manier van het gebruik van big data hinderen en hoe verhouden deze zich tot de bevindingen van Favaretto et al (2019)?

3. Wat zijn nieuwe inzichten in mogelijke oplossingen voor deze belemmeringen en hoe verhouden deze zich tot de bevindingen van Favaretto et al. (2019)?

4. In hoeverre is de focus van het onderzoeksgebied verschoven ten opzichte van de periode 2010 tot en met 2017 vergeleken met de resultaten van deelvragen 1 tot en met 3?

5. In hoeverre zijn de problemen die aangehaald zijn in de discussie van Favaretto et al. (2019) geadresseerd? Deze deelvraag zal gesplitst worden in de volgende problemen:

5.1 Afwezigheid van een duidelijke definitie van discriminatie 5.2 Het tekort aan empirisch onderzoek

5.3 Het gebrek aan het benaderen van big data vanuit de vier dimensies, zijnde volume, snelheid, verscheidenheid en waarheidsgetrouwheid.

5.4 De tragere snelheid van de ontwikkeling van de wetgeving ten opzichte van de ontwikkelingen van big data.

6. Welke nieuwe uitdagingen worden geïdentificeerd in de literatuur van 2018?

In het theoretisch kader (hoofdstuk 2) wordt het onderzoek afgebakend. Hier zal big data en discriminatie uitgebreid behandeld worden. Vervolgens wordt de methodiek van het onderzoek beschreven in hoofdstuk 3. De databases worden behandeld, net als het proces van de selectie en analyse van de literatuur uit 2018. In paragraaf 4.1 worden de resultaten beschreven van de literatuurselectie.

Favaretto el al. (2019) onderzoeken drie kerngebieden. Het eerste gebied heeft betrekking op de oorzaken en gevolgen van discriminatie in big data (paragrafen 4.2 en 4.3). Het tweede onderdeel heeft betrekking op het identificeren van de belemmeringen van eerlijke data mining (paragraaf 4.4) en het derde onderdeel onderzoekt potentiële oplossingen om deze belemmeringen te verwijderen (paragraaf 4.5). Deze onderdelen vormen de basis voor de eerste drie deelvragen. In de vierde deelvraag (paragraaf 5.1) worden de resultaten van het onderzoek van Favaretto et al. (2019) vergeleken met de resultaten uit de eerste drie deelvragen, waarna er bepaald kan worden in hoeverre de focus verschoven is. Volgens Favaretto et al. (2019) ligt de focus vooral op het blootstellen van de gevaren van discriminatie in big data, verdeeld over vele toepassingen in big data. In deelvraag 5 (paragraaf 5.2) worden de problemen aangehaald die genoemd worden in de discussie. Als laatste worden er in paragraaf 5.3 nieuwe uitdagingen geïdentificeerd uit de literatuur (deelvraag 6).

2. Theoretisch Kader

Het onderzoek van Favaretto et al. (2019) heeft twee kernbegrippen centraal staan. Dit zijn big data en discriminatie. Deze scriptie bouwt voort op dit onderzoek. De kernbegrippen zullen daarom overeenkomen. In dit hoofdstuk worden de kernbegrippen big data en discriminatie omschreven en toegelicht. Binnen het kader van deze omschrijvingen wordt het literatuuronderzoek uitgevoerd.

2.1 Big data

Centraal in het onderzoek staat de term big data. Crawford (2013) omschrijft, zoals in hoofdstuk 1 genoemd, big data als “de kunst en wetenschap van het analyseren van enorme hoeveelheden informatie, die als doel hebben het identificeren van patronen, verkrijgen van nieuwe inzichten en het voorspellen van antwoorden op complexe problemen”. Deze definitie is echter wat abstract en zal nader toegelicht worden in hoofdstuk 2.1.1. In essentie gaat big data over het gebruiken van de rekenkracht van computers om de exponentieel

toenemende hoeveelheden informatie te verwerken en te analyseren (Wash, 2012). Hoe dit gebeurt wordt in hoofdstuk 2.1.2 behandeld.

2.1.1 Definities big data

Zoals Favaretto et al (2019) aangeeft, heeft de term big data sinds haar bestaan verschillende betekenissen. Deze observatie wordt bevestigd door Ward en Baker (2013), die stellen dat de term “alomtegenwoordig” is, uiteenlopende definities heeft en dat er door verschillende belanghebbenden tegenstrijdige definities gebruikt worden.

(6)

De oorsprong van big data zou in eerste instantie gedefinieerd zijn door Laney (Ward en Baker, 2013) aan de hand van drie dimensies, zijnde volume, snelheid en verscheidenheid (Laney, 2001). Bij gebrek aan wetenschappelijke en gekwantificeerde onderbouwing is deze definitie herhaaldelijk herzien en is er uiteindelijk een vierde dimensie, waarheidsgetrouwheid, aan toegevoegd. In de internationale wetenschap worden deze dimensies overigens de 4 V’s genoemd, respectievelijk afgeleid van de woorden volume, velocity, variety en veracity.

De dimensie volume is de omvang van data die een entiteit verzamelt of genereert (Lee, 2017). Om aan de eisen van big data te voldoen, is er een minimale drempel waaraan de omvang van de gegevens moet beantwoorden. Volgens Lee (2017) ligt deze drempel op 1 terabyte, oftewel 1000 gigabyte. Deze grens is tegenwoordig al snel bereikt. Volgens Hildebrand (2019) is de gemiddelde grootte van een uur video ongeveer 700 megabytes. Per minuut wordt er ongeveer 500 uur aan video’s geüpload op YouTube (Iqbal, 2020), wat neerkomt op 3,5 terabyte per minuut. Veel bedrijven maken dus al snel gebruik van big data.

Snelheid is de tweede dimensie die genoemd wordt. Hiermee wordt de snelheid van het verwerken van de gegevens bedoeld (Lee, 2017). De snelheid van deze verwerking wordt in eerste instantie bepaald door de rekenkracht van een computer. In 1965 voorspelde Gordon Moore, medeoprichter van het bedrijf Intel, dat het aantal transistoren in een microchip elke twee jaar verdubbelt terwijl de kosten van computers gehalveerd worden (Tardi, 2019). De wet van Moore gaat dus uit van een exponentiële groei. Deze voorspelling heeft zich in de afgelopen vijftig jaar waargemaakt en wordt nu gezien als de gouden regel van technologische

ontwikkeling (Mack, 2015). Omdat de rekenkracht van computers exponentieel groeit, geldt een soortgelijke ontwikkeling ook voor de snelheid van de verwerking van de gegevens. Deze dimensie kan gezien worden als de katalysator achter big data.

De derde dimensie, variëteit, refereert naar het aantal verschillende gegevenstypes (Lee, 2017). Deze data types worden vervolgens geordend in drie verschillende categorieën: gestructureerde data, semi

gestructureerde data en ongestructureerde data. De categorieën verwijzen naar de mate van

overzichtelijkheid en ordelijkheid van de gegevens, waarbij gestructureerde data het overzichtelijkst geordend is en ongestructureerde data het minst overzichtelijk. In traditionele databases, die al enige tijd in gebruik zijn, wordt voornamelijk gestructureerde data gebruikt. Dankzij de technologische ontwikkelingen van de afgelopen jaren beschikken steeds meer computers over de mogelijkheid om semi gestructureerde data of zelfs

ongestructureerde data te verwerken en te analyseren. Volgens Mayer-Schönberger en Cukier (2013) is ruim 95% van alle data semi gestructureerd of ongestructureerd. De groei van geschikte computers om dit soort ongestructureerde data te verwerken, analyseren en zelfs te produceren draagt bij aan de groei van big data.

De vierde en meest recente algemeen aanvaarde dimensie is waarheidsgetrouwheid. Deze dimensie omvat de onzekerheid en onbetrouwbaarheid van data. Deze onzekerheid en onbetrouwbaarheid zou ontstaan door het incompleet registreren van gegevens, subjectiviteit omtrent de interpretatie van gegevens, latentie en het verwerken van gegevens (Lee, 2017). Verschillende statistische methoden zijn inmiddels ontwikkeld om met de waarheidsgetrouwheid in big data om te gaan.

Naast de hierboven beschreven vier dimensies, zijn er door verschillende wetenschappers additionele dimensies geopperd. Volgens Gandomi en Haider (2015) geven de vier dimensies een onvoldoende beeld van de alomvattende definitie van big data. Zo stelt SAS (2012) variabiliteit en complexiteit als extra dimensies voor. Variabiliteit gaat hierbij om de notie dat informatiestromen niet constant zijn en met pieken en dalen verzameld moet worden (Gandomi en Haider, 2015). Complexiteit zou de bronnen van data omvatten. Hoe meer bronnen er tegelijkertijd geanalyseerd moeten worden, hoe complexer de gegevensstromen worden.

Het databasemanagementsysteem Oracle noemt waarde als nog een extra dimensie van big data (Oracle, 2014). Met waarde wordt de economische waarde bedoeld, oftewel het deel van informatie dat bruikbaar is voor verwerking en analyse. Het zou de uitdaging van het bedrijf zijn om het onderscheid te zien tussen bruikbare en onbruikbare informatie. Omdat het steeds beter mogelijk is om ook ongestructureerde gegevens te analyseren, wordt een groot deel van onbruikbare informatie getransformeerd naar bruikbare informatie. Hoewel er nog steeds een verschil is in omvang van de waarde van bepaalde gegevens, zal de bruikbaarheid van gegevens alleen maar toenemen, en daarmee ook de economische waarde (Mayer-Schönberger en Cukier, 2013).

Als laatste stelt Lee (2017) nog een dimensie voor, namelijk verval. Verval omvat het feit dat de waarde en bruikbaarheid van data na verloop van tijd vervalt. Tegelijk met de ontwikkeling van big data zal het verval van gegevens ook in een exponentiële functie uit te drukken zijn (Lee, 2017).

(7)

In de inleiding wordt gesteld dat big data een steeds grotere rol inneemt in de samenleving.

Tot voor kort was die invloed nog veel kleiner. Volgens Blauw (2018) maakt een mens al eeuwenlang gebruik van gegevens in de vorm van cijfers. Data is dus altijd al aanwezig geweest. Door de ontwikkeling van de middelen die gebruikt worden om gegevens op te vangen, zou er een toename van de invloed van deze gegevens ontstaan. Zo geven deze middelen meer betekenis aan de aanwezige gegevens (Blauw, 2018). Kijkend naar de dimensie snelheid, die mede bepaald wordt door de wet van Moore, zien we dat de omvang van onze bekwaamheid om met gegevens om te gaan exponentieel is toegenomen en dit nog steeds doet. Des te meer reden om aan te nemen dat big data in toenemende mate een centrale rol gaat spelen in de samenleving.

Volgens Mayer-Schönberger en Cukier (2013) zijn er drie verschuivingen in de manier van denken geweest. Deze verschuivingen hebben onze houding ten opzichte van gegevens veranderd en de mate van gebruik van big data beïnvloed. De eerste verschuiving heeft betrekking tot de mogelijkheid om enorme hoeveelheden informatie te kunnen analyseren en te gebruiken. Deze verschuiving houdt rechtstreeks verband met de dimensies volume en snelheid. Tot voor kort werd er vooral gebruik gemaakt van de aselecte

steekproef. Een aselecte steekproef is een steekproef waarbij elk element dezelfde kans heeft om in een steekproef terecht te komen (Steekproef algemeen, 2015). Conclusies trekken op basis van een steekproef is een kenmerk van inductie (Hu, 2006). Big data doet een poging om de gehele populatie te meten, of zoals Mayer-Schönberger en Cukier (2013) het noemen: N is alles. Voorspellingen doen op basis van “N is alles” is deductie. Door het gebruik van big data vindt er een verschuiving plaats van inductie naar deductie. Er kan meer geanalyseerd worden, waardoor je mogelijk betere conclusies kan trekken. Blauw (2018) waarschuwt echter wel voor het feit dat er altijd meer data is dan dat er kan worden verwerkt, waardoor de uitspraken die gedaan worden nooit volledig deductief kunnen zijn. Omdat big data enkel correlaties geeft, en dus

waarschijnlijkheidsverschijnselen, zul je nooit honderd procent accurate voorspellingen kunnen doen. De tweede verschuiving is gebaseerd op het toelaten van rommeligheid in data. Dit staat in verband met de dimensie variëteit, waarin gestructureerde, semi gestructureerde en ongestructureerde data

onderscheden wordt. Omdat 95% van alle data ongestructureerd is en big data analyses het mogelijk maken om deze ongestructureerde gegevens te gebruiken, komen we op een punt waarin vrijwel elke gegevensbron economische waarde heeft. Mayer-Schönberger en Cukier (2013) geven toe dat dit ten koste gaat van de waarheidsgetrouwheid van de gegevens, maar dat weegt volgens hen bij lange na niet op tegen de extra voordelen die het biedt om deze ongestructureerde data toch toe te laten tot de gegevensanalyses.

Als laatste wordt het toegenomen respect voor correlaties gezien als grote verschuiving in de manier waarop er tegen de gegevens wordt aangekeken. Vaak worden causale verbanden, oftewel oorzaak-gevolg relaties gezien als de beste manier om gegevens te interpreteren en te gebruiken. Er wordt hierbij gefocust op het “waarom” van de data. Big data zou zich echter niet bezighouden met de “waarom”, maar met de “wat” (Mayer-Schönberger & Cukier, 2013). Big data laat dus niet zien waarom er een verband is, maar dat er een verband is. Juist omdat de analyses steeds meer deductief van aard zijn, en dus alle beschikbare data worden meegenomen in de analyse, kun je ervan uitgaan dat de correlaties die gevonden worden optreden, ondanks de absentie van een logische verklaring. Hierdoor wordt het belang van correlaties dus groter ten opzichte van causale verbanden.

2.2 Discriminatie

Discriminatie kan gezien worden als een groot maatschappelijk probleem dat vandaag de dag veel aandacht krijgt. Het verbod op discriminatie is in artikel 1 van de Nederlandse grondwet opgenomen. Favaretto et al. (2019) merkten al op dat veel onderzochte artikelen de term discriminatie als vanzelfsprekend achtten, zonder enige definitie te geven. Vaak linkten zij discriminatie aan termen als ongelijkheid, exclusie en ongerechtigheid. In paragraaf 2.2.1 word de term discriminatie in de algemene vorm besproken. In paragraaf 2.2.2 wordt er besproken hoe discriminatie in combinatie met big data kan voorkomen.

2.2.1 Definities en toepassingen discriminatie

Discriminatie lijkt al eeuwenlang in de maatschappij aanwezig te zijn. In de meest recente geschiedenis is dit op pijnlijke wijze tot uiting gekomen. Denk hierbij aan de slavernij in de zeventiende eeuw of de holocaust in de tweede wereldoorlog. De Britse socioloog Michael Banton deed een poging voor een definitie van discriminatie in 1994. Deze luidde als volgt: “Discriminatie is het maken van verboden onderscheid” (Tanja, 2019). Een definitie als deze roept echter grote vraagtekens op en is aan meerdere interpretaties onderhevig. De complexiteit van het begrip is groot. Juristen, wetgevers, sociale wetenschappers en zelfs politici hebben zich ingezet om een algemene standaarddefinitie te maken, maar zonder succes (Tanja, 2019). Ieder

(8)

alle gebieden gebruikt worden om de essentie van discriminatie duidelijk maken. Deze redeneringen hebben betrekking op het ‘onderscheid maken’ of ‘ongelijk behandelen’ van een of meerdere personen (Tanja, 2019).

Discriminatie komt voor in verschillende vormen. Volgens het College voor de rechten van de mens (z.d.) komt discriminatie vooral voor op het gebied van godsdienst, levensovertuiging, politieke gezindheid, ras, geslacht, nationaliteit, seksuele gerichtheid, leeftijd, handicap en burgerlijke staat. Op de hiervoor genoemde vormen is het verboden om onderscheid te maken. Dit wordt goed duidelijk in de definitie van discriminatie van het wetboek van strafrecht: “elke vorm van onderscheid, elke uitsluiting, beperking of voorkeur, die ten doel heeft of ten gevolge kan hebben dat de erkenning, het genot of de uitoefening op voet van gelijkheid van de rechten van de mens en de fundamentele vrijheden op politiek, economisch, sociaal of cultureel terrein of op andere terreinen van het maatschappelijk leven, wordt tenietgedaan of aangetast” (Artikel1, z.d.).

Discriminatie wordt, over het algemeen, gezien als iets negatiefs. Het is verboden in de grondwet en veel definities hebben een negatieve ondertoon. Echter, discriminatie hoeft niet negatief van aard te zijn. Zoals eerder beschreven is discriminatie in eerste instantie gelinkt aan onderscheid maken en ongelijke behandeling. Tanja (2019) onderstreept dat met de opvatting dat het Latijnse begrip van discriminatie (discriminatio) vooral neutraal gebruikt werd en het vooral gedefinieerd werd als onderscheid. Onderscheid maken of ongelijke behandeling is niet verboden en wordt regelmatig gedaan in de maatschappij.

Discriminatie geeft dus niet aan dat een ongelijke behandeling nadelig hoeft te zijn voor de ongelijk behandelde groep. Toch wordt het in de volksmond wel zo aangenomen. Het omgekeerde bestaat echter ook, namelijk het opzettelijk bevoordelen van bepaalde groepen mensen. Dit wordt positieve discriminatie

genoemd (Tanja, 2019). Positieve discriminatie heeft verschillende doeleinden, die Waldron (2001) rechtsvaardigheidsgronden noemen. De eerste rechtvaardigheidsgrond is het herstel voor historische onrechtvaardigheden. Hierbij kun je denken aan bijvoorbeeld het opzettelijk bevoordelen voor mensen met een donkere huidskleur omdat zij in door de geschiedenis een negatief stereotype hebben gekregen. De tweede rechtsvaardigheidsgrond is de compensatie van indirecte en structurele discriminatie. Dit is de vorm van discriminatie die “op het eerste gezicht neutraal lijkt, maar waarin mensen toch benadeeld worden” (Waldron, 2001). Een voorbeeld hiervan is de discriminatie die ontstaat wanneer de voorkeur wordt gegeven aan vrouwen tijdens de sollicitaties voor topposities. Ook wordt het bevorderen van diversiteit als

rechtvaardigheidsgrond gezien.

In het vervolg van het onderzoek wordt het begrip ‘discriminatie’ opgevat als het benadelen van een groep door middel van ongelijke behandeling. Als het om het bevoordelen van een groep gaat, zal de term ‘positieve discriminatie’ gebruikt worden.

2.2.2 Discriminatie in big data

In paragraaf 2.2.1 wordt het fundament van discriminatie toegelicht. Zoals eerder vermeld, gebruiken

verschillende gebieden andere definities voor discriminatie en bestaat er weinig consensus over het begrip, los van de rode draad van ongelijke behandeling. Deze literatuur review gaat enkel in op discriminatie in

combinatie met big data. Hieronder wordt discriminatie in big data nader bekeken.

Waar discriminatie in sociale contexten gemakkelijk kan worden gedetecteerd, is dit in big data veel moeilijker. Leetaru (2016) geeft aan dat big data toepassingen als machine learning al dermate complex zijn, dat de ontwikkelaars van deze algoritmen zelf niet meer begrijpen hoe de big data worden ingezet en hoe de algoritmen tot een bepaalde conclusie komen. Dit zou komen door het zelflerend vermogen van algoritmen in big data toepassingen, wat de identificatie van mogelijke gevallen van discriminatie bemoeilijkt. Het zou zomaar jaren kunnen duren voordat dergelijke gevallen aan het licht komen. Aangezien men steeds meer vertrouwt op big data toepassingen om beslissingen te nemen en deze een toenemende invloed heeft op ieder individu, kan dergelijke discriminatie grote negatieve gevolgen hebben voor een individu zonder dat het wordt opgemerkt.

Op juridisch gebied worden er vaak twee vormen van discriminatie gebruikt. Dit zijn directe discriminatie en indirecte discriminatie. Directe discriminatie treedt op wanneer individuen expliciet een minder gunstige behandeling krijgen, gebaseerd op de beschermde attributen, bijvoorbeeld een sollicitant die enkel is afgewezen vanwege geslacht (Zhang et al, 2016). Indirecte discriminatie verwijst naar de situatie waar de behandeling gebaseerd lijkt te zijn op neutrale niet-beschermde attributen, maar alsnog resulteert in ongerechtvaardigd onderscheid tegen individuen van de beschermde groep (Zhang et al, 2016). Een voorbeeld hiervan is dat inwoners die een hypotheek aanvragen beoordeeld worden op hun postcode. Beide vormen van discriminatie komen voor in big data, al is directe discriminatie veel gemakkelijker op te sporen dan indirecte discriminatie. Door de complexiteit van big data blijft indirecte discriminatie vaak verborgen en wordt daardoor pas opgemerkt als de discriminatie al is voorgekomen.

(9)

Er zijn diverse voorbeelden te noemen waarbij mensen zijn gediscrimineerd als gevolg van het gebruik van big data. Zo proberen bedrijven te voorspellen welke personen een verhoogd gezondheidsrisico lopen. Deze informatie verkopen zij dan weer aan derden, die op basis daarvan beslissingen kunnen nemen (Gumbus & Grodzinsky, 2016). Denk hierbij bijvoorbeeld aan het aannemen van werknemers. Een ander voorbeeld is het algoritme dat Amazon heeft ontwikkeld om bedrijven de helpen bij de sollicitatieprocedure en dat

bevooroordeeld was tegen vrouwen (Hamilton, 2018).

Het gebrek aan vaardigheden om het algoritme te begrijpen kan er dus voor zorgen dat discriminatie te laat opgemerkt wordt, maar het laat ook zien dat deze vorm van discriminatie vaak onbedoeld is. Zo stelt Taurinskas (2016) dat het gebruik van big data door marketingbedrijven zorgt voor onbedoelde discriminatie en dat marketeers vooral van deze algoritmen af moeten blijven. Het is aannemelijk om te bedenken dat dit voor vrijwel elke sector geldt. Draaien aan de knoppen, bijvoorbeeld door middel van het beïnvloeden van bepaalde variabelen om discriminatie tegen te gaan, kan in eerste instantie misschien de gewenste resultaten opleveren, maar dit kan op termijn juist leiden tot meer discriminatie.

Omdat er in de laatste jaren steeds meer gevallen van discriminatie als gevolg van big data aan het licht zijn gekomen, heeft discriminatie in big data zich ontwikkeld tot een maatschappelijke kwestie. Overheden proberen de maatschappij hiertegen te beschermen door middel van wet en regelgeving omtrent big data. Regulering zou weinig effect hebben tegen deze vorm van discriminatie. In sommige gevallen zou dit zelfs averechts werken, blijkt uit de resultaten van het onderzoek van Favaretto et al. (2019). Daarnaast zou de wetgeving altijd achterlopen op de technologische ontwikkelingen op het gebied van big data, waardoor gepaste wetten simpelweg niet mogelijk zijn (Favaretto et al, 2019).

Discriminatie die voorkomt bij het gebruik van big data verschilt dus van discriminatie in het

algemeen. Er kan gesteld worden dat discriminatie in big data een complexer probleem is, omdat het moeilijker te identificeren is, algoritmen te complex zijn en daarom ook de regelgeving achterloopt op de technologische ontwikkelingen. Door de toenemende rol van big data krijgen de ontwikkelaars van de algoritmen automatisch een grotere rol, omdat zij de keuzes moeten maken in ethische dilemma’s.

3. Methodiek

In dit onderdeel wordt de methodiek van het onderzoek beschreven. Het onderzoek is een literatuur review. In de eerste paragraaf wordt term literatuur review besproken. Hier wordt ingegaan op de eigenschappen van de methode en waarom deze methode van belang is in de wetenschap. Vervolgens worden de databases die geselecteerd zijn voor de scriptie toegelicht. Ook de zoektermen die gebruikt worden in het onderzoek worden beschreven. Als laatste wordt het stappenplan besproken betreffende de uitvoering van het onderzoek.

3.1 Literatuur reviews

3.1.1 Definities literatuur review

Een literatuur review wordt door Marshall (2010) beschreven als “een systematische methode voor het identificeren, evalueren en het interpreteren van werk van onderzoekers, geleerden en wetenschappers”. Het is een belangrijke methode op elk wetenschapsgebied, omdat het handvaten en overzicht bieden van het wetenschapsgebied. Schryen et al. (2020) onderschrijven dat het bij een literatuur review niet enkel gaat om een samenvatting van de huidige stand van zaken, maar ook om de interpretatie ervan.

Abrams (2012) beschrijft drie doelen die een literatuur review kan nastreven. In het eerste doel wil de onderzoeker laten zien wat er allemaal geschreven is over een bepaald onderwerp. Dit heeft vooral een informatieve functie. Ten tweede kan er geïllustreerd worden hoe de bestaande literatuur een bepaald probleemgebied aanpakt. Deze doelstelling wordt volgens Abrams (2012) vooral gebruikt om de huidige staat van de literatuur te beschrijven zonder dat hiervoor een centrale onderzoeksvraag voor gesteld is. Als laatste doelstelling beschrijft Abrams (2012) dat een literatuur review een uitstekend startpunt is voor een onderzoek in de betreffende discipline. Een literatuur review wordt hier gebruikt door onderzoekers om bekend te raken met het veld waarin zij zich begeven. Kortom, de literatuur review is belangrijk om een duidelijk overzicht te krijgen van de literatuur op een bepaald gebied en vormt een startpunt voor gedegen vervolgonderzoek. Volgens Baker (2016) vormt een goed uitgevoerde literatuur review een solide basis voor wetenschappelijke consensus.

Deze scriptie bouwt voort op de literatuur review van Favaretto et al. (2019). Het gaat hierbij om de literatuur van dezelfde categorie, namelijk discriminatie in big data. Deze scriptie beschrijft en interpreteert de

(10)

huidige stand van zaken en legt ontwikkelingen en uitdagingen bloot. Ook wordt er aandacht besteed aan de probleemgebieden rondom het onderwerp, waardoor de aanpak van problemen ook geadresseerd worden. 3.1.2 Literatuur reviews in big data

Favaretto et al. (2019) noemen dat de omvang van de literatuur op het gebied van in big data snel toeneemt, maar dat er een tekort is aan consensus en literatuur reviews of het gebied van big data. Schryen et al (2020) versterkt deze observatie door te stellen dat het overzicht op het gebied van informatiesystemen verdwenen is en dat er daardoor weinig vooruitgang is. Dit ondanks de enorme toename van onderzoek op het gebied. Ook zouden de meeste literatuur reviews betrekking hebben op de evaluatie en het gebruik van

informatiesystemen. Zo zou er nog te weinig aandacht zijn aan de uitdagingen van deze systemen (Schryen et al, 2020). Favaretto et al. (2019) stellen dat van de onderzoeken die zijn gedaan op het gebied van de gevaren van informatiesystemen, er te weinig papers naar discriminatie in big data verwijzen. Zelfs met de toevoeging van hun onderzoek is discriminatie in big data nog ondergrepresenteerd. Deze scriptie is een toevoeging op de bestaande literatuur op het gebied van discriminatie in algoritmen.

3.2 Selectie artikelen

3.2.1 Databases

De databases die gebruikt worden zijn PsychInfo, PhilPapers, Cinhal, Pubmed, SocIndex en Web of Science. Deze databases worden in eerste instantie gebruikt omdat ze ook gebruikt worden in het onderzoek van Favaretto et al. (2019). Het doel van dit literatuuronderzoek is om zo dicht mogelijk bij het onderzoek van Favaretto et al. (2019) te blijven.

PsychInfo is een Amerikaanse database waar onderzoeken op staan rondom de discipline psychologie. Ook worden hier onderzoeken gepubliceerd van verwante gebieden, waaronder interdisciplinaire gebieden. Discriminatie in big data heeft raakvlakken met het type onderzoeken wat PsychInfo aanbiedt, wat het een geschikte database maakt. Philpapers is een internationale database die gepubliceerde tijdschriftartikelen aanbieden op het gebied van filosofie. Discriminatie en big data hebben ook filosofische aspecten, waardoor deze ook gebruikt kan worden in de review. Cinahl en Pubmed zijn databases met artikelen over de zorg, inclusief gezondheidszorg. Discriminatie valt hier ook onder. SocIndex is een database die artikelen aanbiedt op het gebied van sociologie. Deze database heeft veel raakvlakken met discriminatie, omdat hier veel studies gepubliceerd zijn over ras, ongelijkheid en sociale psychologie. Als laatste wordt Web of Science gebruikt als database voor dit onderzoek. Web of Science biedt artikelen aan uit disciplines van onder andere sociale wetenschappen en geesteswetenschappen. Web of Science wordt door officiële organisaties gebruikt, wat het een betrouwbare database maakt.

3.2.2 Zoektermen

In het onderzoek wordt gezocht op diverse zoektermen in de databases die genoemd zijn in paragraaf 3.2 De belangrijkste zoektermen zijn “discrimination” en “big data”. Favaretto et al. (2019) noemen daarnaast nog de zoektermen “digital data”, “data mining”, “data linkage”, “equality”, “vulnerab*”, “justice”, “ethic” en

“exclusion”. Deze zoektermen worden ook voor dit onderzoek gebruikt. Verder is gezocht op synoniemen van big data en discriminatie. Resulterend worden de zoektermen “favoratism”, “injustice”, “bigotry” toegevoegd aan de zoekopdrachten. Filters worden ingesteld op de periode 1 januari 2018 tot en met 31 december 2018. Daarnaast wordt er enkel gezocht op Engelstalige onderzoeken. Restricties op disciplines worden, net als in het originele literatuuronderzoek van Favaretto et al. (2019), niet gespecificeerd. Dit betekent dat elk onderzoek van discriminatie in big data wordt meegenomen in de selectie, en niet alleen onderzoeken in bepaalde disciplines. De reden hiervan is om zoveel mogelijk studies te omvatten die discriminatie in big data in zijn algemeenheid behandelen.

Er wordt gebruik gemaakt van de AND-operator om de termen big data en discriminatie te verbinden. Voor de verschillende termen van big data wordt de OR-operator gebruikt. Zo komen alle zoekwoorden die te maken hebben met big data in combinatie met alle zoekwoorden die betrekking hebben op discriminatie voor in de zoekresultaten.

3.2.3 Bepaling definitieve selectie

De definitieve selectie van de artikelen wordt geselecteerd volgens de PRISMA flowchart methode. De PRSIMA flowchart is een methode die auteurs helpt met de verslaglegging van meta-analyses en literatuur reviews (Health Sciences Library, 2020). De flowchart kent vier opeenvolgende fases. Dit zijn identificatie, screening, verkiesbaarheid en definitieve selectie.

(11)

De identificatiefase bevatten alle resultaten die naar boven komen op basis van de in 3.2.2 geformuleerde zoekwoorden. De resultaten die hier verzameld worden zijn niet allemaal bruikbaar. De bruikbaarheid wordt in de volgende fases beoordeeld. De tweede fase is de screeningfase. Hier worden alle duplicaten verwijderd en genoteerd. De unieke artikelen gaan door naar de verkiesbaarheidsfase. In deze fase wordt de abstract gelezen en beoordeeld. De artikelen die niet bijdragen worden verwijderd uit de selectie.

Als laatste wordt definitieve selectie aan papers opgeslagen. De artikelen worden opgeslagen met de naam van de auteur, gevolgd door de titel van het artikel.

3.3 Analyse artikelen

Alle definitief geselecteerde artikelen worden inhoudelijk geanalyseerd. De analyse wordt uitgevoerd met Atlas TI. Dit is een softwareprogramma dat geschikt is voor het uitvoeren van kwalitatief onderzoek. Atlas TI bevat veel functies, maar niet elke functie is relevant voor het literatuuronderzoek. Om erachter te komen welke functies het meest effectief zijn, wordt er een pilot uitgevoerd met een klein aantal artikelen uit de definitieve selectie. In de pilot worden diverse functies getest op de artikelen. Op basis van de resultaten van de pilot wordt er een definitieve aanpak voor de analyse bepaald.

3.3.1 Opzet Pilot

Voor de pilot worden vijf artikelen geanalyseerd afkomstig uit de definitieve selectie. Er worden diverse functies getest op basis van deze artikelen. De basisfuncties, zoals het maken van memo’s en annotaties, worden gebruikt. Ook worden er functies gebruikt die betrekking hebben op het coderen van de artikelen. Codes geven het onderwerp van de geselecteerde tekst aan en kunnen gemakkelijk worden teruggevonden bij de beschrijving van de resultaten. Ook is het mogelijk om codegroepen te definiëren. In tabel 3.1 staan de gemaakte codegroepen weergegeven. Normale codes worden aangegeven met een voorvoegsel. Een voorbeeld van een dergelijke code is: “oorzaak: kennis algoritmen”. Ook wordt er gebruik gemaakt van documentgroepen. Afzonderlijke documenten kunnen hierbij toegedeeld worden aan een groep. De documentgroepen zijn hetzelfde als de codegroepen.

De volgende functie die getest wordt is de code-document tabel. Dit is een toepassing die codes tegenover verschillende documenten zet, en daarmee descriptieve resultaten laat zien. Ook zal er gebruik worden gemaakt van netwerken. Atlas TI biedt de mogelijkheid om netwerken te creëren die codes, annotaties en documenten visueel kan weergeven. De pilot onderzoekt of een dergelijke visualisatie nuttig is.

In het onderzoek wordt er gebruik gemaakt van een geannoteerde bibliografie. Een geannoteerde bibliografie is een lijst met citaten, inclusief een korte samenvatting van ongeveer 150 woorden (Engle, 2020). Het gebruik van een geannoteerde bibliografie geeft de auteur de mogelijkheid om gemakkelijk te zoeken in de geselecteerde literatuur en geeft de lezer een naslagwerk in relatie met de beschrijving van de resultaten. De geannoteerde bibliografie kan ook worden bijgehouden in Atlas TI. Dit zal ook getest worden.

Als laatste worden de word Cloud functie en de auto coding functie toegepast. De word Cloud functie laat de meest voorkomende woorden van een document zien. Automatisch coderen is een functie die

gemakkelijk te gebruiken is met de word Cloud functie. Deze functie zoekt in het document een opgegeven woord, bijvoorbeeld afkomstig uit de word Cloud, en navigeert naar elk woord, elke zin of elke paragraaf waarin het voorkomt. Deze kan automatisch een code toegewezen krijgen na een korte inspectie van de zin of alinea. Dit zou veel tijdwinst op kunnen leveren.

3.3.2 Resultaten pilot

In de pilot zijn vijf geselecteerde artikelen inhoudelijk geanalyseerd door middel van Atlas TI. Alle functies, zoals besproken in paragraaf 3.3.1 zijn getest. De resultaten van de pilot worden hier besproken.

Het automatisch coderen is geen functie die gebruikt gaat worden in het vervolg van het onderzoek. Er zitten veel irrelevante codevoorstellen in de artikelen, waardoor het teveel tijd kost om de functie te

gebruiken. Daarnaast wordt er na het automatisch coderen nog afzonderlijk over het hele document

Code- en documentgroepen Deelvraag 1: Oorzaken en Gevolgen Deelvraag 2: Belemmeringen Deelvaag 3: Oplossingen

Deelvraag 5: Problematiek Favaretto Deelvraag 6: Nieuwe uitdagingen

(12)

gecodeerd. Het kost teveel tijd om dit allebei te doen en de voordelen zijn minimaal. Wel is er veel gebruik gemaakt van de word Cloud functie. Niet als basis voor het automatisch coderen, maar om een globale indruk te krijgen over de inhoud en bruikbaarheid van het artikel. Als termen zoals discriminatie en data mining veel voorkomen, is de relevantie vaak hoger dan wanneer deze termen minder vaak voorkomen.

Het coderen van de artikelen is erg nuttig gebleken. Met een consistente codering kun je in één oogopslag zien bij welke deelvraag de code hoort. Wel kan het aantal codes flink oplopen, wat ten koste kan gaan in het overzicht. Daarom is er besloten dat tekstdelen die betrekking hebben op de inhoud van het artikel, maar niet zozeer bijdragen aan de scriptie, met vrije annotaties vast te leggen. Ook het toewijzen van codes aan codegroepen blijkt nuttig te zijn. Enkele additionele codegroepen zijn toegevoegd, namelijk “Big data: algemeen” en “Discriminatie: algemeen”. Deze codes hebben betrekking op de algemene opvattingen van big data en discriminatie. Favaretto et al. (2019) merken op dat er weinig aandacht is over de definitie van big data en discriminatie. Door middel van deze code omvat je dit, waarna ze vergeleken kunnen worden met de observaties van Favaretto et al. (2019). Daarnaast is het gebruik van kleuren per codegroep overzichtelijk gebleken.

Het werken met documentgroepen die dezelfde naam hebben als de codegroepen is overbodig gebleken. Wel is er besloten om de documentgroepen de naam te geven van de discipline waarin het

onderzoek zich bevindt. De documentgroepen die nu zijn geïdentificeerd zijn criminaliteit, financieel, medisch en sociaal. Daarnaast is er een algemene groep die alle artikelen omvat zonder specifieke discipline. Op deze manier kunnen er uitspraken gedaan worden over de verschillen in disciplines.

Het bijhouden van een geannoteerde bibliografie is onbruikbaar. Atlas TI kan enkel referenties importeren met een XML-formaat. Het exporteren van referenties in XML-formaat vanuit de database werkt niet naar behoren, waardoor de hele functie onbruikbaar wordt. De geannoteerde bibliografie wordt in een apart Word document bijgehouden. Annotaties worden wel gemaakt in Atlas TI in de vorm van een opmerking bij het artikel.

Daarnaast is de netwerkfunctie nuttig gebleken voor het onderzoek. Voor de pilot heeft de functie geholpen om codes en codegroepen op een overzichtelijke manier te illustreren, waardoor er gemakkelijk genavigeerd kan worden naar de plek van codering in het document. Daarmee zorgt het netwerk voor een beknopte samenvatting van de analyse.

De code-document tabel is ook gebruikt. Deze zegt in de pilot nog niet veel, maar is veelbelovend voor het definitieve onderzoek. Er kan gemakkelijk geschakeld worden met codegroepen en documentgroepen, waardoor je snel kan zien welke artikelen of documentgroepen bijdragen aan de beantwoording van de centrale onderzoeksvraag. Daarnaast kost het gebruik van de functie weinig tijd.

3.4 Beschrijving resultaten

Na de analyse worden de resultaten beschreven. Allereerst zullen de oorzaken en gevolgen van discriminatie in big data besproken worden (deelvraag 1). Daarna worden de belemmeringen geïdentificeerd (deelvraag 2), gevolgd door de mogelijke oplossingen (deelvraag 3). Geïntegreerd in deze onderdelen is ook de vergelijking met de resultaten van het onderzoek van Favaretto et al. (2019). De tabellen die Favaretto et al. (2019) gebruiken om de oorzaken, gevolgen, obstakels en oplossingen samen te vatten worden hierbij aangevuld met de nieuwe inzichten uit de literatuur van 2018. Daarna worden de descriptieve resultaten van beide perioden vergeleken om te bepalen of de focus in de laatste jaren verschoven is (deelvraag 4). Dit gebeurt aan de hand van het vergelijken van de resultaten van deelvragen 1 tot en met 3 met de resultaten van Favaretto et al. (2019). Er worden conclusies getrokken over een eventuele verschuiving van de focus van het

onderzoeksgebied. Als laatste wordt er een deel gewijd in hoeverre de problemen die zijn aangehaald in de discussie van het onderzoek van Favaretto et al. (2019) op adequate wijze zijn geadresseerd (deelvraag 5). De problemen die hier worden aangehaald zijn het gebruik van de definitie van discriminatie (5.1), het tekort aan empirisch onderzoek (5.2), het gebrek aan de benadering van big data aan de hand van de vier dimensies (5.3), en de snelheid van de ontwikkeling van de wetgeving op het gebied van big data ten opzichte van de

technologische ontwikkeling van big data (5.4). De verschillende problemen worden als aparte onderdelen van de vijfde deelvraag beantwoord. Als laatste worden eventuele nieuwe uitdagingen geïdentificeerd die de literatuur aanhaalt (deelvraag 6).

De antwoorden van de deelvragen vormen het antwoord op de centrale onderzoeksvraag. Dit zal behandeld worden in de conclusie van de scriptie. Uiteraard zullen de beperkingen van het literatuuronderzoek aangehaald worden en wordt er een uitspraak gedaan over mogelijk toekomstig onderzoek op het gebied van discriminatie in big data. Ook wordt er gereflecteerd op het onderzoeksproces.

(13)

4. Resultaten Literatuuronderzoek

In dit hoofdstuk worden de resultaten van het literatuuronderzoek besproken. De eerste paragraaf is gewijd aan de manier waarop artikelen verzameld zijn en welke artikelen uiteindelijk geanalyseerd zijn. In paragraaf 4.2 worden de oorzaken besproken uit de geanalyseerde literatuur van 2018. Paragraaf 4.3 richt zich op de gevolgen ervan. In deze paragraaf wordt de eerste deelvraag beantwoord. In paragraaf 4.4 worden de belemmeringen beschreven met betrekking tot discriminatie in big data en paragraaf 4.5 bespreekt de

oplossingen ervan. In paragraaf 4.4 wordt de tweede deelvraag beantwoord en in paragraaf 4.5 wordt de derde deelvraag beantwoord.

4.1 Literatuurselectie

In figuur 4.1 is de PRISMA Flowchart afgebeeld. Na het toepassen van de zoekwoorden en de filters hebben de databases gezamenlijk 2258 resultaten opgeleverd. Ruim de helft van de resultaten (1150 resultaten) zijn afkomstig van de database Web of Science. Meer dan de helft van de artikelen die uiteindelijk zijn geanalyseerd zijn afkomstig van deze database. PubMed produceerde 579 resultaten, gevolgd door 329 resultaten van CINAHL, 102 van SocIndex, 72 van PhilPapers en 26 van PsychInfo.

Vervolgens zijn de artikelen beoordeeld op de titel, sleutelwoorden en abstract. 48 artikelen zijn in potentie bruikbaar voor het onderzoek en opgeslagen. Hier zitten geen duplicaten bij.

Van de 48 artikelen zijn 23 artikelen uitgesloten voor geschiktheid. Twee van deze artikelen zijn duplicaten. Daarnaast vallen een aantal artikelen buiten het kader van het onderzoek. Deze onderzoeken komen vooral uit de geneeskunde, waarin toepassingen ontworpen zijn die juist op zoek gaan naar discriminatieve variabelen. In deze papers wordt dus positieve discriminatie als doel op zich gebruikt. Deze scriptie onderzoekt enkel

discriminatie waarbij een groep benadeeld wordt, waardoor deze artikelen onbruikbaar zijn. Daarnaast gaan een aantal artikelen onvoldoende in op discriminatie, waardoor er weinig tot geen substantiële informatie voor deze scriptie is.

(14)

Het uiteindelijke aantal artikelen dat geselecteerd is voor analyse bedraagt 25. De geannoteerde versie van de artikelen is terug te vinden in bijlage I.De artikelen zijn verwerkt in de volgende paragrafen van dit hoofdstuk.

4.2 Oorzaken

Een aanzienlijk deel van de literatuur noemt oorzaken van discriminatie in big data. De oorzaken zijn opgedeeld in de categorieën algoritmische fouten, de digitale kloof en data linkage. In deze paragraaf worden de oorzaken en gevolgen uit de literatuur per categorie besproken. Referenties die met een categorie overeenkomen staan afgebeeld in tabel 4.2.1.

Oorzaken Referenties

Algoritmische fouten

Onay & Öztürk, 2018; Kamiran et al, 2018; Illiadis, 2018; Moses & Chan, 2018; Bennet & Chen, 2018; Golinelli et al, 2018; Regan & Jesse, 2018; Paterson & McDonagh, 2018.

Digitale kloof Montiel, 2018; Onay & Öztürk, 2018;

Data linkage Wachter, 2018; Montgommery et al, 2018; Illiadis, 2018; Tschider, 2018; Schaefer

et al, 2018; Berg, 2018.

Tabel 4.2.1: Oorzaken en referenties uit de literatuur van 2018

4.2.1 Algoritmische fouten

Veel risico’s op discriminatie in big data worden veroorzaakt door algoritmische fouten. Onay en Öztürk (2018) stellen in een literatuur review voor kredietscoresystemen dat er grote onenigheid is over de

waarheidsgetrouwheid van kredietscoresystemen. Waar voorheen enkel de betalingsgeschiedenis van consument relevant was, heeft data uit onder andere sociale media nu ook invloed op de kredietscores (Onay & Öztürk, 2018). Door de toename van data laten algoritmen soms onverklaarbare resultaten zien. Het controleren van deze algoritmen is door de complexiteit vaak onmogelijk. Diverse artikelen waarschuwen dat een oorzaak van discriminatie in deze algoritmen zit (Onay & Özturk, 2018; Paterson & McDonagh, 2018; Regan & Jesse, 2018).

Algoritmen maken ook fouten die gemakkelijker te achterhalen zijn. In meerdere papers wordt het gebruik van bevooroordeelde historische data aangehaald als belangrijke oorzaak van discriminatie in big data. Kamiran et al. (2018) stellen dat discriminatie vaak optreedt als gevolg van algoritmen die getraind zijn op basis van historische gegevens. Dit gebeurt ondanks de toenemende bewustwording van de mogelijke gevolgen van deze algoritmen. Illiadis (2018) stelt dat door het gebruik van historische data de menselijke vooroordelen van vroeger gereflecteerd worden door algoritmen gebaseerd op historische gegevens. De ‘feedback loop’ die continu deze vooroordelen tonen ten koste van alternatieve observaties maken het lastig om ze in twijfel te trekken. Moses en Chan (2016) waarschuwen in de context van politiewerk voor een self fulfilling proficy die hieruit kan ontstaan, omdat er meer resultaten gevonden worden op plaatsen waar meer gezocht wordt.

Het gebruik van historische data komt voort uit de aanname dat de toekomst hetzelfde is als het verleden (Bennet en Chan, 2018). Deze aanname wordt veel gedaan in voorspellende toepassingen van big data. Bennet en Chan (2018) waarschuwen dat dergelijke aannames niet op elke context van toepassing is. Dit wordt onderschreven door Golinelli et al. (2018), die de kwaliteit van herbruikbare data in twijfel trekken in medische analyses. Herhaaldelijk evalueren is volgens hen genoodzaakt om discriminatie te bestrijden.

4.2.3 De Digitale kloof

Sommige papers uit de literatuur van 2018 halen de digitale kloof aan als oorzaak van discriminatie in big data. Montiel (2018) stelt dat er verschillen in geslacht bestaan als het gaat om de toegang tot het internet. Deze kloof varieert per continent van 10 tot 43 procent. Dit komt onder andere doordat het vooral mannen zijn die inhoud op het internet produceren en dat vrouwen voor hun baan het internet minder nodig hebben. Dit verschil in toegang tot het internet kan een oorzaak zijn van discriminatie op basis van geslacht in big data analyses.

Ook met betrekking tot kredietscores kan de digitale kloof discriminatie veroorzaken. Onay en Öztürk (2018) zien dat mensen uit welvarende landen een veel grotere kans hebben op het krijgen van een goede kredietscore. Mensen die afkomstig zijn uit ontwikkelingslanden hebben minder kans op een goede kredietscore. Volgens hen ligt de oorzaak zowel bij de geografische locatie als de toegankelijkheid tot het

(15)

internet. Mensen die al jarenlang online actief zijn, hebben meer informatie gegenereerd die kredietscoresystemen gebruiken bij de beoordeling (Onay & Öztürk, 2018).

4.2.4 Data linkage

Een aantal papers uit de literatuur van 2018 focust op het verzamelen en koppelen van data, ook wel data linkage genoemd. De koppelingen van gegevens zijn afkomstig uit meerdere bronnen. Door deze gegevens te combineren worden er profielen van gebruikers gecreëerd en bijgehouden. Volgens Wachter (2018) onthullen deze profielen veel informatie over individuele mensen. Inferenties die worden gedaan op basis van deze gegevens kunnen resulteren in discriminatie (Wachter, 2018, Montgommery et al., 2018, Illiadis, 2018, Tschider, 2018). Vooral door de groei van het internet of things is er veel nieuwe persoonlijke informatie beschikbaar gekomen.

Ook maken veel adverteerders gebruik van filters om bepaalde groepen mensen uit te sluiten of juist op te nemen in gepersonaliseerde marketing. Het gaat hierbij om bewuste opname of uitsluiting. Volgens Dalenberg (2018) is dit een risicovolle praktijk, waarbij de grens van discriminatie snel bereikt is. De selectie wordt gedaan op basis van filtervariabelen, waaronder locatie, geslacht, leeftijd en financiële status. Deze vorm van data linkage komt onder andere voor op het gebied van werkgelegenheid (Dalenberg, 2018), marketing (Illiadis, 2018), en nieuwsvoorziening (Illiadis, 2018; Berg, 2018).

Fouten uit filtervariabelen komen mogelijk voort uit de ontologische basis die zij hebben (Illiadis, 2018). “Ontologieën helpen in het organiseren van data zodat er betekenis aan gegeven kan worden en is georganiseerd als een hiërarchie” (Illiadis, 2018). Volgens Illiadis (2018) gebruiken grote sociale mediabedrijven als Facebook ontologieën en presenteren zij deze als categorieën waarin gebruikers kunnen filteren. Het is niet zichtbaar op welke manier deze classificatie heeft plaatsgevonden in de metadata. Volgens Illiadis (2018) is het niet zeker of deze ontologieën op een correcte manier zijn opgebouwd en kunnen mogelijk discrimineren.

Profilering wordt volgens Schaefer et al. (2018) ook toegepast op het afstemmen van individuele behandelingen in de geneeskunde. Big data wordt gebruikt voor praktijken zoals het ontdekken van biomarkers, het stellen van diagnoses en het bieden van preventieve zorg door middel van voorspellende software. De profielen die hier gemaakt worden kunnen fouten bevatten waardoor discriminatie veroorzaakt wordt (Schaefer et al, 2018).

4.2.5 Conclusies

De mogelijke oorzaken van discriminatie zijn beschreven in de bovenstaande paragrafen. Uit tabel 4.2.1 is af te lezen dat er het meeste geschreven is over algoritmische fouten. Er wordt gesteld dat nieuwe soorten data gebruikt worden in de algoritmen waardoor de resultaten soms onverklaarbaar worden. Daarnaast wordt het gebruik van bevooroordeelde historische data aangehaald als mogelijke oorzaak van discriminatie. Er zijn twee papers die schrijven over de digitale kloof. Gesteld wordt dat de toegankelijkheid tot het internet een

mogelijke oorzaak is van discriminatie op basis van geslacht of op basis van afkomst. Als laatste schrijven er vijf papers over data linkage als mogelijke oorzaak van discriminatie in big data. Profielen vanuit allerlei

databronnen worden gecreëerd en daarop worden inferenties gemaakt. Vooral de ontwikkeling van het internet of things speelt hierin een grote rol. Daarnaast zouden filtervariabelen die gebruikt worden om specifieke mensen uit te sluiten of juist op te nemen in analyses een oorzaak van discriminatie in big data zijn.

In tabel 4.2.2 worden de referenties die Favaretto et al. (2019) hebben gemaakt aangevuld met de referenties uit de literatuur van 2018. Net zoals in de periode 2010 tot en met 2017 worden fouten in algoritmen het meeste onderzocht. Opvallend is het lage aantal papers die de digitale kloof noemen als mogelijke oorzaak, terwijl papers over data linkage juist veel voorkomt.

Inhoudelijk valt het op dat Favaretto et al. (2019) het internet of things nauwelijks noemen, terwijl deze in diverse papers uit de literatuur van 2018 (Montgomery et al, 2018; Tschider, 2018) juist als centraal onderwerp behandeld worden. De overige oorzaken die besproken worden in de literatuur van 2018 komen overeen met de oorzaken die Favaretto et al. (2019) behandelen in de literatuur review.

(16)

Oorzaken Referenties uit het literatuuronderzoek van

Favaretto et al (2019) Referenties uit de literatuur van 2018

Algoritmische fouten

Barocas and Selbst, 2016; d’Alessandro et al., 2017; Kamiran and Calders, 2012; Brayne,2017; Schermer, 2011; Zliobaite and Custers, 2016, Mantelero, 2016; Peppet, 2014; Zarsky, 2014, Kroll et al., 2017.

Onay & Öztürk, 2018; Kamiran et al, 2018; Illiadis, 2018; Moses & Chan, 2018; Bennet & Chen, 2018; Golinelli et al, 2018; Regan & Jesse, 2018.

Digitale kloof

Skills Boyd and Crawford, 2012; Casanas I Comabella and Wanat, 2015; Barocas and Selbst, 2016, Pak et al., 2017; Race Bakken and Reame, 2016; Sharon, 2016.

Montiel, 2018; Onay & Öztürk, 2018;

Data Linkage Susewind, 2015; Cato et al., 2016; Zarate et al.,

2016; Ploug and Holm, 2017

Wachter, 2018; Montgommery et al, 2018; Illiadis, 2018; Tschider, 2018; Schaefer et al, 2018; Tabel 4.2.2: Aanvullende referenties literatuur review oorzaken

4.3 Gevolgen

In paragraaf 4.2 zijn de belangrijkste oorzaken beschreven uit de literatuur van 2018. In deze paragraaf wordt er gekeken naar de mogelijke gevolgen van deze oorzaken. De gevolgen worden opgedeeld in de categorieën marginalisatie en stigma, verergeren van bestaande ongelijkheden, economische discriminatie en discriminatie op het gebied van gezondheidsvoorspelling. Economische discriminatie treedt op als consumenten oneerlijk behandeld wordt op basis van koopgewoonten en prijzen (Favaretto et al., 2019). Discriminatie op het gebied van gezondheidsvoorspelling vindt plaats wanneer mensen medisch gezien oneerlijk worden behandeld door voorspellende gezondheidsgegevens (Favaretto et al, 2019). De referenties bij de corresponderende categorie staan weergegeven in tabel 4.3.1.

Gevolgen Referenties

Sociale marginalisatie en stigma Regan & Jesse, 2018; Onay & Öztürk, 2018; Montgomery et al, 2018; Paterson &

McDonagh, 2018.

Verergeren bestaande ongelijkheden Kamiran et al, 2018; Gillborn et al, 2018; Montiel, 2018; Dalenberg, 2018; Cigsar &

Unal, 2018; Dressel & Farid, 2018

Economische discrminatie Onay & Öztürk, 2018; Schaefer et al, 2018; Cheng & Foley, 2018; Montgomery et al,

2018; Cohen. 2018. Discriminatie op het gebied van

gezondheidsvoorspelling Schaefer et al, 2018.

Tabel 4.3.1: Referenties per categorie van gevolgen van discriminatie in big data

4.3.1 Sociale marginalisatie en stigmatisering

Regan en Jesse (2018) zien dat algoritmen die zorgen voor gepersonaliseerd onderwijs voor kinderen onverklaarbare resultaten genereren. Deze algoritmen zijn zo ingericht dat een goede score ervoor zorgt dat die kinderen bepaalde rechten hebben. Bij lagere scores worden deze rechten ontnomen, waardoor kinderen die lager scoren minder mogelijkheden krijgen. Regan en Jesse (2018) merken op dat de resultaten van deze algoritmen te weinig in twijfel worden getrokken en waarschuwen op het risico van discriminatie op basis van afkomst, leeftijd en geslacht.

Onay en Öztürk (2018) zien dat marginalisatie ontstaat op het gebied van kredietscoresystemen. Omdat sommige mensen, vooral afkomstig uit ontwikkelingslanden, beperkt toegang hebben tot het internet, produceren zij minder informatie. Door het gebrek aan informatie zijn zij een groter risico voor kredietverlening en krijgen zij een lagere kredietscore (Onay & Öztürk, 2018). Discriminatie treedt hier op omdat deze mensen geen gelijke kansen hebben tot het verkrijgen van een lening. Daarnaast kan deze groep mensen

gestigmatiseerd worden door ze aan te merken als personen die moeilijker met geld om kunnen gaan. Montgomery et al. (2018) waarschuwen dat er discriminatie kan ontstaan door middel van het profileren van gebruikers van gezondheidstrackers. Deze trackers genereren een nieuwe bron van medische gegevens die voor profilering gebruikt worden. Deze profielen worden beoordeeld en krijgen een score toegewezen. Deze scores hebben ook invloed op beslissingen in het onderwijs, financiën en criminaliteit (Montgomery, 2018). Bepaalde groepen mensen die niet aan bepaalde standaarden voldoen, kunnen zo benadeeld worden op meerdere gebieden dan enkel op gezondheid.

(17)

Paterson en McDonagh (2018) merken op dat gerichte marketing een belangrijke tool is om kwetsbaarheden van mensen uit te buiten. Volgens hen kan er gediscrimineerd worden in de

informatievoorziening door gepersonaliseerde marketing. Het wordt ook wel het ultieme voorbeeld van asymmetrische informatie genoemd (Paterson & McDonagh, 2018). Los van de discriminatie die hierdoor kan optreden is dergelijke profilering ook onderhevig aan manipulatie van onder andere politici.

4.3.2 Verergeren van bestaande ongelijkheden

Fouten die gemaakt worden als gevolg van het gebruik van bevooroordeelde historische data kunnen bestaande vooroordelen verergeren. Volgens Kamiran et al., (2018) zijn het vooral vrouwen en etnische minderheden die benadeeld worden door deze fouten. Gillborn et al (2018) illustreren dat menselijke vooroordelen in algoritmen tot uiting komen. Zo zijn er bijvoorbeeld correlaties te vinden tussen ras en prestaties in de maatschappij. Veel mensen komen tot de conclusie dat bepaalde rassen minder goed functioneren in de maatschappij, maar Gillborn et al. (2018) stellen dat de gegevens gekleurd zijn door de manier waarop mensen met een ander ras behandeld zijn. Dit soort conclusies maken algoritmen ook.Gillborn et al. (2018) roepen op om te realiseren dat kwantitatieve data niet voor zichzelf spreekt en daarom altijd kritisch geëvalueerd moet worden.

Zoals beschreven in paragraaf 4.2.3 hebben vrouwen minder toegang tot het internet en zijn er minder vrouwen werkzaam in de ICT (Montiel, 2018). Dit kan leiden tot het verergeren van bestaande ongelijkheden, omdat de belangen van vrouwen onvoldoende gerepresenteerd worden (Montiel, 2018). Juist omdat big data ons leven meer gaat beïnvloeden, is het belangrijk dat big data ingezet wordt om meer gelijkheid te realiseren. Dat er discriminatie optreedt op basis van geslacht, laat Dalenberg (2018) zien met het voorbeeld dat vacatures voor hoogbetaalde banen via het internet tot zes keer vaker aan mannen gepresenteerd worden dan aan vrouwen. Welke vacatures er worden gepresenteerd aan welke persoon wordt door middel van algoritmen bepaald. In dit geval discrimineert het algoritme dus op basis van geslacht. Deze oneerlijke behandeling ondermijnt het gelijkheidsbeginsel van de grondwet die stelt dat iedereen gelijke kansen moet hebben op werkgelegenheid (Dalenberg, 2018). Het omgekeerde komt ook voor. In de financiële sector worden juist mannen benadeeld op basis van hun profiel. Zo is het verkrijgen van krediet veel gemakkelijker voor vrouwen dan voor mannen, omdat vrouwen vaak een lager risicoprofiel hebben (Cigsar & Unal, 2018).

Bestaande ongelijkheid kan ook verergerd worden in het opsporen van criminaliteit. Volgens Dressel en Farid (2018) kan software die voor dit doeleinde gebruikt wordt discrimineren, zelfs als variabelen als ras en afkomst uit de datasets worden gehaald. Zij concluderen dit naar aanleiding van de evaluatie van de

commerciële risicobeoordelingssoftware COMPAS. Uit de evaluatie blijkt dat het gebruik van deze software geen eerlijkere resultaten oplevert dan de beoordeling van mensen zonder enige kennis op dit gebied. Dat is opmerkelijk, aangezien er een breed draagvlak is omtrent het gebruik van dergelijke software. Met een gemiddelde nauwkeurigheid van 65,2% legt de software het af tegen menselijke beoordelingen (Dressel & Farid, 2018).

4.3.3 Economische discriminatie

De stigmatisering die veroorzaakt wordt door de digitale kloof leidt ook tot economische discriminatie. Discriminatie die bij mensen uit ontwikkelingslanden optreedt zorgt ervoor dat deze groep weinig krediet kunnen krijgen. Omdat mensen uit ontwikkelde landen dit wel krijgen, wordt de gediscrimineerde groep benadeeld op het gebied van economische kansen (Onay & Öztürk, 2018).

Schaefer et al. (2018) waarschuwen dat verzekeringsmaatschappijen hun premie gaan aanpassen op genetische profielen van hun klanten. Momenteel is dit in mindere mate al zichtbaar in de vorm van

discriminatie op basis van leeftijd, rookgewoonten en familiegeschiedenis, waar premies al op afgestemd zijn. Schaefer et al. (2018) zien een groeiende discussie over de validiteit van nieuwe vormen van medische informatie die gegenereerd worden door de nieuwe technologie van onder andere het internet of things.

Airbnb maakt het verhuurders mogelijk om te kiezen wie er in hun huis verblijft. Menselijke vooroordelen spelen dus een rol als verhuurders bepaalde groepen niet in hun huis laten verblijven. Indien Airbnb verhuurders verplicht om geen onderscheid te maken, bestaat de kans dat verhuurders geen gebruik meer gaan maken van het platform (Cheng & Foley, 2018). Dit kan weer leiden tot een andere vorm van discriminatie, namelijk dat verhuurders die geen gebruik maken van het platform benadeeld worden in de vindbaarheid op de website. In dat geval zullen verhuurders dus economisch gediscrimineerd worden.

Montgomery et al. (2018) observeren dat bedrijven ook bewust discrimineren op basis van data die zij verkrijgen door middel van draagbare gezondheidstrackers. Dergelijke apparaten verzamelen

(18)

aan individuen door middel van hun digitale lichaamstaal en worden ze gevangen in profielen (Montgomery et al, 2018). Walgreen heeft bijvoorbeeld een samenwerking met diverse aanbieders van draagbare

gezondheidstrackers als Fitbit, MyFitness Pal en Google fit. Het bedrijf deelt beloningen uit aan individuen die bepaalde prestaties leveren, zoals sporten en het bereiken van een dagelijks stappendoel (Montgomery et al, 2018). Zo worden groepen die geen gebruik maken van deze diensten uitgesloten. Daarnaast waarschuwt Cohen (2018) voor prijsdiscriminatie die kan optreden bij het gebruik van big data. Studies hebben al uitgewezen dat er gepersonaliseerde prijzen worden toegepast op gebruikers, zonder dat zij weten dat het gebeurt. Op welke manier hun internetgedrag deze prijzen beïnvloeden is ook onbekend (Cohen, 2018).

4.3.4 Discriminatie op het gebied van gezondheidsvoorspelling

Profilering op medisch gebied is een betere manier voor de behandeling van patiënten dan een “one size fits all” behandeling (Schaefer et al., 2018). Behandelingen zouden meer effect hebben als ze volledig zijn

afgestemd op de individu. Deze nieuwe methode kan echter ook een belangrijke oorzaak zijn voor discriminatie op het gebied van gezondheidsvoorspelling (Schaefer et al., 2018). “Gedragsmatige en levensstijlfactoren communiceren met genetische factoren die ziektes kunnen veroorzaken” (Schaefer et al, 2018). Beslissingen over diagnoses en preventieve zorg voor patiënten worden vrijwel altijd gebaseerd op data die voorspellingen maakt. Aan deze voorspellingen worden waarschijnlijkheden gekoppeld. Waarschijnlijkheden geven echter nooit een garantie, en profielen die gemaakt zijn op basis van deze waarschijnlijkheden zijn niet volledig accuraat. Schaefer et al., (2018) waarschuwt dat discriminatie op basis van gezondheidsvoorspelling het gevolg kan zijn van deze onvolledige profielen.

4.3. Conclusies

Discriminatie als gevolg van big data kunnen vier verschillende soorten gevolgen hebben. Allereerst kunnen ze sociale marginalisatie en stigmatisering veroorzaken. Algoritmen hebben de mogelijkheid om individuen in hokjes te plaatsen, dat er weer voor kan zorgen dat deze groepen moeilijker met elkaar om kunnen gaan. Dit gebeurt in bijvoorbeeld het onderwijs met gepersonaliseerde onderwijssystemen en in kredietscoresystemen. Ook zouden gegevens die gebruikt worden bij gezondheidstrackers hieraan bij kunnen dragen. Marginalisatie kan ook bestaande discriminatie verergeren. Vooral vrouwen en etnische minderheden worden hierdoor getroffen. Dit is te zien op het gebied van werkgelegenheid of bij de opsporing van criminaliteit. Economische discriminatie is een nieuw soort discriminatie, geïntroduceerd door Favaretto et al. (2019), waarbij mensen economisch benadeeld wordt. Papers uit de literatuur van 2018 noemen hierbij prijsdiscriminatie of het krijgen van ongelijke economische kansen. Als laatste kan discriminatie op het gebied van gezondheidsvoorspelling voorkomen, waar mensen verkeerde preventieve behandelingen kunnen krijgen omdat profielen onvoldoende accuraat zijn.

In tabel 4.3.2 worden de referenties die Favaretto et al. (2019) hebben gemaakt aangevuld met de referenties uit de literatuur van 2018. Het valt op dat er in 2018 relatief minder wordt geschreven over sociale marginalisatie en stigma en er meer wordt geschreven over het verergeren van bestaande ongelijkheden en over economische discriminatie. Het feit dat er in één jaar meer is geschreven over economische discriminatie dan in de periode van 2010 tot en met 2017 geeft aan dat dit meer aandacht heeft gekregen. Anderzijds wordt er over discriminatie op het gebied van gezondheidsvoorspelling weinig onderzoek gedaan.

De eerste deelvraag van deze literatuur review luidt: “Wat zijn de nieuwe inzichten rondom de oorzaken en gevolgen van discriminatie in big data en hoe verhouden deze zich tot de bevindingen van Favaretto et al. (2019)?”

De ontwikkeling van het internet of things lijkt een grotere rol te spelen bij discriminatie in big data dan in de periode 2010 tot en met 2019. Het internet of things produceert nieuwe vormen van data, waarna algoritmen nieuwe soorten inferenties kunnen maken. Dit resulteert echter in moeilijker te doorgronden resultaten, waardoor er meer incidenten van discriminatie plaats kunnen vinden. Ook over economische discriminatie lijkt steeds meer geschreven te worden. Zo biedt het gebruik van gezondheidstrackers meer medische informatie die verzekeringsmaatschappijen kunnen gebruiken om premies aan te passen. Ook zijn er zorgen dat

gepersonaliseerde prijzen al worden toegepast op gebruikers, zonder dat daar transparantie over is.