• No results found

Afstudeerproject BSc Informatiekunde

N/A
N/A
Protected

Academic year: 2021

Share "Afstudeerproject BSc Informatiekunde"

Copied!
30
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Interdisciplinariteit binnen de FAT/ML

Wilco van Dijk

Instelling: UvA

Studentnummer: 10590307

Begeleider: Arjan Vreeken

Studieonderdeel: BEP

(2)

Abstract

In dit onderzoek is de mate van interdisciplinariteit binnen fairness-onderzoek van de FAT/ML onderzocht in de afgelopen vier jaar. Interdisciplinariteit is gekaderd door middel van de disciplinariteits-theorie van Stember (1991), waarin 5 niveaus worden onderscheiden: intra-, cross-, multi-, inter- & transdisciplinair. Aan de hand van deze methode zijn 41 fairness-onderzoeken van de FAT/ML van 2015 t/m 2018 gecategoriseerd op mate van disciplinariteit. Uit de resultaten bleek dat het gemiddelde aantal interdisciplinaire

onderzoeken significant lager is dan de overige onderzoeken en dat er geen significante groei te zien was over de jaren. Hieruit kan geconcludeerd worden dat de mate van

interdisciplinariteit binnen fairness-onderzoek van de FAT/ML in minimale mate aanwezig is en er geen groei zichtbaar is.

(3)

Inhoud

Abstract 2

De mate van Interdisciplinariteit binnen Fairness-onderzoek

van de FAT/ML in de afgelopen vier jaar 4

Methode 10 Resultaten 15 Conclusie/Discussie 19 Literatuurlijst 22 Bijlage 1 24 Bijlage 2 25 Bijlage 3 28 Bijlage 4 30

(4)

De mate van Interdisciplinariteit binnen Fairness-Onderzoek van de FAT/ML in de afgelopen vier jaar

Algoritmes bepalen steeds meer het dagelijkse leven van individuen. Dit blijkt ook uit een onderzoek van de NOS dat afgelopen mei 2019 werd gepubliceerd. Voorspellende

algoritmes, computerprogramma’s die wiskundige handelingen verrichten(Ensie, 2019), zouden door gemeentes worden gebruikt om kwetsbare individuen te identificeren en te beoordelen of iemand bepaalde zorg wel echt nodig heeft. Hoewel gemeentes zelf zeggen dat ook de ambtenaar hier invloed op kan uitoefenen blijkt dat medewerkers het lastig vinden af te wijken van het algoritme, zelfs als de situatie van de client daar om vraagt (NOS, 2019).

Een tweede voorbeeld van algoritmes die van invloed zijn op het leven van individuen, wordt geïllustreerd aan de hand van een groot onderzoek naar recidivering in Amerika. Voor iedereen die terugkeert in de maatschappij na in de gevangenis te hebben gezeten, wordt er door een algoritme voorspeld hoe groot de kans is dat iemand nog een keer de fout in gaat. Uit het onderzoek van Angwin et al. (2016) blijkt dat de algoritmes die hiervoor gebruikt worden discriminerend zijn tegenover kwetsbare minderheden. Ook de algoritmes die in Nederland worden gebruikt, bijvoorbeeld door de zorg of de politie, zijn discriminerend volgens het eerder genoemde artikel van de NOS (2019).

Beide voorbeelden geven een tegenstelling weer: enerzijds hebben de voorspellende algoritmes veel invloed, terwijl anderzijds onduidelijk is hoe “fair” machine learning is. Machine learning is een type algoritme dat invoergegevens gebruikt om een gewenste taak uit te voeren zonder letterlijk te worden geprogrammeerd om een bepaald resultaat te produceren. Deze algoritmen leren door herhaling en kunnen hun eigen programmering aanpassen zodat ze steeds beter worden in het uitvoeren van de gewenste taak (El Naqa &

(5)

Murphy, 2015). Machine learning algoritmes worden gebruikt om op basis van ingevoerde data patronen te herkennen en acties te kunnen voorspellen, bijvoorbeeld menselijk gedrag. Bedrijven met webshops maken hier veel gebruik van om aanbevelingen te doen wat een klant nog meer leuk zou vinden als deze een product in het winkelmandje doet. Het

programma maakt dan een voorspelling op basis van gedrag in het verleden van deze klant en andere klanten. Algoritmes leren op basis van resultaten uit het verleden en zijn daardoor niet objectief. Wanneer data bijvoorbeeld wordt verzameld uit een bevooroordeelde maatschappij, zullen de resultaten ook gekenmerkt worden door vooroordelen. De data die een algoritme gebruikt om van te leren is zelden objectief in zichzelf. Deze gekleurde resultaten gebruikt het algoritme om van te leren, waardoor het algoritme de vooroordelen van de

bevooroordeelde maatschappij overneemt (Barocas, Hardt & Narayanan, 2018). Bij een webshop zullen de consequenties minimaal zijn; iemand koopt een product wel of niet. Als er echter, zoals bij het onderzoek van de NOS, beslissingen worden gemaakt of iemand wel of geen zorg mag ontvangen kunnen er mensen zijn die op basis van hun gender of etniciteit worden gediscrimineerd. Gelukkig zijn er manieren om deze discriminatie binnen de

machine learning tegen te gaan. Door het leerproces van het algoritme aan te passen, kan een algoritme “fair” worden gemaakt (Dwork et al., 2012). Een “fair” algoritme is een algoritme dat niet discrimineert op het gebied van gevoelige eigenschappen als etniciteit of sekse (Zafar, 2015). Om dit aan te kunnen passen is het nodig te begrijpen wat ethiek voor ons is, hoe discriminatie zich manifesteert binnen onze maatschappij, hoe beslissingen door mensen worden gemaakt en hoe deze algoritmes werken (Barocas et al., 2018). Hiervoor zijn

wetenschappers nodig binnen de geesteswetenschappen, sociale wetenschappen en de exacte wetenschappen die met elkaar samenwerken om fairness in machine learning te verbeteren, kortom: een interdisciplinaire aanpak (Barocas et al., 2018).

(6)

Een interdisciplinaire aanpak zou mogelijk kunnen worden gezien als het bouwen van een huis. Om een huis te bouwen heb je vergunningen nodig, een fundering, gas, water, licht en nog veel meer. Dit is niet te doen door alleen een metselaar, maar vereist meerdere disciplines die samenwerken. Hoewel

dit voorbeeld een beeld kan geven wat interdisciplinariteit omvat mist er nog wel een eenduidige definitie en is het ook belangrijk om te kijken naar het achterliggende

mechanisme: disciplinariteit en de verschillende niveaus hiervan. Stember (1991) heeft dit onderzocht en is tot vijf verschillende niveaus van disciplinariteit gekomen (zie figuur 1). Interdisciplinariteit is hier het vierde niveau. Het eerste niveau is Intradisciplinariteit; Een onderzoek dat wordt uitgevoerd door wetenschappers binnen de eigen discipline.

Onderzoekers die crossdisciplinair werken onderzoeken een onderwerp van een andere discipline met de kennis en methodes van hun eigen discipline, een voorbeeld hiervan is een natuurkundige die muziek beschrijft door de golflengtes van het geluid te bestuderen. Een multidisciplinair onderzoek bevat onderzoekers en bronnen van verschillende disciplines die allemaal hun eigen kennis, theorieën en methodes bijdragen aan het onderzoek, maar zonder ze daadwerkelijk te integreren. Er is sprake van interdisciplinariteit wanneer deze

onderzoekers en bronnen hun theorieën en methodes ook daadwerkelijk integreren om tot nieuwe kennis, theorieën en concepten te komen. Dit is het moment dat in het voorbeeld het huis ook daadwerkelijk een geheel wordt in plaats van een verzameling muren, kabels, meubels en vergunningen. Transdisciplinariteit ontstaat wanneer verschillende

onderzoeksgebieden zich zodanig integreren dat er een nieuw vakgebied ontstaat met een Figuur 1 Verschillende niveaus van disciplinariteit (Stember, 1991)

(7)

eigen kennisbasis, zoals neuropsychologie. Stember (1991) geeft zowel een intellectueel als een praktisch argument om een interdisciplinaire aanpak te gebruiken. Het intellectuele argument is dat onderzoeksgebieden verrijkt worden door theorieën, concepten en methodes van andere onderzoeksgebieden. Het praktische argument houdt in dat complexe problemen in de wereld niet op te lossen zijn door een enkele discipline. Om bijvoorbeeld een complex probleem als armoede aan te pakken, is er meer benodigd dan alleen economen. Ook

sociologen, politici en mensen uit het werkveld zijn benodigd.

Ook de FAT/ML, welke een afkorting is voor Fairness, Accountability and

Transparency in Machine learning, onderschrijft het belang van een interdisciplinaire aanpak (Marco Angel Bertani-Økland, 2019). De FAT/ML is een organisatie die bestaat uit

vooraanstaande wetenschappers en ervaringsdeskundigen, die zich bezighouden met fairness in machine learning. De FAT/ML bestaat sinds 2014 en vanaf 2015 zijn de papers ook gepubliceerd. Jaarlijks wordt er een conferentie gehouden waar lezingen worden gegeven en papers worden besproken. Het doel van deze bijeenkomsten is samenwerking tussen de verschillende werkgebieden te verhogen en kennis te delen over het onderwerp (fatml.org, z.d.). De conferenties van de FAT/ML worden bezocht door mensen uit de bedrijfswereld, overheid en wetenschap uit landen verspreid over de hele wereld en hebben daardoor een grote impact op de mondiale implementatie en voortgang van fairness in machine learning. Om fairness in machine learning te bereiken is, zoals eerder al besproken, een

interdisciplinaire aanpak nodig.

Hoewel er nu een organisatie is die al een aantal jaren actief bezig is met fairness in machine learning en er al veel onderzoekers bezig zijn met het onderwerp, blijkt uit de onderzoeken van de NOS (2019) en Angwin et al. (2016) dat er nog steeds meerdere problemen zijn wat betreft de implementatie van fairness in machine learning. Aangezien interdisciplinariteit zo belangrijk is voor deze sector, zou het goed kunnen dat een gebrek

(8)

hieraan de grondslag voor deze problemen is. Bij nader onderzoek bij de FAT/ML bleek het zelfs dat er geen definitie was van interdisciplinariteit. Onderzoekers aangesloten bij de FAT/ML zullen hierdoor minder snel het belang inzien van deze interdisciplinariteit. Uit een klein vooronderzoek, waarbij er gezocht werd naar de interdisciplinaire artikelen van de FAT/ML aan de hand van de definities die Stember (1991) heeft vastgesteld leek het erop dat de meeste onderzoeken van de FAT/ML niet interdisciplinair zijn. In een van de papers van de FAT/ML, een onderzoek van Kim et al. (2018), wordt fairness in machine learning heel technisch en vanuit de exacte hoek besproken, maar wordt er minimale aandacht gegeven aan andere disciplines. Ook in een artikel van Adebayo & Kagal (2016) worden alleen voor de inleiding wat artikelen genoemd van een andere discipline om het probleemgebied aan te duiden, maar worden er voor de methode die gebruikt wordt om het probleem op te lossen geen bronnen of theorieën van andere disciplines gebruikt. Zo zijn er meer voorbeelden te noemen.

Met andere woorden, wat er binnen de FAT/ML nog ontbreekt is een intern

onderzoek naar de interdisciplinariteit binnen de organisatie. Dit terwijl interdisciplinariteit uiterst belangrijk is om complexe problemen in de maatschappij op te lossen (Stember, 1991). Ook zou je kunnen zeggen dat de FAT/ML een grote invloed heeft door hun mondiale bereik en een voorbeeldfunctie heeft voor de rest van het onderzoeksgebied. Vanwege

bovenstaande redenen is het nodig een onderzoek te doen naar de mate van

interdisciplinariteit van de FAT/ML. Door de eerder gelezen artikelen van de FAT/ML en de problemen in de maatschappij die er op dit moment zijn is de eerste hypothese dat de

interdisciplinariteit van de FAT/ML minimaal is. De FAT/ML bestaat wel pas sinds 2015 en de laatste jaren krijgt de sector steeds meer publiciteit, wat onderzoekers uit andere

vakgebieden zou kunnen aantrekken. Dat de sector meer publiciteit krijgt is ook te zien in het groeiende aantal papers dat wordt besproken op de conferenties van de FAT/ML. Daarom

(9)

wordt is de tweede hypothese dat de interdisciplinariteit is toegenomen in de afgelopen vier jaar.

Samengevat kunnen er vraagtekens gezet worden bij de interdisciplinariteit van de FAT/ML. Het is belangrijk dit te onderzoeken omdat interdisciplinair onderzoek mogelijk kan bijdragen aan fairness binnen de machine learning. Daarnaast is de FAT/ML zelf een van de grootste instanties op dit gebied en hebben ze veel invloed op het bedrijfsleven en de wetenschap. In dit onderzoek zal daarom de interdisciplinariteit van de FAT/ML worden onderzocht. Dit zal worden gedaan door eerst een eenduidig beeld te scheppen van

interdisciplinariteit en de andere niveaus van disciplinariteit door middel van de theorie van Stember (1991). Vervolgens zullen alle fairness-onderzoeken van de FAT/ML hieraan onderworpen worden, om te zien in hoeverre deze interdisciplinaire aanpak ook

daadwerkelijk wordt toegepast en in hoeverre er sprake is van progressie in de hantering van interdisciplinariteit door de FAT/ML. Door onderzoeken en papers te bestuderen van een organisatie, is het namelijk mogelijk te bepalen hoe interdisciplinair een organisatie is (Leydesdorff & Goldstone, 2013). Indien blijkt dat de onderzoeken van de FAT/ML niet interdisciplinair zijn zou dit onderzoek ook tot verbeterpunten kunnen leiden binnen de FAT/ML en de sector. Een onderzoek naar een organisatie houdt het scherp en helpt de organisatie om zich te ontwikkelen (Borgatti & Foster, 2003). De vraag die in dit onderzoek wordt gesteld luidt als volgt: Wat is de mate van interdisciplinariteit binnen

(10)

Methode Materiaal

Voor dit onderzoek wordt gebruik gemaakt van alle gepubliceerde onderzoeken van de FAT/ML over fairness vanaf 2015 tot 2018, dit zijn er in totaal 41. In bijlage 2 is zichtbaar welke onderzoeken dat zijn. Deze onderzoeken zijn gevonden op de website van de FAT/ML. Hiervan is een selectie gemaakt op basis van de titel: alle artikelen met “fair” in de titel zijn hierin meegenomen.

Verder wordt er voor de analyse van deze onderzoeken gebruik gemaakt van een model, gebaseerd op de disciplinariteits-theorie van Stember (1991), met de vijf niveaus van disciplinariteit als basis. De definities van de begrippen die Stember geeft zijn vertaald in criteria waar een artikel aan moet voldoen om dit niveau van disciplinariteit te behalen. Bijvoorbeeld intradisciplinariteit heeft als vereiste dat er alleen onderzoekers van dezelfde discipline aan werken en het een onderzoek binnen de eigen discipline is. De criteria zijn weergegeven in tabel 1. Hierna zijn de belangrijkste criteria omgezet in vragen, bijvoorbeeld: “Wordt het onderzoek toegespitst op één discipline die binnen de discipline van de

onderzoeker valt?”. Vervolgens zijn deze vragen uitgezet in een model, zie bijlage 1. Met dit model wordt verwacht de artikelen te kunnen categoriseren en analyseren. Het model is specifiek ontwikkeld voor dit onderzoek waardoor er nog geen betrouwbaarheid is vast gesteld.

(11)

Tabel 1

Criteria voor de verschillende disciplinariteiten Disciplinariteit Criteria

Intradisciplinair Maakt alleen gebruik van bronnen binnen de discipline van de auteur.

Crossdisciplinair Auteur gebruikt visies en perspectieven van bronnen uit eigen discipline om een onderwerp van een andere discipline te beschrijven. Gebruikt alleen theoriën en methodes van de eigen discipline. Kan bronnen van een andere discipline bevatten. Multidisciplinair Maakt gebruik van visies en perspectieven uit bronnen van

meerdere disciplines, maar integreert deze niet.

Interdisciplinair Maakt gebruik van visies en perspectieven uit bronnen van meerdere disciplines en integreert deze vervolgens.

Transdisciplinair Maakt gebruik van visies en perspectieven uit bronnen van meerdere disciplines en integreert deze vervolgens om een nieuw vakgebied te vormen.

Procedure

Allereerst zijn alle onderzoeken van de FAT/ML gefilterd met als criteria het woord “fair” in de titel. Daarna zijn deze gedownload en doorgestuurd naar een derde, die de jaartallen en titels uit alle onderzoeken heeft verwijderd; een voorbeeld hiervan is te vinden in bijlage 3. Hiervoor is gekozen om te voorkomen dat er een voorkeursbehandeling ontstaat waarbij onderzoeken in latere jaartallen mogelijk een hogere vorm van disciplinariteit worden toegeschreven omdat dit de hypothese is. Daarna zijn de onderzoeken aangeleverd in Google Drive. Vervolgens is het stappenplan uit bijlage 1 gebruikt om de disciplinariteit van een onderzoek te bepalen. Hieronder wordt per vraag de procedure besproken.

“Worden er in dit onderzoek verschillende bronnen uit verschillende disciplines aangedragen?”

(12)

Dit wordt beantwoord door eerst een lijst te maken van de auteurs van de bronnen die worden gebruikt in het onderzoek. Via Google wordt gezocht naar de onderzoeker en waar deze werkzaam is, dit kan bijvoorbeeld te vinden zijn op de website van de universiteit, Wikipedia of LinkedIn. Vervolgens wordt de afdeling van de onderzoeker gekoppeld aan een discipline. De disciplines waar de onderzoekers in worden ingedeeld zijn

geesteswetenschappen, sociale wetenschappen, exacte wetenschappen, natuurwetenschappen en toegepaste wetenschappen, op basis van de indeling van Oleson & Voss (1979). Ter illustratie: Er wordt op Google gezocht naar Wilco van Dijk en het blijkt dat deze auteur studeert aan de universiteit van Amsterdam op de afdeling Informatiekunde. Informatiekunde wordt volgens Oleson & Voss onderverdeeld in exacte wetenschappen. De persoonlijke gegevens worden niet rechtstreeks gebruikt in het artikel en worden ook niet gedeeld met derden. Alleen de disciplines van de auteurs worden gebruikt in dit onderzoek en de namen van de auteurs zullen binnen drie maanden na afloop van dit onderzoek worden verwijderd. Wanneer blijkt dat een onderzoek bronnen bevat van auteurs afkomstig van verschillende disciplines, wordt de vraag met ja beantwoord en anders wordt de vraag met nee beantwoord.

“Valt het (onderwerp van het) onderzoek buiten de discipline van de onderzoeker(s)?” Deze vraag wordt beantwoord door de discipline van de bronnen te vergelijken met die van de auteur(s), waar de disciplines op dezelfde manier worden vastgesteld als bij de vorige vraag. Als die hetzelfde zijn wordt het artikel als intradisciplinair bestempeld en als ze verschillen als crossdisciplinair.

Worden de verschillende visies & perspectieven van de bronnen geïntegreerd in het onderzoek (bv. theorie, concept en methodevorming)?

Om deze vraag te beantwoorden wordt er gekeken naar de theorie/concept/methode-vorming en of deze binnen de discipline van de auteur valt. Dit wordt gedaan door weer naar de bronnen binnen dit onderdeel te kijken en wanneer deze ontbreken wordt er gekeken of er

(13)

onderzoek uit eerdere delen van het artikel wordt gebruikt voor het vormen van een eigen theorie. Als deze uit verschillende disciplines komen dan is er sprake van geïntegreerd onderzoek en is het antwoord positief.

Wordt er onderzoek gedaan binnen de discipline(s) van de onderzoeker(s) waarbij er bronnen van andere disciplines worden gebruikt ter ondersteuning?

Om deze vraag te beantwoorden wordt er gekeken naar de discipline van de onderzoeker(s) en naar het onderwerp van het onderzoek. Als het onderwerp van het onderzoek binnen de discipline van de onderzoeker(s) valt is het antwoord bij voorbaat positief. Anders wordt er gekeken naar het inhoudelijke onderzoek. Worden er voor het inhoudelijke onderzoek alleen bronnen en perspectieven uit de eigen discipline gebruikt dan is er sprake van crossdisciplinariteit en is het antwoord negatief en anders is het antwoord positief en is het onderzoek multidisciplinair.

Zou er gesproken kunnen worden van een nieuwe discipline met eigen intellectueel framework?

Om deze vraag te beantwoorden wordt er gekeken naar de conclusie en discussie van het onderzoek. Als er een intellectueel framework is voor een nieuwe discipline of de

bevindingen kunnen leiden tot een nieuwe disciplinaire richting dan is het antwoord ja. Als alle onderzoeken gecategoriseerd zijn worden de geblindeerde gegevens weer vrijgegeven om ze zo te kunnen categoriseren per jaar.

Analyseplan

Om de mate van disciplinariteit van de fairness-onderzoeken van de FAT/ML te bepalen zal er allereerst gekeken worden naar hoe de disciplinariteit verdeeld is binnen een jaar. Dit wordt gedaan door de data om te zetten in percentages en deze weer te geven in een figuur, gegroepeerd naar disciplinariteit. Vervolgens zal het gemiddelde aantal

(14)

artikelen om te kijken of de onderzoeken gelijk verdeeld zijn. Normaal gesproken zou een One-way Anova hier voor volstaan, alleen wordt verwacht dat niet aan de assumpties wordt voldaan. Vooral de assumptie homogeniteit in variantie is problematisch, omdat er slechts één meting per categorie is en hierdoor is er geen variantie. Hierdoor zal er gekozen worden voor een non-parametrische toets: de Kruskall-Wallis Test. Deze toets vergelijkt ook het gemiddelde van groepen met elkaar en kijkt of er een significant verschil is tussen de groepen. De assumpties van de Kruskall-Wallis zijn allereerst dat de afhankelijke variabele op ordinaal, interval of rationiveau gemeten is. Ten tweede dat de onafhankelijke variabele bestaat uit meer dan twee onafhankelijke groepen. Ten derde dat de observaties onafhankelijk gemeten moeten zijn. De laatste assumptie is dat de verdeling van elke groep dezelfde vorm moet hebben (wiki.uva.nl/methodologiewinkel, z.d.). Er wordt verwacht dat er aan alle assumpties voldaan zal worden. Ook wordt er verwacht dat er een significant verschil gevonden zal worden tussen het gemiddelde aantal interdisciplinaire onderzoeken en de overige fairness onderzoeken van de FAT/ML. Er wordt verwacht dat het gemiddelde aantal interdisciplinaire onderzoeken significant lager is dan de overige onderzoeken.

Verder, om te bepalen of de mate van interdisciplinariteit door de jaren heen toegenomen is binnen het fairness-onderzoek van de FAT/ML, wordt er opnieuw een Kruskal-Wallis Test toegepast, de assumpties zijn hierboven besproken. Er wordt voor deze toets gekozen omdat dit het gemiddelde aantal interdisciplinaire onderzoeken van de

verschillende jaren met elkaar vergelijkt en kijkt of er een significant verschil is tussen de jaren. Er wordt voor een non-parametrische test gekozen omdat er wordt verwacht dat er niet aan de assumpties van een parametrische test voldaan wordt en met name niet aan de

assumptie van homogeniteit in variantie, hierboven uitgelegd. Daarnaast wordt er verwacht niet te voldoen aan de assumptie van normaliteit, omdat nu al bekend is dat er in 2015 veel

(15)

minder artikelen zijn dan in 2017 en hierdoor nooit een gelijke verdeling over de jaren zal zijn. De verwachting is dat er aan de assumpties van een Kruskal-wallis Test wordt voldaan en dat er een significante toename zichtbaar zal zijn in interdisciplinaire fairness-onderzoek tussen 2015 en 2018

Resultaten

Er zijn 41 onderzoeken van de FAT/ML geanalyseerd volgens de methode beschreven in de methodesectie. Alle auteurs van de bronnen zijn in Excel gezet en geanalyseerd. Dit is gedaan met uitzondering van nieuwsbronnen en meetmaatbronnen. Bij nieuwsbronnen is dit gedaan omdat er vaak geen auteur wordt vermeld en om één lijn aan te houden is er voor gekozen deze niet mee te nemen in de analyse. Meetmaatbronnen zijn niet meegenomen omdat deze geen invloed hebben op de manier van kijken naar fairness in machine learning, maar een meetmaatbron zijn (voorbeeld hiervan is Cohen’s d). Elke auteur is maar één keer per bron meegenomen in de analyse, ook al heeft deze bijgedragen aan meerdere bronnen die geciteerd worden in het artikel. Dit is gedaan omdat de auteursanalyse als primaire doel heeft om te bepalen of er mogelijk input is van meerdere disciplines en het hierbij niet gaat om ‘de kwantiteit van een auteur’. De uiteindelijke resultaten, met de hoeveelheid auteurs van de bronnen per discipline, de discipline(s) van de auteur(s) van het artikel en de disciplinariteit van het artikel zijn te vinden in bijlage 4.

Tabel 2

Disciplinariteit met standaarddeviaties(tussen haakjes) van de artikelen per jaar. Jaar Intradisciplinai r Crossdisciplinai r Multidisciplinai r Interdisciplinai r Transdisciplinai r 201 5 0 0 2 (0,71) 1 (1,41) 0 201 1 (4,95) 0 6 (1,41) 1 (4,95) 0

(16)

6 201 7 0 0 15 (2.12) 3 (10,61) 0 201 8 0 0 11 (0,70) 1 (7,78) 0

Aan de hand van de onderzoeksresultaten kan gesteld worden dat er overwegend veel multidisciplinaire onderzoeken zijn in verhouding tot intradisciplinair, crossdisciplinair, interdisciplinair en transdisciplinair. De resultaten zijn zichtbaar in tabel 2 en worden in figuur 3 percentueel weergegeven. Hier is te zien dat 83% van de onderzoeken

multidisciplinair zijn, slechts 15% interdisciplinair en 2 procent intradisciplinair; cross- en transdisciplinair zijn niet aanwezig.

In de

hoofdanalyse wordt het gemiddelde aantal interdisciplinaire

onderzoeken vergeleken

met het gemiddelde aantal overige

onderzoeken. Dit wordt gedaan aan de hand van een Kruskall-Wallis Test. Er werd verwacht dat de twee groepen significant van elkaar verschillen en dat het aantal interdisciplinaire artikelen significant

lager zou zijn. Zoals verwacht is er aan alle assumpties van de Kruskall-Wallis Test voldaan. Uit de resultaten bleek dat de interdisciplinaire onderzoeken (mdn = 0,15) en de overig onderzoeken (mdn = 0,85) significant verschillen in gemiddelde (H(1)=40, P<0,001). In figuur 3 wordt de richting zichtbaar, hier uit kan geconcludeerd worden dat het gemiddelde

Figuur 3: Procentuele verdeling van de disciplinariteit van de artikelen van FAT/ML over de jaren 2015-2018.

Figuur 2: Procentuele verdeling van de disciplinariteit van de artikelen van FAT/ML over de jaren 2015-2018.

2.00% 83.00% 15.00%

Verdeling Disciplinariteit 2015-2018

Intradisciplinair Crossdiciplinair Multidisciplinair Interdisciplinair Transdisciplinair

(17)

aantal interdisciplinaire artikelen significant lager is dan het gemiddelde aantal overige artikelen. Dit komt overeen met de verwachtingen.

Figuur 4: Gemiddelde aantal onderzoeken verdeeld in overig en interdisciplinaire onderzoeken.

Voor de tweede analyse is er opnieuw gebruik gemaakt van de Kruskal-Wallis Test waarbij het gemiddelde aantal interdisciplinaire onderzoeken vergeleken wordt over de jaren en wordt bepaald of dit significant verschilt. De verwachting is dat het gemiddelde aantal interdisciplinaire onderzoeken significant zal toenemen over de jaren heen. Er worden aan alle assumpties van de Kruskall-Wallis Test voldaan, nadat een correctie is toegepast omdat de te analyseren groep kleiner is dan 30. Er zal daarom gekeken worden naar de Exact in plaats van naar de Asymptotic, zodat er een nauwkeurige uitkomst mogelijk is. Asymptotic is een schatting die gemaakt wordt op basis van de data. Als een deel van de data kleiner is dan

(18)

30 is deze niet nauwkeurig en daarom wordt er gebruik gemaakt van een Exact die de werkelijke data gebruikt zonder een schatting te maken. Uit de resultaten blijkt dat de verschillende jaren niet significant van elkaar verschillen op gemiddelde aantal disciplinaire onderzoeken (H(3)=5, p=0,05). Dit komt niet overeen met de verwachting dat dit wel

significant zou toenemen over de jaren heen. De schematische weergave van het gemiddelde aantal interdisciplinaire onderzoeken per jaar is zichtbaar in figuur 4.

Conclusie/Discussie

In deze studie is onderzoek gedaan naar de interdisciplinariteit van fairness-onderzoek binnen de FAT/ML. Uit de resultaten blijkt dat dit in minimale mate aanwezig is. Daarnaast Figuur 5: Gemiddelde aantal interdisciplinaire artikelen over de jaren

(19)

is de gemiddelde hoeveelheid interdisciplinaire onderzoeken over de jaren heen niet toegenomen. De hypothese dat de mate van interdisciplinariteit binnen fairness-onderzoek minimaal aanwezig is, is aangenomen. De tweede hypothese, dat de gemiddelde hoeveelheid interdisciplinaire onderzoeken binnen fairness-onderzoek van de FAT/ML zou toenemen over de jaren, is weerlegd in dit onderzoek. De mate van interdisciplinariteit binnen fairness-onderzoek van de FAT/ML in de afgelopen vier jaar is in minimale mate aanwezig en neemt ook niet toe.

Een mogelijke verklaring voor het gebrek aan toename van de mate van interdisciplinariteit over de jaren is de methode die gebruikt is om de artikelen te

categoriseren. Deze methode is namelijk ontwikkeld voor dit onderzoek en daarom nog nooit getoetst. Helaas is er ook geen ander theoretisch kader en werd de disciplinariteits-theorie van Stember (1991) robuust genoeg beschouwd om dit als theoretisch kader aan te nemen. Een andere mogelijke verklaring voor het gebrek aan toename zou ook de leeftijd van het vakgebied kunnen zijn; doordat de FAT/ML een jonge organisatie is, zou het kunnen dat ze nu nog veel bezig zijn met het vergaren van kennis en het opbouwen van een theoretisch kader. Daardoor zijn ze mogelijk minder bezig met het verdiepen en combineren van de kennis met andere vakgebieden, waaruit interdisciplinariteit ontstaat. Een derde verklaring voor de minimale aanwezigheid van interdisciplinariteit binnen de FAT/ML zou ook een onderschatting van het belang van interdisciplinariteit kunnen zijn, waardoor er minder aandacht aan gegeven wordt dan nodig is, wat bijvoorbeeld te zien is in het gebrek aan een definitie van interdisciplinariteit van de FAT/ML of een eerder onderzoek naar de

interdisciplinariteit van het vakgebied.

Er is mogelijk nog veel te winnen door het samenwerken met wetenschappers met een achtergrond uit de geesteswetenschappen, met name de onderliggende vakgebieden filosofie en recht. Opvallend was namelijk dat alle onderzoeken waar een auteur aan had meegewerkt

(20)

die een achtergrond had in de geesteswetenschappen zijn geclassificeerd als interdisciplinair. Het probleem hierin is dat er maar bij vier artikelen een auteur was met een dergelijke achtergrond, wat zou kunnen duiden op een lage bekendheid van dit onderwerp binnen de geesteswetenschappen. Hier is nog veel terrein te winnen, bijvoorbeeld door studies binnen de geesteswetenschappen vakken te laten aanbieden over fairness en technologie. Ook zou de FAT/ML zelf meer reclame kunnen maken door op andere beurzen te staan en bekendheid te verwerven binnen andere disciplines om zo wetenschappers van andere disciplines

geïnteresseerd te krijgen voor fairness in machine learning. Een andere suggestie is overheden te overtuigen van het belang van fairness binnen machine learning en zo meer landelijke bekendheid te verkrijgen. De bevindingen van dit onderzoek zijn gestuurd naar de FAT/ML, hier is echter nog geen respons op gegeven.

De FAT/ML bestaat pas vier jaar, wat ook invloed heeft op de resultaten. Over een tijd van vier jaar is het misschien moeilijk conclusies te trekken over de vooruitgang van een vakgebied. Zeker omdat er in 2015 maar drie artikelen waren die over fairness gingen. Een ander punt is dat artikelen die in 2016 op de conferentie verschenen, ook in 2014 al

geschreven konden zijn maar pas twee jaar later werd gepubliceerd, wat misschien een bias geeft van het tijdsverloop van de mate van interdisciplinariteit over de jaren heen. Als dit onderzoek over een paar jaar weer wordt gedaan zou dat een beter beeld kunnen geven over de ontwikkeling van de disciplinariteit over de jaren heen omdat zulke uitschieters dan uitgevlakt worden. De methode die gebruikt is in dit onderzoek is ook arbeidsintensief, aangezien elk artikel nauwkeurig bekeken wordt en de bronnen van alle artikelen ook worden geanalyseerd. Een vervolgonderzoek zou er kunnen worden gedaan naar het vereenvoudigen of automatiseren van de methode. Het onderzoek zou vervolgens ook breder kunnen worden getrokken, aangezien de FAT/ML niet de enige groep is die onderzoek doet naar fairness in machine learning. Het is wel de grootste en meest toegankelijke groep op dit gebied,

(21)

waardoor het wel een indicatie geeft over de mate van interdisciplinariteit in de wetenschap. Hier tegen in kan worden gebracht dat fairness in machine learning meer is dan alleen wetenschap, wat betekent dat er ook onderzoek zou moeten worden gedaan naar hoe machine learning toegepast wordt in de maatschappij en hoe de samenwerking is tussen de

wetenschap en het bedrijfsleven bij het implementeren van fairness. Dit zou dan ook een belangrijk vervolg onderzoek kunnen zijn binnen fairness in machine learning en zou tot nog meer inzichten kunnen leiden.

Zoals eerder vermeld is interdisciplinariteit essentieel om fairness te bereiken in de machine learning (Bertani-Økland, 2019). In overeenstemming met het onderzoek van de NOS (2019) kan geconcludeerd worden dat het ontbreken van fairness in machine learning kan betekenen dat algoritmes, die nu op grote schaal gebruikt worden in de maatschappij, mogelijk beslissingen zullen maken die discrimineren op basis van gevoelige eigenschappen als gender of etniciteit. De organisatie die claimt voorstander te zijn van deze

interdisciplinaire benadering blijkt echter zelf niet interdisciplinair onderzoek uit te voeren. Uiteindelijk zal er dus meer interdisciplinair onderzoek moeten komen en zal de FAT/ML hier ook op moeten toezien. Ook kan dit betekenen dat men mogelijk een stap terug moet nemen met het implementeren van machine learning, tot er een eenduidige en haalbare aanpak is om fairness te implementeren.

Dit onderzoek laat met andere woorden zien dat de mate van interdisciplinariteit in dit vakgebied minimaal is en dat er daarom vraagtekens te plaatsen zijn bij de eerlijkheid van algoritmes. Om die reden rijst de vraag in hoeverre het wenselijk is om beslissingen die een enorme impact kunnen hebben op kwetsbare individuen toe te vertrouwen aan algoritmes die niet geclassificeerd kunnen worden als eerlijk, bijvoorbeeld in de zorg.

(22)

Adebayo, J., & Kagal, L. (2016). Iterative orthogonal feature projection for diagnosing bias in black-box models. arXiv preprint arXiv:1611.04967.

Angwin, J., Larson, J., Mattu, S., & Kirchner, L. (2016). Machine bias. ProPublica, May, 23, 2016.

Barocas, S., Hardt, M., & Narayanan, A. Fairness and Machine learning. fairmlbook. org, 2018. URL: http://www. fairmlbook. org.

Bertani-Økland, M. A. (2019, February 2). What is FATML and why should you care. Geraadpleegd van https://medium.com/grensesnittet/https-medium-com-mab-55055-what-is-fatml-and-why-should-you-care-dfb36e51f2f4

Dwork, C., Hardt, M., Pitassi, T., Reingold, O., & Zemel, R. (2012, January). Fairness through awareness. In Proceedings of the 3rd innovations in theoretical computer science conference (pp. 214-226). ACM.

El Naqa, I., & Murphy, M. J. (2015). What is machine learning?. In Machine learning in Radiation Oncology (pp. 3-11). Springer, Cham.

Ensie (2019). Geraadpleegd van https://www.ensie.nl/paul-aelen/algoritme FAT ML. (z.d.). Geraadpleegd van https://www.fatml.org

Leydesdorff, L., & Goldstone, R. L. (2013). Interdisciplinarity at the journal and specialty level: The changing knowledge bases of the journalcognitive science. Journal of the Association for Information Science and Technology, 65(1), 164-177.

doi:10.1002/asi.22953

Methodologiewinkel UvA. (z.d.). Geraagpleegd van https://wiki.uva.nl/methodologiewinkel NOS. (2019, May 30). Overheid gebruikt op grote schaal voorspellende algoritmes, 'risico op

discriminatie'. Geraadpleegd van https://nos.nl/artikel/2286848-overheid-gebruikt-op-grote-schaal-voorspellende-algoritmes-risico-op-discriminatie.html

(23)

Oleson, A., & Voss, J. (1979). The Organization of knowledge in modern America, 1860-1920.

Stember, M. (1991). Advancing the social sciences through the interdisciplinary enterprise. The Social Science Journal, 28(1), 1-14.

Zafar, M. B., Valera, I., Rodriguez, M. G., & Gummadi, K. P. (2015). Fairness constraints: Mechanisms for fair classification. arXiv preprint arXiv:1507.05259.

(24)

Bijlage 1

(25)

Bijlage 2

Tabel 3

Geannalyseerde artikelen over Fairness van de FAT/ML tussen 2015 en 2018

Jaar Artikel

2015 Fish, B., Kun, J., & Lelkes, Á. D. (2016). A confidence-based approach for balancing fairness and accuracy. 2015 Zafar, M. B., Valera, I., Rodriguez, M. G., & Gummadi, K. P. (2015). Fairness constraints: Mechanisms for

fair classification.

2015 Zliobaite, I. (2015). On the relation between accuracy and fairness in binary classification.

2016 Chouldechova, A. (2017). Fair prediction with disparate impact: A study of bias in recidivism prediction instruments.

2016 Albarghouthi, A., D'Antoni, L., Drews, S., & Nori, A. (2016). Fairness as a program property.

2016 Zafar, M. B., Valera, I., Gomez Rodriguez, M., & Gummadi, K. P. (2017). Fairness beyond disparate treatment & disparate impact: Learning classification without disparate mistreatment.

2016 Jabbari, S., Joseph, M., Kearns, M., Morgenstern, J., & Roth, A. (2017). Fairness in reinforcement learning. 2016 Celis, L. E., Deshpande, A., Kathuria, T., & Vishnoi, N. K. (2016). How to be fair and diverse?

2016 Kleinberg, J., Mullainathan, S., & Raghavan, M. (2016). Inherent trade-offs in the fair determination of risk scores.

2016 Adebayo, J., & Kagal, L. (2016). Iterative orthogonal feature projection for diagnosing bias in black-box models.

2016 Yang, K., & Stoyanovich, J. (2017). Measuring fairness in ranked outputs.

2017 Joseph, M., Kearns, M., Morgenstern, J., Neel, S., & Roth, A. Better Fair Algorithms for Contextual Bandits. 2017 Joseph, M., Kearns, M., Morgenstern, J., Neel, S., & Roth, A. (2016). Fair algorithms for infinite and

contextual bandits.

2017 Liu, Y., Radanovic, G., Dimitrakakis, C., Mandal, D., & Parkes, D. C. (2017). Calibrated fairness in bandits. 2017 Berk, R., Heidari, H., Jabbari, S., Joseph, M., Kearns, M., Morgenstern, J., ... & Roth, A. (2017). A convex

framework for fair regression.

2017 Beutel, A., Chen, J., Zhao, Z., & Chi, E. H. (2017). Data decisions and theoretical implications when adversarially learning fair representations.

2017 Dwork, C., Immorlica, N., Kalai, A. T., & Leiserson, M. (2017). Decoupled classifiers for fair and efficient machine learning.

2017 Celis, L. E., & Vishnoi, N. K. (2017). Fair personalization.

2017 Bower, A., Kitchen, S. N., Niss, L., Strauss, M. J., Vargas, A., & Venkatasubramanian, S. (2017). Fair pipelines.

2017 Chierichetti, F., Kumar, R., Lattanzi, S., & Vassilvitskii, S. (2017). Fair clustering through fairlets. 2017 Chouldechova, A., & G'Sell, M. (2017). Fairer and more accurate, but for whom?

2017 Hu, L., & Chen, Y. (2017). Fairness at equilibrium in the labor market.

(26)

2017 Burke, R. (2017). Multisided fairness for recommendation.

2017 Yao, S., & Huang, B. (2017). New fairness metrics for recommendation that embrace differences. 2017 Grgić-Hlača, N., Zafar, M. B., Gummadi, K. P., & Weller, A. (2017). On Fairness, Diversity and

Randomness in Algorithmic Decision Making.

2017 Bechavod, Y., & Ligett, K. (2017). Penalizing unfairness in binary classification. arXiv preprint arXiv:1707.00044.

2017 Agarwal, A., Beygelzimer, A., Dudík, M., Langford, J., & Wallach, H. (2018). A reductions approach to fair classification.

2017 Skirpan, M., & Gorelick, M. (2017). The Authority of" Fair" in Machine learning.

2018 Wadsworth, C., Vera, F., & Piech, C. (2018). Achieving fairness through adversarial learning: an application to recidivism prediction.

2018 Kilbertus, N., Gascón, A., Kusner, M. J., Veale, M., Gummadi, K. P., & Weller, A. (2018). Blind justice: Fairness with encrypted sensitive attributes.

2018 Green, B. (2018). “Fair” Risk Assessments: A Precarious Approach for Criminal Justice Reform. 2018 Kim, M., Reingold, O., & Rothblum, G. (2018). Fairness through computationally-bounded awareness. 2018 Gajane, P., & Pechenizkiy, M. (2017). On formalizing fairness in prediction with machine learning. 2018 Dwork, C., & Ilvento, C. (2018). Group fairness under composition.

2018 Dwork, C., & Ilvento, C. (2018). Fairness under composition.

2018 Kearns, M., Neel, S., Roth, A., & Wu, Z. S. (2017). Preventing fairness gerrymandering: Auditing and learning for subgroup fairness.

2018 Rothblum, G. N., & Yona, G. (2018). Probably approximately metric-fair learning.

2018 Cotter, A., Gupta, M., Jiang, H., Srebro, N., Sridharan, K., Wang, S., ... & You, S. (2018). Training Fairness-Constrained Classifiers to Generalize.

2018 Karako, C., & Manggala, P. (2018, July). Using image fairness representations in diversity-based re-ranking for recommendations.

(27)
(28)
(29)

Bijlage 4

Figuur 8: Excel weergave van alle artikelen met jaar, disciplinariteit, disciplinariteit(en) auteur en de hoeveelheid disciplines van de bronnen.

Referenties

GERELATEERDE DOCUMENTEN

Innovativiteit uit zich binnen Lean Manufacturing doordat een projectleider wordt aangesteld voor het ontwerp, de ontwikkeling en het in productie nemen van het product. Deze

Financiering en hervestiging maken het voor het grootste deel van de wereldvluchtelingenbevolking mogelijk om in de regio van herkomst te blijven, terwijl chaotische toestanden aan

Door het reizen hebben veel Duitsers exotische gerechten leren kennen.

Steeds meer waarnemingen An- derzijds duiden deze gegevens, samen met alle andere waarnemingen, ontegenspreke- lijk op lokale vestiging – terwijl we daarover, tot minder dan

The likelihood-ratio is the probability of the score given the hypothesis of the prose- cution, H p (the two biometric specimens arose from a same source), divided by the probability

‘Wat een degradatie, om van een Forum op een blad vol wijven terecht te komen!’... een dienst bewijst. Ik wacht nu op een brief van jou voor ik me hierover een opinie vorm, en in

Weliswaar hebben de auteurs oog voor de individuele of maat­ schappelijke baten (het nut) van de externe rapportage voor verschillende groepen van gebruikers, doch in geen

Juist in deze laatste opdrachten moet worden voorko­ men dat de adviseur al het denkwerk alleen doet en zodoende met een manage- ment-development-programma of