Interview (Humanities) number 5 Vakgebied: Communicatiewetenschappen

Semi-in-depth interviews

Appendix 12: Interview (Humanities) number 5 Vakgebied: Communicatiewetenschappen

Leeftijd: 34 Gender: man

I: Kunt u een of meer voorbeelden geven van digitale tools die u in het verleden voor uw onderzoek gebruikt heeft?

G: Nou ja, uh, het gebruik van of zeg maar het hele begrip van digitale tools is natuurlijk ontzettend breed. Uh meer in het algemeen, gebruik van nou ja heel veel statistiekprogramma’s uiteraard. Uh maar daarnaast ook veel programmeertalen we programmeren dingen gewoon heel veel zelf, gewoon in Python bijvoorbeeld vaak. Andere collega gebruiken R. Uh wat we ook wel doen is dat we een aantal bestaande open source pakketten gebruiken om dan XXXX dat soort dingen. Die mensen van XXXX hebben iets gemaakt, dat heet XXX, hoe heet die groep, XXXX XXXX XXXX en die mensen daar. Die hebben een tool ontwikkeld om XXXX, dat gebruiken we ook wel. Alleen wij gebruiken het hele analyses gedeelte daarvan niet want uh we gebruiken het alleen puur om te verzamelen omdat we meestal dan toch voor de analyse onze eigen dingen schrijven want het punt is dat je anders heel erg beperkt bent in wat je kan doen.

I: Oké

G: Ja wat gebruiken we verder nog? Ja… Ik vind het best wel lastig om wat op te noemen dus als jij wat voorbeelden noemt dan kan ik wat zeggen over wat we hebben gebruikt.

I: Heeft u een concreet onderzoek wat u bijvoorbeeld net afgerond hebt, of aan het afronden bent waarvan u zegt dat was heel interessant en daar heb ik een digitale tool bij gebruikt?

G: Toen XXXX me belde en zei dat je hier stond was ik was net de proofs aan het lezen van een artikel dat over een paar weken hopelijk gepubliceerd wordt maar waar we onderzoek hebben gedaan naar het XXXX XXXX XXXX. Dus we hebben iets van 200.000 artikelen gewoon verzameld en gekeken in hoeverre ze verschillen. Uh wat we, misschien kan ik even uitleggen hoe we dat hebben gedaan, dat is misschien het makkelijkste. In feite hebben we een server opgezet waar we een database op draaien, XXXX en een aantal scrapers geschreven die gewoon XXXX sites 1 x per uur afgaan en nog een heleboel van offline XXXX uit een database XXXX getrokken, dat samengevoegd. En uiteindelijk gewoon een set van scripts geschreven om het te analyseren en daar hebben we natuurlijk gebruik gemaakt van heel veel resources die door anderen zijn ontwikkeld. Nou uh XXXX e van Python bijvoorbeeld of, nou we hebben ook gebruik gemaakt van XXXX ja want dat is ook heel erg handig. En uh dan hebben we nog wat XXXX gedaan, Ja Ja En dan uiteraard nog uiteindelijk wat

statistische analyses gedraaid enne… Dat heeft met XXXX, met XXXX gedaan, ja. I: Wat was de onderzoeksvraag die u probeerde te beantwoorden?

G: Het waren er eigenlijk 2. Eentje is … Eentje is een methodologische vraag, namelijk in hoeverre kunnen we XXXX XXXX XXXX. In hoeverre is er een verschil tussen XXXX en XXXX? Mensen minder vaak de XXXX online volgen en er zit meestal een heel pessimistisch perspectief achter. Dat de XXXX maar als je dat denkt moet je eigenlijk wel weten of het daadwerkelijk verschilt. En weten in hoeverre dat wel zo is, dus dat was de vraagstelling.

I: Oké uh, interessant. Uh welke eigenschappen van deze tool pasten goed bij uw onderzoek? Als u kijkt naar de scraper welke afweging heeft u gemaakt om welke websites te gebruiken?

G: Dat was eigenlijk heel makkelijk want nou ja alle XXXX sites moesten wij gewoon hebben. Uh en nou we hebben die scraper gewoon zelf geschreven om dat te doen dus ja ik denk eigenlijk als je dit soort onderzoek doet moet je eigenlijk heel goed nadenken wat je wilt weten. Dan kom je volgens mij er niet echt omheen om het gewoon zelf te doen. Want je hebt natuurlijk ook van die tools waarmee je automatisch dingen kan scrapen, van die websites, maar wat voor ons dan heel erg belangrijk is is dat het over langere tijd heen kan, dat er echt geen fouten in zitten dat het uh ja dat echt hoe moet ik het zeggen, dat jij het kan aanpassen op jouw specifieke vraagstelling. In ons geval was het natuurlijk heel erg belangrijk dat we alleen de tekst van het artikel hadden en niet bv dat wat voor sommige sites wel een kopje had erboven, staat voor een en ander niet, dus. En dus, het is dus heel belangrijk dat het heel nauwkeurig is allemaal. Ja ja en wat voor ons ook heel erg belangrijk is, ik denk dat daar een heel groot verschil zo is met, laten we zeggen meer geesteswetenschappelijke benaderingen, dat het voor ons ontzettend belangrijk is dat het te reproduceren is. Dus ik vind het heel erg belangrijk dat ik de code daarvan aan jou kan geven en dat jij het kan draaien en dat jij hetzelfde eruit krijgt. Uh en dat ik, voor ons is het bijvoorbeeld minder belangrijk dat iets heel makkelijk te gebruiken is, het is natuurlijk heel fijn als iets heel makkelijk te gebruiken is, maar het is nog belangrijker dat het transparant is gedaan echt een goed iets is. Stel

dat er een tool was dat door ergens 100 x ergens op te klikken we hetzelfde resultaat kunnen krijgen. Misschien was dat een makkelijke geweest maar voor ons was dat maar dat… zou totaal niet interessant zijn omdat ik aan niemand kan uitleggen hoe ik dat heb gedaan. Terwijl ik nu aan iedereen die vraagt hoe ik mijn data heb verzameld “kijk hier is mijn code, kijk ernaar”. En dat iemand anders het dus op die manier kan verbeteren en aanpassen, en dat je ook later, als je helemaal vergeten bent hoe dat eigenlijk werkte, ook over 10 jaar in feite de code zou kunnen lezen en misschien gebruik je die specifiek programmeertaal niet eens meer op dat moment maar je zou gewoon een boek erbij kunnen pakken van 23 jaar geleden en je zou gewoon kunnen achterhalen wat er is gebeurd en dat vind ik voor sociaalwetenschappelijk onderzoek heel erg belangrijk.

I: Dus u maakt hem ook beschikbaar via XXXX? De code? G: Ja meestal wel

I: Meestal wel, oké

G: Uh ik vraag me af of we dat hier hebben gedaan. Volgens mij hebben we dat nog niet gedaan hiervoor maar in principe is dat wel de bedoeling, ja.

I: Oké, mag ik vragen welke eigenschappen pasten minder goed, de eigenschappen van de tool, bij uw onderzoek? Eigenschappen waarvan u zegt…

G: Nou ja dat uh even denken, ja wat was er minder goed? Uh. Nou wat betreft, nu heb ik het minder over het scrapen eerder over het pre-essence-en en het analyseren later. Wat minder goed past is dat veel van die bibliotheken die je dan toch gebruikt uh soms iets minder goed werkten in het Nederlands dan in het Engels. Wij hadden natuurlijk Nederlandstalige data en uh nou als je bv met XXXX probeert uh XXXX te doen dan is het XXXX als het over Engelstalige teksten gaat en over Nederlandstalige teksten een classifier trainen. Op zich niet zo’n heel erg groot probleem maar het is wel een extra drempel en nou doet hij het gewoon iets slechter. Als je, als je heel veel verstand ervan hebt, wel ook op een betere manier dan wij nu hebben gedaan, het was natuurlijk niet per se onze voorkeur want wij zijn niet zo heel erg geïnteresseerd in taalkundige onderwerpen. Dus ja het was maar een van de vele stappen die we moesten nemen. Vandaar dat we er ook niet superveel tijd en moeite aan hebben besteed. Maar ik denk dat dat wel een probleem is, die taalafhankelijkheid van veel van dat soort tools.

I: Oké dus u zegt de vertaling, maar heeft u het dan ook over nuances of definities? Heeft u het idee dat als u een vertaling te pakken heeft u denkt deze had beter gekund?

G: Nou niet zozeer de vertaling maar eerder het feit dat je, nou als je bv heel erg geïnteresseerd bent in uh, in de namen van personen of actoren en je wilt… nu het werkt gewoon in het Nederlands iets slechter

I: Ik snap hem, oké.

G: Even denken wat er nog meer was… wat minder goed past bij mijn onderzoek… Ja uh misschien meer in het algemeen in specifieke onderzoeken over XXXX dat zijn natuurlijk best wel abstract terwijl je met veel

bestaande technieken naar hele manifeste, dus hele duidelijke dingen op zoek bent. Uh nou dan heb je bv, we waren bv geïnteresseerd in XXXX XXXX XXXX, dus het gaat eigenlijk erover dat je een artikel schrijft naar aanleiding van een XXXX en onze hypothese was dat dat online vaker gebeurde dan offline omdat ten eerste er niet in 1 XXXX per dag maar meerder artikelen in 1 XXXX per dag verschijnen ook omdat het vrij goedkoop is om te produceren maar als je het op een geautomatiseerde manier doet, dan nou we hebben uiteindelijk gekozen om te kijken naar de cosine simaliarity of er vrij veel overlap was wat betreft de woorden die er gebruikt worden. Ja, je zult nooit dat concept heel exact te pakken kunt krijgen want het zou best wel kunnen dat je het over hetzelfde onderwerp hebt of naar aanleiding van een eerder artikel toch hele andere woorden gebruikt. Of het zou ook andersom kunnen dat het over iets totaal anders gaat. Stel dat weet ik veel wat er XXXX, dan is de kans groot dat er veel overlap is. Misschien is dan niet het ene artikel naar aanleiding van de andere geschreven dus wat je eigenlijk zou willen, of waar je naar toe wilt op lange termijn, dat je zeg maar dit soort abstracte concepten beter kan concretiseren. Nu was het vaak een beetje, wil niet zeggen vergezocht, wil natuurlijk niet m n eigen onderzoek afkraken maar ja uh je merkt gewoon dat zeker in de sociale wetenschappen er nog een kloof is tussen wat je conceptueel gezien interessant vindt en hoe je dan kan omzetten naar iets, wat je direct kan meten.

I: dat begrijp ik. Uh wat heeft u er uiteindelijke toe bewogen om deze tools te gaan gebruiken? De scraper is natuurlijk een hele logische maar waarom teksten op deze manier…

G: Nou het lag eigenlijk voor de hand vond ik. We hadden eigenlijk maar 2 overwegingen: namelijk of we doen het in R. Of we doen het in Python. Het punt is ook ..er bestaan een aantal programma’s waarin je met zo’n grafisch interface teksten kan inlezen, waarmee je dat mee kan doen. Maar zoals ik eerder zei dat was voor ons geen optie omdat we wilden niet dat in principe het op nagenoeg onbeperkte schaal kan en niet reproduceerbaar is. Tenzij ik er een video van maak waarop ik heb geklikt kan ik het aan niemand laten zien, vandaar dat het voor ons overduidelijk was, nou het moet gewoon iets zijn waarvoor we een code kunnen schrijven. Nou of Pyhton of R. Nou daar zijn 2 redenen voor ik vind R. Gewoon heel lastig en Python vind ik makkelijker. En XXXX ook en mijn 2de reden is, omdat ik denk dat Python iets beter geschikt is om met teksten te werken en R. beter met cijfers en we hadden het hier over teksten en niet over cijfers. Dat waren eigenlijk de overwegingen.

I: Oké, en heeft u andere tools gebruikt ter vergelijking, bv de crawler, heeft u nog gekeken of u iets anders kon doen?

G: Nee eigenlijk niet.

I: Het was gewoon meteen duidelijk. G: Dat was eigenlijk zeer straight forward. I: Kwam dat uit uw onderzoeksvraag, die keuze?

G: Ik denk inderdaad met ons…. ja het zijn gewoon 3 dingen: 1 is de onderzoeksvraag en dit was gewoon geschikt om die onderzoeksvraag te beantwoorden. 2de was gewoon een pragmatische afweging waar ik het net over had. We konden het gewoon goed in die taal oplossen en het 3de_{was inderdaad dat het reproduceerbaar}

moet zijn en schalen.

I: Oké duidelijk. Zou u deze tools nog een keer voor uw onderzoek gebruiken, of zou u heel iets anders…? G: Ja. Ik zou het zo opnieuw doen.

I: Heeft u het idee dat het gebruik van digitale tools invloed kan hebben op het uiteindelijke onderzoeksresultaat?

G: Uiteraard, ja ja.

I: Oké, wat voor een soort invloed?

G: Nou ja, je ziet bv. uh dat is werkelijk niet lullig bedoelt XXXX XXXX XXXX maar je ziet dat je vrij beperkte keuzemogelijkheden hebt dan zou je kunnen afvragen of je je vragen daarmee kan beantwoorden. Je ziet bv bij sommige bedrijfsleven gebruikte tools om sociale media te analyseren nou ja dat.., dan kan je ergens op klikken en dan krijg je een sentiment score of zo, maar je hebt eigenlijk heel weinig invloed erop, hoe dat wordt berekend. Je kan uh ja je hebt nagenoeg geen invloed op de pre-processing, al dat soort dingen en natuurlijk beïnvloed dat wel je resultaten. Uh en dat is in dat opzicht iets dat niet op te lossen is, dat is gewoon zo maar het is heel belangrijk om daar transparant in te zijn en uh dat niet te.. te negeren en te doen alsof jouw gegevens de enige mogelijke oplossing zijn.

I: Want denkt u dat de invloed is die digitale tools op het uiteindelijk onderzoekresultaat hebben, dat dat ook ligt aan de digitale vaardigheden, hoe digitaal geletterd iemand is? Of ook heel erg met hoe de tools in elkaar zijn gezet?

G: Allebei natuurlijk. Maar digitaal geletterd vind ik niet het goede woord hier. Digitaal geletterd klink ook of je weet waar je naartoe moet surfen en hoe je een mailtje kan versturen of zo en dat nou dat kan iedereen

inmiddels dus uh, het klinkt als een concept van 10-15 jaar geleden. Maar ik bedoel je kan niet eens een belastingaangifte doen zonder internet, ja ik bedoel het kan wel maar dan moet je een papieren formulier aanvragen en niemand doet het. Uh ik weet dus niet of dat het is, het gaat denk ik eerder over nou

methodekennis, zo simpel is het eigenlijk. Het is hetzelfde en dat hoeft niet perse met digitale media te maken te hebben, het is hetzelfde met statistiek, er zijn mensen die vrij weinig van statistiek snappen en vrij weinig percentages met elkaar vergelijken en andere mensen die gebruiken vrij ingewikkelde, weet ik veel wat, multi- level modellen, equation modeling of whatever om hun onderzoeksvraag te beantwoorden. Dus methodekennis heeft inderdaad invloed op het resultaat en op de manier waarop je vragen beantwoordt. En hetzelfde geldt voor digitale tools, want wat je daar ziet is uh dat uh dat er steeds meer data digitaal beschikbaar is en de samenleving verandert en dat allerlei disciplines samenvallen en wij die de samenleving bestuderen ontkomen er dus niet aan om iets met digitale data te doen. Alleen uh dat betekent nog niet dat die mensen perse een opleiding of

achtergrond hebben uh die heel erg geschikt is om deze data echt te analyseren. Ja wat doe je dan? Je hebt in feite 2 keuzes, nee je hebt er 3: 1 is je zegt nee ik analyseer het niet, maar goed dan maak je jezelf weleer aan de hand, als je zegt ik bestudeer hoe mensen media gebruiken maar ik weet niet hoe je XXXX moet analyseren, of XXXX of XXXX of dan ook, nou ja, XXXX XXXX XXXX XXXX. Dus ja het kan, maar ja het is geen duurzame strategie. Het 2de_{optie is dat je gewoon zegt, ik koop het gewoon in en ik koop gewoon een}

programma om dit voor mij te doen uh of ik huur iemand in om het voor me te doen maar dan, dan raak je wel de controle kwijt en je geeft die iemand eigenlijk de keuzes die je op methodologische overwegingen moet maken en dat vind ik wel gevaarlijk. En de 3de_{optie is, je moet gewoon bijleren, of bijscholen, nieuw technieken}

leren. En ik denk dat dat is wat wij nu hier aan het doen zijn. Als je dit 10 jaar geleden aan mij gevraagd had, 10 jaar geleden deden wij hier niet aan en nu ben je gewoon de hele tijd met mensen van weet ik veel wat, mensen van informatica, linguïstiek al dat soort mensen ben je weg en dan samenwerken en dat is gewoon veel meer uh ja er zijn gewoon nieuwe methodes die 10 aar geleden wel bestonden maar nog niet zo wijd verspreid waren. Dat er wel een soort van tweedeling is met aan de ene kant mensen die een soort bestaande oplossingen toepassen, ook al past die niet helemaal en mensen die zeggen nou dan moeten we het gewoon zelf bouwen die tool. Ik denk dat wij hier eerder tot de 2de groep behoren.

I: Duidelijk. U had het net over betalen, u kunt bv ook wat inhuren. Is het voor u een bezwaar met bv met bv de kranten dat het achter een paywall zit? Dat u denk van nou ja daarvoor moet je wel steeds wat neertellen, houdt dat tegen of is dat iets dat op de een of andere maner een plek krijgt in het budget?

G: Je bedoelt... I: Zo’n paywall

G: Dat je… bedoel je dat... precies . Bedoel je bezwaren als in dat we dat geld niet hebben of..? I: Nou dat je overal op gegeven moment er iets voor moet neertellen?

G: Ja dat is uiteraard een probleem. Ook best wel lastig om te omzeilen. Alleen ik vind het eigenlijk niet zo’n hele goede vergelijking om te zeggen dat dat opeens zo is. Zekere in vergelijking met 5 jaar geleden, heb je nu gewoon veel meer kranten of nieuwssites die wel een paywall hebben dus daar is het meer geworden maar aan de andere kant we betalen gewoon ontzettend veel geld op abonnementen op kranten of kranten databases en in vergelijking daarmee valt de kosten van zo’n paywall echt in het niet. In die zin vind ik het… ja het is een probleem, een probleem op korte termijn, het is vooral een probleem dat het erg makkelijk is waarom je geld voor... moet hebben voor iets wat je al 50 jaar lang niet koopt en heel lastig waarom je het voor iets nieuws moet hebben. Niemand die vragen erover stelt als je je op een krant abonneert, op papier dan of een database met de inhoud papieren kranten dus in principe als je in plaats daarvan online niewssites, ja…

I: Dus geen bezwaar om de toegang ertoe te krijgen?

G: Nee, niet. Het is een drempel maar het is niet onoverkomelijk.

In document A research into research methods in Digital Humanities and Digital Sociologies: Tool Criticism (pagina 36-42)