Research Data Management in digital humanities: een verkenning van principes in RDM en digital humanities als basis voor een toepassingskader

(1)

Research Data Management in digital humanities

Een verkenning van principes in RDM en digital humanities als basis voor een

toepassingskader

Sylvia Vermeulen

Studentnummer: 5880475 08-07-2018

Masterscriptie Culturele Informatiewetenschap Universiteit van Amsterdam

Scriptiebegeleider: F.J.M. Huysmans Tweede lezer: K. Beelen

(2)

H1 - Inleiding 3 1.1 Data in de geesteswetenschappen en digital humanities 3 1.2 Research Data Management in digital humanities 4

1.3 Opzet van dit onderzoek 5

H2 - Digital Humanities en data 7

2.1 In ontwikkeling: van humanities computing naar digital humanities 7

2.1.1 Humanities computing 7

2.1.2 Digital humanities 9

2.2 Digital humanities omschreven 10

2.3 Wat zijn onderzoeksdata in digital humanities? 15

2.4 Traditioneel of digitaal? 20

H3 - Research Data Management 22

3.1 RDM in wetenschappelijk onderzoek 22

3.1.1 FAIR Data en infrastructuur 26

3.2 Vraagstukken in RDM 31

3.2.1 Infrastructuur 31

3.2.2 Juridisch 32

3.2.3 Financiën 32

3.2.4 Ondersteuning 33

3.3 Tussen theorie en toepassing 33

H4 - Digital humanities data curation 35

4.1 Digital curation in digital humanities 35

4.2 Digital humanities data curation versus RDM 39

H5 - Een kader voor RDM in digital humanities 42

5.1 Data en RDM in sociale wetenschappen 43

5.1.1 Data in sociale wetenschappen 43

5.1.2 Richtlijnen voor RDM toegepast op sociale wetenschappen 44

5.2 Een vergelijking met digital humanities 48

5.3 Een kader voor RDM in digital humanities 51

5.3.1 Prioriteiten voor RDM in digital humanities 52 5.3.2 Toepassing: een RDM-kader voor digital humanities 54

H6 - Conclusie en discussie 60

6.1 Conclusie 60

6.2 Discussie 63

(3)

H1 - Inleiding

Research Data Management (RDM) wordt op veel manieren beschreven, maar universiteiten en onderzoeksinstituten (binnen en buiten Nederland) hanteren grofweg dezelfde definitie: RDM is een term die omvat hoe data die tijdens een onderzoek is gegenereerd of gebruikt, wordt geordend, bewaakt en bewaard. Het doel van RDM is het beschermen, het deelbaar maken en het vindbaar, herbruikbaar en toegankelijk houden van data (Oxford Research Data). Op universiteiten is sinds een aantal jaren de aandacht gericht op Research Data Management, maar een aantal veranderingen op nationaal en internationaal niveau heeft deze aandacht de afgelopen jaren vergroot, waardoor meer behoefte is gekomen aan de benadering van RDM als essentieel onderdeel van wetenschappelijk onderzoek. Naar

Amerikaans en Europees voorbeeld hebben financierende organisaties als de NWO inmiddels het toevoegen van een datamanagementplan verplicht bij het indienen van een onderzoeksvoorstel. Ook Europese beleidsambities als Horizon 2020 en de aandacht voor Open Science hebben een impuls gegeven aan de grotere focus op RDM.

1.1 Data in de geesteswetenschappen en digital humanities

Hoewel meestal niet gesproken wordt van ‘data’ wanneer het gaat om de bronnen die in geesteswetenschappen worden onderzocht, en omdat het woord ‘data’ doorgaans niet wordt gebruikt om de studieobjecten van geesteswetenschappelijk onderzoek te beschrijven, lijkt het erop dat de geesteswetenschappen slechts zijdelings worden betrokken in de vraag naar verantwoording van omgang met en beheer van onderzoeksdata. De objecten die in de geesteswetenschappen worden bestudeerd, zoals handschriften, brieven, kunstobjecten en literaire publicaties zijn van origine veelal analoog. Met de komst van digitale onderzoeksmethoden en door digitalisering en indexering van dergelijke objecten is ook voor de

(4)

van data in de geesteswetenschappen is wordt gegeven door onderzoeker in computational linguistics_{Schöch. Hij definieert data voor deze disciplines als: “a} digital, selectively constructed, machine-actionable abstraction representing some aspects of a given object of humanistic inquiry_{” (“Data in Digital Humanities”). In} deze en andere definities wordt data impliciet gedefinieerd voor de digital

humanities; het relatief nieuwe vakgebied waar door gebruik van gedigitaliseerde objecten en computationele onderzoeksmethoden het gebruik van de term ‘data’ om hier naar te verwijzen inmiddels passend is. Met deze reden richt ik me in dit

onderzoek expliciet op de digital humanities.

1.2 Research Data Management in digital humanities

Voor natuurwetenschappen en sociale wetenschappen kan het inmiddels

vanzelfsprekend genoemd worden om rekening te houden met RDM gedurende alle fases van een onderzoek, getuige de uitgebreide richtlijnen die voor natuur- en sociaalwetenschappelijke disciplines zijn opgesteld. De strenge eisen aan welke data en de analyse van data uit dergelijk onderzoek worden onderworpen dwingen onderzoekers als het ware voorafgaand aan hun project al uitgebreid na te denken over de manier waarop zij garanderen dat hun data voldoen aan de regels die zijn opgesteld door het eigen vakgebied en de financiers van hun onderzoek. Voor onderzoek in de digital humanities lijkt dit echter nog niet, of in ieder geval niet structureel het geval te zijn.

Het karakter van onderzoek in digital humanities verschilt dermate van

bijvoorbeeld natuurwetenschappelijk en sociaalwetenschappelijk onderzoek dat hier voor deze discipline wordt onderzocht welke vorm RDM zou kunnen aannemen, aangezien ook onderzoekers in digital humanities in de toekomst waarschijnlijk vaker zullen moeten voldoen aan eisen die worden gesteld aan beheer en behoud van hun onderzoeksdata.

(5)

1.3 Opzet van dit onderzoek

In dit onderzoek wordt toegewerkt naar het opzetten van een kader voor Research Data Management in de digital humanities middels kennisvergaring over de

onderwerpen die hierboven zijn besproken. Dit beoogde kader beschrijft richtlijnen wat betreft de ondersteuning en uitvoer van research data management in de context van digital humanities, middels het uiteenzetten en inzichtelijk maken van discipline-specifieke uitdagingen rondom het genereren, managen en behouden van data. Om de benodigde kennis te vergaren wordt hiertoe een antwoord gezocht op de volgende vraag:_{Welke rol spelen data in de digital humanities, en op welke} manier is of zou Research Data Management van toepassing kunnen zijn op data die gebruikt en gegenereerd worden in de digital humanities?

Om deze vraag te beantwoorden worden in een viertal hoofdstukken gerelateerde aspecten belicht, ieder naar aanleiding van een bijbehorende

deelvraag. In het tweede hoofdstuk wordt onderzocht hoe de digital humanities als discipline tot stand is gekomen, en wordt antwoord gegeven op de vraag wat het karakter is van data die wordt gegenereerd en bestudeerd in de digital humanities. In hoofdstuk drie komt Research Data Management aan bod: wat is het, wat houdt het in voor de wetenschap en met welke grote vraagstukken moet men rekening houden in RDM? De algemene principes en doelen in RDM worden besproken aan de hand van twee veelgebruikte modellen: de _{data lifecycle van de UK Data Archive, die de} fases van datamanagement in wetenschappelijk onderzoek beschrijft, en de FAIR Data Principles, die zijn opgesteld om helderheid te scheppen in de beschrijving van het doel van datamanagement. In het vierde hoofdstuk wordt _{digital humanities data} curation_{besproken. Dit concept kan mogelijk houvast bieden bij de toepassing van} RDM in de digital humanities, aangezien hierin al gedeeltelijk richting wordt gegeven aan de omgang met data in digital humanities. In hoofdstuk vijf wordt een antwoord gezocht op de vraag hoe een kader voor RDM in de digital humanities vorm zou kunnen krijgen, zodat voor zover mogelijk voldaan wordt aan de kwaliteitsprincipes zoals deze zijn vastgelegd in de FAIR-richtlijn. Er wordt gezocht naar algemene mogelijke toepassingen van RDM op verschillende soorten onderzoek en

(6)

onderzoeksdata in deze discipline, en de vormgeving hiervan in digital humanities. Daartoe wordt in hetzelfde hoofdstuk eerst bekeken hoe RDM in de sociale

wetenschappen vorm krijgt; hier wordt al langere tijd gewerkt met concrete richtlijnen en _{best practices die als voorbeeld kunnen dienen. Daarna zal via een uiteenzetting} van de prioriteiten die mijn inziens gesteld moeten worden bij het zoeken naar een kader voor RDM in digital humanities de sprong worden gemaakt naar de mogelijke invulling van dit kader die zowel past bij onderzoek in digital humanities, als ook voldoet aan eisen in RDM in het algemeen.

In de conclusie worden de belangrijkste bevinden uit ieder hoofdstuk samengevat om overzicht te krijgen van de onderdelen die toegepast kunnen worden om tot een antwoord te komen op de onderzoeksvraag die eerder in deze paragraaf is gesteld.

(7)

H2 - Digital Humanities en data

De toepassing van RDM op een wetenschappelijke discipline wordt geholpen door de afbakening van deze discipline. De manier waarop onderzoek wordt opgebouwd, welke methoden worden toegepast en welke data worden gecreëerd geven richting aan de invulling van een discipline-specifiek RDM-kader. Dit wordt gereflecteerd in bestaande richtlijnen voor onder andere natuurwetenschappen en sociale

wetenschappen. Een gedeeltelijke verklaring voor het gebrek aan concrete kaders voor RDM in digital humanities zou kunnen zijn dat het afbakenen van dit relatief nieuwe vakgebied een ingewikkelde opgave is. In dit hoofdstuk wordt de discussie besproken die met name door geesteswetenschappers en onderzoekers in digital humanities wordt gevoerd over de definitie van digital humanities als

wetenschappelijke discipline. Daarnaast wordt onderzocht wat onderzoeksdata zijn voor geesteswetenschappen en digital humanities; RDM gaat per slot van rekening over behoud en beheer van deze data.

2.1 In ontwikkeling: van humanities computing naar digital humanities

2.1.1 Humanities computing

Andrew Booth, een natuurwetenschapper aan de University of London, was in 1948 de eerste onderzoeker die de toepassing van computers opperde voor gebruik in machine translation. Wetenschappers in machine translation en text analysis klopten regelmatig aan bij Booth vanwege zijn kennis van computertoepassingen in

linguïstiek. Een jaar later, in 1949, begon een Italiaanse priester met het opstellen van een index van alle elf miljoen woorden uit de werken van Thomas Aquinas; de Index Thomisticus_{. De uitdaging in het plan van deze Roberto Busa lag niet zozeer} bij het samenstellen van de omvangrijke lijst, wat op zichzelf al een forse

onderneming was geweest, maar bij zijn voornemen alleen genoegen te nemen met de indexering van lemma’s. Hij zocht ondersteuning bij IBM, dat zorgde voor een team dat software wist te maken die lemma’s genereerde waarmee de index uiteindelijk semi-automatisch kon worden opgesteld. Busa’s inzet wordt doorgaans gezien als een van de vroegste projecten waarin informatietechnologie werd gebruikt

(8)

voor geesteswetenschappelijk onderzoek, in dit geval in _{lexical text analysis, een} toepassing die tot het begin van de 21e eeuw humanities computing werd genoemd (Schreibman et al.; Vanhoutte 123). Hiermee was een periode aangebroken van ontwikkelingen in verwerking en analyse van voornamelijk tekst. Technieken waren beperkt en de enige data waarmee op dat moment werd gewerkt was vaak ofwel tekstueel of numeriek. Bij deze bewering moet wel een kanttekening worden geplaatst, namelijk dat in de gedocumenteerde geschiedenis van humanities computing overwegend is geschreven over vakgebieden die zich voornamelijk

bezighielden met tekst. Daar komt bij dat het ‘verhaal’ van de ontwikkelingen in deze disciplines afkomstig is uit uitsluitend Amerikaanse en Britse bronnen, wat mogelijk een eenzijdig beeld schetst van deze ontwikkelingen (Sula en Hill).

In de beginfase lag de focus voornamelijk op de beperkingen van opslag van data, maar na een wat moeizame start kon men zich vanaf de jaren zeventig gaan bezighouden met andere vraagstukken die relevant waren voor het jonge vakgebied. Door de shift van tape naar schijf-opslag was het bewaren en uitlezen van tekst namelijk aanzienlijk minder bewerkelijk geworden. Tegelijk begon de kennis van gebruik van digitale technieken zich sneller onder geesteswetenschappers te verspreiden. In 1966 was _{Computing and the Humanities opgezet, het eerste} wetenschappelijke tijdschrift gewijd aan het onderwerp, en in combinatie met conferenties die vanaf 1970 elke twee jaar in het Verenigd Koninkrijk werden gehouden zorgde dit voor gestage groei van kennis, bronnen en interesse.

Interesse was echter niet voldoende; wetenschappers moesten in de praktijk kunnen werken met hun nieuw verworven kennis. Gebruik van de personal

computer, die op de markt werd gebracht in 1975, zou pas in zwang raken in de jaren tachtig. Tot die tijd had men via instituties beschikking over mainframe computers middels time-sharing systemen. Door ontwikkeling van kant-en-klare software voor deze systemen waren onderzoekers niet meer genoodzaakt om zelf te programmeren, en kwam er meer ruimte om na te denken over opslag en

beschikbaarstelling van grote hoeveelheden tekst. Tot de jaren zeventig creëerden onderzoekers en bibliotheken hun eigen methode om tekst te beschrijven, maar nu kwam er behoefte aan regulering. Deze regulering zou in de jaren tachtig en

(9)

De komst van de pc met grafische gebruikersinterface in combinatie met tekstanalyse-software maakte dat een onderzoeker zelf effectief aan de slag kon. De versplintering in het veld had er inmiddels voor gezorgd dat er een grote hoeveelheid coderingsschema’s was ontstaan. In 1986 werd daarom een methode ontwikkeld die orde in de chaos moest scheppen: de ISO-standaard SGML (The Standard

Generalized Markup Language). Met deze methode konden markup schema’s ontwikkeld worden die voldeden aan een uniforme set regels. Het eerste grote schema dat voor de humanities voortkwam uit SGML was de TEI (Text Coding Initiative) Guidelines in 1994. Deze standaard omvat ongeveer 500 tags, met als uitgangspunt semantiek in plaats van enkel representatie. De tags beschrijven tekstuele componenten en concepten, gebaseerd op input vanuit

geesteswetenschappelijke disciplines (tei-c.org). Van TEI werd al snel dankbaar gebruik gemaakt door bibliotheken en onderzoekers die zich nog niet eerder hadden verdiept in encoding schema’s.

Met de komst van het internet en met name het world wide web nam

humanities computing in de jaren negentig een vlucht. Het web bood mogelijkheden zoals online publiceren van tekst en structureren middels HTML, toevoegen van andere media zoals audio en samenwerking met andere onderzoekers op grote schaal. Er werden pogingen gedaan om het veld te definiëren en af te bakenen, maar dit bleek lastig doordat veel digitale middelen die de geesteswetenschappen gebruikten, waren ontwikkeld in andere disciplines buiten de geesteswetenschappen om (Svensson).

2.1.2 Digital humanities

Medio jaren 2000 werd de terminologische switch gemaakt van ‘humanities computing’ naar ‘digital humanities’. Deze verandering wordt echter op twee manieren geïnterpreteerd, en deze interpretaties worden in literatuur nogal eens door elkaar gehaald. Enerzijds kan het nieuwe begrip worden gezien als een puur terminologische aanpassing; een aanpassing die nodig was om aan te geven dat humanities computing niet ‘simpelweg’ digitalisering van de geesteswetenschappen inhield (Kirschenbaum 1). Anderzijds kan worden beargumenteerd dat het gebruik

(10)

van de nieuwe term ‘digital humanities’ impliceerde dat er inmiddels een nieuw vakgebied was ontstaan; een vakgebied dat is voortgekomen uit humanities computing, maar er inhoudelijk van afwijkt. Op de vraag die hieruit voortkomt,

namelijk hoe digital humanities gedefinieerd kan worden, wordt later teruggekomen. De nieuwe term is terug te voeren naar de redacteurs van het boek _A

Companion to Digital Humanities_{uit 2004, maar werd pas breder bekend nadat de} Amerikaanse National Endowment for the Humanities het begrip overnam. Een van de initiatiefnemers geeft aan dat deze nieuwe term hem beviel omdat deze meer leek te omvatten dan ‘computing voor humanities’ alleen, en zo meer

geesteswetenschappers zou aanspreken (Kirschenbaum 2).

De draad oppakken in de geschiedenis van humanities computing of digital humanities na de jaren negentig is lastig om twee redenen: door de komst van het internet ontstonden er zo veel vertakkingen dat het veld al niet meer goed af te bakenen was, en daarbij komt dat de brede acceptatie van de term ‘digital humanities’, bedoeld of onbedoeld, een paradigmashift teweeg lijkt te hebben gebracht. Definities die de scope van het veld proberen te duiden verschillen inhoudelijk soms zo sterk dat er van consensus eigenlijk nog niet gesproken kan worden. Doordat digital humanities een relatief nieuw vakgebied is dat nog niet uitgekristalliseerd is, is het een uitdaging om tot een bondige definitie te komen die alle nuances omvat. De volgende paragraaf geeft daarom een overzicht van

veelgebruikte beschrijvingen van het veld.

2.2 Digital humanities omschreven

Het CUNY Digital Humanities Initiative, een platform voor onderzoekers en

studenten in het veld dat door de City University of New York is opgezet, heeft een resource guide_{opgesteld om te informeren over digital humanities in het algemeen.} Hierin wordt het vinden van een definitie een taak op zich genoemd, en de manier waarop het platform hiermee omgaat is inventief: wat volgt is een lijst verwijzingen naar bronnen die een omschrijving geven (Defining the Digital). Een aanpak als deze laat zien dat het veld zo beweeglijk en aan verandering onderhevig is, dat een eigen

(11)

beschrijving zoeken al een te grote opgave kan lijken. Om zicht te krijgen op de grote hoeveelheid definities van digital humanities, volgt hier een kleine opsomming van manieren waarop de term wordt uitgelegd door verschillende platforms,

organisaties en onderzoekers.

Een blik op een aantal webpagina’s van Nederlandse faculteiten

geesteswetenschappen en gelieerde instituten voor humanities research leert dat een concrete definitie niet altijd wordt gegeven, maar deze kan wel gevonden

worden in de manier waarop zij het onderzoek beschrijven dat volgens hen onder de noemer digital humanities valt.

Sinds 2011 is er een samenwerking tussen UvA, VU en KNAW in de vorm van het Centre for Digital Humanities, waar samengewerkt wordt aan de

ontwikkeling van het veld. Er wordt een heel algemene definitie van de digital humanities gegeven:

Within the field of Digital Humanities, researchers and students focus on digital or digitized sources and methods of research. Digital data concerning

language, art, music, literature, and media allow researchers to discover new patterns, concepts and motives, eventually raising new research questions. (Centre for DH)

Het Leiden University Centre for Digital Humanities beschouwt de digital humanities als een paraplu waaronder onderzoekers en studenten computationele methoden gebruiken om cultureel materiaal op een nieuwe manier te benaderen, analyseren, ordenen en presenteren. Daaronder verstaan zij onder andere het digitaliseren van analoge objecten, digitale curatie, tekstanalyse, datavisualisatie, _{storytelling in} nieuwe media en kritische theorie (Universiteit Leiden). De Universiteit Utrecht geeft expliciet een eigen draai aan de discipline en heeft het over digital humanities ‘Utrecht style’. Het Utrecht Digital Humanities Lab probeert naar eigen zeggen onderzoek en ontwikkeling van digitale methoden en technieken voor onderzoek en onderwijs in de geesteswetenschappen verder te helpen, zonder harde grenzen te trekken bij wat ‘humanities’ is. Voor de UU is digital humanities het onderzoeken van

(12)

toepassen van deze technologieën om nieuwe onderzoeksvelden in de

geesteswetenschappen te ontwikkelen, en de focus op ontwikkeling, ontwerp en ondersteuning van de technische infrastructuur voor onderzoek in de

geesteswetenschappen (DH Lab). Deze universiteiten geven hun kijk op de zaken en verbinden hun definitie vooral aan de manier waarop zij onderzoek doen; ze doen geen uitspraak over wat digital humanities in het algemeen betekent, maar refereren aan hun eigen methodes en middelen.

Pogingen om het concept te vangen in een overkoepelende beschrijving voor het hele veld zijn er ook, voornamelijk vanuit individuele onderzoekers in digital humanities. Een bondige samenvatting wordt gegeven door universitair docent Johanna Drucker in een boek van het UCLA Center for Digital Humanities, _{Intro to} Digital Humanities_:

Digital humanities is a field at the intersection of computational technology and traditional humanities disciplines. (...) Digital humanities can be described as a set of conceptual and practical approaches to digital engagement with cultural materials. Repositories and online sites that contain substantial holdings of primary materials exist alongside new tools for the analysis, processing, search, and use of text, audio, video and image files. _{(UCLA Centre for DH)} Een meer abstracte benadering komt van Matthew Kirschenbaum, verbonden aan het Maryland Institute for Technology in the Humanities. Hij zegt dat DH een vorm van wetenschapsbeoefening is die meer zichtbaar is voor het publiek dan men gewend is, met een infrastructuur die ingewikkelder is dan men gewend is, die meer dan eerst afhankelijk is van samenwerking en netwerken (6). Om een concreet beeld te krijgen kijkt hij echter naar de definitie die te vinden is op Wikipedia, die hij een degelijke en inclusieve _{working definition noemt (2). Op de Wikipedia-pagina die hij} in 2010 bezocht was te lezen:

The digital humanities, also known as humanities computing, is a field of study, research, teaching, and invention concerned with the intersection of computing and the disciplines of the humanities. It is methodological by nature and

(13)

interdisciplinary in scope. It involves investigation, analysis, synthesis and presentation of information in electronic form. It studies how these media affect the disciplines in which they are used, and what these disciplines have to contribute to our knowledge of computing. _{(qtd in Kirschenbaum 2)}

Inmiddels zijn we acht jaar verder, wat in lijn met de veelgehoorde bewering dat de DH constant aan verandering onderhevig zijn zou moeten betekenen dat ook de Wikipedia-pagina is aangepast. Een blik op dezelfde (Engelstalige) pagina bevestigt dit:

Digital humanities (DH) is an area of scholarly activity at the intersection of computing or digital technologies and the disciplines of the humanities. It includes the systematic use of digital resources in the humanities, as well as the reflection on their application. DH can be defined as new ways of doing scholarship that involve collaborative, transdisciplinary, and computationally engaged research, teaching and publishing. It brings digital tools and methods to the study of the humanities with the recognition that the printed word is no longer the main medium for knowledge production and distribution.

By producing and using new applications and techniques, DH makes new kinds of teaching and research possible, while at the same time studying and

critiquing how these impact cultural heritage and digital culture. Thus, a

distinctive feature of DH is its cultivation of a two-way relationship between the humanities and the digital: the field both employs technology in the pursuit of humanities research, and subjects technology to humanistic questioning and interrogation, often simultaneously. _{(Digital Humanities Wikipedia)}

Wat is er veranderd? Allereerst is de term ‘humanities computing’ weggehaald; deze term wordt niet meer gebruikt. Daarnaast valt op dat DH breder wordt toegepast dan eerst: nieuwe tools en methoden staan in dienst van de traditionele

(14)

relatie tussen geesteswetenschappen en het digitale; technologie wordt gebruikt, maar de impact ervan wordt ook bestudeerd door geesteswetenschappers.

Een kritisch geluid in de discussie komt van Vanhoutte et al. Zij noemen de introductie van de term ‘digital humanities’ een _{rebranding van humanities}

computing, die voortkwam uit de versplintering van het veld in allerlei specifieke onderwerpen. Deze _{hipster qualification kwam volgens hen goed van pas om de} interesse van een breder publiek te wekken, maar de problemen wat betreft

definiëring die onder de oude term bestonden, bleven gewoon bestaan. Daar komt bij dat het lijkt alsof er een consensus is over de betekenis van de term als

geesteswetenschappelijk onderzoek in het digitale tijdperk, in tegenstelling tot traditioneel geesteswetenschappelijk onderzoek. In tegenstelling tot ‘humanities computing’ refereert ‘digital humanities’ niet aan gespecialiseerde vakgebieden, maar dient het als een paraplu voor een niet-afgebakende groep disciplines; hierdoor ontstaat verwarring over de grenzen van het vakgebied (Vanhoutte 136). Definities verwijzen vaak naar methodologieën in humanities computing, maar komen niet verder dan dat; volgens Rafael Alvarado ligt de oorzaak hiervan bij het zoeken naar een definitie die simpelweg niet bestaat. Hij zegt:

(...) we have a genealogy, a network of family resemblances among provisional schools of thought, methodological interests, and preferred tools, a history of people who have chosen to call themselves digital humanists and who in the process of trying to define the term are creating that definition. _(Alvarado) Vanhoutte et al concluderen:

For the moment, we know that Digital Humanities tries to model the world around us through success and failure in order to arrive at a better

understanding of what we know and don’t know about humankind, their

activities, artefacts, and record. And this can maybe serve as a definition of the field. _{(Vanhoutte 147)}

(15)

Bovenstaande korte verkenning van het veld leert dat niet alleen meningsverschillen bestaan over de juiste definitie, maar ook over de vraag of het zin heeft om te

proberen een definitie te vinden. Dit komt dan weer voort uit de vraag of het gebruik van de term ‘digital humanities’ überhaupt gewenst is. De realiteit is echter dat de term in omloop is en dat deze de methoden en onderzoeksonderwerpen omvat van een groot aantal onderzoekers; of ze het eens zijn over de inhoud en breedte van het veld of niet. Welke tools en data precies gebruikt worden onder de noemer ‘digital humanities’ moet vooral blijken uit de praktijk. In lijn met de scope van dit onderzoek wordt in de volgende paragraaf bekeken wat in de onderzoekspraktijk concreet wordt verstaan onder onderzoeksdata in de digital humanities.

2.3 Wat zijn onderzoeksdata in digital humanities?

Wat onderzoeksdata zijn hangt af van de discipline binnen welke deze data worden gecreëerd of bestudeerd. In sommige beschrijvingen worden data gekarakteriseerd als objecten die zowel analoog als digitaal kunnen zijn, in andere ligt enkel de nadruk op het digitale karakter. In ieder geval geldt dat begrijpelijke informatie bestaat uit goed georganiseerde data, wat inhoudt dat deze zijn geordend op basis van de syntax van een bepaald systeem (Padilla en Higgins 324). Het Research Information Network deelt onderzoeksdata op in een aantal algemene categorieën:

- Observationeel: data die in real-time zijn opgetekend en moeilijk te vervangen zijn.

- Experimenteel: data afkomstig uit een laboratoriumsetting.

- Gesimuleerd: data gegenereerd middels modellen, waarbij deze modellen en bijbehorende metadata belangrijker zijn dan de output.

- Afgeleid of gecompileerd: data die wel te reproduceren zijn, bijvoorbeeld middels text mining en het compileren van databases.

(16)

Een greep uit de voorbeelden van onderzoeksdata die door de _{information services} van de University of Edinburgh worden opgesomd: documenten,

interview-transcripties, audio, afbeeldingen, de inhoud van databases, algoritmes, content van applicaties, methodologieën en procedures (Research Data Definitions).

Het ligt misschien niet voor de hand om onderzoeksobjecten in de geesteswetenschappen data te noemen, maar met de opkomst van digitale onderzoeksmethoden en digitalisering van objecten is de term voor de

geesteswetenschappen relevant geworden. Alleen al het computationele karakter van de nieuwe vorm van onderzoeken maakt dat digitale collecties als data kunnen worden beschouwd (Padilla en Higgins 324). Padilla en Higgins definiëren

geesteswetenschappelijke data vrij abstract als ‘georganiseerde verschillen’ die gepresenteerd worden in een vorm die deze data geschikt maken voor

computationele bewerkingen, in dienst van geesteswetenschappelijk onderzoek (325). De data krijgen vorm in onder andere tekst, beeld en geluid in digitale vorm. Het digitale karakter maakt dat de data op grote schaal kunnen worden bestudeerd, waardoor de digital humanities er bijvoorbeeld visualisatie- of miningtechnieken op kunnen toepassen. Daarnaast kan de hermeneutische methode die de

geesteswetenschappen karakteriseert opnieuw worden toegepast op nieuwe producten die voortkomen uit deze toepassingen, wat een nieuwe laag aan de bestudering van data toevoegt: de bestudering van geïnterpreteerde data. Verder kan metadata worden toegevoegd, een belangrijke bron van informatie voor onderzoek in digital humanities (325-326). Flanders en Muñoz onderscheiden zes typen data die in DH veel gebruikt worden (qtd in Sabharwal 241):

- Wetenschappelijke uitgaven - Tekstcorpora

- Digitale tekst met TEI-XML markup

- Thematische onderzoekscollecties (bestaande uit o.a. XML-data, image files, style sheets)

- Onderzoeksdata (data verrijkt met analyse en annotaties) - Repertoria

(17)

Padilla en Higgins lichten twee veelgebruikte typen data uit om uit te leggen hoe deze in digital humanities onderzoek kunnen worden gebruikt. Tekst is met een inmiddels enorme hoeveelheid gedigitaliseerde corpora de meest gebruikte vorm. Om verder te komen dan interpretatie van tekst op het niveau van voor ons brein behapbare passages, bijvoorbeeld om eigenschappen zoals zinslengte en de relaties tussen woorden te bestuderen, komen computationele methoden en toepassingen op digitale tekst goed van pas. Omdat digitale tekst zo ruim beschikbaar is, kan deze door de beschikbaarheid van een grote hoeveelheid computationele methoden diepgaand en tegelijkertijd op grote schaal worden geïnterpreteerd (326). De mogelijkheden zijn talrijk: teksten kunnen worden

gecategoriseerd op bijvoorbeeld woordfrequentie, waarmee uitspraken over genre en de overeenkomst tussen teksten kunnen worden gedaan; het gebruik van

bepaalde woorden door de tijd heen kan worden geteld; documenten kunnen worden geordend op basis van kenmerken zoals de volgorde van woorden. Toepassingen als deze vullen de capaciteiten van menselijk denken aan (327).

Een voorbeeld op het gebied van _{text analysis is dat van Kernot et al. waarin} een “verkennende combinatorische data-analysetechniek” (_{seriation) die visualisatie} mogelijk maakt, en een _{text analysis-benadering (genaamd RPAS, met als}

elementen _{richness, personal pronouns, referential activity power en sensory} adjectives_{) worden gebruikt om 154 sonnetten van Shakespeare te visualiseren en} om te onderzoeken of het mogelijk is om subtiele karaktertrekken van de schrijver te herkennen in kleine stukken tekst van welke de schrijver bekend is. In dit onderzoek wordt beoogd erachter te komen of het mogelijk is om stemming en identiteit van de auteur van een stuk tekst (bijvoorbeeld een anonieme auteur op sociale media) te herkennen door gebruik te maken van technieken op het niveau van

woordsemantiek in plaats van technieken gebaseerd op bijvoorbeeld statistische correlatie en het tellen van woorden (Kernot et al. 255-260).

Een andere manier waarop tekst gebruikt kan worden in digital humanities onderzoek wordt genoemd door Sabharwal: historici kunnen door textuele data te visualiseren in kaarten en tijdlijnen relaties ontdekken tussen gebeurtenissen, mensen en organisaties wat betreft ruimtelijke nabijheid en nabijheid in tijd die

(18)

mogelijk niet eerder konden worden ontdekt door de grootschaligheid van dergelijk onderzoek (21).

De tweede genoemde vorm is beeld; een type dat in bestudering ervan op een bepaalde manier meer complexiteit met zich meebrengt dan tekst. Het

interpreteren van beelden kost volgens Schier voor het menselijk oog relatief weinig moeite omdat, ook als er een interpretatieslag moet worden geslagen, deze meer als ‘natuurlijk’ wordt ervaren dan de interpretatie van tekst (qtd in Padilla en Higgins 327). Juist dit maakt het bestudering van betekenis van beelden met digitale middelen moeilijk. Daarom worden beelden door digital humanities onderzoekers onderzocht op een ander niveau, dat niet zozeer een nieuwe laag betekenis toekent, maar eerder een ander kenmerk uitlicht. Dit kenmerk is de pixelmatrix van een afbeelding, die technisch benaderd een nieuwe invalshoek geeft. Op het pixelniveau heeft een afbeelding de vorm van data, waardoor deze meer wordt dan alleen een representatie. Meer concreet betekent dit bijvoorbeeld dat het kleurpalet van een film kan worden bestudeerd (Padilla en Higgins 327-329). _{The Colors of Motion is een} project dat elk frame van een film samenvat in de gemiddelde kleur van het frame, waardoor een tijdlijn in kleur ontstaat die de film representeert

(thecolorsofmotion.com).

Een andere toepassing is het bestuderen van afbeeldingen in bulk, door deze te benaderen als big data. Duizenden foto’s kunnen met behulp van een algoritme onderzocht worden op bijvoorbeeld de aanwezigheid van een kat, of op basis van honderdduizenden selfies kunnen patronen worden ontdekt in de manier waarop mensen in een bepaalde stad het liefst poseren (bbc.com; selfiecity.net). Daarnaast vervaagt de lijn tussen technische en beschrijvende metadata; in het

selfiecity_{-project werden metadata bij afbeeldingen gevoegd die de emotionele} toestand van de personen op de selfies beschrijven, wat betekent dat metadata in dit geval uit een object zelf werden geëxtraheerd (Padilla en Higgins 329).

Hierboven werd terloops big data genoemd, een concept dat aandacht verdient in de beschrijving van data in digital humanities. Kaplan noemt een nieuwe structurering in digital humanities data, waarbij _{small humanities data tegenover big} humanities data_{wordt gezet. Small data digital humanities focust zich volgens deze} structurering op een meer afgebakend gebied en houdt zich bezig met datasets die

(19)

geen _{massive data-verwerkingsmethoden behoeven. Small data digital humanities is} niet alleen kleiner in schaal dan de big data-variant, maar heeft ook duidelijke

grenzen. Maar wanneer kunnen data worden beschreven als ‘big’? Enerzijds

refereert big data aan data die zo grootschalig is dat handmatige analyse niet meer haalbaar is; anderzijds slaat het op de sterke relationele component van deze data. Big data is genetwerkt, en de problemen die dit met zich meebrengt hebben te maken met het gelinkte karakter van deze data. Kaplan plaatst digital humanities big data research in drie in elkaar passende cirkels die ieder een level voorstellen; deze representeren van binnen naar buiten: 1) onderzoek gericht op het verwerken en interpreteren van grote, genetwerkte culturele datasets, 2) onderzoek gericht op de relaties tussen entiteiten op het gebied van digitale cultuur en 3) onderzoek naar de menselijke ervaring van big data. Hier is de eerste cirkel het meest relevant. Deze gaat over het bestuderen van digitale objecten zoals de boeken die Google scant, foto’s en berichten die gedeeld worden op allerhande social media,

informatiesystemen als Google Earth en netwerken van wetenschappelijke papers die naar elkaar verwijzen. Veel problemen op het gebied van deze grote

hoeveelheden data kunnen volgens Kaplan worden gestructureerd door gebruik van de _{data processing pipeline. De stappen in deze pipeline zijn digitalisering,}

transcriptie, patroonherkenning, simulatie en _{inferences, preservatie en curatie.} Deze stappen brengen vragen met zich mee van zowel technische als

epistemologische aard. Een voorbeeld dat wordt gegeven is de verwerking en het bestuderen van grote corpora boeken. Deze worden omgezet naar afbeeldingen (digitalisering), naar tekst veranderd (transcriptie en OCR), waarin patronen kunnen worden ontdekt of afgeleid (patroonherkenning en simulatie), en tegelijk moeten deze boeken en afgeleide data worden bewaard voor vervolgonderzoek (behoud) (Kaplan).

Bovengenoemde digitale objecten zoals boeken en foto’s zijn _{born digital of} gedigitaliseerd, en ze hebben gemeen dat ze, wanneer ze worden samengevoegd in een set, te groot zijn om zonder gebruik van computationele methoden te worden geanalyseerd. Daar komt bij dat de grenzen van datasets onduidelijk zijn door deels onbekende inhoud en continue groei. Volgens Kaplan zijn deze eigenschappen die

(20)

deze vorm van data zo anders maken dan traditionele humanities data, ondanks de vele gelijkenissen.

2.4 Traditioneel of digitaal?

Dit brengt ons bij de vraag waar de grens ligt tussen objecten die traditioneel door geesteswetenschappers onderzocht worden enerzijds en data behorend tot de digital humanities anderzijds. Is die grens er überhaupt? Het digitale aspect van onderzochte objecten wil niet direct zeggen dat er gesproken kan worden van onderzoek in digital humanities wanneer deze objecten worden onderzocht.

Unsworth vraagt zich af: ‘_{does the use of a computer in humanities research make} digital humanities research?_{’ (qtd in Kaplan). Maar deze stellingen gaan eerder over} methode dan over data. Volgens Kaplan heeft het zoals hiervoor aangegeven te maken met de omvang van digitale datasets die bestudeerd worden; de grenzen van deze grote hoeveelheden data zijn _{fuzzy en corpora blijven vaak gestaag groeien.}

Miriam Posner wijst in haar blog op de afwezigheid van data in de

belevingswereld van geesteswetenschappers, voortkomend uit de afwijkende manier waarop zij omgaan met onderzoeksmateriaal, vergeleken met

natuurwetenschappers en sociaal wetenschappers. Daarbij staat in haar beleving menig geesteswetenschapper onwelwillend tegenover het idee om

geesteswetenschappelijk materiaal ‘data’ te noemen; het gevoel overheerst dat dit zou dwingen tot de reductie van rijke en persoonsafhankelijke interpretaties tot kwantificeerbare eenheden. Reproduceerbaarheid van resultaten is in deze

‘traditionele’ kijk minder relevant, omdat de onderzoeker onlosmakelijk verbonden is met zijn of haar resultaten en vice versa. Maar omdat zoveel materialen inmiddels in gedigitaliseerde vorm op pc’s en servers zijn opgeslagen wordt het volgens Posner ook voor de geesteswetenschapper onvermijdelijk zich bezig te houden met data en computationele methoden. Ze concludeert dat de manier waarop omgegaan wordt met digitaal materiaal ronduit chaotisch is door gebrek aan kennis van

(21)

zijn of haar objecten misschien geen data noemt, er wel degelijk behoefte is aan hulp bij datamanagement.

Om terug te komen op de vraag waar de grens ligt tussen traditionele en digital humanities data: een antwoord hierop is zo lastig te geven juist omdat het meeste materiaal waarmee gewerkt wordt in digitale vorm beschikbaar is.

Teruggrijpend naar Kaplan is het wellicht het beste om alle digitaal beschikbare humanities data te zien als zowel traditioneel als behorend tot digital humanities. Welke vorm deze data aannemen hangt dan af van het type onderzoek waarin deze worden gebruikt.

Het afbakenen van digital humanities als discipline is geen sinecure; consensus over de definiëring lijkt voorlopig niet in zicht te zijn, al was het maar omdat, zoals eerder gezegd, sommige stemmen in deze discussie überhaupt de zin van het benaderen van digital humanities als aparte discipline betwijfelen. Daar komt bij dat ook ‘data’ in digital humanities een ruim begrip is. Omdat dit het zoeken naar een uniforme

benadering van RDM in digital humanities bemoeilijkt, kan het helpen gericht te zoeken naar elementen uit bestaande kaders voor RDM die van toepassing kunnen zijn. Deze zullen in het volgende hoofdstuk worden besproken.

(22)

H3 - Research Data Management

Hoe kan een omvattend RDM-kader geschetst worden voor een discipline die onderhevig is aan discussies over vorm en inhoud? Met het oog op de flexibiliteit waarmee deze discipline idealiter wordt benaderd, wordt in dit hoofdstuk onderzocht wat RDM precies inhoudt en welke algemene richtlijnen er al bestaan voor RDM in de wetenschap. Daarnaast wordt bekeken wat het doel van RDM is en ga ik voor de volledigheid kort in op een aantal praktische vraagstukken. Later in dit onderzoek wordt bekeken aan welke principes in elke discipline (en dus ook in digital

humanities) minstens voldaan moet worden om te kunnen spreken van degelijke RDM. Daarnaast wordt onderzocht welke algemene principes zouden kunnen worden toegepast om een uniforme benadering van RDM in deze discipline te bewerkstelligen, en hoe deze eventueel kunnen worden aangepast voor digital humanities.

3.1 RDM in wetenschappelijk onderzoek

In de laatste jaren is de druk op onderzoekers opgevoerd om al voor de start van hun onderzoek rekening te houden met de vindbaarheid, toegankelijkheid en

helderheid van hun data. Redenen hiervoor zijn de steeds grotere rol die data spelen naast publicaties en het vervagen van grenzen tussen publicaties en data (Surkis en Read 154). De Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) voerde in 2016 beleid voor datamanagement door, wat inhoudt dat sinds 1 oktober van dat jaar in alle _{calls for proposals het nieuwe datamanagementprotocol moet} worden opgenomen. Voor de NWO betekent dit dat in onderzoeksvoorstellen een datamanagementparagraaf wordt opgenomen, die na toekenning wordt aangevuld met een datamanagementplan dat moet worden goedgekeurd. Deze eis is

toegevoegd om onderzoekers bewust te maken van het belang van RDM: ‘_De onderzoeker wordt gevraagd reeds voor aanvang van het onderzoek na te denken over de vraag hoe de verzamelde data geordend en gecategoriseerd moeten worden zodat het beschikbaar stellen daarvan voor hergebruik mogelijk wordt.

(23)

Veelal betekent dit ook dat reeds bij het tot stand komen van de data en de analyse daarvan maatregelen getroffen moeten worden die de opslag en het delen later mogelijk maken.’ (Datamanagementprotocol NWO)

Om te begrijpen wat Research Data Management (RDM) inhoudt en wat het omvat, wordt vaak verwezen naar de _{data lifecycle, een cyclus bestaande uit zes} stappen die de ‘levensloop’ van data beschrijft. Hieronder volgt een opsomming van deze stappen zoals opgesteld door de UK Data Archive, aangevuld met de

inhoudelijke elementen zoals deze in dit model zijn opgesomd (ukdataservice.ac.uk):

1. Creating data

● Ontwerpen van het onderzoek ● Een datamanagementplan

maken

● Toestemming voor het delen van data regelen

● Bestaande data vinden ● Data verzamelen (middels

experiment, observatie, simulatie etc.)

● Metadata creëren

2. Processing data

● Data invoeren, digitaliseren, transcriberen, vertalen

● Data valideren en opschonen ● Data anonimiseren

● Data beschrijven

● Data geanonimiseerd opslaan

3. Analysing data ● data interpreteren ● data afleiden ● onderzoeksresultaten produceren ● publicaties schrijven

● data voorbereiden voor opslag

4. Preserving data

● migreren naar het juiste format ● migreren naar het juiste medium ● data opslaan en back-up maken ● metadata en documentatie

opstellen

(24)

5. Giving access to data

● data distribueren ● data delen

● toegang beheren ● copyright vaststellen

● data zichtbaar maken / promoten

6. Re-using data

● vervolgonderzoek doen ● gebruik in nieuw onderzoek ● onderzoek beoordelen ● bevindingen onderzoeken ● gebruik voor educatie

Als deze _{lifecycle wordt gevolgd bij de omgang met data in onderzoek, worden er} stappen gezet in alle fasen: voor, tijdens en na het onderzoek. Grofweg is er dan deze indeling te maken: voor het onderzoek staat _{creating data centraal, tijdens het} onderzoek worden stappen genomen op het gebied van _{processing en analysing} data_{, na het onderzoek gaat het om preserving, giving access to en re-using data.} Dit betekent dat de onderzoeker zich altijd bewust moet zijn van de eisen waaraan data aan het einde van het onderzoek moeten voldoen om deze vindbaar en eventueel herbruikbaar of reproduceerbaar te maken.

Het bovenstaande beschrijft inhoudelijk welke stappen kunnen worden genomen bij het _{managen van onderzoeksdata, maar wat betekent RDM precies?} Deze vraag kan in twee delen worden opgesplitst: wat _{is RDM, en wat is het doel} van RDM? Samengevat is Research Data Management een term die omvat hoe data in het gehele onderzoeksproces wordt georganiseerd, gestructureerd,

opgeslagen en behandeld; voor, tijdens en na het onderzoek. Ook het doel van RDM is meerledig: het voorkomt verlies van data, verbetert het onderzoeksproces en maakt data beschikbaar voor derden; het draagt bij aan de deelbaarheid van onderzoeksdata (“What is RDM)”. Vooral op dit laatste doel ligt vaak de nadruk wanneer de onderzoeker wordt aangemoedigd zorgvuldig om te gaan met zijn of haar data.

In onderzoek kunnen door informatisering steeds grotere hoeveelheden data worden gebruikt, waardoor het lastiger is om overzicht te bewaren. Het stellen van eisen aan de manier waarop wordt omgegaan met deze onderzoeksdata ligt in lijn met groeiende aandacht voor RDM op internationaal niveau. Een grote bewegende

(25)

kracht achter deze ontwikkeling is Europees beleid in open science, waar open data en open access onder vallen. Met Horizon 2020, een programma van de Europese Commissie dat onderzoek en innovatie ondersteunt, is openheid in wetenschap sinds 2014 een speerpunt geworden op de Europese agenda. In navolging hierop is ook op nationaal niveau aandacht gevestigd op open science, met als gevolg

ontwikkeling van beleid dat inmiddels tot de meeste universiteiten en

onderzoeksinstituten is doorgedrongen. De link tussen open science en RDM is snel gelegd; om openheid in wetenschap te bewerkstelligen moeten de gebruikte data en resultaten van onderzoek in theorie beschikbaar zijn voor iedereen. Zonder

afspraken over onderzoeksdata en bijbehorende standaarden is het onmogelijk om tot een open systeem te komen. Research Data Management is niet nieuw, maar door de opkomst van open data is er nu als het ware een ‘ideaal’ ontstaan waaraan moet worden voldaan om mee te kunnen met de eisen en ontwikkelingen op dit vlak. Dit ideaal wordt gereflecteerd in beleidsplannen van zowel de EC, nationale

overheden en universiteiten. Dat geldt voor onderzoekers en academici, maar ook voor ondersteunende beroepen zoals bibliothecarissen en beleidsmakers op universiteiten, ict-ers, diensten die data-opslag en het delen van data faciliteren, alsmede de data en bijbehorende infrastructuur zelf (“Roles and Responsibilities”).

Bij de onderzoeker ligt de verantwoordelijkheid om zich in elke stap van het onderzoek bewust te zijn van de manier waarop met data omgegaan dient te worden. Concreet betekent dit dat hij of zij zich houdt aan de vereisten en

procedures op het gebied van datamanagement zoals deze zijn bepaald vanuit de universiteit, archief of repository waar data wordt opgeslagen en/of de financierende partij. Voor ondersteuners geldt dat zij een brug slaan tussen de competenties en kennis van de onderzoekers en de vereisten vanuit universiteit en financiers. Van deze groep wordt veel gevraagd, aangezien zij op zijn minst enige (maar liefst diepgaande) kennis hebben van een groot aantal zaken zoals de structuur van de organisatie, de issues die academici bezighouden, procedures en beleid,

datamanagement, ict, enzovoort (Brown et al. 11). De beleidsmaker moet een vertaalslag maken van nationaal of Europees beleid naar praktisch toepasbaar beleid. De ict-er en de dienst die opslag faciliteert hebben de verantwoordelijkheid

(26)

garanderen. Samen zorgt iedereen ervoor dat uiteindelijk dat waar het om draait - de onderzoeksdata - voldoet aan de vereisten die openheid in de wetenschap

promoten. Maar waaraan moeten onderzoeksdata en bijbehorende infrastructuren in het algemeen voldoen en welke principes zitten hierachter? Om deze vraag te

beantwoorden onderzoek ik het inmiddels veelgebruikte FAIR data-model.

3.1.1 FAIR Data en infrastructuur

In 2016 werden de FAIR Data Principles gepubliceerd om helderheid te brengen rond de ‘doelen en desiderata’ van goed datamanagement; tot dat moment was het vooral aan de eigenaar van data om te beslissen wat dat inhoudt. De auteurs noemen een van de grote uitdagingen van data-intensieve wetenschap het

faciliteren van kennisvergaring middels het assisteren van mens en machine bij het ontdekken, de integratie en analyse van wetenschappelijke data en de toegang ertoe (Wilkinson et al. 1). Ze wijzen op de mismatch tussen enerzijds de onderzoeker en computer die op zoek zijn naar data, en de vaak moeilijk, zo niet onmogelijk vindbare locatie en bewerkingsmogelijkheden van deze data. Samen vormen de _principles een richtlijn om de _{findability (vindbaarheid), accessibility (toegankelijkheid),} interoperability_{(interoperabiliteit) en re-usability (herbruikbaarheid) van data te} ondersteunen (Wilkinson et al. 1). Deze regels, zo wordt benadrukt, gelden niet alleen voor onderzoeksdata, maar ook voor de middelen die gebruikt worden om data te genereren en analyseren; alle onderdelen van het onderzoek moeten beschikbaar zijn en blijven om transparantie, reproduceerbaarheid en

herbruikbaarheid te garanderen.

Voor elk van de vier FAIR-pijlers geldt dat data aan een aantal voorwaarden moeten voldoen om het stempel _{findable, accessible, interoperable of re-usable te} krijgen. Hieronder volgt de opsomming van deze voorwaarden (zoals voorgesteld door Wilkinson et al.):

To be Findable:

F1. (meta)data are assigned a globally unique and persistent identifier F2. data are described with rich metadata (defined by R1 below)

(27)

F3. metadata clearly and explicitly include the identifier of the data it describes F4. (meta)data are registered or indexed in a searchable resource

To be Accessible:

A1. (meta)data are retrievable by their identifier using a standardized communications protocol

A1.1 the protocol is open, free, and universally implementable

A1.2 the protocol allows for an authentication and authorization procedure, where necessary

A2. metadata are accessible, even when the data are no longer available

To be Interoperable:

I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation.

I2. (meta)data use vocabularies that follow FAIR principles I3. (meta)data include qualified references to other (meta)data

To be Reusable:

R1. (meta)data are richly described with a plurality of accurate and relevant attributes

R1.1. (meta)data are released with a clear and accessible data usage license R1.2. (meta)data are associated with detailed provenance

R1.3. (meta)data meet domain-relevant community standards

In bovenstaand schema is te zien waar voor elk van de vier concepten het zwaartepunt ligt. Wat per punt van deze opsomming precies bedoeld wordt kan aan de hand van bijbehorend principe nader worden onderzocht (FAIR Principles):

Findability_{(vindbaarheid):}

F1. (meta)data hebben een unieke persistent identifier (PI). Dit betekent dat zowel data als metadata een verwijzing hebben die gegarandeerd uniek is en idealiter altijd

(28)

blijft werken, waardoor een object altijd kan worden teruggevonden, ongeacht de locatie. Een voorbeeld hiervan is de DOI (Digital Object Identifier), een PI die in de wetenschap veel wordt gebruikt.

F2. Data worden beschreven met rijke metadata. Dit houdt in dat metadata uitputtend is en beschrijvende informatie bevat over de context, kwaliteit, staat of kenmerken van de data. Rijke metadata beschrijft data op een niveau dat ervoor zorgt dat informatie gevonden kan worden zonder identifier.

F3. Metadata bevat de identifier van de data die het beschrijft. Dit lijkt een open deur maar is het niet; de metadata en data die het beschrijft staan bijna altijd in

verschillende documenten. Daarom moet goed gelet worden op de aanwezigheid van de data-identifier.

F4. (meta)data zijn geïndexeerd in een doorzoekbare bron. Het indexeren van een object is van belang om door crawlers te worden opgepikt.

Accessibility_{(toegankelijkheid):}

A1. Retrieval van (meta)data gaat via een standaard communicatieprotocol: een protocol dat voorschrijft op welke manier data tussen nodes in een

communicatiesysteem worden overgedragen. In de praktijk wordt veel

gebruikgemaakt van http (hypertext transfer protocol) en ftp (file transfer protocol). A1.1 Het protocol dat wordt gebruikt is open, kosteloos en kan universeel worden geïmplementeerd. Iedereen met toegang tot een internetverbinding kan op zijn minst de metadata bereiken.

A1.2 In het protocol ligt de mogelijkheid besloten om authenticatie of autorisatie toe te passen. De ‘a’ in FAIR wil niet zeggen dat alle data open en gratis moeten zijn; accessibility_{houdt in dat het duidelijk is onder welke voorwaarden data toegankelijk} zijn.

A2. Metadata moeten altijd toegankelijk blijven; ook wanneer bijbehorende data niet meer beschikbaar zijn. Het is kostbaar om datasets te behouden, en vaak

verdwijnen links naar deze data na verloop van tijd. Metadata is waardevol omdat deze informatie bevatten over bijvoorbeeld publicaties gerelateerd aan datasets die nuttig kunnen zijn.

(29)

Interoperability_{(interoperabiliteit):}

I1. Kennis wordt in (meta)data overgedragen in formele, toegankelijke, gedeelde en universele taal. Vooral voor machines moeten data te lezen zijn zonder speciale algoritmes te hoeven gebruiken; elk systeem moet kennis hebben van _data exchange formats_{van andere systemen. Om te zorgen dat datasets automatisch} vindbaar en interoperabel zijn, zijn zowel gecontroleerde vocabulaires als degelijke datamodellen nodig. Een gecontroleerde vocabulaire is een (domeinspecifieke) georganiseerde verzameling woorden en frases die wordt gebruikt om content te kunnen ophalen (Harpring 12). Een datamodel is een framework waarin (meta)data is beschreven en gestructureerd.

I2. (meta)data gebruiken vocabulaires die FAIR zijn: gecontroleerde vocabulaires zijn goed gedocumenteerd en hebben unieke PI’s.

I3. (meta)data refereren naar andere (meta)data: een _{qualified reference is een} cross-reference_{die een doel beschrijft. Dergelijke referenties leggen betekenisvolle} links tussen bronnen om contextuele informatie te verrijken. In een _qualified

reference_{kun je bijvoorbeeld aangeven of een dataset voortborduurt op een andere} dataset, of andere datasets nodig zijn om een dataset te complementeren, etc. de wetenschappelijke link tussen sets moet beschreven zijn en alle datasets moeten geciteerd zijn (inclusief unieke PI’s).

Re-usability_{(herbruikbaarheid):}

R1. beschrijvingen van (meta)data bevatten relevante eigenschappen. Data verrijkt met een veelvoud aan labels is makkelijker te vinden. Voorwaarde R1 gaat over de vraag of een gebruiker kan bepalen of data bruikbaar is in een bepaalde context. Daartoe moet zijn beschreven onder welke omstandigheden data zijn gegenereerd (welke machine is gebruikt, in welke setting, etc.). Degene die de data publiceert kan geen aannames doen over dat wat een beoogde gebruiker wil weten. Daarom moet metadata zo rijk mogelijk zijn.

R1.1 (meta)data worden vrijgegeven onder een heldere en toegankelijke

gebruikslicentie. Hierin is beschreven welke voorwaarden gelden voor het gebruik van data. Deze licenties moeten zowel _{machine- als human-readable zijn.}

(30)

R1.2 (meta)data bevat gedetailleerde informatie over herkomst om deze deelbaar en citeerbaar te maken.

R1.3 (meta)data voldoen aan domein-specifieke standaarden. Vergelijkbare datasets zijn makkelijker deelbaar en herbruikbaar, en standaarden kunnen helpen

uniformiteit aan te brengen binnen een domein. Veel domeinen hebben (soms minimale) informatiestandaarden die het best gevolgd kunnen worden, tenzij er een goede reden is om ervan af te wijken.

Het bovenstaande lijkt voornamelijk te gaan over de voorwaarden waaraan data moeten voldoen, maar ook de infrastructuur wordt onder de loep genomen. Impliciet zijn de FAIR-principles gelinkt aan deze infrastructuur, die onderdeel is van wat Wilkinson et al. het digitale ecosysteem noemen. De auteurs wijzen op een splitsing in de manier waarop data worden opgeslagen en beschikbaar gemaakt. Er zijn sterk geprofessionaliseerde, gespecialiseerde, vakgerelateerde repositories die geschikt zijn gemaakt voor zeer specifieke datasets, maar waarin geen ruimte meer is voor data die uit bijvoorbeeld meer traditionele methoden zijn voortgekomen, terwijl deze waarschijnlijk net zo veel waarde hebben. Het is mogelijk dat in reactie op deze ontwikkeling algemene repositories zijn opgezet die juist zo’n ruim beleid voeren wat betreft toegestane formats en datatypes, dat het vrijwel onmogelijk is om hierin eenduidige structuur aan te brengen. Het gevolg hiervan is dat zowel voor mens als computer het probleem van vindbaarheid en herbruikbaarheid van data groter wordt uitvergroot.

Collins et al. geven een opsomming van algemene eisen waaraan volgens hen een datamanagementinfrastructuur voor de gebruiker zou moeten voldoen. Zij geven hierbij wel aan dat in deze opsomming de meest basale eisen zijn

opgenomen die nodig zijn om een infrastructuur te laten functioneren (1): - Een gecentraliseerde opslag van onderzoeksdata, met backups. - Toegang tot beveiligde data voor vooraf vastgelegde groepen.

- Het organiseren van data op zo’n manier dat _{redundancy wordt voorkomen.} - Gestructureerde annotatie van onderzoeksdata om context te geven aan

data.

(31)

- Eenvoudig in de omgang; er is geen vergaande training nodig om gebruik mogelijk te maken.

De ideale infrastructuur zou, als het FAIR-principe wordt gevolgd, een omgeving moeten bieden die FAIR data faciliteert. In de praktijk betekent dit dat zowel eigenaren van data als degenen die deze publiceren en beheren alsnog zelf moeten nagaan of hun data, tools en repositories voldoen aan de FAIR-principes. Het grote verschil met de eerdere situatie is echter dat zij nu een kader hebben waaraan de kwaliteit van hun datamanagement kan worden getoetst, waar zij eerst zelf moesten nagaan wat kwaliteit in datamanagement eigenlijk betekent.

3.2 Vraagstukken in RDM

Conceptuele kaders als de _{research data lifecycle en de FAIR data principles bieden} de wetenschap richtlijnen voor de omgang met en beheer van data. Deze kaders zijn nodig om complexe vraagstukken over data en datamanagement te kunnen

beantwoorden. De rechtlijnigheid die zij uitstralen kan echter niet gezien worden als een reflectie van de realiteit in datamanagement; zoals in deze richtlijnen wordt besproken is datamanagement _{messy, en is het vooral zaak om ze te volgen waar} mogelijk. Het voldoen aan vereisten in RDM brengt praktische en theoretische problemen met zich mee op meer niveaus dan dat van de onderzoeker. Het

Nederlandse LCRDM (Landelijk Coördinatiepunt Research Data Management) heeft om vraagstukken op het gebied van RDM in wetenschappelijk onderzoek landelijk op te lossen werkgroepen opgezet die de complexe aspecten van RDM behandelen (lcdrm - werkgroepen). De belangrijkste hete hangijzers in RDM zal ik onder andere aan de hand van thema’s van deze werkgroepen bespreken, aangevuld met

gerelateerde problematiek die elders in bronnen en literatuur wordt beschreven.

3.2.1 Infrastructuur

Faciliteiten die gericht zijn op onder andere (korte of lange termijn-)opslag en het beschikbaar maken van data vormen samen de infrastructuur die nodig is voor RDM.

(32)

worden veel diensten en tools aangeboden voor het managen van data. Om tot een infrastructuur te komen die FAIR data ondersteunt moet in kaart gebracht worden welke diensten er zijn en voor wie ze bruikbaar zijn. Daarna kan worden getoetst of deze ondersteuning bieden bij onderzoek of datamanagement in een of meer fasen van de research data lifecycle (lcdrm - faciliteiten). Een moeilijkheid die komt kijken bij het opzetten van een uniforme infrastructuur is dat deze geschikt moet zijn voor gebruikers met uiteenlopende belangen, en voor een waaier aan datatypen.

3.2.2 Juridisch

Wat betreft de juridische aspecten van RDM springt een aantal zaken in het oog. Ten eerste is het belangrijk dat elke universiteit en ondersteunende instelling

juridische kennis in huis heeft om te voldoen aan strenge eisen die op hoger niveau worden vastgelegd; zo staat het niet in de weg van het doen van onderzoek.

Daarnaast moeten afspraken worden gemaakt over zeggenschap: wie bezit data? Het gebruik van auteursrechtelijk beschermd werk (met een looptijd van tenminste zeventig jaar) kan problematisch zijn. De mogelijkheid tot digitalisering en

beschikbaarstelling van dergelijk werk is afhankelijk van toestemming van rechthebbenden (Auteursrechtwijzer). Daar komt bij dat auteursrechtelijk

beschermde data weliswaar na toestemming kan worden gebruikt in onderzoek, maar het open access publiceren van resultaten wordt vervolgens weer onmogelijk gemaakt (Wijfjes 18). Het meest besproken onderwerp is hier echter het

privacyvraagstuk (lcdrm - juridisch). Privacygevoelige data dienen beschermd te worden, ook al strookt dit niet altijd met de ambities rond open data. Het devies is vanuit de Europese Commissie dus ook: ‘_{as open as possible, as closed as} necessary_{’, als het aankomt op de beschikbaarstelling van data (Horizon 2020).}

3.2.3 Financiën

Financiering van onderzoek loopt zo lang het onderzoek duurt, maar ook aan het hergebruik en de opslag van data zijn (soms hoge) kosten verbonden. Vooraf wordt echter meestal bepaald welk budget wordt toegekend voor onderzoek, de fase na het onderzoek niet meegerekend (NWO 13). Langdurig opslaan van data is

bijzonder kostbaar. Daarom wordt nu vaak besloten een termijn van 10 jaar aan te houden. Een andere kwestie is de verdeling van middelen. Een voorbeeld hiervan is

(33)

de verdeling van kostbare opslagruimte per onderzoeker binnen de universiteit. Niet elke onderzoeker heeft evenveel ruimte nodig, afhankelijk van de discipline waartoe zij/hij behoort. Vaak kan extra ruimte worden aangevraagd die een onderzoeker of onderzoeksgroep dan zelf dient te betalen. Een andere oplossing zou kunnen zijn om ruimte bij voorbaat anders te verdelen, of dat overgebleven ruimte van het ene naar het andere project wordt verschoven (Brown et al 14).

3.2.4 Ondersteuning

Om te zorgen dat alle spelers in het wetenschappelijke veld meegaan met

ontwikkelingen in RDM moeten ondersteuning, training en advies worden geboden aan eenieder die het nodig heeft. Tegelijk moet de weg naar deze ondersteuning goed te vinden zijn. Daarom speelt bewustwording ook een rol. Veel universiteiten geven trainingen die hun onderzoekers op de hoogte moeten brengen van RDM. Vaak is het aan de bibliotheek of een speciaal ingerichte _{research data office om} dergelijke trainingen te geven.

3.3 Tussen theorie en toepassing

Het voldoen aan de idealen en richtlijnen die in dit hoofdstuk zijn opgesomd heeft veel voeten in de aarde voor de verschillende partijen die zich bezighouden met wetenschappelijk onderzoek en datamanagement, van de onderzoeker of

onderzoeksgroep tot ondersteuners, beleidsmakers op universiteiten en beheerders van externe repositories. Toch is ook het ideaal telkens aan verandering onderhevig, wat betekent dat op elk niveau door deze betrokkenen moet worden bepaald wat de beste invulling is van RDM in een bepaalde situatie of voor een bepaald vakgebied; niet alleen gebaseerd op deze richtlijnen maar ook los daarvan. Desalniettemin helpen algemene richtlijnen bij het stellen van prioriteiten en bieden deze een basis voor het opstellen van concrete eisen op het gebied van een complex onderwerp als RDM. De complexiteit wordt al voor een deel weggenomen door zowel de _data lifecycle_{als de FAIR-principes omdat deze op twee manieren houvast geven. De} data lifecycle_{kan het proces van datamanagement in goede banen kan leiden}

(34)

onderzoek doorloopt, ongeacht de discipline waartoe het behoort. Voor de FAIR-principes komt het er op neer dat er waar mogelijk wordt voldaan aan elke (sub)doelstelling om data vindbaar, toegankelijk, interoperabel en herbruikbaar te maken. Ook dit geldt voor onderzoek in elke richting, maar zoals hierboven gezegd zal de concrete invulling per discipline afwijken van het model.

In het volgende hoofdstuk wordt een begin gemaakt aan het vinden van een concrete invulling van RDM voor de digital humanities door te onderzoeken wat digital humanities data curation_{inhoudt. Hoewel wat betreft RDM nog een slag moet} worden geslagen, lijkt dit concept al deels invulling te geven aan een toepassing van RDM in digital humanities.

(35)

H4 - Digital humanities data curation

Hoewel door de opkomst van digital humanities ook geesteswetenschappers zich meer bezig zouden kunnen (of zelfs moeten) houden met RDM, bleek in 2013 uit een onderzoek van de Amerikaanse Association of Research Libraries (ARL) dat van bibliotheekdiensten gericht op de bevordering van RDM onder onderzoekers slechts soms (62%) of helemaal nooit (38%) door geesteswetenschappers gebruik werd gemaakt (Fearon et al. 13). Dressel zoekt een verklaring voor gebrek aan engagement wat betreft RDM in de focus die in onder andere literatuur over digital humanities en bijbehorende onderzoeksdata op _{digital curation wordt gelegd (3). In} dit hoofdstuk onderzoek ik wat _{digital curation inhoudt in de context van digital} humanities (dan genaamd _{digital humanities data curation) en hoe het zich verhoudt} tot RDM, teneinde te onderzoeken of dat wat in literatuur wordt omschreven als digital humanities data curation_{inhoudelijk zou kunnen bijdragen aan het schetsen} van een kader voor RDM in digital humanities.

4.1 Digital curation in digital humanities

Volgens Lee en Tibbo bevat het proces van _{digital curation alle stappen in de} levenscyclus van digitale objecten, van het bouwen van systemen en standaarden tot het bijhouden van de aan verandering onderhevige contextuele informatie van deze objecten in repositories en archieven (“Digital Curation”). Sabharwal beschrijft digital curation_{als volgt:}

Digital curation involves the preservation, promotion, and providing long-term access to born-digital and digitized collections of heritage material, data and publications supporting research with surviving (albeit considered obsolete), current, and emerging digital technologies._{(Sabharwal 11)}

(36)

Hij geeft echter aan dat de term ‘_{digital curation’ in de (digitale) archivistische context} een andere betekenis heeft dan in de context van digital humanities (_digital

humanities data curation_{). Het onderscheid tussen de twee ligt in het in verschil in} focus tussen het behouden van digitale content in de archivistische context enerzijds en die op het creëren van thematische collecties om nieuwe interpretaties,

theoretische kaders en kennis te genereren in de context van digital humanities anderzijds (11).

Bij de eerstgenoemde context past een definitie van _{digital curation zoals die} wordt gegeven door het _{Digital Curation Centre (DCC); deze beschrijft digital}

curation_{als het actieve beheer van onderzoeksdata dat ervoor moet zorgen dat de} waarde ervan op lange termijn wordt bewaakt en het risico op digitale veroudering zo klein mogelijk houdt. Ten tweede voorkomt _{digital curation idealiter dat in het}

genereren van data dubbel werk wordt gedaan, en wordt de waarde van bestaande onderzoeksdata op lange termijn vergroot door deze beschikbaar te maken voor vervolgonderzoek (“What is digital curation?”). Om vorm te geven aan het proces maakte het DCC een model voor _{digital curation, genaamd het DCC Curation} Lifecycle Model_{. In dit model wordt het proces beschreven in elf stappen,}

respectievelijk:1. _{conceptualize (gericht op planning); 2. create (de productie van het} object en metadata); 3. _{access and use (toegankelijkheid en beleid); 4. appraise and} select_{(bepalen van behoeften wat betreft beheer en behoud); 5. dispose (waarin het} proces van verplaatsen of vernietigen van data wordt vastgelegd); 6. _{ingest (het} archiveren van objecten in een digitale repository); 7. _{preservation action (behoud);} 8. _{reappraise (het belang van data opnieuw afwegen wanneer validatie mislukt); 9.} store_{(bewaren op een veilige plaats); 10. access and reuse (bepalen wie toegang} krijgt) en 11. _{transform (het creëren van nieuwe digitale objecten) (“DCC Curation} Lifecycle Model”; Sabharwal 16). In deze context worden de acties in _{digital curation} over het algemeen uitgevoerd door archivarissen en bibliothecarissen.

In de context van digital humanities wordt _{digital curation, dat dan}

terminologisch vaak wordt aangevuld met het ‘data’-aspect en waarnaar nu veel wordt verwezen als _{digital humanities data curation, echter uitgevoerd door de} onderzoeker zelf die vaak een selectiever doel voor ogen heeft, namelijk het ondersteunen van onderzoek naar specifieke geesteswetenschappelijke en