• No results found

Hoewel door de opkomst van digital humanities ook geesteswetenschappers zich meer bezig zouden kunnen (of zelfs moeten) houden met RDM, bleek in 2013 uit een onderzoek van de Amerikaanse Association of Research Libraries (ARL) dat van bibliotheekdiensten gericht op de bevordering van RDM onder onderzoekers slechts soms (62%) of helemaal nooit (38%) door geesteswetenschappers gebruik werd gemaakt (Fearon et al. 13). Dressel zoekt een verklaring voor gebrek aan engagement wat betreft RDM in de focus die in onder andere literatuur over digital humanities en bijbehorende onderzoeksdata op ​digital curation​ wordt gelegd (3). In dit hoofdstuk onderzoek ik wat ​digital curation​ inhoudt in de context van digital humanities (dan genaamd ​digital humanities data curation​) en hoe het zich verhoudt tot RDM, teneinde te onderzoeken of dat wat in literatuur wordt omschreven als digital humanities data curation​ inhoudelijk zou kunnen bijdragen aan het schetsen van een kader voor RDM in digital humanities.

4.1 Digital curation in digital humanities

Volgens Lee en Tibbo bevat het proces van ​digital curation​ alle stappen in de levenscyclus van digitale objecten, van het bouwen van systemen en standaarden tot het bijhouden van de aan verandering onderhevige contextuele informatie van deze objecten in repositories en archieven (“Digital Curation”). Sabharwal beschrijft digital curation​ als volgt:

Digital curation involves the preservation, promotion, and providing long-term access to born-digital and digitized collections of heritage material, data and publications supporting research with surviving (albeit considered obsolete), current, and emerging digital technologies.​ (Sabharwal 11)

Hij geeft echter aan dat de term ‘​digital curation​’ in de (digitale) archivistische context een andere betekenis heeft dan in de context van digital humanities (​digital

humanities data curation​). Het onderscheid tussen de twee ligt in het in verschil in focus tussen het behouden van digitale content in de archivistische context enerzijds en die op het creëren van thematische collecties om nieuwe interpretaties,

theoretische kaders en kennis te genereren in de context van digital humanities anderzijds (11).

Bij de eerstgenoemde context past een definitie van ​digital curation​ zoals die wordt gegeven door het ​Digital Curation Centre​ (DCC); deze beschrijft ​digital

curation​ als het actieve beheer van onderzoeksdata dat ervoor moet zorgen dat de waarde ervan op lange termijn wordt bewaakt en het risico op digitale veroudering zo klein mogelijk houdt. Ten tweede voorkomt ​digital curation​ idealiter dat in het

genereren van data dubbel werk wordt gedaan, en wordt de waarde van bestaande onderzoeksdata op lange termijn vergroot door deze beschikbaar te maken voor vervolgonderzoek (“What is digital curation?”). Om vorm te geven aan het proces maakte het DCC een model voor ​digital curation​, genaamd het ​DCC Curation Lifecycle Model​. In dit model wordt het proces beschreven in elf stappen,

respectievelijk:1. ​conceptualize ​(gericht op planning); 2. ​create ​(de productie van het object en metadata); 3. ​access and use ​(toegankelijkheid en beleid); 4. ​appraise and select​ (bepalen van behoeften wat betreft beheer en behoud); 5. ​dispose​ (waarin het proces van verplaatsen of vernietigen van data wordt vastgelegd); 6. ​ingest​ (het archiveren van objecten in een digitale repository); 7. ​preservation action​ (behoud); 8. ​reappraise​ (het belang van data opnieuw afwegen wanneer validatie mislukt); 9. store​ (bewaren op een veilige plaats); 10. ​access and reuse​ (bepalen wie toegang krijgt) en 11. ​transform​ (het creëren van nieuwe digitale objecten) (“DCC Curation Lifecycle Model”; Sabharwal 16). In deze context worden de acties in ​digital curation over het algemeen uitgevoerd door archivarissen en bibliothecarissen.

In de context van digital humanities wordt ​digital curation​, dat dan

terminologisch vaak wordt aangevuld met het ‘data’-aspect en waarnaar nu veel wordt verwezen als ​digital humanities data curation​, echter uitgevoerd door de onderzoeker zelf die vaak een selectiever doel voor ogen heeft, namelijk het ondersteunen van onderzoek naar specifieke geesteswetenschappelijke en

historiografische vraagstukken. Bij deze benadering worden meestal aparte, thematische datasets en digitale collecties gecreëerd (Sabharwal 19). Sabharwal geeft aan dat in literatuur over digital humanities in afgelopen jaren de nadruk is gelegd op ​data curation​, dat inmiddels sterk wordt geassocieerd met ​digital humanities curation​. Flanders en Muñoz beschrijven het verschil tussen de twee begrippen: ​digital curation​ gaat over beheer en behoud van digitale objecten en informatie; in ​data curation​ is de focus breder. Hierbij moeten niet alleen de data zelf worden opgeslagen en behouden, maar moet ook informatie zoals de methoden die gebruikt zijn om deze data te genereren worden behouden (qtd in Sabharwal 20). Hier komt dus in grote lijnen het verschil terug tussen de archivistische benadering en de benadering die gebruikelijk is in digital humanities, of op zijn minst de fase die volgt op de actieve fase van onderzoek in digital humanities.

De processen die in ​data curation​ worden doorlopen zijn die van ​description (het documenteren van de context van en relaties tussen verschillende soorten onderzoeksdata); ​annotation​ (het toevoegen van meer gedetailleerde informatie); collection/aggregation​ (het verzamelen en samenvoegen van data); ​storage​ (het behouden van een platform dat toegang tot data geeft) en ​migration​ (dat toegang op lange termijn ondersteunt) (20). Deze processen kunnen volgens Sabharwal

verbonden worden aan een van origine commercieel toegepast model dat volgens Bhargava vijf processen voor ​content curation​ beschrijft die de omgang met data gerelateerd aan cultureel erfgoed in digitale omgevingen kunnen ondersteunen. Deze processen zijn (qtd in Sabharwal 20):

- Aggregation​: in dit proces worden de meest relevante informatie en data geselecteerd die in digitale collecties, virtuele expo’s en in publicaties kunnen worden gebruikt of samengevoegd.

- Distillation​: hierbij worden onderzoeksdata beter gestructureerd om transparantie te bevorderen.

- Elevation​: in dit proces worden data die in de vorige twee processen zijn verzameld geanalyseerd en geïnterpreteerd; er wordt door deze naar een ‘hoger niveau’ te tillen een groter inzicht geïdentificeerd.

- Mashup​: hierbij worden verschillende soorten data samengevoegd om nieuwe invalshoeken voor onderzoek te vinden.

- Chronology​: in dit proces wordt historische data chronologisch georganiseerd; er worden tijdlijnen gecreëerd die geschikt zijn voor historisch onderzoek en die (al dan niet sterk) gerelateerde historische gebeurtenissen weergeven.

In ​digital humanities data curation​ komen een aantal uitdagingen naar voren door het interdisciplinaire karakter van digital humanities. Deze worden door Sabharwal

besproken aan de hand van de zes typen data die Flanders en Muñoz opsommen zoals in hoofdstuk 2 besproken, ingedeeld aan de hand van deze uitdagingen (22-23):

Wetenschappelijke uitgaven, tekstcorpora en digitale tekst met TEI-XML markup​: Wetenschappelijke uitgaven zijn gestructureerd maar verschillen onderling door redactionele beslissingen die uniek zijn voor elke redacteur. Daarom kunnen deze het beste ieder als aparte entiteit worden benaderd in het ​curation​-proces. Deze uitgaven verschillen van textcorpora in die zin dat deze al op een bepaalde manier gestructureerd zijn, aan de hand van criteria die al golden toen deze alleen nog in print werden uitgegeven. Teksten die geformatteerd in grote digitale collecties te vinden zijn brengen met zich mee dat de curator ervan beslissingen moet maken wat betreft de metadata die deze collecties beschrijven; deze moeten het mogelijk

maken om gecombineerde collecties te bestuderen. Daar komt bij dat deze corpora vaak gestructureerd zijn middels XML, waardoor rekening moet worden gehouden met de variaties die bestaan in de toepassing van het TEI-schema. 1

Thematische onderzoekscollecties (bestaande uit o.a. XML-data, image files, style sheets) en onderzoeksdata (data verrijkt met analyse en annotaties)​:

1 TEI (Text Encoding Initiative) geeft een richtlijn voor de structurering van digitale tekst door middel van een uitgebreid XML-schema (Extensible Markup Language-schema, een bestand waarin een set tags wordt gedefinieerd). Het XML-schema dat door TEI is opgesteld is zo breed (bestaande uit 500 elementen) dat in de toepassing ervan door gebruikers vaak wordt gekozen voor een subset hiervan (TEI:Introducing the guidelines).

Thematische onderzoekscollecties zijn gestructureerde verzamelingen die in zichzelf redactionele keuzes meedragen en representeren: dit zijn bijvoorbeeld

aanpassingen, toevoegingen, verwijderde data en andere aanpassingen die zijn gemaakt voorafgaand aan publicatie van de collectie. Als dergelijke veranderingen worden verwijderd tijdens ​data curation​, wordt het onmogelijk gemaakt het materiaal in de juiste context te plaatsen. Data die aangevuld zijn met analyses en annotaties zijn cruciaal voor de geesteswetenschappen als primaire digitale bronnen (objecten), omdat in geesteswetenschappelijk onderzoek wordt gewerkt met zowel originele bronnen als de interpretaties ervan om tot nieuwe inzichten te komen. In het curation​-proces zal ook aangegeven moeten worden welke interpretaties van het originele werk toe te schrijven aan wie, en hoe deze afwijken van de oorspronkelijke intenties van de auteur.

Repertoria​:

Repertoria en bibliografieën bestaan uit gestructureerde informatie en kunnen de onderzoeker helpen bij het vinden van data. Om de toegang tot data op lange termijn te ondersteunen moeten ook deze ​finding aids​ aan enige standaardisering worden onderworpen.

4.2 Digital humanities data curation versus RDM

Carlson vergelijkt ​digital curation​ met RDM en concludeert dat het verschil tussen de twee processen te vinden is in hun focus: het eerste is een overkoepelend proces dat nadruk legt op beheer en behoud van data wanneer onderzoek is afgerond; het tweede is overwegend gericht op het actieve deel van de data life cycle waarin data wordt gegenereerd of gebruikt (64). Het onderscheid dat hiermee wordt gemaakt tussen ​digital curation​ en RDM lijkt dan vooral gebaseerd op de definitie van ​digital curation​ in de meer archivistische context zoals Sabharwal deze beschrijft,

aangezien in de beschrijvingen van ​data curation​ en nog specifieker ​digital

humanities data curation​ expliciet wordt gewezen op het actieve karakter van deze processen. De processen die geschaard kunnen worden onder ​digital curation​ zijn

enerzijds gericht op de manier waarop bestaande data kunnen worden beheerd en behouden, anderzijds is er een grote rol weggelegd voor het geschikt maken van deze data voor bewerking en interpretatie om nieuw onderzoek te faciliteren. In deze tegenstelling tussen ‘actief en passief’ ligt het karakter van en de omgang met data besloten die worden gebruikt en gemaakt in de digital humanities. De relatie tussen het genereren van data en behoud ervan lijkt in de geesteswetenschappen en meer nog in de digital humanities in sterkere mate gebaseerd op wederkerigheid dan in andere wetenschappelijke disciplines. Dit idee wordt bekrachtigd door het idee van ​digital curation​ als raamwerk dat zowel behoud als de promotie van het gebruik van data ondersteunt (Sabharwal 25). Daarnaast is ​curation​ op het hoogste niveau volgens Flanders en Muñoz (middels de interpretatie van in onderzoek

gemaakte keuzes) gericht op het creëren en de verspreiding van nieuwe kennis, wat weer resulteert in nieuwe contexten en interpretaties van bestaande data,

wetenschappelijk onderzoek en erfgoedmateriaal (qtd in Sabharwal 23). Digital curation​ wordt op verschillende manieren geïnterpreteerd en

gedefinieerd. In het kader van dit onderzoek ligt het echter het meest voor de hand om uit te gaan van de inhoudelijke afbakening van ​digital humanities data curation om het proces van ​curation​ te vergelijken met dat van RDM. Klopt Carlsons

bewering over de focus die in RDM meer zou liggen op de actieve fases van een onderzoek, versus de focus in ​digital curation​ op dat wat na het onderzoek met data gebeurt? De ​data lifecycle​ is zo ingericht dat in principe aandacht wordt besteed aan de omgang met data in alle fases die met onderzoek te maken hebben; ervoor, tijdens het onderzoek en erna. De prioriteiten die in ​digital curation​ gesteld worden lijken veelal gericht op data in de fase na het onderzoek, ware het niet dat de aanpak van ​digital curation​ in context van digital humanities juist van toepassing is op alle fasen van onderzoek. Dit is terug te voeren op het karakter van de digital humanities en de manier waarop in deze discipline wordt omgegaan met data: ​digital curation gaat in deze context bijvoorbeeld net zo goed over het samenstellen van bestaande datasets om nieuwe inzichten te kunnen verwerven als over het toevoegen van metadata die dit in eerste instantie mogelijk maakt. ​Digital curation​ is voor digital humanities relevant in elke fase van onderzoek, niet alleen omdat de verworven data en inzichten moeten worden opgenomen in het proces van ​digital curation​, zoals dat

in andere disciplines ook gebeurt, maar ook omdat het überhaupt de voorwaarden schept voor het doen van onderzoek in deze discipline.

Aan het begin van dit hoofdstuk is besproken dat de aandacht die in

geesteswetenschappen uitgaat naar ​digital curation​ de reden zou kunnen zijn dat er (te) weinig aandacht is voor RDM in de digital humanities. Als het zo is dat voor zowel RDM als ​digital humanities data curation​ geldt dat zij in theorie van toepassing zijn op alle fasen van onderzoek, is het echter aannemelijk dat de twee elkaar

aanvullen. In het volgende hoofdstuk wordt onder andere deze mogelijkheid verkend bij het zoeken naar voorwaarden voor een kader voor RDM in digital humanities.