• No results found

Whitepaper. Wat kost duurzame digitale opslag?

N/A
N/A
Protected

Academic year: 2022

Share "Whitepaper. Wat kost duurzame digitale opslag?"

Copied!
14
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Whitepaper

Wat kost duurzame digitale opslag?

(2)

Colofon

Uitgever: VHIC, Einsteinlaan 26a, 2289 CC Rijswijk, www.vhic.nl Auteurs: Livonne Rommers en Ad van Heijst

Versie: 1.0

Publicatiedatum: 8 februari 2018

Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door print-outs, kopieën, of op welke manier dan ook, zonder voorafgaande schriftelijke toestemming van de uitgever.

(3)

Wat kost duurzame digitale opslag?

Duurzame digitale opslag is duur. Deze stelling klinkt misschien wat vreemd in de oren, omdat we tegenwoordig gewend zijn aan de vele diensten in de cloud die gratis opslag bieden van tientallen gigabytes zoals Google Drive, One Drive of Dropbox. De externe harde schijven op de markt hebben ook een steeds grotere opslagcapaciteit terwijl de prijs steeds iets afneemt. Een blik op het aanbod van een willekeurige winkel in electronica laat zien dat 1 terabyte aan opslagruimte al te krijgen is voor minder dan 50 euro. Dat zijn al gauw 400.000 foto’s, of een bibliotheek van een middelgrote stad.1

Toch zijn deze prijzen geen reële graadmeters voor de daadwerkelijke kosten die verschillende bedrijven per jaar moeten vrij maken voor de opslag van hun digitale archieven. In 2009 werden de kosten die de

Koninklijke bibliotheek per terabyte per jaar maakt tot en met 2013 geraamd op bijna 20.000 euro; in totaal 6 miljoen euro voor de 300 terabyte aan archieven die zij beheert.2 In 2012 sprak Stephen Abrams tijdens het congres “ Screening the Future” over 16.000 dollar per TB/jaar als een redelijke raming.3 Het Databerg Report 2015, uitgevoerd door Varson Bourne, doet daar nog een schep bovenop en waarschuwt dat tegen 2020 de jaarlijkse kosten voor het totale beheer van digitale data per organisatie kan oplopen tot 591.000 euro.4 Een Terabyte opslaan in de e-depotoplossing die landelijk beschikbaar wordt gesteld gaat rond de 1.800 euro per jaar kosten.5 Het verschil met de prijs voor de externe harde schijf in de winkel is enorm. Waarom zijn de kosten voor de genoemde bedrijven zoveel hoger dan de aanschafwaarde van een harde schijf of een cloudoplossing?

De uitdaging van duurzaam digitaal

Het probleem ligt in de combinatie ‘digitaal’ en ‘duurzaam,’ want digitaal is per definitie niet duurzaam. In haar aard is digitaal een kwetsbaar medium waarbij de leesbaarheid van verschillende bestandsformaten

afhankelijk is van specifieke hard- en software die de enen en nullen om kan zetten in begrijpelijke taal.

Technologie evolueert in een rap tempo, waardoor nieuwe generaties hard- en software de oude ongeveer om de vijf jaar opvolgen. De nieuwere generaties kunnen de bestanden van drie of vier generaties terug soms al niet meer lezen. Waar je tekst op een stuk papier honderden jaren later nog gewoon kan lezen, mits het papier in een gunstige omgeving wordt bewaard en je een cursus paleografie hebt gedaan, is een digitaal bestand niet meer leesbaar zodra de technologie die de enen en nullen kan ontcijferen verdwijnt.6

Een andere eigenschap van digitale informatie die de leesbaarheid op de lange termijn bedreigt is een fenomeen dat ‘bit-rot’ genoemd wordt. De enen en nullen van een digitaal bestand kunnen ‘omvallen’, waardoor een één ineens een nul wordt of andersom. Het gevolg hiervan is dat de code niet meer kan worden ingelezen door de software.7 Sommige van deze corrupte bestanden kunnen nog wel leesbaar gemaakt geworden door middel van een ‘recovery toolbox’, maar dat kost dan ook weer wat en dit lukt lang niet bij alle bestanden.8 Om het ontstaan

1 Naar cijfers uit: “Rekensommetjes.” Blog op Inforoads door Ad van Heijst, 31-05-2014.

2 NCDD, Toekomst voor ons digitaal geheugen: duurzame toegang tot informatie in Nederland. Interim rapportage, 1 juli 2009. P. 54.

3 “The Wiggly Wobbly Jelly: Predicting costs of digital archiving.” Verslag masterclass Screening the Future, d.d.

28-05-2012. http://www.ncdd.nl/blog/?p=1849 geraadpleegd op 25-05-2015.

4 “Nederlandse organisaties verspillen jaarlijkse meer dan €591.000 aan opslag van nutteloze data.” PRNewswire d.d. 28-10-2015. Prnewswire.com. Geraadpleegd d.d. 12-12-2015.

5 Zie het onderzoek in opdracht van de Vereniging van Zeeuwse Gemeenten,

http://www.zeeuwsarchief.nl/media/uploads/e-depot/20160406_rapport_e-depot_monitor_vzg.pdf

6 Boudrez, F. “Digitaal archiveren en digitale duurzaamheid.” P. 1. Edavid.be

7 Idem.

8 Wright, R., Matthew Addis en Ant Miller. “The significance of storage in the ‘Cost of Risk’ of digital preservation.”

P. 3 [Website naam]

(4)

van onleesbare digitale bestanden tegen te gaan moet dan ook regelmatig nagegaan worden of de bestanden nog leesbaar zijn.

Het risico op verlies van informatie ligt niet alleen in de vluchtigheid van digitale bestanden, de opslagmedia zelf vormen ook een risico. Richard Wright, Matthew Addis en Ant Miller wijzen er in hun artikel “The significance of storage in the ‘cost of risk’ of digital preservation” op dat harde schijven een veel kortere levensverwachting hebben dan gedacht. Hoewel sommige typen schijven 1000 jaren mee zouden moeten kunnen gaan, halen Wright, Addis en Miller een onderzoek aan waaruit blijkt dat tot wel 13% van de harde schijven in gebruik bij verschillende datacentrales jaarlijks te maken krijgt met falen.9 Om informatieverlies tegen te gaan moet er dus steeds digitale informatie worden gemigreerd van de ene naar de andere schijf voordat de eerste onherstelbaar defect raakt.

Wat de duurzaamheid van digitale informatie zo een grote uitdaging maakt is dat er op het moment weinig goede technieken zijn om bovengenoemde problemen voor de lange termijn op te lossen. Archivering is wel mogelijk, maar de digitale informatie heeft voortdurende zorg en aandacht nodig en er moeten op tijd maatregelen genomen worden om de degradatie van digitaal bestand en opslagmedium tegen te gaan.10 Dit vergt een pro- actieve houding van de archiefvormer die digitale documenten permanent wil bewaren. Waar de archivering van papieren documenten genoeg heeft aan een goede archiefbewaarplaats, heeft digitale archivering voor de lange termijn veel meer zorg nodig dan slechts een ‘opslagplaats’ en al die extra zorg kost geld.

De kostenposten

In de binnenlandse en buitenlandse literatuur is de vraag wat digitale duurzaamheid nu eigenlijk kost al meer dan twintig jaar onderwerp van discussie. De reden dat deze vraag niet eenduidig beantwoord kan worden is omdat de kosten van digitale duurzaamheid afhangen van een veelheid aan keuzemogelijkheden, specifieke budgettaire beperkingen per organisatie, het soort materiaal dat digitaal moet worden bewaard en de risico’s die een organisatie al dan niet voor lief wil nemen. Richard Wright wordt geciteerd in het interimrapport van de Nationale Coalitie voor Digitale Duurzaamheid “Toekomst voor ons digitaal geheugen” waarin hij het volgende zegt, “De risico’s die digitale informatie loopt kun je altijd indammen als je er maar genoeg geld in steekt, geld voor nog meer back-ups, voor nog meer personeel, voor nog meer onderzoek, en ga zo maar door.”11 Echter, wanneer geld een schaars goed wordt en bezuinigingen aan de lopende band worden doorgevoerd, moeten de risico’s voor het verlies van informatie net zo goed ingedamd worden. Als dit niet gebeurt kunnen de gevolgen nog altijd veel geld kosten; denk aan de kosten voor rechtszaken wanneer bewijzen niet (op tijd) geleverd kunnen worden, oplopende boetes of kosten die gemaakt worden wanneer abonnementen en licenties niet tijdig worden

beëindigd. De noodzaak bestaat om slim met geld om te gaan en gebruik te maken van de kennis die er al is om de kosten van digitale duurzaamheid te drukken.

Voordat er slimme bespaaralternatieven ontwikkeld kunnen worden moet er eerst inzicht zijn in welke

kostenposten precies een rol spelen in het borgen van digitale duurzaamheid. Daarna moet onderzocht worden wat deze kosten bedragen, waarna gericht gezocht kan worden naar bespaarstrategieën of alternatieve oplossingen. Als slechts vijf tot tien procent van de totale kosten voor digitale duurzaamheid naar het

opslagmedium zelf gaat, zoals bij het Riksarkivet in Zweden het geval is,12 welke andere kostenposten zijn dan het grootst en waarom? En kan dit goedkoper zonder afbreuk te doen aan de kwaliteit van de digitale informatie die duurzaam moet worden bewaard?

9 Idem, p. 1.

10Boudrez, F. “Digitaal archiveren en digitale duurzaamheid.” P. 1. Edavid.be

11NCDD, Toekomst voor ons digitaal geheugen: duurzame toegang tot informatie in Nederland.

Interimrapportage, 1 juli 2009. P. 51.

12 Palm, J. “The Digital Black Hole.” P. 3.

(5)

Diverse onderzoekers hebben geprobeerd om deze kostenposten in kaart te brengen met behulp van kostenmodellen of ervaringscijfers. In de literatuur bestaat een tweedeling in de manier waarop de kosten worden benaderd. De groep onderzoekers die zich bezig houdt met kostenmodellen is gefocust op het duurzaam bewaren van digitaal materiaal. Hun benadering wordt vooral ingegeven door de archivistiek en houdt minder rekening met de infrastructuur waarbinnen de bewaarhandelingen moeten worden uitgevoerd. De tweede groep benadert het probleem vanuit een IT-benadering waarin de gehele infrastructuur, inclusief serverruimte, back-up faciliteiten en diverse licenties mee worden genomen in het kostenplaatje. Zij houdt echter weer geen rekening met de archivistische handelingen die van levensbelang zijn bij de borging van de duurzaamheid van digitale informatie. Beide groepen leveren het noodzakelijke inzicht in de kostenposten waarmee rekening gehouden moet worden, maar een compleet beeld ontstaat pas wanneer de resultaten van beide groepen worden gecombineerd.

Het UC Curation Center kostenmodel

Stephen Abrams noemt de uitkomsten van het kostenmodel van de UC Curation Center “Total Cost of

Preservation” (totale kosten voor langdurige bewaring).13 In de definitie die Abrams zelf aan het begrip geeft laat hij al goed de beperkte scope van het begrip zien: TCP is “the full economic costs of preservation activities over archival timespans.”14 Het gaat hem om de kosten die gemoeid zijn met de specifieke handelingen die digitale langdurige bewaring mogelijk maken. Dit zijn de handelingen die nodig zijn om digitale documenten vanaf het moment van hun creatie duurzaam leesbaar, bruikbaar en toegankelijk te houden. Deze benadering is expliciet gestoeld op de handelingen voor langdurige bewaring van digitaal materiaal zoals uiteen gezet in het Open Archival Information System (OAIS) model.

Abrams vat de benodigde handelingen samen in tien verschillende categorieën die ieder verantwoordelijk zijn voor specifieke kosten (vast of variabel). Deze kostenposten zien er als volgt uit:

Figuur 1: De 10 kostencategorieën van het UC Curation Center kostenmodel.15

13Abrams, Stephen. “Total Cost of Preservation (TCP): cost and price modeling for sustainable services.” The Regents of the University of California, rev. 2.2.2. d.d. 08-05-2015. P. 1. https://wiki.ucop.edu/display/Curation/Cost+Modeling geraadpleegd:

d.d. 28-05-2015.

14Idem, p.1

15Idem, p. 2.

(6)

De archiefvormer beheert haar eigen archiefcollecties en zorgt ervoor dat de collecties volgens de normen van, bijvoorbeeld, een RHC worden voorbereid voor opname in het digitale depot (1). Daarna moet er een koppeling (of stream) worden gerealiseerd om de collecties van de ene naar de andere instelling te sturen (2). Dit kan zo simpel zijn als een USB-stick afleveren bij een RHC of de afdeling verantwoordelijk voor het digitale archief of, ingewikkelder en arbeidsintensiever, het realiseren van een directe koppeling vanuit een DMS naar het e-depot systeem.

De derde kostencategorie bestaat uit het systeem waarmee de ontvangen collecties kunnen worden opgenomen in het depot, gekoppeld aan de juiste metadata die het beheer en de toegankelijkheid van de collecties mogelijk maken. Dat systeem draait op servers om zo geautomatiseerde opname van collecties mogelijk te maken (4) waarna de collecties in de digitale opslagruimte – harde schijf of cloud - kunnen worden geplaatst (5). Daarna moet er een faciliteit worden ingeregeld om raadpleging door medewerkers of andere geïnteresserden mogelijk te maken (6). Hierbij valt te denken aan een functionaliteit die via een website de collectie doorzoekbaar maakt voor bezoekers. De kosten zitten dan in het bouwen van de website en het inregelen van een gebruiksvriendelijke zoekmachine die gekoppeld is aan het depot. Met deze zes posten is het hele proces van opname tot toegankelijk maken van collecties geregeld, maar de grote uitdaging ligt misschien wel bij de volgende twee kostencategorieën die Abrams aanhaalt: het uiteindelijke beheer van de collecties in het depot. Categorie zeven en acht is het maken van een preserveringsplan waarin per type digitaal bestand de beheers- en

interventiemaatregelen uitgewerkt zijn die permanente digitale bewaring mogelijk maken. Het gaat hier om procedures, zoals migratie, conversie en controles en preventieve maatregelen om zo grip te krijgen op mogelijke corruptie van digitale bestanden en andere dreigingen. De laatste twee kostencategorieën behelsen de

uitvoering van het beheer aan de hand van het preserveringsplan.

Kort samengevat vallen de kosten uiteen in personeelskosten voor de verschillende handelingen in het proces van opname, beheer en terbeschikkingstelling, kosten voor het opslagmedium, de bijbehorende servers en de technieken waarmee consumenten digitale informatie kunnen opvragen. Zoals al blijkt uit het lijstje van Abrams gaat er in dit model veel aandacht uit naar de kosten die gemaakt worden naar aanleiding van de verschillende handelingen; het voorbereiden van digitale documenten voor opname in het depot, onderzoek naar technieken en strategieën om duurzaamheid sneller, slimmer, en efficiënter te borgen, deze strategieën vastleggen in preserveringsplannen en het inzetten van handelingen om het behoud van de kwaliteit van de digitale informatie op tijd te kunnen ondervangen (interventions). Hieruit blijkt dat digitale duurzaamheid relatief arbeidsintensief is en dat personeelskosten waarschijnlijk een groot percentage vormen van de daadwerkelijke totale kosten van het onderhouden van een systeem voor digitale duurzaamheid.

Het LIFE kostenmodel

In samenwerking met het Brits Museum en gefinancierd door het Joint Information Systems Committee (JISC) heeft University College London Library Services het LIFE (Life Cycle Information for E-Literature) kostenmodel ontworpen. Dit model baseert haar kostencategorieën eveneens op OAIS en bestaat uit zes afzonderlijke onderdelen die opgeteld de totale kosten voor langdurige digitale bewaring behelzen. In figuur 2 staan de categorieën schematisch weergegeven.

De zes categorieën zijn: creatie (of aankoop), acquisitie, ingest (of opname), bitstream preservation, content preservation en toegang. De eerste categorie komt overeen met categorie 1 van Abrams. Het gaat hierbij om de kosten voor het samenstellen van de juiste collecties voor overbrenging. De tweede categorie, acquisitie, komt overeen met de “streams” van Abrams, maar LIFE geeft een uitgebreidere uitwerking van de onderdelen die meegenomen moeten worden. Het gaat hierbij om de afspraken, procedures en financiële overeenkomsten tussen archiefvormer en archiefbewaarplaats die digitale overbrenging op een organisatorische juiste manier mogelijk maken. De kosten voor het tot stand brengen van een technische koppeling tussen de twee partijen lijkt binnen dit model niet meegenomen te zijn.

(7)

De categorieën opname en toegang komen overeen met categorieën 3 en 6 van Abrams en worden door het LIFE model verder gespecificeerd. Bij de opnamecategorie worden kosten gemaakt voor de kwaliteitscontrole van de op te nemen bestanden, het controleren en opnemen van metadata, het aanmaken van referenties en het uiteindelijke plaatsen van de collecties in het depot. Onder de categorie toegang vallen het aanbieden van toegang in de vorm van een website of applicatie, het onderhouden van een procedure en rechtenstructuur waarmee gecontroleerde toegang tot de collecties kan worden gerealiseerd en het opzetten en onderhouden van gebruikersondersteuning.

Het LIFE model verdeelt het beheer van het digitale depot in twee aparte kostencategorieën: een categorie voor het technische beheer van het depot, met daarin de storageoplossing en plannen en procedures voor het uitvoeren van technische inspecties en het maken en beheren van back-ups (bitstream preservation). De categorie “content preservation” vat de categorieën 7, 8, 9 en 10 van Abrams samen waarbij het beheer en onderhoud van de digitale collecties zelf centraal staan. Deze categorie beschrijft de preserveringsplannen, de bijbehorende preserveringsmaatregelen en de uitvoering van die maatregelen.

Ook het LIFE model beschrijft een veelheid aan handelingen die invloed hebben op een relatief groot percentage aan personeelskosten voor het onderhouden van een digitaal depot. Het LIFE model is zelfs specifieker dan het model van Abrams met betrekking tot waar die personeelskosten zitten. Zo benoemt Abrams slechts de storageoplossing en de servers waar LIFE expliciet spreekt van technisch beheer in haar bitstream preservation categorie. Waar Abrams slechts lijkt te denken aan de fysieke opslag in de vorm van een harde schijf of cloudoplossing, voegt LIFE een werkwoord toe: provisioning. De aanschaf van de opslag alleen is niet genoeg, het inregelen van de opslag volgt een proces waarbij de technische beheerder een veelheid aan stappen uit moet voeren om de opslag juist te configureren en te koppelen aan de verzameling systemen waaruit het digitale depot bestaat.16 Hetzelfde geldt voor de andere categorieën die LIFE benoemt; om een goed beeld te vormen van de kosten van een digitaal depot moeten de categorieën steeds verder gespecificeerd worden. Het resultaat hiervan zal zijn dat er nog veel verborgen personeelskosten boven komen waar eerder niet aan gedacht is. Dit maakt de kostenberekening zeer complex.

Figuur 2: Kostenmodel van het LIFE project.17

16 Zie: “Storage provisioning definition” op http://searchstorage.techtarget.com/definition/storage-provisioning

17 Uit: “Sustaining the Digital Investment: Issues and challenges of Economically Sustainable Digital Preservation.” Interimrapportage van de Blue Ribbon Task Force, December 2008. P. 43.

(8)

Testbedmodel van het Nationale Archief

Een ander kostenmodel komt van Testbed van het Nationaal Archief. Jacqueline Slats en Remco Verdegem vertegenwoordigen dit initiatief in hun beknopte rapport “Cost Model for Digital Preservation.” Zij werken een vijftal kostenindicatoren uit die eveneens gebaseerd zijn op OAIS:

1. De kosten voor het depot (“digital archive system”) en een functionaliteit voor de bewaring van digitale records op de lange termijn (“preservation system”)

2. Personeelskosten

3. De kosten voor de ontwikkeling of aankoop van software en methodes of strategieën voor de duurzame bewaring van digitale records

4. De operationele kosten van de uitvoering van preservatie

5. Overige indirecte factoren die invloed hebben op de totale kosten18

De eerste kostenindicator bevat de fysieke ruimtes en alle hard- en software die nodig zijn om een digitaal depot te kunnen faciliteren. Hierbij valt te denken aan de benodigde servers en applicaties, maar ook bijvoorbeeld virusscanners en beveiligingstechnieken. Wat opvallend is aan deze kostenindicator is dat Slats en Verdegem de kosten voor hard- en software verdelen over twee aparte systemen: een digitaal depot en een aparte

functionaliteit waarbinnen de gekozen bewaarstrategieen en technieken periodiek kunnen worden uitgevoerd. Dit kostenmodel wekt op deze manier de indruk dat beide “systemen” gebruik maken van separate hard- en

software, wat zou betekenen dat de kosten voor de hard- en software van het complete systeem dubbel zo hoog worden. Of dit daadwerkelijk het geval is, is de vraag; wel is het in de uitvoering van het beheer aan te raden om het depot gescheiden te houden van het systeem waarbinnen de migraties of conversies worden uitgevoerd. Bij voorkeur gebeurt conversie of migratie met een kopie van het te migreren archiefbestand, zodat bij fouten het orignele bestand nog veilig opgeslagen ligt in de omgeving van het depot. Deze scheiding is noodzakelijk voor het veilig toepassen van een digitale bewaarstrategie, maar brengt afhankelijk van de keuzes die een organisatie maakt nog extra kosten met zich mee.

De tweede kostenindocator brengt alle personeelskosten samen in één enkele kostenpost. Het kostenmodel verdeelt de personeelskosten over drie afzonderlijke categorieën. Allereerst kosten voor het personeel dat zich bezig houdt met het eigenlijke depot. Hierbij gaat het om het ontwikkelen en bouwen van het depot. Volgens het model kost dit minstens één tot twee manjaren en vormt het een niet te onderschatten kostenpost.19 De tweede categorie behelst het personeel dat nodig is voor het ontwikkelen en het onderhouden van de functionaliteit waarbinnen het beheer op alle archiefcollecties kan worden uitgevoerd. Hierbij gaat het wederom om ontwikkeling en bouw van het systeem zelf, maar ook het opzetten van een systeem voor kwaliteitscontrole, het schrijven en onderhouden van procedures en het ontwikkelen en testen van

bewaarmethodieken. De derde en laatste categorie bestaat uit het personeel dat gebruikers ondersteunt bij het verkrijgen van toegang tot het archiefmateriaal.20

De derde kostencategorie vormt het hart van het onderzoek van Slats en Verdegem. Het gaat hierbij om het ontwikkelen en beheren van de juiste bewaarmethodieken ten aanzien van specifieke bestandstypen. Deze kostencategorie lijkt enigszins misleidend als aparte categorie, omdat het veel overlap zal hebben met de vorige categorie waarin de personeelskosten werden besproken voor het ontwikkelen en onderhouden van

bewaarmethodieken. Slats en Verdegem gaan in deze derde categorie de diepte in door handelingen aan te stippen die nodig zijn om aan de voorkant het beheer van specifieke bestandstypen in te regelen.

18 Slats, J. en R. Verdegem. “Cost Model for Digital Preservation.” Digital Preservation Testbed, 2005. P. 2.

19 Idem, p. 3.

20 Idem, p. 3.

(9)

Het gaat hierbij om het bepalen van authenticiteits- en integriteitseisen en het ontwikkelen van bewaarmethoden die hierbij het beste aansluiten. Hierbij merken Slats en Verdegem op dat het aantal van een bepaald aanwezig bestandstype grote invloed heeft op de kosten die gemaakt worden.21

De vierde kostencategorie wordt door Slats en Verdegem aangemerkt als marginaal in vergelijking met de eerder genoemde kostenposten.22 De uitvoering van bewaarmethodieken kan voor een groot gedeelte geautomatiseerd worden uitgevoerd. Er is nog wel een verschil in kosten ten aanzien van de gebruikte methode.

Het conveteren van records naar XML formaat, bijvoorbeeld, blijkt op de lange termijn de goedkoopste optie te zijn in vergelijking met migraties of het gebruik van emulatie. De kosten van de laatste zitten vooral in de terugkerende kosten voor de ontwikkeling van techniek en het onderhoud daarvan. Vooral migratie is een niet te onderschatten methode die de kosten flink kan opdrijven aangezien het elke vier jaar opnieuw uitgevoerd moet worden, met alle risico’s van dien. XML wordt gezien als de beste optie voor een kosteneffectieve

bewaarstrategie, maar ook deze methode zal volgens Slats en Verdegem conversie moeten ondergaan.23

De laatste kostencategorie is een verzameling van factoren die een substantiële invloed kunnen hebben op het kostenplaatje van een e-depot. Hierbij gaat het om factoren zoals, het volume van de records die moeten worden onderhouden, technology-watch waarmee in de gaten gehouden wordt wanneer records toe zijn aan conversie, het onderhoud van de systemen waaruit het complete depot bestaat en Slats en Verdegem noemt zelfs de kosten die op termijn gemaakt worden wanneer DMSen en RMAs moeten worden gekoppeld aan het depot.24 Dit laatste is naar verwachting evenmin een niet te onderschatten kostenpost. Zulke koppelingen zijn in gemeenteland al berucht om hun complexiteit en hoge kosten, maar ook het synchroniseren van metadatavelden van het ene systeem met het andere blijkt een uitdaging waar veel tijd en geld in gaat zitten.25

Total Cost of Ownership

Hoewel de kostenmodellen hierboven de technische infrastructuur wel meenemen in hun berekeningen, zijn ze voornamelijk gericht op het benoemen van de kosten die gepaard gaan met het preserveren van digitaal materiaal op de lange termijn. Vanuit een IT-perspectief kunnen er nog een flink aantal extra kostenposten uit gespecificeerd worden die nodig zijn om een adequate technische infrastructuur te bouwen voor het digitale depot. Deze kosten worden door David Merril van Hitachi Data Systems “Total Cost of Ownership” genoemd. 26 In figuur 3 hieronder vat Merril de 34 kostentypen die Hitachi Data Systems geïdentificeerd heeft samen in een tiental kostencategorieën:

(zie figuur 3 op de volgende pagina)

21 Idem, p. 7.

22 Idem, p. 7.

23 Idem, p. 8.

24 Idem, p. 5.

25 Wout van der Reijden, Annemieke Adema en Mirella van der Velde. “Aan de slag met het TMLO.” Landelijke conferentie e-depot d.d. 01-04-2015. Workshop 6: Metadatering. Verslag en presentatie:

http://www.edepotoverijssel.nl/verslagen-presentaties-en-fotos-conferentie-1-april

26 Merril, D.R. “Storage Economics: Four Principles for Reducing Total Costs of Ownership.” Hitachi Data Systems whitepaper, april 2014. P. 5.

(10)

Figuur 3: Kostenverdeling technische infrastructuur depot.27

Wat hierbij opvalt is dat de aankoop van de verschillende elementen van de infrastructuur aangeduid wordt als de grootste kostenpost. Deze kostenpost is uiteraard eenmalig, waarna de structurele kosten ieder jaar voornamelijk gaan naar de personeelskosten die gemaakt worden in de post “internal labor” (het technische beheer van de infrastructuur als geheel) en het beheer van de aparte hard- en softwarecomponenten. Deze kostenposten mogen zeker niet onderschat worden, enerzijds omdat deze kosten structureel blijven terugkomen en anderzijds omdat deze kosten op termijn hoger kunnen worden dan de initiële aanschaf van de hele infrastructuur zelf. Merril waarschuwt: “[o]ver time, TCA (total cost of acquisition) will become less and less significant. Labor,

maintenance, power and cooling currently drive a higher cost (some 3 to 4 times higher) than acquisition alone.”28

De grootste kostenposten

Het is interessant dat zowel de kostenmodellen als het IT-perspectief de personeelskosten aanwijzen als de zwaarste kostenpost waar rekening mee gehouden moet worden bij het beheren van een digital depot. Vaak bestaat het idee dat digitalisering en automatisering juist een besparing op het personeel oplevert, maar het lijkt erop dat hoe meer er digitaal bewaard wordt hoe meer een organisatie juist aan personeelskosten zou moeten begroten.

De tweede grote kostenpost die Merril aanhaalt, het energieverbruik, is voor Phil Bridge van UK Ontrack Data Recovery één van de grote verborgen kosten die kleven aan meer dataopslag. Hij geeft aan dat het

verbeteren van de prestaties van hardware meer energieverbruik kost en meer aandacht voor

temperatuurbeheersing met zich meebrengt; een kostenpost dat vaak over het hoofd gezien wordt bij de

aanschaf van extra servers.29 De fysieke ruimtes moeten adequaat ingericht zijn om de grote hoeveelheid servers adequaat te koelen. De kwaliteit en levensduur van de servers kunnen op die manier optimaal geborgd worden.

Naast het energieverbruik wijst Bridge ook op de noodzaak aandacht te geven aan een data- en disaster recovery plan om de gevolgen van systeemonderbrekingen te ondervangen. Hiermee kan gevoelige informatie adequaat worden beschermd en wordt dataverlies vanwege technische problemen tegengegaan. Daarnaast beveelt Bridge aan gebruik te maken van verschillende locaties voor de inrichting van de dataopslag.

27 Idem, p. 5.

28 Idem, p.6.

29 Bridge, P. “De verborgen kosten van meer dataopslag.” Artikel op computable.nl, geplaatst op 15-12-2006.

Geraadpleegd op 28-04-2014. http://www.computable.nl/artikel/ict_topics/storage/1823395/1277017/de- verborgen-kosten-van-meer-dataopslag.html

(11)

Niet alleen kan er op die manier een efficiëntere verwerking van de data worden gerealiseerd, maar ook worden de risico’s op dataverlies gespreid. Als er iets mis gaat in één serverruimte loopt niet meteen het hele archief gevaar. Het nadeel is dat er meerdere serverruimtes moeten worden ingericht of gehuurd om baat te hebben van deze manier van risicospreiding. Afhankelijk van de omvang van het totale archiefbestand en de risico’s die men voor lief wil nemen, kan dit zorgen voor hoge extra kosten.

Tot slot waarschuwt Bridge voor prijzige blunders wanneer niet-gespecialiseerde beheerders keuzes moeten maken ten aanzien van de inkoop van apparatuur, hun installatie en beheer. Het inhuren van een

gespecialiseerde netwerkconsulent wordt al snel in de portemonnee gevoeld, maar de gevolgen van inadequaat beheer voor de informatiehuishouding evenzo.30 Op deze manier blijft de keuze om een digitaal depot in beheer te nemen steeds een afweging waarin de vaardigheden en kennis van het bestaande personeel afgezet moeten worden tegen de risico’s die bepaalde keuzes met zich meebrengen en het beschikbare budget. Een digitaal depot heeft veel voordelen ten aanzien van het gemak waarmee archiefmateriaal toegankelijk gemaakt kan worden voor geïnteresseerden, maar het is een flinke uitdaging om een goedwerkend en veilig depot draaiende te houden met een beperkt budget. De kosten die begroot worden voor de initële aanschaf zijn geen goede graadmeter voor de totale kosten voor het beheren van het digitale depot; de structurele kosten kunnen op termijn zelfs hoger worden dan de prijs voor het opzetten van de infrastructuur. Het is niet voor niets dat David Merril één principe in het bijzonder wil overbrengen aan zijn publiek: “Price does not equal costs.”31 Een bepaalde tool kan dan wel de goedkoopste in zijn soort zijn, maar als de kennis niet in huis is om op de juiste manier met de tool te werken, of wanneer de tool niet compatibel blijkt met de bestaande infrastructuur dan lopen de kosten toch nog hoog op en wordt de kans op dataverlies significant groter. Merril dringt dan ook aan op een benadering van de kostenverdeling die de specifieke behoefte van een organisatie afzet tegen de elementen in de gehele

infrastructuur.32 Over het inrichten en in beheer nemen van een digitaal depot moet goed worden nagedacht voordat de portemonnee definitief wordt getrokken.

Papier, microfilm en digitaal: een vergelijking

Het is duidelijk dat duurzame digitale opslag meer is dan bestanden op een harde schijf plaatsen; het vergt veel handelingen, zowel vanuit archivistisch oogpunt en de IT. Al deze noodzakelijke handelingen vormen een lange lijst van kostenposten die vaak structureel zijn. Het is onduidelijk hoe de techniek zich nog gaat ontwikkelen en ervaringscijfers over de lange termijn zijn er nog niet. Hierdoor is het lastig om grip te krijgen op hoe het kostenmodel voor duurzame digitale opslag zich op de lange termijn gaat ontwikkelen. Wat de precieze kosten ook zijn voor organisaties, het economische voordeel van de keuze om digitaal te archiveren is twijfelachtig.

Helko Tjalsma zegt hierover in Gewaardeerd Verleden: “kosten voor digitaal archief worden eerder onderschat dan overschat. Het bewaren van digitaal materiaal is zeker niet goedkoper dan papieren materiaal.”33 Een vergelijking van de kosten voor de opslag van papier en microfilm met de kosten voor digitale opslag helpt de kosten van digitale opslag in perspectief te zetten. Jonas Palm, hoofd van het departement van preservatie van het Nationaal Archief in Stockholm, voerde in 2006 een onderzoek uit naar de kosten voor het duurzaam bewaren van een boek van 332 pagina’s in papieren vorm, op microfilm, als 1-bit afbeelding van 600 dpi en als 8- bit afbeelding van 300 dpi. De uitkomsten geven enorme verschillen aan tussen papier en microfilm ten opzichte van digitaal materiaal:

30 Idem.

31 Merril, D.R. “Storage Economics: Four Principles for Reducing Total Costs of Ownership.” Hitachi Data Systems whitepaper, april 2014. P. 6.

32 Idem, p.8.

33 Tjalsma, H. “Bijlage 3: Kosten digitaal archief.” In: Gewaardeerd Verleden, visierapport van de commissie waardering en selectie van het Nationaal Archief. Red. K.J.P.F.M. Jeurgens, A.C.V.M. Bongenaar en M.C.

Windhorst, september 2007. P. 84.

(12)

Figuur 4: Een vergelijking van opslagkosten van identiek materiaal met behulp van verschillende media door de bibliotheken van het Riksarkivet (RA) en Harvard.34

Ook bijna tien jaar later zullen de staven in de grafiek niet veel dichter bij elkaar komen, simpelweg omdat digitaal materiaal structurele kosten met zich mee blijft brengen vanwege het onderhoud in de vorm van migraties en data-recovery. Microfilm en papier zijn veel minder onderhoudsgevoelig waardoor ze, mits ze bewaard worden in een ruimte met goede klimaatbeheersing, lang bewaard kunnen worden zonder dat iemand er omkijken naar heeft. Alleen kale ascii-bestanden komen enigszins in de buurt van de prijzen voor de opslag van microfilm en papier.35

Desondanks heeft digitale opslag voordelen die de extra kosten voor het duurzame behoud van digitaal materiaal rechtvaardigen. Zoals David Merril van Hitachi Data Systems al eerder aanstipte, de goedkoopste optie is niet altijd de optie die het beste past bij de specifieke behoeften van een organisatie. Het grote voordeel van digitaal is dat het makkelijk beschikbaar gemaakt kan worden aan eenieder die het wil inzien, zonder dat een aanvrager zich fysiek moet melden bij een bibliotheek. Via het internet kan er met één druk op de knop toegang verleend worden tot informatie op de laptop, telefoon of tablet, waar men zich ook bevindt. Deze wens is volstrekt begrijpelijk, maar de vraag is of deze mogelijkheid daadwerkelijk voor elk digitaal document relevant is. Als de kosten voor digitale opslag zo hoog zijn, loont het de moeite om selectief te zijn in de keuze van de documenten die digitaal beschikbaar zijn.

34 Palm, J. “The Digital Black Hole.” 2006, geraadpleegd op 30-05-2015, http://www.tape- online.net/docs/Palm_Black_Hole.pdf

35 Tjalsma, H. “Bijlage 3: Kosten digitaal archief.” In: Gewaardeerd Verleden, visierapport van de commissie waardering en selectie van het Nationaal Archief. . Red. K.J.P.F.M. Jeurgens, A.C.V.M. Bongenaar en M.C.

Windhorst, september 2007. P. 86.

(13)

Selectie en vernietiging als basisprincipe

Het idee van het toepassen van selectie en vernietiging op digitale archieven is onder andere om deze reden weer relevant geworden. De Blue Ribbon Task Force,36 Stephen Abrams,37 de schrijvers van het visierapport Gewaardeerd Verleden,38 allen dringen aan op aandacht voor selectie en vernietiging als een methode om de kosten te drukken en de toegankelijkheid van digitale informatie te vergroten. De Blue Ribbon Task Force schat dat slechts 20% van alle digitale data binnen een organisatie in aanmerking komt om tien jaar en langer te bewaren.39 Recentere cijfers van het Databerg Report 2015 van Veritas Technologies LLC spreekt zelfs over 11% van de totale data in Nederlandse organisaties die “aantoonbare zakelijke waarde” hebben: de rest dus niet.40

Die zakelijke of bedrijfskritische waarde van data is waar het pijnpunt zit voor veel organisaties. “Databerg” is een verwijzing naar de spreekwoordelijke ijsberg waarbij alleen het topje uitsteekt boven de zeespiegel. Zo ook is het percentage aan gegevens die daadwerkelijk aantoonbaar bedrijfskritisch is slechts dat topje van alle data die organisaties bewaren en beheren.41 Onder dat topje hangt nog een enorme brok data waarvan de helft zijn waarde heeft verloren, redundant is of op andere wijze geen betekenis heeft voor de organisatie. De andere helft bestaat uit “Dark Data” waarvan de waarde nog niet is bepaald en waar voor het bedrijf belangrijke informatie kan zitten, maar ook nutteloze informatie en zelfs “illegale of niet-conforme data” die op een later moment problemen kunnen veroorzaken op het gebied van aansprakelijkheid.42 Het is dan ook van belang om deze dark data onder de loep te nemen en het belangrijke te scheiden van het betekenisloze; niet slechts vanuit economisch oogpunt, maar ook om zo het overzicht te bewaren binnen de organisatie.

Selectie en vernietiging kan echter een flinke uitdaging zijn, vooral wanneer het om een groot volume aan gegevens gaat. William H.J. Hubbard, universitair docent Rechten aan de universiteit van Chicago ziet in zijn praktijk ook dat organisaties veel meer gevens bewaren dan strikt noodzakelijk. Hij wijt deze verzameldrang aan de onzekerheid bij medewerkers over wat zij precies moeten bewaren.43 Op dit gebied valt er dan ook nog een grote slag te halen. De verschillende selectielijsten binnen de overheid zijn een belangrijk hulpmiddel om inzichtelijk te maken welke informatie minimaal in aanmerking komt voor bewaring op de lange termijn; ook in de financiële sector bestaan er zulke richtlijnen.44 Met de hoge kosten voor duurzame digitale opslag worden deze richtlijnen weer actueel, niet slechts vanuit het oogpunt van de wettelijke verplichtingen, maar ook zeker vanuit economisch oogpunt.

36 “Sustaining the Digital Investment: Issues and challenges of Economically Sustainable Digital Preservation.”

Interimrapportage van de Blue Ribbon Task Force, December 2008. P. 47.

37 Abrams, Stephen. “Total Cost of Preservation (TCP): cost and price modeling for sustainable services.” The Regents of the University of California, rev. 2.2.2. d.d. 08-05-2015. P. 9.

38 Gewaardeerd verleden: bouwstenen voor een nieuwe waarderingsmethodiek voor archiveren. Rapport van de Commissie Waardering en Selectie, september 2007. Red. K.J.P.F.M. Jeurgens, A.C.V.M. Bongenaar en M.C.

Windhorst. Pp. 9 – 90.

39 “Sustaining the Digital Investment: Issues and challenges of Economically Sustainable Digital Preservation.”

Interimrapportage van de Blue Ribbon Task Force, December 2008. P. 47.

40 “Nederlandse organisaties verspillen jaarlijkse meer dan €591.000 aan opslag van nutteloze data.”

PRNewswire d.d. 28-10-2015. Prnewswire.com. Geraadpleegd d.d. 12-12-2015.

41 Veritas Technologies LLC. The Databerg Report: See What Others Don’t.” p. 3. Veritas.com Geraadpleegd d.d.

12-12-2015.

4242 “Nederlandse organisaties verspillen jaarlijkse meer dan €591.000 aan opslag van nutteloze data.”

PRNewswire d.d. 28-10-2015. Prnewswire.com. Geraadpleegd d.d. 12-12-2015.

43 Hubbard, W.H.J. “Preservation Costs Survey.” D.d. 18-02-2014, p. 47. Geraadpleegd 30-05-2015, http://www.ediscoverylaw.com/files/2014/02/Hubbard-Preservation_Costs_Survey_Final_Report.pdf

44 Zie bijvoorbeeld: “Beslisdocument (BSD) van het Bureau Financieel Toezicht (BFT) en de Commissies van Deskundigen,” vastgesteld d.d. 10-12-2012, geraadpleegd d.d. 30-05-2015,

http://www.nationaalarchief.nl/sites/default/files/docs/selectielijsten/selectielijst_bft_stcrnt_2012_26590.pdf

(14)

Andere aandachtspunten worden door het rapport van Veritas aangereikt. Zo is het aan te bevelen om de groep data met redundante en nutteloze informatie zo snel mogelijk te elimineren, zodat de kosten voor die records niet meer gedragen hoeven te worden.45 Daarnaast zouden organisaties hun IT-strategieën, hun informatiebeleid en hun budgettaire keuzes niet moeten baseren op de datavolumes in hun clouds of op hun schijven, maar eerder op de zakelijke waarde van de informatie die zij beheren en bewaren.46 Vooral uitvoerbaar beleid met betrekking tot ongestructureerde data zou helpen om het volume aan dark data te verminderen. Van belang hierbij is het om informatie met zakelijke waarde zo vroeg mogelijk te classificeren en te structureren, omdat een inhaalslag achteraf, met de enorme hoeveelheid data die we dagelijks verzamelen, een nagenoeg onmogelijke opdracht is.

Structurele aandacht voor opleiding en coaching van medewerkers tot informatiebewuste werknemers is hierbij van groot belang. Zij moeten de kennis en hulpmiddelen aangereikt krijgen om juiste beslissingen te nemen ten aanzien van het opslaan, beheren en structureren van de informatie die zij verzamelen. Op deze manier zorgen we ervoor dat we slechts dat wat waarde heeft voor de organisatie bewaren in het e-depot en daarmee de kosten voor het beheer van het depot beperken.

45 “Nederlandse organisaties verspillen jaarlijkse meer dan €591.000 aan opslag van nutteloze data.”

PRNewswire d.d. 28-10-2015. Prnewswire.com. Geraadpleegd d.d. 12-12-2015.

46 Idem.

Referenties

GERELATEERDE DOCUMENTEN

Een antwoord waaruit blijkt dat beroepsgroepen die naar verhouding schaars zijn op de arbeidsmarkt een hoger loon en daardoor een hoger inkomen ontvangen (dan. beroepsgroepen die

, met prijs r) volledige concurrentie hebben. De koste besparing wordt dan volledig doorgegeven aan de uiteindelijke consument. Dit welvaartseffect is exact gelijk aan

De middeleeuwse sporen liggen langsheen de Dadizeelsestraat; het brandrestengraf daarentegen bevindt zich centraal in het zuidelijk deel van het plangebied, op de overgang van

Het wetsvoorstel beoogd het voortbestaan van de Nationale Studentenenquête (NSE) juridisch te waarborgen en de AVG-belemmeringen voor instellingen, om gegevens aan te leveren ten

aangekondigd dat samen met het ministerie van JenV en de netwerkpartners wordt gewerkt aan standaardmaatregelen (hierna: basismaatregelen) preventieve beveiliging voor burgemeesters

heden om de eigen toegankelijkheidsstrategie te verantwoorden. Verwacht wordt dat het oplossen van deze knelpunten in combinatie met een meer ontspannen houden betreffende

onderstaande tabel zijn voor een aantal inkomens de hoogte voor de eigen bijdragen Wmo en Wlz inzichtelijk gemaakt. Bij het vergelijken van de eigen bijdragen is het belangrijk om

2 De omvang van de overhead en backoffice; deze is over het algemeen geringer bij zelfstandige basisbibliotheken met een verzorgingsgebied van minder dan 45.000 inwoners hebben