• No results found

Wie archiveren websites en waarom?

4.5 Eerste voorstelronde

In 2010 deed Maurits van der Graaf in opdracht van Digitaal Erfgoed Nederland (DEN) een verkennend onderzoek naar de opslag van born-digital materiaal door Nederlandse

erfgoedinstellingen. Een van de dingen die Van der Graaf tijdens zijn onderzoek opvielen, was dat

58 Raad voor Cultuur, Het tekort van het teveel. Over de rijksverantwoordelijkheid voor cultureel erfgoed (Den Haag 2005)

21.

59 K.J.P.F.M. Jeurgens, A.C.V.M. Bongenaar en M.C. Windhorst, Gewaardeerd verleden. Bouwstenen voor een nieuwe

waarderingsmethodiek voor archieven. Rapport van de Commissie Waardering en Selectie (Den Haag, Nationaal Archief,

2007).

60 Jeurgens, Gewaardeerd verleden, 40. 61 Ibidem, 84.

27

“nieuwe verschijningsvormen van born-digital objecten, zoals websites, games en 3D- ontwerpen momenteel niet of slechts mondjesmaat gecollectioneerd lijken te worden.”63 Toch lijkt er sinds ongeveer een jaar sprake te zijn van een opleving van de interesse in websitearchivering onder archiefinstellingen. GW Crossmedia, de leverancier van Archiefweb, ontplooit toenemende activiteit in de richting van gemeentelijke archiefdiensten om hen ervan te overtuigen dat ze, nu hun

gemeente toch al Archiefweb-software gebruikt voor de duurzame bewaring van hun gemeentelijke webcommunicatie, ook gemakkelijk aan de slag zouden kunnen met de archivering van particuliere websites. Dat Groningen en Utrecht nu ook starten met webarchivering illustreert deze tendens. De hernieuwde Amsterdamse interesse en de accentverschuiving die bij een gecombineerde

bibliotheek-archiefinstelling als Tresoar optreedt, wijzen in dezelfde richting en ook artikelen in het Archievenblad in 2012 en 2015 duiden op een voorzichtig toenemende belangstelling.64

Mijn onderzoek richt zich op de zes gemeentelijke of regionale archiefinstellingen die zich op dit moment op het terrein van de websitearchivering begeven. Met het oog op de context waarin zij opereren, wil ik, vóór dat ik deze instellingen nader voorstel, hier eerst weergeven welke andere instellingen er eveneens op dit speelveld actief zijn en kort beschrijven op wat voor manier zij zich bezighouden met het archiveren van websites. Ik wil daarbij beginnen met onmiskenbaar de

belangrijkste van die ‘andere’ instellingen, namelijk de Koninklijke Bibliotheek en wat deze instelling betreft ook wat dieper ingaan op beweegredenen en selectiebeleid.

4.5.1 De Koninklijke Bibliotheek

De grootste verzamelaar van websites in Nederland is geen archiefinstelling, maar een bibliotheek: de Koninklijke Bibliotheek (KB). Archivering van websites wordt door de KB min of meer op dezelfde manier benaderd als de collectionering van boeken en andere uitgaves van vaderlandse bodem. Zoals de KB idealiter van elke Nederlandse uitgave ten minste één exemplaar in haar collectie zou willen opnemen, zo zou ze ook elke Nederlandse website in haar webarchief willen opslaan. Dat laatste is echter alleen al vanwege de hoeveelheden volstrekt uitgesloten.

De limieten aan de websitearchivering door de KB worden echter ook nog op basis van andere factoren bepaald. Zo kent Nederland geen wettelijke depotplicht, in tegenstelling tot landen als Groot-Brittannië, Frankrijk en België. Depotplicht houdt in dat uitgevers en andere instanties die publiceren, verplicht zijn om van elk van hun publicaties ten minste één exemplaar te deponeren bij de nationale bibliotheek (of een van de andere daarvoor aangewezen bibliotheekinstellingen). In Nederland is dus geen sprake van plicht, maar bestaat wel, sinds 1974, een vrijwillig depot van Nederlandse publicaties waarin van alle de Koninklijke Bibliotheek vrijwillig ter beschikking gestelde publicaties minimaal één archiefexemplaar wordt bewaard. Dit vrijwillige depot geldt in principe ook voor elektronische publicaties, maar daarbij denkt de KB in eerste instantie aan zelfstandig

verschenen digitale publicaties in bij voorkeur PDF- of Word-formaat. Voor opslag van complexere

63 Maurits van der Graaf, Born-digital erfgoedmaterialen bij een selectie van Nederlandse erfgoedinstellingen . een

verkennend onderzoek (Amsterdam 2010) 36.

64 Gerrit Voerman, René Voorburg en Hugo Huurdeman, Webarchivering: een pleidooi voor een archiverend netwerk van

organisaties, Archievenblad 7 (2012) 30-33; Floortje Tuinstra, We are history. Webradio De Stem van West duurzaam gearchiveerd, Archievenblad 5 (2015) 22-24.

28

digitale uitgaven, zoals online periodieken, ontbreken bij de KB vooralsnog de technische faciliteiten.65

De opslag van websites bevindt zich daarom nog ‘buiten’ het vrijwillige depot. Dit betekent ook dat binnen de KB niet meer dan een relatief bescheiden deel van budgetten en personeel kan worden vrijgemaakt voor het archiveren van websites; een heel andere situatie dan in bijvoorbeeld in de British Library.66 Waar de KB op dit moment maximaal 2,5 fte kan aanwenden voor de archivering van websites, heeft de British Library een omvangrijk en goed geoutilleerd team van inhoudelijke, technische en juridische experts dat zich fulltime bezighoudt met deze taak.

De Koninklijke Bibliotheek is officieel gestart met de archivering van websites op 10 september 2007. De motivatie hiervoor was dezelfde als die voor het hierboven genoemde depot van Nederlandse publicaties. “Van oorsprong heeft de KB de opdracht om gedrukte publicaties te verzamelen uit en over Nederland - opdat die voor toekomstige wetenschappers en studenten beschikbaar zullen zijn. Sinds het begin van deze eeuw is een groot deel van ons (geschreven) openbare leven verplaatst naar internet. Internet is bij uitstek een vluchtig medium, waarop de informatie zeer snel veroudert. Om wetenschappers in de toekomst toegang te kunnen bieden tot die onschatbare bron van informatie, is de KB in 2007 gestart met het archiveren van een selectie van Nederlandse websites.”67

In haar collectieplan geeft de KB aan dat ze, met het verzamelen van websites haar kerntaak van een zo volledig mogelijke Nederlandse erfgoedcollectie in het Depot van Nederlandse Publicaties

enigszins oprekt. “Voorlopig”, zo zegt het collectieplan, “kunnen we ze [i.e. websites] interpreteren als seriële publicaties, waarbij overigens het moment waarop je van een volgende aflevering, - eindversie - spreekt, arbitrair is.”68 Websites worden gezien als een ‘bijzondere collectie’ en aan de collectievorming hiervan ligt het principe van representativiteit ten grondslag. Zowel voor de bijzondere geschreven en gedrukte, als voor digitale collecties geldt dat volledigheid een utopie is. Het gaat er om een representatieve verzameling aan te leggen.69 Omdat er feitelijk slechts een fractie van de miljoenen Nederlandse webdomeinen kan worden gearchiveerd, neemt Peter de Bode, Collectiespecialist Webarchief van de KB, voor wat betreft het webarchief het woord ‘representatief’ echter liever niet in de mond.70

Websitearchivering staat in de KB dus naast aanschaf en verwerving van andere publicaties. Het is geen aanvulling daarop of afgeleide daarvan, ook geen substituut. Het is een zelfstandige collectie

65 Website KB: http://www.kb.nl/organisatie/voor-uitgevers/publicaties-deponeren/losse-elektronische-publicaties-

deponeren, 17-5-2015.

66 De wettelijke depotplicht in Groot-Brittannië, die teruggaat tot het jaar 1662, is sinds 2013 ook van toepassing op

elektronische publicaties: “The British Library and other Legal Deposit Libraries are entitled by law to collect UK-published material that is protected by password or behind a login facility by harvesting, subject to giving at least 1 month’s written notice for the publisher to provide a password or access credentials.” Website British Library:

http://www.bl.uk/aboutus/legaldeposit/websites/elecpubs/, 17-5-2015]

67 Website KB: http://www.kb.nl/organisatie/onderzoek-expertise/e-depot-duurzame-opslag/webarchivering,

geraadpleegd op 17-5-2015.

68 Koninklijke Bibliotheek, Collectieplan 2010-2013. Fysiek en digitaal integraal (Den Haag 2010) 17.

Download van website KB: http://www.kb.nl/organisatie/organisatie-en-beleid/collectieplan-2010-2013.

69 Ibidem, 16.

29

die een dwarsdoorsnede van het Nederlandse webdomein beoogt te zijn en tot stand komt door middel van beredeneerde selectie.71

Een zeker evenwicht in de genoemde dwarsdoorsnede wordt nagestreefd door alle gearchiveerde websites te voorzien van een UNESCO-rubrieksaanduiding; dezelfde aanduidingen die door de KB worden toegekend aan al haar andere bibliotheekmaterialen. Het is de bedoeling om in het websitearchief tot een verdeling over de verschillende rubrieken te komen die vergelijkbaar is met de UNESCO-verdeling in de gehele KB-collectie. Representativiteit, áls daarover al gesproken wordt, moet dus gezien worden in het licht van de KB-collectie en niet afgezet worden tegen de

Nederlandse samenleving als geheel. Omdat de KB historisch gezien een humaniora-bibliotheek is die zich bezighoudt met de Nederlandse taal, cultuur en samenleving, zijn rubrieken die gerekend

kunnen worden tot de menswetenschappen in het webarchief veel ruimer vertegenwoordigd dan meer technische rubrieken. De KB documenteert de samenleving, maar wel vanuit haar specifieke werkgebied.72 Toch is er een nadrukkelijk streven om niet alleen vanuit het KB-collectieplan naar websitearchivering te kijken, maar deze ook een afspiegeling te laten zijn van de samenleving als geheel. “Willen wij (…) het webarchief ook een spiegel van de maatschappij laten zijn,” aldus Peter de Bode, “dan zal het selectieteam ook websites moeten opnemen die op een bepaald moment of over een langere periode grote populariteit genieten. In 2013 is een bestand van ca. 11.000 populaire websites uit de Nederlandstalige Wikipedia (de zogenaamde Wikilijst) samengesteld, waaruit een medewerker van het webarchiefteam selecteert.”73

De KB is weliswaar een archiverende, maar géén archiefinstelling en de wijze waarop de KB

websitearchivering benadert, is bij uitstek bibliothecair. Gearchiveerde websites worden door de KB toegevoegd aan de KB-collectie websites en worden bewaard en beschreven als losse publicaties en, wanneer het meerdere momentopnamen van een zelfde website betreft, als ‘seriële publicaties’. Deze bibliotheekbenadering van websitearchivering zullen we hierna bij sommige van de zes onderzochte archiefinstellingen nog terugzien.

4.5.2 Archipol

Het Documentatiecentrum Nederlandse Politieke Partijen (DNPP) startte in 2000, in samenwerking met de Universiteitsbibliotheek Groningen met de archivering van websites van Nederlandse politieke partijen. Dit project, dat ‘Archipol’ werd genoemd, is daarmee dé pionier in Nederland op het gebied van websitearchivering. De reden waarom het DNPP dit deed is eenvoudig: “Het DNPP beschouwt het bewaren van de websites van de partijen als een logisch vervolg van zijn traditionele taak, namelijk het documenteren van gedrukte publicaties van en over partijen.”74

In vijftien jaar is er een archief opgebouwd van op dit moment 940 websites. Sinds kort archiveert het DNPP ook tweets van politici, maar die zijn nog niet online terug te lezen.75 De gearchiveerde websites worden bewaard op een server van de Rijksuniversiteit Groningen.

71 Website KB: http://www.kb.nl/organisatie/onderzoek-expertise/e-depot-duurzame-opslag/webarchivering/selectie-bij-

webarchivering, 17-5-2015.

72 Gesprek met Peter de Bode, Den Haag, 1-5-2015.

73 Peter de Bode, Fragmenten uit de interne Nota Webarchivering (oktober 2014), mail 22-4-2015. 74 http://www.archipol.nl, 22-4-2015.

30

Het DNPP onderhoudt goede contacten met de mensen achter het websitearchief van de Koninklijke Bibliotheek. Op die manier voorkomen beide instellingen dat dit specifieke segment van het

Nederlandse weblandschap dubbel gearchiveerd wordt. Wie de gearchiveerde politieke websites wil raadplegen, kan dat gratis en online doen, na aanmelding bij Archipol. Daarmee is Archipol niet alleen het eerste websitearchief van Nederland, maar momenteel ook nog steeds het enige dat een substantieel aantal websites online beschikbaar stelt.

4.5.3 Nederlands Instituut voor Beeld en Geluid

Het Nederlands Instituut voor Beeld en Geluid is eigenlijk nog maar net begonnen met de archivering van websites van de Nederlandse publieke omroepen. In het zestig pagina’s tellende Collectieplan uit 2013 wordt er nog met geen woord over gerept en op de huidige website van Beeld en Geluid wordt nog nadrukkelijk gesproken van een pilot.76 Deze pilot, bedoeld om de potentie van webarchivering te laten zien, bestaat op dit moment uit drie gearchiveerde websites van de Nederlandse publieke omroep NTR.77

Beeld en Geluid bewaart websites vooral omdat ze contextinformatie bieden bij de eveneens in het instituut gearchiveerde programma’s. “Omroepwebsites geven een heel goed overzicht van de ontwikkelingen binnen de omroepen en van hun programma’s. Op programmawebsites wordt een programma in context gepresenteerd door omroepen en makers, waarbij kijkers direct kunnen reageren en vaak zelf ook bijdragen door foto’s en video’s te plaatsen. Op de fora en in blogs van de publieke omroepwebsites worden programma’s uitgebreid besproken. Om de context van de AV- collectie van Beeld en Geluid te kunnen vangen, moeten dus ook de websites van de publieke omroepen worden gearchiveerd.”78 De relatie met de audiovisuele kerncollectie van Beeld en Geluid vormt dus de basis, vandaar dat in het webarchief vooral websites van de publieke omroepen gearchiveerd zullen worden. Een tweede reden voor Beeld en Geluid om in te zetten op

websitearchivering is de kwetsbaarheid van websites in vergelijking met fysiek archiefmateriaal. Het Nederlands medialandschap is erg dynamisch en er zijn en worden nog steeds grote bezuinigingen op los gelaten. Daar bovenop komt dat de rijksoverheid wetgeving voorbereidt die ertoe zal leiden dat de aantallen websites die omroepen er op nahouden drastisch zullen moeten worden teruggesnoeid. Beeld en Geluid wil in elk geval een substantieel aantal van die bedreigde websites archiveren en roept het publiek via zijn website op om mee te denken welke websites van de publieke omroep het bewaren waard zijn.

4.5.4 Internet Archive

Veruit de meeste Nederlandse webpagina’s zijn waarschijnlijk gearchiveerd door het Internet Archive, een Amerikaans initiatief van de idealistische miljonair Brewster Kahle dat in negentien jaar is aangezwollen tot een online collectie van immense omvang. ‘Waarschijnlijk’ want via de

zoekmachine van het Internet Archive is niet na te gaan hoeveel Nederlandse websites er in dit archief zitten.

76 Nederlands Instituut voor Beeld en Geluid, Collectiebeleid Beeld en Geluid (Hilversum 2013). 77 http://www.beeldengeluidwebarchief.nl, 24-6-2015.

31

Het idee achter Internet Archive is even simpel als megalomaan: ‘Universal Access to all Knowledge’. Naast websites archiveert het Internet Archive ook boeken, films, audio en software. Inmiddels kan iedereen via de ‘Wayback Machine’ gratis meer dan 485 miljard in het Internet Archive opgeslagen webpagina’s doorzoeken.79

De manier waarop het Internet Archive te werk gaat, verschilt wezenlijk van die waarop de Nederlandse website-archiverende instellingen dat doen. Internet Archive trekt als het ware een gigantisch sleepnet over de bodem en archiveert zo volautomatisch een beperkt aantal niveaus van duizenden websites zonder zich in de inhoud daarvan te verdiepen. Veel visuele elementen op websites glippen door de mazen van het net. De gearchiveerde webpagina’s vertonen daardoor visueel, maar ook inhoudelijk, soms maar een beperkte gelijkenis met de oorspronkelijke pagina’s. Websites die door robots.txt afgeschermd zijn worden in de crawls helemaal niet meegenomen. Voor de Nederlandse instellingen is het Internet Archive vooral inspirerend in zijn schaal en ambities, maar voor de invulling van het eigen websiteacquisitiebeleid niet relevant. De Koninklijke Bibliotheek heeft wel af en toe contact met Internet Archive, onder andere om via die weg websites te laten archiveren die door de KB zelf niet kunnen worden geharvest omdat zij gebonden is aan de Nederlandse wetgeving - iets waar men in Californië geen rekening mee hoeft te houden. Dat de webachivering door het Internet Archive, in het licht van de bedoelingen die Nederlandse archiefinstellingen hebben, niet aan de maatstaven kan voldoen, neemt niet weg dat er dankzij Internet Archive heel veel informatie bewaard is gebleven die anders helemaal verdwenen zou zijn.