• No results found

Witte neushoorns in de dierentuin. Acquisitie en archivering van particuliere websites door Nederlandse archiefinstellingen

N/A
N/A
Protected

Academic year: 2021

Share "Witte neushoorns in de dierentuin. Acquisitie en archivering van particuliere websites door Nederlandse archiefinstellingen"

Copied!
64
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Stefan Rutten

(2)
(3)

Witte neushoorns in de dierentuin

Acquisitie en archivering van particuliere websites

door Nederlandse archiefinstellingen

Masterscriptie Archiefwetenschap

Stefan Rutten

Studentnummer: 10438068

26 augustus 2015

Universiteit van Amsterdam

Faculteit der Geesteswetenschappen

Begeleider: Prof. Dr. Th.H.P.M. Thomassen

(4)

Inhoud

Inleiding 1 0.1 Onderzoeksvraag 3 0.2 Afbakening 3 0.3 Bronnen 5 0.4 Leeswijzer 5

Hoofdstuk 1 Wat is een website? 6

1.1 Opbouw en omvang 6

1.2 Non-lineair 6

1.3 Onduidelijke begrenzing 7

1.4 Gedrag 8

1.5 Dus, wat is een website? 9

1.6 Een stratificatie van het web 9

1.7 Medium of drager 11

Hoofdstuk 2 Websites als historische bron 13

2.1 Aandacht van de historische wetenschap 13

2.2 Feitelijk gebruik van websites als historische bron 14

2.3 Duizelingwekkende toename 15

2.4 Gefixeerde dynamiek 15

Hoofdstuk 3 Websites als archief 17

3.1 Informatie-objecten en context 17

3.2 Herkomst- en structuurbeginsel 18

3.3 Archiveerbaarheid van websites 19

3.3.1 Gearchiveerde websites en live websites 19

3.3.2 Archiveerbaarheid 20

3.3.3 Harvesting-methodes 21

3.3.4 Beredeneerde keuzes 22

Hoofdstuk 4 Wie archiveren websites en waarom? 24

4.1 Archieven en collecties 24 4.2 Archiefinstellingen en bibliotheken 24 4.3 Coördinatie 25 4.4 De samenleving documenteren (1) 25 4.5 Eerste voorstelronde 26 4.5.1 De Koninklijke Bibliotheek 27

(5)

4.5.2 Archipol 29

4.5.3 Nederlands Instituut voor Beeld en Geluid 30

4.5.4 Internet Archive 30 4.6 Tweede voorstelronde 31 4.6.1 Tresoar 32 4.6.2 Groninger Archieven 33 4.6.3 Stadsarchief Amsterdam 34 4.6.4 Stadsarchief Rotterdam 35

4.6.5 Regionaal Archief Dordrecht 37

4.6.6 Het Utrechts Archief 38

4.7 Grote variatie 39

Hoofdstuk 5 Archiefinstellingen, websites en acquisitiebeleid 41

5.1 De samenleving documenteren (2) 41

5.2 Cultuurhistorische documentatie en archiefwettelijke bewaarplicht 41

5.3 Acquisitiebeleid, -profielen en -plannen 43

5.4 Passieve acquisitie 43

5.5 Actieve acquisitie en websitearchivering 44

5.5.1 Harvesting in de praktijk 44

5.5.2 Verschillen tussen het ‘harvesten’ van websites en van traditioneel archief 45 5.5.3 Mogelijke benaderingen van acquisitie van websites 46

5.5.4 Populariteit als selectiecriterium 46

5.6 Zes archieven, zes benaderingen 47

5.6.1 Groninger Archieven 47

5.6.2 Het Utrechts Archief 48

5.6.3 Regionaal Archief Dordrecht 48

5.6.4 Tresoar 49

5.6.5 Stadsarchief Rotterdam 49

5.6.6 Stadsarchief Amsterdam 50

5.7 Waarom websites van invloed zijn op het acquisitiebeleid… 50 5.8 …en waarom websites toch nauwelijks van invloed zijn op het acquisitiebeleid 51

Conclusies 53

Bronnen 56

Literatuur 56

Websites 57

(6)

1

Inleiding

“Information published on the World Wide Web today will be the primary resources for future researchers” luidt de eerste en voornaamste boodschap op de homepage van het International Internet Preservation Consortium (IIPC).1

Willen we in de toekomst in staat zijn ons een goed beeld te vormen van onze huidige samenleving, dan kunnen we niet buiten archivering van de online manifestaties van die samenleving. Een

belangrijk deel van die samenleving online zijn websites. Eind 2014 telde Nederland circa 7,5 miljoen geregistreerde domeinnamen en hoewel niet elke domeinnaam een website herbergt, is dit aantal hoe dan ook duizelingwekkend. Van alle Nederlandse bedrijven en instellingen had in 2009 al 82 procent een eigen website.2

Toch zijn er, terwijl bijna alle archiefinstellingen particuliere archieven verzamelen met het oog op toekomstige generaties die zich een beeld moeten kunnen vormen van de samenleving van vandaag, nog opvallend weinig archiefinstellingen die zich met de archivering van particuliere websites

bezighouden. Onder ‘particuliere websites’ versta ik dan, voor alle duidelijkheid, websites van organisaties, instellingen, personen of andere maatschappelijke verbanden die niet vallen onder de Archiefwet 1995.

Dat overheden zorg dienen te dragen voor de archivering van hun webcommunicatie staat inmiddels buiten twijfel. In een rapport uit 2014 over de archivering van websites en sociale media bij de provinciale overheden wordt dit duidelijk verwoord en juridisch onderbouwd: “Nu wettelijk is bepaald dat provinciale websites blijvend bewaard moeten worden, betekent dit dat deze archiefbescheiden, zodra ze ouder zijn dan twintig jaar, overgebracht moeten worden naar een archiefbewaarplaats (art. 12 Archiefwet 1995). Het moet voor eenieder vervolgens mogelijk zijn die archiefbescheiden kosteloos te raadplegen (art. 14 Archiefwet 1995). Inhoud en vorm van websites die nog geen 20 jaar oud zijn, moeten ingevolge art. 3 Archiefwet 1995 in goede, geordende en

1 http://www.netpreserve.org/, 10-4-2015.

2 CBS Statline: ICT-gebruik bij bedrijven naar bedrijfsgrootte, 2009,

(7)

2

toegankelijk staat bewaard blijven door het overheidsorgaan dat verantwoordelijk is voor de bescheiden. Samenvattend betekent dit dat websites blijvend bewaard moeten worden en ze, of ze nu ouder of jonger dan 20 jaar zijn, door eenieder kosteloos te raadplegen moeten zijn.”3

Dat bewaring van overheidswebsites verplicht is, wil nog niet zeggen dat de Nederlandse

archiefinstellingen zich nu massaal bezighouden met de archivering van websites. Sterker nog: het aantal archiefinstellingen dat dit wél doet is op de vingers van twee handen te tellen. De uitspraak die Maurice van den Dobbelsteen van het Nationaal Archief deed op een NCDD-symposium in 2011, is in dit opzicht veelzeggend: “overheidsinstellingen (‘zorgdragers’) hebben zelf de plicht om hun websites te archiveren. Dat gaat het Nationaal Archief niet voor ze doen. Het NA ontfermt zich pas over websites nadat ze zijn overgedragen.”4

De praktijk is dan ook dat veel Nederlandse overheden inmiddels hun website archiveren zonder dat de plaatselijke archiefdienst daarbij betrokken is. Kenmerkend is het antwoord van het Stadsarchief Rotterdam op mijn vraag naar de relatie tussen archivering door de gemeente Rotterdam van de eigen webcommunicatie en de archivering van particuliere websites door het Stadarchief: “De archivering van particuliere websites door het Stadsarchief Rotterdam staat geheel los van de archivering, in het kader van de archiefwettelijke verplichtingen, van de website van de gemeente Rotterdam. Dat gebeurt op het Stadhuis en met behulp van andere software.”5

Sommige archiefinstellingen worden echter, juist omdat ‘hun’ overheid zijn plicht als archiefwettelijk zorgdrager is gaan invullen in de vorm van de aanschaf en implementatie van software voor

webarchivering, op ideeën gebracht. Als de programmatuur toch al is aangeschaft, kan deze dan niet ook gebruikt worden voor archivering van particuliere websites? Vanzelfsprekend is dit een idee dat ook bij de softwareleveranciers is opgekomen. Een bedrijf als GW Crossmedia, dat inmiddels honderden Nederlandse overheidsinstanties bedient met het pakket Archiefweb.eu, biedt sinds enige tijd ook een aanvulling op dat pakket aan die het voor archiefinstellingen relatief gemakkelijk maakt om ook particuliere webcommunicatie te gaan archiveren, die dan bovendien op termijn langs dezelfde weg ontsloten kan worden als de archiefwettelijk gearchiveerde overheidswebsite.

De archiefinstellingen die de archivering van particuliere websites ter hand nemen, doen dit vanuit de opvatting dat ze niet alleen een taak hebben in het bewaren van overheidsarchief in het kader van bewijsvoering en verantwoording, maar ook in het documenteren van de samenleving. Dat

bewustzijn is in de Nederlandse archiefwereld, zeker sinds de belangrijke rapporten Het tekort van het teveel van de Raad voor Cultuur (2005) en Gewaardeerd verleden van de Commissie Selectie en Waardering (2007), sterker geworden. Dit documenteren van de samenleving gebeurt niet zomaar voor de vuist weg, maar op basis van acquisitiebeleid. Archiefinstellingen ontwikkelen en formuleren

3 M.H. Paapst T. Mulder en H.T. van der Waaij, “We gaan onze website niet helemaal in brochure drukken”

Een onderzoek naar de archiveringspraktijk van websites en social media bij provincies. (Groningen 2014) 10.

4 Verslag van het symposium “Webarchivering in Nederland: de status anno 2011”, georganiseerd door de Nationale

Coalitie Digitale Duurzaamheid (NCDD) op 18 april 2011, http://digitaalduurzaam.blogspot.nl/2011/04/webarchivering-in-nederland-de-status.html, 1-6-2015.

5 Gesprek met Willemijn van der Ark, Expert Informatiebeheer/ Coördinator Digitaliseren Stadsarchief Rotterdam,

(8)

3

ideeën over wat wél en wat niet verzameld moet worden om de samenleving afdoende te documenteren.

De onder archiefinstellingen voorzichtig groeiende belangstelling voor websitearchivering enerzijds en het toegenomen bewustzijn van het documenteren van de samenleving als een taak voor archiefinstellingen anderzijds, leiden tot de veronderstelling dat de archivering van particuliere websites van invloed moet zijn op het acquisitiebeleid ten aanzien van particuliere archieven en vice versa.

0.1 Onderzoeksvraag

Dit is een vergelijkend, maar vooral verkennend onderzoek. De bedoeling is om aan de hand van een nadere beschouwing van de verschillende archiefinstellingen die zich met websitearchivering bezighouden een beeld te geven van de stand van zaken in Nederland op dit gebied. Dit doe ik aan de hand van de volgende onderzoeksvraag:

Hoe verhoudt het verzamelbeleid en -gedrag van Nederlandse openbare archiefinstellingen voor wat betreft archivering van particuliere websites zich tot hun acquisitiebeleid en -gedrag ten aanzien van particuliere archieven in het algemeen?

Bij de beantwoording van deze vraag zullen verschillende deelvragen aan de orde komen: - Welk doel hebben archiefinstellingen voor ogen met webarchivering?

- Op basis van welke selectiecriteria archiveren archiefdiensten particuliere websites? - Heeft archivering van websites invloed op het acquisitiebeleid en -gedrag?

Vóórdat de verhouding tussen acquisitiebeleid en websitearchivering concreet aan bod komt, ga ik eerst in op de vraag wat websites eigenlijk zijn en waarin deze zich onderscheiden van andere bronnen. Het bijzondere karakter van websites maakt de acquisitie en archivering ervan namelijk tot een complexe aangelegenheid. De vraag is immers niet alleen welke websites bewaard moeten worden, maar, omdat websites veranderlijk zijn, ook hoe vaak dat moet gebeuren. En: wát van een website moet er eigenlijk bewaard worden; waar houdt de content op en waar begint de context? Tot op welk niveau moet die context bewaard worden? Het zijn kwesties die ik in dit onderzoek niet centraal stel en ook niet zal kunnen beantwoorden, maar die in het licht daarvan toch nader bekeken moeten worden. Het specifieke karakter van websites als archiefstuk en als historische bron is immers medebepalend voor de keuzes die archiefinstellingen maken bij de acquisitie ervan.

0.2 Afbakening

Omdat de problematiek van websitearchivering veelzijdig is en vanuit verschillende perspectieven bekeken kan worden, is een strenge afbakening van mijn onderzoeksobject van belang. De eerste toespitsing lijkt gratuit, maar is misschien wel de belangrijkste:

- Dit onderzoek beperkt zich tot websites. Andere born digital bronnen die door archiefinstellingen om cultuurhistorische redenen voor langdurige bewaring geselecteerd kunnen worden, zoals

(9)

4

weblogs, sociale media, wiki’s en games, blijven in principe buiten beschouwing. Soms maken deze overigens wel deel uit van gearchiveerde websites.6

Andere afbakeningen, waarvan sommige hierboven al terloops zijn genoemd, maar die ik hier nog eens expliciet op een rij wil zetten zijn:

- Dit onderzoek betreft de archivering van particuliere websites; dat wil zeggen websites die niet volgens de archiefwet gearchiveerd moeten worden, maar die vanuit cultuurhistorisch perspectief bewaard kunnen worden.

- Dit onderzoek beperkt zich in principe tot Nederlandse openbare archiverende instellingen met een algemeen karakter. Specialistische instellingen, zoals bijvoorbeeld het Instituut voor Beeld en Geluid en het Nederlands Documentatiecentrum voor Politieke Partijen, zullen slechts zijdelings aan de orde komen.

- Dit onderzoek richt zich op acquisitie en selectie; op de argumentatie en handelswijze die bepalend zijn voor welke websites wel en welke niet worden gearchiveerd. Dit impliceert dat er ook aspecten van websitearchivering zijn waarop dit onderzoek zich in principe niet richt:

- Het onderzoek is niet gericht op technische aspecten.

- Het onderzoek is evenmin gericht op juridische, auteursrechtelijke aspecten.

De bepaling ‘in principe’ geeft aan dat er, indien dat naar mijn mening relevant of verhelderend was, wel door mij is afgeweken van de aangegeven hoofdroute. Ingeslagen zijpaden leiden echter steeds weer terug naar de centrale thematiek.

Deze afbakening van mijn onderzoek heeft geresulteerd in een lijst van de zes Nederlandse openbare archiverende instellingen met een algemeen karakter die zich bezighouden met archivering van particuliere websites. In alfabetische volgorde zijn dit: Groninger Archieven, Het Utrechts Archief, Regionaal Archief Dordrecht, Stadsarchief Amsterdam, Stadsarchief Rotterdam en Tresoar Leeuwarden. Deze zes archiefinstellingen heb ik nader onderzocht. Ik heb gekeken wat ze beleidsmatig hebben vastgelegd op het gebied van websitearchivering: welk doelen ze daarmee beogen, welke selectiecriteria ze hanteren, hoe hun websitearchief is ingericht en welke functies dit vervult. Ook heb ik onderzocht hoe de archivering van websites feitelijk in zijn werk gaat. Daarnaast heb ik gekeken naar het acquisitiebeleid van deze zes archiefinstellingen ten aanzien van particuliere archieven en naar de rol die zij daarin zien voor websitearchivering

Gaande het onderzoek werd al snel duidelijk dat de rol die de Koninklijke Bibliotheek in Nederland op het gebied van websitearchivering speelt, niet slechts zijdelings belicht kan worden, ook al is de KB geen archiefinstelling. Vandaar dat naast de zes archiefinstellingen, ook de KB in dit onderzoek uitgebreider aan de orde komt.

6 Kenny De Vilder bijvoorbeeld rekent in zijn onderzoek naar archivering van sociale media uit 2013 “(onderdelen van)

websites” ook tot de sociale media. Kenny de Vilder, #@an de slag! De archivering van sociale media bij Nederlandse

gemeenten (Amsterdam 2013) 11.

(10)

5

0.3 Bronnen

De beantwoording van mijn onderzoeksvraag en deelvragen was ten dele mogelijk aan de hand van de beleidsstukken die de instellingen hebben opgesteld: acquisitieplannen, -profielen, collectie- en bedrijfsplannen, enzovoort. Het beeld dat uit het bronnenonderzoek naar voren kwam heb ik gecompleteerd met en gespiegeld aan uitgebreide gesprekken met de voor websitearchivering verantwoordelijke archiefmedewerkers.

Omdat de zes archiefinstellingen die zich met webarchivering bezighouden sterk verschillen wat betreft de fase waarin zij zich op dit gebied bevinden en wat betreft benadering en aanpak, heb ik afgezien van een vaste vragenlijst. In plaats daarvan maakte ik voorafgaand aan elk gesprek een lijst met een aantal meer algemene en een aantal specifiek voor de desbetreffende instelling relevante vragen. Tijdens het gesprek stelde ik deze vragen aan de orde, niet in een dwingende volgorde, maar op een min of meer organische manier. Van elk gesprek maakte ik een uitgebreid verslag, dat ik de geïnterviewden toestuurde. Hun correcties en commentaren voerde ik vervolgens onverwijld door, waardoor de definitieve verslagen beschouwd kunnen worden als betrouwbare weergaven van de gedachtewisselingen.

Voor het theoretisch kader van dit onderzoek was met name de vraag van belang in welk opzicht websites anders zijn dan traditionele bronnen, zowel in hun rol als dragers van historische

informatie, als in hun rol van archiefmateriaal. Om me daarvan een helder beeld te vormen, heb ik mij georiënteerd binnen een breed veld van wetenschappelijke en vakliteratuur, waarbij opviel dat er eigenlijk relatief weinig is gepubliceerd over websites als (primaire) bron van historisch onderzoek en dat er evenmin kasten vol zijn geschreven over websites als archief. In die eerste categorie heb ik vooral inspiratie kunnen putten uit de gedachten die Niels Brügger hierover heeft geformuleerd, in de tweede categorie zijn met name de stukken van Erika Hokke en Peter Horsman uit de jaren 2003-2006 en ideeën die Filip Boudrez in diezelfde periode op papier zette, invloedrijk geweest.

0.4 Leeswijzer

In hoofdstuk 1 staat de ogenschijnlijk eenvoudige vraag centraal wat een website nou eigenlijk is. In hoofdstuk 2 buig ik me over het belang van websites als cultuurhistorisch bron; waarom ze als zodanig bewaard zouden moeten worden. Hoofdstuk 3 bekijkt websites vanuit het archivistische perspectief: wat van de website moet gearchiveerd worden en wat zijn de mogelijkheden om dat te doen? Daarmee begeeft dit onderzoek zich al meer op praktisch terrein. Hoofdstuk 4 zoomt verder in op die praktijk door te kijken welke Nederlandse erfgoed- en archiefinstellingen zich daadwerkelijk bezighouden met de archivering van particuliere websites en op welke manier zij deze bezigheid benaderen. In hoofdstuk 5 ten slotte verbind ik die activiteit van websitearchivering met het

acquisitiebeleid van de onderzochte instellingen, of - beter gezegd - kijk ik of en hoe die activiteit en dat beleid door deze instellingen met elkaar verbonden worden.

(11)

6

Hoofdstuk 1

Wat is een website?

Alvorens verder in te gaan op Websites als archiefmateriaal en op websites als bronnen voor historisch onderzoek, is het zinvol om op een basale manier naar websites te kijken. Wat zijn websites eigenlijk en waarin onderscheiden ze zich van andere informatiebronnen? Het specifieke karakter van websites heeft immers invloed op het mogelijke gebruik ervan als bron voor historisch onderzoek en op de archivering ervan.

1.1 Opbouw en omvang

In de definitie van het W3 Consortium is een website: “a collection of interlinked Web pages,

including a host page, residing at the same network location. ‘Interlinked’ is understood to mean that any of a Web site's constituent Web pages can be accessed by following a sequence of references beginning at the site's host page; spanning zero, one or more Web pages located at the same site; and ending at the Web page in question.”7 De minimale basiseenheid van een website is dus de webpagina. Daarvan heeft elke website er ten minste één. Een belangrijk kenmerk van webpagina’s (en dus van websites) is dat ze bestaan en ontstaan vanuit verschillende digitale elementen die op het internet worden getoond in de samenhang van een webpagina. Het W3 Consortium definieert een webpagina als; “a collection of information, consisting of one or more web resources, intended to be rendered simultaneously and identified by a single URI.”8

Zoals een website dus bestaat uit minimaal één webpagina, zo bevat een webpagina minimaal één online bron. Een maximaal aantal elementen voor een webpagina bestaat in principe niet en

evenmin zijn er in theorie beperkingen aan het maximale aantal webpagina’s dat samen één website vormt.

1.2 Non-lineair

Een tweede kenmerk van websites is dat ze geen lineaire structuur hebben. Er is met enige goede wil nog wel een officieel startpunt van een website aan te wijzen, namelijk de homepage, die over het

7 Website W3 Consortium http://www.w3.org/1999/05/WCA-terms/01, 9-6-2015. 8 Ibidem.

URI: ‘Uniform Resource Identifier’, een unieke code waardoor een website vindbaar is op het internet en te onderscheiden van andere websites. Website W3 Consortium http://www.w3.org/Addressing/. 9-6-2015

(12)

7

algemeen bedoeld is als een soort introductie van wat zich verder op de subpagina’s van een site bevindt. Maar niet elke bezoeker van de website komt binnen door deze hoofdingang. Elke

subpagina heeft zijn eigen in- en uitgangen. In dit opzicht verschilt een website echter nog niet van een traditionele papieren publicatie. Zo mopperen archivarissen bijvoorbeeld al jaren dat klanten maar zeer zelden de inleiding van een inventaris lezen; een verzuim om de ‘voorgeschreven’ volgorde in acht te nemen dat, dankzij de digitalisering van inventarissen en de mogelijkheden voor de doorzoekbaarheid die daarmee zijn ontstaan, alleen maar wijder verbreid is geraakt. Voor die online inventarissen geldt wat eigenlijk geldt voor alle websites: er ís geen voorgeschreven volgorde meer. In tegenstelling tot traditionele publicaties die een genummerde hoofdstukindeling hebben en een oplopende paginanummering, zijn websites niet lineair gestructureerd, al kennen ze nog wel een zekere hiërarchie van hoofdpagina en subpagina’s. De ‘plaats’ van een specifieke subpagina wordt echter niet bepaald door de pagina’s ervoor en erna, maar door de hyperlinks die deze pagina verbinden met andere pagina’s binnen (en buiten) de website.

Het klassieke lineaire karakter blijkt online vaak zelfs op één webpagina al ernstig geërodeerd te zijn. Onderzoek met eye tracking apparatuur heeft uitgewezen dat de traditionele volgorde waarop mensen gedrukte media in zich opnemen - hun ogen bewegend van links naar rechts, van boven naar beneden - online nauwelijks meer op gaat.9

1.3 Onduidelijke begrenzing

Hoewel een homepage en de onderliggende webpagina’s zich kenmerken door een uniek

gezamenlijk webadres, is het feitelijk onmogelijk om inhoudelijk de grenzen van een website aan te geven. Content bevindt zich binnen de website, maar ook daarbuiten. Een webelement, zoals bijvoorbeeld een afbeelding, kan zijn opgenomen in de verzameling beeldbestanden die deel uitmaakt van de boedelinventaris van de website zelf, maar kan ook uit een andere bron afkomstig zijn. Veel websites betrekken bijvoorbeeld filmmateriaal door een link naar een online-platform als YouTube op te nemen. Zo kunnen filmbeelden die zich feitelijk elders online bevinden in een viewer op de eigen website worden weergegeven. Deze integratie van externe elementen in de vorm van streaming filmbeelden, audio, sociale media-tijdlijnen enzovoort, is in de loop der jaren steeds gangbaarder geworden.

Een website is dus inderdaad, de W3-definitie indachtig, ‘a collection of information, consisting of one or more Web resources, intended to be rendered simultaneously, and identified by a single URI’, in de zin dat het inderdaad gaat om bronnen die op één adres worden weergegeven.10 Maar omdat de feitelijke locatie van die bronnen zich in veel gevallen buiten de website bevindt, is het bijzonder lastig om een duidelijke begrenzing van een website vast te stellen. Waar de content van een klassieke publicatie zich bij wijze van spreken tussen twee kaften laat vangen, is de content van een website verspreid over netwerken en servers die zich vrijwel overal kunnen bevinden.

9 Een treffend voorbeeld is dit eye tracking filmpje dat in 2009 door BBC News werd gemaakt:

www.youtube.com/watch?v=O6DRl6tTjCU, 10-6-2015.

(13)

8

1.4 Gedrag

Het feit dát er ten aanzien van websites vaak wordt gesproken over hun ‘gedrag’ is veelzeggend. Dit is een kwalificatie die ten aanzien van papieren publicaties niet gebruikt wordt en ook vrijwel nooit gebruikt is. Het belangrijkste kenmerk van websites is dan ook niet zozeer dat ze een ander gedrag vertonen dan niet-digitale bronnen, maar dát ze gedrag vertonen. Om te bepalen wat we onder het gedrag van websites moeten verstaan, vormt het onderscheid dat Erika Hokke maakte in Blijvend beschikbaar en dat door haar en Peter Horsman ook als basis werd genomen voor hun Richtlijnen

voor websites, een goed uitgangspunt.11 Hokke onderscheidt statische en dynamische websites.

Statische websites verschijnen op het beeldscherm in de samenstelling en vorm zoals de webbouwer die heeft bepaald. De bezoeker van de website heeft geen invloed op die weergave. Overigens moet het woord ‘statisch’ hier niet te letterlijk worden opgevat. Een statische website is nog altijd een stuk minder statisch dan een papieren publicatie. De sitebouwer of webredactie kan de website immers elk moment aanpassen.

Inmiddels worden statische webtoepassingen over het algemeen aangeduid met de term ‘web 1.0’. Deze term raakte in gebruik rond 2004 en werd ingegeven door de bewustwording dat zich in het internet een fundamentele verandering voordeed. De nieuw generatie van het web; die verbeterde versie, werd ‘web 2.0’ genoemd.12

In de dynamische websites die kenmerkend zijn voor web 2.0, speelt de factor ‘gedrag’ een veel prominentere rol dan in web 1.0. Juist nieuwe generaties websites zijn zo geprogrammeerd, dat ze reageren op de gebruiker met een aangepaste weergave. In die zin is het gedrag van een website niets anders dan het vermogen van een website om het gedrag van de gebruiker te weerspiegelen. De gebruiker bepaalt niet alleen welke pagina’s hij te zien krijgt - dat was bij statische websites en feitelijk ook bij de traditionele gedrukte bronnen niet anders -, maar specifieke vorm en inhoud van die pagina’s worden nu gegenereerd aan de hand van de vraag van die gebruiker.

Dynamische websites bevatten ook, meer dan websites 1.0, interactieve elementen. Dat kan een eenvoudig tekstveld zijn waarin de gebruiker een reactie kan achterlaten of een vraag kan stellen, eventueel in de vorm van een e-mailfunctie. Het kan ook de mogelijkheid zijn om eigen content te uploaden, een discussieforum of - iets wat steeds meer voorkomt - een geïntegreerde sociale media-applicatie. In zijn studie naar archivering van sociale media door Nederlandse gemeenten

constateerde Kenny de Vilder zelfs dat het begrip ‘web 2.0’ vaak werd gehanteerd als synoniem voor de term ‘sociale media’.13

11 H.A. Hokke, ‘Blijvend beschikbaar’. Onderzoek naar de archivering van websites (Amsterdam 2003) 5 en H.A. Hokke en P.J.

Horsman, Richtlijnen voor websites. Rapportage (Amsterdam 2006) 8.

12 De uitvinding van de term ‘Web 2.0’ (en van de term ‘Web 1.0’) wordt over het algemeen toegeschreven aan Tim o’Reilly

in 2004. De term ‘web 1.0’ is pas gangbaar geworden nadat het web 2.0 was ‘uitgevonden’, een beetje zoals het concept zwart-wit televisie niet eerder kon ontstaan dan na de uitvinding van de kleurentelevisie (Douwe Draaisma, Is dit nou de

selectie? Symposium over kiezen, verzamelen en afstoten (Eindhoven 2014) 11.)

In 2006, ten tijde van de rapportage door Hokke en Horsman, waren de aanduidingen 1.0 en 2.0 kennelijk nog niet echt ingeburgerd.

(14)

9

Dynamiek kan ook worden gegenereerd door een website te koppelen aan een database. Die database valt niet binnen het domein van de website, maar wijzigingen in de database-gegevens worden wel automatisch vertaald naar aanpassingen in de content van de website.

Na Web 2.0 wordt er inmiddels ook al gesproken over ‘web 2.5’, ‘web 3.0’ en ‘het semantisch web’. Over de vraag in hoeverre daarmee werkelijk iets nieuws wordt bedoeld, is men het nog altijd niet eens. Wel is duidelijk dat computers binnen het wereldwijde web hun gedrag steeds beter kunnen aanpassen aan de gebruiker. Door data te voorzien van een betekenislaag in de vorm van metadata zijn computers in staat om betekenisvolle verbanden te herkennen en te gebruiken om nog meer in te spelen op gedrag, locatie, levensfase en omstandigheden van de gebruiker. Door het gedrag van de individuele gebruiker te vergelijken met het gedrag van grote aantallen andere gebruikers, kan de website als het ware voorsorteren op te verwachten gedrag. Een website als Amazon.com lijkt op die manier met je mee te denken omdat ze weet welke boeken, films en games ze je moet tonen, want dat waren de boeken, films en games die door andere klanten met dezelfde interesses vóór jou ook al gekocht werden. Zo doet het ‘web 3.0’ zich voor als een soort levend, denkend organisme.14

1.5 Dus, wat is een website?

Niet alle informatie die op een website wordt getoond, bevindt zich binnen die website. Tegelijkertijd is een website meer dan enkel een drager van informatie. Ze is naast content ook zowel medium als context; zowel inhoud als structuur en vorm. Deze verschillende aspecten van websites kunnen niet los van elkaar worden gezien. Hokke en Horsman noemen deze complexiteit dan ook een essentiële eigenschap van websites.15

De andere eigenschap die sinds de rapportage van Hokke en Horsman in 2006 alleen maar belangrijker is geworden, is veranderlijkheid. Met de evolutie van 1.0, naar 2.0, naar 3.0 is de dynamiek alsmaar verder toegenomen.

De vraag ‘wat is een website?’ leidt zo tot een opsomming van eigenschappen - complexiteit, veranderlijkheid, veelvormigheid, een poreuze begrenzing en een gebrek aan lineariteit - die het objectiveren van websites bemoeilijken. Toch is dat laatste juist wel wat er moet gebeuren. Immers: om in een onderzoek uitspraken te kunnen doen over websites is het, zonder alle bijzondere

eigenschappen van websites uit het oog te verliezen en zonder te ontkennen dat websites maar tot op zekere hoogte als objecten benaderd kunnen worden, noodzakelijk om te bepalen waarover we eigenlijk spreken.

1.6 Een stratificatie van het web

Niels Brügger van het Deense centrum voor Internetstudie van de universiteit van Aarhus heeft een poging gedaan om websites als object van onderzoek en analyse te definiëren. Met name zijn

14 Hierdoor lijkt het er soms op dat de weergave en inhoud van een website geheel afhankelijk zijn geworden van de vraag

van de gebruiker, maar stiekem is de boodschap van de zender nog steeds minstens zo belangrijk. Waar het immers eigenlijk op neerkomt, is dat de makers (zenders) van de websites het gedrag van de gebruiker/ontvanger proberen te sturen door middel van de website. Het voert echter in het verband van dit onderzoek te ver om op deze relatie dieper in te gaan.

(15)

10

afbakening van websites als een entiteit in de (virtuele) ruimte is helder en bruikbaar. Brügger verdeelt het web in vijf lagen waarbij hij steeds wat verder inzoomt.16

1. Het wereldwijde web als geheel.

2. De websfeer: een dynamische verzameling van digitale online bronnen die meerdere websites omvat die gerelateerd zijn aan een specifieke gebeurtenis, concept of thema. De websfeer is dus geen gegeven, maar een dynamische (veranderlijke) constructie, gemaakt door de gebruiker. 3. De website die zich onderscheidt door een semantische, formele en feitelijke (‘fysieke’)

samenhang. De website ontvouwt zich in één of meerdere gekoppelde en daardoor

samenhangende browservensters en bevindt zich tegen de achtergrond van en in de context van het web waarmee het is verbonden door middel van hyperlinks en andere relaties.

4. De webpagina: de inhoud van één browservenster.

5. De webelementen die samen de webpagina vullen: een element kan een afbeelding zijn, een tekstblok of paragraaf, een geluids- of filmweergave, een banner, enzovoort.

Model van het wereldwijde web.17

De stratificatie van Brügger geeft maar een deel van de content van het web weer. Het zogenaamde ‘deep web’ maakt er geen deel van uit. Hiermee worden de digitale bronnen bedoeld die niet direct deel uitmaken van het web, maar die wel dienen als reservoirs en bestemmingen voor de informatie

16 Niels Brügger, Website history and the website as an object of study. New Media and Society 11, 1-2 (Thousand Oaks

2009) 122-123.

(16)

11

die op websites wordt weergegeven en gegenereerd. Daarbij kan bijvoorbeeld gedacht worden aan databases. Het W3 consortium heeft een eenvoudig model gemaakt waarin dit deep web wel is opgenomen.

W3 Consortium, model web en deep web.18

In de Web Core bevindt zich het web van Brügger; dus alle websites met een URI die online

toegankelijk zijn via http.19 In de Web Neighbourhood zijn de toepassingen te vinden die direct vanuit de kern benaderd kunnen worden, maar niet online toegankelijk zijn via http; denk bijvoorbeeld aan een e-mail-ingang via een website. In de Web Periphery tenslotte is het ‘deep web’ gesitueerd: alle bronnen die op een andere manier vanuit websites worden gebruikt.

1.7 Medium of drager

Brüggers definitie van een website sluit aan bij de W3 definitie: “Een website is een samenhangende eenheid van digitale elementen, verdeeld over een of meer webpagina’s. Deze ontvouwt zich in één of meerdere browser-vensters die semantisch, formeel en/of functioneel met elkaar samenhangen. De website bevindt zich in en is verbonden met de webomgeving, maar kenmerkt zich daarbinnen door zijn interne samenhang en door een uniek webadres.”20 Daarmee lijkt Brügger websites, meer dan Hokke en Horsman, te beschouwen als informatiedrager. Hokke en Horsman definieerden een website als een “medium, waarmee via het Internet informatie gepresenteerd wordt op een statische of dynamische manier, vaak in combinatie met technologieën voor tweezijdige

communicatie en transactie, zoals e-mail, nieuwsgroepen of discussielijsten” en ze voegden daaraan toe: “Een website moet dus niet gezien worden als een drager van informatie, maar als een

doorgeefluik, al dan niet met toegevoegde waarde (service).”21 Het doel van websites wordt door Hokke en Horsman dan ook als volgt onder woorden gebracht: “Organisaties en personen maken

18 Website W3 Consortium http://www.w3.org/1999/05/WCA-terms/01, 9-6-2015.

19 http: Hypertext Transfer Protocol (HTTP) is het protocol voor de communicatie tussen een webclient (meestal een

webbrowser) en een webserver. https://nl.wikipedia.org/wiki/Hypertext_Transfer_Protocol`, 14-6-2015.

20 Niels Brügger, Website history and the website as an object of study. New Media and Society 11, 1-2 (Thousand Oaks

2009) 123.

(17)

12

websites om via internet informatie te verspreiden of te communiceren, dan wel om toegang te geven tot diensten die via achterliggende bedrijfssystemen worden aangeboden.”22

Het verschil tussen deze opvattingen van Hokke en Horsman enerzijds en Brügger anderzijds komt voort uit de verschillende perspectieven van waaruit zij naar websites kijken. Brügger wil ze definiëren als bron voor historisch onderzoek, terwijl Hokke en Horsman zich in de eerste plaats richten op de archivering en archiveerbaarheid van websites. Vandaar dat Brügger nadruk legt op de semantische, formele en functionele samenhang tussen de webpagina’s die samen de website vormen, terwijl Hokke en Horsman de nadruk leggen op de webpagina als te archiveren informatie-object en daarbij ook uitgaan van de implicaties die een toepassing van de Archiefwet (1995) op websitearchivering heeft.

In het licht van dit onderzoek, dat zich niet in de eerste plaats richt op een archiefwettelijke archivering van websites, maar zich toespitst op archivering van particuliere websites om cultuurhistorische redenen, lijkt de bredere benadering van Brügger beter aan te sluiten bij de praktijk. De zes door mij onderzochte archiefinstellingen die zich bezighouden met de archivering van particuliere websites, kijken in principe niet naar het niveau van webpagina’s en subpagina’s, maar naar de hele website. Ze vragen zich in de eerste plaats af welke domeinen ze willen archiveren, niet welke subdomeinen. Wanneer ze binnen een website toch een selectie van webpagina’s maken, dan doen ze dat vooral omdat sommige pagina’s moeilijk te harvesten zijn door de manier waarop ze gegenereerd worden of door de hoeveelheid geheugenruimte die ze in geharveste vorm zouden gebruiken.

Omdat deze scriptie gaat over particuliere websites en hun cultuurhistorische waarde, wil ik,

alvorens verder in te gaan op de archiveerbaarheid van particuliere websites, nu eerst kijken naar de betekenis van websites als bron voor historisch onderzoek.

(18)

13

Hoofdstuk 2

Websites als historische bron

2.1 Aandacht van de historische wetenschap

Om een beeld te kunnen geven van de aandacht die de wetenschap besteedt en heeft besteed aan websites als bron voor historisch onderzoek, is het vooraleerst belangrijk om duidelijk af te bakenen op welke manier we deze hoedanigheid van ‘historische bron’ willen zien. De combinatie ‘website’ en ‘historische bron’ kan immers op verschillende manieren worden ingevuld

Binnen de geschiedwetenschap is de laatste jaren een jonge tak tot bescheiden bloei gekomen: internetgeschiedenis. Aan verschillende universiteiten onderzoeken historici hoe het wereldwijde web is ontstaan en is gegroeid. Het object van hun onderzoek is dus de geschiedenis van het internet zelf.

Een andere vorm van bestudering van het wereldwijde web die zich in de geschiedwetenschap in een toenemende belangstelling mag verheugen, is het onderzoek naar ‘big data’. Het internet herbergt onafzienbare hoeveelheden gegevens die, vakkundig geanalyseerd, historische ontwikkelingen aan het licht kunnen brengen die op de kleinere schaal waartoe het blikveld van de historicus zich in vroeger tijd noodgedwongen beperkte, verborgen bleven. Over big data-onderzoek als mogelijke bron voor historische kennis zijn bundels en boeken volgeschreven en zijn tal van congressen georganiseerd.23

Zo mogelijk nog meer aandacht is er voor websites als vindplaatsen van historische bronnen. Studenten; zeker studenten geschiedenis, zijn veelal verplicht één of meer cursussen te volgen waarin ze leren hoe ze via het web bronnen moeten opsporen en welke websites in het bijzonder hen daarbij van nut kunnen zijn. Websites over historische onderwerpen zijn er dan ook legio en in alle soorten en maten, variërend van de website van een plaatselijke oudheidkundige vereniging tot Wikipedia; van online verzamelingen van oude prentbriefkaarten tot uitputtende, wetenschappelijk geannoteerde bronnenverzamelingen. Sommige van met name deze laatstgenoemde categorie websites profileren zichzelf als ‘online archives’. Dit zijn websites die fungeren als verzamelplaats voor op thematische gronden bijeengebrachte bronnen, veelal scans van originelen. De term ‘online archives’ voor dit soort websites is enigszins misleidend. Het zijn eerder collecties dan archieven; eerder, in de woorden van Geoffrey Yeo, “a set of items arbitrarily or artificially brought together from a variety of sources; […] a grouping determined by custodianship and drawn from a variety of

23 Onder andere de Ketelaarlezing 2014 door José van Dijck: ‘Big Data, Grand Challenges. Over de digitalisering van het

(19)

14

sources” dan “an aggregation of records resulting from the work of an organization or the daily activities of an individual; […] a grouping determined by context of creation”.24 Naar mijn mening zou een benaming als ‘collectiewebsites’ de lading van dit soort ‘online archives’ dan ook beter dekken. Of we ze nou echter online archieven of online collecties noemen; vanuit een archieftheoretisch-wetenschappelijk perspectief is er vooralsnog weinig aandacht besteed aan deze wijze van collectievorming.25

Over websites die minder collectie, maar meer archiefstuk zijn; die als deel van een archief ook als een primaire bron voor verantwoording en historisch onderzoek gebruikt kunnen worden, is in de archiefwetenschap juist wel veel nagedacht. In de geschiedwetenschap daarentegen is nog nauwelijks aandacht besteed aan de waarde van dergelijke websites als primaire historische bron. Een goed beeld van die waarde blijft daardoor voorlopig in nevelen gehuld.

2.2 Feitelijk gebruik van websites als historische bron

Er is ook een andere, meer kwantitatieve benadering mogelijk met als leidraad de vraag hoe vaak historici gebruik maken van websites als bron voor hun bevindingen. Maar hoe moet je dit in kaart brengen en beoordelen? Wellicht zou dit kunnen in de vorm van een onderzoek waarbij van een bepaald, substantieel aantal onderzoeksverslagen de bronvermeldingen worden nageplozen op vermeldingen van websites als primaire bron, maar het is de vraag of er op basis van een dergelijk kwantitatief onderzoek conclusies getrokken kunnen worden. Een aanvullend, meer inhoudelijk onderzoek naar de omgang van historici met websites als bronnen, zou dat kunnen ondervangen, maar het is duidelijk dat we dan spreken over een werk waarvan de omvang zich ver buiten de reikwijdte van deze scriptie begeeft.

Gesteld bovendien dát uit dergelijk onderzoek naar voren zou komen dat websites weinig worden opgevoerd als historische bron, komt dat dan omdat ze door historici niet worden gezien als serieuze, betrouwbare bron of komt dat omdat ze als zodanig onvoldoende beschikbaar zijn voor historici? En, deze denklijn doortrekkend: worden websites niet bewaard omdat ze niet als serieuze bron gezien worden of heeft de bewaring van websites in een voldoende betrouwbare vorm te veel voeten in de aarde en is het daardoor moeilijk ze als goede bron voor historisch onderzoek te beschouwen? Het zijn lastig te beantwoorden vragen, met een hoog ‘kip-ei’-gehalte.

Wat in elk geval wel kan worden geconstateerd, is dat websites in de afgelopen twintig jaar

nauwelijks onderwerp zijn geweest van historisch onderzoek. Historici zijn gehecht aan een bepaalde afstand tussen hun eigen tijd en de periode die ze onderzoeken. Ze branden zich liever niet aan de laatste decennia.

Zeer zeker zal echter ook deze periode binnen niet al te lange tijd onderwerp van historisch onderzoek worden. Met het oog op mijn onderzoek is de vraag dan of websites als bron voor de beginjaren van de eenentwintigste eeuw een toegevoegde waarde vertegenwoordigen. Ook die

24 Geoffrey Yeo, Custodial History, Provenance, and the Description of Personal Records, Libraries & the Cultural Record,

Volume 44, Number 1, 2009, pp. 50-64, p. 57 en 59.

25 Eén uitzondering is een prijswinnend artikel van Emily Monks-Leeson, Archives on the Internet: Representing Contexts

(20)

15

vraag is hypothetisch en lastig te beantwoorden vanuit het heden. Enkele aannames kunnen echter wel zonder veel gevaar worden gedaan.

2.3 Duizelingwekkende toename

De groei van het internet is vooral een groei geweest van aantallen websites. Deze is explosief geweest en nog steeds gaande. In 1997 al waren er ongeveer 1 miljoen websites wereldwijd. In 2003 waren dat er 3 miljard, twee jaar later in 2005 al 8 miljard en in 2006 stond de teller op 25 miljard. Weer drie jaar later, in 2009 was dit aantal al weer meer dan verdubbeld, tot 58 miljard. Alleen al getalsmatig zijn dit nauwelijks te bevatten cijfers. De diversiteit van websites is niet minder duizelingwekkend, wat de analyse nog lastiger maakt.26

Evident is dat bedrijven, overheden, instellingen, verenigingen en individuele personen in toenemende mate zijn gaan communiceren via één of meer websites. In hoeverre de online

interactie tussen zender en ontvanger via die websites in de plaats is gekomen van of een aanvulling is op andere, meer traditionele communicatievormen, zoals drukwerk, radio of televisie, is - opnieuw - zonder zeer omvangrijk onderzoek niet vast te stellen. Wel duidelijk is dat de website een

belangrijk, zo niet het belangrijkste communicatiemiddel is geworden voor veel instellingen en bedrijven.

Hoe de toekomst voor website-communicatie er uit zal zien, is ongewis. Websites lijken meer en meer plaats te maken voor communicatie via sociale media, maar ook als deze ontwikkeling doorzet, is moeilijk hard te maken dat historici die zich, ergens in de nabije of verder weg gelegen toekomst, een goed beeld willen vormen van onze samenleving in de eerste decennia van de 21e eeuw, om websites als historische bron heen zouden kunnen.

2.4 Gefixeerde dynamiek

De waarde van een historische bron hangt niet alleen af van het impliciete of expliciete belang dat deze bron op het moment van ontstaan en gebruik heeft voor de samenleving. Ze hangt ook af van de staat waarin de bron wordt overgeleverd; van de archivering.

Met deze vaststelling dringen zich weer de problemen op de voorgrond die samenhangen met de specifieke, dynamische karaktereigenschappen van websites. Het Glossary of Archival Records Terminology zegt hier het volgende over: “Because the content of dynamic documents changes as the information in external sources changes, it lacks fixity and cannot be relied on as a source of historical information. If the information in a dynamic document needs to be preserved, it must be written to a nondynamic format to create a record of the information.”27 Binnen deze ‘dynamic documents’ vormen dynamische websites volgens het Glossary een speciale categorie: “Dynamic websites connote more than a simple scheme to display a variety of graphics mixed with the same text. A dynamic website is usually driven by a database so that current content is always up-to-date or so that content is customized to the individual viewing the page; for example, a portal.” Websites

26 De hier genoemde cijfers zijn afkomstig van de website http://bloeise.nl/geschiedenis-van-het-internet, geraadpleegd op

2 mei 2015. Er circuleren op het internet talloze cijfers met betrekking tot de groei van het web. Die cijfers variëren sterk voor wat betreft de dingen die worden geteld en het geografisch gebied en de periodes waarop ze betrekking hebben. De enige constante in die cijfers is een duizelingwekkende uitdijing in alle opzichten.

(21)

16

zijn dus niet alleen complex, maar door hun veranderlijke, interactieve en gepersonaliseerde karakter volgens het Glossary ongeschikt als historische bron, tenzij de inhoud kan worden gefixeerd. Hiermee komen we bij de kern van het probleem van de website als archiefstuk, want hoe fixeer je dynamiek?

(22)

17

Hoofdstuk 3

Websites als archief

3.1 Informatie-objecten en context

Eerder, in hoofdstuk 1, zagen we dat Hokke en Horsman in hun archiefwetenschappelijke benadering de website zelf niet beschouwden als een archiefstuk in de zin der wet, maar als “het medium dat informatie presenteert, of communiceert. Een website moet dus niet gezien worden als een drager van informatie, maar als een doorgeefluik.”28 Voor hen was niet de website, maar de webpagina het logische document of informatie-object. Die webpagina bestaat uit enerzijds het ‘logische document’ (datgene wat gecommuniceerd wordt) en anderzijds uit ‘fysieke’ digitale componenten. Die fysieke digitale componenten zijn de informatiedragers. Denk daarbij aan bijvoorbeeld een server, een cd-rom of een memory-stick. Hét verschil met papieren informatie-objecten is dat bij de raadpleging van een digitaal informatie-object deze fysieke componenten onzichtbaar zijn. Het beeldscherm laat geen harddisk zien.29

Vertaald naar de archiefomgeving zou de webpagina dan als het archiefstuk moeten worden

aangemerkt. Maar, zo merken Hokke en Horsman op, “dat wil niet zeggen dat pagina’s eenheden zijn die volledig op zichzelf staan, zij zijn onderdeel van een website. De website is feitelijk de context van de pagina. De relaties naar andere pagina’s maken dan ook deel uit van de pagina.”30 De website presenteert de informatie-objecten in onderlinge samenhang, en geeft zo mede betekenis aan de informatie.31 Ze is “zowel medium als context van de informatie en bepaalt dus de wijze van archivering. Alleen bewaren van de inhoud, de te communiceren boodschap, lijkt dan ook niet voldoende.”32

“De archivistische theorie stelt”, aldus Hokke en Horsman, “dat alleen die informatie voor archivering in aanmerking komt, die wordt gegenereerd en gebruikt in werkprocessen. Die informatie is

vastgelegd, heeft een inhoud, een vorm en een context.”33 In deze driedeling zouden dan de webelementen als inhoud aangeduid kunnen worden. Gepresenteerd in samenhang vormen ze een webpagina: een logisch document of informatie-object, dat op zijn beurt weer wordt weergegeven binnen de context van de website.

28 Erika Hokke en Peter Horsman, Richtlijnen voor websites. Rapportage (2006) 7. 29 Ibidem, 13.

30 Ibidem, 13. 31 Ibidem, 13. 32 Ibidem, 11. 33 Ibidem, 13.

(23)

18

Je zou het denk ik ook anders kunnen formuleren: de website, door Hokke en Horsman beschreven als medium en context tegelijk, zou ook kunnen worden begrepen als het archiefbestanddeel zoals dat wordt gedefinieerd in de Archiefterminologie: “(a) Geheel van archiefbescheiden binnen een archief, bijeengebracht met een bepaald doel en in onderlinge samenhang te raadplegen. (b) Bestand waarvan tenminste één archiefstuk deel uitmaakt.” 34 Daarbij staat in de toelichting op component (b) van deze definitie te lezen: “vooral digitale bestanden bevatten vaak documenten die deels wel en deels geen archiefstukken zijn; een bekend voorbeeld is het geografisch

informatiesysteem GIS, dat bestaat uit aangekochte programmatuur en bestanden die gezamenlijk met archiefstukken een archiefbestanddeel vormen. Maar computerprogrammatuur is geen archiefstuk.”35

3.2 Herkomst- en structuurbeginsel

Door hun specifieke, moeilijk grijpbare karakter hebben websites een problematische relatie met het herkomstbeginsel. Bij traditioneel gedrukt en geschreven materiaal is veelal wel duidelijk waar het ene document ophoudt en het volgende begint. Voor websites is deze afbakening op zijn minst als ‘poreus’ te kwalificeren. Webcontent is op allerlei punten verbonden met andere webcontent. Juist die verbindingen; de hyperlinks, vormen de essentie van het internet. Wittenberg heeft

beargumenteerd dat het om deze reden des te belangrijker is dat bij de archivering van websites de traditionele archivistische concepten van herkomst en structuur in ere worden gehouden: “Because material on the web is so interconnected, the rearrangement of a website’s order or improper documentation of its relationship to other sites not only affect the site’s meaning-in-context, it could make the site difficult or impossible to render accurately. For this reason, any appraisal of the value of a web object for inclusion in an archive should consider the feasibility of maintaining original order and determining provenance.”36 Met andere woorden: door de eerder al besproken non-lineaire structuur van websites is het, meer nog dan bij traditioneel archief, van belang om bij archivering de oorspronkelijke ordening op een of andere manier te handhaven. Wittenberg’s argumentatie gaat op zo lang we spreken over statische websites waarbij de webbeheerder bepaalt wat de webgebruiker ziet. Maar wat is de betekenis van de oorspronkelijke ordening als de verschijningsvorm van een website in de praktijk pas kenbaar wordt in de weergave op het beeldscherm; een weergave die afhankelijk is van het type beeldscherm en de toegepaste programmatuur (denk bijvoorbeeld aan de invloed van browser-keuze op weergave van websites) en meer en meer afhankelijk is van de

interactie met de gebruiker? Bovendien is de ‘oorspronkelijke ordening’ van een website opgebouwd vanuit tal van bronnen in het deep web en het internet. Het is veelal een ‘bijeengeraapte’ en per definitie tijdelijke ordening die met hyperlinks aan elkaar hangt en zich aan de randen lijkt op te lossen in het wereldwijde web.

De problematische relatie van websites met herkomst en context wordt ook duidelijk gemaakt door Emily Monks-Leeson in haar artikel over collectiewebsites: “Increasingly, archivists argue that while

34 A.J.M. den Teuling, Archiefterminologie voor Nederland en Vlaanderen (2007) lemma 11. 35 Ibidem.

36 Jamie Wittenberg, “Selection in Web Archives. The Value of Archival Best Practices” International Journal of the Book 13,

(24)

19

records’ meanings may be context based, context itself is boundless […] Far from discovering or representing one authoritative origin for a group of records, archivists must make choices about what elements of provenance are the most meaningful.”37 Ter onderstreping van deze

ongrijpbaarheid van de context van websites haalt ze een artikel van Tom Nesmith aan waarin hij schrijft: “…what truly constitutes the origin or cause of something (for example, of an assembled body of records). Where do we locate its true beginning? […] we must act on some view of origins many times a day. We must begin somewhere, but where do we even start? What is the beginning? What comes next, and why?”38 Het is een vertwijfeling die bij uitstek opgaat voor de herkomst van websites.

De archivaris moet dus kiezen. Het hele web kan niet gearchiveerd worden. De website inclusief zijn context evenmin. Via hyperlinks vertakt deze zich immers eindeloos in het web. Het web ís de context en bovendien bevindt niet alleen die context, maar ook de content van websites zich vaak buiten het domein van de betreffende website zelf, ergens op het internet.

3.3 Archiveerbaarheid van websites

Omdat het membraan dat websites scheidt van hun webomgeving en van hun eerdere en latere verschijningsvormen zo poreus is; omdat zowel die open structuur met verbindingen naar het wereldwijde web, als de dynamiek wezenlijke onderdelen van websites zijn, kan een gearchiveerde website nooit een exacte, complete kopie zijn van een originele site. Niels Brügger gebruikt voor gearchiveerde webcontent, of deze nou oorspronkelijk analoog was en is gedigitaliseerd of dat deze born digital is, de term ‘reborn digital’. Gearchiveerde digitale content is volgens hem altijd slechts tot op zekere hoogte identiek aan het origineel. In het archiveringsproces verandert er altijd iets.39 Een voorbeeld hiervan is de archivering van de website ‘De Stem van West’ door Het Utrechts Archief. Deze website werd achteraf door de websitemakers van metadata voorzien, met het oog op de toegankelijkheid en doorzoekbaarheid. Floortje Tuinstra van Het Utrechts Archief: “Dat creëerde wel een dilemma: de website die door De Stem van West zo goed toegankelijk werd gemaakt, was niet meer de website zoals die twee jaar had gefunctioneerd. Lopende het project is de website nooit op die manier doorzoekbaar geweest.”40

3.3.1 Gearchiveerde websites en live websites

Een gearchiveerde website verschilt fundamenteel van de website zoals die oorspronkelijk online stond. Die website in zijn actuele bestaansvorm is immers verbonden met en ingebed in een oneindig, fijnmazig wereldwijd web. Een gearchiveerde website daarentegen maakt hoogstens deel uit van een, in verhouding tot dat wereldwijde netwerk, per definitie bescheiden netwerk van andere gearchiveerde websites. De gearchiveerde website is als een witte neushoorn in de dierentuin, met

37 Emily Monks-Leeson, "Archives on the Internet: Representing Contexts and Provenance from Repository to Website."

American Archivist 74, 1 (2011) 55.

38 Tom Nesmith, Still Fuzzy, But More Accurate: Some Thoughts on the ‘Ghosts’ of Archival Theory, Archivaria 47 (voorjaar

1999), 140.

39 Niels Brügger, When the Present Web is Later the Past: Web Historiography, Digital History, and Internet Studies

Historical Social Research 37, 4 (2012) 104.

40 Floortje Tuinstra, We are history. Webradio De Stem van West duurzaam gearchiveerd, Archievenblad 5 (2015) 23. Zie

(25)

20

gras in de ruif, een bassin om uit drinken en eventueel een tweede neushoorns als gezelschap. Maar de savanne, de kudde en Afrika ontbreken…

Terwijl de gearchiveerde website in ‘ruimtelijke’ zin zo wordt ingeperkt, doet zich, wanneer we haar beschouwen in termen van tijd, juist een tegenovergestelde ontwikkeling voor. De ‘live’ website die op dit moment kan worden opgeroepen op een beeldscherm bestaat in het nu en elke hyperlink die wordt aangeklikt leidt naar een webpagina in datzelfde nu. Zodra een website echter is opgeslagen in een omgeving van gearchiveerde websites, kan het aanklikken van een hyperlink in webpagina A op moment 1 leiden naar een pagina B die werd opgeslagen op moment 2. Zowel moment 1 als moment 2 bevindt zich in het verleden, maar de kans dat beide in de tijd samenvallen is bijzonder gering. Eenieder die onderzoek doet aan de hand van gearchiveerde websites dient zich dit te realiseren. Brügger waarschuwt: “When a website archive is entered […] not only the spatial but also the temporal limits must be established by the researcher.”41 Gearchiveerde websites worden zo enerzijds losgemaakt uit hun virtuele habitat, terwijl ze anderzijds worden voorzien van een tijdsdimensie die ze eerst niet hadden.

Ook daarin verschilt de gearchiveerde website dus van de oorspronkelijke website. Het is zelfs zo dat de veranderlijkheid die we, als het gaat om het archiveren van websites, zo graag zouden fixeren, door de oorspronkelijke bezoeker van een website niet wordt ervaren. Besef van verandering impliceert immers een historische dimensie die juist op het internet vrijwel afwezig is.

3.3.2 Archiveerbaarheid

Belangrijker nog voor de betrouwbare archivering van websites dan een consequente en periodieke opslag is de archiveerbaarheid van de website zelf. Sommige onderdelen van een site, zoals

streaming audio en video, formulieren waarin de interactie met individuele gebruikers gestalte krijgt of in websites geïntegreerde weergaven van social media-verkeer, onttrekken zich aan elke poging tot archivering. Om websites goed op te kunnen slaan, moet de archiveerbaarheid al in het design zijn meegenomen. Om de toegankelijkheid voor de burger, maar ook om de betrouwbaarheid op termijn te kunnen garanderen, zijn daarom webrichtlijnen geformuleerd en verplicht gesteld voor alle overheidswebsites.42

In 2006 deed een werkgroep van de Archiefschool in opdracht van de ICT-Uitvoeringsorganisatie van de overheid (ICTU) onderzoek naar de archiveerbaarheid van websites. Dit onderzoek resulteerde in de door Erika Hokke en Peter Horsman opgestelde en al eerder aangehaalde rapportage Richtlijnen voor websites. De centrale vraag waarover de werkgroep zich boog was: “Welke eisen kun je aan het ontwerp van een website stellen, zodat opslag en toegang tot de gecommuniceerde informatie (inhoud, structuur, presentatie en context) door de tijd heen gewaarborgd blijft, en wel zolang als wet- en regelgeving dat vereisen of de organisatie dat wenselijk acht.”43 Webrichtlijnen gaan dan ook met name over de mogelijkheden die er zijn om websites zó te bouwen en te vullen, dat ze ondanks

41 Niels Brügger, Website history and the website as an object of study. New Media and Society 11, 1-2 (Thousand Oaks

2009) 128.

42 Meer over de richtlijnen en de verplichtstelling daarvan is te vinden op

https://www.webrichtlijnen.nl/wat-en-waarom/regelgeving, 23-3-2015.

(26)

21

de belemmeringen van technische aard, toch in een betrouwbare vorm gearchiveerd kunnen worden.

Het is logisch dat die technische beperkingen ook van invloed zijn op de selectie van websites voor harvesting: het heeft immers geen zin om websites te archiveren die daarvoor in technische zin niet geschikt zijn omdat de techniek om content, vormelementen en functionaliteiten in samenhang duurzaam te bewaren, ontbreekt. Uit onderzoek naar Heritrix; de web crawler-programmatuur die werd ontwikkeld voor Internet Archive en die onder andere door de KB wordt gebruikt, kwam naar voren dat maar liefst 45% van de webpagina’s, die vooraf voor archivering werden geselecteerd, in de praktijk niet werd gearchiveerd omdat deze pagina’s werden afgeschermd door een zogenaamd robots.txt-protocol.44 Archivering met behulp van web crawler-programmatuur wordt ook

bemoeilijkt, wanneer een website gekoppeld is met onderliggende databases waaruit, afhankelijk van de vragen die de gebruiker op een website stelt of zelfs gewoon op basis van de dingen die hij of zij daarop bekijkt, een voor die gebruikerssessie specifiek weergave wordt gegenereerd.45

Een andere, sterk beperkende technische factor is de bandbreedte van de ICT-netwerken. Harvesting trekt daar een forse wissel op. Het Stadsarchief Rotterdam kan bijvoorbeeld maar één website tegelijk binnenhalen en één van de dingen die met een websitebeheerder door de Rotterdamse archiefmedewerker vóóraf worden besproken, is het tijdstip waarop de harvesting het beste - dat wil zeggen met zo min mogelijk hinder voor andere gebruikers van die website - kan plaatsvinden.

3.3.3 Harvesting-methodes

De technische randvoorwaarden spelen zeer zeker een rol van betekenis, zij het niet de hoofdrol, bij de keuze die gemaakt moet worden tussen verschillende manieren waarop websites gearchiveerd kunnen worden. Hiervoor zijn ruwweg drie methodes te onderscheiden.46

1. Archivering van de broncode.

Deze methode verschilt weinig van het maken van een back-up van de website, in die zin dat hierbij de bestanden worden gearchiveerd waaruit een website bestaat. Als archiveringsmethode werkt dit alleen wanneer een website statisch is, eenduidig gestructureerd en geen gebruik maakt van externe informatiebronnen. Dit is met andere woorden een eenvoudige archiveringsmethode voor

eenvoudige websites. Aangezien eenvoudige websites steeds zeldzamer worden, is het bewaren van de bronbestanden nog maar zelden toepasbaar voor dit doel.

44 Gabriella Gray en Scott Martin, "Choosing a Sustainable Web Archiving Method: A Comparison of Capture Quality." D-Lib

Magazine 19, no. 5/6 (2013). De KB ‘omzeilt’ overigens robots-txt- beperkingen na toestemming van de webbeheerders. Voor toelichting op het robots.txt-protocol: zie http://nl.wikipedia.org/wiki/Robots_Exclusion_Protocol, 11-8-2015.

45 Nick Szydlowski, "Archiving the Web: It's Going to Have to Be a Group Effort" Serials Librarian 59, no. 1 (2010) 35-39. 46 Ik heb voor deze indeling, o.a. in navolging van de werkgroep Webarchivering van het Gemeentearchief Rotterdam,

dankbaar gebruik gemaakt van de indeling die Filip Boudrez eerder maakte. Filip Boudrez, Archiveren van websites: een

(27)

22

2. Archivering door middel van snapshots.

Met behulp van web crawler-software worden automatisch momentopnames gemaakt van een website. Dit gebeurt door alle webpagina’s, inclusief afbeeldingen, vormgevingselementen,

enzovoort, naar een harde schijf te kopiëren; niet als bronbestanden, maar in de vorm waarin ze als HTML- of XML-bestanden online te zien zijn. Deze methode heeft dus niet de bron als uitgangspunt, maar de online-verschijningsvorm. De snapshot-methode door middel van crawlers kan op twee manieren worden ingezet:

- ‘Bulk crawls’ waarbij grote hoeveelheden URL’s, bijvoorbeeld alle websites die bij een bepaalde zoekopdracht tevoorschijn komen of zelfs alle webdomeinen met een bepaalde extensie, zoals ‘.nl’, automatisch worden opgeslagen. Dit is de methode die onder andere door Internet Archive wordt gehanteerd: het websitearchief als een soort ark van Noach waarin ‘all creatures great and small’ welkom zijn, “without any distinction between academic, institutional, commercial or pornographic content.”47

- ‘Focused crawls’. Bij deze harvesting-methode wordt niet alles verzameld, maar het kaf van het koren gescheiden met behulp van een beredeneerde crawler-instructie.Er wordt vooraf een lijst van te archiveren URL’s opgesteld en er wordt goed gekeken naar de effectieve werking van de

harvesting-operatie. De te archiveren website wordt vooraf geïnspecteerd op moeilijk archiveerbare elementen en de ’oogst’ zelf wordt gecontroleerd op onvolkomenheden.

3. Archivering van unieke webpagina’s.

Dit is een variant op de snapshot-methode waarbij een programma op de webserver registreert of er vanaf die server nieuwe pagina’s het web op gestuurd worden. Is dat het geval, dan wordt die nieuwe pagina in zijn online-vorm gearchiveerd. Op deze manier worden dus alle pagina’s van een website gearchiveerd (dat wil zeggen: alle pagina’s die door ten minste één online gebruiker worden geraadpleegd), maar niet in de onderlinge samenhang op één bepaald moment. Feitelijk gaat het hier dus om de archivering van webpagina’s, niet van de website.

Filip Boudrez noemde ook nog een vierde methode: opname van een surfsessie. Hierbij wordt een website in screenshots vastgelegd terwijl deze gebruikt wordt, als een soort film van het scherm. Omdat deze methode niet meer dan een visuele impressie bewaart van een website, is ze voor archiveringsdoeleinden ontoereikend.48

3.3.4 Beredeneerde keuzes

De onderzochte Nederlandse instellingen die zich met websitearchivering bezighouden, maken allemaal gebruik van de snapshot-methode in zijn beredeneerde variant. Ook veel buitenlandse initiatieven, onder andere bij de in dit opzicht toonaangevende Library of Congress, gebruiken de ‘focused snapshot’-methode.49

47 Sara Aubry, Introducing Web Archives as a New Library Service: the Experience of the National Library of France Liber

Quarterly Volume 20 Issue 2 (2010) 183.

48 Filip Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’ (Antwerpen 2005) 13.

(28)

23

Die methode is arbeidsintensiever dan men op het eerste gezicht geneigd is te denken. Los van de selectievraag welke websites voor archivering moeten worden aangemerkt, vraagt de focused snapshot-methode om een aantal praktische beslissingen en inhoudelijke keuzes:

- Welk opslagmedium wordt gebruikt? - Welk opslagformaat wordt gekozen?

- Hoe breed moet de archivering zijn? (Worden alle pagina’s van een website gearchiveerd?)

- Hoe diep moet de archivering zijn? (Hoeveel lagen diep wordt er gearchiveerd, worden van gelinkte websites alleen de gelinkte pagina’s of ook andere pagina’s geharvest?)

- Welke bestandstypes worden wel en niet gearchiveerd?

- Is er sprake van gerelateerd materiaal (vanaf andere internetbronnen en het deep web)? - Met welke frequentie en op welke momenten moet de website worden geharvest? - Wanneer moet de archiveringsperiode starten en wanneer moet deze eindigen?

Het maken van deze keuzes vergt naast een behoorlijke kennis van de technische mogelijkheden en beperkingen van het harvesting-proces ook inzicht in de samenstelling, structuur en omvang (zowel in pagina’s als in bytes) van de specifieke te archiveren websites. Websitearchivering door de simpele selectie van een rijtje URL’s zal in veel gevallen onbevredigende resultaten opleveren. Dit kan bij raadpleging van het Internet Archive goed geconstateerd worden. Zeker websites die daar wat langer geleden werden geharvest, kunnen vaak niet meer als authentieke en betrouwbare representaties van de oorspronkelijke websites worden aangemerkt.50

De specifieke kennis die er voor nodig is en de hoeveelheid tijd die in de archivering van websites geïnvesteerd moet worden, horen bij de belangrijkste redenen waarom de overgrote meerderheid van de Nederlandse archiefinstellingen tot nu toe haar vingers niet wilde branden aan

websitearchivering. Dit geconstateerd hebbende, is het goed om nu nader te bekijken welke archiefinstellingen het desondanks wél hebben aangedurfd om websites te gaan archiveren.

50 Het Internet Archive is te raadplegen met behulp van de zogenaamde Wayback Machine: https://archive.org/index.php,

(29)

24

Hoofdstuk 4

Wie archiveren websites en waarom?

4.1 Archieven en collecties

Het onderscheid tussen openbare en particuliere websites, tussen enerzijds bewaring vanuit het oogpunt van bewijsvoering en verantwoording en anderzijds vanuit het oogpunt van historie, hangt samen met het onderscheid tussen archieven en collecties. Een openbare website wordt bewaard als essentieel onderdeel van de informatiehuishouding van een overheid of semioverheid. Ze maakt deel uit van een groter geheel in de vorm van het archief van deze instantie. De particuliere website maakt eveneens deel uit van een (particulier) archief, maar wordt veelal niet in die hoedanigheid bewaard. Bij de opslag ervan wordt al snel voorbijgegaan aan dat grotere geheel waarvan ze deel uitmaakt en waaruit ze voortkomt. Ze wordt losgemaakt van haar archivistische context en verplaatst naar een nieuwe context; naar een ander groter geheel. De particuliere website wordt deel van een collectie.51 In het verslag van de studiedag die de Nationale Coalitie Digitale Duurzaamheid in 2011 belegde, staat het duidelijk en vetgedrukt: “Websites archiveren is iets anders dan websites verzamelen.”52

Een van de voorlopers op het gebied van webarchivering in de archiefwereld was het Antwerpse expertisecentrum DAVID. Filip Boudrez, als onderzoeker aan dit instituut verbonden, schreef al in 2005 over de taak die archiefinstellingen in zijn ogen hebben met betrekking tot het archiveren van websites: “Inmiddels zijn websites danig geëvolueerd en zijn ze meer dan louter en alleen digitale publicaties. Internet- en intranetwebsites worden alsmaar meer in de werkprocessen van de organisatie ingeschakeld. Via websites worden transacties uitgevoerd of websites bevatten

informatie die voortvloeit uit de werkprocessen van de organisatie. […] Deze websites genereren of bevatten archief en dienen gearchiveerd te worden samen met de andere archiefdocumenten die binnen dat werkproces worden gecreëerd of ontvangen.”53

4.2 Archiefinstellingen en bibliotheken

Als websites, zoals Boudrez overtuigend uiteenzet, steeds meer als archiefdocumenten beschouwd moeten worden, betekent dat ook dat ze steeds minder als ‘alleen maar’ publicaties gezien mogen

51 Jeroen van Oss e.a. Handboek Archivering websites (Gemeentearchief Rotterdam 2005) 6.

52 Inge Angevaare, Webarchivering in Nederland. De Status anno 2011. (Verslag van rondetafelbijeenkomst, georganiseerd

door de NCDD op 18 april 2011) http://digitaalduurzaam.blogspot.nl/2011/04/webarchivering-in-nederland-de-status.html, 26-2-2015.

Referenties

GERELATEERDE DOCUMENTEN

Kampen Historische Vereniging voor de IJsseldelta 'Jan van Arkel' NL-KpHVJvA 18-9-2017. Kerkrade Gemeentearchief

Dezelfde effectieve werkwijze die werd gehanteerd voor reactieve acquisitie dient ook te worden toegepast op het ondersteunen van uitbreidende, ambitieuze bedrijven die

Kortenhoef Historische Kring Ankeveen ’s-Graveland

Elk van die aandelen geeft recht op het pro rata temporis dividend voor het lopende boekjaar van 15 juni 2021 tot en met het einde van het lopende boekjaar (coupon nr. Elk van die

Dit persbericht bevat vooruitzichten die risico's en onzekerheden inhouden, onder meer verklaringen over plannen, doelstellingen, verwachtingen en voornemens van

Elk van die aandelen geeft recht op het pro rata temporis dividend voor het lopende boekjaar van 27 oktober 2020 tot en met 31 december 2020 (coupon nr. Elk van die aandelen

Lezers worden erop gewezen dat dergelijke vooruitzichten gekende en ongekende risico's inhouden en onderworpen zijn aan belangrijke bedrijfs-, economische en

Lezers worden erop gewezen dat dergelijke vooruitzichten gekende en ongekende risico's inhouden en onderworpen zijn aan belangrijke bedrijfs-, economische en