Ervaringen - Verslag Pilot Organisatorische aspecten van Social Media Archivering

- Selectie: bepalen welke bronnen relevant zijn en welke bronnen gearchiveerd dienen te

worden

- Archivering: daadwerkelijk harvesten van de bronnen

- Regelen toegankelijkheid: verkrijgen toestemming van rechthebbenden

- Publiceren: zorgen dat de gearchiveerde sociale media toegankelijk wordt voor een breder publiek

In deze pilot ben ik echter aan de laatste twee punten in het geheel niet toegekomen.

2. Ervaringen Scoping

Social Media Archivering is een nog redelijk onontgonnen onderdeel van het erfgoedbehoud. Dat betekent dat het vaak behoorlijk pionieren is en dat er maar beperkt kan worden teruggevallen op de kennis en ervaringen bij collega-instellingen.

In deze pilot bleek dat bijvoorbeeld al direct bij het beantwoorden van de vraag wat ‘sociale media’

dan precies zijn. Wereldwijd zijn er vele honderden sociale mediaplatforms actief en binnen een wat bredere definitie zouden ook Youtube, webfora en reactiegedeeltes van bijvoorbeeld nieuwssites tot de sociale media gerekend kunnen worden.

1 Ik gebruik in de rest van het verslag de Nederlandse term als het om de bron gaat en de Engelse term als het om het project gaat.

2 Met gearchiveerd wordt in dit stuk bedoeld ‘geharvest’. Dit is niet hetzelfde als archiveren, je richt je namelijk niet op de bron en zelfs niet op een directe kopie van de bron (zoals bijvoorbeeld bij digitale documenten), je gebruikt een techniek om informatie van het Internet ‘af te schrapen’ en hiermee een zo identiek mogelijke kopie te reconstrueren.

6 van 14

Het afstruinen van honderden platforms is binnen deze pilot volstrekt onrealistisch en daarnaast zijn de mogelijkheden tot archivering vaak afwezig. Om puur praktische redenen heb ik me dan ook beperkt tot een drietal sociale mediakanalen: Facebook, Twitter en Instagram. In de praktijk zullen dit vermoedelijk ook de kanalen zijn die de meeste impact hebben en gezamenlijk zullen zij waarschijnlijk leiden tot een redelijk compleet beeld van de coronacrisis in Den Haag. Daardoor ontbreken bijvoorbeeld wel Snapchat en TikTok, en daardoor zouden jongeren mogelijk

ondervertegenwoordigd kunnen zijn. Daarnaast zijn het drie Amerikaanse platforms, terwijl bewoners van een multiculturele stad als Den Haag wellicht ook veelvuldig gebruik maken van platformen die bij het grotere publiek maar een beperkte bekendheid genieten. Ik heb deze bias niet getoetst, maar een toekomstig onderzoek hiernaar valt wel aan te bevelen. Ook de vraag of andere sociale mediakanalen zich goed laten archiveren, zou in een vervolgonderzoek beantwoord moeten worden.

Een ander onderdeel van de scoping is de vraag wát je dan precies wil archiveren. Globaal kun je hiervoor twee strategieën ontwikkelen: het archiveren van de content en het archiveren van de (authentieke) bronnen. Het eerste leidt tot platte data en is in ieder geval interessant voor onderzoekers. Het tweede sluit meer aan bij het archiefwezen, dat zich immers richt op het duurzaam bewaren van de authentieke bronnen. Hoewel het hier in het beste geval gaat om een niet-gewaarmerkte kopie en zeker niet om de authentieke bron, heb ik er toch voor gekozen om zowel de inhoud als de structuur te archiveren. Een aanvullend argument is dat de platte data in de toekomst altijd nog uit de webarchieven³ geabstraheerd kan worden, terwijl het niet mogelijk is om later alsnog structuurinformatie toe te voegen.

Ook vraagt de scoping nog om een uitspraak over de vraag of we losse berichten gaan archiveren of dat we de hele bron archiveren. Slechts weinige kanalen zullen namelijk uitsluitend over corona schrijven. In de praktijk is het heel erg lastig om sommige berichten wel en andere niet te archiveren.

In eerste instantie was bedacht om de hele bron te bewaren, maar in de praktijk blijkt dit soms toch zonde van de inspanning en in behoorlijk wat gevallen is het bovendien contraproductief. Het doel van het verzamelen is immers deze data op een later moment weer te kunnen tonen en door veel meer data binnen te halen, neemt ook de kans toe dat er meer data binnen wordt gehaald waar beperkingen mee gemoeid zijn. Daarnaast bleek gedurende de pilot opslagcapaciteit ook nog best een issue te zijn. Ik ben er dus steeds meer toe overgegaan om losse items te bewaren – dus één tweet of één video. Als het hele kanaal of de hele website interessant was, dan heb ik wel aan de oorspronkelijke opzet vastgehouden. Hoe dit moet worden vormgegeven in een gepubliceerde corona-collectie, zal nog moeten blijken. Wellicht dat het dan alsnog verstandiger is om het specifieke item dan ook los te archiveren.

Ten slotte is het nog een keuze om alle embedded content wel of niet te archiveren. Uiteraard zijn getoonde video’s en afbeeldingen een essentieel onderdeel van het kanaal, maar het kost in de praktijk een hoop tijd – een video moet immers eerst geladen worden voordat deze gearchiveerd kan worden – en vooral ook opslagcapaciteit. Een kanaal met slechts platte tekst – berichten en reacties – zal misschien een omvang van enkele megabytes hebben, maar met videomateriaal kan één kanaal al gigabytes aan data opleveren.

Selectie

Het coronavirus heeft een enorme impact op de maatschappij. Vrijwel geen enkel onderdeel heeft er niet mee te maken gehad. Dit komt dus ook tot uiting op sociale media. Waar een onderwerp als de Vreugdevuren slechts een relatief beperkt aantal bronnen kent, is dat aantal in deze casus enorm.

Een heel klein deel van deze kanalen worden beheerd vanuit overheidsorganisaties waarvoor het Haags Gemeentearchief de aangewezen archiefbewaarplaats is. Dat betekent dat deze

overheidsorganisaties een plicht hebben deze kanalen zelf te archiveren en deze op termijn aan ons

3 Ik beschouw gearchiveerde sociale media in de rest van de tekst als een vorm van een webarchief.

7 van 14

over te dragen. In de praktijk was in Nederland nog vrijwel geen overheidsorganisatie hier al mee bezig. Het Haags Gemeentearchief beschikte wel al over het Social Media Dashboard van GW Crossmedia, maar in het dagelijks gebruik bleek dat dashboard tamelijk weinig te kunnen en bovendien alleen ingezet te kunnen worden voor de archivering van de sociale mediakanalen waarvan we inloggegevens hebben. Tijdens de pilot werkte GW Crossmedia wel aan een nieuw ontwerp voor de archivering van de gemeentelijke Facebook-, Twitter- en Instagramaccounts. Dit zag er veelbelovend uit.

Daarnaast is er het veel grotere private domein. Daar wordt veel meer geschreven dan het Haags Gemeentearchief kán en wíl bewaren. Dat noopt tot een selectie. Als 400 cafés hun

coronamaatregelen via een Facebookaccount onder de aandacht brengen, dan hoeven die niet allemaal gearchiveerd te worden om toekomstige gebruikers een goed beeld te geven van de getroffen maatregelen. Hetzelfde geldt voor sites van apotheken, voor ‘persoonlijke

coronadagboeken’, reclames die inspelen op mondkapjes of thuiswerken, en dergelijke.

De Gemeente Den Haag gebruikt voor het beheer van zijn sociale mediakanalen en voor het maken van sociale media-analyses de applicatie Coosto. Ik heb onderzocht of deze tool ook gebruikt zou kunnen worden voor de archivering, maar dat bleek niet het geval. Wel zou de applicatie gebruikt kunnen worden voor het maken van een selectie van de te archiveren kanalen, namelijk door het maken van diverse queries.

In de praktijk werkte dit niet, om een tamelijk voor de hand liggende reden. Het Haags

Gemeentearchief wil zich bij de collectievorming uiteraard beperken tot Haagse onderwerpen, dan wel de uitingen over landelijke onderwerpen die specifiek over Den Haag gaan of die gedaan worden door inwoners van Den Haag. De vreugdevuren zijn bij uitstek een Haags onderwerp, de coronacrisis is dat geenszins. Daarbij wreekt zich dat ‘Den Haag’ veelvuldig gebruikt wordt om de regering dan wel de landelijke overheid aan te duiden. Dit bemoeilijkt in hoge mate het zoeken van berichten over corona ín Den Haag. Van de resultaten van de simpele zoekterm ‘”corona” AND “Den Haag”’ was al snel negentig procent niet relevant. Dat gezegd hebbende: voor vrijwel elke andere archiefdienst kan een tool als Coosto wél een heel bruikbaar hulpmiddel zijn bij het maken van een eerste selectie van te archiveren sociale mediakanalen.

Het Haags Gemeentearchief heeft er – ook in het verlengde van de NDE-oproep – in een redelijk vroeg stadium voor gekozen een oproep op onze website te plaatsen, waarin we Hagenaars

verzochten om mee te denken over interessante bronnen. Op onze Social Media werd ook aandacht besteed aan deze oproep. Dit heeft niet tot reacties geleid.

In augustus hebben we vervolgens een nieuwe oproep gedaan. Dit heeft weliswaar geleid tot een interview met onze gemeentearchivaris op een lokaal radiostation, maar niet direct tot reacties. De oproep op sociale media werd echter periodiek herhaald en ook overgenomen in een lokale krant, waardoor anderhalve maand later ineens alsnog enkele reacties kwamen. Hoewel het in alle gevallen ging om interessant materiaal voor onze collectie, betrof het geen sociale media.

Uiteindelijk hebben we bij het Haags Gemeentearchief iemand ingehuurd om de selectie te maken.

De opdracht was hierbij simpel: ‘breng in kaart wat voor het Haags Gemeentearchief interessante bronnen kunnen zijn’ en verder uiteraard wat er in de scope bepaald is. Aan de persoon die dit uit moest voeren stelden we de volgende eisen: snel beschikbaar, minimaal bekend met (het zoeken in) Twitter, Facebook en Instagram en goed bekend met wat er in Den Haag speelt in tijden van corona.

Deze persoon heeft vervolgens in een relatief korte tijd een behoorlijke lijst van te archiveren bronnen (inclusief websites) opgeleverd.

8 van 14

een eerste versie van de lijst van mogelijk te archiveren sociale mediakanalen

Techniek

Het meest voor de hand liggende startpunt voor het archiveren van sociale media is Webrecorder⁴. Met deze tool kan een website of sociale mediabron – eigenlijk alles met een url – worden geharvest.

Het onderliggende principe hierbij is dat de applicatie je handelingen volgt. Je moet dus elke subpagina openen en elke afbeelding aanklikken om deze te archiveren.

De applicatie kent een webversie en een desktopclient. De eerste komt met een beperkte opslagcapaciteit en je hebt een account nodig. Voor grootschalige webarchivering leek de

desktopversie daarom praktischer. Het grote voordeel van Webrecorder is dat er een Windowsversie beschikbaar is, al blijkt deze in de praktijk niet eenvoudig op alle Windows-systemen geïnstalleerd te kunnen worden.³

Webrecorder biedt de mogelijkheden om collecties op te bouwen, om websites (of delen daarvan) te harvesten en om die webarchieven als warc-bestanden⁵ op te slaan. Daarnaast heeft het de handige mogelijkheid om van de ‘autopilot’-optie gebruik te maken, waardoor bij een Twitter-kanaal

bijvoorbeeld automatisch naar beneden wordt gescrold en alle filmpjes op de achtergrond worden opgestart, zodat ze geharvest kunnen worden.

4 https://conifer.rhizome.org

5Het warc-bestandsformaat is de facto standaard voor webarchieven en staat ook in de lijst van voorkeursformaten van het Nationaal Archief

9 van 14

Webrecorder is één van de weinige onder Windows draaiende applicaties. Om een breder scala aan tools ter beschikking te hebben, ontkom je eigenlijk niet aan een Linux-installatie en dat brengt flink wat uitdagingen met zich mee. Mijn ervaring hierbij is dat de gebruikte Linux-distributie zelf (Ubuntu) in de loop der jaren gebruiksvriendelijker is geworden. Het installeren verliep soepel en door de meegeleverde software kan er al snel mee gewerkt worden. Essentiele onderdelen – zoals bijvoorbeeld het bestandsbeheer – vragen echter wel de nodige gewenning.

Dat geldt ook in sterke mate voor het installeren van aanvullende software. Er zijn meerdere manieren om applicaties onder Linux te installeren, maar in veel gevallen zal dit vooral vanaf de command line gebeuren. Dit hoeft met duidelijke instructies van de bouwers geen probleem te zijn, maar in de praktijk moet je bij elke hapering tijdens de installatie zelf op onderzoek uit. En helaas verloopt het installeren vaak niet zonder problemen omdat de software – in tegenstelling tot de meeste onder Windows draaiende software – veel afhankelijkheden kent, en die afhankelijkheden hebben dan soms ook weer hun eigen afhankelijkheden. Enkele uren bezig zijn om een applicatie geïnstalleerd te krijgen, was dan ook geen uitzondering, mede omdat de documentatie vaak erg summier was. Uiteraard speelt ervaring hierbij wel een flinke rol, een geoefend Linux-gebruiker zal hier minder last van hebben.

archiveren met Webrecorder onder Linux

Van belang hierbij is ook dat je als medewerker waarschijnlijk niet op al te veel ondersteuning van je ICT-organisatie hoeft te rekenen. Je hebt om te beginnen al een computer met installatierechten nodig, wat zelden op instemming van ICT-beheerders kan rekenen, ook vanuit het oogpunt van informatiebeveiliging. Daarnaast werk je met software die maar beperkt getest is, waar weinig tot geen ondersteuning bij geboden wordt en – vooral – waar de ICT-beheerders ook geen enkele kennis van zullen hebben. Binnen een professionele organisatie ga je een en ander hoogstwaarschijnlijk niet ondersteund krijgen – ik heb zelfs niet eens de moeite genomen om het te proberen – waardoor je

10 van 14

op jezelf bent aangewezen. Gelukkig valt er online aardig wat kennis op te doen, maar het is absoluut voorwaardelijk dat je ervan houdt om zelf te experimenteren.

Als je de applicaties eenmaal hebt weten te installeren, dan blijken de bedieningsmogelijkheden vaak summier en niet zelden maar matig gedocumenteerd. Ook hier is werken met de command line eerder regel dan uitzondering. De eerder genoemde Webrecorder, maar ook de Munin Indexer hebben slechts een (beperkte) grafische user interface (GUI).

Ten slotte zijn er op technisch vlak nog vraagtekens te plaatsen bij de continuïteit van de tools.

Achter Webrecorder zit een professionele organisatie, maar de overige tools zijn eigenlijk zonder uitzondering hobbywerk. De makers hebben voor hun eigen situatie een oplossing gebouwd en deze gratis ter beschikking gesteld via Github, vaak vergezeld van enige documentatie over het

installatieproces en het gebruik. Zij zullen echter niet alle ondersteuning kunnen en willen bieden bij het gebruik van de door hen ontwikkelde applicaties. Daarnaast is het de vraag in hoeverre zij hun software zullen blijven onderhouden, bijvoorbeeld om te zorgen dat deze blijft werken na

aanpassingen die sociale mediaplatformen aanbrengen in hun api’s.

Als de archivering van een bericht of kanaal heeft plaatsgevonden, dan is een tweede uitdaging om dit op te slaan in een digitaal duurzaam formaat. Webrecorder kan exporteren naar een warc-bestand, maar het is maar de vraag of dit voor alle tools geldt.

Vervolgens moeten de archiefbestanden gecontroleerd worden. Dit kan bijvoorbeeld met

Webrecorder Player, waarmee warc-bestanden geopend kunnen worden. De lijstweergave is weinig overzichtelijk, maar als eenmaal de beginpagina geopend is dan kunnen alle links na worden gelopen om te kijken of deze ook allemaal in het webarchief opgenomen zijn. Indien dit niet het geval is, dan kan ervoor gekozen worden om dit zo te laten, om de archivering opnieuw te doen, of om de initiële archivering aan te vullen. In Webrecorder heet dit ‘patchen’ en dit is een tamelijk ondoorgrondelijk en vooral traag proces. Na afloop moet bovendien een nieuw warc-bestand worden gemaakt en moet opnieuw de controle plaatsvinden (in principe alleen van de eerder ontbrekende onderdelen).

In document Verslag Pilot Organisatorische aspecten van Social Media Archivering (pagina 5-10)