Out in the open : kwaliteit van open overheidsdata

(1)

AMSTERDAM IT-AUDIT PROGRAMME

Out in the Open

Kwaliteit van open overheidsdata

Yara van der Laan [7000258] 8/7/2014

Opleiding: Executive master in IT-Audit Opleidingsinstituut: Universiteit van Amsterdam

Plaats: Amsterdam

Collegejaar: 2013-2014

Begeleider: Koos Wolters

Tweede beoordeling: Susanne van Hoek-Gerritsen Datum definitieve versie: n.t.b.

(2)

(3)

3

Voorwoord

Voor u ligt het referaat ter afsluiting van het Amsterdam IT-Audit Programme (AITAP) aan de Universiteit van Amsterdam. Het onderwerp van het onderzoek is Open Data, een hot item, zowel binnen de academische wereld als bij de overheid. Dat dit zo was, realiseerde ik me overigens pas beter toen ik eenmaal goed van start was gegaan. Mijn motivatie om juist dit onderwerp te kiezen, was namelijk niet omdat het zo ‘trendy’ is (hoewel ik daar persoonlijk wel gevoelig voor ben), maar vanwege mijn interesse in data en data-analyses. De affiniteit die ik heb opgedaan tijdens mijn academische opleiding Artificial Intelligence over data(-analyses) wil ik verbinden met mijn auditwerkzaamheden. Mijn gedachten gingen daarom richting de grote hoeveelheden data bij de Rijksoverheid en de mogelijkheden die deze data biedt aan auditors en ambtenaren. Het gegeven dat deze data kan bijdragen aan overheidsdoelen zoals verantwoording, maar mogelijk ook interessant kan zijn voor andere (niet overheids)partijen, intrigeerde mij. Langzaamaan belandde ik in de richting van mijn definitieve onderwerpkeuze: Open Data. Het bleek dat over dit onderwerp –vooral in relatie tot IT-auditing- nog geen literatuur was te vinden. Was dit een goed of juist een slecht teken? Het maakte het op sommige punten lastig voor het uitvoeren van een literatuur- of methodologisch onderzoek, omdat er nog geen voorbeelden waren. Aan de andere kant is het als referaatonderwerp nog niet (vaak) voorbijgekomen en maakt het uitdagend om op dit gebied een bijdrage te kunnen leveren aan mijn beroepsveld. Ik ben ervan overtuigd dat Open Data een prominentere rol gaat spelen bij de overheid en dat IT-auditors in ieder geval op de hoogte moeten zijn van dit onderwerp en de ontwikkelingen die plaatsvinden.

Het is zeker geen gemakkelijk proces om een referaat te schrijven naast werkverplichtingen en behoefte aan een privéleven. De positieve reacties vanuit het werkveld en van betrokken overheidspartijen in Nederland en daarbuiten hebben mij voldoende energie gegeven. De

geïnterviewden stonden mij allemaal bereidwillig te woord en waren stuk voor stuk enthousiast over Open Data en mijn referaat. Speciale dank gaat uit naar de onderzoeksgroep Knowledge

Representation and Reasoning van de Vrije Universiteit Amsterdam voor hun kennis en het gebruiken van hun contacten in binnen- en buitenland. Ook de brainstormsessie met Joris Hulstijn van de TU Delft heeft mij goed op weg geholpen. Via dit voorwoord wil ik ook Koos Wolters bedanken voor de begeleiding vanuit AITAP.

Yara van der Laan

(4)

4

Inhoudsopgave

Voorwoord ... 3

Samenvatting ... 7

1 Inleiding ... 9

1.1 Aanleiding voor dit onderzoek ... 9

1.2 Doel en probleemstelling ... 9

1.3 Methodologische toelichting ... 10

1.3.1 Verkennend onderzoek ... 10

1.3.2 Beschouwing mogelijke alternatieve methodologie: case study ... 11

1.4 Leeswijzer ... 11

2 Open Data ... 13

2.1 Inleiding ... 13

2.2 ‘Open Data’ gedefinieerd ... 13

2.3 De weg naar een open overheid ... 16

2.4 Voorbeelden van Open Data-projecten wereldwijd ... 17

2.5 Nederlandse Open Data ... 18

2.6 Kernpunten ... 20

3 Achterliggende techniek leidt tot succes: Open Data en Linked Data ... 22

3.2 Data, data, data, data, … ... 22

3.3 Hoe link je data? ... 22

3.4 Het vijfsterrenmodel ... 24

3.5 Het belang van Linked Data voor Open Data ... 25

4 Risico’s van Open Data ... 27

4.2 Gebruikerswensen onduidelijk ... 27

4.3 Open Data vraagt veranderingen bij organisaties ... 28

4.4 Aansprakelijkheid ... 28

4.5 Privacy ... 30

4.6 Provenance ... 30

4.7 Licenties van Open Data ... 31

4.8 Verantwoordelijkheden... 31

(5)

5

5 Vergelijking Open Data-projecten ... 34

5.2 Toelichting keuze Open Data-projecten ... 34

5.3 Voldoen de projecten aan de Open Data-criteria? ... 35

5.4 Verschillen en overeenkomsten ... 35

5.4.1 Ambitie, doel en realisatie van de websites ... 35

5.4.2 Technische aspecten en datakwaliteit ... 37

5.4.3 Toetsing van de risico’s ... 37

6 Rol IT-auditor ... 41

6.2 Theoretische achtergrond IT-audit... 41

6.3 Wat kan de IT-auditor met Open Data? ... 42

6.3.1 Assurance-opdracht ... 42

6.3.2 Adviesopdrachten ... 43

6.4 Tijdstippen van audit op datakwaliteit ... 45

6.5 Aanbevelingen ... 45

7 Tot slot ... 47

7.2 Antwoorden op de deelvragen... 47

7.2.1 Onderzoeksvraag 1: Wat is Open Data? ... 47

7.2.2 Onderzoeksvraag 2: Wat maakt een Open Data project succesvol? ... 47

7.2.3 Onderzoeksvraag 3: Welke risico’s brengt Open Data met zich? ... 47

7.2.4 Onderzoeksvraag 4: Welke rol kan een IT-auditor vervullen als het gaat om kwaliteitsborging bij Open Data-projecten? ... 47

7.3 Conclusie ... 47

7.4 Aanbevelingen voor verder onderzoek ... 48

8 Literatuurlijst ... 49

9 Bijlagen ... 51

9.1 Bijlage: kosten en baten vijfsterrenmodel ... 51

9.2 Bijlage: gedetailleerde informatie vergelijking projecten ... 53

(6)

6 9.4 Bijlage: toetsing van de risico’s per project ... 63

(7)

7

Samenvatting

Deze scriptie gaat over Open Data bij de overheid. Open Data is ongestructureerde (overheids)data die op internet is gepubliceerd en daardoor kosteloos en vrij van rechten door iedereen kan worden hergebruikt. Wereldwijd bieden steeds meer overheden informatie als Open Data aan, zo ook in Nederland. Voornaamste redenen hiervoor zijn een toename van transparantie vanuit de overheid naar burgers toe en economische meerwaarde die toepassingen van Open Data kunnen opleveren. Zoals het er naar uitziet zal het gebruik van Open Data de komende jaren toenemen. Overheden willen dat de data zoveel mogelijk wordt hergebruikt. Om dit te realiseren, is louter het publiceren van Open Data niet voldoende. Wanneer er verbanden (links) worden gelegd tussen verschillende Open Data-bestanden (Linked Data), zal er meer gegevensuitwisseling mogelijk zijn en kan Open Data kwalitatief beter worden. Open Data brengt verschillende risico’s met zich mee. Deze risico’s staan vaak niet op zichzelf en kunnen grote gevolgen hebben voor overheidsorganisaties die Open Data publiceren of voor burgers. In dit onderzoek zijn de volgende risico’s gesignaleerd:

1. Onduidelijke gebruikerswensen

Open Data richt zich niet op een specifieke gebruikersgroep, waardoor het onduidelijk is voor wie en voor welk doel data wordt aangeboden. Er kan geen rekening gehouden worden met gebruikersdoel en het risico bestaat dat gebruikers van Open Data invloed heeft op de manier waarop men de kwaliteit van data ervaart.

2. Open Data vraagt veranderingen bij organisaties

Organisaties zijn nu vaak nog niet ingesteld om Open Data-beleid in praktijk te brengen. 3. Aansprakelijkheid

Open Data kan partijen schaden doordat er schade kan ontstaan uit onjuiste of onvolledige informatie, er inbreuk kan zijn op in privacy- of eigendomsrecht en imagoschade.

4. Privacy

Open Data mag niet te herleiden zijn naar informatie over personen. Het recht op privacy is wettelijk vastgelegd.

5. Provenance

Betrouwbaarheid van Open Data kan onder andere worden vastgelegd door middel van provenance. Het ontbreken van provenance is daarom een risico.

6. Licenties van Open Data

Bij afwezigheid van een licentie kan onduidelijkheid bestaan over hergebruik van Open Data. 7. Verantwoordelijkheden

De precieze verantwoordelijkheid van partijen over de kwaliteit van de Open Data in verschillende stadia is niet altijd duidelijk.

8. Datakwaliteit

Bij het openbaar maken van data is het van belang dat de data van voldoende kwaliteit is. Om meer inzicht te krijgen in Open Data-projecten en de manier waarop het publicatieproces en waarborgen van datakwaliteit plaatsvinden, zijn in dit onderzoek verschillende projecten bestudeerd. Dit zijn het Amerikaanse data.gov, het Britse data.gov.uk en het Nederlandse data.overheid.nl. In geen van de projecten wordt nog gebruik gemaakt van IT-auditors. Overheden hebben zich gecommitteerd aan Open Data, waardoor het een onomkeerbaar fenomeen lijkt te zijn. Als een overheid Open Data gebruikt, dan wil het betrouwbare data naar buiten brengen. Er zou een duidelijke rol weggelegd kunnen worden voor IT-auditors bij Open Data-projecten. IT-auditors

(8)

8 kunnen helpen met de beoordeling van de kwaliteit van Open Data als (extern) controleur. Hun oordeel zal objectief en onafhankelijk zijn. Alleen al het feit dat een auditor betrokken is bij een Open Data-project kan een positieve invloed hebben op de waarborg van kwaliteit van Open Data. Partijen die verantwoordelijk zijn voor de publicatie en kwaliteit van Open Data zijn dan gedwongen om naar hun gepubliceerde data en hun getroffen beheersingsmaatregelen voor kwaliteitsborging te kijken. Het is mogelijk voor IT-auditors om zowel assurance- als adviesopdrachten uit te voeren, hoewel adviesopdrachten een grotere verscheidenheid kennen en in praktijk waarschijnlijk vaker uitgevoerd zullen worden. In de publieke sector zal de komende jaren steeds meer gebruik gemaakt worden van Open Data en daardoor zal een toenemend belang ontstaan naar toetsing vanuit een onafhankelijke (derde) partij.

(9)

9

1 Inleiding

1.1 Aanleiding voor dit onderzoek

In een publicatie van McKinsey (McKinsey Global Institute, 2013) staat beschreven dat Open Data veel voordelen biedt1 in verschillende branches. Overheden nemen een prominente rol in als het gaat om het openbaar maken van data om maatschappelijke doelen te bewerkstelligen. De Britse en Amerikaanse overheden zijn al verder dan Nederland met Open Data projecten zoals data.gov.(uk). De Nederlandse overheid wil meer gebruik maken van Open Data en heeft daarvoor een visie geformuleerd (Ministerie van Binnenlandse Zaken en Koninkrijksrelaties, 2013). Daarin staat onder andere dat zij transparanter wil zijn en dat zij streeft naar het gebruik van Open Data. Zo zorgt Open Data voor grotere transparantie en verantwoording naar burgers. Daarnaast heeft men ook de gedachte van de Europese Unie overgenomen dat Open Data leidt tot economisch meerwaarde. Open Data wordt gezien als collectief goed dat voor iedereen waarde heeft. De economie kan een boost krijgen door toepassingen van Open Data, zoals ondernemingen die apps ontwikkelen door Open Data te gebruiken. Die toepassingen zorgen voor werkgelegenheid en belastinginkomsten. Steeds meer data is openbaar of zal in de toekomst openbaar gemaakt worden. De overheid heeft met het openbaar maken van data ook verantwoordelijkheden. Openbaar maken van data alleen is niet voldoende. De aanbieder moet er ook voor zorgdragen dat de data juist en betrouwbaar is, gebruikersnut dient en kwalitatief hoogwaardig is. Zo is het belangrijk te weten of er

beheersmaatregelen zijn getroffen die zorgen dat de Open Data van voldoende kwaliteit is. Voor IT-auditors kan een rol weggelegd zijn om comfort te scheppen voor gebruikers dat de open data kwalitatief goed genoeg is voor bepaalde gebruiksdoelen.

1.2 Doel en probleemstelling

Data zal in de toekomst steeds vaker vrij beschikbaar gesteld worden binnen de publieke sector. Overheden wereldwijd hebben zich ten doel gesteld om data voor iedereen toegankelijk te maken in het kader van een grotere transparantie en om innovatie te ondersteunen. Hoe gaat een auditor met deze IT-trend om; welke zorg is er voor kwaliteitsborging van deze Open Data?

Er zijn niet veel wetenschappelijke artikelen over Open Data in relatie tot IT-audit in de publieke sector. Het onderzoek zal daarom explorerend van aard zijn. Het doel van het onderzoek is om vast te stellen wat Open Data is, welke kwaliteitsborging er is voor Open overheidsdata en de mogelijke rol van de IT-auditor voor het beoordelen van de kwaliteit van Open Data. Met dit onderzoek wordt beoogd om tot inzichten te komen over kwaliteitsborging en Open Data, hetgeen nu nog niet in vakliteratuur terug te vinden is.

De probleemstelling van dit onderzoek is:

Hoe kan de kwaliteit van Open Data in de publieke sector worden geborgd en welke rol vervult de IT-auditor hierin?

1

Hoewel het grammaticaal juist is om ‘(open) data’ als meervoudige persoonsvorm te gebruiken, wordt ‘data’ in IT-vakjargon vaak met enkelvoudige persoonsvorm aangeduid. In dit

onderzoeksreferaat zal de schrijf- en aanduidingwijze aangehouden worden zoals binnen de IT gebruikelijk is.

(10)

10 Hieronder staan de deelvragen die behandeld worden in deze referaat. De onderzoeksvragen samen leiden tot beantwoording van de centrale vraag (probleemstelling).

 Onderzoeksvraag 1: Wat is Open Data?

 Onderzoeksvraag 2: Wat maakt een Open Data project succesvol?

 Onderzoeksvraag 3: Welke risico’s brengt Open Data met zich?

 Onderzoeksvraag 4: Welke rol kan een IT-auditor vervullen als het gaat om kwaliteitsborging bij Open Data-projecten?

1.3 Methodologische toelichting

1.3.1 Verkennend onderzoek

Dit onderzoek is verkennend van aard en daarom voornamelijk een literatuurstudie, aangevuld met interviews over open data projecten bij specifiek geselecteerde partijen. Daarmee valt dit onderzoek te kenmerken als exploratief onderzoek. Binnen wetenschappelijk onderzoek is

explorerend/verkennend onderzoek een geaccepteerde onderzoeksmethode. De grootste nadruk binnen deze gehanteerde methodologie is om tot nieuwe ideeën of inzichten te komen (Kothari, 2004). Zodoende is er binnen een dergelijk onderzoek flexibiliteit nodig, omdat gedurende het onderzoek doorgaans een ontwikkeling plaatsvindt van een algemene onderzoeksvraag naar specifieke onderzoekshypothesen of het operationeel maken van theoretische concepten. Exploratief onderzoek moet leiden tot inzichten en zal zodanig flexibel moeten zijn dat een onderzoeker in staat is om het object van onderzoek van verschillende kanten te belichten. Exploratief onderzoek kan op verschillende manieren worden uitgevoerd. De verschillende categorieën die worden onderkend binnen verkennend onderzoek zijn (Kothari, 2004):

1. Literatuuronderzoek;

2. Survey op basis van ervaring (indien men al praktijkervaring heeft met het onderwerp dat wordt onderzocht);

3. Analysis of ‘insight-stimulating’ examples (hieronder verder toegelicht).

Voor dit referaat wordt gekozen voor een combinatie van de eerste en laatste categorie van

verkennend onderzoek. Om een specifiekere richting binnen exploratief onderzoek te volgen, wordt er zowel een survey uitgevoerd op beschikbare literatuur als een analysis of ‘insight-stimulating’ examples (Kothari, 2004). Onderzoek op basis van ervaringen –de tweede categorie- is voor dit referaat niet van toepassing, omdat er weinig praktijkervaring is.

Als start is het belangrijk om een literatuuronderzoek te doen op basis van beschikbare informatie over open data. Op deze manier kan er voldoende basis voor het onderwerp worden gelegd.

Aangezien er geen tot zeer beperkte literatuur is over praktijkervaringen inzake kwaliteitsborging van open data en open data in relatie tot IT-audit, zijn interviews over praktijkervaring een belangrijke aanvulling op beschikbare literatuur. Het bestuderen van verschillende projecten -zowel binnen de Nederlandse, Britse en Amerikaanse overheid- helpt om tot beter inzicht te komen. Deze projecten verstrekken informatie over praktische toepassing van open data en kunnen daarnaast met elkaar worden vergeleken. In de Verenigde Staten en Groot Brittannië is men langer bezig met open data en wordt onder andere door Nederland als voorbeeld gezien. Beide genoemde landen zijn voorlopers,

(11)

11 terwijl Nederland vaak als ‘middenmoter’ wordt geclassificeerd als het gaat om Open Data. Vandaar de keuze voor het vergelijken van drie verschillende projecten uit deze landen.

1.3.2 Beschouwing mogelijke alternatieve methodologie: case study

Aangezien open data een vrij nieuw fenomeen is, wordt er voor dit onderzoek gekozen voor het explorerend onderzoek. Deze onderzoeksmethode leent zich goed voor onderwerpen die innovatief zijn en die nader inzicht vragen. Het nadeel van een verkennend onderzoek is dat er nog niet veel informatie voorhanden is die op specifieke details ingaat. Dat maakt het lastig om conclusies te trekken, vooral omdat er geen toetsbare hypothese wordt opgesteld in het onderzoek. In het

referaatproces wordt voornamelijk gezocht naar inzichten en een mogelijke relatie tussen IT-audit en kwaliteitsborging van Open Data. Aangezien verschillende Open Data-projecten worden vergeleken, is een ‘case study’ -een andere onderzoeksmethodologie- een mogelijk alternatief voor de ‘analysis of insight stimulating examples’. Doordat echter vooraf niet helemaal bepaald kan worden welke praktijksituaties zich voordoen, leent verkennend onderzoek zich beter voor dit onderzoek dan ‘case studies’. Bij ‘case studies’ gaat onderzoek de diepte in en worden vergelijkbare situaties

geselecteerd. Doordat Open Data nog niet veel wordt toegepast, kan er geen selectie plaatsvinden tussen projecten om te voldoen aan specifieke onderzoeksdoeleinden. Op voorhand is niet vast te stellen of de verschillende Open Data-projecten op dezelfde manier verlopen en of zij op een

gestructureerde wijze met dezelfde diepgang kunnen worden onderzocht. Bij een ‘analysis of insight-stimulating example’ kan de huidige praktijkervaring binnen de Open Data-projecten wel een toevoeging zijn op de literatuurstudie. De bestudeerde Open Data projecten kunnen inzichten verschaffen over kwaliteitsborging van Open Data. De opgedane inzichten kunnen de basis zijn voor verder onderzoek. Aan de hand van de literatuurstudie en de informatie die is verkregen over de geanalyseerde Open Data-projecten, kunnen inzichten voortkomen die leiden tot aanbevelingen. Ieder Open Data-project is anders, dus auditors zullen verschillende zaken mee moeten nemen in een beoordeling.

1.4 Leeswijzer

In hoofdstuk 2 wordt er antwoord gegeven op de vraag wat Open Data is (deelvraag 1). We gaan niet alleen in op de betekenis van Open Data, maar ook waarom overheden deze data willen publiceren. Een aantal illustrerende voorbeelden zullen de revue passeren, zodat de lezer een idee heeft van huidige Nederlandse Open Data-toepassingen en projecten.

Hoofdstuk 3 behandelt onderzoeksvraag 2 en zal daarom ingaan op wat een Open Data-project succesvol maakt. Er zal daarnaast ook dieper worden ingaan op de theoretische achtergrond. In dit hoofdstuk wordt Open Data in verband gebracht met Linked Data en het belang hiervan voor Open Data. Aangezien het linken van data een belangrijke bijdrage levert aan kwaliteit van data en van uitermate groot belang is voor een succesvol Open Data project, is het goed om stil te staan bij theoretische achtergrond van Linked Data. Dit hoofdstuk biedt voldoende achtergrond over dit onderwerp, zodat later in de referaat het concept Linked Data als bekend kan worden verondersteld en ook het belang hiervan voor datakwaliteit kan worden meegenomen.

Hoofdstuk 4 beschrijft de risico’s van Open Data en beantwoordt hiermee onderzoeksvraag 3 over de risico’s van Open Data.

(12)

12 Hoofdstuk 5 geeft de vergelijking van de Open Data-projecten die zijn gekozen als ‘insight-stimulating examples’. In dit hoofdstuk wordt aangegeven waarom voor deze projecten is gekozen en wat de overeenkomsten en verschillen zijn. Het hoofdstuk is niet direct gekoppeld aan een deelvraag, maar is wel een opmaat voor hoofdstuk 6 waarin de vraag “Welke rol kan een IT-auditor vervullen als het gaat om kwaliteitsborging bij Open Data-projecten?” wordt behandeld.

Hoofdstuk 7 bestaat uit de conclusie van dit referaat en aanbevelingen die daaruit volgen. In dit hoofdstuk wordt er vanzelfsprekend ook antwoord gegeven op de hoofdvraag.

(13)

13

2 Open Data

2.1 Inleiding

Dit hoofdstuk geeft antwoord op de deelvraag “Wat is Open Data? “. In dit hoofdstuk wordt achtergrondinformatie gegeven over Open Data. Dit biedt een goede achtergrond voor de

verschillende Open Data-projecten in Nederland, Groot-Brittannië en de Verenigde Staten, die in dit onderzoek met elkaar worden vergeleken en inzicht zullen bieden.

2.2 ‘Open Data’ gedefinieerd

Overal ter wereld wordt data opgeslagen. Analyse van grote dataverzamelingen en het herkennen van patronen hierin levert waardevolle informatie op. Op basis van deze informatie kunnen bedrijven nieuwe producten ontwikkelen, zijn organisaties in staat hun bedrijfsvoering efficiënter te maken en zijn trends in context te plaatsen. Steeds meer (digitale) data wordt verzameld. Het openbaar maken van data, gebeurt al lange tijd. Toch is het benoemen van deze openbaar gemaakte data als ‘Open Data’ een nieuw fenomeen. Open Data wordt door aanbieders via internet verspreid. Open Data is een ontwikkeling die niet alleen door overheden wordt omarmd, maar vanuit verschillende sectoren in opkomst is. Overheden spelen wereldwijd wel een voorname rol als het gaat om Open Data-initiatieven. Er zijn verschillende definities van Open Data die grosso modo hetzelfde verwoorden. De detaillering van de definitie of de uitleg van partijen kan wat afwijken. In alle definities van Open Data spreken we van data die digitaal beschikbaar is voor iedereen, zonder kosten verkrijgbaar en vrij van rechten is.

Wanneer data openbaar wordt gemaakt, vindt er een verschuiving plaats en wordt de traditionele scheiding tussen de gebruiker en de (publieke) organisatie opgeheven (Janssen, Charalabidis, & Zuiderwijk, 2012). Een internationale verzameling van criteria is in 2007 vastgelegd in de Open Government Data principles. De Sunlight Foundation2 heeft deze set in 2010 uitgebreid. Overheidsdata kan volgens deze definitie worden beschouwd als Open Data, wanneer aan de volgende voorwaarden wordt voldaan (Bauer & Kaltenbock, 2013):

1. Data must be complete

Publieke data moet volledig beschikbaar worden gemaakt aan burgers. 2. Data must be primary

Data wordt gepubliceerd op de manier zoals het door de bron is verzameld. 3. Data must be timely

De data moet zo actueel mogelijk zijn en wordt zo snel mogelijk gepubliceerd om de waarde van de data zo goed mogelijk vast te leggen.

4. Data must be accessible

Data wordt op die manier beschikbaar gesteld aan een zo groot mogelijke verscheidenheid van mogelijke gebruikers voor de meest uiteenlopende doelen. In de praktijk wordt Open Data daarom via internet aangeboden.

5. Data must be machine-processable

De data moet geautomatiseerd verwerkt kunnen worden. 6. Data must be non-disciminatory

2

De Sunlight Foundation is een non-profit organisatie die het principe achter Open Overheid propageert en ook onder andere tools en aanbevelingen voor Open Data-beleid aanbiedt.

(14)

14 De data is voor iedereen vrij beschikbaar, waarbij er geen onderscheid is tussen mogelijke gebruikers en er geen registratie nodig is voordat de data ingezien en gebruikt kan worden. 7. Data formats must be non-proprietary

Het gebruikte dataformaat is ‘open’ waardoor geen partij de rechten heeft over dit formaat. 8. Data must be license-free

De data bevat geen copyright, patent, handelsmerk of bevat vertrouwelijke (handels)informatie.

9. Permanence

Er moet een mogelijkheid te zijn om informatie na langere tijd ook nog terug te kunnen vinden.

10. Usage costs

Gebruikerskosten mogen er niet zijn, zelfs minimale kosten hebben invloed op het gebruik van data die eigenlijk volledig openbaar hoort te zijn.

Het is belangrijk om te vermelden dat er niet kan worden gesproken over Open Data als slechts deels aan deze criteria wordt voldaan.

De Algemene Rekenkamer houdt ook een definitie aan voor Open Data, die met vijf beschreven criteria het begrip Open Data definieert: (1) uit publieke middelen bekostigd, (2) openbaar, (3) vrij van auteursrechten, (4) computer-leesbaar en (5) zonder beperkingen voor herbruik beschikbaar (Algemene Rekenkamer, 2014). Het concept Open Data wordt op een minder uitgebreid

detailleringsniveau uitgelegd, maar brengt wel dezelfde boodschap over als de definitie van de Sunlight Foundation. Het eerste criterium van de Algemene Rekenkamer is overigens niet terug te vinden in de vastgestelde lijst van de Sunlight Foundation. De definitie van de Algemene Rekenkamer is hier genoemd, omdat deze omschrijving Open Data heel duidelijk in een overheidskader plaatst. De Sunlight Foundation maakt dat niet expliciet in de genoemde criteria.

We zien dat overheidsinformatie een duidelijke rol speelt in Open Data, maar dat wil niet zeggen dat alle Open Data door de overheid is gepubliceerd. Daarbij is niet alle overheidsdata openbaar en daardoor niet vrij verkrijgbaar en herbruikbaar voor het brede publiek. Zo kunnen documenten waarin privacy van personen wordt geschonden of welke staatsgeheimen bevatten niet openbaar worden gemaakt. Het niet publiceren is bijna altijd in verband te brengen met veiligheid van de staat of van burgers (Janssen, Charalabidis, & Zuiderwijk, 2012).

In onderstaande figuur is de betekenis van Open Data binnen de publieke sector weergegeven. Dit bevindt zich op het snijvlak tussen Open Data en overheidsinformatie. Het onderscheid tussen alle Open Data en open overheidsinformatie is daarmee mooi geïllustreerd:

(15)

15

Figuur 1: Nadere duiding Open Data (Bureau Forum Standaardisatie, 2012)

In dit referaat is Open Data in de publieke sector het onderwerp van onderzoek. De scope van dit onderzoek is daarom samengevat in de middelste cirkel van bovenstaand figuur (de overlap van de twee grote cirkels).

Er wordt vaak gezegd dat Open Data hetzelfde is als ‘Big Data’3. Big Data is een algemeen gebruikte term om weer te geven dat dataverzameling(en) zo groot en complex zijn dat het niet mogelijk is om klassieke data-analysetechnieken te gebruiken. Dit hoeft niet het geval te zijn bij Open Data; vaak zijn openbare dataverzamelingen Big Data, maar ook een kleine dataverzameling kan Open Data zijn. Wanneer er gesproken wordt over Open Data, is de term Big Data niet altijd van toepassing.

Open Data komt qua idee overeen met de Open Source beweging die al langer bestaat. Open Source software is vrij verkrijgbaar voor gebruikers, daarbij is ook de broncode vrijgegeven en aan te passen. Er wordt door verschillende mensen aan Open Source software gewerkt. Het verschil tussen Open Source en Closed Source software, is dat gebruikers met Closed Source alleen een licentie hebben om functionaliteiten te gebruiken waarvoor is betaald. De door de non-profit organisatie Open Source Initiative bijgehouden Open Source Definition bevat de volgende criteria (opensource.org):

1. Free Redistribution; 2. Source Code; 3. Derived Works;

4. Integrity of The Author’s Source Code; 5. No Discrimination Against Persons or Groups; 6. No Discrimination Against Fields of Endeavor 7. Distrubution of License;

3

De technische omschrijving van Big Data is dat het gaat om verzamelingen van data die zo groot zijn, dat ze niet kunnen worden onderhouden met reguliere databasemanagementsystemen (DMBS). Het gaat daarbij ook om ongestructureerde datasets in schemaloze databases (Geonovum, 2013).

(16)

16 8. License Must Not Be Specific to a Product;

9. License Must Not Restrict Other Software; 10. License Must Be Technology-Neutral.

Het idee achter de Open Source beweging is dat vrij gebruik en het vrij aanpassen van sourcecode bijdraagt aan betere en goedkopere software in tegenstelling tot software die wordt verkocht via softwarebedrijven. Mensen die werken aan Open Source software, leveren een bijdrage aan een kwalitatief hoogwaardig product en worden gecontroleerd en verbeterd door hun

medeprogrammeurs. Zij zijn niet gedreven door winst en ontwikkelen functionaliteiten met oog op gebruik en gebruikers. Het verband hierbij met Open Data is dat het ook vrij beschikbaar is en dat de gebruikers kunnen bijdragen aan het ontwikkelen van toepassingen en de kwaliteit van de data.

2.3 De weg naar een open overheid

Door Open Data zullen er zaken binnen de publieke sector veranderen. Het betekent een

veranderende rol tussen publieke organisaties en burgers. Volgens onderzoek van Janssen et al. zijn er twee belangrijke aannames te doen als een overheid gebruik maakt van Open Data. Ten eerste geeft het aan dat overheidsorganisaties bereid zijn om bepaalde macht uit handen te geven. Daarnaast geeft zo’n organisatie controle uit handen. Deze aannames hebben verregaande

consequenties, want het zet een beweging in naar een open overheid. Dit is een transformatie van de traditionele structuur van de overheid als gezaghebbend orgaan, naar een open systeem met interactie tussen overheid en burgers. Burgers staan daarbij buiten de organisatie en de

bijbehorende hiërarchie. De voornaamste redenen voor een overheid om Open Data aan te bieden aan burgers zijn transparantie (en daardoor verantwoording) naar burgers toe en economisch voordeel door middel van innovatieve toepassingen van Open Data. De grootste drempels die met Open Data worden ervaren zijn door Janssen et al. (Janssen, Charalabidis, & Zuiderwijk, 2012) grofweg geïdentificeerd als: (1) problemen door het niet willen publiceren van data, en (2) door het niet kunnen gebruiken van de data. In oriënterende gesprekken over Open Data bij verschillende overheidsorganisaties is bevestigd dat datakwaliteit –de focus van het onderzoek- één van de moeilijkheden is bij het publiceren en het ook een lastig fenomeen blijft na de publicatie van Open Data. Janssen et al. geven aan dat datakwaliteit een relevant probleem is voor zowel de partijen die Open Data publiceren als voor gebruikers. In hoofdstuk 4 zal verder ingegaan worden op risico’s en problemen van Open Data.

Overheden nemen wereldwijd een prominente rol in als het gaat om het openbaar maken van data om maatschappelijke doelen te bewerkstelligen. Er zijn inmiddels meer dan veertig landen (McKinsey Global Institute, 2013) die Open Data-projecten zijn gestart. Deze initiatieven zijn niet alleen

voorbehouden aan westerse landen, maar ook ontwikkelingslanden gaan mee in deze trend. De Open Government Data beweging is begonnen in Australië, Nieuw-Zeeland, Europa en Noord-Amerika, maar er zijn nu ook veel activiteiten in Azië, Zuid-Amerika en Afrika. Neelie Kroes, vice-voorzitter van de Europese Commissie die verantwoordelijk is voor digitalisering, spreekt zich sterk uit voor het gebruik van Open Data. Vanuit de commissie is in 2011 een Open Data-strategie uitgebracht. Overheden grijpen de kans die Open Data biedt aan om economische ontwikkeling te bewerkstelligen, ruimte te geven aan innovatieve projecten en zorgen dat de overheid transparanter wordt en beter gaat functioneren. Neelie Kroes spreekt ook geregeld over Open Data in

overheidscontext. Uitspraken van haar zijn onder andere “Unlocking this gold mine” en “Opening up business opportunities”. Hoewel zij als Europees Commissaris het belang van Big Data en Open Data

(17)

17

onderschrijft en promoot, is Europa geen koploper op dit gebied (Geonovum, 2013). Uit deze uitspraken komt duidelijk naar voren dat de Europese Unie de (in)directe economische voordelen ziet van het gebruik van Open Data, terwijl in de Verenigde Staten vooral nadruk ligt op toenemende transparantie, participatie en samenwerking wat leidt tot een betere dienstverlening van de

Amerikaanse overheid aan haar burgers. Deze verschillen zorgen wellicht voor een andere vormen van Open Data-beleid waarin Open Data op een ander manier worden gestimuleerd om beschikbaar te stellen of te gebruiken (Zuiderwijk & Janssen, 2013).

Overheden, van lokaal tot het hoogste niveau, zijn zowel een bron voor Open Data als een partij die het beleid om Open Data vormgeeft. Het publiceren van Open Data moet geen doel op zich zijn, maar een doel hebben dat een publiek dient. Onderzoek van McKinsey stelt daarom dat in het Open Data-beleid prioriteit zou moeten worden gegeven aan het publiceren van bepaalde data met een hogere potentiële waarde (McKinsey Global Institute, 2013). Overheden kunnen regels stellen wanneer data wel of niet gepubliceerd moet worden. Gezien het feit dat belastinggeld ervoor zorgt dat overheden functioneren en informatie kunnen verzamelen, hebben burgers recht op openheid van gegevens. Wanneer er problemen zijn in het kader van aansprakelijkheid, (staats)veiligheid, privacy en auteursrechten, kan er besloten worden om bepaalde data niet te publiceren (McKinsey Global Institute, 2013). Uit gesprekken voor dit onderzoek met overheidsorganisaties die zich bezig houden met Open Data (NASA in de Verenigde Staten en Kennis- en Exploitatiecentrum Officiële Overheidspublicaties –onderdeel van het Ministerie van Binnenlandse Zaken en Koninkrijksrelaties- in Nederland) blijkt dat hiervoor zowel wetgeving als interne procedures worden gevolgd. Data wordt niet zonder controle gepubliceerd, vooraf vindt er een werkproces plaats om te bepalen of de informatie kan worden gepubliceerd.

2.4 Voorbeelden van Open Data-projecten wereldwijd

Om een concreter beeld te krijgen van Open Data wereldwijd, zal deze paragraaf gewijd worden aan een aantal illustratieve voorbeelden.

Zweedse treinen

In Zweden maken derde partijen gebruik van data over treintijden, die de vervoerder Trafikvertet openbaar maakt. Het gaat om alle treinen die door het land rijden. Via apps kunnen gebruikers inzage krijgen in real-time informatie, zoals vertrektijden, verwachte aankomsttijden en sporen waarop de treinen rijden (McKinsey Global Institute, 2013).

Waar kan ik mijn auto kwijt?

Via een app weten waar je je auto kunt parkeren? In Singapore, Chicago en San Fransisco kan dit op basis van actuele informatie over vrije parkeerplaatsen die als Open Data is aangeboden. (McKinsey Global Institute, 2013)

Hoe wordt hulpgeld ingezet?

Als burger wil je eigenlijk wel weten hoe jouw overheid hulpgelden inzet na een ramp. In Amerika kon men na de orkaan Sandy precies zien op welke manier hulpgeld is ingezet voor schade die veroorzaakt is door Sandy. Via recovery.gov kijk je als burger mee. Het doel van deze

Open Spending is om transparant te zijn en fraude,

verspilling en corruptie tegen te gaan. (Algemene Rekenkamer, 2014)

Britse zorgdata

In Engeland maken beleidsmaker gebruik van Open Data over het voorschrijfgedrag van huisartsen. Door dit inzichtelijk te maken, bleek miljoenen ponden bespaard te kunnen worden. In bepaalde regio’s schreven artsen veel duurdere medicijnen voor. (Algemene Rekenkamer, 2014)

Braziliaanse corruptie

Om corruptie tegen te gaan, besloot de Braziliaanse regering om haar boeken te openen. Door inzicht te geven in alle uitgaven van de overheid. Door deze Open Data wordt er een cultuurverandering teweeg gebracht in Brazilië (McKinsey Global Institute, 2013).

Openbaar toilet

In een ontwikkelingsland als India zijn ook projecten gaande: om te weten waar nieuwe toiletten nodig zijn, worden bestaande toiletten in kaart gebracht. Alle informatie wordt gedigitaliseerd en als Open Data op een kaart beschikbaar gemaakt. (Open Data Research Network, 2013)

(18)

18

2.5 Nederlandse Open Data

Dit onderzoek richt zich op Open Data binnen de publieke sector en het is interessant om de conclusie en aanbevelingen die daaruit volgen later in dit referaat toepasbaar te maken binnen de Nederlandse overheid. In die zin is het interessant om meer te weten te komen over Open Data binnen Nederland. Deze paragraaf voorziet in deze achtergrondinformatie.

De Nederlandse Rijksoverheid wil meer gebruik maken van Open Data in haar beleid en heeft daarvoor een visie en een actieplan geformuleerd (Ministerie van Binnenlandse Zaken en

Koninkrijksrelaties, 2013). Daarin staat onder andere dat zij transparanter wil zijn en streeft naar het gebruik van Open Data. Daarnaast heeft men ook de gedachte van de Europese Unie overgenomen dat Open Data leidt tot economisch meerwaarde. Rutte heeft op de 2e Innovatie Conventie 2014 in Brussel laten weten dat “open toegang tot kennis een van de voorwaarden is om de noodzakelijke innovatie in Europa te bevorderen” (Het Financieele Dagblad, 2014). Open Data wordt gezien als collectief goed dat voor iedereen waarde heeft. De economie kan een boost krijgen daar

toepassingen van Open Data, zoals ondernemingen die apps ontwikkelen door Open Data te gebruiken. Die toepassingen zorgen voor werkgelegenheid en belastinginkomsten. Uit een gesprek met medewerkers van het Ministerie van Binnenlandse Zaken en Koninkrijksrelaties bleek wel dat de directe economische baten lastig zijn aan te tonen, maar dat transparantie als doel zeker kan worden bereikt.

Steeds meer data is openbaar of zal in de toekomst openbaar worden gemaakt. De visie en het actieplan over Open Data zijn niet zonder reden opgesteld, maar komen voort uit een advies van de Raad voor het openbaar bestuur waarin wordt gesteld dat er transparantie in besluitvorming en openbaarheid van overheidsinformatie moet zijn naar burgers. Zoals het stelt in hun rapport kan het maatschappelijke en technologische debat Open Data kan bijdragen aan nieuwe verbindingen tussen burgers en overheid en vergroot het vertrouwen dat burgers hebben in de overheid. Een van de aanbevelingen is dan ook dat overheidsinformatie beter toegankelijk gemaakt moet worden via internet (Raad voor het openbaar bestuur, 2012). Alleen wettelijke redenen kunnen grondslag zijn om overheidsinformatie niet openbaar te maken. Al sinds de invoering in 1980 van de Wet

openbaarheid van bestuur (Wob) is het een wettelijke verplichting van departementen om informatie openbaar te maken. Deze wet doelt op ruime informatiebronnen; het gaat zowel om digitale als papieren bronnen. Het gaat hier echter om passieve openbaarheid:

overheidsdocumenten moeten vrij opvraagbaar zijn. In 2003 is er een richtlijn opgesteld vanuit de Europese Commissie over het hergebruik van overheidsinformatie. Het is een richtlijn waarin wordt voorgeschreven hoe lidstaten van de Europese Unie hiermee om moeten gaan. De uitvoering is aan iedere lidstaat zelf; in Nederland is het in 2006 verwerkt in een nieuwe versie van de Wob (Zuiderwijk & Janssen, 2013). De afgelopen jaren is het belang van een open overheid en Open Data meerdere malen aangekaart in brieven naar de Tweede Kamer, dus een beweging naar een Open Data-beleid in Nederland is jaren geleden ingezet. Het Actieplan Open Overheid dat in 2013 is opgesteld door het ministerie van Binnenlandse Zaken en Koninkrijksrelaties gaat verder dan de Wob, omdat het een actieve openstelling van overheidsinformatie betreft. Hiervoor is nog geen wettelijke grondslag. Volgens de Algemene Rekenkamer hebben niet alle departementen even veel ervaring met Open Data en pakken zij het in verschillende mate op. De ministeries Economische Zaken, Infrastructuur en Milieu en Onderwijs, Cultuur en Wetenschap doen meer met Open Data dan andere departementen. Dit komt onder andere door externe verplichtingen. In veel gevallen hebben departementen geen

(19)

19 goed overzicht van beschikbare data. Hierover heeft de Algemene Rekenkamer geadviseerd om dit onder verantwoordelijkheid te brengen van departementale Chief Information Officers (Algemene Rekenkamer, 2014). De Nederlandse overheid heeft Open Data als belangrijk punt op de agenda gezet, maar in praktijk blijkt niet alles goed te verlopen. In het najaar 2013 publiceerde de website binnenlands bestuur dat er veel verwijzingen niet kloppen en er verschillende foutmeldingen worden weergegeven op het Open Data portaal dat vanuit het ministerie van Binnenlandse Zaken is opgezet (Binnenlands Bestuur, 2013). Tijdens interviews, maar ook door het gebruik van bijvoorbeeld het Nederlandse Open Data-portaal, waren de praktische problemen herkenbaar. Er wordt veel vergaderd en gesproken over Open Data, maar binnen Nederland lijkt het daadwerkelijk gebruiken en publiceren van Open Data niet snel te vorderen.

Binnen de Nederlandse overheid is het ministerie van Binnenlandse Zaken en Koninkrijksrelaties het departement dat voornamelijk initiatief neemt in Open Data. Het ministerie wil zo veel mogelijk overheidspartijen mee krijgen in de Open Data-beweging. Vanuit het ministerie van Binnenlandse Zaken en Koninkrijksrelaties beperkt men zich zo veel mogelijk in het geven van voorschriften. Alles wat is vastgelegd in regels kan namelijk een drempel opwerpen voor het gebruik van Open Data. In zeker opzicht is dit ook jammer, omdat voorschriften naar mijn idee ook duidelijkheid voor

gebruikers (en ontwikkelaars) van Open Data kan bieden. Hoewel Nederland geen koploper is in het openbaar maken van overheidsinformatie, vinden er wel ontwikkelingen op Open Data-gebied plaats. Het aanbod van Open Data in Nederland is vertegenwoordigd in verschillende

beleidsterreinen. Uit het Trendrapport Open Data van de Algemene Rekenkamer is onderstaand figuur opgenomen waarin terug te zien is hoe de Nederlandse overheid scoort in verschillende beleidsterreinen. De scores per beleidsterrein zijn vastgesteld via opendatabarometer.nl.

Figuur 2: Open Data beleidsterreinen (Algemene Rekenkamer, 2014)

Zoals is terug te zien is nog niet ieder beleidsterrein even ver met Open Data. Opvallend is dat binnen de terreinen zorg en verantwoording niet veel Open Data beschikbaar is. In het trendrapport Open Data van de Algemene Rekenkamer wordt wel genoemd dat hier op zichzelf staande initiatieven plaatsvinden, of er een intentie is om meer met Open Data te gaan doen (Algemene Rekenkamer, 2014). Zo zijn er volgens de Algemene Rekenkamer uitzonderingen, zoals op de website

(20)

20

www.openspending.nl vanuit het Ministerie van Financiën. Het Ministerie van Volksgezondheid, Welzijn en Sport maakt momenteel meer data publiek, zoals de kosten binnen het zorgstelsel via

www.opendisdata.nl (De Volkskrant, 2014). De geringe Open Data binnen de zorgsector komt volgens de Algemene Rekenkamer door zorgverzekeraars die vanwege concurrentieoverwegingen data nog maar mondjesmaat openbaar maken.

In Nederland is zijn er verschillende voorbeelden van Open Data-projecten4. De initiatieven zijn nu nog gefragmenteerd, waardoor projecten erg op zichzelf staan. In toenemende mate bieden overheidsorganisaties in Nederland Open Data aan, zowel binnen de Rijksoverheid als bij lokale overheden. Een eenduidig beleid lijkt hier niet voor aangehouden te worden, partijen bieden naar eigen inzicht Open Data aan en werken vanuit hun eigen doelstellingen en werkwijze. Hieronder staat een aantal voorbeelden genoemd van zowel projecten als toepassingen van Open Data in Nederland, die inzichtelijk maken dat er daadwerkelijk mee wordt gewerkt:

2.6 Kernpunten

In dit hoofdstuk is uitgelegd wat Open Data is en is en daarbij antwoord gegeven op één van de deelvragen “Wat is Open Data?”. Daarbij is er nog meer aanvullende informatie gegeven. Zonder de gegeven definitie van Open Data in zijn geheel te herhalen is het kort gezegd ongestructureerde (overheids)data die op internet is gepubliceerd en daardoor kosteloos en vrij van rechten door iedereen kan worden hergebruikt. In dit hoofdstuk is in tekstboxen een aantal voorbeelden gegeven van Open Data-projecten. Voordat burgers deze Open Data daadwerkelijk inzien of gebruiken, heeft een tussenpartij met de openbare datasets vaak eerst een toepassing (app) voor vervaardigd. De precieze gebruikersgroep is voor publicatie van de Open Data niet vastgelegd. Bij Open Data zijn verschillende stakeholders gemoeid: overheden die een strategie of beleid voor Open Data

4

Deze projecten voldoen aan de criteria die aan Open Data wordt gesteld.

Buienradar

Open Data wordt inzichtelijk gemaakt door toepassingen. Zo is KNMI-data over het weer voor een breed publiek raadpleegbaar via Buienradar, misschien wel de bekendste toepassing van Open Data in Nederland. De gegevens van het KNMI zijn wel als Open Data door het KNMI beschikbaar gesteld, maar voor een breder publiek is deze data pas waardevol als er eerst een toepassing mee is gemaakt. De ‘ruwe’ data is moeilijk te begrijpen en heeft geen meerwaarde voor burgers. In de praktijk is de Open Data op zichzelf nog niet interessant en bruikbaar en zijn er (commerciële) initiatieven nodig om

bijvoorbeeld door de ontwikkeling van apps interessante toepassingen te maken. (www.rijksoverheid.nl)

10.000 scholen

Via de app 10.000 scholen kunnen gebruikers verschillende scholen met elkaar vergelijken. Deze informatie is beschikbaar gesteld door het Ministerie van Onderwijs, Cultuur en Wetenschap, maar is verspreid terug te vinden. In praktijk kon dat niet goed gebruikt worden voor ouders die op zoek waren naar een school voor hun kind. De app maakt dit wel mogelijk. (www.1000scholen.nl)

Ontwikkelingssamenwerking op de kaart

Het Ministerie van Buitenlandse Zaken publiceert data over ontwikkelingssamenwerking. De geldstromen binnen

ontwikkelingssamenwerking worden op die manier openbaar gemaakt. Op basis van deze Open Data zijn website en apps zoals

www.openaid.nl en where does my aid go ontwikkeld (Algemene Rekenkamer, 2014).

OmgevingsAlert

In 2014 ontving de app OmgevingsAlert de Nationale app prijs. De app houdt gebruikers snel en makkelijk op de hoogte van ontwikkelingen in hun leefomgeving.

(21)

21 vaststellen, organisaties die de data publiceren, organisaties die zorgen dat de informatie

beschikbaar wordt gesteld en de mogelijke gebruikers van Open Data.

Het volgende hoofdstuk zal zich richten op een aantal meer technische aspecten van Open Data die vooral in het kader van datakwaliteit belangrijk zijn en die ervoor kunnen zorgen dat Open Data projecten succesvol zijn of worden.

(22)

22

3 Achterliggende techniek leidt tot succes: Open Data en Linked Data

3.1 Inleiding

In dit hoofdstuk zal ingegaan worden op de onderzoeksvraag “Wat maakt een Open Data-project succesvol?”. Wanneer Open Data wordt gepubliceerd, zonder dat het wordt (her)gebruikt, is het geen succesvol project. Tijdens de literatuurstudie en gesprekken voor dit referaat is het geregeld naar voren gekomen dat men Open Data publiceert om te laten gebruiken door verschillende partijen. Dat is de reden dat ik denk dat bepaalde technieken kunnen zorgen voor succesvolle Open Data. Juist door te zorgen dat verschillende partijen de Open Data willen of kunnen gebruiken, kan succes worden bereikt. In dit hoofdstuk wordt daarom ingegaan op techniek achter Open Data die ervoor zorgt dat Open Data voor gebruikers toegevoegde waarde heeft.

3.2 Data, data, data, data, …

Overheden willen steeds meer data openbaar maken, maar het is de vraag of alleen het beschikbaar maken van datasets voldoende is. De gepubliceerde data moet namelijk wel goed te gebruiken zijn en zomaar een grote verzameling data leidt niet automatisch tot (her)gebruik van die data. Om optimaal gebruik te kunnen maken van Open Data wil men ook verbanden kunnen zien tussen verschillende datasets. Het is daarom erg belangrijk om deze datasets in verband te brengen met elkaar. We spreken dan van Linked Data. Hieronder een korte toelichting van de concepten Linked Data en Linked Open Data:

3.3 Hoe link je data?

Linked Data is een concept dat in 2006 is beschreven door Tim Berners-Lee, waarbij concepten en entiteiten met elkaar gelinked worden, waardoor zich een gestructureerd netwerk van concepten vormt. Met behulp van deze links kunnen applicaties op elkaar afgestemd en geïntegreerd worden. De links zijn de basis van het sematic web waarin verbanden worden gelegd tussen informatie die is terug te vinden op internet. Linked Data gaat dus verder dan alleen data op internet plaatsen (Geonovum, 2013). Linked Data biedt de mogelijkheid om niet alleen te zoeken op taalafhankelijk niveau (op basis van bijvoorbeeld een woord), maar ook op semantisch niveau (betekenis). De techniek achter Linked Data houdt in dat woorden beschouwd worden als unieke concepten en worden beschreven met minstens één relatie (subject/predicaat/object). Subject, predicaat en object zijn allen unieke concepten. Ieder concept draagt bij aan verrijking van beschikbare informatie en de

Linked Data

Linked Data is een term om aan te geven dat met behulp van een bepaalde standaard data wordt

gestructureerd zodat het ‘linkbaar’ is en daardoor bruikbaar wordt. Een verdere uitleg en toelichting is terug te vinden in paragraaf 3.3 “Hoe link je data?”.

Linked Open Data

Wanneer Open Data gelinkt wordt, stimuleert dit het hergebruik van die data. Wanneer je data publiceert, dan maak je zoveel mogelijk verwijzingen naar andere kennisbronnen. Omgekeerd geldt het ook dat door anderen wordt gelinkt naar jouw data. Bij Open Data wordt informatie gepubliceerd die vrij herbruikbaar is. Linked Data en Open Data kunnen gecombineerd worden tot Linked Open Data. Deze data is dan vrij

beschikbaar op het internet en is daarbij ook nog eens met elkaar verbonden. Aan Linked Data kan niet voorbij worden gegaan aan het doorzoeken van de enorme hoeveelheid data die op internet is geplaatst. Dit geldt ook voor een grote hoeveelheid Open Data die door overheidspartijen wordt aangeboden. Linked Open Data draagt bij aan de kwaliteit van de beschikbare data die een overheidsorganisatie publiceert en is daarom ook een belangrijk concept in dit onderzoek.

(23)

23 Linked Data geeft betekenis aan de inhoud van informatie op het internet. Het voordeel van Linked Data is daardoor dat je informatie één keer beschrijft en door middel van linking naar bronnen kunt verwijzen. Voor Open Data is Linked Data een waardevolle toepassing.

Het betekenisvol met elkaar in verband brengen van data is mogelijk door sematic web technieken. Als basis voor het semantic web gebruikt men Resource Description Framework (RDF). Een resource (of: bron) kan van alles zijn en heeft een Uniform Resource Identifier (URI) die wordt vastgelegd in een Uniform Resource Locator (URL), waar gebruikers de data terug kunnen vinden. Zoals in de korte uitleg hierboven maakt Linked Data van verschillende concepten: subject, object en predicaat. Het linken van data gebeurt via deze ‘triples’ en typeert de relatie tussen twee resources. Via sematic web kun je stellen dat Yara (subject) werkt aan (predicaat) het AITAP-referaat (object). Zowel het subject als het object zijn resources waarnaar verwezen kan worden door middel van een predicaat. Van het ministerie van Financiën kan nu ook een object worden aangemaakt en door middel van een predicaat (: werkt bij) kan dit aan het subject (Yara) worden gelinkt. In het bestaande netwerk zijn hierdoor twee triples aanwezig (Yara/werkt-aan/AITAP-referaat en Yara/werkt-bij/Ministerie van Financiën). De resource Yara wordt twee keer gebruikt, maar hoeft maar één keer te worden

beschreven. Dit voorbeeld geeft weer hoe data kan worden hergebruikt en is hieronder toegelicht in een visualisatie:

Figuur 3: 'triples' in een sematic web

Het algemene principe van triples wordt beschreven door RDF, maar de technische formaten (of: syntax) van deze triples kunnen vrij gekozen worden. Voorbeelden van deze formaten zijn

bijvoorbeeld RDF/XML, Turtle, N3 en JSON. Wanneer deze triples die zijn opgeslagen in een database spreekt men van een ‘triple store’. Om deze te bevragen is de taal SPARQL ontwikkeld.

Het is ook mogelijk om met behulp van een RDF Schema (RDFS) klassen van RDFs vast te leggen. Hierin kunnen bepaalde eigenschappen worden aangegeven. Als er bijvoorbeeld een unieke relatie tussen twee databronnen is, kan in RDFS worden bepaald dat deze relatie niet kan plaatsvinden tussen verschillende objecten. Als voorbeeld kan bijvoorbeeld een predicaat als “is-getrouwd-met”; doorgaans zijn mensen getrouwd met één ander persoon. Technisch gezien kan deze restrictie via

(24)

24 RDFS worden vastgelegd, waardoor in data niet onterecht verschillende keren wordt gekoppeld. Deze koppeling draagt hierdoor niet alleen bij aan gebruiksvriendelijkheid, maar ook aan de kwaliteit van gepubliceerde data.

Om de kern van het gebruiken van Linked Data weer te geven, maken we gebruik van de vier principes die Tim Berners-Lee heeft opgesteld in 2006. Geonovum heeft deze principes vrij vertaald en luiden als volgt:

Figuur 4: Vier principes van Linked Data (Geonovum, 2013)

3.4 Het vijfsterrenmodel

Linked Open Data is vaak een stap die wordt gezet na het publiceren van Open Data. Om van Open (Government) Data naar Linked Open Data te gaan is het vijf-sterrenmodel van Tim Berners Lee toe te passen. Het model is ontwikkeld om ervoor te zorgen dat organisaties hun data in een formaat beschikbaar stellen dat goed herbruikbaar is. De eerste stap (één ster) van het model is het openbaar maken van data. Bij de laatste stappen kun je spreken van Linked Open Data. Het beleid in zowel de Verenigde Staten en Europa is momenteel op drie sterren gericht en heeft een ontwikkelplan naar vijf sterren in de komende jaren. Linked Open Data is te gebruiken onafhankelijk van data-domeinen en wordt steeds meer toegepast.

(25)

25

Figuur 5: 5 sterren voor Linked Open Data (Bauer & Kaltenbock, 2013)

Uitgaande van het bovengenoemde vijfsterrenmodel, is er een vertaling te maken per stap (of: ster) naar de baten en kosten voor zowel gebruikers van Open Data als partijen die data openbaar maken. De verwoording van deze kosten en baten (Bauer & Kaltenbock, 2013) is terug te vinden in bijlage 9.1.

3.5 Het belang van Linked Data voor Open Data

Linked Data wordt ook wel gezien als nieuwe best practice als gegevensuitwisseling voor Open Data (Creusen, 2014). Er zijn verschillende vormen van gegevensuitwisseling, welke zijn samengevat in onderstaand figuur:

Figuur 6: Typeringen van gegevensuitwisseling (Creusen, 2014)

Rechtsboven is de typering die voor dit referaat van belang is: hergebruik van open data. Er is sprake van geringe organisatorische en procesmatige cohesie. Met organisatorische cohesie wordt bedoeld dat gegevensuitwisseling plaatsvindt tussen één of meer organisaties. De procesmatige cohesie gaat over gegevensuitwisseling binnen een integraal bedrijfsproces of tussen ontkoppelde processen.

(26)

26 Zoals meermalen benadrukt is in voorgaande tekst, wordt hergebruik van open data zoveel mogelijk gestimuleerd. Het type gegevensuitwisseling voor open data moet voorzien in eenvoud, flexibiliteit en schaalbaarheid – hetgeen aangeeft of iets groter kan worden gemaakt- van

koppelingsmogelijkheden (of: interoperabiliteit) van zowel applicaties als gegevensbestanden. Hoe losser de organisatorische en procesmatige cohesie, hoe losser ook de koppeling moet zijn voor flexibele en schaalbare interoperabiliteit. Onder andere Linked Data-technieken voorzien hierin en zijn daarom goed te gebruiken voor zowel het publiceren als hergebruik van Open Data.

Wanneer Open Data gepubliceerd wordt in statische bestandsformaten, dan zal er geen sprake zijn van enige flexibiliteit of schaalbaarheid. Het wijzigen, aanpassen of ontsluiten met andere bestanden zal dan een specifieke koppeling en investering betekenen. Met behulp van Linked Data-technieken ontsluit ook de overheid datasets. Het ‘linken’ van Open Data wordt vooral toegepast nadat Open Data is gepubliceerd. De overheid heeft verschillende dataverzamelingen gepubliceerd via internet, maar op dit moment is nog niet alles met elkaar in verband gebracht. Juist het linken van open overheidsdata is belangrijk. Daarvoor zijn verschillende redenen: ten eerste is het een duidelijk gemis als er geen technische standaarden zijn voor Open Data. Het is belangrijk om gerelateerde data van verschillende overheidsorganisaties met elkaar te kunnen ontsluiten met dezelfde standaarden, juist de koppeling van data uit verschillende bronnen leidt tot meer inzicht en kennis. Daarnaast is het ontbreken van een gezamenlijk referentiekader een barrière voor organisaties in het publiceren van open overheidsdata (Geonovum, 2013). Bij publiceren van Open Government Data kan men gebruik maken van Linked Open Data. Goede voorbeelden zijn data.gov.uk, legislation.gov.uk en data.reegle. info. In Nederland kan worden gedacht aan wettenpocketoverheid.nl.

3.6 Kernpunten

In dit hoofdstuk is er meer informatie gegeven over technische aspecten van Open Data. De

belangrijkste boodschap uit het hoofdstuk is dat Open Data zelf niet voldoende is om goed bruikbaar –en daardoor succesvol- te zijn. Wanneer er verbanden (links) worden gelegd zal er meer

gegevensuitwisseling mogelijk zijn en drempels daarvoor wegnemen. Om te bewerkstelligen dat Open Data kwalitatief beter wordt en meer wordt (her)gebruikt, kan men simpelweg niet om Linked Data heen. Open Data-projecten die zijn te omschrijven als goede initiatieven die meerwaarde creëren, maken gebruik van Open Data. Informatie wordt beter vindbaar en is gelinkt met andere relevante informatiebronnen. Om de onderzoeksvraag te beantwoorden “Wat maakt een Open Data-project succesvol?” te beantwoorden, speelt Linked Data een grote rol, omdat deze techniek Open Data bruikbaar maakt.

Wettenpocketoverheid.nl

In een nieuw vervaardige app is het concept Linked Data toegepast binnen weten regelgeving in Nederland. Door dit initiatief wordt samenhang tussen Open Data expliciet gemaakt en is daardoor zeer bruikbaar voor gebruikers. Informatie over wetten is namelijk in verschillende losse bronnen beschikbaar en wordt op deze manier door links samengebracht. Deze toepassing speelt in op vraag die er is bij ambtenaren om op een eenvoudige manier relevante en bruikbare wetteksten te kunnen vinden. (Data.overheid.nl, 2014)

(27)

27

4 Risico’s van Open Data

4.1 Inleiding

In dit hoofdstuk wordt de onderzoeksvraag “Welke risico’s brengt Open Data met zich mee?” beantwoord. Momenteel zijn er veel Open Data-projecten gaande en de manier waarop overheden Open Data steeds meer een rol geven in beleid en strategie geeft aan dat er hoge verwachtingen zijn. Hergebruik van data en transparantie van overheidsinformatie is al langere tijd een discussiepunt, zoals is behandeld in vorige hoofdstukken. Het daadwerkelijk publiceren van Open Data en de technieken die dat mogelijk maken, zijn echter een recent fenomeen. Bij iedere ontwikkeling zijn er vanzelfsprekend ook problemen of risico’s te onderkennen. In dit hoofdstuk zullen deze risico’s behandeld worden. De risico’s zijn op basis van interviews en tijdens literatuuronderzoek geïdentificeerd..

4.2 Gebruikerswensen onduidelijk

In wetenschappelijke literatuur of visie-, beleids- en strategiedocumenten over Open Data worden vaak de gehoopte effecten van Open Data in beschouwing genomen. Wat heel lastig vast te stellen is bij Open Data is het uiteindelijke doel dat wordt gediend door publicatie van Open Data. Organisaties publiceren Open Data vanuit een bepaalde gedachte of beleid, maar het is nog niet duidelijk voor welke gebruikers dit wordt gedaan en wat er precies met deze Open Data wordt bereikt. Het aanbieden van Open Data voor innovatie en gebruik van commerciële bedrijven om er economische groei mee te bewerkstelligen is een belangrijk uitgangspunt in Nederland. Dit kwantificeren is moeilijk, omdat het niet duidelijk is aan wie en waarvoor deze Open Data wordt aangeboden. Een risico dat hierin schuilt, is dat Open Data niet kan voldoen aan de vraag die er is, bijvoorbeeld op de manier waarop de data is aangeboden. Overheidsorganisaties verzamelen data op een bepaalde manier om de specifieke doelen van die organisatie te behalen. Het formaat, de granulariteit, of de periode waarover data is verzameld, kan verschillen met mogelijkheden die bedrijven hebben om de Open Data te gebruiken voor toepassingen. De stakeholders van Open Data zijn niet duidelijk en Open Data-beleid kan daarom niet toegespitst worden op gebruikerswensen. Uit een vertrouwelijk verkenningsonderzoek van de Algemene Rekenkamer dat voor dit onderzoek is ingezien, blijkt dat er vanuit de ‘vraagkant’ van Open Data met uiteenlopende motieven een beroep wordt gedaan op de overheid om informatie te publiceren als Open Data. Zo worden er verschillende ‘vragers’

geïdentificeerd:

 Bedrijven die Open Data zien als waardetoevoeging van (informatie)producten;

 De zogenaamde “Open Data-gelovigen”die vanuit ideologie handelen dat informatie open moet zijn en vanuit deze overtuiging handelen en druk uitvoeren;

 Burgers die Open Data willen gebruiken om informatie die direct voor hen van belang is, vrij moeten kunnen opzoeken. Denk hierbij aan criminaliteitscijfers in bepaalde gebieden, informatie over het milieu, of de besteding van belastinggeld.

Hieruit volgt naar mijn mening dat de onduidelijkheid die er is qua gebruikerswensen invloed heeft op de kwaliteit, zoals gebruikers die ervaren. Wanneer Open Data niet voldoet aan een

verwachtingspatroon, zal een gebruiker de data minder informatief vinden en het als minder kwalitatief beoordelen.

(28)

28

4.3 Open Data vraagt veranderingen bij organisaties

Sommige partijen moeten data vrij beschikbaar stellen, terwijl voorheen voor deze data werd betaald. (Zuiderwijk & Janssen, 2013). Op dit moment is een illustratief voorbeeld het stelsel van basisregistraties5. Binnen dit stelsel zijn dertien verschillende basisregistraties opgenomen, waaronder de gemeentelijke basisadminstratie (GBA), het Handelsregister en het register met kadastrale gegevens binnen Nederland. Door middel van dit stelsel zijn overheidsorganisatie al jaren actief om informatie met elkaar uit te wisselen. De laatstgenoemde registraties zullen vanwege nieuw overheidsbeleid op termijn als Open Data moeten worden aangeboden. Gezien het feit dat dit eerst informatie was waar afnemers voor moesten betalen en met dit geld financiering plaatsvond van andere bedrijfsprocessen, moet hiervoor een alternatief worden bedacht. Met de overgang naar Open Data zullen nieuwe organisatie- en financieringsstructuren moeten worden bedacht.

Tijdens een workshop van de Algemene Rekenkamer over Open Data werd door de deelnemers aangekaart welke risico’s zij zagen bij publicatie van Open Data door de Algemene Rekenkamer. Voor een auditorganisatie als de Algemene Rekenkamer zal Open Data een veranderende rol voor de auditwerkzaamheden betekenen: “Met zestien miljoen auditors heeft de Algemene Rekenkamer geen rol meer”, zo werd gezegd6. Doordat Open Data zorgt voor beschikbare documentatie is de toegevoegde rol van een (extern) controlerende partij niet uniek meer, omdat de bevoegdheden om toegang te hebben tot overheidsdocumenten niet beperkt is tot deze organisatie. Daarbij wordt aangekaart dat het onduidelijk is wat er met alle Open Data wordt gedaan. Hetgeen andere partijen met de Open Data doen, kan wel de publicerende overheidsorganisatie worden afgerekend. Als laatste punt is aangehaald dat gevoelige informatie niet boven tafel komt bij de Algemene Rekenkamer, omdat men weet dat deze informatie later als Open Data kan worden aangeboden. Wat de argumenten ook zijn voor het wel of niet publiceren van Open Data, het is met bovenstaande voorbeelden naar mijn mening duidelijk dat organisaties een ontwikkeling door moeten maken om Open Data-beleid praktijk te laten zijn. Veranderingen zullen organisatorisch, financieel of in de werkcultuur doorgevoerd moeten worden.

4.4 Aansprakelijkheid

Aansprakelijkheid is een onderwerp waaraan veel mensen denken bij Open Data. Het publiceren van Open Data is niet geheel zonder aansprakelijkheidsrisico’s. Als er fouten of onvolledige data wordt gepubliceerd, kan dit nadelig zijn voor derden. Daarbij kan ook juiste en volledige data anderen schaden als dit openbaar wordt gemaakt, denk hierbij aan privacyschending en inbreuk van intellectueel eigendomsrecht (Kulk, Van Loenen, & Ploeger, Open data and beyond: Exploring

existing open data projects to prepare a succesful open data strategy. Deelrapport Aansprakelijkheid, 2012). Aangezien Open Data een relatief nieuw fenomeen is, is er nog geen jurisprudentie en

literatuur die als leidraad aangenomen kan worden voor aansprakelijkheid (Bureau Forum

Standaardisatie, 2012). Dit zal afhangen van concrete omstandigheden. Uit het rapport van Bureau Forum Standaardisatie blijkt dat er drie mogelijkheden op grond waarvan de overheid aansprakelijk kan worden gesteld, deze zijn:

5

Auditwerkzaamheden van de auteur binnen het stelsel van basisregistraties is directe bron geweest van deze informatie.

6

Hier denk ik overigens genuanceerder over, want het valt te betwijfelen of burgers daadwerkelijk die rol op zich nemen en ook op dezelfde manier zoals de Algemene Rekenkamer dat doet.

(29)

29 1. Aansprakelijkheid voor schade ontstaan door onjuiste of onvolledige informatie

Het gebruik van Open Data is vooraf niet ingekaderd, dus is in praktijk het risico om aansprakelijkheid te worden gesteld voor onjuiste of onvolledige data niet zo groot. Open Data is per definitie vaak ongericht (Kulk, Van Loenen, & Ploeger, Open data and beyond: Exploring existing open data projects to prepare a succesful open data strategy. Deelrapport Aansprakelijkheid, 2012).

2. Aansprakelijkheid voor schade ontstaan door inbreuk op intellectueel eigendoms- of privacyrecht

Doorgaans verzamelt een data-aanbieder zelf zijn of haar data, dus zal er in de praktijk niet snel sprake zijn van schending van intellectueel eigendomsrecht. Het is wel noodzakelijk om voor publicatie van Open Data vast te stellen of er mogelijke rechthebbenden van de data zijn. Wanneer de bepalingen van de Wet bescherming persoonsgegevens (Wbp) volgt, dan zal er wegens privacyschending ook geen aansprakelijkheid zijn (Kulk, Van Loenen, & Ploeger, Open data and beyond: Exploring existing open data projects to prepare a succesful open data strategy. Deelrapport Aansprakelijkheid, 2012).

3. Aansprakelijkheid voor schade ontstaan door schending van een reputatie Een belangenafweging en navolging van de Wob zou moeten zorgen dat er geen aansprakelijkheid zal ontstaan (Bureau Forum Standaardisatie, 2012)

Een partij die Open Data aanbiedt, zal zich in moeten spannen om de kwaliteit van de data op niveau te houden en inzichtelijk te maken wat het kwaliteitsniveau van de data is. Op die manier weten gebruikers van de Open Data wat ze er van kunnen verwachten. Het nalaten hiervan kan er in resulteren dat de aanbieder van de data aansprakelijk wordt gesteld (Kulk, Van Loenen, & Ploeger, Open data and beyond: Exploring existing open data projects to prepare a succesful open data strategy. Deelrapport Aansprakelijkheid, 2012).

Om de aansprakelijkheidsrisico’s vanwege foutieve of onvolledige data te beperken is vanuit de TU Delft een aantal aanbevelingen gegeven (Kulk, Van Loenen, & Ploeger, Open data and beyond: Exploring existing open data projects to prepare a succesful open data strategy. Deelrapport Aansprakelijkheid, 2012):

 Geef doel waarvoor data is verzameld;

 Geef kwaliteit en nauwkeurigheid van data en beschrijf de metadata;

 Geef datum laatste update en revisiegeschiedenis;

 Waarschuw voor updates (nieuwsbrief, internetpagina, en via bijvoorbeeld geregistreerde gebruikers/abonnees);

 Verwijs naar andere bronnen;

 Geef waarschuwingen voor voorzienbaar verkeerd gebruik;

 Creëer voorziening waarmee fouten gemeld kunnen worden;

 Biedt de gegevens met een disclaimer (eventueel in licentie) aan.

Voor Open Data kan een licentie worden afgegeven, zonder dat daarbij afbreuk wordt gedaan aan het open karakter van de data. Voor gebruikers is het belangrijk om te weten dat de data vrij (her)gebruikt kan worden en er geen aansprakelijkheidsrisico’s voor hen zijn. Met behulp van een vrije licentie kan daar duidelijkheid over worden gegeven en expliciet worden gemaakt dat de data

(30)

30 (her)gebruikt mag worden. Een medewerker van de Open Knowledge Foundation7 gaf op de

European Sematic Web Conference 2014 aan dat (her)gebruik van gepubliceerde data op het internet strikt gezien niet legaal is, als er geen licentie aanwezig is. Om te zorgen dat licenties voor iedereen leesbaar zijn, wordt er gebruik gemaakt van zogenaamde VoID descriptions8. Er bestaan al licenties die speciaal ontwikkeld zijn voor data (Alexander, Cyganiak, Hausenblas, & Zhao, 2011). Over licenties van Open Data komen we snel terug (paragraaf 4.74.7 Licenties van Open Data).

4.5 Privacy

Binnen de aansprakelijkheidsrisico’s is privacy al wel aangekaart, toch wordt dit risico hier ook apart behandeld. Privacyschending is niet alleen een reden voor aansprakelijkheid, maar is sowieso een belangrijke vereiste bij het publiceren van data om eventuele schade van individuen te voorkomen. Open Data mag geen privégevoelige persoonsgegevens bevatten. Het mag niet zo zijn dat gebruikers van Open Data, informatie uit een dataverzameling kunnen herleiden naar personen (Zuiderwijk & Janssen, 2013). Privacy is een recht dat wordt beschermd in internationale verdragen, Europese regelgeving en de Nederlandse grondwet. Binnen Open Data-projecten moet de Wet bescherming persoonsgegevens (Wbp) worden nagevolgd bij het aanbieden van direct identificerende gegevens. (Kulk & van Loenen, Open data and beyond: Exploring existing open data projects to prepare a succesful open data strategy. Deelrapport privacy, 2012).

4.6 Provenance

Provenance is het vastleggen van informatie over de oorsprong van een object en de wijzigingen die in verloop van tijd zijn aangebracht. In onderzoeksgebieden buiten data-onderzoek speelt

provenance een grote rol. In kunstgeschiedenis wordt het vaak toegepast en legt het informatie vast over de historie van een bepaald kunstvoorwerp. Wanneer er geen betrouwbare historie is

vastgelegd over een object, zijn onderzoekers van dit voorwerp niet overtuigd van de waarde en betekenis van het voorwerp (Moreau, et al., 2008). Wetenschappers in data-onderzoek zoals Moreau et al. hebben de provenance toegepast binnen hun eigen onderzoeksgebied. Het concept om meer te weten over de oorsprong van een object en het vastleggen van gebeurtenissen waardoor een voorwerp een bepaalde vorm heeft, is namelijk ook toepasbaar op digitale data. De provenance van data is namelijk van essentieel belang om te bepalen of informatie betrouwbaar is, hoe verschillende informatiebronnen met elkaar geïntegreerd kunnen worden en hoe je de bron waarde geeft als de data wordt hergebruikt (W3C, 2010). Provenance is nodig om objecten op waarde te kunnen schatten. In de ontwikkeling van het Semantic Web is de toevoeging van provenance van belang, omdat juist via Linked Open Data allerlei informatie en bronnen op elkaar worden aangesloten. Provenance kan worden opgeslagen in de metadata9 van data. Hoewel metadata veel informatie bevat over provenance, is metadata niet vanzelfsprekend provenance (W3C, 2010).

Uit gesprekken met onderzoekers aan de Technische Universiteit Delft en de Vrije Universiteit Amsterdam die gevoerd zijn voor dit onderzoek, is gebleken dat provenance altijd een probleem is bij

7

De Open Knowledge Foundation is een non-profit organisatie die nastreeft dat iedereen toegang heeft tot informatie en ook de mogelijkheid heeft om deze informatie te snappen en te gebruiken (https://okfn.org).

8

Een VoID is RDF schema vocabulaire, waarin metadata over de RDF datasets is vastgelegd (Alexander, Cyganiak, Hausenblas, & Zhao, 2011).

9

Metadata legt informatie vast over data en is daarom ‘data over data’. Er zijn verschillende technieken om de metadata als extra semantische laag vast te leggen in databestanden.