Datamining & belastingdienst : een onderzoek naar de borging van een betrouwbare gegevensverwerking bij de toepassing van datamining binnen de verschillende taken van de Belastingdienst

(1)

DATAMINING & BELASTINGDIENST

Een onderzoek naar de borging van een betrouwbare gegevensverwerking bij de

toepassing van datamining binnen de verschillende taken van de Belastingdienst.

Naam: P.A.M (Paulinda) Derene Studentnummer: 7000260

Plaats: Roosendaal

Datum: 7 april 2015

Instelling: Universiteit van Amsterdam, AITAP Begeleider: drs. P. van Houten RE CISA

(2)

Voorwoord

Met deze scriptie sluit ik mijn studie Amsterdam IT-Audit Programme (AITAP) aan de Universiteit van Amsterdam af. Hiervoor heb ik onderzoek uitgevoerd naar de borging van een betrouwbare

gegevensverwerking bij de toepassing van datamining.

Ik wil graag iedereen bedanken voor de steun en hulp die ik heb ontvangen tijdens mijn studie en het schrijven van deze scriptie. In het bijzonder wil ik mijn scriptiebegeleider Pieter van Houten bedanken voor de fijne begeleiding en ondersteuning. De opmerkingen en adviezen gedurende de

totstandkoming van deze scriptie hebben een grote bijdrage geleverd aan het uiteindelijke resultaat. Een speciaal woord van dank gaat uit naar mijn collega’s en studiegenoten Rob Lentfert en Hans Blekman voor hun geweldige steun tijdens de gehele studie. Zij hebben me zeker door een aantal moeilijke momenten heen gesleept.

Verder dank ik ook alle personen die in welke vorm dan ook hebben meegeholpen aan mijn scriptie, voor hun tijd, medewerking en vertrouwen.

Tot slot natuurlijk mijn vriend die me altijd weer moed gaf en me wist te motiveren om door te gaan. Het schrijven van deze scriptie was een uitdagend proces waar met vlagen soms geen eind aan leek te komen. Met de afronding ervan is daarmee ook een einde gekomen aan een zeer leerzame studie.

Roosendaal, 7 april 2015

(3)

Inhoudsopgave

VOORWOORD 2

INHOUDSOPGAVE 3

SAMENVATTING 5

1. INLEIDING 6

1.1 AANLEIDING VOOR HET ONDERZOEK 6

1.1.1 BELASTINGDIENST 6

1.1.2 BELANG VAN INFORMATIEBEVEILIGING: BESCHIKBAARHEID, INTEGRITEIT EN VERTROUWELIJKHEID 6

1.2 DOEL EN PROBLEEMSTELLING 7 1.3 AFBAKENING ONDERZOEK 7 1.4 ONDERZOEKSMETHODEN 7 1.5 LEESWIJZER 9 2. DATAMINING EN BELASTINGDIENST 10 2.1 DATAMINING 10 2.1.1 WAT IS DATAMINING 10 2.1.2 DATAMININGTECHNIEKEN 11 2.1.3 DATAMININGPROCES 13 2.2 TAKEN BELASTINGDIENST 14 2.2.1 KERNTAKEN BELASTINGDIENST 14

2.2.1.1 Heffen en innen van belastingen 15

2.2.1.2 Fraude 15

2.2.1.3 Uitkeren toeslagen 15

2.2.1.4 In-, uit- en doorvoer van goederen 15

2.2.1.5 Naleven van de fiscale wetten en regels 16

2.2.2 DATAMINING BINNEN KERNTAKEN BELASTINGDIENST 16

2.2.2.1 iBelastingdienst 16

2.2.2.2 Kennis uit gegevens 17

2.2.2.3 Uitwisselen van gegevens 17

2.2.2.4 Beschikbaarheid gegevens en data-analysetechnieken 18

2.2.2.5 Randvoorwaarden gebruik data-analyse-instrumenten 18

2.2.2.6 Recente ontwikkelingen 18

2.2.3 DEELCONCLUSIE HOOFDSTUK 2 19

3. NORMENKADER EN RISICOANALYSE BETROUWBARE GEGEVENSVERWERKING

BIJ DATAMINING 20

3.1 INLEIDING 20

3.2 KWALITEITSASPECTEN 20

3.2.1 PRIVACY 22

3.3 NORMENKADER INFORMATIEBEVEILIGING BIJ DATAMINING 23 3.4 RISICOANALYSE INFORMATIEBEVEILIGING BIJ DATAMINING 23

3.5 VALIDATIE-INTERVIEWS 25

3.5.2 UITKOMSTEN VALIDATIE-INTERVIEWS 26

3.5.2.1 Belangrijkste risico’s bij datamining 26

3.5.2.2 Plotten van risico’s in de risicomatrix 26

(4)

4. PRAKTIJKONDERZOEK 28 4.1 INLEIDING 28 4.2 ONDERZOEKSAANPAK 28 4.2.1 ALGEMEEN 28 4.2.2 VERTROUWELIJKHEID RESULTATEN 29 4.3 RESULTATEN PRAKTIJKONDERZOEK 29

4.3.1 INFORMATIEBEVEILIGINGSBELEID VERSUS VEILIGHEIDSBEWUSTZIJN 31 4.3.2 FOUTEN IN OPGESLAGEN, UITGEWISSELDE OF BEWERKTE GEGEVENS 31

4.3.3 MISBRUIK VAN PERSOONSGEGEVENS 32

4.3.4 PRIVACY VERSUS KOPPELEN VAN PERSOONSGEGEVENS 32

4.3.5 MONITORING 33

4.3.6 NORMENKADER 33

4.3.7 RISICOANALYSE 33

4.3.8 INCIDENTEN EN ZWAKKE PLEKKEN 34

4.4 ANALYSE PRAKTIJKONDERZOEK 34 4.4.1 AANBEVELINGEN 35 5. CONCLUSIES 36 5.1 INLEIDING 36 5.2 BEANTWOORDING DEELVRAGEN 36 5.2.1 DATAMINING EN DATAMININGTECHNIEKEN 36

5.2.2 BELASTINGDIENST &DATAMINING 37

5.2.3 RISICO’S DATAMINING 37

5.2.4 BEHEERSMAATREGELEN IN DE PRAKTIJK 38

5.3 CONCLUSIE CENTRALE ONDERZOEKSVRAAG EN ROL IT-AUDITOR 39

5.3.1 ROL IT-AUDITOR 40

6. REFLECTIE EN AANBEVELINGEN VOOR VERVOLGONDERZOEK 41

6.1 REFLECTIE 41

6.2 AANBEVELINGEN VOOR VERVOLGONDERZOEK 41

LITERATUURLIJST 42

BIJLAGEN 44

BIJLAGE 1 RISICOMATRIX 44

BIJLAGE 2 GESPREKSVERSLAGEN VALIDATIE-INTERVIEWS 47

BIJLAGE 3 ANALYSE VAN DE VALIDATIE-INTERVIEWS 55

BIJLAGE 4 VRAGENLIJST PRAKTIJKONDERZOEK 57

BIJLAGE 5 RESULTATEN INTERVIEWVRAGEN INZAKE DATAMINING 58

BIJLAGE 6 VERGELIJKENDE ANALYSERESULTATEN 60

BIJLAGE 7 BEHEERSMAATREGELEN 62

(5)

Samenvatting

Het gebruik van datamining vereist duidelijke kaders. Enerzijds gaat het daarbij om data-integriteit; de waarborgen voor een betrouwbare gegevensverwerking. Anderzijds gaat het daarbij om ethische kaders; hoever kan de Belastingdienst gaan met het verzamelen en koppelen van gegevens, inclusief niet-fiscale gegevens, en past dat binnen de beoogde wettelijke doelstelling.

Het doel van dit onderzoek was te onderzoeken op welke wijze de kwaliteit van de (verkregen) data en de betrouwbaarheid van de gegevensverwerking bij de toepassing van datamining binnen de verschillende taken van de Belastingdienst kan worden geborgd.

Uit het onderzoek is duidelijk geworden dat, om de kwaliteit van de gegevensverwerking bij datamining te kunnen waarborgen, inzicht dient te bestaan in de risico’s welke het gebruik van datamining met zich meebrengen. Vanuit de literatuur is een lijst met tien risico’s voor

informatiebeveiliging benoemd die specifiek ook bij datamining van toepassing zijn. Deze risico’s zijn gevalideerd tijdens een drietal validatie-interviews en op basis hiervan verder aangevuld.

De lijst met tien risico’s is vervolgens als uitgangspunt genomen voor het praktijkonderzoek waar vier organisaties in betrokken waren. Uit dit praktijkonderzoek zijn de beheersmaatregelen

geïnventariseerd die de onderzochte organisaties hebben geïmplementeerd om de tien risico’s op het gebied van informatiebeveiliging te mitigeren. Hieruit is gebleken dat nog niet alle risico’s bij alle organisaties voldoende door beheersmaatregelen worden afgedekt. Daarom zijn aanbevelingen voor verbetering geformuleerd. Verbetering is met name mogelijk op het gebied van:

• Veiligheidsbewustzijn en veiligheidsbeleid; • Privacy;

• Misbruik van persoonsgegevens; • Monitoring;

• Risicoanalyse.

Om de betrouwbaarheid van de gegevensverwerking bij de toepassing van datamining binnen de verschillende taken van de Belastingdienst te borgen, kan de in deze scriptie opgenomen lijst met maatregelen, tezamen met de geformuleerde aanbevelingen, dienen als leidraad voor de inrichting van de beheersmaatregelen.

De IT-auditor kan als objectieve waarnemer adviseren bij de inrichting van dit proces en/of aanvullende zekerheid geven over de effectiviteit en de inrichting van deze beheersmaatregelen.

(6)

1. Inleiding

1.1 Aanleiding voor het onderzoek

Het is steeds eenvoudiger en gebruikelijker om grote hoeveelheden gegevens digitaal te verzamelen en op te slaan. Met behulp van datamining is het mogelijk om in dergelijke grote

gegevensverzamelingen verbanden en structuren te ontdekken en voorspelmodellen te ontwikkelen. Met de toename van het aantal databanken is de belangstelling voor deze techniek enorm

toegenomen, ook bij de overheid. Dankzij digitalisering en steeds goedkopere dataopslag hebben de verschillende ministeries en overheidsdiensten enorm veel informatie in huis. Op 1 juli 2011 werd datamining officieel in het Nederlandse rechtspersonenrecht geïntroduceerd als de Wet Controle op Rechtspersonen (Wcr) in werking treedt1_{. Het Ministerie van Veiligheid en Justitie is met ingang van}

die datum gegevens gaan verzamelen over alle in Nederland actieve rechtspersonen, dus zowel rechtspersonen naar Nederlands recht (als de besloten vennootschap, de naamloze vennootschap en de stichting) als buitenlandse rechtspersonen met een (neven)vestiging in Nederland. Het belang van ondernemers om correcte gegevens aan te leveren werd daarmee groter. Uit de wet blijkt een groot optimisme over de mogelijkheden om een betrouwbare gegevensverzameling aan te leggen en om op een zorgvuldige manier risicoprofielen samen te stellen. (Timmer, 2011)

1.1.1 Belastingdienst

De Belastingdienst heeft een brede maatschappelijke functie en vervult vanuit die rol diverse taken. Interessant is te onderzoeken wat datamining daarbij betekent; bij welke door de Belastingdienst uitgevoerde taken wordt datamining ingezet en wat is daarvan de toegevoegde waarde? Op projectmatige wijze worden vraagstukken en thema’s onderzocht die veelal een brede

maatschappelijke functie dienen. Daartoe worden alle mogelijke soorten van databestanden aan elkaar gekoppeld en geanalyseerd om fraude met belastingen, uitkeringen en toeslagen op te sporen. Risico-indicatoren en groepsprofielen kunnen vervolgens worden ingezet ten behoeve van deze thema’s.

1.1.2 Belang van informatiebeveiliging: beschikbaarheid, integriteit en

vertrouwelijkheid

Belangrijk hierbij is dat de kwaliteit van de (verkregen) data en de betrouwbaarheid van de

gegevensverwerking gewaarborgd is en dat de Belastingdienst de geldende weten regelgeving ten aanzien van privacy in acht neemt. Informatiebeveiliging van de gegevensverwerking is een absolute randvoorwaarde om deze betrouwbaarheid te kunnen garanderen. De Belastingdienst dient de beheersmaatregelen rondom deze data derhalve goed op orde te hebben. Voor IT-auditors kan hierin een rol zijn weggelegd door een audit uit te voeren naar de inrichting van deze beheersmaatregelen.

1_{De wetgever heeft met invoering van de Wcr beoogd om het voorkomen en bestrijden van misbruik van rechtspersonen te} verbeteren en zodoende het vertrouwen in het handelsverkeer te bevorderen. De uitvoering van het toezicht op rechtspersonen komt tot stand door een nauwe samenwerking tussen verschillende (semi)overheidspartijen. (Evaluatie Wet Controle op Rechtspersonen | 11 november 2013)

(7)

1.2 Doel en probleemstelling

Het doel van het onderzoek is om inzicht te geven bij welke door de Belastingdienst uitgevoerde taken datamining wordt ingezet en op welke wijze de betrouwbaarheid van de gegevensverwerking daarbij geborgd kan worden.

De probleemstelling van dit onderzoek is:

Op welke wijze kan de kwaliteit van de (verkregen) data en de betrouwbaarheid van de gegevensverwerking bij de toepassing van datamining binnen de verschillende taken van de Belastingdienst worden geborgd?

De probleemstelling van dit onderzoek zal worden uitgewerkt in de volgende onderzoeksvragen: 1. Wat is datamining en welke dataminingtechnieken zijn er?

2. Welke verschillende taken vervult de Belastingdienst in het kader van haar maatschappelijke functie en bij welke van deze taken wordt datamining ingezet?

3. Welke risico’s kunnen zich voordoen ten aanzien van een betrouwbare gegevensverwerking bij datamining?

4. Welke beheersmaatregelen van informatiebeveiliging hebben bestaande organisaties geïmplementeerd om deze risico’s te mitigeren en zijn er verbeteringen mogelijk?

1.3 Afbakening onderzoek

Dit onderzoek is gericht op de kwaliteit van de gegevensverwerking bij datamining vanuit het perspectief van betrouwbaarheid. Informatiebeveiliging van de gegevensverwerking is een absolute randvoorwaarde om deze betrouwbaarheid te kunnen garanderen. In het kader van dit onderzoek worden alleen de kwaliteitsaspecten die zien op de informatiebeveiliging in beschouwing genomen. Dit zijn de kwaliteitsaspecten beschikbaarheid, integriteit en vertrouwelijkheid. De overige

kwaliteitsaspecten die eveneens zien op de borging van de kwaliteit van de gegevensverwerking bij datamining, bijvoorbeeld effectiviteit en efficiëntie, blijven buiten scope.

1.4 Onderzoeksmethoden

Het onderzoek is aangevangen met een literatuurstudie waarin de onderzoeksvragen één en twee worden beantwoord. Hierbij is inzicht gegeven in wat datamining is en welke dataminingtechnieken er zijn. Daarnaast is door middel van de literatuurstudie inzicht gegeven in de verschillende taken van de Belastingdienst en bij welke van deze taken datamining wordt ingezet.

Voor de beantwoording van onderzoeksvraag drie is door middel van een literatuurstudie een risicoanalyse opgesteld. Door middel van validatie-interviews met deskundige partijen zijn deze risico’s vervolgens gevalideerd en geplot in een risicomatrix. Deze deskundige partijen zijn vanuit hun achtergrond in hun dagelijkse werkzaamheden veelal betrokken bij informatiebeveiliging en hebben in meer of mindere mate ervaring met de toepassing van datamining. Hiermee wordt gekomen tot een kwalitatieve risicoanalyse. De gevalideerde risicoanalyse is vervolgens als uitgangspunt genomen voor de uitvoering van de casestudy.

(8)

De laatste onderzoeksvraag is beantwoord in een casestudy. Het onderzoek heeft zich daarbij gericht op vier verschillende organisaties2.

Bij deze vier organisaties is (in opzet) inzicht gegeven in de beheersmaatregelen met betrekking tot informatiebeveiliging welke zij hebben geïmplementeerd om de genoemde risico’s bij datamining te mitigeren. Het onderzoek is uitgevoerd op locatie door het voeren van meer diepgaande gesprekken in combinatie met het bestuderen van diverse documenten.

In dit onderzoek is gekozen voor de vergelijkende casestudy. De verschillende organisaties zijn in onderlinge vergelijking bestudeerd. Daarbij is de hiërarchische methode gevolgd. Het onderzoek is in twee fases uitgevoerd. In de eerste fase zijn de afzonderlijke organisaties onafhankelijk van elkaar bestudeerd, waarbij de analyses en onderzoeksresultaten zo veel mogelijk volgens een vast patroon zijn weergegeven. In de tweede fase heeft vervolgens een vergelijkende analyse plaatsgevonden van deze onderzoeksresultaten. De keuze is op deze organisaties gevallen omdat ze, net als de

Belastingdienst, een specifieke taak vervullen die inspeelt op behoeften binnen de samenleving. Deze taken wijken voor een aanzienlijk deel af van die van commerciële organisaties. Allen houden ze zich bezig met het toepassen van datamining. Daarbij is het, net als bij de Belastingdienst van belang dat de gegevensverwerking op een betrouwbare manier plaatsvindt. Het vergelijken van de

onderzoeksresultaten van deze verschillende organisaties is daarmee voor het onderzoek het meest interessant. Door het vergelijken en samenvoegen van de resultaten van de onderzoeken is een raamwerk van beheersmaatregelen opgesteld wat binnen de Belastingdienst kan worden toegepast om te komen tot een betrouwbare gegevensverwerking bij de toepassing van datamining in projecten. Het hierboven beschreven onderzoek is in een onderzoeksmodel als volgt weergegeven:

Figuur 1: Schematische weergave van de onderzoeksmethode

(9)

1.5 Leeswijzer

In hoofdstuk twee is de betekenis van datamining gedefinieerd. Vervolgens zijn de verschillende dataminingtechnieken besproken en is ingegaan op het dataminingproces. Daarmee is antwoord gegeven op de eerste onderzoeksvraag.

In hoofdstuk twee is eveneens uitgebreid ingegaan op de kerntaken van de Belastingdienst welke zij uitoefent in het kader van haar maatschappelijke functie. Daaropvolgend is uiteengezet binnen welke van deze kerntaken datamining wordt ingezet. De tweede onderzoeksvraag is daarmee beantwoord. De derde onderzoeksvraag is beantwoord in hoofdstuk drie. In hoofdstuk drie zijn de risico’s inzake een betrouwbare gegevensverwerking bij het gebruik van datamining door de Belastingdienst

geanalyseerd (probleemanalyse). Deze risico’s zijn gevalideerd in een drietal interviews en vervolgens geplot in een risicomatrix.

In hoofdstuk vier is de casestudy besproken. Bij vier organisaties is onderzocht op welke wijze de genoemde risico’s zijn gemitigeerd en zijn de waarborgen rondom de betrouwbaarheid van de gegevensverwerking en de toepassing van weten regelgeving ten aanzien van privacyaspecten bij dataminingprojecten in kaart gebracht (probleemdiagnose). De analyses en onderzoeksresultaten zijn zo veel mogelijk volgens een vast patroon weergegeven. Hierbij zijn de belangrijkste aandachtspunten op het gebied van informatiebeveiliging benoemd en zijn aanbevelingen voor verbetering genoemd. In hoofdstuk vijf is aan de hand van de resultaten vanuit het praktijkonderzoek een recapitulatie van de verschillende deelvragen gemaakt (probleemevaluatie). Tenslotte zal het hoofdstuk worden afgesloten met de beantwoording van de centrale onderzoeksvraag en een conclusie, waarbij ook de rol van de IT-auditor wordt weergegeven

In hoofdstuk 6 wordt de scriptie afgesloten met een reflectie en worden aanbevelingen voor vervolgonderzoek gedaan.

(10)

2. Datamining en Belastingdienst

2.1 Datamining

Om de probleemstelling te beantwoorden, is het nodig inzicht te verkrijgen in de begrippen datamining en dataminingtechnieken. In dit hoofdstuk staan deze twee begrippen centraal. Middels een

literatuurstudie wordt als antwoord op deelvraag één beschreven wat datamining is en welke datamining technieken er zijn.

2.1.1 Wat is datamining?

Dankzij digitalisering en steeds goedkopere dataopslag hebben zowel bedrijven als de verschillende ministeries en overheidsdiensten enorm veel informatie in huis. In het begin van de jaren negentig werd daarom begonnen met het ontwikkelen van datawarehouses. Datawarehousing is het proces van het bij elkaar brengen van verschillende gegevens uit de gehele organisatie voor

beslissingsondersteunende doeleinden.

Omdat de opslag van deze data de afgelopen decennia exponentieel is toegenomen is het voor bedrijven en overheden steeds lastiger geworden om uit de data bruikbare informatie te halen. De huidige technologie maakt het mogelijk om deze omvangrijke gegevensverzamelingen snel en efficiënt te analyseren. Dit analyseproces staat ook bekend als datamining, een softwarematige methode om informatie te verkrijgen uit databasegegevens. Datamining is afgeleid van het Engelse ‘mining’, oftewel het graven naar waardevolle informatie in een grote berg gegevens. Een andere veelvoorkomende benaming is ‘knowledge discovery from databases’ (KDD).

Datamining helpt overheden, bedrijven en wetenschappers om de essentiële informatie te selecteren. Er kan een model mee gecreëerd worden dat het gedrag van mensen of systemen kan voorspellen. Zo kunnen bedrijven uit data voorspellingen doen over bijvoorbeeld het koopgedrag van consumenten en kunnen overheden burgers aanmerken die buiten gestelde normen of grenzen handelen. Met de toename van het aantal databanken neemt de belangstelling voor deze techniek enorm toe, ook bij de overheid.

In de literatuur worden verschillende omschrijvingen gegeven van het begrip datamining: ‘Datamining is the non-trivial process of indentifying valid, novel, potentially useful and ultimately understandable patterns in data’ (Fayyad, Piatetsky-Shapiro & Smyth,1996).

‘Bij datamining gaat het erom door middel van een systematische analyse van grote hoeveelheden gegevens verborgen patronen en trends te ontdekken’ (de Ruyter & Kolenbrander,1999)

‘Data mining is defined as extracting structured information, such as patterns and regularities, from databases’ (Cattral, Oppacher, & Deugo, 2001).

‘Datamining is het proces van analyses en verkenning van grote hoeveelheden gegevens, om daar betekenisvolle patronen in te ontdekken’ (Hoeksema, 2000a).

‘Datamining is the process that extracts implicit, previously unknown and potentially useful information from data’ (Cocx, 2009).

(11)

‘Datamining, or knowledge discovery in databases (KDD), is a powerful information technology tool with great potential for extracting previously unknown and potentially useful information from large databases. Datamining automates the process of finding relationships and patterns in raw data and delivers results that can either be utilized in an automated decision support system or assessed by decission makers’ (Fernandez, 2010).

‘Datamining is het uitvoeren van gestructureerde en reproduceerbare analyses van grote hoeveelheden gegevens uit één of meerdere systemen met geautomatiseerde dataminingtools’ (Himmelreich & van Ernst, 2010).

‘Datamining staat voor het gericht zoeken naar (statistische) verbanden in gegevensverzamelingen, die actuele en accurate informatie onthullen die ons in staat stelt beslissingsondersteunende conclusies te trekken’ (Stel, 2012).

Uit bovenstaande omschrijvingen is duidelijk geworden dat de kern van datamining is het ontdekken van onbekende patronen in data. Dit gebeurt geautomatiseerd en kan met behulp van

dataminingtools. De patronen die ontdekt worden in de data moeten betekenisvol en relevant zijn. Door samenvoeging en bewerking van deze verschillende gegevens krijgen ze een meerwaarde. In het kader van deze scriptie zal onder datamining worden verstaan: het proces van het uitvoeren van gestructureerde en reproduceerbare analyses van grote hoeveelheden gegevens uit één of meerdere systemen met geautomatiseerde dataminingtools om daarin verborgen patronen te ontdekken die betekenisvol zijn.

2.1.2 Dataminingtechnieken

Hieronder worden kort enkele dataminingtechnieken besproken (Campsteijn, 2011; Hoeksema, 2000a; “[Wikipedia]”,n.d.).

Beslissingsbomen

Een beslissingsboom is een voorspellend model dat een voorspelling doet op basis van een reeks beslissingen. Elke tak van de boom is een classificatievraag en de bladeren van de boom stellen partities van de gegevensverzameling met hun respectievelijke classificaties voor. Aan de hand van de eerste vraag wordt de verzameling opgesplitst in twee of meer nieuwe verzamelingen. Wanneer men de hele boom volgens een bepaalde route doorlopen heeft, komt men uiteindelijk terecht in een ’zuivere verzameling’: een verzameling waarvan de gevallen allemaal dezelfde einduitkomst hebben. Aangezien het geval waarvan we de einduitkomst wilden voorspellen dezelfde kenmerken heeft als de anderen in deze verzameling (de vragen zijn immers hetzelfde beantwoord) kan voorspeld worden dat dit geval ook deze einduitkomst zal hebben.

Een van de grote voordelen van een beslissingsboom is dat het model eenvoudig wordt opgebouwd en het zeer gemakkelijk te interpreteren is. Vanwege dit voordeel, zijn beslissingsbomen in de bedrijfssector de meest gebruikte dataminingtechniek.

(12)

Neurale netwerken

Veel problemen kunnen gestructureerd worden opgelost met behulp van algoritmes. Er zijn echter ook ongestructureerde problemen (zoals pattern-recognition), waar geen algoritme voor aanwezig is. Dit soort problemen kunnen worden opgelost met behulp van neurale netwerken. Een neuraal netwerk is in enige mate gebaseerd op de organisatie van het menselijke brein en de manier waarop de

hersenen leren.

Er zijn twee belangrijke structuurelementen in het neurale netwerk:

• het knooppunt: te vergelijken met het neuron in een menselijk brein. • de koppeling: te vergelijken met de verbindingen tussen deze neuronen.

Neurale netwerken zijn zeer belangrijk geweest in de beginfase van de dataminingtechnologie. Een belangrijk voordeel van neurale netwerken is dat ze zeer nauwkeurig te werk gaan binnen hun voorspellingen en dat ze op een groot aantal verschillende problemen toegepast kunnen worden. Een netwerk wordt getraind door de records door het netwerk te voeren. Elke input van een (attributen van een record) neuron, dat een bepaalde functie toepast op deze inputs, wordt een bepaald gewicht gegeven dat aangepast wordt aan de mate waarin de uitkomst beter de werkelijkheid benadert. Deze inputs zijn de onafhankelijke variabelen, de uitkomst is de te schatten variabelen. De records worden dus keer op keer door het netwerk gevoerd, totdat de uitkomsten goed genoeg zijn en het netwerk is getraind. De techniek kan voor veel verschillende problemen worden toegepast, gericht en ongericht, voor taken als classificatie en voorspelling en voor categorische en continue variabelen.

Clustering

Clustering is een techniek die het totaal aan elementen (bijvoorbeeld gebeurtenissen) indeelt in een aantal categorieën. Daarbij wordt er van uit gegaan dat de elementen in deze categorieën zich min of meer gelijk zullen gedragen. Om elementen te clusteren worden deze uitgezet in een assenstelsel. Binnen het assenstelsel worden een aantal willekeurige plaatsen gekozen, net zo veel als men categorieën wenst te hebben. Van ieder element wordt vervolgens gekeken bij welke plaats deze het dichtst in de buurt ligt. Wanneer alle elementen gegroepeerd zijn, worden de middelpunten van de groepen berekend. Deze middelpunten worden als nieuwe plaatsen genomen en het proces wordt herhaald. Wanneer de middelpunten niet meer veranderen is het clusteren geslaagd.

Regressie

Regressie is een van de meest elementaire dataminingtechnieken. Bij een regressie analyse wordt er getracht om aan de hand van een numerieke dataset een formule op te stellen die de data het best beschrijft. Deze formule kan gebruikt worden om voorspellingen te maken.

Market basket analysis

Een andere techniek die ook vaak als startpunt wordt gebruikt, is market basket analysis. Deze gaat na welke artikelen in combinatie met elkaar worden gekocht, zodat er inzicht ontstaat in koopgedrag en betere aanbiedingen kunnen worden gedaan. Eerst wordt er een multidimensionale matrix opgesteld van producten die met elkaar gekocht worden. Er worden aan de hand van deze matrix regels gemaakt, bijvoorbeeld:ALS A EN B DAN C

.

Vervolgens wordt van elke regel de ondersteuning (percentage van de transacties waarin die producten in combinatie met elkaar voorkomen) en de betrouwbaarheid (als het ene product wordt gekocht, wat is dan de kans dat het andere product wordt gekocht uit de regel) uitgerekend en worden de kansen geëvalueerd. Een beroemd voorbeeld van een regel die hiermee werd ontdekt is dat luiers

(13)

en bier veel met elkaar worden gekocht; blijkbaar door mannen die er door hun vrouw op uit worden gestuurd om luiers te halen. De moeilijkheid zit hem in het bepalen van het niveau van aggregatie van producten en het verkrijgen van productcodes. Ook is de rekenkracht een serieus probleem. De voordelen van deze techniek zijn dat het met variabele lengtes van records kan werken, dat het duidelijke resultaten oplevert en dat de berekeningen vrij simpel zijn. Market basket analysis wordt vooral gebruikt door grote supermarkten en kan, mede doordat transacties steeds minder anoniem zijn door bonus- en creditcards, nuttige informatie opleveren.

2.1.3 Dataminingproces

Bij een datamining-exercitie kunnen meestal een aantal stappen worden onderscheiden. Het proces verandert echter elke keer. Dit komt doordat het proces afhangt van het doel waarvoor datamining wordt toegepast, waarbij er tevens sprake kan zijn van een herhalend proces. Stappen kunnen dus worden herhaald, wat vaak gebeurt door bijvoorbeeld meerdere technieken op de dataset los te laten, of er moet worden teruggegaan naar een eerdere stap. Gedurende het hele proces is het belangrijk goed vast te leggen wat er wordt gedaan, dit voorkomt dat er bij een herhalende stap werk wordt herhaald.

Grofweg kunnen we de volgende stappen onderscheiden (Hoeksema, 2000b):

x Opstartfase: Datamining werkt pas optimaal wanneer er sprake is van een specifiek probleem dat moet worden opgelost. Het is raadzaam om voor de daadwerkelijke start van het dataminingproces een plan van aanpak op te stellen, waarin een omschrijving van het probleem, kosten/batenanalyse, doelen en succescriteria worden opgenomen.

x Gegevensoriëntatie: Deze fase omvat het selecteren, verkennen en het omschrijven van de data (gegevens), om het probleem op te kunnen lossen.

x Gegevenspreparatie: Nadat de juiste gegevens zijn geselecteerd, moeten ze worden geprepareerd voor de werkelijke analyse. De gegevens moeten worden opgeschoond, omdat er altijd waarden ontbreken en er fouten in zitten. Hier kunnen dan bijvoorbeeld gemiddelden voor worden ingevuld, of men kan besluiten de waarde niet in beschouwing te nemen. Ook moeten de gegevens in de juiste vorm in één tabel worden gegoten en moeten er vaak transformaties op de tabel plaatsvinden. Deze zijn nodig om extra informatie toe te voegen, zoals ratio’s en sommaties (bijvoorbeeld per klant) en om eventueel de distributie van de attributen te veranderen.

x Modelleringsfase (Datamining): In deze stap wordt het algoritme op de gegevensset losgelaten. Vaak wordt in het tool, dat ook van hulp kan zijn in de vorige fase, een techniek geselecteerd, waarna een aantal parameters moet worden ingesteld en de tabel kan worden gemined. Het is aan te raden eerst de set op te delen en te testen op een deelverzameling, zodat een indicatie kan worden verkregen wat goede modellen zouden kunnen zijn. Deze kunnen dan op de hele database worden losgelaten. Volgens de statistiek moeten de gegevens vervolgens worden verdeeld in een trainingset en een testset. Op de trainingset wordt het model ‘getraind’ en met de testset kan vervolgens worden gekeken of het model werkt. Classificeert het model bijvoorbeeld een record uit de testset in de juiste categorie? Zo ja, dan werkt het waarschijnlijk ook op een ‘nieuw’ record.

x Interpretatie- en evaluatiefase: Hier moet worden afgevraagd of het vereiste doel behaald is en of herhalingen nodig zijn. Nuttig is een document op te stellen met een beschrijving van het verloop van het proces. Wat is er waar fout gegaan?

(14)

Het dataminingproces omvat dus de volgende fasen: het begrijpen van de business, het begrijpen van de gegevens, de voorbereiding van de gegevens, de modellering, de evaluatie en het ondernemen van actie aan de hand van de eindresultaten.

In onderstaande figuur zijn de stappen binnen het dataminingproces schematisch weergegeven.

Figuur 2: Overzicht van de stappen binnen het dataminingproces

2.2 Taken Belastingdienst

Om de probleemstelling te kunnen beantwoorden is het, naast inzicht in de begrippen datamining en dataminingtechnieken, eveneens van belang dat inzicht bestaat in welke verschillende taken de Belastingdienst vervult in het kader van haar maatschappelijke functie en bij welke van die taken datamining wordt ingezet. Door middel van een literatuurstudie zijn deze aspecten onderzocht, daar wordt in dit hoofdstuk uitgebreid op ingegaan

.

2.2.1 Kerntaken Belastingdienst

De algemene beleidsdoelstelling van de Belastingdienst is compliance. Dat wil zeggen dat burgers, bedrijven en instellingen hun wettelijke verplichtingen nakomen op de terreinen waar de

Belastingdienst verantwoordelijk voor is. In beleidsstukken van de Belastingdienst wordt compliance omschreven als ‘de bereidheid van burgers en bedrijven om hun verplichtingen na te komen, te onderhouden en te versterken’. De term bereidheid geeft aan dat de Belastingdienst streeft naar een situatie waarin belastingplichtigen uit zichzelf hun verplichtingen nakomen. (Goslinga, van

Steenbergen & van Engers, 2014)

Alle activiteiten en inspanningen van de Belastingdienst houden (direct of indirect) verband met het realiseren van de compliance-doelstelling. Dat geldt voor zowel de massale processen,

dienstverlening als toezicht. De massale geautomatiseerde processen dragen bij aan het snel en adequaat verwerken en afhandelen van grote aangifte- en gegevensstromen. Communicatie en dienstverlening zijn gericht op het informeren, overtuigen en ondersteunen van belastingplichtigen. De Belastingdienst heeft daarnaast specifieke bevoegdheden die de dienst verder in staat moeten stellen de doelstelling te behalen. De Belastingdienst kan informatie opvragen, controles uitvoeren en – indien fouten zijn geconstateerd – corrigeren en sancties opleggen. (Belastingdienst, “Eenvoudig aanspreekbaar Belastingdienst 2015”, 2011)

(15)

Op het fiscale vlak kunnen de volgende verplichtingen voor burgers en bedrijven worden

onderscheiden: het registreren voor belastingplicht, tijdig, juist en volledig aangifte doen en tijdig betalen. Worden belastingregels volledig nageleefd dan zal er aan belastinggeld in de staatskas binnenkomen zoals door de wetgever is bedoeld. Alhoewel voor Belastingdienst/Toeslagen en Douane nog andere wettelijke verplichtingen gelden, is ook hier compliance de doelstelling.

Het takenpakket van de Belastingdienst is de afgelopen jaren uitgebreid en omvat veel meer dan het aangifteproces. De kerntaken van de Belastingdienst zijn (Belastingdienst, “Eenvoudig aanspreekbaar Belastingdienst 2015”, 2011):

• Heffen en innen van belastingen;

• Opsporen van fiscale, economische en financiële fraude;

• Uitbetalen van inkomensafhankelijke toeslagen voor kind, huur en zorg; • Toezicht houden op de in-, uit- en doorvoer van goederen;

• Toezicht houden op het naleven van de fiscale wetten en regels.

2.2.1.1 Heffen en innen van belastingen

In Nederland heeft bijna iedereen met belastingen te maken. Iedereen betaalt bijvoorbeeld belasting over het salaris en over alcohol en benzine. Maar ook over een erfenis, schenkingen of over een prijs die men wint in de loterij. Met de inkomsten uit belastingen betaalt de Rijksoverheid voorzieningen in de samenleving. Bijvoorbeeld wegen en dijken, gezondheidszorg, politie op straat en onderwijs. Het ministerie van Financiën maakt wetgeving voor de rijksbelastingen. De Belastingdienst int namens de Rijksoverheid de belasting die belastingplichtigen verschuldigd zijn, zoals inkomstenbelasting, vennootschapsbelasting en motorrijtuigenbelasting. Daarnaast zorgt de Belastingdienst ervoor dat iedereen op de hoogte is van zijn fiscale verplichtingen.

2.2.1.2 Fraude

Fraude betreft het opzettelijk overtreden van wettelijke regels door zaken anders voor te stellen dan ze in werkelijkheid zijn. In de context van de Belastingdienst gaat het dan bijvoorbeeld over

belastingontduiking, toeslagenfraude, witwassen en smokkel.

Het voorkomen en opsporen van fraude is een belangrijk werkterrein van de Belastingdienst. Inzicht in fraudepatronen, motieven en gedrag van fraudeurs en kenmerken van fraudesituaties helpt effectief fraude te bestrijden.

2.2.1.3 Uitkeren toeslagen

Naast het heffen en innen van belastingen keert de Belastingdienst ook toeslagen uit voor zorg, huur en kind. Voorbeelden zijn de zorgtoeslag, kindgebonden budget, huurtoeslag en kinderopvangtoeslag. De Belastingdienst haalt dus niet alleen geld op, maar brengt ook geld naar de burgers toe. Het geld wordt overigens niet automatisch op de bankrekening van de burger overgemaakt, de toeslag moet worden aangevraagd.

2.2.1.4 In-, uit- en doorvoer van goederen

De Douane controleert en bevordert de veiligheid en (fiscale) integriteit van het

buitengrensoverschrijdende goederenverkeer en draagt zorg voor heffing en inning van de

binnenlandse accijnzen en de in Europees verband vastgestelde invoerrechten. De Douane houdt toezicht op de in- en uitgaande goederenstroom in het verkeer met landen buiten de Unie. Dit met het oog op verboden en beperkingen op het gebied van veiligheid, gezondheid, economie en milieu (VGEM) en de bescherming van fiscale en andere financiële belangen.

(16)

2.2.1.5 Naleven van de fiscale wetten en regels

In lijn met de wetenschappelijke inzichten en theorieën, hanteert de Belastingdienst een strategie waarin zowel dienstverlenende elementen, als repressieve elementen een plaats hebben. Bij de keuze voor de inzet van (combinaties van) instrumenten wordt aangesloten bij de situatie, de houding en het gedrag van belastingplichtigen. In de literatuur wordt deze strategie aangeduid met de term ‘responsief handhaven’ (Ayres & Braithwaite, 1992).

De gedachte achter responsief handhaven is dat er begonnen wordt met ondersteuning en stimulering. Pas wanneer belastingplichtigen zich niet gedragen conform de regels wordt er

stapsgewijs geëscaleerd naar een steeds dwingender aanpak. Het startpunt is vertrouwen en alleen belastingplichtigen die niet positief reageren, krijgen te maken met een meer intensieve, en meer kostbare, behandeling (Belastingdienst, “Eenvoudig aanspreekbaar Belastingdienst 2015”, 2011). Om efficiënt en effectief te kunnen handhaven is kennis nodig van:

1 Nalevingsniveaus en het vaststellen van nalevingsniveaus: waar gaat het goed en waar gaat het niet goed, waar doen zich risico’s voor, hoe kan dat inzichtelijk worden gemaakt? 2 De achterliggende oorzaken, redenen of motieven voor naleving of niet naleving.

3 De werking van de klantbehandeling, interventies en (combinaties van) handhavingsinstrumenten.

4 De effecten van handhavingsinspanningen en van het vaststellen van effecten.

Deze kennis helpt bij de vormgeving van effectieve en efficiënte behandelvormen, interventies en de keuze van in te zetten handhavingsinstrumenten.

2.2.2 Datamining binnen kerntaken Belastingdienst

2.2.2.1 iBelastingdienst

Het begrip ‘iOverheid’ is sinds het uitkomen van het gelijknamige rapport van de Wetenschappelijke Raad voor het Regeringsbeleid (WRR, 2011) een begrip geworden binnen de overheid.

Het rapport beschrijft de toename van informatiestromen tussen overheden, burgers en bedrijven. Het waarschuwt voor het zonder enig plan verzamelen, vernetwerken en verrijken van steeds meer informatie. De Belastingdienst is een overheidsorganisatie die overheidstaken uitvoert. Zij is een informatie-intensieve organisatie, waarin ook persoonsgegevens worden gebruikt.

Belastingdienst/Centrum voor kennis en communicatie (B/CKC, 2013) concludeert in haar rapport ‘Scenario’s iBelastingdienst’ dat het delen en het verrijken van deze informatie steeds meer als noodzakelijk wordt gezien. Niet alleen voor het toezicht, maar ook voor de dienstverlening. Enerzijds wil de overheid fraude aanpakken, maar ook de vertrouwensrelatie met de burger versterken. Waarbij de positie van de burger wordt versterkt ten aanzien van inzage en correctie van informatie: “als men iets van mij weet, dan wil ik kunnen weten wat ze van me weten en wat ze ermee doen”.

De Belastingdienst beschikt over een schat aan gegevens over burgers en bedrijven. Wil de organisatie de ambitie waarmaken om op basis van kennis de beperkte capaciteit doelmatig in te zetten én de kwaliteit van de dienstverlening te garanderen, dan is het nodig deze data toegankelijk te maken en instrumenten in te zetten om op basis van deze data kennis op te bouwen. Kennis over burgers en bedrijven is de basis voor een effectief optreden van de Belastingdienst. Het geldt voor het hele handhavingsdomein, zowel op het terrein van toezicht als van dienstverlening. Op grond van gegevens kan de organisatie niet alleen de rechten en plichten vaststellen van individuele burgers en bedrijven, maar is het ook mogelijk om kennis op te bouwen over fiscale risico’s en diensten meer op

(17)

maat te leveren. De beschikbare gegevens bieden immers mogelijkheden voor het identificeren van patronen die corresponderen met relevante gedragingen van burgers en bedrijven. Daarnaast heeft de belangrijke informatiepositie van de Belastingdienst tot gevolg dat de dienst steeds meer gezien wordt als service provider van overheid naar burger en naar andere toezichthouders.

Het WRR-rapport ‘iOverheid’ is voor de Directeur-Generaal Belastingdienst aanleiding geweest om het programma ‘iBelastingdienst’ in te richten. Het programma is gestart met een onderzoek naar de vraag in hoeverre het rapport iOverheid van toepassing is op de Belastingdienst. De hoofdconclusie luidde dat de Belastingdienst veel gegevens gebruikt, deze gegevens nog beperkt ontsluit en in een hoog tempo een iBelastingdienst aan het worden is. (Belastingdienst, “Eindrapportage Programma iBelastingdienst”, 2013)

2.2.2.2 Kennis uit gegevens

Het begrip ‘Kennis uit gegevens’ richt zich op de kennispositie van de Belastingdienst als geheel en op informatiegestuurde handhaving in het bijzonder. Hieronder vallen ook methoden en technieken als datamining en profiling. Deze begrippen zijn soms beladen en worden verschillend geïnterpreteerd. De Belastingdienst gebruikt deze technieken vanuit de volgende betekenis (Boekhoorn et al., 2014): • Datamining is het zoeken naar verbanden in grote verzamelingen gegevens. Met datamining

wordt geprobeerd algemene uitspraken te doen over patronen in grote datasets, zonder dat er een oorzakelijk verband mee kan worden bewezen.

• Profiling is het construeren van profielen op basis van gegevens door middel van algoritmen ter ondersteuning van de besluitvorming. Met dit instrument wordt een bepaalde klantgroep in kaart gebracht of worden groepen geïdentificeerd die een vergelijkbaar gedrag vertonen. Het is een techniek die helpt risico’s te onderkennen en schaarse toezichtcapaciteit gerichter in te zetten. Tegelijkertijd helpt het de Belastingdienst om klantgroepen gericht te benaderen en zo de dienstverlening te verbeteren.

Met het begrip ‘Kennis uit gegevens’ wordt in kaart gebracht wat de mogelijkheden zijn van gegevens-gestuurde handhaving en aan welke voorwaarden de organisatie en de informatie-infrastructuur moet voldoen. Gegevens over burgers en bedrijven liggen nu vooral opgesloten in het primaire proces, waardoor het gebruik ervan daarbuiten beperkt mogelijk is. Daarnaast wordt binnen de

Belastingdienst nog weinig kennis gedeeld over het gebruik en de effectiviteit van data-analyse-instrumenten (Boekhoorn et al., 2014)

2.2.2.3 Uitwisselen van gegevens

De WRR stelt dat de Belastingdienst afscheid moeten nemen van de nauwe blik op individuele applicaties en dat de aandacht moet uitgaan naar een vernetwerkte informatiehuishouding bij de overheid (WRR, 2011). Bij verdere vernetwerking hoort onvermijdelijk het uitwisselen van gegevens. Voorbeelden hiervan zijn het gebruik van renseigneringsgegevens en gegevens die onder de

basisregistraties vallen. Ook het beschikbaar stellen van gegevens aan de burger hoort daarbij, zoals bij mijntoeslagen.nl nu al gebeurt. De overheid is geneigd om steeds meer gegevens over burgers te verzamelen, te gebruiken en uit te wisselen. Hierbij en hierdoor staat ook datamining meer en meer in de belangstelling. Tegelijkertijd beroept de mondige burger zich steeds vaker op zijn inkijkrecht, aanpassingsrecht en vergeetrecht van persoonlijke gegevens. Steeds meer organisaties maken, soms zelfs real-time, gebruik van gestructureerde en ongestructureerde gegevens uit registraties, social media en intelligent devices: ook wel Big Data genoemd. In het door de WRR ingestelde onderzoek bij

(18)

de Belastingdienst wordt geconcludeerd dat gebruik van Big Data nog geen grote vlucht heeft genomen. Bovendien is men nog maar aan het begin van wat er technologisch mogelijk is. Om optimaal gebruik te kunnen maken van de mogelijkheden van de instrumenten datamining, profiling en big data, is het voor de Belastingdienst zaak om zich snel aan te (blijven) passen aan de voortdurende ontwikkelingen op het gebied van deze technologieën. Daarbij kunnen deze instrumenten door de Belastingdienst op een positieve manier worden ingezet om bijvoorbeeld de dienstverlening te verbeteren of om het gedrag van burgers en ondernemers in kaart te brengen.

2.2.2.4 Beschikbaarheid gegevens en data-analysetechnieken

De vraag is op welke wijze de Belastingdienst instrumenten als datamining succesvol kan inzetten voor strategische vraagstukken binnen toezicht en dienstverlening. Het gebruik van datamining vereist kwalitatief goede gegevens en beschikbaarheid van moderne analyse-instrumenten. De

Belastingdienst is bezig met de ontwikkeling van een instrumentarium om de datakwaliteit te

analyseren en (visueel) in kaart te brengen. Op basis van ervaringen met data-analysetechnieken en de studie naar Big Data beschikt de Belastingdienst over meer kennis en toepassingsmogelijkheden van deze technieken. De eerste dataminingprojecten laten veelbelovende resultaten zien. Hierbij zijn voornamelijk ‘beslisbomen’ en ‘regressie’ als techniek ingezet. Binnen enkele van deze projecten is ook gebruik gemaakt van data van het Centraal Bureau voor de Statistiek. In de huidige aanpak worden vooral de resultaten uit steekproeven gebruikt om risicoselectie te verbeteren, terwijl de verwachting is dat deze technieken ook ingezet kunnen worden om determinanten van compliance in kaart te brengen. Daarom wordt de opgedane kennis gebruikt om ook andere dataminingtechnieken te verkennen. In hoeverre zijn interne en externe (on)gestructureerde gegevens geschikt voor

(her)gebruik buiten de primaire processen? Wat is de kwaliteit van externe (on)gestructureerde gegevens en in welke mate zijn deze gegevens bruikbaar binnen het domein van de Belastingdienst? In hoeverre is het mogelijk om gegevens in te winnen bij andere organisaties, om samen te werken of om gegevens op grotere schaal te delen? (Boekhoorn et al., 2014)

2.2.2.5 Randvoorwaarden gebruik data-analyse-instrumenten

Het gebruik van datamining vereist duidelijke kaders. Enerzijds gaat het daarbij om ethische kaders. Hoever kan de Belastingdienst gaan met het verzamelen en koppelen van gegevens, inclusief niet-fiscale gegevens, en past dat binnen de beoogde wettelijke doelstelling? Kan de burger in voldoende mate bepalen wie over welke van zijn gegevens kan beschikken? Heeft de burger inkijk-, wijzig- en vergeetrecht? Is de Belastingdienst voldoende transparant in wat ze van burgers en bedrijven weet en wat ze met de gegevens doet? Anderzijds zijn er ook juridische kaders rond het opslaan en gebruik van persoonsgegevens. De randvoorwaarden voor het gebruik van datamininginstrumenten zullen verder uitgebreid worden beschreven bij de beantwoording van onderzoeksvraag drie.

2.2.2.6 Recente ontwikkelingen

De Belastingdienst en andere overheidsinstanties krijgen de mogelijkheid gegevens over burgers aan elkaar te koppelen om fraude met belastingen, uitkeringen en toeslagen op te sporen. Hiervoor is de Wet SUWI3 in oktober 2014 gewijzigd. Minister Asscher (PvdA) en minister Opstelten (VVD)

publiceerden op 11 september 2014 een concrete uitwerking van deze wetswijziging.

3_{Wet structuur uitvoeringsorganisatie werk en inkomen (SUWI). In de Wet SUWI is geregeld hoe de werknemersverzekeringen} en de volksverzekeringen worden uitgevoerd. De wet bepaalt ook hoe de verschillende uitvoeringsorganen, het

Uitvoeringsinstituut werknemersverzekeringen (UWV), de Sociale verzekeringsbank (SVB) en de Centra voor werk en inkomen (CWI), onderling gegevens uitwisselen

(19)

Volgens dit plan worden de volgende gegevens over iedere burger aan elkaar gekoppeld:

arbeidsgegevens, boetes en sancties, fiscale gegevens, gegevens roerende en onroerende goederen, handelsgegevens, huisvestingsgegevens, identificerende gegevens, inburgeringsgegevens,

nalevingsgegevens, onderwijsgegevens, pensioengegevens, re-integratiegegevens,

schuldenlastgegevens, uitkerings-, toeslagen- en subsidiegegevens, vergunningen en ontheffingen, zorgverzekeringsgegevens. De gegevens worden bij elkaar gebracht in het Systeem Risico-Indicatie (SyRI)4 van een inlichtingeneenheid van de gemeente of overheidsdienst zodat er vervolgens een profiel van elke burger kan worden gemaakt. Die profielen worden getoetst aan vooraf bepaalde risicoprofielen. SyRI is bedoeld om gemeenten en overheidsinstanties effectiever te laten zoeken naar mensen die uitkeringen of toeslagen misbruiken. Datamining en patroonherkenning moeten helpen om verdachten eerder te signaleren.

2.2.3 Deelconclusie hoofdstuk 2

In dit hoofdstuk is een beschrijving gegeven van de begrippen datamining en welke dataminingtechnieken daarbij kunnen worden toegepast binnen het dataminingproces. In het kader van deze scriptie zal onder datamining worden verstaan:

‘Het proces van het uitvoeren van gestructureerde en reproduceerbare analyses van grote

hoeveelheden gegevens uit één of meerdere systemen met geautomatiseerde dataminingtools om daarin verborgen patronen te ontdekken die betekenisvol zijn’.

In dit hoofdstuk is tevens aandacht besteedt aan de verschillende taken die de Belastingdienst vervult in het kader van haar maatschappelijke functie en bij welke van die taken datamining wordt ingezet. Datamining is niet nieuw binnen de Belastingdienst en past binnen het steeds meer gestructureerd en systematisch kijken naar het gedrag van burgers en bedrijven, inclusief het beïnvloeden van dat gedrag. Het verrijken van informatie kan leiden tot verbetering van de dienstverlening en het toezicht. In de huidige aanpak worden vooral de resultaten uit steekproeven gebruikt om risicoselectie te verbeteren, terwijl de analysetechnieken ook ingezet kunnen worden om determinanten van compliance in kaart te brengen. De verwachting is dat vooral de voorspellende kracht van deze technieken belangrijke meerwaarde heeft voor de Belastingdienst, met name op het gebied van gedragsverandering.

Dataminingtechnieken lijken veelbelovend, daarbij moet echter wel rekening worden houden met data integriteit. De vraag die men zich hierbij kan stellen is: “Hoe kan ik ervoor zorgen dat data niet

gewijzigd wordt en het testen en analyseren ervan betrouwbare informatie oplevert die gebruikt kan worden binnen de Belastingdienst?”. Het gebruik van datamining vereist dus duidelijke kaders. Enerzijds gaat het daarbij om data-integriteit; de waarborgen voor een betrouwbare

gegevensverwerking, anderzijds gaat het daarbij om ethische kaders. Hoever kan de Belastingdienst gaan met het verzamelen en koppelen van gegevens, inclusief niet-fiscale gegevens, en past dat binnen de beoogde wettelijke doelstelling? In de volgende hoofdstukken komen deze aspecten uitgebreid aan bod.

4

_{SyRI is een instrument waarmee gegevensbestanden van gemeenten, UWV, SVB, Inspectie SZW en Belastingdienst kunnen} worden gekoppeld ten behoeve van de bestrijding van fraude op het terrein van de sociale zekerheid en de

inkomensafhankelijke regelingen, de belastingen premieheffing en de arbeidswetten. De wet SUWI en (met name) de onderliggende AMvB regelen ook de waarborgen met betrekking tot het gebruik van het instrument.

(20)

3. Normenkader en risicoanalyse betrouwbare

gegevensverwerking bij datamining

3.1 Inleiding

In het vorige hoofdstuk is een definitie gegeven van de betekenis van datamining en is beschreven welke verschillende dataminingtechnieken er zijn. Daarnaast is weergegeven wat de taken van de Belastingdienst zijn en in welke mate de Belastingdienst gebruik maakt van datamining.

In dit hoofdstuk wordt een beschrijving gegeven van de risico’s die zich voor kunnen doen ten aanzien van de betrouwbaarheid van de gegevensverwerking bij het gebruik van datamining en de toepassing van weten regelgeving ten aanzien van privacyaspecten.

3.2 Kwaliteitsaspecten

De toepassing van datamining vereist kwalitatief goede data en beschikbaarheid van moderne

analyse-instrumenten. Kwalitatief goede data vergt een goede datavoorbereiding. Naast een adequate beveiliging vormt de betrouwbaarheid een belangrijke voorwaarde voor een goed functioneren van databases. Betrouwbaarheid telt niet alleen voor de technische betrouwbaarheid van een systeem (stabiliteit, veiligheid), maar ook voor betrouwbaarheid en kwaliteit van data. Als opgeslagen,

uitgewisselde of bewerkte gegevens fouten bevatten, kan dat vervelende consequenties hebben voor betrokkenen. Deze fouten kunnen bijvoorbeeld een gevolg zijn van een incorrecte invoer van

gegevens, identiteitsdiefstal of problemen met de interpretatie van gegevens.

Het gebruik van datamining vereist ook duidelijke kaders. Enerzijds gaat het daarbij om ethische kaders. Hoever kan de organisatie gaan met het verzamelen en koppelen van gegevens, inclusief niet-fiscale gegevens, en past dat binnen de beoogde wettelijke doelstelling? Kan de burger in voldoende mate bepalen wie over welke van zijn gegevens kan beschikken? Heeft de burger inkijk-, wijzig- en vergeetrecht? Is de Belastingdienst voldoende transparant in wat ze van burgers en bedrijven weet en wat ze met de gegevens doet? Anderzijds zijn er ook juridische kaders rond het opslaan en gebruik van persoonsgegevens. Wat mag er wel met gegevens en wat niet?

Om de kwaliteit van de gegevensverwerking te kunnen waarborgen, dient inzicht te bestaan in de risico’s welke het gebruik van datamining met zich meebrengen. Belangrijk is dat de betrouwbaarheid en integriteit van de verkregen data gewaarborgd is. Informatiebeveiliging van de gegevensverwerking is een absolute randvoorwaarde om deze betrouwbaarheid te kunnen garanderen.

Informatiebeveiliging is het treffen en onderhouden van een samenhangend pakket maatregelen om de betrouwbaarheid (beschikbaarheid, integriteit en vertrouwelijkheid) van de informatievoorziening te waarborgen (Fijneman et al., 2009).

De kwaliteit van de gegevensverwerking wordt beoordeeld door één of meer aspecten daarvan te toetsen aan een specifiek normenkader. In haar geschrift no. 1 onderscheidt NOREA (1998) een zevental kwaliteitsaspecten.

(21)

Een aantal van deze kwaliteitsaspecten spelen een prominente rol bij informatiebeveiliging. Dit zijn de aspecten die zien op betrouwbaarheid (Fijneman, Hang Ho, Roos Lindgreen & Veltman, 2011):

• Beschikbaarheid: de mate waarin gegevens of functionaliteit op de juiste momenten beschikbaar zijn voor gebruikers. Deelaspecten zijn bijvoorbeeld:

o Tijdigheid o Continuïteit

Risico’s kunnen samenhangen met o.a. technische storingen, overbelasting, menselijke fouten, opzettelijk handelen of andere calamiteiten zoals een brand of stroomstoring. x Integriteit: de mate waarin het object (data en informatiesystemen, technische systemen en

processytemen) in overeenstemming is met de afgebeelde werkelijkheid. Deelaspecten zijn bijvoorbeeld: o Juistheid of correctheid o Volledigheid o Tijdigheid o Authenticiteit o Onweerlegbaarheid

Voor een betrouwbare gegevensverwerking zijn de deelaspecten juistheid, volledigheid en tijdigheid van wezenlijk belang. Zij kunnen als volgt nader geconcretiseerd worden:

ښ Juistheid: wordt de data die terecht komt in de dataminingsoftware binnen dit pakket juist verwerkt?

ښ Volledigheid: wordt alle data die in de dataminingsoftware is ingevoerd in de output van het pakket opgenomen?

ښ Tijdigheid: wordt de relevante data in de juiste periode opgenomen?

Risico’s kunnen samenhangen met o.a. technische storingen, bedieningsfouten of doelbewust foutieve gegevens invoeren of manipuleren.

• Vertrouwelijkheid: De mate waarin uitsluitend geautoriseerde personen of apparatuur via geautomatiseerde procedures en beperkte bevoegdheden gebruik maken van IT-processen. De aspecten zijn bijvoorbeeld:

o Exclusiviteit o Privacy o Identificatie o Authenticatie o Autorisatie o Controle op bevoegdheden

Risico’s kunnen o.a. samenhangen met menselijke fouten, maar ook opzettelijk lekken van gevoelige informatie of bedrijfsspionage heeft impact op de vertrouwelijkheid. Het

kwaliteitsaspect is daarom van belang bij de beoordeling van de betrouwbaarheid van de gegevensverwerking.

Dit onderzoek is gericht op de betrouwbaarheid van de gegevensverwerking bij datamining. Informatiebeveiliging van de gegevensverwerking is een absolute randvoorwaarde om deze betrouwbaarheid te kunnen garanderen.

(22)

Daarom worden in het kader van dit onderzoek alleen de kwaliteitsaspecten die zien op de informatiebeveiliging in beschouwing genomen. Dit zijn de kwaliteitsaspecten beschikbaarheid, integriteit en vertrouwelijkheid.

Aspecten van vertrouwelijkheid zijn onder andere exclusiviteit en privacy. Het deelaspect ‘privacy’ wordt in dit onderzoek nader onder de loep genomen. Het is namelijk belangrijk dat bij alle activiteiten en inspanningen van de Belastingdienst de privacy van de burger in voldoende mate wordt

gewaarborgd en dat daarbij de geldende weten regelgeving in acht wordt genomen.

3.2.1 Privacy

Vandaag de dag is het belang van de bescherming van persoonsgegevens en de persoonlijke levenssfeer alleen maar toegenomen. Ieder materiaal dat persoonsgegevens bevat, of dit nu in de vorm van tekst of van audiovisueel materiaal is, kan in digitale vorm onmiddellijk en blijvend

wereldwijd toegankelijk worden gemaakt. Voor de overheidsdiensten is het van belang om zorgvuldig om te gaan met persoonsgegevens. In het belang van de burger, maar ook in het belang van een goede en integere dienstverlening. De toenemende hoeveelheid wetten en regels als gevolg van (onder meer) terrorismebestrijding leidt tot een steeds toenemende surveillance die strijdig lijkt met het privacy-beginsel. Ook de grote toename van de hoeveelheid persoonsgegevens die op het internet beschikbaar is, zet de privacy onder druk. De verleiding om deze gegevens te gebruiken voor andere doelen dan waarvoor ze bedoeld zijn, is groot. Dat geldt zowel voor bedrijven als voor overheden. Sociale netwerken en technieken van datamining blijken bij uitstek geschikt om sociale fraude en belastingfraude op te sporen. Het steeds verder verzamelen van gegevens leidt tot een profiel voor elke burger. Op basis van dit profiel worden beslissingen genomen over die burger, ook zonder dat hij of zij dat weet. De overheid en haar diensten kunnen fouten maken of informatie niet goed beveiligen. Het gebruik van datamining vereist daarom duidelijke ethische kaders. Hoever kan de Belastingdienst gaan met het verzamelen en koppelen van gegevens, inclusief niet-fiscale gegevens, en past dat binnen de beoogde wettelijke doelstelling? Kan de burger in voldoende mate bepalen wie over welke van zijn gegevens kan beschikken? Heeft de burger inkijk-, wijzig- en vergeetrecht? Is de

Belastingdienst voldoende transparant in wat ze van burgers en bedrijven weet en wat ze met de gegevens doet? Anderzijds zijn er ook juridische kaders rond het opslaan en gebruik van

persoonsgegevens.

De Wet Bescherming Persoonsgegevens (Wbp) regelt de bescherming van de privacy van burgers. De wet geeft de burger rechten en de houder/verwerker van persoonsgegevens plichten. Een burger mag zijn geregistreerde gegevens inzien, correctie van gegevens verzoeken en bezwaar maken tegen verwerking van gegevens. De Belastingdienst moet aangelegde gegevensverzamelingen melden bij het College Bescherming Persoonsgegevens5 en de persoonsgegevens alleen verzamelen en verwerken voor het doel waarvoor een gegevensverzameling is aangelegd.

5_{Het College bescherming persoonsgegevens (CBP) is het zelfstandig bestuursorgaan (ZBO) dat in Nederland bij wet als} toezichthouder is aangesteld voor het toezicht op het verwerken van persoonsgegevens (de 'privacy'). De organisatie is de opvolger van de Registratiekamer. De taken vloeien voort uit de Europese Privacyrichtlijn 95/46/EG die voor alle landen van de EU geldt. Elk van de EU-lidstaten heeft een eigen variant op het CBP.

(23)

3.3 Normenkader informatiebeveiliging bij datamining

Volgens de Code voor Informatiebeveiliging NEN-ISO/IEC 27002:20136 wordt informatiebeveiliging bereikt door een geschikte verzameling beheersmaatregelen in te zetten, waaronder beleid, werkwijzen, procedures, organisatiestructuren en programmatuur- en apparatuurfuncties. Deze beheersmaatregelen moeten worden vastgesteld, gecontroleerd, beoordeeld en waar nodig verbeterd om te waarborgen dat de specifieke beveiligings- en bedrijfsdoelstellingen van de organisatie worden bereikt. De zogenaamde ‘plan-do-check-act-cyclus’, zoals ontwikkeld door W.E. Deming (Deming cirkel). Dit behoort te worden gedaan in samenhang met andere bedrijfsbeheerprocessen.

Uit de plan-do-check-act-cyclus wordt duidelijk dat na het identificeren van de risico’s het van belang is om de beveiligingsmaatregelen te identificeren. Daarbij wordt een inschatting gemaakt van de waarschijnlijkheid dat een gebeurtenis zich kan voordoen gegeven deze maatregelen.

Voor het in kaart brengen van de toepasselijke beheersmaatregelen wordt uitgegaan van een normenkader. Een veel gebruikte beveiligingsstandaard is de Code voor Informatiebeveiliging (ISO 27002:2013). Deze code geeft richtlijnen en algemene principes voor het initiëren, implementeren, handhaven en verbeteren van de informatiebeveiliging in een organisatie. De doelstellingen die in deze internationale norm worden beschreven geven generale richtlijnen voor de algemeen aanvaarde doelen van informatiebeveiliging. De beheersdoelstellingen en beheersmaatregelen van deze

internationale norm zijn bedoeld voor implementatie om te voldoen aan de eisen die in een risicobeoordeling zijn vastgesteld.

In de Baseline Informatiebeveiliging Rijksdienst (BIR, 2011) zijn de uitgangspunten van de visie op beveiliging van de rijksoverheid verwerkt. Hierin is opgenomen dat ISO 27001 en ISO 27002 voor de rijksdienst verplicht is gesteld.

Voor de beveiliging van persoonsgegevens worden de beveiligingsnormen uit de Wet Bescherming Persoonsgegevens (Wbp) toepast. De maatregelen in de BIR worden ook voldoende geacht voor de verwerking van persoonsgegevens volgens de Wbp (BIR, 2011).

3.4 Risicoanalyse informatiebeveiliging bij datamining

Fijneman et al. (2012) geven aan dat informatiebeveiliging een onderdeel is van integraal

risicomanagement. Daarom dient er een samenhangend pakket beveiligingsmaatregelen te worden getroffen en onderhouden. Zij geven aan dat middels een risicoanalyse de bedreigingen in kaart worden gebracht en het bijbehorende risico wordt ingeschat. In de Code voor Informatiebeveiliging (ISO 27002:2013) wordt aangegeven dat risicobeoordelingen periodiek behoren te worden uitgevoerd om in te spelen op wijzigingen in de beveiligingseisen en de risicosituatie.

Voor de toepassing van datamining zijn verschillende risico’s aan te wijzen. Het rapport ‘De staat van informatie’ (Broeders, Cuijpers & Prins (2011) beschrijft dat onder meer de mogelijkheid bestaat dat de gegevens al niet accuraat zijn geweest op het moment van invoeren, dat ze tijdens de opslag onterecht zijn gemanipuleerd, of dat ze inmiddels verouderd (achterhaald) zijn.

Bij uitstek ten aanzien van gegevens die aan derden zijn doorgegeven, bestaat het risico dat ze onvoldoende worden bijgehouden. Daarnaast geeft de WRR (2011) in haar rapport ‘iOverheid’ aan dat de vermenging van informatie, de bewerking ervan en het bezien van informatie in een andere context

6

_{De ISO (International Organization for Standardization) is een internationale organisatie die normen vaststelt. Voor wat betreft} de informatiebeveiliging wordt met name gekeken naar ISO27001 en ISO27002. De ISO27002 wordt vaak gezien als algemeen aanvaarde norm voor informatiebeveiliging. Inmiddels is de oude versie vervangen door NEN-ISO/IEC 27002:2013 .

(24)

dan waarin deze in eerste instantie is opgenomen, gevolgen heeft voor de kwaliteit en betrouwbaarheid van informatie. Gegevens worden verrijkt met (soms subjectieve) oordelen, inschattingen en waarnemingen.

Het College Bescherming Persoonsgegevens (CBP, 2013) vermeld in haar ‘Richtsnoeren Beveiliging Persoonsgegevens’ dat een gemiddelde burger in Nederland met zijn gegevens in honderden tot duizenden bestanden zit , zowel in de publieke als de private sector. Iedereen moet er op kunnen vertrouwen dat zijn persoonsgegevens voldoende worden beveiligd. Onvoldoende beveiliging kan leiden tot verlies en diefstal van persoonsgegevens en vervolgens tot misbruik van

persoonsgegevens, zoals identiteitsfraude.

Hieronder in tabel 1 worden risico’s op het gebied van informatiebeveiliging bij datamining benoemd, gerelateerd aan de relevante kwaliteitsaspecten. Deze risico’s zijn grotendeels ontleend aan

bestaande literatuur inzake informatiebeveiliging en de beveiliging van persoonsgegevens bij overheidsorganisaties (o.a. Overbeek et al. 2009; Adviescommissie Informatiestromen Veiligheid, 2007; Broeders et al., 2011; WRR, 2011; CIO Platform Nederland7, 2012) aangevuld met eigen invulling. Bij het benoemen van onderstaande risico’s is een willekeurige volgorde aangehouden. Deze lijst is gevalideerd en aangevuld met behulp van drie validatie-interviews (zie paragraaf 3.5).

Nr. Risico Informatiebeveiliging Kwaliteitsaspect(en)8

1

Risico van bewuste of onbewuste menselijke fouten zoals bijvoorbeeld verlies aan data, onzorgvuldig omgaan met

wachtwoorden. Bijvoorbeeld door onvoldoende veiligheidsbewustzijn bij de betrokken personen in de organisatie, geen sprake van

informatiebeveiligingsbeleid, inrichting in de organisatie of coördinatie, geen gedocumenteerd plan voor verstoringen.

BIV

2

Risico dat derden onbevoegd toegang verkrijgen tot bedrijfs-gevoelige informatie waartoe zij geen toegang zouden mogen hebben.

V

3

Het risico dat de opgeslagen, uitgewisselde of bewerkte gegevens fouten bevatten, door bijvoorbeeld een verkeerde invoer van gegevens, waardoor gegevens bij analyse verkeerd kunnen worden geïnterpreteerd.

I

4 Het risico van het niet goed beveiligen van persoonsgegevens met als

gevolg misbruik van persoonsgegevens en of identiteitsdiefstal. IV

5

Risico dat door virussen of andere malware gegevens in de database niet integer blijven en gewijzigd, verminkt en/of verwijderd worden, waardoor gegevens bij analyse verkeerd kunnen worden

geïnterpreteerd.

I

7_{Het CIO Platform Nederland is de onafhankelijke vereniging van CIO’s en IT directeuren van private en publieke organisaties} in Nederland

(25)

6 Risico dat hackers inbreken op het systeem waarna gegevens

gewijzigd, verminkt en/of verwijderd worden. I

7 Risico van verwijderen en/of verloren gaan van gegevens die op

grond van wettelijke eisen bewaard zouden moeten blijven. B 8

Risico dat de organisatie te ver gaat met het verzamelen en koppelen van gegevens, inclusief niet-fiscale gegevens, waardoor dit niet past binnen de beoogde wettelijke doelstelling en/of juridische kaders.

V

9 Het risico van technische verstoringen in het systeem, met gevaar

voor de stabiliteit en veiligheid van het systeem. B

10

Onvoldoende monitoring op het systeem, waardoor incidenten (inbraken of inbraakpogingen) in het systeem niet opgemerkt worden en hier ook geen maatregelen op genomen worden.

IV

Tabel 1: risico’s datamining gerelateerd aan relevante kwaliteitsaspecten

Bovengenoemde risico’s zijn geplot in een risicomatrix waarbij op basis van een eigen inschatting de risico’s in de matrix qua kans (y-as) en impact (x-as) zijn ingedeeld. Deze matrix is opgesteld

voorafgaand aan de validatie-interviews en is opgenomen in figuur 5 in bijlage 1.

3.5 Validatie-interviews

3.5.1 Opzet validatie-interviews

Ter validatie van de vanuit de literatuur verzamelde risico’s zijn een drietal validatie-interviews gehouden. De gesprekspartners zijn vanuit hun achtergrond in hun dagelijkse werkzaamheden veelal betrokken bij informatiebeveiliging, hebben in meer of mindere mate ervaring met de toepassing van datamining en een meer of mindere kennis en ervaring in de IT.

De interviews zijn uitgewerkt in bijlage 2.

Aan de gesprekspartners zijn een aantal vragen voorgelegd:

1. Achtergrondinformatie gesprekspartner: omdat de gesprekspartners bij de beantwoording van de vragen redeneren vanuit hun eigen achtergrond en ervaring op het gebied van

informatiebeveiliging en datamining, is het zinvol te weten wat deze achtergrond is. 2. De belangrijkste risico’s bij datamining op het gebied van informatiebeveiliging:

Deze vraag is gesteld om te bezien of er belangrijke risico’s genoemd worden die nog niet eerder bij de literatuurstudie naar boven zijn gekomen.

3. Plotten van de gedefinieerde risico’s op het gebied van informatiebeveiliging in een risico-matrix: aan de gesprekspartners is gevraagd op basis van eigen inschatting de vanuit de literatuurstudie gedefinieerde risico’s te plotten in een risicomatrix. Bij deze inschatting speelt de kennis en achtergrond van de gesprekspartner natuurlijk mee.

Met het uitvoeren van deze interviews wordt gekomen tot een kwalitatieve risicoanalyse aangezien het aantal interviews te gering is om te kunnen spreken van een kwantitatieve risicoanalyse. Hierbij zal de risico-inschatting zoals door de gesprekspartners aangegeven in kaart worden gebracht en worden geplot in een matrix.