Big data framed? : het opzetten van een control framework voor big data bij banken

(1)

Universiteit van Amsterdam

Amsterdam IT-Audit Programme (AITAP)

AITAP scriptie

Big Data Framed?

Het opzetten van een control framework voor big

data bij banken

Auteur Paul E. Martens Studentnummer 7000277 Scriptie begeleider Geert-Jan Krol Versie Final

(2)

INHOUDSOPGAVE

VOORWOORD ... 4

SAMENVATTING ... 5

1 INLEIDING ... 8

1.1 Aanleiding en achtergrond ... 8

1.2 Inkadering probleemstelling en onderzoeksvragen ... 8

1.2.1 Inleiding ... 8

1.2.2 Uiteenzetting van de probleemstelling: big data bij banken ... 9

1.2.3 Ondersteunende onderzoeksvragen ... 10

1.3 Werkwijzen en onderzoeksopzet ... 11

1.3.1 Werkwijze bij literatuurstudie en het afnemen van interviews ... 11

1.3.2 Onderzoeksopzet en werkwijze ... 12

2 BEGRIPSBEPALING VAN BIG DATA ... 13

2.1 Kenmerken van Big Data in het algemeen ... 13

2.2 Ontstaan en bronnen van big data ... 14

2.3 Big data bij banken: de value drivers ... 15

2.4 Big data als proces ... 17

2.5 Conclusie ... 19

3 ONDERSCHEIDENDE FACTOREN VAN BIG DATA ... 20

3.1 Bepaling van de onderscheidende factoren van big data ... 20

3.2 Grotere noodzaak voor data governance ... 20

3.3 Management: besluitvorming ... 21

3.4 Data architectuur en resources ... 22

3.5 Operationeel gebruik van big data ... 24

4 SPECIFIEKE RISICO’S BIJ BIG DATA ... 26

4.1 Risico’s en aandachtspunten genoemd door respondenten ... 26

4.2 Data governance ... 28

4.3 Management: besluitvorming ... 29

4.4 Data architectuur en resources ... 29

4.5 Operationeel gebruik van big data ... 30

5 KWALITEITSEISEN VAN BIG DATA ... 32

5.1 Kwaliteitseisen van IT auditors ... 32

5.2 Kwaliteitseisen op basis van wetgeving voor banken ... 32

5.3 Genoemde kwaliteitseisen door respondenten met RE-kwalificatie ... 32

5.4 Kwaliteitseisen per onderscheidende big data factor ... 33

6 REFERENTIEKADERS OM KWALITEITSEISEN VAN BIG DATA TE WAARBORGEN ... 35

6.1 Richtlijnen vanuit De Nederlandsche Bank en Basel Committee ... 35

6.2 Onderkende referentiekaders tijdens het onderzoek ... 35

6.2.1 Committee of Sponsoring Organizations of the Treadway Commission (COSO) ... 35

(3)

6.2.3 Global Technology Audit guide (GTAG) ... 36

6.3 Vergelijking en keuze frameworks ... 37

6.4 Vertaling naar en uitwerking van het big data framework ... 39

6.4.1 Vaststellen van de indicatieve beheersmaatregelen volgens GTAG ... 39

6.4.2 Selectie van de indicatieve maatregelen ... 40

7 ROL VAN DE IT-AUDITOR BIJ HET BEOORDELEN VAN BEHEERSMAATREGELEN RONDOM HET PROCES VAN BIG DATA ... 43

7.1 Rol van de (IT) auditor ... 43

7.2 Assurance overwegingen voor big data processen ... 43

7.3 Praktijktoetsing van het framework en rol van de IT auditor ... 44

7.3.1 Onderzoeksopzet ... 44

7.3.2 Uitkomsten van het onderzoek ... 44

8 OVERALL CONCLUSIE ... 47

ANNEXES... 50

ANNEX 1: FRAMEWORK ... 50

ANNEX 2: LITERATUURLIJST ... 56

ANNEX 3: OVERZICHT INTERVIEW VRAGEN ... 58

ANNEX 4a: INTERVIEW VERSLAGEN ... 59

ANNEX 4b: SAMENVATTING VAN DE RISICO’S PER RESPONDENT ... 79

ANNEX 5: EISEN AAN DE ORGANISATIE IN HET KADER VAN DE WBP ... 81

ANNEX 6: VOORBEREIDINGSDOCUMENT PRAKTIJKTOETSING BIG DATA ... 82

(4)

VOORWOORD

Deze scriptie vormt het sluitstuk van mijn Executive IT-Audit Program (AITAP) opleiding aan de Universiteit van Amsterdam.

De scriptie is geschreven onder begeleiding van Geert-Jan Krol. Ik bedank hem hartelijk voor zijn constructieve begeleiding en scherpe feedback. Een bijzonder dankwoord gaat naar alle (geïnterviewde) personen en organisaties die mijn onderzoek hebben ondersteund in de vorm van onder andere het delen van kennis, opinies en ervaringen. Zonder deze ondersteuning had ik deze scriptie niet kunnen schrijven. “Last but not least” bedank ik mijn vrouw Karin en dochter Yun, voor hun steun en begrip gedurende het volgen van de opleiding, het onderzoek en het schrijven van deze scriptie.

Deze scriptie draag ik op aan Rob Colin, collega, mentor, goede vriend en een bijzondere man. Rob had mij geadviseerd om een postdoctorale IT-opleiding te doen. Rob zei: “Vooral doen! Een bank is niet meer dan een computer met mensen eromheen. De opleiding voegt echt iets toe.” Toen ik in december 2013 aan de AITAP opleiding begon, was Rob helaas 2 maanden eerder op 55-jarige leeftijd plotseling overleden.

De AITAP opleiding aan de Universiteit van Amsterdam heeft mij een bredere inhoudelijke kijk gegeven op het auditvak. Als audit professional voel ik mij hierdoor beter geëquipeerd om vanuit meerdere invalshoeken interne beheersingsvraagstukken te benaderen.

Paul E. Martens

(5)

SAMENVATTING

“Welke specifieke interne beheersingsmaatregelen wordt een auditor geacht te beoordelen bij banken die big data gebruiken en voor welke beheersmaatregelen zou de IT auditor een rol van betekenis kunnen spelen?”

Wikipedia formuleert big data als volgt: “Men spreekt van Big Data wanneer men werkt met één of meer

datasets die te groot zijn om met reguliere databasemanagementsystemen te onderhouden.” Deze

datasets hebben de volgende kenmerken, die bekend staan als de 4 V’s: Volume, Variety, Velocity (snelheid) en Varacity (waarheidsgetrouwheid). Big data ontstaat uit grofweg 2 bronnen: binnen de organisatie (intern, bijvoorbeeld transactiegegevens) en buiten de organisatie (extern, bijvoorbeeld twitterberichten).

Voor banken zijn met name de volgende value drivers te onderkennen bij big data:

• Commerciële doeleinden en “klantbelang centraal”; het optimaliseren van het advies- en productaanbod en klachtenmanagement;

• Beter risicomanagement (krediet-, markten liquiditeitsrisico’s) en macro-analyses; o.a. het verhogen van de mate van voorspelbaarheid van klantgedrag waardoor de bank beter kan inspelen op potentiële problemen;

• Verbeterde monitoring op potentieel illegale praktijken; het zo vroegtijdig mogelijk signaleren van fraude door bijvoorbeeld skimming van betaalpassen, ongebruikelijke transacties (witwasactiviteiten) en marktmanipulatie.

Bij een big data proces zijn de volgende stappen te onderkennen: (1) Analyse van de informatiebehoefte, (2) Ontwerp van de mogelijke toepassing, (3) Realisatie van de toepassing, (4) Evaluatie en testen van de gerealiseerde toepassing en (5) Gebruik en beheer van de gerealiseerde toepassing.

Onderscheidende factoren big data, specifieke risico’s, kwaliteitseisen, keuze framework en beheersmaatregelen

De onderscheidende factoren van big data zijn op de volgende terreinen zichtbaar: data governance, besluitvorming van management, data architectuur en operationeel gebruik. Aan de hand van deze onderscheidende factoren zijn de risico’s en de kwaliteitseisen (betrouwbaarheid en beschikbaarheid) van big data bepaald.

Op basis van vastgestelde criteria waaronder passende normering voor big data, krijgt de Global Technology Audit Guide (GTAG) de voorkeur als framework voor big data omdat GTAG praktische handvaten voor (IT) auditors en een passende normering (goede aansluiting op onderscheidende factoren) biedt.

In de onderstaande tabel is een samenvatting van beheersmaatregelen opgenomen. Voor een volledig overzicht wordt echter verwezen naar Annex I.

(6)

Onderdeel Samenvatting risico’s Kwaliteitseisen Samenvatting

Interne beheersmaatregelen Data

governance

- Onvoldoende benutting big data

- Onvoldoende implementatie

van big data: geen/slechte koppeling met strategische doelen

- Onvoldoende beheersing

kwaliteit

- Onvoldoende kwaliteit t.a.v. vertrouwelijke data. Betrouwbaarheid: controleerbaarheid, (transparantie). a. Data onderhoudsprocessen en procedures inclusief kwaliteitseisen en duidelijk data ownership b. Duidelijke strategie c. Audit trails voor

controleerbaarheid en herkomst data.

Management: besluitvorming

- Ineffectieve besluitvorming door mogelijk conflicterende

informatie, onzekerheid over de mate van

waarheidsgetrouwheid - Vertraging

besluitvormingsproces

- De kosten die gemoeid gaan bij het beheren en monitoren van de kwaliteit, betrouwbaarheid en integriteit van big data kunnen behoorlijk oplopen.

Betrouwbaarheid: controleerbaarheid, (transparantie, beheersbaarheid).

d. Data bronnen/velden zijn geïdentificeerd, omschreven en onderhouden volgens (intern) vereiste data kwaliteitseisen

e. Maatregelen i.o.m. het doel van gebruik en geldigheid data. Data worden beoordeeld op

waarheidsgetrouwheid f. Cost control proces.

Data

architectuur

- Selectie relevante data (gebrek aan audit trails,

beheersbaarheid)

- Toepassing van cloud

computing: het niet voldoen aan regelgeving en het gebrek aan exclusiviteit

- Virtualisatie/cloud: vertraging van aanlevering data

- Gebrek aan interne capabilities

Betrouwbaarheid controleerbaarheid, (transparantie, beheersbaarheid), exclusiviteit. g. Proces/procedure voor: (1) het onderkennen en verzamelen van relevante data waarin duidelijke doelstellingen zijn

omschreven en (2) verrijking en koppelen van gegevens. h. SLA management:

gedefinieerd en afgestemd op o.a. (DNB) cloud

requirements including SLA reporting en external assurance process. Eventueel gebruikmaken van dedicated private cloud. i. Kennis en vaardigheden van

direct leidinggevenden en medewerkers (IT/non-IT) zijn voldoende om data te ontsluiten en om te zetten naar informatie.

(7)

Onderdeel Samenvatting risico’s Kwaliteitseisen Samenvatting

Interne beheersmaatregelen Operationeel

gebruik:

Verwerking

- Verwerken en analyseren van

(te) veel (on)gestructureerde data; eventueel koppelen van ongestructureerde aan gestructureerde data

- mate van

waarheidsgetrouw-heid/bruikbaarheid

- Fouten in data door menselijke fouten en/of onvoldoende inrichting van de processen.

Betrouwbaarheid controleerbaarheid, (transparantie, beheersbaarheid), integriteit (bij bewerking).

j. Zie onder onderdeel g. van de voorgaande sectie (data architectuur).

k. Input controls, waaronder dual controls, controls bij verwerking (bijv. controle totalen), output controls (plausibility controls).

Operationeel gebruik:

Veiligheid

- Door opslag van steeds meer data en transport tussen diverse locaties (cloud computing) nemen

kwetsbaarheden toe. Risico’s van hacking, misbruik en fraude.

- Misbruik van informatie vanuit de organisatie. Betrouwbaarheid: controleerbaarheid Integriteit en exclusiviteit l. Opslag en retentie procedures en processen zijn aanwezig om beschikbaarheid en

toegankelijkheid van data te borgen. Opslag buiten de bank (externe vendors, cloud, cross border), zouden aan interne

exclusiviteitsstandaarden van de bank moeten voldoen.

m. Anonimiseren van

datavelden is geborgd in het verwerkingsproces zodat data niet onnodig

herleidbaar naar personen.

Operationeel gebruik:

Compliance en reputatie

- Het overall risico is dat een bank niet aan de regelgeving (m.n. privacy regels) voldoet (complexe regelgeving, kritische toezichthouders);

- aantoonbaarheid van een

integer en continu proces; - Maatschappelijke gevoeligheid. Betrouwbaarheid: Controleerbaarheid, integriteit, exclusiviteit en continuïteit. n. Interne exclusiviteits-standaarden o. Er is een Business

Continuity Plan; effectiviteit van dit plan wordt periodiek getest

p. Transparantie naar klanten en stakeholders

noodzakelijk. Tabel 11 – Samenvattende tabel control framework

IT auditing, de rol voor big data processen en assurance verlening

IT auditing is het beoordelen van één of meer kwaliteitsaspecten of beheersingsmaatregelen van één of meerdere onderdelen van de informatie- en communicatietechnologie (ICT). De (IT-)auditor kan niet alleen een oordeel verstrekken bij het resultaat van iedere stap van het big data proces, maar ook bij het toetsen van de kwaliteit van het proces zelf. IT auditors zouden assurance kunnen verlenen over o.a. de kwaliteit van big data privacy governance.

Op welke plekken in het framework zou de IT auditor waarschijnlijk de meeste toegevoegde waarde leveren, gezien zijn expertise? Maatregelen waarbij minimaal 2 IT auditors een IT-auditor betrokkenheidsniveau van 4 (bovengemiddeld) of hoger hebben afgeven zijn: functiescheiding, toegangsrechten, formele proces bij systeemontwikkeling en integriteitscontroles.

(8)

1 INLEIDING

1.1 Aanleiding en achtergrond

Is big data “the next big thing”? Volgens strategieconsultants van McKinsey is big data niet de next big thing, maar the big thing van nu. Ondernemingen die niet actief gegevens analyseren over markten, consumentengedrag of eigen processen, dreigen achter te lopen op de concurrenten1.

Big data staat daarom hoog op de agenda van ondernemingen. Volgens Gartner2 waren investeringen/uitgaven voor big data in 2013 goed voor meer dan USD 30 miljard. Veel executives geloven in de belofte van big data, blijkt in 2012 uit onderzoek van PwC3; ruim 60% van de 1.100 ondervraagde executives in de IT- en business sector geloven dat big data een aanzienlijk bedrijfsvoordeel kan creëren. Ze zien echter wel grote uitdagingen om deze voordelen te verzilveren. Zo gaf bijna 60% aan dat de overgang van data naar inzicht een grote uitdaging vormt. Iets meer dan 40% gaf aan dat de systemen geen grote hoeveelheden data, afkomstig van verschillende bronnen, kunnen verwerken. Tenslotte gaf 25% aan dat zij niet de kennis in huis hebben om een diepe analyse van big data uit te voeren. Deze kenniskloof zien consultants en (grote) accountantskantoren als gat in de markt. Om deze reden investeren Big Four accountantskantoren in kennisontwikkeling rond big data en de commerciële toepassingen hiervan. Zo investeert KPMG wereldwijd in 2014 naar verluidt ruim EUR 100 miljoen in een ontwikkelingsfonds voor big data4.

Wat is er gaande? Welke risico’s zijn er te onderkennen? Wat is de invloed voor de werkzaamheden van de auditor en in het bijzonder de IT auditor?

1.2 Inkadering probleemstelling en onderzoeksvragen Inleiding

1.2.1

Met de huidige mate van digitalisering in onze samenleving en het inspelen van ondernemingen op de behoeften van consumenten, zal het belang van big data alleen maar toenemen. Met dit onderzoek wordt beoogd om:

• inzicht te krijgen in de specifieke risico’s van het gebruik van big data; en

• op basis van deze specifieke risico’s een stelsel van interne beheersmaatregelen (“framework”) samen te stellen.

Met dit framework kan een (IT) auditor de kwaliteit van deze beheersingsmaatregelen beoordelen en op werking toetsen.

Om het framework te bepalen, wordt in hoofdstuk 1 eerst vastgesteld wat big data is, waarna vervolgens wordt bepaald welke risico’s en kwaliteitseisen er zijn. Het framework moet ook toetsbaar zijn, waarbij met name meerdere audit professies (IT en non-IT auditors5) betrokken zijn.

1

Accountant maart 2014 2

Gartner is een onderzoeks- en adviesbureau in de informatietechnologie sector 3

Vijfde Annual Digital IQ Survey 4

Accountant maart 2014 5

(9)

Uiteenzetting van de probleemstelling: big data bij banken 1.2.2

Big data kan in verschillende sectoren en gebieden worden toegepast. Hierbij zullen risico’s, kwaliteitseisen en interne beheersmaatregelen in omvang en aard verschillen. Binnen het bestek van deze scriptie is daarom gekozen voor een specifieke sector en een specifiek toepassingsgebied.

Als sector is gekozen voor banken. Onder invloed van internet en daardoor de opkomst van o.a. internetbankieren, beleggen via internet, worden steeds meer gegevens elektronisch vastgelegd; de klant komt steeds minder naar een bankfiliaal om bankzaken te regelen. Het persoonlijke contact met de klant is gewijzigd qua intensiteit en frequentie waardoor het analyseren van data een mogelijkheid biedt om trends in het gedrag van klanten te signaleren. Banken kunnen daarmee onder meer de klant beter bedienen met gerichtere diensten. Het is voor banken dan ook geen optie om deze gegevens niet te gebruiken. De vraag is op welke wijze en condities de bank gegevens gebruikt; nog steeds vinden namelijk in het publieke debat discussies plaats van wat wel of niet acceptabel is. Een voorbeeld in dit kader is het volgende. In maart 2014 kondigde ING aan, bij wijze van proef, informatie te willen verkopen aan partijen. Deze informatie is gebaseerd op basis van data-analyse van bestedingspatronen. Dit voornemen heeft een hoop commotie veroorzaakt bij o.a. consumentenorganisaties hetgeen tot een breed maatschappelijk debat heeft geleid.

Big data kan binnen de bankensector worden gebruikt voor diverse toepassingsgebieden. Big data kan banken voorzien van scherpere business intelligence door te zorgen dat patronen herkenbaar worden gemaakt aan de hand van o.a. zoekopdrachten en analyses e.d.6 Banken hebben, mede onder druk van regelgeving, de afgelopen jaren fors geïnvesteerd in monitoring systemen die big data (bijvoorbeeld betaal- en beurstransacties) van klanten kunnen verwerken om transacties te signaleren die mogelijk duiden op bijvoorbeeld skimming, creditcard fraude, witwasactiviteiten of ongeoorloofd marktgedrag. Gezien deze actuele ontwikkelingen is gekozen voor het gebruik van big data voor het analyseren van met name klantgedrag.

De probleemstelling van dit onderzoek luidt daarom: “Welke specifieke interne beheersingsmaatregelen wordt een auditor geacht te beoordelen bij banken die big data gebruiken en voor welke beheersmaatregelen zou de IT auditor een rol van betekenis kunnen spelen?”

“Specifiek” wil in dit kader zeggen: afgestemd op big data. Dit betekent dat maatregelen die ook van toepassing zijn op traditionele data in principe (zoveel mogelijk) buiten scope van het onderzoek vallen. De behoefte aan zogenaamde general IT controls is bij elke bank aanwezig of het nu gaat om big data processen of andere processen. De specifieke kenmerken van big data, waarover in hoofdstuk 2 meer, creëren echter nieuwe vormen van risico’s en/of risico’s met een andere intensiteit waardoor (mogelijk) een andere aanpak noodzakelijk is om de mogelijkheden van big data te benutten en om de valkuilen te vermijden7. Dit betekent dat onderscheidende factoren van big data van belang zijn voor het specifiek maken van risico’s en interne beheersmaatregelen.

6

De Revolutie van BIG DATA (A. Osseyran, W. Vermeend) 7

(10)

Ondersteunende onderzoeksvragen 1.2.3

Hieronder staan de hoofd- en deelvragen die behandeld worden in de scriptie. De deelvragen geven gezamenlijk antwoord op de onderzoeksvraag waarbij ze horen. De onderzoeksvragen samen leiden tot beantwoording van de centrale vraag (probleemstelling) van de scriptie.

(Sub-)onderzoeksvraag Behandeld in:

Onderzoeksvraag 1: Wat is big data? a. Wat zijn de kenmerken van big data? b. Hoe ontstaat big data?

c. Hoe kan (klant) big data bij banken worden gebruikt? Wat zijn de onderliggende value drivers?

d. Hoe ziet een big data proces eruit?

Paragraaf 2.1 Paragraaf 2.2 Paragraaf 2.3 Paragraaf 2.4 Onderzoeksvraag 2: Wat zijn de belangrijkste onderscheidende

factoren van big data?

Hoofdstuk 3

Onderzoeksvraag 3: Welke specifieke risico’s kunnen, gezien de

onderscheidende factoren, worden onderkend?

Hoofdstuk 4

Onderzoeksvraag 4: Welke kwaliteitseisen kunnen worden

gesteld ten aanzien van big data?

Hoofdstuk 5 Onderzoeksvraag 5: Welk raamwerk/framework is het meest

geschikt om de kwaliteitseisen van big data te waarborgen?

a. Welke raamwerken kunnen worden gebruikt om de gekozen kwaliteitseisen te borgen?

b. Welk raamwerk zou het meest geschikt zijn voor big data en waarom?

c. Welke maatregelen zouden er logischerwijs getroffen dienen te worden om de risico’s te mitigeren met behulp van het gekozen framework?

Paragraaf 6.2 Paragraaf 6.3

Paragraaf 6.4 Onderzoeksvraag 6: Wat is de rol van een IT-auditor bij het

beoordelen van de effectiviteit van de onderkende specifieke interne beheersingsmaatregelen?

a. Wat is de rol van een IT auditor?

b. Wat zijn de assurance overwegingen voor big data?

c. Op welke plekken in het framework zou de IT auditor waarschijnlijk de meeste toegevoegde waarde leveren, gezien zijn expertise?

Paragraaf 7.1 Paragraaf 7.2

Paragraaf 7.3 Tabel 1 – Overzicht van onderzoeksvragen met verwijzing naar de paragrafen

(11)

1.3 Werkwijze en onderzoeksopzet

Werkwijze bij literatuurstudie en het afnemen van interviews 1.3.1

Over big data zijn nog niet veel publicaties verschenen, al is het aantal artikelen groeiende. Het onderzoek is om deze reden exploratief. Exploratief wil in dit kader zeggen: gericht op de aard, waarde en eigenschappen van big data (kwalitatief) en minder gericht op kwantitatieve onderbouwing.8 De basis van dit onderzoek vormt een literatuurstudie, aangevuld met interviews met verschillende experts op dit gebied. Deze big data experts c.q. ervaringsdeskundigen (hierna: experts) met verschillende achtergrond (o.a. juridisch, accountancy, IT) worden geïnterviewd om het onderwerp zoveel mogelijk vanuit verschillende kanten te belichten. De criteria waarop de te interviewen experts worden geselecteerd zijn voornamelijk: ervaring op een specifiek terrein van big data en (relevant) genoten opleidingen. Onder de geïnterviewde personen zijn 3 RE’s betrokken. Alle geïnterviewde personen hebben op persoonlijke titel een interview afgegeven. Vanwege het vertrouwelijke karakter, zijn alle interviews geanonimiseerd. Op basis van de literatuurstudie en de interviews volgt een evaluatie van de uitkomsten van waaruit een concept framework kan worden ontworpen. De onderstaande tabel 2 geeft een overzicht van de geïnterviewde personen.

Perspectief (aantal,

referentie Annex IV) (aantal respondenten, totaal 14)

Toelichting rol, reden Onderwerpen

Toezichthouders (2, TH) Toezichthouders op banken

(prudentieel en gedrag).

Risico’s big data bij banken, eisen interne beheersmaatregelen, verwachting IT auditor.

Legal (1, JD)/ Compliance (1, CO)

Adviseren van de leiding m.b.t. juridische vraagstukken (legal)

Juridische risico’s van big data.

Interne monitoring rol bij banken aangaande het voldoen aan wet- en regelgeving (compliance)

Risico’s big data, eisen toezichthouder, verwachting IT auditor.

Accountancy (1, EC)/ Financieel (1, FI)

Mogelijkheden van big data, consultancy

Risico’s en kansen big data, verwachting IT auditor.

Verantwoordelijk voor de financiële verslaglegging, ondersteuning management bij investeringsbeslissingen.

Investeringen in big data, total cost of ownership.

Marketing / Strategie (3, MT)

Aantrekken van nieuwe klanten. Commerciële mogelijkheden van big data.

IT (Security) (2, IT) Het zorgdragen voor IT

ondersteuning/oplossingen aan de business.

Technische (on)mogelijkheden van big data en veiligheidsmaatregelen.

Experts big data (3, EX) Delen van kennis m.b.t. big data

(praktisch en wetenschappelijk).

Algemene kaders big data. Tabel 2 – Overzicht geïnterviewden

8

(12)

Onderzoeksopzet en werkwijze 1.3.2

In deze paragraaf is de onderzoeksopzet in de onderstaande figuur 1 weergegeven, waarna deze verder wordt toegelicht.

Figuur 1: Het proces van het bepalen van de specifieke controls en de bepaling van de rol van de (IT) auditor

Vanuit de eigenschappen van big data, de value drivers en de onderscheidende factoren van big data worden de specifieke risico’s bepaald die voor de beheersing van big data van belang zijn. Daarnaast worden op basis van deze risico’s, de kwaliteitseisen aan big data bepaald. De risico’s en kwaliteitseisen zijn bepaald uit en afgeleid van literatuurstudie en uitkomsten van interviews. Vervolgens wordt een control framework geselecteerd, waarbij de kenmerken van de te overwegen control frameworks worden afgewogen. Als laatste stappen in de literatuurstudie/interviewfase (1) worden de specifieke controls voor de toetsing door een auditor vastgesteld op basis van de risico’s, kwaliteitseisen en het gekozen control framework. Dit is feitelijk het concept control framework en (2) wordt aan de hand van documentatie en richtlijnen van NOREA, de rol van een IT auditor omschreven. In de praktijktoetsing bij de interne auditdiensten van 4 nationale banken (Rabo, ING, SNS en ABN AMRO) zal worden vastgesteld bij welke stappen in het framework de IT auditor toegevoegde waarde kan leveren. Daarnaast zal het concept control framework in opzet worden getoetst op toereikendheid door 4 IT auditors van deze banken. Eventuele aanpassingen zullen in het control framework worden doorgevoerd.

Verschillen met traditionele

data (processen) H.3 Big data Value

Drivers bij banken H.2.3 Kenmerken big data H.2.1 Selectie control

framework Bepaling specifieke controls

Specifieke risico’s en kwaliteitseisen Bepaling rol IT auditor Bepaling betrokkenheid IT auditor Praktijktoetsing Toetsing control framework Eventule aanpassing controls Interviews/ Literatuurstudie

Input voor het proces ter bepaling van het control framework, bestaande uit de volgende

onderdelen:

H.4

H.5

H.6.1 - 6.3 H.6.4 H.7.1 H.7.3

(13)

2 BEGRIPSBEPALING VAN BIG DATA

Om het startpunt van het onderzoek helder te krijgen moet er eerst een beeld worden geschetst van big data. Dit hoofdstuk beschrijft de kenmerken van big data; wat wordt verstaan onder big data? Wat zijn hierbij de kenmerken? Hoe ontstaat big data? Hoe ziet een big data proces eruit? Hoe kan (klant) big data bij banken worden gebruikt? Wat zijn de value drivers?

2.1 Kenmerken van Big Data in het algemeen

Iedereen heeft het over big data, maar wat is het nu eigenlijk? Van big data doen verschillende definities de ronde; er bestaat geen algehele consensus. Wikipedia formuleert big data als volgt: “Men

spreekt van Big Data wanneer men werkt met één of meer datasets die te groot zijn om met reguliere databasemanagementsystemen te onderhouden.” Deze definitie wordt ook omschreven door een van

de respondenten (Chief IT Security Officer)9. Dr. Arvind Sathi zegt in zijn boek Big Data Analytics iets vergelijkbaars: “(..) We have a fair amount of data that, thanks to automation and access, is increasingly

shared.”

Als financiële instelling hanteert Rabobank de volgende definitie: ”Onder ‘big data’ verstaan we de

technologische mogelijkheid om data (gegevensverzamelingen) van voorheen ongekende omvang en complexiteit te verzamelen, te verwerken en te correleren.” Uit bovenstaande omschrijving blijkt dat big

data een proces impliceert in plaats van louter en alleen de data; de definitie heeft het namelijk o.a. over “verzamelen” en “verwerken”. De volgende elementen uit deze omschrijving dienen voor een beter begrip nog wat nadere toelichting: (1) omvang, (2) complexiteit en (3) de mogelijkheid tot correleren

(statische analyse).

(1) Omvang

Al in 2011 voorspelde IDC in Computerworld: “In 2011 alone, 1.8 zettabytes (or 1.8 trillion gigabytes) of

data will be created, the equivalent to every U.S. citizen writing 3 tweets per minute for 26,976 years. (..) And this number is anticipated to grow by a magnitude of 50 times by the year 2020.” De hoeveelheid

gegevens, internet berichten, sociale media berichten, GPS locatie-informatie, aandelentransacties e.d., gegenereerd door individuen, apparaten met een internetverbinding en organisaties groeit exponentieel.10

(2) Complexiteit

Complexiteit verwijst naar de zeer grote variatie in typen data en bronnen. Van zeer gestructureerde

(interne) files tot ongestructureerde video- en audio-informatie. Vandaag de dag bestaat er met name een enorme hoeveelheid ongestructureerde gegevens. Waar data in het verleden vooral zeer gestructureerd leken te zijn omdat het regelmatig terugkerende informatie was in de vorm van verkoopcijfers, financiële gegevens en inventarissen, is de huidige data berg dus veel gevarieerder. (3) De mogelijkheid tot correleren (statistische analyse)

Bij dit laatste element geeft Sathi11 aan dat de meeste big data afkomstig zijn van bronnen die zeer waarschijnlijk niet adequaat beheerst zijn waardoor de waarheidsgetrouwheid van deze data afneemt

9

Zie gespreksverslag IT.1 10

Tijdschrift voor Compliance, oktober 2014 bladzijde 270. 11

Dr. Arvind Sathi is een World Wide Communication Sector architect bij IBM. Hij heeft diverse artikelen over big data geschreven.

(14)

en daarmee ook de bruikbaarheid van deze data. Effectiviteit van de statistische analyse hangt dus af van de “Veracity” (waarheidsgetrouwheid) van de data.

Sathi onderkent de bovenstaande elementen als de volgende 3 “V’s”: Volume (omvang), Variety (complexiteit) en Varacity (waarheidsgetrouwheid). Daarnaast onderkent Sathi nog een vierde “V” namelijk “Velocity” oftewel snelheid.

(4) Snelheid (“Velocity”)

Deze eigenschap omschrijft de veranderingssnelheid van gegevens waardoor de (informatie)waarde potentieel snel zal afnemen. Impliciet betekent het dat een noodzaak ontstaat om snel te reageren zodat de informatiewaarde van big data optimaal zal worden benut. Datamanagement zal daarom vooral een real-time activiteit zijn of worden.

In het kader van deze scriptie wordt voor de kenmerken van big data uitgegaan van deze 4 V’s: Volume, Velocity, Variety en Veracity, hetgeen in de onderstaande figuur wordt weergegeven.

Figuur 2 – Big data eigenschappen

2.2 Ontstaan en bronnen van big data

In deze paragraaf wordt beschreven waar big data vandaan komt. Hiervoor zijn grofweg 2 bronnen te onderkennen: binnen de organisatie (intern) en buiten de organisatie (extern)12.

Interne bronnen

Interne big data valt in principe onder de invloedssfeer van de banken. Banken beschikken door internetbankieren (betalen, beleggen, verzekeren) over grote hoeveelheden data met betrekking tot hun klanten. Sommige data genereren klanten zelf, andere gegevens voegen banken toe aan datasets waarna klantendata worden opgeslagen. In dat kader proberen banken, net als andere ondernemingen, klanten te verleiden om nieuwe big data te creëren. Een voorbeeld hiervan is het stimuleren van het gebruik van de credit card door het toekennen van korting, airmiles e.d. Door het gebruik hiervan zal ook inzicht in bepaalde kenmerken van klanten en hun behoeften worden verkregen. Binnen de organisatie komen daardoor steeds meer data beschikbaar. Naast transactiegegevens van klanten

12

Audit Magazine nr.4 2014, jaargang 13. Big Data analytics: kansen en risico’s. Piet Goeyenbier. Volume

Variety

Velocity Veracity Big _Data

(15)

beschikken banken over e-mails met klanten, mainframe logs, PDF documenten en business proces event data en dergelijke.

Externe bronnen

Buiten de organisatie is de hoeveelheid big data alleen maar groter door het gebruik van o.a. social media. Daarnaast wordt big data in toenemende mate door externe partijen gehost13. Vaak zijn deze data gratis voor een ieder beschikbaar, soms moet voor de beschikbare data een (betaald) abonnement worden afgesloten of zijn data alleen beschikbaar voor bepaalde groepen. Deze data variëren van data beschikbaar op social media sites zoals Twitter tot klantopinies op verschillende sites.

Dat het onderscheid tussen interne en externe bronnen gebruikelijk is, toont de onderstaande figuur aan, waarin IBM op basis van onderzoek aangeeft wat de bronnen van big data zijn.

Figuur 3 – “Where does big data come from?” (Waar komt big data vandaan?)14

2.3 Big data bij banken: de value drivers

Door het toenemende gebruik van internetbankieren waarbij ook verzekerings- en beleggingsproducten kunnen worden afgenomen, heeft de bank steeds meer inzicht in het gedrag van bepaalde groepen klanten (particuliere of zakelijke klanten). Het gros van de dagelijkse diensten van een bank verloopt tegenwoordig digitaal. De vier grote Nederlandse banken (ABN AMRO, ING, Rabobank en SNS) verwerken gezamenlijk inmiddels miljoenen digitale transacties per dag. Gegevens van deze transacties worden opgeslagen in verschillende databases hetgeen een schat aan data (ongestructureerde informatie) oplevert.

13

Zie voor nadere achtergrond paragraaf 3.3 14

(16)

Zo meldt het CBS het volgende al in 2013. Ruim zeven op de tien Nederlanders van 12 jaar of ouder regelden in 2012 hun bankzaken via het internet. Dat zijn 10,2 miljoen personen. Het aandeel dat internetbankiert loopt uiteen van 91 procent bij 25- tot 45-jarigen, tot 17 procent bij 75-plussers.

Internetbankieren, 2012

Figuur 4 – Overzicht gebruik internetbankieren 2012 per leeftijdsgroep (bron: CBS)

Banken structureren deze klantgedragsdata vanwege bepaalde value drivers. Een respondent (Compliance Officer)15 onderkent de volgende 3 value drivers bij big data:

1. Commerciele drivers: voor ontwikkeling van (nieuwe of verbeterde) producten en diensten 2. Klant belang centraal drivers: data analyse voor bijvoorbeeld een passende serviceverlening

3. Monitoring vanwege regelgeving: bijvoorbeeld het monitoren van verdachte transacties op mogelijke witwaspraktijken.

Een andere respondent (CFO van een bank) voegt daar het nog een vierde value driver aan toe: big data voor risk management activiteiten16. De Rabobank17 noemt op haar website de volgende value drivers:

1. de klanten beter te bedienen door ze op maat producten aan te bieden die passen bij hun profiel (klant centraal)

2. beter risico's te managen door een goed inzicht in klantgedrag en risicogedrag

3. het kennisprofiel van de bank te versterken door gegevens te gebruiken op geaggregeerd niveau en zo unieke analyses te maken over de economie.

De value drivers van Rabobank sluiten nagenoeg aan met de onderkende value drivers door de 2 respondenten. Hieronder volgt per value driver een korte verklaring.

15

Zie verslag CO.1 16

Zie verslag FI.1 17

(17)

Commerciële doeleinden en “klantbelang centraal”

Kort samengevat gaat het hierbij om optimalisatie van het advies- en productaanbod en klachtenmanagement. Aan de ene kant is een bank een commerciële instelling en aan de andere kant heeft de kredietcrisis aangetoond dat banken een belangrijke maatschappelijke en economische functie spelen waarbij het klantbelang centraal moet staan.

Doordat iedere klantengroep een bepaald betaalpatroon heeft en specifieke producten en diensten afneemt, kunnen banken passende informatie via internetbankieren aan de klanten verstrekken. Een voorbeeld hierbij is het attenderen op het aanzuiveren van het saldo voorafgaand aan een incasso of het attenderen op bepaalde diensten. Via mediakanalen zoals bijvoorbeeld Twitter, kunnen banken signaleren welke klachten klanten hebben over de dienstverlening, zoals internetbankieren, en daarop inspelen.

Beter risicomanagement en macro-analyses In dit verband kan het volgende worden genoemd:

• Beter management van kredietrisico’s; de mate van voorspelbaarheid van klantgedrag wordt hoger waardoor een bank proactief kan inspelen op problematische schulden en faillissementen;

• Verbetering van het markten liquiditeitsrisico beheer (Asset & Liability management). Hoeveel geld houden klanten aan? Wat gebeurt er met de spaargelden? Lossen mensen hun hypotheek af of wordt meer gespaard gezien economische omstandigheden? Banken zijn hierdoor in staat betaalgedrag van de klanten beter te analyseren, waardoor looptijden van verstrekte leningen en aangetrokken gelden beter op elkaar kunnen worden afgestemd. Bovendien kunnen banken beter inschatten hoeveel geld ze moeten aanhouden om aan hun kortlopende verplichtingen (opname van kasgelden) te voldoen.

Verbeterde monitoring op potentieel illegale praktijken

Onder invloed van cybercrime aanvallen, skimming e.d. alsmede toenemende druk door regelgeving (m.n. op gebied van anti-witwas van geld), hebben banken de afgelopen jaren veel geld geïnvesteerd in monitoring systemen vanwege:

• Fraude preventie; data worden gebruikt om (pas)fraude te ontdekken en te voorkomen. Door bijvoorbeeld locatiegegevens te combineren met transactiedata en pasgebruik kunnen banken skimgedrag op het spoor komen;

• Signalering en voorkoming van mogelijk ongebruikelijke transacties; monitoring systemen die big data kunnen verwerken om transacties te signaleren die mogelijk duiden op witwasactiviteiten in het kader van de Wet ter voorkoming van witwassen en financieren van terrorisme (WWFT);

• Signalering van marktmanipulatie of ongeoorloofd marktgedrag bij het faciliteren van banken bij beleggingstransacties.

2.4 Big data als proces

Bij de selectie van een stappenmodel voor big data als proces zijn er diverse artikelen gepubliceerd. Zo heeft bijvoorbeeld Data Science Central, een online publicist voor big data practici een artikel gepubliceerd dat een onderscheid maakt tussen batch en real time big data processing18. Daarnaast hebben de zogenaamde big four accountantsfirma’s diverse artikelen in dit kader gepubliceerd. Bij de keuze voor de beschrijving van big data als proces hebben de volgende factoren een rol gespeeld:

18

(18)

1. Een model dat voldoende generiek en praktisch is voor big data en qua abstractieniveau aansluit bij het te kiezen framework;

2. De (potentiële) rol van de (IT) auditor kan in dit model eenvoudig worden ingepast, gezien de centrale onderzoeksvraag.

Met name over deze laatste factor is weinig gepubliceerd buiten de diverse audit bladen van o.a. de Internal Audit Association (IIA) en publicaties van de diverse big four accountantsfirma’s. Uiteindelijk bood een publicatie van IIA Nederland19 uitkomst. In dit artikel is uiteengezet dat bij een big data proces of big data analyse de volgende stappen zijn te onderkennen: (1) analyse van de informatiebehoefte; (2) Ontwerp van de mogelijke toepassing; (3) Realisatie van de toepassing; (4) Evaluatie en testen van de gerealiseerde toepassing en (5) Gebruik en beheer van de gerealiseerde toepassing.

Analyse van de informatiebehoefte

Het generieke doel van big data als proces is dat effectieve en efficiënte besluitvorming wordt ondersteund. Om het big data proces doelgericht op te zetten, zal er eerst moeten worden vastgesteld waar de informatiebehoefte ligt.

Ontwerp / realiseren van de mogelijke toepassing

Vervolgens zal men moeten vaststellen uit welke bronnen mogelijk relevante data moeten worden onttrokken voor deze behoefte. Na analyse van de informatiebehoefte zal men een toepassing, een stelsel van processen en systemen, moeten ontwerpen die het mogelijk maakt dat de data worden onttrokken en zo nodig bewerkt om tot zinvolle informatie te komen. PwC20 meldt dat de systemen die het gebruik van big data mogelijk maken vaak niet de bestaande systemen vervangen, maar een aanvulling vormen op analytische applicaties, data warehouses en database systemen voor financiële rapportages, sales management en compliance systemen. Dit wordt geïllustreerd aan de hand van de onderstaande figuur.

Figuur 5 – Big data als proces

19

Gebaseerd op Audit Magazine, 2014 nummer 4, pagina 49. 20

(19)

Vanuit het proces Extract big data insights & findings worden met name ongestructureerde data gecombineerd tot informatie. Daarnaast worden ongestructureerde big data gecombineerd met gestructureerde data en/of met andere bronnen van gestructureerde data naar o.a. voorspellende informatie voor executive management, operations en risk professionals.

Evaluatie en testen van de gerealiseerde toepassing

Na realisatie van de toepassing moeten de uitkomsten van de toepassing worden geëvalueerd. Vraag hierbij is of de uitkomsten van de toepassing bruikbaar zijn voor de besluitvorming.

Gebruik en beheer van de gerealiseerde toepassing

Indien na evaluatie wordt geconcludeerd dat de toepassing bruikbaar is, zal de toepassing in gebruik worden genomen en moeten worden beheerd, hetgeen ook inhoudt dat de toepassing wordt onderhouden.

2.5 Conclusie

In dit hoofdstuk staat de volgende vraag centraal: “Wat is big data?” Wat zijn de kenmerken van big data?

Wikipedia formuleert big data als volgt: “Men spreekt van Big Data wanneer men werkt met één of meer

datasets die te groot zijn om met reguliere databasemanagementsystemen te onderhouden.” Deze

datasets hebben de volgende kenmerken, die bekend staan als de 4 V’s: Volume, Variety, Velocity (snelheid) en Varacity (waarheidsgetrouwheid). “Volume” refereert naar de hoeveelheid data. “Variety” verwijst naar de zeer grote variatie in typen data en bronnen. “Velocity” omschrijft de veranderingssnelheid van gegevens waardoor de (informatie)waarde potentieel snel zal afnemen. Met “Veracity” duidt men aan dat de kwaliteit van de uitkomst afhangt van de waarheidsgetrouwheid van de data.

Hoe ontstaat big data?

Big data ontstaat uit grofweg 2 bronnen: binnen de organisatie (intern) en buiten de organisatie (extern). Interne big data valt in principe onder de invloedssfeer van de banken. Banken beschikken door internetbankieren (betalen, beleggen, verzekeren) over grote hoeveelheden data met betrekking tot hun klanten. Daarnaast beschikken ze over grote hoeveelheden e-mails, mainframe logs, PDF documenten, business proces data en dergelijke. Buiten de organisatie is de hoeveelheid big data alleen maar groter door het gebruik van o.a. social media. Daarnaast wordt big data in toenemende mate door externe partijen gehost.

Hoe kan (klant) big data bij banken worden gebruikt? Wat zijn de onderliggende value drivers?

Voor banken zijn met name de volgende value drivers te onderkennen bij big data:

• Commerciële doeleinden en “klantbelang centraal”;

• Beter risicomanagement (krediet-, markten liquiditeitsrisico’s) en macro-analyses; • Verbeterde monitoring op potentieel illegale praktijken.

Hoe ziet een big data proces eruit?

Bij een big data proces zijn de volgende stappen te onderkennen: (1) analyse van de informatiebehoefte; (2) Ontwerp van de mogelijke toepassing; (3) Realisatie van de toepassing; (4) Evaluatie en testen van de gerealiseerde toepassing en (5) Gebruik en beheer van de gerealiseerde toepassing.

(20)

3 ONDERSCHEIDENDE FACTOREN VAN BIG DATA

Big data is geen juridisch begrip; in de wet is dit begrip niet gedefinieerd. Toch is er de laatste 25 jaar door juristen geschreven over data warehousing, data analytics en behaviour targeting ergo big data processen. Wat zijn de onderkende onderscheidende factoren ten opzichte van traditionele data? In de volgende paragrafen wordt nader op deze verschillen ingegaan.

3.1 Bepaling van de onderscheidende factoren van big data

In paragraaf 1.2.2 is een uitleg geven over specifieke interne beheersmaatregelen; maatregelen die afgestemd zijn op big data. Om deze set van maatregelen te bepalen, is het van belang vast te stellen of de specifieke kenmerken van big data (hoofdstuk 2) nieuwe vormen van risico’s en/of risico’s met een andere intensiteit creëren. Hoe kunnen deze risico’s worden vastgesteld? Wat de invloed is van big data ten opzichte van traditionele data op de banken? Met andere woorden: wat zijn de onderscheidende factoren?

Onderzoeksmethode voor het bepalen van de onderscheidende factoren

Het aantal artikelen over big data groeit, maar het is nog een relatief nieuw begrip. Artikelen en literatuur die specifiek, praktisch en op een modelmatige wijze ingaan op deze onderscheidende factoren zijn niet aangetroffen. In april 2014, publiceerde E&Y echter een artikel: “Big Data changing the way business compete and operate” dat ingaat op de onderscheidende factoren van big data. De uitwerking in dit artikel is als het ware als kapstok gebruikt waarmee het richting heeft gegeven voor verder literatuur onderzoek en interviews voor verdere onderbouwing van deze onderscheidende factoren. In de onderstaande paragrafen 3.2 tot en met 3.5 is dit verder uitgewerkt.

3.2 Grotere noodzaak voor data governance

Uit onderzoek door The Economist in 2011 bleek dat ruim 50% van de organisaties die (big) data op de strategische agenda heeft staan, aangaf een beter financieel jaar te hebben gedraaid dan hun concurrenten21. Dit onderzoek wees uit dat deze organisaties onder andere de volgende kenmerken hebben:

• Visie en strategie zijn in hoge mate gebaseerd op kennis en feiten van de omgeving en de eigen organisatie;

• Strategische doelstellingen die nauw samenhangen met mogelijkheden van (big)data;

• Aan deze doelstellingen zijn specifieke prestatie-indicatoren toegekend en maatregelen gekoppeld om deze prestatie mogelijk te maken;

• Er wordt zwaar geïnvesteerd in alle aspecten van datamanagement, met name in het borgen van accurate, complete en geïntegreerde data;

• Er wordt geselecteerd op de meest geschikte data voor het maken van beslissingen; • De dataprocessen worden gestuurd door een verantwoordelijke op bestuurlijk niveau.

Organisaties die dus het belang van (big) data hebben vertaald naar een adequate data governance, hebben op grond van het bovenstaande een strategisch voordeel. Voor andere organisaties is het noodzaak de achterstand in te lopen en data governance op de agenda te zetten. Een studie eind 2012 van de Massachusetts Institute of Technology22 (MIT) in de Verenigde Staten onder 500 global

21

The Economist, “Big data. Harnessing a game changing asset” September 2011. 22

(21)

executives lijkt de uitkomsten van het onderzoek van de Economist te bevestigen. De MIT studie toonde aan dat het beleggen van data management verantwoordelijkheden in de hoogste bestuurslagen van de onderneming (“C-level”) een hogere financiële performance heeft. Dit betekent dat er op senior management level een rol van Chief Data Officer (CDO) is belegd met ondersteuning van een Chief Data Support Office (CDSO). De CDO is belast met strategische besluitvorming van data. De functie van het CDSO is het opzetten van een goede data governance inclusief data strategie, corporate data infrastructuur, big data analyse e.d.

3.3 Management: besluitvorming

Banken die leren gebruik te maken van big data benutten real time informatie uit diverse bronnen om hun business omgeving op een dieper niveau te begrijpen. Op grond van veranderingen in (gedrags)patronen moeten besluiten worden genomen. Met name snelheid en het waarheidsgehalte van big data hebben hun invloed op de besluitvormingsprocessen, hetgeen in de onderstaande figuur23 wordt weergegeven:

Figuur 6 – Analytics value chain: de invloed van data op besluitvorming

Snelheid van de geldigheid van data en besluitvorming

Door de veranderingssnelheid is de waarde potentieel van tijdelijke aard. In combinatie met het volume is een traditionele, op maximale zekerheid gerichte besluitvorming niet geschikt; tegen de tijd dat de organisatie de informatie heeft die nodig is om een beslissing te nemen, zijn er vaak alweer nieuwe data beschikbaar die de beslissing achterhaald maken. Hierdoor is het belangrijk om snel en frequent te analyseren, te beslissen en ook klaar te zijn om indien nodig actie te ondernemen. Analyses van bijvoorbeeld consumentensentiment, zijn niet ontworpen voor geautomatiseerde beslissingen, maar zijn geschikt voor zogenaamde real-time monitoring. Hierbij moeten organisaties een continue analyse- en besluitvormingsmethode hebben die is gebaseerd op een reeks vermoedens en hypotheses.

23

(22)

media-analyse signaleert trends in klantensentimenten over o.a. producten en diensten. Banken moeten daarom besluitvormingsmodellen wijzigen als bijvoorbeeld datawaarden buiten bepaalde limieten vallen. Dit helpt te bepalen wie de belanghebbenden bij een beslissing zijn, welke besluitvormingsprocessen nodig zijn en met welke criteria en tijdskaders beslissingen moeten worden genomen.

Waarheidsgehalte van big data

Veel critici vinden dat het gebruik van big data wordt overschat en vinden de informatie die hieruit kan worden verrijkt van beperkte waarde. Een van die critici is Nassim Taleb, letterlijk bestempelt hij het gebruik van big data als: “bullshit”. Het analyseren van big data statistieken leidt volgens hem tot compleet verkeerde conclusies; de rol van toeval wordt hierbij onderschat (FD 5 oktober). “Correlatie is bovendien niet gelijk aan causaliteit” stelt Taleb. Peter de Kok van Coney reageert hierop als volgt: “(..)

Het gaat bij Big Data juist niet ‘om stapels willekeurige data te onderzoeken met de hoop patronen te ontdekken’. (..) “Less is more” lees ik in het interview. Precies. En “less is more” moet je ook met Big Data afdwingen. Maar voordat je bij de “more” van “less” bent heb je “big” nodig. Zo simpel is het. In deze wereld waarin reeds “big” data is, ook Nassim kan dit niet ontkennen, en door de terra bytes databomen ‘het bos’ niet meer wordt gezien, zal je op zoek moeten gaan naar die verbanden die het er om doen. Dit moet je niet willekeurig doen, maar vanuit een doel. Ofwel, een kwestie van de juiste onderzoeksvragen stellen(..)”24.

3.4 Data architectuur en resources

Op basis van een recent onderzoek25 noemde McKinsey Global Institute big data te groot (volume), te divers (variety) en te snel (velocity) voor kosteneffectieve opname in de bestaande database architecturen. Dit betekent dat er alternatieve manieren nodig zijn voor de opslag en verwerking van big data26. In het ISACA white paper van augustus 2013 staat hierover: “As data volume, data processing

speed (..) and privacy and security requirements continue to grow, (..) enterprises are being forced to seek new ways to address legal business and operational needs.” Oplossingen kunnen worden

onderscheiden in enerzijds technische oplossingen namelijk de analytical applicaties en cloud computing en virtualisatie en anderzijds in organisatorische oplossingen zoals het zorgen voor voldoende expertise.

Analytical applicaties: vertaling van big data naar informatie

Grote volumes data werden traditioneel niet verzameld en verwerkt vanwege de hoge kosten die hiermee gemoeid waren ten opzichte van de waarde van deze analyses uit gestructureerde en ongestructureerde data. Gestructureerde data zijn data die volgens een vaste procedure en structuur worden verzameld. Hiervoor geldt in de regel dat er ook vaste protocollen gelden zoals format, indeling (dag/maand/jaar) e.d. Het voordeel van deze data, bij transparante definiëring, is dat deze data eenduidig kunnen worden gebruikt voor informatiedoeleinden. Ongestructureerde data zijn data die niet volgens een bepaalde format, structuur beschikbaar zijn. Bovendien is de inhoud van de data veelzijdig; deze omvat oneindig veel onderwerpen. In de volgende de figuur is de ontwikkeling van gestructureerde data ten opzichte van ongestructureerde data weergegeven27:

24 Weblog ITISALLABOUTDATA.COM 25 http://www.mckinsey.com/insights.business_technology/big_data_the_next_frontier_for_innovation, blz 33-36 26

De revolutie van big data pagina 10, Osseyran, Vermeend.

27

Helderheid creëren met Big Data, vint-onderzoeksnotitie 1 van 4 Bloem, Van Doorn, Duivestein, Van Manen en Van Ommeren

(23)

Figuur 7 – Variety componenten van data

Nieuwe technologieën hebben de kosten en de technologie barrières verlaagd voor data processing, waardoor ondernemingen beter in staat zijn om de waarde van big data vanuit verschillende bronnen te ontsluiten. Voor conventionele relationele databases is het lastig om ongestructureerde data te verwerken. Software zoals Hadoop maakt het mogelijk om ongestructureerde data te verwerken.28 Cloud computing en virtualisatie

Een stijgend aantal ondernemingen heeft het besluit genomen om hun data naar de cloud service bedrijven te verplaatsen29 zoals uit de onderstaande figuur blijkt.

Figuur 8 – Statistieken over het gebruik van cloud oplossingen

Door cloud computing is het namelijk mogelijk om capaciteit van opslag en verwerking aan te passen en de kosten hiervan te beperken. Medio 2013 heeft De Nederlandsche Bank Nederlandse financiële instellingen het groene licht gegeven voor het gebruik van de diensten van de Amerikaanse cloud-aanbieder Amazon Web Services. Dit betekent volgens Amazon dat banken en verzekeraars gebruik kunnen maken van cloud computing voor hun websites, mobiele applicaties, bankiersoftware, gegevensopslag, extra rekenkracht en kredietrisico-analyses. In een bericht op haar website wijst DNB wel op de plicht van financiële instellingen om een exitclausule op te nemen in het contract met de cloudleverancier. Ook moet er voorafgaand een risico-analyse worden opgesteld en moet DNB vooraf op de hoogte worden gebracht van de plannen. Naast cloud computing biedt virtualisatie mogelijkheden om capaciteit op te schalen en kosten te beperken voor big data processen. Met virtualisatie bij computers wordt over het algemeen bedoeld dat meerdere besturingssystemen tegelijkertijd op één computer kunnen draaien30. Daarnaast kunnen bijvoorbeeld gegevensnodes en applicaties worden gekloond, waardoor een grotere beschikbaarheid wordt gecreëerd. Een enkele Hadoop image is

28

Big data. Changing the way businesses compete and operate. E&Y April 2014. 29

http://cloudworks.nu/2013/12/09/cloud-wordt-momenteel-nog-te-versnipperd-gebruikt/ 30

(24)

eenvoudig te klonen waardoor de benodigde opslag- en rekencapaciteit naar behoefte kan worden aangepast.

Expertise

Sommige bedrijven huren capabele experts met veel IT kennis in, maar deze kennen de markt onvoldoende. Bovendien stellen ze niet altijd de juiste vragen. Domeinkennis is dus cruciaal. Dat pleit wellicht voor opleiding en training binnen het bedrijf zelf. ISACA zegt hierover: “The technology is

complicated and the skills required to deliver are relatively scarce, which has resulted in project overruns and budget explosions.”

3.5 Operationeel gebruik van big data

Bij het operationeel gebruik van big data zijn de volgende factoren van belang: (1) de verwerking, (2) de veiligheid en (3) de compliance- en reputatierisico’s van big data.

De verwerking van big data

Bij het verwerken van grote hoeveelheden data is het van groot belang dat databases (datavelden, parameters) adequaat zijn ingericht. Opgeslagen data moeten eenduidig zijn en parameters moeten juist zijn afgesteld om uit de grote hoeveelheid data de juiste alerts te bepalen. Een respondent (toezichthouder)31 zegt in een interview in dit verband: “In het dataverwerkingsproces wordt (vaak)

gebruik gemaakt van cleansing technieken, verschillende datavelden worden gekoppeld etc. (..) Zijn deze processen te vertrouwen?” Gestructureerde en ongestructureerde data kunnen wellicht niet in alle

gevallen worden geïntegreerd. Veiligheid van big data

Veiligheid is geïdentificeerd als een grote zorg bij het gebruik van big data. Bij big data processen worden mogelijk sensitieve data verder geïntegreerd. Om dit te kunnen doen, moeten security policies aanwezig zijn om te kunnen bepalen wat wel en niet kan: met wie kan de informatie worden gedeeld en om welke redenen? Onder welke voorwaarden? Welke interne beheersmaatregelen zijn minimaal nodig om ongeautoriseerde inbreuken van binnen en buiten de organisatie op (persoonsgebonden) of kritische data te voorkomen? Hierbij moet een afweging worden gemaakt tussen belangen en doelen. Compliance en reputatie

Van belang in dit kader is dat privacy wetgeving adequaat is geïmplementeerd in de interne policies en procedures en dat naleving wordt vastgesteld door middel van bijvoorbeeld interne audits. In Nederland is privacy wetgeving met name in de Grondwet en de Wet Bescherming Persoonsgegevens verankerd. In de Grondwet wordt gesproken over het waarborgen van eerbiediging van de persoonlijke levenssfeer. Volgens de Wet Bescherming Persoonsgegevens moet een organisatie aan een aantal eisen voldoen voor het verwerken van persoonsgegevens. Zo mag een organisatie bijvoorbeeld persoonsgegevens alleen verzamelen en verwerken als daar een goede reden voor is32. Verder heeft het College Bescherming Persoonsgegevens (CBP) voor financiële instellingen een gedragscode voor het omgaan met persoonsgegevens als uitwerking goedgekeurd. Het voldoen aan de eisen is niet alleen een kwestie is van puur rule based de regels te volgen, blijkt uit de volgende uitspraak van een respondent33 (toezichthouder) over het gebruik van social media: “Voor commerciële doeleinden blijft

het gebruik maatschappelijk gevoelig. Het verzamelen van gegevens over personen zou kunnen leiden

31

Zie Annex 2 interviewverslag TH.1 32

Zie Annex 4, voor een volledige lijst van eisen. 33

(25)

tot discriminatie (positief of negatief). De maatschappelijke discussie over het gebruik van social media is daarom nog steeds niet uitgewoed. (..). Is een bank transparant over de inzet van data?”

3.6 Conclusie

Wat zijn de onderkende onderscheidende factoren ten opzichte van de traditionele data? Grotere noodzaak voor data governance

Organisaties die het belang van (big) data hebben vertaald naar een adequate data governance tonen een hogere financiële performance. Bij deze vertaling hoort het beleggen van data management verantwoordelijkheden op “C-level” bij een Chief Data Officer (CDO) die belast is met strategische besluitvorming van data.

Management: invloed op de besluitvorming

Banken die leren gebruik te maken van big data benutten real time informatie uit diverse bronnen om hun business omgeving op een dieper niveau te begrijpen. Op grond van veranderingen in (gedrags)patronen moeten besluiten worden genomen. Met name snelheid (waarde data van tijdelijke aard) en het waarheidsgehalte hebben invloed op de besluitvormingsprocessen waarbij big data wordt gebruikt.

Data architectuur: technische oplossingen en kennis nodig

Big data is te groot (volume), te divers (variety) en te snel (velocity) voor kosteneffectieve opname in de bestaande database architecturen. Dit betekent dat er alternatieve manieren nodig zijn voor de opslag en verwerking van big data. Oplossingen kunnen worden onderscheiden in enerzijds technische oplossingen zoals analytical applicaties, cloud computing en virtualisatie en anderzijds in organisatorische oplossingen zoals het zorgen voor voldoende expertise. De Nederlandsche Bank heeft Nederlandse financiële instellingen, onder bepaalde voorwaarden, het groene licht gegeven voor het gebruik van de diensten van de Amerikaanse cloud-aanbieder Amazon Web Services.

Operationeel gebruik van big data

Bij het operationeel gebruik van big data zijn de volgende onderscheidende factoren van belang: (1) de verwerking, (2) de veiligheid en (3) de compliance- en reputatie risico’s van big data. Bij het verwerken van grote hoeveelheden data is het van groot belang dat databases (datavelden, parameters) adequaat zijn ingericht. Veiligheid is geïdentificeerd als een grote zorg bij het gebruik van big data als sensitieve data verder worden geïntegreerd. Bij compliance- en reputatierisico’s is het van belang dat privacy regelgeving adequaat is geïmplementeerd in de interne policies en procedures en dat naleving wordt vastgesteld door middel van bijvoorbeeld interne audits. In Nederland is deze privacy regelgeving met name in de Grondwet en de Wet Bescherming Persoonsgegevens verankerd. Hierbij is het niet alleen een kwestie van puur rule based de regels volgen; voor bijvoorbeeld commerciële doeleinden blijft het gebruik maatschappelijk gevoelig.

(26)

4 SPECIFIEKE RISICO’S BIJ BIG DATA

In hoofdstuk 3 zijn de onderscheidende factoren (data governance, besluitvorming, data architectuur en operationeel gebruik) van big data onderkend. Welke specifieke risico’s zijn aan deze onderscheidende factoren verbonden bij het gebruik van big data? In de onderstaande figuur wordt de koppeling tussen onderscheidende factoren (H.3), risico’s (H.4) en kwaliteitseisen (H.5) weergegeven.

Figuur 9 – Vanuit specifieke eigenschappen naar specifieke risico’s en kwaliteitseisen

In de paragrafen 4.1 tot en met 4.5 zijn deze specifieke risico’s benoemd. Voor de bepaling zijn de volgende bronnen gebruikt:

• De uitkomsten van de interviews. Uit de interviewverslagen (annex 4) zijn risico’s geïnventariseerd en per onderscheidende factor samengevat in een tabel. Door uit verschillende invalshoeken34 risico’s van big data te belichten, wordt een zo volledig mogelijk beeld van deze risico’s verkregen. Aan het einde van paragraaf 4.1 zijn deze risico’s kort nader geanalyseerd.

• Literatuurstudie. In het artikel Big data. Changing the way businesses compete and operate, gepubliceerd door E&Y in april 2014 zijn diverse risico’s genoemd. Om de in het artikel genoemde risico’s nader te valideren en te onderbouwen zijn andere artikelen geraadpleegd en zijn uitkomsten van interviews gebruikt. De uitkomsten hiervan zijn in de paragrafen 4.2 tot en met 4.5 vastgelegd. 4.1 Risico’s en aandachtspunten genoemd door respondenten

Aan de hand van de diverse interviews is een inventarisatie gemaakt van de risico’s die door respondenten zijn genoemd. Deze inventarisatie is in de onderstaande tabel per onderscheidende factor weergegeven. De tabel is gebaseerd op annex 4b waarin een meer gedetailleerde tabel opgenomen.

In sommige gevallen zijn door respondenten naast risico’s ook aandachtspunten benoemd. Voor de volledigheid zijn deze aandachtspunten ook in de tabel opgenomen35.

34

Invalshoeken vanuit: toezichthouders, compliance/legal, accountancy/financieel, marketing/strategie, IT en experts big data.

35

In annex 4b is een uitgebreidere tabel opgenomen. • Eigenschappen (H.1)

• Big data value drivers (H.2) •Onderscheidende factoren (H.3) Big data • Risico's o.b.v.interviews (4.1) •Data governance (4.2) • Management: besluitvorming (4.3) • Data architectuur (4.4) • Operationeel gebruik (4.5) Specifieke risico's en overwegingen bij onderscheidende factoren Kwaliteits-eisen (H.5)

(27)

Perspectief: GTAG Toezichthouders Legal/ Compliance Accountancy/ Financieel Marketing & Strategie IT Expert Big Data Data governance Onvoldoende benutten van de mogelijkheden. Onvoldoende koppeling van big data activiteiten aan strategische doelstellingen. Duidelijke data governance noodzakelijk waarin (proces)verant-woordelijkheden taken en bevoegdheden zijn belegd Persoons-gegevens worden niet met een doel verzameld en gebruikt.

Noodzaak tot het inrichten van een adequate governance Transparantie bij gebruik van big data.

Kostenbeheer-sing van big data (financiële risico’s). Silo denken (eigen wiel uitvinden). Niet optimaal gebruik van resources. Kans op inconsistente toetsing. Noodzaak voor het gebruik van corporate rules en inrichting data governance. Mislukken van big data projecten. Data moet centraal worden gemanaged als een asset. Gebrek aan succes bij big data.

Besluit-vorming

Onjuiste aannames, foutieve besluiten. Onjuist gebruik van data. Misbruik uit commerciële overwegingen. Onjuiste besluitvorming Foutieve besluitvorming op basis van onjuist vastgestelde verbanden. Waarheids-getrouw- heid moeilijk vast te stellen. Fouten bij besluitvorming - Data is wellicht niet waarheids-getrouw. Data architectuur Verkeerde setting van parameters binnen applicaties. Cybercrime risico’s - Ringfencen van

big data zodat de toegang beperkt blijft. Onvoldoende kennis om goede informatie uit data te ontsluiten. Data theft, verlies Grotere verwerkings-capaciteit en geheugen nodig; meer verschuiving naar cloud. Beheersings-risico’s Operationeel gebruik Juridische en reputatierisico’s Schending van vertrouwelijkheid (privacy) Juridische risico’s: o.a. het niet juist hanteren van proportionali- teit, subsidiariteit, zorgplicht. Reputatie risico’s. Juridische en reputatierisico’s Schending van vertrouwelijkheid (privacy) Risico van discriminatie. Juridische en reputatie-risico’s Schending van vertrouwelijk-heid (privacy) Privacy en reputatie risico’s. Privacy risico’s waaronder inbreuk op persoonlijke vrijheid. Veiligheids-risico’s (misbruik). Waarde dient terug te vloeien naar klant.

(28)

Nadere analyse op basis van tabel 3

Enkele opvallende zaken die uit analyse van het tabel naar voren komen:

• Juridische (waaronder inbreuk op de privacy) en reputatie risico’s zijn door alle respondenten genoemd.

• Daarnaast wordt foutieve besluitvorming nadrukkelijk als risico’s benoemd (6 respondenten) in een aantal gevallen in combinatie met waarheidsgetrouwheid.

• Ten aanzien van data architectuur worden de meest diverse risico’s en aandachtspunten benoemd waaronder: cybercrime risico’s, ringfencen van data, het missen van voldoende kennis.

• Onder data governance wordt met name het risico genoemd dat big data onvoldoende aan de strategische doelstellingen is gekoppeld. Hierdoor ontstaat mogelijk te weinig focus (prioriteitsstelling) waardoor middelen niet efficient worden gebruikt.

De gedetailleerde verslagen van deze interviews zijn in annex 4a opgenomen. Daarnaast is in annex 4b een uitgebreidere samenvatting van de risico’s per respondent opgenomen.

4.2 Data governance

De kenmerken (4 V’s) van big data kunnen additionele risico’s creëren bij het gebruik van big data als gevolg van een gebrekkige governance die niet dusdanig is ingericht om de kwaliteit van nieuw verkregen big data te waarborgen36. Als gevolg van onvoldoende (data) governance is dat de banken mogelijk niet in staat zijn om:

• de mogelijkheden (value drivers) van big data voldoende te benutten in vergelijking met

concurrenten. Het begint vaak met een onmogelijk big data project waar de organisatie nog niet aan

toe is met verkeerde tools37. Voor big data geldt een langdurig leerproces. Het experimenteren met big data zal eerst op kleine schaal exploratief, in een afgescheiden omgeving kunnen plaatsvinden om de noodzakelijke kennis op te bouwen11 waarbij er langzaam expertise kan worden opgebouwd. • informatie uit big data te ontsluiten door onvoldoende implementatie in de organisatie; door slechte

koppeling met de strategische doelen/uitgangspunten is er onvoldoende samenwerking binnen de organisatie. Banken zullen big data moeten uitwerken in hun strategie. Vanuit deze strategie moeten

policies, procedures en risk assessments voor big data worden uitgerold en geïmplementeerd. Big data projecten moeten niet los van elkaar staan, de hele organisatie moet zich vertrouwd maken met gegevens. Gebeurt dat niet dan krijg je zogenoemde big data silo’s, waarbij afdelingen gegevens niet (willen) delen omdat ze de controle over de gegevens willen behouden. Maar de kracht van big data is juist het ontdekken van dwarsverbanden. Van belang is dat accountability voor data binnen de organisatie duidelijk wordt belegd, eventueel onder sturing van een Chief Data Officer. Op basis van gesprek met een respondent38 is naar voren gekomen dat het goed is om big data expertise op te bouwen vanuit een centraal team, dat vervolgens ondersteuning verleent aan business units. Van belang is hierbij dat:

o Big data expertise zoveel mogelijk onafhankelijk plaatsvindt, zodat (de schijn van) commerciële druk om zonder goede overwegingen datasets te leveren, wordt vermeden39; o Experimenten zowel vooraf als achteraf (bij uitrol naar de business) vanuit verschillende

invalshoeken (juridische zaken, compliance, sustainability, communicatie) worden getoetst.

36

Big data. Changing the way businesses compete and operate. E&Y April 2014. 37

Uitspraak door een van de respondenten (EC.1). Zie ook Annex 4, pagina 67. 38

Referentie MT.2, pagina 67. 39