Coherentie CRISP-DM en beleid - Ontstaan van oogkleppen

Werkelijke klasse

6. Ontstaan van oogkleppen

1.3 Coherentie CRISP-DM en beleid

Om het geheel van het onderzoek te visualiseren, wordt in het volgende deel de overeenstemmingen tussen CRISP-DM en beleid uitvoerig besproken. Het is de bedoeling om op theoretisch vlak aan te tonen op welke manier CRISP-DM een impact kan hebben op beleid en vice versa. Naast het bevragen van de verschillende politiezones, wordt er in hoofdstuk 3 bekeken of deze impact ook mogelijk is in de praktijk.

Als eerste wordt er gekeken naar de overeenstemmingen tussen het CRISP-DM-proces en beleidsproces. Zowel CRISP-DM als beleidsuitvoering bestaan uit een proces van verschillende stappen die elkaar opvolgen. Verder wordt er gekeken naar de afstemming van de confusionmatrix. Tot slot wordt er gekeken naar de uitwisseling van kennis tussen de twee sectoren. Of er coherentie is tussen CRISP-DM en beleidsuitvoering in de praktijk, zal later in het onderzoek aan bod komen.

1.3.1

Overeenstemming van fasen

Zowel CRISP-DM als beleidsuitvoering bestaan beiden uit verschillende fasen, echter met een verschillend verloop. In tegenstelling tot de cyclische beleidsuitvoering, is CRISP-DM een iteratief cyclisch proces. Dit laatste wil zeggen dat in de cyclus ook andere cyclussen vervat kunnen zitten. Zo kan er tussen bepaalde fasen teruggekeerd worden naar vorige fasen. Doch kunnen er gelijkenissen worden opgemerkt wanneer de twee processen naast elkaar worden gelegd.

Ten eerste kan ‘agendasetting’ vergeleken worden met de eerste twee fasen van CRISP-DM, ‘begrijpen van het bedrijfsprobleem’ en ‘beschikbare data’. Bij ‘agendasetting’ wordt het probleem geanalyseerd en ontleed. Eerst wordt er gekeken naar het probleem zelf, vervolgens wordt er aan de hand van verschillende variabelen bepaald of een probleem wordt aangepakt. De verschillende variabelen die aan bod zijn gekomen bij agendasetting waren het soort probleem, the salience, de ernst van het probleem, de barrières, de aandacht rond een probleem en de verschillende stromen. Dit gebeurt over het algemeen ook bij CRISP-DM. Bij CRISP-DM wordt er gekeken of het probleem dat moet opgelost worden, ook wordt begrepen. Vervolgens wordt er bij het begrijpen van de beschikbare data, onderzocht wat er geweten is over het probleem. Er kan dus gesteld worden dat zowel CRISP-DM als beleidsuitvoering in de genoemde fasen drie gelijkenissen hebben: het probleem wordt bestudeerd, de eerste inzichten worden verworven en de data of informatie worden doorgenomen. Door deze overeenstemmingen is het mogelijk om technieken, modellen of theorieën van elkaar over te nemen opdat een probleem duidelijk wordt omschreven alsook wordt begrepen.

Ten tweede wordt er bij ‘beleidsbepaling’ op dezelfde manier gekeken naar het probleem zoals bij ‘begrijpen van data’. Enerzijds wordt er bij ‘begrijpen van data’ gekeken hoe data verzameld en verwerkt kan worden. Anderzijds wordt er bij ‘beleidsbepaling’ gekeken hoeveel men willen investeren in een bepaalde oplossing. In beide fasen wordt er gekeken wat de bereidheid is om te investeren in een bepaalde oplossing of data. Het is mogelijk om de manieren van overeenstemming rond een probleem die gehanteerd worden bij beleidsuitvoering, over te nemen bij CRISP-DM. Op deze manier kan er efficiënter en democratischer gewerkt worden. Omgekeerd kan bij beleidsuitvoering een technische beoordeling van de beschikbare informatie worden gehanteerd. Dit door gebruik te maken van de verschillende tools. Zo kan er overzichtelijker en doeltreffender gewerkt worden.

Ten derde kan er gesteld worden dat ‘bepalen van een beleidsformulering’ kan bijdragen aan ‘modelleren van data’. Bij deze fase van beleidsuitvoering, wordt er gekeken naar het verleden om een oplossing die passend is voor de toekomst te vinden. Er wordt gekeken of oude beleidsopties kunnen bijdrage aan het huidige probleem. Dit kan ook toegepast worden bij het modelleren van data. Doordat bij deze fase van CRISP-DM een juiste techniek gevonden en toegepast moet worden, kan het kader van de soorten formulering helpen om de juiste techniek te vinden. Tijdens het zoeken naar de juiste techniek om de data te modelleren, kan

er eerst worden gekeken naar reeds gebruikte modellen. Er kan geopteerd worden voor een routinetechniek of een analoge techniek. Op deze manier is het mogelijk om sneller de juiste techniek te vinden zodat er sneller een testdesign kan worden opgebouwd.

Ten vierde wordt er in beide processen een evaluatie gedaan over het proces en de uitkomst. Ook hier is het mogelijk dat beide processen technieken overnemen of gedeeltelijk toepassen met het oog op het verbeteren van beide evaluatieprocessen. Zo kunnen er bij CRISP-DM meerdere momenten en focuspunten worden ingelast. Bij beleidsuitvoering daarentegen, kan de evaluatie kwantitatiever worden beoordeeld dankzij de technieken van CRISP-DM.

Tot slot, kan er worden opgemerkt dat bij beiden het proces niet ophoudt na de evaluatie. De processen zetten beiden in op het optimaliseren van hun proces. Bij het CRISP-DM proces wordt er nog aandacht besteed aan het uitrollen van het model, evenals bij beleidsuitvoering waar er een terugkoppeling gedaan wordt naar het begin van het proces. Het is voor ieder proces de bedoeling om het proces zo bij te sturen dat het mee evolueert in de tijd. Op deze manier kan het proces blijven functioneren als herbruikbaar tool.

Door al deze gelijkenissen te bekijken, kan er gesteld worden dat de twee modellen meerdere overlappingen hebben. Dit toont niet alleen aan dat de twee processen gelijkaardige fasen hanteren maar ook en vooral dat het mogelijk is dat de twee processen van elkaar leren.

1.3.2

Afstemming confusionmatrix

De confusionmatrix werd al eerder aangehaald in hoofdstuk 1.1.5 predictive policing. Zoals aangetoond, kunnen er ook foute voorspellingen gemaakt worden. Het rekening houden met deze fouten, heeft invloed op de beslissingen die gemaakt worden. De twee soorten foute voorspellingen, false positive en false negative, kennen beiden andere gevolgen (Witten et al., 2011). Bij een false positive wordt er gekozen om op te treden bij een bepaald gevaar, dat er eigenlijk niet is. Bij een false negative zegt de voorspelling dat het negatief wordt voorspeld maar dat het eigenlijk positief was. Dit wil zeggen dat de resultaten zullen zeggen dat er geen gevaar is, terwijl er wel een gevaar is.

Wanneer er wordt opgetreden bij een false positive, zullen er veel middelen verloren gaan. Echter zal er bij een false negative een probleem dat aangepakt moet worden, niet worden aangepakt. Het hanteren van een foute voorspelling kan zware gevolgen hebben, daarom moet er steeds rekening worden gehouden met de confusionmatrix. Dit gebeurt consequent bij machine learning, maar kan ook gehanteerd worden bij beleidsuitvoering. Bij

beleidsuitvoering kan de confusionmatrix worden ingevoerd met als doel te beslissen om een probleem al dan niet aan te pakken of om te oordelen welke oplossing gehanteerd wordt. Door een confusionmatrix te implementeren bij de beleidsuitvoering, kan er gekozen worden voor de veiligste en meest afgewogen maatregel. Wel moet er rekening gehouden worden met de verschillende waarden die bij beleidsuitvoering komen kijken. Zo speelt de publieke opinie, of het verschil van de politieke partijen aan de macht, een rol bij het opstellen van beleid.

1.3.3

Kennis uitwisseling

Over het algemeen wordt er nog te veel in silo’s gewerkt. Hiermee wordt bedoeld dat iedere dienst enkel met zichzelf samenwerkt (het principe van “ieder voor zich”). Dit fenomeen komt zowel in de private als de publieke sector voor. Het probleem bij de private sector is dat politiezones gebruik maken van private bedrijven om hun systemen en software op punt te stellen. Dit is bijvoorbeeld het geval bij politiezones VLAS (Kortrijk), Turnhout en Antwerpen. Doordat een bedrijf zijn bevindingen op het vlak van hun software en systemen niet zal delen met andere, zal niet elke politiezone even ver staan in het ontwikkelen van hun systemen en software.

Ook binnen de publieke sector wordt er te weinig contact gelegd tussen de verschillende politiezones. De zones delen hun bevindingen of hun methoden niet onderling. Dit kan worden opgemerkt doordat de zones die aangehaald worden in dit onderzoek op een verschillende manier werken. Indien de zones meer kennis uitwisselen, zouden meerdere gemeenten informatiegestuurd werken. Verder zouden de gemeenten die voorop staan met deze technologie zich meer ontwikkeld hebben. Desondanks proberen de zones vandaag de dag steeds meer en meer in te zetten op informatiegestuurd werken door middel van informatiegestuurde politiezorg. Tot slot moet er ook een optimale kennisuitwisseling komen tussen politiezones en het gemeentebestuur.

Over het algemeen wordt in beide modellen kennis uitgewisseld in diverse fasen. Zo zal bij het uitrollen van het CRISP-DM model, de bevindingen worden gecommuniceerd bij het opstellen van het rapport. Maar dit gebeurt pas op het einde van het proces. Daartegenover kan er bij het zoeken naar een beleidsoplossing de kennis van experten bevraagd worden. Echter wordt dit in het model niet aangehaald als een vaste procedure bij de beleidsuitvoering. Bij beide modellen is er geen voortdurend proces om kennis uit te wisselen met diensten of andere organisaties. Het implementeren van een fasen voor de kennisuitwisseling zou beide processen kunnen bevorderen. Met deze fase zal er sprake van meer kennis-gebaseerd beleid of model, wat zorgt voor meer efficiënter, doelgericht te werken. Maar het belangrijkste is dat kennis uitwisselen leidt tot meer samenwerken tussen verschillende entiteiten. `

2 METHODOLOGIE

Dit onderzoek is gebaseerd op twee kwalitatieve methodes: een literatuurstudie en casestudie. Er wordt gekozen voor een kwalitatief onderzoek om verschillende redenen. Ten eerste helpt kwalitatief onderzoek om een proces te beschrijven, in dit onderzoek wordt het proces van CRISP-DM volledig onderzocht en beschreven. Ten tweede zorgt het om de mening van anderen te begrijpen over hun situatie, setting of event. Op verschillende wijze datadriven werken kan worden aangepakt. Dankzij kwalitatief onderzoek kan er meer context worden gegeven aan een bepaald project. Dit wordt ook ontwikkeld door gedetailleerde beschrijvingen, wat een vierde reden is om kwalitatief onderzoek te hanteren (Luton, 2015).

2.1 Literatuurstudie

In het voorafgaand deel wordt er gebruik gemaakt van de eerste kwalitatieve onderzoeksmethode, namelijk de literatuurstudie. Een exhaustieve literatuurstudie is essentieel omdat dit de basis vormt voor het onderzoek. Het neemt het theoretische aspect van het onderwerp grondig onder de loep. Het expliceert de verschillende concepten die gehanteerd worden en geeft een fundamenteel inzicht over het thema. Uit deze literatuurstudie volgt ook het empirisch onderzoek.

Om deze literatuurstudie op te stellen werd er gebruik gemaakt van wetenschappelijke databanken en de UGent bibliotheek. Deze bevatten een enorme catalogus van artikels, rapporten, onderzoeken en handboeken. Daarbovenop werd ook Google Scholar en Google Books gehanteerd, deze stellen ook veel data ter beschikking. Doorheen de literatuurstudie werd er zowel gebruik gemaakt van Nederlandstalige als Engelstalige publicaties. Deze databanken werden doorgenomen door gebruik te maken van verschillende trefwoorden: CRISP-DM, informatiegestuurd, datadriven, beleid, beleidsproces, beleidsuitvoering, datamining, big data, misdaadbestrijding, predictive policing, machine learning, data value en confusion matrix. Verder werden ook de verschillende sites van de politiezones doorgenomen.

2.2 Casestudie

De tweede methode die gehanteerd wordt in dit onderzoek, is een casestudie. Bij een casestudie wordt een verschijnsel bestudeerd in zijn natuurlijke context, in dit geval verschillende politiezones. Een casestudie gaat uit van een bepaalde case en problematiseert het niet. Het is een waarneembare methode. Het doel is theoretische relevantie van de case te duiden voor het onderzoek (Mortelmans, 2006). Vooraleer er aan de casestudies wordt

begonnen, is het belangrijk dat de volledige literatuurstudie is opgemaakt en de onderzoekvraag vaststaat. Een casestudie is een lineair proces maar sommige stappen worden herhaald waardoor het ook iteratief is (Yin, 2013). Om data te verzamelen voor de casestudie, wordt er gebruik gemaakt van diepte-interviews.

2.2.1

Caseselectie

Voor deze casestudie is er gekozen om meerdere cases te bevragen. Door verschillende cases op te nemen in het onderzoek, wordt de zienswijze van het te onderzoeken veld verbreedt. Verder geeft het onderzoeken van diverse cases ook de mogelijkheid om de data van de verschillende cases met elkaar te vergelijken (King & Horrocks, 2010).

Selectiecriteria

Bij het selecteren van de cases voor het onderzoek, is er rekening gehouden met zes verschillende criteria. Deze criteria zijn de volgende:

Soort organisatie

Vermits het onderzoek over misdaadbestrijding gaat, werd de link met politiezones snel gelegd. Echter zijn er ook bedrijven die zich bezighouden met dataverwerking. Aangezien in het onderzoek ook de impact op beleidsuitvoering wordt onderzocht, is er gekozen om enkel politiezones te onderzoeken. Zo kan de link naar de beleidsimpact duidelijker bestudeerd worden.

Grootte gemeenten van de organisatie

Doordat een zone datagedreven moet werken, moeten ze al een uitgewerkt systeem hebben. Daarom werd er in eerste instantie gezocht naar zones die zich in grote steden bevonden. Voor het selecteren van de gemeenten werd zich gefocust op de clusterverdeling van gemeenten van Belfius. Voor dit onderzoek wordt er gekeken naar de cluster V15, grote en regionale steden. De cluster V15 scoort het beste op zes dimensies waarmee rekening is gehouden; de centrumfunctie, de levenstandaard, landelijk/stedelijk, economische activiteit, verjonging/vergrijzing en de bevolking. Desondanks de gelijkaardige basiskenmerken, verschillen de gemeenten per cluster. De steden die behoren tot deze lijst zijn Antwerpen, Mechelen, Turnhout, Leuven, Brugge, Kortrijk, Oostende, Roeselare, Aalst, Gent, Sint- Niklaas, Genk en Hasselt (Belfius, 2018).

Bekendheid omtrent informatiegedreven werken

Vooraleer politiezones werden gecontacteerd, werd er eerst gezocht of deze reeds ervaring hebben met datadriven misdaadbestrijding. Wanneer artikels of bepaalde projecten waar een gemeente rond werkt gevonden werden, kon er gerichter contact worden gezocht. De

gemeentes en zones die al in het nieuws waren gekomen, waren bereid sneller toe te zeggen om mee te werken aan het onderzoek.

Ligging organisatie

Aangezien er diepte-interviews worden afgenomen met de genoemde zones, is het belangrijk om locaties te selecteren die bereikbaar zijn. Oorspronkelijk was het de bedoeling om geen virtuele interviews te doen. Op deze manier is het gesprek veel persoonlijker en is het makkelijker om ergens dieper op in te gaan of om de lichaamstaal van de geïnterviewde beter te lezen.

Aantal organisaties

Aan de start van het onderzoek zijn er verschillende gemeenten gecontacteerd in Vlaanderen die mogelijks bezig waren met het werken op basis van data. Verschillende gemeenten gaven aan niet te willen meewerken terwijl andere niet over de juiste capaciteiten en inhoudelijke relevantie te beschikken. In het kader van dit onderzoek en door gebrek aan tijd en middelen, werd er gekozen om de vier politiezones te selecteren die aangaven te willen meewerken. Inhoudelijke relevantie

Het laatste criterium voor het selecteren van de cases is de inhoud van de cases die de politiezones kunnen aanbieden. Het is belangrijk dat de politiezones die geïnterviewd worden, kunnen bijdragen aan het onderwerp. Datadriven misdaadbestrijding is een relatief nieuw gegeven waar niet elke zone mee bezig is. Daarom is het een belangrijk criterium om goed af te wegen of het inhoudelijk interessant is om een bepaalde organisatie te selecteren. Echter is het niet voldoende om een zone te selecteren die wilt meewerken, er moet een specifieke dienst worden geselecteerd die zich bezighoudt met datadriven misdaad bestrijding en die ook wil meewerken aan het onderzoek.

2.2.2

Dataverzameling

In dit onderzoek wordt de data verzameld door een diepte-interview te doen bij de geselecteerde cases. Een interview is een gespreksvorm waarin een persoon – de interviewer – zich bepaalt tot het stellen van vragen over gedragingen, opvattingen, houdingen en ervaringen ter aanleiding van bepaalde sociale verschijnselen aan een of meerdere anderen – de participanten of geïnterviewden – die zich voornamelijk beperken tot het geven van antwoorden op die vragen (Boeije, 2008).

Voor bijkomende data te verzamelen is het de bedoeling om documenten op te vragen van de betreffende projecten. Echter, zijn er weinig tot geen documenten ter beschikking die gehanteerd kunnen worden in het onderzoek om bij te dragen aan extra data.

De vragen van het interview worden op voorhand nauwkeurig en afgewogen opgesteld zodat de antwoorden van de geïnterviewde aan het onderzoek kunnen bijdragen. Het is de bedoeling om in een bepaalde richting te sturen in functie van dit onderzoek. Echter heeft de geïnterviewde wel de kans om een open en uitgebreid antwoord te geven zodat er dieper op ingegaan kan worden. Verder biedt dit type ook de kans om tijdens het interview bijvragen te stellen en dieper op de antwoorden in te gaan. Deze bijvragen kunnen er ook voor zorgen dat er niet te veel van het onderzoeksveld wordt afgeweken. Het is de bedoeling om een interactief interview te hebben, zodat de “wat” en de “hoe” voldoende besproken kunnen worden (Silverman, 1997).

In eerste instantie was het de bedoeling om de interviews persoonlijk af te nemen. Door het corona-virus werd er echter, geopteerd voor telefonische interviews, behalve voor de politiezone Sint-Niklaas. Dit om de veiligheid en de gezondheid van interviewer en de geïnterviewde te verzekeren.

Vragenlijst

Voor de verschillende cases werd steeds dezelfde vragenlijst gehanteerd. De vragenlijst, zoals in bijlage 1, werd opgesteld aan de hand van de literatuurstudie. De volgorde van de vragen zal dezelfde volgorde zijn dan de fasen van het CRISP-DM-proces. De subvraag zal als laatste aan bod komen in het interview. Het interview zelf zal gebeuren telkens met een betrokkene van de politiezone.

Deze vragenlijst werd op voorhand al meegedeeld met de geïnterviewden en er werd ook gevraagd naar reeds beschikbare informatie over het project. Hierdoor is zowel de geïnterviewde als de interviewer optimaal voorbereid. De vragenlijst wordt toegelicht, zodat de geïnterviewde een duidelijk en compleet beeld krijgt van het doel van het interview.

De vragenlijst werd opgesteld volgens de beschrijvende kenmerken van vragen volgens Luton (2015), deze zijn ook grotendeels gebaseerd op Berg (2004). De vragenlijst werd zo opgesteld dat deze ook aanmoedigde tot participatie van de geïnterviewden. Het waren niet enkel vragen waar een standaardantwoord op gegeven kon worden, maar waar de geïnterviewden zelf dieper in kon gaan op een bepaald aspect van het project. Door de extra bijlage toe te voegen, kregen de vragen meer betekenis en een context voor de geïnterviewden. De vragenlijst bevat hoofdvragen die eenvoudig zijn opgesteld om vervolgens stap voor stap in

detail op in te gaan. De woordenschat die gehanteerd wordt in de vragenlijst is eenvoudig maar professioneel opgesteld. Het is de bedoeling dat de geïnterviewde een duidelijk beeld heeft over wat er gevraagd wordt zonder onnodig moeilijke woorden te hanteren.

In document Datadriven misdaadbestrijding (pagina 47-56)