V a
SW raa vB
Pi in
4im
I
^
I
ili
■r
rii
i\m l
«|yaXEJiS at
a^5
M Ll
J
It
rS^
IjtP •ll
’■Jr
[»] ti ■j
G
■7 f n
fc^lT
M
y fViy hfCKOT_Tijdreizen
Versies van
de documentatie
Versie nummer Datum Initialen
Belangrijkste wijziging
0 01 28 11 2013 Initieel document
Nieuwe maand
toegevoegd
2014 010 02 10 02 2014
1 0 20 12 2015
Wijziging
nav overzetten naarAWSenbevriezen
toeslagjaar
201310 2e
Stappenplan toegevoegd
1 1 10 02 2016
1 2 30 11 2018 Nieuweopzet 2013apart
Pagina
2 8KOTTijdreizen
1075440 00024
1 INHOUDSOPGAVE
1Inhoudsopgave
2
Doel
3
Beschrijving project
3 1 Bron
data
3 2
Flows
3 3
Beschrijving Halfproduct
3 3 1 Autoexec 3 3 2 A
Initialize
3 3 3 B
Steekproef
cases 20133 3 4 C Create Testcases mm YY 3 3 5 Z
Append
cases4
Update
KOTTijdreizen
5
Stappenplan
5 1 1
Programma tijdreizen
5 1 2
Input data toevoegen
6 Nieuwe
opzet
7 Resultaten per
tijdreizen
7 1
November
20183 4 5 5 5 6 6 6 6 6 7 7 8 8 9 9 10 10
2 Doel
Doel van
tijdreizen
is testcases voorzien van de informatie zoals deze op het momentvanbeoordeling
alsgoed
of tout actueel wasDit heefttevens tot
gevolg
dat als er nieuwe indicatoren wordentoegevoegd
aan het model deze ook metterugwerkende
kracht vooralletrainingscases toegevoegd
moeten kunnen worden3 Beschrijving
project3 1 Bron data
Er is
generieke
brondata en brondata per risicoselectierunGeneriek is hetSAS bestand
Trainingscases_KOT
datvoIgt
uit hetSASproject
Trainingscases Q \VEPROW63\TSL_DM_Handhavingsregie\Profiling 2013\Trainingscases
Daarnaast is er perrisicoselectierun die in het verleden is
uitgevoerd
een tabel metalle indicatoren vereist Dit is de tabel KOT_Score Let op de tabelExport_Temp3
kan ook die bevat dezelfde indicatoren endaar boven op een aantal andere variabelen die uit de risicoselectierunvolgen
maar nietgebruikt
wordentijdens
hettijdreizen
Voor KOT is
zijn
na 2015 2 nieuwe indicatorentoegevoegd namelijk
of iemandbijstand
heeft en zoja
het bedragDe
bijstandsgegevens zijn afkomstig
uit hetHalfproduct
FLG het resultaat hiervan wordtgekopieerd
naar dit bestand wordt perjaar opnieuw gedraaid
3 2 Flows
Het SAS
project
wordt metingang
van december2015uitgevoerd
op deAWSomgeving AD010\data\RisicoSelectie\Tijdreizen\KOT\SAS\KOT_Tijdreizen
Het
project
bestaat uit meerdere process flows Autoexectoewijzen
van libnamesA Initialize Initialisatie van
scripts
eninput Trainingscases_KOT
B
Steekproef
cases 2013 trekken vansteekproef
uit bestand 2013C H Create Testcases 2014 2019 hettoevoegen van details vanuiteen historische risicoselectierun die
uitgevoerd
isvlakvoorde datum waaropdecasealstrainingscase
beoordeeld isZ
Append
voeg alle testcases samen in 1 tabelIn december 2015 is besloten om de
trainingscases
voortoeslagjaar
2013 te bevriezen De process flows die ditregelden
warenomvangrijk
en erwerdennauwelijks
meer nieuwetrainingscases
voor dittoeslagjaar toegevoegd
De
bevriezing
houdt in dat hettijdreizen
voor dezetoeslagjaren eenmalig
isgerund
zie aparte documentatieKOT_Tijdreizen_2013
voor eentoelichting
op deze process flows waarna het bestand metcases inclusief alle indicatorenopgeslagen
is Dit bestand wordt aan degehele
set mettrainingscases toegevoegd
inde processflowZAppend
Deimplicatie
is datgeen nieuwetrainingscases
voor2013 meertoegevoegd
kunnen worden Omdat heteenomvangrijk
en nietrepresentatief
bestand is wordteensteekproef
van 2013aan het totaaltoegevoegd
zie par 3 3 3Met
ingang
van maart2019zijn
de cases van 2014 en 2015 bevroren ook hieraan kunnengeen nieuwe casestoegevoegd
worden wat te doen metfraudecasesPagina
4 8KOTTijdreizen
1075440 00024
3 3 Beschrijving Halfproduct
3 3 1
Deze process flow wordt
gebruikt
voor het aanmaken omVerschillende libraries aan te maken 1
generieke
en 1 permaandDe
generieke
brondata BSN s van alle testcases in telezen]
Autoexec
3 3 2
In het
script A02_SetMonth
vindt debepaling
van de meesthistorische data per testcaseplaats
Hiervoor wordteerst per testcase
bepaald
watde datum vanbeoordeling
was op basis van de diverse beschikbare datumkolommenA Initialize
Vervolgens
worden aan detestcases allebeschikkingen
uit de risicoselectierunsgelijk
ofvoorde beoordeeldatumgekoppeld Principe
hierachter is dat debeoordeling
vande BSNwaarschijnlijk plaatsvindt
naaraanleiding
van eenconceptbeschikking
en dat dieconceptbeschikking
terug te vinden zou moetenzijn
in de run die op ofvoor die datumplaats
heeftgevonden
Als de BSN in meerdere risicoselectierunsterugkomt
wordt alleen de laatste mutatie behoudenDus
bijvoorbeeld
BSN is beoordeeld op 2 augustus2016
Erzijn
gescoorde
mutaties beschikbaarvoor31 mei 2augustus en 30September
2015De testcase wordttoegewezen aan maand augustus 2016
En een tweede voorbeeld
BSN is beoordeeld op 20 decern ber2016
Er
zijn gescoorde
mutaties beschikbaarvoor2 augustus 30September
en 13 december2016
De testcase wordttoegewezen aan maand december2016
3 3 3
In deze process flow wordt het
steekproefbestand
voor2013aangemaakt
Het programma is in deze process flowopgenomen zodat hetmogelijk
isom een anderesteekproef
tetrekken indien datwenselijk
is Het resultaatvan desteekproef
staatin de mapResults
KOT_training_2013_selectie
B Steekproef cases 2013
3 3 4
Per
jaar
iser momenteel 1 processflow Brondataspecifiek
voordeze flowC Create Testcases 2014
KOT_score_yyyymm Output
van het model zoalsgedraaid tijdens
eenrisicoselectierun
bijvoorbeeld januari
2014overtoeslagjaar
2014 Deze flows kennen 2 stappen
1 selecteerin tabel metalle
trainingscases
de cases die beoordeeldzijn
op hetmomentvande betreffende risicoselectierun run en
gebruik
hiervoor alle indicatoren beschikbaar in de KOT score tabel voor die risicoselectierun2
Voeg
toeofaanvragers eenbijstandsuitkering
hebben enkoppel
dataan het bestand Deze indicatoris latertoegevoegd
vandaar dat hettoevoegenvan dezegegevens in een apart programma gaatPagina
6 8KOTTijdreizen
1075440 00024
3 3 5
ZOl In deze flow worden alle testcases zoals
samengesteld
in devoorgaande
flowssamengevoegd
toteen tabel
KOT_TRAININGSCASES_yyyytntndd
Alleen velden dienodig zijn
om te nnodelleren inEnterprise
Minerworden meegenomen de restwordtgedropt
Bovendien wordteen laatste filtergezetop de casesdie
uiteindelijk
alstrainingscase
naarEnterprise
Miner gaanHet bestand met
trainingscases
uit 2013 zie hierboven wordtvervolgens afzonderlijk toegevoegd Vervolgens
wordteensteekproef getrokken
op het hele bestand omdat het bestandonevenwichtig
is
opgebouwd
voor wat betreft herkomst voor eenbeschrijving
van herkomsf zie dedocumentatie van
Trainingscases
We hebbengeexperimenteerd
metde SASEnetrprise
Minerenop basis daarvan
gekozen
voor eensteekproef
van4 000 posten opde DTCheck van 2017 dit betreft alleen
goede
posten 1 000 posten uit GreenLane 2015 dit betreft alleengoede
posten 1 000 posten uit GreenLane 2016 dit betreft alleengoede
posten 4 000goede
posten uit het bestand van eerdergecontroleerde
posten 4 000foute posten uit het bestand van eerdergecontroleerde
postenHet programme is
zodanig
opgezet dat desteekproef eenvoudig
aangepast kan wordenZ02 check op alle numerieke velden of missende waarden voorkomen Dezeoutputwordt verder niet
gebruikt
is bedoeld voor controledoeleindenZ Append cases
4 Update KOT Tijdreizen
Het
project
is per risicoselectierun opgezet Dat betekent dat1 Erdiverse
scripts zijn
waarin hard coded de betreffende maanden aangeroepen worden 2 Er 1 process flow perrisicoselectierun is waarin de relevantetestcasesgeselecteerd
wordenen de indicatoren vanuitdie risicoselectierun
toegevoegd
worden aan de cases die vlak na die risicoselectierunzijn
beoordeeldBij
hettoevoegen van een nieuwe risicoselectierun moetdus1 Nieuwe bron data die relevant is voor deze risicoselectierun ontsloten worden De
KOT_Score tabel uitde betreffende risicoselectierun wordt
tijdens
het maken van de back-up van de desbtereffende risicoselectierun in de
KOT_Tijdreizen
folderop deAWSomgeving
gezet2 Een tab
ingevoegd
worden waarin testcases voorde betreffende risicoselectierungeselecteerd
en indiennodig aangevuld
worden3 Diverse
algemene scripts
aangepastworden zodat ook de nieuwerisicoselectierunmeeloopt
Het gaatomAutoexec AOl nieuwe
library
A02 nieuwe risicoselectierun hardcoded toevoegen aanstap 3 2x
ZOl finaal testcases bestandvoor de nieuwe risicoselectierun toevoegen aan set statement in stap 1
4
Bepaald
worden welke indicatoren nog niet beschikbaarzijn
en indien vantoepassing
hoe dezeop basis van detijdens
de run voordie risicoselectierungebruikte
gegevenstoegevoegd
kunnen worden Dit komt momenteel nietvoor5 Stappenplan
In dit deel staan kort de verschillende stappen die ondernomen moeten worden
bij
het aanvullenvan het
tijdreizen
In hetstappenplan
moetdeinput
data wordenaangevuld
en het programme moetworden aangepast5 1 1 Programma tijdreizen
[AWS
files AD10 data RisicoSelectietijdreizen kot_training
SASKOT_tijdreizen epg]
1 In process flow AOInitialize in progrannma AOl_SetParameters onderaan een libname toevoegen metde nieuwe run Voorbeeld LIBNAME LIB0316 PATH
Input
20162 Zelfde process flowin programme A02_Set month de libnames toevoegen en onderaan de nieuwe risicoselectie run met betreffende datum en het
jaar
waarop de runbetrekking
heefttoevoegen Voorbeeld LIB0316 KOT_score_201603 IN IN032016 KEEP BSNEn IFIN032016THEN DO runnr 201603
Toeslagjaar
2016Rundatum
INPUTC
29 01 2016’ddmmyylO }
END
3
Vervolgens
wordterinde process flowvan hethuidige jaar
een nieuwstukje
aan hetprogramme
geplakt
waarin nieuwe runs wordentoegevoegd
Voorbeeld van eenprogramme PROC
SQL
CREATE TABLE LIB0316
KOT_training_201603_Final
ASSELECT A B
Type
B
Datum_beoordeeld
B Rundatum B FIerkomst
FROM LIB0316KOT_score_201603 AS A
INNER JOIN KOTTrain
Trainlngscases_KOT_FINAL
AS BWHERE B runnr 201603
QUIT
4 In deProcess Flow ZZ
Append
wordttot slotIn het programmeZ01_append
de libname ooktoegevoegd
voorbeeld LIB0316 KOT_TRAINING_201603_FINAL5 1 2
Vervolgens
moet de data van elke risicoselectie run wordentoegevoegd
in AWS files AD10 data RlsicoSelectietijdreizen kot_training Input
betreffendeja
a r kot_score_j
aar’YunnrMet
ingang
van 2017gebeurt
dit automatischtijdens
het maken van de back up van de risicoselectieInputdata toevoegen
6 Nieuwe opzet
Met
ingang
vanapril
2019zijn
ook dejaren
2014 en 2015 bevroren Deze bestandenzijn opgeslagen
in xxxx enworden rechtstreeks in deappend
casestoegevoegd
Als hetproces is
afgerond
het programme en de datasetsopslaan
op de qschijf Q \VEPROW63\TSL_DM_Handhavingsregie\Profiling 2013\Trainingscases\Backup
Het
project
in de map sas_epg en de bestanden in de map bestanden Telkensopslaan
met bestandsnaam lilimmddPagina
8 8KOTTijdreizen
1075440 00024
7 Resultaten per tijdreizen
Vanaf maart2019wordt per keen datwe
tijdreizen
draaien een overzichttoegevoegd
van het totale bestand en desteekproef
naartype herkomstentoeslagjaar
7 1 Maart 2019
Totaal
Steekproef
goed
fout totaalgoed
fout totaalHerkomst
Toeslagjaar
DTCheck 2017 12 567 0 12 567 4 000 0 4 000
Excel 2013
2014 2015
1 500 1 938 3 438 1 481
1 500 1 938 622 859
15 61
3 438 1 481
622 859
15 61 76 76
totaal 2 137 2 858 4 995 2 137 2 858 4 995
Fraudeteams 2013 2014 2015 2016 2017 2018 2019
0 562 562 0 562
0 657 0 262 0 263 0 167
0 99
562
0 657 657 657
0 262 262 262
0 263 263 263
0 167 167 167
0 99 99 99
0 4 4 0 4 4
totaal 0 2 014 2 014 0 2 014 2 014
GreenLane 2015
2016 2017
3 382 4 740
0 3 382 4 740
1 000 0
1 000 0
410 30
1 000 1 000 0
410 30 440 440
totaal 8 532 30 8 562 2 410 30 2 440
Zaak 2013
2014 2015 2016 2017 2018 2019
131 123 254 39 58
361 758 987 1 329 778 623 981 734 839 485
15 13
97 1 324 1 538
3 774 2 673 2 956 1 196 3 575 1 491 2 975
2 862 6 447 4 152 5 066 3 953
1 119 2 316 1 401 1 715 1 324 978
47 21 68 28
totaal 14 782 8 020 22 802 4 000 4 000 8 000
Totaal 38 018 12 922 50 940 12 547 8 902 21 449