GDPR
Workshop "Anonimiseren en
pseudonimiseren"
Inleiding
Definities
Pseudonimiseren
Bescherming tegen directe identificatie Data minimalisatie
Anonimiseren
Bescherming tegen directe + indirecte identificatie
Soms moeilijk te anonimiseren
Pseudonimiseren vs. anonimiseren
Dataverzameling, controle en koppeling
Opmaken van de statistieken
Onderzoekers
(vertrouwelijkheidscontract)
Public use files
Momenteel enkel 2 PUFs, via Eurostat:
https://ec.europa.eu/eurostat/cros/content/puf-public-use- files_en
“The files are prepared in such a way that individual entities cannot be identified; this goes with a loss in information value”.
Loss Big loss !
Pseudonimiseren
Pseudonimiseren
Vernietiging van alle directe identificatiemiddelen (naam, …), behalve het unieke identificatienummer (bv: rijksregister
nummer), dat wordt omgezet in een "pseudoniem".
3 mogelijke technieken voor omzetting 1. Correspondentietabel
2. Encryptie van de identificatie
3. Hash function + salt
Hash function + salt
Salt = zeer lange “geheime code”
Arbitraire_code = Md5(uniek_identificatienummer, Salt)
Hash function + salt
Eenvoudig te programmeren (in elke programmeertaal)
Pseudoniem
sleutel van 32 karakters (kleiner in base64)
mogelijk om grootte van de sleutel te reduceren tot 16 karakters zonder risico op overlap
create table output.TF_CENSUS as
select %md5_of(variable=NR_RIJKSREGISTER,secret_key=&salt) as ID_PSEUDONYM length=32,
… lijst van variabelen (alleen maar indirect identifiers + analyse variabeleen) … from input.TF_CENSUS
order by 1;
Beheer van salts
Link tussen verschillende tabellen mogelijk
zelfde salt
nuttig, bv. voor panels
Link tussen verschillende tabellen onmogelijk
verschillende salts
nuttig als de onderzoeker meerdere aanvragen over de tijd
heeft ingediend
Anonimiseren
Risico’s bij microgegevens
1. Heridentificatie zie https://cpg.doc.ic.ac.uk/individual-risk/
2. Mogelijkheid om informatie over iemand af te leiden
Beschermingsmethodes
Veralgemenen
Noise addition
Nauwkeurigheid attribuut ↓
Algemene distributie blijft dezelfde
Permutation
Verwisselen waarden van attributen tussen individuen
Range en distributie blijven dezelfde
Concepten
K-anonimity
Minstens k individuen met hetzelfde profiel
L-diversity
Binnen elke klasse moeten alle attributen minsten L verschillende waarden hebben
Tools
Micro-gegevens
Mu-Argus
SdcMicro (R package)
Aggregaten
Tau-Argus
SdcTable (R package)
Lectuur
Handbook on statistical disclosure control
http://neon.vb.cbs.nl/casc/SDC_Handbook.pdf
onze « Bijbel »
“Estimating the success of re-identifications in incomplete datasets using generative models”, Luc Rocher, Julien M.
Hendrickx & Yves-Alexandre de Montjoye, 2019, Nature Communications
generative copula-based method that can accurately
Data-aanvragen
Procedure aanvragen microdata
Contacteer uw Statbel-statisticus of statbel@economie.fgov.be
Dien na het contact een formele data-aanvraag in:
Document met aanvraagformulier, contract en conformiteitsverklaring:
https://statbel.fgov.be/nl/over-statbel/privacy/microdata-voor-onderzoek
De formele aanvraag moet ondertekend zijn door de verwerkingsverantwoordelijke (of DPO).
De verwerkingsverantwoordelijke is de wettelijke vertegenwoordiger van de organisatie die verantwoordelijk is als er iets mis gaat.
Documenten indienen in Word en PDF via statbel.datarequests@economie.fgov.be
Volledig en correcte aanvraag
Aantonen dat de finaliteit enkel statistisch en wetenschappelijk onderzoek is. Geen administratieve gevolgen voor de betrokkenen.
• Administraties dienen aan te geven welke technische en
organisatorische maatregelen ze nemen om dit te garanderen.
• Beleidsvoorbereidend onderzoek valt ook onder deze finaliteit.
De wettelijke basis vermelden indien er een is.
Enkel gepseudonimiseerde gegevens vragen (geen directe identificatie).
Duidelijk aangeven als er een koppeling is met gegevens van andere leveranciers, hun goedkeuring en wie er optreedt als vertrouwde derde.
Er is een verkorte procedure indien het gaat om een verlenging of uitbreiding van een bestaande overeenkomst.
Microdata as a service
Officiële data-
aanvraag Advies Beslissing
DPO Verzenden
contract
In 2019 al een 80-tal aanvragen behandeld.
Snelle en efficiënte administratieve afhandeling van de aanvraag.
Multidisciplinair team (DPO, jurist, statistici en DWH)
Bij vragen ivm de datalevering
statbel.datarequests@economie.fgov.be
Trusted third party
Koppelen van gepseudonimiseerde gegevens
Omwille van privacy redenen gebeurt wetenschappelijk onderzoek op basis van gepseudonimiseerde gegevens.
Voor sommige onderzoeken is het noodzakelijk om gegevens van verschillende bronnen te koppelen.
Het is niet mogelijk om gepseudonimiseerde gegevens te koppelen.
Wetgever voorziet dat voor de koppeling een beroep kan gedaan worden op een vertrouwde derde - Trusted Third party - TTP
Wet van 30 juli 2018
Artikel 202
§1 Als meerdere bronnen moeten gekoppeld worden zijn er twee mogelijkheden voor het anonimiseren of pseudonimiseren van gegevens:
• Optie 1: door één van de verantwoordelijken voor de oorspronkelijke verwerking.
• Optie 2: door een derde vertrouwenspersoon (TTP)
§ 2. Als meerdere bronnen moeten gekoppeld worden waarvan tenminste één van gevoelige gegevens:
• Optie 1: door de verantwoordelijke voor de oorspronkelijke verwerking van gevoelige gegevens
• Optie 2: door een derde vertrouwenspersoon (TTP)
Werkwijze
In België zijn Statbel, het DWH van de KSZ en E-Health erkend als TTP.
Onderzoekers moeten de intentie tot koppeling met andere bronnen en het beroep doen op een TTP expliciet vermelden bij hun data-aanvraag.
Een TTP kan pas optreden als er een uitdrukkelijke toelating is van de leveranciers van de te koppelen bronnen.
De TTP:
Ontvangt de niet-gepseudonimiseerde gegevens van alle te koppelen bronnen.
Koppelt de verschillende gegevens.
Pseudonimiseert het gekoppelde bestand