• No results found

5.2.1 (Totstandkoming van de) Europese voorschriften

3 Elementen van de identiteit: identifiers

3.4 Administratieve of sociale karakteristieken ('wat je is toegekend')

3.4.2 Matching; relateren van identificerende persoonsgegevens persoonsgegevens

Kwaliteit van de identiteitsvaststelling wordt voor een belangrijk deel bepaald door de matching van identificerende persoonsgegevens; is de betreffende persoon al onderkend in het betreffende register of dienen de gegevens over de identiteit van de persoon aan het register te worden toegevoegd?

Matching in ruime zin136 is het proces waarmee identificerende persoonsgegevens op elkaar worden afgestemd;

• de gegevens van het identiteitsdocument (identifier: wat je hebt) met

• de gegevens die de verdachte of illegale vreemdeling opgeeft (identifier: wat je is toegekend en/of wat je weet) en/of • de biometrische gegevens (identifier: wat je bent) en/of • de gegevens van die persoon in een register.

Is bijvoorbeeld Alphonse Bertillon, geboren op 24-04-1853 dezelfde persoon als A. Bertillon overleden op 13-02-1914? Als we van een persoon geen unieke persoonssleutel weten, kan alleen door matching worden bepaald of de persoon reeds voorkomt in het betreffende register.

Algemeen

Bij matching is het de vraag wanneer er sprake is van een volledige match en met welke mate van zekerheid het om dezelfde identiteit gaat. Als alle ingegeven identificerende persoonsgegevens overeenkomen met die in het register is het duidelijk. Echter als de invoer handmatig

geschiedt of als gegevenselementen niet overeenkomen qua schrijfwijze, weten we niet of het om dezelfde persoon gaat. Zo kunnen ook de geslachtsaanduiding, de geboortedatum, geboorteplaats, et cetera foutief worden ingegeven. Als een achternaam van een persoon veelvuldig voorkomt in een populatie, geeft dit gegeven weinig

zekerheid over de overeenkomst met een persoon in het register maar in combinatie met een ander gegevenselement als bijvoorbeeld een geboortedatum kan het (voldoende) uniek zijn.

Matching wordt qua reikwijdte vaak beperkt tot het matchen van administratieve persoonsgegevens. Matching onderscheid ik in enge (of administratieve) zin en in ruime zin. De matching in enge zin beperkt zich daarbij tot administratieve gegevens, de matching in ruime zin neemt ook de biometrische gegevens mee en kijkt daarmee naar de

136 Matching heeft daarmee ook betrekking op §3.3 en 3.5 maar wordt om

identificerende persoonsgegevens van een identiteit als geheel zoals hiervoor bij het onderwerp biometrie is behandeld.

De term 'record-linkage' werd op het gebied van de administratieve matching voor het eerst gebruikt in de gezondheidssector alwaar men duplicaten van voorkomens van patiënten in verschillende registers wilde opsporen [Winkler 2001, p. 2]. De ideeën van record-linkage komen voort uit de gedachten van Howard Newcombe die beslissings-regels en frequentieratio's introduceerde. De daarbij gebruikte naam- en adresstandaardisatie structureren de namen door veel gebruikte

woorden op een consistente manier te spellen en de naam op te splitsen waardoor de vergelijking eenvoudiger wordt. Gegevensstandaardisatie is het verwijderen van tekens die er niet toe doen zoals al dan niet kleine letters gebruiken. Daarbij kunnen tabellen worden gebruikt inzake bijnamen, uit te sluiten namen, voornamen in combinatie met geslacht, verwijderen van nietszeggende delen van namen zoals ’t, spellingen van straatnamen, steden, et cetera.

Matching op naam is het herkennen van twee verschillende

tekenreeksen in het naamveld als behorende tot eenzelfde persoon of eenzelfde identiteit. Branting [2005] noemt als voorbeeld voor de opsporing het herkennen van passagiersnamen op een ‘watchlist’. Als ander opvallend voorbeeld noemt Branting de toepassing om voor de naam van een partij in een rechtszaak te zien of de rechter daar een persoonlijk of financieel belang mee heeft in verband met een mogelijke belangenverstrengeling. De drempelwaarde voor matching is doorgaans slecht gedefinieerd waardoor de matches veelal worden gepresenteerd in afnemende volgorde van overeenstemming zodat een deskundige een drempelwaarde kan bepalen. Branting onderscheidt twee categorieën van matching:

• Cultuuronafhankelijk: bijnamen, titels, naamwijzigingen, wisseling in de volgorde van voor-, tussen- en achternamen, het afkorten van tussennamen tot initialen en gebruik van een functieaanduiding in plaats van de persoonsnaam.

• Cultuurspecifiek: foutieve spelling, spellingvariatie en omzettingen tussen talen (in het bijzonder als een taal niet het Romeinse alfabet gebruikt).

Matching bestaat uit een aantal aspecten <ad5>:

• welke identificerende persoonsgegevens worden in de vergelijking meegenomen;

• wordt gekeken naar de exacte schrijfwijze of fonetisch (klank) bijvoorbeeld door natuurlijke taalverwerking en

een absolute waarde);

• worden kleine verschillen tussen data en/of bekende typefouten genegeerd;

• worden namen vergeleken met bekende voorkomende namen in een bepaalde populatie als bijvoorbeeld Nederlandse familienamen • met welke waarschijnlijkheden, beneden- en bovengrenzen wordt

gerekend;

• wat is de betrouwbaarheid van de bron van de gegevens; • hoe wordt een score berekend oftewel welke gewichten worden

gebruikt per element;

• welke score is voldoende voor een automatische matching van een nieuw persoon met een bestaand persoon;

• hoe gaat het met de ‘bijna-overeenkomst’; bijvoorbeeld: de software doet een voorstel en de mens besluit of het om dezelfde dan wel een andere identiteit gaat.

De matching kan bestaan uit het verrichten van een enkele vergelijking of een waterval van vergelijkingen tot uiteindelijk wel of niet een match wordt gevonden.

Het U.S. Bureau of the Census stelt vrijelijk software beschikbaar voor standaardisatie van namen, standaardisatie van adressen en matching-software [Winkler 2001, p.8]. De standaardisatiematching-software breekt namen en adressen op in vergelijkbare componenten. De matchingsoftware houdt rekening met typefouten, berekent automatisch de matching parameters en optimaliseert de koppelingen. Matchingsoftware met waarschijnlijkheidscontroles biedt de mogelijkheid om een overeenkomst te constateren op basis van vooraf opgegeven parameters. Voorbeelden van software op dit gebied zijn HiQuality van Human Inference, Elise van WCC en Data Matching Software van LinkageWiz [2010]. De beslissings-regels helpen om een beperkt aantal mogelijke koppelingen over te houden waarnaar deskundigen de juiste koppeling kunnen leggen. Er is een aantal methoden om een relatie tussen gegevens te realiseren: • deterministic record linkage: een combinatie van veldwaarden die

samen voldoende uniek is om daarmee een persoon te identificeren. Dit werkt goed voor paspoortnummers, burgerservicenummers, et cetera doch niet voor gegevenselementen als voornaam en

geboortedatum die elk apart en zelfs in combinatie nog niet uniek hoeven te zijn. Daarbij komt dat namen verkeerd worden gespeld, data worden geschat of in een verkeerd formaat worden geleverd, et cetera;

• fuzzy matching; vergelijken op basis van delen van veldwaarden is toegestaan volgens een aantal subjectieve regels bedacht door de gebruiker. Veel regels en uitzonderingen moeten worden bedacht om een goede nauwkeurigheid te bereiken. Fuzzy matching wordt door

Accenture gezien als een algoritme dat verschillende biometrische en administratieve (biografische) kenmerken kan meten en afwegen om daarmee mogelijke en absolute matches te kunnen definiëren

[Accenture 2010, p. 12]. Met fuzzy matching kunnen gegevens met een net iets andere schrijfwijze, spelling of nummering toch aan elkaar worden gerelateerd in tegenstelling tot bij deterministic record linkage;

• probalistic record linkage; typografische verschillen betekenen niet direct dat bepaalde combinaties van sets buiten beschouwing worden gelaten. Elk veld krijgt een gewicht en gewichten worden toegekend aan overeenkomsten, verschillen en ontbrekende waarden. De gewichten zijn hoger voor meer specifieke velden als achternaam en lager voor minder specifieke velden als geslacht.

De totale score wordt getoetst aan een grens waarboven het een "True linkage" is en een grens waar beneden het een "Non-linkage" is. Daartussen zitten de potentiële koppelingen die handmatig moeten worden bekeken. De juistheid van de grenzen is niet exact en

afhankelijk van gegevenskwaliteit, karakteristieken van de populatie, et cetera. Het risico van een onjuiste match zit in de false positives

(matchende datasets die niet op dezelfde persoon betrekking hebben) en false negatives (datasets van dezelfde persoon die ten onrechte niet gekoppeld zijn). Verhoging van het ene risico betekent een verlaging van het andere risico. De relatie tussen scores en links is in figuur 3.2 in beeld gebracht.

Fig. 3.2. Relatie scores en links [Linkagewiz 2010, p. 3] Variaties in namen

Variaties in (achter)namen vormen een probleem voor de identificatie van personen [Snae 2007 p. 252]. Identificerende nummers zijn niet altijd beschikbaar en dan moet er worden gewerkt met matching-variabelen zoals de (voor- en achter)naam, geboortedatum, geslacht, adres, geboorteplaats, et cetera. Variaties in namen doen zich voor ten gevolge van verschillen in uitspraak ('phonetic') en in schrijfwijze ('alternate spelling'). Snae maakt een onderscheid naar 'character,

spelling and phonetic variations'. Karaktervariaties doen zich voor bij het

wisselend gebruik van hoofdletters en kleine letters, leestekens, spaties en afkortingen. Spellingvariaties doen zich voor bij fouten en komen door vertaling of een verschil in uitspraak waarbij karakters kunnen worden vergeten of toegevoegd. Fonetische variaties door een andere

uitspraak leiden tot een andere tekenreeks. Het doel van de matching is volgens Snae [2007, p. 253] om te bepalen of twee of meer ‘records’ verwijzen naar dezelfde entiteit. De zogenaamde probabilistische matchingstechnieken zijn te onderscheiden naar vier type algoritmen: • spelling/tekenreeks zoals Guth (alfabetisch, onafhankelijk van taal en etniciteit, betrouwbaar doch niet geschikt voor korte namen); • fonetisch/geluid zoals Soundex (specifiek voor een bepaalde taal) en

NYSIIS (als Soundex waarbij de positie van klinkers wordt meegenomen);

• composiet: spelling of geluid zoals ISG (de methode van vergelijken is gebaseerd op Guth);

• hybride: spelling en geluid zoals LIG (gebruikt Levenshtein, ISG en Guth) [Snae 2007, p. 254].

De genoemde fonetische vergelijking gebeurd met fonetische algoritmes die in het blokkeerproces van belang zijn zodat gelijkluidende sets begrepen blijven in de matching.

Enkele fonetische algoritmes zijn Soundex (meest bekende), New York State Identification and Intelligence System Phonetic Code en Match Rating Approach die een gecodeerde naam berekend (de persoonlijke nummer identificator).

Snae [2007] gebruikt een set van 11.369 namen uit het Dictionary of English Surnames van Reaney en Wilson om de algoritmen te testen. Elke methode levert dan drie waarden op, te weten: true matches, true mismatches en accuracy. Er is niet één beste algoritme maar de keuze is afhankelijk van het specifieke doel en de specifieke toepassing. Een standaard voor naammatching

Linsbach & Meyer [2013, p. 216 en 219] benoemen een linguïstische zoekstandaard waarmee onderscheiden configuraties voor het

ontwerpen, testen en gebruiken van matchingsoftware dezelfde

principes kunnen gebruiken voor de definitie van ‘true and false positive hits’. De zoekstandaard is in 2010 voorgesteld door Linguistic Search Solutions AG en de versie van 2011 is door Linsbach & Meyer aangepast om te komen tot een standaard waarmee consistente en effectieve zoekprocedures kunnen worden bereikt.137 De standaard is techniek-neutraal. De principes zijn onderverdeeld naar drie niveaus van

accuratesse (‘precise’, ‘close’ en ‘broad’) die kunnen worden toegepast afhankelijk van het risiconiveau, de kwaliteit van de gegevens of het volume van een proces. Precise Match Level benoemt vereisten voor het identificeren van naamdelen die in essentie gelijk zijn. Close Match Level

137 Een van de auteurs, B. Lisbach, was anno 2014 werkzaam bij dit bedrijf

zodat de informatie over de standaard in [Linsbach & Meyer 2013] niet op voorhand objectief behoeft te zijn weergegeven.

benoemt vereisten voor het identificeren van naamdelen die erg op elkaar gelijken. Broad match level benoemt vereisten als uitbreiding van de ‘precise’ en ‘ close’ niveaus.

De volgende principes worden per niveau van accuratesse onderscheiden [Linsbach & Meyer 2013, p. 220 - 227]: Precise Match Level

1. Verschillen in hoofd- en kleine letters of interpunctie spelen geen rol voor een match.

2. Onderscheiden ‘romanisaties’ van dezelfde naam vormen een match. Identieke namen volgens een niet-Latijns schrift zullen altijd een match vormen mits een prominente transcriptiestandaard gevolgd is. Bijvoorbeeld in geval van Russische of Arabische namen. Diakrieten mogen geen hinder vormen voor een match.

3. Namen samengesteld uit identieke naamdelen moeten een match opleveren ongeacht of enkele delen zijn samengevoegd.

4. Namen samengesteld uit identieke naamdelen moeten een match opleveren ongeacht veranderingen in de gebruikelijke volgorde van de naamdelen. Denk bijvoorbeeld aan Chinese namen waar eerst de familienaam wordt geplaatst. Ook hebben Chinezen vaak tevens een Westerse naam aangenomen.

5. Identieke namen van een niet-westerse herkomst moeten een match opleveren ongeacht de wijze waarop de namen zijn opgesplitst voor opslag van gegevens. Denk b.v. aan een ‘middle name’.

6. Bijnamen en afkortingen moeten een match geven met de

overeenkomstige volledige naamdelen. Bijvoorbeeld Bill en William. 7. Het weglaten van een periferie deel van een naam moet een match niet in de weg staan bijvoorbeeld een academische titel of de aard van de rechtspersoon.

Close Match Level

8. Naamdelen die op dezelfde manier worden gespeld en uitgesproken moeten als een close match opleveren. Per betrokken taal kan dit wel een verschil opleveren.

9. Namen samengesteld uit dezelfde delen moeten een match

opleveren ongeacht veranderingen in de volgorde van de naamdelen. Dit is een uitbreiding op principe nr. 4 zodat wijzigingen in de

volgorde van naamdelen anders dan culturele normen of administratieve werkwijzen ook worden meegenomen.

10. Namen met identieke naamdelen moeten een match opleveren ongeacht de wijze waarop de namen zijn opgesplitst voor opslag van gegevens. Dit is een uitbreiding op principe nr. 5 zodat

verwisselingen van voor- en achternaam worden meegenomen. 11. Veel voorkomende spellingsfouten moeten een match niet

verhinderen. Denk aan het verwisselen van tekens of een vaak gemaakte foutieve toetsaanslag. Dit principe gaat alleen op voor namen van 6 of meer tekens.

12. Het toevoegen of weglaten van minder betekenisvolle naamdelen moet een match niet verhinderen. Denk aan voor- en

tussenvoegsels. Hiermee wordt het juiste gewicht toegekend aan deze naamdelen.

Broad match level

13. Een kleine spellingsfout moet een match niet verhinderen. Dit is een uitbreiding op principe nr. 11 om minder gebruikelijke spellingfouten te onderkennen. Dit principe gaat alleen op voor namen van 5 of minder tekens.

14. Fonetisch gelijkluidende naamdelen moeten een match opleveren ongeacht de manier waarop ze gespeld zijn. Dit is een uitbreiding op principe nr. 8.

15. Alle vertalingen van relevante naamdelen moeten een match opleveren.

De principes zijn in tabel 3.9 per niveau in beeld gebracht <ad6>.

Aspect Precise Match

Level Close Match Level Broad Match Level

Interpunctie Principe 1

Transcriptie Principe 2

Samengestelde

naamdelen Principe 3

Volgorde van naamdelen Principe 4 Principe 9

Splitsing van naamdelen Principe 5 Principe 10

Afgeleide namen Principe 6 Principe 15

Fonetisch Principe 8 Principe 14

Typefouten Principe 11 Principe 13

Naamdelen in de periferie Principe 7 Principe 12

Tab. 3.9 Principes van een voorgestelde linguïstische zoekstandaard, naar [Linsbach & Meyer 2013, p. 228].

De Mitre Challenge

De zogenaamde Mitre Challenge uit 2011/2012 was een open competitie om commerciële en wetenschappelijke software te evalueren waarmee

multiculturele namen kunnen worden gematched. Matchen van persoonsnamen is een probleem dat zich voordoet als er meerdere bronnen zijn met verschillende versies van een persoonsnaam die aan elkaar gerelateerd zijn. Veertig deelnemende organisaties opereerden anoniem onder een eigen teamnaam [Miller, Richerson & McLeod 2012, p. 3.111]. De Challenge dataset werd gevormd door meerdere bronnen met elk enkele duizenden namen bestaande uit een querylijst en een indexlijst. De lengte van een volledige naam kon daarbij variëren qua lengte van 4 tot 69 karakters met daarbij 0 tot 49 karakters voor de voornaam en 0 tot 39 karakters voor de achternaam. De dataset was zo opgesteld dat slechts een deel van de namen bijdroeg aan de score zonder dat de teams dit konden nagaan om handmatige beoordeling en doorrekening met brute kracht uit te sluiten. In de productiefase van de competitie bestond de querylijst uit 8.666 namen waarvan 266 namen bijdroegen aan de score en de bestond indexlijst uit 826.388 namen waarvan 36.069 namen meetelden voor de scorebepaling. Voor de score werd het kengetal van de Mean Average Precision (MAP) gebruikt omdat hierbij rekening wordt gehouden met een rangschikking van de

resultaten waar doorgaans behoefte aan is bij het matchen van namen [Miller, Richerson & McLeod 2012, p. 3.112]. In de validatiefase werd een soortgelijke querylijst en indexlijst gebruikt, waarbij binnen 36 uur de resultaten moesten worden ingediend. Hiermee werd duidelijk of de afzonderlijke scores konden worden gereproduceerd, de match binnen een beperkte tijd kon plaatsvinden en de oplossing niet te sterk gericht was op de dataset. Ook bevestigde de validatie de aanname dat de matching met computers en algoritmes gebeurde en niet handmatig plaatsvond. In de validatiefase lagen alle scores wat hoger dan in de productiefase en verschoof de rangorde van de teams iets. De MAP voor de teams met de topscores lag net onder de waarde van 92 [Miller, Richerson & McLeod 2012, p. 3.115]. De MAP kan worden gezien als het percentage van de correcte matching.

3.5 Identiteitsdocument ('wat je hebt')

De aanvraag en uitgifte

Een persoon (of diens ouder of voogd) vraagt op een bepaald moment een identiteitsdocument aan bij burgerlijke stand van de gemeente. De ambtenaar kan slechts tot op zekere hoogte bepalen of de persoon die de aanvraag doet (of namens wie de aanvraag wordt gedaan) ook behoort bij de administratieve identiteit die destijds is vastgelegd. De controle is grotendeels gebaseerd op een eigen verklaring en/of wat de ouders indertijd zeiden (hoewel nooit geheel vaststaat dat het de ouders zijn) en/of de overhandiging van een brondocument. De ambtenaar kan de aannemelijkheid bepalen door te kijken naar het geslacht, op basis

van de geboortedatum kijken naar de geschatte leeftijd of bijvoorbeeld controlevragen stellen. Bij de aanvraag van identiteitsdocument zoals bijvoorbeeld een paspoort worden op basis van artikel 3 lid 1 en lid 2 van de Paspoortwet de volgende biometrische kenmerken vastgelegd138: foto (gezichtsopname), lichaamslengte, vingerafdrukken en

handtekening. Bij de afgifte van het identiteitsdocument wordt getoetst of de afhaler ook de houder is. Bijvoorbeeld in geval van een paspoort geldt artikel 50 van de Paspoort Uitvoeringsregeling: "Tot uitreiking van

het reisdocument (...)wordt slechts overgegaan, nadat de identiteit van de aanvrager in zijn aanwezigheid is vastgesteld en de aanvrager de in het document weergegeven persoonsgegevens op juistheid heeft gecontroleerd".

Het gebruik

Iemand kan aantonen wie hij is door het overhandigen van een (door de overheid verstrekt) identiteitsdocument. De volgende controles139 t.a.v. het document en de persoon die het aanbiedt, kunnen worden

onderscheiden:

• "echt; is het legitimatiebewijs niet vervalst?; • eigen; is het van de persoon zelf?;

• geldig; is het geldig en moet het geldig zijn?;

• gekwalificeerd; is het van toepassing in de bewuste situatie?" [BZK BPR klantendag 2011].

Daarnaast kan de functionaris aan wie het identiteitsdocument wordt voorgelegd, de administratieve en biometrische gegevens op het document controleren met de actuele gegevens in registers. Na uitgifte van het document kunnen bepaalde gegevens namelijk gewijzigd of gecorrigeerd zijn zoals een adres maar mogelijk ook het geslacht of een ander kenmerk.

Bohm & Mason hechten een beperkte waarde aan het uitsluitend gebruiken van een identiteitsdocument of brondocument zoals een geboorteakte omdat de persoon wiens naam op het document staat niet dezelfde persoon hoeft te zijn als degene die het document bezit ook al gebruikt deze persoon dezelfde naam140 [Bohm & Mason 2010, p. 47]. Bohm & Mason geven aan dat verificatie van de identiteit in de

maatschappij meestal gebeurt aan de hand van een reeks van vastleggingen over het gebruik van de identiteit zoals in

138 Voorheen werd de kleur ogen gevraagd en op het paspoort vermeld maar dat

verviel per 1 november 1989 (mede omdat iemand gekleurde contactlenzen kan dragen).

139 Deze benamingen komen oorspronkelijk uit [Protocol identiteitsvaststelling

2011] doch worden inmiddels ook breder toegepast.

registers inzake verstrekte identiteitsdocumenten alsmede in financiële gegevens van banken en belastingdienst.

Een token

Naast een identiteitsdocument waarmee iemand kan aantonen wie hij is, zijn er ook 'tokens' in de vorm van een kaart of een stukje hardware die worden gebruikt om iemand te authenticeren, in de regel voor toegang tot ruimten of computersystemen. Daarbij hoeft het niet altijd van belang te zijn of het token 'eigen' is en wordt het vaak in combinatie met een pincode of wachtwoord gebruikt om de juiste persoon toegang te verschaffen tot een dienst of ruimte; denk bijvoorbeeld aan het ontsluiten van een kledinglocker. Doordat het aspect 'eigen' van