Entiteitreconciliatie ondanks beperkte overlap door middel van objectgelijkenis

(1)

Memorandum 2009-2

Entiteitreconciliatie ondanks beperkte

overlap door middel van objectgelijkenis

Casus ‘Koppelen van persoonsgegevens zonder een

gemeenschappelijke identificatie’

J.J. van Dijk

Wetenschappelijk Onderzoek- en Documentatiecentrum

(2)

Exemplaren van deze publicatie kunnen schriftelijk worden besteld bij

Bibliotheek WODC

Postbus 20301, 2500 EH Den Haag Fax: (070) 370 45 07

E-mail: wodc@minjus.nl

Memoranda worden in beperkte mate gratis verspreid zolang de voorraad strekt

Alle nadere informatie over WODC-publicaties is te vinden op Justweb en op www.wodc.nl

(3)

Inhoud

Afkortingen 1 Definities 3 Samenvatting 5 1 Introductie 7 1.1 Achtergrond 7 1.2 Aanleiding 9 1.3 Probleemstelling 9 1.4 Doelstellingen 10 1.5 Aanpak 11 1.6 Opbouw 11 2 Achtergrond 13 2.1 Gegevensgebied 13 2.1.1 Definities 13 2.1.2 Overzicht 14 2.2 Onderzoeksgebied 15 3 Theorie 17

3.1 Beschrijving van gelijkenis 17

3.1.1 Definitie van gelijkenis 17

3.1.2 Gemeenschappelijke eigenschappen 18

3.1.3 Expertkennis 20

3.2 Modellering van gelijkenis 22

3.2.1 Attributen en knopen 22

3.2.2 Distributie van gelijkenis 23

3.2.3 Informatiemodel 26

3.3 Berekening van gelijkenis 30

3.3.1 Van attribuutgelijkheid naar entiteitgelijkenis 31 3.3.2 Van entiteitgelijkenis naar objectgelijkenis 31

3.4 Reconciliatie 33

3.4.1 Selecteren van de reconciliaties 33

3.4.2 Berekenen van één gelijkeniswaarde 35

3.5 Formele theorie 36

3.6 Conclusie 43

4 Casus 45

4.1 Beschrijving van gelijkenis 45

4.1.1 Geboortedatum 46

4.1.2 Geslacht 46

4.1.3 Geboorteland 46

4.1.4 Pleegdatum 47

4.1.5 Wetsartikelen 48

4.2 Modellering van gelijkenis 48

(4)

4.3 Gegevens 51

4.3.1 Beschrijving 51

4.3.2 Gebruik 51

5 EROS 53

5.1 Programma van eisen 53

5.2 Architectuur 54

5.3 Ontwerp 55

5.3.1 Informatiemodel 55

5.3.2 Expert Kennis Systeem 57

5.3.3 Script Deployment 57 5.3.4 Script Execution 58 5.4 Implementatie 59 6 Resultaten 61 6.1 Inleiding 61 6.2 Statistieken 63 6.3 Kwaliteit 64 6.3.1 Goede resultaten 65 6.3.2 Foute resultaten 66 6.4 Conclusie 70 7 Conclusies en aanbevelingen 71 Summary 73 Literatuur 75

(5)

Afkortingen

CBS Centraal Bureau voor de Statistiek

EROS Entity Reconciliation using Object Similarity

HKS HerKenningsdienstSysteem, registratie van processen-verbaal van aangifte van misdrijven

OM Openbaar Ministerie

OMDATA Informatiesysteem van het Parket-Generaal van het Openbaar Ministerie

OBJD Onderzoeks- en Beleidsdatabase Justitiële Documentatie PV proces-verbaal

(6)

(7)

Definities

Begrip Omschrijving

Attribuut Een eigenschap of kenmerk van een object, bijvoorbeeld Geboortedatum. De invulling van een attribuut heet de attribuutwaarde.

Centrumknoop De knoop waarvoor conciliatie gewenst is (zie pagina 22). Conciliëren /

Conciliatie Het verenigen van de set van entiteiten in een knoop, waarbij objectgelijke entiteiten gereconcilieerd worden (zie pagina 9). Entiteit Het voorkomen van een object in een informatiebron in de vorm van een set

van attribuutwaarden die hetzelfde object beschrijven. Entiteiten met dezelfde attributen worden gelijksoortige entiteiten genoemd.

Entiteittype De typering voor de verzameling van gelijksoortige entiteiten in een informatiebron, bijvoorbeeld Persoon.

Knoop Een gemeenschappelijk entiteittype in twee informatiebronnen (zie pagina 22). Objectgelijk Entiteiten of attributen zijn objectgelijk als ze naar hetzelfde object verwijzen. Reconciliëren /

Reconciliatie Het weer verenigen (koppelen) van objectgelijke entiteiten uit verschillende informatiebronnen (zie pagina 9). Referentieset Een representatieve subset van één of meer informatiebronnen.

Notaties in datamodellen entiteittype E A A A A primaire sleutel m:n relatie

1:1 relatie rol E2 rolindicator attribuut meerwaardig attribuut 1:n relatie E1 E2 E1 E2 E1 E2 E1 Notaties in gelijkenisdistributie

(8)

(9)

Samenvatting

Het koppelen van informatiebronnen wordt in de huidige maatschappij steeds belangrijker. Door koppelen ontstaan nieuwe inzichten, omdat meer gegevens van gemeenschappelijke objecten met elkaar in verband kunnen worden ge-bracht. Dit onderzoek richt zich op het koppelen van bronnen op microniveau. Hierbij worden entiteiten, die naar hetzelfde object verwijzen, aan elkaar gekop-peld: entiteitreconciliatie (bijvoorbeeld persoonsentiteiten die naar één persoon verwijzen). Verschillende bronnen hebben vaak geen gemeenschappelijke iden-tificatie, waardoor deze manier van koppelen afvalt. Bronnen die interessant zijn om te koppelen, bevatten vaak weinig gemeenschappelijke informatie. Van-wege de beperkte overlap is de winst van het koppelen het grootst; er kunnen meer nieuwe gegevens met elkaar in verband worden gebracht. Overlap is ech-ter, zonder gemeenschappelijke identificatie, wel de enige troef in de poging om te koppelen.

Om ondanks beperkte overlap toch entiteiten te kunnen reconciliëren, is een theorie ontwikkeld om alle aanwezige overlap van twee bronnen te gebruiken. Overlap bestaat uit eigenschappen die beide bronnen gemeen hebben. Als een gemeenschappelijke eigenschap overeenkomt, dan is er sprake van gelijkenis (Eng. similarity). De mate van gelijkenis wordt bepaald door de onderlinge positionering van twee attributen die de eigenschap beschrijven. Met behulp van expertkennis wordt deze positie via een positieverdeling (een trendlijn over het histogram van de verwachte onderlinge positionering van de eigenschap) omgezet in een gelijkeniswaarde. De attributen, die een gemeenschappelijke eigenschap beschrijven, worden geplaatst onder een gemeenschappelijk enti-teittype (knoop genoemd). Elke knoop draagt bij aan de beschrijving van de centrumknoop waarin de reconciliatie gewenst is. Zodoende wordt de entiteit-gelijkenis per knoop bepaald en wordt ook de objectentiteit-gelijkenis bepaald, waarin tevens de gelijkenis in andere knopen wordt meegenomen. Hierbij wordt de gelijkenis effectief gedistribueerd naar de centrumknoop. Door de knopen te berekenen in een hiërarchische structuur ontstaat clustering, waardoor het aan-tal vergelijkingen wordt verlaagd. Voor de entiteitreconciliatie is een methode bedacht, waarmee entiteiten van één knoop efficiënt worden gereconcilieerd. Om de theorie te toetsen is een prototype (EROS, ‘Entity Reconciliation using

Object Similarity’) ontwikkeld, waarin een casus is geïmplementeerd. Van deze

casus zijn de correcte reconciliaties bekend; deze zijn gebruikt in de analyse van de resultaten. Er is persoonsreconciliatie toegepast op 10.000 personen in de ene bron tegen 8.705 personen in de andere bron. Hierbij zijn 5 gemeenschap-pelijke eigenschappen gebruikt, waaronder 3 persoonseigenschappen (geboorte-land, geslacht en geboortedatum). Voor 5% is de correcte reconciliatie niet ge-vonden als gevolg van te weinig overlap. Als de correcte reconciliatie is gevon-den, dan wordt deze in 98% van de gevallen ook daadwerkelijk gekozen. Uit dit onderzoek blijkt dat, ondanks beperkte overlap, reconciliatie op micro-niveau door middel van objectgelijkenis goed mogelijk is. Uiteraard moet de aanwezige overlap discriminerend genoeg zijn. In dit kader moet worden op-gemerkt dat door de kleine set van gegevens de persoonseigenschappen voor

(10)

sommige combinaties al sterk discriminerend zijn. Meer onderzoek is nodig om te bepalen wanneer overlap voldoende discriminerend is, met name voor grotere datasets waarin de correcte reconciliaties onbekend zijn. De theorie biedt een uitgangspunt voor meer onderzoek in de richting van data mining en privacygerelateerde toepassingen.

(11)

1 Introductie

1.1 Achtergrond

De wereld bestaat uit objecten zoals personen, gebouwen, etc. Deze objecten kunnen relaties hebben met elkaar. Een persoon bezit bijvoorbeeld één of meerdere gebouwen; gebouwen kunnen personen bevatten. Deze objecten en hun relaties kunnen worden opgeslagen in informatiebronnen. In deze bronnen wordt elk object een (object)entiteit: een voorkomen van het object in een informatiebron.

Een voorbeeld: een persoon X wordt opgepakt voor criminele activiteiten. Er wordt een proces-verbaal (PV) opgemaakt. Hiermee wordt deze persoon in de informatiebron van de politie geregistreerd. Vervolgens wordt het PV tegen persoon X overgedragen aan het Openbaar Ministerie (OM). De gegevens over persoon X en de activiteiten waar de persoon van verdacht wordt, worden in-gevoerd in de informatiebron van het OM. Er is geen gemeenschappelijke iden-tificatie, maar persoon X komt in twee informatiebronnen voor (figuur 1).

Figuur 1 Verschillende persoonsentiteiten van één persoon

Zowel de politie als het OM slaan gedetailleerde gegevens van de verdachte, persoon X, op. Dit is nodig voor het uitvoeren van hun taak. Stel nu dat er be-hoefte is aan onderzoek waarbij de informatie uit beide bronnen op persoons-niveau nodig is. Het is in zo’n geval wenselijk om de persoonsentiteiten, die naar dezelfde persoon verwijzen, te koppelen. In dit geval wordt hiermee de ‘loopbaan’ van persoon X door de strafrechtsketen in kaart gebracht.

Entiteiten die naar hetzelfde object verwijzen, worden objectgelijke entiteiten genoemd. De methoden om objectgelijke entiteiten te koppelen kunnen worden ingedeeld op twee manieren. De eerste manier is het vinden van voldoende ge-meenschappelijke eigenschappen om de entiteiten uniek met elkaar in verband te brengen. Deze gemeenschappelijke eigenschappen vormen dan een gemeen-schappelijke identificatie (sterke sleutel). Op basis van deze sterke sleutel kunnen objectgelijke entiteiten gekoppeld worden. Helaas is een gemeenschappelijke sterke sleutel niet altijd voor handen.

(12)

De tweede manier maakt koppelingen op basis van gemeenschappelijke eigen-schappen, zonder dat er sprake is van een sterke sleutel. Voor deze manier bestaan vele benamingen; in dit document wordt de benaming reconciliëren gebruikt, wat ‘opnieuw verenigen’ betekent1. De benaming reconciliëren stamt uit de financiële wereld en is door Dey et al. (2002) geïntroduceerd in een we-tenschappelijke context.

Voorbeeld. Binnen de debiteurenadministratie worden ontvangen bedragen (de

ontvangsten) gereconcilieerd met openstaande posten (facturen). Daarbij wordt een ontvangen bedrag gekoppeld aan één of meerdere openstaande facturen of delen daarvan.

In het voorbeeld worden de ontvangsten gereconcilieerd met de eerder verzon-den facturen. Hierbij kan worverzon-den aangenomen dat een ontvangst bij een fac-tuur(deel) hoort. Alle ontvangsten dienen te worden gereconcilieerd met een factuur(deel). In andere gevallen is dit niet zo vanzelfsprekend: indien er tegen persoon X onvoldoende bewijs is, dan zal persoon X niet vervolgd worden en daarom niet in de informatiebron van het Openbaar Ministerie terechtkomen. In zo’n geval worden gesproken van de conciliatie (‘vereniging’) van een set per-soonsentiteiten, waarbij alleen objectgelijke persoonsentiteiten gereconcilieerd worden.

Gegeven twee sets van (persoons)entiteiten P1 en P2. Stel dat de notatie [[p]] het

object behorende bij een entiteit p representeert.

Definitie. De conciliatie van twee sets van entiteiten P1 en P2 is de

vereni-gingP1∪P2waarvoor geldt:

]]

[[

]]

[[

:

!

:

]]

[[

]]

[[

:

!

:

2 1 2 1 1 2 1 2 2 2 2 1 2 1 2 2 1 1 1 1

p

P

p

P

p

P

p

P

p

P

p

P

p

=

∩

∈

∃

↔

∩

∈

∀

=

∩

∈

∃

↔

∩

∈

∀

Definitie. De reconciliatie van twee entiteiten p1 en p2 is de vaststelling dat

[[p1]]=[[p2]].

Voorbeeld. Figuur 2 toont de conciliatie van twee sets van persoonsentiteiten in

twee verschillende bronnen, waarbij de objectgelijke persoonsentiteiten gere-concilieerd zijn. Persoon A en persoon B hebben geen objectgelijke entiteit in beide sets en worden daarom niet gereconcilieerd.

Figuur 2 Conciliatie van twee sets van persoonsentiteiten

persoon <persoon a>

persoon

<persoon x> Politie Openbaar Ministerie

1 _{Reconciliëren: (1) verzoenen, weer verenigen (Van Dale Lexicografie bv, www.vandale.nl,}

(13)

Binnen een informatiebron vallen entiteiten onder een entiteittype. Zo vallen persoonsentiteiten onder het entiteittype Persoon. Twee entiteiten van het- zelfde entiteittype worden gelijksoortig genoemd. Elk entiteittype heeft een aantal attributen; geboortedatum en geslacht zijn bijvoorbeeld persoonsattri-buten. De mate waarin persoonsattributen van twee entiteiten overeen komen, wordt entiteitgelijkenis genoemd.

De conciliatie in figuur 2 heeft betrekking op het object Persoon. Een persoon komt als entiteit voor in beide bronnen, maar de entiteiten hebben verschillen-de eigenschappen. Toch bestaan er vaak verbanverschillen-den tussen informatiebronnen. Zo hebben personen in beide bronnen een delictverleden en komt een delict van een persoon pas in de ‘Openbaar Ministerie’-bron nadat het delict in de ‘Politie’-bron terecht is gekomen. Al deze eigenschappen kunnen gebruikt wor-den om te bepalen of twee persoonsentiteiten naar dezelfde persoon verwijzen. Wanneer ook attributen van andere entiteittypen worden vergeleken, dan wordt dit objectgelijkenis genoemd.

1.2 Aanleiding

Binnen het WODC speelt de strafrechtsketen — van verdenking tot vervolging en berechting — een centrale rol. Er is dan ook momenteel veel aandacht voor informatie over daders door de strafrechtsketen heen. Een goed voorbeeld hier-van is de aandacht voor veelplegers. De mogelijkheid om veelplegers te kunnen volgen door de strafrechtsketen levert veel informatie over deze personen. Er is daarom vraag naar persoonsreconciliatie tussen de belangrijkste bronnen in de strafrechtsketen. Deze bronnen zijn externe onderzoeksbronnen, met name ge-schikt voor onderzoek naar delicten; er bevindt zich daardoor weinig persoons-informatie in de bronnen.

Het koppelen van informatiebronnen zonder aanwezigheid van sterke sleutels is de eerste stap naar de bouw van een datawarehouse. In dit datawarehouse wor-den verschillende informatiebronnen opgenomen, waarbij de gemeenschappe-lijke entiteittypen zoveel mogelijk worden geconcilieerd. In de eerste versie van het datawarehouse zijn de bronnen HKS, OMDATA en OBJD opgenomen. 1.3 Probleemstelling

Als twee informatiebronnen objectgelijke entiteiten bevatten, dan is het waar-devol om deze te reconciliëren. Hiervoor is gemeenschappelijke informatie (‘overlap’) nodig. Hierbij is het mogelijk dat de overlap in het bijbehorende entiteittype te beperkt is. De overlap bij andere gerelateerde entiteittypen kan dan worden ingezet.

De centrale probleemstelling luidt nu:

‘Hoe kunnen objectgelijke entiteiten gereconcilieerd worden ondanks beperkte overlap?’

(14)

Deze probleemstelling kan worden onderverdeeld in een aantal onderzoeks-vragen. Bij reconciliëren van objectgelijke entiteiten wordt gebruik gemaakt van de overlap tussen de informatiebronnen. Hieruit komen twee onderzoeksvragen voort:

⎯ Hoe kan de overlap tussen twee informatiebronnen gedefinieerd worden? ⎯ Hoe kan de overlap gebruikt worden in het reconciliëren van objectgelijke

entiteiten?

Ondanks een beperkte overlap wordt gezocht naar mogelijkheden om een ge-meenschappelijk entiteittype te conciliëren. Hierbij rijst de vraag of er voldoen-de overlap is om een kwalitatief goevoldoen-de conciliatie te maken. Om dit te kunnen beoordelen is zowel de kwaliteit van de gebruikte gegevens als de kwaliteit van de uiteindelijke conciliatie van belang.

⎯ Hoe kan de kwaliteit van de conciliatie en de gebruikte gegevens uit informatiebronnen bepaald worden?

De kwaliteit van de gebruikte gegevens is afhankelijk van de hoeveelheid incon-sistente en missende gegevens. Wat onder de kwaliteit van de conciliatie wordt verstaan, wordt in dit onderzoek verder uitgewerkt. Het verbeteren van de kwa-liteit is geen onderdeel van dit onderzoek, voor zover het geen betrekking heeft op het beschrijven van de overlap en de implementatie van de theorie.

1.4 Doelstellingen

Het doel van dit onderzoek is het ontwikkelen en toetsen van een theorie om twee gemeenschappelijke entiteittypen te conciliëren zonder de aanwezigheid van gemeenschappelijke sterke sleutels. Om de bijbehorende onderzoeksvragen te kunnen beantwoorden, zijn de volgende doelstellingen opgesteld.

⎯ Verkrijgen van informatie vergemakkelijken door onderzoek te doen naar algemeen inzetbare koppelingstechnieken, met als uiteindelijk doel het con-ciliëren van (de gemeenschappelijke entiteittypen in) informatiebronnen. ⎯ Verduidelijken van de informatie door de definities van de

informatiebron-nen een belangrijke rol te laten spelen in:

− het reconciliëren van objectgelijke entiteiten;

− de definities van het gemeenschappelijk informatiemodel; − kwaliteitsbewaking.

⎯ Bepalen van de kwaliteit van de conciliatie en de inhoud van de bronnen, met als doel:

− inzicht krijgen in de onzekerheden tijdens en na het uitvoeren van de conciliatie;

− de kwaliteit vaststellen van de oorspronkelijke informatiebronnen, zo-dat deze eventueel verbeterd kan worden;

− de kwaliteit vaststellen van de gereconcilieerde informatie, zodat hier in analyses rekening mee gehouden kan worden.

De doelstellingen zullen, samen met de antwoorden op de onderzoeksvragen, besproken worden in hoofdstuk 7.

(15)

1.5 Aanpak

Een beproefde manier om objectgelijke entiteiten te reconciliëren is het gebruik maken van gemeenschappelijke attributen met semantische gelijkheid (gelijk-heid qua betekenis). Op basis van definities wordt een analyse gemaakt van deze attributen. Daarna worden uitgebreide interviews gevoerd met bronexperts met als doel het verifiëren van de gevonden semantische overlap en het inven-tariseren van overige overlap. Deze inventarisatie leidt uiteindelijk tot een ver-zameling expertkennis waarmee de gelijkenis tussen twee entiteiten beschreven kan worden. Uit deze expertkennis wordt een informatiemodel afgeleid dat bestaat uit de gemeenschappelijke entiteittypen.

Het theoretische deel van dit onderzoek beschrijft hoe gelijkenis op verschillen-de plaatsen in het informatiemoverschillen-del bijdraagt aan verschillen-de gelijkenis van één centraal gemeenschappelijk entiteittype: de objectgelijkenis. De objectgelijkenis wordt vervolgens gebruikt in de reconciliatie van objectgelijke entiteiten. De theorie wordt getoetst door middel van een casus. Er wordt een prototype ontwikkeld waarin het mogelijk is de expertkennis en het gemeenschappelijk informatie-model te gebruiken om entiteiten te reconciliëren. Bovendien slaat het proto-type informatie op over de gemaakte conciliatie. De resultaten worden vervol-gens getoetst op kwaliteit, zowel de kwaliteit van de conciliatie als de kwaliteit van de oorspronkelijke informatiebronnen.

1.6 Opbouw

De opbouw van deze scriptie is als volgt; in hoofdstuk 2 wordt de onderzoeks-omgeving en het theoretisch kader geschetst. Hoofdstuk 3 beschrijft de theorie die ontwikkeld is om objectgelijke entiteiten te reconciliëren ondanks beperkte overlap. Hoofdstuk 4 behandelt de casus die gebruikt is om de theorie in de praktijk te toetsen. Hoofdstuk 5 bespreekt EROS; het prototype waarmee de con-ciliatie van de casus is uitgevoerd. In hoofdstuk 6 worden de resultaten van de conciliatie geanalyseerd; zowel de kwaliteit als de correctheid van de gemaakte conciliatie. De probleemstelling en onderzoeksvragen worden besproken in hoofdstuk 7. Hierin zijn ook de conclusies en aanbevelingen opgenomen.

(16)

(17)

2 Achtergrond

Dit hoofdstuk beschrijft de onderzoeksomgeving — waarin het onderzoek is uitgevoerd — en het onderzoeksgebied — waarin het onderzoek zich afspeelt.

2.1 Gegevensgebied

In dit onderzoek zijn drie informatiebronnen gebruikt, die allemaal een deel van de strafrechtsketen betreffen:

⎯ het Herkenningsdienstsysteem (HKS), registratie van processen-verbaal van aangifte van misdrijven;

⎯ OMDATA, een informatiesysteem van het Parket-Generaal van het Open-baar Ministerie;

⎯ de OBJD, een afgeleide van het Justitieel Documentatie Systeem (JDS) waarin strafbladen worden bijgehouden.

Deze paragraaf bespreekt allereerst de objecten die in de informatiebronnen voorkomen. Daarna worden de informatiebronnen zelf, alsmede hun onderlinge relatie, kort besproken. Bij de uitwerking van de casus (hoofdstuk 4) wordt ver-der ingegaan op het gebruik van de informatiebronnen.

2.1.1 Definities

Om de structuur van de informatiebronnen goed te kunnen begrijpen, is het van belang de objecten binnen de strafrechtsketen te kennen. Sommige objectdefi-nities hebben in de brondefiobjectdefi-nities verschillende synoniemen, welke hieronder ook genoemd worden.

Persoon

In dit onderzoek wordt gesproken over personen en persoonsreconciliatie. Bin-nen de strafrechtsketen kan een persoon verdachte (of dader) en/of slachtoffer zijn. In deze drie informatiebronnen staan personen als verdachte of dader cen-traal. De term Persoon verwijst dan ook naar deze rol van het object Persoon.

Proces-verbaal

Tegen een verdachte kunnen één of meer processen-verbaal (pv’s) gemaakt worden. Een andere term voor proces-verbaal is antecedent. Een proces-verbaal, oftewel antecedent, kan bestaan uit één of meer misdrijven (delicten).

Zaak

Een (straf)zaak wordt bij het Openbaar Ministerie en de zittende magistratuur gedefinieerd als ‘een proces-verbaal tegen één verdachte wegens één of meer strafbare feiten, dat bij het Openbaar Ministerie staat ingeschreven ter (verdere) afhandeling’. Eén verdachte (persoon) kan meer dan één strafbaar feit hebben gepleegd, terwijl anderzijds bij één strafbaar feit meerdere verdachten betrokken kunnen zijn. Zaken kunnen gekoppeld worden door een gezamenlijk parket-nummer of parketparket-nummerreeks. Doordat meerdere zaken samengevoegd

(18)

kun-nen worden, is het in de praktijk zo dat er meerdere processen-verbaal onder een zaak geregistreerd kunnen staan.

Delict

Een delict is een misdrijf gepleegd door een verdachte. Delicten worden ook wel

strafbare feiten (kortweg feiten) genoemd. Een delict wordt beschreven door één

of meer wetsartikelen. Verder worden delicten ingedeeld in rubrieken en sub-rubrieken volgens de CBS-standaardclassificatie.

Overig

Naast bovengenoemde objecten bevat elke informatiebron nog meer objecten, zoals zittingen in OMDATA. Deze objecten spelen, zoals later blijkt, geen rol in het onderzoek en worden daarom niet verder genoemd.

2.1.2 Overzicht

De relaties tussen bovengenoemde objecten zijn, gezien vanuit de strafrechts-keten, weergegeven in figuur 3.

Figuur 3 Relatie tussen de entiteittypen in de strafrechtsketen

Vervolging en berechting Opsporing Persoon PV Delict Wetsartikel Zaak PV Delict Wetsartikel Persoon

‘Loopbaan’ van een persoon

In de loop van de strafrechtsketen komt het entiteittype Zaak erbij: een proces-verbaal wordt onder een zaak geplaatst zodra het door het Openbaar Ministerie in behandeling wordt genomen. Het HKS valt onder opsporing, OMDATA en OBJD onder vervolging en berechting.

In bijlage A (zie bijlage 1) is meer achtergrondinformatie te vinden over de infor-matiebronnen. Voor de beeldvorming worden in deze paragraaf enkel de karak-teristieken van de informatiebronnen getoond. De OBJD is uiteindelijk niet gebruikt in de conciliatie en wordt daarom niet genoemd. In de toetsing wordt een referentieset gebruikt, waarvan ook de karakteristieken worden getoond.

(19)

Tabel 1 Karakteristieken HKS

Object Aantal Referentieset

Personen 932.064 10.000

Processen-verbaal 2.454.625 36.576

Delicten 10.248.943 76.440

Tabel 2 Karakteristieken OMDATA

Object Aantal Referentieset

Personen onbekend 8.705

Processen-verbaal 7.250.133 42.749

Delicten 8.498.824 106.308

2.2 Onderzoeksgebied

Door middel van literatuuronderzoek is het wetenschappelijk gebied rond dit onderzoek in kaart gebracht. Een uitgebreid verslag hiervan is te vinden in bij-lage B (zie bijbij-lage 1). Deze paragraaf bespreekt beknopt het onderzoeksgebied. Eén van de doelstellingen in dit onderzoek is het conciliëren van gemeenschap-pelijke entiteittypen. Om dit te kunnen doen moeten de schema’s van de ver-schillende bronnen — ten minste voor wat betreft de gemeenschappelijke en-titeittypen — worden geïntegreerd. Bij schema-integratie zijn twee gebieden te onderscheiden: schema-integratie met gemeenschappelijke sleutels (Agarwal et al., 1995; Kim et al., 1993; DeMichiel, 1989; Lim, Srivastava & Prakhakar, 1993) en

zonder gemeenschappelijke sleutels (Dey et al., 2002; Wang & Madnick, 1989).

Dit onderzoek vindt plaats in het laatste gebied.

Bij schema-integratie zonder gemeenschappelijke sleutels is het kernprobleem het identificeren en koppelen van entiteiten die naar hetzelfde object in de reële wereld verwijzen. Dit probleem staat bekend onder meerdere termen (entity

heterogeneity (Dey et al., 1998), instance identification (Wang & Madnick, 1989), merge/purge problem (Gass, 1986), object isomerism (Chen et al., 1996), common identifier problem (Hérnandez & Stolfo, 1995)); in dit onderzoek wordt de term

entiteitreconciliatie gebruikt (Dey et al., 2002) omdat deze term het beste aan-sluit op dit onderzoek. De eerder genoemde studies geven een oplossing voor dit probleem door de gemeenschappelijke entiteittypen afzonderlijk te bekijken. Dit onderzoek neemt een nieuwe invalshoek door een centraal gemeenschappe-lijk entiteittype te kiezen, waarin ook de omliggende entiteittypen bijdragen aan de conciliatie. Hierover is meer te lezen in paragraaf 3.2.

Wanneer er geen gemeenschappelijke sleutels voor handen zijn, moeten er an-dere attributen gebruikt worden voor de entiteitreconciliatie. Hiermee bevindt het onderzoek zich ook in het gebied van attribuutselectie. Bij entiteitreconci-liatie wordt gezocht naar attributen met gelijke semantische betekenis of een andere mogelijkheid om de gelijkenis tussen twee entiteiten te bepalen. Dit kan automatisch gebeuren, op basis van definitie (Czejdo et al., 1987; Breitbart et al., 2003; Templeton et al., 1987) of op basis van inhoud (Kim et al., 1993; DeMichiel, 1989). Het kan ook gebeuren door bronexperts of door een combi-natie van beide (Dey et al., 2002). Bij automatische attribuutselectie spelen vele

(20)

problemen een rol (Dey et al., 2002; Cohen, 1998; Monge & Elkan, 1996), waar dit onderzoek zich niet op concentreert. Voor de beschrijving van gelijkenis wordt gebruik gemaakt van expertkennis. De complexiteit van attribuutselectie speelt daarom niet in dit onderzoek: de attribuutselectie is onderdeel van de beschrijving van gelijkenis.

Bij het koppelen van informatiebronnen kan inconsistentie van attribuutwaar-den een rol spelen. In dit onderzoek zeggen conflicterende attribuutwaarattribuutwaar-den iets over de kwaliteit van de informatiebronnen en/of de reconciliaties: één van de doelen van dit onderzoek. De informatie over conflicterende attribuutwaar-den kan later gebruikt worattribuutwaar-den door in de bevraging van de geconcilieerde ge

-gevens te werken met onzekerheid en onwetendheid. Choenni et al. (2004, 2006) bespreken hoe deze informatie gebruikt kan worden in relationele informatie-bronnen.

Het identificeren van entiteiten kan een probleem zijn (Lim et al., 1993; Prabha-kar et al., 1993). In dit onderzoek wordt aangenomen dat de te reconciliëren en-titeiten per bron identificeerbaar zijn, d.w.z. door middel van een sterke sleutel terug te vinden zijn. Deze sleutel is niet gemeenschappelijk.

(21)

3 Theorie

Dit hoofdstuk bespreekt de theorie die ontwikkeld is om een antwoord te kun-nen geven op de centrale probleemstelling, die betrekking heeft op entiteit-reconciliatie ondanks beperkte overlap. De eerste paragraaf bespreekt hoe overlap gedefinieerd kan worden door gemeenschappelijke eigenschappen op attribuutniveau te beschrijven. De tweede paragraaf bespreekt hoe de gelijkenis gemodelleerd kan worden rond het gemeenschappelijke entiteittype dat gecon-cilieerd wordt. In de derde paragraaf wordt beschreven hoe uit gelijkenis op attribuutniveau de objectgelijkenis tussen twee entiteiten van het gemeenschap-pelijk entiteittype wordt berekend. De reconciliatie van objectgelijke entiteiten wordt besproken in de vierde paragraaf. In paragraaf 3.5 is de theorie formeel uitgewerkt. Paragraaf 3.6 geeft een korte bespreking van de theorie, gevolgd door een conclusie.

3.1 Beschrijving van gelijkenis

Objectgelijke entiteiten worden bij elkaar gezocht op basis van gelijkenis. Deze paragraaf laat zien dat gelijkenis beschreven kan worden aan de hand van de positie tussen twee waarden die dezelfde eigenschap beschrijven. Deze beschrij-ving van gelijkenis berust op de werkelijkheid en is daarom onafhankelijk van de inhoud van de informatiebronnen.

3.1.1 Definitie van gelijkenis

In de wiskunde wordt gelijkheid tussen twee elementen, zoals entiteiten en attribuutwaarden, geschreven als een binaire relatie met twee uitkomsten: on-gelijk (0) of on-gelijk (1). Gelijkenis gaat hierin nog een stap verder, en staat ook uit-komsten tussen 0 en 1 toe. Ook in dit onderzoek worden elementen met elkaar vergeleken. Hierbij wordt beschreven in welke mate de twee elementen object-gelijk kunnen zijn (naar hetzelfde object verwijzen). Hoe meer de gemeenschap-pelijke informatie tussen twee elementen overlapt, hoe groter de mate van ob-jectgelijkenis. De regels om objectgelijkenis te beschrijven worden vastgelegd in een definitie.

Definitie. Een gelijkeniswaarde beschrijft de mate van objectgelijkenis tussen

twee elementen. De waarde ligt in het interval [0,1] en kan daarnaast ook de waarde n.a. (not available, niet beschikbaar) aannemen als de mate van object-gelijkenis door onwetendheid niet bepaald kan worden.

Een gelijkeniswaarde van 0 betekent ongelijkheid; de twee vergeleken elementen kunnen niet bij hetzelfde object horen. Een gelijkeniswaarde van 1 betekent maximale overlap in de elementen. Dit hoeft echter niet te betekenen dat de objecten gelijk zijn. Het is immers mogelijk dat de objecten nog door andere elementen beschreven worden. In sommige gevallen is het niet mogelijk om de objectgelijkenis tussen twee elementen te bepalen, bijvoorbeeld als één van de elementen informatie mist.

(22)

3.1.2 Gemeenschappelijke eigenschappen

Gegeven twee informatiebronnen D1 en D2 en twee attributen A1 ∈ D1 en A2 ∈

D2 die gemeenschappelijke informatie bevatten. De attribuutwaarden van A1

en A2 worden genoteerd als a1 en a2 enzijn objectgelijk als ze tot objectgelijke

entiteiten behoren. Als A1 en A2 semantisch gelijk zijn, dan levert de vergelijking

van a1 en a2 — afgezien van representatieverschillen, etc. — een gelijkeniswaarde

van 0 of 1 op als respectievelijk a1=a2 of a1≠a2. Als A1 en A2 niet semantisch gelijk

zijn, dan kan er toch een bepaald verband bestaan. Dit verband wordt gedefi-nieerd door onderlinge positionering (kortweg positie).

Afhankelijk van de attributen kan de positie op verschillende manieren bere-kend worden (Dey et al., 2002). Voor numerieke attributen (inclusief datums) kan het verschil bijvoorbeeld berekend worden door aftrekking. Als A1 en A2 één

gemeenschappelijke eigenschap beschrijven, dan concentreert de positie tussen twee objectgelijke waarden zich rond één verwachte waarde (d0). Zo geldt voor

semantisch gelijke attributen: d0=0. Voor semantisch ongelijke attributen moet

een positie berekend worden. Deze positie hoeft niet altijd exact gelijk zijn aan de verwachte waarde, maar zal hier wel in de buurt liggen. Dit gedrag kan be-schreven worden door een positieverdeling. Een positie in de positieverdeling wordt vervolgens door middel van een gelijkenisfunctie omgezet in een gelijke-niswaarde.

Voorbeeld. Gegeven een gemeenschappelijke eigenschap van een misdrijf die

het verband tussen de pleegdatum en de datum waarop het proces-verbaal is opgemaakt, beschrijft. De meeste processen-verbaal worden op dezelfde dag opgemaakt, er geldt: d0=0. Figuur 4 toont de verwachte positieverdeling (links)

en de bijbehorende gelijkenisfunctie (rechts).

Figuur 4 Positieverdeling en frequentiefunctie (l) en gelijkheidsfunctie (r)

0 4 8 12 16 → positie Frequentie Trendlijn 0 0,2 0,4 0,6 0,8 1 0 4 8 12 16 → positie

Definitie. Een positieverdeling is een histogram van de verwachte frequenties

van posities tussen objectgelijke waarden: de frequenties van de posities worden uitgezet tegen de posities zelf.

Definitie. De frequentiefunctie freq(d) benadert de positieverdeling voor een

positie d. Het maximum van de frequentiefunctie is de frequentie van de ver-wachte positie freq(d0).

(23)

Definitie. De gelijkenisfunctie sim(a1, a2) berekent de gelijkeniswaarde van een

gemeenschappelijke eigenschap en wordt gedefinieerd als: ) ( )) , ( ( ) , ( 0 2 1 2 1 d freq a a freq a a sim = δ

Doordat de frequentie gedeeld wordt door het maximum van de frequentie-functie, heeft de gelijkenisfunctie een bereik van 0 tot en met 1. Als de positie

δ(a1, a2) niet bepaald kan worden, dan heeft de gelijkenisfunctie als uitkomst

n.a.

Voor sterke eigenschappen levert de gelijkenisfunctie een duidelijke scheiding tussen objectgelijke waarden en waarden die dit niet zijn. Hoe zwakker de eigenschappen, hoe meer interferentie er optreedt van objectongelijke waarden. Door het instellen van een betrouwbaarheidsinterval zou een grens bepaald kunnen worden. Dit wordt overgelaten aan toekomstig onderzoek.

Meerdere positieverdelingen

Tot nu toe is uitgegaan van attributen die slechts één gemeenschappelijke eigenschap beschrijven. Attributen met meer gemeenschappelijke eigenschap-pen kunnen echter ook beschreven worden, als voor elke attribuutwaarde be-paald kan worden welke eigenschap beschreven wordt. Zodoende zijn verschil-lende gelijkenisfuncties te definiëren voor elke gemeenschappelijke eigenschap, waarbij de domeinen van de gelijkenisfuncties paarsgewijs disjunct (d.w.z. geen gemeenschappelijke elementen hebben) zijn.

Voorbeeld. Gegeven een attribuut met twee gemeenschappelijke eigenschappen

waarbij de pleegdatum van een misdrijf wordt vergeleken met de datum van het eindvonnis. Stel, er zijn twee soorten vonnissen; een vonnis voor snelrecht en een vonnis voor andere zaken. De verwachte positie tussen pleegdatum en eind-vonnis is voor snelrechtzaken veel kleiner dan voor andere zaken. Stel dat het histogram er als volgt uit ziet (de posities zijn weken):

Figuur 5 Positieverdeling voor snelrecht en overige zaken samen

0 4 8 12

→ positie

Het histogram heeft twee lokale maxima op de posities 5 en 11; voor elke ge-meenschappelijke eigenschap één. Door de eigenschappen te scheiden, kan voor allebei een positieverdeling worden vastgesteld. Elke positieverdeling heeft

(24)

zijn eigen gelijkenisfunctie, waardoor de piek in figuur 6 (links) nu ook maxi-male gelijkenis oplevert.

Figuur 6 Positieverdeling en frequentiefunctie voor snelrecht (links, d0=5) en

voor overige zaken (rechts, d0=11)

0 4 8 12

→ positie

0 4 8 12

→ positie

Ruis

In sommige gevallen kan de positie tussen twee objectgelijke waarden extreem afwijken van de verwachting. Dit soort gevallen wordt ruis genoemd. In de fre-quentiefunctie krijgen deze gevallen zo’n lage waarde, dat de gelijkenis nage-noeg nul is. Als het belangrijk is om de ruis op te vangen, dan moet de gelijkenis voor deze gevallen verhoogd worden. Ruis is echter niet te onderscheiden van reële posities. Daarom worden alle waarden in de omgeving verhoogd tot aan de zogenaamde ruisdrempel. De ruisdrempel is een zwaar middel, omdat ook het vergelijken van objectongelijke waarden hiermee meer gelijkenis oplevert. De ruisdrempel moet daarom alleen worden ingezet voor de posities waar de ruis verwacht wordt.

Voorbeeld. Gegeven het voorbeeld in figuur 4. Stel dat 90% van de

processen-verbaal binnen een week wordt opgemaakt, van de overige 10% is het onbekend. De enige zekerheid is volgens bronexperts dat een proces-verbaal binnen een jaar wordt opgemaakt. Van de 90% kan een betrouwbare positieverdeling wor-den gemaakt. De laatste 10% is op een onbekende manier verspreid over een jaar. Om deze 10% niet bij voorbaat uit te sluiten, kan gebruik worden gemaakt van een ruisdrempel. De ruisdrempel verhoogt de gelijkenis bij een positie tus-sen 7 dagen en een jaar net genoeg om meegeteld te worden.

3.1.3 Expertkennis

De expertkennis wordt geformaliseerd in kennisregels. Elke kennisregel be-schrijft hoe de gelijkenis tussen twee attributen berekend kan worden en levert gelijkeniswaarde op. Aangezien een attribuut meerdere eigenschappen kan be-schrijven, kan een kennisregel opgebouwd zijn uit meerdere gelijkenisfuncties.

Definitie. Gegeven twee attribuutwaarden a1 en a2 die n gemeenschappelijke

eigenschappen beschrijven. De domeinen van de attributen zijn respectievelijk

(25)

eigenschap i zijn respectievelijk D1,i en D2,i. Een gelijkenis uit een kennisregel

wordt nu gedefinieerd als:

⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ ∈ ∧ ∈ ∈ ∧ ∈ ∈ ∧ ∈ = anders . . als ) , ( als ) , ( als ) , ( , 2 2 , 1 1 2 1 2 , 2 2 2 , 1 1 2 1 2 1 , 2 2 1 , 1 1 2 1 1 a n D a D a a a sim D a D a a a sim D a D a a a sim sim n n n rule M M

Niet elke kennisregel is even waardevol in de bepaling van gelijkenis. Sterk discriminerende attributen zijn waardevoller in de bepaling dan zwak discri-minerende attributen.

Voorbeeld. Gegeven twee sets van persoonsentiteiten — elk uit een andere

infor-matiebron — die vergeleken worden:

Tabel 3 Sets van persoonsentiteiten

Bron I Bron II

id geb.datum geslacht id geb.datum geslacht

1 01-01-1975 m a 01-01-1975 m 2 01-03-1980 m b 01-03-1980 m 3 23-04-1977 m c 23-04-1977 m 4 01-01-1975 v d 01-01-1975 v 5 15-02-1965 v e 15-02-1965 v 6 17-07-1974 v f 17-07-1974 v

Per attribuutwaarde wordt gekeken naar het aantal entiteitcombinaties dat mogelijk objectgelijk is:

Tabel 4 Mogelijkheden per attribuut

geb.datum mogelijkheden geslacht mogelijkheden

15-02-1965 1 m 9

17-07-1974 1 v 9

01-01-1975 4 23-04-1977 1 01-03-1980 1

Duidelijk is dat geboortedatum beter in staat is het aantal mogelijkheden te beperken dan geslacht. De kennisregel die de gemeenschappelijke eigenschap ‘geboortedatum’ beschrijft, krijgt daarom meer gewicht. Het bepalen van het gewicht van kennisregels valt onder expertkennis, maar kan automatisch bere-kend worden door de mate van discriminatie om te zetten in een gewicht. In bijlage C (zie bijlage 1) is dit verder uitgewerkt.

Verder kunnen bronexperts ook ruis beschrijven aan de hand van twee varia-belen: de ruisdrempel en het positiebereik waarover deze drempel geldt.

(26)

3.2 Modellering van gelijkenis

Deze paragraaf bespreekt de distributie van gelijkenis. De paragraaf laat zien dat het reconciliëren van objectgelijke entiteiten van één gemeenschappelijk entiteittype het meest efficiënt kan met één of meer hiërarchische informatie-modellen.

3.2.1 Attributen en knopen

Objectgelijke entiteiten worden bepaald door de gemeenschappelijke informatie tussen twee bronnen te vergelijken. De gemeenschappelijke informatie wordt beschreven door gemeenschappelijke eigenschappen, zoals besproken in para-graaf 3.1. Deze eigenschappen worden gerepresenteerd door attributen.

In een informatiebron kunnen meerdere objecten voorkomen. Dit onderzoek concentreert zich op objecten die in beide informatiebronnen voorkomen en dus een gemeenschappelijk entiteittype hebben. Door attributen te plaatsen onder deze objecten kunnen ze vergeleken worden. Een gemeenschappelijk entiteittype is immers een knooppunt tussen de informatiebronnen, waardoor de gemeenschappelijke eigenschap zich manifesteert in objectgelijke entiteiten.

Definitie. Objectgelijke attributen zijn attributen uit verschillende bronnen die

één of meerdere gemeenschappelijke eigenschap(pen) representeren, waaruit blijkt dat ze naar hetzelfde object verwijzen.

Definitie. Een knoop is een gemeenschappelijk entiteittype in twee

informatie-bronnen.

Definitie. Een centrumknoop is de knoop waarvoor conciliatie gewenst is.

Objectgelijke attributen beschrijven een gemeenschappelijke eigenschap2_en

zullen daarom meestal behoren tot een gemeenschappelijk entiteittype. Als de attributen geen gemeenschappelijk entiteittype hebben of verschillende

entiteittypen hebben3_{, dan hoort de gemeenschappelijke eigenschap wel}

degelijk bij één gemeenschappelijk entiteittype. Het attribuut wordt dan onder de bijbehorende knoop geplaatst. Het plaatsen van objectgelijke attributen bij de bijbehorende knoop is nodig voor een goede vergelijking.

Voorbeeld. Personen worden vergeleken met behulp van twee

delicteigenschappen: pleegdatum en delictsoort. Gegeven twee objectongelijke persoonsentiteiten uit verschillende bronnen:

Tabel 5 Objectongelijke persoonsentiteiten uit verschillende bronnen

Entiteiten uit bron I Entiteiten uit bron II

Pleegdatum Delictsoort Pleegdatum Delictsoort

12-3-1980 geweld 12-3-1980 diefstal

5-11-1995 diefstal 5-11-1995 geweld

2 _{Bij meerdere eigenschappen, die naar verschillende entiteittypen verwijzen, kan het attribuut}

worden geplaatst onder meerdere entiteittypen. Alleen de eigenschappen die het entiteittype beschrijven worden dan vergeleken.

(27)

Als de attributen onder Persoon geplaatst worden, dan zijn ze meerwaardig. Voor beide entiteiten geldt dan: pleegdatum={12-3-1980, 5-11-1995} en delict-soort={geweld, diefstal}. De persoonsentiteiten zouden gelijk zijn. Door de attri-buten onder Delict te plaatsen, worden de delicten onder persoon vergeleken. Het is duidelijk dat de delicten onder de entiteit uit bron I niet gelijk zijn aan de delicten onder de entiteit uit bron II. Als gevolg hiervan zijn de persoons-entiteiten ook objectongelijk.

3.2.2 Distributie van gelijkenis

De objectgelijke attributen zijn nu toegekend aan knopen. Deze knopen hebben een relatie met de centrumknoop, anders kunnen de attributen het centrale object niet beschrijven. De relaties zijn binair; relaties met een hogere graad worden later in deze paragraaf besproken. Uiteindelijk moeten de ge-lijkeniswaarden uit attribuutvergelijkingen bij de centrumknoop komen. Het doorgeven (‘distributie’) van gelijkenis wordt beschreven als een gerichte graaf G = (V,E,c), met de verzameling van knopen V, de verzameling van pijlen

} |

) ,

{(v c v V v c

E = ∈ ∧ ≠ en de centrumknoop c. De graaf die de distributie van gelijkenis beschrijft, wordt de gelijkenisdistributie genoemd. Later in deze para-graaf wordt een exacte definitie van dit begrip gegeven.

De gelijkenisdistributie zoals hierboven beschreven, is een ster met pijlen naar het middelpunt: de centrumknoop. Knopen onderling kunnen echter ook een relatie hebben. Elke knoop is immers een object op zich, dat mede beschreven kan worden door andere knopen. Aangezien elke knoop mede de gelijkenis van de centrumknoop beschrijft, is het wenselijk elke knoop zo goed mogelijk te beschrijven. In de gelijkenisdistributie worden gerichte lijnen geplaatst tussen knopen met een directe relatie.

Voorbeeld. Stel, er is een gelijkenisdistributie G(V,E,c) met V = {A,B,C}, E =

{AC,BC} en c = C. Stel nu dat de relatie AB ook bestaat. Dan is de opname van de relatie AC gebaseerd op de transitieve afsluiting AB∧ BC→ AC. In dit geval moet niet AC, maar AB worden opgenomen: E’ = {AB,BC}. Een concreet voor-beeld: een persoon (C) wordt beschreven door zijn processen-verbaal (B) en de delicten op deze verbaal (A). De delicten beschrijven de processen-verbaal (AB) en daarmee uiteindelijk ook persoon (BC), maar ze beschrijven persoon niet rechtstreeks (AC). Door de gelijkenis van delicten door te geven via hun proces-verbaal, wordt het proces-verbaal ook beter beschreven. Als de gelijkenisdistributie een lus of cykel bevat, dan beschrijft een knoop zichzelf of beschrijven twee knopen elkaar. Dit is niet mogelijk in één gelijke-nisdistributie; de oplossing hiervoor wordt later in deze paragraaf gegeven. De gelijkenis in de gelijkenisdistributie wordt in de richting van de centrumknoop doorgegeven. Er is daarom sprake van een georiënteerde graaf (een gerichte graaf zonder lussen). Verder is de gelijkenisdistributie samenhangend, omdat elke knoop een pad heeft naar de centrumknoop. De gelijkenisdistributie kan nu als volgt gedefinieerd worden.

(28)

Definitie. Een gelijkenisdistributie G(V,E,c) is een georiënteerde samenhangende

graaf, waarin ∀v ∈V :v ~*c(elke knoop heeft een pad naar de centrumknoop

c).

Een pijl in de gelijkenisdistributie betekent dat de gelijkenis van een knoop naar een andere knoop moet worden doorgegeven. De gelijkenis in een knoop kan pas berekend worden als de gerelateerde knopen achter alle inkomende pijlen zijn berekend, d.w.z. de gelijkenis van de andere knoop bekend is. In een grafi-sche representatie worden pijlen vervangen door bollen om verwarring met de notatie in datamodellen te voorkomen. Verder wordt de centrumknoop weer-gegeven tussen blokhaken.

Figuur 7 Knoop A distribueert gelijkenis naar centrumknoop B

Binnen de gelijkenisdistributie worden twee soorten gelijkenis gedefinieerd.

Definitie. De entiteitgelijkenis sA beschrijft de gelijkenis binnen een knoop A. Definitie. De objectgelijkenis S(A) is de formule voor de totale gelijkenis in A.

De formule voor objectgelijkenis S(A) bestaat uit de entiteitgelijkenis van A en de objectgelijkenis van knopen achter inkomende pijlen naar A. Binnen de for-mule S(A) wordt de operator

⊕

gebruikt, die de verschillende gelijkeniswaarden combineert. De operator en entiteitgelijkenis wordt uitgewerkt in paragraaf 3.3. Voor nu gedragen zij zich respectievelijk als een vermenigvuldiger en constante.

Voorbeeld. Gegeven de gelijkenisdistributie G(V,E,c) met V={A,B}, E={AB} en c=B.

Er geldt: S(A)=sA en S(B)= S(A)

⊕

sB.

Eén van de eigenschappen die volgt uit de definitie van de gelijkenisdistributie is dat er altijd minstens één knoop is met enkel uitgaande pijlen. Door dit gegeven kan de gelijkenis in elke knoop berekend worden met het volgende algoritme.

1 Bereken de objectgelijkenis van knopen met ingraad 0. Voor deze knopen is de objectgelijkenis gelijk aan de entiteitgelijkenis.

2 Distribueer de objectgelijkenis over de uitgaande pijlen naar gerelateerde knopen.

3 Bereken de objectgelijkenis van de gerelateerde knopen, waarvoor alle inkomende objectgelijkenis berekend is.

4 Herhaal stap 2 en 3 totdat de objectgelijkenis in elke knoop berekend is.

Figuur 8 Voorbeeld van een gelijkenisdistributie

[ B] A

(29)

Voorbeeld. Gegeven de gelijkenisdistributie uit figuur 8. In stap 1 worden Land

en Wetsartikel berekend. In stap 2 wordt de objectgelijkenis van Land en Wets-artikel gedistribueerd naar respectievelijk Persoon en Delict. In stap 3 wordt Delict berekend. Vervolgens wordt stap 2 herhaald door de objectgelijkenis van Delict te distribueren naar Persoon en wordt in stap 3 de objectgelijkenis van Persoon berekend.

De knopen in het voorbeeld worden in een bepaalde volgorde berekend, die afhankelijk is van de gelijkenisdistributie. Als laatste wordt de objectgelijkenis van de centrumknoop berekend. De volgorde waarin objectgelijkenis wordt berekend, wordt weergegeven in een gelijkenisstelsel.

Definitie. Het gelijkenisstelsel S bevat de formules voor objectgelijkenis in de

volgorde waarin ze opgelost kunnen worden. Onderaan staat de objectgelijkenis voor de centrumknoop.

Voorbeeld. Gegeven de gelijkenisdistributie G uit het vorige voorbeeld. Er geldt:

⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ ⊕ ⊕ = ⊕ = = = = ) ( ) ( ) ( ) ( ) ( ) ( ) ( D S s L S P S W S s D S s L S s W S S P D L W

Door distributie van gelijkenis van boven naar beneden geldt uiteindelijk S(P)=sL

⊕

sP

⊕

sD

⊕

sW.

In een gelijkenisdistributie kunnen lussen, cykels en relaties met een hogere graad dan binair (zoals ternair) niet worden weergegeven. Toch kan voor deze gevallen een gelijkenisstelsel worden opgesteld, waarmee de objectgelijkenis effectief berekend wordt.

Een cykel in de gelijkenisdistributie betekent dat knopen elkaar, eventueel via andere knopen, beschrijven. Een cykel kan opgelost worden door een lijn weg te halen. Als de knopen daarna te slecht beschreven worden, dan is de cykel on-misbaar. Een (onmisbare) cykel kan beschreven worden in twee formules door de recursie — die ontstaat door elkaar beschrijvende knopen — te verwijderen, zoals het volgende voorbeeld laat zien.

Voorbeeld. Gegeven een gelijkenisdistributie G=(V,E,c) met V={A,B}, E={AB,BA} en c=B. Er geldt: S(A)=sA

⊕

S(B) en S(B)=sB

⊕

S(A). Dit stelsel is onoplosbaar. Door eerst A te berekenen met alleen de entiteitgelijkenis uit B is het stelsel wel oplos-baar: S(A)=sA

⊕

sB en S(B)=sB

⊕

S(A).

Relaties met een hogere graad dan binair worden beschreven aan de hand van een ternaire relatie. Stel, de knopen A, B en C hebben een ternaire relatie. Deze knopen beschrijven elkaar, anders is het niet nodig de relatie in de gelijkenis-berekening op te nemen. In een ternaire relatie wordt elke knoop beschreven door twee andere knopen. Er geldt: S(A)=sA

⊕

S(B)

⊕

S(C), S(B)=S(A)

⊕

sB

⊕

S(C) en S(C)=S(A)

⊕

S(B)

⊕

sC. De knopen vormen een cykel. Door deze cykel op te lossen, vervalt — in de berekening — de (ternaire) relatie tussen de knopen.

(30)

Meer gevallen uit de E/R modellering worden hier niet besproken, zoals relaties met attributen, generalisaties en specialisaties. Al deze gevallen kunnen, om in deze theorie te passen, worden omgezet naar entiteittypen door elk ‘record’ een uniek getal toe te kennen. Zo zijn ze geschikt om als knopen gebruikt te worden.

3.2.3 Informatiemodel

In een gelijkenisstelsel zoals beschreven in de vorige paragraaf wordt de gelij-kenis knoop voor knoop berekend. Hierbij worden alle mogelijke combinaties berekend, terwijl dit wellicht niet nodig is. Omdat in dit onderzoek gewerkt wordt met grote informatiebronnen, wordt gezocht naar een manier om zo min mogelijk combinaties door te rekenen.

Voorbeeld. Gegeven de gelijkenisdistributie uit figuur 8, alleen zonder de knoop

Wetsartikel. Het algoritme uit de vorige paragraaf berekent eerst Land (L) en Delict (D) en vervolgens Persoon (P). Er zijn echter veel minder landen dan personen, en veel minder personen dan delicten. Efficiënter zou dan ook zijn om alleen persooncombinaties te berekenen waarvoor de landcombinatie niet ongelijk (d.w.z. groter dan nul of n.a.) is en alleen delictcombinaties te bereke-nen waarvoor de persooncombinatie (tot dan toe) niet ongelijk is.

De distributie van gelijkenis is in bovenstaand voorbeeld te schrijven als een graaf G(V,E,c) met V = {L,P,D}, E = {LP,DP} en c = P. Daarnaast zegt het voorbeeld iets over de relaties tussen de knopen zelf. Als een landcombinatie ongelijk is, dan kunnen persooncombinaties met deze landcombinatie niet gelijk zijn. Deze persooncombinaties hoeven daarom niet eens vergeleken te worden.

Tabel 6 toont mogelijke vergelijkingen. Hiervoor worden de formules voor ob-jectgelijkenis uitgebreid met entiteitidentificaties. Zo levert de formule S(L)(1,2) de objectgelijkenis tussen landsentiteiten uit bron I en II met respectievelijk een identificatie van 1 en 2. De entiteitcombinaties en hun gelijkeniswaarden zijn voorbeelden.

Tabel 6 Verschillende combinaties

Landcombinaties Persooncombinaties Delictcombinaties

S(L)(1,1)=1 S(P)(1,1)=1 S(D)(1,1)=1 ... S(P)(2,2)=0,5 S(D)(2,2)=0 S(D)(2,3)=0,5 S(D)(3,2)=0,5 S(D)(3,3)=1 ... ... ... S(L)(1,2)=0,8 S(P)(1,3)=1 S(D)(1,4)=0,6 ... S(P)(2,4)=0 - (altijd ongelijk) ... ...

S(L)(1,3)=0 - (altijd ongelijk) - (altijd ongelijk)

... ... ...

Persoonscombinaties worden alleen berekend als de landcombinatie niet on-gelijk is. Evenzo worden delictcombinaties alleen berekend als de

(31)

persoons-combinatie berekend én niet ongelijk is. Het aantal vergelijkingen wordt hier-mee verlaagd. Hoe hier-meer vergelijkingen in een begin stadium ongelijkheid op-leveren, hoe efficiënter de gelijkenisberekening. In dit voorbeeld kan het aantal persoonsvergelijkingen verlaagd worden door clustering op landcombinaties. In deze gevallen wordt Persoon de kindknoop en Land de ouderknoop genoemd.

Definitie. In een één-op-meer relatie tussen twee knopen wordt de eerste knoop

de ouderknoop en de tweede knoop de kindknoop genoemd (één ouder heeft meerdere kinderen).

De clustering die in deze theorie gebruikt wordt, maakt gebruik van één ouder-knoop. Dit is een keuze die wordt toegelicht in bijlage C (zie bijlage 1). Kort samengevat wordt hierin besproken dat het clusteren met slechts één ouder vaak voldoende is, omdat maximale efficiëntie behaald wordt door gedeeltelijke clustering. Bovendien komen andere vormen van clustering uiteindelijk ook neer op clustering met één ouder.

De knopen in het voorbeeld vormen nu een hiërarchische structuur: Land (L) is ouder van Persoon (P) en Persoon is op zijn beurt weer ouder van Delict (D). Verder is het gelijkenisstelsel van de gelijkenisdistributie: S(L)=sL, S(D)=sD en S(P)=S(L)

⊕

sP

⊕

S(D). In de formule voor persoonsgelijkheid S(P) zijn de varia-belen gesorteerd volgens de hiërarchische structuur. Te zien is dat hierdoor de beoogde clustering ontstaat: als S(L) nul is, dan hoeft sP

⊕

S(D) niet meer bere-kend te worden: de uitkomst van de formule is altijd nul.

Voordat de clustering algemeen gedefinieerd wordt, wordt voor de leesbaarheid een verkorte notatie geïntroduceerd voor de variabelen in de formules; S(A) wordt geschreven als a en de constante sA als a. Verder wordt de operator weg-gelaten, zoals bij vermenigvuldiging vaker gebruikelijk is.

De formule voor objectgelijkenis in een centrumknoop (c) bestaat in het alge-meen uit maximaal één ouderknoop (o), de entiteitgelijkenis en kindknopen (k1..kn). De ouderknoop kan op zijn beurt weer een ouderknoop (p) en kind-nopen (l1..lm) hebben. Eén van de kinderen is de centrumknoop, stel lm=c. Eerst wordt een eenvoudig geval besproken met m=2 en n=1. Het gelijkenisstelsel S is dan: ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ = = = = = = 1 1 1 1 1 1 k c o c k k l o p o l l p p S

Het gelijkenisstelsel S kan geschreven worden in één formule c. Hiervoor worden alle formules ingevuld in c, waarbij ingevulde formules tussen haakjes geplaatst worden:

S = c = ((p)o(l1))c(k1)

De clustering is van links naar rechts af te lezen: als de entiteitgelijkenis uit p nul is, dan hoeft c niet berekend te worden, etc. Door het gebruik van de haakjes

(32)

zijn bovendien de ouder/kind relaties af te lezen: voor (a)b(c) geldt dat a een ouderknoop en c een kindknoop van b is. Het algemene gelijkenisstelsel S wordt nu:

S = c = ((p)o(l1..lm-1))c(k1..kn)

Een formule voor objectgelijkenis wordt grafisch weergegeven door middel van een informatiemodel.

Definitie. Een informatiemodel is een hiërarchisch datamodel van de knopen in een gelijkenisdistributie met hun ouder/kind relaties, waarmee een formule voor objectgelijkenis wordt weergegeven. In het informatiemodel worden soms ook de gebruikte attributen weergegeven.

Het informatiemodel is een hiërarchisch datamodel (Silberschatz et al., 2005) en heeft dus een boomstructuur. De wortel van de boom is gelijk aan de knoop die aan het begin van de formule staat.

Voorbeeld. Gegeven een gelijkenisdistributie G(V,E,c) met V={A,B,C,D,E,F,G,H},

E={AC,BA,DA,EB,FC,GC,HD} en c=C. De gelijkenisdistributie en clustering wordt beschreven door c = a(b(e)d(h))(c(fg)).

Figuur 9 Gelijkenisdistributie (l) en bijbehorend informatiemodel (r)

De gelijkenisdistributie wordt in dezelfde boomstructuur weergegeven als het informatiemodel. Op die manier kan aan de structuur van de gelijkenisdistri-butie het bijbehorende informatiemodel worden afgelezen (zie figuur 9). Uit voorgaande tekst blijkt dat de gewenste clustering alleen mogelijk is in een hiërarchische boomstructuur. Met andere woorden: de gelijkenisdistributie kan alleen gebruik maken van clustering als het bijbehorende informatiemodel een hiërarchisch datamodel is. Het hiërarchisch datamodel legt twee beperkingen op aan de gelijkenisdistributie:

⎯ meer-op-meer relaties zijn niet toegestaan ⎯ een knoop mag slechts één ouderknoop hebben

Voorbeeld. Gegeven een gelijkenisdistributie en het bijbehorende datamodel, met meer-op-meer relaties en een centrumknoop met meerdere ouderknopen:

(33)

In deze gelijkenisdistributie is clustering niet mogelijk. Stel, de gebruiker kiest uit de ouderknopen A, B en D de knoop A als ouderknoop voor clustering. De knopen B en D moeten dan vooraf bekend zijn. Ook de knopen F en G kunnen — vanwege de meer-op-meer relatie — niet geplaatst worden in één hiërarchisch informatiemodel; er ontstaan meerdere informatiemodellen, zoals weergegeven in figuur 11. Hierin zijn de informatiemodellen omrand. De virtuele relaties tus-sen knopen in verschillende modellen zijn gestippeld.

Figuur 11 Meerdere hiërarchische informatiemodellen

Deze procedure kan herhaald worden voor elk ontstaan datamodel, totdat alle datamodellen hiërarchisch zijn. Als de hiërarchische datamodellen vervolgens in omgekeerde volgorde worden berekend, dan zijn alle gelijkeniswaarden op het gewenste moment berekend. Bovendien wordt zoveel mogelijk gebruik gemaakt van clustering. Er ontstaat een gelijkenisstelsel, waarin elke formule de object-gelijkenis van een centrumknoop in een hiërarchisch model berekent. Bij figuur 11 hoort bijvoorbeeld het volgende gelijkenisstelsel S (in verkorte notatie).

⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ = = = = = = c g f d b a c g g f f h d d e b b S ) ( ) ( ) (

De gestippelde relaties in figuur 11 vormen een link tussen de verschillende in-formatiemodellen en geven aan dat de gelijkenis uit een ander informatiemodel afkomstig is. Deze relaties worden virtuele relaties genoemd, analoog aan de vir-tuele records die in een hiërarchische database model gebruikt worden. Virvir-tuele records bevatten een verwijzing naar het fysieke record, dat ergens anders is opgeslagen (Silberschatz, 2005). Virtuele relaties bevatten ook slechts een verwij-zing. Deze verwijzing wordt gebruikt om de gelijkenis uit het andere informatie-model op te halen.

Virtuele relaties — zoals in het gelijkenisstelsel S bij figuur 11 — worden voor de knoop geplaatst waarin ze nodig zijn, zonder gebruik van haakjes: het zijn immers geen ouder- of kindknopen. De gelijkeniswaarden uit virtuele records hoeven alleen maar opgehaald te worden uit het andere model en zijn dus snel te ‘berekenen’. In de clustering worden ze daarom nog voor de berekening van de knoop zelf geplaatst.

(34)

3.3 Berekening van gelijkenis

Deze paragraaf laat zien hoe de gelijkenis wordt berekend in een informatie-model. Bij het rekenen met gelijkenis wordt gebruik gemaakt van een gelijkenis-operator (

⊕

). De gelijkenisoperator wordt gebruikt om uit verschillende gelijke-niswaarden één waarde te berekenen. Een gelijkeniswaarde ligt in het interval [0, 1], maar kan ook de waarde n.a. aannemen. Verder wordt de waarde 0 ge-bruikt om aan te geven dat er geen gelijkheid kan bestaan. Uit deze eigenschap-pen van de gelijkeniswaarde kan het gedrag van de operator worden afgeleid. De operator berekent één gelijkeniswaarde uit meerdere gelijkeniswaarden. De gelijkeniswaarden tellen even zwaar: de operator berekent een gemiddelde over de gelijkeniswaarden die beschikbaar zijn. Door alleen een gemiddelde te bere-kenen over beschikbare waarden, is het bereik van alle vergelijkingen hetzelfde, namelijk in het interval [0, 1].

Definitie. Gegeven n gelijkeniswaarden a1, ..., an. De n-aire operator a1

⊕

...

⊕

an

wordt gedefinieerd als:

⎪ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎪ ⎨ ⎧ ∈ = ∈ ∀ = ∈ ∃ = ⊕ ⊕

∑

≠ ≠ anders } ,.., 1 { met , 1 . . : } ,..., { 0 : } ,..., { . . 0 ... . . . . 1 1 1 n i a a n a a a a a a a a a n a a a n a a n a i i n i i n i n i i

Voorbeeld. Gegeven twee gelijkeniswaarden a en b. Voor a

⊕

b geldt:

⎯ als a = 0

∨

b = 0, dan a

⊕

b = 0

⎯ als a = n.a., dan a

⊕

b = b

⎯ als b = n.a., dan a

⊕

b = a

⎯ in de overige gevallen geldt: a

⊕

b = (a + b) / 2

Stelling. De operator is commutatief (a

⊕

b = b

⊕

a) en niet associatief ((a

⊕

b)

⊕

c

≠ a

⊕

(b

⊕

c)).

Bewijs. Voor de eerste twee regels in de commutativiteit eenvoudig na te gaan.

Voor de laatste regel volgt dit uit de commutativiteit van de som-operator. Dat de operator niet associatief is, wordt bewezen door een tegenvoorbeeld. Stel, er zijn drie gelijkeniswaarden a=0.5, b=0.5 en c=1. Er geldt: (a

⊕

b)

⊕

c = (1/2)

⊕

1 = 0.5

⊕

1 = 1.5/2 = 0.75 en a

⊕

(b

⊕

c) = 0.5

⊕

(1.5/2) = 0.5

⊕

0.75 = 1.25/2 = 0.625. Dus (a

⊕

b)

⊕

c ≠ a

⊕

(b

⊕

c), de operator is niet associatief.

Gelijkeniswaarden uit kennisregels hebben een bepaald gewicht. In de huidige definitie telt elke waarde echter even zwaar. Stel een kennisregel heeft een gelijkeniswaarde a met een gewicht g. Dit wordt genoteerd als a[g]. De operator berekent nu een gewogen gemiddelde over de beschikbare gelijkeniswaarden. Er geldt:

(35)

Definitie. Gegeven n gewogen gelijkeniswaarden a1[g1], ..., an[gn]. De n-aire

operator wordt a1[g1]

⊕

...

⊕

an[gn] gedefinieerd als:

⎪ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎪ ⎨ ⎧ ∈ = ∈ ∀ = ∈ ∃ = ⊕ ⊕

∑

≠ ≠ anders } ,.., 1 { met , . . : } ,..., { 0 : } ,..., { . . 0 ] [ ... ] [ . . . . 1 1 1 1 n i g a g a n a a a a a a a a a n g a g a a n a i a n a i i i n i i n i n n i i

Door invulling is eenvoudig na te gaan dat geldt: a[1]

⊕

b[1] = a

⊕

b. 3.3.1 Van attribuutgelijkheid naar entiteitgelijkenis

Kennisregels beschrijven de gelijkenis tussen twee gemeenschappelijke attri-buten. Bij de vergelijking van een entiteitcombinatie heeft een kennisregel één gelijkeniswaarde. Verder heeft elke kennisregel een gewicht (zie paragraaf 3.1.3). Gegeven een knoop K met m kennisregels. Elke kennisregel wordt genummerd:

ri en wi leveren respectievelijk de gelijkenis en het gewicht van de ie kennisregel. Definitie. De entiteitgelijkenis van K wordt gedefinieerd als:

] [ ... ] [ ₁ 1 m m k r w r w s = ⊕ ⊕

De gelijkeniswaarde ri kan berekend zijn uit meerdere gelijkeniswaarden, door-dat het attribuut fysiek in een één-op-meer relatie met de entiteit is opgeslagen. Een voorbeeld hiervan is een persoonsattribuut dat onder delicten is opgesla-gen. Door inconsistentie kan de waarde van een persoonsattribuut op die ma-nier onzeker worden. Hierbij is het van belang om te bepalen welke attribuut-waarde het meeste voorkomt, aangezien deze attribuut-waarde waarschijnlijk de juiste is. In veel gevallen van ‘meerwaardige’ attributen gedragen de waarden zich als entiteiten: elke waarde moet ook gevonden worden in de andere informatie-bron. Het berekenen van één gelijkeniswaarde voor meerwaardige attributen gebeurt daarom standaard ook met behulp van reconciliatie, zoals in paragraaf 3.4 wordt uitgewerkt. In andere gevallen kunnen andere methoden geschikter zijn. In bijlage C (zie bijlage 1) worden enkele alternatieven besproken.

3.3.2 Van entiteitgelijkenis naar objectgelijkenis

De entiteitgelijkenis beschrijft de gelijkenis nog niet volledig. Uit de gelijkenis-distributie is bekend dat alle gelijkenis bij de centrumknoop meetelt, maar dat de gelijkenis via andere knopen kunnen worden doorgegeven. Elke knoop kent daarom een vorm van objectgelijkenis. De objectgelijkenis bestaat uit de gelijke-nis van:

⎯ kennisregels van de eigen knoop (sK);

⎯ maximaal één ouderknoop (S(0), bij geen ouderknoop: S(0)=n.a.); ⎯ v virtuele relaties (v≥0,S(i )met i∈{1,...,v});

(36)

Uit de gelijkeniswaarden wordt de objectgelijkenis berekend: K n v s n v S S K S = ⊕ ⊕ + ⊕ > + _{4 8}₄ 4 4 7 6 0 ) ( ... ) 0 ( ) ( .

Een deel is optioneel en staat alleen in de formule als de conditie erboven geldt. De operator is commutatief, dus de volgorde in de formule maakt niet uit voor de uitkomst. Echter, omdat de eerste gelijkeniswaarde die 0 oplevert, de uit-komst vroegtijdig bepaalt (op 0), is het voordelig om de expressies waarvoor de minste rekenkracht nodig is vooraan te zetten.

Vanwege de hiërarchische structuur is de oudergelijkenis S(0) bekend. Ook de gelijkenis uit virtuele relaties is al berekend, maar deze moet nog worden op-gehaald. Zoals eerder besproken in paragraaf 3.2.3, komen deze na S(0). De kindgelijkheid hoeft alleen berekend te worden als de overige gelijkenis groter dan 0 of onbepaald is. Deze gelijkenis komt daarom achteraan in de formule. De objectgelijkenis wordt nu berekend door:

4 4 4 4 8 4 4 4 4 7 6 4 4 4 8 4 4 4 7 6 0 0 ) ( ... ) 1 ( ) ( ... ) 1 ( ) 0 ( ) ( > > + ⊕ ⊕ + ⊕ ⊕ ⊕ ⊕ ⊕ = n K v n v S v S s v S S S K S .

In deze formule bestaat de entiteitgelijkenis sk uit de gelijkeniswaarden van de verschillende kennisregels. Stel een knoop K heeft m kennisregels. Verder geldt

v=0 en n=1. Er zijn twee varianten om de gelijkenis van kennisregels in de

for-mule op te nemen: ) 1 ( ] [ ... ] [ ) 0 ( ) ( ) 1 ( ]) [ ... ] [ ( ) 0 ( ) ( 1 1 1 1 S w r w r S K S S w r w r S K S m m m m ⊕ ⊕ ⊕ ⊕ = ⊕ ⊕ ⊕ ⊕ =

Aangezien de gelijkenisoperator niet associatief is, kunnen beide varianten ver-schillende uitkomsten opleveren. De eerste variant berekent eerst de entiteit-gelijkenis als een entiteit-gelijkeniswaarde in het interval [0,1]. Daarna wordt de object-gelijkenis berekend. In de tweede variant telt elke kennisregel (gewogen) mee in de objectgelijkenis. Ten opzichte van de eerste variant zijn de verschillen: ⎯ hoe meer kennisregels, hoe zwaarder weegt de entiteitgelijkenis; ⎯ hoe zwakker de kennisregels, hoe zwaarder wegen de andere

objectgelijkenissen.

Dit komt overeen met de werkelijkheid: als een object zelf voldoende (sterke) eigenschappen heeft, dan zijn de overeenkomsten in gerelateerde objecten min-der belangrijk. De tweede variant is daarom gekozen. De uiteindelijke definitie van objectgelijkenis luidt nu:

Definitie. Gegeven een knoop K met m kennisregels, n kindknopen en v virtuele

relaties. De objectgelijkenis van K wordt gedefinieerd als:

4 4 4 4 8 4 4 4 4 7 6 4 4 4 4 8 4 4 4 4 7 6 4 4 4 8 4 4 4 7 6 0 0 1 1 0 ) ( ... ) 1 ( ] [ ... ] [ ) ( ... ) 1 ( ) 0 ( ) ( > > > + ⊕ ⊕ + ⊕ ⊕ ⊕ ⊕ ⊕ ⊕ ⊕ = n m m m v n v S v S w r w r v S S S K S

In de formule voor objectgelijkenis moet verder gelden dat m+n>0, omdat oudergelijkenis alleen een object te weinig beschrijft.

De formule voor objectgelijkenis bestaat uit de entiteitgelijkenis en objectgelij-kenis uit andere knopen. De objectgelijobjectgelij-kenis uit andere knopen is één