• No results found

Metrics and visualisation for crime analysis and genomics Laros, J.F.J.

N/A
N/A
Protected

Academic year: 2021

Share "Metrics and visualisation for crime analysis and genomics Laros, J.F.J."

Copied!
3
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Metrics and visualisation for crime analysis and genomics

Laros, J.F.J.

Citation

Laros, J. F. J. (2009, December 21). Metrics and visualisation for crime analysis and genomics. IPA Dissertation Series. Retrieved from

https://hdl.handle.net/1887/14533

Version: Corrected Publisher’s Version

License: Licence agreement concerning inclusion of doctoral thesis in the Institutional Repository of the University of Leiden Downloaded from: https://hdl.handle.net/1887/14533

Note: To cite this publication please use the final published version (if applicable).

(2)

Nederlandse Samenvatting

Deze samenvatting is als volgt opgebouwd. In de eerste drie delen beschrijven we de hoofdlijnen van dit proefschrift, in het laatste deel geven we een overzicht van de verschillende hoofdstukken.

Data Mining

Data Mining is informeel gesproken het extraheren van voorheen onbekende en vooral interessante patronen uit data. In het algemeen wordt dit gerealiseerd door het gebruik van een scala aan technieken, waarbij elk van deze technieken een ander licht werpt op de data. Omdat we te maken hebben met een ware data-explosie, is er meer vraag naar dit soort methoden. De ontwikkeling van snellere hardware stelt ons ook in staat deze technieken toe te passen.

DNA

Desoxyribonucle¨ınezuur (DNA) is een groot molecuul dat genetische informatie bevat. Het bestaat uit vier letters (A, C, G, T) of nucleotiden. Deze nucleotiden vormen grote lineaire structuren die chromosomen heten.

De laatste decennia zijn methodes ontwikkeld die deze woorden effici¨ent kunnen verwerken; deze vallen onder de naam sequencing. Deze technieken lezen het DNA en geven lange woorden als uitvoer. Door deze te analyseren is het mogelijk om verschillen tussen soorten en zelfs individuen te vinden. Ook is het mogelijk om, zonder de specifieke verschillen te kennen, een evolutionaire boom te maken op basis van korte deelwoorden.

Metrieken

In dit proefschrift wordt een nieuwe afstandsmaat of metriek gebruikt. Deze afstandsmaat, ontworpen voor multisets, is in grote mate configureerbaar. Er is een speciale functie nodig, die in het algemeen door een expert op een bepaald domein wordt gekozen. Deze functie moet het verschil tussen twee voorkomens van een element binnen een multiset uitdrukken. Ter illustratie, het verschil

127

(3)

128 NEDERLANDSE SAMENVATTING tussen een persoon die geen fietsen steelt en iemand die er ´e´en heeft gestolen is verdedigbaar groter dan het verschil tussen iemand die 100 fietsen steelt en iemand die er 101 steelt. Dit verschil moet worden uitgedrukt in een functie.

Deze afstandsmaat was eigenlijk ontworpen voor de analyse van criminele activiteiten, maar bleek door het vervangen van de expert-functie ook goed toepasbaar in andere domeinen. Dit komt in de latere hoofdstukken terug.

Overzicht

Dit proefschrift is opgebouwd uit drie delen. In het eerste deel richten we ons op de toepassing van Data Mining in de wetshandhaving, met name de toepassing van het deeltjesmodel in dit gebied. Het deeltjesmodel is een dimentiereductie- techniek, waarbij elk object in de invoer geassocieerd wordt met een punt in een ruimte. De punten worden in eerste instantie willekeurig in de ruimte gezet en, afhankelijk van de onderlinge afstand (gedefinieerd op de objecten waarmee ze geassocieerd zijn) naar elkaar toe verplaatst of van elkaar af geduwd, al naar gelang ze te ver van elkaar af staan, of te dicht bij elkaar staan.

In het tweede deel nemen we de metrieken die in het eerste deel worden genoemd onder de loep. Het derde deel is gericht op DNA. We laten met name zien dat de gebruikte metrieken ook van toepassing zijn op het gebied van de moleculaire genetica.

In Hoofdstuk 2 geven we een uitgebreid overzicht over het deeltjesmodel en zijn toepassingen. In Hoofdstuk 3 bekijken we een specifieke variant van het deeltjesmodel, namelijk degene waarin we een torus als uitvoeroppervlak gebrui- ken. In Hoofdstuk 4 introduceren we een nieuwe manier om fouten die gemaakt worden in dimensiereductietechnieken op te sporen en in kaart te brengen. In Hoofdstuk 5 gebruiken we de Levenshtein-afstand tussen twee carri`eres van cri- minelen om een overeenkomst in de geschiedenis van deze carri`eres te vinden.

Ook gebruiken we gelijkende carri`eres om voorspellingen te doen.

In Hoofdstuk 6 gaan we in op de afstandsmaat voor multisets. De restricties op de expertfunctie, die een parameter is voor deze afstandsmaat, worden be- sproken. Hoofdstuk 7 houdt zich bezig met de uitbreiding van de afstandsmaat voor multisets tot die van een afstandsmaat voor sequenties van multisets.

In Hoofdstuk 8 gaan we in op het probleem waarbij we korte, unieke deel- woorden willen vinden in grote woorden. Hoofdstuk 9 behandelt een nieuwe manier om de afstand tussen twee genomen te geven. Hoofdstuk 10 gaat in op een nieuwe manier om DNA te visualiseren, waarbij gebruik wordt gemaakt van Rauzy-projecties.

Referenties

GERELATEERDE DOCUMENTEN

In this chapter we will focus on a way to find similar careers and perhaps to automatically make a prediction of a future path of a criminal career by looking at the trends in

License: Licence agreement concerning inclusion of doctoral thesis in the Institutional Repository of the University of Leiden Downloaded from: https://hdl.handle.net/1887/14533.

The exact difference can be tuned by altering the function f , which specifies the distance between groups with a different number of marbles of the same colour.. When looking at

Since all sequences in this test set are of the same length, there is no difference between local and global alignment, there is also no difference between absolute and relative

We again extract all strings of length  from the genome and test them to the trie with the Distance Selection algorithm (instead of the strings that are in the subset (and in

In this chapter, we introduce a new way of determining the difference between full genomes of different species, based upon the occurrence of small substrings in both genomes..

In Figure 10.4, we see the exact same data and projection, but shown from a different angle.. This figure is a better representation of the data, more structures can be seen directly

In Proceedings of the Workshop on Practical Data Mining: Applications, Experiences and Challenges (ECML/PKDD- 2006), pages 90–93.. A more accurate and efficient whole