Diagnose van hartziekten door genetic algorithms, classificatie methoden en fuzzy logic

(1)

THEMA III DEEL 2 Datum: 21-01-2018 Aantal woorden: (8500) Junior Docent: Jelle Zandveld Senior Docent: Martijn Egas

Diagnose van hartziekten

door

genetic algorithms,

classificatie

methoden en fuzzy logic

__________________________________________________________________________

Auteurs:

Bart-Jan Akerboom (11049197), Biologie Bo Berghuis (10980563), Biomedische wetenschappen Satih den Dekker (10505865), Medische Informatiekunde, Wout van der Ploeg (10792937), Neurobiologie

Abstract

Door een groot aantal factoren, waaronder de vaagheid van symptomen bij een hartziekte en de beperkingen die klassiek lichamelijk onderzoek met zich meebrengen, blijkt de nauwkeurige diagnose van hartziekten in een vroeg stadium een zeer uitdagende en moeilijke taak voor artsen. Om dit probleem te verhelpen wordt er veelal gebruik gemaakt van clinical decision support systems (CDSS) die patronen in databases met patiëntgegevens kunnen herkennen om de diagnose van hartziekten te vergemakkelijken. Op dit moment wordt een genetic algorithm (GA) in combinatie met verschillende classificatiemethoden gebruikt om de aanwezigheid van een hartziekte te voorspellen. De GA wordt gebruikt om uit een database het minimale aantal attributen te selecteren die nodig zijn voor een accurate diagnose. Vervolgens zijn deze attributen de inputwaarden van de traditionele classificatiemethoden Naive Bayes (NB) en decision tree (DT) die de uitkomst wel of geen hartziekte geven. Het is echter gunstig om een graduele uitkomst te krijgen bij de voorspelling of iemand een hartziekte heeft en de combinatie van de classificatiemethode Artificiële Neurale Netwerken (ANN) met fuzzy logic lijkt dit mogelijk te maken. Om de voor- en nadelen van deze nieuwe vorm van CDSS te achterhalen wordt er in dit literatuuronderzoek onderzocht wat de voor- en nadelen van het gebruik van GA in combinatie met ANN in de diagnose van hartziekten zijn ten opzichte van de combinatie van GA en traditionele classificatiemethoden. Uit dit onderzoek blijkt dat de combinatie van een GA met een decision tree op dit moment de beste acuraatheids-resultaten voor hartziekte-diagnose geeft. Echter zit er ook veel potentie in de integratie van GA in ANN als diagnose-model.

(2)

Inhoudsopgave ❖ Introductie

❖ Verantwoording interdisciplinaire aanpak ❖ Theoretisch kader

➢ Cleveland database ➢ Genetic Algorithm ➢ Classificatie Methoden

➢ Fuzzy logic in artificiële neurale netwerken ❖ Methoden ❖ Literatuuronderzoek ➢ Deelvraag 1 ➢ Deelvraag 2 ❖ Discussie ❖ Conclusie ❖ Literatuurlijst

(3)

Introductie

Een groot mondiaal probleem is de stijgende kosten op het gebied van gezondheidszorg. Een belangrijk onderzoeksveld in deze sector is ziekte voorspelling (Liang & Peng, 2013). Het stellen van een medische diagnose is zowel een belangrijke als een gecompliceerde taak, die hoge nauwkeurigheid en efficiëntie vereisen. Automatisering van diagnostiek is gewenst, onder andere omdat dokters geen constante nauwkeurigheid hebben en de onderlinge nauwkeurigheid van artsen vaak van elkaar verschilt. Bovendien voorspelt het WHO dat er in het jaar 2035 een tekort zal zijn van 12,9 miljoen medewerkers in de gezondheidszorg gemeten over alle regio’s in de wereld (WHO, 2013).

Met name de automatisering van de diagnose van hartziekten zal leiden tot een afname van de kosten van de gezondheidszorg, aangezien geschat wordt dat cardiovasculaire ziekten de oorzaak zijn van bijna één derde van alle sterfgevallen wereldwijd en veel medische zorg met zich meebrengen (Jao & Hier, 2010). Onder cardiovasculaire ziekten of hartziekten worden alle ziekten verstaan die veroorzaakt worden door een afwijking waardoor het hart niet meer normaal kan functioneren (Parthiban & Subramanian, 2008). Alle hartziekten kennen ongeveer dezelfde uiting van symptomen en daardoor is het mogelijk dat alle hartziekten met dezelfde diagnostische methode in een vroeg stadium gediagnosticeerd kunnen worden (Anooj, 2012). Als het hart faalt komt dit doorgaans door schade vanwege coronaire vaatproblemen, hoge bloeddruk of diabetes (hartstichting.nl, 2017). In 2015 stierven 17,7 miljoen mensen aan de gevolgen van cardiovasculaire ziekten volgens onderzoek van de World Health Organisation, 31% van alle sterfgevallen wereldwijd (WHO, 2017). Een vroege en accurate diagnose van deze ziekten kan vele levens redden door op tijd of preventief behandeling te starten. Mensen worden al geadviseerd om zich 2 keer per jaar te laten onderzoeken door een hartspecialist om inzicht te krijgen in de kans op hartfalen, zelfs als er nog geen klachten zijn (American Heart Association, 2015).

De hedendaagse moderne medische diagnose is een zeer gecompliceerd proces, met nauwkeurige patiëntgegevens, een filosofisch begrip van de medische literatuur en vele jaren klinische ervaring (Castelli, 1984). Op dit moment worden klassieke diagnostische methoden gebruikt zoals lichamelijk onderzoek bij de huisarts om een hartziekte in een zo vroeg mogelijk stadium te diagnosticeren. Klassieke symptomen van een hartziekte zijn pijn op de borst, kortademigheid, hartkloppingen en opgezwollen benen, enkels, voeten of buik. Daarnaast wordt de hartslag gecontroleerd in de hals en op de polsen om te bepalen of de bloedcirculatie in alle delen van het lichaam gelijk is (Castelli, 1984). Naast het lichamelijk onderzoek beschikt de arts over aanvullende diagnostische methoden zoals elektrocardiografie (ECG), inspanningsonderzoek, echocardiografie, röntgenonderzoek, Holter-onderzoek, scintigrafie en hartkatheterisatie.

Er kleven echter een aantal beperkingen aan deze diagnostische methoden. Klinische beslissingen worden vaak genomen op basis van de perceptie en ervaring van artsen. Door de complexe onderlinge afhankelijkheid van een verscheidenheid aan factoren, is een nauwkeurige diagnose van hartziekten in een vroeg stadium een zeer uitdagende en moeilijke taak voor artsen (Anooj, 2012). Er zijn echter databases met patiëntgegevens aanwezig waarin allerlei complexe en onderling gerelateerde patronen zichtbaar kunnen worden gemaakt die de medische diagnose van hartziekten in een vroeger stadium kunnen vergemakkelijken. Deze patiëntgegevens zijn beschikbaar in elektronische ziekenhuis informatiesystemen. Door middel van integratie van elektronische patiënten dossiers en CDSS (clinical decision support systems) zal de kans verkleint worden op biases, fouten en hogere medische kosten. Hierdoor zal de gezondheid van de patiënt verbeteren. Want

(4)

hoewel het merendeel van de medische instellingen een elektronisch informatiesysteem hanteert worden nog steeds klinische beslissingen voornamelijk gebaseerd op de kennis en intuïtie van de specialist , zonder de waardevolle data van de aanwezige databases te raadplegen (Chen & Greiner,1999).

Een voorbeeld van zo’n database waarin zich een grote verscheidenheid aan kennisrijke patiëntgegevens bevindt is de Cleveland database (Parthiban & Subramanian, 2008). Deze database is een hartziekte dataset waarin zich de patiëntgegevens bevinden van patiënten van 303 instanties. De data set bestaat uit 75 attributen, zoals bijvoorbeeld de leeftijd, sekse en hartslag in rust van de patiënt. In de dataset bevindt zich zoals hiervoor beschreven enorm veel data. Het nadelige gevolg hiervan is dat het extraheren van nuttige informatie voor de medische diagnose moeizaam en minder efficiënt wordt. Dit probleem kan worden opgelost door de methodes van data analyses te vernieuwen. Uit onderzoek is gebleken dat medische analyses met behulp van machine learning de diagnose accuraatheid verhoogt, kosten verlaagt en minder personeel vereist (Liang & Peng, 2013). Met behulp van de Cleveland database en verscheidene data analyse methoden kan een CDSS opgesteld worden die efficiënt de aanwezigheid van een hartziekte kan voorspellen.

Een Genetic algorithm (GA) is een voorbeeld van een data analyse methode (Turing, 1950). Dit is een machine learning algoritme dat zeer efficiënt de juiste data met betrekking tot hartziekten weet te extraheren uit de Cleveland database. Het GA is een algoritme dat vaak gebruikt wordt om op basis van de evolutietheorie zo snel mogelijk de beste oplossing, in dit geval de meest essentiële informatie uit de Cleveland Database, te extraheren uit een oneindig aantal oplossingen. Aangezien een GA enkel in staat is om de meest waardevolle informatie uit de database te isoleren, zijn er classificatiemethoden (CM) noodzakelijk om een hartziekte diagnose te kunnen stellen (Cohen & Lefebvre, 2005).

Op dit moment wordt een CDSS gebruikt die een GA combineert met twee verschillende classificatiemethoden om op efficiënte wijze de aanwezigheid van een hartziekte te voorspellen. Classificatiemethoden leggen een verband tussen alle mogelijke inputwaarden en alle mogelijke output waarden en kiezen daaruit de beste oplossing op basis van allerlei regels die voorgeprogrammeerd zijn in de classificatiemethode. De classificatiemethoden decision tree en Naive Bayes hebben als inputwaarden de attributen die geselecteerd zijn met GA uit de Cleveland Database en geven als output waarden: wel of niet aanwezig zijn van een hartziekte (Domigos & Pazzani, 1996). Er kleeft echter een probleem aan deze classificatiemethoden. Zij zijn slechts in staat om een binaire uitkomst te geven: de hartziekte is aanwezig of de hartziekte is niet aanwezig. Voor de predictie van hartziekten zou het zeer gunstig zijn als er een graduele uitkomst mogelijk is. Hiermee wordt een waarde tussen 0 en 1 bedoeld, waarbij 0 de afwezigheid van een hartziekte voorstelt en 1 de aanwezigheid van een zeer ernstige hartziekte. Alle waarden hiertussen zijn een maat voor de ernst van de hartziekte. Artificiële neurale netwerken (ANN) zijn naast decision tree en Naive Bayes een derde vorm van classificatiemethoden die gebruikt wordt in combinatie met GA en fuzzy logic. Een artificieel neuraal netwerk heeft echter geen voorgeprogrammeerde regels, zoals wel het geval is bij Naive Bayes en decision tree, maar leert deze door het neurale netwerk los te laten op een gehele dataset. In dit geval wordt een ANN losgelaten op de Cleveland database, dit wordt de leerfase genoemd (Taylor, 2008). Tijdens deze fase leert de ANN de regels om in een later stadium te kunnen voorspellen of een patiënt een hartziekte heeft. Tijdens de leerfase is er eveneens een GA aanwezig die beslist welke attributen minimaal noodzakelijk zijn voor het ANN om in het latere stadium de juiste diagnose te stellen. Als de leerfase ten einde is en de GA het minimale aantal attributen heeft bepaald komt fuzzy logic in het spel. Fuzzy logic wordt

(5)

gecombineerd met ANN op het moment dat de ANN gaat bepalen of een patiënt een hartziekte heeft of niet (Taylor, 2008). Fuzzy logic deelt de uitkomst op in kleinere delen (bijvoorbeeld laag - middel - hoog), vervolgens wordt via een wiskundige functie bepaald in hoeverre de uitkomst behoort tot ieder van die delen en kan zo de uitkomst in een percentage omgezet worden. Hierdoor is het mogelijk om een graduele uitkomst te krijgen, dus in welke mate (alle getallen tussen 0 en 1) een patiënt een hartziekte heeft. ANN heeft als voordeel dat het een van de weinige classificatiemethoden is die gecombineerd kan

worden met fuzzy logic.

Om de mogelijkheden van een graduele diagnosestelling van hartziekten te achterhalen ten opzichte van een binaire diagnose wordt er in dit onderzoek de vraag: Wat zijn de voor- en nadelen van het gebruik van GA in combinatie met ANN in de diagnose van hartziekten ten opzichte van de combinatie van GA en CM? beantwoord. Om deze hoofdvraag te kunnen beantwoorden zal het onderzoek worden opgedeeld in twee deelonderzoeken met elk een eigen deelvraag:

1. Wat zijn de voor- en nadelen van de combinatie van GA met een classificatie systeem in het diagnosticeren van hartziekten?

2. Wat zijn de voor- en nadelen van de combinatie van GA met een Artificieel Neuraal Netwerk in het diagnosticeren van hartziekten?

Door het beantwoorden van deze deelvragen zal het duidelijk worden welke vorm CDSS, GA met classificatiesystemen of GA met een Artificieel Neuraal Netwerk, de voorkeur heeft wat betreft het efficiënt diagnosticeren van hartziekten.

(6)

Verantwoording interdisciplinaire aanpak

Voor het beantwoorden van de hoofdvraag is expertise op verschillende onderzoeksgebieden vereist. In de eerste plaats is een grote hoeveelheid informatie nodig vanuit medische onderzoeksrichtingen. Aangezien de toepassing van dit onderzoek op een medisch probleem is gericht: hartziekte diagnose, moet er informatie beschikbaar zijn over de precieze definitie van een hartziekte, de symptomen hiervan en de klassieke en moderne manieren van diagnose. Daarnaast is het belangrijk dat een gedegen beeld wordt opgebouwd van GA en hun toepassingen. Hiervoor is naast kennis uit de evolutiebiologie ook een zekere mate van informatiekundige kennis nodig. Deze kennis uit de medische informatiekunde zal ook van groot belang blijken te zijn bij de analyse van de te gebruiken datasets (in combinatie met biomedische wetenschappen) en de werking van classificatie methoden. Een bijzondere classificatiemethode, waarin in dit onderzoek veel aandacht wordt besteed, is het Artificiële neurale netwerk. Deze CM laat veel overeenkomsten zien met biologische neurale netwerken, waardoor kennis uit het neurobiologische discipline zeer belangrijk is. Verder is voor het analyseren van fuzzy logic, GA en de classificatiemethoden eveneens kennis van kunstmatige intelligentie aan te raden. Hoewel geen van ons uit die hoek komt, hebben wij dit kunnen oplossen door de achtergrondkennis van programmeren die wij bezitten te combineren met een medisch informatiekundig perspectief. Bij het opstellen van de deelvragen is, ter vergemakkelijking van het beantwoorden, rekening gehouden met de mate van disciplinaire expertise die nodig is bij het beantwoorden ervan. Voor de eerste deelvraag zal voornamelijk medisch informatiekundige kennis nodig zijn, aangevuld met biologische en biomedische kennis. De tweede zal voornamelijk worden beantwoord vanuit een neurobiologische en biologische invalshoek.

(7)

Theoretisch kader

Om de deelvragen te beantwoorden zal van te voren kennis moeten worden verzameld afkomstig uit de relevante onderzoeksgebieden. In het theoretisch kader zal eerst de structuur en inhoud van de Cleveland database worden gerepresenteerd. Hierop volgend zullen de mogelijkheden en varianten van GA’s uiteen worden gezet. Vervolgens zullen de werking en het doel van veel gebruikte classificatiemethoden worden behandeld. Ten slotte zal worden uitgelegd wat een artificieel neuraal netwerk is en hoe dit netwerk werkt. Daarnaast zullen de potentiële voordelen van het gebruik van een neuraal netwerk worden besproken.

Cleveland Database

Deze database, die al even kort is genoemd in de inleiding, bestaat uit de patiëntgegevens van patiënten die onder behandeling zijn van 303 instituten. De database omvat 75 attributen, die allemaal verband kunnen houden met het al dan niet aanwezig zijn van een hartziekte. Eerdere onderzoekers (Parthiban & Subramanian, 2008) hebben een CDSS opgesteld en maakten gebruik van een GA om uit de Cleveland Database 13 relevante attributen te selecteren die minimaal nodig zijn om een hartziekte juist te diagnosticeren. Deze 13 attributen worden in tabel 1 uitgebreid toegelicht.

Tabel 1: Overzicht van de 13 attributen afkomstig uit de Cleveland database die minimaal nodig zijn om met behulp van een CDSS een hartziekte te diagnosticeren.

Attribuut Beschrijving

1 Leeftijd Leeftijd van de patiënt uitgedrukt in jaren.

2 Sekse Sekse van de patiënt.

3 Pijn op de borst Er worden 4 typen pijn op de borst onderscheiden: typische angina, atypische angina, geen angina gerelateerde pijn en de asymptomatische gradatie. Typische angina is een klinisch syndroom dat wordt gekenmerkt door ongemak in de borst, kaak, schouder, rug of amen, meestal opgewekt door inspanning of emotionele stress. De enige therapie die enige verlichting geeft is het nemen van rust of

nitroglycerine. Het is gebruikelijk dat de term typische angina alleen wordt toegeschreven aan de gevallen wanneer er sprake is van myocardischemie.

Myocardischemie is een hartspier die onvoldoende doorbloed is, dit komt voornamelijk doordat een of meerdere kransslagaderen vernauwd zijn (Fox et al., 2006). Om angina pectoris te diagnosticeren worden drie voorwaarden gebruikt: de lokalisatie van de klachten is retrosternaal (achter het borstbeen gelegen), de klachten nemen toe bij inspanning en temperatuur overgangen (voornamelijk van warm naar koud) en de klachten

(8)

voorwaarden voldaan wordt, spreekt men over typische angina pectoris. Als er aan 2 van de 3 voorwaarden

voldaan wordt, spreekt men over atypische angina pectoris. Als er aan 1 of geen van de voorwaarden voldaan wordt spreekt men over niet angina gerelateerde pijn in de borst. (Nienhuis, Berge van den, Veeger, Viersma & May, 2002). De asymptomatische waarde staat voor de situatie waarin er geen sprake is van enige ziekteverschijnselen. Variabele 3 is een categorische waarde in het model.

4 Rust bloeddruk Dit attribuut wordt uitgedrukt in de eenheid van druk, het aantal millimeter kwik (mmHg). Een verhoogde bloeddruk, ook wel hypertensie genoemd, is een van de vier

‘conventionele’ risicofactoren voor het ontwikkelen van hartziekten. De andere risicofactoren zijn: verhoogd serum cholesterol (hyperlipidemie), diabetes en het roken van tabak (Bulkley, Rouleau, Whitaker, Strauss & Pitt, 1977). 5 Cholesterol Dit attribuut wordt uitgedrukt in het aantal mm cholesterol

dat aanwezig is per dl bloed (mm/dl). Dit is net als variabele 4 een van de 4 conventionele risicofactoren voor het ontwikkelen van hartziekten. Wanneer het cholesterol level hoger is dan de gemiddelde baseline (hyperlipidemie) is de kans groter dat er gedurende het leven een hartziekte verkregen wordt (Khot et al., 2003).

6 Bloedsuiker Dit attribuut wordt gevormd door het bloedsuikergehalte tijdens een nuchtere toestand. Hierbij zijn twee waarden mogelijk: een waarde hoger dan 120 mg/dl en een waarde lager dan 120 mg/dl. Glucose is de moleculaire naam voor suiker en wat er tijdens deze test wordt gemeten is de hoeveelheid glucose in mg die per dl bloed aanwezig is. Dit is een continu getal, maar wordt in het GA die verrijkt is met fuzzy logic uitgedrukt in een waarde die hoger of lager is dan 120 mg/dl (Senthil Kumar, 2012).

7 ECG in rust Dit attribuut wordt gevormd door de resultaten van de elektrocardiografie in rust. Hierbij zijn drie uitkomsten mogelijk: normaal, abnormale ST-T-golf en ST-T-activiteit en linker ventriculaire hypertrofie. Een elektrocardiogram is een filmpje van de elektrische activiteit van het hart in rust. Het hart is namelijk een holle spier die kan samentrekken onder invloed van kleine elektrische stroompjes die worden geïnitieerd door de sinusknoop. Een goed functionerend hart laat een specifiek patroon zien. Dit patroon is zichtbaar in figuur 1. Wanneer dit patroon zichtbaar is wordt

gesproken over een normale uitkomst van het hartfilmpje. Vaak wijst een afwijkend ST-T-golfpatroon op het

(9)

elektrocardiogram op een hartinfarct of op ischemie

(onvoldoende doorbloeding) (Mirvis et al., 1990). Daarnaast is er een derde optie mogelijk: linker ventriculaire

hypertrofie. Bij dit klinische beeld is er sprake van een verdikking van de wand van het linker ventrikel van het hart. Dit beeld wordt zichtbaar door een afwijkend elektrocardiogram. Linker ventriculaire hypertrofie is een marker voor hartziekten (Chambers, 1995).

8 Maximale hartslag Dit attribuut wordt gevormd door het maximaal haalbare hartritme en het wordt uitgedrukt in het aantal slagen per minuut (Senthil Kumar, 2012).

9 Angina door

beweging

Dit attribuut wordt gevormd door angina pectoris

veroorzaakt door beweging. Dit houdt in dat er pijn op de borst wordt ervaren nadat de patiënt fysieke arbeid heeft verricht

10 ST-depressie door beweging t.o.v. rust

Dit attribuut wordt gevormd door ST-depressie veroorzaakt door beweging ten opzichte van rust. Dit is een continue waarde. S en T zijn onderdelen van het elektrocardiogram, ze representeren een specifiek moment in de tijd zoals te zien is in figuur 1. Wanneer er een afname (depressie) of een toename (elevatie) te zien is in het gedeelte van S naar T, dan duidt dit vaak op de aanwezigheid van een

coronaire hartziekte (ofwel ziekten van de kransslagaderen) (Lim, Teo & Poh, 2016). 11 Helling van de

piekbeweging in het ST-segment

Dit attribuut wordt gevormd door de mate van helling in het ST-segment van het elektrocardiogram wanneer de patiënt piekbeweging uitoefent. Piekbeweging houdt in dat de patiënt maximaal beweegt. Er zijn drie mogelijkheden: de helling loopt naar beneden, de helling is vlak of de helling loopt langzaam omhoog (Senthil Kumar, 2012).

12 Aantal

kransslagaderen gekleurd door fluor scopie

Dit attribuut wordt gevormd door het aantal

kransslagaderen die gekleurd worden door fluor scopie. Dit is een waarde tussen 0 en 3, wat niet geheel

vanzelfsprekend is aangezien ervan nature 2

kransslagaderen in het hart aanwezig zijn. Dit zijn de linker kransslagader en de rechter kransslagader. De linker kransslagader splitst zich echter al vrij snel in twee takken waardoor een waarde tussen 0 en 3 wordt aangehouden. Het aantal kransslagaderen dat aan gekleurd wordt met deze methode is een indicatie voor het wel of niet aanwezig zijn van een hartziekte.

13 Defect type Dit attribuut wordt gevormd door de uitkomst van de thalliumscan van het hart. De werkwijze van deze scan is

(10)

als volgt: de patiënt krijgt de radioactieve stof thallium geïnjecteerd tijdens een stresssituatie (na beweging) en in een rustsituatie. De opname van de hoeveelheid thallium is afhankelijk van de conditie van het hart (Bulkley, Rouleau, Whitaker, Strauss & Pitt, 1977). Er kan door de

beeldvorming van de scan een schatting worden gemaakt van de hoeveelheid bloed die regionaal door het hart stroomt en van de relatieve dikte van de spierlaag van het linker en rechter ventrikel van het hart. De volgende uitkomsten van de scan zijn mogelijk: normaal, gefixeerd en reversibel. De uitkomsten gefixeerd en reversibel slaan op een defect van het hart. Een gefixeerd defect wijst op een gebied van het hart dat niet genoeg bloed krijgt tijdens de rust en stress situatie. Onafhankelijk van de situatie stroomt er onvoldoende bloed door een bepaald gebied van het hart. De oorzaak van een gefixeerd defect is vaak de aanwezigheid van littekenweefsel in de spierlaag van het hart, waardoor het volledige bloedvat geblokkeerd wordt. Littekenweefsel ontstaat door een eerdere hartaanval. Een reversibel defect duidt op een situatie, waarbij de bloedstroom in de rustsituatie nog wel

voldoende is (Bulkley, Rouleau, Whitaker, Strauss & Pitt, 1977).

(11)

Genetic Algorithms

Genetic algorithms zijn algoritmes gebaseerd op de principes van genetica en natuurlijke selectie, in 1950 werd dit principe voorgesteld door Alan Turing (Turing, 1950). Echter duurde de ontwikkeling van een hierop gebaseerd algoritme nog tientallen jaren. De eerste grote toepassing van een GA was op het oplossen van complexe bouwkundige problemen door het werk van I. Renchenberg (1973). Sinds deze toepassing zijn GA’s gebruikt voor het oplossen van uiteenlopende optimalisatieproblemen.

Dit zijn problemen waar meerdere oplossingen voor mogelijk zijn, maar waarvoor de beste oplossing gevonden moet worden. Een voorbeeld van een optimalisatieprobleem is het stellen van een goede medische diagnose. Vier categorieën algoritmen worden onderscheiden voor optimalisatieproblemen: lineaire programmering, dynamische programmering, de greedy method en de heuristic method (Hromkovič, 2013). Hierbij valt een GA binnen de laatste categorie. Het algoritme vertoont een logistisch verband tussen de snelheid en de kwaliteit van de oplossing. Dat wil zeggen dat in een relatief korte tijd een oplossing kan worden gevonden voor een probleem dat dicht bij de optimale oplossing van het probleem ligt. Daarnaast is het algoritme deterministisch, wat betekent dat er een causaal verband tussen de input en de output van het algoritme bestaat. Dit maakt een GA erg geschikt voor toepassingen in het veld van medische diagnose (Pople, 1982).

Een typisch GA omvat een genetische representatie van de data en een fitness functie. Deze genetische representatie van de data gaat daaropvolgend door een proces van recombinatie op basis van een combinatie van crossing over en mutatie, resulterend in een nieuwe populatie met een andere combinatie van eigenschappen. Dit proces wordt herhaald over meerdere generaties. Elk individu krijgt een fitness-waarde op basis van de objectieve functiewaarde. Deze objectieve functiewaarde is gebaseerd op de criteria waaraan een oplossing moet voldoen. De individuen met de hoogste fitness waarde hebben een hogere kans om zich te vermenigvuldigen, wat resulteert in een volgende generatie met een hoger percentage fittere individuen. Op deze manier blijft de oplossingen pool evolueren, waardoor de populatie oplossingen veranderd richting de beste oplossing (Sivanandam & Deepa, 2007). GA’s werken, kortom, in grote mate zoals de darwiniaanse survival of the fittest theory. In dit geval representeren de causatie-variabelen de evolutie druk en de mogelijke oplossingen van deze causatie-variabelen de genen-pool (Back, 1996). Een GA stopt wanneer er wordt voldaan aan het van te voren gedefinieerde stop-criterium. Voorbeelden van een stop-criterium zijn een bepaald aantal herhalingen, de tijd dat het algoritme bezig is of het gebrek aan verbetert resultaat in opeenvolgende iteraties (wat impliceert dat de optimale oplossing gevonden is) (Back, 1996). In figuur 2 is schematisch weergegeven hoe het bovenstaande proces werkt.

(12)

Figuur 2: Schematische weergaven van een GA

De fitness functie creëert de selectiedruk voor het gehele evolutieproces in een GA. Deze kan het best uitgelegd worden aan de hand van een biologisch voorbeeld. Als binnen een bepaalde vogelsoort de fenotypische eigenschap; het hebben van een paarse staart een evolutionair voordeel is, dan ontstaat er een selectiedruk richting het hebben van een paarse staart. De genetische eigenschappen die leiden tot het hebben van een paarse staart zijn niet bekend, maar worden wel in elke generatie talrijker in de populatie, terwijl de frequentie van genen die leiden tot het gebrek aan een paarse staart afneemt. De fitness functie in het GA zorgt er in deze analogie voor dat individuen (oftewel datasets) met genen (oftewel data) voor een paarse staart bevoordeeld worden en zich door het selectieproces vaker zullen vermenigvuldigen. Om problemen buiten de biologie op te lossen met een GA moet de paarse staart vervangen worden door een andere variabele en moet de fitness functie zich daarop aanpassen.

Het selectieproces is, zoals te zien is in figuur 2, de eerste bewerking die wordt uitgevoerd op de populatie. Dit selectieproces verloopt op dezelfde wijze als in een biologische populatie, de fitness functie zorgt in dit proces voor de selectiedruk. Belangrijk in een GA is dat overerving niet verloopt door seksuele reproductie, zoals vaak in de biologie het geval is, maar door een proces van cloning, waarbij elk individu een reproductie-ratio heeft op basis van zijn fitness. De nieuwe generatie is dus na het selectieproces een verzameling van clones van de oudergeneratie die in andere verhoudingen voorkomen. Hierdoor zou zonder de vervolgprocessen: crossover en mutatie geen recombinatie van de eigenschappen mogelijk zijn (zie figuur 2). Vandaar dat deze processen van groot belang zijn in het vormen van een nieuwe populatie.

Deze twee processen waarop variatie wordt aangebracht in de populatie: mutatie en crossover, zijn gebaseerd op de gelijknamige processen in de biologie. Net als in de biologie

(13)

zijn van beide processen meerdere methoden mogelijk. Beide processen worden gereguleerd door een bijbehorende parameter. Dit zijn de mutatie-waarschijnlijkheid (mutation probabillity) en de crossover waarschijnlijkheid (crossover probabillity) (Back, 1996). Deze parameters bepalen in welke mate beide processen de populatie beïnvloeden. Bij een te hoge afstelling van deze parameters zal het algoritme een biologisch proces van genetic drift imiteren, bij een te lage instelling zal de variatie in een populatie te veel afnemen. Voor verschillende toepassingen van GA’s is het soms handig om verschillende varianten van crossover en mutatie te gebruiken. Deze varianten zullen in de volgende alinea’s worden uitgelegd.

Crossover is een genetische operator die gebruikt wordt om verschillen te creëren tussen de kunstmatige chromosomen in de nakomelingen generatie ten opzichte van de oudergeneratie. Dit proces is analoog aan het crossover-proces in de biologie. Een datastructuur is echter anders dan de structuur van een biologisch chromosoom. Enige belangrijke verschillen zijn: de opbouw uit bits (0 of 1) in plaats van nucleïnebasen (A, C, G of T) en het feit dat een datastructuur, in de biologische analogie, altijd haploïd is. Hierdoor is alleen crossover mogelijk tussen twee verschillende datasets, oftewel individuen. Dit resulteert in verschillen in de implementatie van crossover in een GA met het biologische proces. De verschillende technieken van crossing over van datastructuren zijn single point, two point en uniforme crossover.

In single point crossover wordt op beide ouder chromosomen hetzelfde punt willekeurig geselecteerd. Alle data voor dit punt wordt omgewisseld en alles na dit punt blijft gelijk, waardoor nieuwe variatie ontstaat. In two point crossover worden op beide ouder chromosomen twee punten willekeurig geselecteerd. Alle data tussen deze twee punten wordt omgewisseld, resulterend in nieuwe variatie.

Uniform crossover werkt anders dan de andere twee technieken. In deze vorm ligt de nadruk op de ratio van de data die moet worden overerft van beide ouders. Een ratio van 0,7 houdt bijvoorbeeld in dat 70% van de genen van de eerste ouder moet komen en 30% van de andere ouder. In dit geval worden er veel meer punten gekozen waarbinnen crossover plaatsvindt, resulterend in een uniform gelijkende verdeling. De punten worden weer willekeurig gekozen.

Naast Crossover is mutatie een genetische operator die wordt gebruikt om genetische diversiteit tussen twee generaties van een GA te bewerkstelligen. De mutaties die in GA’s worden geïmplementeerd zijn vaak gebaseerd op biologische puntmutaties (back, 1996). Dit wordt in een GA een bit-flip mutatie genoemd. Naast bit-flip mutaties zijn ook swap-, scramble- en inversion-mutations bekend. De laatste is gebaseerd op het biologische proces van inversie-mutatie. De andere twee zijn biologisch niet mogelijk, maar wel programmeerbaar. In de drie laatstgenoemde mutaties wordt enkel de volgorde van de data aangepast, maar wordt de waarde van een bit niet verandert. In tegenstelling tot de overige drie, gebeurt dit bij bit-flip mutaties wel. Het is daarom gebruikelijk om of de combinatie van de swap-, scramble- en inversion-mutaties te implementeren in een GA of een bit-flip implementatie te gebruiken (Back, 1996).

In elk GA worden zowel mutatieprocessen als crossover processen gebruikt bij het vormen van de nieuwe generatie. Zoals al eerder genoemd, kan de manier van deze implementatie echter verschillen. Welke implementatie het meest geschikt is hangt van de toepassing van het GA af.

(14)

Een mogelijk groot voordeel van GA ten opzicht van andere algoritmes wordt veroorzaakt door de geïmplementeerde mutatie en crossover functie. Door de toevoeging van variatie in de populaties kunnen lokale optima vermeden worden, waardoor het globale optimum kan worden gevonden (back, 1996). Het fitness landschap in figuur 3 ligt dit proces toe. Echter rapporteren sommige bronnen dat ook GA geen goede oplossing bieden voor het vermijden van lokale optima (Taherdangkoo et al, 2012). Door Wolpert et al. wordt echter gesteld dat dit veroorzaakt wordt door een verkeerde implementatie van het algoritme (Wolpert, 1995).

Ten tweede zijn deze algoritmes sneller in het vinden van oplossingen voor problemen die dicht bij de optimale oplossing liggen dan andere algoritmes. Dit komt doordat een GA een logistisch verband kent tussen de kwaliteit van de oplossing en de tijd die in beslag wordt genomen om bij deze oplossing te komen. Hiernaast betekent dit dat een goed geïmplementeerd GA altijd een oplossing vindt voor het gegeven probleem. De kwaliteit van deze oplossing neemt dan logistisch toe ten opzichte van de tijd die het algoritme nodig heeft om de oplossing te vinden (Back, 1997). Dit logistisch groeimodel wordt echter alleen gevolgd als het algoritme in het fitness landschap al op de helling van het globale optimum zit (zie figuur 3).

Figuur 3: mogelijk Fitness landschap van een genetic algoritme.

Een derde voordeel wordt gevormd door het feit dat een GA niet één oplossing biedt voor een probleem, maar een lijst van oplossingen die dicht bij de beste oplossing liggen (vanwege het gebruik van een oplossingen populatie). Dit kan echter ook als nadeel werken, bijvoorbeeld wanneer er gezocht wordt naar een specifieke oplossing.

Het feit dat het proces gebaseerd is op toeval vormt een tweede nadeel. Hierdoor is er nooit met zekerheid te zeggen hoe dicht de gegeven oplossing na een aantal runs bij de optimale oplossing ligt. Hoewel er wel met zekerheid gezegd kan worden dat de oplossing beter wordt bij elke run, kan de snelheid van deze verbetering niet precies worden achterhaald (Back, 1997).

Ten derde moeten fitness waarden van elk individu in elke nieuwe generatie opnieuw worden berekend door de fitness functie. Hierdoor kan een GA bij complexe problemen veel rekenkracht vereisen (Sivanandam & Deepa, 2007).

Ten slotte kan een GA nooit een direct bruikbare oplossing geven voor een optimalisatieprobleem. De output van een GA moet altijd door een ander algoritme worden geïnterpreteerd en worden geclassificeerd, om bruikbare informatie te verkrijgen. Hier moet

(15)

dus een classificatiemethode voor worden gebruikt. Conventionele methoden hiervoor zijn Naive Base of een decision tree. Echter geven verschillende bronnen aan dat een ANN een veelbelovende variant kan zijn (Uyar & Ilhan, 2017, Samuel et al., 2017)

Classificatie methoden

Classificatie is een algemeen proces waarbij voorwerpen, ideeën en data worden herkend, opgedeeld en geïnterpreteerd (Cohen, H., & Lefebvre, C., 2005).

Het is een onderdeel van ‘supervised learning’, waarbij data uit een dataset gelabeld wordt. Door deze labeling kan er door middel van ‘machine learning’ patronen worden herkend (Mohri, Rostamizadeh & Talwalkar, 2012). Doordat er patronen herkend worden is het mogelijk om door middel van ingevoerde data onder andere toekomstige trends te

voorspellen (M. Anbarasi, 2010). Dit gegeven maakt classificatiemethoden uiterst geschikt voor het stellen van medische diagnosen.

In dit onderzoek is classificatie toegespitst op het identificeren van een set van gemeten waarde toegekend aan attributen, zoals sekse, leeftijd, bloeddruk, etc. Op basis van de eerder ingevoerde gelabelde data, wordt deze specifieke set, die toebehoort aan een persoon, ingedeeld in de categorie ‘sick’ of ‘healthy’. Waarbij ‘sick’ staat voor het hebben van een hartziekte.

Om dit proces te bewerkstelligen zijn er verschillende classificatie methoden beschikbaar, waarvan er twee relevant zijn voor het onderzoek: de Naive Bayes classifier (NB) en de decision tree (DT). Uit meerdere onderzoeken is gebleken dat dat deze twee methoden vrijwel gelijk zijn wat betreft de voorspellende accuratie (Domingos & Pazzani, 1996.)

Decision Tree

Deze classificatie methode gebruikt een model met één startpunt, de begin node, en vertakkingen zoals te zien is in figuur 4. Elke chance node staat voor een beslissing die gemaakt moet worden. De terminal node representeert het einde van een vertakking en de uitkomst van het gevolgde pad (Kamiński, Jakubczyk, Szufel, 2017). Bij een complexe beslissing, zoals diagnosticeren van hartziekten, zal de DT veel vertakkingen krijgen. Daarnaast kan er samenhang zijn tussen factoren en zullen de takken ook onderling zijn verbonden, zie figuur 5.

Figuur 4: Schematische weergave van een decision tree. Bron: (https://www.kullabs.com/uploads/11.gif)

(16)

Figuur 5: Onderlinge vertakkingen van een decision tree. Bron:

(https://www.researchgate.net/profile/Ali_Saadoon2/publication/316441633/figure/fig1/AS:48 6764528836609@1493065115413/Figure-1-Control-Chart-Decision-Tree.ppm)

Hoewel deze methode de hoogste accuraatheid oplevert heeft het ook enkele nadelen. Er kan namelijk overlap tussen nodes ontstaan, dit komt vooral voor bij complexere problemen (zie figuur 6). Wanneer er veel klassen (C1, C2, C3, etc.) zijn, kan het aantal terminal nodes veel hoger liggen dan het aantal klassen waarmee begonnen is. Dit zorgt ervoor dat deze methode meer tijdrovend is en meer geheugen nodig heeft (Safavian & Landgrebe, 1990).

figuur 6: zichtbaar overlap in de onderste nodes: C3 en C5. Bron: nasa.gov

Wanneer er een fout zit in de decision tree, zal deze fout zich gaan opstapelen in het verdere verloop van de nodes. Bij deze methode is het niet mogelijk om een perfecte optimalisatie te bereiken bij zowel accuraatheid als efficiëntie. Het optimale design van een decision tree is moeilijk te bepalen, omdat er veel designs mogelijk zijn per probleem, met elk hun eigen voor- en nadelen (Safavian & Landgrebe, 1990).

Naive Bayes

Deze classificatie methode houdt geen rekening met onderlinge verbanden tussen factoren en de gemeten waarden. Ondanks deze tekortkoming presteert de NB bijna even goed als de DT en significant beter dan andere geteste methode betreffende dit onderwerp. De werking achter de NB is simpel, een voorbeeld is de filtering van spam berichten uit de e-mail inbox. Bij deze methode wordt er niet gekeken naar de woordvolgorde, maar naar het aantal keer dat alle woorden in een e-mail voorkomen. Door middel van ‘machine learning’ zal de NB weten dat wanneer er n keer het woord X in een e-mail voorkomt, deze naar de spam folder verplaatst moet worden. Ondanks de simpliciteit van het model, werkt deze methode verrassend goed. Voor dit onderzoek gaat het om de ingevoerde waarde van een gemeten factor, bijvoorbeeld de bloeddruk. Aan de hand van de gelabelde data heeft de NB een boven- en/of ondergrens van de waarde vastgesteld als referentiekader en zal nieuw ingevoerde data aan de hand van dit kader in kunnen delen in de twee mogelijkheden, ‘sick’ of ‘healthy’. Hieronder is het proces voor ons model schematisch weergegeven in figuur 7.

(17)

Figuur 7: Schematische weergave van de werking van Naive Bayes classificatiemethode. Bron:https://files.knime.com/sites/default/files/styles/inline_medium/public/nodeguide/exampl e-for-learning-a-naive-bayes-model.png?itok=KDty1dxv

Fuzzy logic in artificiële neurale netwerken

Een artificieel neuraal netwerk (ANN) is een tool voor het bouwen van modellen. Het brengt relaties tussen input en output in kaart. Het grote voordeel van ANN ten opzichte van andere classificatiemethoden is dat het gecombineerd kan worden met fuzzy logic (FL). FL is een wiskundige methode waarmee schattingen en verwachtingen kunnen worden verwerkt. In computermodellen (zoals ANN) kan men met behulp van FL een bepaalde gebeurtenis niet alleen een 0 of 1 toewijzen, maar het kan ook ieder reëel getal tussen 0 en 1 zijn.

FL is een variant van ‘klassieke’ logica. Het is gebaseerd op de fuzzy set theory. Bij klassieke logica is een object onderdeel van een set of niet (waarde 0 of 1). Bij fuzzy logic wordt juist gekeken in welke mate (van 0 tot 1) een object behoort tot die set. Dit wordt gedaan met een membership functie. Variabelen zoals leeftijd (zie figuur 8) worden opgedeeld in meerdere sets, bijvoorbeeld jong, middelbaar, oud. Vervolgens wordt voor iedere specifieke input berekend in hoeverre hij behoort tot ieder van deze sets en dit wordt samengevoegd in één waarde, de membership functie (Taylor, 2008).

Figuur 8: Membership functies van leeftijd De variabele leeftijd is hier opgedeeld in 3 parameters. Door een membership functie op te stellen voor je input is er vervolgens

(18)

gemakkelijk mee te rekenen binnen het model. In deze grafiek zou een patiënt van 32 jaar bijvoorbeeld 0.5 bij jong horen, 0.5 bij middelbaar horen en 0 bij oud horen (Taylor, 2008).

ANN (artificieel neuraal netwerk) is geïnspireerd door de functie en werking van het menselijk brein. Met ANN wordt geprobeerd om de capaciteiten van het brein om te leren en te generaliseren te vangen in een model, om zo relaties en complexe netwerken uit de dynamische wereld te vatten in data. Een ANN bestaat uit rijen van zogenaamde nodes georganiseerd in verschillende lagen (zie figuur 8). Deze nodes zijn vergelijkbaar met neuronen in het brein. Er is een input-laag, in dit geval zijn dat de symptomen of metingen, en een output-laag, dat is de diagnose die het model koppelt aan de symptomen. Daartussen liggen verschillende verborgen lagen, deze lagen zijn tussenstappen om de accuraatheid van de uiteindelijke diagnose van het model te verhogen (Klir & Yuan, 1995). Iedere node in het netwerk staat in contact met alle nodes in de eerstvolgende laag. De verbinding tussen twee nodes bevat een weging waardoor het model de invloed van verschillende factoren op elkaar kan berekenen. Deze opbouw in lagen is vergelijkbaar met de menselijke neocortex, bestaande uit zes opeenvolgende lagen. Data wordt tussen deze lagen via neuronen en interneuronen in het brein, en via nodes en gewichten in het model, getransformeerd. In het brein wordt dit laterale inhibitie genoemd. Laterale inhibitie is het proces waarbij nabijgelegen neuronen elkaar signaleren en zo versterking of afzwakking van het signaal naar neuronen in de volgende laag veroorzaken (Purves et al., 2012).

Figuur 9: Standaard structuur van een artificieel neuraal netwerk. In dit model worden de meetwaardes van de inputvariabelen omgezet naar membership functies. Vervolgens voert het model in iedere laag een transformatie uit op de data, waardoor de invloed (versterken of afzwakken) van de symptomen met elkaar worden geïntegreerd tot een voorspelling. De hidden layers geven hierbij waardes die essentieel zijn voor het model om stapsgewijs tot een oplossing te komen, maar hebben daarbuiten geen betekenis (Priddy & Keller, 2005).

Fuzzy logic werd al in 1965 voor het eerst gecombineerd met een artificieel neuraal netwerk (Zadeh, 1965). De combinatie tussen FL en ANN is sindsdien steeds verder uitgewerkt en in 2011 is er een model ontstaan dat voor een juiste integratie tussen FL en ANN zorgt waardoor het aantal fouten drastisch verminderde en er betere beslissingen gemaakt konden worden op basis van de output van dit model (Tahmasebi & Hezarkhani, 2011). Dit model, het fuzzy artificieel neuraal netwerk (FANN), heeft eerst een leerfase nodig waarin het ‘leert’ door voorbeelden (data) uit het verleden welke factoren (input) tot een bepaalde uitkomst (output) leiden. Na deze leerfase wordt het model opgesteld waarin relaties tussen alle inputfactoren opgeslagen ligt (Priddy & Keller, 2005). Dit is afgebeeld in

(19)

figuur 9. Het model kan na de leerfase als een “black box” gebruikt worden die waarheidsgetrouwe output levert bij de set inputvariabelen die onderzocht worden. Tijdens de leerfase worden de gewichten tussen de nodes aangepast waardoor het netwerk steeds accurater wordt naarmate het meer voorbeelden van input gecombineerd met een diagnose verwerkt. Dit wordt doorgaans gedaan met behulp van een training algoritme, speciaal ontwikkeld voor deze modellen. Dit wordt in vele wetenschappelijke studies gebruikt in combinatie met FANN (Yager & Zadeh, 2012 en Dagli, 2012).

FANN wordt gebruikt om grote hoeveelheden data te verwerken waar het snel en nauwkeurig de waardevolle informatie uit kan filteren en samenvatten. FANN’s worden veel gebruikt om complexe systemen te modelleren waarbinnen de relaties tussen factoren onduidelijk zijn (Georgopoulos & Stylios, 2009). Ter illustratie, als je wil weten wat voor risico iemand heeft op het krijgen van een hartziekte wil je meerdere variabelen kunnen meenemen in je risico analyse. Met behulp van FANN kan naast leeftijd ook de bloeddruk van de patiënt worden ingevoerd. Zo zijn er twee membership functies in de input layer. Vervolgens wordt via de gewichten in het model berekend hoe deze twee variabelen elkaar beïnvloeden ten opzichte van hartziekten. Een hoge leeftijd en hoge bloeddruk zullen elkaar versterken, terwijl een lage waarde van één of beide van de variabelen een verzwakkend effect zal hebben. Het trainings algoritme zal vervolgens de gewichten berekenen. Deze gewichten bepalen hoe de membership functies in de volgende layer worden aangepast en dus hoe elke combinatie van inputwaardes geëvalueerd moet worden. De uitkomst in de hidden layer is uiteindelijk een aangepaste membership functie per combinatie van inputwaardes. Dit herhaalt zich totdat het model alles met elkaar heeft geïntegreerd en er een duidelijke conclusie uitkomt. In dit geval zou dat een kans zijn op het verkrijgen van hartziekten (Klir & Yuan, 1995).

Methoden

In dit onderzoek zal elk van de deelonderzoeken worden uitgevoerd op basis van literatuuronderzoek. Hoewel dit geen nieuwe wetenschappelijke informatie oplevert verwachten wij dat er, door informatie uit vier verschillende disciplines te bundelen, toch een wetenschappelijk relevante conclusie kan worden getrokken. Gedurende het hele onderzoek wordt er uitgegaan van het gegeven dat alle medische data afkomstig is uit de Cleveland database. De modellen die zullen worden gepresenteerd zullen daarom ook zijn afgesteld op de aanwezige informatie uit deze database. Beide deelonderzoeken zijn interdisciplinair. In het eerste deelonderzoek zal het grootste gedeelte van de informatie uit het medisch informatiekundige, het biomedische en het biologische discipline komen. In het tweede deelonderzoek zal de meeste informatie uit het biologische en het neurobiologische discipline komen.

(20)

Literatuuronderzoek

Deelvraag 1: Wat zijn de voor- en nadelen van de combinatie van GA met een Classificatie systeem in het diagnosticeren van hartziekten?

In deze deelvraag wordt er een vergelijking opgesteld tussen de al bestaande classificatiemethoden en de zes geselecteerde attributen uit het GA. Vele onderzoeken hebben hartziekte predictiemodellen opgesteld die gebruik maken van GA gecombineerd met classificatiemethoden zoals Naive Bayes en de decision tree. Al deze onderzoeken zijn gebaseerd op de 13 attributen uit de Cleveland database die geselecteerd zijn met een specifiek GA (Adheli & Neshat, 2010). Aangezien 13 attributen een vrij groot aantal is voordat een hartziekte gediagnosticeerd kan worden is er onderzoek gedaan naar de mogelijkheid om minder variabelen te gebruiken met eenzelfde mate van diagnostische accuraatheid. Uit onderzoek van Anbarisa et al. (2010) blijkt dat door het gebruik van een verbeterd GA de 13 attributen teruggebracht konden worden naar minimaal zes attributen. Deze attributen zijn het type pijn op de borst, de rust bloeddruk, angina pectoris veroorzaakt door beweging, de mate van helling in het ST-segment van het elektrocardiogram wanneer de patiënt piek beweging uitoefent, het aantal kransslagaderen die gekleurd worden door fluor scopie en de uitkomst van de thalliumscan van het hart.

In combinatie met deze zes attributen worden er twee verschillende classificatiemethoden aangehaald: de Naive Bayes en de decision tree. Om een conclusie te trekken welke methode het meest efficiënt is en waar eventueel verder mee gewerkt kan worden in vervolgonderzoek wordt er gekeken naar de sensitiviteit en specificiteit. Daarnaast is de verwerkingstijd een factor die een rol speelt evenals het gemiddelde foutpercentage. Ook is de opslagruimte van het classificatiesysteem van indirecte invloed op de prestatie, hoe meer opslagruimte het systeem vereist, hoe meer geld het kost en hoe langer de verwerkingstijd zal zijn.

De classificatiemethoden zijn allen binair en geven de output waarden ‘healthy’ of ‘sick’. Waarbij de uitkomst ‘sick’ aanwezigheid van hartziekte aangeeft en ‘healthy’ afwezigheid van hartziekten indiceert. Na de uitkomst van de ingevoerde dataset worden de sensitiviteit en specificiteit uitgerekend.

De sensitiviteit van een test geeft het percentage aan van terecht positieve uitslagen onder de zieke mensen en wordt berekent met de volgende formule:

Sensitivity = TP/(TP+FN) Specificiteit = TN/(TN+FP)

Waarbij TP = true positives, TN = true negatives, FP = false positives, FN = false negatives. In tabel 2 worden de uitkomsten op de volgende manier afgebeeld:

Werkelijkheid Voorspelling →

C1 C2

C1 True Positive False Negative

C2 False Positive True Negative

Tabel 2: Voorbeeld uitkomsten, bron: M. Anbarasi, 2010

(21)

(TP+TN)/(TP+TN+FP+FN)

De data is afkomstig vanuit de Cleveland database, en de gebruikte attributen voor dit onderzoek zijn besproken in het theoretisch kader. Vanuit deze database zijn voor alle twee de methoden 909 patiënten records gebruikt met de zes attributen geselecteerd met behulp van het GA.

Naive Bayes

Deze methode is een functie: f, die de input data in kaart brengt en labelt in verschillende klassen. Bij deze methode is de ingevoerde data gelabeld en de uitkomst is binair (K. Murphy, 2006).

Zoals in het theoretisch kader vermeldt staat is er bij deze methode geen sprake van afhankelijkheid tussen de attributen en een nadelig gevolg hiervan is dat als er sprake is van een onjuiste uitkomst, deze veroorzaakt wordt als gevolg van deze onafhankelijkheid (M. Anbarasi, 2010)

In onderstaande tabel worden de uitkomsten weergegeven van de classificatie van de ingevoerde data. Deze uitkomst verschilt niet significant met de Naive Bayes methode voordat de attributen waren geselecteerd. Er is dus geen voordeel met deze methode om 6 attributen te gebruiken in plaats van 13, dit is nadelig voor het diagnosticeren.

Healthy (predicted) Sick (predicted)

Healthy (real world) 455 15

Sick (real world) 16 423

Tabel 2: Uitkomst Naive Bayes, bron: M. Anbarasi, 2010

Decision Tree

Deze methode wordt veelal gebruikt om complexe vraagstukken op te breken in meerdere simpele besluitvormen. Bij dit vraagstuk wordt er gebruik gemaakt van een binaire DT. Dit betekent dat elke node telkens twee nodes onder zich heeft (S. Safavian & D. Landgrebe, 1990). Dit wordt weergegeven in onderstaande figuur 10. Node X1 heeft tweemaal node X2 onder zich. En node X2 heeft tweemaal node X3 onder zich.

Figuur 10. bron: Universität Paderborn, 2016

In onderstaande tabel wordt de uitkomst weergegeven van de ingevoerde data voor de DT methode. Deze is heeft een zowel hoge sensitiviteit als specificiteit. Dit is voordelig voor het betrouwbaar diagnosticeren van mensen met een hartziekten. Een nadeel van deze methode is dat er veel replicatie in voorkomt en hierdoor ook meer opslagruimte vereist. Ook kost het doorloopproces van de ingevoerde data meer tijd dan bij de andere methoden. Ten gevolge van deze twee nadelen kost het de gebruiker meer geld om deze methode te gebruiken, maar indirect bespaart het geld omdat patiënten bij deze methode het minste kans hebben op een verkeerde diagnose.

(22)

Healthy (predicted) Sick (predicted)

Healthy (real world) 463 1

Sick (real world) 1 444

Tabel 3: Uitkomst Decision Tree, bron: M. Anbarasi, 2010

In onderstaande tabel wordt door middel van de sensitiviteit en specificiteit de accuraatheid berekend.

De accuraatheid wordt berekend als volgt: (TP + TN)/(TP+TN+FP+FN)

Daarnaast is de verwerkingstijd en gemiddelde fout weergegeven. Deze drie factoren spelen een rol in het bepalen van de meest efficiënte methode voor het diagnosticeren van hartziekten.

Classificatie Methoden Accuraatheid Modelleer tijd Mean error

Naive Bayes 96.5% 0.02s 0.044

Decision Tree 99.2% 0.09s 0.00016

Tabel 5: Vergelijking tussen de drie classificatie methoden, bron: M. Anbarasi, 2010

Uit deze tabel kan de conclusie getrokken worden dat de decision tree het meest geschikt is voor het diagnosticeren van hartziekten. De hoge accuraatheid kan artsen met minder ervaring en/of expertise of artsen met een hoge werkdruk ondersteunen in hun werk. De lage gemiddelde fout laat ook zien dat de methode betrouwbaar is. De modelleer tijd is het langst van alle methode, maar dit weegt niet op tegen de 99.2% accuraatheid.

Deelvraag 2: Wat zijn de voor- en nadelen van de combinatie van GA met een Artificeel Neuraal Netwerk in het diagnosticeren van hartziekten?

Fuzzy artificiële neurale netwerken (FANN) zijn uitstekend te gebruiken in de diagnostiek, omdat dit model grote hoeveelheden aan input data gemakkelijk kan verwerken naar een concluderende output. Echter, werken met grote hoeveelheden data kan voor specialisten tijdrovend zijn en het is lastig om kleine foutjes te voorkomen. ANN’s worden op dit moment gebruikt in combinatie met een specialist die de inputvariabelen van het model bepaalt en verantwoordelijk is voor de uiteindelijke uitslag (Bajaj & Gupta, 2014). Door ANN’s te combineren met een GA kan de rol van de specialist kleiner worden en door de combinatie met fuzzy logic kan nu ook een voorspelling gegeven worden over het risico van een patiënt op het krijgen van hartziektes.

De integratie van fuzzy logic in ANN (FANN) is al veel onderzocht en geoptimaliseerd. Er is een goed werkend trainings algoritme ontwikkeld waardoor de specificiteit van fuzzy logic succesvol gecombineerd kan worden met de grote dataverwerking kracht van ANN. De toepassing van FANN in diagnostiek heeft echter nog wel wat complicaties meegebracht. Er is nog geen duidelijke aanpak van het bepalen van het aantal membership functies per

(23)

variabele. Daarnaast wordt het ANN snel erg complex waardoor het traag wordt en heel veel rekenkracht vereist (Dagli, 2012). In een recent onderzoek van Samuel et al. (2017) is een dergelijk model gebruikt om hartziektes te voorspellen. Hierin werd fuzzy logic wel toegepast, maar werden de inputvariabelen bepaald door een hartspecialist. Vervolgens werd het FANN getraind aan de hand van een dataset van patiënten. Hoewel de resultaten van deze studie veelbelovend waren hadden de onderzoekers grote problemen met het optimaliseren van het model en het bepalen van het aantal membership functies per variabele. Ze hebben gebruik gemaakt van data van bijna 300 patiënten in de leerfase, echter bleek dit te weinig om voor de gehele populatie van mogelijke hartpatiënten een accurate benadering te generen. Een deel van het probleem zat in de hoge mate van complexiteit van het netwerk, dit vertraagt het proces aanzienlijk. Daarnaast was er in het onderzoek geen duidelijke aanpak voor het bepalen van het aantal fuzzy membership functies per variabele.

Om dit proces te versnellen en te verbeteren is dus een aanpassing nodig, de huidige studie stelt voor om een GA toe te passen. In een onderzoek van Amin et al. (2013) is reeds een model voor het diagnosticeren van hartziekten voorgesteld waarin een ANN gecombineerd werd met een GA, hierin was echter geen fuzzy logic geïntegreerd. Het doel van de studie was om verborgen patronen en relaties in medische data bloot te leggen, om zo de diagnose van hartziekten te vergemakkelijken. Om dit te bereiken werd een model gecreëerd die de data van hartpatiënten onderzocht op combinaties van symptomen en factoren die leiden tot de ziekte. De onderzoekers concluderen dat in dit model GA gebruikt kan worden om de juiste inputvariabelen te bepalen voor het neurale netwerk en dat GA daarnaast het netwerk kan optimaliseren door de structuur aan te passen. De belangrijkste conclusie was dat de initiële variabelen in het neurale netwerk, die in eerdere studies door hartspecialisten bepaald werden, heel goed door het GA bepaald konden worden. Daarnaast werd het netwerk verbeterd doordat de leerfase sneller en accurater werd en waren de uitkomsten van deze leerfase stabieler en dus minder aan meetfouten of willekeur onderworpen. Ook een studie van Amma (2012) heeft deze methode getest en kwam daarmee tot een accuraatheid van 94.17% in het diagnosticeren van hartziekten. Verder is in een studie van Anooj (2012) naar voren gekomen dat fuzzy membership functies goed te integreren zijn met een GA. Hoewel daar een ander model dan ANN werd gebruikt kon wel geconcludeerd worden dat de fuzzy data die werd verwerkt in de studie geen problemen opleverden voor optimalisatie met een GA.

De huidige studie stelt een model voor hartziekte diagnose voor waarin GA gecombineerd wordt met FANN. Belangrijk in dit model is de leerfase, dit gebeurt aan de hand van een trainings dataset. De trainings dataset bestaat uit een lijst hartpatiënten, de gemeten symptomen en de uiteindelijk vastgestelde diagnose. De Cleveland database kan goed dienen om deze dataset te leveren. Het FANN wordt getraind aan de hand van het trainings algoritme (Tahmasebi & Hezarkhani, 2011).

In de implementatie van GA in FANN wordt GA gebruikt als methode om de parameters in een aantal categorieën te optimaliseren. Deze parameters kunnen verschillen maar uit meerdere bronnen blijkt dat drie categorieën van parameters uit het FANN moeten worden geoptimaliseerd door een GA in de leerfase van het netwerk. Dit zijn de juiste inputvariabelen uit de Cleveland database, het aantal fuzzy membership functies die nodig

(24)

zijn om ze gradueel te kunnen uitdrukken en het aantal nodes en layers in het netwerk (Madaeni et al., 2012 en Tahmasebi & Hezarkhani, 2012).

Aangezien dit relatief veel parameters zijn die moeten worden geoptimaliseerd door het GA en een nadeel van een GA is dat het bij complexe problemen langzamer werkt, moet hier een oplossing voor gevonden worden. Uit onderzoek van Nukroho et al. (2017) blijkt dat dit probleem toch opgelost kan worden door de implementatie van een parallelle methode van GA. Hierbij wordt de snelheid verminderd door de verschillende optimalisaties uit te laten voeren door verschillende algoritmes. In dit onderzoek zou dit inhouden dat drie GA’s worden geimplementeerd voor de drie optimalisatieproblemen: de weging van de inputvariabelen, het aantal fuzzy membership functies en het aantal nodes per layer.

Hiernaast wordt in dit onderzoek de single point crossover implementatie en een combinatie van de swap-, scramble- en inversie- mutaties gebruikt (Nukroho et al., 2017). Ook in andere onderzoeken waarin een parallel GA wordt toegepast op een optimalisatieprobleem worden vaak deze varianten van crossover en mutation gebruikt (Bulnes et al, 2015, Yang, 1997, Syahputra, 2017). Een bit-flip implementatie is vaak niet mogelijk in een real world problem omdat dit kan leiden tot onbruikbare data (Hinterding, 1995). Wel zouden andere vormen van crossover kunnen worden geïmplementeerd (Back, 1996, Srinivas, 1994). Echter zijn deze vormen minder vaak toegepast op real world problems en zijn daarom minder betrouwbaar voor ons onderzoek. Daarom wordt in ons optimalisatiemodel gekozen voor de single point crossover implementatie en een combinatie van de swap-, scramble- en inversie- mutaties.

In dit onderdeel studie wordt een model voor hartziekte diagnose voorgesteld waarin GA gecombineerd wordt met FANN. Belangrijk in dit model is de leerfase, dit gebeurt aan de hand van een trainings dataset. De trainings dataset bestaat uit een lijst hartpatiënten, de gemeten symptomen en de uiteindelijk vastgestelde diagnose. Het FANN wordt getraind aan de hand van het trainingsalgoritme (Tahmasebi & Hezarkhani, 2011). De juiste inputvariabelen en het aantal membership functies per variabele worden bepaald met een GA. De leerfase (zie figuur 11) bestaat uit een wisselwerking van deze twee algoritmes die afwisselend een optimale configuratie van het model berekenen of bepalen (Madaeni et al., 2012). Vooraf wordt een bepaalde eis aan het model gesteld, in dit geval of het bij de inputwaardes de juiste diagnose stelt, zodra het model hieraan voldoet voor alle voorbeelden uit de trainingsdataset stopt de leerfase.

De totale leerfase wordt in 3 fasen opgedeeld; Ten eerste wordt door het GA wordt het optimale aantal membership functies per variabele uit de Cleveland dataset bepaald. Ten tweede bepaald het GA de optimale inputvariabelen voor het model, dit wordt afgewisseld met het trainingsalgoritme van het FANN die het model werkbaar maakt voor iedere nieuwe set inputvariabelen die het GA voorstelt (zie figuur 11). Ten derde wordt de structuur van het model geoptimaliseerd door het GA. Hier wordt getest of het aantal nodes en layers van het model geminimaliseerd kan worden, zodat het een sneller werkend model wordt zonder dat de accuraatheid vermindert (Tahmasebi & Hezarkhani, 2012).

Als ook deze laatste leerfase is voltooid blijft het uiteindelijke model over. Dit is een model waarin inputvariabelen gezet kunnen worden (de bepaalde, gemeten symptomen), vervolgens gaat het model rekenen en komt er een diagnose in de vorm van een percentage uit. Tussen de input en output zitten nog de hidden layers (zoals beschreven in figuur 9). De

(25)

hidden layers worden als ‘black box’ gezien, de lagen zijn voor het model van belang maar bevatten verder geen duidelijk interpreteerbare informatie. Doordat het niet makkelijk te interpreteren valt is het voor een arts moeilijk om in te schatten hoe het model precies tot de diagnose is gekomen, een nadeel van het voorgestelde model.

Figuur 11. Leerfase van het voorgestelde model waarin een fuzzy artificieel neuraal netwerk

gecombineerd wordt met GA. Hierbij worden drie GA’s uitgevoerd. Elk GA heeft de optimalisatie van de parameters van een onderdeel als taak. De drie onderdelen zijn: het aantal fuzzy membership functies die nodig zijn om de variabelen gradueel te kunnen uitdrukken, de juiste inputvariabelen uit de Cleveland database, en het aantal nodes en layers in het netwerk.

In de huidige, binaire clinical decision support systems zien we dat classificatiemethoden uitstekende diagnostische tools zijn voor hartziektes. Om hierop verder te bouwen stelt de huidige studie een fuzzy artificieel neuraal netwerk voor. Dit classificatiesysteem heeft als voordeel dat het niet-binaire data kan verwerken waardoor het een risico op hartziektes kan voorspellen. In dit model wordt het graduele en precieze van de membership functies gecombineerd met de capaciteit van het netwerk om veel data te verwerken zodat het netwerk accuraat en snel de set van factoren kan omzetten naar een diagnose. Een nadeel van het voorgestelde model is echter dat het snel erg complex wordt, waardoor het trager werkt. Om dit model te optimaliseren is voorgesteld het te combineren met een GA. Eerder is onderzocht dat uit de Cleveland database slechts zes variabelen essentieel zijn voor het stellen van een juiste diagnose, in combinatie met een GA. Hoewel het nog onduidelijk is of dit ook geldt voor een diagnostisch model mét fuzzy-eigenschappen geeft dit wel aan dat het GA het model zou kunnen versimpelen, zo ook door het optimale aantal nodes en aantal layers te bepalen. Echter is een grote beperkende factor in een GA ook de trage snelheid van het algoritme bij een grote input van data. Daarom zijn in het voorgestelde model drie

(26)

aparte GA’s toegevoegd voor de optimalisatie van de parameters in de drie belangrijkste categorieën.

(27)

Conclusie

In dit paper is een kwalitatieve vergelijking gemaakt tussen verschillende classificatiemethoden in combinatie met GA. De belangrijkste behandelde methoden zijn Naive baise, decision tree & FANN. In de eerste deelvraag zijn de voor en nadelen van klassieke classificatiemethoden in combinatie met GA voor de toepassing op hartziekte-diagnose onderzocht, waarna in de tweede deelvraag de mogelijkheden van de minder conventionele classificatiemethode in de hartziekte-diagnose: FANN in combinatie met GA zijn onderzocht. Het hoofdonderzoek had als doel een antwoord te vinden op de vraag: Wat zijn de voor- en nadelen van het gebruik van GA in combinatie met ANN in de diagnose van hartziekten ten opzichte van de combinatie van GA en CM?

Het eerste deel van het onderzoek was een kwaliteitsvergelijking tussen de combinatie van verschillende classificatiemethoden met een GA voor de diagnose van hartziekten. De conclusie die hieruit getrokken kan worden is dat de decision tree in combinatie met een GA het beste hartziekten kan diagnosticeren. Naar aanleiding van eerder onderzoek is naar voren gekomen dat deze classificatie methode de hoogste accuraatheid (99.2%) heeft voor het diagnosticeren van hartziekten. Tevens zijn er slechts zes variabelen nodig om deze accuratie te bewerkstelligen. Het grootste nadeel bij deze methode is echter dat de uitkomst binair is. Hierdoor zal de vordering, gradatie en ernst van de hartziekte onbekend blijft. Om een oplossing te vinden voor dit probleem is het tweede deelonderzoek uitgevoerd. Hierin is de mogelijkheid van de integratie van een GA in een FANN ten behoeve van de diagnose van hartziekten onderzocht. Een specifiek model is opgesteld om dit te bewerkstelligen (figuur 11). Voordelen van dit model zijn dat dit ervoor zou moeten zorgen dat graduele oplossingen moeten kunnen worden gevonden in de diagnose van hartziekten. Ook zou dit algoritme, evenals het GA in combinatie met een decision tree, moeten kunnen werken met maar zes attributen om tot een diagnose te komen. Hierover is echter nog geen experimenteel bewijs geleverd. Dit komt doordat dit model nog niet experimenteel getest is voor hartziekte-diagnose. Een daarbij komend nadeel is dat de snelheid van het algoritme tegen zou kunnen vallen. Daarom moet voorlopig de conclusie getrokken worden dat de beste methode van hartziekte-diagnose wordt gevormd door de combinatie van een GA met een decision tree toegepast op de cleveland heart database.

(28)

Discussie

Hoewel dit nog niet is toegepast in hartziekte-diagnose, heeft de integratie van GA in een FANN wel potentie in dit onderzoeksgebied. De resultaten uit de literatuur laten namelijk zien dat een geïntegreerd GA in een FANN kan werken op optimalisatieproblemen. Voor de toepassing in de hartziekte-diagnose zou dit een doorbraak zijn. Als het voorgestelde model kan worden uitgevoerd kan dit een graduele diagnose stellen, wat tot op heden ontbreekt in CDSS. Echter kon in dit onderzoek het model niet worden uitgevoerd. Mede door dit gebrek aan praktische uitvoering van het model in de hartziekte-diagnose kunnen veel precieze instellingen niet worden bepaald. Daarom zal in vervolgonderzoek moeten worden onderzocht hoeveel membership functies per variabele optimaal is voor een juiste diagnose, de precieze waarden van de crossover en mutatie waarschijnlijkheden en het beoogde aantal keer dat het model moet worden doorlopen tot het einde van de leerfase. Wij stellen voor dat in vervolgonderzoek dit model wordt uitgevoerd. De eerste test-toepassing zou in dat geval kleine dataset moeten zijn met al bekende outputvariabelen ter referentie. Op deze manier kunnen de afstellingen van het model geoptimaliseerd worden. Ook deze optimalisatie kan het beste worden uitgevoerd door een GA.

(29)

Literatuurlijst

Adeli, A., & Neshat, M. (2010). A Fuzzy Expert System for Heart Disease Diagnosis.

Proceedings of the International MultiConference of Engineers and Computer Scientists, 1(1), 134-139. Geraadpleegd van

https://www.researchgate.net/profile/Mehdi_Neshat2/publication/44260568_A_Fuzzy_ Expert_System_for_Heart_Disease_Diagnosis/links/5760434f08ae2b8d20eb5de8.pdf Amato, F., López, A., Peña-Méndez, E. M., Vaňhara, P., Hampl, A., & Havel, J. (2013).

Artificial neural networks in medical diagnosis.

Amin, S. U., Agarwal, K., & Beg, R. (2013, April). Genetic neural network based data mining in prediction of heart disease using risk factors. In Information & Communication

Technologies (ICT), 2013 IEEE Conference on (pp. 1227-1231). IEEE.

Amma, N. B. (2012, February). Cardiovascular disease prediction system using genetic algorithm and neural network. In Computing, Communication and Applications

(ICCCA), 2012 International Conference on (pp. 1-5). IEEE.

Anooj, P. K. (2012). Clinical decision support system: Risk level prediction of heart disease using weighted fuzzy rules. Journal of King Saud University - Computer and

Information Sciences, 24(1), 27-40. doi:https://doi.org/10.1016/j.jksuci.2011.09.00

Anbarasi, M., Anupriya, E., & Iyengar, N. C. S. N. (2010). Enhanced prediction of heart disease with feature subset selection using genetic algorithm. International Journal of

Engineering Science and Technology, 2(10), 5370-5376.

Back, T. (1996). Evolutionary algorithms in theory and practice: evolution strategies,

evolutionary programming, genetic algorithms. Oxford university press.

Cardiovascular diseases (CVDs). (n.d.). Retrieved from

http://www.who.int/mediacentre/factsheets/fs317/en/

Cohen, H., & Lefebvre, C., (2005).Handbook of Categorization in Cognitive Science. Elsevier.)

Basheer, I. and Hajmeer, M. (2000). “Artificial neural networks:Fundamentals,

computing, design, and application”. Journal of Microbiological Methods, Vol. 43,No. 1, pp. 3-31.https://doi.org/10.1016/S0167-7012(00)00201-3

Bulkley, B. H., Rouleau, J. R., Whitaker, J. Q., Strauss, W., & Pitt, B. (1977). 7. The Use of 201Thallium for Myocardial Perfusion Imaging in Sarcoid Heart Disease.

Chest, 72(1), 27-32. doi:https://doi.org/10.1378/chest.72.1.27

Castelli, W. P. (1984). Epidemiology of coronary heart disease: The Framingham study. The

American Journal of Medicine, 76(2), 4-12.

doi:https://doi.org/10.1016/0002-9343(84)90952-5

Chambers, J. (1995). Left ventricular hypertrophy. BMJ, 311(7000), 273-274. doi:https://doi.org/10.1136/bmj.311.7000.273