Een segmentatie en classificatie methode ter evaluatie van de kwaliteit van darmvoorbereiding ten behoeve van coloscopie

(1)

Een segmentatie en

classifica-tie methode ter evaluaclassifica-tie van

de kwaliteit van

darmvoorbe-reiding ten behoeve van

colo-scopie

Jo¨

el Buter

21 maart 2021

Supervisor(s): T.R. Walstra, B.B.S.L. Houwen (Amsterdam UMC)

Inf

orma

tica

—

Universiteit

v

an

Ams

terd

am

(2)

(3)

supervisors Taco Walstra (Universiteit van Amsterdam) en Britt Houwen (Amsterdam UMC) voor hun meedenken, feedback en het bewaken van de structuur tijdens mijn schrijf-proces,

experts Ioannis Glottis (ZiuZ) en Reinier Noorda (Universitat Polit`ecnica de Val`encia) voor het meedenken bij het maken van keuzes welke methoden te hanteren,

artsen Liselotte Zwager, David van Toledo, Tim Kortlever, Willemijn Klaver en Karlijn Nass (Amsterdam UMC) voor het herbeoordelen van de dataset,

Fons Hartendorp voor zijn vriendschap en het sparren met betrekking tot mijn onderzoek en schrijfproces,

en mijn familie voor hun steun, het cre¨eren van een rustige werkomgeving en het zetten van vele potten thee.

(4)

Samenvatting

In deze scriptie wordt onderzocht of een cutting-edge methode, ontwikkeld voor objectieve en automatische evaluatie van de kwaliteit van darmvoorbereiding in de dunne darm, ook kan worden toegepast op de dikke darm.

De initi¨ele methode maakt gebruik van een convolutional neural network om op pixel-level verontreiniging in capsule endoscopy beelden van de dunne darm te segmenteren. De pixel-level segmentatie in een video wordt vervolgens automatisch omgezet naar een Boston bowel preparation scale (BBPS) klasse door middel van thresholds. Deze worden automatisch afgestemd op menselijke evaluatie door meerdere artsen.

Dit onderzoek toont aan dat de methode voor evaluatie van de kwaliteit van darmvoor-bereiding van de dunne darm ook uitstekend kan worden toegepast op coloscopiebeelden van de dikke darm. Bij pixel-level segmentatie van verontreiniging wordt een nauwkeurig-heid van 98,9% behaald, en automatische toekenning van een BBPS-klasse aan een video vertoont goede overeenstemming met menselijke evaluatie.

(5)

1 Introductie 7

2 Theoretische achtergrond 9

2.1 Convolutional Neural Network . . . 9

2.1.1 Fitting . . . 9

2.2 Boston bowel preparation scale . . . 9

3 Gerelateerd werk 11 3.1 Openbare datasets . . . 11 3.2 Capsule endoscopie . . . 11 3.3 Coloscopie . . . 12 4 Methode 13 4.1 Datacollectie . . . 13 4.1.1 Openbare datasets . . . 13 4.1.2 Klinische herbeoordelingen . . . 14 4.2 Segmentatie . . . 15 4.2.1 Pixel-based segmentatie . . . 15

4.2.2 Onderdrukking speculiere reflecties . . . 15

4.2.3 Lumen . . . 16 4.2.4 Speculiere reflecties . . . 17 4.2.5 Color transfer . . . 18 4.2.6 Ontlasting . . . 18 4.2.7 Patch-based segmentatie . . . 19 4.3 Classificatie . . . 21 4.3.1 Data-verdeling . . . 21

4.3.2 Segmentatie naar classificatie . . . 22

5 Experimenten en resultaten 23 5.1 Experimentele opzet . . . 23

5.1.1 Evaluatie prestaties segmentatie . . . 23

5.2 Effectiviteit pixel- en patch-based segmentatie . . . 24

5.3 Tuning kwaliteitsthresholds . . . 25

5.4 Resultaten . . . 26

6 Discussie en conclusies 29 6.1 Discussie . . . 29

(6)

(7)

Introductie

In 2018 was darmkanker, na longkanker, de dodelijkste vorm van kanker met bijna 900.000 sterfgevallen wereldwijd [4]. Darmkanker ontwikkelt zich vaak uit darmpoliepen, een proces dat kan worden voorkomen als deze poliepen op tijd gedetecteerd en verwijderd worden gedurende een coloscopie [22]. Een coloscopie is een kijkonderzoek in de dikke darm middels een camera aan een flexibele slang. Onderzoek door Nishihara et al. [25] heeft daarnaast aangetoond dat screening en surveillance door middel van coloscopie mortaliteit en het risico op darmkanker reduceert.

Voor iedere vorm van darmobservatie, waarbij een camera in de darmen van een pati¨ent wordt gebracht, is het van belang dat de darmen schoon zijn om goed zicht op het darmslijmvlies te hebben. Hierbij is een belangrijke stap de hygi¨enische voorbereiding van de darmen [41], ofwel darmvoorbereiding. Hieronder vallen bijvoorbeeld methoden als het gebruik van laxerende middelen en het volgen van een bepaald dieet voordat een endoscopie plaatsvindt.

Momenteel worden verschillende methoden van darmvoorbereiding toegepast in medische centra wereldwijd, maar bestaat er geen unanimiteit over de beoordeling van de resulterende kwaliteit van darmvoorbereiding [6, 27]. Tevens zijn er verschillende meetinstrumenten om de kwaliteit van darmvoorbereiding te beoordelen, zoals de Ottowa bowel preparation scale [34] en de Boston bowel preparation scale (BBPS) [20]. Onder andere subjectiviteit van artsen bij het gebruik van deze meetinstrumenten en de evaluatie van de aanwezigheid van verontreiniging in de darmen speelt een rol. Daarom lijkt een geautomatiseerde methode een belangrijke bijdrage te kunnen leveren aan het objectief beoordelen van de kwaliteit van darmvoorbereiding.

In 2019 presenteerden Noorda et al. [26] een methode waarin darmslijmvlies bedekkende verontreiniging in een videocapsule-endoscopie (CE) videoframe van de dunne darm werd ge-segmenteerd. Vervolgens werd deze segmentatie omgezet naar een classificatie van de kwaliteit van darmvoorbereiding voor het hele frame volgens de BBPS. Deze methode maakte origineel gebruik van VGGNet [26, 35] waarna in 2020 een door Noorda et al. ontworpen CNN model werd ge¨ıntegreerd in hun methode [27]. Deze methode werd toegepast op een eigen dataset die speciaal werd samengesteld voor dit onderzoek.

Momenteel bestaat er, voor zover bij ons bekend, geen methode om in de dikke darm veront-reiniging te segmenteren en vervolgens de kwaliteit van darmvoorbereiding te classificeren. Wel bestaat sinds 2017 de publiekelijk toegankelijke Nerthus dataset van Pogorelov et al. [29]. Deze bevat coloscopiebeelden van de dikke darm die geclassificeerd zijn volgens de BBPS en wordt beschreven in Subsectie 4.1.1.

In deze scriptie onderzoeken we of de methode zoals gepresenteerd door Noorda et al. [27] naast op CE-opnamen van de dunne darm, ook toegepast kan worden op coloscopie-opnamen van de dikke darm. Dit leidt tot de volgende onderzoeksvraag:

Hoe kunnen we de door Noorda et al. [27] gepresenteerde methode voor segmentatie van verontreiniging en tevens classificatie van de kwaliteit van darmvoorbereiding in CE-opnamen

(8)

(9)

Theoretische achtergrond

2.1 Convolutional Neural Network

Een artificial neural network (ANN) is een complex computer algoritme waarvan de structuur is ge¨ınspireerd door het menselijk brein [13]. Het bijzondere aan een ANN is dat voor ieder pro-bleem, waarbij een invoer een-op-een naar een uitvoer wordt omgezet, een netwerk van voldoende complexiteit kan worden gemaakt. Dit betekent dat ANN’s zeer geschikt zijn voor classificatie en detectie problemen [38].

Het meest simpele type ANN, een feedforward network, bestaat uit drie onderdelen; de input-, hidden- en output layers. Hierbij beweegt informatie zich in ´e´en richting, vanuit de input layer door de hidden layer naar de output layer. Het netwerk is in staat te leren door een zogenaamde cost function te optimaliseren, vaak door middel van gradient backpropagation.

Een convolutional neural network (CNN) verbetert het zojuist beschreven feedforward net-work door hidden layers toe te voegen waarin convoluties worden uitgevoerd. Hierdoor kan de lokale spati¨ele samenhang, die van nature in een afbeelding aanwezig is, ge¨exploiteerd worden.

In het algemeen wordt een CNN opgesplitst in twee onderdelen: het base- en top-model [27]. In het base-model worden trainbare convolutional layers toegepast om automatisch patronen te leren herkennen, waarna in het top-model het classificatieproces wordt uitgevoerd.

2.1.1 Fitting

De fase waarin een ongetrainde ANN-architectuur, het model, ‘leert’ noemen we de fitting fase. Tijdens de fitting fase worden aan de verbindingen tussen layers van een model gewichten toe-gekend, waarbij ieder gewicht (w) in het interval w ∈ [0, 1] ligt. Na de fitting fase moeten non-lineaire combinaties van gewichten leiden tot een nauwkeurige benadering van de oplossing voor een classificatieprobleem.

Een model kan getraind worden door het een invoer en bijbehorende gewenste uitvoer te geven, waarna een cost wordt toegekend aan een misclassificatie middels een cost function. Door het optimaliseren, i.e. minimaliseren, van deze cost function wordt het model in staat gesteld te leren. Dit wordt gedaan door afgeleiden met respect tot de cost function te bepalen door een gradient backpropagation algoritme en de gewichten van een model hierop aan te passen [7, 27].

2.2 Boston bowel preparation scale

De Boston bowel preparation scale (BBPS) is een methode voor classificatie van de kwaliteit van darmvoorbereiding in de dikke darm. Voor deze methode wordt de dikke darm ingedeeld in drie segmenten, namelijk de linker-, rechter- en transversumsectie. Aan ieder segment wordt een score van 0 tot en met 3 toegekend, zodat de resulterende BBPS-score varieert van 0 tot en met 9 voor de gehele dikke darm [20]. In het licht van automatische classificatie wordt in het

(10)

vervolg van dit onderzoek gerefereerd aan een score wanneer een klasse beschreven wordt. De beschrijving per BBPS-klasse is te zien in Tabel 2.1.

De BBPS is in dezen goed toepasbaar om de volgende redenen: de BBPS kan eenvoudig worden aangeleerd door artsen [20]. Daarnaast is de BBPS grondig gevalideerd. Ten slotte zorgt gebruik van de BBPS voor hoge consensus tussen artsen over de beoordeling van de kwaliteit van darmvoorbereiding [6]. Deze hoge consensus, uitgedrukt in de intraclass correlation coefficient, werd ook terug gezien in de beoordelingen door onze artsen, zie Subsectie 5.3 en Subsectie 4.1.2. Echter, de BBPS-klassen zijn ordinaal, maar er bestaat geen duidelijke grens tussen de klassen. Daardoor kwam het vaak voor dat door de artsen klassen gehanteerd werden die dicht bij elkaar lagen, maar niet overeenkwamen. Er is dus sprake van consensus, maar niet van unanimiteit.

Klasse Beschrijving

0 Onvoorbereid darmsegment waarin darmslijmvlies niet kan worden gezien door onverwijderbare vervuiling.

1 Deel darmslijmvlies in darmsegment kan worden gezien, maar andere delen niet door staining, residual stool of ondoorzichtige vloeistof.

2 Minimale hoeveelheid staining, residual stool of ondoorzichtige vloeistof, maar darmslijmvlies in darmsegment kan goed worden bekeken.

3 Darmslijmvlies in gehele darmsegment kan goed worden bekeken, zonder aanwezigheid van staining, residual stool of ondoorzichtige vloeistof.

Tabel 2.1: Omschrijving van de BBPS-klassen.

(11)

Gerelateerd werk

3.1 Openbare datasets

Deze sectie geeft een beknopt overzicht van openbare datasets uit het onderzoeksveld betreffende classificatie van darmverontreiniging, waarna in Sectie 4.1 de voor ons onderzoek gebruikte data uitgebreid behandeld worden.

Pogorelov et al. [29] presenteerden in 2017 de eerste openbare dataset die video-opnamen van het linkersegment van de dikke darm bevat, gemaakt met een coloscoop. De 5.525 frames uit de video-opnamen zijn geclassificeerd volgens de BBPS en beschikbaar gesteld door de Noorse non-profit organisatie Simula Research Laboratory.

In een vervolgonderzoek van Borgli et al. [3] werd in augustus 2020 de Hyper-Kvasir dataset dataset gepresenteerd. Dit is een multi-klasse dataset bestaande uit 110.079 frames en 374 video-opnamen van de dikke darm, gemaakt tijdens een coloscopie. Van 1.794 frames is de kwaliteit van darmvoorbereiding geclassificeerd als voldoende (BBPS 2 en 3) of onvoldoende (BBPS 0 en 1). Helaas zijn de breedte- en hoogteverhoudingen tussen verschillende frames inconsistent waardoor deze dataset niet toegepast kon worden in ons onderzoek.

De dataset van Noorda et al. [27] werd gepresenteerd in oktober 2020. Deze dataset bevat pat-ches uit CE-opnamen van de dunne darm. Een patch beslaat een oppervlakte van 64 × 64 pixels in frames uit de video-opnamen. Van deze patches zijn 28.547 geclassificeerd als verontreinigd, en 26.746 geclassificeerd als schoon.

3.2 Capsule endoscopie

Een model voor detectie van bloedingen in de dunne darm op basis van een CNN werd ge-presenteerd in werk uit 2016 van Jia et al. [18]. Het model voert een detectie uit op frames uit een CE-video-opname en lost een binair classificatieprobleem op, namelijk: een frame bevat bloedingen of niet.

De resultaten van het gebruikte model werden vergeleken met de resultaten uit eerder onder-zoek [9, 39], waarin feature-extraction methoden werden gebruikt voor detectie van bloedingen. Door Jia et al. werden de door hun CNN behaalde F1 score, precision en recall vergeleken. Daarbij werd aangetoond dat in deze opzichten met een CNN betere resultaten konden worden behaald dan met feature-extraction methoden.

In oktober 2020 werd door Noorda et al. [27] een methode beschreven voor het segmenteren van verontreiniging, zoals gal en voedselresten, in CE-opnamen van de dunne darm. Daarnaast werd deze segmentatie omgezet naar een classificatie van de kwaliteit van darmvoorbereiding. Voor segmentatie van verontreiniging werd een frame uit een CE-video-opname opgedeeld in een raster. Vervolgens wordt een CNN, ge¨ınspireerd door het werk van Jia et al., toegepast om de rastercellen (patches) te classificeren als verontreinigd of schoon. Hierbij werd een nauwkeurig-heid van 95,23% behaald. Daarnaast vertoonde automatische classificatie goede overeenkomsten

(12)

met classificatie door artsen.

3.3 Coloscopie

Pogorelov et al. [28] presenteerden naast een openbare dataset tevens een onderzoek naar de toepasbaarheid van verschillende machine learning technieken hierop. Om de geschiktheid van de dataset voor automatische classificatie vast te stellen, werden twee baseline CNN’s gegeven waaraan toekomstig onderzoek zou kunnen worden getoetst. De gepresenteerde CNN’s bevatten drie en zes convolutional layers, waarbij nauwkeurigheden van respectievelijk 77,2% en 85,4% werden behaald.

Recent werk van Zhu et al. [41] presenteerde een nieuw CNN-model, bestaande uit drie convolutional layers. Dit model classificeerde beelden uit video-opnamen van de dikke darm, gemaakt met een coloscoop, volgens de BBPS-klassen beschreven in Tabel 2.1. De beelden waren afkomstig uit een door Zhu et al. samengestelde dataset, die niet publiekelijk toegankelijk is. Naast een evaluatie van de prestaties van het model op de eigen dataset werden ook de prestaties op de Nerthus dataset beoordeeld. Daarbij werden op alle evaluatiestatistieken verbeteringen genoteerd ten opzichte van de baseline models van Pogorelov et al. [29]. Wij plaatsen hier als kanttekening bij, dat bij deze evaluatie enkel gebruik is gemaakt van een eenvoudige 80-20 training-test split. Na contact met de auteurs van het betreffende artikel werd bevestigd dat beter een cross-validation methode toegepast had kunnen worden. Ook werden door hen geen maatregelen genomen om de data op video-niveau te splitsen. In Subsectie 4.3.1 wordt beschreven waarom het van belang is dit wel te doen. Wanneer hier rekening mee was gehouden, zouden mogelijk lagere resultaten behaald zijn.

In ons onderzoek passen we de methode zoals gepresenteerd door Noorda et al. toe op de Nerthus dataset van Pogorelov et al. Ons doel is te onderzoeken in hoeverre de methode van Noorda et al. kan worden toegepast op coloscopiebeelden om verontreiniging te segmenteren en kwaliteit van darmvoorbereiding te classificeren.

(13)

Methode

4.1 Datacollectie

In dit onderzoek werd gebruik gemaakt van drie verschillende datasets. Het ging hierbij om twee publieke datasets, namelijk de Noorda dataset [27] en de Nerthus dataset [29], zoals beschreven in Subsectie 4.1.1. Daarnaast werd ook een eigen dataset samengesteld die patches en subvideo’s bevatte uit een gemodificeerde variant van de Nerthus dataset, zoals beschreven in Subsectie 4.1.2.

4.1.1 Openbare datasets

De Noorda dataset [27], bestaat uit patches genomen uit CE-videobeelden van de dunne darm. Een patch beslaat een oppervlakte van 64 × 64 pixels [26], en heeft een stapgrootte van 32 pixels in de horizontale en verticale richting.

In het werk van Noorda et al. werden patches door twee artsen geselecteerd als geschikte data wanneer een patch als volledig schoon of volledig verontreinigd geclassificeerd kon worden. Hierdoor werd de vaak onduidelijke overgang tussen schoon darmslijmvlies en darmverontreini-ging niet in de dataset opgenomen. Deze overgang wordt echter gewaarborgd door de horizontale en verticale overlap tussen naburige patches. Naast darmslijmvlies werden ook bloedingen en pathologische gebieden in de darm geclassificeerd als schoon.

Door veel kleine, overlappende patches uit een overkoepelend frame te classificeren als schoon of verontreinigd kan een CNN worden toegepast voor nauwkeurige segmentatie van verontreini-ging. Daarnaast kunnen gesegmenteerde gebieden worden gebruikt voor het vaststellen van de kwaliteit van darmvoorbereiding in een geheel frame.

De Nerthus dataset is een collectie frames uit video-opnamen van de dikke darm, gemaakt met een coloscoop [29]. De video’s betreffen opnamen van het linker segment van de dikke darm; het colon descendens, het colon sigmoideum en de endeldarm. De dataset bevat 5.525 frames afkomstig uit 21 video’s, geschoten op een frame rate van 25 FPS en een resolutie van 720 × 576 pixels. Deze frames zijn vervolgens geclassificeerd volgens de BBPS-klassen [20], zie Tabel 2.1. Een beschrijving van de verdeling van data binnen de dataset wordt gegeven in Tabel 4.1.

De meerderheid van de frames uit de Nerthus dataset bevat informatie die voor ons onderzoek niet relevant is, zoals een groen frame waarin de locatie van de coloscoop in de dikke darm wordt weergegeven. Daarom is een preprocessing-stap uitgevoerd waarin door middel van een masker een deel van deze overbodige informatie wordt verwijderd, zie Figuur 4.1.

(14)

Klasse Video’s Video’s na split Frames Duur (sec.) 0 2 7 500 20 1 10 41 2700 108 2 4 15 975 39 3 5 21 1350 54 Totaal 21 84 5525 221

Tabel 4.1: Overzicht van data in de Nerthus dataset, voor en na herindeling.

(a) (b) _(c)

Figuur 4.1: (a) Een frame uit Nerthus dataset. (b) Het masker dat wordt toegepast. (c) Het overgebleven gebied dat wordt gebruikt in het onderzoek.

4.1.2 Klinische herbeoordelingen

De Nerthus dataset bevat minder dan vier minuten aan videobeelden waarbij alle video’s onge-veer tien seconden lang zijn. In ons onderzoek moet vermeden worden dat de training- en test dataset frames uit dezelfde video bevatten, de redenatie hierachter wordt beschreven in Subsectie 4.3.1. Daarom is na contact met dhr. R. Noorda, auteur van Automatic evaluation of degree of cleanliness in capsule endoscopy based on a novel CNN architecture [27], besloten alle video’s op te splitsen in subvideo’s met een duur van ´e´en tot drie seconden. Op deze manier bevatten alle subvideo’s nog voldoende informatie, maar wordt het aantal video’s dat tot onze beschikking is verviervoudigd, te zien in Tabel 4.1. Hierdoor ontstaat meer flexibiliteit tijdens het uitvoeren van stratified grouped k-fold cross-validation, zoals beschreven in Subsectie 4.3.1.

De BBPS-klasse van video’s in de Nerthus dataset is minder nauwkeurig bij onze subvideo’s, doordat binnen een video met een duur van tien seconden meerdere overgangen van ´e´en naar een andere BBPS-klasse aanwezig kunnen zijn. Mede hierom is door middel van een eigen, op maat gemaakt programma de BBPS-klasse van de subvideo’s opnieuw beoordeeld door zes artsen van het Amsterdam UMC.

Het is opvallend dat voor slechts 57,14% van de subvideo’s door de artsen complete overeen-stemming werd bereikt over de klassen waartoe deze behoorden. Voor 41,67% van de subvideo’s was er sprake van twee verschillende beoordelingen, en voor 1,19% van de subvideo’s drie ver-schillende beoordelingen. Zoals aangetoond in Subsectie 5.3 is er sprake van een hoge consensus, maar de subjectiviteit in de beoordeling van de artsen toonde voor ons toch de relevantie van dit onderzoek aan. In Sectie 4.3 wordt hier verder op ingegaan.

(15)

en pixel-based segmentatie. Daarbij refereert de eerste aan segmentatie van verontreiniging door middel van een CNN, en de tweede aan door onszelf ontwikkelde technieken ter vervanging van de beoordeling van patches door artsen.

4.2.1 Pixel-based segmentatie

Een ‘gouden standaard’ betreffende schoon darmslijmvlies en verontreinigd weefsel in de dikke darm bestaat momenteel niet. Echter, voor deze scriptie is het uit tijdsoverwegingen niet mogelijk tienduizenden patches uit de Nerthus dataset door artsen visueel te laten classificeren als schoon of verontreinigd. In onze methode wordt daarom gebruik gemaakt van pixel-based segmentatie als een alternatief voor extractie van patches uit de Nerthus dataset, gedaan door artsen.

Hier is voor gekozen, omdat in de experimenten duidelijk werd dat het trainen van het CNN op de Noorda dataset en de daarop volgende evaluatie op de Nerthus dataset resulteerde in degelijke segmentatie van verontreiniging. Echter, opvallend was dat schoon darmslijmvlies dat gelegen was in het lumen (Subsectie 4.2.3) of waarop speculiere reflecties (Subsectie 4.2.4) aanwezig waren, werden gesegmenteerd als verontreiniging. Door middel van pixel-based segmentatie kunnen deze zogenoemde regions of interest (ROI’s) uit de Nerthus dataset ge¨extraheerd worden, en toegevoegd aan de Noorda dataset. Daarna kan het CNN opnieuw getraind worden.

De volgende subsecties beschrijven de methoden die zijn gebruikt voor het extraheren van ROI’s uit de Nerthus dataset. Tevens worden methoden, zoals color transfer (Subsectie 4.2.5), behandeld die de neveneffecten van het toevoegen van de zojuist beschreven ROI’s aan de Noorda dataset tegengaan.

4.2.2 Onderdrukking speculiere reflecties

Een coloscoop is standaard uitgerust met een krachtige lichtbron, die er voor zorgt dat de peri-ferale regionen in het gezichtsveld van een arts tijdens een coloscopie even goed belicht zijn als de centrale regionen [1]. Een gevolg hiervan is dat vochtig weefsel reflecties kan veroorzaken die de camera sensoren volledig satureren, wat verstorend werkt voor computer vision technieken [1, 16]. Wanneer sprake is van volledige saturatie van de camera sensoren wordt dit glare genoemd. Figuur 4.2a toont speculiere reflecties die aanwezig zijn in een frame uit de Nerthus dataset. De speculiere reflecties bevinden zich met name links en onderin het frame.

Om reflecties te onderdrukken wordt een aangepaste versie van een methode, beschreven door Jamal [16], gebruikt. We nemen de medianen van de red, green en blue (RGB) buffers van een frame en trekken deze af van de buffers. Dit resulteert in een frame Im. Vervolgens wordt Im omgezet naar een grayscaled frame Y (Im) volgens Vergelijking 4.1:

Y (I) = 0, 299 × IR+ 0, 587 × IG+ 0, 114 × IB (4.1) Wanneer pixelwaarden boven een bepaalde grens (γ) uitkomen dan wordt dit gezien als glare [1]. Het vaststellen van γ gebeurt empirisch, voor de Nerthus dataset werden goede resultaten behaald voor γ = 100. Na begrenzing van Y (Im) met γ wordt een binair resultaat (R) overgehou-den. Uit R kunnen vervolgens speculaire reflecties afgeleid worovergehou-den. Om ruis in R te reduceren, wordt gebruik gemaakt van de dilation operatie [12].

Vervolgens worden dilation en erosion operaties [12] toegepast op I. Dit heeft tot gevolg dat de prominente kleuren van I met elkaar vermengen waardoor speculiere reflecties minder zichtbaar worden. Dit resulteert in een frame Ide. Omdat dilation en erosion de contouren van I aantasten, worden de pixelwaarden [x, y] uit I vervangen door de pixelwaarden [x0_{, y}0_{] uit I}

de volgens Vergelijking 4.2: I [x, y] = ( Ide[x, y], als R [x, y] > 0 I [x, y], anders. (4.2)

(16)

De laatste stap is het toepassen van een klein Gaussian filter op I, zodat abrupte overgan-gen rond veranderde pixels minder opvallen [16]. Het resultaat van toepassing van de zojuist beschreven methode is te zien in Figuur 4.2b.

(a) (b)

Figuur 4.2: (a) Frame met verstorende speculiere reflecties. (b) Frame na verwijdering speculiere reflecties.

4.2.3 Lumen

In ons werk wordt verwezen naar lumen als de “regio in een frame waarin zich het weefsel bevindt dat het verst weg ligt van de camera”. Omdat in de darm geen ambi¨ent licht aanwezig is, kan aangenomen worden dat weefsel dat verder bij de camera vandaan ligt slechter belicht en dus donkerder is [40].

Om lumen te detecteren wordt het k-means algoritme toegepast. Met dit algoritme kan een frame in k groepen (clusters) pixels met gelijksoortige kleurkarakteristieken worden opgedeeld, zie Figuur 4.3b. Het algoritme is simpel, snel [16] en, zoals beschreven door Ng et al. [24], zeer geschikt voor segmentatie met betrekking tot medische doeleinden. Voor pixel-based segmentatie van lumen in frames uit de Nerthus dataset werden door ons optimale resultaten voor K = 6 behaald.

Het k-means algoritme poogt n d-dimensionale datapunten, X = {xi}, i = 1, . . . , n, in K clusters te verdelen, waarbij datapunten binnen hetzelfde cluster overeenkomende karakteristie-ken vertonen. Bij initialisatie van het algoritme worden willekeurige cluster centra geselecteerd, C = {ck}, k = 1, . . . , K. Vervolgens worden alle xi aan een willekeurige cluster ck toegevoegd. Daarna wordt voor alle xi de afstand tussen xi en de cluster centra (µk) bepaald volgens Ver-gelijking 4.3. Het dichtstbijzijnde cluster krijgt daarna xi toegewezen. Hierna worden opnieuw de centra van de clusters bepaald en opnieuw de datapunten toegewezen aan de dichtstbijzijnde cluster. Dit proces herhaalt zich totdat alle clusters zijn gevonden en Vergelijking 4.4 geminima-liseerd is [15]. J (ck) = X xi∈ck || xi− µk||2 (4.3) J (C) = K X k=1 X xi∈ck || xi− µk ||2 (4.4)

Nadat het k-means algoritme is be¨ındigd, is het resultaat een gecomprimeerd frame Ik. Dit wordt geconverteerd naar een grayscaled frame Y (Ik) volgens Vergelijking 4.1. In Y (Ik) wordt de laagste pixel waarde γ bepaald, met γ ≥ 0, en wordt Y (Ik) hierop begrensd. Dit geeft de uiteindelijke segmentatie van het lumen, zie Figuur 4.3c.

(17)

van Y (Ik) met γ.

4.2.4 Speculiere reflecties

De methode toegepast in Subsectie 4.2.2 detecteert alle glare in een frame, terwijl in deze Subsec-tie enkel speculiere reflecSubsec-ties gedetecteerd dienen te worden. Onze methode voor nauwkeurige de-tectie van speculiere reflecties wordt daarom gebaseerd op werk gepresenteerd door Zimmerman-Moreno et al. [42].

Speculiere reflecties worden gekarakteriseerd door een hoge helderheid (I) en een lage kleur saturatie (S) [21]. Om in te kunnen schatten waar speculiere reflecties zich bevinden, wordt gebruik gemaakt van twee begrenzingen volgens Vergelijking 4.5 (ge¨ınspireerd door [42]). Het binaire resultaat (Szm) hiervan is te zien in Figuur 4.4b.

I =R + G + B

3 > 0, 3 · Imax, S = 1 − min(R, G, B)

I < 0, 5 · Smax

(4.5)

In Figuur 4.4b is links een grote witte vlek zichtbaar. Deze ontstaat doordat de zojuist beschreven methode licht weefsel, dat geen glare is, wel foutief als zodanig herkent. Daarom volgt hierna een methode gebaseerd op onze eigen experimenten, die minder nauwkeurig, maar ook minder gevoelig is voor dit soort foutieve segmentaties.

In alle 64 × 64 neighborhoods (Sni) in S, die overeenkomen met de manier waarop patches geplaatst zijn, wordt de mediaan bepaald. Ge¨ınspireerd door werk van Jamal [16] worden alle pixels in de neighborhood van deze mediaan afgetrokken, zie Vergelijking 4.6.

Sni0 [x, y] = median(Sni) − Sni[x, y], met

0 ≤ S_ni0 [x, y] ≤ 255 (4.6)

Vervolgens worden alle S_ni0 begrensd op een waarde van 80, wat volgens onze experimenten leidt tot een voldoende nauwkeurige schatting van de locatie van speculiere reflecties. Hierop wordt een dilation operatie toegepast, wat er toe leidt dat alle speculiere reflecties zich binnen de gevonden ROI’s (S_n0) bevinden, zie Figuur 4.4c.

Daarna worden volgens Vergelijking 4.7 de uiteindelijke ROI’s (Sk) bepaald, zie Figuur 4.4.

Sk[x, y] = (

1, als S_n0 [x, y] > 0 ∧ Szm[x, y] > 0

(18)

(a) (b) (c) (d)

Figuur 4.4: (a) Het invoer frame. (b) Speculiere reflecties volgens [21]. (c) Speculiere reflecties volgens eigen methode. (d) Contouren van uiteindelijke ROI’s in Sk.

4.2.5 Color transfer

Bij uitvoering van de experimenten betreffende invariantie voor speculiere reflecties werd opge-merkt dat patches die verontreiniging bevatten en waarop tevens speculiere reflecties aanwezig waren, werden geclassificeerd als schoon. De daarbij gehanteerde hypothese was dat het CNN te veel gefocusseerd zou zijn op de textuur van een speculiere reflectie, en te weinig op de kleur van een patch.

Om dit te voorkomen is gebruik gemaakt van color transfer [33], een methode waarbij kleur-karakteristieken van ´e´en afbeelding op een andere afbeelding worden geprojecteerd, zie Figuur 4.5. Van deze techniek is aangetoond dat het de prestaties verbetert van ANN’s die zijn getraind op datasets die dezelfde texturele-, maar andere kleurkarakteristieken vertonen [30]. Een Python implementatie van color transfer [8] is gebruikt voor het uitvoeren van de vereiste berekeningen. Bij het toepassen van color transfer hebben we ons gelimiteerd tot het gebruik van frames uit BBPS-klasse 3 van de Nerthus dataset. Volgens de beschrijving van deze klasse hoort in deze frames alleen darmslijmvlies aanwezig te zijn, zie Tabel 2.1 en [20]. Middels visuele inspectie van de dataset is bevestigd dat dit ook het geval is.

De gedachte achter het toepassen van color transfer is dat een volledig schoon frame waarop de color transfer-methode is toegepast, geclassificeerd kan worden als een volledig verontreinigd frame. Het gevolg hiervan is dat op deze manier op eenvoudige wijze patches, met de kleur van verontreiniging en daarop speculiere reflecties, verzameld kunnen worden. Hierdoor hoeft geen gebruik te worden gemaakt van een pixel-based segmentatie methode, die onnauwkeurig kan zijn. Deze opzet is mogelijk onorthodox, uit onze experimenten bleek echter dat de toepassing van color transfer resulteerde in verbeterde patch-based segmentatie, zie Figuur 5.3.

(a) (b) (c)

Figuur 4.5: (a) Het invoer frame. (b) Het doelwit frame. (c) Resultaat na color transfer.

4.2.6 Ontlasting

Na het uitvoeren van de experimenten betreffende speculiere reflecties, lumen en color transfer viel op dat patch-based segmentatie nog niet de gewenste nauwkeurigheid opleverde. De gebruikte training data in de verontreinigd klasse bestond voor 91% uit dunne darm patches en voor 9% uit

(19)

den. In [16] wordt geopperd om histogram equalization toe te passen op de RGB buffers van een frame, om zo het kleurverschil tussen darmslijmvlies en verontreinigd weefsel te vergroten. Bij het toepassen van deze methode viel ons echter op dat bij frames uit onze dataset niet-bestaande kleuren ontstonden, zoals blauw- en roodtinten. In het origineel waren juist consistente bruin-tinten aanwezig. Een gevolg hiervan was dat de segmentatie onnauwkeurig werd.

Daarnaast werd ge¨experimenteerd met Gaussian mixture models [11] voor segmentatie van schoon darmslijmvlies, zodat het complement van deze segmentatie verontreinigd weefsel zou zijn. Echter, hierbij werd ook vaak verontreinigd weefsel gedetecteerd als schoon darmslijmvlies, wat de segmentatie onnauwkeurig maakte.

Tot slot is door middel van begrenzingen op het kleurspectrum en k-means clustering [5] geprobeerd schoon weefsel te segmenteren, maar ook dit leverde onnauwkeurige resultaten op. Hierbij werd wel de potentie van begrenzingen op het kleurspectrum geobserveerd en besloten we ons hier op te focusseren.

Voor detectie van verontreiniging met begrenzingen op het kleurspectrum hebben we ons gelimiteerd tot frames uit BBPS-klasse 2 van de Nerthus dataset. Bij de meerderheid van de frames in deze klasse is de overgang tussen darmslijmvlies en verontreinigd weefsel namelijk duidelijk zichtbaar.

In de methode worden eerst zoveel mogelijk speculiere reflecties onderdrukt, zoals beschreven in Subsectie 4.2.2. Vervolgens wordt op het resultaat een Gaussian blur uitgevoerd met een filter ter grootte van 25 × 25 pixels, zodat enkel blobs ontstaan. Dit geblurde frame (Ig) wordt ge-converteerd van RGB formaat naar HSV formaat. Op de hue (Igh), saturatie (Igs) en helderheid (Igv) worden vervolgens begrenzingen geplaatst. De segmentatie (Is) wordt vervolgens bepaald middels Vergelijking 4.8. Deze resulterende pixel-based segmentatie is te zien in Figuur 4.6c.

Is[x, y] = (

1, als Igh> 9, Igs> 145, Igv > 70

0, anders. (4.8)

(a) (b) (c)

Figuur 4.6: (a) Het invoer frame. (b) Uitvoeren van Gaussian filter. (c) Contouren van geseg-menteerde verontreiniging Is.

4.2.7 Patch-based segmentatie

Hoewel het model ontwikkeld door Noorda et al. [27] niet in deze scriptie onderzocht wordt, is het essentieel voor het uitvoeren van patch-based segmentatie. In deze subsectie wordt daarom een beknopte beschrijving gegeven van de architectuur van het model. Daarnaast wordt ook een korte toelichting gegeven van het interpolatie algoritme dat leidt tot pixel-level segmentatie.

Het base-model van de architectuur bestaat uit vier blokken. Ieder blok start met een con-volutional layer, gevolgd door een Leaky ReLU activatie functie [17] en batch normalization [14]. Daarna volgen opnieuw een convolutional layer, een Leaky ReLU activatie functie en batch nor-malization. Beide convolutional layers gebruiken een filter met een grootte van 3 × 3 pixels en

(20)

hebben een stapgrootte van respectievelijk 1 en 2 pixels. Alleen het eerste blok begint met twee convolutional layers, in plaats van ´e´en.

Het top-model van de architectuur bestaat uit een flatten layer die de uitvoer van het base-model omzet naar een 1-dimensionale vector, waarna twee fully-connected layers zorgen voor classificatie. De eerste layer bestaat uit 128 neurons, gevolgd door Leaky ReLU activatie en batch normalization. De laatste layer bestaat uit twee neurons en een softmax activatie functie. De neuron met de hoogste waarde bepaalt de klasse waaraan de invoer waarschijnlijk toebehoort. De architectuur wordt getoond in Figuur 4.7. Dit figuur is met een kleine aanpassing over-genomen uit het werk van Noorda et al. Na contact met de auteur bleek namelijk dat de eerste convolutional layer van het laatste blok in het base-model origineel een grootte had van 16 × 16 × 128 pixels, wat eigenlijk een grootte van 16 × 16 × 256 pixels had moeten zijn. Hier-door veranderde het aantal trainbare parameters van 1.267.650 naar 1.708.418 en verbeterde de nauwkeurigheid van het CNN.

Figuur 4.7: Een visualisatie van het model beschreven in [27].

Na segmentatie van verontreiniging op patch-level, kan vervolgens gesegmenteerd worden op pixel-level. Dit wordt gedaan door toepassing van bilinear interpolation tussen de pixel centra van patches. Centrale pixels van schone en verontreinigde patches krijgen waarden van 0 en 1 respectievelijk. Daarna worden waarden van tussenliggende pixels bepaald vol-gens Algoritme 1. Dit algoritme is met een aantal aanpassingen overgenomen uit het werk van Noorda et al. [27]. In het resultaat van dit algoritme hebben alle pixels een waarde w in het interval w ∈ [0, 1] die overeenkomt met de kans op aanwezigheid van verontreiniging.

(21)

Output: Waarschijnlijkheidsframe Ip waarin de waarde van pixels overeenkomt met de zekerheid

for p ∈ P do

xmin← kleinste x-coordinaat van p ymin← kleinste y-coordinaat van p xmax← grootste x-coordinaat van p ymax← grootste y-coordinaat van p

Ip← frame van formaat I geinitialiseerd met nullen x ← xmin while x ≤ xmax do xu← x − xmin xmax− xmin wx← max(0, 1 − |0.5 − xu| − o 1 − o ) y ← ymin while y ≤ ymaxdo yu← y − ymin ymax− ymin wy← max(0, 1 − |0.5 − yu| − o 1 − o ) Ip[x, y] ← Ip[x, y] + probability(p) × wx× wy y ← y + 1 end x ← x + 1 end end

4.3 Classificatie

4.3.1 Data-verdeling

Om te garanderen dat de classificatie methode zoals beschreven in deze sectie zal generaliseren naar nieuwe en onafhankelijke video’s, is gebruik gemaakt van stratified grouped 2-fold cross-validation.

Bij k -fold cross-validation wordt een dataset opgedeeld in k folds. Een fold is een groep samples uit een dataset, die geen overlap heeft met andere groepen samples. Alle folds zijn van grofweg equivalente grootte en vormen tezamen de gehele dataset. Na de verdeling in folds worden k iteraties uitgevoerd, waarbij in iedere iteratie k − 1 folds worden gebruikt om een algoritme te trainen, en 1 fold voor evaluatie van de prestaties van het getrainde algoritme [37]. Het gemiddelde van de prestaties op alle folds geeft een schatting van de prestaties van het algoritme.

Bij het toepassen van ANN’s op medische datasets is het belangrijk dat frames uit dezelfde video, of beelden van dezelfde patiënt niet in de training- en test dataset aanwezig zijn [27]. Wanneer hier geen rekening mee wordt gehouden zou een CNN bijvoorbeeld anatomische ken-merken die bij een specifieke patiënt horen kunnen onthouden, waardoor de prestaties van het CNN positiever of negatiever kunnen uitvallen dan werkelijk het geval is. Dit gebeurde bijvoor-beeld in werk van Rajpurkar et al., die in de eerste versie van hun artikel [31] röntgenbeelden van dezelfde patiënt in hun training- en test dataset opnamen. In een herziene versie [32] werden röntgenbeelden wel juist verdeeld tussen de training- en test dataset, en vielen de prestaties van het gebruikte ANN in een aantal gevallen lager uit.

Rekening houden met groepen frames binnen de BBPS-klassen tijdens het uitvoeren van k-fold cross-validation wordt grouped k-fold cross-validation genoemd. Wanneer binnen folds

(22)

ook de originele verdeling van klassen intact wordt gehouden, wordt dit stratified grouped k-fold cross-validation genoemd.

0

1

2

3 BBPS-klasse

0

500 1000

1500

2000

2500

Frames

Origineel

Fold 1

Fold 2

Figuur 4.8: Verdeling van door ons aangepaste Nerthus dataset na stratified grouped 2-fold cross-validation procedure.

4.3.2 Segmentatie naar classificatie

Door Noorda et al. [27] werd een methode voorgesteld om individuele frames te classificeren volgens de BBPS. Hierbij werd de gemiddelde pixel-level verontreiniging in een frame (APC) omgezet naar een BBPS-klasse door middel van thresholds. Na overleg met een expert werd besloten om in ons onderzoek een gehele subvideo uit onze dataset te classificeren, omdat dit voor artsen meer praktisch nut heeft. Dit werd gedaan door de APC voor alle frames in een subvideo te bepalen en hier het gemiddelde van te nemen.

Voor het optimaliseren van de thresholds over de subvideo’s zijn de BBPS-classificaties ge-bruikt die door zes artsen zijn gegeven, zoals beschreven in Subsectie 4.1.2. Zo werd gepoogd een balans te vinden tussen de subjectiviteit van meerdere artsen en hiermee juist een meer objectieve BBPS-klasse toe te kennen aan een subvideo. Om de betrouwbaarheid van de mate van consensus tussen de beoordelingen van meerdere artsen te berekenen, is gebruik gemaakt van de intraclass correlation coefficient (ICC) [27, 19]. Bij optimalisatie van de thresholds is gebruik gemaakt van de two-way mixed effects, consistency-based, single rater/measurement variant, afgekort ICC(C, 1). Optimalisatie door middel van consistentie, in plaats van absolute overeenkomst, leidt er namelijk toe dat consistentie wordt beloond voor subvideo’s waarbij de classificatie van de door ons gebruikte methode sterk afwijkt van die van de artsen. Bij optimalisatie door middel van ab-solute overeenkomst kan het namelijk zijn dat de thresholds overfit worden op de beoordelingen van de artsen en niet generaliseren naar een onafhankelijke set subvideo’s [27]. Daarnaast is ge-bruik gemaakt van de single rater variant, omdat een enkele beoordelaar, namelijk automatische classificatie, wordt gebruikt als basis van de uiteindelijke meting [19, 27].

(23)

Experimenten en resultaten

5.1 Experimentele opzet

Voor training en evaluatie van het model gehanteerd in ons onderzoek, is gebruik gemaakt van het Lisa Systeem [23]. Dit is een systeem van verbonden nodes, namelijk CPU- en GPU nodes, waarop jobs uitgevoerd worden.

Middels de GPU’s van het Lisa Systeem kon de trainingstijd van het model drastisch verkort worden ten opzichte training op een particuliere laptop. Daarnaast waren per job tenminste 4 GPU’s beschikbaar, waardoor parallellisme geëxploiteerd kon worden en het model tegelijkertijd op verschillende data getraind en geëvalueerd kon worden. De gebruikte hardware waarop het model is getraind en geëvalueerd zijn NVIDIA Titan RTX GPU’s.

Omdat het Lisa Systeem gebruik maakt van een batch systeem, waarbij een eindgebruiker het systeem vraagt om rekenkracht en deze na een bepaalde periode toegewezen krijgt, kan het voorkomen dat GPU’s meerdere dagen niet beschikbaar zijn. Daarnaast kan een instabiele internetverbinding een 24 uur lange blokkade tot het systeem veroorzaken.

Wanneer dit het geval was werden onze experimenten uitgevoerd in Google Colab [10], waarin ´

e´en NVIDIA Tesla K80 GPU beschikbaar was. In Google Colab is bijna altijd direct rekenkracht beschikbaar, echter hier kan maximaal 12 uur lang achter elkaar gebruik van gemaakt worden. De meerderheid van de experimenten is daarom uitgevoerd op het Lisa Systeem.

5.1.1 Evaluatie prestaties segmentatie

In onze methode wordt gebruik gemaakt van pixel-based segmentatie ter vervanging van de beoordeling van patches door een arts. Voor zo ver bij ons bekend is, bestaat een ‘gouden stan-daard’ betreffende schoon darmslijmvlies en verontreinigd weefsel in de dikke darm momenteel niet. Daarom is er in overleg met drs. T.R. Walstra, de scriptie supervisor, voor gekozen zelf de in Sectie 4.2 beschreven ROI’s handmatig te segmenteren in frames uit onze dataset. Mid-dels visuele inspectie en in overleg met een arts werd vervolgens vastgesteld of deze handmatige segmentatie voldoende werd benaderd door pixel-based segmentatie.

De pixel-based segmentatie methoden lossen altijd een binair segmentatie probleem op. Hier-bij wordt ´e´en type weefsel, een ROI, onderscheiden van de rest van het frame. Helaas is de overgang tussen een ROI en het overige weefsel vaak onduidelijk [27]. Daarom benadrukken wij dat de handmatige segmentaties enkel een grove afbakening geven van de ROI’s waarnaar gezocht wordt.

Handmatige segmentatie in alle 5.525 frames uit onze dataset neemt veel tijd in beslag. Daarnaast lijken veel frames op elkaar door de hoge framerate en de lage snelheid waarop de camera door de coloscopist gemanoeuvreerd wordt. Daarom is er in overleg met een expert voor gekozen uit alle subvideo’s drie frames op gelijke afstand van elkaar te extraheren, zoals te zien is in Figuur 5.1. Op deze manier zijn de data waarop de methode ge¨evalueerd werd divers en

(24)

uitgebreid, maar dienden slechts in 252 frames, in plaats van 5.525 frames handmatig ROI’s gesegmenteerd te worden.

Figuur 5.1: Drie frames geselecteerd op gelijke afstand uit een video uit onze dataset. De geselecteerde frames tonen de diversiteit van data binnen een tijdsspanne van ´e´en seconde (25 frames), en handmatig gesegmenteerde verontreiniging.

5.2 Effectiviteit pixel- en patch-based segmentatie

In ons onderzoek werd gebruik gemaakt van een CNN getraind op de Noorda dataset. Hiermee werd patch-based segmentatie van verontreiniging in frames uit de Nerthus dataset uitgevoerd. De resultaten hiervan kunnen onnauwkeurig zijn, zie Figuur 5.4.

Zoals beschreven in Subsectie 4.2.1 kan de Noorda dataset echter wel als uitgangspunt voor de training data worden genomen. Deze kan worden aangevuld met patches uit de Nerthus dataset, ge¨extraheerd door middel van pixel-based segmentatie methoden. Zo kon bekeken worden of deze patches een positieve invloed hadden op de nauwkeurigheid van patch-based segmentatie.

Geprobeerd werd om de hoeveelheid data ge¨extraheerd uit de Nerthus dataset te beperken, vanwege de onnauwkeurigheid die van nature aanwezig is in pixel-based segmentatie methoden die zo eenvoudig zijn als de onze. Echter, de resultaten van deze pixel-based segmentatie methoden zijn met een expert ge¨evalueerd. Het ging hierbij om frames die opvielen omdat door onszelf niet duidelijk beoordeeld kon worden of de ROI’s correct handmatig gesegmenteerd waren. Dit kwam bijvoorbeeld door slechte belichting van het weefsel.

De Noorda dataset is opgedeeld in vijf training-, validatie- en test subsets, door middel van grouped 5-fold cross-validation. Voor de experimenten werd training fold 5 gebruikt, die bestaat uit 13.667 schone patches en 14.018 verontreinigde patches. Uit deze twee klassen werden willekeurig patches verwijderd, totdat beide klassen 13.500 patches bevatten. Vervolgens werden hier per experiment patches aan toegevoegd, waarbij het aantal patches in beide klassen met maximaal 10% verschilde [27]. Vanaf hier wordt aan deze training data gerefereerd als de baseline set.

Met de methode beschreven in Subsectie 4.2.3 werden 18.861 patches die lumen bevatten ge¨extraheerd uit frames in BBPS-klasse 3 van de Nerthus dataset. Wanneer een patch zich voor minstens 80% binnen het segmenteerde lumen bevond, werd deze ge¨extraheerd als een lumen patch. Omdat lumen vochtig kan zijn, bestaat er een overlap met de set patches die speculiere reflecties bevatten. Uit voorzorg is hier rekening mee gehouden, maar deze overlap leek weinig effect te hebben op de resultaten. Uit de set van 18.861 beschikbare lumen patches zijn vervolgens 1.350 willekeurige samples genomen en aan de schoon klasse van de baseline set toegevoegd.

Net zoals het geval was bij het voorgaande experiment zijn enkel speculiere reflecties ge¨extraheerd uit BBPS-klasse 3 van de Nerthus dataset. Hiervoor werd de methode zoals beschreven in

(25)

schoon klasse van de baseline set. Ook in dit geval werd rekening gehouden met de overlap met de set lumen patches.

Om de effectiviteit van de color transfer methode vast te stellen, werd de zojuist beschreven baseline set, aangevuld met speculiere reflectie patches, verder uitgebreid. Eerst werd de color transfer methode beschreven in Subsectie 4.2.5 toegepast op alle frames uit BBPS-klasse 3 van onze dataset. Met de methode beschreven in Subsectie 4.2.4 werden uit deze color transfer dataset vervolgens patches ge¨extraheerd die speculiere reflecties bevatten. Hierna werden uit deze set patches op willekeurige wijze 1.350 samples geselecteerd en toegevoegd aan de verontreinigd klasse van bovenstaande training data.

Ook werd de invloed van patches met ontlasting onderzocht. Dit maal werd de methode zoals beschreven in Subsectie 4.2.6 gebruikt voor segmentatie van ontlasting. Wanneer een patch voor 80% binnen de gesegmenteerde ontlasting viel, werd deze ge¨extraheerd als een ontlasting patch. Op deze manier werd een set van 11.475 ontlasting patches gecre¨eerd. Aan de schoon klasse van de baseline set werden 1.350 willekeurige lumen patches en 1.350 willekeurige speculiere reflectie patches toegevoegd. Aan de verontreinigd klasse werden 1.350 willekeurige color transfer patches en 1.350 willekeurige ontlasting patches toegevoegd.

Omdat in deze scriptie de toepassing van de methode gepresenteerd door Noorda et al. [27] op coloscopie beelden werd onderzocht, werd uit interesse besloten een eigen dataset te vormen die volledig bestond uit patches afkomstig uit de Nerthus dataset. Hiervoor zijn uit BBPS-klasse 3 patches ge¨extraheerd die niet als lumen of speculiere reflecties waren geclassificeerd. Deze patches werden eenvoudigweg slijmvlies genoemd. De schoon klasse van deze nieuwe dataset bestond uit 7.500 slijmvlies patches, 1.500 lumen patches en 2.000 speculiere reflectie patches. De verontreinigd klasse bestond uit 5.000 color transfer patches en 5.000 ontlasting patches. Uit tijdsoverwegingen is niet ge¨experimenteerd met andere verdelingen van patches binnen deze nieuwe dataset.

De k-fold cross validation methode zoals beschreven in Subsectie 4.3.1 werd toegepast om onze subvideo dataset op te splitsen in twee folds. Voor alle experimenten werden patches uit ´e´en fold genomen en toegevoegd aan de baseline set, waarna patch-based segmentatie op de andere fold werd uitgevoerd. De experimenten werden dus twee keer, i.e. voor beide folds, uitgevoerd.

Na iedere aanpassing van de baseline set door het toevoegen van patches uit één fold werd het CNN opnieuw getraind. De verandering in nauwkeurigheid van de patch-based segmentatie werd vervolgens geëvalueerd op patches afkomstig uit de andere fold. Deze zijn door onszelf handmatig geëxtraheerd door middel van een zelfontwikkelde webapplicatie, zie Figuur 5.2. Uit de eerder vermelde 252 frames werden zo 6.585 volledig vervuilde patches verzameld. Schone patches werden willekeurig geselecteerd uit BBPS-klasse 3 van beide folds en niet handmatig gesegmenteerd, in verband met tijdsoverwegingen. Zo werd voor elke fold een test dataset ge-vormd, die beiden bestonden uit 2.750 schone patches en 2.500 vervuilde patches. Voor de vijf zojuist beschreven experimenten werd zo de verandering in de nauwkeurigheid van segmentatie door het CNN na opnieuw trainen geëvalueerd.

5.3 Tuning kwaliteitsthresholds

Om de APC van een subvideo uit onze dataset om te zetten naar een BBPS-klasse werd de methode zoals beschreven in Subsectie 4.3.2 toegepast. Voor het vaststellen van de optimale thresholds werd gebruikt gemaakt van een exhaustive search. Hiervoor werden alle mogelijke combinaties van thresholds gegenereerd, en werd de combinatie gekozen die de ICC(C, 1) maxi-maliseerde. Voor het bepalen van de ICC(C, 1) is het Pingouin framework [36] voor Python gebruikt.

(26)

(a) (b)

Figuur 5.2: (a) Frame uit onze dataset. (b) Vervuilde patches geselecteerd middels de webapplicatie.

5.4 Resultaten

De resultaten gepresenteerd in deze sectie zijn drieledig. Ten eerste wordt de pixel-based segmentatie met handmatige segmentatie vergeleken. Ten tweede wordt de invloed van met pixel-based segmentatie ge¨extraheerde patches op de patch-based segmentatie ge¨evalueerd. Tot slot worden de resultaten van auto-matische classificatie van subvideo’s uit onze dataset behandeld.

Frames in de linker- en rechterkolom van Figuur 5.4 tonen resultaten van patch-based segmentatie, res-pectievelijk vóór en ná aanpassing van de baseline set, zoals beschreven in Sectie 5.2. De middelste kolom toont de overeenkomst tussen pixel-based segmentatie en handmatige segmentatie, en geeft een indicatie van de ROI’s waarnaar gezocht werd.

Na training van het model op de baseline set werd op de test dataset een nauwkeurigheid van 66,3% gehaald. In Figuur 5.3 worden de nauwkeurigheden van het CNN na training op verschillende aangepaste baseline sets getoond. Bij het laatste experiment, waarin een training dataset werd gevormd die volledig bestond uit patches uit de Nerthus dataset, werd een nauwkeurigheid van 98,9% gehaald.

De gevonden thresholds voor automatische classificatie, en hun standaard deviaties over de twee folds, waren 0,04± 0,005 tussen klasse 3 en klasse 2; 0,21 ± 0,030 tussen klasse 2 en BBPS-klasse 1 en 0,67± 0,015 tussen BBPS-klasse 1 en BBPS-klasse 0. Vervolgens is de verandering in de two-way mixed effects, absolute agreement, single rater/measurement ICC [19], afgekort tot ICC(A, 1), berekend [27]. Eerst is deze berekend tussen de beoordelingen van zes artsen zonder inclusie van onze methode, en daarna met inclusie van onze methode [27]. De behaalde resultaten waren 0,886 met een 95% confidence interval (CI) van (0,85, 0,92), en 0,856 met een 95% CI van (0,81, 0,89), respectievelijk.

Experimenten

0% 20% 40% 60% 80% 100%

Nauwkeurigheid

Baseline

Lumen

Speculiere reflecties

Color transfer

Ontlasting

Eigen dataset

Figuur 5.3: Gemiddelde nauwkeurigheden en standaard deviaties van het CNN na training op de datasets beschreven in Sectie 5.2.

(27)

(d) (e) (f)

(g) (h) (i)

(j) (k) (l)

(m) (n) (o)

Figuur 5.4: Resultaten van segmentatie vóór en ná hertraining CNN. De rijen bevatten resultaten van de experimenten naar lumen, speculiere reflecties, color transfer, ontlasting en volledig patches uit de dikke darm, respectievelijk.

(28)

(29)

Discussie en conclusies

6.1 Discussie

In dit onderzoek is aangetoond dat patch-based segmentatie van verontreiniging in de dikke darm handmatige segmentatie benadert. Dit is vastgesteld door uit 252 frames uit onze dataset, middels een zelfontwikkelde webapplicatie, verontreinigde patches te extraheren. Schone patches werden willekeurig ge¨extraheerd uit frames uit BBPS-klasse 3 van onze dataset. Op de test dataset die zo gevormd werd behaalde het CNN een nauwkeurigheid van 98,9%.

Daarnaast blijkt dat de automatische beoordeling van de kwaliteit van darmvoorbereiding, aan de hand van de BBPS, handmatige beoordelingen goed benadert. Dit werd vastgesteld door berekening van de ICC(A, 1) zonder inclusie van onze methode, en met inclusie van onze methode [27]. De uitkomst van de ICC(A, 1) met inclusie van onze methode bleef binnen het CI van de ICC(A, 1) zonder inclusie van onze methode. Het is daarom plausibel om aan te nemen dat automatische classificatie goede overeenkomst vertoont met menselijke evaluatie.

Reproductie van het werk door Noorda et al. [27] leverde in eerste instantie afwijkende resultaten op. Na contact met dhr. R. Noorda bleek dit te kloppen, er was namelijk een kleine fout gemaakt in de uitleg van de door hen gepresenteerde CNN architectuur. Na aanpassing van deze fout konden de resultaten correct gereproduceerd en het model in onze methode ge¨ıntegreerd worden. Werk van Zhu et al. [41] presenteerde een CNN dat frames uit de Nerthus dataset classificeerde volgens de BBPS-klassen zoals die gebruikt worden in ons onderzoek. In hun onderzoek is geen cross-validation methode gebruikt voor evaluatie van de prestaties van het CNN. De dhr. Y. Zhu bevestigde desgevraagd dat toepassing van een cross-validation methode meer betrouwbare resultaten zou hebben opgeleverd. Omdat zowel dhr. Y. Zhu. als dhr. R. Noorda aanraadde cross-validation toe te passen, is hier in ons onderzoek extra aandacht aan besteed.

Bij het vaststellen van de nauwkeurigheid van het CNN is introductie van subjectiviteit onvermijdelijk, doordat handmatige segmentatie door onszelf gedaan is. Doordat de Nerthus dataset weinig data bevat, was het daarnaast nodig video’s op te splitsen in subvideo’s om k-fold cross-validation degelijk uit te kunnen voeren. De lage handelingssnelheid van de coloscopist en hoge framerate van de video’s kunnen ervoor zorgen dat frames uit subvideo’ sterk op elkaar lijken, maar wel in verschillende folds gebruikt worden. Hierdoor kan de nauwkeurigheid van het CNN hoger zijn uitgevallen dan het geval was geweest bij evaluatie op een onafhankelijke dataset. Toch zijn we van mening dat de potentie van de patch-based segmentatie methode van Noorda et al. [27] voor gebruik op de dikke darm is aangetoond, mede doordat alleen al bij training op de baseline set een nauwkeurigheid van bijna 70% werd behaald.

Bij evaluatie van pixel-based segmentatie is, om subjectiviteit tegen te gaan, ook de beoor-deling door een arts meegenomen bij het uitvoeren van handmatige segmentatie. Echter, de grootste beperking van ons onderzoek is het ontbreken van een ‘gouden standaard’ betreffende schoon darmslijmvlies en verontreinigd weefsel in de dikke darm. Als alternatief hiervoor zijn in overleg met een arts en onze supervisor pixel-based segmentatie methoden ontwikkeld. Hiermee

(30)

konden op beperkte schaal patches uit frames uit de Nerthus dataset worden ge¨extraheerd. Hoewel de pixel-based segmentatie methoden gebaseerd zijn op medische literatuur, is een door artsen vastgestelde ‘gouden standaard’ zoals gezegd volledig afwezig. Het gebruikte refe-rentiekader voor pixel-based segmentatie is daarom de vergelijking met handmatige segmentatie middels visuele inspectie door een expert en door onszelf geworden.

Daarnaast is het mogelijk dat de gebruikte methode te veel toegespitst is op de Nerthus dataset. Deze bevat minder dan vier minuten aan videobeelden, wat kan betekenen dat de beschikbare data niet gevarieerd genoeg zijn. Een mogelijk gevolg is dat de data niet represen-tatief zijn voor de betreffende doelgroep van ons onderzoek, namelijk de groep mensen die een coloscopie ondergaat.

Ook is de controle van handmatige segmentatie in overleg met ´e´en arts gedaan. Voor be-trouwbaardere evaluatie hadden hierbij meerdere artsen betrokken moeten worden. Uit tijds-overwegingen is dit niet gedaan.

Tot slot is de Nerthus dataset gepresenteerd in 2017. Inmiddels wordt in veel medische centra gebruik gemaakt van meer moderne technologie. Dit kan tot gevolg hebben dat de gepresenteerde methode beter of slechter werkt op beelden afkomstig van deze apparatuur. Ook kan de sluitertijd van de coloscoop leiden tot meer motion blur, waardoor ontlasting minder duidelijk zichtbaar is. Een oplossing hiervoor zou kunnen zijn het toevoegen van een temporeel aspect aan de methode, zoals rekening houden met segmentatie in voorgaande frames.

In plaats van thresholds aan te passen op de BBPS-beoordelingen door zes artsen en vervol-gens te evalueren op beoordelingen door dezelfde zes artsen, zou het beter zijn om te trainen op de beoordelingen door een grotere groep artsen en daarna te evalueren op de beoordelingen van een onafhankelijke andere eveneens grotere groep artsen. Daarnaast zijn de herbeoordelin-gen van de subvideo’s gedaan door artsen uit dezelfde onderzoeksgroep en dezelfde medische instelling. Beter zou zijn een multi-institutionele groep onafhankelijke artsen te betrekken om de objectiviteit te vergroten.

Ook het tekort aan data dat geclassificeerd is volgens de BBPS, en het ontbreken van een ‘gou-den standaard’ betreffende schoon darmslijmvlies en verontreinigd weefsel in de dikke darm moet worden geagendeerd. Hierdoor kunnen onder andere de prestaties van patch-based segmentatie op een meer objectieve manier worden vastgesteld.

6.2 Conclusie

Dit onderzoek is gegaan over de vraag of een methode voor segmentatie van verontreiniging in frames uit CE-opnamen van de dunne darm en classificatie van de kwaliteit van darmvoorberei-ding kan worden toegepast op coloscopiebeelden van de dikke darm. Er is gebruik gemaakt van pixel-based segmentatie ter vervanging van de beoordeling van patches door een arts, vanwege het ontbreken van een ‘gouden standaard’ betreffende schoon darmslijmvlies en verontreinigd weefsel in de dikke darm. Op deze manier zijn patches uit de Nerthus dataset ge¨extraheerd en toegevoegd aan de Noorda dataset. Door het ontbreken van een ‘gouden standaard’ is gepro-beerd zo veel mogelijk de Noorda dataset te gebruiken, maar is uiteindelijk een dataset volledig bestaande uit dikke darm patches samengesteld. In dit onderzoek is aangetoond dat patch-based segmentatie van verontreiniging in de dikke darm handmatige segmentatie benadert. Daarnaast blijkt dat de automatische beoordeling van de kwaliteit van darmvoorbereiding, aan de hand van de BBPS, handmatige beoordelingen goed benadert.

Bij het werken met de in ons onderzoek gebruikte data is het van belang dat dit gebeurt met voldoende geanonimiseerde gegevens [2]. Voor zover we kunnen beoordelen is de anonimiteit in het geval van de Nerthus- en de Noorda dataset gewaarborgd. Echter, vanwege de gevoelige na-tuur van de data waarmee gewerkt wordt, blijft dit een punt van aandacht. Een ander punt van aandacht is subjectiviteit van artsen bij het beoordelen van de kwaliteit van darmvoorbereiding tijdens een coloscopie. Een automatisch algoritme zoals door ons onderzocht kan hier een objec-tieve beoordeling aan geven. Dit kan een arts helpen te beslissen of een pati¨ent nogmaals een coloscopie moet ondergaan. Een herhaalde coloscopie zou extra belastend kunnen zijn voor de

(31)

waarop een pati¨ent darmkanker zou kunnen ontwikkelen. Doordat een ANN functioneert als een black-box is het echter moeilijk vast te stellen waar de verantwoordelijkheid ligt in een complexe en indringende situatie als deze.

(32)

(33)

[1] Eric Abel, Wei Xi en Paul White. “Methods for removing glare in digital endoscope images”. In: Surgical endoscopy 25.12 (2011), p. 3898–3905.

[2] Emma Bell, Alan Bryman en Bill Harley. Business research methods. Oxford university press, 2018.

[3] Hanna Borgli e.a. “HyperKvasir, a comprehensive multi-class image and video dataset for gastrointestinal endoscopy”. In: Scientific Data 7.1 (2020), p. 1–14.

[4] Freddie Bray e.a. “Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries”. In: CA: a cancer journal for clinicians 68.6 (2018), p. 394–424.

[5] Emir Buza, Amila Akagic en Samir Omanovic. “Skin detection based on image color seg-mentation with histogram and k-means clustering”. In: 2017 10th International Conference on Electrical and Electronics Engineering (ELECO). IEEE. 2017, p. 1181–1186.

[6] Audrey H Calderwood en Brian C Jacobson. “Comprehensive validation of the Boston bowel preparation scale”. In: Gastrointestinal endoscopy 72.4 (2010), p. 686–692.

[7] Yushi Chen e.a. “Deep feature extraction and classification of hyperspectral images ba-sed on convolutional neural networks”. In: IEEE Transactions on Geoscience and Remote Sensing 54.10 (2016), p. 6232–6251.

[8] Chia. Color Transfer. https : / / github . com / chia56028 / Color Transfer between -Images. 2019.

[9] Yanan Fu e.a. “Computer-aided bleeding detection in WCE video”. In: IEEE journal of biomedical and health informatics 18.2 (2013), p. 636–642.

[10] Google Colab. https://colab.research.google.com. 2021.

[11] Hayit Greenspan, Amit Ruf en Jacob Goldberger. “Constrained Gaussian mixture model framework for automatic segmentation of MR brain images”. In: IEEE transactions on medical imaging 25.9 (2006), p. 1233–1245.

[12] Robert M Haralick, Stanley R Sternberg en Xinhua Zhuang. “Image analysis using mathe-matical morphology”. In: IEEE transactions on pattern analysis and machine intelligence 4 (1987), p. 532–550.

[13] Mohamad H Hassoun e.a. Fundamentals of artificial neural networks. MIT press, 1995. [14] Sergey Ioffe en Christian Szegedy. “Batch normalization: Accelerating deep network

trai-ning by reducing internal covariate shift”. In: arXiv preprint arXiv:1502.03167 (2015). [15] Anil K Jain. “Data clustering: 50 years beyond K-means”. In: Pattern recognition letters

31.8 (2010), p. 651–666.

[16] Sabri Jamal. Stool Detection and Classification in Colorectal Cancer. 2016.

[17] Kevin Jarrett e.a. “What is the best multi-stage architecture for object recognition?” In: 2009 IEEE 12th international conference on computer vision. IEEE. 2009, p. 2146–2153. [18] Xiao Jia en Max Q-H Meng. “A deep convolutional neural network for bleeding detection

in wireless capsule endoscopy images”. In: 2016 38th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). IEEE. 2016, p. 639–642.

(34)

[19] Terry K Koo en Mae Y Li. “A guideline of selecting and reporting intraclass correlation coefficients for reliability research”. In: Journal of chiropractic medicine 15.2 (2016), p. 155– 163.

[20] Edwin J Lai e.a. “The Boston bowel preparation scale: a valid and reliable instrument for colonoscopy-oriented research”. In: Gastrointestinal endoscopy 69.3 (2009), p. 620–625. [21] Thomas M Lehmann en Christoph Palm. “Color line search for illuminant estimation in

real-world scenes”. In: JOSA A 18.11 (2001), p. 2679–2691.

[22] David Lieberman. “Quality and colonoscopy: a new imperative”. In: Gastrointestinal en-doscopy 61.3 (2005), p. 392–394.

[23] Lisa System. https://userinfo.surfsara.nl/systems/lisa. 2021.

[24] HP Ng e.a. “Medical image segmentation using k-means clustering and improved watershed algorithm”. In: 2006 IEEE southwest symposium on image analysis and interpretation. IEEE. 2006, p. 61–65.

[25] Reiko Nishihara e.a. “Long-term colorectal-cancer incidence and mortality after lower en-doscopy”. In: New England Journal of Medicine 369.12 (2013), p. 1095–1105.

[26] Reinier Noorda e.a. “Automatic Detection of Intestinal Content to Evaluate Visibility in Capsule Endoscopy”. In: 2019 13th International Symposium on Medical Information and Communication Technology (ISMICT). IEEE. 2019, p. 1–6.

[27] Reinier Noorda e.a. “Automatic evaluation of degree of cleanliness in capsule endoscopy based on a novel CNN architecture”. In: Scientific Reports 10.1 (2020), p. 1–13.

[28] Konstantin Pogorelov e.a. “Kvasir: A multi-class image dataset for computer aided gastroin-testinal disease detection”. In: Proceedings of the 8th ACM on Multimedia Systems Confe-rence. 2017, p. 164–169.

[29] Konstantin Pogorelov e.a. “Nerthus: A bowel preparation quality video dataset”. In: Pro-ceedings of the 8th ACM on Multimedia Systems Conference. 2017, p. 170–174.

[30] Justin Tyler Pontalba e.a. “Assessing the Impact of Colour Normalization in Convolutional Neural Network-Based Nuclei Segmentation Frameworks”. In: Frontiers in Bioengineering and Biotechnology 7 (2019), p. 300.

[31] Pranav Rajpurkar e.a. “Chexnet: Radiologist-level pneumonia detection on chest x-rays with deep learning (v1)”. In: arXiv preprint arXiv:1711.05225v1 (2017).

[32] Pranav Rajpurkar e.a. “Chexnet: Radiologist-level pneumonia detection on chest x-rays with deep learning (v3)”. In: arXiv preprint arXiv:1711.05225v3 (2017).

[33] Erik Reinhard e.a. “Color transfer between images”. In: IEEE Computer graphics and applications 21.5 (2001), p. 34–41.

[34] Alaa Rostom en Emilie Jolicoeur. “Validation of a new scale for the assessment of bowel preparation quality”. In: Gastrointestinal endoscopy 59.4 (2004), p. 482–486.

[35] Karen Simonyan en Andrew Zisserman. “Very deep convolutional networks for large-scale image recognition”. In: arXiv preprint arXiv:1409.1556 (2014).

[36] Raphael Vallat. “Pingouin: statistics in Python”. In: Journal of Open Source Software 3.31 (2018), p. 1026.

[37] Sanjay Yadav en Sanyam Shukla. “Analysis of k-fold cross-validation over hold-out va-lidation on colossal datasets for quality classification”. In: 2016 IEEE 6th International conference on advanced computing (IACC). IEEE. 2016, p. 78–83.

[38] Xin Yao. “Evolving artificial neural networks”. In: Proceedings of the IEEE 87.9 (1999), p. 1423–1447.

[39] Yixuan Yuan, Baopu Li en Max Q-H Meng. “Bleeding frame and region detection in the wireless capsule endoscopy video”. In: IEEE journal of biomedical and health informatics 20.2 (2015), p. 624–630.

(35)

[41] Youxing Zhu e.a. “A CNN-based Cleanliness Evaluation for Bowel Preparation in Colono-scopy”. In: 2019 12th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). IEEE. 2019, p. 1–5.

[42] Gali Zimmerman-Moreno en Hayit Greenspan. “Automatic detection of specular reflec-tions in uterine cervix images”. In: Medical Imaging 2006: Image Processing. Deel 6144. International Society for Optics en Photonics. 2006, 61446E.