• No results found

Betrouwbaarheid van voorspellingen

6.2 Betrouwbaarheidsintervallen voorspellen

Er zijn verschillende methodes om betrouwbaarheidsintervallen van voorspellingen op te stellen. We zullen twee methodes vergelijken: een specifieke methode voor

line-aire regressie en een meer algemene methode die ook voor andere regressiemethodes werkt.

Intervallen voor lineaire regressie Zoals uitgelegd wordt in [23], kan men voor lineaire regressie een 100(1− ϵ)%-betrouwbaarheidsinterval rond de voorspelde waarde ˆy als volgt berekenen:

ˆ

y± tϵ/2,n−k ·σˆ2· (1 + xT(XTX)−1x) (6.1) In deze formule bevat x = (1, x1, ..., xk) de waarden van de k kenmerken van het gegeven testvoorbeeld. tϵ/2,n−k is de t-waarde voor n− k vrijheidsgraden, X is een n×k matrix met de waarden van de k kenmerken voor n trainingsvoorbeelden en ˆσ2 is gedefiniëerd als( ∑ni=1(yi− ˆyi)2)/(n−k). Het interval6.1zal voor nieuwe gegevens gemiddeld genomen in 100(1− ϵ)% van de gevallen de echte waarde y bevatten.

Conforme voorspelling Een andere methode om betrouwbaarheidsintervallen te voorspellen is ‘conforme voorspelling’ (Eng. conformal prediction). Deze methode maakt het mogelijk om voor een willekeurige classificatie- of regressiemethode de be-trouwbaarheid van voorspellingen te schatten. Conforme voorspelling geeft voor een vooraf bepaald betrouwbaarheidsniveau een verzameling van klassen (voor classifi-catie) of een interval (voor regressie). We maken hier gebruik van een R pakket [12]

gebaseerd op [36] en [24]. Deze sectie bespreekt kort de werking van deze methode.

Conforme voorspelling maakt gebruik van twee modellen: een model om een VO2max-waarde (ˆy) te voorspellen en een foutmodel om de fout ( ˆρ) te voorspellen, waarbij de fout ρ berekend wordt als|y − ˆy|. Voor deze twee modellen kunnen wille-keurige regressiemethodes gebruikt worden: hier gebruiken we voor beide modellen kleinste kwadraten lineaire regressie met als invoer de kenmerken geselecteerd met S4a − M1 (zie hoofdstuk 4). Om betrouwbaarheidsintervallen te voorspellen, ge-bruikt de methode zogenaamde ‘nonconformity scores’ αi die als volgt gedefiniëerd zijn:

αi = |yi− ˆyi| ˆ ρi

Deze scores worden berekend voor alle n trainingsvoorbeelden en gesorteerd van klein naar groot, wat een vector α van scores geeft:

α = (α1, ..., αn) met αi ≤ αj voor i < j

Voor een nieuw testvoorbeeld is het voorspelde 100(1−ϵ)%-betrouwbaarheidsinterval ˆ

y± αϵ· ˆρ

waarbij ˆy de voorspelde VO2max-waarde is, ˆρ de voorspelde fout en αϵ berekend wordt als volgt:

αϵ = αi met i =n· ϵ

Het voordeel van deze methode is dat de voorspelde intervallen – in tegenstelling tot de intervallen berekend met vergelijking6.1– afhangen van de moeilijkheid van de testvoorbeelden door gebruik te maken van een foutmodel.

6.3. Experiment

6.3 Experiment

Als uitbreiding van het beste lineaire regressiemodel (OLS met kenmerken geselec-teerd met S4a− M1) worden hier betrouwbaarheidsintervallen voorspeld. Dit expe-riment vergelijkt de twee methodes beschreven in de vorige sectie voor verschillende betrouwbaarheidsniveaus.

Zoals voor de modellen in hoofdstuk 4 en hoofdstuk 5 zullen ook hier de voor-spellingen met leave-one-subject-out cross-validatie (LOSOCV) geëvalueerd worden.

Het verschil is dat het nu niet de bedoeling is om te evalueren hoe dicht de voor-spelde VO2max-waarden ˆy bij de de gemeten waarden y liggen, maar wel hoe goed de voorspelde betrouwbaarheidsintervallen zijn. Als bijvoorbeeld een 80% betrouw-baarheidsniveau gekozen wordt, is het te verwachten dat de echte VO2max-waarde in het interval ligt voor ongeveer 80% van de looptesten. We zullen voor beide methodes nagaan of dat percentage overeenkomt met het vooropgestelde betrouw-baarheidsniveau.

Intervallen voor lineaire regressie Figuur6.1toont de 80%-betrouwbaarheids-intervallen berekend met vergelijking 6.1 uit de vorige sectie. Bij 80,48% van de looptesten ligt de echte VO2max-waarde in het voorspelde interval. Dit percentage komt goed overeen met het vooraf bepaalde 80%-betrouwbaarheidsniveau. Voor een hoger betrouwbaarheidsinterval van 95% ligt bij 97,56% van de testen de echte waarde in het interval. Zoals te zien is in figuur 6.2, zijn de betrouwbaarheids-intervallen dan wel wat groter: de grootte van de betrouwbaarheids-intervallen is gemiddeld 7,91 ml/kg/min voor het 80%-betrouwbaarheidsniveau, terwijl de grootte van de 95%-betrouwbaarheidsintervallen gemiddeld 12,29 ml/kg/min is.

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

Looptesten (geordend volgens toenemende VO2maxwaarde) 0

Figuur 6.1: 80%-betrouwbaarheidsintervallen berekend met vergelijking 6.1

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

Looptesten (geordend volgens toenemende VO2maxwaarde) 0

Figuur 6.2: 95%-betrouwbaarheidsintervallen berekend met vergelijking 6.1

Conforme voorspelling Figuren6.3en 6.4tonen de 80%- en 95%-betrouwbaar-heidsintervallen berekend met conforme voorspelling. Het percentage van looptes-ten waarvoor de echte VO2max-waarde in het voorspelde interval ligt is respectie-velijk 73,17% en 92,68%, wat ook hier ongeveer overeenkomt met de vooraf be-paalde betrouwbaarheidsniveaus. De gemiddelde groottes van de intervallen zijn 8,12 ml/kg/min en 14,75 ml/kg/min.

Zoals eerder vermeld werd, houdt conforme voorspelling rekening met de moei-lijkheid van voorbeelden. Hoewel de gemiddelde grootte van de intervallen hier ongeveer dezelfde is als die van de intervallen berekend met de vorige methode, verschillen de groottes nu meer tussen de looptesten. Voorbeelden waarbij het be-trouwbaarheidsinterval groter is, worden door conforme voorspelling als moeilijker beschouwd.

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

Looptesten (geordend volgens toenemende VO2maxwaarde) 0

Figuur 6.3: 80%-betrouwbaarheidsintervallen berekend met conforme voorspelling.

6.4. Besluit

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41

Looptesten (geordend volgens toenemende VO2maxwaarde) 0

10 20 30 40 50 60 70 80

VO2max(ml/kg/min)

Gemeten VO2max

Voorspelling met 95%-betrouwbaarheidsinterval

Figuur 6.4: 95%-betrouwbaarheidsintervallen berekend met conforme voorspelling.

6.4 Besluit

Zoals verwacht is het niet nuttig om intervallen met een hoog betrouwbaarheidsni-veau zoals 95% te bepalen gezien de betrouwbaarheidsintervallen dan groot worden.

De voorspelde 80%-betrouwbaarheidsintervallen zijn zinvoller: deze zijn bij beide methodes gemiddeld ongeveer 8 ml/kg/min groot.

De interpretatie voor een interval van deze grootte is dat in 80% van de gevallen het model een voorspelling geeft die maximaal 8 ml/kg/min afwijkt van de echte VO2max-waarde. Die afwijking is nog vrij groot, maar is bij conforme voorspelling ook afhankelijk van de moeilijkheid van de voorbeelden: een groter betrouwbaar-heidsinterval komt overeen met een grotere moeilijkheid om een voorspelling te ma-ken. Het voordeel van conforme voorspelling is dus dat deze methode een indicatie geeft van de betrouwbaarheid van de voorspelling gemaakt met het model, rekening houdend met de moeilijkheid van het voorbeeld.

Hoofdstuk 7

Besluit

7.1 Resultaten

De doelstelling van deze masterthesis is een model op te stellen voor de voorspelling van VO2max uit sub-maximale inspanning, dat vergeleken met bestaande modellen meer gebruik maakt van de loopbewegingen van een loper. In plaats van zoals in gerelateerd werk alleen domeinkennis te gebruiken, stelt dit werk een datagedreven methode voor om relevante variabelen te vinden.

In sectie1.2werden de onderzoeksvragen gedefiniëerd als volgt:

1. Welke variabelen zijn geschikt om VO2max te voorspellen uit sub-maximale inspanning?

2. Hoe kunnen machine learning technieken gebruikt worden om op basis van deze variabelen een model op te stellen?

De onderstaande secties bespreken hoe dit werk de twee vragen beantwoordt.

7.1.1 Relevante variabelen

Om een antwoord te geven op de eerste onderzoeksvraag, worden in hoofdstuk 4 verschillende kenmerken berekend uit metingen verzameld tijdens een inspannings-test op een loopband. Om een kleine verzameling kenmerken te selecteren, is een goede selectiemethode nodig. Hiervoor zijn verschillende technieken en verschillende combinaties van soorten kenmerken mogelijk. Er worden twee methodes voorgesteld:

voorwaartse selectie en een methode gebaseerd op correlaties en PCA. De selectieme-thode met de beste resultaten is voorwaartse selectie van beschrijvende kenmerken, hartslagkenmerken en accelerometerkenmerken.

7.1.2 Model om VO2max te voorspellen

Om de tweede onderzoeksvraag te beantwoorden, vergelijkt hoofdstuk 5 verschil-lende regressiemethodes. Het beste model wordt gevonden met kleinste kwadraten lineaire regressie. Twee andere technieken – Huber regressie en SVR met een lineaire

kernel – geven iets hogere R2-waarden, maar het verschil is te klein om te besluiten dat deze methodes beter zijn. Het uiteindelijke model heeft een verklaarde variantie (R2) van 0,784 en een gemiddelde absolute fout van 2,35 ml/kg/min.

Om een idee te hebben van de betrouwbaarheid van de voorspelde VO2max -waarden, vergelijkt hoofdstuk 6 twee methodes om betrouwbaarheidsintervallen te voorspellen. We moeten hierbij tevreden zijn met een 80%-betrouwbaarheidsniveau, zodat de intervallen niet te groot zijn. Met conforme voorspelling zijn de interval-groottes gemiddeld 8,12 ml/kg/min en verschillen afhankelijk van de moeilijkheid van de voorbeelden.