Vergelijking met model van Weyand et al

Kenmerken om VO 2max te voorspellen

4.2 Selectie van kenmerken

4.3.3 Vergelijking met model van Weyand et al

Van de kenmerken die hartslag en accelerometervariabelen combineren, is de ver-houding t⁻¹_c /HR van Weyand et al. niet gebruikt in het experiment in de vorige sectie. De reden hiervoor is dat het niet gemakkelijk is om voet-grond contact-tijd (tc) nauwkeurig te schatten. In deze sectie zullen we toch proberen om tc te berekenen en voorspellingen te maken op basis van t⁻¹_c /HR.

Weyand et al. gebruikten een accelerometer bevestigd op de voet om voet-grond contacttijd te meten. De verzamelde gegevens in dit werk bevatten echter versnellin-gen gemeten op de scheenbenen, onderrug en bovenrug van de lopers. De scheenbeen-en onderrugaccelerometers kunnscheenbeen-en wel gebruikt wordscheenbeen-en om escheenbeen-en schatting te makscheenbeen-en

4.3. Experimenten

Functie S1−M1y=92,67−13,04·G−0,37·M S2−M1y=53,51−9,74·G−0,32·M+4380,97·HR−1 0 S3−M1y=79,37−14,00·G−0,38·M+0,86·PPRor,t,2 S4a−M1y=29,42−8,71·G−0,25·M+5581,48·HR−1 0+9,55·SD−1 s,t,0 S4b−M1y=20,31−8,90·G−0,26·M+6977,11·HR−1 0+0,07·SD−1 s,t,0/HR0 S1−M2y=92,67−13,04·G−0,37·M S2−M2y=111,15−10,01·G−0,30·M−0,18·HR1 S3−M2y=92,31−12,69·G−0,38·M−1,77·10−6 ·GEM−1 or,y,2+1,23·10−5 ·GEM−1 or,y,1 S4a−M2y=112,19−9,65·G−0,32·M−0,18·HR1+1,36·−6 ·GEM−1 or,y,2+1,30·10−5 ·GEM−1 or,y,1 S4b−M2y=100,79−8,39·G−0,25·M−0,17·HR1+6,11·10−4 ·PPH−1 or,x,1/HR1+9,14·10−4 ·E−1 or,y,1/HR1 Tabel4.4:LineaireregressiefunctiesvoorS1,S2,S3,S4aenS4bmetvoorwaartseselectie(M1)endemethodemetcorrelaties enPCA(M2).Bijhetopstellenvandezefunctieszijndekenmerkennietgeschaald.Debetekenisvandeafkortingenvande kenmerkenistevindenintabel4.1.

van voet-grond contacttijd. Om te testen hoe nauwkeurig deze schattingen zijn, hebben we extra gegevens verzameld zodat de geschatte voet-grond contacttijden kunnen vergeleken worden met de werkelijke voet-grond contacttijden. Eerst wordt hieronder zowel voor de scheenbeen- als onderrugversnelling beschreven hoe voet-grond contacttijd berekend wordt. Om de werkelijke contacttijd te meten, gebruiken we een krachtplaat die grondreactiekracht (Eng. ground reaction force; dit is het-zelfde als normaalkracht) meet en zo detecteert wanneer de voet zich op de grond bevindt.

Contacttijd uit scheenbeenversnelling Om voet-grond contacttijd te schatten uit metingen van een accelerometer bevestigd op het scheenbeen van een loper, zijn methodes voorgesteld door Whelan et al. [38] en Purcell et al. [26]. De eerste me-thode berekent contacttijd door de anterieur-posterieure versnelling eerst te filteren met een laagdoorlaatfilter (Butterworth filter met een afsnijfrequentie van 10 Hz) en vervolgens per stap de tijd tussen twee pieken (maxima) van dat signaal te meten.

De tweede methode gebruikt ook deze twee pieken, maar detecteert voor de tweede piek ook een gelijktijdige piek in de mediolaterale versnelling. We gebruiken hier de eerste methode: figuur4.5 toont hiervan een voorbeeld.

0 1 2

Tijd (s) 0

0.5 1 1.5

Versnelling (g)

Figuur 4.5: Contacttijd uit anterieur-posterieure scheenbeenversnelling (groen en rood zijn resp. begin en einde van voet-grond contact).

Contacttijd uit onderrugversnel ling Om contacttijd te bepalen uit de versnel-ling gemeten in het zwaartepunt – of met een accelerometer op de onderrug – stelden Gaudino et al. [15] een methode voor gebaseerd op verticale versnelling. In deze methode wordt contacttijd berekend als de tijd waarin de versnelling positief is. Het achterliggende idee is dat zolang een voet in contact is met de grond, de verticale versnelling positief moet zijn omdat gedurende die tijd een kracht naar boven wordt uitgeoefend. Figuur4.6 toont een voorbeeld van deze methode.

Contacttijd meten met krachtplaat Met een krachtplaat kan men voet-grond contacttijd meten door de grondreactiekracht (de verticale kracht naar boven) te meten. Figuur 4.7 toont een voorbeeld van de gemeten grondreactiekracht tijdens

4.3. Experimenten

0 1 2

Tijd (s) -1

0 1 2 3

Versnelling (g)

Figuur 4.6: Contacttijd uit verticale onderrugversnelling (groen en rood zijn resp.

begin en einde van voet-grond contact).

het lopen op een loopband. Voet-grond contacttijd komt dan overeen met de tijd waarin dit signaal kleiner is dan een bepaalde grenswaarde. In dit experiment wordt 70 N (Newton) gebruikt als grenswaarde.

0 1 2 3 4 5

Tijd (s) 0

500 1000 1500 2000

Kracht (N)

Verticale grondreactiekracht Grenswaarde (70N)

Figuur 4.7: Voorbeeld van het signaal gemeten met een krachtplaat.

Om de twee methodes met elkaar te vergelijken, werden van drie lopers (2 man-nen en 1 vrouw) extra gegevens verzameld. De lopers hadden verschillende trainings-niveaus en loopstijlen. De deelnemers liepen in vijf intervallen van 1 minuut lang aan dezelfde snelheden als die van de eerste 5 intervallen van de VO_2maxtest. Per interval werd met de verschillende methodes de gemiddelde voet-grond contacttijd berekend.

De contacttijden berekend uit de scheenbeenversnelling waren 11,6% ± 8,7% lager

dan de contacttijden gemeten met de krachtplaat. Voor de methode gebaseerd op de onderrugversnelling waren de tijden 5,6% ± 4,4% lager. De standaardafwijkingen van de fouten zijn groot: beide methodes zijn dus niet nauwkeurig.

Om toch te vergelijken met het model van Weyand et al. kunnen we voet-grond contacttijd bepalen uit de verticale versnelling van de accelerometer op de onderrug.

We berekenen het t⁻¹_c /HR kenmerk als gemiddelde over de eerste drie intervallen van de looptest. Weyand et al. stelden twee voorspellingsmethodes voor: de ene methode leert twee lineaire regressiemodellen voor mannen en vrouwen afzonderlijk, waarbij elk model enkel t⁻¹_c /HR als invoer gebruikt; de andere methode bestaat uit één lineair model met geslacht en t⁻¹_c /HR als invoer. Voor de gegevens in dit werk resulteert het eerste model in een R²-waarde van 0,385 met een gemiddelde absolute fout van van 4,01 ml/kg/min, geëvalueerd met LOSOCV. Het tweede model is nauwkeuriger met een R²-waarde van 0,447 en 3,82 ml/kg/min als gemiddelde absolute fout. Figuur 4.8 toont de voorspellingen van de tweede methode. De R² -waarden liggen voor beide methodes lager dan de gerapporteerde resultaten in het artikel van Weyand et al. Een mogelijke verklaring hiervoor is de onnauwkeurige meting van voet-grond contacttijd. Omwille hiervan wordt t⁻¹_c /HR niet gebruikt in dit werk.

0 10 20 30 40 50 60 70

Gemeten VO2max

0 10 20 30 40 50 60 70

VoorspeldeVO2max

R²= 0.447

Figuur 4.8: Lineair regressiemodel met t⁻¹_c /HR en geslacht.

4.4 Besluit

De resultaten van het experiment in sectie 4.3.2 tonen aan dat de combinatie van hartslag en accelerometerkenmerken nuttig is om VO2max te voorspellen. Accele-rometerkenmerken zonder hartslag geven geen nauwkeurigere voorspellingen ver-geleken met een model met beschrijvende kenmerken. Hartslagkenmerken zonder accelerometerkenmerken geven wel nauwkeurigere voorspellingen, maar het beste model wordt gevonden door de twee soorten kenmerken te combineren.

4.4. Besluit

Weyand et al. en Tönis et al. baseerden zich op hetzelfde idee om uit de com-binatie van hartslag en biomechanische variabelen modellen op te stellen voor de voorspelling van maximale zuurstofopname. Die modellen gebruiken accelerometer-metingen alleen om voet-grond contacttijd en activiteitsniveau te bepalen. Anders dan bij de modellen van Weyand et al. en Tönis et al. haalt dit werk een groot aan-tal verschillende kenmerken uit de accelerometergegevens, waarmee vervolgens een selectie gemaakt wordt van kenmerken die relevant zijn om VO2max te voorspellen.

Het voordeel van deze methode is dat meer informatie uit het bewegingspatroon van de lopers gehaald wordt, in tegenstelling tot de modellen van Weyand et al. en Tönis et al. die beide van één vooraf gedefiniëerd kenmerk gebruik maken. In plaats van alleen domeinkennis te gebruiken stelt dit werk dus een datagedreven methode voor om VO_2max te voorspellen.

Hoofdstuk 5

Voorspellingsmethodes

In dit hoofdstuk worden verschillende regressiemethodes met elkaar vergeleken. De methodes gebruiken als invoer de kenmerken geselecteerd met de beste selectieme-thode gevonden in het vorige hoofdstuk: voorwaartse selectie van beschrijvende kenmerken, hartslagkenmerken en accelerometerkenmerken. Sectie 5.1 geeft eerst een korte beschrijving van de werking van verschillende regressiemethodes, die ver-volgens in sectie 5.2met elkaar vergeleken worden.

5.1 Regressiemethodes

Gerelateerd werk gebruikt vaak lineaire regressiemethodes en support vector regres-sie (SVR) om VO2max te voorspellen [1]. Deze methodes zullen ook hier gebruikt worden. Naast lineaire regressie en SVR vergelijken we hier ook nearest neighbor regressie, regressiebomen en ensemblemethodes.

Lineaire regressie

Lineaire regressiemethodes leren een model waarin de doelvariabele y voorspeld wordt met een lineaire functie:

y = w0+ w1· x1+ ... + wm· xm

met x = (x1, ..., xm) de waarden van de m kenmerken, w = (w0, ..., wm) de gewichten die de methodes leren uit de trainingsvoorbeelden{(x⁽¹⁾, y⁽¹⁾), ..., (x⁽ⁿ⁾, y⁽ⁿ⁾)} en ˆy de voorspelde waarde. Er zijn verschillende manieren om de gewichten te optimaliseren.

Hieronder worden drie manieren besproken.

Kleinste kwadraten methode De meest eenvoudige lineaire regressiemethode is de kleinste kwadraten methode (Eng. ordinary least squares, OLS). Daarbij worden de optimale gewichten w^∗ zo gekozen dat de fout – de L² norm van het verschil tussen de voorspelde waarden Xw en de echte waarden y – minimaal is:

w^∗= arg min

w ||Xw − y||22

Lasso De kleinste kwadraten methode is niet robuust tegen multicollineariteit, maar de methodes om kenmerken te selecteren uit het vorige hoofdstuk lossen dit probleem al op. Als alternatief voor deze selectiemethodes zouden we ook regularisa-tietechnieken kunnen gebruiken, waarbij niet alleen de fout, maar ook de gewichten geminimaliseerd worden. Lasso [33] is hiervoor een veelgebruikte methode. Deze methode minimaliseert de L¹ norm van de gewichten:

w^∗= arg min

2n||Xw − y||22

+ α· ||w||1

waarin α een parameter is die de hoeveelheid regularisatie bepaalt. Om deze functie te minimaliseren, zullen zo veel mogelijk gewichten op 0 worden gezet. Hierdoor kan lasso regressie gebruikt worden om zowel kenmerken te selecteren als voorspellingen te maken.

Huber regressie De VO2max-waarden gemeten in de looptest kunnen afwijken van de echte VO_2max-waarden van de lopers. Het is namelijk zo dat de resultaten kunnen verschillen door de test op verschillende momenten uit te voeren. Omwille hiervan kan het interessant zijn om een voorspellingsmethode te gebruiken die ro-buust is tegen kleine uitschieters in de doelvariabele. Een methode die hiervoor kan gebruikt worden, is Huber regressie [30]. Zoals samengevat in de documentatie van HuberRegressor [29] van scikit-learn bepaalt deze methode de gewichten zodat de volgende functie minimaal is voor de gewichten w en schaalparameter σ:

∑n

De functie H_m zorgt ervoor dat voor uitschieters (ook kleine uitschieters) waar

|Xw − y| ≥ ϵ de absolute fout van de voorspellingen wordt geminimaliseerd in de plaats van het kwadraat ervan. Deze functie is gedefiniëerd als volgt:

Hm(z) = {

z² als |z| < ϵ 2· ϵ · |z| − ϵ² als |z| ≥ ϵ

De standaardwaarde voor de parameter ϵ is 1,35 en hoewel kleinere waarden voor een grotere robuustheid zorgen, wordt aangeraden om deze waarde te gebruiken.

Support vector regressie (SVR)

Bij support vector regressie [35] wordt de doelvariabele voorspeld aan de hand van een functie f (x) = w^Tφ(x) + b met gewichten w en kenmerken x. Deze methode maakt gebruik van een kernel functie K(x, x^′) = φ(x)^Tφ(x^′) die het mogelijk maakt om naast lineaire functies ook niet-lineaire functies te benaderen. Om w en b te bepalen, lost deze methode het volgende optimalisatieprobleem op:

5.1. Regressiemethodes

w,b,ξ,ξmin^∗ 1

2 · w^Tw + c·

∑n i=1

(ξ_i+ ξ_i^∗)

waarbij voor alle trainingsvoorbeelden i = 1, ..., n moet gelden dat:

y_i− w^Tx_i− b ≤ ϵ + ξi

w^Tx_i+ b− yi ≤ ϵ + ξi^∗

ξ_i ≥ 0 ξ^∗_i ≥ 0

In de bovenstaande formulering stelt ϵ de vereiste accuraatheid van het model voor en is c bepalend voor de mate waarin afwijkingen groter dan ϵ worden toege-laten. Deze parameters moeten getuned worden bij het leren van een model. Ook moet men dan een keuze maken voor de kernel functie. Hier zullen we een lineaire kernel (K(x, x^′) = x^Tx^′) en een polynomiale kernel (K(x, x^′) = (1 + x^Tx^′)^d) met graad d gebruiken.

Nearest neighbor regressie

Nearest neighbor regressie voorspelt de doelvariabele als het (gewogen) gemiddelde van de meest gelijkaardige trainingsvoorbeelden, die gevonden worden aan de hand van een afstandsfunctie (hier de Euclidische afstand). Op basis van deze afstands-functie kan men gebruik maken van ofwel de k meest gelijkaardige trainingsvoorbeel-den (k-NN) ofwel de trainingsvoorbeeltrainingsvoorbeel-den binnen een bepaalde afstand (radius-NN).

We zullen beide methodes vergelijken. Voor deze methodes moet dan wel de para-meter k bij k-NN en de maximale afstand bij radius-NN getuned worden.

Regressiebomen

Regressiebomen [9] zijn beslissingsbomen met getallen in de plaats van klassen in de bladknopen (Eng. leaf nodes). Om een regressieboom te construeren, wordt in elke knoop een opsplitsing gemaakt op basis van de kenmerken. Voor een nieuw voorbeeld volgt deze methode de opsplitsingen van de boom totdat een bladknoop wordt bereikt en geeft dan de waarde in deze bladknoop als voorspelling.

Ensemblemethodes

Ensemblemethodes worden vaak gebruikt om de voorspellingen van een regressie-methode te verbeteren en robuuster te maken. We gebruiken hier drie regressie-methodes:

AdaBoost [14], bagging [7] en Random Forests [8].

AdaBoost Bij Adaptive Boosting wordt een gewogen gemiddelde berekend van de voorspellingen van een aantal individuele ‘zwakke’ regressors om de uiteindelijke voorspelling te maken. Voor elke individuele regressor hangt het gewicht af van de

fout van de regressor. De regressors worden één voor één geleerd waarbij in elke vol-gende regressor een hoger gewicht wordt gegeven aan moeilijke trainingsvoorbeelden (i.e. trainingsvoorbeelden waarvoor de voorspellingen niet nauwkeurig waren).

Bagging Bootstrap aggregating is een methode waarbij de trainingsvoorbeelden uniform gesampled worden met teruglegging en voor elke deelverzameling een re-gressor geleerd wordt. De uiteindelijke voorspelde waarde is dan het gemiddelde van de voorspellingen van de verschillende regressors.

Random Forests Deze ensemblemethode combineert verschillende beslissingsbo-men waarbij elke boom een deelverzameling van zowel trainingsvoorbeelden als ken-merken gebruikt. Ook hier wordt dan de uiteindelijke voorspelling berekend als het gemiddelde van de voorspellingen van de individuele beslissingsbomen.

In document Machine learning methodes voor het voorspellen van VO 2max uit sub-maximale inspanning (pagina 40-50)