• No results found

3.4 Resultaten en bespreking

3.4.1 Equivalente techieken en overfitting

De resultaten van de evaluatie op landelijke niveau (R2ndejk enpMSE) van de op- gestelde EVA- en EVI-machine learning modellen, worden weergegeven in de figu- ren die zijn opgenomen in Bijlage B. Voor alle productiekengetallen geldt hierbij dat

−R2 ∼ (pMSE)2. Enkel de levensproductie vormt hierop een uitzondering doordat

voor dit productiekengetal de variantie van de gemodelleerde distributie niet con- stant is doorheen de tijd als gevolg van het feit dat dieren die op het beschouwde referentiemoment reeds werden afgevoerd, niet werden opgenomen in de inputdata- set. Voor alle productiekengetallen, met uitzondering van de levensproductie, geven de figuren voor R2

ndejk en

p

MSE dus eigenlijk dezelfde info weer. Toch werd er voor gekozen om steeds beide statistieken weer te geven, aangezien enerzijds de waarden voor R2ndejk eenvoudig te vergelijken zijn tussen de verschillende productiekenge- tallen, terwijl anderzijds pMSE dezelfde eenheid heeft als het beschouwde productie- kengetal, wat de interpretatie van de modelperformantie vereenvoudigt. Aanvullend op de grafieken in Bijlage B, worden de exacte waarden voor R2ndejk voor referen- tiemoment B (geboorte) van het beste model per strategie daarnaast weergegeven in Tabel 3.3.

Bij de analyse van de resultaten was een van de eerste bevindingen dat PCA + ridge voor alle beschouwde kengetallen op alle beschouwde referentiemomenten exact de- zelfde modelperformanties realiseerde als ridge regressie. Bij nader onderzoek van de modelvoorspellingen zelf, bleken ook deze exact overeen te komen. Principale componenten analyse uitvoeren vooraleer ridge regressie toe te passen biedt dus geen enkele meerwaarde en vraagt alleen maar meer rekentijd. PCA + ridge wordt dan ook niet verder besproken en wordt ook niet weergegeven in de figuren in Bijlage B.

Enkel de modellen die op alle referentiemomenten opgesteld konden worden en niet te veel overfitting vertoonden, worden weergegeven in de figuren in Bijlage B. Prak- tisch betekent dit bij EVA dat voor de meeste productiekengetallen alle beschouwde machine learning technieken worden weergegeven. Enkel linreg en PCA + linreg wor- den bij kg FPCM op 7/8 jaar leeftijd en de levensproductie, niet altijd weergegeven (figuren B.27 - B.32). Door een lage verhouding waarnemingen/parameters bij deze productiekengetallen, waren deze technieken immers sterk onderhevig aan overfit- ting (met regelmatig R2ndejk ≤ 0 tot gevolg) of konden zij zelfs helemaal niet toege-

past worden omdat het aantal modelparameters groter was dan het aantal waarne- mingen. PCA + linreg heeft iets minder vlug last van overfitting dan linreg, maar is er niet ongevoelig voor, zo kan in Figuur B.27 gezien worden dat ook deze methode bij een beperkt aantal records snel wisselvallige resultaten toont voor R2ndejk als gevolg van overfitting.

Bij EVA is het aantal machine learning modellen dat niet opgesteld kon worden of slechte resultaten opleverde als gevolg van overfitting dus relatief beperkt. Dit ligt anders voor EVI, waar linreg en PCA + linreg nooit worden weergegeven in de figuren in Bijlage B aangezien het aantal te bepalen modelparameters nagenoeg altijd groter was dan het aantal waarnemingen dat per bedrijf beschikbaar was. Het aantal te bepalen modelparameters werd bij EVI weliswaar sterk gereduceerd door de stap in het algoritme waarbij alle variabelen worden verwijderd waarvoor minder dan 2% van de records een waarde vertoont verschillend van de modus, maar dit was nooit voldoende om voor alle bedrijven met meer dan 25 beschikbare records linreg of PCA + linreg te kunnen toepassen.

Bij EVI blijkt ook PCA_10 gevoelig aan overfitting: met betrekking tot de kg FPCM- productie op een leeftijd van x-jaar begint de curve voor R2ndejk abnormaal grote fluctuaties te vertonen vanaf x=5. Naarmate x verder toeneemt daalt het aantal waarnemingen per bedrijf verder, terwijl het maximaal aantal variabelen in de dataset steeds maar toeneemt. Hierdoor fluctueert de curve voor R2ndejk in Figuur B.57 (x=6) en B.59 (x=7) meer dan in Figuur B.55 (x=5). Voor x = 8 is de overfitting zelfs

3.4. RESULTATEN EN BESPREKING

zo erg dat de R2ndejkregelmatig negatief is, waardoor de curve voor PCA_10 in Figuur B.61 niet meer wordt weergegeven. Analoog treedt er bij de levensproductie vanaf ongeveer 60 maanden leeftijd sterke overfitting bij PCA_10 op, waardoor PCA_10 ook in Figuur B.63 niet wordt weergegeven.

De hierboven beschreven waarnemingen wijzen onmiddellijk op een eerste voordeel van machine learning technieken tegenover klassieke lineaire regressie, namelijk dat (bepaalde) machine learning technieken veel minder/amper gevoelig zijn voor overfit- ting en daardoor ook bij een beperkt aantal waarnemingen kunnen toegepast worden. Machine learning technieken die in alle EVI-figuren (B.33 - B.64) worden weergegeven, hebben bijvoorbeeld met 20 waarnemingen (25 · 0.8 = 20) voldoende om modellen zonder ernstige overfitting op te stellen. Een alternatief om toch lineaire regressie te kunnen toepassen is modelselectie, waarbij, om overfitting te vermijden, meestal enkel de meest significante variabelen worden weerhouden. Dit impliceert echter dat de informatie die in de overige variabelen aanwezig is, niet wordt gebruikt, wat vaak ten koste gaat van de modelperformantie. In de figuren in Bijlage B kan zo bij- voorbeeld gezien worden dat PCA_100 en PCA_10 opvallend vaak beduidend lagere performanties realiseren dan alle andere beschouwde machine learning technieken, dit als gevolg van het feit dat de informatie die vervat zit in de laatste principale componenten, niet gebruikt wordt. Indien men principale componenten regressie wil toepassen in het kader van het voorspellen van productiekengetallen van melkvee, is het daarom aangeraden om lasso (of ridge) regressie toe te passen op de bekomen componenten en niet simpelweg multiple lineaire regressie uit te voeren op de eerste 10/100 componenten.