Het voorspellend vermogen van big data vergeleken met statistiek, een verkennend onderzoek

(1)

data vergeleken met statistiek, een

verkennend onderzoek

Auteur:

Jeffrey Groefsema

10595716

Begeleider:

Dr. D. (Dick) Heinhuis

2e Examinator:

Prof. dr. T.M. (Tom) van Engers

August 16, 2018

Universiteit van Amsterdam

Bachelorscriptie Informatiekunde

Faculteit der Natuurwetenschappen, Wiskunde en

Informatica

(2)

Contents Abstract 3 Inleiding 3 Theoretisch kader 5 Statistiek . . . 6 Big data . . . 6 Eerder werk . . . 7 Methode 11 Statistiek . . . 13 Big data . . . 13 Resultaten 15 Discussie 19 Conclusie 19 References 22

(3)

Abstract

Organisaties vertrouwen in toenemende maten op data voor het nemen van beslissingen. Deze data is de basis voor het maken van analyses waarop besluiten gebaseerd zijn. Van oudsher is er altijd gebruik gemaakt van statistiek om deze data te analyseren. Door een grote toename in rekenkracht van computers is er een alternatieve manier ontstaan voor het analyseren van deze data; big data.

Kunnen in big data gebruikte machine learning technieken de resultaten van statistische analyses evenaren, of zelfs verbeteren? Om hier achter te komen is een verkennend onderzoek uitgevoerd naar de hoeveelheid variantie die met gebruik van verschillende methoden gevonden kan worden. Hierbij zijn verschillende mogelijkheden voor vervolgonderzoek aangedragen. Er zit bijvoorbeeld een duidelijk verschil in

prestatie en traingstijd tussen verschillende machine learning methoden.

Inleiding

In de afgelopen decennia hebben computers een enorme groei in rekenkracht en opslagcapaciteit doorgemaakt (Grochowski & Hoyt, 1996). Met de immer groeiende rekenkracht en opslagcapaciteit van computers nemen de mogelijkheden voor het

analyseren van grote hoeveelheden data toe. Hiermee is het voor computers eenvoudiger geworden om patronen te vinden in grote hoeveelheden data. Het analyseren van een grote hoeveelheid data wordt ook wel big data genoemd. Van oudsher is er veel gebruik gemaakt van statistiek om een trend te voorspellen dan wel te verklaren, denk

bijvoorbeeld aan een exitpoll bij verkiezingen. Met de opkomst van big data is het de vraag of statistiek nog steeds de beste manier is om data te analyseren.

Hoogleraar Stochastiek, kansberekening, Aad van der Vaart is van mening dat big data niet kan functioneren zonder gebruik van statistiek (Big data kan niet zonder

statistiek, n.d.). Hierin nuanceert van der Vaart het gebruik van big data. Immers het

vinden van correlaties binnen data is niet genoeg, er zal ook een degelijke causaliteit gevonden moeten worden.

(4)

haar eerste onderzoek op basis van big data had uitgevoerd (Eerste statistiek op basis

van Big Data gelanceerd, n.d.). Hierin wordt big data geprezen omdat de data actueler

en betrouwbaarder zou zijn dan bij gebruik van normale statistiek.

Een grote hoeveelheid organisaties vertrouwt in toenemende mate op data om beslissingen te nemen. Hierbij is het belangrijk om in te zien op welke manier het beste informatie uit de beschikbare data kan worden gehaald. Dit hangt af van de structuur van de data alsmede van de hoeveelheid beschikbare data. De data is namelijk niet altijd in de juiste vorm aanwezig. Deze data zal eerst getransformeerd moeten worden. Voor organisaties kan het snel beschikbaar zijn van de juiste data om op basis hiervan de juiste beslissingen te nemen van cruciaal belang zijn. Het is in dat geval dan ook belangrijk om bij het opzetten van de ICT structuur te onderzoeken of de manier van opslaan aansluit op de manier van verwerken.

Wetenschappelijk gezien lijken de disciplines van statistiek en big data veel met elkaar gemeen te hebben. Volgens sommige statistici is big data een subset van de statistiek (Hand, 1999). Hand gaf hierin al aan dat deze vergelijking niet helemaal realistisch is. Big data maakt ook gebruik van ideeën en methoden uit andere velden zoals database technologie en machine learning. In de statistiek wordt op basis van een steekproef een uitspraak gedaan over de totale populatie. Bij machine learning wordt gebruik gemaakt van een model om op individueel niveau een voorspelling te kunnen maken. Hierdoor lijkt het dat statistiek binnenkort overbodig kan gaan worden. Big data kan immers op individueel niveau voorspellen waar statistiek dit op groeps niveau doet. In deze scriptie is verkennend onderzoek gedaan naar het voorspellend vermogen van big data methoden in vergelijking tot de van oudsher veel gebruikte statistische methoden. Hierbij is gekeken naar het prestatieverschil tussen deze manieren van data analyseren. Mogelijke interessante verschijnselen zullen worden aangedragen voor vervolg onderzoek.

(5)

Deze scriptie zal zich beperken tot het vergelijken van methoden om regressie analyses uit te voeren met meerdere onafhankelijke variabelen, de multiple lineaire regressie. Er is gekozen om een vergelijking te maken tussen de Python manier van lineaire regressie, neurale netwerken en support vector machines. Deze methoden zullen worden vergeleken met door SPSS berekende resultaten.

Met gebruik van deze methoden is gekeken hoeveel variantie er gemiddeld

verklaard wordt door elke methode. Dit is gedaan door deze methoden toe te passen op datasets met verschillende karakteristieken. Er is hierbij gekozen om te kijken naar het verschil in de hoeveelheid beschikbare data, het aantal waarneming, en het verschil in het aantal onafhankelijke variabelen.

Onderzoeksvraag

1. Hoe verhoudt het voorspellend vermogen van de gekozen methoden zich tot het voorspellend vermogen van de SPSS multiple lineaire regressie?

Subvragen

1. Welke analysetechniek zal gezien de karakteristieken van de data het grootste voorspellend vermogen hebben?

(a) Welke invloed heeft het aantal waarnemingen op de prestatie van een model? (b) Welke invloed heeft het aantal onafhankelijke variabelen op de prestatie van

een model?

2. Welke methoden kunnen vergeleken worden met een multiple lineaire regressie?

Theoretisch kader

Om een kader te schetsen van de begrippen waarmee binnen deze scriptie gewerkt zal worden volgen hieronder een aantal definities.

(6)

Statistiek

Statistiek is de wetenschap van het opzetten en plannen van een experiment en het verzamelen van data om deze vervolgens te organiseren, interpreteren en analyseren, om op basis hiervan een conclusie te trekken en de implicaties voor de populatie te

communiceren (Triola & Iossi, 2008). Hierbij wordt aan de hand van een steekproef een uitspraak gedaan over de populatie. De populatie bestaat uit alle personen en/of

metingen die binnen de scope van het onderzoek vallen. Een steekproef is een subgroep van de populatie. Bij het trekken van de steekproef is het belangrijk om te zorgen dat deze representatief is. Hierbij dient de selectie van de steekproef op een willekeurige manier gedaan te worden.

Bij het interpreteren van de data moet gereflecteerd worden of er een mogelijke bias in de data zit. Deze kan ontstaan doordat een betrokken organisatie belang heeft bij bepaalde uitkomsten van een onderzoek. Ook kan de manier van een steekproef trekken een bias introduceren. Respondenten kunnen niet willekeurig gekozen zijn of alleen reageren omdat ze geïnteresseerd zijn in een onderwerp dan wel een duidelijke mening hebben over een onderwerp. Dit kan zorgen voor een niet representatieve steekproef.

Na het analyseren van de data dient de conclusie duidelijk opgeschreven te worden, op een manier die ook voor mensen zonder statistische kennis te begrijpen is. Hierbij moet opgelet worden dat verbanden niet als causaliteit worden uitgelegd. Vervolgens dient ook de praktische implicatie te worden omschreven. Hierbij kan het zijn dat een gevonden oplossing statistische gezien beter presteert maar dat deze in de praktijk een marginaal beter resultaat levert terwijl de kosten die verbonden zijn aan de gevonden oplossing significant hoger zijn. Deze kosten zijn niet beperkt tot monetaire kosten maar kunnen ook slaan op de invloed die de oplossing heeft op het milieu.

Big data

Big data is de naam die is gegeven aan het analyseren van grote datasets met grote variatie in structuur en complexiteit. Met de moeilijkheden van het opslaan, analyseren en visualiseren van deze data ten behoeve van toekomstige analyses of het verkrijgen

(7)

van resultaten. Het proces van het onderzoeken van deze datasets om verborgen correlaties en patronen te vinden wordt big data genoemd (Sagiroglu & Sinanc, 2013).

Machine learning is een veel gebruikte manier om inzicht te krijgen in deze

verborgen patronen. Machine learning zelf is een overkoepelend begrip voor een grotere hoeveelheid analyses. Hierin wordt onderscheid gemaakt tussen supervised en

unsupervised learning.

Supervised learning wordt gedaan door de dataset op te splitsen in een trainingsset en een testset. Met gebruik van de trainingsset wordt een model gemaakt welke zo goed mogelijk de data in de trainingsset voorspelt. Het model dat hieruit voortkomt wordt gebruikt om een voorspelling te doen over de data in de testset. Om te vergelijken hoe goed een model presteert wordt de werkelijke, correcte, waarde uit de testset vergeleken met de voorspelde waarde op basis van het getrainde model (Kotsiantis, Zaharakis, & Pintelas, 2007).

Unsupervised learning heeft in tegenstelling tot supervised learning geen verwachte uitkomst, afhankelijke variabele, in de input data. Het doel van unsupervised learning is om de onderliggende structuur van de data te modelleren en hierdoor meer over de data te weten te komen. Er is gekozen om gebruik te maken van supervised learning

aangezien hiermee voorspellingen gedaan kunnen worden op basis van de onafhankelijke variabele.

Binnen deze scriptie is gekeken naar een drietal manieren van data voorspellen met big data methoden: lineaire regressie, neurale netwerken en support vector machines. Er is gekozen om van deze analysetechnieken gebruik te maken aangezien op basis van deze technieken een voorspelling op interval schaal gemaakt of gesimuleerd kan worden. Andere, in big data gebruikte, technieken richten zich vooral op classificatie problemen.

Eerder werk

Op het gebied van clusteren is eerder een vergelijking gemaakt tussen verschillende supervised learning algoritmen (Caruana & Niculescu-Mizil, 2006). Hierin is

(8)

geconcludeerd dat sinds de laatste vergelijking, het STATLOG project uit 1995 (King, Feng, & Sutherland, 1995), het machine learning veld substantieel beter is uitgerust met algoritmen om clustering taken uit te voeren. Een aantal nieuwe technieken, waaronder SVMs, leveren uitstekende resultaten die 15 jaar terug onmogelijk waren. Het viel op dat sommige methoden gemiddeld duidelijk beter of slechter presteren dan andere methoden, dat er een significante variantie is tussen de vraagstukken en meeteenheden. De beste modellen presteerden soms opmerkelijk slecht, en modellen met een gemiddeld zeer slechte prestatie presteerden soms uitzonderlijk goed. Dit onderzoek poogt een soortgelijk onderzoek uit te voeren, toegespitst op multiple lineaire regressie.

Datasets voor big data onderzoek kunnen variëren in drie dimensies. Dit zijn volume, snelheid, en structuur (Sagiroglu & Sinanc, 2013). Volume slaat op grootte van de dataset. Dit kan oplopen tot gigabytes of terabytes en soms zelfs petabytes. Snelheid slaat op hoe de data wordt ingelezen en gebruikt binnen de organisatie. Dit kan in batches, real time of door continu de data stromend in te lezen. Structuur gaat over de vorm waarin de data wordt aangeleverd. Dit is wat big data ook echt groot maakt. Data komt van een grote verscheidenheid aan bronnen. Deze kunnen gestructureerd, semi gestructureerd of ongestructureerd zijn. Gestructureerde data is al gelabeld en kan gemakkelijk worden opgeslagen. Ongestructureerde data is daarentegen willekeurig en moeilijk te analyseren. Semi gestructureerde data heeft geen vaste velden met waarde, maar is wel gelabeld.

(9)

Naast de hierboven genoemde kenmerken zijn er door Kitchin and McArdle (2016) nog een aantal andere kenmerken van big data aangedragen:

• Exhaustivity, of een volledig systeem wordt bekeken of alleen een steekproef (Mayer-Schönberger & Cukier, 2013)

• Fine-grained in resolutie en unique te indexen (Dodge & Kitchin, 2005)

• Verbindbaarheid, of er gemeenschappelijke velden in verschillende datasets zijn waardoor deze te koppelen zijn (Boyd & Crawford, 2012)

• Extensionality, het makkelijk toevoegen of veranderen van waarden, en schaalbaarheid, hoe snel de dataset kan groeien (Marz & Warren, 2015)

• Veracity, hoe groot de onzekerheid in een dataset is (Marr, 2014)

• Waarde, veel inzichten kunnen worden afgeleid van de data (Marr, 2014) • Variabliteit, de betekenis van de data kan veranderen in relatie tot de context waarin deze gegenereerd is (McNulty, 2014)

Gezien de beschikbare datasets is gekozen om uitsluitend te kijken naar variatie in volume. Hieronder wordt zowel variatie in het aantal waarnemingen als in het aantal onafhankelijke variabele verstaan.

Een dataset is geschikt voor multiple lineaire regressie wanneer deze beschikt over meerdere onafhankelijke variabelen en minimaal één afhankelijke variabele. Al deze variabelen dienen minimaal op intervalschaal gemeten zijn. Intervalschaal betekent dat er een gelijke interval zit tussen gemeten variabelen (Stevens et al., 1946).

Ten behoeve van een goed begrip van de gebruikte machine learning methoden staat de werking van deze hieronder uitgeschreven.

Lineaire regressie. Lineaire regressie laat de afhankelijkheid van de afhankelijke variabele op basis van gemeten onafhankelijke variabele zien. Hierbij wordt ook gekeken naar het voorspellen van toekomstige waarde op basis van de onafhankelijke variabele (Weisberg, 2005).

Neurale netwerken. Neurale netwerken zijn geïnspireerd op de werking van het menselijk brein. Hierop is ook veel van de naamgeving gebaseerd. Een neuraal netwerk

(10)

is in de basis een manier om te modelleren hoe het menselijk brein een bepaalde taak of functie uitvoert door het sterker of zwakker maken van verbindingen tussen neuronen (Haykin, 2009). Binnen deze scriptie is gebruik gemaakt van multilayer feedforward networks. Hierbij is een neuraal netwerk getraind welke minimaal 1 verborgen laag heeft tussen de input layer en de output layer.

Support vector machine. Support vector machine (SVM) wordt normaal gezien gebruikt voor binaire classificatie problemen. Hierin zoekt het leer algoritme naar een lijn welke een zo groot mogelijke marge in acht neemt tussen twee soorten instanties. Een variant hierop is support vector regression (SVR). Hierbij wordt gebruik gemaakt van een alternatieve loss function (Gunn et al., 1998). Deze functie stelt de SVM in staat om ook lineaire regressie problemen te analyseren.

(11)

Methode

Op basis van het voorgaande is gekozen voor een aantal datasets welke te

analyseren zijn met behulp van lineaire regressie. De karakteristiek waarop gelet is bij het zoeken van deze datasets is variatie in aantal waarnemingen en variatie in het aantal onafhankelijke variabele. Elke dataset is geanalyseerd op vier verschillende manieren. De data is geanalyseerd door gebruik te maken van: SPSS, een lineair regressiemodel in Python, neurale netwerken en support vector machines.

Voor het vergelijken van de prestaties van big data methoden en statistiek is gekeken naar 9 verschillende datasets. Deze datasets zijn: basketball, Boston, concrete (beton), energy efficiency, power plant, residential, red wine, white wine en yacht. Hieronder een overzicht en korte beschrijving van elke gebruikte dataset.

Dataset Waarnemingen Afhankelijke variabelen Onafhankelijke variabelen

Basketball 54 1 4 Boston 506 1 13 Concrete 1030 1 8 Energy efficiency 768 2 8 Power plant 9568 1 4 Residential 372 2 107 Rew wine 1599 1 11 White wine 4898 1 11 Yacht 308 1 6

In de basketball dataset wordt geprobeerd het gemiddeld aantal punten wat een speler per wedstrijd scoort te voorspellen op basis van zijn of haar lengte, gewicht, percentage rake veld doelpogingen en percentage rake vrije worpen.

Bij de Boston dataset is het doel het voorspellen van huizenprijzen in Boston op basis van: criminaliteit, proportie van villa’s, proportie van bedrijven die geen winkels winkels zijn, concentratie stikstofdioxide, gemiddeld aantal kamers per woning, gewogen afstand tot een centrum voor werkgelegenheid, toegankelijkheid van snelwegen,

(12)

eigendomsbelasting op het erf, aantal leraren per leerling, en de gemiddelde waarde van de koophuizen in een bepaald gebied.

In de concrete dataset wordt gekeken naar de kwaliteit van beton op basis van de hoeveelheid cement, hoogovenslak, vliegas, water, superplasticizer, grof aggregaat, fijn aggregaat en de leeftijd van het beton.

De engergy efficiency dataset verschaft een inzicht in de verwarmingsbelasting en koellast van een gebouw. Hierbij is gekeken naar de relatieve compactheid van het gebouw, het grondoppervlak, het muuroppervlak, het oppervlak van het dak, de bouwhoogte, de oriëntatie en de hoeveelheid glas.

De power plant dataset kijkt naar netto stroom productie van een gecombineerde cyclus energiecentrale per uur. Hierbij zijn de gemiddelde omgevingstemperatuur in graden Celsius, de druk in millibar, de relatieve luchtvochtigheid in procenten, en het uitlaat vacuüm in centimeter kwik voor elk uur bijgehouden.

De residential dataset geeft een inzicht in de waarde van een eengezins appartement in Tehran. Hierbij is gekeken naar in totaal 105 variabelen. Acht hiervan gaan over fysieke eigenschappen en financiële cijfers. Ook is er gekeken naar 19 economische variabelen welke allemaal 5 keer zijn bekeken met een tijdsinterval tussen alle metingen.

In zowel de red wine als de white wine dataset is gekeken naar de kwaliteit van een wijn op basis van de vaste zuurgraad, de vluchtige zuurgraad, citroenzuur, restsuiker, chloriden, vrij zwaveldioxide, totale zwaveldioxide, dichtheid, pH waarde, sulfaten, en alcohol percentage.

De yacht dataset brengt de hydrodynamische prestaties van jachten in kaart. Hierbij is gekeken naar de centrum van het drijfvermogen, prismatische coëfficiënt, de ratio tussen lengte en verplaatsing van water, de ratio tussen het breedste punt van het schip ten opzichte van de diepgang van het schip, en de ratio tussen de lengte van het schip en het breedste punt van het schip.

Alvorens er naar de resultaten gekeken wordt is hieronder ten behoeve van reproduceerbaarheid uitgeschreven hoe later genoemde resultaten verkregen zijn.

(13)

Statistiek

Om een steekproef te trekken uit de data is gebruik gemaakt van de Pandas sample functie, met een pseudo-random state van 0. Dit is gedaan voor elke benodigde

steekproef grootte. Bij de analyse met SPSS is voor elke dataset gekeken naar de assumpties die gelden voor het uitvoeren van een multiple regressie met SPSS. Deze assumpties zijn:

1. De onafhankelijke variabelen zijn continu, of bestaan uit 2 categorieën. 2. De onafhankelijke variabelen moeten variantie hebben.

3. Er mag geen Multicollineariteit zijn.

4. Onafhankelijke variabelen mogen niet correleren met variabelen buiten het model.

5. Er moet sprake zijn van homoscedasticiteit. 6. De residuen moeten ongecorreleerd zijn. 7. De residuen moeten normaal verdeeld zijn.

8. Elke waarde op de afhankelijke variabele moet van een andere deelnemer komen. 9. Het verband tussen de afhankelijke en onafhankelijke variabele dient lineair te zijn.

Vervolgens is een standaard lineaire regressie uitgevoerd zoals in SPSS versie 25. De resultaten hiervan zijn later vergeleken met andere manieren van data analyseren.

Big data

Elke dataset is ingelezen in een Pandas DataFrame. Vervolgens is met behulp van de train_test_split functie uit Sklearn de data opgedeeld in een deel om het gemaakte model te evalueren, de testset, en een deel om een model mee te trainen, de trainingsset. Dit is gedaan in incrementen van 10 procentpunt van de totale data beginnende met 10% als testset grootte en eindigend op 90% van de data als testset grootte.

Elke big data analyse is voor elke analysetechniek 25 keer uitgevoerd per testset omvang met een verschillende pseudo-random begin staat, om een gemiddelde van de prestatie van deze methode beter in te kunnen schatten, in verband met beperkte

(14)

beschikbare rekenkracht is het neurale netwerk voor de power plant dataset slechts één keer berekend. De pseudo-random begin staat is gekozen door een numpy array te genereren met 25 pseudo-random getallen tussen de 0 en de 100, met een begin staat van 0. Deze getallen dienen vervolgens als pseudo-random seed voor het maken van de splitsing tussen trainings en testset.

Lineair regressiemodel. Met gebruik van de LinearRegression functie uit sklearn.linear_model is volgens bovenstaande methode een model gegenereerd met behulp van de trainingsset. Een overzicht van de gebruikte code kan gevonden worden in appendix A.

Neuraal netwerk. Aangezien een neuraal netwerk alleen werkt voor input data op een gelijke schaal is alle data getransformeerd met behulp van de StandardScaler functie uit Sklearn. De output data van een neuraal netwerk werkt met categorieën, waarbij met genoeg output nodes integers gesimuleerd kunnen worden. Hierom zijn alle output waarden, waar nodig, vermenigvuldigd met een factor 100 en afgerond naar een geheel getal. Voor het trainen van een neuraal netwerk is gekeken naar het aantal verborgen lagen binnen het netwerk en het aantal trainings iteraties welke het netwerk maximaal doorloopt. Hierbij zijn voor de verborgen lagen een aantal opties overwogen. De overwogen opties voor de verborgen lagen zijn: 1, 2 of 3 lagen met 100 nodes, 1 laag met 100 en 1 laag met 50 nodes, 2 lagen met 100 nodes en 1 laag met 50 nodes, en 1 laag met 100 nodes en 2 lagen met 50 nodes. De prestaties van elk model zijn volgens de methode onder het kopje big data gegenereerd. Vervolgens is de gemiddelde prestatie van elke hoeveelheid verborgen lagen bekeken. De gemiddeld best presterende

configuratie voor elke dataset is gekozen. Zie tabel hieronder voor het gekozen aantal verborgen lagen per dataset. Een overzicht van de gebruikte code kan gevonden worden in appendix B.

(15)

Dataset Verborgen lagen Maximale iteraties Basketball 2 lagen a 100 nodes 500

Boston 1 laag a 100 nodes 500 Concrete 1 laag a 100 nodes 500 Energy efficiency 1 laag a 100 nodes 500 Power plant 1 laag a 100 nodes 200 Residential 2 lagen a 100 nodes 500 Wine 1 laag a 100 nodes 500 Yacht 1 laag a 100 nodes 500

Support vector machine. Een support vector machine wordt normaal gebruikt om nominale of ordinale data van elkaar te onderscheiden. Met enige aanpassingen in het algoritme kan een support vector machine ook gebruikt worden voor het analyseren van lineaire regressie data. Met behulp van de functie svm.LinearSVR uit Sklearn is volgens de methode die beschreven is onder big data de gemiddelde prestatie van deze methode berekend. Een overzicht van de gebruikte code kan gevonden worden in appendix C.

De prestatie van een methode is vergeleken door te kijken naar de R2 _{score. Dit}

geeft het percentage van de variantie wat verklaard kan worden door het getrainde model. Er is voor deze meeteenheid gekozen aangezien een hogere verklaarde variantie betekent dat het model beter presteert in het verklaren van de afhankelijke variabele.

Resultaten

Bij het bekijken van de resultaten zijn een aantal dingen opgevallen. Hieronder staat ten eerste voor elke dataset uitgeschreven wat specifiek bij elke dataset opvalt. Hierna is dit gegeneraliseerd naar wat in het algemeen is opgevallen.

Basketball. Ten eerste heeft geen enkele van de getrainde modellen een positieve

R2 score. SPSS geeft bij deze dataset bij een aantal steekproeven een R2 _{welke gezien}

(16)

Ten tweede valt het op dat bij een extreem kleine trainingsset (n = 5) de prestatie van lineaire regressie analyse varieert tussen de -1274,19 en -0,07.

Ten slotte is te zien dat er bij een SVM een grote spreiding is tussen de hoogste en laagste berekende R2 _{score met minimaal 3,20 punt tussen de hoogste en laagste}

waarde, oplopen tot maximaal 19,82 punt. Zie appendix E, basketball.

Boston. Bij de Boston dataset valt het op dat een neuraal netwerk bij een zeer grote trainingsset gemiddeld 0,1 punt meer variantie kan verklaren dan gevonden met SPSS. In totaal waren er 10 combinaties (trainigsset grootte en analyse techniek) welke een gemiddeld beter resultaat opleverde dan SPSS.

Ook valt het op dat er bij het trainen van een SVM een groot verschil zit tussen de hoogste en laagste gevonden R2 _{score. Dit verschil is, op één na, in alle gevallen groter}

dan 1. Zie appendix E, Boston.

Concrete. In de concrete dataset zijn 9 combinaties welke een gemiddeld hogere verklaarde variantie geven dan SPSS. Vooral neurale netwerken laten hierbij een goede verbetering zien met een gemiddelde verbetering van 0,055 tot 0,154 punt. Ook zien we bij deze dataset dat de prestatie van een neuraal netwerk slechter wordt naar mate er minder trainingsdata beschikbaar is.

Ook bij deze dataset valt op dat het verschil tussen de hoogste en laagste berekende R2 score voor alle combinaties bij een SVM groter of gelijk aan 1 is. Zie appendix E, concrete.

Energy efficiency. Python lineaire regressie presteert bij deze dataset ongeveer even goed als SPSS lineaire regressie, de R2 _{score verschilt hierbij maximaal 0,023 punt.}

Neurale netwerken presteren ook behoorlijk gelijkwaardig met over het algemeen een marge van ongeveer 0.05 punt. De SVM presteert met gemiddeld 0,315 punt lager dan SPSS duidelijk slechter dan de andere methoden. Ook valt op dat de prestaties van een SVM behoorlijk kunnen verschillen op basis van de gekozen steekproef. Er is een

verschil in R2 score van gemiddeld 1,39 punt. Zie appendix E, energy efficiency 1 & 2.

Power plant. Alle methoden presteren relatief constant bij de power plant dataset. Bij het trainen van een lineair regressie model was het maximale verschil ten

(17)

opzichte van SPSS 0,008 punt, voor neurale netwerken was dit 0,043 en bij een SVM was dit verschil maximaal 0,140. De prestaties van lineaire regressie en neurale netwerken zijn behoorlijk constant, de prestaties van een SVM variëren ook in deze dataset meer dan de andere methoden. De getrainde SVM modellen hebben een afwijking van gemiddeld 0,41 punt tussen de best presterende steekproef en de slechtst presterende steekproef waar de lineaire regressie en neurale netwerk modellen een gemiddelde afwijking van 0,01 en 0,00 respectievelijk hebben. Zie appendix E, power plant.

Residential. Net als bij de basketball dataset valt het bij de residential dataset op dat de prestatie van lineaire regressie een zeer grote variantie krijgt wanneer er weinig trainigsdata beschikbaar is (n = 37). Ook is in figuur D8 te zien dat de prestatie van lineaire regressie varieert bij de tweede afhankelijke variabele.

Het neurale netwerk presteert bij deze dataset voor 1 van de afhankelijke variabele zeer goed, met scores die bijna gelijk zijn aan SPSS. De andere afhankelijke variabele laat daarentegen voor een neuraal netwerk scores zien die gemiddeld 0,4 punt lager liggen dan SPSS.

De SVM laat voor beide afhankelijke variabelen bijna exclusief negatieve R2 _scores

zien. Zie appendix E, residential 1 & 2.

Wine. In de red wine dataset is te zien dat een neuraal netwerk hier gemiddeld 0,19 punt slechter presteert dan een lineair regressie model. Ook neemt de prestatie van het neurale netwerk duidelijk af naar mate er minder trainingsdata beschikbaar is (figuur D9). De R2 _{score van een SVM komt bij deze dataset niet boven de 0. Zie}

appendix E, red wine.

De white wine dataset laat een gelijkwaardig patroon zien als de red wine dataset. Alleen is in dit geval het gemiddelde verschil tussen een lineair regressie model en neuraal netwerk kleiner, 0,09. Ook in deze dataset komt de R2 _{score van de SVM niet}

boven de 0. Zie appendix E, white wine.

Yacht. Net als bij de concrete dataset is, voor de neuraal netwerk methode, in de yacht dataset een zeer duidelijke afname in prestatie te zien naarmate de beschikbare trainingsdata kleiner wordt (figuur D11). Python lineaire regressie presteert hier

(18)

ongeveer even goed als SPSS, de Python implementatie presteert gemiddeld 0,04 punt slechter. De SVM laat bij deze dataset geen enkele R2 _{score boven de 0 zien. Zie}

appendix E, yacht.

In het algemeen valt op dat een, voor lineaire regressie aangepaste, SVM bij bijna elke dataset minder variantie kan verklaren dan de andere gebruikte technieken.

Ook valt op dat bij een voorspelling gedaan op basis van een SVM er vaak een relatief groot verschil is tussen de hoogste en de laagste R2_{. Een verschil is gezien als}

groot wanneer het verschil groter is dan 1. Bij de standaard lineaire regressie in SPSS wordt een resultaat tussen de -1 en de 1 verwacht. Om deze reden wordt een verschil van 1 als groot gezien.

Bij het evalueren van een getraind lineair regressie model op weinig data (n < 40) valt op dat de prestatie van zo’n model zeer sterk kan variëren naar aanleiding van de getrokken steekproef. De laagste gevonden R2 _{is hierbij gelijk aan −1274, 19 terwijl de}

hoogste R2 _{op de zelfde dataset −0, 07 was. Bij een andere dataset varieerde R}2

tussende −131, 26 en 0, 84.

Verder is ook opgevallen dat bij veel combinaties de gemiddelde verklaarde variantie kleiner is dan nul (R2 _{< 0). De verklaarde variantie in Sklearn kijkt naar}

hoeveel beter het gevonden model de variantie in uitkomsten verklaart dan een

horizontale lijn dat doet. Als een model meer verklaart dan een horizontale lijn word R2 positiever, als een model minder verklaart dan een horizontale lijn dan wordt R2

negatiever. Dit zou betekenen dat een groot aantal van de getrainde modellen minder goed presteren dan een horizontale lijn bij het verklaren van de variantie.

Bij neurale netwerken valt op dat naarmate de beschikbare trainingsdata kleiner wordt de prestatie afneemt.

Ten slotte valt op dat er een significant verschil in trainingstijd zit tussen

verschillende methoden. Zo was er ongeveer 3500 keer meer tijd nodig om een neuraal netwerk te trainen op de concrete dataset dan dat er nodig was voor het maken van een lineair regressie model. Het precies timen van benodigde rekentijden valt buiten de

(19)

scope van deze scriptie, echter dit is een dusdanig opvallend verschil dat het toch benoemd moest worden. Een overzicht van alle resultaten is te zien in appendix D (grafieken) en appendix E (tabellen).

Discussie

Bij het uitvoeren van dit onderzoek is gebleken dat voor een aantal datasets de getrokken steekproef een grote invloed had op de resultaten van sommige big data methoden. Er is hierbij niet gekeken of de voor SPSS getrokken steekproef ook last had van een steekproeftrekking welke slechter presteert dan andere steekproeftrekkingen. Er is gekozen om achteraf niet alle SPSS analyses te herhalen met verschillende

steekproeven om hier, net als bij de big data steekproeven, een gemiddelde van te nemen. Dit is gedaan omdat bij gebruik van statistiek een risico bestaat dat er op basis van een niet representatieve steekproef wordt gegeneraliseerd naar de populatie.

De door Python berekende R2 _{score laat zo nu en dan een negatieve score zien.}

Naar het blijkt berekent Python de R2 score door te kijken hoeveel variantie er meer verklaard wordt door het verkregen model dan met gebruik van een rechte lijn. Een negatieve score zou betekenen dat het verkregen model minder goed presteert dan een rechte lijn. Aangezien SPSS nooit een negatieve R2 _{score laat zien doet dit vermoeden}

dat beide manier wellicht iets anders meten. Beide geven echter een inzicht in de verklaarde variantie. Het verschil zit waarschijnlijk in de manier van berekenen. Waar SPSS wanneer het geen variantie kan verklaren een resultaat van 0 zal weergeven laat Python zien hoe slecht het gevonden model presteert.

Conclusie

In deze scriptie is gekeken naar onderstaande vraag Hoe verhoudt het voorspellend

vermogen van big data technieken zich tot het voorspellend vermogen van statistische methoden? In de scope van het onderzoek is afgebakend dat er uitsluitend gekeken zal

worden naar multiple lineaire regressie methoden. Om antwoord te kunnen geven op de hoofdvraag is eerst gekeken naar de vraag Welke methoden kunnen vergeleken worden

(20)

Python een multiple lineaire regressie kan worden uitgevoerd of gesimuleerd. Dit zijn een lineaire regressie model, neuraal netwerk en support vector machine.

Vervolgens is gekeken naar karakteristieken van data in relatie tot de hoeveelheid variantie die met gebruik van elke methode verklaard kan worden. Dit is opgedeeld in de invloed van het aantal waarneming in de dataset en het aantal onafhankelijke variabelen in de dataset. In de resultaten is terug te zien dat bij een kleine hoeveelheid waarnemingen (n < 40) het prestatie verschil van lineaire regressie modellen afhankelijk van de getrokken steekproef toe neemt. De getrokken steekproef heeft een stuk minder invloed op de resultaten bij weinig waarnemingen als gebruik wordt gemaakt van een neuraal netwerk of SVM. Bij de datasets met een grotere hoeveelheid waarnemingen lijkt het er op dat de prestaties van alle methoden dichter bij elkaar liggen. Het aantal onafhankelijke variabele in een dataset lijkt geen invloed te hebben op de prestaties.

Aangezien het aantal onafhankelijke variabelen geen invloed lijkt te hebben zal hieronder geen rekening gehouden worden met het aantal onafhankelijke variabele.

In de grafieken (appendix D) is terug te zien dat een SVM in bijna alle gevallen slechter presteert dan een neuraal netwerk of lineair regressie model. Een SVM is dan ook niet de beste manier om regressie data te voorspellen. Een neuraal netwerk

presteert over het algemeen ongeveer even goed als een lineair regressie model. Hierbij valt wel op dat wanneer er weinig data beschikbaar is om te trainen de prestaties van een neuraal netwerk ook kunnen afnemen. Het regressie model presteert over het algemeen gezien het beste. Deze methode heeft alleen problemen met het maken van voorspellingen wanneer er zeer weinig trainingsdata beschikbaar is (n < 40). In dit geval presteert een neuraal netwerk constanter, ondanks dat er weinig data beschikbaar is.

Het voorspellend vermogen van big data in verhouding tot SPSS is wisselvallig. In een aantal gevallen kan met gebruik van big data meer variantie verklaard worden dan met gebruik van SPSS, echter geeft SPSS in de meeste gevallen de beste score.

In dit onderzoek is het opgevallen dat een op lineaire regressie aangepaste SVM over het algemeen slechter presteert dan de andere methoden. In vervolgonderzoek kan

(21)

gekeken worden naar waarom deze methode beduidend minder goed presteert.

Ook is opgevallen dat de benodigde tijd om een model te trainen kan verschillen van methode tot methode. Vervolgonderzoek zou kunnen kijken naar het gebruik van big data binnen een continu veranderende organisatorische setting. Hierbij zal het interessant zijn om te kijken naar de trade off tussen trainingstijd van een model en de precisie die dit model oplevert om vervolgens de implicaties hiervan voor de

organisatorische processen te onderzoeken. Hierbij kan gebruik worden gemaakt van een unit als R2_/t.

(22)

References

Big data kan niet zonder statistiek. (n.d.). Retrieved April 17, 2018, from

https://www.universiteitleiden.nl/nieuws/2017/02/big-data-kan-niet-zonder-statistiek

Boyd, D., & Crawford, K. (2012). Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon. Information, communication

& society, 15 (5), 662–679.

Caruana, R., & Niculescu-Mizil, A. (2006). An empirical comparison of supervised learning algorithms. In Proceedings of the 23rd international conference on

machine learning (pp. 161–168).

Dodge, M., & Kitchin, R. (2005). Codes of life: Identification codes and the

machine-readable world. Environment and Planning D: Society and Space, 23 (6), 851–881.

Eerste statistiek op basis van big data gelanceerd. (n.d.). Retrieved April 17, 2018, from

https://www.cbs.nl/nl-nl/onze-diensten/innovatie/nieuwsberichten/recente -berichten/eerste-statistiek-op-basis-van-big-data-gelanceerd

Grochowski, E., & Hoyt, R. F. (1996). Future trends in hard disk drives. IEEE

transactions on Magnetics, 32 (3), 1850–1854.

Gunn, S. R., et al. (1998). Support vector machines for classification and regression.

ISIS technical report, 14 (1), 5–16.

Hand, D. J. (1999). Statistics and data mining: intersecting disciplines. ACM SIGKDD

Explorations Newsletter , 1 (1), 16–19.

Haykin, S. (2009). Neural networks and learning machines (Vol. 3). Pearson Upper Saddle River, NJ, USA:.

King, R. D., Feng, C., & Sutherland, A. (1995). Statlog: comparison of classification algorithms on large real-world problems. Applied Artificial Intelligence an

International Journal, 9 (3), 289–333.

Kitchin, R., & McArdle, G. (2016). What makes big data, big data? exploring the ontological characteristics of 26 datasets. Big Data & Society, 3 (1),

(23)

2053951716631130.

Kotsiantis, S. B., Zaharakis, I., & Pintelas, P. (2007). Supervised machine learning: A review of classification techniques. Emerging artificial intelligence applications in

computer engineering, 160 , 3–24.

Marr, B. (2014). Big data: The 5 vs everyone must know. LinkedIn Pulse, 6 . Marz, N., & Warren, J. (2015). Big data: Principles and best practices of scalable

real-time data systems. New York; Manning Publications Co.

Mayer-Schönberger, V., & Cukier, K. (2013). Big data–a revolution that will transform

how we live, think and work. London: John Murray.

McNulty, E. (2014). Understanding big data: the seven v’s. Dataconomy, May, 22 . Sagiroglu, S., & Sinanc, D. (2013). Big data: A review. In Collaboration technologies

and systems (cts), 2013 international conference on (pp. 42–47).

Stevens, S. S., et al. (1946). On the theory of scales of measurement.

Triola, M. F., & Iossi, L. (2008). Essentials of statistics. Pearson Addison Wesley Boston, MA, USA:.

(24)

Appendix A Code lineaire regressie

def l i n e a r R e g r e s s i o n ( df , target , t e s t _ s i z e , s e e d ):

# s p l i t train - t e s t set

x_train , x_test , y_train , y _ t e s t = s p l i t T r a i n T e s t ( df , target , t e s t _ s i z e , s e e d ) # m a k e m o d e l m o d e l = L i n e a r R e g r e s s i o n () m o d e l . fit ( x_train , y _ t r a i n ) y _ p r e d = m o d e l . p r e d i c t ( x _ t e s t ) # e v a l u a t i o n MAE = m e t r i c s . m e a n _ a b s o l u t e _ e r r o r ( y_test , y _ p r e d ) MSE = m e t r i c s . m e a n _ s q u a r e d _ e r r o r ( y_test , y _ p r e d ) R M S E = np .s q r t( m e t r i c s . m e a n _ s q u a r e d _ e r r o r ( y_test , y _ p r e d ) ) R2 = m e t r i c s . r 2 _ s c o r e ( y_test , y _ p r e d ) v a r i a n c e = m e t r i c s . e x p l a i n e d _ v a r i a n c e _ s c o r e ( y_test , y _ p r e d )

(25)

Appendix B Code neuraal netwerk def n e u r a l N e t w o r k ( df , target , t e s t _ s i z e , s e e d ):

s o u r c e = df . d r o p ( target , a x i s=1 ) s o u r c e = s o u r c e . a s _ m a t r i x ()

t a r g e t = np . a s a r r a y ( df[t a r g e t] * 100 , d t y p e=" int ")

x_train , x_test , y_train , y _ t e s t = t r a i n _ t e s t _ s p l i t ( source , target , t e s t _ s i z e=t e s t _ s i z e , r a n d o m _ s t a t e=s e e d ) # p r e p r o c e s s s c a l e r = S t a n d a r d S c a l e r () s c a l e r . fit ( x _ t r a i n ) x _ t r a i n = s c a l e r . t r a n s f o r m ( x _ t r a i n ) x _ t e s t = s c a l e r . t r a n s f o r m ( x _ t e s t ) # m a k e m o d e l m o d e l = M L P C l a s s i f i e r ( h i d d e n _ l a y e r _ s i z e s=( 100 , 100 ) , r a n d o m _ s t a t e= seed , m a x _ i t e r=500 ) m o d e l . fit ( x_train , y _ t r a i n ) y _ p r e d = m o d e l . p r e d i c t ( x _ t e s t ) # e v a l u a t i o n MAE = m e t r i c s . m e a n _ a b s o l u t e _ e r r o r ( y_test , y _ p r e d ) MSE = m e t r i c s . m e a n _ s q u a r e d _ e r r o r ( y_test , y _ p r e d ) R M S E = np .s q r t( m e t r i c s . m e a n _ s q u a r e d _ e r r o r ( y_test , y _ p r e d ) ) R2 = m e t r i c s . r 2 _ s c o r e ( y_test , y _ p r e d ) v a r i a n c e = m e t r i c s . e x p l a i n e d _ v a r i a n c e _ s c o r e ( y_test , y _ p r e d )

(26)

Appendix C

Code support vector machine def SVM ( df , target , t e s t _ s i z e , s e e d ):

x_train , x_test , y_train , y _ t e s t = s p l i t T r a i n T e s t ( df , target , t e s t _ s i z e , s e e d ) # m a k e m o d e l # m o d e l = svm . SVR () m o d e l = svm . L i n e a r S V R () m o d e l . fit ( x_train , y _ t r a i n ) y _ p r e d = m o d e l . p r e d i c t ( x _ t e s t ) # e v a l u a t i o n MAE = m e t r i c s . m e a n _ a b s o l u t e _ e r r o r ( y_test , y _ p r e d ) MSE = m e t r i c s . m e a n _ s q u a r e d _ e r r o r ( y_test , y _ p r e d ) R M S E = np .s q r t( m e t r i c s . m e a n _ s q u a r e d _ e r r o r ( y_test , y _ p r e d ) ) R2 = m e t r i c s . r 2 _ s c o r e ( y_test , y _ p r e d ) v a r i a n c e = m e t r i c s . e x p l a i n e d _ v a r i a n c e _ s c o r e ( y_test , y _ p r e d )

(27)

Appendix D

Resultaten overzicht grafieken

Figure D1 . Basketball

(28)

Figure D3 . Concrete

Figure D4 . Energy efficiency 1

(29)

Figure D6 . Power plant

Figure D7 . Residential 1

(30)

Figure D9 . Red wine

Figure D10 . White wine

(31)

Appendix E

Resultaten overzicht tabellen

Basketball

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 -0,78 -9,73 0,65 1 Lineaire regressie 0.2 -0,16 -2,15 0,38 0,352 Lineaire regressie 0.3 -0,13 -1,05 0,34 0,533 Lineaire regressie 0.4 -0,31 -1,41 0,31 0,667 Lineaire regressie 0.5 -0,43 -1,48 0,22 0,297 Lineaire regressie 0.6 -0,40 -1,55 0,17 0,209 Lineaire regressie 0.7 -0,80 -2,33 0,02 0,259 Lineaire regressie 0.8 -1,75 -5,74 0,04 0,199 Lineaire regressie 0.9 -224,89 -1274,19 -0,07 0,29 Neuraal netwerk 0.1 -1,35 -9,68 0,85 1 Neuraal netwerk 0.2 -0,83 -2,76 0,48 0,352 Neuraal netwerk 0.3 -0,69 -2,47 0,31 0,533 Neuraal netwerk 0.4 -0,94 -3,10 0,12 0,667 Neuraal netwerk 0.5 -0,75 -2,14 -0,04 0,297 Neuraal netwerk 0.6 -0,53 -1,56 0,37 0,209 Neuraal netwerk 0.7 -0,52 -1,51 0,10 0,259 Neuraal netwerk 0.8 -0,81 -2,65 0,22 0,199 Neuraal netwerk 0.9 -0,88 -2,64 0,21 0,29 SVM 0.1 -1,52 -5,94 0,21 1 SVM 0.2 -2,23 -17,66 0,05 0,352 SVM 0.3 -3,50 -19,69 0,14 0,533 SVM 0.4 -2,33 -18,96 -0,02 0,667 SVM 0.5 -1,25 -5,62 0,00 0,297 SVM 0.6 -1,66 -7,62 -0,08 0,209 SVM 0.7 -1,47 -4,97 -0,05 0,259 SVM 0.8 -0,85 -3,30 -0,10 0,199 SVM 0.9 -1,24 -7,12 -0,11 0,29

(32)

Boston

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,68 0,52 0,84 0,62 Lineaire regressie 0.2 0,71 0,55 0,79 0,627 Lineaire regressie 0.3 0,71 0,60 0,79 0,67 Lineaire regressie 0.4 0,71 0,62 0,77 0,714 Lineaire regressie 0.5 0,70 0,61 0,76 0,651 Lineaire regressie 0.6 0,69 0,58 0,75 0,666 Lineaire regressie 0.7 0,68 0,54 0,74 0,687 Lineaire regressie 0.8 0,64 0,43 0,70 0,633 Lineaire regressie 0.9 0,53 -0,22 0,67 0,692 Neuraal netwerk 0.1 0,72 0,47 0,95 0,62 Neuraal netwerk 0.2 0,68 0,43 0,82 0,627 Neuraal netwerk 0.3 0,71 0,51 0,84 0,67 Neuraal netwerk 0.4 0,69 0,51 0,82 0,714 Neuraal netwerk 0.5 0,67 0,43 0,78 0,651 Neuraal netwerk 0.6 0,50 0,10 0,62 0,666 Neuraal netwerk 0.7 0,59 0,42 0,71 0,687 Neuraal netwerk 0.8 0,51 0,27 0,65 0,633 Neuraal netwerk 0.9 0,43 0,18 0,53 0,692 SVM 0.1 0,37 -1,37 0,70 0,62 SVM 0.2 0,12 -2,87 0,72 0,627 SVM 0.3 -0,03 -2,91 0,66 0,67 SVM 0.4 0,44 -0,26 0,64 0,714 SVM 0.5 0,22 -2,67 0,60 0,651 SVM 0.6 0,04 -5,76 0,61 0,666 SVM 0.7 0,07 -2,37 0,58 0,687 SVM 0.8 0,10 -2,18 0,49 0,633 SVM 0.9 -0,16 -3,11 0,45 0,692

(33)

Concrete

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,60 0,50 0,70 0,678 Lineaire regressie 0.2 0,60 0,52 0,68 0,563 Lineaire regressie 0.3 0,61 0,55 0,68 0,61 Lineaire regressie 0.4 0,61 0,56 0,67 0,601 Lineaire regressie 0.5 0,61 0,57 0,65 0,592 Lineaire regressie 0.6 0,61 0,57 0,64 0,6 Lineaire regressie 0.7 0,60 0,56 0,62 0,623 Lineaire regressie 0.8 0,59 0,53 0,62 0,627 Lineaire regressie 0.9 0,56 0,44 0,59 0,62 Neuraal netwerk 0.1 0,76 0,69 0,84 0,678 Neuraal netwerk 0.2 0,72 0,63 0,81 0,563 Neuraal netwerk 0.3 0,71 0,64 0,74 0,61 Neuraal netwerk 0.4 0,66 0,58 0,72 0,601 Neuraal netwerk 0.5 0,65 0,56 0,71 0,592 Neuraal netwerk 0.6 0,58 0,50 0,66 0,6 Neuraal netwerk 0.7 0,55 0,47 0,66 0,623 Neuraal netwerk 0.8 0,45 0,32 0,52 0,627 Neuraal netwerk 0.9 0,32 0,05 0,46 0,62 SVM 0.1 0,29 -0,86 0,65 0,678 SVM 0.2 0,32 -0,66 0,68 0,563 SVM 0.3 0,23 -1,30 0,65 0,61 SVM 0.4 0,21 -1,13 0,63 0,601 SVM 0.5 0,28 -1,85 0,61 0,592 SVM 0.6 0,29 -1,37 0,59 0,6 SVM 0.7 0,28 -0,38 0,62 0,623 SVM 0.8 0,34 -1,22 0,59 0,627 SVM 0.9 0,11 -1,08 0,59 0,62

(34)

Energy efficiency 1

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,91 0,89 0,95 0,901 Lineaire regressie 0.2 0,91 0,90 0,94 0,901 Lineaire regressie 0.3 0,91 0,90 0,93 0,9 Lineaire regressie 0.4 0,91 0,90 0,93 0,927 Lineaire regressie 0.5 0,91 0,90 0,92 0,916 Lineaire regressie 0.6 0,91 0,90 0,92 0,915 Lineaire regressie 0.7 0,91 0,91 0,92 0,912 Lineaire regressie 0.8 0,91 0,90 0,92 0,914 Lineaire regressie 0.9 0,90 0,89 0,91 0,917 Neuraal netwerk 0.1 0,91 0,82 0,96 0,901 Neuraal netwerk 0.2 0,90 0,84 0,96 0,901 Neuraal netwerk 0.3 0,88 0,80 0,94 0,9 Neuraal netwerk 0.4 0,88 0,82 0,93 0,927 Neuraal netwerk 0.5 0,87 0,82 0,91 0,916 Neuraal netwerk 0.6 0,86 0,83 0,90 0,915 Neuraal netwerk 0.7 0,86 0,82 0,89 0,912 Neuraal netwerk 0.8 0,85 0,82 0,90 0,914 Neuraal netwerk 0.9 0,83 0,80 0,86 0,917 SVM 0.1 0,68 -0,05 0,88 0,901 SVM 0.2 0,67 -0,02 0,84 0,901 SVM 0.3 0,65 0,04 0,85 0,9 SVM 0.4 0,56 -0,98 0,84 0,927 SVM 0.5 0,64 -0,57 0,83 0,916 SVM 0.6 0,64 -1,39 0,82 0,915 SVM 0.7 0,55 -1,97 0,80 0,912 SVM 0.8 0,55 -0,22 0,76 0,914 SVM 0.9 0,50 -0,13 0,73 0,917

(35)

Energy efficiency 2

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,88 0,83 0,92 0,896 Lineaire regressie 0.2 0,88 0,86 0,91 0,86 Lineaire regressie 0.3 0,88 0,87 0,91 0,868 Lineaire regressie 0.4 0,88 0,87 0,90 0,884 Lineaire regressie 0.5 0,88 0,86 0,91 0,89 Lineaire regressie 0.6 0,88 0,87 0,90 0,893 Lineaire regressie 0.7 0,88 0,87 0,90 0,888 Lineaire regressie 0.8 0,88 0,85 0,89 0,885 Lineaire regressie 0.9 0,87 0,85 0,89 0,889 Neuraal netwerk 0.1 0,85 0,72 0,93 0,896 Neuraal netwerk 0.2 0,84 0,78 0,91 0,86 Neuraal netwerk 0.3 0,84 0,79 0,88 0,868 Neuraal netwerk 0.4 0,84 0,77 0,89 0,884 Neuraal netwerk 0.5 0,83 0,77 0,86 0,89 Neuraal netwerk 0.6 0,82 0,76 0,86 0,893 Neuraal netwerk 0.7 0,81 0,78 0,83 0,888 Neuraal netwerk 0.8 0,80 0,78 0,84 0,885 Neuraal netwerk 0.9 0,78 0,71 0,82 0,889 SVM 0.1 0,63 -0,17 0,86 0,896 SVM 0.2 0,53 -1,02 0,85 0,86 SVM 0.3 0,60 -0,64 0,82 0,868 SVM 0.4 0,57 -0,78 0,83 0,884 SVM 0.5 0,58 -0,60 0,83 0,89 SVM 0.6 0,65 -0,45 0,82 0,893 SVM 0.7 0,55 -0,70 0,80 0,888 SVM 0.8 0,56 -0,07 0,73 0,885 SVM 0.9 0,36 -0,69 0,67 0,889

(36)

Power plant

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,93 0,92 0,94 0,937 Lineaire regressie 0.2 0,93 0,92 0,93 0,933 Lineaire regressie 0.3 0,93 0,92 0,94 0,93 Lineaire regressie 0.4 0,93 0,92 0,93 0,928 Lineaire regressie 0.5 0,93 0,92 0,93 0,927 Lineaire regressie 0.6 0,93 0,93 0,93 0,931 Lineaire regressie 0.7 0,93 0,93 0,93 0,928 Lineaire regressie 0.8 0,93 0,93 0,93 0,928 Lineaire regressie 0.9 0,93 0,93 0,93 0,928 Neuraal netwerk 0.1 0,93 0,93 0,93 0,937 Neuraal netwerk 0.2 0,92 0,92 0,92 0,933 Neuraal netwerk 0.3 0,92 0,92 0,92 0,93 Neuraal netwerk 0.4 0,92 0,92 0,92 0,928 Neuraal netwerk 0.5 0,91 0,91 0,91 0,927 Neuraal netwerk 0.6 0,91 0,91 0,91 0,931 Neuraal netwerk 0.7 0,91 0,91 0,91 0,928 Neuraal netwerk 0.8 0,90 0,90 0,90 0,928 Neuraal netwerk 0.9 0,89 0,89 0,89 0,928 SVM 0.1 0,82 0,49 0,92 0,937 SVM 0.2 0,85 0,51 0,92 0,933 SVM 0.3 0,85 0,64 0,92 0,93 SVM 0.4 0,83 0,58 0,91 0,928 SVM 0.5 0,83 0,51 0,91 0,927 SVM 0.6 0,85 0,65 0,92 0,931 SVM 0.7 0,81 0,58 0,91 0,928 SVM 0.8 0,79 -0,04 0,91 0,928 SVM 0.9 0,82 0,58 0,91 0,928

(37)

Residential 1

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,88 0,24 0,99 1 Lineaire regressie 0.2 0,92 0,77 0,98 0,993 Lineaire regressie 0.3 0,86 -0,33 0,98 0,997 Lineaire regressie 0.4 0,86 -0,22 0,98 0,993 Lineaire regressie 0.5 0,56 -1,56 0,97 0,991 Lineaire regressie 0.6 0,72 -1,23 0,97 0,99 Lineaire regressie 0.7 0,75 -0,46 0,97 0,989 Lineaire regressie 0.8 0,62 -1,67 0,96 0,991 Lineaire regressie 0.9 -16,01 -131,88 0,83 0,989 Neuraal netwerk 0.1 0,67 0,42 0,88 1 Neuraal netwerk 0.2 0,69 0,38 0,80 0,993 Neuraal netwerk 0.3 0,68 0,44 0,77 0,997 Neuraal netwerk 0.4 0,63 0,37 0,75 0,993 Neuraal netwerk 0.5 0,61 0,40 0,72 0,991 Neuraal netwerk 0.6 0,54 0,35 0,68 0,99 Neuraal netwerk 0.7 0,44 0,24 0,56 0,989 Neuraal netwerk 0.8 0,32 -0,08 0,50 0,991 Neuraal netwerk 0.9 0,15 -0,28 0,39 0,989 SVM 0.1 -0,39 -3,47 0,39 1 SVM 0.2 -0,27 -3,33 0,44 0,993 SVM 0.3 -0,46 -4,60 0,43 0,997 SVM 0.4 -0,12 -3,66 0,42 0,993 SVM 0.5 -0,23 -3,66 0,39 0,991 SVM 0.6 -0,50 -3,55 0,37 0,99 SVM 0.7 -0,71 -8,78 0,36 0,989 SVM 0.8 -0,12 -1,79 0,34 0,991 SVM 0.9 -0,41 -10,24 0,33 0,989

(38)

Residential 2

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,86 0,66 0,99 1 Lineaire regressie 0.2 0,87 0,45 0,98 0,996 Lineaire regressie 0.3 0,18 -12,81 0,98 0,992 Lineaire regressie 0.4 -0,02 -13,73 0,97 0,994 Lineaire regressie 0.5 -2,00 -15,48 0,96 0,986 Lineaire regressie 0.6 -0,90 -10,69 0,90 0,99 Lineaire regressie 0.7 0,36 -1,51 0,94 0,989 Lineaire regressie 0.8 -0,55 -18,23 0,94 0,983 Lineaire regressie 0.9 -18,34 -131,26 0,84 0,982 Neuraal netwerk 0.1 0,83 0,40 0,96 1 Neuraal netwerk 0.2 0,84 0,70 0,92 0,996 Neuraal netwerk 0.3 0,80 0,62 0,91 0,992 Neuraal netwerk 0.4 0,77 0,67 0,86 0,994 Neuraal netwerk 0.5 0,76 0,64 0,85 0,986 Neuraal netwerk 0.6 0,71 0,61 0,82 0,99 Neuraal netwerk 0.7 0,70 0,64 0,78 0,989 Neuraal netwerk 0.8 0,64 0,54 0,71 0,983 Neuraal netwerk 0.9 0,53 0,36 0,65 0,982 SVM 0.1 0,39 -0,40 0,81 1 SVM 0.2 -0,18 -7,37 0,67 0,996 SVM 0.3 -2,80 -73,37 0,71 0,992 SVM 0.4 0,31 -0,85 0,66 0,994 SVM 0.5 -0,15 -9,18 0,66 0,986 SVM 0.6 -3,58 -84,72 0,60 0,99 SVM 0.7 -0,80 -20,21 0,63 0,989 SVM 0.8 0,30 -0,40 0,57 0,983 SVM 0.9 -0,62 -20,62 0,54 0,982

(39)

Red wine

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,33 0,14 0,45 0,405 Lineaire regressie 0.2 0,33 0,18 0,40 0,353 Lineaire regressie 0.3 0,34 0,30 0,40 0,361 Lineaire regressie 0.4 0,34 0,31 0,38 0,379 Lineaire regressie 0.5 0,34 0,30 0,37 0,358 Lineaire regressie 0.6 0,34 0,31 0,37 0,375 Lineaire regressie 0.7 0,33 0,30 0,36 0,369 Lineaire regressie 0.8 0,32 0,26 0,35 0,363 Lineaire regressie 0.9 0,28 0,13 0,33 0,353 Neuraal netwerk 0.1 0,22 -0,04 0,47 0,405 Neuraal netwerk 0.2 0,17 -0,13 0,32 0,353 Neuraal netwerk 0.3 0,20 0,09 0,29 0,361 Neuraal netwerk 0.4 0,18 0,09 0,28 0,379 Neuraal netwerk 0.5 0,17 0,11 0,24 0,358 Neuraal netwerk 0.6 0,17 0,12 0,22 0,375 Neuraal netwerk 0.7 0,12 0,00 0,20 0,369 Neuraal netwerk 0.8 0,09 -0,01 0,16 0,363 Neuraal netwerk 0.9 -0,03 -0,15 0,05 0,353 SVM 0.1 -0,89 -6,90 0,32 0,405 SVM 0.2 -0,76 -7,76 0,32 0,353 SVM 0.3 -0,41 -2,85 0,36 0,361 SVM 0.4 -0,19 -2,15 0,34 0,379 SVM 0.5 -0,02 -0,88 0,30 0,358 SVM 0.6 -0,38 -3,61 0,33 0,375 SVM 0.7 -0,91 -10,39 0,32 0,369 SVM 0.8 -0,81 -5,59 0,29 0,363 SVM 0.9 -0,58 -3,36 0,30 0,353

(40)

White wine

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,27 0,19 0,34 0,288 Lineaire regressie 0.2 0,28 0,22 0,31 0,302 Lineaire regressie 0.3 0,28 0,25 0,31 0,265 Lineaire regressie 0.4 0,28 0,25 0,30 0,258 Lineaire regressie 0.5 0,28 0,26 0,30 0,316 Lineaire regressie 0.6 0,28 0,25 0,29 0,285 Lineaire regressie 0.7 0,27 0,25 0,29 0,279 Lineaire regressie 0.8 0,27 0,25 0,28 0,287 Lineaire regressie 0.9 0,26 0,22 0,27 0,282 Neuraal netwerk 0.1 0,22 0,15 0,29 0,288 Neuraal netwerk 0.2 0,25 0,19 0,30 0,302 Neuraal netwerk 0.3 0,23 0,17 0,27 0,265 Neuraal netwerk 0.4 0,21 0,17 0,26 0,258 Neuraal netwerk 0.5 0,22 0,18 0,26 0,316 Neuraal netwerk 0.6 0,19 0,15 0,22 0,285 Neuraal netwerk 0.7 0,17 0,13 0,21 0,279 Neuraal netwerk 0.8 0,12 0,05 0,15 0,287 Neuraal netwerk 0.9 0,04 -0,06 0,11 0,282 SVM 0.1 -0,92 -5,96 0,26 0,288 SVM 0.2 -0,92 -6,60 0,27 0,302 SVM 0.3 -1,76 -8,94 0,26 0,265 SVM 0.4 -0,69 -5,67 0,25 0,258 SVM 0.5 -0,76 -7,65 0,24 0,316 SVM 0.6 -0,69 -6,75 0,25 0,285 SVM 0.7 -0,97 -10,90 0,24 0,279 SVM 0.8 -1,40 -17,59 0,22 0,287 SVM 0.9 -1,14 -12,11 0,17 0,282

(41)

Yacht

Methode Fractie testset Gemiddelde Minimum Maximum SPSS Lineaire regressie 0.1 0,58 -0,23 0,74 0,748 Lineaire regressie 0.2 0,64 0,58 0,69 0,698 Lineaire regressie 0.3 0,64 0,59 0,70 0,675 Lineaire regressie 0.4 0,64 0,59 0,68 0,64 Lineaire regressie 0.5 0,63 0,59 0,66 0,665 Lineaire regressie 0.6 0,62 0,57 0,66 0,679 Lineaire regressie 0.7 0,61 0,58 0,65 0,657 Lineaire regressie 0.8 0,60 0,52 0,65 0,671 Lineaire regressie 0.9 0,50 0,36 0,63 0,665 Neuraal netwerk 0.1 0,68 0,51 0,74 0,748 Neuraal netwerk 0.2 0,67 0,42 0,78 0,698 Neuraal netwerk 0.3 0,60 0,37 0,72 0,675 Neuraal netwerk 0.4 0,57 0,43 0,69 0,64 Neuraal netwerk 0.5 0,50 0,14 0,68 0,665 Neuraal netwerk 0.6 0,41 0,26 0,56 0,679 Neuraal netwerk 0.7 0,30 0,09 0,46 0,657 Neuraal netwerk 0.8 0,18 -0,16 0,41 0,671 Neuraal netwerk 0.9 0,02 -0,41 0,32 0,665 SVM 0.1 -0,02 -0,24 0,30 0,748 SVM 0.2 -0,05 -0,16 0,08 0,698 SVM 0.3 -0,07 -0,18 0,03 0,675 SVM 0.4 -0,09 -0,20 -0,01 0,64 SVM 0.5 -0,12 -0,19 -0,01 0,665 SVM 0.6 -0,14 -0,27 -0,04 0,679 SVM 0.7 -0,16 -0,23 -0,08 0,657 SVM 0.8 -0,18 -0,26 -0,10 0,671 SVM 0.9 -0,20 -0,33 -0,01 0,665