• No results found

5.1.2 Bivariate analyse

5.2 Meervoudige lineaire regressieanalyse 1 Inleiding

Met de bivariate analyse is het verband tussen elke onafhankelijke variabele met het energieverbruik afzonderlijk onderzocht. Wanneer sommige variabelen onderling met elkaar samenhangen, kan dit leiden tot een vertekend beeld. Dit is bijvoorbeeld vaak het geval voor opleidingsniveau en inkomen, omdat deze variabelen doorgaans positief samenhangen: hoe hoger het opleidingsniveau, hoe hoger het inkomen. Met behulp van lineaire regressieanalyse is het mogelijk dit effect te neutraliseren. Deze analyse houdt de andere onafhankelijke variabelen constant, zodat alleen het ‘exclusieve deel’ dat door de te voorspellen onafhankelijke variabele te verklaren is, naar voren komt. Alle onafhankelijke variabelen worden derhalve tegelijkertijd geanalyseerd, waarbij het model corrigeert voor ‘overlap’ tussen de verklaringsgraad van de overige voorspellende variabelen. Omdat er meerdere voorspellers zijn, zal er een meervoudige lineaire regressieanalyse worden uitgevoerd.

Het eerste analysemodel bestaat uit de individuele kenmerken. In het tweede model worden de theoretisch gemotiveerde variabelen toegevoegd. En in de derde analyse is de variabele “Besparingsmaatregelen” opgesplitst in de verschillende maatregelen die zijn genomen. Met het oog op de validiteit van de analyse zijn de onafhankelijke variabelen tegelijkertijd in dit model gevoegd. Op die manier is de analyse gemakkelijker te herhalen (Field 2009, p.212-213).

5.2.2 Assumpties

Voordat de lineaire regressieanalyse legitiem kan worden uigevoerd moet er aan een aantal voorwaarden zijn voldaan. In deze subparagraaf worden deze zogenoemde assumpties behandeld.

Allereerst is het belangrijk dat de afhankelijke variabele niet in categorieën is ingedeeld, maar continu is (de variabele kan in principe elke waarde aannemen). In dit geval kan de afhankelijke variabele “Energieverbruik” elke waarde tussen 0 en 100 aannemen. Bovendien mogen de onafhankelijke variabelen niet in nominale categorieën zijn ingedeeld, omdat de afstand tussen elke stijging met 1 op iedere waarde van de onafhankelijke variabele gelijk moet zijn. Om die reden zijn er van de variabelen “Aanwezigheid”, “Opleidingsniveau”, “Milieumaatregelen”, “Ontmoedigingskans”, “Stedelijkheid” en “Buurtbetrokkenheid” dummy-variabelen gemaakt. Bij deze variabelen is er wel sprake van een toename, maar omdat de afstand tussen elke categorie onvergelijkbaar is was het nodig om deze te hercoderen naar zogeheten dummies.

Een tweede assumptie stelt als voorwaarde dat de onafhankelijke variabelen enige spreiding hebben in hun waarden. Zoals in paragraaf 4.3 te zien was, levert dit geen problemen op.

Tevens is het belangrijk dat er geen sprake is van multicollineariteit: er mag geen perfect of zeer sterk lineair verband bestaan tussen twee of meer onafhankelijke variabelen (Field 2009, p.220; Allison 1999, p.138). Multicollineariteit ontstaat dus wanneer twee of meer variabelen onderling sterk samenhangen. Dit leidt tot onbetrouwbare beta-coëfficiënten, zorgt voor een beperkte verklaringskracht en maakt het moeilijk om de invloed van individuele onafhankelijke variabelen te achterhalen. De assumptie ‘geen multicollineariteit’ kan nagegaan worden aan de hand van de variance inflation factor (VIF). Als de hoogste VIF groter is dan 10, dan wijst dit op een mogelijk probleem. Als de gemiddelde VIF aanzienlijk groter is dan 1, dan kan de regressie- analyse biased zijn (Field 2009, p.241). In model 3, waarin alle variabelen zijn meegenomen, is de hoogste VIF 4.2 (‘altijd aanwezig’) en de gemiddelde VIF 1.7. Omdat deze laatste waarde dichter bij 2 dan bij 1 ligt, is er een extra assumptiecheck gedaan: de tolerance statistic (Field 2009, p.241). Een tolerantiewaarde lager dan 0,1 wijst op een ernstig probleem, waar een waarde onder 0,2 een potentieel probleem kan betekenen. SPSS wijst uit dat de laagste waarde 0,24 is (‘altijd aanwezig’): er blijkt geen reden voor zorg op dit punt.

Een vierde assumptie die gedaan moet worden is dat de onafhankelijke variabelen niet samenhangen met ‘externe variabelen’ die niet in het model zijn opgenomen. Ik heb geprobeerd een zo compleet mogelijke lijst van controlevariabelen op te nemen in de regressieanalyse (zeven variabelen). Naar mijn idee zijn er geen variabelen buiten het model gehouden die overduidelijk samenhangen met deze zes uitverkoren variabelen.

De volgende assumptie verlangt homoscedasticiteit. Het regressiemodel voorspelt voor iedere waarde van de onafhankelijke variabele de waarde van de afhankelijke variabele. Het verschil tussen de werkelijke waarde van een huishouden en de waarde die het model voorspelt voor dat huishouden heet de error, of het residu. Homoscedasticiteit betekent dat de variatie in de residuen niet mag afhangen van de waarde van de onafhankelijke variabelen. Er is bijvoorbeeld sprake van heteroscedasticiteit als het model voor lage waarden van een onafhankelijke variabele een goede voorspeller is van het energieverbruik, maar de hoge waarden van de onafhankelijke variabele het energieverbruik minder nauwkeurig kan voorspellen. Door de grootte van de verschillende residuen in een grafiek af te zetten tegen de verschillende voorspelde waarden kan gekeken worden of er sprake is van heteroscedasticiteit. In dat geval liggen de residuen voor bepaalde voorspelde waarden dicht bij elkaar en voor andere voorspelde waarden juist heel ver uit elkaar. Er is dan sprake van een convergerende of divergerende puntenwolk.

In figuur 3 is te zien dat de punten min of meer willekeurig zijn verspreid: er is geen patroon of richting in te ontdekken. Er mag daarom worden geconcludeerd dat er gewoon sprake is van homoscedasticiteit.

Aan de hand van figuur 3 kan nog Figuur 3. Puntenwolk van residuen tegen voorspelde waarden een andere assumptie worden

getest: er moet sprake zijn van een lineair verband tussen de onafhankelijke variabelen en de afhankelijke variabele om een lineaire regressieanalyse te doen. In het geval van een niet-lineair verband zijn de residuen bijna

random verspreid; voor bepaalde

voorspelde waarden van de afhankelijke variabele heeft deze gemiddeld een lagere of juist

hogere score dan voor andere waarden. De puntenwolk is, zoals gezegd, min of meer willekeurig verspreid. De punten vormen geen golf- of boogbeweging, met als gevolg dat we mogen concluderen dat er een lineair verband bestaat tussen de onafhankelijke variabelen en het energieverbruik.

Zoals gezegd is het daadwerkelijke energieverbruik van een huishouden anders dan het model voor dat huishouden voorspelt. Maar de mate waarin een huishouden afwijkt van de voorspelde waarde, het residu, mag niet samenhangen met de afwijking van een ander huishouden in de steekproef. Dit kan het geval zijn als bijvoorbeeld twee mensen binnen hetzelfde huishouden zijn opgenomen in de steekproef of als de data voor één persoon tweemaal is verzameld (maar op verschillende momenten in de tijd). Voor zover bekend is dat niet gebeurd in deze steekproef: er kan aangenomen worden dat hier sprake is van onafhankelijke residuen.

De laatste assumptie betreft normaal verdeelde residuen. De onafhankelijke variabelen hoeven niet normaal verdeeld te zijn, maar het residu, het verschil tussen het model en de werkelijke waarde, moet wel normaal verdeeld zijn. Dat is het geval wanneer het residu vaak dichtbij nul ligt en slechts enkele keren aanzienlijk minder of meer is. Allisson (1999, p. 130) suggereert dat dit in steekproeven van meer dan 200 eenheden zelden een probleem is, maar voor de zekerheid kan er een histogram van het residu en een normal probability

plot worden gemaakt. In figuur 4 is te zien dat het residu vrijwel normaal verdeeld is. Dit blijkt ook uit het normal probability plot (zie fig. 5), aangezien er bijna een rechte lijn te zien is (Field 2009, p.248-249). Er kan

worden geconcludeerd dat aan alle assumpties die nodig zijn voor generalisatie van de uitkomsten van lineaire regressieanalyse is voldaan.

Figuur 4. Histogram gestandaardiseerde residuen Figuur 5. Normal probability plot

5.2.3 Verwijderde data

Voordat de analyse is uitgevoerd zijn te extreme waarden uit het databestand gefilterd. Zij kunnen immers een vertekend beeld geven. Dit is gedaan door Cook’s distance en de ‘average leverage’ te berekenen. Cook’s

distance is een maat van de invloed van één onderzoekseenheid (respondent) op het model. Volgens Field

(2009, p.217) heeft Cook gesteld dat waarden die groter zijn dan 1 een potentieel probleem kunnen vormen. Met behulp van SPSS is voor elke onderzoekseenheid Cook’s distance berekend. Aangezien geen enkele waarde hoger dan 0,010 is gebleken, is op basis van deze maat geen data verwijderd.

De average leverage wordt berekend door het aantal onafhankelijke parameters met één te vermeerderen, dit aantal te delen door het aantal respondenten en het resultaat maal drie te doen (Field 2009, p.247), hetgeen neerkomt op ((15+1)/4722= 0,0034). Field geeft aan dat eenheden met waarden die drie keer zo hoog zijn als de average leverage te invloedrijk zijn in hun afwijkende waarden. In dit geval is driemaal deze waarde gelijk aan 0,010. Alle resultaten die hoger waren dan dit getal zijn uit de selectie gehaald (N=46)9. Bij nadere beschouwing van de data bleek dat dit ondermeer ging om een respondent die in een huis woont van 840 m², terwijl het grootste woonoppervlak na verwijdering slechts 600 m² is. Uit dit voorbeeld komt duidelijk naar voren dat deze enorme afwijking een uitschieter is die het model onevenredig zou hebben beïnvloed.

In tabel 14 is te zien dat N kleiner is in model 2 en 3 dan in model 1. Omdat er door de toevoeging van meer variabelen een steeds grotere kans ontstaat dat niet alle respondenten op elke variabele een geldige waarde hebben ingevuld, is dit niet vreemd. Bovendien is een verlies van 12 eenheden (door de variabele “Ontmoedigingskans” aan de analyse toe te voegen) op een steekproef van 4744 eenheden te verwaarlozen.

9

5.2.4 Modellen

Er zullen drie modellen worden geanalyseerd. In tabel 13 is aangegeven welke variabelen in welk model zijn opgenomen. Model 1 bevat uitsluitend de individuele kenmerken; bouwjaar, woonoppervlak, aantal personen, inkomen, aanwezigheid, opleidingsniveau en stedelijkheid. In het tweede model worden de variabelen milieumaatregelen, ontmoedigingskans en buurtbetrokkenheid toegevoegd. En in model 3 wordt het soort milieumaatregel uitgesplitst, opdat de invloed van elke maatregel afzonderlijk in kaart kan worden gebracht.

Tabel 13. Variabelen per model

Model 1

Model 2

Model 5

Bouwjaar Bouwjaar Bouwjaar

Woonoppervlak Woonoppervlak Woonoppervlak

Aantal personen Aantal personen Aantal personen

Inkomen Inkomen Inkomen

Aanwezigheid Aanwezigheid Aanwezigheid

Opleidingsniveau Opleidingsniveau Opleidingsniveau Stedelijkheid Milieumaatregelen Stedelijkheid

Ontmoedigingskans Buurtbetrokkenheid

Maatregel 1: afvalscheiden Maatregel 2: gas/elektra minderen Maatregel3: water minderen

Ontmoedigingskans Buurtbetrokkenheid

In tabel 14 zijn enkele maten opgenomen die iets zeggen over de verklaringskracht van de modellen die voor dit onderzoek zijn gebruikt. De R square is een maat die aangeeft hoeveel van de variatie in de afhankelijke variabelen wordt verklaard door een model (Field 2009). Uit tabel 14 blijkt dat 62-64% van de variatie door de modellen wordt verklaard.

De adjusted R Square geeft aan hoe goed het model naar de populatie (Nederland) kan worden gegeneraliseerd. Aangezien de adjusted R Square zeer dicht bij de R square ligt, kan geconcludeerd worden dat de resultaten zeer goed te generaliseren zijn naar de populatie (Field 2009, p. 221-222). Dit was te verwachten met het oog op de omvang van de steekproef, maar is goed om bevestigd te zien.

Een variantieanalyse (ANOVA) kijkt hoe groot de kans is dat alle coëfficiënten gelijk zijn aan nul. In dat geval zou het model haar betekenisvolheid verliezen en moet er worden gezocht naar andere variabelen die meer verklaring bieden. De betrouwbaarheid van deze modellen is gelukkig hoog gebleken: de kans dat een verband tussen de onafhankelijke variabelen en het energieverbruik op toeval berust is in elke analyse kleiner dan 1%.

Tabel 14

.

Verklaringskracht van de modellen

Model 1

Model 2

Model 3

N

4688

4676

4676

R square

0,62

0,64

0,64