• No results found

Lineaire regressie

Hoofdstuk 5 Resultaten

5.1 Lineaire regressie

In dit onderzoek staat het verklaren van de verkopen van een merk binnen een winkelformule centraal. Er wordt gezocht naar een relatie tussen merken, winkelformules en de effectiviteit van promoties, in de vorm van verkopen van een merk. Om een verklaring te kunnen geven voor verschillen in effectiviteit moet gebruik gemaakt worden van een analyse die de relatie tussen verklarende variabelen en de te verklaren variabele inzichtelijk maakt. Lineaire regressie geeft aan in hoeverre er een lineair verband is tussen de variabelen. In dit geval zal geanalyseerd worden of de verkopen van een merk significant beïnvloed worden door één of meerdere verklarende variabelen. Zowel de aard van het verband als de verklaringskracht van de onafhankelijke variabele worden op deze wijze inzichtelijk gemaakt.

5.1.1 Interne validiteit

Om de interne validiteit van het onderzoek te toetsen, zullen allereerst de aannames die aan een lineaire regressie analyse ten grondslag liggen getoetst moeten worden. Een tweede punt dat van belang is voor de interne validiteit is de significantie van de

schatters, β0, β1 …βk . De schatters moeten significant afwijken van 0. De schatters

moeten zowel individueel als gezamenlijk significant zijn.

De voorspelkracht van het model moet goed zijn. Dat wil zeggen dat de uitkomsten van het onderzoek niet alleen voor moment van onderzoek gelden, maar ook voor over bijvoorbeeld twee jaar. Om de interne validiteit van het onderzoek te waarborgen moeten de uitkomsten van het onderzoek in overeenstemming zijn met soortgelijke onderzoeken. Indien dit mogelijk is moet aangegeven worden waardoor de verschillen zijn ontstaan.

5.1.2 Externe validiteit

Bij externe validiteit om de generaliseerbaarheid van een onderzoek. Hiermee wordt bedoeld dat de uitkomsten van het onderzoek ook voor alle andere datasets gelden. In het kader van dit onderzoek kan gewezen worden op andere productgroepen. Als de externe validiteit gewaarborgd is, zijn de variabelen die de variantie in verkopen binnen winkelformules verklaren ook van toepassing op andere productgroepen.

5.1.3 Residuen analyse

Lineaire regressie veronderstelt (1) normaliteit van de residuen, de storingstermen zijn standaard normaal verdeeld, (2) dat de verklarende variabelen onderling niet dusdanig correleren dat het regressiemodel instabiel is (multicollineariteit), (3) de storingstermen van verschillende waarnemingen onafhankelijk van elkaar zijn (geen autocorrelatie) en (4) De grootte-orde van de geschatte fouten mogen nergens van afhangen. Indien dit het geval is wordt er gesproken van homoscedasticiteit, indien niet dan spreken we van heteroscedasticiteit.

Hieronder toets ik deze basisveronderstellingen aan mijn model en geef als voorbeeld het model van Fa bij Albert Heijn. Overige modellen worden meegenomen in de analyse, mochten ze niet aan een basisveronderstelling voldoen dan wordt dit expliciet vermeld.

(1) De veronderstelling dat de storingstermen normaal verdeeld moeten zijn met een verwachtingswaarde van nul kan worden nagegaan door een PP-plot van de residuen op te stellen. In de plot worden de residuen uitgezet tegen de theoretische kwantielen van de normale verdeling. Indien de residuen bij benadering normaal verdeeld zijn, geeft de PP-plot een rechte lijn weer. Indien de residuen niet normaal zijn verdeeld, zijn de schattingen voor de regressiecoëfficiënten niet optimaal en zijn de testen en betrouwbaarheidsintervallen ongeldig. Uit figuur 5.1 is af te lezen dat voor mijn model de storingstermen normaal verdeeld zijn. Bij de overige modellen is hiervan ook sprake, waardoor aan deze basisveronderstelling is voldaan.

0,0 0,2 0,4 0,6 0,8 1,0

Observed Cum Prob

0,0 0,2 0,4 0,6 0,8 1,0 E x p ect e d C u m P ro b

Dependent Variable: lnFaverk

Normal P-P Plot of Regression Standardized Residual

-4 -2 0 2 4

Regression Standardized Residual

0 10 20 30 40 Fr e qu e n c y Mean = -7,03E-13 Std. Dev. = 0,905 N = 123

Dependent Variable: lnFaverk Histogram

Figuur 5.1 en 5.2: PP-plot en histogram – De plot suggereert dat de foutenterm normaal is verdeeld, het histogram stelt eveneens dat de verdeling van de foutenterm nauwelijks afwijkt van de normale verdeling.

(2) Bij meervoudige regressie kan multicollineariteit optreden wanneer de onafhankelijke variabelen onderling sterk correleren: het effect op de afhankelijke variabele wordt dan arbitrair. Immers, beide onafhankelijke variabelen 'verklaren' vrijwel dezelfde variatie in de afhankelijke variabele.

Om in SPSS na te gaan of er sprake is van multicollineariteit wordt elk van de verklarende variabelen geregresseerd op alle andere verklarende variabelen in het regressiemodel. Wanneer deze hulpregressies zeer hoge correlatiecoëfficiënten opleveren, is er sprake van een hoge mate van multicollineariteit. In SPSS is de ‘Variance

Inflation Factor’ (VIF = 1/(1- R2)) te bepalen. Als de VIF-waarde groter is dan 10, is er

sprake van een mate van multicollineariteit die de stabiliteit van het model in gevaar kan brengen. In mijn modellen komt dit alleen aan de orde bij winkelformule Super de Boer. Er is een hoge correlatie tussen de variabelen ‘Rexona no support’ en ‘Nivea no support’ wat betekent dat binnen de supermarktformule Super de Boer regelmatig tegelijkertijd promoties zonder ondersteuning van Rexona en Nivea plaatsvinden.

Er is geen absolute regel wanneer multicollineariteit 'ernstig' wordt. Er zijn diverse manieren om geconstateerde multicollineariteit te behandelen (Leeflang e.a., 2000). (a) Nieuwe gegevens verzamelen (waarbij gezorgd wordt voor vermindering samenhang tussen de variabelen) Dit is de ‘beste’ oplossing; maar vaak echter niet goed uitvoerbaar. (b) Multicollineaire variabelen samenvoegen. Dit is een ‘goede’ oplossing; echter alleen in het geval van variabelen die inhoudelijk overeenstemmen.

(c) Multicollineaire variabelen uit het model weglaten. Dit is de ‘slechtste’ oplossing en dus af te raden. Het weglaten van de multicollineaire variabelen werkt namelijk onzichtbare collineariteit in de hand.

Aangezien (a) en (b) in mijn situatie niet mogelijk zijn, en de modellen met elkaar vergeleken worden, laat ik de resultaten staan.

(3) Van belang bij de regressieanalyse is de mate waarin opeenvolgende waarnemingen onderling correleren. Dit is de zogenaamde autocorrelatie of seriële correlatie. Autocorrelatie in de afhankelijke variabele heeft de neiging de schattingen van de parameters te beïnvloeden, zodat we niet meer weten of onze parameters goed zijn. Ten einde na te gaan of er autocorrelatie voorkomt wordt de Durbin-Watson-statistiek (DW) berekend. De Durbin-Watson statistiek varieert van 0 tot 4; er geldt echter geen absoluut criterium voor de ernst van autocorrelatie. Hoe dichter het getal bij 2 ligt hoe beter. In de modellen ligt de DW-waarde voornamelijk tussen de 1,3 en 2,1 en is derhalve goed te noemen. De DW-waarde moet echter nog beoordeeld worden. Hiervoor neem ik de DW-waarde van AH, Fa 1,279. De DW-waarde wordt getoetst aan gegevens uit de Durbin-Watson tabel op 0,05 significantieniveau met n = 100, k = 20. De kritieke waarde voor het verwerpen van de nulhypothese (dL) is 1.229. Dit betekent dat Durbin-Watson waarde in dit model niet kan worden verworpen (er is geen significante aanwijzing van autocorrelatie). Daarentegen overschrijdt de DW-waarde in dit model niet de dU waarde (2.164). Dit betekent dat de DW-waarde voor dit model binnen de reeks ligt waarbij geen conclusie mogelijk is, waardoor ik geen overtuigd eindoordeel kan geven dat autocorrelatie niet bestaat. Bij twee waarden, bij Fa, C1000 (0,768) en bij Fa, Coop (1,157), is er sprake van positieve autocorrelatie. Aangezien positieve autocorrelatie slechts bij twee van de 44 modellen optreedt en de modellen worden gebruikt om met elkaar te vergelijken zullen deze modellen niet aangepast worden. Wel dienen deze twee modellen met enige voorzichtigheid gebruikt te worden.

(4) De foutenterm behoort een constante variantie te hebben. Wanneer dit het geval is, wordt het model homoscedastisch genoemd. Als niet aan deze aanname is voldaan, is er sprake van heteroscedasticiteit. Indien een model heteroscedastisch is, kan de standaard fout van het model niet zonder aanpassing worden gebruikt. Om dit te controleren wordt er een grafiek gemaakt (zie figuur 5.3). In dit scatterplot worden de residuen tegen de voorspelde waarden uitgezet. Indien de punten ongeveer gelijkmatig langs beide kanten van de horizontale lijn door nul verspreid liggen, is aan de veronderstelling voldaan. Indien een patroon (zoals bijvoorbeeld een parabool of logaritmische curve) te zien is, is een lineaire functie niet de juiste manier om de gegevens te beschrijven. De grafiek in figuur 5.3 toont geen groepen van fouten. Alle punten liggen verspreid, zonder dat er clustervorming optreedt. In de meeste grafieken kunnen zowat alle punten onder een horizontale band worden terug gevonden, op enkele uitbijters na. De fouten volgen al zeker geen verticale lijn dus mag er uitgegaan worden van homoscedasticiteit.

-3,00000 -2,00000 -1,00000 0,00000 1,00000 2,00000 3,00000

Standardized Predicted Value

-4,00000 -2,00000 0,00000 2,00000 4,00000 S ta n d ar d iz ed R e si d u al

Figuur 5.3 : Scatterplot residuen tegen voorspelde waarden – De plot suggereert dat de variantie van de foutenterm constant is.

Daarnaast is aan basisveronderstelling dat: E(εi) = 0 ook voldaan. Dit betekent dat er geen systematische meetfouten gemaakt mogen worden. Er is sprake van non-lineariteit, tevens af te lezen uit figuur 5.4 en 5.5. Uit figuur 5.4 lijkt toch wel sprake te zijn van hetroscedasticiteit. Dit komt doordat de spreiding ten tijde van promoties groter lijkt te zijn dan de spreiding van de rechtergroep (waarbij geen promotie heeft plaatsgevonden). Dit komt doordat consumenten onzekerder zijn ten tijde van een promotie. Generalized least Squares (GLS) methode zou toegepast kunnen worden om dit nauwkeuriger aan te geven. De schattingen in dit onderzoek zijn echter wel zuiver.

-0,25 -0,20 -0,15 -0,10 -0,05 0,00 lnFAsup -4,00000 -2,00000 0,00000 2,00000 4,00000 S ta n d ar d iz ed R e s id u al 0,00 25,00 50,00 75,00 100,00 125,00 tijdweken -4,00000 -2,00000 0,00000 2,00000 4,00000 S ta n d a rd iz ed R e si d u a l

Figuur 5.4 en 5.5: Scatterplots residuen – De eerste plot suggereert de spreiding van de verklarende variabele relatieve prijs Fa met ondersteuning tegen residuen, de tweede plot indiceert dat er geen patroon over tijd is.