Clusteranalyse - Theoretisch kader - H.B. Koop Marktoriëntatie

2 Theoretisch kader

4.1 Segmentatie

4.1.1 Clusteranalyse

Om te komen tot een aantal segmenten in de markt voor babyartikelen wordt gebruik gemaakt van een clusteranalyse. Het primaire gebruik van cluster analyses in de marketing heeft als doel segmenten te kunnen onderscheiden(Punj and Stewart, 1983).

Voor het uitvoeren van een goede clusteranalyse heeft Malhotra (2004) een stappenplan ontwikkeld. Dit stappenplan wordt weergegeven in figuur 4.1. Vervolgens worden de stappen uit dit plan verder behandeld in de volgende paragrafen.

Figuur 4.2: stappenplan clusteranalyse, Malhotra 2004

1) Formuleren van het probleem

Het belangrijkste gedeelte van het formuleren van het clusteringprobleem is de variabelen selecteren waarop het clusteren is gebaseerd. Wanneer niet relevante variabelen worden geselecteerd verstoort dit de clusteruitkomsten waardoor deze niet bruikbaar zijn (Malhotra, 2004). In dit onderzoek wordt gekeken naar het aankoopgedrag van aanstaande ouders en ouders met een pasgeboren kind (0-2). Hiervoor is een enquête afgenomen in Amsterdam, tijdens de negenmaanden beurs en bij een verloskundige praktijk in het UMCG in Groningen (zie paragraaf 1.6 voor meer info). In de enquête (bijlage XIII) die af is genomen onder deze doelgroep is gevraagd naar de volgende gedragsvariabelen:

6)Bepalen van de validiteit van clusters 1)

Formuleren van het probleem

Selecteren van afstandsmaat

Selecteren van clusteringmethode

Het aantal clusters kiezen

Welke factoren zijn belangrijk bij de aankoop van babyartikelen? (vraag 4) Heeft u informatie ingewonnen voordat u babyartikelen ging kopen? (vraag 5) Heeft u wel eens een product van Product X gekocht? (vraag 10)

Heeft u wel eens via internet babyartikelen gekocht ? (vraag 11) Waar doet u uw aankopen? (vraag 16)

Bent u bereid meer te betalen bij een speciaalzaak? (vraag 18) De artikelen die u koopt zijn doorgaans als volgt geprijsd (vraag 19)

De gekozen gedragsvariabelen behoren een inzicht te geven welke factoren consumenten belangrijk vinden voor en tijdens het aankopen van babyartikelen. Aan de hand van deze gedragsvariabelen is het de bedoeling om segmenten te kunnen onderscheiden.

2) Selecteren van afstandsmaat

Doordat het doel van een clusteranalyse is om objecten die gelijkaardig zijn te groeperen, zal een maatstaf moeten worden vastgesteld om te meten in hoeverre objecten gelijkaardig of verschillend van elkaar zijn. De meest gangbare benadering is om gelijkaardigheden te meten in termen van afstanden tussen de objecten. Objecten met een kleinere onderlinge afstand zijn meer gelijkaardig naar elkaar dan objecten met een grotere onderlinge afstand (Malhotra 2004). Er zijn verschillende manieren om de afstand tussen twee objecten te berekenen. Er worden door Malhotra (2004) drie verschillende manieren om de afstand te bepalen genoemd. De eerste is de euclidean distance. Bij deze methode wordt de afstand bepaald door de wortel van de som van de verschillen tussen objecten in het kwadraat. De tweede methode is de city block distance. Hierbij wordt de afstand tussen twee objecten bepaald aan de hand van de som van het absolute verschil in waarde voor elke variabele. Als laatste noemt Malhotra (2004) de Chebychev distance. Deze methode berekent de afstand tussen twee objecten aan de hand van het maximale absolute verschil in waarde voor elke willekeurige variabele. De meest gebruikte methode is de euclidean distance. Deze methode zal ook in dit onderzoek worden gebruikt.

3) Selecteren van clusteringmethode

Er zijn twee typen clusteringmethoden, te weten; hiërarchisch en non-hiërarchisch methodes (Malhotra 2004). Hiërarchische clustering wordt gekarakteriseerd door de ontwikkeling van een hiërarchie of een boom structuur. Naast de hiërarchische methode bestaan de k-means en de two-step clusteringmethoden. De k-means methode wordt gebruikt wanneer van te voren het aantal clusters bekend zijn. De two-step clustering methode wordt gebruikt wanneer cluster gevormd moeten worden op basis van variabelen met een verschillend schalingsniveau, te weten: categorisch en continue. Voor dit onderzoek zal gebruik gemaakt worden van de two-step methode. In de enquête zijn vragen opgenomen die of categorisch of continue geschaald zijn.

Cluster Distribution 40 38,8% 38,8% 41 39,8% 39,8% 22 21,4% 21,4% 103 100,0% 100,0% 103 100,0% 1 2 3 Combined Cluster Total N % of Combined % of Total

4) Het aantal clusters kiezen

Een belangrijke kwestie binnen de clusteranalyse is dat geen harde regels zijn omtrent het bepalen van het aantal clusters. Wel zijn een aantal richtlijnen gegeven door Malhotra (2004), welke hieronder worden gegeven:

1) Theoretische, conceptuele of praktische overwegingen kunnen het aantal clusters aanwijzen

2) Bij hiërarchische clustering kan de afstand tussen de cluster de doorslag geven voor het aantal clusters

3) Bij non-hiërarchische clustering kan de verhouding tussen within-group variantie en between-group variantie leidend zijn voor het aantal clusters

4) De relatieve omvang van de clusters zou bepalend moeten zijn

Bij het gebruik van een two-step cluster methode wordt het aantal clusters automatisch vast gesteld. In dit onderzoek is sprake van drie clusters, zie figuur 4.3. Deze clusters zijn tot stand gekomen door de gedragsvariabelen die zijn gekozen bij stap één.

Figuur 4.3: aantal clusters

5) Interpreteren en profileren van clusters

Om meer te kunnen zeggen over de clusters wordt gebruikt gemaakt van de discriminant analyse. De discriminantanalyse wordt na stap zes van het stappenplan voor een clusteranalyse uitgewerkt. De uiteindelijke profielschets zal aansluitend op de analyses plaats vinden.

6) Bepalen van de validiteit van clusters

Gegeven de verschillende beoordelingen gehouden in clusteranalyses zou geen enkele clusteruitkomst zonder enige beoordeling van de betrouwbaarheid en validiteit geaccepteerd mogen worden (Malhotra 2004). Diezelfde Malhotra geeft enkele mogelijkheden hiertoe waarvan in dit onderzoek gebruik gemaakt is, namelijk:

Gebruik van verschillende clustermethodes

Bij het verwijderen van een tweetal variabelen (bent u bereid meer te betalen bij een speciaalzaak en heeft u wel eens een product gekocht van het merk Product X), geeft de clusteranalyse nog steeds drie clusters weer. De verdeling van het aantal respondenten per cluster is weliswaar veranderd, het aantal clusters blijft echter drie. Wanneer één van de andere variabelen wordt verwijderd vervalt een cluster en zijn er dus nog maar twee over. Dit betekent dat deze variabelen een hoge mate van invloed hebben op de bepaling van het aantal clusters. Doordat sprake is van zowel categorische als continue variabelen is het niet mogelijk om een andere cluster methode toe te passen, omdat anders geen goede vergelijking kan worden getrokken tussen twee verschillende methodes. Bij een two-step methode wordt het aantal clusters automatisch vast gesteld. Dit betekent dat de keuze voor drie clusters op basis van de gebruikte methode gerechtvaardigd is.

4.1.2 1e Discriminantanalyse

Om de clusters te kunnen interpreteren en profileren dient een discriminantanalyse uitgevoerd te worden. De discriminantanalyse zal in deze subparagraaf worden toegelicht. Op basis van een discriminantanalyse is het mogelijk om per cluster een profielschets op te maken. De discriminantanalyse wordt uitgevoerd aan de hand van het stappenplan dat Malhotra (2004) heeft opgesteld.

Figuur 4.4: stappenplan discriminantanalyse, Malhotra, 2004

5) Vaststellen van validiteit van discriminantanalyse 1)

Formuleren van het probleem

Schatten van discriminant functie coëfficiënten

Bepaling van significantie discriminant functie

1) Formuleren van het probleem

De eerste stap bij een discriminant analyse bestaat uit het vaststellen van het doel van de analyse, de criteriumvariabelen en de onafhankelijke variabelen (Malhotra, 2004). De analyse wordt uitgevoerd om een profiel te kunnen schetsen van de clusters. Dit gebeurt op basis van de onafhankelijke variabelen die exact gelijk zijn als de variabelen die gebruikt zijn bij de clusteranalyse.

2) Schatten van discriminant functie coëfficiënten

Er zijn twee manieren om de discriminant functie coëfficiënt te schatten, namelijk; de directe methode en de stepwise discriminant methode. Bij de direct methode worden alle variabelen tegelijk meegenomen, zonder dat bekend is welke invloed deze heeft op de discriminantie . Deze methode wordt gebruikt wanneer de onderzoeker de discriminantie gebaseerd wil hebben op alle variabelen. De stepwise methode wordt gekenmerkt door het achtereenvolgend toevoegen van de variabelen. Deze methode wordt gebruikt wanneer de onderzoeker een aantal variabelen selecteert om in de discriminant analyse in te voeren (Malhotra 2004).

Bij de eerste discriminantanalyse dienen exact dezelfde variabelen ingevoerd te worden als bij de clusteranalyse. Dit betekent dat van te voren bekend is welke variabelen ingevoerd worden in de analyse. Er wordt dus gebruik gemaakt van de directe methode. In bijlage XVIII, figuur XVIII.II wordt een overzicht gegevens van de variabelen die ingevoerd zijn in de analyse. Een variabele draagt significant bij aan de discriminant analyse als deze een waarde heeft kleiner dan 0.05 (Sig. < 0.05). In het figuur dragen de variabelen die rood omcirkeld zijn significant bij aan de discriminantanalyse. Om een overzicht te geven staan deze variabelen hieronder.

Heeft u voordat u aankopen ging doen informatie ingewonnen?

Heeft u wel eens via internet babyartikelen gekocht?

Waar doet u uw aankopen? internet

Waar doet u uw aankopen? Anders

Uit de uitgevoerde analyse blijkt dat sprake is van twee discriminant functies. In figuur 4.5 wordt dit weergegeven. In deze tabel wordt ook het percentage gegeven van de mate waarin de functie de variantie bepaalt. De eerste functie bepaalt 57,7% van de totale variantie en de tweede functie bepaald 42,3%.

Wilks' Lambda ,038 306,964 28 ,000 ,219 141,791 13 ,000 Test of Function(s) 1 through 2 2 Wilks'

Lambda Chi-square df Sig.

Eigenvalues 4,851a 57,7 57,7 ,911 3,556^a 42,3 100,0 ,883 Function 1 2

Eigenvalue % of Variance Cumulative %

Canonical Correlation

First 2 canonical discriminant functions were used in the analysis.

Figuur 4.5: Weergave discriminant functies met % variantie

3) Bepaling van significantie discriminant functie

Nadat de discriminantanalyse is uitgevoerd is het zaak om deze te analyseren. Als eerste is het belangrijk om de statistische significantie van de discriminant functie (ook wel canonical discriminant functie genoemd) te evalueren (Sherry, 2006). In dit onderzoek komen drie clusters naar voren, het gevolg hiervan is dat sprake is van twee functies. Een functie geeft de ‘lijn’ weer waarmee onderscheid kan worden gemaakt tussen twee groepen. De eerste functie geeft het beste onderscheid tussen de groepen weer. De tweede functie is orthogonal (is onafhankelijk van de andere, daardoor geen gedeelde variantie) naar de eerste functie toe en is de beste voor het onderscheiden van segmenten wanneer associaties van de eerste functie eruit worden gehaald. Zoals in figuur 4.6 is te zien zijn beide functies in dit onderzoek significant.

Figuur 4.6: test statistische significantie van functies

Aan de Wilk’s Lambda score valt te zien in welke mate de variabelen bijdragen aan de discriminant functies (Betz 1987). De Wilk’s Lambda scores variëren tussen 0-1, waarbij 1 betekent dat alle gemiddelden van de segmenten gelijk zijn en 0 betekent dat deze allemaal verschillen van elkaar. Dus, kleinere scores indiceren dat de variabelen beter onderscheid maken tussen de segmenten. In figuur 4.6 is te zien dat de Lambda scores laag zijn, wat betekent dat sprake is van een hoge mate van onderscheid tussen de segmenten.

Statistische significantie alleen indiceert echter niet de praktische significantie. In het onderzoek dient ook naar de effectgroottes van deze functies gekeken te worden (Henson, 2006). Een effectgrootte is de schatting van de omvang van de verhouding tussen de variabelen. Voor deze effectgrootte dient wederom naar figuur 4.6 gekeken te worden. De effectgrootte wordt gemeten door 1-Wilk’s Lambda.

De resultaten hiervan zijn als volgt: 1 - 0.038 = 0.962 (96,2% variantie) en 1 - 0.219 = 0.781 (78,1% variantie). Het zijn hoge waardes, die aangeven dat deze twee functies bijdragen aan de segmentatie.

4) Interpreteren van de resultaten

In deze subparagraaf worden de discriminant functies die uit de analyse zijn gekomen uitgelegd.

Correlatie

In bijlage XVIII, figuur XVIII.II is de tabel te zien waarin een overzicht wordt gegeven in hoeverre de individuele variabelen correleren met de twee functies. De correlatie geeft een overzicht van de mate van overeenkomstige variantie. Een variabele moet significant correleren om een uitspraak over te kunnen doen. Bij stap twee van de discriminantanalyse was al vastgesteld welke variabelen significant waren, deze zijn rood omlijnd in het figuur.

Uit de analyse blijkt dat de volgende variabele zeer sterk correleren met de eerste functie:

Heeft u voordat u aankopen ging doen informatie ingewonnen? R = 0.852

Ook de twee onderstaande variabelen correleren met de eerste functie zij het in mindere mate.

Waar doet u uw aankopen? Internet R = 0.137

Waar doet u uw aankopen? Anders R = 0.061

Hieruit blijkt dat de variabele waarin gevraagd wordt naar de informatiewinning zeer bepalend is voor de segmentatie. De eerste functie kan dan ook wel omschreven worden als ‘infowinning’.

Voor de tweede functie zijn de volgende variabelen die een zeer sterke correlatie hebben:

Waar doet u uw aankopen? Internet R = 0.752

Heeft u wel eens via internet babyartikelen gekocht? R = 0.738 In mindere mate correleert onderstaande variabele met de tweede functie:

Waar doet u uw aankopen? Anders R = 0.111

Uit deze gegevens blijkt dat de variabelen die te maken hebben met internet een bepalende rol spelen bij de segmentatie. De tweede functie kan dan ook wel worden omschreven als ‘internet’. Aan de hand van de scores van ieder cluster op de twee zojuist omschreven functies, is het mogelijk om ieder cluster (segment) te karakteriseren. In figuur 4.7 hieronder zijn de verschillende scores per cluster op beide functies te zien.

Classification Results^b,c 35 0 5 40 2 39 0 41 0 0 22 22 87,5 ,0 12,5 100,0 4,9 95,1 ,0 100,0 ,0 ,0 100,0 100,0 35 0 5 40 2 39 0 41 0 0 22 22 87,5 ,0 12,5 100,0 4,9 95,1 ,0 100,0 ,0 ,0 100,0 100,0

TwoStep Cluster Number 1 2 3 1 2 3 1 2 3 1 2 3 Count % Count % Original Cross-validateda 1 2 3

Predicted Group Membership

Total

Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case.

93,2% of original grouped cases correctly classified. b.

93,2% of cross-validated grouped cases correctly classified. c.

Functions at Group Centroids

,508 -2,291

1,674 1,779

-4,044 ,850

TwoStep Cluster Number 1

2 3

1 2

Function

Unstandardized canonical discriminant functions evaluated at group means

Clusterscores

In figuur 4.7 is te zien dat cluster 1 gematigd positief scoort op functie 1 (infowinning) en sterk negatief scoort op functie 2 (internet). Dit betekent dat cluster 1 bijna geen relatie heeft met vrouwen die internet gebruiken bij de aankoop van babyartikelen. Cluster 2 scoort op zowel functie 1 als 2 vrij positief. De vrouwen

in cluster 2 hebben zowel een link met infowinning Figuur 4.7: clusterscores op functies

als met internet. Tot slot is te zien dat cluster 3 zeer sterk negatief scoort op functie 1 en redelijk positief op functie 2. De vrouwen uit cluster 3 zullen dus absoluut geen informatie inwinnen en maakt in kleine mate gebruik van internet bij de aankoop van babyartikelen.

Vaststellen van validiteit van discriminantanalyse

De validiteit van de discriminantanalyse kan met behulp van de optie leave-one-out cross-validation worden vastgesteld. In deze optie wordt de discriminantanalyse net zo vaak uitgevoerd als respondenten in het onderzoek zijn, echter wordt telkens één respondent achterwege gelaten. Deze respondent wordt met behulp van het model ingedeeld in een cluster. Wanneer alle respondenten op deze manier behandeld zijn volgt een overzicht zoals hieronder (Malhotra 2004).

In figuur 4.8 is af te lezen hoe vaak de respondent op een correcte wijze aan een cluster is toegevoegd. Het uiteindelijke percentage geeft de validiteit van de discriminant analyse weer. Uiteindelijk is 93,2% op een correcte wijze in een cluster geplaatst. Achter dit hoge percentage ligt een logische verklaring, bij de discriminantanalyse is namelijk gebruik gemaakt van exact dezelfde variabelen als bij de clusteranalyse.

4.1.3 2

Discriminantanalyse

Na het uitvoeren van de eerste discriminantanalyse, die als functie had om per segment een gedragsprofiel te schetsen, wordt de tweede discriminantanalyse uitgevoerd om elk segment te kunnen identificeren. Waar de eerste analyse met behulp van de directe methode tot stand is gekomen, wordt bij de tweede analyse gebruik gemaakt van de stepwise methode. Bij de tweede analyse wordt gebruik gemaakt van een aantal variabelen die nog niet eerder zijn gebruikt. Het gaat hierbij om identificatie variabelen:

Bent u momenteel zwanger?

Bent u in verwachting van uw eerste kind?

Hoeveel kinderen heeft u?

Wat is uw leeftijd?

Waar is de enquête afgenomen?

De achterliggende reden voor de stepwise methode ligt in het feit dat nog niet bekend is welke van deze identificatie variabelen significant bijdragen aan de discriminantanalyse.

Figuur 4.9: significantieniveau identificatie variabelen

Tests of Equality of Group Means

,989 ,536 2 100 ,587 ,975 1,258 2 100 ,289 ,979 1,093 2 100 ,339 ,852 8,687 2 100 ,000 ,853 8,627 2 100 ,000 Bent u momenteel zwanger? Wat is u leeftijd? Waar is de enquete afgenomen Bent u in verwachting van uw 1e kind Hoeveel kinderen heeft u? Wilks' Lambda F df1 df2 Sig.

Eigenvalues ,199a 71,6 71,6 ,407 ,079a 28,4 100,0 ,271 Function 1 2

Eigenvalue % of Variance Cumulative %

Canonical Correlation

First 2 canonical discriminant functions were used in the analysis. a. Wilks' Lambda ,773 25,219 10 ,005 ,927 7,452 4 ,114 Test of Function(s) 1 through 2 2 Wilks'

Lambda Chi-square df Sig.

In figuur 4.9 is te zien dat twee van de gekozen variabelen significant zijn, namelijk:

Bent u in verwachting van uw eerste kind?

Hoeveel kinderen heeft u?

Op basis van het tot stand gekomen significantieniveau valt af te leiden dat bovenstaande variabelen discrimineren tussen de segmenten.

Na uitvoering van de tweede discriminantanalyse zijn wederom twee discriminant functies. In figuur 4.10 valt het percentage te zien in welke mate de functie de variantie bepaalt. De eerste functie bepaalt 71,6% van de totale variantie en de tweede functie 28,4%.

Figuur 4.10: weergave discriminant functies met % variantie

Net als bij de eerste discriminant analyse is het bij de tweede analyse ook noodzakelijk om de statistische significantie van de discriminant functie te bepalen. Dit wordt wederom gedaan met een Wilk’s Lambda test. De resultaten van deze test zijn af te lezen in figuur 4.11 hieronder. De eerste functie is significant met een score van 0.005. De tweede functie is echter niet significant, de score hierop is 0.114. Dit betekent dat bij de tweede functie niet kan worden gezegd dat de gemiddelden van de cluster niet overeen komen. Bij het onderzoek moet gekeken worden naar het significantieniveau van beide discriminant functies. Dit is belangrijk, wanneer één functie niet significant is mag over die functie verder niks gezegd worden (Sherry, 2006).

Figuur 4.11: test statistische significantie van functies

In figuur 4.12 is te zien in welke mate de individuele variabelen correleren met de eerste functie. De correlatie geeft een overzicht van de mate van overeenkomstige variantie. Een variabele moet significant correleren om een uitspraak over te kunnen doen. In figuur 4.9 is

Structure Matrix ,935* -,001 ,916* -,270 ,229* ,059 ,218 ,447* ,237 ,368* Bent u in verwachting van uw 1e kind Hoeveel kinderen heeft u? Bent u momenteel zwanger? Wat is u leeftijd? Waar is de enquete afgenomen 1 2 Function

Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

Largest absolute correlation between each variable and any discriminant function

Functions at Group Centroids

,503 -,143

-,150 ,327

-,634 -,350

TwoStep Cluster Number 1

2 3

1 2

Function

Unstandardized canonical discriminant functions evaluated at group means

al aangetoond welke variabelen significant correleren, deze zijn in figuur 4.12 rood omlijnd. Functie 1 scoort op beide significantievariabelen, bent u in verwachting van uw 1^e kind (R = 0.935) en hoeveel kinderen heeft u? (R = 0.916), sterk.

Functie 1 kan ook wel omschreven worden als ‘aantal kinderen’. Uit de Wilk’s Lambda test is eerder al gebleken dat de tweede functie niet significant was, daarom wordt naar de correlatie van deze functie gekeken.

Figuur 4.12: correlatie van variabelen op functies

In figuur 4.13 hiernaast zijn de scores per cluster op de twee functies te zien. Met deze scores is het mogelijk om de verschillende clusters te karakteriseren. Aangezien uit de Wilk’s Lambda test is gebleken dat de tweede functie niet significant scoort wordt hierover geen uitspraak

gedaan. Te zien is dat cluster 1 redelijk positief Figuur 4.13: clusterscores op functies

scoort op functie 1 (aantal kinderen). Dit betekent dat cluster 1 het aantal kinderen een belangrijk rol speelt bij de samenstelling van cluster 1. Cluster 2 scoort licht negatief op functie 1, hierover kan dus geen sterke uitspraak worden gedaan. En tot slot scoort cluster 3 redelijk negatief op functie 1. Het aantal kinderen speelt voor cluster 3 dus geen belangrijke rol.

Classification Results^b,c 29 6 5 40 18 21 2 41 6 9 7 22 72,5 15,0 12,5 100,0 43,9 51,2 4,9 100,0 27,3 40,9 31,8 100,0 29 6 5 40 19 18 4 41 8 10 4 22 72,5 15,0 12,5 100,0 46,3 43,9 9,8 100,0 36,4 45,5 18,2 100,0

TwoStep Cluster Number 1 2 3 1 2 3 1 2 3 1 2 3 Count % Count % Original Cross-validateda 1 2 3

Predicted Group Membership

Total

Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case.

55,3% of original grouped cases correctly classified.

In document H.B. Koop Marktoriëntatie (pagina 54-65)