Kan ten behoeve van bedrijven in de retail, op basis van verschillen en overeenkomsten in het koopgedrag van online instappers bij aanbiedingen respectievelijk bij reguliere instappers, een online marketingstrategie w

(1)

Bachelorscriptie Informatiekunde

Kan ten behoeve van bedrijven in de retail, op basis van verschillen en overeenkomsten in het koopgedrag van online instappers bij aanbiedingen respectievelijk bij reguliere

instappers, een online marketingstrategie worden geformuleerd ?

Door: Begeleider:

Channa Wallheimer L. Stolwijk

Studentnummer: 10410910 Tweede examinator:

D. Heinhuis

25 mei 2016

(2)

Steeds meer mensen kopen vandaag de dag producten online in plaats van in de winkel. Het bestelproces brengt met zich mee dat men in staat is om relatief snel de beste online deal te vinden. Dit fenomeen brengt koopjesjagers met zich mee. Het hele internet wordt afgespeurd totdat de beste online deal gevonden is. De vraag is of het met dit gegeven wel de moeite waard is voor bedrijven om geld en tijd te investeren in online marketingstrategieën. In dit onderzoek zijn twee soorten klanten onderzocht en met elkaar vergeleken. De eerste groep klanten zijn klanten waarvan de eerste aankoop met korting is gedaan. De tweede groep klanten zijn klanten waarvan de eerste aankoop zonder korting is gedaan. De vraag die in dit onderzoek wordt onderzocht luidt: “kan ten behoeve van bedrijven in de retail, op basis van verschillen en overeenkomsten in het koopgedrag van online instappers bij aanbiedingen respectievelijk bij reguliere instappers, een online marketingstrategie worden geformuleerd?”. Na het uitvoeren van statistisch onderzoek in combinatie met de RFM analyse en de K-means clustering techniek, kunnen voor verschillende klantengroepen online marketingstrategieën geformuleerd worden. Opvallend daarbij is dat aanbieding instappers significant hoger scoren op de variabele totale aankoopwaarde en totaal aantal geplaatste orders. Dit is een indicatie dat aanbieding instappers waardevoller zijn dan reguliere instappers hetgeen in tegenspraak is met tot op heden bekende inzichten.

(3)

Inhoudsopgave Abstract

1. Inleiding

1.1 Motivatie voor het onderzoek ……… 4

1.2 Onderzoeksvraag ……… 4

2. Theoretisch kader 2.1 Ontwikkelingen in de retail/database marketing ……… 5

2.2 Customer segmentation en CRM ….……….. 7

2.3 Bestaande modellen die een beschrijving/ voorspelling geven van het online aankoopgedrag van klanten ………. 8

2.3.1 Recency Frequency Monetary ………... 10

2.3.2 Customer Lifetime Value ………... 10

2.3.3 K-means ………. 11

2.4 Hypotheses ………... 11

3. Onderzoeksmethoden 3.0 Onderzoeksmethoden ..……… 12

3.1 Beschrijving van de data ………. 15

3.2 R ……….. 16

3.3 Data specificaties ……… 17

4. Resultaten 4.1 Resultaten door middel van statistisch onderzoek ……….. 19

4.2 Resultaten door middel van RFM analyse en K-means clustering techniek……….. 29

5. Conclusie ………. 39

6. Discussie ………. 42 I Referenties

II Bijlagen

1.1 Geschreven code om aanbieding instappers te selecteren 1.2 Geschreven code om reguliere instappers te selecteren

1.3 Geschreven code voor het uitvoeren van de Independent Samples T-test en de K-means clustering techniek.

(4)

1. Inleiding

1.1 Motivatie voor het onderzoek

Tijdens mijn stage heb ik gewerkt bij een online organisatie van een groot retailbedrijf die verantwoordelijk is voor een aantal verschillende winkelformules (hierna verder Béta te noemen). Béta is verantwoordelijk voor alle online en omnichannel-activiteiten van het retail bedrijf. Béta is een grote non-food retailer in Nederland en de uitdaging is om nu ook online een grote speler in de non-food retail te worden. Over deze ambitie schrijft Jain (2002) in zijn artikel ‘Customer lifetime value research in marketing: a review and future directions’ dat in het huidige internet tijdperk de aanwezigheid van een bedrijf op het internet niet langer een luxe of een competitief voordeel is maar van groot belang is om in het huidige tijdperk te overleven.

Het begin van de stage kwam vooral neer op het inventariseren van big data die door Béta verzameld werd. Wat direct opviel was dat er weinig tot niets met deze big data werd gedaan. Een mooie uitdaging voor een afstudeerscriptie !

1.2 Onderzoeksvraag

Kan ten behoeve van bedrijven in de retail, op basis van verschillen en overeenkomsten in het koopgedrag van online instappers bij aanbiedingen respectievelijk bij reguliere instappers, een online marketingstrategie worden geformuleerd.

(5)

2.1 Ontwikkelingen in de retail/database marketing

Door de opkomst van nieuwe technologieën die ingezet kunnen worden op het gebied van marketing, is dit vakgebied vandaag de dag niet meer zo eenvoudig. In de loop der jaren hebben marketeers zich deze nieuwe technologieën eigen gemaakt en konden zij zich bijvoorbeeld gaan richten op specifieke consumenten in plaats van alle consumenten gelijk te behandelen.

In de jaren 60 was er een grote doorbraak in de marketing. De ontwikkeling van de computer en daarmee de integratie van computers in de direct marketing zou een keerpunt worden. Het bracht onder andere met zich mee dat men de beschikking kreeg over grotere computercapaciteit. De nieuwe computertechnieken hebben geleid tot relationele databases en data mining: twee uitvindingen die de drijvende factoren zijn in het ontstaan van database marketing en in het verlengde daarvan, de direct marketing (Verhoef, 1993).

Daarnaast werd het voor marketeers mogelijk om zich specifiek te richten op potentiële en bestaande klanten (Petrison, 1997). De marketing verschoof hierdoor van een transactie focus naar een klantrelatie focus (Schijns, 1995). Een ander voorbeeld van een belangrijke ontwikkeling in de geschiedenis van de marketing is de introductie van klantendatabase. In de loop van de tijd is deze steeds belangrijker geworden voor bedrijven in hun marketingstrategie en in het meer persoonlijk benaderen van klanten (Verhoeven, 2002).

Database marketing werd eind jaren 70 geïntroduceerd. Database marketing heeft als hoofddoel het verbeteren van de klantwaarde. Van Leeuwen (2003) definieert in zijn boek ‘CRM in de praktijk’ klantwaarde als volgt: ‘de netto contante waarde van de verwachte stroom van alle toekomstige netto bijdragen van de klant aan het bedrijfsresultaat van de onderneming’. Bij de klantwaarde wordt er dus vooruit gekeken naar wat de klant in de toekomst voor de organisatie gaat opbrengen. De opbrengsten van de klant in het verleden spelen geen rol meer. Deze worden alleen gebruikt om de toekomstige opbrengst te voorspellen. De verbetering van de klantwaarde wordt onder andere behaald door het uitvoeren van analyses op klantgegevens. Zodoende kan de klantwaarde overzichtelijk in beeld gebracht worden om aldus de klantwaarde te verbeteren (Hughes, 2006).

(6)

Database marketing wordt echter niet alleen gebruikt om de klantwaarde te verbeteren maar heeft nog meer doeleinden. Zo wordt het gebruikt om marketingmanagers te ondersteunen in hun dagelijkse praktijk, bij budget planning, resource toewijzing en bij het nemen van strategische beslissingen. Uiteindelijk is het grote doel om een win-win situatie te creëren voor zowel de marketeers als de consument. Voor de marketeers is het uiteindelijk een win-win situatie omdat de marketingkosten aanzienlijk lager zijn, er een stijging in de verkoop en winst te zien is en omdat er gewerkt wordt aan consumentenloyaliteit. Voor de consument is het een win-win situatie omdat zij geïndividualiseerde aanbiedingen krijgen met daarbijbehorende kortingen (Yu-Hui, 2003).

Hughes (2006) schrijft in zijn boek “Strategic Databases Marketing” dat er twee soorten klanten bestaan namelijk kortingsklanten en loyale klanten. Kortingsklanten zijn enkel en alleen opzoek naar kortingen en kopen bij de goedkoopste aanbieders het gewenste product. Loyale klanten daarentegen kopen het gewenste product bij betrouwbare leveranciers die producten van goede kwaliteit leveren en klantvriendelijk zijn. Dit soort klanten zullen de leverancier trouw blijven ook al is het gewenste product in de uitverkoop bij de concurrentie.

Het is voor bedrijven in de retail niet alleen belangrijk om de juiste nieuwe klanten aan te trekken maar vooral ook om bestaande klanten te behouden. In een studie uitgevoerd door de American Management Association (Chang, 2009) is bewezen dat het vijf keer zoveel geld kost om nieuwe klanten aan te trekken dan bestaande klanten te behouden. Daarom is het van groot belang om bestaande klanten te behouden en er voor te zorgen dat er met hen een lange termijn relatie opgebouwd wordt.

Jain (2002) schrijft in zijn artikel ‘Customer lifetime value research in marketing: a review and future directions’ dat de kosten van het werven van klanten online hoger is dan het werven van klanten offline en er bij online klanten alleen winstgevendheid is als de klant over de jaren heen verschillende aankopen doet. Dit brengt met zich mee dat de waarde van het begrip loyaliteit op het internet hoger is dan in de offline wereld.

Onder goedkope klanten worden klanten verstaan waar in feite niets aan verdiend wordt en die het bedrijf geld kosten. Dergelijke klanten zijn alleen op zoek naar de goedkoopste aanbieding en komen vervolgens niet meer terug voor een vervolgaankoop. Als zij al terugkomen, zal dit vaak weer voor een aankoop met korting zijn.

(7)

Maar heeft een bedrijf echt niets aan goedkope klanten? Hoe waarschijnlijk is het dat deze klanten een vervolgaankoop doen? Wat is het profiel van deze klanten? Zijn zij makkelijk herkenbaar of zijn zij moeilijk te onderscheiden van normale klanten.

2.2 Customer segmentatie en customer relationship management

De afgelopen jaren heeft customer relationship management (CRM) een belangrijke rol gespeeld in de bedrijfsvoering. Verhoef (2004, p.80) geeft in zijn artikel ‘Customer Lifetime Value: een overzicht van de literatuur’ de volgende definitie aan het begrip CRM: “CRM is het proces dat zich richt op het behouden en ontwikkelen van relaties met individuele klanten, hierdoor wordt er waarde gecreëerd voor de klant en het bedrijf”. Vandaag de dag is men instaat om winstgevende en loyale klanten te identificeren door het toepassen van verschillende technieken. Het toepassen van deze technieken vormt de sleutel tot succes voor klant-georiënteerde organisaties (Zalaghi, 2014).

Namvar (2010) noemt in zijn artikel ‘A Two Phase Clustering Method for Intelligent Customer Segmentation’ vijf verschillende voordelen die het gebruik van CRM met zich meebrengen: (1) het gebruik van CRM zorgt ervoor dat de loyaliteit en de klantenbinding stijgen, (2) het leidt tot een hogere winstgevendheid per klant, (3) het leidt tot meerwaarde voor de klant, (4) het leidt tot meer op het individu afgestemde producten en diensten en (5) een hogere kwaliteit van producten en diensten. Khajvand (2011) stelt dat het doel van CRM is om nauwere en diepere relaties met de klant te ontwikkelen. Als CRM succesvol verloopt, zorgt dit voor een maximalisatie van de klantwaarde en de levensduur van de klant.

Het concept van klantensegmentatie is door de Amerikaanse marketing expert Wendell R. Smith midden jaren 50 ontwikkeld (Wu, 2005). Onder klantensegmentatie wordt het proces verstaan waarbij klanten gegroepeerd worden op basis van aankoopgewoontes (Dhandayudam, 2012). Bij het segmenteren van klanten wordt ervan uitgegaan dat klanten die tot eenzelfde groep behoren, bepaalde overeenkomsten hebben en klanten die zich in verschillende groepen begeven juist verschillende kenmerken hebben. Er bestaan verschillende methodes om klantensegmentatie uit te voeren. Eén van de bekendste en meest gebruikte methode is de recency, frequency en monetary analyse. Daarnaast bestaan nog statistische technieken zoals de chisquare automatic interaction detection (CHAID) en

(8)

logistic regression (McCarty, 2007). In hoofdstuk 2.3 wordt dieper op deze segmentatiemethodes ingegaan.

Jonker (2004) schrijft in zijn artikel ‘Joint Optimalization of Customer Segmentation and Marketing Policy to Maximize Long-Term Profitability’ over het maximaliseren van de klantwaarde door middel van het gebruik maken van segmentatie. Hierbij maakt hij gebruik van segmentatietechnieken zoals CHAID en CART. Het doel van deze segmentatietechnieken is om winstgevende klanten te scheiden van niet winstgevende klanten zodat op deze groepen aparte marketingstrategieën toegepast kunnen worden.

2.3 Bestaande modellen die een beschrijving/voorspelling geven van het online aankoopgedrag van klanten

Wat bij het bestuderen van de literatuur opvalt is dat vaak gebruik wordt gemaakt van een combinatie van verschillende analytische methodes om klantdata te analyseren. Voor bedrijven is het van groot belang om de juiste analytische methodes te combineren en er zo voor te zorgen dat deze een optimaal effect op de marketing hebben. Uit de literatuur komen de volgende combinaties naar voren:

Auteur(s) Titel Jaar Journal Methode(s)

Zalaghi, Varzi Measuring customer loyalty using an extendend RFM and clustering technique

2014 Management Science Letters, Vol.4

RFM, K-means

Cheng, Chen Classifying the segmentation of customer value via RFM model and RS theory

2008 Expert Systems with Applications, Vol. 36 K-means, RFM, rough set theory McCary, Hastak

Segmentation approaches in data-mining: A comparison of

2006 Journal of Business Research, Vol. 60

RFM, CHAID,

(9)

RFM,CHAID and logistic regression logistic regression Namvar,

KhakAbi, Gholamian

A two phase clustering method for Intelligent Customer Segmentation

2010 International Conerence on Intelligent Systems, Modeling and Simulation RFM, K-means, LTV Dhandayudam,

Krishnamurthi An improved clustering algorithm for customer segmentation 2012 International Journal of Enigineering Science and Technology

RFM, K-means,single link, comple link

Wu, Lin Research on Customer Segmentation Model by Clustering 2005 Proceedings of the 7th International Conference on Electronic Commerce RFM, K-means

Mak, Ho, Ting A Financial Data Mining Model for Extracting Customer Behaviour

2011 International Journal of Business Management, Vol. 3, No.3 K-means, association rules Coussement, Bossche van den, Bock de

Data accuracy’s impact on segmentation performance:

Benchmarking RFM analysis, logistic regression, and decision trees

2014 Journal of Business Research, Vol 67. RFM, logistic regression, CHAID Jonker, Piersmam, Poel van den

Joint optimalization of customer segmentation and marketing policy to maximize long-term profitability

2004 Expert Systems with Applications, Vol. 27

CHAID, RFM,

Kajvand, Tarokh

Analyzing Customer Segmentation Based on Customer Values

Componets 2011 Journal of Industrial Engineering, Special Issue RFM, CLV, decision trees, decision rules Afbeelding 1: Combinatie van gebruikte analytische methodes bij verschillende onderzoeken.

2.3.1 Recency Frequency Monetary

In het artikel ‘Data accuracy’s impact on segmentation performance: Benchmarking RFM analysis, logic regressions, and decision trees’ beschrijft Coussement (2012) als eerste de Receny, Frequency en Monetery (RFM) analyse om klantgegevens te analyseren.

De RFM analyse werd in 1994 geintroduceerd door Hughes om het gedrag van consumenten te voorspellen. De R staat voor de recentheid van de aankopen gedaan door de consument. Er wordt gekeken hoe groot de interval tussen de datum van de laatst geplaatste order en heden is. Hoe korter de interval hoe hoger de R waarde. De F vertegenwoordigt de frequentie van de aankopen gedaan door de consument. Het gaat hierbij om de hoeveelheid transacties gedaan

(10)

door de consument in een bepaalde periode. Deze periode kan per analyse verschillen. De M staat voor de monetaire waarde: hier wordt gekeken naar het bedrag dat uitgegeven is door de consument over een bepaalde periode. Hoe meer er uitgegeven wordt door de consument, hoe groter de M waarde (Chang, 2009). Bij de RFM analyse worden de klanten in diverse groepen gesegmenteerd waarna er op de specifieke groepen verschillende specifieke marketing technieken toegepast kunnen worden.

2.3.2 Customer Lifetime Value

Verhoef (2004) definieert het begrip Customer lifetime value (CLV) als de contante waarde van alle toekomstige winststromen van de klant. Een CLV analyse kan helpen bij het beantwoorden van twee vragen. Ten eerste kan antwoord worden geven op de vraag of de wervingskosten zijn terugverdient. Daarnaast kan het ook inzicht geven in de kwaliteit van de klant. Dit is van belang omdat bedrijven doorgaans geen goedkope klanten aan zich willen binden.

2.3.3 K-means

Een andere mogelijkheid om klantdata te analyseren, is het gebruik maken van data-mining technieken. Er bestaan verschillende datamining technieken waarvan clusteren er één van is. Het primaire doel bij het gebruiken van clusters is om uit een grote hoeveelheid data verschillende groepen te vormen die vergelijkbare kenmerken bezitten. Een veel gebruikte clusteralgoritme is de K-means techniek. K-means in een partitional clusterings techniek hetgeen wil zeggen de klanten worden verdeeld over niet overlappende clusters. K-means is een populaire techniek vanwege zijn eenvoud en snelle uitvoering (Wu, 2009). Bij de K-means clustering techniek moet het aantal gewenste clusters vooraf bepaald worden.

(11)

Om antwoord te kunnen geven op de onderzoeksvraag worden de volgende hypotheses gesteld:

H1: Er is verschil in de totale aankoopwaarde bij reguliere instappers en aanbieding instappers.

H2: Er is verschil in het percentage kortingsorders tussen reguliere instappers en aanbieding instappers.

H3: Er is verschil in het totaal aantal orders tussen reguliere instappers en aanbieding instappers.

H4: Er is verschil in het aantal kortingsorders tussen reguliere instappers en aanbieding instappers.

H5: Er is verschil in het totaal aantal gekochte producten tussen reguliere instappers en aanbieding instappers.

3.0 Onderzoeksmethoden

Na het bestuderen van de literatuur is het inzicht ontstaan dat de RFM analyse veel gebruikt wordt in combinatie met de K-means clustering techniek. Namvar (2010) gebruikt in zijn onderzoek ‘A Two Phase Clustering Method for Intelligent Customer Segmentation’ het model dat op afbeelding 2 is te zien.

(12)

Afbeelding 2: Namvar (2010)

In het onderhavige onderzoek wordt het door Namvar (2010) gebruikte model deels gehanteerd. Het aangepaste model dat in dit onderzoek gehanteerd wordt is te zien op afbeelding 3.

(13)

Afbeelding 3: aangepaste model van Namvar (2010)

In het onderzoek is onderscheid gemaakt tussen twee groepen klanten. De eerste groep klanten zijn klanten waarbij de eerste aankoop een normale aankoop is. Hieronder wordt een aankoop zonder korting verstaan. Deze groep noemen we in het verdere verloop van het onderzoek ‘reguliere instappers’. De tweede groep klanten zijn klanten waar de eerste aankoop een aanbieding is. Deze groep wordt verder in dit onderzoek aangeduid als ‘aanbieding instappers’.

De twee verschillende groepen (aanbieding instappers en reguliere instappers) worden eerst met elkaar vergeleken met behulp van de Independent Samples T-test. Er wordt onder andere gekeken naar de mogelijke verschillen in de totale aankoopwaarde van de twee groepen, het

(14)

aantal kortingsaankopen, het totaal aantal geplaatste orders en het percentage kortingsaankopen.

Als de resultaten van de Independent Samples T-test bekend zijn, worden de twee groepen samengevoegd tot één grote groep. Bij deze stap wordt het model van Namvar (2010) deels gehanteerd. Eerst wordt er een RFM analyse uitgevoerd op de samengevoegde groep: alle klanten krijgen een score van 1 tot en met 5 voor de factoren recency, frequency en monetary. De scores van de recency en monetary worden aan de hand van een geschreven code verdeeld over vijf gelijken delen. Voor de score van de frequency is een uitzondering gemaakt. Het hanteren van dezelfde techniek bij de frequency score zorgt namelijk voor een scheve schaalverdeling. Het resultaat van het hanteren van de techniek waarbij de recency en monetary worden verdeeld over vijf gelijke delen, is dat 99% van de klanten zich in de eerste schaal bevinden en daarmee een score 1 krijgen. Als oplossing is ervoor gekozen om de RFM analyse en later ook de clustering techniek uit te voeren op klanten die 5 of minder producten hebben gekocht. Bij deze uitvoering wordt 96% van alle klanten geanalyseerd. De resterende 4% van de klanten worden gezien als outliers. Het probleem van de scheve schaalverdeling wordt op deze manier enige mate gecorrigeerd.

Op afbeelding 4 zijn de waardes per variabele te zien en welke score ze toegewezen krijgen als ze in een bepaald interval vallen. Als alle klanten een score toegekend hebben gekregen worden ze geclusterd door middel van de K-means techniek.

Afbeelding 4 :

Recency* Frequency* Monetary*

(15)

Score 2 622 - 703 2 20 - 12

Score 3 552 - 621 3 35 - 21

Score 4 494 - 553 4 80 - 36

Score 5 101 - 495 5 12,216 - 81

*Recency: interval tussen de datum van de laatst geplaatste order en heden. *Frequency: frequentie van de aankopen.

*Monetary: waarde van de aankopen in euro’s

4.1 Beschrijving van de data

Voor het onderzoek is er gebruik gemaakt van de klantdatabase van een Béta. Om de gewenste data uit de database te halen is gebruik gemaakt van Structured Query Language (SQL). International Business Machines Corporation (IBM) ontwikkelde in de jaren 70 de eerste relationele database taal die het mogelijk maakte om informatie op te vragen uit relationele databases. IBM gaf deze taal de naam SEQUEL hetgeen later is veranderd in SQL (Silberschatz, 2011).

Er is in maart 2014 gestart omdat de database van Béta vanaf dat moment alle online aankopen bij hield. Het aankoopgedrag van de klanten is gedurende een jaar gevolgd. Klanten die in maart 2014 zijn ingestapt met een aankoop zijn gevolgd tot en met maart 2015. Zo is er voor gezorgd dat het aankoopgedrag van elke klant in dezelfde tijdsperiode is geanalyseerd.

Er zijn drie sql query’s uitgevoerd (voor een uitgebreide beschrijving zie bijlagen 1.2 en 1.3). De eerste sql query die uitgevoerd is zorgt ervoor dat klanten die met een aanbieding zijn ingestapt uit de database worden gehaald. De tweede sql query zorgt ervoor dat alle klanten uit de database worden gehaald die met een reguliere aankoop zijn ingestapt. De laatste sql

(16)

query die voor zowel de aanbieding klanten als de reguliere klanten gebruikt is, zorgt ervoor dat informatie die niet rechtstreeks beschikbaar was uit de database wordt gehaald. Deze sql query zorgt er onder andere voor dat het totaal aantal orders, totaal uitgegeven waarde, meest recente aankoopdatum berekend wordt

3.2 R

Een probleem dat tijdens het onderzoek ontstond was dat het programma MySQL niet opgewassen was tegen het verwerken van grote en ingewikkelde query’s. Er diende een alternatief programma gezocht te worden. Dit werd het programma R. R is een gratis softwarepakket dat onder andere gebruikt kan worden voor statistische berekeningen en het maken van inzichtelijk grafieken. Daarnaast is het mogelijk om met R relatief makkelijk big data te bewerken en op te schonen. Een ander bijkomend voordeel bij het gebruik van R is dat het afzonderlijk gebruik van het statistische programma SPSS overbodig is. Omdat het ook met R zelf mogelijk is om verschillende analyses op de data uit te voeren.

Het is bij het maken van statistische analyses essentieel dat de big data waarmee wordt gewerkt op de juiste wijze opgeschoond wordt. Het komt vaak voor dat de data die rechtstreeks uit de database wordt gehaald niet direct klaar is om geanalyseerd te worden. Zo kan het bijvoorbeeld voorkomen dat er bepaalde data ontbreekt met als gevolg lege plekken (Jonge, 2013). Na bestuderen van “R in a nutshell: A Desktop Quick Reference” (Adler, 2010) en “R for everyone: Advanced Analytics and Graphics” (Lander, 2014) zijn de basis principes en commands van R toegepast.

3.3 Dataspecificaties

In afbeelding 5 worden de dataspecificaties van beide groepen weergeven. Voor beide groepen wordt het gemiddeld aantal orders, de gemiddelde waarde, het gemiddeld aantal producten, het gemiddeld aantal kortingsorders, de gemiddelde kortingswaarde en het percentage kortingsorders berekend.

(17)

wat reguliere instappers aanbieding instappers aantal observaties 193,097 6,986 x̅ aantal orders 331,276/193,097 = 1,7 16,777/6,986 = 2,4 x̅ waarde 16,142,161/193,097 = €84 1,033,943/6,986 = €148 x̅ aantal producten 505,228/193,097 = 2,6 20,582/6,986 = 2,9 x̅ aantal kortingsorders 26,976/14,929 = 1,8 9,489/6,986 = 1,4 x̅ kortingswaarde 4,261,688/14,929 = €285 833,686/6,986 = €119 % kortingsorders 26,976/331,276 *100 = 8% 9,489/16,777*100 = 57% Afbeelding 5: dataspecificaties van de reguliere instappers en aanbieding instappers

Het gemiddelde aantal orders bij reguliere instappers wordt berekend door het totaal aantal orders (331,276) te delen door het totaal aantal observaties (193,076). Hieruit blijkt dat deze groep gemiddeld 1,7 orders geplaatst hebben. Dezelfde berekening is uitgevoerd voor het gemiddelde aantal orders bij aanbieding instappers. Het totaal aantal orders (16,777) is gedeeld door het totaal aantal observaties (6,986) met als resultaat dat aanbieding instappers gemiddeld 2,4 orders geplaatst hebben.

De gemiddelde waarde van de aankopen van de reguliere instappers, wordt berekend door het totaalbedrag dat uitgegeven is in euro’s, te delen door het totaal aantal observaties. Dit geeft de volgende rekensom: totaalbedrag dat uitgegeven is (€16,142,161), gedeeld door het totaal aantal observaties (193,097), brengt een gemiddelde uitgegeven waarde met zich mee van €84 euro. Bij aanbieding instappers is deze berekening herhaald: het totaalbedrag dat uitgegeven is (€1,033,943), gedeeld door het totaal aantal observaties (6,986). Dit resulteert in een gemiddelde uitgegeven waarde van €148.

Het gemiddeld aantal producten gekocht door reguliere instappers wordt berekend door het totaal aantal producten (505,338) te delen door het totaal aantal observaties (193,097), met als resultaat dat reguliere instappers gemiddeld 2,6 producten hebben gekocht. Bij aanbieding instappers zijn in totaal 20,852 producten gekocht. Dit aantal wordt gedeeld door het totaal aantal observaties (6,986) met als resultaat dat aanbieding instappers gemiddeld 2,9 producten hebben gekocht

(18)

Het gemiddelde aantal kortingsorders bij reguliere instappers is berekend door eerst te kijken hoeveel klanten die betrokken zijn bij de 193,097 observaties, een kortingsorder hebben geplaatst. Dit zijn er 14,929. Daarna is gekeken hoeveel kortingsorders door deze groep zijn geplaatst. Dit zijn er 26,976. Dit resulteert in de volgende rekensom: aantal kortingsorders (26,967) gedeeld door het aantal observaties met een kortingsorder (14,929). Dit brengt met zich mee dat reguliere instappers gemiddeld 1,8 orders met korting hebben geplaatst. Bij aanbieding instappers betreffen alle observaties (6,986) een order met korting waardoor direct gekeken kan worden naar hoeveel kortingsorders deze groep heeft geplaatst. Dit zijn er 9,489. Dit resulteert in de volgende rekensom: aantal kortingsorders (9,489) gedeeld door het totaal aantal observaties (6,986), met als resultaat dat aanbieding instappers gemiddeld 1,4 orders met korting hebben geplaatst.

De gemiddelde kortingswaarde wordt berekend door het totaalbedrag dat uitgegeven is aan kortingsorders (€4,261,688) te delen door het aantal observaties die een kortingsorder betreffen (14,929). Dit resulteert in de volgende rekensom: bedrag dat uitgegeven is aan kortingsorders (€4,261,688) gedeeld door het aantal observaties (14,929), met als resultaat dat reguliere instappers gemiddeld €285 euro uitgeven aan kortingsorders. Dit proces is herhaald bij aanbieding instappers waar het totaalbedrag dat uitgeven is aan kortingsorders (€833,686) gedeeld wordt door het totaal aantal observaties (6,986). Het resultaat is dat aanbieding instappers gemiddeld €119 euro uitgeven aan kortinsorders.

Als laatste wordt het percentage kortingsorders berekend. Bij reguliere instappers is het aantal kortingsorders (26,976) gedeeld door het totaal aantal orders (331,276), met als resultaat dat 8% van de aankopen van reguliere instappers een aankoop met korting betreft. Bij aanbieding instappers is dezelfde berekening gemaakt: het aantal kortingsorders (9,489) gedeeld door het totaal aantal orders (16,777), met als resultaat dat 57% van de aankopen van aanbieding instappers een aankoop met korting betreft.

(19)

4.1 Resultaten door middel van statistisch onderzoek

Om tot een antwoord te komen op de onderzoeksvraag zijn de gestelde hypotheses onderzocht. De eerste hypotheses die onderzocht is luidt: er is verschil in de totale aankoopwaarde tussen reguliere instappers en aanbieding instappers. De bijbehorende nul hypothese luidt: er is geen verschil in de totale aankoopwaarde van reguliere instappers en aanbieding instappers. Om de verschillen tussen deze twee groepen te onderzoeken is er gebruik gemaakt van de Independent Samples T-Test.

Voordat de Independent Samples T-test op de twee verschillende datasets uitgevoerd kan worden, is eerst gebruik gemaakt van de functie sample() in R. Deze functie maakt het mogelijk om van datasets random samples van grootte n te maken. Bij het uitvoeren van de Independent Samples T-test is er voor beide groepen instappers gekozen voor een gelijke groepsgrootte van n=1000. Een sample met een grotere n leidt niet tot andere uitkomsten. Bijkomend voordeel van de keuze is dat dit minder computerkracht vraagt. Het nemen van een sample is bij beide groepen uitgevoerd met als resultaat twee dataframes van n=1000. Het gemiddelde van de totale waarde ligt bij de aanbieding instappers hoger: €163 tegenover een gemiddelde van €85 bij reguliere instappers.

Afbeelding 6: Independent Samples T-test gemiddelde totale aankoop waarden

Het uitvoeren van de Independent Samples T-test met als variabele de totale aankoopwaarde van de reguliere instappers en aanbieding instappers geeft de volgende resultaten weer: α=0.05, p-value=0,0005944. Uit de gevonden resultaten, te zien in afbeelding 6, kan geconcludeerd worden dat er een significant verschil bestaat (p<α=0.05). Dit betekent dat de gestelde hypothese (er is verschil in aankoopwaarde bij aanbieding instappers en bij reguliere instappers) ondersteund kan worden en dat de nul hypothese verworpen kan worden. Er kan

(20)

dus met zekerheid gesteld worden dat er een verschil is in aankoopwaarde tussen instappers bij reguliere instappers en aanbieding instappers.

Om met een grotere mate van zekerheid te kunnen zeggen dat er een verschil is in de aankoopwaarde tussen reguliere instappers en aanbieding instappers, is er gebruikt gemaakt van de power test. Deze power test is beschikbaar in het pakket pwr en is uitgerekend met de functie power.t.test(). Voordat de functie power.t.test() gebruikt kan worden moet de effect size berekend worden. Daarvoor is er gebruikt gemaakt van de Cohen’s d die op de volgende manier berekend wordt:

Afbeelding 7

Ook voor het berekenen van Cohens’d is er een pakket genaamd effsize beschikbaar. Met de functie cohen.d() kan de waarde voor Cohens’d berekend worden.

Afbeelding 8: Berekening van de Cohen’s d

Het resultaat van de functie cohen.d() geeft een waarde van 0,11. Nu Cohen’s d uitgerekend is kan de functie power.t.test() gebruikt worden om de power uit te rekenen.

(21)

Afbeelding 9: Two-sample t-test power calculatie

Het uitvoeren van de Two-sample Independent T-test power calculatie geeft als resultaat een power van 0.69. Dit betekent dat de kans dat de nulhypothese terecht verworpen is ten gunste van de alternatieve hypothese 68% is.

De volgende te onderzoeken hypothese luidt: er is verschil in het percentage kortingsaankopen tussen reguliere instappers en aanbieding instappers. De bijbehorende nul hypothese luidt als volgt: er is geen verschil in het percentage kortingsaankopen tussen reguliere instappers en aanbieding instappers. Om de verschillen tussen deze beide groepen te onderzoeken is er eveneens gebruik gemaakt van de Independent Samples T-test. Het percentage kortingsaankopen van beide instappers is berekend door het aantal kortingsaankopen te delen door het totaal aantal orders. Het gemiddelde van het percentage kortingsaankopen ligt bij reguliere instappers rond de 36%. Dit percentage is aanzienlijk lager dan het gemiddelde van de aanbieding instappers dat rond de 80% ligt.

Afbeelding 10: Independent Samples T-test gemiddelde percentage kortingsorders

De uitkomst van de Independent Samples T-test met de variabele percentage kortingsorders geeft de volgende resultaten: α=0.05, p-value=0.00000000000000022. Uit de gevonden resultaten, te zien in afbeelding 10, kan geconcludeerd worden dat er een significant verschil

(22)

is in het percentage kortingsorders (p<α=0.05). Er is dus voldoende bewijs om de gestelde hypothese (er is verschil in het percentage kortingsaankopen tussen reguliere instappers en aanbieding instappers) te ondersteunen. Dit houdt in dat de nul hypothese verworpen kan worden en dat gesteld kan worden dat aanbieding instappers een hoger percentage kortingsorders hebben in verhouding tot reguliere instappers.

De power test kan niet zonder meer op de variabele percentage kortingsorders uitgevoerd worden omdat de standaarddeviatie niet uitgerekend kan worden. Dit komt omdat er te veel missing values (NA’s) in de data zijn. Er zijn bij de aanbieding instappers 321 missing values van de 1000 observaties. Dit betekent dat de omvang van de steekproef bij de aanbieding instappers in dit geval n=679 is. Bij de reguliere instappers zijn er 921 missing values van de 1000 obersvaties. Dit betekent dat de omvang van de steekproef bij reguliere instappers nu n=79 is. Om er voor te zorgen dat de power test alsnog uitgevoerd kan worden is er voor gekozen om de missing values uit de data te schrappen zodat de standaarddeviatie alsnog berekend kan worden en ook de power test uitgevoerd kan worden.

Afbeelding 11: Berekening van Cohen’s d

Uit de gebruikte functie cohen.d() komt een Cohen’s d waarde van 0.16. Met behulp van deze waarde kan de power uitgerekend worden.

(23)

Bij het berekenen van de power is er voor de functie pwr.t2n.test gekozen. Er zijn namelijk twee samples van verschillende grootte (n=679 en n=79). Uit het resultaat van de power test komt een power = 0.27. Dit betekent dat de kans dat terecht de nul hypothese verworpen is ten gunste van de alternatieve hypothese 27% is.

De derde hypothese die onderzocht wordt luidt: er is verschil in het totaal aantal orders tussen reguliere instappers en aanbieding instappers. De bijbehorende nul hypothese luidt: er is geen verschil in het totaal aantal orders tussen reguliere instappers en aanbieding instappers. Om de verschillen tussen deze beide groepen te onderzoeken is wederom gebruik gemaakt van de Independent Samples T-test. Het gemiddelde aantal orders ligt bij de reguliere instappers rond de 1.6. Dit is iets lager dan het gemiddelde bij de aanbieding instappers dat rond de 2.4 ligt.

Afbeelding 13: Independent Samples T-test van het totaal aantal geplaatste orders.

De uitkomst van de Independent Samples T-test met de variabele totaal aantal orders geeft de volgende resultaten: α=0.05, p-value=0.0000000000000001423. Uit de gevonden resultaten, te zien in afbeelding 13 kan geconcludeerd worden dat er een significant verschil is in het totaal aantal orders (p<α=0.05). Er is dus voldoende bewijs om de gestelde hypothese (er is verschil is het totaal aantal orders tussen reguliere instappers en aanbieding instappers) te ondersteunen. Dit houdt in dat de nul hypothese verworpen kan worden en dat er gesteld kan worden dat aanbieding instappers gemiddeld een hoger aantal orders plaatsen dan reguliere instappers.

Om met een grotere mate van zekerheid te kunnen stellen dat de juiste hypothese aangenomen is, wordt de power test uitgevoerd. Om de power test uit te kunnen voeren moet eerst Cohen’s d berekend worden.

(24)

Na het gebruiken van de functie cohen.d() wordt er een Cohen’s d van 0,16 berekend. Nu Cohen’s d uitgerekend is kan de functie power.t.test() gebruikt worden om de power uit te rekenen.

Na het uitvoeren van de Two-sample Independent Samples T-test power calculatie komt als resultaat een power=0.94 naar voren. Dit betekent dat de kans dat terecht de nul hypothese verworpen is ten gunste van de alternatieve hypothese 94% is.

De vierde hypothese die onderzocht wordt luidt: er is verschil in het aantal kortingsorders tussen reguliere instappers en aanbieding instappers. De bijbehorende nul hypothese luidt dan als volgt: er is geen verschil in het aantal kortingsorders tussen reguliere instappers en aanbieding instappers. Om na te gaan of er sprake is van een significant verschil, is wederom gebruikt gemaakt van de Independent Samples T-test. Het gemiddelde aantal kortingsorders verschilt amper: reguliere instappers hebben een gemiddelde van 1.59 kortingsorders tegenover een gemiddelde van 1.57 bij aanbieding instappers.

(25)

Afbeelding 16: Independent Samples T-test gemiddeld aantal kortingsorders

De uitkomst van de Independent Samples T-test met de variabele het gemiddelde aantal kortingsorders geeft de volgende resultaten: α=0.05, p-value=0,9047. Uit de gevonden resultaten, te zien in afbeelding 16, kan geconcludeerd worden dat er geen significant verschil gevonden is (p> α=0.05). Dit betekent dat de nul hypothese niet verworpen kan worden.

De power test kan niet op de variabele kortingsorders uitgevoerd worden omdat de standaard deviatie ook hier niet uitgerekend kan worden. Dit komt omdat er te veel missing values in de data aanwezig zijn. Hierom worden dezelfde stappen ondernomen die ook bij de variabele percentage kortingsorders gedaan zijn gezet. De missing values worden verwijderd zodat de power test alsnog uitgevoerd kan worden. Tevens gelden dezelfde steekproef groottes als bij de variabele percentage kortingsorders namelijk: n=679 voor aanbieding instappers en n=79 voor reguliere instappers.

Het uitvoeren van Cohen’s d geeft een effectsize van 0.16. Nu Cohen’s d uitgerekend is kan de power calculatie toegepast worden.

(26)

Afbeelding 18: T-test power calculatie

Het uitvoeren van de T-test power calculatie met twee groepen van verschillende grootte geeft als resultaat een power van 0.27. Dit betekent dat de kans dat terecht de nul hypothese verworpen is ten gunste van de alternatieve hypothese 27% is.

De laatste hypothese die onderzocht wordt luidt: er is verschil in het totaal aantal gekochte producten tussen reguliere instappers en aanbieding instappers. De bijbehorende nul hypothese luidt als volgt: er is geen verschil in het totaal aantal gekochte producten tussen normale en reguliere instappers. Om de verschillen tussen deze beide groepen te onderzoeken is wederom gebruik gemaakt van de Independent Samples T-test. Het gemiddelde aantal producten ligt bij de reguliere instappers rond de 2.8. Dit is iets lager dan het gemiddelde van de aanbieding instappers dat rond de 3.2 ligt.

Afbeelding 19: Independent Samples T-test totaal aantal gekochte producten

De uitkomst van de Independent Samples T-test met de variabele totaal aantal gekochte producten bij reguliere instappers en aanbieding instappers geeft de volgende resultaten : α=0.05, p-value=0.3022. Uit de gevonden resultaten, te zien op afbeelding 19, kan geconcludeerd worden dat er geen significant verschil gevonden is (p> α=0.05). Dit betekent

(27)

Om met een grotere mate van zekerheid te kunnen stellen dat de juiste hypothese aangenomen is wordt de Two Sample T-test power calculatie uitgevoerd. Om de power test uit te kunnen voeren moet eerst Cohen’s d berekend worden.

Het uitvoeren van Cohen’s d geeft een effectsize van 0.046. Nu Cohen’s d uitgerekend is kan de power calculatie toegepast worden.

Het uitvoeren van de Two-sample t-test power calculatie geeft een power van 0.18. Dit betekent dat de kans dat terecht de nul hypothese niet verworpen is ten gunste van de alternatieve hypothese 18% is.

(28)

Samengevat zien de bevindingen na het uitvoeren van het statistisch onderzoek er als volgt uit: Hypothese Betrouwbaar- heidsinterval t- waarde / df waarde/ p-value signi-ficant Power test H1: Er is géén verschil in de totale

aankoopwaarde tussen reguliere instappers en aanbieding instappers

-112,45 -33,52 t = -3.44 df = 1998 p-value =0.000594 ja 68% H2: Er is géén verschil in het percentage kortingsaankopen tussen reguliere instappers en aanbieding instappers -50,91 -37.26 t = -12.67 df = 726 p-value = <2.2e-16 ja 27%

H3: Er is géén verschil in het totaal aantal orders tussen reguliere instappers en aanbieding instappers

-1,14 -0,48 t = -4.84 df=1998 p-value = 1.423e-16 ja 94%

H4: Er is géén verschil in het aantal kortingsorders reguliere instappers en aanbieding instappers -0,33 0,37 t = 0,12 df= 726 p-value = 0,9047 nee 27% H5: Er is géén verschil in totaal aantal gekochte producten tussen reguliere instappers en aanbieding instappers -1.34 0.42 t = -1.03 df = 1998 p-value = 0.3022 nee 18%

Afbeelding 22: Overzicht van de bevindingen na het uitvoeren van statistisch onderzoek 4.2 Resultaten na het uitvoeren van de k-means clustering techniek

De RFM analyse is toegepast op de dataframes reguliere instappers en aanbieding instappers. Er is in dit geval geen sample van beide dataframes genomen omdat het aantal observaties niet gelijk verdeeld is. De dataframe van de reguliere instappers telt 193,097 observaties in tegenstelling tot 6,986 observaties bij aanbieding instappers. Beide dataframes zijn samengevoegd wat resulteert in een dataframe van n=200,083 waarbij er geen onderscheid meer wordt gemaakt tussen reguliere instappers en aanbieding instappers. Uit de samengevoegde dataframe zijn drie variabelen geselecteerd: Total_Value, TotaalOrders en de meest recente aankoopdatum. De meest recente aankoopdatum is bepaald met behulp van de functie pmax. Deze functie vergelijkt de twee data’s uit de kolom Last_Activity_MK en

(29)

kolom genaamd datum. Op de geselecteerde variabele (Total_Value = Monetary, TotaalOrders = Frequency en Datum = Recency) is de RFM analyse uitgevoerd waarbij de hoogste score 5 is en de laagste 1. Een klant die bijvoorbeeld een score van 555 heeft behoort tot de groep klanten waar het bedrijf het meest aan verdient. Omdat de klant op alle variabelen het hoogst scoort.

Bij het uitvoeren van de K-means clustering techniek is gebruik gemaakt van het programma R. R heeft een ingebouwde functie kmeans(). Deze functie maakt het mogelijk om de k-means clusterings techniek op een dataframe met gegevens toe te passen. Bij het toepassen van de functie kmeans() is de dataframe van n = 200,083 van de RFM analyse gebruikt. Dit zorgt voor een standaardisatie van de observaties. Een standaardisatie zorgt ervoor dat als de observaties teveel uiteenlopen dit geen invloed heeft op de clustering. De K-means clustering techniek wordt toegepast op de volgende variabelen: Total_Value (totale bedrag dat aan orders uitgegeven is) , TotaalOrders (totaal aantal geplaatste orders) en Days (het aantal dagen sinds de laatste aankoopdatum).

Daarnaast is de kolom groep toegevoegd zodat na het uitvoeren van de K-means clustering techniek gekeken kan worden in welke aantallen de reguliere instappers en aanbieding instappers zich in de clusters bevinden. De reguliere instappers zijn in de kolom groep aangeduid met ‘1’ en de aanbieding instappers zijn in de kolom groep aangeduid met ‘0’.

Een belangrijke stap bij het gebruiken van de k-means clustering techniek is het bepalen van het aantal clusters. Bij functie kmeans() moet het aantal clusters vooraf bepaald worden. In dit onderzoek is er voor gekozen om de K-means clustering techniek met verschillende aantallen clusters uit te voeren namelijk 2,3,4,5 en 6 clusters. De resultaten van het uitvoeren van de K-means clustering techniek worden met elkaar vergeleken waarna het cluster gekozen wordt die de meest onderscheidende groepen hanteert. Aan de hand van de recency score, frequency score en de monetary score worden er voor de verschillende groepen klanten aanbevelingen gedaan voor een marketingstrategie.

Het uitvoeren van de K-means clustering techniek met twee clusters geeft een cluster met de grootte van 104619 klanten en een cluster met een grootte van 88204 klanten.

(30)

Afbeelding 23: verdeling van de twee klantengroepen over twee clusters

Afbeelding 24: gemiddelde waarde per variabele/cluster

Het uitvoeren van de K-means clustering techniek met drie clusters geeft clusters met de grootte van 56150, 71760 en 64913

Verdeling van de twee verschillende groepen over de drie clusters

Afbeelding 25: verdeling van de twee klantengroepen over drie clusters

Het uitvoeren van de K-means clustering techniek met vier clusters geeft clusters met de grootte van 38277, 74520, 58868 en 21158

(31)

Afbeelding 27: verdeling van de twee klantengroepen over vier clusters

Het uitvoeren van de K-means clustering techniek met vijf clusters geeft clusters met de grootte van 73451, 34418, 21158, 53074 en 10722

Verdeling van de twee verschillende groepen over de vijf clusters

Afbeelding 29: verdeling van de twee klantgroepen over vijf clusters

Het uitvoeren van de K-means clustering techniek met zes clusters geeft clusters met de grootte van 13633, 29187, 38439, 21158, 69974 en 20432

Verdeling van de twee verschillende groepen over de zes clusters

(32)

Bij het gebruik maken van vier clusters komen vier verschillende groepen naar voren waarbij de karakteristieken duidelijk van elkaar verschillen. Op afbeelding 25 zijn de gemiddelde waardes van elke variabele per cluster te zien. Aan de hand van afbeelding 24 (de verdeling van de twee groepen over vier clusters) kan er meer gezegd worden over wat voor soort klanten er in welk cluster zitten. Aan de hand hiervan kan nagedacht worden over een specifieke marketingstrategie per cluster.

Cluster 1:

In cluster 1 zitten in totaal 38,277 klanten waarvan er 1,722 aanbieding instappers zijn en 36,555 reguliere instappers. In cluster 1 scoren de klanten op alle variabelen hoog. De variabele recency heeft een gemiddelde score van 4.44. De variabele frequency scoort gemiddeld 1.99 hetgeen hoog is gezien de omstandigheid dat 80% van de klanten niet meer dan 1 aankoop hebben gedaan. De variabele monetary heeft binnen het cluster de hoogste gemiddelde score van 4.02. Het belangrijkste bij deze groep klanten is om ze tevreden te houden zodat ze loyaal aan het bedrijf blijven. Wellicht kan met een specifieke marketingstrategie gezorgd worden dat de frequency score stijgt.

Cluster 2:

In cluster 2 zitten in totaal 74,520 klanten waarvan er 3,682 aanbieding instappers zijn en 70,838 reguliere instappers. De klanten uit cluster 2 hebben een lage score variabele recency namelijk 1.83. Op de variabele monetary scoren de klanten daarentegen vrij hoog met een gemiddelde score van 3.89. Hetzelfde geldt voor de variable frequency waar gemiddeld 1.36 gescoord wordt. Het feit dat de klanten hoog scoren op de variabele monetary maar laag scoren op de variabele frequency, kan een indicatie zijn dat ze over het algemeen orders met

(33)

een hoge waarde plaatsen. Met behulp van specifieke marketingacties kan geprobeerd worden om de recency score omhoog te krijgen.

Cluster 3:

In cluster 3 zitten in totaal 58,868 klanten waarvan er 354 aanbieding instappers zijn en 58,516 reguliere instappers. In cluster 3 scoren de klanten alleen op de variabele recency hoog. Deze noteert namelijk een gemiddelde score van 3.93. Opvallend is dat de klanten op de variabele monetary de laagste score van alle clusters noteren te weten een gemiddelde score van 1.47. De variabele frequentie heeft binnen dit cluster de laagste gemiddelde score van 1.03. Dat de klanten uit cluster 3 hoog scoren op recency, betekent dat ze recent nog een aankoop hebben gedaan. Voor deze groep klanten kan met behulp van specifieke marketing acties geprobeerd worden om de monetary en frequentie score omhoog te krijgen.

Cluster 4:

In cluster 4 zitten in totaal 21,158 klanten waarvan 690 aanbieding instappers en 20,468 reguliere instappers. De klanten uit cluster 4 scoren op alle variabelen laag. De klanten hebben op zowel de variabele monetary als recency een gemiddelde van 1.57. Op de variabele frequency hebben de klanten een gemiddelde van 1.03. Geconcludeerd kan worden dat deze klanten niet veel uitgeven, niet recent een aankoop gedaan hebben en ook niet vaak terugkeren voor een vervolgaankoop. Het is dan maar de vraag of het zin heeft om tijd en geld in een marketingstrategie voor deze groep te investeren.

(34)

Legenda

Afbeelding 33: Cluster tabel van de verdeling van de gemiddelde waarde per variabele

Daarnaast is nog apart een clusteranalyse op de klantengroepen aanbieding instappers (groep 0) en reguliere instappers (groep 1) uitgevoerd. Deze analyse is uitgevoerd om te kunnen beoordelen of deze groepen van elkaar verschillen. Bij het uitvoeren van de clusteranalyse is

(35)

Het uitvoeren van de K-means clustering techniek met vier clusters op de klantengroep aanbieding instappers (groep 0) geeft vier clusters met de grootte van 2423, 2074, 1173 en 775

Verdeling van de aanbieding instappers over vier clusters

Afbeelding 34: verdeling van de aanbieding instappers over vier clusters

Afbeelding 35: gemiddelde waarde per variable/cluster bij aanbieding instappers

Het uitvoeren van de K-means clustering techniek met vier clusters op de klantengroep reguliere instappers (groep 1) geeft vier clusters met de grootte van 76224, 58804, 30881 en 20468

Verdeling van de reguliere instappers over vier clusters

Afbeelding 36: verdeling van de reguliere instappers over vier clusters

(36)

Bij de aanbieding instappers valt op dat drie van de vier cluster op de variable recency een 1 scoren. Dit betekent dat het merendeel van de aanbieding instappers enige tijd geleden voor het laatst een aankoop hebben gedaan. Daarnaast is er een vierde cluster van een groep klanten die heel recent een aankoop gedaan hebben. De scores van de aanbieding instappers op de variable recency komen niet overeen met die van de reguliere instappers. Bij de reguliere instappers zijn er twee clusters die een hoge score noteren en twee clusters die een lage score noteren. Dit in tegenstelling tot de aanbieding instappers waar slechts bij één cluster hoog gescoord wordt. De gemiddelde recency score ligt bij de reguliere instappers iets hoger: 2.85 tegenover een gemiddelde van 2 bij aanbieding instappers. Dit betekent dat reguliere instappers recenter een aankoop gedaan hebben.

De aanbieding instappers scoren bij elk cluster vrij hoog op de variable monetary. Zij hebben een gemiddelde monetary score van 3.71. De reguliere instappers scoren in vergelijking met de aanbieding instappers slechter op de variable monetary en hebben een gemiddelde monetary score van 2.94. Dit betekent dat de aanbieding instappers in tegenstelling tot reguliere instappers meer geld uitgeven bij aankopen. Deze bevinding ondersteunt een eerder in dit onderzoek onderzochte hypothese waaruit blijkt dat aanbieding instappers een hogere totale aankoopwaarde vertegenwoordigen in vergelijking met reguliere instappers.

Op de variable frequency verschillen de twee groepen aanbieding instappers en reguliere instappers niet veel. Dit is terug te zien in de gemiddelde frequency scores. De aanbieding instappers noteren een gemiddelde score van 1.69 en de reguliere instappers noteren een gemiddelde score van 1.43. Ook deze bevinding komt overeen met een eerder onderzochte hypothese waaruit blijkt dat aanbieding instappers gemiddeld meer orders plaatsen in vergelijking met reguliere instappers.

(37)

Legenda

Afbeelding 38: Cluster tabel van aanbieding instappers en reguliere instappers

5.0 Conclusie

Er is in dit onderzoek geprobeerd een antwoord te geven op de onderzoeksvraag “Kan ten behoeve van bedrijven in de retail, op basis van verschillen en overeenkomsten in het

(38)

koopgedrag van online instappers bij aanbiedingen respectievelijk bij reguliere instappers, een online marketingstrategie worden geformuleerd?”. Voor het beantwoorden van deze vraag is klantdata van zowel aanbieding instappers als reguliere instappers geanalyseerd. Bij het analyseren van deze data is gebruik gemaakt van statistisch onderzoek en zijn bestaande modellen gebruikt die het aankoopgedrag van klanten voorspellen. Om de gestelde hypotheses te beantwoorden, is gebruik gemaakt van de Independent Samples T-test daarnaast is de recency, frequency en monetary analyse en de K-means clusteringtechniek toegepast op de klantdata.

Bij de eerste gestelde hypothese: ‘er is verschil in de totale aankoopwaarde tussen reguliere instappers en aanbieding instappers’, is er sprake van een significant verschil. Dit betekent dat aanbieding instappers inderdaad een hogere totale aankoopwaarde vertegenwoordigen in vergelijking met reguliere instappers. Ook bij de tweede gestelde hypothese: ‘er is verschil in het percentage kortingsaankopen tussen reguliere instappers en aanbieding instappers’, is er een significant verschil geconstateerd. Zodoende kan geconcludeerd worden dat aanbieding instappers percentueel gezien meer kortingsorders plaatsen dan reguliere instappers. Bij de derde hypothese: ‘er is verschil in het totaal aantal orders tussen reguliere instappers en aanbieding instappers’, is eveneens een significant verschil geconstateerd. Er kan geconcludeerd worden dat aanbieding instappers gemiddeld meer orders plaatsen in vergelijk met reguliere instappers. Bij de vierde hypothese: ‘er is verschil in het aantal kortingsorders tussen reguliere instappers en aanbieding instappers’ is geen significant verschil gevonden. Dit betekent dat de nul hypothese niet verworpen kan worden. Bij de laatste hypothese: ‘er is verschil in het totaal aantal gekochte producten tussen reguliere instappers en aanbieding instappers’ is geen significant verschil gevonden. Dit betekent dat de nul hypothese niet verworpen kan worden.

Opvallend is dat bij drie van de vijf hypotheses een significant verschil ontdekt is. Er kan dus geconcludeerd worden dat er inderdaad een verschil bestaat tussen het aankoopgedrag van aanbieding instappers en reguliere instappers. Uit de resultaten van het statistisch onderzoek blijkt dat de aanbieding instappers hoger scoren op de variabele totale aankoopwaarde en totaal aantal geplaatste orders.

(39)

De clusters die het resultaat zijn van het toepassen van de K-means clustering techniek zijn zodanig op overeenkomsten en verschillen geselecteerd dat het mogelijk is om per cluster een marketingstrategie te ontwikkelen.

In cluster 1 bevinden zich de meest loyale klanten. Zij scoren op de variabelen recency en monetary hoog. Het toepassen van een marketingstrategie dient er vooral op toe te zien dat deze klanten tevreden en loyaal blijven. Het lijkt echter ook zinvol om in de marketingstrategie te werken aan een verbetering van de frequency score.

In cluster 2 zitten klanten die sporadisch aankopen met een relatief hoge waarde plaatsen. Hier kan een marketingstrategie worden toegepast die de recency van de aankopen laat stijgen.

De klanten afkomstig uit cluster 3 plaatsen regelmatig een order met een relatief lage waarde. Deze groep leent zich voor het toepassen van een marketingstrategie die er op gericht is om de monetary value van de aankooporders te laten stijgen.

De klanten uit cluster 4 keren niet met enige regelmaat terug naar de online webshop, geven niet veel uit en hebben niet recent een aankoop gedaan. Bij deze groep klanten is het dan ook maar de vraag of het rendabel is om geld en tijd aan marketingstrategieën te investeren.

Aanbieding instappers scoren in vergelijking met reguliere instappers iets lager op de variable recency. Het merendeel van de aanbieding instappers hebben langere tijd geleden een order geplaatst.

Daarnaast is het opvallend dat aanbieding instappers in tegenstelling tot reguliere instappers hoger scoren op de variable monatary. Dit betekent dat aanbieding instappers meer geld uitgeven dan reguliere instappers

Op de variabele frequency scoren de aanbieding instappers hoger in vergelijking tot reguliere instappers. Dit betekent dat aanbieding instappers over het algemeen meer orders plaatsen dan reguliere instappers.

(40)

Geconcludeerd kan worden dat aanbieding instappers in vergelijking met reguliere instappers langere tijd geleden een order hebben geplaatst, maar daarentegen wel meer orders plaatsen dan reguliere instappers waarbij er door de aanbieding instappers ook nog eens meer geld uitgeven wordt.

6.0 Discussie

Verschillende onderzoekers stellen dat er weinig wordt verdiend aan kortingsklanten en dat kortingsklanten niet loyaal aan een bedrijf zijn. De bewering van Hughes (2006) dat kortingsklanten niet loyaal zijn, komt niet overeen met de uitkomsten van dit onderzoek. De klanten van Béta die instappen bij aanbiedingen blijken over het algemeen loyaler en geven gemiddeld meer uit dan reguliere instappers.

(41)

Audrian-Pontevia (2013) schrijft in haar artikel ‘A good deal online: The impacts of acquisition and transaction value on E-satisfaction and E-loyalty’, dat retailbedrijven met twee doelstellingen werken die met elkaar op gespannen voet staan: zij moeten ervoor zorgen dat kortingzoekers door middel van dagelijkse promoties worden binnengelokt om zo de inkomsten op korte termijn te verhogen maar de retailbedrijven zien deze kortingzoekers niet als loyale klanten. Ook deze bewering komt niet overeen met de bevindingen uit dit onderzoek.

In vervolgonderzoek zou klantdata van meerdere bedrijven, werkzaam in diverse sectoren van de retail, moeten worden onderzocht. Met dit vervolgonderzoek zou antwoord kunnen worden gegeven op de vraag of de geconstateerde verschillen in aankoopgedrag van online instappers bij Béta, zich eveneens bij andere retailbedrijven voordoen. Met een dergelijk vervolgonderzoek zou moeten worden getracht om de resultaten van het onderhavige onderzoek een meer algemene gelding te geven. Specifieke factoren die eigen zijn aan Béta, zoals bijvoorbeeld de aard van hun productassortiment, hun reputatie en imago zouden door middel van vervolgonderzoek kunnen worden geneutraliseerd.

(42)

I Referenties

Adler, J. (2010). R in a nutshell: A Desktop Quick Reference (2e druk). Sebastopol: O’Reilly Media

Audrain-Pontevia, A., N’Goala, G., Poncin, I. (2013). A good deal online: The impacts of acquisition and transaction value on E-satisfaction and E-loyalty. Journal of Retailing and Consumer Services, Volume 20 (2013), 445 - 452

Chang, C., & Chen, Y. (2009). Classifying the segmentation of customer value via RFM model and RS theory. Expert Systems with Applications, Volume 36 (2009), 4176 - 4184 Coussement, K., Bossche van der, F.A.M., Bock de, K.W. (2012). Data accuracy's impact on segmentation performance: Benchmarking RFM analysis, logistic regression, and decision trees. Journal of Business Research, Volume 67 (2014), 2751 - 2758

Dhandayyudam, P., & Krishnamurthi, I. (2012) An Improved Clustering Algorithm For Customers Segmentation. International Journal of Engineering Science and Technology, Volume 4, Number 2

Hughes, A.M. (2006). Strategic Database Marketing (3de druk). New York: The McGraw-Hill companies

Jain, D., & Singh, S. (2002). Customer lifetime value research in marketing: a review and future directions. Journal of Interactive Marketing, Volume 16, Number 2, Spring

Jonge, E., & Loo van der, M. (2013). An introduction to data cleaning with R. The Hague; Statistics Netherlands

Jonker, J., Piersma, N., Poel van der, D. (2004). Joint optimization of customers segmentation and marketing policy to maximize long-term profitability. Expert Systems with Applications, Volume 27 (2004), 159 - 168

Khajvand, M. et al. (2011). Estimating customer lifetime value based on RFM analysis of customer purchase behaviour: case study. Procedia Computer Science, Volume 3 (2011), 57 -63

Lander, J. (2014). R for everyone: Advanced Analytics and Graphics (2de druk). New Jersey: Pearson education

Leeuwen van, S. (2003). CRM in de praktijk (1ste druk). Den Haag: Academic service, BIM Media B.V.

Namvar, M., Khakabi, A., Gholamain, M. (2010). A Two Phase Clustering Method for Intelligent Customer Segmentation. 2010 International Conference on Intelligent Systems, Modeling and Simulation

McCart, J.A., & Hastak., M. (2007). Segmentation approaches in data-ming: A comparison of RFM, CHAID, and logistic regression. Journal of Business Research, 60, 656 - 662

(43)

Petrison, L., Blattberg, R.C., Wang, P. (1997). Database Marketing: Past, Present and Future. Journal of Direct Marketing, Volume 11, Number 4, Fall

Schijns, J.M.C., & Schröder, G.J. (1995) Segment Selection by Relationship Strength. University of Limburg, Maastricht

Silberschatz, A., Kort, A.F., Sudarshan, S. (2011). Database System Concepts. (6de druk). New York: The McGraw-Hill companies

Verhoef, P. (2004). Customer Lifetime Value: een overzicht van de literatuur. Tijdschrift voor Economie en Management, Vol. XLIX, 1 (2004)

Verhoef, P., & Hoekstra, J.C. (1993). Status of Database Marketing in the Dutch Fast Moving Consumer Goods Industry. Journal of Market Focused Management, 3, 313 - 331

Verhoeven, P.C., Hoekstra, J.C., Leeflang, P.S.H., Spring, P.N. (2002). Database Marketing: Intuitie of modellen ? Bedrijfskunde, Jaargang 74, Nummer 2 (2002) 66 - 72

Wu, J., & Lin, Z. (2005). Research on Customer Segmentation Model by Clustering. Proceedings of the 7th International Conference on Electronic Commerce, ICEC

Wu, H., Chang., E., Lo., C. (2009) Applying RFM Model and K-means Method in Customer Value Analysis of an Outfitter. Global Perspective for Competitive Enterprise, Economy and Ecology (2009), 665-672

Yu-Hui, T., & Chu-Chen, R. Y (2003). Simple database marketing tools in customer analysis and retention. International Journal of Information Management 12 (2003) 291 - 301

Zalaghi, Z., Verzi, Y.A. (2014). Measuring customer loyalty using an extended RFM and clustering technique. Management Science Letters, Volume 5 (2014), 905 – 912

II Bijlage

1.1 Beschrijving van de data

In de eerste query te zien op afbeelding 34 (toegepast bij zowel reguliere instappers als bij aanbieding instappers) wordt informatie opgevraagd van alle klanten (member_id) die in maart 2014 zijn ingestapt. Daarnaast wordt de datum van aankoop (lastcreate) en het product nummer van de aankoop (partnum) uit de tabel orderitems opgevraagd. In de WHERE sectie worden een aantal voorwaarden opgenomen waar de klanten aan moeten voldoen. Ten eerste moet de storeent_id gelijk zijn aan 10156. Hierdoor worden alleen de orders die bij Béta zijn gedaan geselecteerd. Daarnaast moet de orderdatum tussen 2014-03-01 en 2014-03-31 liggen en moet de fulfillmentstatus gelijk zijn aan SHIP. Dit betekent dat de orders die de klanten geplaatst hebben ook daadwerkelijk verstuurd moeten zijn. Deze voorwaarden zijn

(44)

noodzakelijk omdat sommige orders in de database nooit verstuurd zijn. Dit kan onder andere komen doordat klanten een order annuleren.

Afbeelding 39: Sql query om alle instappers uit de database te halen

De query die afbeelding 34 te zien is haalt alle informatie over het aankoopgedrag van de klanten uit de database. Zo wordt (a) het percentage kortingsorders berekend, (b) het totaal aantal orders berekend die de klant heeft geplaatst, (c) het totaalbedrag berekend dat de klant heeft uitgegeven, (d) het totaal aantal producten berekend die de klant gekocht heeft, (e) de eerste aankoopdatum van de klant zonder korting berekend, (f) de eerste aankoopdatum van de klant met korting berekend, (g) het aantal kortingsorders berekend, (h) de laatste aankoopdatum met korting berekend en (i) het totaal bedrag dat is uitgegeven aan kortingsproducten berekend.

(45)

Afbeelding 40: Sql query die alle informatie over het aankoopgedrag van de klanten uit de database haalt.

R Studio biedt de mogelijkheid om verschillende in R opgenomen Packages te importeren. De pakketten die gebruikt zijn in het onderhavige onderzoek staan hieronder kort beschreven met de bijbehorende functionaliteit.

RMySQL

Dit pakket maakt het mogelijk om een database connectie op te zetten in R waarmee SQL query’s geschreven en uitgevoerd worden. Het voordeel hiervan is dat grote en ingewikkelde query’s uitgevoerd kunnen worden zonder dat het programma vast loopt. Hiermee is het probleem dat ontstond bij het gebruik van het programma MySQL opgelost.

DPLYR

Dyplyr maakt het mogelijk om datasets snel en makkelijk te manipuleren. Het zorgt er onder andere voor dat dataframes makkelijk zijn samen te voegen, hetgeen voor dit onderzoek van groot belang is.

MASS

MASS wordt in dit onderzoek gebruikt voor de functie write.matrix. Deze functie maakt het mogelijk om grote dataframes weg te schrijven naar een xlsx bestand.

EFFSIZE

Effsize maakt het mogelijk om de effect size van de variabelen berekenen. In dit onderzoek is gebruik gemaakt van de functie cohen.d.()

PWR

Het pakket PWR wordt in dit onderzoek gebruikt om de power te berekenen. Hierbij is er gebruik gemaakt van de functies pwr.t.test() en pwr.t2n.test().

Na het runnen van de querys om de instappers per maand te bepalen wordt de data opgeschoond. Eerst wordt uur/minuut/seconden van de datum gescheiden omdat deze

(46)

tijdsbepaling voor het onderzoek niet van belang is. Ook worden de namen en waardes van kolommen veranderd zodat het mergen van dataframes later geen problemen met zich mee brengt.

Nadat alle dataframes de juiste namen en waardes hebben gekregen kan er gemerged worden. Dit wil zeggen dat verschillende dataframes samengevoegd worden. De dataframe met daarin alle klanten waarbij de eerste aankoop met korting was, moet gemerged worden met klanten die in april 2014 instappen. Als deze merge gelukt is blijft een dataframe over van klanten die een eerste aankoop met korting gedaan hebben.

Als alle instappers per maand verkregen zijn, worden alle dataframes van klanten die een eerste aankoop zonder korting hebben gedaan gemergd tot één grote dataframe die vervolgens weer gemergd word met de query die alle benodigde informatie ophaalt die nodig is voor verdere analyse.

1.2 Geschreven code voor het ophalen van aanbieding instappers 1 ######################################## 2 ##### Channa Wallheiemer ####### 3 ##### Dagaanbieding analyse ####### 4 ##### KWARTAAL2 - 2014 ####### 5 ######################################## 6 7 ### Load library's 8 require(RMySQL) 9 require(dplyr) 10 require(MASS) 11 12 ####### IMPORT mdm_dagaanbiedingen 2014 13 14

15 ################ Connect to the database

##############################################

16 db_con <- dbConnect(MySQL(), user="***", password="***", 17 dbname="wcs_data", host="localhost")

18

19 ########################## MAART ######################## 20 #### sql query alle aankopen in het maart 2014 bij Béta

21 last <- paste ("SELECT wcs_data.wcs_orderitems.member_id, wcs_data.wcs_orderitems.partnum, wcs_data.wcs_orderitems.lastcreate,