Menselijke keuzes begrijpen en beïnvloeden

(1)

1 1

Arnoud den Boer Menselijke keuzes begrijpen en beïnvloeden NAW 5/16 nr. 2 juni 2015

97 Arnoud den Boer

Afdeling Stochastische Operationele Research Universiteit Twente

a.v.denboer@utwente.nl

Onderzoek

Veni-project

Menselijke keuzes begrijpen

en be¨ınvloeden

Aan Arnoud den Boer, tenure-tracker aan de Universiteit Twente, werd in 2014 een NWO Veni-beurs toegekend. In dit artikel beschrijft hij in het kort zijn onderzoek naar statistiek en opti-malisatie van menselijke keuzes.

Discrete-keuzemodellen [1, 13] zijn wiskun-dige modellen die beschrijven hoe mensen kiezen uit een verzameling alternatieven met gegeven eigenschappen. Deze modellen wor-den in tal van toepassingsgebiewor-den gebruikt om menselijk keuzegedrag te voorspellen en te bepalen hoe daar optimaal op gereageerd kan worden: marketing [7], landbouw [8], psy-chometrie [9], transportwetenschap [2], en-zovoort. Vanwege de vele praktische toepas-singen wordt er ook veel theoretisch onder-zoek verricht naar schatten en optimaliseren met deze modellen. In 2000 ging zelfs de No-belprijs voor Economie naar Daniel McFad-den “for his development of theory and me-thods for analyzing discrete choice” (nobel-prize.org).

Een veelgebruikt framework om menselij-ke menselij-keuzes te modelleren is het zogenaamde Random Utility Model (RUM) [10, 12]. Stel dat een persoon precies ´e´en item moet kiezen uit

n ∈ Nalternatieven, gelabeld1, . . . , n. De

ei-genschappen van elk alternatiefiworden

ge-modelleerd door een vector xi ∈ Rd, voor

een integerd. Volgens het RUM is de kans dat

alternatiefiwordt gekozen dan gelijk aan

P

Ui> Uj, ∀j 6= i

, (1)

waarbijU1, . . . , Un stochastische variabelen

zijn die het nut (‘utility’) modelleren dat

de persoon aan alternatieven 1, . . . , n

toe-kent. De stochasten U1, . . . , Un mogen

on-derling afhankelijk zijn, en hun verdeling hangt (uiteraard) ook af van de eigenschap-penx1, . . . , xn. Men neemt ook aan dat hun

verdelingen continu zijn, zodat er in (1) met kans ´e´en geen ‘tie’ voorkomt.

Het algemene RUM zoals hier geformu-leerd blijkt in de praktijk nog te algemeen om

(2)

2 2

98

NAW 5/16 nr. 2 juni 2015 Menselijke keuzes begrijpen en beïnvloeden Arnoud den Boer

effectief statistiek en optimalisatie mee te be-drijven. Men neemt daarom vaak de toevlucht tot eenvoudigere modellen. Het meest popu-laire model is het zogenaamde multinomial logit-model (MNL-model) met lineaire nuts-functies, dat veronderstelt dat

Ui=β>xi+i, i = 1, . . . , n. (2)

Hier is_{β ∈ R}d_{een (onbekende) parameter, en}

zijn1, . . . , n onderling onafhankelijke

sto-chasten met Gumbel verdeling met

gemiddel-de nul. Door gemiddel-deze specifieke vergemiddel-deling vani

aan te nemen krijgen de kansen (1) een ele-gante gesloten vorm:

P Ui> Uj, ∀j 6= i = e E[Ui] Pn j=1eE[Uj] = e β>_xi Pn j=1eβ >_xj. (3)

De parameterβis eenvoudig te schatten uit

data met behulp van ‘maximum-likelihood es-timation’ (MLE), wat de populariteit van MNL deels verklaart.

Het MNL-model negeert mogelijke

correla-ties tussen de verschillendeUi. Dat dit

onre-alistisch kan zijn wordt geïllustreerd door de befaamde ‘red bus – blue bus paradox’. Stel dat er drie manieren zijn om van A naar B te reizen: (i) met de auto, (ii) met een blauwe

bus, en (iii) met een rode bus. ZijU1, U2, U3

de bijbehorende nutsvariabelen. De kleur van een bus is irrelevant voor de voorkeuren van

reizigers, en dus isU2 = U3 met kans ´e´en.

Als nu de rode bus ineens niet meer beschik-baar is verwacht je dat er niet meer of minder mensen met de auto gaan: ieder die eerst de rode bus nam kiest nu voor de blauwe bus. In het MNL-model verandert de kans dat ie-mand voor de auto kiest echter w´el,

name-lijk vanexp(E[U1])/(exp(E[U1])+2 exp(E[U2]))

naarexp(E[U1])/(exp(E[U1]) + exp(E[U2])). Dit

fenomeen maakt MNL in sommige situaties een onrealistisch model.

Het ‘mixed multinomial logit model’ (MMNL-model) is een uitbreiding van MNL die

ver-onderstelt datβin (3) zelf ook een

stochas-tische variabele is. Deze multidimensionale

stochastβmodelleert mogelijke

heterogeni-teit van de populatie. AlsF de cumulatieve

verdelingsfunctie is vanβ, dan is de kans dat

een persoon kiest voor optieigelijk aan

P Ui> Uj, ∀j 6= i = Z Rd eβ>_xi Pn j=1eβ >_x jdF (β). (4)

Een van de resultaten van reeds genoemde

Nobelprijswinnaar McFadden is dat hij, sa-men met Kenneth Train, heeft laten zien dat ieder RUM arbitrair goed benaderd kan wor-den door een MMNL-model [11]. De klasse van MMNL-modellen is daarmee veel rijker dan de MNL-modellen, en doordat het correlaties tus-senU1, . . . , Unmodelleert heeft het niet het

hierboven beschreven nadeel van MNL. Het

schatten van de verdeling vanβkan

nume-riek erg uitdagend zijn, evenals optimalisa-tieproblemen die gebruikmaken van MMNL-modellen.

Multi-armed bandit-problemen

Multi-armed bandit-problemen (MAB-proble-men) zijn dynamische beslissingsproblemen waarbij de te optimaliseren doelfunctie on-bekend is, maar gaandeweg geleerd wordt uit binnenkomende data. Het cruciale verschil met statische problemen is dat de beschik-bare dataset groeit, doordat genomen beslis-singen nieuwe data genereren. Deze nieuwe data kan helpen om de doelfunctie beter te leren en in de toekomst betere beslissingen te nemen. Er ontstaat zo een wisselwerking tussen statistiek en optimalisatie: je zoekt naar beslissingen die niet alleen de verwachte kortetermijnopbrengst maximaliseren, maar ook bijdragen aan het zo goed en snel mo-gelijk leren van de doelfunctie. Deze twee doelen zijn meestal conflicterend: korteter-mijnopbrengst maximaliseren zorgt er vaak voor dat beslissingen snel convergeren naar de beslissing die het beste lijkt op grond van de data, terwijl het leren van de doel-functie juist sneller gaat als er spreiding in de beslissingen is. Het vinden van beslis-regels die de juiste balans vinden in deze zogenaamde exploration–exploitation trade-off is een belangrijk terugkerend vraagstuk in MAB-problemen.

MAB-problemen zijn momenteel een hot topic in de operations research, en wor-den ook veelvuldig bestudeerd in de sta-tistiek, econometrie en computer science. Dat komt door de vele maatschappelijke en commerciële toepassingen van MAB, maar ook door de wiskundige uitdagingen die het biedt (MABs zijn in de regel niet exact oplos-baar).

Veni-onderzoek: MABs met keuzemodellen

In mijn Veni-onderzoek verbind ik discrete-keuze modellen met multi-armed bandit-problemen.

Dit is gemotiveerd door dynamische be-slisproblemen uit de praktijk die met men-selijk keuzegedrag te maken hebben. Twee voorbeelden uit de (online) retail zijn

assor-timentsoptimalisatie (welke producten moet een retailer in zijn schap zetten, of op zijn website tonen, om de verwachte opbrengst te maximaliseren) en prijsoptimalisatie (bij wel-ke verkoopprijzen is de verwachte opbrengst het grootst). Dit zijn allebei MAB-problemen waarbij menselijk keuzegedrag een belang-rijke rol speelt. Bij assortimentsoptimalisa-tie gaat het om het bepalen van de alter-natieven waaruit personen kunnen kiezen, bij prijsoptimalisatie om het bepalen van ei-genschappen van de alternatieven. Ik be-kijk problemen waarbij zowel de alternatie-ven als hun eigenschappen geoptimaliseerd kunnen worden.

Formeel beschouw ik het volgende type

MAB-probleem: aan_{N ∈ N}

achtereenvolgen-de personenn = 1, . . . , Nwordt een

verzame-ling alternatievenS(n) ∈ Smet

eigenschap-penX(n) ∈ Xter keuze aangeboden. Hier isS een collectie niet-lege deelverzamelingen van alle_{J ∈ N}alternatieven{1, . . . , J}die

aan-geboden kunnen worden;X(n)is eend × J

matrix waarvan dej-de kolomXj(n)

eigen-schappen van alternatiefjmodelleert, en is

X ⊂ Rd×Jeen collectie van toegestane eigen-schapmatrices.

Het keuzegedrag van personen wordt ge-modelleerd met een MMNL-model: de kans

dat een persoon kiest voor alternatiefj uit

beschikbare alternatievenSmet

eigenschap-penX is gelijk aan

Z Rd eX>jβ P k∈SeX > kβ dF (β), j ∈ S. (5)

Hier is F de (onbekende) cumulatieve

ver-delingsfunctie vanβ. De keuze voorjgeeft

vervolgens een opbrengstr (j, S,X), waarr :

{1, . . . , J} × S × X → Reen bekende continue functie is.

Zij j(n) de keuze van persoonn, en zij

F een verzameling van verdelingsfuncties die

de onbekendeFbevat. Het doel nu is om een

reeks(S(n),X(n))(n = 1, . . . , N) alternatieven

en eigenschappen te vinden die de worst-case cumulatieve verwachte opbrengst

min F ∈F E   N X n=1 r (j(n), S(n),X(n))   (6)

maximaliseert. Elk paarS(n),X(n)mag

afhan-gen van observaties in het verleden (dat wil

zeggen vanj(m), S(m),X(m)voorm < n),

maar niet van toekomstige observaties. Dit is een technisch uitdagend probleem waarvoor in het algemeen geen exacte

(3)

oplos-3 3

3 3

Arnoud den Boer Menselijke keuzes begrijpen en beïnvloeden NAW 5/16 nr. 2 juni 2015

99

sing bestaat. Om er toch grip op te krijgen onderzoek ik de volgende twee deelproble-men:

1. Karakteriseer de kwaliteit van schatters vanF in eindige samples. Goede beslis-regels in MAB-problemen hebben een goede balans tussen exploration en exploitation: zij nemen niet altijd de beslissing die het beste lijkt op grond

van een schattingFbnvanF, maar wijken

daar soms van af omF sneller te leren.

Om te bepalen hoeveel of hoe vaak je dit moet doen is een goed begrip nodig

van de kwaliteit vanFbn; in het bijzonder

begrip hoe de verwachte schattingsfout E[|| bFn−F ||], voor een zorgvuldig

geko-zen norm, afhangt van de eerdere

be-slissingen {(S(m),X(m)) | m < n}.

Voor MLE in het MNL-model heb ik zul-ke resultaten afgeleid [5] en toegepast op dynamisch prijzen [3–4, 6]; voor het MMNL-model zijn zulke resultaten niet bekend.

2. Ontwerp asymptotisch optimale beslisre-gels. Omdat het niet mogelijk is een be-slisregel te vinden die (6) maximaliseert, zoek ik een asymptotisch optimale bena-dering. In het bijzonder zoek ik een serie

functies πn : (S × X × {1, . . . , J})n−1 →

(S × X),n ∈ N, zodat, als(S(n),X(n)) = π ({(S(m),X(m), j(m)) | m < n})voor

al-len, dan de groeisnelheid van (6) innzo

laag mogelijk is. Om te bepalen of de ge-vonden beslisregel asymptotisch optimaal is, ga ik ook de laagst mogelijke groeisnel-heid van (6) die een willekeurige

beslisre-gel(πn)n∈Nkan behalen, karakteriseren.

Het oplossen van deze twee uitdagingen zal de twee vakgebieden van discrete-keu-zetheorie en multi-armed bandit-problemen met elkaar verbinden, en hopelijk tot veel nieuw boeiend en relevant onderzoek leiden. Daarnaast zal het voor heel concrete proble-men uit de praktijk, zoals het assortiproble-mentsop- assortimentsop-timalisatieprobleem, een belangrijke bijdrage

leveren. k

Biografie

Arnoud den Boer (1982) studeerde wis-kunde aan de Universiteit Utrecht en deed vervolgens de post-master Mathe-matics for Industry aan het Stan Acker-mans Instituut van de Technische Univer-siteit Eindhoven. Bij het Centrum Wiskun-de & Informatica schreef hij zijn proef-schrift Dynamic Pricing and Learning, in 2015 bekroond met de Gijs de Leve-prijs. Na postdoc-posities aan de Technische Universiteit Eindhoven en de Universi-teit van Amsterdam is hij sinds novem-ber 2013 als tenure-tracker verbonden aan de Universiteit Twente, vakgroep Sto-chastic Operations Research. Zijn onder-zoeksinteresses zijn multi-armed bandit-problemen, discrete-keuze modellen, sta-tistische inferentie in wachttijdmodellen, en de interactie tussen modellering, sta-tistiek en optimalisatie in stochastische beslissingsproblemen.

Referenties

1 M. Ben-Akiva en S. Lerman, Discrete Choice Analysis. Theory and Application to Travel De-mand, The MIT Press, Cambridge, MA, 1985. 2 E. Ben-Elia en Y. Shiftan, Which road do I take? A

learning-based model of route-choice behavior with real-time information, Transportation Re-search Part A: Policy and Practice 44(4) (2010), 249–264.

3 A.V. den Boer, Dynamic pricing with multiple products and partially specified demand dis-tribution, Mathematics of Operations Research 39(3) (2014), 863–888.

4 A.V. den Boer en B. Zwart, Simultaneously learn-ing and optimizlearn-ing uslearn-ing controlled variance pricing, Management Science 60(3) (2014), 770–783.

5 A.V. den Boer en B. Zwart, Mean square conver-gence rates for maximum quasi-likelihood

es-timators, Stochastic Systems 4(2) (2014), 375– 403.

6 A.V. den Boer en B. Zwart, Dynamic pricing and learning with finite inventories, te verschijnen in Operations Research (2015).

7 P.K. Chintagunta en J.P. Dub´e, Estimating a stockkeeping-unit-level brand choice model that combines household panel data and store data, Journal of Marketing Research 42(3) (2005), 368–379.

8 S. Colombo, N. Hanley en J. Louviere, Modeling preference heterogeneity in stated choice data: an analysis for public goods generated by agri-culture, Agricultural Economics 40(3) (2009), 307–322.

9 T.R. Johnson, Discrete choice models for ordi-nal response variables: a generalization of the

stereotype model, Psychometrika 72(4) (2007), 489–504.

10 D. McFadden, Economic choices, The American Economic Review 91(3) (2001), 351–378. 11 D. McFadden en K. Train, Mixed MNL models

for discrete response, Journal of Applied Econo-metrics 15(1) (2000), 447–470.

12 P. Suppes, D.H. Krantz, R.D. Luce en A. Tversky, Foundations of Measurement, Volume II, Aca-demic Press, San Diego, CA, 1989.

13 K. Train, Discrete Choice Methods with Simula-tion, Cambridge University Press, second edi-tion, 2009.