1 1
1 1
Arnoud den Boer Menselijke keuzes begrijpen en beïnvloeden NAW 5/16 nr. 2 juni 2015
97
Arnoud den Boer
Afdeling Stochastische Operationele Research Universiteit Twente
a.v.denboer@utwente.nl
Onderzoek
Veni-project
Menselijke keuzes begrijpen
en be¨ınvloeden
Aan Arnoud den Boer, tenure-tracker aan de Universiteit Twente, werd in 2014 een NWO Veni-beurs toegekend. In dit artikel beschrijft hij in het kort zijn onderzoek naar statistiek en opti-malisatie van menselijke keuzes.
Discrete-keuzemodellen [1, 13] zijn wiskun-dige modellen die beschrijven hoe mensen kiezen uit een verzameling alternatieven met gegeven eigenschappen. Deze modellen wor-den in tal van toepassingsgebiewor-den gebruikt om menselijk keuzegedrag te voorspellen en te bepalen hoe daar optimaal op gereageerd kan worden: marketing [7], landbouw [8], psy-chometrie [9], transportwetenschap [2], en-zovoort. Vanwege de vele praktische toepas-singen wordt er ook veel theoretisch onder-zoek verricht naar schatten en optimaliseren met deze modellen. In 2000 ging zelfs de No-belprijs voor Economie naar Daniel McFad-den “for his development of theory and me-thods for analyzing discrete choice” (nobel-prize.org).
Een veelgebruikt framework om menselij-ke menselij-keuzes te modelleren is het zogenaamde Random Utility Model (RUM) [10, 12]. Stel dat een persoon precies ´e´en item moet kiezen uit
n ∈ Nalternatieven, gelabeld1, . . . , n. De
ei-genschappen van elk alternatiefiworden
ge-modelleerd door een vector xi ∈ Rd, voor
een integerd. Volgens het RUM is de kans dat
alternatiefiwordt gekozen dan gelijk aan
P
Ui> Uj, ∀j 6= i
, (1)
waarbijU1, . . . , Un stochastische variabelen
zijn die het nut (‘utility’) modelleren dat
de persoon aan alternatieven 1, . . . , n
toe-kent. De stochasten U1, . . . , Un mogen
on-derling afhankelijk zijn, en hun verdeling hangt (uiteraard) ook af van de eigenschap-penx1, . . . , xn. Men neemt ook aan dat hun
verdelingen continu zijn, zodat er in (1) met kans ´e´en geen ‘tie’ voorkomt.
Het algemene RUM zoals hier geformu-leerd blijkt in de praktijk nog te algemeen om
2 2
2 2
98
NAW 5/16 nr. 2 juni 2015 Menselijke keuzes begrijpen en beïnvloeden Arnoud den Boereffectief statistiek en optimalisatie mee te be-drijven. Men neemt daarom vaak de toevlucht tot eenvoudigere modellen. Het meest popu-laire model is het zogenaamde multinomial logit-model (MNL-model) met lineaire nuts-functies, dat veronderstelt dat
Ui=β>xi+i, i = 1, . . . , n. (2)
Hier isβ ∈ Rdeen (onbekende) parameter, en
zijn1, . . . , n onderling onafhankelijke
sto-chasten met Gumbel verdeling met
gemiddel-de nul. Door gemiddel-deze specifieke vergemiddel-deling vani
aan te nemen krijgen de kansen (1) een ele-gante gesloten vorm:
P Ui> Uj, ∀j 6= i = e E[Ui] Pn j=1eE[Uj] = e β>xi Pn j=1eβ >xj. (3)
De parameterβis eenvoudig te schatten uit
data met behulp van ‘maximum-likelihood es-timation’ (MLE), wat de populariteit van MNL deels verklaart.
Het MNL-model negeert mogelijke
correla-ties tussen de verschillendeUi. Dat dit
onre-alistisch kan zijn wordt geïllustreerd door de befaamde ‘red bus – blue bus paradox’. Stel dat er drie manieren zijn om van A naar B te reizen: (i) met de auto, (ii) met een blauwe
bus, en (iii) met een rode bus. ZijU1, U2, U3
de bijbehorende nutsvariabelen. De kleur van een bus is irrelevant voor de voorkeuren van
reizigers, en dus isU2 = U3 met kans ´e´en.
Als nu de rode bus ineens niet meer beschik-baar is verwacht je dat er niet meer of minder mensen met de auto gaan: ieder die eerst de rode bus nam kiest nu voor de blauwe bus. In het MNL-model verandert de kans dat ie-mand voor de auto kiest echter w´el,
name-lijk vanexp(E[U1])/(exp(E[U1])+2 exp(E[U2]))
naarexp(E[U1])/(exp(E[U1]) + exp(E[U2])). Dit
fenomeen maakt MNL in sommige situaties een onrealistisch model.
Het ‘mixed multinomial logit model’ (MMNL-model) is een uitbreiding van MNL die
ver-onderstelt datβin (3) zelf ook een
stochas-tische variabele is. Deze multidimensionale
stochastβmodelleert mogelijke
heterogeni-teit van de populatie. AlsF de cumulatieve
verdelingsfunctie is vanβ, dan is de kans dat
een persoon kiest voor optieigelijk aan
P Ui> Uj, ∀j 6= i = Z Rd eβ>xi Pn j=1eβ >x jdF (β). (4)
Een van de resultaten van reeds genoemde
Nobelprijswinnaar McFadden is dat hij, sa-men met Kenneth Train, heeft laten zien dat ieder RUM arbitrair goed benaderd kan wor-den door een MMNL-model [11]. De klasse van MMNL-modellen is daarmee veel rijker dan de MNL-modellen, en doordat het correlaties tus-senU1, . . . , Unmodelleert heeft het niet het
hierboven beschreven nadeel van MNL. Het
schatten van de verdeling vanβkan
nume-riek erg uitdagend zijn, evenals optimalisa-tieproblemen die gebruikmaken van MMNL-modellen.
Multi-armed bandit-problemen
Multi-armed bandit-problemen (MAB-proble-men) zijn dynamische beslissingsproblemen waarbij de te optimaliseren doelfunctie on-bekend is, maar gaandeweg geleerd wordt uit binnenkomende data. Het cruciale verschil met statische problemen is dat de beschik-bare dataset groeit, doordat genomen beslis-singen nieuwe data genereren. Deze nieuwe data kan helpen om de doelfunctie beter te leren en in de toekomst betere beslissingen te nemen. Er ontstaat zo een wisselwerking tussen statistiek en optimalisatie: je zoekt naar beslissingen die niet alleen de verwachte kortetermijnopbrengst maximaliseren, maar ook bijdragen aan het zo goed en snel mo-gelijk leren van de doelfunctie. Deze twee doelen zijn meestal conflicterend: korteter-mijnopbrengst maximaliseren zorgt er vaak voor dat beslissingen snel convergeren naar de beslissing die het beste lijkt op grond van de data, terwijl het leren van de doel-functie juist sneller gaat als er spreiding in de beslissingen is. Het vinden van beslis-regels die de juiste balans vinden in deze zogenaamde exploration–exploitation trade-off is een belangrijk terugkerend vraagstuk in MAB-problemen.
MAB-problemen zijn momenteel een hot topic in de operations research, en wor-den ook veelvuldig bestudeerd in de sta-tistiek, econometrie en computer science. Dat komt door de vele maatschappelijke en commerciële toepassingen van MAB, maar ook door de wiskundige uitdagingen die het biedt (MABs zijn in de regel niet exact oplos-baar).
Veni-onderzoek: MABs met keuzemodellen
In mijn Veni-onderzoek verbind ik discrete-keuze modellen met multi-armed bandit-problemen.
Dit is gemotiveerd door dynamische be-slisproblemen uit de praktijk die met men-selijk keuzegedrag te maken hebben. Twee voorbeelden uit de (online) retail zijn
assor-timentsoptimalisatie (welke producten moet een retailer in zijn schap zetten, of op zijn website tonen, om de verwachte opbrengst te maximaliseren) en prijsoptimalisatie (bij wel-ke verkoopprijzen is de verwachte opbrengst het grootst). Dit zijn allebei MAB-problemen waarbij menselijk keuzegedrag een belang-rijke rol speelt. Bij assortimentsoptimalisa-tie gaat het om het bepalen van de alter-natieven waaruit personen kunnen kiezen, bij prijsoptimalisatie om het bepalen van ei-genschappen van de alternatieven. Ik be-kijk problemen waarbij zowel de alternatie-ven als hun eigenschappen geoptimaliseerd kunnen worden.
Formeel beschouw ik het volgende type
MAB-probleem: aanN ∈ N
achtereenvolgen-de personenn = 1, . . . , Nwordt een
verzame-ling alternatievenS(n) ∈ Smet
eigenschap-penX(n) ∈ Xter keuze aangeboden. Hier isS een collectie niet-lege deelverzamelingen van alleJ ∈ Nalternatieven{1, . . . , J}die
aan-geboden kunnen worden;X(n)is eend × J
matrix waarvan dej-de kolomXj(n)
eigen-schappen van alternatiefjmodelleert, en is
X ⊂ Rd×Jeen collectie van toegestane eigen-schapmatrices.
Het keuzegedrag van personen wordt ge-modelleerd met een MMNL-model: de kans
dat een persoon kiest voor alternatiefj uit
beschikbare alternatievenSmet
eigenschap-penX is gelijk aan
Z Rd eX>jβ P k∈SeX > kβ dF (β), j ∈ S. (5)
Hier is F de (onbekende) cumulatieve
ver-delingsfunctie vanβ. De keuze voorjgeeft
vervolgens een opbrengstr (j, S,X), waarr :
{1, . . . , J} × S × X → Reen bekende continue functie is.
Zij j(n) de keuze van persoonn, en zij
F een verzameling van verdelingsfuncties die
de onbekendeFbevat. Het doel nu is om een
reeks(S(n),X(n))(n = 1, . . . , N) alternatieven
en eigenschappen te vinden die de worst-case cumulatieve verwachte opbrengst
min F ∈F E N X n=1 r (j(n), S(n),X(n)) (6)
maximaliseert. Elk paarS(n),X(n)mag
afhan-gen van observaties in het verleden (dat wil
zeggen vanj(m), S(m),X(m)voorm < n),
maar niet van toekomstige observaties. Dit is een technisch uitdagend probleem waarvoor in het algemeen geen exacte
oplos-3 3
3 3
Arnoud den Boer Menselijke keuzes begrijpen en beïnvloeden NAW 5/16 nr. 2 juni 2015
99
sing bestaat. Om er toch grip op te krijgen onderzoek ik de volgende twee deelproble-men:
1. Karakteriseer de kwaliteit van schatters vanF in eindige samples. Goede beslis-regels in MAB-problemen hebben een goede balans tussen exploration en exploitation: zij nemen niet altijd de beslissing die het beste lijkt op grond
van een schattingFbnvanF, maar wijken
daar soms van af omF sneller te leren.
Om te bepalen hoeveel of hoe vaak je dit moet doen is een goed begrip nodig
van de kwaliteit vanFbn; in het bijzonder
begrip hoe de verwachte schattingsfout E[|| bFn−F ||], voor een zorgvuldig
geko-zen norm, afhangt van de eerdere
be-slissingen {(S(m),X(m)) | m < n}.
Voor MLE in het MNL-model heb ik zul-ke resultaten afgeleid [5] en toegepast op dynamisch prijzen [3–4, 6]; voor het MMNL-model zijn zulke resultaten niet bekend.
2. Ontwerp asymptotisch optimale beslisre-gels. Omdat het niet mogelijk is een be-slisregel te vinden die (6) maximaliseert, zoek ik een asymptotisch optimale bena-dering. In het bijzonder zoek ik een serie
functies πn : (S × X × {1, . . . , J})n−1 →
(S × X),n ∈ N, zodat, als(S(n),X(n)) = π ({(S(m),X(m), j(m)) | m < n})voor
al-len, dan de groeisnelheid van (6) innzo
laag mogelijk is. Om te bepalen of de ge-vonden beslisregel asymptotisch optimaal is, ga ik ook de laagst mogelijke groeisnel-heid van (6) die een willekeurige
beslisre-gel(πn)n∈Nkan behalen, karakteriseren.
Het oplossen van deze twee uitdagingen zal de twee vakgebieden van discrete-keu-zetheorie en multi-armed bandit-problemen met elkaar verbinden, en hopelijk tot veel nieuw boeiend en relevant onderzoek leiden. Daarnaast zal het voor heel concrete proble-men uit de praktijk, zoals het assortiproble-mentsop- assortimentsop-timalisatieprobleem, een belangrijke bijdrage
leveren. k
Biografie
Arnoud den Boer (1982) studeerde wis-kunde aan de Universiteit Utrecht en deed vervolgens de post-master Mathe-matics for Industry aan het Stan Acker-mans Instituut van de Technische Univer-siteit Eindhoven. Bij het Centrum Wiskun-de & Informatica schreef hij zijn proef-schrift Dynamic Pricing and Learning, in 2015 bekroond met de Gijs de Leve-prijs. Na postdoc-posities aan de Technische Universiteit Eindhoven en de Universi-teit van Amsterdam is hij sinds novem-ber 2013 als tenure-tracker verbonden aan de Universiteit Twente, vakgroep Sto-chastic Operations Research. Zijn onder-zoeksinteresses zijn multi-armed bandit-problemen, discrete-keuze modellen, sta-tistische inferentie in wachttijdmodellen, en de interactie tussen modellering, sta-tistiek en optimalisatie in stochastische beslissingsproblemen.
Referenties
1 M. Ben-Akiva en S. Lerman, Discrete Choice Analysis. Theory and Application to Travel De-mand, The MIT Press, Cambridge, MA, 1985. 2 E. Ben-Elia en Y. Shiftan, Which road do I take? A
learning-based model of route-choice behavior with real-time information, Transportation Re-search Part A: Policy and Practice 44(4) (2010), 249–264.
3 A.V. den Boer, Dynamic pricing with multiple products and partially specified demand dis-tribution, Mathematics of Operations Research 39(3) (2014), 863–888.
4 A.V. den Boer en B. Zwart, Simultaneously learn-ing and optimizlearn-ing uslearn-ing controlled variance pricing, Management Science 60(3) (2014), 770–783.
5 A.V. den Boer en B. Zwart, Mean square conver-gence rates for maximum quasi-likelihood
es-timators, Stochastic Systems 4(2) (2014), 375– 403.
6 A.V. den Boer en B. Zwart, Dynamic pricing and learning with finite inventories, te verschijnen in Operations Research (2015).
7 P.K. Chintagunta en J.P. Dub´e, Estimating a stockkeeping-unit-level brand choice model that combines household panel data and store data, Journal of Marketing Research 42(3) (2005), 368–379.
8 S. Colombo, N. Hanley en J. Louviere, Modeling preference heterogeneity in stated choice data: an analysis for public goods generated by agri-culture, Agricultural Economics 40(3) (2009), 307–322.
9 T.R. Johnson, Discrete choice models for ordi-nal response variables: a generalization of the
stereotype model, Psychometrika 72(4) (2007), 489–504.
10 D. McFadden, Economic choices, The American Economic Review 91(3) (2001), 351–378. 11 D. McFadden en K. Train, Mixed MNL models
for discrete response, Journal of Applied Econo-metrics 15(1) (2000), 447–470.
12 P. Suppes, D.H. Krantz, R.D. Luce en A. Tversky, Foundations of Measurement, Volume II, Aca-demic Press, San Diego, CA, 1989.
13 K. Train, Discrete Choice Methods with Simula-tion, Cambridge University Press, second edi-tion, 2009.