Markov beslissingsketens - BESLISKUNDE (ONDERDEEL VAN CALEIDOSCOOP) L.C.M. KALLENBERG UNIVERSIT

Bij Markov beslissingsketens hebben we niet te maken met ´e´en Markov keten, maar met een aantal Markov ketens. Er moet dan worden beslist welke keten de beste is voor een gegeven optimaliteitscriterium. Formeel is dit model, dat genoteerd wordt met (S, A, p, r), als volgt. S is weer een eindige toestandsruimte.

In iedere toestand i ∈ S wordt een actie uit een eindige actieverzameling A(i) gekozen.

Als het systeem zich op zeker moment in toestand i bevindt en actie a ∈ A(i) wordt gekozen, dan gebeurt het volgende:

(1) er is een directe opbrengst r_i(a);

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 39 Als in toestand i de actie a = f (i) ∈ A(i) wordt gekozen, dan gedraagt het systeem zich als een Markov keten met overgangsmatrix P (f ), waarbij {P (f )}_ij = p_ij(f (i)). Een regel die in iedere toestand voorschrijft welke actie wordt gekozen heet een strategie. Bij strategie f hoort ook een opbrengstvector r(f ), waarvan de i-de component r_i(f (i)) is, i ∈ S.

Voorbeeld 4.2 Casinomodel

Een Casino-bezoeker gaat het Casino binnen met een bepaald bedrag en stelt zich ten doel om dat bedrag te vergroten tot precies N euro. Als hij dat bereikt heeft, dan stopt hij. Ook als hij niets meer heeft dan stopt hij. Welke strategie maximaliseert zijn kans om met N euro te stoppen?

Als hij een bepaald bedrag inzet, dan wint hij met kans p zijn inzet en met kans 1 − p verliest hij deze. Als hij op een gegeven moment i euro heeft dan kan hij 1, 2, . . . , i euro inzetten. Omdat hij niet meer wil bereiken dan N euro (wat een zelfbeheersing!) zal hij hoogstens min(i, N − i) inzetten.

Het bijbehorende Markov beslissingsmodel is (stoppen is gemodelleerd als gaan naar toestand 0 en daar niets krijgen):

S = {0, 1, . . . , N }.

A(0) = A(N ) = {0}, A(i) = {1, 2, . . . , min(i, n − i)}, i = 1, 2, . . . , N − 1. p_0j(0) = ( 1, j = 0 0, j 6= 0 ^{; p}^{N j}^{(0) =} ( 1, j = 0 0, j 6= 0 ^{; p}^ij^{(a) =}        p j = i + a 1 − p j = i − a a ∈ A(i), i 6= 0, N 0 j 6= i + a, i − a

r_i(a) = 0 voor a ∈ A(i), i 6= N en r_N(0) = 1.

Ook een Markov beslissingsketen is te visualiseren met een netwerk. Voor iedere toestand is er weer een knooppunt en voor iedere positieve overgangskans is er een pijl. Omdat deze kansen afhangen van de actie, zijn de pijlen dus ook afhankelijk van de actie en geven we dit aan met een enkele, dubbele of drievoudige ect. pijl voor de eerste, tweede, derde etc. actie. Bij een pijl (i, j) die behoort bij actie a zetten we twee getallen: (p_ij(a), r_i(a)). Bij bovenstaand probleem met N = 4 hoort dus het volgende netwerk:

±° ²¯ 0 _±°^²¯1 _±°^²¯2 _±°^²¯3 _±°^²¯4 (1,0) (1,1) ¾ (1−p,0) (1−p,0)¾ (1−p,0)¾ 3 7 (p,0) +/(1−p,0) -(p,0) (p,0)- (p,0)

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 40 We hebben nog niet gesproken over het optimalitetscriterium dat gehanteerd wordt. We zullen er enkele bespreken.

1. Oneindige horizon en verdisconteerde opbrengst

Veronderstel dat het rentepercentage r is per periode, bijvoorbeeld per jaar. Een bedrag B op tijdstip 0 is dus ´e´en jaar later (1+r)·B waard, na twee jaar (1+r)²·B en na t jaar (1+r)^t·B. Indien we opbrengsten in de toekomst in het heden willen waarderen, dan gebruiken we verdiscontering, d.w.z. een bedrag dat wordt verkregen in periode t wordt voor de waardering in het heden vermenigvuldigd met (1 + r)−t, want nu (1 + r)−t · B is in jaar t een bedrag B waard. Laat α = (1 + r)−1, dan is α een getal tussen 0 en 1 (hoe dichter bij 1 hoe lager het rentepercentage) en α wordt de verdisconteringsfactor genoemd.

Verdiscontering stelt ons in staat de opbrengsten over een oneindige periode (we spreken dan over een oneindige horizon) bij elkaar op te tellen tot een eindig getal: zij |r_i(a)| ≤ M voor alle toestanden i en acties a ∈ A(i), dan wordt de verdisconteerde opbrengst over de oneindige horizon begrensd door M + αM + α2M + · · · = (1 − α)−1M < ∞.

Beschouw een strategie f met overgangsmatrix P (f ) en opbrengstvector r(f ). De verwachte verdisconteerde opbrengst onder deze strategie f over een oneindige horizon, als we starten in toestand i, noteren we met v^α_i(f ). Dit geeft een vector v^α(f ), waarvoor geldt:

vα(f ) = r(f ) + αP (f )r(f ) + α2P2(f )r(f ) + · · · + αtPt(f )r(f ) + · · · = {^P^∞_t=0αtPt(f )}r(f ) = {I − αP (f )}−1r(f ).

De laatste gelijkheid is een generalisatie van de meetkundige reeks van re¨ele getallen, waarvoor geldt dat^P^∞_t=0xt= (1 − x)−1 (deze som bestaat als |x| < 1, wat overeenkomt met |α| < 1). De waarde-vector v^α is gedefinieerd door v^α = max_fv^α(f ). Een strategie f_∗ heet een optimale strategie als vα(f_∗) = vα. Er kan worden aangetoond (dat gebeurt in het derdejaarscollege Besliskunde 3) dat in het verdisconteerde model de waarde-vector de unieke oplossing is van de zogenaamde optimaliteitsvergelijking, die de volgende gedaante heeft:

x_i = max_a∈A(i) {r_i(a) + α^X

p_ij(a)x_j}, i ∈ S (4.6)

Bovendien kan worden aangetoond dat een strategie f optimaal is als: v^α_i(f ) ≥ r_i(a) + α^X

p_ij(a)v^α_j(f ), i ∈ S, a ∈ A(i) (4.7)

Voorbeeld 4.3 Onderhoud

Veronderstel dat we een machine hebben die in drie mogelijke toestanden kan zijn: goed (toestand 0), middelmatig (toestand 1) of slecht (toestand 2). Aan een goede machine doen we niets (actie 0); aan een middelmatige machine kunnen we `ofwel niets doen (actie 0), `ofwel onderhoud plegen

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 41 (actie 1), `ofwel deze machine vervangen door een nieuwe (actie 2); een machine in slechte staat vervangen we altijd door een nieuwe (actie 2).

Er zijn de volgende kosten:

c₁: (productie)verlies als we ontdekken dat de machine in toestand 1 is; c₂: (productie)verlies als we ontdekken dat de machine in toestand 2 is; c₃: kosten als besloten wordt tot onderhoud voor een machine in toestand 1; c₄: kosten om een nieuwe machine aan te schaffen.

Voor de overgangskansen geldt:

Een machine in toestand 0 heeft een kans van 3

4 om op het volgende tijdstip nog steeds goed te zijn en een kans van ¹₄ om dan middelmatig te zijn. Een middelmatige machine waar geen onderhoud aan wordt gepleegd heeft een kans van ⁷₈ om op het volgende tijdstip nog steeds middelmatig te zijn en een kans van ¹₈ om dan slecht te zijn. Een middelmatige machine waar wel onderhoud aan wordt gepleegd heeft een kans van ¹₂ om op het volgende tijdstip goed te zijn en een kans van

2 om dan middelmatig te zijn. Een nieuwe machine is op het volgende beslissingstijdstip altijd goed.

Het bijbehorende Markov beslissingsmodel is:

S = {0, 1, 2}; A(0) = {0}, A(1) = {0, 1, 2}, A(2) = {2}.

r₀(0) = 0; r₁(0) = −c₁; r₁(1) = −c₁− c₃; r₁(2) = −c₁− c₄; r₂(2) = −c₂− c₄. p_0j(0) =        3 4 j = 0 1 4 j = 1 0 j = 2 ; p_1j(0) =        0 j = 0 7 8 j = 1 1 8 j = 2 ; p_1j(1) =        1 2 j = 0 1 2 j = 1 0 j = 2 p_1j(2) =        1 j = 0 0 j = 1 0 j = 2 ; p_2j(2) =        1 j = 0 0 j = 1 0 j = 2 Het bijbehorend netwerk is:

±° ²¯ 0 _±°^²¯1 _±°^²¯2 3/4 1/4 1/8 7/8 -1/2 ¾ 1/2 ¾¾ 1 ¾ ¾ 1

= actie 0, - = actie 1, -- = actie 2

De optimaliteitsvergelijking luidt: v₀^α = 0 + α(³₄v₀^α+¹₄v₁^α). vα 1 = max{−c₁+ α(7 8vα 1 +1 8vα 2), −c₁− c₃+ α(1 2vα 0 +1 2vα 1), −c₁− c₄+ αvα 0}. vα 2 = −c₂− c₄+ αvα 0.

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 42 Uit de eerste vergelijking volgt: vα

0 = α

4−3αvα

1. Vullen we deze waarde voor vα

0 in de derde vergelijking in, dan geeft dit: vα

2 = −c₂− c₄+_4−3α^α² vα

1. Met deze uitdrukkingen voor vα

0 en vα

1 wordt de tweede vergelijking: vα 1 = max n − c₁+^α₈{−c₂− c₄+ (7 +_4−3α^α² )vα 1}, −c₁− c₃+^α₂(1 +_4−3α^α )vα 1, −c₁− c₄+_4−3α^α² vα 1 o . In deze laatste vergelijking komt als onbekende alleen vα

1 voor. De vergelijking is nu oplosbaar door de drie mogelijkheden voor het maximum afzonderlijk na te gaan. We zullen dit laten zien voor het volgende getallenvoorbeeld met α = 0.9, c₁ = 1, c₂ = 2, c₃= 6 en c₄ = 10.

(1) Stel vα 1 = −c₁+α 8{−c₂− c₄+ (7 + α2 4−3α)vα 1}. Dan is vα 1 = −16.50. (2) Stel vα 1 = −c₁− c₃+α 2(1 + α 4−3α)vα 1. Dan is vα 1 = −29.35. (3) Stel vα 1 = −c₁− c₄+ α2 4−3αvα 1. Dan is vα 1 = −29.18. Uit het bovenstaande volgt dat vα

1 = −16.50 en dat in toestand 1 actie 0 optimaal is (in de andere toestanden was er geen keuze). Hieruit volgt ook dat v₀^α= −11.42 en v₂^α= −22.28.

2. Oneindige horizon en totale opbrengst

Soms is het begrip ’de totale verwachte opbrengst’ ongedefinieerd (bijvoorbeeld als de opbrengsten op de tijdstippen t = 0, 1, 2, 3, · · · gelijk zijn aan +1, −1, +1, −1, · · · ), maar in andere gevallen is dit begrip wel zinvol. Dit zijn bijvoorbeeld modellen die kans 1 hebben om te stoppen, ofwel in een zogenaamde ’eindtoestand’ komen waar ze in blijven en waar geen opbrengsten meer zijn. In dat geval blijven de eigenschappen van het verdisconteerde model ook voor α = 1 geldig.

Noteer de totale opbrengst onder strategie f met v(f ) en de waarde-vector met v. Dan kan worden aangetoond dat de waarde-vector v weer de unieke oplossing is van een optimaliteitsvergelijking, namelijk van

x_i = max_a∈A(i){r_i(a) +^X

p_ij(a)x_j}, i ∈ S (4.8)

Ook geldt dat een strategie f optimaal is als v_i(f ) ≥ r_i(a) +^X

p_ij(a)v_j(f ) voor alle i ∈ S en a ∈ A(i) (4.9)

Voorbeeld 4.2 (vervolg)

Het doel van de Casino-bezoeker was een bepaald bedrag N te bereiken. Dit komt overeen met het maximaliseren van de kans om toestand N te bereiken. Dan is de i-de component v_i van de waarde-vector v de kans zijn om, startend met beginbedrag i, het doel te bereiken door optimaal te spelen. De waarden v_i, i ∈ S, worden gevonden als unieke oplossing van het stelsel

  

x_i = max_a∈A(i) {px_i+a+ (1 − p)x_i−a}, 1 ≤ i ≤ N − 1 x₀ = 0; x_N = 1

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 43 Beschouw allereerst de ’voorzichtige’ speler die als strategie heeft om steeds 1 euro in te zetten; noem deze strategie f₁. De totale verwachte opbrengst onder deze strategie is de unieke oplossing van het volgende stelsel

   x_i = px_i+1+ (1 − p)x_i−1, 1 ≤ i ≤ N − 1 x₀ = 0; x_N = 1 (4.11) Het stelsel is als volgt te verklaren uitgaande van toestand i: er is een winstkans p en in dat geval wordt de nieuwe toestand i + 1; met kans 1 − p wordt verloren, wat de toestand i − 1 oplevert. Er geldt dus x_i= px_i+1+ (1 − p)x_i−1.

Het stelsel (4.11) is een stelsel homogene lineaire differentievergelijkingen. In het college Besliskunde 1 zal worden bewezen dat dit kan worden opgelost door allereerst voor x_i de i-de macht van een variabele, zeg z, te nemen en dan te delen door de laagst voorkomende macht. In het boven-staande voorbeeld beschouwen we de vergelijking zi = pzi+1+ (1 − p)zi−1, waarna we deze delen door zⁱ⁻¹. Dit geeft de vergelijking

z = pz²+ (1 − p), (4.12)

wat een vierkantsvergelijking is met als wortels 1 en ^1−p_p (ga dit zelf na).

We zullen eerst het geval p = ¹₂ bespreken. In dit geval heeft de vierkantsvergelijking twee samenvallende wortels 1 en het stelsel een unieke oplossing

v_i(f₁) = ⁱ

N^{, 0 ≤ i ≤ N} ^(4.13)

Ga zelf na dat dit een oplossing is. We zullen vervolgens laten zien dat in dit geval iedere strategie optimaal is. Zij f een willekeurige strategie. Dan is v(f ) de unieke oplossing van het stelsel

v_i(f ) = ¹

2^v^{i+f (i)}^{(f ) +} 1

2^v^{i−f (i)}^{(f ), 1 ≤ i ≤ N − 1; v}⁰^{(f ) = 0 en v}^N^{(f ) = 1} ^(4.14) Dit stelsel is analoog aan stelsel (4.11) te verklaren. Het is direct in te zien (ga ook dit zelf na) dat de oplossing luidt:

v_i(f ) = ⁱ

N^{, 0 ≤ i ≤ N} ^(4.15)

Omdat i

N onafhankelijk is van f is iedere strategie dus optimaal.

Vervolgens beschouwen we het geval dat p 6= ¹₂. Dan zijn er twee verschillende wortels 1 en ^1−p_p en kan worden aangetoond dat de oplossing luidt

v_i(f₁) = ^{1 − r}ⁱ

1 − rN, 0 ≤ i ≤ N, (4.16)

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 44 We zullen laten zien dat als p > 1

2 de strategie f₁ van voorzichtig spelen optimaal is. Hiervoor is het volgens (4.7) voldoende om aan te tonen dat

v_i(f₁) ≥ r_i(a) + Σ_j p_ij(a)v_j(f₁) = pv_i+a(f₁) + (1 − p)v_i−a(f₁), i ∈ S, a ∈ A(i) (4.17) Omdat v_i(f₁) = _1−r^1−rNⁱ , 0 ≤ i ≤ N , moeten we dus aantonen dat

1 − rⁱ ≥ p(1 − rî+a) + (1 − p)(1 − rî−a0 = 1 − {prî+a+ (1 − p)rî−a}, (4.18) d.w.z. dat we moeten aantonen dat 1 ≤ pra+ (1 − p)r−a.

Laat q = 1 − p en F (a) = pra+ qr−a. Er geldt: F (1) = p_p^q+ q^p_q = q + p = 1. Het is nu voldoende om aan te tonen dat F (a + 1) ≥ F (a) voor a = 1, 2, . . . .

F (a + 1) ≥ F (a) ⇔ pra+1+ qr−a−1≥ pra+ qr−a

⇔ pr2a+2+ q ≥ pr2a+1+ qr

⇔ pq^2a+2+ qp^2a+2 ≥ p²q^2a+1+ q²p^2a+1 ⇔ q2a+1+ p2a+1 ≥ pq2a+ qp2a

⇔ p2a(p − q) ≥ q2a(p − q) ⇔ p ≥ q.

Omdat p ≥ ¹₂, geldt inderdaad dat p ≥ q, waarmee het bewijs compleet is. Opmerking

Er kan ook worden aangetoond (maar op een geheel andere wijze) dat als p < ¹₂ de strategie ’stoutmoedig’ spelen, d.w.z. het maximale inzetten, optimaal is.

Voorbeeld 4.4 Optimaal stoppen van een Markov keten

Een ander voorbeeld van een model met totale opbrengsten over een oneindige periode is het optimaal stoppen van een Markov keten. Hierbij zijn in iedere toestand twee acties: 0 (stoppen) en 1 (doorgaan). Als in toestand i actie 0 wordt gekozen, dan krijgen we een directe opbrengst r_i en stopt het proces (formeel te modelleren als p_ij(0) = 0 voor alle j ∈ S); als actie 1 wordt gekozen, dan gaat het proces verder met opbrengst s_i en overgangskansen p_ij, j ∈ S.

We willen de totale opbrengst maximaliseren en het gaat in iedere toestand om een keuze tussen stoppen of doorgaan. Laat S₀ de deelverz. van de toestanden zijn waar stoppen optimaal is. Er kan worden aangetoond dat de resultaten van het verdisconteerde model ook voor dit model gelden, met verdisconteringsfactor α = 1, indien S₀ minstens ´e´en element bevat en er voor iedere toestand die niet tot S₀ behoort een positieve kans is om S₀ te bereiken in de Markov keten met overgangskansen p_ij. In dat geval luidt de optimaliteitsvergelijking:

x_i = max{r_i, s_i+^X

p_ijx_j}, i ∈ S (4.19)

Laat S₁= {i ∈ S | r_i ≥ s_i+^P_j p_ijr_j}, d.w.z. de toestanden waarin direct stoppen niet slechter is dan nog ´e´en stap en dan stoppen. Merk op dat S₁ direct uit de data van het model volgt en dat

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 45 het intu¨ıtief aannemelijk is dat in toestanden van S₁ stoppen optimaal is. Dit is niet altijd het geval, maar wel als het stopprobleem monotoon is: een optimaal stopprobleem heet monotoon als p_ij = 0 voor alle i ∈ S₁ en alle j /∈ S₁. Er kan worden aangetoond dat voor een monotoon stopprobleem geldt dat S₀ = S₁: in dit geval is de optimale strategie dus direct te geven.

Verkoop van een huis

Iemand wil zijn huis verkopen en krijgt iedere week een bod op zijn huis. Laat p_j de kans zijn op een bod ter grootte j, 0 ≤ j ≤ N . We nemen aan dat een bod dat niet onmiddellijk wordt geaccepteerd niet verloren gaat, maar ook later kan worden geaccepteerd. Wachten is echter wel nadelig: indien het huis niet wordt verkocht zijn er wekelijks kosten c. Wat is een optimale verkoopstrategie?

We modelleren dit probleem als het optimaal stoppen van een Markov keten. We moeten daarvoor eerst een keuze maken wat we als toestand nemen. Hierin moet de relevante informatie worden opgeslagen. Van de biedingen tot nu toe is alleen het hoogste bod relevant: vandaar dat we met toestand j aangeven dat j het hoogste bod tot nu toe is.

Het model is als volgt:

S = {0, 1, . . . , N }; A(i) = {0, 1}, i ∈ S; r_i = i, i ∈ S; s_i = −c, i ∈ S; p_ij =        0 j < i P_i k=0 p_k j = i p_j j > i We zullen allereerst laten zien dat het probleem monotoon is.

S₁ = {i ∈ S | r_i ≥ s_i+^P_j p_ijr_j} = {i ∈ S | i ≥ −c +^P^N_j=i+1 p_j· j +^Pⁱ_j=0 p_j· i}

= {i ∈ S | i + c ≥^P^N_j=i+1 p_j· j + (1 −^P_j=i+1^N )p_j · i} = {i ∈ S | c ≥^P^N_j=i+1 p_j(j − i)}. Ga zelf na dat ^P^N_j=i+1 p_j(j − i) = p_i+1+ 2p_i+2+ · · · + (N − i)p_N monotoon dalend is in i. Zij i∗= min{i | c ≥^P^N_j=i+1 p_j(j − i)}, dan is S₁= {i ∈ S | i ≥ i∗}. Omdat p_ij = 0, j < i, geldt dat het probleem monotoon is. Een optimale strategie accepteert dus het eerste bod dat minstens i∗is. Merk op dat i∗ de interpretatie heeft van de minimale waarde waarvoor de verwachte kosten c in de komende periode bij niet-accepteren minstens zo groot zijn als de verwachte extra winst P_N

j=i+1 p_j(j − i) bij wel-accepteren. Op zich is dit een voor de hand liggend resultaat.

3. Oneindige horizon en gemiddelde opbrengst

Met name voor het geval dat de totale opbrengst niet (goed) gedefinieerd is of als de verdisconte-ringsfactor α erg dicht bij 1 ligt (in welk geval de totale verwachte verdisconteerde opbrengst erg groot wordt), is het criterium van gemiddelde opbrengst vaak een goed alternatief. Bij de gemid-delde opbrengst beschouwen we wat er gemiddeld over T perioden aan opbrengst is en laten T naar ∞ gaan: dit is dus de gemiddelde opbrengst over een oneindige horizon.

We nemen aan dat voor iedere strategie f de daarbij behorende Markov keten P (f ) irreducibel is. Omdat voor het begrip gemiddelde opbrengst over een oneindige horizon de opbrengst over een eindig aantal perioden, zeg 10 perioden, wegvalt (omdat T → ∞ en we de opbrengst over

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 46 deze 10 perioden door T delen), is in het irreducibele geval de gemiddelde opbrengst onder iedere strategie onafhankelijk van de toestand waarin gestart wordt.

Laat g(f ) de gemiddelde opbrengst zijn onder strategie f en laat g = max_f g(f ) de waarde zijn. De waarde is dus in dit geval geen vector, maar een scalair. Er kan worden aangetoond dat de scalair g en een bijbehorende vector h de oplossing zijn van de volgende optimaliteitsvergelijking:

x + h_i= max_a∈A(i) {r_i(a) +^X

p_ij(a)h_j}, i ∈ S, (4.20)

waarbij x uniek en gelijk aan g is, terwijl de h-vector op een additieve constante na bepaald is. Als we h_N = 0 nemen, dan heeft het stelsel (4.20) een unieke oplossing (g, h).

Een interpretatie van g en h kan worden verkregen door bovenstaande vergelijking af te leiden uit de optimaliteitsvergelijking (4.6) voor de verdisconteerde opbrengst (we noteren nu x als xα

omdat we geen vaste, maar variabele α hebben): xα

i = max_a∈A(i) {r_i(a) + α^P_j p_ij(a)xα

j}, i ∈ S.

Laat h^α_i = x^α_i − x^α_N, i ∈ S. Bovenstaande vergelijking is hiermee ook te schrijven als hα

i + xα

N = max_a∈A(i) {r_i(a) + α^P_j p_ij(a)(hα j + xα

N)} = αx^α_N + max_a∈A(i) {r_i(a) + α^P_j p_ij(a)h^α_j}, i ∈ S, ofwel

h^α_i + (1 − α)x^α_N = max_a∈A(i) {r_i(a) + α^X

p_ij(a)h^α_j}, i ∈ S. Laat h_i = lim_α↑1hα

i, i ∈ S en g = lim_α↑1(1 − α)xα

N, dan gaat bovenstaande vergelijking bij het nemen van de limiet voor α ↑ 1 over in:

g + h_i = max_a∈A(i) {r_i(a) +^P_j p_ij(a)h_j}, i ∈ S.

Voorbeeld 4.5 Advertentiecampagne

Een fabrikant van een bepaald product overweegt om een advertentiecampagne te starten om zijn product succesvoller te maken. Hij heeft hiervoor marktonderzoek gedaan, waarbij hij is uitgegaan van twee mogelijke toestanden voor zijn product: winstgevend (toestand 1) of verliesgevend (toestand 2). Van week tot week wordt de situatie bekeken.

Zonder advertentiecampagne, wat in het model actie 1 wordt gemoend, zijn de toestandsover-gangskansen: p₁₁(1) = 0, 5; p₁₂(1) = 0, 5; p₂₁(1) = 0, 4; p₂₂(1) = 0, 6.

Voor de opbrengsten geldt: als een product uit toestand 1 aan het begin van volgende week nog in toestand 1 is, dan levert dat deze week een winst op van 9.000 euro; als een product uit toestand 2 aan het begin van volgende week weer in toestand 2 is, dan levert dat deze week een verlies van 7.000 euro op; als de toestand wel verandert (van 1 in 2 of omgekeerd), dan levert dat deze week een winst van 3.000 euro op.

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 47 Als de advertentiecampagne wel wordt gevoerd (wat in het model met actie 2 wordt aangeduid), dan zijn de overgangskansen: p₁₁(2) = 0, 8; p₁₂(2) = 0, 2; p₂₁(2) = 0, 7; p₂₂(2) = 0, 3.

In dit geval geldt voor de opbrengsten: als we in toestand 1 zitten, dan is de winst 4.000 euro (onafhankelijk van de toestand in de volgende week); in toestand 2 is de winst 1.000 euro als de toestand de volgende week 1 is; als de toestand de volgende week weer 2 is, dan is er een verlies van 19.000 euro.

De verwachte directe opbrengsten zijn:

r₁(1) = 0.5 × 9.000 + 0.5 × 3.000 = 6.000; r₂(1) = 0.4 × 3.000 + 0.6 × −7.000 = −3.000; r₁(2) = 0.8 × 4.000 + 0.2 × 4.000 = 4.000; r₂(2) = 0.7 × 1.000 + 0.3 × −19.000 = −5.000. We merken allereerst op dat dit model irreducibel is (alle overgangskansen zijn strict positief). De optimaliteitsvergelijking luidt:        g + h₁ = max{6000 + 0.5h₁+ 0.5h₂, 4000 + 0.8h₁+ 0.2h₂} g + h₂ = max{−3000 + 0.4h₁+ 0.6h₂, −5000 + 0.7h₁+ 0.3h₂} h₂ = 0 Het invullen van h₂ = 0 geeft:

  

g + h₁ = max{6000 + 0.5h₁, 4000 + 0.8h₁} g = max{−3000 + 0.4h₁, −5000 + 0.7h₁} Hieruit is het volgende af te leiden:

g + h₁ = max{6000 + 0.5h₁, 4000 + 0.8h₁} = 9000 + 0.1h₁+ max{−3000 + 0.4h₁, −5000 + 0.7h₁} = 9000 + 0.1h₁+ g,

d.w.z. h₁= 10.000, g = 2.000 en h₂ = 0.

4.3 Opgaven

Opgave 4.1

In een vaas zitten r rode en z zwarte knikkers. Na iedere trekking wordt de getrokken knikker weer in de vaas terug gedaan en wordt de vaas tevens aangevuld met een extra knikker van dezelfde kleur als de getrokken knikker.

Laat X_t= (

1 als de t-de trekking een zwarte knikker oplevert 0 als de t-de trekking een rode knikker oplevert

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 48 Opgave 4.2

Beschouw het volgende model (diffusiemodel van Ehrenfest). Twee vaten, A en B, bevatten samen N moleculen. Vlak voor tijdstip t (t = 1, 2, . . . ) wordt aselect ´e´en van deze moleculen gekozen en van het vat waarin het zich bevindt overgebracht naar het andere vat. Neem S = {0, 1, . . . , N }, waarbij i ∈ S correspondeert met i moleculen in vat A. Zij X_t het aantal moleculen in vat A op tijdstip t, t = 1, 2, . . . .

a. Laat zien dat X_t(t = 1, 2, . . . ), een stationaire irreducibele Markov keten is. b. Bepaal voor N = 4 de stationaire kansverdeling.

c. Bepaal voor N = 4 de eerste doorkomsttijden naar toestand 2.

Opgave 4.3

Beschouw een machine die in twee toestanden kan zijn: ’goed’ of ’slecht’. Een goede machine is met kans p de volgende dag weer goed en met kans 1 − p slecht. Een slechte machine kan wel of niet vervangen worden door een goede; als een slechte machine niet wordt vervangen, dan blijft hij slecht. Vervangen geschiedt onmiddellijk (zonder tijdverlies) en kost een bedrag K.

Iedere dag produceert de machine een artikel dat gekeurd wordt. De keuring kan opleveren: ’goedgekeurd’ of ’afgekeurd’. Als de machine goed is, dan is de kans op afkeuren p₀; als de machine slecht is, dan is de kans op afkeuren p₁. Als het artikel wordt afgekeurd, dan brengt dat kosten c met zich mee.

Welke strategie minimaliseert de verdisconteerde kosten over de oneindige horizon? a. Geef voor dit probleem het Markov beslissingsmodel.

b. Stel de optimaliteitsvergelijking op.

c. Los de optimaliteitsvergelijking op en bepaal een optimale strategie indien α = 0.8, p = 0.8, p₀ = 0.2, p₁= 0.8, c = 5 en K = 8.

Opgave 4.4

Een dief kan dageljks op dievenpad gaan en hij rooft dan met kans p_j een bedrag j, 0 ≤ j ≤ N . Iedere dag dat hij op pad gaat heeft hij een pakkans p, in welk geval hij zijn totale buit, dus ook alles van de vorige dagen, kwijt is en ’het spel’ uit is.

Tot hoe lang moet de dief op dievenpad gaan?

a. Modelleer dit probleem als het optimaal stoppen van een Markov keten. b. Laat zien dat het model monotoon is.

c. Bepaal een optimale strategie, d.w.z. bij welk bedrag moet de dief stoppen, en laat zien dat dit het moment is waarop zijn verwachte extra buit niet groter is dan zijn verwacht verlies vanwege het ’gesnapt’ worden.

HOOFDSTUK 4. MARKOV (BESLISSINGS)KETENS 49 Opgave 4.5

Beschouw het volgende probleem van een taxichauffeur, die heen en weer rijdt tussen drie steden: A, B en C. Als hij in stad A of C is, dan heeft hij drie mogelijke acties: (i) hij kan rondrijden in de hoop een passagier op te kunnen pikken; (ii) hij kan naar de dichtstbijzijnde taxistandplaats rijden en daar wachten op een passagier; (iii) hij kan ter plekke blijven staan en wachten op een oproep van de centrale. In stad B heeft hij alleen de eerste twee opties. De overgangskansen en de directe opbrengsten worden gegeven door de volgende tabel:

van naar naar naar directe

stad actie stad A stad B stad C opbrengst

A 1 0.5 0.25 0.25 8 2 0.1 0.7 0.2 3 3 0.25 0.25 0.5 5 B 1 0.5 0 0.5 12 2 0.1 0.8 0.1 10 C 1 0.25 0.25 0.5 7 2 0.2 0.6 0.2 4 3 0.7 0.1 0.2 5

a. Laat zien dat dit model irreducibel is.

b. Bepaal de gemiddelde opbrengst voor de strategie die in iedere toestand de eerste actie kiest. c. Stel voor dit model de optimaliteitsvergelijking op.

In document BESLISKUNDE (ONDERDEEL VAN CALEIDOSCOOP) L.C.M. KALLENBERG UNIVERSITEIT LEIDEN (pagina 44-55)