Successieve approximatie - Markov beslissingsproces voor voorraad

4. Markov beslissingsproces voor voorraad

4.2. Successieve approximatie

De successieve-approximatiemethode is gebaseerd op een zeer krachtige stelling in de the- orie van Markov-beslissingsprocessen. Deze stelling geeft een vergelijking die een optimale strategie kenmerkt.

Stelling 4.7. Stel er bestaat een begrensde functie d(i), i ∈ I, en een constante g zodanig dat voor alle i ∈ I geldt,

d(i) + g = max a∈Ai ( ra(i) +X j∈I pa(i, j)d(j) ) . (4.9)

Dan g = g∗(i) voor alle i ∈ I en dan geldt dat elke strategie f , die voldoet aan,

f (i) ∈ arg max

a∈Ai ( ra(i) +X j∈I pa(i, j)d(j) ) ,

de gemiddelde beloning maximaliseert: gf_{(i) = g}∗_.

Bewijs. Het bewijs van deze stelling wordt toegeschreven aan R. N´u˜nez-Queija[2]. We bewijzen eerst dat de gemiddelde beloning na lim sup_{T →∞}V

f T(i)

T begrensd wordt door g en

daarna dat deze begrenzing bereikt kan worden. We bekijken d(·) als functie van Xt en

bepalen het verwachte verschil van d(Xt+1) met d(Xt) gegeven de waarde van Xt. Voor

elke strategie f geldt

Ef[d(Xt+1)|Xt= i] =

pf(i, j)d(j) + rf(i) − rf(i)

≤ max a X j pa(i, j)d(j) + ra(i) ! − rf(i) = d(i) + g − rf(i),

voor alle i ∈ I. De verwachte stijging van d(·) na ´e´en stap heeft dus als bovengrens g − rf_{(i). Middels deze bovengrens kunnen we een bovengrens vinden voor de stijging}

van d(·) in de (t + 1)-de stap, door te conditioneren op de toestand op tijdstip t: Ef[d(Xt+1)|X0 = i] = X j pf_t_{(i, j)E}f[d(Xt+1)|Xt= j] ≤X j pf_t(i, j)(d(j) + g − rf(i)) = g + Ef[d(Xt)|X0 = i] − Ef[rAt(Xt)|X0 = i],

voor alle i ∈ I. Als we nu deze ongelijkheid sommeren van t = 0 tot T − 1 verkrijgen we

en aangezien d(i), i ∈ I een begrensde functie is, geldt dus lim sup

T →∞

V_Tf(i) T ≤ g.

Het bewijs van de existentie van een strategie f die deze bovengrens bereikt, vereist enkel de opmerking dat alle ongelijkheiden in de bovenstaande vergelijkingen gelijkheden worden wanneer de strategie f voldoet aan

f (i) ∈ arg max

a∈Ai ( ra(i) +X j∈I pa(i, j)d(j) ) .

Het successieve-approximatie (SA) algoritme maakt gebruik van deze conditie door de functie d(i) op te bouwen in een groot aantal stappen en telkens de vorige iteratie te gebruiken in de huidige. Het algoritme werkt als volgt.

Het algoritme

0. Laat n := 0. Kies een > 0 en een begrensde functie v0(i) (vaak wordt v0(i) ≡ 0

gebruikt). 1. Bereken vn+1(i) := max a∈Ai ( ra(i) +X j∈I pa(i, j)vn(j) ) (4.10)

en laat

fn+1(i) ∈ arg max a∈Ai ( ra(i) +X j∈I pa(i, j)vn(j) ) . (4.11)

2. Laat Mn := maxi∈I{vn(i) − vn−1(i)} en mn := mini∈I{vn(i) − vn−1(i)}. Stop het

algoritme als Mn− mn< . Anders laten we n := n + 1 en herhalen we stappen 1

en 2.

Als we v0(i) ≡ 0 kiezen, is het intu¨ıtief niet lastig in te zien dat dit algoritme de

optimale strategie benadert. Immers, vn(i) kan dan worden ge¨ınterpreteerd als de maxi-

male beloning over n perioden, waardoor de maximale gemiddelde beloning per tijdsstap benaderd wordt door vn(i) − vn−1(i).

Om te laten zien dat dit algoritme daadwerkelijk de optimale strategie benadert, doen we eerst een aanname met betrekking tot de strategie¨en. Deze aanname heeft te maken met de verwachte aankomsttijden Tf_{(i, i}

0) bij een vaste toestand i0 vanaf toestand i,

afhankelijk van de gebruikte strategie f :

Tf(i, i0) = Ef[inf{n ≥ 1 : Xn= i0}|X0 = i].

Aanname 4.8. De Markovketen met overgangskansen pf_{(i, j) is aperiodiek. Verder kan}

er een vaste toestand i0 en T0f < ∞ gekozen worden zodanig dat Tf(i, i0) < T0f voor alle

i ∈ I. Hieruit volgt dat de toestand i0 positief recurrent is.

Het volgende lemma helpt ons te bewijzen dat het SA-algoritme convergeert naar de optimale strategie.

Lemma 4.9. Laat f een strategie zijn die voldoet aan Aanname (4.8) en stel dat voor een zekere constante g en begrensde functie v(i), i ∈ I geldt dat

rf(i) +X

j∈I

pf(i, j)v(j) ≥ v(i) + g, i ∈ I. (4.12)

Dan gf _{≥ g. Analoog, als}

rf(i) +X

j∈I

pf(i, j)v(j) ≤ v(i) + g, i ∈ I, (4.13)

dan gf _{≤ g.}

Bewijs. Het bewijs van dit lemma, toegewezen aan H.C. Tijms[3], gaat analoog voor beide richtingen van de ongelijkheid. Bekijk dus het geval dat er voldaan is aan (4.12). We bewijzen de volgende bewering middels inductie naar T :

V_Tf(i) − T g +X

j∈I

De basisstap is triviaal. Voor T = 1 komen de ongelijkheden (4.12) en (4.14) immers precies overeen. Voor T ≥ 2 conditioneren we de overgangskansen pf_T(i, j) op pf_{T −1}(i, j). Het is gemakkelijk in te zien dat

pf_T(i, j) =X

k∈I

pf_{T −1}(i, k)pf(k, j).

Verder gebruiken we de definitie van de verwachte beloningen tot op tijdstip T:

V_Tf(i) =

T −1

n=0

Ef[rAn(Xn)|X0 = i]

Volgens de inductiehypothese geldt de bewering voor T − 1. Als we nu rf_{(i) in (4.12)}

naar rechts halen en de ongelijkheid substitueren voor P

jp f_{(i, j)v(j), verkrijgen we} V_Tf(i) − T g +X j∈I pf_T(i, j)v(j) = V_Tf(i) − T g +X j∈I X k∈I pf_{T −1}(i, k)pf(k, j)v(j) = V_Tf(i) − T g +X k∈I pf_{T −1}(i, k)X j∈I pf(k, j)v(j) 4.12 ≥ V_Tf(i) − T g +X k∈I pf_{T −1}(i, k)(v(k) + g − rf(k)) = V_Tf(i) −X k∈I pf_{T −1}(i, k)rf(k) − (T − 1)g +X k∈I pf_{T −1}(i, k)v(k) = V_Tf_{(i) − E}f[rAT −1_(X T −1)|X0 = i] − (T − 1)g + X k∈I pf_{T −1}(i, k)v(k) = V_{T −1}f (i) − (T − 1)g +X k∈I pf_{T −1}(i, k)v(k)IH≥ v(i).

Hiermee is 4.14 bewezen. Het bewijs van het lemma volgt nu vrijwel direct: deel beide kanten van (4.14) door T en laat T → ∞. Er volgt dan dat gf _{− g ≥ 0, wat de eerste}

helft van het lemma bewijst. De tweede helft volgt analoog door de ongelijkheden in het bewijs om te draaien.

De volgende stelling geeft begrenzingen voor de gemiddelde beloning die de strategie¨en fn opleveren die in het SA-algoritme gegenereerd worden.

Stelling 4.10. Laat vn(i), fn(i), Mn en mn berekend zijn uit het SA-algoritme. Als fn

voldoet aan Aanname (4.8) dan

mn≤ gfn ≤ g∗ ≤ Mn,

Bewijs. Ook het bewijs van deze stelling wordt geattribueerd aan Tijms[3]. Vanwege Lemma (4.9) is het voldoende de ongelijkheid

rfn_{(i) +}X

j∈I

pfn_{(i, j)v}

n−1(j) ≥ vn−1(i) + mn, i ∈ I, (4.15)

te bewijzen om te laten zien dat mn≤ gfn. Voor Mn bewijzen we

rf(i) +X

j∈I

pf(i, j)vn−1(j) ≤ vn−1(i) + Mn, i ∈ I, (4.16)

voor alle strategie¨en f . Immers, dan geldt dat gf _{≤ M}

n voor alle strategie¨en f en dus

dat g∗ ≤ Mn. Om de eerste ongelijkheid te bewijzen, merken we op dat uit de definitie

van fn(i) volgt dat

vn(i) = rfn(i) +

j∈I

pfn_{(i, j)v}

n−1(j), i ∈ I. (4.17)

Door nu te gebruiken dat vn(i) − vn−1(i) ≥ mn voor alle i verkrijgen we

rfn_{(i) +}X

j∈I

pfn_{(i, j)v}

n−1(j) = vn(i) = vn−1(i) + vn(i) − vn−1(i) ≥ vn−1(i) + mn,

wat precies de ongelijkheid is die we zochten. Voor de tweede ongelijkheid merken we op dat vn in het SA-algoritme zo gekozen is dat voor alle strategie¨en f geldt,

rf(i) +X

j∈I

pf(i, j)vn−1(j) ≤ vn(i), i ∈ I. (4.18)

Weer vullen we vn(i) = vn−1(i)+vn(i)−vn−1(i) in en nu gebruiken we dat vn(i)−vn−1(i) ≤

Mn voor alle i om de gewenste ongelijkheid te verkrijgen.

We moeten nu alleen nog bewijzen dat mk+1 ≥ mk en Mk+1 ≤ Mk . Laat n = k in

(4.17) en n = k + 1 en f = fk in (4.18) en trek de vergelijkingen van elkaar af. Dan geldt

vk+1(i) − vk(i) ≥

j∈I

pfk_{(i, j)(v}

k(j) − vk−1(j)), i ∈ I.

Hieruit volgt dat vk+1(i) − vk(i) ≥ mk voor alle i ∈ I en dus dat mk+1 ≥ mk. Andersom,

laat n = k + 1 in (4.17) en n = k en f = fk+1 in (4.18). Het verschil van de vergelijkingen

levert dan op vk+1(i) − vk(i) ≤ X j∈I pfk+1_{(i, j)(v} k(j) − vk−1(j)).

Evenzo volgt hieruit dat vk+1(i) − vk(i) ≤ Mk voor alle i ∈ I en dus dat Mk+1 ≤ Mk.

Dit betekent dat de gemiddelde beloning gfn _{convergeert naar het optimum g}∗ _als

Mn− mn convergeert naar 0 en dat, in dat geval, het optimum tevens benaderd wordt

Om dit algoritme te gebruiken heeft de auteur code geschreven in Matlab dat de ver- scheidene berekeningen uitvoert en stopt wanneer het gewenste nauwkeurigheidsniveau is bereikt (wanneer Mn− mn < ). We gaan er hierbij eerst van uit dat de actieruimte

eindig is. Dit is nodig zodat een computer de maxima in (4.10) en (4.11) kan berekenen. Nu we een techniek hebben om een optimale strategie te bepalen, zullen we het voor- raadprobleem formuleren als een MDP om vervolgens het SA-algoritme toe te passen.

In document Voorraadtheorie (pagina 34-39)