• No results found

Strategie¨ en en optimaliteitscriteria

6.7 Netwerken van wachtrijen

7.1.2 Strategie¨ en en optimaliteitscriteria

pi+a−j(t) j ≤ i + a; 0 B ≥ j > i + a; rti(a) = −{Kt· δ(a) + kt· a +Pi+a

j=0 pj(t) · ht· (i + a − j) +P

j=i+a+1 pj(t) · qt· (j − i − a)}.

7.1.2 Strategie¨en en optimaliteitscriteria

Strategie¨en

Een strategie R is een rij beslisregels: R = (π1, π2, . . . , πt, . . . ) met πt de beslisregel op tijdstip t, t = 1, 2, . . .. Zo’n beslisregel πt mag afhangen van alle informatie die het systeem tot tijdstip t heeft verkregen, d.w.z. van de toestanden op de tijdstippen 1, 2, . . . , t en van de acties op de tijdstippen 1, 2, . . . , t − 1. De formele definitie van beslisregel πt is als volgt.

Laat S × A = {(i, a) | i ∈ S, a ∈ A(i)} en laat Ht de verz. zijn van de mogelijke histories van het systeem, d.w.z.

Ht= {(i1, a1, i2, a2, . . . , it−1, at−1, it) | (ik, ak) ∈ S × A, 1 ≤ k ≤ t − 1; it∈ S}.

Een beslisregel πt op tijdstip t geeft de kans, als functie van de historie naar de actieverz., om een bepaalde actie te kiezen:

πt

htat ≥ 0 voor alle at∈ A(it) en P

at πt

htat = 1 voor alle ht∈ Ht.

Zij C de verz. van alle strategie¨en. Een strategie R = (π1, π2, . . .) heet een Markov strategie als de beslisregel πtonafhankelijk is van (i1, a1, i2, a2, . . . , it−1, at−1) voor iedere t ∈ N : πt hangt dus alleen af van de toestand it op tijdstip t. Vandaar dat we schrijven πittat i.p.v. πht

tat. De verz. van de Markov strategie¨en noteren we met C(M ). Indien tevens de lotingskansen gedegenereerd zijn, d.w.z. πtitat ∈ {0, 1} voor alle it en at, dan heet de beslisregel deterministisch. Zo’n deter-ministische beslisregel wordt volledig bepaald door de actie die in een toestand met kans 1 wordt gekozen; we noteren een dergelijke beslisregel dan ook met een functie ft: S → A, d.w.z. door de acties ft(i), i ∈ S, die met kans 1 worden gekozen. Een strategie met uitsluitend deterministische beslisregels heet een deterministische strategie. Indien alle beslisregels identiek zijn, dan heet de strategie stationair. De verz. van alle stationaire strategie¨en noteren we met C(S). Een algemene

stationaire strategie R = (π, π, . . . ) heeft beslisregels π die alleen afhangen van de toestand i en de actie a, m.a.w. π: S × A → [0, 1], d.w.z. πia ≥ 0 voor alle i ∈ S en a ∈ A(i), en P

a πia = 1 voor alle i ∈ S. We noteren deze strategie met π. Een stationaire deterministische strategie wordt volledig bepaald door een functie f : S → A, d.w.z. door de acties f (i), i ∈ S. Vandaar dat we zo’n strategie noteren met f. De verz. van stationaire deterministische strategie¨en noteren we met C(D).

Voor een Markov strategie R = (π1, π2, . . . ) defini¨eren we de overgangsmatrix P (πt) en de op-brengstvector r(πt) door

P (πt) ij = X

a

ptij(a)πtia voor iedere (i, j) ∈ S × S en t ∈ N; (7.1)

r(πt) i = X

a

rit(a)πtia voor iedere i ∈ S en t ∈ N. (7.2)

Laten de stochastische variabelen Xt en Yt de toestand en actie op tijdstip t aanduiden en zij Pβ,R{Xt = j, Yt = a} de notatie voor de kans dat op tijdstip t de toestand j en de actie a is, gegeven dat strategie R wordt gebruikt en dat β de beginverdeling is, d.w.z. βi is de kans dat het systeem start in toestand i. Als βi = 1 voor een i ∈ S, dan schrijven we Pi,R in plaats van Pβ,R.

Lemma 7.1

Voor Markov strategie R = (π1, π2, . . . ), beginverdeling β en t ∈ N, geldt: (1) Pβ,R{Xt= j, Yt= a} =P i βi· {P (π1)P (π2) · · · P (πt−1)}ij· πt ja, (j, a) ∈ S × A; (2) Eβ,R{rt Xt(Yt)} =P i βi· {P (π1)P (π2) · · · P (πt−1)r(πt)}i, met P (π1)P (π2) · · · P (πt−1) = I (de eenheidsmatrix) voor t = 1.

Bewijs

Met inductie naar t. Voor t = 1, geldt:

Pβ,R{Xt= j, Yt= a} = βj· π1 ja=P i βi· {P (π1)P (π2) · · · P (πt−1)}ij · πt ja en Eβ,R{rt Xt(Yt)} =P i,a βi· π1 iar1i(a) =P i βi· {P (π1)P (π2) · · · P (πt−1)r(πt)}i.

Neem aan dat de beweringen zijn aangetoond voor zekere t, dan zullen we laten zien dat ze ook gelden voor t + 1: Pβ,R{Xt+1= j, Yt+1 = a} = P k,bPβ,R{Xt= k, Yt= b} · ptkj(b) · πjat+1 = P k,b,i βi· {P (π1)P (π2) · · · P (πt−1)}ik· πt kb· pt kj(b) · πjat+1 = P i βi·P k{P (π1)P (π2) · · · P (πt−1)}ik·P b πtkb· pt kj(b) · πjat+1 = P i βi·P k{P (π1)P (π2) · · · P (πt−1)}ik· {P (πt)}kj· πjat+1 = P i βi· {P (π1)P (π2) · · · P (πt)}ij· πjat+1. Verder hebben we

Eβ,R{rXt+1 t+1(Yt+1)} = P j,a Pβ,R{Xt+1= j, Yt+1= a} · rt+1j (a) = P j,a,i βi· {P (π1)P (π2) · · · P (πt)}ij· πt+1ja · rt+1j (a) = P i βi· {P (π1)P (π2) · · · P (πt)}ij·P a πt+1ja · rt+1j (a) = P i βi·P j{P (π1)P (π2) · · · P (πt)}ij · {r(πt+1)}j = P i βi· {P (π1)P (π2) · · · P (πt)r(πt+1)}i.

De volgende stelling laat zien dat voor iedere beginverdeling β, iedere rij strategie¨en R1, R2, . . . en iedere convexe combinatie van de marginale verdelingen van Pβ,Rk, k ∈ N, er een Markov strategie R bestaat met dezelfde marginale verdeling.

Stelling 7.1

Voor iedere beginverdeling β, iedere rij strategie¨en R1, R2, . . . en iedere rij niet-negatieve re¨ele getallen p1, p2, . . . met P

k pk= 1, bestaat er een Markov strategie R zdd. Pβ,R∗{Xt= j, Yt= a} =P

k pk· Pβ,Rk{Xt= j, Yt= a}, (j, a) ∈ S × A, t ∈ N. Proof

Definieer de Markov strategie R = (π1, π2, . . . ) door

πjat := P

k pk· Pβ,Rk{Xt= j, Yt= a} P

k pk· Pβ,Rk{Xt= j} , t ∈ N, (j, a) ∈ S × A (7.3) (als de noemer 0 is, neem voor πjat , a ∈ A(j) niet-negatieve getallen metP

a πjat = 1, j ∈ S.) Neem (j, a) ∈ S × A. We bewijzen de stelling met inductie naar t. Voor t = 1 hebben we

Pβ,R∗{X1 = j} = βj and P

k pk· Pβ,Rk{X1= j} = βj. Als βj = 0, dan: Pβ,R∗{X1= j, Y1 = a} =P

k pk· Pβ,Rk{X1 = j, Y1 = a} = 0. Als βj 6= 0, dan volgt uit (7.3) dat

P

k pk· Pβ,Rk{X1 = j, Y1 = a} = P

k pk· Pβ,Rk{X1 = j} · πja1 = βj· π1 ja

= Pβ,R∗{X1 = j, Y1= a}.

Neem aan dat de bewering is aangetoond voor t, dan bewijzen we dat deze ook geldt voor t + 1. Pβ,R∗{Xt+1= j} = P l,b Pβ,R∗{Xt= l, Yb = b} · ptlj(b) = P l,b,k pk· Pβ,Rk{Xt= l, Yb= b} · ptlj(b) = P k pk·P l,b Pβ,Rk{Xt= l, Yb = b} · ptlj(b) = P k pk· Pβ,Rk{Xt+1= j}. Als Pβ,R∗{Xt+1= j} = 0, dan P

k pk· Pβ,Rk{Xt+1= j} = 0, waaruit volgt dat Pβ,R∗{Xt+1= j, Yt+1= a} =P

k pk· Pβ,Rk{Xt+1= j, Yt+1= a} = 0. Als Pβ,R∗{Xt+1= j} 6= 0, dan geldt

Pβ,R∗{Xt+1= j, Yt+1= a} = Pβ,R∗{Xt+1 = j} · πt+1ja =P k pk· Pβ,Rk{Xt+1= j} · πjat+1 = P k pk· Pβ,Rk{Xt+1= j} · P k pk·Pβ,Rk{Xt+1=j,Yt+1=a} P kpk·Pβ,Rk{Xt+1=j} = P k pk· Pβ,Rk{Xt+1= j, Yt+1= a}. Gevolg 7.1

Voor iedere begintoestand i en iedere strategie R is er een Markov strategie R zdd.

Pi,R∗{Xt= j, Yt= a} = Pi,R{Xt= j, Yt= a}, t ∈ N, (j, a) ∈ S × A, en

Ei,R∗{rt

Xt(Yt)} = Ei,R{rt

Optimaliteitscriteria

1. Totale verwachte opbrengsten over een eindige horizon

Beschouw een Markov beslissingsprobleem over een eindige horizon van T perioden. Voor een strategie R en begintoestand i ∈ S wordt de totale verwachte opbrengst over de planning horizon gedefinieerd door: vTi (R) =PT t=1Ei,R{rt Xt(Yt)} =PT t=1 P

j,aPi,R{Xt= j, Yt= a} · rtj(a), i ∈ S.

Zij viT = supR∈CviT(R), i ∈ S, of in vectornotatie, vT = supR∈CvT(R). De vector vT heet de waardevector. Uit Gevolg 7.1 en Lemma 7.1 volgt dat

vT = supR∈C(M )vT(R) en

vT(R) =PT

t=1 P (π1)P (π2) · · · P (πt−1)r(πt), voor R = (π1, π2, · · · ) ∈ C(M ).

Een strategie R heet een optimale strategie als vT(R) = supR∈CvT(R). Het bestaan van een optimale strategie is niet-triviaal: het supremum moet worden aangenomen en ook nog tegelijk voor alle begintoestanden. We zullen aantonen dat er een optimale deterministische Markov strategie R = (f1, f2, · · · , fT) bestaat.

De overige criteria betreffen een oneindige horizon. Voor modellen met een oneindige horizon werken we onder de volgende aanname.

Aanname 7.1

De directe opbrengsten en de overgangskansen zijn stationair. We noteren deze met ri(a) resp. pij(a) voor alle i, j en a.

2. Totale verwachte verdisconteerde opbrengsten over een oneindige horizon

Een bedrag r dat verkregen wordt in periode 1 kan op de bank gezet worden tegen een rente ρ. Dan groeit het bedrag en is ´e´en periode later (1 + ρ) · r waard; in het algemeen is een bedrag r op tijdstip 1 vergelijkbaar met een bedrag (1 + ρ)t−1· r op tijdstip t, t = 1, 2, . . . .

Zij α = (1 + ρ)−1, de verdisconteringsfactor. Merk op dat α ∈ (0, 1). Dan is omgekeerd een bedrag r dat op tijdstip t wordt verkregen equivalent met een bedrag αt−1· r op tijdstip 1, de zogenaamde verdisconteerde waarde. Dus de opbrengst rXt(Yt) op tijdstip t heeft op tijdstip 1 de verdisconteerde waarde αt−1· rXt(Yt). De totale verwachte α-verdisconteerde opbrengst, gegeven begintoestand i en strategie R, wordt gedenoteerd als vαi(R) en gedefinieerd door

viα(R) = X t=1 Ei,Rt−1· rXt(Yt)} = X t=1 αt−1X j,a Pi,R{Xt= j, Yt= a} · rj(a). (7.4)

Dit is een goed gedefinieerd begrip, want als M := max(i,a)|ri(a)|, dan krijgen we in iedere periode minstens −M en hoogstens M , zodat |vαi(R)| ≤P

Zij R = (π1, π2, . . . ) ∈ C(M ), dan is vα(R) =P

t=1αt−1P (π1)P (π2) · · · P (πt−1)r(πt) en voor een stationaire strategie π geldt

vα) =

X

t=1

αt−1P (π)t−1r(π). (7.5)

Analoog aan het geval met de eindige horizon worden de waardevector vαen een optimale strategie R gedefinieerd door vα = supRvα(R) en vα(R) = vα. We zullen aantonen dat er een optimale deterministische strategie f bestaat voor dit criterium.

3. Totale verwachte opbrengsten over een oneindige horizon

Voor dit criterium hanteren we ook nog de volgende aanname.

Aanname 7.2

(1) Het model is substochastisch, d.w.z. P

j pij(a) ≤ 1 voor alle (i, a) ∈ S × A. (2) Iedere strategie is transi¨ent, d.w.z. P

t=1Pi,R{Xt= j, Yt= a} < ∞ voor alle i, j en a.

De totale verwachte opbrengsten, gegeven begintoestand i en strategie R, wordt gedenoteerd als vi(R) en gedefinieerd door vi(R) = X t=1 Ei,R{rXt(Yt)} = X t=1 X j,a Pi,R{Xt= j, Yt= a} · rj(a). (7.6)

Onder bovenstaande Aanname 7.2 is v(R) goed gedefinieerd voor alle strategie¨en R. De waarde-vector en het concept van een optimale strategie worden weer op de gebruikelijke manier gedefini-eerd. Ook kan weer worden aangetoond dat er een optimale stationaire deterministische strategie bestaat.

4. Gemiddelde opbrengsten over een oneindige horizon

Bij het criterium van de gemiddelde opbrengsten beschouwen de T1 PT

t=1rXt(Yt) voor T → ∞. Omdat limT →∞T1 PT

t=1rXt(Yt) niet hoeft te bestaan defini¨eren we φi(R), de gemiddelde op-brengst gegeven begintoestand i en strategie R, via de liminf :

φi(R) = liminfT →∞1 T T X t=1 Ei,R{rXt(Yt)} = liminfT →∞1 T T X t=1 X j,a Pi,R{Xt= j, Yt= a} · rj(a). (7.7) De waardevector φ = supRφ(R) en R is optimaal als φi(R) = φi, i ∈ S. Ook voor dit criterium bestaat er een optimale stationaire, deterministische strategie.