beslissingsproblemen met verdiskontering
Citation for published version (APA):
van Doorn, E. A. (1973). Suksessieve approximatiemetoden voor Markov beslissingsproblemen met verdiskontering. (Memorandum COSOR; Vol. 7302). Technische Hogeschool Eindhoven.
Document status and date: Gepubliceerd: 01/01/1973 Document Version:
Uitgevers PDF, ook bekend als Version of Record Please check the document version of this publication:
• A submitted manuscript is the version of the article upon submission and before peer-review. There can be important differences between the submitted version and the official published version of record. People interested in the research are advised to contact the author for the final version of the publication, or visit the DOI to the publisher's website.
• The final author version and the galley proof are versions of the publication after peer review.
• The final published version features the final layout of the paper including the volume, issue and page numbers.
Link to publication
General rights
Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain
• You may freely distribute the URL identifying the publication in the public portal.
If the publication is distributed under the terms of Article 25fa of the Dutch Copyright Act, indicated by the “Taverne” license above, please follow below link for the End User Agreement:
www.tue.nl/taverne Take down policy
If you believe that this document breaches copyright please contact us at: openaccess@tue.nl
providing details and we will investigate your claim.
81{
COS
iTECHNISCHE HOGESCHOOL EINDHOVEN Onderafdeling der Wiskunde
GROEP STATISTIEK EN OPERATIONS RESEARCH
Memorandum COSOR 73-02
Suksessieve approximatiemetoden voor Markov beslissingsproblemen met verdiskontering
door E.A. van Doorn
een Markov-beslissingsprobleem met verdiskonteerde kosten, eindige toe-standsruimte en eindige beslissingsruimte, zoals dat bijvoorbeeld beschreven
staat in [IJ § 1.
Er zal een kader gepresenteerd worden waarbinnen de tot dusver bekende
op-losmetoden van voornoemde aard, namelijk de metode van Macqueen (zie [IJ) en
de waardemetode (zie [2J), als speciale gevallen figureren.
Hoewel in dit kader de waarde van de be ide bekende metoden gerelativeerd wordt, is vooralsnog niet een verwerping van een van beide metoden ten
gun-ste van een andere het resultaat; echter, mede dankzij een door Blackwell gesuggereerde notatie en enkele door Blackwell bewezen stellingen (zie [3J), zullen de beide metoden, geplaatst binnen het kader, aan doorzichtigheid in de bewijsvoering en helderheid in de notatie winnen.
§ 2. Notatie en fundamentele stellingen
strategie
u(n) bepaald wordt TI
sup u (i). Een resultaat van TI
TI
Blackwell ([3J, theorem 7(b)) is, dat er een, voor elke begintoestand opti-male, stationaire strategie bestaat, te noteren als r(oo); er geldt dus
*
u
=
u • In onze verdere beschouwingen zullen we ons beperken totstationai-*
r*
re strategieen.
Zij X
=
{1, ••• ,N} de toestandsruimte en K de beslissingsruimte.In het vervolg zal aIleen sprake zijn van deterministische Markov-strategie-en, kortweg strategieen genoemd, die gedefinieerd worden door een rij
(r
1,r2, ••• ,rn, ••• ) waarin ri € R: de verzameling afbeeldingen van X in K;
TI
=
(r1,r2, •••,rn, ••• ) betekent, dat strategie TI, indien het systeem op
tijdstip t zich in toestand i bevindt, de beslissing rt(i) voorschrijft.
Indien Vt€~ Crt
=
rJ spreken we van een stationaire strategie; destatio~ai-, ( ) (00)
re strateg~e r,r, ••• ,r, ••• wordt genoteerd als r
uTI is de N-vektor met komponenten u (i): de verwachte metTI n (0 < n < 1)
ver-diskonteerde opbrengst over oneindig lange tijd bij strategie TI en
begintoe-stand i; u. r is per definitie u ( ). u(n) is de N-vektor van verwachte ver-00 TI
r
diskonteerde opbrengsten over de eerste n perioden bij ~
=
(r1,r2, ••• ,rn, ••• ) en eindwaarden nul; merk op dat door rl,r2, ••• ,rn• Men ziet dat u;oo)=
uTI'Zij u* de N-vektor met komponenten u*(i) :=
De N x N-matrix van overgangskansen {P (,)(i,j)}, , behorende bij een r € R,
r ~ ~,J
wordt genoteerd als P • De N-vektor van onmiddellijke opbrengsten bij een
r
r € R: {q (,)(i)}, wordt genoteerd als q en de i-de komponent als q (i),
r ~ ~ r r
welke voor aIle i en r groter dan nul verondersteld wordt.
Met vektoren worden steeds kolomvektoren bedoeld; vektorongelijkheid wordt als voIgt gedefinieerd:
\I N N[u>v:<==>
U€JR , V€ JR
V, [u(i)
~ ~ v(i)J &3,~ [u(i) >'v(i)JJ
met de voor de hand liggende uitbreidingen ~, < en S. We maken in
schrijf-wijze geen onderscheid tussen vektoren en skalairen. Ret zal nuttig blijken te zijn operatoren T
r (r € R) en U te introduceren,
(1. 1) Defini tie. (i) \I N [T f := fElR r q + aP f] r r (ii) \I N[Uf := fElR max TrfJ rER
Opmerking. Eenvoudig is na te gaan dat (ii) een korrekte definitie is in die
zin dat er een r E R bestaat waarvoor T f komponentsgewijs maximaal over R
r
is.
Zij lRN genormeerd met de norm II II , d.w.z. als f E lRNdan UfU
~ ~ (1.2) Stelling.
:=
suplf(i)I.
i (i) (ii)Z~J'
L f,g E lRN, f ~ g, r E R, dan Uf ~ Ug en T f ~ T g. r rZij c een N-vektor met identieke komponenten, f E ]RN, dan geldt:
U(f +c) = Uf + ac
en
T (fr + c) = T fr + ac •
(iii) U en T (r E R) zijn kontraktiesmet modulus a.
r
Bewijs. Zie Blackwell [3J, theorems 3, 4 en 5.
o
Opmerking. Wegens (iii) en de vaste-punt-stelling van Banach hebben U en T r unieke vaste punten.
In het vervolg zal van de volgende door Blackwell bewezen stelling gebruik worden gemaakt:
(1.3) Stelling. (i) u =
*
n~ (ii) u = T u = lim Tnf r r r r n~Bewijs. Zie Blackwell [3J, theorems 6(a) en 7(a).
o
waarin T
k de operator uit definitie (1.1) is behorende bij die r € R,
waar-voorV. X [r(i) = kJ.
1€
§ 3. De A(A)-algoritme
In deze paragraaf zullen de algoritmen gepresenteerd worden welke een gene-ralisatie zijn van de·algoritmen van Macqueen [IJ en Kersten [2J; de relatie
met deze beide algoritmen zal in § 4 uiteengezet worden.
Hier en in de rest van dit verslag worden, waar dit geen misverstand kan verwekken, de indices "r " van bepaalde grootheden vervangen door indices
n
"n"; zo schrijven we T , P ,q en u in plaats van T ,P
r , qr en u
n n n n . r r
n n n n
A is in het vervolg een getal uit ~ U {ole
(3.1) algoritme A(A) de MQ-variant:
stap I: initialiseer n = 0, v
o
= 0; kies E > 0;s tap 2: n :
=
n+ I ;bepaal rn z.d.d .. Tnvn- 1 =
bepaal zn = Tnv n_1;
Uvn-I;
stap 3: bepaal K'n = min (z v I)(i);
i n n-K"n = max (z .- v I)(i); i . n n-v' = v + _1_ K' n n-I I-a n v" = v + _1_ K" n n-I I-a n
als
T=a
I (K" - K' ) :5 E min v'(i): ga na stap 5;n n
i n
stap 4: bepaal vn
=
TAn zn'.
ga naar stap 2;stap 5: stop; een schatting voor r* is r n
een schatting voor un is Hv" + v')
n n
de WM-variant
stap 3: als n ~ 2 bepaal M~_l = min (v n_1 i TAo IV 2') (i); n- n-Mil
n-I = maxi (Vn_ 1 - TAon-I n-2V )(1")''
W' = v + _cx_ M'
n-I n-I I - cx n-I
W" = v + _cx_ Mil
n-I n-I I - cx n-I
ais
I cx2
{max (z - T Iv I ) (i) + - - (Mil - MI ) } ~ e:mi n wI I (i)
I - cx i n n- n- I - cx n-I n-I i
n-ga naar stap 5
stap 5: stop: een schatting voor r* is r n_1 een schatting voor u
n_1 is !(w~_1 + w~_I)
Opmerking. De beide varianten verschiIIen dus uitsluitend in stopkriterium, ni. in de stappen 3 en 5. (3.2) Stelling. I(i) u* ~ u ~ v ~ z ~ v n-I n n n (ii) z ~ u(n) n * II(i) (ii) v' ~ u ~ v" n
*
nv'is monotoon niet-dalend, v" is monotoon niet-stijgend
n n (iii) v' -+ u*' v" -+ u (n -+ 00) n n
*
(iv) III (i) (ii) v' ~ u n n v' ~ w' ~ u ~ w" ~ v" n n n n n W' is monotoon niet-dalend n I cx2(iii) u* - un-I - I -< - -cx {max (zn - Tn-IVn-I) (i) + - -I - cx (Miln-I - M'n-I)}.
i
Opmerking I. A priori kunnen we aan een stopkriterium de volgende eisen stellen:
(III(i»
(a) er moet binnen eindig veel stappen aan voldaan worden;
(b) indien aan het stopkriterium is voldaan moe ten we kunnen beschikken over
( 1) een schatting r voor r die zodanig is dat u - u ::; EU •
*
r*'
(2) een schatting U voor u die zodanig is dat IU
r - ul ::; EUr· r
Wat de MQ-variant betreft wordt aan eis (a) voldaan dankzij II(iii), aan eLS (b) (1) dankzij II(i) en II(iv) en aan eis (b)(2) dankzij II(i) en II(iv); wat de WM-variant betreft wordt aan eis (a) voldaan dankzij III (i) (indirekt dankzij II(iii», aan eis (b)(l) dankzij III(iii), aan eis (b)(2) dankzij
III(i) (tenminste als a
~
t).
Toelichting op de laatste bewering:
aan het stopkriterium is voldaan ~
~ (_a_)2 (M" - MI ) < . I ( • ) 1 - a n-I n-l - E m:n wn- l L L ~ a ( " w ' ) : : ; • I ( . ) ~ wn- 1 - n-I E m:n wn-l L L " , I - a . , (') ~ w n-1 wn_ l ::; E - a - m:n Un_1 L L ~ u - 1(wI + W" ) < U n-I 2 n-l n-l - E n-l I als a ~
'3 .
Opmerking 2. II(i) is een direkt gevolg van II(ii) en II(iii); een
alterna-tief bewijs voor II(i) zal worden gegeven omdat dit een interessante toepas-sing van stelling (1.4) inhoudt, en bovendien ten behoeve van een later te gebruiken tussenresultaat.
Voor het bewijs van stelling (3.2) (en ook in het verdere verloop van dit verslag) hebben we het volgende lemma nodig:
(3.3) Lemma.
(i) aAK' ::; M' & M" ::; aAK"
n n n n
(ii) aA+1M' < M'
n - n+l
(iii) aM' ::; K' en als r = r n+1 dan K" ::; aM"
Bewij s. A ~ I. ad (i) dus ::;; min i (TnAZn - TnAvn-I)(i) = M'n ad (ii) dus Z = T v > T v ~ T (T A- I Z + M' )= v + aM'
n n n-I - n-I n-I n-I n-I n-I n-I n-I n-I
dus
v
n
=
TAn vn-i + NA+IM'~ n-IM' =
n min
i
(v - TA v I)(i) ~ aA+1M'
n n n- n-I
ad (iii) zn+I ~ v + aM' (zie ad (ii»
n n
dus
K'n+I = min (zn+I
-
v ) ~ aM'i n n
r = r => zn+I = Tn+Ivn = T v ::;; T (TA-Iv + M") = v + aM"
n+I n n n n n n-I n n n dus K" ::;; aM" • n+I n
o
Als A= 0 geldt K~ geldig blijven. = M' en K"=
n n M"· eenvoudig is in te zien dat de relatiesn'
Bewijs van stelling (3.2).
ad lei):
- u* ~ un triviaal;
- zl
=
TIO=
max qk(·) > 0 = vO;k
dus Zo <:: v0-I; TA <:: TA A-I dus <::
.
- v = Z v = T Z <:: <:: Z V o Z 0-1...
0' 0' 0 0 0 0 0 0 - v <:: Zo ==> TAv <:: v ==>V
TAR,v <::vo ' dus ook lim TAR-v = u <:: v·
0 0 0 0 R,E:lN 0 0 0 0 0 o· R,-+oo dus Z <:: u(o). 0 * ' ( R,-I) <:: u , dao
*
T u(R,-I) = u(R,) ,* *
*
ad I (ii): - zl=
T 0=
max q ( ) > u(I). 1 k · -*
'
kmet volledige ioduktie: stel zR,_1
ad II(i):
- T v" - v" T ( + _1_ K") - - _1_ K" = T v - v - K" :s;
k 0 0 = k vo_ 1 I - a 0 vo_ 1 I,.... a 0 k 0-1 0-1 0
:s; T v - v - K" = Z - v - K" :s; 0 voor aIle k E: K; volgeos (1.4)
o 0-1 0-1 o · 0 0-1 0
geldt dus u :s; v".
*
0- v ' - T v ' = v +_I_ K, T( + _ I _ K ' ) = v - T v +K'=
o 0 0 0-1 I -a 0 - 0 v0-1 I -a 0 0-1 0 0-1 0
= v - Z + K' :s; 0; omdat T v' :s; Uv' geldt dus v' :s; Uv' eo ook
0-1 0 0 0 0 0 0 0
VR,E:lNv~
:s;uR,v~;
volgeos (1.3)(i) geldt dus lim UR,v' = u* <::v~.
R,-+oo 0 ad II(ii): <:: + K' ==> TA <:: A + aAK', Z v 0-1 Z T v I 0 0 0 0 0 0- 0
dus v <:: TA-IZ + aAK' <:: TA- I (v + K') + aAK' =
n 0 0 0 o 0-1 0 0 A-2 (aA-I + aA)K' (J A = T Z + <:: <:: v o_1 + + a +
...
+ a )K' = 0 0 0 0 A+I + - a· K' = vo_ 1 I-a
0 dus v' 0+1=
vo + _1_ K'I - a 0+1 = vo + -1_1- mio (T- a . 0+IV0 - v )(i)0 <:: ~~ vn-I +
HI
- a K' + -1-1- min (T (TA-Iz + aAK') - v )(i) =
I-a n - a . n n n n n ~ dus
=
v
+ __1__ K'=
v'
n-I I -a n n v~+1 ~ v~ en analoog v~+1 :s;v".
n ad II(iii) : v' n I=
v + ---- K'=
n-I I - a n vn_1 + -1_1- min (z- a . n - vn-I)(i)
~
~
u* + I~am~n
(u* - u*)(i) = u*~
(n ~ ex»
dus v~ ~ u* (n ~ ex» en analoog v~ ~ u* (n ~ ex».
ad II(iv) : v' - T v' :s; 0 (zie ad (ii» n n n dus
V
tElNv'n -< Tt v' n n dus lim Tt v'=
u ~ v' • t~ n n n n ad III(i): - zn=
Tn n-Iv ~ qn=
zn - aPn n-v I ex> aip i ex> un = T un n =r
q =r
aipi(z-
aP v I) = i=O n n i=O n n n n-ex> = Z +r
aipi(z - v ) = n i=1 n n n-I ex> aipi(T z = TA z +r
- T v )'"
n ni=A n n n n n-I A€lNU{O}
ex> aipi(T A II..
r
A = n zn + z - T v ) = i= I n n n n n-I ex> aipi(vr
A = v + - Tn vn_ l) n i= I n ndus w' = v + _a_ M' ::; u ::; v + _a_ M" = w"
n n I-a n n n I-a n n
- w'
n = vn + _a_I-a M'n =
(zie lemma (3.2)(i)) ),,+1
=
v + __a__ (M' - a)..K') + _a__ K' ~n I-a n n I-a n
)..+1
~ v + _a K'
n I - a n
> v + __1_ K'
=
v'- n-I I -a n n (zie bewijs II(ii));
analoog w" ::; v".n n ad III(ii): w' = v + __a__ M' ~ n+1 n+1 I - a n+1 ),,+2 ~ v + _a__ M' n+1 I - a n ),,-1 ),,+1 = T z + ~ M' ~ n+1 n+1 I - a n volgens (3.3)(ii) volgens ad (3.3)(ii) ),,-1 ),,+1 ~ T (v + aM') + ~ M' ~ ~ n+1 n n I - a n 2 . > z + _a_ M' ~ v + __a__ M' = w' - n+ I I - a n n I - a n n ad III (iii) : Volgens III(i): 0 < - w' ::; w" - w' a (M" - M' ).
- un_ I n - I n - I n- I =
T=""a
n-I n- I 'bovendien: u* - u
=
T u - T u=
T u - T u + T u - T un-I * * n-I n-I * * * n-I * n-I n-I n-I
=
aP*(u* - un-I) + T*un_ 1 - Tn_Iun_l ;=
dus (I - aP )(u - u )
=
T u - T uofweI ""
r
i=O "" a,ipi{T (w' ~r
+ _a,_ (Mil - M'»
- T w' } i=O* *
n-l 1 - a, n-l n-l n-] n-] "" a,ipi{T w' a,2 =r
- T w' + - - (Mil - M' )} = i=O* *
n-] n-] n-l 1 - a, n-] n-l ~ i i . a,2= .
L a, P {T* *
v 1 - T v + - (Mil - M' )} ~ n- n-l n-] 1 - a, n-l n-l ~=O ""r i iP { ( T ) ( .) + - -a,2 (Mil - M' )}=
ex*
max zn - n-l vn-l ~ ] - a, n-l n-l i=O i 1 a,2{max (z - T IV 1)(i) + - - (Mil - M' )}.
=
T'='CX
n n- n- 1 - ex n-] n-li
o
De navolgende lemma's zijn een eerste stap in het vergelijkende onderzoek
van de beide varianten van de A(A)-algoritme; de lemma's (3.4) tIm (3.7)
ge-ven met name enige relaties tussen de stopkriteria van de beide varianten.
Zij in het vervolg ex~;€ de reeelwaardige oplossing van de vergelijking
a,~
- = 1+€ (met 0 ~ a, ~ 1).
1 - a,
(3.4) Lemma. Voor de variabelen uit de A(A)-algoritme geldt:
. 1 V [ - - (K" - K ' ) ~ € min v' (i) a,~a,A+2;O 1 - a, n n i n volgens (3.3)(i). € min v' (i) i n ~ E min i (Mil - M' ) (1_a,)2 n n 1 (K" - K ') I-a, n n 2+A
~
-a,m~n v~(i)
-~ Bewij s. Nu geldtdus
2+>'
~ _a min v'(i) - min v'(i)
I - a . n n 1 i 2+>. ~ (a l _,. _.... 1) min v'(i)i n ~ 0 volgens (3.2)III(i) (M" - M') ~ £ min w'(i) • n n . n 1
o
Opmerking. Enkele waarden van a>.+2;0 zijn:
a 2;0
=
0,62a 3;0
=
0,68a4;0 = 0,72
a 5;0
=
0,75Beschouwing van de stappen 3 en5 van de A(>.)-algoritme maakt duidelijk dat dit lemma impliceert dat, indien tijdens de n-de iteratie aan het
stopkrite-ri~m van de MQ-variant is 'voldaan en r
n+1
=
rn, in de (n+I)-de stap aan hetstopkriterium van de WM-variant is voldaan; dit alles binnen de gegeven grenzen voor a. Aan het slot van deze paragraaf wordt deze uitspraak nader geadstrueerd.
(3.5) Lemma. Voor de variabelen uit de A(>.)-algoritme geldt: [r
n
a2
=
r & (M" - M' ) ~n-I (l _a)2 n-I n-I £ min w'. n-1(i)
1 Bewijs. 1 (K" - K')
~
1 - a n n w' - v' ~ v" - v' n-l n n n £ min v'(i)] • i nvolgens (3.2)III(i) en (ii)
v" - v' = _1_ (K" - K') ~ n n I-a n n a I-a . (Mil - M' ) ~ £ - - - m1n w' I (i) 1 - a n-l n-l a . n-1
volgens (3.3)(iii) en het gegeven, dus
w' n-l v'n ~ I - a . £ - - m1n w' l(i) a . n-1
dus dus min w'. n-1(i) 1. s I min v'(i) 1 - £(l-a) i n a I (K" - K')
T'=""a
n n I-a s £ -a I _ £(I -I a) min v'(i) •n a dus = - - - -a .£ min v' (i)nT'=""a -
e:\J
1 (K" - K') S a~a1T'=""a
n n;£
£ min v'(i) •i no
Opmerking. Enkele waarden van Q
I;£ zijn:
al;O = 0,50 a
=
0,52 •1; 0, I
De bewering welke formeel in dit lemma is uitgedrukt luidt: voor zekere a's geldt dat, indien tijdens de n-de iteratie van de A(A)-algoritme aan het
stopkriterium van de WM-variant is voldaan met de bijzonderheid dat rn
=
=
rn- 1, tevens tijdens de n-de iteratie aan het stopkriterium van deMQ-va-riant zal zijn voldaan.
(3.6) Lemma. Voor de variabelen uit de A(O)-algoritme geldt:
\J
[ a 2 (M" - M') S £ min w~(i) a~a2 (l - a)2 n n i ;£ 1 (K" - K' ) S £ min v' (i) ] ""'!>T'=""a
n n i nBewijs. w' - v' S v" - v' volgens (3.3)(i)
n n n n dus = _1_ (K" - K') = I - a n n 1 1 - a (M" - M') S - - £ min w' (i) 1 - a n n a2 i n 1
. min w' (i) S --~-:---~ min v' (i)
i n 1 _ £(l - a) i n
_1_ (K" - K') 1 - a n n 1 - a 1 ~
- -
----.;;...,.--~ a2 1 _ e:(I-a) a2 £ min v' (i)=
. n J. dUB =--~-a2 - - - £ I-a £ min v' (i) . n J.v
> - 11 (K" - K')~
£ min v' (i) • a-a2 - a n n . n;£
J.Opmerking. Enkele waarden van a
2
;£
zijn: a2;0 R:I 0,63a
2;0,I
llll 0,63 •o
De betekenis van dit lemma is dat het stopkriterium van de MQ-variant beter
is dan dat van de WM-variant voor A
=
0 en a ruwweg groter dani ;
immersuit het lemma blijkt dat, indien tijdens de (n+I)-de iteratie 'nog maar ten dele aan het stopkriterium van de WM-variant is voldaan, tijdens de n-de iteratie a1 aan het stopkriterium van de MQ-variant voldaan is.
Voora1snog is het niet mogelijk gebleken zoveel meer teoretisch materiaal te verzamelen dan het voorafgaande, dat een ondubbelzinnige uitspraak kan wor-den gedaan over de relatieve efficientie van de MQ- resp. de WM-variant van de A(A)-algoritme. Praktijkervaring (zie De Leeuw [4J) kan ons echter een indikatie dienaangaande geven. Welnu, uit de praktijk blijkt dat in de A(A)-algoritme gedurende een groot aantal iteraties, vear dat aan het stopkrite-rium van de WM-variant is voldaan, de strategie niet meer verandert, hetgeen
betekent dat de term: max (z - T IV 1) in al die iteraties nul is.
. n n-
n-J.
Dit overwegende en bovendien het feit dat bij vaste A de WM-variant van A(A) per iteratie ongeveer een gelijke hoeveelheid rekenwerk vereist a1s de MQ-variant, 1ijkt op grond van lemma (3.5) een voorzichtige konklusie, dat voor
verdiskonteringsfaktoren dichtbij 1 de MQ-variant van de A(A)-algoritme
sneller is dan de WM-variant, hier op zijn plaats.
Dankzij lemma (3.6) kunnen we de term "voorzichtig" in bovenstaande konk1u-sie t.a.v. de A(O)-algoritme gevoeglijk achterwege laten. Ret belang van lemma (3.6) kan echter pas ten volle blijken indien meer bekend is over de rol van de parameter ,A in beide varianten van de A(A)-algoritme, een nog braakliggend terrein voor onderzoek.
Lemma (3.4) maakt op grond van bovengenoemde opmerkingen plausibel dat voor kleine waarden van de verpiskonteringsfaktor de WM-variant sneller is dan de
!~ MQ-variant.
§ 4. Relatie van de A(A)-algoritme tot bekende methoden
In het vervolg zal blijken dat de WM-variant van de A(I)-algoritme
ekwiva-lent is met de waardemetode, zoals die door Kersten in [2J beschreven is, en
de MQ-variant van de A(O)-algoritme met de metode van Macqueen, beschreven
in [IJ.
Het onderstaande lemma stelt ons in staat de eerste van deze ekwivalenties te bewijzen.
(4. I) Lemma. Zij AEE U {o}. Laten {vO,v
l' ••• } en {vO,vl' ••• } verzamelingen
vek-toren uit lRn zijn waarvoor geldt:
v
=
0 0 vn"= TA+1V + c r n-I n n Uvn-.1 n=
1,2, ••• met r n z.d.d. Tr vn-1 = nen cn een N-vektor met identieke komponenten welke een
funktie zijn van rl,cI,vI, ••• ,vn_l,rn;
n
=
1,2, ••• danV
o
=
0v
=
TA+I ... v n r n-l n metr
n z.d.d. T.... vr n-1=
UV
n-I;
n (i) rn=
r
n(ii) vn
=
v
n + d waarin{dO
c0
n
d
=
aA+1d + c •n n-I n
N.B. Neem bij meer mogelijkheden voor de keuze van r (i) (ofn
r
n(i» hetele-ment uit K met de laagste index dat to~ de mogelijkheden behoort; hierbij is
een indicering van K verondersteld. Bewijs. Met volledige induktie:
wegens het eenduidige keuzekriterium geldt dus =
...
r l rl TA+1v + c 1 TA+I .... + c 1 = vI + d l vI = = .... Vo
.
rIO r1 Stel rR. = rR. +dJ
R. = I.2 •••• ,n-1•
vR. = vR. dan:" rER Tr n-Iv = Tr n-I
v
+ adn-1'•Omdat d 1 konstant is en het keuzekriterium eenduidig. worden
n-max (T
v
1 + ad 1) en max (T v I) door dezelfde r gerealiseerd. dusr n- n- r n-r r r
=
r
n n=
TA+Iv + C r n-I n n ·T~+I(v'" d )=
r
n-l + n-) n + C=
n=
T +1.... + A+l d +=
r vn- I a n-I cn nhiermee is het gestelde voor aIle n bewezen.
(4.2) Stelling. De waardenmetode van Kersten [2J is ekwivalent met de WM-variant van de A(I)-algoritme.
o
Bewijs. We volstaan hier met een schets van het bewijs:
Gebruik makend van een door lemma (4.1) gesuggereerde transformatie van de
grootheden vR. uit [2J (vR. vervult dan de rol vkn v uit lemma (4.1) en
n
I
~
s
m~
correspondeert met cn) ontstaat een algoritme die nog slechts inno-tatie afwijkt van de WM-variant van de A(I)-algoritme.
0
(4.3) Stelling. De metode van Macqueen [IJ is ekwivalent met de MQ-variant van de A(O)-algoritme.
Bewijs. Ook hier volstaan we met een schets:
Macqueen [IJ werkt met relatieve v -waarden t.o.v. een bepaald element uit n
X. Een geschikte transformatie van de grootheden uit Macqueen [IJ resulteert in een algoritme welke aIleen nog in notatie afwijkt van de MQ-variant van
Literatuur
[IJ J. MacQueen: A modified Dynamic Programming Method for Markovian
Decision Problems.
J. Math. An. Appl.
l i
(1966), 38-43.[2J T.A.G.M. Kersten: Enkele Narkov beslissingsproblemen.
Afstudeerverslag T.H.E. 1972.
[3J D. Blackwell: Discounted Dynamic Programming.
Ann. Math. Stat. 36 (1965), 226-234.
[4J A.A.C.M. de Leeuw: Een onderzoek naar verschillende aspecten van de
waardemethode.