• No results found

Suksessieve approximatiemetoden voor Markov beslissingsproblemen met verdiskontering

N/A
N/A
Protected

Academic year: 2021

Share "Suksessieve approximatiemetoden voor Markov beslissingsproblemen met verdiskontering"

Copied!
21
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

beslissingsproblemen met verdiskontering

Citation for published version (APA):

van Doorn, E. A. (1973). Suksessieve approximatiemetoden voor Markov beslissingsproblemen met verdiskontering. (Memorandum COSOR; Vol. 7302). Technische Hogeschool Eindhoven.

Document status and date: Gepubliceerd: 01/01/1973 Document Version:

Uitgevers PDF, ook bekend als Version of Record Please check the document version of this publication:

• A submitted manuscript is the version of the article upon submission and before peer-review. There can be important differences between the submitted version and the official published version of record. People interested in the research are advised to contact the author for the final version of the publication, or visit the DOI to the publisher's website.

• The final author version and the galley proof are versions of the publication after peer review.

• The final published version features the final layout of the paper including the volume, issue and page numbers.

Link to publication

General rights

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain

• You may freely distribute the URL identifying the publication in the public portal.

If the publication is distributed under the terms of Article 25fa of the Dutch Copyright Act, indicated by the “Taverne” license above, please follow below link for the End User Agreement:

www.tue.nl/taverne Take down policy

If you believe that this document breaches copyright please contact us at: openaccess@tue.nl

providing details and we will investigate your claim.

(2)

81{

COS

i

TECHNISCHE HOGESCHOOL EINDHOVEN Onderafdeling der Wiskunde

GROEP STATISTIEK EN OPERATIONS RESEARCH

Memorandum COSOR 73-02

Suksessieve approximatiemetoden voor Markov beslissingsproblemen met verdiskontering

door E.A. van Doorn

(3)

een Markov-beslissingsprobleem met verdiskonteerde kosten, eindige toe-standsruimte en eindige beslissingsruimte, zoals dat bijvoorbeeld beschreven

staat in [IJ § 1.

Er zal een kader gepresenteerd worden waarbinnen de tot dusver bekende

op-losmetoden van voornoemde aard, namelijk de metode van Macqueen (zie [IJ) en

de waardemetode (zie [2J), als speciale gevallen figureren.

Hoewel in dit kader de waarde van de be ide bekende metoden gerelativeerd wordt, is vooralsnog niet een verwerping van een van beide metoden ten

gun-ste van een andere het resultaat; echter, mede dankzij een door Blackwell gesuggereerde notatie en enkele door Blackwell bewezen stellingen (zie [3J), zullen de beide metoden, geplaatst binnen het kader, aan doorzichtigheid in de bewijsvoering en helderheid in de notatie winnen.

(4)

§ 2. Notatie en fundamentele stellingen

strategie

u(n) bepaald wordt TI

sup u (i). Een resultaat van TI

TI

Blackwell ([3J, theorem 7(b)) is, dat er een, voor elke begintoestand opti-male, stationaire strategie bestaat, te noteren als r(oo); er geldt dus

*

u

=

u • In onze verdere beschouwingen zullen we ons beperken tot

stationai-*

r

*

re strategieen.

Zij X

=

{1, ••• ,N} de toestandsruimte en K de beslissingsruimte.

In het vervolg zal aIleen sprake zijn van deterministische Markov-strategie-en, kortweg strategieen genoemd, die gedefinieerd worden door een rij

(r

1,r2, ••• ,rn, ••• ) waarin ri € R: de verzameling afbeeldingen van X in K;

TI

=

(r1,r2, •••,r

n, ••• ) betekent, dat strategie TI, indien het systeem op

tijdstip t zich in toestand i bevindt, de beslissing rt(i) voorschrijft.

Indien Vt€~ Crt

=

rJ spreken we van een stationaire strategie; de

statio~ai-, ( ) (00)

re strateg~e r,r, ••• ,r, ••• wordt genoteerd als r

uTI is de N-vektor met komponenten u (i): de verwachte metTI n (0 < n < 1)

ver-diskonteerde opbrengst over oneindig lange tijd bij strategie TI en

begintoe-stand i; u. r is per definitie u ( ). u(n) is de N-vektor van verwachte ver-00 TI

r

diskonteerde opbrengsten over de eerste n perioden bij ~

=

(r1,r2, ••• ,rn, ••• ) en eindwaarden nul; merk op dat door rl,r2, ••• ,rn• Men ziet dat u;oo)

=

uTI'

Zij u* de N-vektor met komponenten u*(i) :=

De N x N-matrix van overgangskansen {P (,)(i,j)}, , behorende bij een r € R,

r ~ ~,J

wordt genoteerd als P • De N-vektor van onmiddellijke opbrengsten bij een

r

r € R: {q (,)(i)}, wordt genoteerd als q en de i-de komponent als q (i),

r ~ ~ r r

welke voor aIle i en r groter dan nul verondersteld wordt.

Met vektoren worden steeds kolomvektoren bedoeld; vektorongelijkheid wordt als voIgt gedefinieerd:

\I N N[u>v:<==>

U€JR , V€ JR

V, [u(i)

~ ~ v(i)J &3,~ [u(i) >'v(i)JJ

met de voor de hand liggende uitbreidingen ~, < en S. We maken in

schrijf-wijze geen onderscheid tussen vektoren en skalairen. Ret zal nuttig blijken te zijn operatoren T

r (r € R) en U te introduceren,

(5)

(1. 1) Defini tie. (i) \I N [T f := fElR r q + aP f] r r (ii) \I N[Uf := fElR max TrfJ rER

Opmerking. Eenvoudig is na te gaan dat (ii) een korrekte definitie is in die

zin dat er een r E R bestaat waarvoor T f komponentsgewijs maximaal over R

r

is.

Zij lRN genormeerd met de norm II II , d.w.z. als f E lRNdan UfU

~ ~ (1.2) Stelling.

:=

suplf(i)

I.

i (i) (ii)

Z~J'

L f,g E lRN, f ~ g, r E R, dan Uf ~ Ug en T f ~ T g. r r

Zij c een N-vektor met identieke komponenten, f E ]RN, dan geldt:

U(f +c) = Uf + ac

en

T (fr + c) = T fr + ac •

(iii) U en T (r E R) zijn kontraktiesmet modulus a.

r

Bewijs. Zie Blackwell [3J, theorems 3, 4 en 5.

o

Opmerking. Wegens (iii) en de vaste-punt-stelling van Banach hebben U en T r unieke vaste punten.

In het vervolg zal van de volgende door Blackwell bewezen stelling gebruik worden gemaakt:

(6)

(1.3) Stelling. (i) u =

*

n~ (ii) u = T u = lim Tnf r r r r n~

Bewijs. Zie Blackwell [3J, theorems 6(a) en 7(a).

o

waarin T

k de operator uit definitie (1.1) is behorende bij die r € R,

waar-voorV. X [r(i) = kJ.

1€

(7)

§ 3. De A(A)-algoritme

In deze paragraaf zullen de algoritmen gepresenteerd worden welke een gene-ralisatie zijn van de·algoritmen van Macqueen [IJ en Kersten [2J; de relatie

met deze beide algoritmen zal in § 4 uiteengezet worden.

Hier en in de rest van dit verslag worden, waar dit geen misverstand kan verwekken, de indices "r " van bepaalde grootheden vervangen door indices

n

"n"; zo schrijven we T , P ,q en u in plaats van T ,P

r , qr en u

n n n n . r r

n n n n

A is in het vervolg een getal uit ~ U {ole

(3.1) algoritme A(A) de MQ-variant:

stap I: initialiseer n = 0, v

o

= 0; kies E > 0;

s tap 2: n :

=

n+ I ;

bepaal rn z.d.d .. Tnvn- 1 =

bepaal zn = Tnv n_1;

Uvn-I;

stap 3: bepaal K'n = min (z v I)(i);

i n n-K"n = max (z .- v I)(i); i . n n-v' = v + _1_ K' n n-I I-a n v" = v + _1_ K" n n-I I-a n

als

T=a

I (K" - K' ) :5 E min v'(i): ga na stap 5;

n n

i n

stap 4: bepaal vn

=

TAn zn'

.

ga naar stap 2;

stap 5: stop; een schatting voor r* is r n

een schatting voor un is Hv" + v')

n n

de WM-variant

(8)

stap 3: als n ~ 2 bepaal M~_l = min (v n_1 i TAo IV 2') (i); n- n-Mil

n-I = maxi (Vn_ 1 - TAon-I n-2V )(1")''

W' = v + _cx_ M'

n-I n-I I - cx n-I

W" = v + _cx_ Mil

n-I n-I I - cx n-I

ais

I cx2

{max (z - T Iv I ) (i) + - - (Mil - MI ) } ~ e:mi n wI I (i)

I - cx i n n- n- I - cx n-I n-I i

n-ga naar stap 5

stap 5: stop: een schatting voor r* is r n_1 een schatting voor u

n_1 is !(w~_1 + w~_I)

Opmerking. De beide varianten verschiIIen dus uitsluitend in stopkriterium, ni. in de stappen 3 en 5. (3.2) Stelling. I(i) u* ~ u ~ v ~ z ~ v n-I n n n (ii) z ~ u(n) n * II(i) (ii) v' ~ u ~ v" n

*

n

v'is monotoon niet-dalend, v" is monotoon niet-stijgend

n n (iii) v' -+ u*' v" -+ u (n -+ 00) n n

*

(iv) III (i) (ii) v' ~ u n n v' ~ w' ~ u ~ w" ~ v" n n n n n W' is monotoon niet-dalend n I cx2

(iii) u* - un-I - I -< - -cx {max (zn - Tn-IVn-I) (i) + - -I - cx (Miln-I - M'n-I)}.

i

Opmerking I. A priori kunnen we aan een stopkriterium de volgende eisen stellen:

(9)

(III(i»

(a) er moet binnen eindig veel stappen aan voldaan worden;

(b) indien aan het stopkriterium is voldaan moe ten we kunnen beschikken over

( 1) een schatting r voor r die zodanig is dat u - u ::; EU •

*

r

*'

(2) een schatting U voor u die zodanig is dat IU

r - ul ::; EUr· r

Wat de MQ-variant betreft wordt aan eis (a) voldaan dankzij II(iii), aan eLS (b) (1) dankzij II(i) en II(iv) en aan eis (b)(2) dankzij II(i) en II(iv); wat de WM-variant betreft wordt aan eis (a) voldaan dankzij III (i) (indirekt dankzij II(iii», aan eis (b)(l) dankzij III(iii), aan eis (b)(2) dankzij

III(i) (tenminste als a

~

t).

Toelichting op de laatste bewering:

aan het stopkriterium is voldaan ~

~ (_a_)2 (M" - MI ) < . I ( • ) 1 - a n-I n-l - E m:n wn- l L L ~ a ( " w ' ) : : ; • I ( . ) ~ wn- 1 - n-I E m:n wn-l L L " , I - a . , (') ~ w n-1 wn_ l ::; E - a - m:n Un_1 L L ~ u - 1(wI + W" ) < U n-I 2 n-l n-l - E n-l I als a ~

'3 .

Opmerking 2. II(i) is een direkt gevolg van II(ii) en II(iii); een

alterna-tief bewijs voor II(i) zal worden gegeven omdat dit een interessante toepas-sing van stelling (1.4) inhoudt, en bovendien ten behoeve van een later te gebruiken tussenresultaat.

Voor het bewijs van stelling (3.2) (en ook in het verdere verloop van dit verslag) hebben we het volgende lemma nodig:

(3.3) Lemma.

(i) aAK' ::; M' & M" ::; aAK"

n n n n

(ii) aA+1M' < M'

n - n+l

(iii) aM' ::; K' en als r = r n+1 dan K" ::; aM"

(10)

Bewij s. A ~ I. ad (i) dus ::;; min i (TnAZn - TnAvn-I)(i) = M'n ad (ii) dus Z = T v > T v ~ T (T A- I Z + M' )= v + aM'

n n n-I - n-I n-I n-I n-I n-I n-I n-I n-I

dus

v

n

=

TAn vn-i + NA+IM'~ n-I

M' =

n min

i

(v - TA v I)(i) ~ aA+1M'

n n n- n-I

ad (iii) zn+I ~ v + aM' (zie ad (ii»

n n

dus

K'n+I = min (zn+I

-

v ) ~ aM'

i n n

r = r => zn+I = Tn+Ivn = T v ::;; T (TA-Iv + M") = v + aM"

n+I n n n n n n-I n n n dus K" ::;; aM" • n+I n

o

Als A= 0 geldt K~ geldig blijven. = M' en K"

=

n n M"· eenvoudig is in te zien dat de relatiesn'

Bewijs van stelling (3.2).

ad lei):

- u* ~ un triviaal;

- zl

=

TIO

=

max qk(·) > 0 = vO;

k

(11)

dus Zo <:: v0-I; TA <:: TA A-I dus <::

.

- v = Z v = T Z <:: <:: Z V o Z 0-1

...

0' 0' 0 0 0 0 0 0 - v <:: Zo ==> TAv <:: v ==>

V

TAR,v <::

vo ' dus ook lim TAR-v = u <:: v·

0 0 0 0 R,E:lN 0 0 0 0 0 o· R,-+oo dus Z <:: u(o). 0 * ' ( R,-I) <:: u , dao

*

T u(R,-I) = u(R,) ,

* *

*

ad I (ii): - zl

=

T 0

=

max q ( ) > u(I). 1 k · -

*

'

k

met volledige ioduktie: stel zR,_1

ad II(i):

- T v" - v" T ( + _1_ K") - - _1_ K" = T v - v - K" :s;

k 0 0 = k vo_ 1 I - a 0 vo_ 1 I,.... a 0 k 0-1 0-1 0

:s; T v - v - K" = Z - v - K" :s; 0 voor aIle k E: K; volgeos (1.4)

o 0-1 0-1 o · 0 0-1 0

geldt dus u :s; v".

*

0

- v ' - T v ' = v +_I_ K, T( + _ I _ K ' ) = v - T v +K'=

o 0 0 0-1 I -a 0 - 0 v0-1 I -a 0 0-1 0 0-1 0

= v - Z + K' :s; 0; omdat T v' :s; Uv' geldt dus v' :s; Uv' eo ook

0-1 0 0 0 0 0 0 0

VR,E:lNv~

:s;

uR,v~;

volgeos (1.3)(i) geldt dus lim UR,v' = u* <::

v~.

R,-+oo 0 ad II(ii): <:: + K' ==> TA <:: A + aAK', Z v 0-1 Z T v I 0 0 0 0 0 0- 0

dus v <:: TA-IZ + aAK' <:: TA- I (v + K') + aAK' =

n 0 0 0 o 0-1 0 0 A-2 (aA-I + aA)K' (J A = T Z + <:: <:: v o_1 + + a +

...

+ a )K' = 0 0 0 0 A+I + - a· K' = vo_ 1 I

-a

0 dus v' 0+1

=

vo + _1_ K'I - a 0+1 = vo + -1_1- mio (T- a . 0+IV0 - v )(i)0 <:: ~

(12)

~ vn-I +

HI

- a K' + -1-1- min (T (TA-Iz + aAK') - v )(i) =

I-a n - a . n n n n n ~ dus

=

v

+ __1__ K'

=

v'

n-I I -a n n v~+1 ~ v~ en analoog v~+1 :s;

v".

n ad II(iii) : v' n I

=

v + ---- K'

=

n-I I - a n vn_1 + -1_1- min (z- a . n - vn-I)(i)

~

~

u* + I

~am~n

(u* - u*)(i) = u*

~

(n ~ ex»

dus v~ ~ u* (n ~ ex» en analoog v~ ~ u* (n ~ ex».

ad II(iv) : v' - T v' :s; 0 (zie ad (ii» n n n dus

V

tElNv'n -< Tt v' n n dus lim Tt v'

=

u ~ v' • t~ n n n n ad III(i): - zn

=

Tn n-Iv ~ qn

=

zn - aPn n-v I ex> aip i ex> un = T un n =

r

q =

r

aipi(z

-

aP v I) = i=O n n i=O n n n n-ex> = Z +

r

aipi(z - v ) = n i=1 n n n-I ex> aipi(T z = TA z +

r

- T v )

'"

n n

i=A n n n n n-I A€lNU{O}

ex> aipi(T A II..

r

A = n zn + z - T v ) = i= I n n n n n-I ex> aipi(v

r

A = v + - Tn vn_ l) n i= I n n

(13)

dus w' = v + _a_ M' ::; u ::; v + _a_ M" = w"

n n I-a n n n I-a n n

- w'

n = vn + _a_I-a M'n =

(zie lemma (3.2)(i)) ),,+1

=

v + __a__ (M' - a)..K') + _a__ K' ~

n I-a n n I-a n

)..+1

~ v + _a K'

n I - a n

> v + __1_ K'

=

v'

- n-I I -a n n (zie bewijs II(ii));

analoog w" ::; v".n n ad III(ii): w' = v + __a__ M' ~ n+1 n+1 I - a n+1 ),,+2 ~ v + _a__ M' n+1 I - a n ),,-1 ),,+1 = T z + ~ M' ~ n+1 n+1 I - a n volgens (3.3)(ii) volgens ad (3.3)(ii) ),,-1 ),,+1 ~ T (v + aM') + ~ M' ~ ~ n+1 n n I - a n 2 . > z + _a_ M' ~ v + __a__ M' = w' - n+ I I - a n n I - a n n ad III (iii) : Volgens III(i): 0 < - w' ::; w" - w' a (M" - M' ).

- un_ I n - I n - I n- I =

T=""a

n-I n- I '

bovendien: u* - u

=

T u - T u

=

T u - T u + T u - T u

n-I * * n-I n-I * * * n-I * n-I n-I n-I

=

aP*(u* - un-I) + T*un_ 1 - Tn_Iun_l ;

=

dus (I - aP )(u - u )

=

T u - T u

(14)

ofweI ""

r

i=O "" a,ipi{T (w' ~

r

+ _a,_ (Mil - M'

»

- T w' } i=O

* *

n-l 1 - a, n-l n-l n-] n-] "" a,ipi{T w' a,2 =

r

- T w' + - - (Mil - M' )} = i=O

* *

n-] n-] n-l 1 - a, n-] n-l ~ i i . a,2

= .

L a, P {T

* *

v 1 - T v + - (Mil - M' )} ~ n- n-l n-] 1 - a, n-l n-l ~=O ""r i iP { ( T ) ( .) + - -a,2 (Mil - M' )}

=

ex

*

max zn - n-l vn-l ~ ] - a, n-l n-l i=O i 1 a,2

{max (z - T IV 1)(i) + - - (Mil - M' )}.

=

T'='CX

n n- n- 1 - ex n-] n-l

i

o

De navolgende lemma's zijn een eerste stap in het vergelijkende onderzoek

van de beide varianten van de A(A)-algoritme; de lemma's (3.4) tIm (3.7)

ge-ven met name enige relaties tussen de stopkriteria van de beide varianten.

Zij in het vervolg ex~;€ de reeelwaardige oplossing van de vergelijking

a,~

- = 1+€ (met 0 ~ a, ~ 1).

1 - a,

(3.4) Lemma. Voor de variabelen uit de A(A)-algoritme geldt:

. 1 V [ - - (K" - K ' ) ~ € min v' (i) a,~a,A+2;O 1 - a, n n i n volgens (3.3)(i). € min v' (i) i n ~ E min i (Mil - M' ) (1_a,)2 n n 1 (K" - K ') I-a, n n 2+A

~

-a,

m~n v~(i)

-~ Bewij s. Nu geldt

(15)

dus

2+>'

~ _a min v'(i) - min v'(i)

I - a . n n 1 i 2+>. ~ (a l _,. _.... 1) min v'(i)i n ~ 0 volgens (3.2)III(i) (M" - M') ~ £ min w'(i) • n n . n 1

o

Opmerking. Enkele waarden van a>.+2;0 zijn:

a 2;0

=

0,62

a 3;0

=

0,68

a4;0 = 0,72

a 5;0

=

0,75

Beschouwing van de stappen 3 en5 van de A(>.)-algoritme maakt duidelijk dat dit lemma impliceert dat, indien tijdens de n-de iteratie aan het

stopkrite-ri~m van de MQ-variant is 'voldaan en r

n+1

=

rn, in de (n+I)-de stap aan het

stopkriterium van de WM-variant is voldaan; dit alles binnen de gegeven grenzen voor a. Aan het slot van deze paragraaf wordt deze uitspraak nader geadstrueerd.

(3.5) Lemma. Voor de variabelen uit de A(>.)-algoritme geldt: [r

n

a2

=

r & (M" - M' ) ~

n-I (l _a)2 n-I n-I £ min w'. n-1(i)

1 Bewijs. 1 (K" - K')

~

1 - a n n w' - v' ~ v" - v' n-l n n n £ min v'(i)] • i n

volgens (3.2)III(i) en (ii)

v" - v' = _1_ (K" - K') ~ n n I-a n n a I-a . (Mil - M' ) ~ £ - - - m1n w' I (i) 1 - a n-l n-l a . n-1

volgens (3.3)(iii) en het gegeven, dus

w' n-l v'n ~ I - a . £ - - m1n w' l(i) a . n-1

(16)

dus dus min w'. n-1(i) 1. s I min v'(i) 1 - £(l-a) i n a I (K" - K')

T'=""a

n n I-a s £ -a I _ £(I -I a) min v'(i) •n a dus = - - - -a .£ min v' (i)n

T'=""a -

e:

\J

1 (K" - K') S a~a1

T'=""a

n n

£ min v'(i) •i n

o

Opmerking. Enkele waarden van Q

I;£ zijn:

al;O = 0,50 a

=

0,52 •

1; 0, I

De bewering welke formeel in dit lemma is uitgedrukt luidt: voor zekere a's geldt dat, indien tijdens de n-de iteratie van de A(A)-algoritme aan het

stopkriterium van de WM-variant is voldaan met de bijzonderheid dat rn

=

=

rn- 1, tevens tijdens de n-de iteratie aan het stopkriterium van de

MQ-va-riant zal zijn voldaan.

(3.6) Lemma. Voor de variabelen uit de A(O)-algoritme geldt:

\J

[ a 2 (M" - M') S £ min w~(i) a~a2 (l - a)2 n n i ;£ 1 (K" - K' ) S £ min v' (i) ] ""'!>

T'=""a

n n i n

Bewijs. w' - v' S v" - v' volgens (3.3)(i)

n n n n dus = _1_ (K" - K') = I - a n n 1 1 - a (M" - M') S - - £ min w' (i) 1 - a n n a2 i n 1

. min w' (i) S --~-:---~ min v' (i)

i n 1 _ £(l - a) i n

(17)

_1_ (K" - K') 1 - a n n 1 - a 1 ~

- -

----.;;...,.--~ a2 1 _ e:(I-a) a2 £ min v' (i)

=

. n J. dUB =--~-a2 - - - £ I-a £ min v' (i) . n J.

v

> - 11 (K" - K')

~

£ min v' (i) • a-a2 - a n n . n

J.

Opmerking. Enkele waarden van a

2

zijn: a2;0 R:I 0,63

a

2;0,I

llll 0,63 •

o

De betekenis van dit lemma is dat het stopkriterium van de MQ-variant beter

is dan dat van de WM-variant voor A

=

0 en a ruwweg groter dan

i ;

immers

uit het lemma blijkt dat, indien tijdens de (n+I)-de iteratie 'nog maar ten dele aan het stopkriterium van de WM-variant is voldaan, tijdens de n-de iteratie a1 aan het stopkriterium van de MQ-variant voldaan is.

Voora1snog is het niet mogelijk gebleken zoveel meer teoretisch materiaal te verzamelen dan het voorafgaande, dat een ondubbelzinnige uitspraak kan wor-den gedaan over de relatieve efficientie van de MQ- resp. de WM-variant van de A(A)-algoritme. Praktijkervaring (zie De Leeuw [4J) kan ons echter een indikatie dienaangaande geven. Welnu, uit de praktijk blijkt dat in de A(A)-algoritme gedurende een groot aantal iteraties, vear dat aan het stopkrite-rium van de WM-variant is voldaan, de strategie niet meer verandert, hetgeen

betekent dat de term: max (z - T IV 1) in al die iteraties nul is.

. n n-

n-J.

Dit overwegende en bovendien het feit dat bij vaste A de WM-variant van A(A) per iteratie ongeveer een gelijke hoeveelheid rekenwerk vereist a1s de MQ-variant, 1ijkt op grond van lemma (3.5) een voorzichtige konklusie, dat voor

verdiskonteringsfaktoren dichtbij 1 de MQ-variant van de A(A)-algoritme

sneller is dan de WM-variant, hier op zijn plaats.

Dankzij lemma (3.6) kunnen we de term "voorzichtig" in bovenstaande konk1u-sie t.a.v. de A(O)-algoritme gevoeglijk achterwege laten. Ret belang van lemma (3.6) kan echter pas ten volle blijken indien meer bekend is over de rol van de parameter ,A in beide varianten van de A(A)-algoritme, een nog braakliggend terrein voor onderzoek.

(18)

Lemma (3.4) maakt op grond van bovengenoemde opmerkingen plausibel dat voor kleine waarden van de verpiskonteringsfaktor de WM-variant sneller is dan de

!~ MQ-variant.

(19)

§ 4. Relatie van de A(A)-algoritme tot bekende methoden

In het vervolg zal blijken dat de WM-variant van de A(I)-algoritme

ekwiva-lent is met de waardemetode, zoals die door Kersten in [2J beschreven is, en

de MQ-variant van de A(O)-algoritme met de metode van Macqueen, beschreven

in [IJ.

Het onderstaande lemma stelt ons in staat de eerste van deze ekwivalenties te bewijzen.

(4. I) Lemma. Zij AEE U {o}. Laten {vO,v

l' ••• } en {vO,vl' ••• } verzamelingen

vek-toren uit lRn zijn waarvoor geldt:

v

=

0 0 vn"= TA+1V + c r n-I n n Uvn-.1 n

=

1,2, ••• met r n z.d.d. Tr vn-1 = n

en cn een N-vektor met identieke komponenten welke een

funktie zijn van rl,cI,vI, ••• ,vn_l,rn;

n

=

1,2, ••• dan

V

o

=

0

v

=

TA+I ... v n r n-l n met

r

n z.d.d. T.... vr n-1

=

UV

n-I

;

n (i) rn

=

r

n

(ii) vn

=

v

n + d waarin

{dO

c

0

n

d

=

aA+1d + c •

n n-I n

N.B. Neem bij meer mogelijkheden voor de keuze van r (i) (ofn

r

n(i» het

ele-ment uit K met de laagste index dat to~ de mogelijkheden behoort; hierbij is

een indicering van K verondersteld. Bewijs. Met volledige induktie:

(20)

wegens het eenduidige keuzekriterium geldt dus =

...

r l rl TA+1v + c 1 TA+I .... + c 1 = vI + d l vI = = .... V

o

.

rIO r1 Stel rR. = rR. +

dJ

R. = I.2 •••• ,n-1

vR. = vR. dan:

" rER Tr n-Iv = Tr n-I

v

+ adn-1'

Omdat d 1 konstant is en het keuzekriterium eenduidig. worden

n-max (T

v

1 + ad 1) en max (T v I) door dezelfde r gerealiseerd. dus

r n- n- r n-r r r

=

r

n n

=

TA+Iv + C r n-I n n ·T~+I(v'" d )

=

r

n-l + n-) n + C

=

n

=

T +1.... + A+l d +

=

r vn- I a n-I cn n

hiermee is het gestelde voor aIle n bewezen.

(4.2) Stelling. De waardenmetode van Kersten [2J is ekwivalent met de WM-variant van de A(I)-algoritme.

o

Bewijs. We volstaan hier met een schets van het bewijs:

Gebruik makend van een door lemma (4.1) gesuggereerde transformatie van de

grootheden vR. uit [2J (vR. vervult dan de rol vkn v uit lemma (4.1) en

n

I

~

s

m~

correspondeert met cn) ontstaat een algoritme die nog slechts in

no-tatie afwijkt van de WM-variant van de A(I)-algoritme.

0

(4.3) Stelling. De metode van Macqueen [IJ is ekwivalent met de MQ-variant van de A(O)-algoritme.

Bewijs. Ook hier volstaan we met een schets:

Macqueen [IJ werkt met relatieve v -waarden t.o.v. een bepaald element uit n

X. Een geschikte transformatie van de grootheden uit Macqueen [IJ resulteert in een algoritme welke aIleen nog in notatie afwijkt van de MQ-variant van

(21)

Literatuur

[IJ J. MacQueen: A modified Dynamic Programming Method for Markovian

Decision Problems.

J. Math. An. Appl.

l i

(1966), 38-43.

[2J T.A.G.M. Kersten: Enkele Narkov beslissingsproblemen.

Afstudeerverslag T.H.E. 1972.

[3J D. Blackwell: Discounted Dynamic Programming.

Ann. Math. Stat. 36 (1965), 226-234.

[4J A.A.C.M. de Leeuw: Een onderzoek naar verschillende aspecten van de

waardemethode.

Referenties

GERELATEERDE DOCUMENTEN

− De rechterhand van de piano zingt als het ware de melodie (terwijl de linkerhand begeleidt). − Er is een

Zij die indertijd deze woorden van Judas hebben gehoord kunnen zich beledigd gevoeld hebben en hem als zijnde ruw beschouwd hebben, snijdend en niet liefdevol, maar dit waren, en

Het is het voorbeeld van vroege christenen, in de eerste 300 jaar, dat “de wereld ondersteboven heeft gekeerd” en diegenen heeft aangetrokken wier harten smachtten naar

Het antwoord is simpel, maar wat we moeten onthouden is dat ik niet, en het Nieuwe Testament ook niet, spreek over mensen in het algemeen wanneer de uitspraak wordt gedaan om ons af

Voor deze opdracht is gekozen omdat hierin naar de kern van de lesbrief gevraagd wordt en leerlingen moeten daarbij gebruik maken van de begrippen die zij hebben geleerd

Wij willen u verzoeken in de toekomst bij het aanleveren van de jaarrekening en de begroting rekening te houden met de cyclus van de raad, zodat het besluit van de raad kan worden

Blackwell's ethnographic-like study gives its readers a valuable glimpse into the politics of gender relations and the construction of (mainly female) identity, oral culture and a

This follows immediately from the definition of a sufficient statistic.. But then U only depends on X through T and this is in contradiction with