Voorraadtheorie

(1)

Voorraadtheorie

Mathijs van der Vlies

28 augustus 2014

Begeleiding: prof.dr. R. N´

u˜

nez Queija

Korteweg-De Vries Instituut voor Wiskunde

(2)

Samenvatting

Deze scriptie behandelt stochastische voorraadmodellen, waar-bij kosten van een bedrijf moeten worden geminimaliseerd on-der een onzekere vraag door middel van het goed kiezen van bestelmomenten en bestelgroottes. We behandelen eerst vast-gestelde voorraadmodellen zoals Economic Order Quantity en het (s, Q)-naleveringsmodel, met bekende optimalisatieme-thoden. Dan wordt een eigen model geconstrueerd, met expo-nentieel verdeelde levertijden en de restrictie dat er ´e´en bestel-ling tegelijk geplaatst kan worden. Er is dan sprake van een continue-tijds Markovketen. Dit model wordt eerst voorna-melijk analytisch behandeld als (s, Q)-naleveringsmodel door middel van de matrix-geometrische methode. Hierbij wordt voor verschillende combinaties van het bestelpunt en de be-stelgrootte de kosten op de lange termijn in kaart gebracht. De optimalisatie vindt plaats via een numerieke methode. Het model wordt behandeld als Markov beslissingsproces, waarna het algoritme van Successieve Approximatie toegepast wordt om de optimale bestelstrategie te vinden.

Titel: Voorraadtheorie

Auteur: Mathijs van der Vlies, m.vandervlies@student.uva.nl, 10251626

Begeleiding: prof.dr. R. N´u˜nez Queija Tweede beoordelaar: dr. N. Walton Einddatum: 28 augustus 2014

Korteweg-De Vries Instituut voor Wiskunde Universiteit van Amsterdam

Science Park 904, 1098 XH Amsterdam http://www.science.uva.nl/math

(3)

Inhoudsopgave

1. Inleiding 4

2. Elementaire modellen 6

2.1. Economic Order Quantity . . . 6

2.2. Het (s, Q)-naleveringsmodel . . . 8

3. Het (s, Q)-model als Markovketen 17 3.1. Formulering Markovproces . . . 18

3.2. Matrix-geometrische methode . . . 20

3.3. Voorraadkosten en kosten bij tekorten . . . 27

3.4. Vaste kosten . . . 28

3.5. Combinaties van s en Q . . . 29

4. Markov beslissingsproces voor voorraad 32 4.1. Markov beslissingstheorie . . . 32

4.2. Successieve approximatie . . . 34

4.3. Formulatie MDP . . . 39

4.4. Truncatie van de toestandsruimte . . . 42

4.5. Optimale bestelstrategie middels SA . . . 43

5. Discussie 46

Bibliografie 47

A. SA-algoritme in MATLAB 48 B. Populaire samenvatting 51

(4)

1. Inleiding

Voorraadmanagement is een belangrijk onderdeel van wat een bedrijf bezighoudt. Elk bedrijf dat producten verkoopt, zij het aan klanten of aan andere bedrijven, heeft ermee te maken. Voor elk product dat een bedrijf verkoopt, is er een voorraad van dit product. Slecht beheerde voorraad leidt tot tekorten, met als gevolg klantverlies. Het is voor veel bedrijven van uiterst belang dat de voorraad niet opraakt, omwille van service aan de klant. Goede service leidt tot een goede reputatie, wat weer leidt tot winst.

Maar bedrijven kunnen hier ook in doorslaan. Het houden van zeer grote voorraden draagt ook weer kosten met zich mee. Denk aan verzekeringen voor de in voorraad gebrachte producten. Deze kosten vormen een significant deel van de kostprijs van de producten, significant genoeg om de voorraad zo laag mogelijk te houden.

De crux van voorraadmanagement is dat de vraag naar het product vrijwel altijd onzeker is. Tekorten kunnen zonder waarschuwing ontstaan. Met dit in gedachten, heeft een bedrijf twee belangrijke vragen voor het houden van de voorraad:

• Wanneer koopt het bedrijf opnieuw in? • Hoeveel koopt het bedrijf in?

Er is geen snel antwoord te geven op deze vragen. Te grote bestelhoeveelheden leiden tot hoge voorraadkosten. Echter, wanneer de bestelhoeveelheden te klein zijn, moet het bedrijf te vaak bestellen, wat leidt tot oplopende vaste kosten (denk aan benzinekosten, administratiekosten, setupkosten bij productie). Kiest het bedrijf ervoor laat in te kopen, ontstaat het risico op tekorten tijdens de levertijd. Te vroeg inkopen leidt weer tot hoge voorraadkosten.

Het oplossen van de bovenstaande vragen is waar de voorraadtheorie zich mee bezig-houdt. Deze tak van wiskunde behoort tot de stochastische optimalisatie. Stochastische processen zoals Markovprocessen spelen hierbij een grote rol. De voorraadtheorie heeft als vakgebied veel raakvlakken met wachtrijtheorie, waarin ook regeneratieve processen voorkomen (processen die zich gedragen in cycli).

Voorraadtheorie is een zeer toegepaste tak van wiskunde. Ze wordt altijd beoefend aan de hand van een model dat zo goed mogelijk de werkelijkheid probeert na te bootsen. Er bestaan al vele bekende modellen binnen de voorraadtheorie. De meeste van deze mo-dellen staan erom bekend dat deze wiskundig zeer goed beheersbaar zijn. Voorbeelden hiervan zijn het EOQ-model en het (s, Q)-naleveringsmodel. In bedrijven worden deze vaak gebruikt, omdat ze resultaten leveren die vrijwel direct inzetbaar zijn. De simpli-citeit van deze modellen heeft echter tot gevolg dat de gevonden optima niet altijd even betrouwbaar zijn. Het doel van dit onderzoek is een model te construeren dat relatief praktisch is en toch wiskundig exact kan worden opgelost.

(5)

De opbouw van de scriptie is als volgt. In het eerste hoofdstuk worden bekende mo-dellen behandeld zoals de bovengenoemde. Het EOQ-model is hierbij een determinis-tisch voorraadmodel waarvoor de exacte oplossing eenvoudig te vinden is. Het (s, Q)-naleveringsmodel wordt opgelost middels een heuristische methode, maar deze geeft geen exacte oplossing.

Het tweede hoofdstuk is gewijd aan het aanpassen van de aannames van het (s, Q)-naleveringsmodel, zodat het voorraadproces een Markovketen vormt. Zo maken we het model rijp voor een exacte analyse. De zogenaamde matrix-geometrische methode stelt ons in staat dit probleem exact te behandelen.

Het laatste hoofdstuk laat de restrictie los dat elke bestelling dezelfde bestelgrootte moet hebben. We behandelen het resulterende model middels Markov beslissingstheo-rie. Deze theorie levert krachtige algoritmes voor het numeriek vinden van een optimale bestelstrategie. Er wordt een MATLAB-functie geconstrueert dat een van de algoritmes implementeert en zodoende de optimale bestelstrategie vindt.

De lezer wordt aangeraden stof met betrekking tot Markovketens en lineaire algebra op elementair niveau goed te beheersen. Deze vakgebieden zullen veelvuldig worden gebruikt.

Mijn dank gaat uit naar Sindo N´u˜nez Queija, voor het waardevolle advies dat hij heeft gegeven tijdens onze afspraken, voor de tijd die hij genomen heeft voor mij om dit project tot een geslaagd einde te brengen, en voor het voorstellen van een onderwerp in een vakgebied dat mij zal blijven interesseren.

(6)

2. Elementaire modellen

Voor het opbouwen van de voorraadtheorie voor praktische doeleinden, zullen we ver-schillende voorraadmodellen beschouwen. Hierbij maken we ten eerste het onderscheid tussen deterministische en stochastische modellen. Het aspect van het model dat ofwel deterministisch, ofwel stochastisch wordt beschouwd, is de vraag naar het product. In het deterministische model is deze vraag bekend. In het stochastische model is deze niet a priori bekend, maar wordt de vraag gezien als een stochastische variabele, met een bekende kansverdeling. De nadruk zal in dit onderzoek liggen op stochastische modellen, maar het is toch nuttig om een deterministisch model te bekijken, omdat dit resultaten oplevert die ook voor stochastische modellen nuttig zijn.

We bekijken een deterministisch voorraadmodel dat nuttige resultaten oplevert, het EOQ-model.

2.1. Economic Order Quantity

Het EOQ-model is het simpelste model dat er is in de voorraadtheorie. Het model heeft een aantal aannames:

1. De vraag is deterministisch en constant in de tijd en we beschouwen de voorraad als een continue variabele

2. Aan de vraag moet direct voldaan worden 3. De aanvulorder mag willekeurig groot worden

4. De benodigde tijd om de voorraad aan te vullen is verwaarloosbaar 5. De gehele aanvulorder wordt op hetzelfde tijdstip geleverd

6. De enige relevante kosten zijn bestel- en voorraadkosten

Uiteraard zijn veel van deze aannames in de praktijk niet realistisch, maar de resultaten van dit model zijn toch bruikbaar voor ingewikkeldere modellen.

Herinner je dat de voorraadtheorie de volgende vragen beantwoordt: 1. Wanneer bestellen?

(7)

De eerste vraag is in dit model gemakkelijk te beantwoorden. Aangezien de vraag deter-ministisch is, er direct aan de vraag voldaan moet worden en de benodigde tijd om de voorraad aan te vullen verwaarloosbaar is, kunnen we simpelweg stellen dat we moeten bestellen wanneer de voorraad op is.

De enige relevante vraag in dit model is dus wat de optimale bestelgrootte Q is. Hier-toe minimaliseren we de totale kosten T K(Q). Zoals gebruikelijk in voorraadmodellen, bekijken we alle kosten op jaarbasis. We bekijken dus de totale jaarlijkse kosten T K(Q). Deze valt uiteen in de volgende kosten:

• K = de vaste kosten per order;

• r = de jaarlijkse voorraadkosten per ge¨ınvesteerde euro in voorraad; • v = de inkoopprijs per eenheid product.

Deze drie soorten kosten behoeven enige uitleg. Wat de vaste kosten K betreft, kun je denken aan transport- en administratiekosten. De jaarlijkse voorraadkosten moeten worden gezien als een percentage van het kapitaal dat in de voorraad wordt ge¨ınvesteerd. Dit zijn investeringen die niet tot opbrengsten leiden, in tegenstelling tot de inkoopkosten. Dit is geld dat bijvoorbeeld op de bank gezet had kunnen worden (een van de meest zekere vormen van winst). De winst die hierbij wordt misgelopen vormt over het algemeen het grootste deel van de voorraadkosten. Andere relevante kosten van deze soort zijn kosten van opslag en verzekering van de goederen. De resulterende kosten voor het in voorraad houden van één eenheid product gedurende één jaar zijn dus gelijk aan vr.

Wat dit model karakteriseert is de deterministische vraag. In het EOQ-model is deze constant in de tijd; we geven de jaarlijkse vraag aan met D. Het aantal aanvulorders dat dan gedaan wordt per jaar is D_Q. Hieruit kunnen we de bestel- en inkoopkosten opmaken:

de jaarlijkse bestel- plus inkoopkosten = D

QK + Dv.

Aangezien de vraag constant is, zal het voorraadniveau lineair dalen naar 0 en dan vanaf Q weer lineair dalen, ad infinitum. Het gemiddelde voorraadniveau is dus Q₂. Er geldt dus dat

de jaarlijkse voorraadkosten = Q 2vr. Dit geeft ons de volgende formule voor de totale jaarlijkse kosten

T K(Q) = D

QK + Dv + Q

2vr.

Het doel is nu deze kosten te minimaliseren. Dit is in dit geval gemakkelijk te doen door de afgeleide gelijk te stellen aan nul. Voor de optimale waarde Q∗ moet dus gelden:

T K0(Q∗) = − D Q∗2K + 1 2vr, en de oplossing Q∗ = r 2KD vr

(8)

van deze vergelijking wordt de EOQ-formule genoemd. Om nog na te gaan dat dit een minimum is, nemen we de tweede afgeleide T K00(Q):

T K00(Q) = D 2Q3K,

en aangezien de te bestellen hoeveelheid Q altijd positief is, is de tweede afgeleide altijd positief. Dit bewijst dat de EOQ-formule inderdaad de jaarlijkse kosten minimaliseert.

De EOQ-formule is een klassiek resultaat in de voorraadtheorie. Veel praktische si-tuaties zijn met zekere aanpassingen terug te voeren op het EOQ-model, waardoor de EOQ-formule bruikbaar wordt. We zullen in het vervolg een bestelgrootte Q∗ die geop-timaliseerd is middels de EOQ-formule de economische bestelgrootte noemen.

In praktische situaties zal de vraag naar een product niet met zekerheid bepaald kunnen worden; de vraag is stochastisch. Dit brengt extra problemen met zich mee. Bij een deterministisch voorraadmodel kon van te voren worden bepaald wanneer de voorraad op zou zijn, zodat nieuwe bestellingen precies aankwamen wanneer de voorraad op was. Daarentegen heb je bij een stochastisch model te maken met een kans op tekorten en overschotten. Bij tekorten kan een deel van de vraag niet direct uit voorraad geleverd worden; bij overschotten is er meer voorraad aanwezig dan vraag en worden er onnodige voorraadkosten gemaakt. Er zijn verschillende mogelijke redenen dat bedrijven tekorten willen beperken:

• Er moet een bepaald serviceniveau behaald worden; het overgrote deel van de klan-ten moet direct uit voorraad zijn product geleverd krijgen.

• Er is sprake van bederfelijke of seizoensgebonden goederen; producten die niet direct geleverd kunnen worden zijn waardeloos of kunnen slechts tegen een lagere prijs verkocht worden.

• Wanneer een product niet direct geleverd kan worden, zijn klanten meer geneigd naar een concurrent over te stappen.

Het is voor bedrijven ook gewenst overschotten te beperken:

• De voorraadkosten zijn hoger wanneer een nieuwe bestelling aankomt terwijl de voorraad nog niet op is.

• Er kan hier ook sprake zijn van bijvoorbeeld seizoensgebonden goederen; goederen die aan het einde van het seizoen nog niet verkocht zijn, kunnen slechts tegen een lagere prijs verkocht worden

We behandelen nu een model dat een vergelijkbare opzet heeft met het EOQ-model. Het verschil is nu dat de vraag stochastisch is.

2.2. Het (s, Q)-naleveringsmodel

De voorraadmodellen worden nu ingewikkelder. We hebben niet meer te maken met een deterministische vraag. In dit model wordt de voorraad beheerd over een lange

(9)

tijdsperiode. De parameters (kosten en verkoopprijzen) veranderen niet gedurende deze periode. De interessante toevoeging aan dit model is de stochastische vraag en positieve levertijden. Bij een deterministische vraag of afwezigheid van levertijd kon een bedrijf de tijd om te bestellen zo kiezen dat de bestelling aankwam zodra de voorraad op was. In dit model kan niet meer worden gegarandeerd dat een bestelling aankomt voordat de voorraad op raakt. Dit zorgt voor een extra beslissing in het model. Dit model behandelt dus twee keuzes:

1. Wanneer bestellen (bestelpunt s)? 2. Hoeveel bestellen (bestelgrootte Q)?

Het bestelpunt wordt niet in tijdseenheden uitgedrukt, maar in eenheden product. Als de voorraad onder het bestelpunt is gedaald, vullen we de voorraad aan. Het bestelpunt zal doorgaans hoger liggen dan de verwachte vraag tijdens de levertijd. Immers, om goede service te bieden aan de klant moet er rekening gehouden worden met stochastische fluctuaties in de vraag. Een hoger bestelpunt kan worden gezien als een verzekering tegen het opraken van de voorraad tijdens de levertijd. De hoeveelheid product dat het bestelpunt boven de verwachte vraag tijdens de levertijd ligt, wordt de veiligheidsvoorraad genoemd. Een verhoging van de veiligheidsvoorraad verlaagt de kans dat het product uitverkocht raakt, maar zorgt voor een hoger gemiddeld voorraadsniveau. Een bedrijf moet een balans vinden tussen service aan de klanten en voorraadkosten.

We kunnen twee mogelijke aannames doen over het optreden van vraag bij tekorten in een (s, Q)-model.

1. Nalevering. De vraag die optreedt als er geen voorraad aanwezig is, wordt geleverd zodra er weer voldoende voorraad is.

2. Verloren vraag. De vraag die optreedt als er geen voorraad aanwezig is, gaat verloren.

We zullen in deze scriptie enkel het naleveringsmodel behandelen. We voeren de volgende terminologie in:

1. Voorraad op de planken. Dit is de voorraad die fysiek aanwezig is op de planken. Tekorten in voorraad worden hierbij niet meegerekend, dus deze voorraad is altijd niet-negatief.

2. Netto voorraad = (voorraad op de planken) - (na te leveren orders). Deze groot-heid is alleen negatief als er nog naleveringen moeten plaatsvinden. In het model met verloren vraag is deze gelijk aan de voorraad op de planken.

3. Economische voorraad = (netto voorraad) + (orders in bestelling). Deze groot-heid voegt aan de netto voorraad de nog niet binnengekomen aanvulorders toe. We zullen de voorraad beheren aan de hand van de economische voorraad. Als we alleen de netto voorraad zouden gebruiken, dan zouden we een aanvulorder kunnen doen terwijl er al een grote aanvulorder aankomt.

(10)

1. De voorraadpositie wordt continu bijgehouden en een aanvulorder kan op elk ge-wenst moment worden geplaatst.

2. De individuele vraagtransacties zijn zo klein dat het voorraadniveau gezien kan worden als een continue variabele.

3. Een aanvulorder ter grootte Q wordt geplaatst telkens als de economische voorraad tot het bestelpunt s daalt.

4. De levertijd van een bestelling is een positieve constante L∗.

5. De gevraagde hoeveelheden in disjuncte tijdsintervallen zijn stochastisch onafhan-kelijk.

Deze aannames zijn niet zo sterk als de aannames van de eerdere behandelde modellen. Dit model is dan ook in veel praktische situaties bruikbaar.

We zullen het (s, Q) voorraadmodel niet exact behandelen, maar een aanpak geven die de exacte oplossing benadert. Een voordeel van deze aanpak is dat de stochastische vraag niet geheel beschreven hoeft te worden. Alleen de vraag gedurende de levertijd wordt bekeken:

XL= de totale vraag gedurende de levertijd.

Evenzo bekijken we de volgende grootheden:

fL(x) = kansdichtheid van de vraag gedurende de levertijd

µL = de verwachte waarde van de vraag gedurende de levertijd

σL = de standaardafwijking van de vraag gedurende de levertijd

In feite hebben we alleen µL en σL nodig voor de analyse van dit probleem. Deze

worden geschat uit data over de vraag.

Zoals hierboven al vermeld is, zullen we een heuristische analyse geven van het nale-veringsmodel. De exacte analyse is nogal complex en we hebben hier te maken met een praktische tak van wiskunde. In de praktijk hebben we slechts beperkte informatie (data) over het stochastische gedrag van de vraag naar een product. Het is dan ook wenselijk dat de oplossing van het model slechts beperkte informatie nodig heeft. De heuristische oplossing voldoet hieraan.

Voor een gegeven (s, Q) met s > 0 leiden we benaderingen af voor de volgende presta-tiematen:

• de gemiddelde voorraad op de planken • de gemiddelde achterstand in levering

• de kans dat het systeem buiten voorraad raakt gedurende de levertijd • de fractie vraag die direct uit voorraad geleverd wordt.

(11)

Als we eenmaal uitdrukkingen hebben gevonden voor deze grootheden, kunnen we gemakkelijk uitdrukkingen formuleren voor de kosten die we vervolgens optimaliseren. We bepalen deze langetermijngemiddelden uit het gedrag van het voorraadsysteem ge-durende één cyclus: het tijdsinterval tussen twee opeenvolgende tijdstippen waarop een aanvulorder binnenkomt. Aan de hand van dit begrip definiëren we vervolgens:

I1 = E[voorraad op de planken aan het einde van een cyclus]

I2 = E[voorraad op de planken aan het begin van een cyclus]

en

S1 = E[tekort aan het einde van een cyclus]

S2 = E[tekort aan het begin van een cyclus].

Het volgende resultaat staat centraal in de analyse:

de netto voorraad vlak voordat een aanvulorder binnenkomt = s − XL. (2.1)

Dit resultaat is intu¨ıtief gemakkelijk te bewijzen. Allereerst merken we op dat de levertijd in dit model constant is. Dit betekent dat orders in dezelfde volgorde aankomen als dat ze worden besteld. De netto voorraad is gedefinieerd door de voorraad op de planken minus het aantal na te leveren orders. Op het moment dat een aanvulorder S geplaatst wordt, is de economische voorraad precies gelijk aan s. Aangezien de volgorde van bestellingen behouden blijft, zullen alle orders, die voor S geplaatst zijn, binnen zijn vlak voordat de order S aangekomen is. Aangezien tekorten worden nageleverd, volgt dat de netto vooraad vlak voordat S aangekomen is gelijk is aan s minus de totale vraag gedurende de levertijd, wat het bewijs voltooit.

Deze uitdrukking stelt ons in staat de bovengenoemde grootheden uit te rekenen. Ten eerste worden I1 en S1 gegeven door

I1 = E[s − XL]+, S1 = E[XL− s]+.

Uit (2.1) leiden we direct af dat de netto voorraad vlak na binnenkomst van een aan-vulorder gelijk is aan s + Q − XL. Dit geeft ons de volgende uitdrukkingen voor I2 en

S2:

I2 = E[s + Q − XL], S1 = E[XL− s − Q]+.

Deze verwachtingen kunnen we middels de Law of the Unconcious Statistician weer schrij-ven in termen van de kansdichtheid fL van XL:

I1 = Z s 0 (s − x)fL(x)dx, I2 = Z s+Q 0 (s + Q − x)fL(x)dx en S1 = Z ∞ s (x − s)fL(x)dx, S2 = Z ∞ s+Q (x − s − Q)fL(x)dx. De relatie Z a 0 (a − x)fL(x)dx = Z ∞ 0 (a − x)fL(x) − Z ∞ a (a − x)fL(x) = a − µL+ Z ∞ a (x − a)fL(x)dx,

(12)

geeft ons vervolgens het volgende verband tussen I1 en S1 respectievelijk I2 en S2:

I1 = s − µL+ S1, I2 = s + Q − µL+ S2. (2.2)

De uitdrukkingen voor S1 en S2 kunnen weer verder vereenvoudigd worden wanneer

we gaan kijken naar specifieke verdelingen voor XL, zoals we later in een voorbeeld terug

zullen zien.

Middels deze uitdrukkingen kunnen we de bovengenoemde prestatiematen benaderen. Gemiddelde voorraad op de planken

Door niet te kijken naar de lange termijn voorraad, maar naar de voorraad gedurende een cyclus, verkrijgen we de volgende benadering voor de gemiddelde voorraad op de planken:

de gemiddelde voorraad op de planken ≈ 1

2(I1+ I2). Deze uitdrukking kunnen we middels (2.2) herschrijven tot

de gemiddelde voorraad op de planken ≈ s − µL+

1 2Q +

1

2(S1+ S2) (2.3) Gemiddelde achterstand in levering

Analoog aan het bovenstaande gemiddelde benaderen we deze door de gemiddelde achterstand in levering ≈ 1

2(S1+ S2). (2.4) De kans op buiten voorraad raken

Vanwege de formule voor de netto voorraad vlak voor binnenkomst van een bestelling (2.1) is het redelijk de kans dat het systeem buiten voorraad raakt gedurende de levertijd te benaderen door P (XL> s), dat wil zeggen:

de kans op buiten voorraad raken gedurende de levertijd ≈ Z ∞

s

fL(x)dx. (2.5)

Fractie direct geleverde vraag

Deze grootheid is zeer belangrijk voor het bepalen van het bestelpunt s. De fractie direct geleverde vraag ten opzichte van de totale vraag moet gemaximaliseerd worden voor een goede service aan de klant.

De fractie direct geleverde vraag kan worden uitgedrukt door de volgende stochasten. Definieer de stochasten D(t) en V (t) als de totale hoeveelheid vraag in het tijdsinterval (0, t) respectievelijk de totale hoeveelheid vraag in (0, t) waaraan niet direct voldaan kan worden. De fractie van de vraag, waaraan op de lange termijn niet direct voldaan kan

(13)

worden, is dan gelijk aan de limiet limt→∞V (t)/D(t). Deze limiet hangt samen met de

verwachtingen voor beide stochasten. Namelijk, de limiet is gelijk aan E[hoeveelheid vraag per cyclus die niet direct leverbaar is]

E[totale vraag in een cyclus] . (2.6) Deze formule is intu¨ıtief duidelijk, maar het bewijs vergt geavanceerde kansrekening die in deze scriptie niet aan bod komt.

Uit de definitie van S1 en S2 volgt dat de teller van (2.6) gelijk is aan E(S1 − S2).

Ook de noemer is makkelijk te vinden. Merk hiertoe op dat in het naleveringsmodel uiteindelijk aan alle vraag is voldaan. Op de lange termijn zal de gemiddelde vraag per cyclus dus gelijk zijn aan de gemiddelde voorraad die besteld wordt per cyclus, wat gelijk is aan Q. Oftewel,

E[totale vraag in een cyclus] = Q.

Door nu de integraalrepresentaties voor S1 en S2 te gebruiken, vinden we het volgende

belangrijke resultaat:

de fractie vraag die niet direct uit voorraad geleverd wordt

= 1 Q Z ∞ s (x − s)fL(x)dx − Z ∞ s+Q (x − s − Q)fL(x)dx . (2.7) We zullen nu deze prestatiematen gebruiken om een optimale waarde te vinden voor (s, Q). We maken hierbij een afweging tussen het minimaliseren van tekorten en het minimaliseren van voorraad- en bestelkosten. Omdat het vaak lastig is het effect van tekorten in de voorraad te kwantificeren, wordt er meestal gebruik gemaakt van een service-eis. We behandelen deze aanpak in de volgende sectie.

Minimalisering van kosten onder een service-eis

Net als in het EOQ-model nemen we aan dat de volgende gegevens van de kostenstructuur bekend zijn:

K = vaste kosten verbonden aan een aanvulorder

r = voorraadkosten per in voorraad ge¨ınvesteerde geldeenheid per tijdseenheid v = inkoopkosten per eenheid

Deze kosten zullen worden geminimaliseerd onder een service-eis. Een service-eis neemt vaak een van de volgende twee vormen aan:

P1 De kans op geen tekort gedurende de levertijd van een aanvulorder moet minstens

gelijk zijn aan een zelfgekozen getal α met 0 < α < 1.

P2 De fractie van de vraag die direct uit voorraad geleverd wordt moet ten minste

(14)

We zullen in een voorbeeld zien dat de tweede servicemaat geschikter is om de service aan de klant te meten dan de eerste.

Voor het minimaliseren van de kosten onder de service-eisen P1 of P2 kijken we naar de

gemiddelde kosten per tijdseenheid. We hebben al de nodige uitdrukkingen afgeleid om deze kosten te bepalen. Namelijk, de gemiddelde voorraad op de planken wordt gegeven door (2.3), terwijl de gemiddelde bestelkosten per tijdseenheid volgen met de formule

het gemiddelde aantal aanvulorders per tijdseenheid = µ1/Q, (2.8)

waarbij µ1 de gemiddelde vraag per tijdseenheid voorstelt.

De gemiddelde kosten per tijdseenheid worden geminimaliseerd onder een van de re-stricties P1 of P2. Wiskundig gezien zouden we nu s en Q simultaan moeten bepalen. De

stochastische aard van de vraag maakt dit echter een bewerkelijk proces. Het blijkt dat in de praktijk een veel eenvoudigere aanpak vrijwel even goed werkt. Deze aanpak berust erin eerst de bestelgrootte Q te bepalen en daarna het bestelpunt s.

2.2.1. De sequenti¨

ele aanpak

Eerst gebruiken we de EOQ-formule om de ’optimale’ bestelgrootte Q0 te bepalen:

Q0 =

r 2µ1K

vr . (2.9)

Voor het bepalen van het optimale bestelpunt s bij deze bestelgrootte wenden we ons tot de prestatiematen waarvoor we uitdrukkingen hebben gegeven. Middels de uitdrukking (2.5) wordt de service-eis P1 gegeven door

Z ∞

s

fL(x)dx ≤ 1 − α.

De service-eis P2 wordt met behulp van (2.7) gegeven door

1 Q0 Z ∞ s (x − s)fL(x)dx − Z ∞ s+Q0 (x − s − Q0)fL(x)dx ≤ 1 − β.

Aangezien beide prestatiematen stijgend zijn in s, evenals de voorraad- en bestelkosten, worden deze service-eisen verzadigd bij een optimaal bestelpunt. Voor het bepalen van het bestelpunt lossen we dus de voor P1 en P2 een van de volgende vergelijkingen op:

Z ∞ s fL(x)dx = 1 − α, (2.10) respectievelijk 1 Q0 Z ∞ s (x − s)fL(x)dx − Z ∞ s+Q0 (x − s − Q0)fL(x)dx = 1 − β. (2.11) De sequenti¨ele aanpak blijkt uitstekend te werken wanneer de economische bestel-grootte Q0 voldoende groot is. Om voldoende rekening te houden met schommelingen in

(15)

de vraag hebben we voor deze aanpak nodig dat Q0 groter is dan de standaardafwijking

van de vraag gedurende de levertijd.

We hebben nu een vergelijking gevonden waaruit de optimale bestelgrootte afgeleid kan worden. Deze vergelijking is in het algemene geval nog zeer bewerkelijk: afhankelijk van de dichtheid fL(x) kan het oplossen van de vergelijking (2.11) nog zeer ingewikkeld zijn.

In het geval van een normaal verdeelde vraag kunnen we de vergelijking echter verder vereenvoudigen.

Optimaal bestelpunt voor normaal verdeelde vraag

Uiteraard zal de verdeling van de vraag gedurende de levertijd in de praktijk niet precies bekend zijn. Vaak wordt dan de normale verdeling gebruikt om de vraag te modelleren. Dit wordt gerechtvaardigd als de vraag ontstaat uit een groot aantal afnemers vanwege de centrale limietstelling. Stel dus dat de vraag XL gedurende de levertijd normaal verdeeld

is, met verwachting µL en standaardafwijking σL. Aangezien de vraag nooit negatief is,

eisen we dat σL/µL niet te groot is (zeg, σL/µL ≤ 0.5).

Voor het vereenvoudigen van de vergelijkingen (2.10) en (2.11) gebruiken we de vol-gende representatie voor het bestelpunt s:

s = µL+ kσL

We zullen nu het getal k bepalen, waaruit we s afleiden. Dit getal wordt de veiligheidsfac-tor genoemd, omdat kσL(= s − µL) de veiligheidsvoorraad weergeeft. Deze representatie

voor s stelt ons in staat vergelijking (2.10) in termen van de standaardnormale verdeling te herschrijven. Aangezien P (XL> s) = P XL− µL σL > k = 1 − Φ(k),

met Φ(k) de verdelingsfunctie van de standaardnormale verdeling, kunnen we de verge-lijking (2.10) vereenvoudigen tot

1 − Φ(k) = 1 − α. (2.12) De factor k wordt dan berekend middels een numerieke benadering voor de inverse functie Φ−1(k)

Voor het oplossen van vergelijking (2.11) hebben we de normale verliesfunctie nodig. Deze functie wordt gedefinieerd door

I(z) = √1 2π Z ∞ z (x − z)e−12x 2 dx.

De functiewaarden worden numeriek bepaald, omdat de integraal niet exact op te lossen is. Om (2.11) te herschrijven middels I(z), merken we op dat de functie gelijk is aan de volgende verwachting:

(16)

waarbij U een standaardnormaal verdeelde stochast is. Aangezien nu voor elk getal a, Z ∞ a (x − a)fL(x)dx = E(XL− a)+ = σLE " X_L− µL σL − a − µL σL +# = σLI a − µL σL ,

kunnen we de integraalrepresentaties voor S1 en S2 vereenvoudigen tot

S1 = σLI s − µL σL , S2 = σLI s + Q − µL σL . (2.13) Dit geeft ons de volgende uitdrukking voor vergelijking (2.11):

σLI s − µ_L σL + σLI s + Q − µ_L σL = (1 − β)Q0.

Om deze vergelijking nog verder te vereenvoudigen, merken we op dat de tweede term gedefinieerd is als het verwachte tekort vlak na de binnenkomst van een bestelling. Als het vereiste serviceniveau hoog genoeg is, zal het bijna nooit plaatsvinden dat er nog een tekort is vlak nadat een aanvulorder binnengekomen is. Voor praktische doeleinden wordt dan ook meestal de tweede term verwaarloosd. We hoeven dan alleen nog de simpele vergelijking

σLI(k) = (1 − β)Q0 (2.14)

op te lossen. Het getal k wordt dan berekend middels een numerieke benadering voor de inverse functie I−1(k).

Deze vergelijking is een van de meest belangrijke wetenschappelijke resultaten in de voorraadtheorie. Het geeft een eenvoudige manier om het optimale bestelpunt s te bere-kenen gegeven een bestelgrootte Q0. Aangezien we hier met een zeer specifieke verdeling

(de normale verdeling) werken, welke statistisch zeer goed hanteerbaar is, is deze verge-lijking in de praktijk goed bruikbaar. Het geeft echter geen exacte oplossing voor een optimale combinatie van (s, Q). We hebben al enkele redenen genoemd waarom deze oplossing niet exact is, waarvan de belangrijkste zijn:

• De grootheden s en Q worden niet simultaan berekend: het model bepaalt eerst Q en dan s.

• De prestatiematen ’gemiddelde voorraad op de planken’, ’gemiddelde achterstand in levering’ en ’kans op buiten voorraad raken’ worden niet exact berekend.

• De term S2 wordt verwaarloosd in de service-eis P2.

Het belangrijkste kritiekpunt is het niet simultaan berekenen van s en Q. Maar hoe kunnen we deze grootheden dan wel tegelijk optimaliseren? We zullen het gehele model herbouwen. We maken hierbij gebruik van continue Markovketens en brengen hiermee het verloop van de economische en fysieke/netto voorraad in kaart.

(17)

3. Het (s, Q)-model als Markovketen

Om een exacte oplossing te geven voor (s, Q) moeten we een beeld hebben van het verloop van de voorraad gedurende de tijd. Markovketens zijn hiervoor uitermate geschikt. Voor het werken met Markovketens hebben we de volgende aannames nodig:

1. De voorraadpositie wordt continu bijgehouden en een aanvulorder kan op elk ge-wenst moment worden geplaatst.

2. De vraag verloopt volgens een Poissonproces: individuele vraagtransacties zijn pre-cies gelijk aan 1 en de tijd tussen transacties is exp(λ) verdeeld.

3. Een aanvulorder ter grootte Q ∈ N wordt geplaatst telkens als de economische voorraad tot het bestelpunt s ∈ N daalt.

4. De levertijd van een bestelling is een stochastische variabele die exp(_L1) verdeeld is. 5. De gevraagde hoeveelheden in disjuncte tijdsintervallen zijn stochastisch

onafhan-kelijk (Markov-eigenschap).

We leggen aan ons model verder nog een belangrijke restrictie op: er kan maar énén enkele bestelling tegelijk worden geplaatst. Deze situatie doet zich bijvoorbeeld voor wanneer een bedrijf één vrachtwagen tot zijn beschikking heeft dat op pad gestuurd wordt voor bestellingen.

Deze aannames verschillen op een aantal punten van het normale (s, Q)-voorraadmodel. Een is dat de vraag niet meer een continue variabele is. De vraag verloopt nu in gelijke sprongen die onafhankelijk van elkaar zijn en waarbij de tijd tussen sprongen stochastisch is. Hiervoor hebben we een aftelbare toestandsruimte I = N voor de vraag nodig; de bestelgrootte Q en het bestelpunt s moeten dus ook natuurlijke getallen zijn.

Een belangrijk tweede verschil is dat de levertijd niet meer constant is, maar een ex-ponentieel verdeelde stochast. Deze aanname is zeer nuttig voor het uitwerken van het model. De exponenti¨ele verdeling heeft de gunstige eigenschap dat deze geheugenloos is: wanneer de tijd dat een gebeurtenis plaatsvindt exponentieel verdeeld is, is het plaats-vinden van deze gebeurtenis onafhankelijk van de tijd dat er gewacht is. Voor de levertijd betekent dit dat het voor het bepalen van het leveringsmoment het niet van belang is te weten wanneer de bestelling geplaatst is, enkel dat deze geplaatst is.

De kostenstructuur van dit model ziet er als volgt uit:

• Voorraadkosten r per tijdseenheid per eenheid product in voorraad • Vaste kosten K per bestelling

(18)

Er kan een probleem ontstaan in dit model. Het verbieden van bestellingen tijdens het verloop van een andere bestelling kan zorgen voor een niet-positief recurrent model. Namelijk als Q klein is en de verwachte vraag λ per tijdseenheid groot is, kunnen er tekorten in de voorraad ontstaan die niet meer nageleverd kunnen worden omdat de bestelde hoeveelheid per keer te klein is en er maar één bestelling tegelijk plaats kan vinden. We beschouwen daarom twee mogelijke strategieën voor het regelen van het voorraadniveau:

• een (s, Q)-strategie: er wordt Q besteld wanneer de economische voorraad gedaald is tot s of lager en wanneer de vorige bestelling geleverd is;

• een (s, S)-strategie: het verschil met een bepaald referentieniveau S voor de econo-mische voorraad wordt hersteld wanneer de econoecono-mische voorraad gedaald is tot s of lager.

Aangezien er maar één bestelling tegelijk geplaatst kan worden, zal het voor kunnen komen dat de nettovoorraad zeer laag is op het moment dat een bestelling binnenkomt. Het kan dan wenselijk zijn extra te bestellen. We verwachten daarom dat de (s, S)-strategie een superieure S)-strategie zal zijn voor dit probleem. Toch zullen we voor inzicht in het voorraadproces in eerste instantie ons voornamelijk bezig houden met de bespreken van (s, Q)-strategieën.

We zullen voor dit model het gedrag van de nettovoorraad in kaart brengen en zodoende uitdrukkingen geven voor de verscheidene vormen van kosten (vaste kosten, voorraadkos-ten, kosten bij tekorten). Wanneer we deze kosten hebben gevonden, kunnen we deze vervolgens in kaart brengen voor verschillende combinaties s en Q. Het feit dat de lever-tijd exponentieel verdeeld is, zal hiertoe een belangrijke rol spelen. Aangezien de vraag verder ook exponentieel verdeeld is, kunnen we het voorraadproces beschrijven middels een continue-tijds Markovketen (CTMC). Er bestaan vele technieken op deze processen die ons helpen exacte uitdrukkingen te geven voor de kosten op de lange termijn. We zullen eerst het betreffende CTMC formuleren voor ons probleem.

3.1. Formulering Markovproces

Een continue-tijds Markovketen met aftelbare toestandsruimte kan worden gerepresen-teerd door zijn genererende matrix Q. Deze is voor het model met exponentiëel verdeelde levertijden gemakkelijk te geven. We merken op dat er slechts één bestelling tegelijk kan worden geplaatst. Deze bestelling wordt geplaatst wanneer de nettovoorraad onder s ligt. We kunnen het voorraadproces opdelen in twee deelprocessen die beide CTMC’s zijn: het vraagproces en het bestelproces. Het vraagproces is simpelweg een sterfteproces: de net-tovoorraad daalt met stappen van 1, waarbij de tijd tussen ’sterftes’ (de aankomst van klanten) exp(λ) verdeeld is. Analoog wordt het bestelproces gegeven door de netto-voorraad te laten stijgen met stappen van Q, waarbij de tijd tussen bestellingen exp(1_λ) verdeeld is, met als voorwaarde dat de nettovoorraad onder s moet liggen. De aard van deze CTMC is zo dat er één bestelling tegelijk wordt geplaatst, analoog aan het feit dat klanten een voor een aankomen in het vraagproces. Deze twee processen tellen op tot

(19)

het voorraadproces, dat dus gegeven wordt door de genererende matrix Q = (qij)i,j≤s+Q, met qi,i−1 = λ ∀i, qi,i+Q= 1 L i ≤ s, qii = ( −λ als i > s, −λ + 1 L als i ≤ s, qij= 0 anders.

De eerste vraag die we ons bij dit proces moeten stellen is wanneer deze positief re-current is. Voor dit specifieke proces is het zo dat, wanneer Q te klein is ten opzichte van λ, de nettovoorraad na lange tijd zal blijven dalen. Aangezien er maar ´e´en bestelling tegelijk geplaatst kan worden en de levertijd positief is, kan het zo zijn dat er na lange tijd meer klanten binnenkomen dan dat er van het product kan worden besteld. In deze situatie is er geen sprake van een evenwichtsverdeling, aangezien de nettovoorraad op de lange termijn naar −∞ gaat. We willen dit scenario voorkomen door een voldoende en noodzakelijke conditie vast te stellen zodat het proces positief recurrent is.

Om deze conditie vast te stellen, geven we eerst de genererende matrix weer:

Q =                −λ λ 0 · · · 0 0 0 0 0 · · · 0 . .. ... ... ... ... ... ... ... · · · .. . . .. ... ... 0 ... ... ... ... · · · .. . . .. ... λ 0 0 0 0 · · · 0 · · · 0 −λ λ 0 0 0 · · · 1 L 0 · · · 0 −λ − 1 L λ 0 0 · · · 0 _L1 0 · · · 0 0 −λ − 1 L λ 0 · · · .. . ... ... ... ... ... ... ... ... . ..                .

Deze matrix heeft een speciale vorm. We kunnen de matrix namelijk opdelen in vier-kante matrices ter grootte Q, zodat deze als volgt gerepresenteerd kan worden:

Q =          B0 A0 0 0 0 · · · B1 A1 A0 0 0 · · · 0 A2 A1 A0 0 · · · 0 0 A2 A1 A0 · · · 0 0 0 A2 A1 · · · .. . ... ... ... ... . ..          , (3.1)

(20)

matrices van dezelfde grootte, die gegeven worden door B0 =         −λ λ 0 · · · 0 0 . .. ... ... ... .. . . .. ... ... 0 .. . . .. ... λ 0 · · · 0 −λ         , (3.2) B1 = A2 =      1 L 0 · · · 0 0 . .. ... ... .. . . .. ... 0 0 · · · 0 _L1      , (3.3) A0 =      0 0 · · · 0 .. . ... ... 0 0 · · · 0 λ 0 · · · 0      , (3.4) A1 =         −λ − 1 L λ 0 · · · 0 0 . .. ... ... ... .. . . .. ... ... 0 .. . . .. ... λ 0 · · · 0 −λ − 1 L         . (3.5)

Een matrix die op deze manier gepartitioneerd kan worden heet een matrix in matrix-geometrische vorm. Het blijkt dat oplossingen van de balansvergelijkingen van zulke matrices gegeven kunnen worden door het oplossen van een eindig stelsel vergelijkingen, in tegenstelling tot een oneindig stelsel waar we in eerste instantie mee te maken hebben. De methode waarop dit gebeurt, wordt beschreven in de volgende sectie.

3.2. Matrix-geometrische methode

De vorm die de matrix Q aanneemt zegt veel over de structuur van het proces. We zien dit in wanneer we de toestanden i ≤ s + Q representeren als tweedimensionale toestandsvectoren (η, k), waarbij η ∈ H, en k ∈ K voor zekere aftelbare verzameling H en eindige verzameling K. Toestanden worden ingedeeld in niveaus η. De tridiagonale blokstructuur van de matrix zorgt er vervolgens voor dat overgangen tussen toestanden alleen als volgt plaats kunnen vinden:

• tussen toestanden van hetzelfde niveau; • naar toestanden van één niveau hoger; • naar toestanden van één niveau lager.

(21)

Voor het behandelen van de matrix-geometrische vorm in het algemeen zullen we er in het vervolg voor het gemak van uit gaan dat H = {0, 1, . . . } en K = {1, 2, . . . , m} voor zekere m ∈ N.

We zijn ge¨ınteresseerd in de evenwichtsverdeling van een dergelijke matrix in matrix-geometrische vorm. We groeperen hiertoe, analoog aan de toestanden, de evenwichtsver-deling in subvectoren ter lengte m door te nemen

π = (π0, π1, . . . ),

met

πη = (π(η, 1), . . . , π(η, m)).

Als we nu een matrix Q gebruiken van de vorm (3.1) samen met de gepartitioneerde πη, levert dit het volgende stelsel balansvergelijkingen op:

π0B0+ π1B1 = 0 π0A0+ π1A1 + π2A2 = 0 π1A0+ π2A1 + π3A2 = 0, .. . πi−1A0+ πiA1+ πi+1A2 = 0 i = 2, 3, . . .

Deze vergelijkingen zijn enkel op te lossen wanneer het proces positief recurrent is. De matrix-geometrische methode geeft een voldoende en noodzakelijke conditie voor positieve recurrentie.

Stelling 3.1. Laat A = A1+ A2+ A3 en zij πA de evenwichtsverdeling bij A (deze bestaat

aangezien alle rijen van A sommeren tot 0 en A een eindige-dimensionale matrix is). Dan is het irreducibele Markovproces positief recurrent dan en slechts dan als

πAA0e < πAA2e, (3.6)

waarbij e een vector van enen is met lengte m.

Het bewijs van deze stelling maakt gebruik van genererende functies, die buiten het domein van dit onderzoek liggen. We verwijzen de ge¨ınteresseerde lezer naar Neuts [5]. De driftconditie heeft wel een intu¨ıtieve interpretatie. De linker- en rechterkant van de driftconditie zijn namelijk gelijk aan de gemiddelde overgangsintensiteiten van een niveau η ≥ 2 naar het niveau erboven en beneden respectievelijk. Volgens de driftconditie moet dus gelden dat de gemiddelde overgangsintensiteit naar boven kleiner is dan die naar beneden. Dit is precies wat nodig is voor positieve recurrentie (de niveaus zijn van boven onbegrensd en van beneden begrensd).

Wanneer aan deze conditie voldaan is, kan de evenwichtsverdeling worden uitgerekend. Het fundamentele resultaat van de matrix-geometrische methode is nu dat er tussen opeenvolgende πη’s een geometrisch verband bestaat, dat wil zeggen,

(22)

voor een zekere vaste vierkante matrix R ter grootte m. Inductief levert dit op:

πi = π1Ri−1, i = 2, 3, . . . (3.8)

Deze vergelijking impliceert dat we alle πi voor i = 2, 3, . . . kunnen bepalen middels

R, π0 en π1. Eerst behandelen we hoe R bepaald wordt.

Deze vergelijking substitueren in het stelsel balansvergelijkingen levert ons op: π1Ri−2A0+ π1Ri−1A1+ π1RiA2 = 0,

oftewel

π1Ri−2(A0+ RA1+ R2A2) = 0,

wat leidt tot de karakteristieke vergelijking voor R:

A0+ RA1+ R2A2 = 0. (3.9)

Deze vergelijking is vaak lastig exact op te lossen, maar er bestaat wel een numerieke methode die de juiste matrix R benadert. Ten eerste vermenigvuldigen we de vergelijking met A−1₁ om te krijgen:

A0A−11 + R + R 2_A

2A−11 = 0,

waarbij we R naar de andere kant halen zodat

R = −A0A−11 − R2A2A−11 = −V − R2W.

We benaderen R vervolgens met de volgende rij R(k):

R(0)= 0, R(k)= −V − R2(k−1)W, k = 1, 2, . . . (3.10)

Zo kunnen we R benaderen tot de gewenste precisie.

Ten slotte dienen we nog π0 en π1 uit te rekenen. Hiertoe gebruiken we de eerste twee

van de balansvergelijkingen. Deze luiden:

π0B0+ π1B1 = 0,

π0A0 + π1A1+ π2A2 = 0.

Door π2 te substitueren met π1R kunnen we deze twee vergelijkingen in blokmatrixvorm

schrijven: (π0, π1) B0 A0 B1 A1+ RA2 = (0, 0), (3.11) waaruit we een oplossing ˆπ0 en ˆπ1 kunnen destilleren. Deze moeten nog genormaliseerd

worden door de conditie πe = 1. Deze conditie bevat een oneindige som, maar is concreet te maken door gebruik te maken van de geometrische eigenschap:

1 = πe = π0e + ∞ X i=1 πie = π0e + ∞ X i=1 π1Ri−1e = π0e + ∞ X i=0 π1Rie = π0e + π1 ∞ X i=0 Ri ! e

(23)

Om aan de conditie πe = 1 te voldoen moet de reeks P∞

i=0R

i _{convergeren. In dat geval}

bestaat de inverse (I − R)−1 en verkrijgen we

π0e + π1(I − R)−1e = 1.

Om dus aan π0 en π1 te komen, berekenen we

α = ˆπ0e + ˆπ1(I − R)−1e.

De evenwichtskansen π0 en π1 worden dan gegeven door

π0 = ˆ π0 α, π1 = ˆ π1 α.

Daarmee hebben we gelijk de volledige evenwichtsverdeling door te gebruiken dat πi =

π1Ri−1 voor i = 2, 3, . . . .

3.2.1. Toepassing op het voorraadmodel

We hadden al vastgesteld dat de genererende matrix van het voorraadprobleem de vorm (3.1) heeft. We kunnen de matrix-geometrische methode dus toepassen op het voorraad-probleem, waarbij we de toestanden opdelen in blokken ter grootte Q. We gebruiken de volgende notatie voor dit specifieke probleem:

• H = {s + Q, s, s − Q, . . . }, • K = {0, 1, . . . , Q − 1}.

Toestanden i in het voorraadmodel zijn dan van de vorm i = η − k, met η ∈ H en k ∈ K. Eveneens geven we de evenwichtsverdeling ¯π als volgt weer:

¯

π = {¯πs+Q, ¯πs, ¯πs−Q, . . . },

met

¯

πη = (π(η, 0), π(η, 1), . . . , π(η, Q − 1)).

Het bepalen van de evenwichtsverdeling π wordt dan gereduceerd tot het bepalen van ¯

πs+Q, ¯πs en R, waarbij de andere ¯πη gegeven worden door

¯

πs−iQ = ¯πsRi, i = 1, 2, . . . .

Eerst dienen we na te gaan wanneer de evenwichtsverdeling bestaat, oftewel wanneer het model positief recurrent is. Hiertoe gebruiken we de driftconditie (3.6). Herinner je

(24)

dat de matrices A0, A1 en A2 gegeven worden door A0 =      0 0 · · · 0 .. . ... ... 0 0 · · · 0 λ 0 · · · 0      , A1 =         −λ − 1 L λ 0 · · · 0 0 . .. ... ... ... .. . . .. ... ... 0 .. . . .. ... λ 0 · · · 0 −λ − 1 L         , A2 =      1 L 0 · · · 0 0 . .. ... ... .. . . .. ... 0 0 · · · 0 _L1      .

Optellen van deze drie matrices leidt tot de uiterst eenvoudige matrix A = A0+ A1+ A2:

A =         −λ λ 0 · · · 0 0 . .. ... ... ... .. . . .. ... ... 0 0 . .. ... λ λ 0 · · · 0 −λ         .

Dit is simpelweg een cyclisch proces waarbij de tijd tussen transities overal exp(λ) ver-deeld is. Het is gemakkelijk na te gaan dat de evenwichtsverdeling πA bij deze matrix

gelijk is aan πA= 1 Q, . . . , 1 Q . De linkerkant van de driftconditie levert dus op

πAA0e =

λ Q. De rechterkant van de ongelijkheid geeft

πAA2e = Q X i=1 1 QL = 1 L.

Het proces is dus positief recurrent wanneer _Qλ < _L1, oftewel wanneer λL < Q. Deze conditie is intu¨ıtief heel logisch, aangezien met deze conditie tekorten altijd afgelost kun-nen worden door telkens te bestellen wanneer de vorige bestelling binkun-nen is (dit gebeurt

(25)

wanneer de voorraad na binnenkomst van een bestelling onder s blijft). Immers, het verwachte aantal klanten in de levertijd is dan kleiner dan de bestelgrootte.

We zullen er in het vervolg van uitgaan dat Q groot genoeg is zodat aan de driftconditie voldaan is. We richten ons nu op de berekening van de matrix R. We hebben gezien dat deze matrix aan de volgende kwadratische vergelijking moet voldoen:

A0+ RA1+ R2A2 = 0.

Het direct bepalen van R uit deze vergelijking voor algemene Q is bijzonder lastig. Wij zullen R dus numeriek benaderen via de methode (3.10). We kunnen deze gebruiken aangezien A1 bovendriehoeks is met diagonaalelementen ongelijk aan nul (mits −λ −_L1 6=

0), oftewel det(A1) 6= 0. Ter illustratie berekenen we numeriek de evenwichtsverdeling

voor de volgende specifieke keuzes van de parameters: • λ = 2,

• L = 1, • s = 3, • Q = 3.

De matrixgeometrische methode groepeert de toestanden dan per drie, waarbij maxi-male voorraad 6 is. We hebben dus ¯π6 = (π6, π5, π4), ¯π3 = (π3, π2, π1), etc.

De matrices A0, A1 en A2 zijn dan als volgt:

A0 =   0 0 0 0 0 0 2 0 0  , A1 =   −3 2 0 0 −3 2 0 0 −3  , A2 =   1 0 0 0 1 0 0 0 1  .

Verder hebben we voor het bepalen van R de inverse van A1 nodig. Deze is in dit geval

gelijk aan A−1₁ =   −1 3 − 2 9 − 4 27 0 −1 3 − 2 9 0 0 −1 3  . De matrices V en W in (3.10) zijn dan gelijk aan

V = A0A−11 =   0 0 0 0 0 0 −2 3 − 4 9 − 8 27  , W = A2A−11 =   −1 3 − 2 9 − 4 27 0 −1 3 − 2 9 0 0 −1 3  .

(26)

De eerste vier iteraties van R(k) zien er als volgt uit: R(1) =   0 0 0 0 0 0 0.6667 0.4444 0.2963   R(2) =   0 0 0 0 0 0 0.7325 0.5322 0.3841   R(3) =   0 0 0 0 0 0 0.7604 0.5751 0.4326   R(4) =   0 0 0 0 0 0 0.7763 0.6005 0.4627  . We zien dat deze rij convergeert. Na veertig iteraties hebben we

R(40)=   0 0 0 0 0 0 0.8105 0.6570 0.5325  

en bij verdere iteraties verschillen de elementen minder dan 0.001 van deze matrix. We zullen werken met deze matrix R.

We moeten voor dit voorbeeld nog ¯π6 en ¯π3 berekenen. Via (3.11) zien we in dat deze

de oplossing zijn van de volgende matrixvergelijking:

(¯π6, ¯π3) B₀ A0 B1 A1+ RA2 = (π6, π5, π4, π3, π2, π1)         −2 2 0 0 0 0 0 −2 2 0 0 0 0 0 −2 2 0 0 1 0 0 −3 2 0 0 1 0 0 −3 2 0 0 1 0.8105 0.6570 −2.4675         .

Een oplossing van deze vergelijking is

(ˆπ6, ˆπ5, ˆπ4, ˆπ3, ˆπ2, ˆπ1) = (0.2311, 0.4184, 0.5703, 0.4622, 0.3747, 0.3037).

Deze schalen we vervolgens met

, α = ˆπ¯6e + ˆπ¯3(I − R)−1e = 3.6596

wat ons de oplossing van de eerste zes evenwichtskansen geeft:

(π6, π5, π4, π3, π2, π1) = (0.0632, 0.1143, 0.1558, 0.1263, 0.1024, 0.0830).

Deze vector, samen met R, levert ons de volledige evenwichtsverdeling via de relatie ¯

(27)

De simpele vorm van R maakt het mogelijk de volgende expliciete uitdrukking voor de machten van de matrix te geven

Ri =   0 0 0 0 0 0 0.8105 · 0.5325i−1 _{0.6570 · 0.5325}i−1 _0.5325i  ,

wat betekent dat we de andere πiook zonder matrixvermenigvuldiging kunnen weergeven,

en alleen gebruikmakend van π1 = 0.0830:

π3−3i= 0.0830 · 0.8105 · 0.5325i−1, i = 1, 2, . . .

π2−3i= 0.0830 · 0.6570 · 0.5325i−1, i = 1, 2, . . .

π1−3i= 0.0830 · 0.5325i, i = 1, 2, . . . .

Uiteindelijk kunnen we middels de evenwichtsverdeling eenvoudig de voorraadkosten en kosten bij tekorten berekenen. Deze kosten worden behandeld in de volgende sectie.

3.3. Voorraadkosten en kosten bij tekorten

De evenwichtsverdeling van de voorraad levert ons vrijwel direct de voorraadkosten en kosten bij tekorten. We kunnen de evenwichtsverdeling namelijk opvatten als de fractie van tijd dat in elke toestand wordt besteed op lange termijn. De voorraadkosten en kosten bij tekorten zijn direct afhankelijk van deze fractie van tijd. Om precies te zijn, worden de gemiddelde voorraadkosten ¯r en gemiddelde boetekosten ¯b per tijdseenheid, gegeven voorraadkosten r per tijdseenheid per product in voorraad en boetekosten b per tijdseenheid per tekort, gedefinieerd door

¯ r = lim

t→∞E[fysieke voorraad op tijdstip t] · r (3.12)

¯ b = lim

t→∞E[tekort op tijdstip t] · b (3.13)

Maar voor deze verwachtingen hebben we enkel de evenwichtsverdeling nodig. Merk op dat de fysieke voorraad gelijk is aan de nettovoorraad wanneer de nettovoorraad positief is en 0 anders. Analoog geldt dat het tekort gelijk is aan -nettovoorraad als deze negatief is en 0 anders. Om de verwachtingen uit te rekenen gebruiken we zoals gebruikelijk een gewogen som, zodat we de volgende uitdrukkingen krijgen:

lim

t→∞E[fysieke voorraad op tijdstip t] = s+Q X i=1 iπi lim t→∞E[tekort op tijdstip t] = ∞ X i=1 iπ−i

Beide sommen zijn in het geval van geometrisch gerelateerde evenwichtskansen gemak-kelijk uit te rekenen. We zullen beide verwachtingen uitrekenen voor het voorbeeld dat we in de vorige sectie besproken hebben.

(28)

Eerst bepalen we de gemiddelde fysieke voorraad. De positieve evenwichtskansen waren de volgende:

(π6, π5, π4, π3, π2, π1) = (0.0632, 0.1143, 0.1558, 0.1263, 0.1024, 0.0830).

Wanneer we deze invullen in de eindige som, komen we uit op Ps+Q

i=1 iπi = 2.2406. De

gemiddelde voorraadkosten ¯r per tijdseenheid zijn in dit geval dus gelijk aan 2.2406r. Voor het gemiddelde tekort delen we de negatieve niveaus van de nettovoorraad op in drie stukken, ten einde de geometrische relatie te gebruiken die voor elke groep geldt. Er geldt: ∞ X i=1 iπ−i = ∞ X i=1 3iπ−3i+ ∞ X i=1 (3i − 1)π1−3i+ ∞ X i=1 (3i − 2)π2−3i = 3 ∞ X i=1 iπ−3i+ 3 ∞ X i=1 iπ1−3i+ 3 ∞ X i=1 iπ2−3i− ∞ X i=1 π1−3i− 2 ∞ X i=1 π2−3i

Al deze oneindige sommen hebben een van de volgende vormen:

∞ X i=1 iai = a (1 − a)2, ∞ X i=1 ai = a 1 − a.

Deze gelijkheden kan men eenvoudigweg nagaan door de sommen met ofwel (1 − a)2 of 1 − a te vermenigvuldigen. Door deze identiteiten toe te passen op deze vijf sommen, verkrijgen we uiteindelijk de volgende waarde:

∞

X

i=1

iπ−i = 0.4917 + 0.6067 + 0.7485 − 0.0945 − 0.2333 = 1.5191.

De gemiddelde boetekosten zijn dus b = 1.5191b in dit voorbeeld.

Deze berekeningen kunnen worden uitgevoerd voor een willekeurige combinatie van s, Q, λ en L. De voorraadkosten en kosten bij tekorten zijn middels de evenwichtskansen dus relatief gemakkelijk te berekenen. Het bepalen van het geld dat gemiddeld wordt besteed aan de vaste kosten per bestelling vereist een iets andere aanpak.

3.4. Vaste kosten

De berekening van de vaste kosten op de lange termijn verloopt anders dan die van de andere kosten, doordat vaste kosten niet verbonden zijn aan een toestand, maar aan een toestandsovergang. Specifiek worden vaste kosten opgelopen wanneer het proces van toestand i naar i + Q gaat. De bijbehorende overgangsintensiteit wordt gegeven door qi,i+Q. Deze overgangsintensiteit geeft het gemiddelde aantal overgangen naar toestand

i + Q aan, startend vanuit toestand i. Hierdoor worden de gemiddelde vaste kosten per toestand i gegeven door qi,i+QK.

Op de lange termijn besteedt het proces een fractie πi van de tijd in toestand i. De

(29)

met de evenwichtsverdeling. De gemiddelde kosten per tijdseenheid worden dus gegeven door: ¯ K = X i≤s+Q πiqijcij = X i≤s πi· 1 L · K = K L X i≤s πi = K L 1 − Q X i=1 πs+i ! . (3.14)

Deze kosten zijn computationeel gemakkelijk uit te rekenen. We hoeven enkel een ein-dige som uit te rekenen met evenwichtskansen die we hebben bepaald middels de matrix-geometrische methode. Merk verder op dat de gemiddelde vaste kosten onafhankelijk zijn van het bestelpunt s, aangezien de evenwichtskansen πs+i voor i ∈ {1, . . . , Q}

onafhan-kelijk zijn van s.

We berekenen ook de vaste kosten voor het voorbeeld s = Q = 3. De eindige som is in dit geval gelijk aan

π4+ π5+ π6 = 0.3333.

De gemiddelde vaste kosten zijn dus ¯ K = K

L(1 − 0.3333) = 0.6667K.

3.5. Combinaties van s en Q

We hebben nu methoden gevonden om numeriek de verscheidene types kosten te be-rekenen voor willekeurige s, Q, λ en L. Het optimaliseren van deze kosten voor het (s, Q)-voorraadmodel is, gezien het feit dat deze numeriek bepaald zijn en niet analy-tisch, buiten het bereik van dit onderzoek. Wel zal het inzichtelijk zijn deze kosten weer te geven voor verschillende combinaties van s en Q. Hierbij stellen we de volgende parameters vast: • λ = 2, • L = 1, • r = 1, • K = 1, • b = 3.

Voor deze parameters bepalen we de totale gemiddelde kosten per tijdseenheid, en wel voor alle combinaties van s ∈ {1, . . . , 5} en Q ∈ {3, . . . , 7} (Q > 2 is nodig voor positieve recurrentie). Hiertoe voeren we hetzelfde proced´e uit dat we voor het voorbeeld met s = Q = 3 gebruikt hebben.

(30)

Q 3 4 5 6 7 s 1 1.0336 1.6969 2.2548 2.7712 3.2706 2 1.5956 2.4222 3.0538 3.6115 4.1375 3 2.2406 3.2186 3.9113 4.5010 5.0467 4 2.9529 4.0677 4.8103 5.4245 5.9847 5 3.7197 4.9559 5.7387 6.3715 6.9424 Tabel 3.1.: Voorraadkosten ¯r

We zien dat aanpassingen van s grotere effecten hebben op de voorraadkosten, naar-mate s groter wordt. Daarentegen hebben aanpassingen van Q steeds kleinere effecten op de voorraadkosten bij grotere Q. Verder zorgt een hoger bestelpunt voor grotere in-vloeden van aanpassingen van Q op de prijs. Dit fenomeen is vooral aanwezig bij lage bestelgroottes.

Verder bekijken we de gemiddelde kosten bij tekorten, in de vorm van boetekosten. Weer geven we deze voor verschillende combinaties van s en Q weer.

Q 3 4 5 6 7 s 1 6.9367 3.1859 2.0725 1.5549 1.2589 2 5.6225 2.3616 1.4693 1.0760 0.8594 3 4.5573 1.7505 1.0417 0.7447 0.5868 4 3.7410 1.2976 0.7386 0.5155 0.4006 5 3.2901 1.0027 0.5237 0.3567 0.2735 Tabel 3.2.: Boetekosten ¯b

We zien dat voor de kleinere bestelgroottes, het vergroten van de bestelgrootte de boe-tekosten behoorlijk inperkt. Dit effect is ook terug te zien in het bestelpunt, zij het in mindere mate. Verder heeft het verhogen van het bestelpunt als gevolg dat aanpassingen van de bestelgrootte minder effect heeft op de boetekosten. Evenzo hebben verhogingen van het bestelpunt minder effect wanneer de bestelgrootte toeneemt.

Ten slotte bekijken we de gemiddelde vaste kosten per tijdseenheid ¯K. Aangezien deze onafhankelijk zijn van het bestelpunt, hoeven we slechts vijf waarden te berekenen. De gemiddelde vaste kosten voor elke bestelhoeveelheid worden weergegeven in de volgende tabel:

Q 3 4 5 6 7 ¯

K 0.6667 0.5000 0.4000 0.3333 0.2857 Tabel 3.3.: Vaste kosten ¯K

We zien dat het verhogen van de bestelgrootte een verminderd effect heeft op de vaste kosten naarmate Q groter wordt. In dit voorbeeld specifiek zien we een patroon in de

(31)

vaste kosten. Ze worden in dit geval gegeven door ¯K = 2

Q. De auteur verwacht dat de

gemiddelde vaste kosten per tijdseenheid gelijk zullen zijn aan ¯

K = Kλ LQ.

Het bewijzen van deze formule is een onderwerp voor verder onderzoek.

Uiteraard zijn we uiteindelijk ge¨ınteresseerd in de gemiddelde totale kosten per tijds-eenheid. Om in de totale kosten inzicht te krijgen combineren we de drie tabellen. De volgende tabel geeft de totale gemiddelde kosten aan voor de combinaties van s en Q:

Q 3 4 5 6 7 s 1 7.6370 5.3828 4.7273 4.7261 4.8152 2 7.8848 5.2838 4.9231 5.0208 5.2826 3 7.4646 5.4691 5.3530 5.5790 5.9192 4 7.3610 5.8653 5.9489 6.2733 6.6710 5 7.6765 6.4586 6.6624 7.0615 7.5016

Tabel 3.4.: Totale kosten

Het blijkt zeer onvoordelig te zijn een waarde van Q te kiezen die net boven λL ligt (in dit geval Q = 3). Dit komt doordat de voorraad dan onnodig lang leeg is en het lang duurt voordat tekorten gecompenseerd worden. Relatief hoge waarden van Q zijn wenselijk. Verder zien we dat de kosten sterker in s vari¨eren wanneer Q groter is.

Het optimum voor s en Q lijkt te liggen bij s = 1 en Q = 6. Er is geen aanleiding te vinden dat het optimum ergens anders ligt. Immers, s = 1 is het minimale bestelpunt dat gekozen kan worden in dit model, en hogere bestelpunten dan s = 1 leiden in dit geval tot hogere kosten, behalve in het geval Q = 4. Ook voor de bestelgrootte geldt dat bestelgroottes die niet gelijk zijn aan 6 leiden tot hogere kosten, tenzij het bestelpunt hoger wordt.

We hebben nu inzicht gekregen in de structuur van de gemiddelde kosten in ons model. We hebben zelfs een optimale (s, Q)-strategie gevonden voor specifieke parameterkeuzes. Maar dit optimum is slechts gevonden door het uitproberen van waarden voor s en Q. Bovendien: de optimale bestelstrategie hoeft helemaal niet een (s, Q)-strategie te zijn. Immers, bij de introductie van ons model hebben we al aangekaart dat waarschijnlijk wenselijk is de bestelgrootte niet vast te zetten. Aangezien er ´e´en bestelling tegelijk kan worden geplaatst, kan het zijn dat de voorraad onder s gedaald is op het moment dat de volgende bestelling weer mogelijk is. Om tekorten te beperken, zal er dan meer besteld moeten worden.

In het volgende hoofdstuk laten we de restrictie los dat de bestelgrootte vaststaat. Dit stelt ons in staat ons voorraadmodel te formuleren als een zogenaamd Markov beslissings-proces. Het vakgebied dat deze processen bestudeert, de Markov beslissingstheorie, heeft als doel een optimale strategie te vinden voor zulke processen. Hiertoe zijn verscheidene algoritmes ontwikkeld, die numeriek geimplementeerd kunnen worden. We behandelen een dergelijk algoritme dat ons in staat stelt het voorraadprobleem op te lossen.

(32)

4. Markov beslissingsproces voor

voorraad

Markov Decision Processes, of Markov beslissingsprocessen zijn zeer populaire manieren om een stochastisch optimalisatieprobleem te modelleren. In het geval van stochastische processen gedreven door Markovketens, zoals het probleem dat wij bekijken, blijkt deze theorie een veelzijdige aanpak te geven. We zullen het voorraadproces modelleren via een MDP om vervolgens de technieken toe te passen die ontwikkeld zijn voor dit soort processen.

Voordat we een MDP kunnen construeren, bouwen we de theorie op.

4.1. Markov beslissingstheorie

Een MDP wordt als volgt gedefinieerd.

Definitie 4.1. Een MDP bestaat uit een (discrete-tijds) proces Xn, n = 0, 1, 2, . . . met

toestandsruimte I en een reeks acties An, n = 0, 1, 2, . . . met An ∈ A die het verloop van

Xn be¨ınvloedt. De verzameling A heet de actieruimte.

Aanname 4.2. De toestandsruimte I en de actieruimte A zijn aftelbaar.

Vaak zal het geval zijn dat er in een bepaalde toestand Xn = i slechts een

deelverzame-ling van acties An ∈ Ai ⊂ A toegestaan zijn. Verder nemen we de volgende welbekende

eigenschap aan.

Definitie 4.3. De processen Xn, An, n = 0, 1, 2, . . . in een MDP voldoen aan de volgende

eigenschap:

P(Xn+1= in+1|X0 = i0, . . . , Xn= in, A0 = a0, . . . , An= an) (4.1)

= P(Xn+1 = in+1|Xn= in, An = an). (4.2)

Net als in een normale Markovketen hangt de volgende toestand Xn+1 dus alleen af

van de huidige toestand van Xn en An en niet van het verleden. Deze aanname roept de

volgende notatie op:

pa_{(i, j) := P(X}n+1= j|Xn= i, An= a). (4.3)

De n-stapskansen worden weergegeven met pa

n(i, j). Uiteraard geldt pa1(i, j) = pa(i, j).

(33)

Definitie 4.4. Stel dat een beloning ra_{(i, j) verdiend wordt wanneer het proces X} n zich

in toestand i bevindt, actie a genomen wordt en het proces naar toestand j gaat. Dan definieert

ra(i) :=X

j∈I

pa(i, j)ra(i, j) (4.4) de verwachte beloning als actie a wordt genomen in toestand i.

Aanname 4.5. De verwachte beloningen zijn uniform begrensd, dus er bestaat een R > 0 zodanig dat ||ra_{(i)|| < R voor alle i ∈ I en a ∈ A}

i.

Het probleem dat vaak opgelost moet worden in een MDP is de maximalisatie van de verwachte beloningen na een bepaalde tijd T (of de gemiddelde beloning per tijdseenheid voor T → ∞). Verder is er vaak sprake van een eindbeloning q(i) voor wanneer XT = i,

die meegenomen wordt in het probleem. Voor deze maximalisatie worden strategie¨en gebruikt.

Een strategie definieert een actie die genomen wordt voor elke toestand waarin het systeem zich bevindt. Ze worden gegeven door functies die aan elke toestand i een actie a toekennen. De volgende definitie formaliseert dit begrip.

Definitie 4.6. Een strategie is een functie f die de toestandsruimte I afbeeldt op de actieruimte A.

De gekozen strategie heeft invloed op het verloop van het stochastische proces Xnen op

de beloningen. We zullen de volgende verkorte notatie gebruiken voor de overgangskansen en beloningen:

pf(i, j) := pf (i)(i, j), rf(i) = rf (i)(i), i, j ∈ I.

De uiteindelijke grootheid die gemaximaliseerd dient te worden is de verwachte beloning tot tijdstip T gegeven een strategie f en startend vanaf tijdstip 0:

V_Tf(i) :=

T −1

X

n=0

Ef[rAn(Xn, Xn+1)|X0 = i] + Ef[q(XT)|X0 = i]. (4.5)

Merk op dat de verwachting van de beloningen afhankelijk is van de gebruikte strategie. Een superscript f geeft deze afhankelijkheid aan. Middels de definitie van de verwachte beloning (4.5) kunnen we V_Tf ook als volgt schrijven:

V_Tf(i) =

T −1

X

n=0

Ef[rAn(Xn)|X0 = i] + Ef[q(XT)|X0 = i]. (4.6)

Als we het probleem bekijken met oneindige tijdshorizon, dus als T → ∞, dan maxi-maliseren we de gemiddelde verwachte beloning gf_(i):

gf(i) := lim sup

T →∞ V_Tf(i) T = lim supT →∞ 1 T T −1 X n=0 Ef[rAn(Xn)|X0 = i], (4.7)

(34)

We noteren V_T∗(i) en g∗(i) als de optimale waarden van V_Tf(i) en gf_{(i) respectievelijk.}

Dat wil zeggen,

V_T∗(i) := sup

f

V_Tf(i), g∗(i) := sup

f

gf(i). (4.8) Wij zullen voor het optimaliseren van onze voorraadstrategie kijken naar een oneindige tijdshorizon, aangezien we de kosten willen minimaliseren op de lange termijn.

Een nuttige methode om de optimale strategie te benaderen maakt niet gebruik van de evenwichtskansen maar maakt gebruik van een iteratief algoritme. De Markov-beslissingstheorie levert een aantal krachtige algoritmes om een optimale strategie te bepalen. Wij zullen gebruik maken van de volgende methode, die in de volgende sectie theoretisch besproken wordt.

4.2. Successieve approximatie

De successieve-approximatiemethode is gebaseerd op een zeer krachtige stelling in de the-orie van Markov-beslissingsprocessen. Deze stelling geeft een vergelijking die een optimale strategie kenmerkt.

Stelling 4.7. Stel er bestaat een begrensde functie d(i), i ∈ I, en een constante g zodanig dat voor alle i ∈ I geldt,

d(i) + g = max a∈Ai ( ra(i) +X j∈I pa(i, j)d(j) ) . (4.9)

Dan g = g∗(i) voor alle i ∈ I en dan geldt dat elke strategie f , die voldoet aan,

f (i) ∈ arg max

a∈Ai ( ra(i) +X j∈I pa(i, j)d(j) ) ,

de gemiddelde beloning maximaliseert: gf_{(i) = g}∗_.

Bewijs. Het bewijs van deze stelling wordt toegeschreven aan R. N´u˜nez-Queija[2]. We bewijzen eerst dat de gemiddelde beloning na lim sup_{T →∞}V

f T(i)

T begrensd wordt door g en

daarna dat deze begrenzing bereikt kan worden. We bekijken d(·) als functie van Xt en

bepalen het verwachte verschil van d(Xt+1) met d(Xt) gegeven de waarde van Xt. Voor

elke strategie f geldt

Ef[d(Xt+1)|Xt= i] =

X

j

pf(i, j)d(j) + rf(i) − rf(i)

≤ max a X j pa(i, j)d(j) + ra(i) ! − rf(i) = d(i) + g − rf(i),

(35)

voor alle i ∈ I. De verwachte stijging van d(·) na ´e´en stap heeft dus als bovengrens g − rf_{(i). Middels deze bovengrens kunnen we een bovengrens vinden voor de stijging}

van d(·) in de (t + 1)-de stap, door te conditioneren op de toestand op tijdstip t: Ef[d(Xt+1)|X0 = i] = X j pf_t_{(i, j)E}f[d(Xt+1)|Xt= j] ≤X j pf_t(i, j)(d(j) + g − rf(i)) = g + Ef[d(Xt)|X0 = i] − Ef[rAt(Xt)|X0 = i],

voor alle i ∈ I. Als we nu deze ongelijkheid sommeren van t = 0 tot T − 1 verkrijgen we

en aangezien d(i), i ∈ I een begrensde functie is, geldt dus lim sup

T →∞

V_Tf(i) T ≤ g.

Het bewijs van de existentie van een strategie f die deze bovengrens bereikt, vereist enkel de opmerking dat alle ongelijkheiden in de bovenstaande vergelijkingen gelijkheden worden wanneer de strategie f voldoet aan

f (i) ∈ arg max

a∈Ai ( ra(i) +X j∈I pa(i, j)d(j) ) .

Het successieve-approximatie (SA) algoritme maakt gebruik van deze conditie door de functie d(i) op te bouwen in een groot aantal stappen en telkens de vorige iteratie te gebruiken in de huidige. Het algoritme werkt als volgt.

Het algoritme

0. Laat n := 0. Kies een > 0 en een begrensde functie v0(i) (vaak wordt v0(i) ≡ 0

gebruikt). 1. Bereken vn+1(i) := max a∈Ai ( ra(i) +X j∈I pa(i, j)vn(j) ) (4.10)

(36)

en laat

fn+1(i) ∈ arg max a∈Ai ( ra(i) +X j∈I pa(i, j)vn(j) ) . (4.11)

2. Laat Mn := maxi∈I{vn(i) − vn−1(i)} en mn := mini∈I{vn(i) − vn−1(i)}. Stop het

algoritme als Mn− mn< . Anders laten we n := n + 1 en herhalen we stappen 1

en 2.

Als we v0(i) ≡ 0 kiezen, is het intu¨ıtief niet lastig in te zien dat dit algoritme de

optimale strategie benadert. Immers, vn(i) kan dan worden ge¨ınterpreteerd als de

maxi-male beloning over n perioden, waardoor de maximaxi-male gemiddelde beloning per tijdsstap benaderd wordt door vn(i) − vn−1(i).

Om te laten zien dat dit algoritme daadwerkelijk de optimale strategie benadert, doen we eerst een aanname met betrekking tot de strategie¨en. Deze aanname heeft te maken met de verwachte aankomsttijden Tf_{(i, i}

0) bij een vaste toestand i0 vanaf toestand i,

afhankelijk van de gebruikte strategie f :

Tf(i, i0) = Ef[inf{n ≥ 1 : Xn= i0}|X0 = i].

Aanname 4.8. De Markovketen met overgangskansen pf_{(i, j) is aperiodiek. Verder kan}

er een vaste toestand i0 en T0f < ∞ gekozen worden zodanig dat Tf(i, i0) < T0f voor alle

i ∈ I. Hieruit volgt dat de toestand i0 positief recurrent is.

Het volgende lemma helpt ons te bewijzen dat het SA-algoritme convergeert naar de optimale strategie.

Lemma 4.9. Laat f een strategie zijn die voldoet aan Aanname (4.8) en stel dat voor een zekere constante g en begrensde functie v(i), i ∈ I geldt dat

rf(i) +X

j∈I

pf(i, j)v(j) ≥ v(i) + g, i ∈ I. (4.12)

Dan gf _{≥ g. Analoog, als}

rf(i) +X

j∈I

pf(i, j)v(j) ≤ v(i) + g, i ∈ I, (4.13)

dan gf _{≤ g.}

Bewijs. Het bewijs van dit lemma, toegewezen aan H.C. Tijms[3], gaat analoog voor beide richtingen van de ongelijkheid. Bekijk dus het geval dat er voldaan is aan (4.12). We bewijzen de volgende bewering middels inductie naar T :

V_Tf(i) − T g +X

j∈I

(37)

De basisstap is triviaal. Voor T = 1 komen de ongelijkheden (4.12) en (4.14) immers precies overeen. Voor T ≥ 2 conditioneren we de overgangskansen pf_T(i, j) op pf_{T −1}(i, j). Het is gemakkelijk in te zien dat

pf_T(i, j) =X

k∈I

pf_{T −1}(i, k)pf(k, j).

Verder gebruiken we de definitie van de verwachte beloningen tot op tijdstip T:

V_Tf(i) =

T −1

X

n=0

Ef[rAn(Xn)|X0 = i]

Volgens de inductiehypothese geldt de bewering voor T − 1. Als we nu rf_{(i) in (4.12)}

naar rechts halen en de ongelijkheid substitueren voor P

jp f_{(i, j)v(j), verkrijgen we} V_Tf(i) − T g +X j∈I pf_T(i, j)v(j) = V_Tf(i) − T g +X j∈I X k∈I pf_{T −1}(i, k)pf(k, j)v(j) = V_Tf(i) − T g +X k∈I pf_{T −1}(i, k)X j∈I pf(k, j)v(j) 4.12 ≥ V_Tf(i) − T g +X k∈I pf_{T −1}(i, k)(v(k) + g − rf(k)) = V_Tf(i) −X k∈I pf_{T −1}(i, k)rf(k) − (T − 1)g +X k∈I pf_{T −1}(i, k)v(k) = V_Tf_{(i) − E}f[rAT −1_(X T −1)|X0 = i] − (T − 1)g + X k∈I pf_{T −1}(i, k)v(k) = V_{T −1}f (i) − (T − 1)g +X k∈I pf_{T −1}(i, k)v(k)IH≥ v(i).

Hiermee is 4.14 bewezen. Het bewijs van het lemma volgt nu vrijwel direct: deel beide kanten van (4.14) door T en laat T → ∞. Er volgt dan dat gf _{− g ≥ 0, wat de eerste}

helft van het lemma bewijst. De tweede helft volgt analoog door de ongelijkheden in het bewijs om te draaien.

De volgende stelling geeft begrenzingen voor de gemiddelde beloning die de strategie¨en fn opleveren die in het SA-algoritme gegenereerd worden.

Stelling 4.10. Laat vn(i), fn(i), Mn en mn berekend zijn uit het SA-algoritme. Als fn

voldoet aan Aanname (4.8) dan

mn≤ gfn ≤ g∗ ≤ Mn,