Meerdimensionale optimalisatie - Onbeperkte optimalisering

3.2 Onbeperkte optimalisering

3.2.3 Meerdimensionale optimalisatie

Vervolgens gaan we in op meerdimensionale optimalisatie. Hiervoor bestaan diverse algoritmen, die in drie klassen zijn in te delen:

a. methoden die alleen functiewaarden gebruiken;

b. methoden die behalve functiewaarden ook de gradi¨ent gebruiken;

c. methoden die behalve functiewaarden en gradi¨ent ook de Hessiaan gebruiken.

Tot de klasse van a behoort de methode van Nelder en Mead.13 Deze methode zullen we hier niet bespreken. Uit de klassen b en c zullen we elk ´e´en methode presenteren.

Methode van de sterkste stijging (Cauchy)

Bij deze methode14 nemen we aan dat f (x) eenmaal continu differentieerbaar is en dat we de gradi¨ent ∇f(x) kunnen gebruiken. In het punt xk willen we de richting sk met kskk = 1 z´o kiezen dat de stijging maximaal is (infinitesimaal gezien). Dit houdt in dat we het volgende optimaliseringsprobleem beschouwen: max_s∈Rn ½ lim_λ↓0^{f (x} k+ λs) − f (x^k) λ ¯ ¯ ¯ ksk = 1 ¾ (3.15) Omdat lim_λ↓0^{f (x} k+ λs) − f (x^k) λ ^{= D(f ; s) = {∇f (x} k)}^Ts = k∇f (x^k)k · ksk · cos φ = k∇f (x^k)k · cos φ, met φ de hoek tussen de vectoren ∇f (x^k) en s, wordt het maximum aangenomen voor φ = 0, d.w.z. sk heeft dezelfde richting als ∇f (xk).

12Voor het bewijs, dat gebaseerd is op de vaste punt stelling van Banach, verwijzen wij naar H.R. Schwarz,

Numerical analysis: A comprehensive introduction, Wiley (1989) p. 210.

13J.A. Nelder and R. Mead, Computer Journal, 1965, vol 7, pp 308–313.

14De methode van de sterkste stijging wordt toegeschreven aan Cauchy (1789 – 1857), een Franse wis- en natuurkundige, die deze methode in 1847 beschreef (A.L. Cauchy, Méthode générale pour la résolution des systèmes

d’équations simultanées, Comptes Rendus, Académie Science, Paris, XXV (1847) 536–538). Voor een biografie van

We merken verder op dat de stapgrootte λ_k z´o wordt bepaald dat f (x^k+1) = f (x^k+ λ_ks^k) = max_λ f (x^k+ λs^k), d.w.z. ∂ ∂λf (x^k+ λs^k) = 0 voor λ = λ_k. Omdat _∂λ^∂ f (x^k+ λs^k) = {∇f (x^k+ λs^k)}^Ts^k, geldt: {∇f (x^k+1)}^T{∇f (x^k)} = 0. Dus de opeenvolgende richtingen staan loodrecht op elkaar: de rij {sk}∞

k=0 volgt zigzaggend zijn weg door de Rn.

Algoritme 3.5 Methode van Cauchy

Invoer: Een functie f (x) : Rn→ R en een beginpunt x₀.

Uitvoer: Een benadering x∗ van de optimale oplossing van het probleem max{f (x) | x ∈ Rn}. 1. k := 0 en kies een ε > 0.

2. a. sk := ∇f (xk).

b. Bepaal λ_k zdd. f (xk+ λ_ksk) = max_λ f (xk+ λsk). c. xk+1 := xk+ λ_ksk.

3. Als kxk+1− xkk < ε: stop met x∗ := xk+1 als benadering van de optimale oplossing. Anders: k := k + 1 en ga naar stap 2.

We noemen een methode sterk (zwak) convergent als ∇f (x∗) = 0 voor ieder (minstens ´e´en) ophopingspunt x∗ van de rij {xk}∞

k=0. Stelling 3.7

De methode van Cauchy is sterk convergent. Bewijs

Zij x∗ een willekeurig ophopingspunt van de rij {xk}∞

k=0 en stel dat x∗ de limiet is van de rij {xk(i)}∞

i=0. Omdat f (xk+1) = max_λ f (xk+ λsk) ≥ f (xk) voor alle k, is de rij {f (xk)}∞ k=0 niet-dalend. We kunnen dus schrijven: f (xk(i+1)) ≥ f (xk(i)+1) ≥ f (xk(i)) voor alle i.

Laat i → ∞ en gebruik de continu¨ıteit van f:

f (x∗) = f (lim_i→∞ xk(i+1)) = lim_i→∞ f (xk(i+1)) ≥ lim_i→∞ f (xk(i)+1) ≥ lim_i→∞ f (xk(i)) = f (x∗), zodat geldt

f (x∗) = lim_i→∞ f (xk(i)+1) ≥ lim_i→∞ f (xk(i)+ λsk(i))

= lim_i→∞ f (x^k(i)+ λ∇f (x^k(i))) = f (lim_i→∞{x^k(i)+ λ∇f (x^k(i))}) = f (x∗+ λ∇f (x∗)) voor alle λ.

Dus f (x^∗+ λ∇f (x^∗)) is maximaal voor λ = 0, d.w.z. ∂ ∂λ^{f (x} ∗+ λ∇f (x^∗)) = {∇f (x^∗+ λ∇f (x^∗))}^T∇f (x^∗) = 0 voor λ = 0, ofwel {∇f (x∗)}T∇f (x∗) = 0 m.a.w. ∇f (x∗) = 0. Opmerkingen

1. Als {x | f (x) ≥ f (x⁰)} een compacte verz. is, dan heeft iedere rij {x^k}^∞_k=0 een ophopingspunt. 2. Het is mogelijk dat de rij {xk}∞

k=0 meer ophopingspunten heeft. Dit is bijvoorbeeld het geval voor de functie f (x₁, x₂) = −(r − 1)2+ 1

2(r − 1)2cos n 1 r−1 − φ o , gegeven in poolco¨ordinaten, dus met r =^px2

1+ x2

2 en φ = arctan^x1

x2. Er kan worden aangetoond dat r = 1 een continu¨um is van ophopingspunten en dat, als we starten met een x0 waarvoor r > 1, we zigzaggend omhoog klimmen naar de rif r = 1.

3. De convergentie van de methode van Cauchy is in het algemeen vrij slecht. Zelfs als f kwadratisch en concaaf is, zoals f (x) = −¹₂xTCx met C een positief definiete symmetrische matrix zodat x∗= 0 de optimale oplossing is, dan is deze convergentie lineair, zoals de volgende stelling laat zien.

Stelling 3.8 Als f (x) = −1

2xTCx met C een positief definiete symmetrische matrix, dan geldt f (x^k+1) ≥ µ M − m M + m ¶₂ f (x^k) voor alle k, waarbij M en m de grootste resp. de kleinste eigenwaarden van C zijn. Bewijs

Voor de functie f (x) = −¹₂xTCx met C een positief definiete symmetrische matrix geldt dat ∇f (x) = −Cx en de staplengte λ_k = _(s^(sk^k)⁾T^TCs^s^kk met sk = ∇f (xk) = −Cxk. Hieruit volgt dat

f (xk+1) = −¹₂^©xk+ λ_kskª_T C^©xk+ λ_kskª = −¹₂^©(xk)TCxk+ 2λ_k(xk)TCsk+ (λ_k)2(sk)TCskª = −¹₂^©(xk)TCxk− 2λ_k(sk)Tsk+ (λ_k)2(sk)TCskª = −¹₂ ½ (xk)TCxk− 2_(s^(sk^k)⁾T^TCs^s^kk · (sk)Tsk+ n (sk)Tsk (sk)TCsk o₂ · (sk)TCsk ¾ = −¹₂ n (xk)TCxk−^{(s_(sk^k)⁾T^TCs^s^k^}k² o . Omdat f (xk) = −¹₂(xk)TCxk= −¹₂(sk)TC−1sk, krijgen we f (xk+1) = −¹₂ n (xk)TCxk−_{(sk)TCs^{(sk^k}{(s⁾^T^sk^k)^}T²C−1sk} · (sk)TC−1sko = n 1 −_{(s_k₎_T_Cs^{(s_k^k_}{(s⁾^T^s_k^k₎^}_T²_C₋₁_s_k_} o f (xk).

Volgens de Kantorovich ongelijkheid¹⁵ geldt dat {(sk)Tsk}2

{(sk)TCsk}{(sk)TC−1sk} ^≥

4M m (M + m)2. Omdat f (xk) negatief is volgt hieruit

f (x^k+1) ≥ ½ 1 − ^{4M m} (M + m)2 ¾ f (x^k) = µ M − m M + m ¶₂ f (x^k). Voorbeeld 3.7 Neem de functie f (x) = −x2 1− 2x₁x₂− 5x2 2+ 6x₁− 2x₂− 2 en start met x0= (1, 0). Hieronder worden x1, x2, . . . , x5 met de bijbehorende functiewaarden berekend.

k xk sk= ∇f (xk) λ_k= _(s^(sk^k)T⁾^TCs^s^kk f (xk) 0 (1,0) (4,-4) 0.25 3 1 (2,-1) (4,4) 0.125 7 2 (2.5, -0.5) (2,-2) 0.25 9 3 (3,-1) (2,2) 0.125 10 4 (3.25,-0.75) (1,-1) 0.25 10.5 5 (3.5,-1) (1,1) 0.125 10.75

De optimale oplossing van dit probleem is x∗ = (4, −1) met waarde 11. Als we kijken naar de rij {f (x^∗) − f (x^k)}^∞_k=0, dan krijgen we de getallen 8, 4, 2, 1, 0.5, 0.25, . . . , d.w.z. dat de convergentie van de rij {f (xk)}∞

k=0 lineair is met factor ¹₂.

Methode van Newton

We bespreken nu de methode van Newton voor meerdimensionale optimalisering. In de k-de iteratie lossen we de vergelijking ∇f (x) = 0 approximatief op. In plaats van ∇f (x) gebruiken we de eerste orde Taylor-benadering om xk, d.w.z. we lossen de vergelijking

∇f (x) = ∇f (x^k) + ∇²f (x^k)(x − x^k) = 0 op, d.w.z.

x^k+1 = x^k− {∇²f (x^k)}⁻¹∇f (x^k). (3.16) Deze methode is ook te beschouwen als een speciaal geval van het generieke algoritme 3.1 met x^k+1 := x^k + λ_ks^k, want neem λ_k := 1 en s^k := −{∇²f (x^k)}⁻¹∇f (x^k). We nemen bij deze methode aan dat de Hessiaan ∇2f (xk) inverteerbaar is. Dit is bijvoorbeeld het geval als de Hessiaan negafief (of positief) definiet is.

15De ongelijkheid van Kantorovich zegt dat voor een positief definiete symmetrische matrix C en een y 6= 0 geldt dat _(yTCy)(y^(y^T^y)T²C−1y) ≥ 4M m

(M +m)2. Voor een bewijs van deze ongelijkheid, zie: D.P. Bertsekas, Nonlinear Programming,

Algoritme 3.6 Methode van Newton

Invoer: Een functie f (x) : Rn→ R en een beginpunt x₀.

Uitvoer: Een benadering x∗ van de optimale oplossing van het probleem max{f (x) | x ∈ Rn}. 1. k := 0 en kies een ε > 0.

2. s^k:= −{∇²f (x^k)}⁻¹∇f (x^k) en x^k+1:= x^k+ s^k.

3. Als kxk+1− xkk < ε: stop met xk+1 als benadering van de optimale x. Anders: k := k + 1 en ga naar stap 2.

Stelling 3.9

Als f kwadratisch en concaaf is, d.w.z. f (x) = pTx − 1

2xTCx met C een positief definiete sym-metrische matrix, dan convergeert de methode van Newton in ´e´en iteratie naar de optimale oplos-sing x∗ = C−1p.

Bewijs

Omdat ∇f (x) = p − Cx geldt: ∇f (x) = 0 ⇔ x = C−1p. Op grond van Gevolg 3.1 is x∗ = C−1p een globaal optimum. ∇²f (x) = −C, dus voor een willekeurige x⁰ geldt:

x¹ = x⁰− {∇²f (x⁰)}⁻¹∇f (x⁰) = x⁰+ C⁻¹(p − Cx⁰) = C⁻¹p = x^∗. Opmerkingen

1. Om sk te bepalen is het niet altijd nodig om {∇2f (xk)}−1 expliciet te bepalen. Vaak is het effici¨enter om het stelsel ∇2f (xk)s = −∇f (xk) op te lossen. Daarbij kan soms gebruik worden gemaakt van een speciale structuur die de Hessiaan ∇2f (xk) mogelijk bezit, zoals bijvoor-beeld symmetrie.

2. De Hessiaan ∇2f (xk) is niet altijd inverteerbaar, dus de methode is niet altijd toepasbaar. Dit is wel het geval als ∇2f (xk) vervangen wordt door een matrix H_k, een approximatie van de Hessiaan, die negatief definiet is. In dat geval nemen we λ_k weer volgens de lijnoptimali-satie. Dit soort methoden, waarbij de Hessiaan vervangen wordt door een negatief definiete matrix, heten quasi-Newton methoden. We kunnen bijvoorbeeld H_k= −I, met I de eenheids-matrix, nemen. Dan is sk= ∇f (xk), d.w.z. in dat geval krijgen we de methode van Cauchy. Er zijn vele voorstellen voor H_k in de literatuur beschreven.16 Ook als ∇2f (xk) wel inverteer-baar is wordt soms gekozen voor een quasi-Newton methode, omdat het inverteren (te) veel tijd kost.

3. Indien H_k negatief definiet is, dan stijgt de functiewaarde als we in x^k in de richting van s^k = −{H_k}⁻¹∇f (x^k) gaan, immers {∇f (x^k)}^Ts^k= −{∇f (x^k)}^T{H_k}⁻¹∇f (x^k) > 0. 4. Voor een driemaal continu differentieerbare functie f (x) met een optimum in x∗, waarbij de

Hessiaan ∇2f (xk) negatief semidefiniet is, geldt dat de methode van Newton kwadratische convergentie heeft, mits het startpunt x0 voldoende dicht bij x∗ ligt.17

16Zie bijvoorbeeld het boek: G. Zoutendijk, Mathematical Programming Methods, North Holland (1976).

Voorbeeld 3.8 Laat f (x₁, x₂) = −x2

1− 2x2

2+ 4x₁+ 2x₂−^√x₁x₂ en neem x0 = (2, 0.5). We voeren twee iteraties uit en doen de berekeningen in twee decimalen.

k x^k f (^k) ∇f (x^k) ∇²f (x^k) 0 (2.00, 0.50) 3.75 (0.75 , -3.00) ^¡^{−2.19 −2.25}_{−2.25 −7.00}^¢ 1 (2.15, 0.02) 4.01 (-0.30, 1.20) ^¡_{−0.51 −19.10}^{−2.00 −0.51}^¢ 2 (1.98, 0.20) 4.07 (-0.14, -0.65) ^¡^{−2.05 −1.41}_{−1.41 −8.69}^¢ 3 (1.96, 0.12) Vraag 3.7

Ga na dat voor een kwadratische functie f (x) = pTx −¹₂xTCx met C een positief definiete symmetrische matrix voor de staplengte λ_k geldt: λ_k= ^{{∇f (x}_(sk)T^kCs^)}^Tk^s^k.

Vraag 3.8

Pas de methode van Cauchy toe op de functie f (x₁, x₂) = −x2

1− 50x2 2.

Start met x0 =^¡²₂^¢, voer twee iteraties uit en doe de berekeningen in 2 decimalen na de komma. Vraag 3.9

Beschouw de kwadratische functie f (x₁, x₂) = −x2 1− 5x2

2− 2x₁x₂+ 6x₁− 2x₂.

Start met x0 =^¡¹₁^¢en pas de methode van Newton toe om in ´e´en stap het optimum te bepalen.

3.2.4 Opgaven

Opgave 3.4

Toon aan dat indien f : S → R met S een interval op R waarop f een uniek maximum aanneemt de begrippen stricte quasi-concaviteit en unimodaliteit equivalent zijn.

Opgave 3.5

Beschouw het ´e´endimensionale optimaliseringsprobleem max_1≤λ≤2 {5λ − eλ}. a. Pas de Gulden Snede methode toe (voer vijf iteraties uit).

b. Pas de kwadratische interpolatie-methode toe (voer twee iteraties uit, bijvoorbeeld met een rekenmachine), en start met λ₁ = 1.2, λ₂= 1.5 en λ₃ = 1.8.

Opgave 3.6

Beschouw de functie f (x₁, x₂) = −x2 1− 2x2

2+ 2x₁x₂+ 2x₂. a. Bepaal analytisch het globale maximum.

b. Voer drie iteraties met de methode van Cauchy uit, uitgaande van x0= (0, 0). Opgave 3.7

Beschouw het probleem max {ln 1 x2

1+x2

2+1} en neem x0 = (1, 1). a. Bepaal s0 met de methode van Cauchy.

Opgave 3.8

Beschouw de kwadratische functie f (x₁, x₂) = −2x2 1− x2

2+ 2x₁x₂− 2x₁+ 2x₂. a. Toon aan dat het maximum ligt bij x∗= (0, 1).

b. Start met x0 = (0, 0), gebruik de methode van Cauchy, en laat zien dat x2k = (0, 1 −₅¹k) voor k = 0, 1, . . . .

c. Indien wordt gestopt zodra kxk− x∗k ≤ ₅¹10, hoeveel iteraties zijn dan nodig?

In document BESLISKUNDE 2 L.C.M. KALLENBERG UNIVERSITEIT LEIDEN (pagina 99-105)