• No results found

5 Totale Kleinste Kwadraten

N/A
N/A
Protected

Academic year: 2021

Share "5 Totale Kleinste Kwadraten"

Copied!
11
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

5 Totale kleinste kwadraten

5.a Beste benadering in IR

Als we de verzameling punten V := {x1, x2, · · · , xm} in IR hebben gegeven en we vragen welk punt z het dichtst bij al deze punten ligt, dan is het antwoord natuurlijk afhankelijk van de definitie van

“het dichtstbij”. Het eenvoudigste criterium is het minimaal zijn van de “de som van kwadraten van de verschillen”; we moeten dan een z zoeken zodat

J(z) = Xm i=1

(xi− z)2 (5.1)

minimaal is. Deze functionaal is een nette parabool in z met als uniek minimum het gemiddelde x :=Pmi=1 xi, zoals we zien uit de ongelijkheid

J(z) = Xm i=1

(xi−z)2 = Xm i=1

{(xi−x)2+(x−z)2+2(xi−x)(x−z)} ≥ Xm i=1

(xi−x)2= J(x) ∀ z ∈ IR , omdat de som van de dubbele produkten nul is. We zien dus, dat de kleinste-kwadratenbenadering van de verzameling punten V in IR gegeven wordt door het gemiddelde x .

5.b Lineaire regressie in IR2

Een grootheid y is afhankelijk van een variabele x en we vermoeden een lineair verband,

y = a + b x , (5.2)

zoals bijvoorbeeld de stroom door een weerstand bij een gegeven spanningsverschil of de uitrekking van een veer als funktie van het gewicht dat we er aan hangen. We doen een aantal metingen van y als funktie van x, resulterend in de koppels {(xi, yi)|i = 1, · · · , m}. In het ideale geval liggen deze koppels dus op de lijn gegeven door (5.2) voor zekere waarden van a en b. Ten gevolge van meetfouten en andere afwijkingen van het ideaal, liggen de meetpunten echter niet precies op een rechte en stelt zich het probleem om uit de gegeven metingen {(xi, yi) | i = 1, · · · , m} parameters a en b te bepalen, zodat de lijn y = ax + b zo goed mogelijk er bij past, zie fig. 9a.

Als we x als de onafhankelijke variabele beschouwen (die bij een meting dus vooraf gekozen kan worden) dan hebben we per meting een fout yi − a − bxi. We gaan dan a en b zo kiezen dat de

“totale” fout minimaal is. Een gebruikelijke keuze voor deze totale fout is de som van de kwadraten (die voor de analyse verreweg het eenvoudigst is)

J(z) :=

Xm i=1

(yi− a − bxi)2 met z:=

Ãa b

!

∈ IR2 (5.3)

en het probleem is dan een koppel z :=¡ab¢∈ IR2te bepalen, dat J(z) minimaliseert. In formule (5.3) lijkt het probleem tweedimensionaal. Als we echter in IRm de vektoren x, y en e en de matrix A defini¨eren,

x:=

x1 x2

... xm

, y:=

y1 y2 ... ym

, e:=

1 1... 1

en A :=

1 x1 1 x2

... ... 1 xm

∈ IRm×2, (5.4)

(2)

-5 0 5

0

x x x

x x

x x x

x x x

a. beste rechte met y als funktie van x

-5 0 5

0

x x x

x x

x x x

x x x

b. beste rechte met x als funktie van y

-5 0 5

0

x x x

x x

x x x

x x x

d. de drie benaderende rechten tesamen -5

0 5

0

x x x

x x

x x x

x x x

c. totale kleinste-kwadratenbenadering

Figure 9: Datapunten met de beste bijpassende rechten; (a) geeft de beste rechte als de som van kwadraten van de vertikale afstanden (gestippeld) wordt geminimaliseerd, (b) als de som van kwadraten van horizontale afstanden wordt geminimaliseerd en (c) als de som vam kwadraten van de afstanden van de punten tot de lijn wordt geminimaliseerd. In (d) zijn de drie “benaderingen”

tesamen afgebeeld.

dan is som van kwadraten J(z) =Pmi=1(yi− a − bxi)2 precies het kwadraat van de (Euclidische) lengte van de verschilvektor

y− ae − bx = y − Az zodat J(z) = ky − Azk22.

De lengte van de verschilvektor y − Az is minimaal (zie fig. 10) als deze loodrecht staat op de beeldruimte Im(A) van A; d.w.z.:

y− Az ⊥ vect{e, x}

ofwel, met (·, ·) als notatie voor het inprodukt, µ

w, y − Az

= 0 ∀ w ∈ Im(A).

Aangezien Im(A) = {A w | w ∈ IR2} geldt dus µ

Aw , y − Az

= 0 ∀ w ∈ IR2.

We mogen A getransponeerd naar de andere zijde van het inprodukt overbrengen, zodat µ

w, ATy− ATAz

= 0 ∀ w ∈ IR2

(3)

©©©©©©©©©©©©©©©©©©©©©©©

©©©©©©©©©©©©*A - AA

AA AU

O y

Im(A) Az

y− Az

Figure 10: De vector y, zijn (orthogonale) projektie op Im(A) en de residuvektor y − Az . en zo vinden we de normaalvergelijkingen voor het minimalisatieprobleem (5.3):

ATAz = ATy. (5.5)

Dit heten de normaalvergelijkingen omdat het residu y − Az normaal is (= loodrecht staat) op Im(A). De verkregen rechte y = a + bx wordt (in de statistiek) de “regressierechte” van y op x genoemd.

Een eenvoudiger weg naar het minimum van (5.3) vinden we, als we de data verschuiven zodat hun gemiddelde nul is. In plaats van (5.2) werken we dan met het (equivalente) model

y − y = α + β(x − x), y := 1 m

Xm i=1

yi, x := 1 m

Xm i=1

xi. (5.6)

In dit geval moeten we de funktie J(α, β) :=e

Xn i=1

(yi− y − α − β(xi− x))2 = ky − ye − αe − β(x − xe)k22

minimaliseren. Omdat de vektor e loodrecht staat op de vektoren y − ye en x − xe isJ minimaale als

α = 0 en β = (x − xe)T(y − ye) (x − xe)T(x − xe) =

Pm

i=1(xi− x)(yi− y) Pm

i=1(xi− x)2 . (5.7) Hieruit zien we, dat de regressierechte (5.2) of (5.6) door het zwaartepunt (x, y)T van de puntenwolk gaat.

5.c Lineaire regressie van x op y

Analoog aan het model (5.2) of (5.6), waarin y als funktie van x is beschouwd, kunnen we ook andersom x als funktie van y beschouwen,

x − x = γ + δ(y − y) . (5.8)

Minimalisatie van de som van kwadraten van horizontale afstanden geeft analoog aan (5.7) γ = 0 en δ =

Pn

i=1(xi− x)(yi− y) Pm

i=1(yi− y)2 . (5.9)

Omdat we hier de som van kwadraten van horizontale afstanden minimaliseren, zie fig. 9b, vinden we (i.h.a.) een andere regressielijn dan in het voorgaande geval. Het gemeenschappelijke punt is precies het zwaartepunt (x, y)T van de data.

(4)

5.d De totale kleinste-kwadratenbenadering Als er bij de gegevens

{(xi, yi)|i = 1, · · · , m}

geen duidelijke voorkeur is voor de keuze van y als funktie van x of van x als funktie van y, d.w.z.

als beide grootheden (random) meetfouten bevatten, is het beter om een benaderingscriterium te kiezen, dat geen voorkeur voor een van beide bevat. Het ligt dan voor de hand om som van de kwadraten van de (echte) afstanden van de datapunten tot de lijn te minimaliseren, zie fig. 9c.

Uit de analytische meetkunde weten we, dat de verzameling ℓ := {z ∈ IR2| rT(z − w) = 0} voor gegeven r ∈ IR2 een rechte beschrijft door het punt w loodrecht op de vektor r en dat de afstand van een willekeurig punt x ∈ IR2 tot deze lijn gegeven wordt door de lengte van de projektie van de verschilvektor x − w op een veelvoud van r, zie fig. 11.

ZZ ZZ ZZ Z ZZ ZZ ZZ ZZ Z ZZ ZZ ZZ

SS SS SS SS SS SS o

7

¶¶7

ZZ ZZ ZZ ZZ ZZ ZZ }

O

r

w ℓ = {z ∈ IR2 | (z − w, r) = 0}

x

x− w dist(x, ℓ) = |rT(x−w)|

rTr

Figure 11: Getekend zijn de vektor r, de lijn door w loodrecht op r, het punt x, de verschilvektor x− w en de ontbinding ervan langs de lijn en loodrecht erop.

Als krk2 = 1, dan wordt de afstand van x tot de lijn ℓ gegeven door |rT(x − w)| . Voor het bepalen van de totale kleinste-kwadratenbenadering moeten we dus de loodvektor r van de rechte (van lengte 1) en een vektor w op die rechte bepalen zodat de functionaal I,

I(r, w) :=

Xm i=1

³rT(xi− w)´2= Xm i=1

³r1(xi− w1) + r2(yi− w2)´2 met

(xi = (xi, yi)T r= (r1, r2)T

(5.10) minimaal is. Natuurlijk geeft iedere vektor w op de rechte dezelfde rechte; we zullen eerst laten zien, dat het zwaartepunt van de data op de rechte ligt, zodat de keuze w = (x, y)T altijd goed is en er daarna alleen nog de minimalisatie van (5.10) naar r = (r1, r2)T overblijft. Splitsen van een term als (xi− w1)2 in (5.10) geeft:

Xm i=1

(xi− w1)2 = Xm i=1

³(xi− x)2+ (x − w1)2+ 2(xi− x)(x − w1)´ (5.11)

en hierin is de som van de dubbele produkten nul; het analoge geldt voor de term (yi−w2)2. Hieruit volgt:

I(r, w) = Pmi=1 ³r1(xi− w1) + r2(yi− w2)´2

= Pmi=1 ³r1(xi− x) + r2(yi− y)´2 + m³r1(x− w1) + mr2(y − w2)´2

≥ I(r, (x, y)T) ∀w ∈ IR2.

(5.12)

(5)

Hieruit volgt, dat bij iedere r de keuze w = (x, y)T de functionaal I(r, · ) minimaliseert, zodat het zwaartepunt op de rechte moet liggen. Om de minimale r te vinden, herschrijven we I alsvolgt,

I(r, (x, y)T) = kBrk22= rTBT B r , met B :=

x1− x y1− y x2− x y2− y

... ... xm− x ym− y

. (5.13)

Het minimum wordt dus aangenomen, als r de rechter singuliere vektor van B is, die behoort bij de kleinste singuliere waarde (of als r de eigenvektor is, behorende bij de kleinste eigenwaarde van BT B). Dit minimum is uniek, als beide singuliere waarden van elkaar verschillen. Als r2 6= 0 volgt hieruit,

y = y + ρ(x− x) met ρ := −r1

r2. (5.14)

We merken op, dat het inzicht, dat het zwaartepunt van de data op de gezochte rechte ligt, de sleutel is in de reduktie van (5.10) naar de bepaling van een singuliere waarde en van de oplossing (5.14).

5.e Regressie in meer dan twee dimensies

We beschouwen opnieuw m koppels metingen {(xi, yi)|i = 1, · · · , m}. In plaats van het polynoom (5.2) van graad 1 willen we nu een polynoom van graad n−1 (met n > 0) vinden, dat hierbij zo goed mogelijk past in “kleinste-kwadratenzin”. Als het polynoom gegeven is door

p(x) = c0+ c1x + c2x2+ c3x3+ · · · + cn−1xn−1 (5.15) met onbekende co¨effici¨enten c0, · · · , cn−1, dan kunnen we het benaderingsprobleem formuleren als het zoeken naar het minimum van de functionaal

J(c) :=

Xm i=1

(yi− c0− c1x − c2x2− · · · − cn−1xn−1)2= ky − Ack22, (5.16) waar de vektoren y ∈ IRm, c ∈ IRn en de matrix A ∈ IRm×ngedefinieerd zijn door

y:=

y1 y2

... ym

, c:=

c0

c1 ... cn−1

, en A :=

1 x1 · · · xn1−1

1 x2 · · · xn2−1

... ... ... 1 xm · · · xnm−1

. (5.17)

Een gelijkaardig probleem krijgen we, als we voor een (te meten) grootheid y, die van verschei- dene parameters afhangt, een n-dimensionaal lineair model postuleren,

y = c0+ c1x1+ c2x2+ · · · + cn−1xn−1. (5.18) Deze vergelijking beschrijft een hypervlak van dimensie n−1 in een n-dimensionale ruimte IRn. Uit m (m > n) metingen {(x(i)1 , · · · , x(i)n−1, yi) | i = 1, · · · , m} willen we weer de beste co¨effici¨enten in kleinste-kwadratenzin bepalen door het minimaliseren van de functionaal

J(c) :=

Xm i=1

(yi− c0− c1x(i)1 − · · · − cn−1x(i)n−1)2= ky − Ack22 (5.19) met

y:=

y1 y2 ... ym

, c:=

c0 c1

... cn−1

, en A :=

1 x(1)1 · · · x(1)n−1

1 x(2)1 · · · x(2)n−1

... ... ... 1 x(m)1 · · · x(m)n−1

. (5.20)

(6)

We merken op, dat we in dit tweede geval analoog aan (5.6) de data kunnen verschuiven naar het zwaartepunt (x1, · · · , xn−1, y) met het equivalente model

y − y = c0+ c1(x1− x1) + c2(x2− x2) + · · · + cn−1(xn−1− xn−1) (5.21) met y := 1

m Xm i=1

yi en xk:= 1 m

Xm i=1

x(i)k . We moeten dan de functionaalJ minimaliseren,e

J(c) :=e Xm i=1

µ

yi− y − c0− c1(x(i)1 − x1) − · · · − cn−1(x(i)n−1− xn−1)

2

= ky − ye −Acke 22. (5.22) Aangezien de eerste kolom van A gelijk is aan de vektor e, staat deze loodrecht op y − ye en ope alle andere kolommen van A. Dus is de co¨effici¨ent ce 0 automatisch nul. We zien hieruit, dat het zwaartepunt van de data in het hypervlak ligt, opgespannen door vergelijking (5.18).

5.f De normaalvergelijkingen in IRm

Laat A ∈ IRm×n met m ≥ n een matrix zijn en b ∈ IRm een vektor. In het algemeen zal b geen element van Im(A) zijn, zodat het probleem Ax = b geen oplossing heeft. Wel kunnen we ons analoog aan (5.2) en (5.3) afvragen, welke x de best bijpassende is in kleinste-kwadraten zin en de funktionaal

J(x) := kAx − bk22 (5.23)

minimaliseert. We zoeken dus een y = Ax ∈ Im(A) (in de beeldruimte van A), die een minimale afstand heeft tot b.

Zoals we in fig. 10 zien, wordt dit punt Ax gegeven door de orthogonale projektie van b op Im(A) en dus door de eis b − Ax ⊥ Im(A). Evenals in §5.b leidt dit tot de normaalvergelijkingen

ATAx = ATb (5.24)

Een alternatief bewijs van de bewering “de vektor x minimaliseert de functionaal J in (5.23) dan en slechts dan als x oplossing is van het stelsel normaalvergelijkingen (5.24) ATAx = ATb” is alsvolgt:

Als J(x) minimaal is, dan moet gelden J(x + w) ≥ J(x) ∀w ∈ IRn. Uitwerking van de norm geeft:

kAx + Aw − bk2= kAx − bk2+ 2(Ax − b, Aw) + kAwk2 ≥ kAx − bk2. Hieruit volgt, dat de lineaire term nul moet zijn voor alle w:

(Ax − b, Aw) = 0 ∀w ∈ IRn en dit is equivalent met de normaalvergelijkingen (5.24).

Dit stelsel normaalvergelijkingen (5.24) kunnen we oplossen met een Choleski-ontbinding van de (symmetrische) matrix ATA, op voorwaarde dat deze matrix inverteerbaar is. Deze matrix is (als zij al inverteerbaar is) echter vaak slecht geconditioneerd tengevolge van de kwadratering van A.

Voor de nauwkeurigheid van de numerieke berekeningen is het dan beter om een andere methode te gebruiken, waarbij het niet nodig is om het produkt ATA te berekenen. Dit zijn de zogenaamde orthogonale methoden, die gebruik maken van een QR-ontbinding van A, zie het boek van Golub

& Van Loan.

Voorbeeld. Als we rekenen op een processor met floating point machineprecisie η (met correcte afronding) en als ε = 13√η een klein getal is, zodat voor de berekende waarde van 1 + 2ε2 geldt f l(1 + 2ε2) = 1, dan vinden we voor de matrix A ∈ IR3×2

A :=

1 1

0 ε

0 ε

de berekende waarde f l(ATA) =

µ 1 1

1 1

, (5.25)

(7)

zodat de rang van de berekende ATA gelijk is aan 1, terwijl de rang van A gelijk is aan 2 en het conditiegetal κ2(A) ≈p2/η groot is maar toch nog ver verwijderd is van 1/η . Kennelijk verdwijnt alle informatie over de kleine singuliere waarde volledig bij de berekening van ATA .

5.g Oplossing via de singuliere-waardenontbinding

Omdat het rechterlid ATb van (5.24) een element is van Im(A), heeft dit stelsel vergelijkingen altijd een oplossing. Als echter de matrix A niet van volle rang is, dan is de oplossing niet uniek. Voor de uniciteit kunnen we dan als extra eis stellen, dat de oplossing van het kleinste- kwadratenprobleem (5.23) een minimale lengte (Euclidische norm) moet hebben. Om die oplossing te vinden gebruiken we de singuliere-waardenontbinding (voortaan af te korten met SVD, Singular Value Decomposition) van A,

A = U ΣVT , (5.26)

met U ∈ IRm×m en V ∈ IRn×n orthogonaal en

Σ = diag(σ1, σ2, · · · , σn) ∈ IRm×n,

waar de singuliere waarden dalend geordend zijn, σk≥ σk+1, en waar σr 6= 0 en σk= 0 voor k > r, zodat de rang van de matrix A gelijk is aan r (r ≤ n). Als we de vektoren uk ∈ IRm en vk∈ IRn defini¨eren als de k-de kolommen van U resp. V , zodat

U = µ

u1| · · · | um

en V = µ

v1| · · · | vn

, (5.27)

dan vormen de verzamelingen {u1, · · · , um} en {v1, · · · , vn} orthonormale bases in IRm resp. IRn en we kunnen A dan schrijven als

A = Xr k=1

σkukvkT. (5.28)

De vektoren x en b kunnen we schrijven als lineaire combinaties van deze basisvektoren, x=

Xn k=1

ξkvk met ξk onbekend en b= Xm k=1

βkuk met βk:= uTkb, en invullen in formule (5.23); we vinden dan

J(x) = k Xr k=1

σkξkukXm k=1

βkukk22 = Xr k=1

kξk− βk)2+ Xm k=r+1

βk2. (5.29) Deze kwadratische expressie is minimaal als ξi = βii voor i = 1, · · · , r ongeacht de waarden van ξi voor i = r + 1, · · · , n. Het is duidelijk dat kxk minimaal is als alle co¨effici¨enten in deze laatste groep nul zijn. De oplossing van het minimalisatieprobleem (5.23) met kleinste lengte wordt dus gegeven door:

x= Xr k=1

βk

σk uTkb vk. (5.30)

De afbeelding van IRm naar IRn, die b afbeeldt op deze minimum-norm-oplossing van (5.23) heet de pseudoinverse (of Moore-Penrose-inverse) van A en wordt aangeduid met A. Uit (5.30) vinden we analoog aan (5.29):

A= Xr k=1

1

σk vkuTk = V ΣUT . (5.31) De matrix Σ vinden we uit Σ door transpositie plus het vervangen van de positieve diagonaalele- menten σk door 1/σk (k = 1 · · · r).

Formule (5.29) beschrijft precies de minimum-norm-oplossing van (5.23) in termen van de SVD;

over de feitelijke berekening van de SVD zullen we het later hebben.

(8)

5.h Totale kleinste kwadraten in IRn

In het n-dimensionale regressieprobleem (5.18) kunnen we analoog aan (5.10) ook naar het minimum zoeken van de som van kwadraten van Euclidische afstanden van de datapunten tot het hypervlak.

De aanpak van §5.d laat zich hierbij onmiddellijk generaliseren. Het n−1-dimensionale hypervlak in IRndoor w loodrecht op r is de verzameling {z | ∈ IRn| rT(z − w) = 0} de afstand van de vektor xtot dit hypervlak is rT(x − w) als krk = 1 . We moeten dus weer vektoren r (van lengte 1) en w bepalen, zodat de functionaal I,

I(r, w) :=

Xm i=1

(rT(xi− w))2 = Xm i=1

Xn j=1

rj(x(i)j − wj)

2

met xi:=

x(i)1

... x(i)n−1

yi

. (5.32)

minimaal is. Wegens (5.11) geldt ook hier I(r, w) ≥ I(r, x) , waar x := m1 Pmi−1 xi het zwaartepunt van de data is, zodat we de vektor r vinden door minimalisatie van I(r, x),

I(r, x) = kBrk22, met B :=

x(1)1 − x1 · · · x(1)n−1− xn−1 y1− y x(2)1 − x1 · · · x(2)n−1− xn−1 y2− y

... ... ...

x(m)1 − x1 · · · x(m)n−1− xn−1 ym− y

. (5.33)

Het minimum wordt dus weer aangenomen door de rechter singuliere vektor behorende bij de kleinste singuliere waarde van B en dit minimum is uniek, als deze kleinste singuliere waarde strikt kleiner is dan de andere.

Het kleinste-kwadratenprobleem (5.23) is iets algemener dan de lineaire regressie in (5.19), omdat A niet noodzakelijk een kolom (1, 1, · · · , 1)T bevat zoals in (5.20). Het idee voor de aanpak van totale kleinste kwadraten voor een algemeen overbepaald stelsel Ax = b is echter analoog aan het bovenstaande. In §5.f hebben we de functionaal J, gedefinieerd in (5.23), ge¨ınterpreteerd als afstand in IRm en opgelost door een projektie op Im(A), de deelruimte opgespannen door de kolommen van A. Analoog aan 5.d kunnen we Ax = b ook interpreteren in IRn+1als het zoeken van een n-dimensionaal hypervlak, dat het best past bij een wolk van m punten (observaties). Hiertoe beschouwen we de m rijen van de uitgebreide matrix ( A | −b ) ∈ IRm×(n+1) als vektoren in IRn+1,

ak:=

ak1 ak2 ... akn

−bk

zodat ( A | −b )T = ( a1| a2| · · · | am) . (5.34)

De k-de rij ak van ( A | −b ) bevat dus precies de co¨ordinaten van het k-de punt van de puntenwolk (de k-de observatie). De functionaal J kunnen we nu interpreteren als de som

J(x) = Xm k=1

(aTkx)b 2 met xb :=

µx 1

=

x1 x2 ... xn

1

∈ IRn+1. (5.35)

Aangezien aTkxb de k-de component is van Ax − b, sommeert J precies de kwadraten van het overschot in iedere component.

(9)

Omdat de n+1-ste component van xb gelijk is aan 1, kunnen we de grootheid aTkbx ook inter- preteren als de afstand gemeten langs de n+1-ste co¨ordinaatas van het punt ak ∈ IRn+1 tot xb, d.w.z. tot het hypervlak door de oorsprong loodrecht opx. Dit betekent, dat het “foutenmodel”b J ervan uit gaat, dat alle fouten in de benadering aan de n+1-ste co¨ordinaat (het rechterlid dus) moeten worden toegeschreven. In de praktijk bevatten meestal alle componenten van een waar- neming en dus ook de elementen van A meetfouten en is het natuurlijker de totale fout in alle richtingen te verdisconteren.

De totale kleinste-kwadratenbenadering voor het oplossen van het overbepaalde stelsel Ax = b bestaat er dan ook in, de Euclidische afstanden van de observaties ak (k = 1 · · · m) tot xb te minimaliseren. De afstand van ak totbxwordt gegeven door aTkxb/kxbk. We moeten dus een vektor xzoeken, die de functionaal I minimaliseert,

I(x) :=

Xm k=1

(aTkx)b 2 b

xTxb = k( A | −b )xbk2 b

xTxb met xb :=

µx 1

. (5.36)

Aangezien we ons bij de minimalisatie van k( A | − b )xbk2/xbTxb kunnen beperken tot de (com- pacte) bol kxbk = 1, is er altijd een minimum x; dit geeft echter alleen een minimum voor I alsb de laatste component van xb niet gelijk is aan 0. Precies als in (5.33) is I minimaal, als bx de rechter singuliere vektor is van de matrix ( A | − b ) behorende bij de kleinste singuliere waarde σmin. Als σmin strikt kleiner is dan alle andere singuliere waarden, dan is de oplossing uniek.

Als de laatste component van de singuliere vektor gelijk is aan nul, is er geen oplossing voor het totale kleinste-kwadratenprobleem. Er is dus duidelijk een verschil tussen het n-dimensionale lineaire-regressieprobleem (5.18), waar er altijd een oplossing bestaat (in de zin van totale kleinste kwadraten), en het algemene kleinste-kwadratenprobleem (5.23), waar dit niet noodzakelijk het geval is.

Voorbeeld 1. Zoek de regressierechte door de punten (1, 1), (−1, 1), (1, −1) en (−1, −1) , de vier hoekpunten van een vierkant in het platte vlak. Het zwaartepunt is de oorsprong; alle regressierechten gaan door dit punt.

Regressie van y op x. Uit formule (5.7) volgt, dat de richtingsco¨effici¨ent β = 0 in de rechte voor regressie van y op x: de rechte is {(x, y) ∈ IR2| y = 0 ∀x}.

Regressie van x op y. Analoog volgt uit (5.9), dat de richtingsco¨effici¨ent δ = 0 in de rechte voor regressie van x op y: de rechte is {(x, y) ∈ IR2| x = 0 ∀y}. Deze staat dus loodrecht op de vorige.

Regressie met totale kleinste kwadraten. Volgens (5.13) moeten we hier de volgende SVD bepalen:

B :=

1 1

1 −1

−1 1

−1 −1

=

1

2 1

2

q1

2 0

1

212 0 q12

12 12 0 q12

1212 q12 0

2 0

0 2

0 0

0 0

µ 1 0

0 1

. (5.37)

Beide singuliere waarden zijn gelijk, zodat iedere rechte door de oorsprong de functionaal I in (5.13) minimaliseert. De totale kleinste-kwadratenbenadering is dus niet uniek; de beide regressierechten zijn het wel (in dit geval).

Voorbeeld 2. Los op in (gewone) kleinste-kwadratenzin en in totale kleinste-kwadratenzin:

1 0

0 0

0 0

Ãx

y

!

=

1 1 1

met normaalvergelijkingen

µ 1 0

0 0

¶ Ãx y

!

= µ 1

0

. (5.38) Uit de normaalvergelijkingen vinden we x = 1 en y is onbepaald, zodat de oplossing voor het (gewone) kleinste-kwadratenprobleem niet uniek is; iedere vektor (1, y)T is een oplossing.

(10)

Om de totale kleinste-kwadratenbenadering te vinden moeten we van de volgende matrix B de kleinste singuliere waarde bepalen:

B =

1 0 1

0 0 1

0 0 1

.

Aangezien B rang 2 heeft (B heeft twee onafhankelijke kolommen) en de vektor u := (0, 1, 0)T in de kern van B zit (Bu = 0), is σmin:= 0 de kleinste singuliere waarde en u de bijbehorende rechter singuliere vektor. De laatste component van deze vektor is echter 0, zodat herschaling hiervan nooit een 1 kan maken. We zien hier dus een voorbeeld, waarin de functionaal I uit (5.36) een minimum heeft, dat niet overeenkomt met een oplossing van het totale kleinste-kwadratenprobleem.

5.i Een alternatieve benadering voor totale kleinste kwadraten in IRn

Bij het oplossen van het overbepaalde (en dus i.h.a. strijdige) stelsel vergelijkingen Ax = b in de zin van (gewone) kleinste kwadraten zoeken we een vektor r ∈ IRm van minimale lengte met de eigenschap b + r ∈ Im(A), zodat het gewijzigde stelsel Ax = b + r een oplossing heeft. Alle onzekerheid in de data wordt hierbij toegeschreven aan het rechterlid b.

In een benadering via “totale kleinste kwadraten” willen we ook een stuk van de onzekerheid toeschrijven aan de matrix A. We zoeken dus een stoormatrix E ∈ IRm×nen een vektor r ∈ IRmvan minimale grootte, zodat b + r ∈ Im(A+E), of anders gezegd, zodat (A+E)x = b+r een oplossing heeft. De grootte van de storing (E | r) ∈ IRm×(n+1)kunnen we meten in de “Frobenius-norm” k·kF (wortel van de som van kwadraten van alle matrixelementen), die evenals de k · k2-norm invariant is onder orthogonale transformaties. Het probleem kunnen we dus formuleren als het bepalen van het minimum van

{ k (E | r) kF | E ∈ IRm×n, r ∈ IRm, b + r ∈ Im(A + E) } . (5.39) Laten we nu aannemen, dat rang(A) = n, zodat alle kolommen van A onafhankelijk zijn en geen der singuliere waarden van A nul is. Verder nemen we aan, dat b 6∈ Im(A), omdat er anders een oplossing is (met E = 0 en r = 0). Bijgevolg is de rang van (A | b) gelijk aan n + 1. Nu moet (A + E)x = b + r een oplossing hebben. Deze vergelijking kunnen we ook schrijven als

(A + E | b + r)xb = 0 met xb :=

µ x

−1

∈ IRn+1.

Dit betekent, dat de matrix (A + E | b + r) singulier moet zijn en dus, dat de rang ervan hoogstens n mag zijn. Het minimaliserende koppel (E | r) (in de Frobeniusnorm) kunnen we vinden door de SVD van (A | b) te maken,

(A | b) = U Σ VT =

n+1X

k=1

σkukvTk, met

U = (u1| · · · | um) ∈ IRm×m,

V = (v1| · · · | vn+1) ∈ IR(n+1)×(n+1), Σ = diag(σ1, · · · , σn+1) ∈ IRm×(n+1),

waar U en V orthogonale matrices zijn en Σ een diagonaalmatrix is met de dalend geordende singuliere waarden op de hoofddiagonaal. Het minimaliserende koppel (E0| r0) is dan gelijk aan

(E0| r0) = −σn+1un+1vn+1T . Dit koppel is uniek, als de ongelijkheid σn+1 < σnstrikt is. Aangezien

(A + E0| b + r0) = Xn k=1

σkukvTk ,

zit de rechter singuliere vektor vn+1, behorend bij de kleinste singuliere waarde, in de kern ervan.

De vektorxbis hier dus een veelvoud van; dit geeft weer de eerder gevonden oplossing van het totale kleinste-kwadratenprobleem, als de laatste component van deze vektor niet gelijk is aan nul.

(11)

References

[1] M. Hestenes & E. Stiefel, Methods of conjugate gradients for solving linear systems, J. Research NBS, 49, pp. 409 – 436, 1952.

[2] C. Lanczos, An iteration method for the solution of the eigenvalue problem of linear differential and integral operators, J. Research NBS, 45, pp. 255 – 282, 1950.

[3] J.K. Reid, On the method of conjugate gradients for the solution of large sparse systems of linear equa- tions, Proc. Conf. on Large Sparse Sets of Linear Equations, Academic Press, New York, 1971.

[4] J.A. Meijerink and H.A. van der Vorst, An iterative solution method for linear systems of which the coefficient matrix is a symmetric M-matrix, Math.of Comp., 31, pp. 148 – 162, 1977.

[5] G.H. Golub & C.F. Van Loan, Matrix Computations, The Johns Hopkins University Press, Baltimore, Maryland, USA, 1ste druk, 1983, 2dedruk, 1988, 3de druk, 1995.

[6] R. Bulirsch & J. Stoer, Introduction to Numerical Analysis, Springer Verlag, Berlin, 1977. (Ook verkri- jgbaar in een goedkope duitstalige pocketeditie).

[7] D. Kincaid & W. Cheney, Numerical Analysis, Brooks & Cole Publishing Company, Pacific Grove, California, USA, 1991; 2de druk, 1996.

Referenties

GERELATEERDE DOCUMENTEN

[r]

[r]

Door een combinatie te maken van de eerste methode (hoek-hoek) en de tweede (midden zijde- midden zijde) kunnen zelfs 16 congruente delen worden gevormd (zie figuur 7).. De helft

In het volgende hoofdstuk zullen we gaan kijken naar differentiaalvergelijkin- gen met reguliere singuliere punten en zullen we laten zien waarom de methode van machtreeksen niet

Het antwoord hierop wordt gegeven door de volgende

De infrarode straling wordt door de moleculen van de glasvezel op een bijzondere manier verstrooid. In het spectrum van de verstrooide straling vindt men niet alleen straling met

De infrarode straling wordt door de moleculen van de glasvezel op een bijzondere manier verstrooid. In het spectrum van de verstrooide straling vindt men niet alleen straling met

Zouden zij niet zijn opgenomen, dan zou waarschijnlijk door verzet van niet alleen de Nederlandse, maar ook van andere delegaties de richtlijn niet tot stand zijn gekomen.. Deze