5 Totale Kleinste Kwadraten

(1)

5 Totale kleinste kwadraten

5.a Beste benadering in IR

Als we de verzameling punten V := {x1, x₂, · · · , x^m} in IR hebben gegeven en we vragen welk punt z het dichtst bij al deze punten ligt, dan is het antwoord natuurlijk afhankelijk van de definitie van

“het dichtstbij”. Het eenvoudigste criterium is het minimaal zijn van de “de som van kwadraten van de verschillen”; we moeten dan een z zoeken zodat

J(z) = Xm i=1

(x_i− z)² (5.1)

minimaal is. Deze functionaal is een nette parabool in z met als uniek minimum het gemiddelde x :=^P^m_i=1 xi, zoals we zien uit de ongelijkheid

J(z) = Xm i=1

(x_i−z)² = Xm i=1

{(xi−x)²+(x−z)²+2(x_i−x)(x−z)} ≥ Xm i=1

(x_i−x)²= J(x) ∀ z ∈ IR , omdat de som van de dubbele produkten nul is. We zien dus, dat de kleinste-kwadratenbenadering van de verzameling punten V in IR gegeven wordt door het gemiddelde x .

5.b Lineaire regressie in IR²

Een grootheid y is afhankelijk van een variabele x en we vermoeden een lineair verband,

y = a + b x , (5.2)

zoals bijvoorbeeld de stroom door een weerstand bij een gegeven spanningsverschil of de uitrekking van een veer als funktie van het gewicht dat we er aan hangen. We doen een aantal metingen van y als funktie van x, resulterend in de koppels {(xⁱ, yi)|i = 1, · · · , m}. In het ideale geval liggen deze koppels dus op de lijn gegeven door (5.2) voor zekere waarden van a en b. Ten gevolge van meetfouten en andere afwijkingen van het ideaal, liggen de meetpunten echter niet precies op een rechte en stelt zich het probleem om uit de gegeven metingen {(xⁱ, yi) | i = 1, · · · , m} parameters a en b te bepalen, zodat de lijn y = ax + b zo goed mogelijk er bij past, zie fig. 9a.

Als we x als de onafhankelijke variabele beschouwen (die bij een meting dus vooraf gekozen kan worden) dan hebben we per meting een fout yi − a − bxⁱ. We gaan dan a en b zo kiezen dat de

“totale” fout minimaal is. Een gebruikelijke keuze voor deze totale fout is de som van de kwadraten (die voor de analyse verreweg het eenvoudigst is)

J(z) :=

Xm i=1

(yi− a − bxⁱ)² met z:=

Ãa b

!

∈ IR² (5.3)

en het probleem is dan een koppel z :=^¡^a_b^¢∈ IR²te bepalen, dat J(z) minimaliseert. In formule (5.3) lijkt het probleem tweedimensionaal. Als we echter in IR^m de vektoren x, y en e en de matrix A defini¨eren,

x:=





 x₁ x2

... xm





, y:=





 y₁ y₂ ... ym





, e:=





 1 1... 1





 en A :=





 1 x₁ 1 x2

... ... 1 xm





 ∈ IR^m^×2, (5.4)

(2)

-5 0 5

0

x x x

x x

x x x

a. beste rechte met y als funktie van x

-5 0 5

0

x x x

x x

x x x

b. beste rechte met x als funktie van y

-5 0 5

0

x x x

x x

x x x

d. de drie benaderende rechten tesamen -5

0 5

0

x x x

x x

x x x

c. totale kleinste-kwadratenbenadering

Figure 9: Datapunten met de beste bijpassende rechten; (a) geeft de beste rechte als de som van kwadraten van de vertikale afstanden (gestippeld) wordt geminimaliseerd, (b) als de som van kwadraten van horizontale afstanden wordt geminimaliseerd en (c) als de som vam kwadraten van de afstanden van de punten tot de lijn wordt geminimaliseerd. In (d) zijn de drie “benaderingen”

tesamen afgebeeld.

dan is som van kwadraten J(z) =^P^m_i=1(yi− a − bxⁱ)² precies het kwadraat van de (Euclidische) lengte van de verschilvektor

y− ae − bx = y − Az zodat J(z) = ky − Azk²2.

De lengte van de verschilvektor y − Az is minimaal (zie fig. 10) als deze loodrecht staat op de beeldruimte Im(A) van A; d.w.z.:

y− Az ⊥ vect{e, x}

ofwel, met (·, ·) als notatie voor het inprodukt, µ

w, y − Az

¶

= 0 ∀ w ∈ Im(A).

Aangezien Im(A) = {A w | w ∈ IR²} geldt dus µ

Aw , y − Az

¶

= 0 ∀ w ∈ IR².

We mogen A getransponeerd naar de andere zijde van het inprodukt overbrengen, zodat µ

w, A^Ty− A^TAz

¶

= 0 ∀ w ∈ IR²

(3)

©©©©©©©©©©©©©©©©©©©©©©©

©©©©©©©©©©©©*A - AA

AA AU

O y

Im(A) Az

y− Az

Figure 10: De vector y, zijn (orthogonale) projektie op Im(A) en de residuvektor y − Az . en zo vinden we de normaalvergelijkingen voor het minimalisatieprobleem (5.3):

A^TAz = A^Ty. (5.5)

Dit heten de normaalvergelijkingen omdat het residu y − Az normaal is (= loodrecht staat) op Im(A). De verkregen rechte y = a + bx wordt (in de statistiek) de “regressierechte” van y op x genoemd.

Een eenvoudiger weg naar het minimum van (5.3) vinden we, als we de data verschuiven zodat hun gemiddelde nul is. In plaats van (5.2) werken we dan met het (equivalente) model

y − y = α + β(x − x), y := 1 m

Xm i=1

yi, x := 1 m

Xm i=1

xi. (5.6)

In dit geval moeten we de funktie J(α, β) :=e

Xn i=1

(yi− y − α − β(xⁱ− x))² = ky − ye − αe − β(x − xe)k²2

minimaliseren. Omdat de vektor e loodrecht staat op de vektoren y − ye en x − xe isJ minimaal^e als

α = 0 en β = (x − xe)^T(y − ye) (x − xe)^T(x − xe) =

Pm

i=1(xi− x)(yⁱ− y) Pm

i=1(x_i− x)² . (5.7) Hieruit zien we, dat de regressierechte (5.2) of (5.6) door het zwaartepunt (x, y)^T van de puntenwolk gaat.

5.c Lineaire regressie van x op y

Analoog aan het model (5.2) of (5.6), waarin y als funktie van x is beschouwd, kunnen we ook andersom x als funktie van y beschouwen,

x − x = γ + δ(y − y) . (5.8)

Minimalisatie van de som van kwadraten van horizontale afstanden geeft analoog aan (5.7) γ = 0 en δ =

Pn

i=1(xi− x)(yⁱ− y) Pm

i=1(y_i− y)² . (5.9)

Omdat we hier de som van kwadraten van horizontale afstanden minimaliseren, zie fig. 9b, vinden we (i.h.a.) een andere regressielijn dan in het voorgaande geval. Het gemeenschappelijke punt is precies het zwaartepunt (x, y)^T van de data.

(4)

5.d De totale kleinste-kwadratenbenadering Als er bij de gegevens

{(xi, y_i)|i = 1, · · · , m}

geen duidelijke voorkeur is voor de keuze van y als funktie van x of van x als funktie van y, d.w.z.

als beide grootheden (random) meetfouten bevatten, is het beter om een benaderingscriterium te kiezen, dat geen voorkeur voor een van beide bevat. Het ligt dan voor de hand om som van de kwadraten van de (echte) afstanden van de datapunten tot de lijn te minimaliseren, zie fig. 9c.

Uit de analytische meetkunde weten we, dat de verzameling ℓ := {z ∈ IR²| r^T(z − w) = 0} voor gegeven r ∈ IR² een rechte beschrijft door het punt w loodrecht op de vektor r en dat de afstand van een willekeurig punt x ∈ IR² tot deze lijn gegeven wordt door de lengte van de projektie van de verschilvektor x − w op een veelvoud van r, zie fig. 11.

ZZ ZZ ZZ Z ZZ ZZ ZZ ZZ Z ZZ ZZ ZZ

SS SS SS SS SS SS o

¶¶¶¶¶¶7

¶¶¶¶7

ZZ ZZ ZZ ZZ ZZ ZZ }

O

r

w ℓ = {z ∈ IR² | (z − w, r) = 0}

x

x− w dist(x, ℓ) = ^|r^T√^(x−w)|

rTr

Figure 11: Getekend zijn de vektor r, de lijn door w loodrecht op r, het punt x, de verschilvektor x− w en de ontbinding ervan langs de lijn en loodrecht erop.

Als krk2 = 1, dan wordt de afstand van x tot de lijn ℓ gegeven door |r^T(x − w)| . Voor het bepalen van de totale kleinste-kwadratenbenadering moeten we dus de loodvektor r van de rechte (van lengte 1) en een vektor w op die rechte bepalen zodat de functionaal I,

I(r, w) :=

Xm i=1

³r^T(x_i− w)^´²= Xm i=1

³r₁(x_i− w1) + r₂(y_i− w2)^´² met

(x_i = (x_i, y_i)^T r= (r₁, r₂)^T

(5.10) minimaal is. Natuurlijk geeft iedere vektor w op de rechte dezelfde rechte; we zullen eerst laten zien, dat het zwaartepunt van de data op de rechte ligt, zodat de keuze w = (x, y)^T altijd goed is en er daarna alleen nog de minimalisatie van (5.10) naar r = (r₁, r₂)^T overblijft. Splitsen van een term als (x_i− w1)² in (5.10) geeft:

Xm i=1

(xi− w¹)² = Xm i=1

³(xi− x)²+ (x − w¹)²+ 2(xi− x)(x − w¹)^´ (5.11)

en hierin is de som van de dubbele produkten nul; het analoge geldt voor de term (yi−w²)². Hieruit volgt:

I(r, w) = ^P^m_i=1 ^³r₁(xi− w1) + r₂(yi− w2)^´²

= ^P^m_i=1 ^³r1(xi− x) + r²(yi− y)^´² + m^³r1(x− w¹) + mr2(y − w²)^´²

≥ I(r, (x, y)^T) ∀w ∈ IR².

(5.12)

(5)

Hieruit volgt, dat bij iedere r de keuze w = (x, y)^T de functionaal I(r, · ) minimaliseert, zodat het zwaartepunt op de rechte moet liggen. Om de minimale r te vinden, herschrijven we I alsvolgt,

I(r, (x, y)^T) = kBrk²2= r^TB^T B r , met B :=







x₁− x y₁− y x₂− x y₂− y

... ... x_m− x ym− y





 . (5.13)

Het minimum wordt dus aangenomen, als r de rechter singuliere vektor van B is, die behoort bij de kleinste singuliere waarde (of als r de eigenvektor is, behorende bij de kleinste eigenwaarde van B^T B). Dit minimum is uniek, als beide singuliere waarden van elkaar verschillen. Als r₂ 6= 0 volgt hieruit,

y = y + ρ(x− x) met ρ := −r₁

r₂. (5.14)

We merken op, dat het inzicht, dat het zwaartepunt van de data op de gezochte rechte ligt, de sleutel is in de reduktie van (5.10) naar de bepaling van een singuliere waarde en van de oplossing (5.14).

5.e Regressie in meer dan twee dimensies

We beschouwen opnieuw m koppels metingen {(xⁱ, yi)|i = 1, · · · , m}. In plaats van het polynoom (5.2) van graad 1 willen we nu een polynoom van graad n−1 (met n > 0) vinden, dat hierbij zo goed mogelijk past in “kleinste-kwadratenzin”. Als het polynoom gegeven is door

p(x) = c₀+ c₁x + c₂x²+ c₃x³+ · · · + cⁿ−1xⁿ⁻¹ (5.15) met onbekende co¨effici¨enten c₀, · · · , cⁿ−1, dan kunnen we het benaderingsprobleem formuleren als het zoeken naar het minimum van de functionaal

J(c) :=

Xm i=1

(yi− c⁰− c¹x − c²x²− · · · − cⁿ−1xⁿ⁻¹)²= ky − Ack²2, (5.16) waar de vektoren y ∈ IR^m, c ∈ IRⁿ en de matrix A ∈ IR^m^×ngedefinieerd zijn door

y:=





 y₁ y2

... y_m





, c:=





 c0

c₁ ... cn−1





, en A :=







1 x1 · · · xⁿ1⁻¹

1 x₂ · · · xⁿ2⁻¹

... ... ... 1 xm · · · xⁿm⁻¹





. (5.17)

Een gelijkaardig probleem krijgen we, als we voor een (te meten) grootheid y, die van verschei- dene parameters afhangt, een n-dimensionaal lineair model postuleren,

y = c0+ c1x1+ c2x2+ · · · + cⁿ−1xn−1. (5.18) Deze vergelijking beschrijft een hypervlak van dimensie n−1 in een n-dimensionale ruimte IRⁿ. Uit m (m > n) metingen {(x⁽ⁱ⁾1 , · · · , x⁽ⁱ⁾n−1, yi) | i = 1, · · · , m} willen we weer de beste co¨effici¨enten in kleinste-kwadratenzin bepalen door het minimaliseren van de functionaal

J(c) :=

Xm i=1

(yi− c⁰− c¹x⁽ⁱ⁾₁ − · · · − cⁿ−1x⁽ⁱ⁾_n₋₁)²= ky − Ack²2 (5.19) met

y:=





 y₁ y₂ ... ym





, c:=





 c₀ c1

... cn−1





, en A :=







1 x⁽¹⁾₁ · · · x⁽¹⁾n−1

1 x⁽²⁾₁ · · · x⁽²⁾n−1

... ... ... 1 x^(m)₁ · · · x^(m)n−1





. (5.20)

(6)

We merken op, dat we in dit tweede geval analoog aan (5.6) de data kunnen verschuiven naar het zwaartepunt (x₁, · · · , xⁿ−1, y) met het equivalente model

y − y = c0+ c₁(x₁− x1) + c₂(x₂− x2) + · · · + cⁿ−1(xn−1− xⁿ−1) (5.21) met y := 1

m Xm i=1

yi en xk:= 1 m

Xm i=1

x⁽ⁱ⁾_k . We moeten dan de functionaalJ minimaliseren,^e

J(c) :=e Xm i=1

µ

y_i− y − c0− c1(x⁽ⁱ⁾₁ − x1) − · · · − cn−1(x⁽ⁱ⁾_n₋₁− xn−1)

¶2

= ky − ye −Ackê ²2. (5.22) Aangezien de eerste kolom van A gelijk is aan de vektor e, staat deze loodrecht op y − ye en opê alle andere kolommen van A. Dus is de coëfficiënt cê ₀ automatisch nul. We zien hieruit, dat het zwaartepunt van de data in het hypervlak ligt, opgespannen door vergelijking (5.18).

5.f De normaalvergelijkingen in IR^m

Laat A ∈ IR^m^×n met m ≥ n een matrix zijn en b ∈ IR^m een vektor. In het algemeen zal b geen element van Im(A) zijn, zodat het probleem Ax = b geen oplossing heeft. Wel kunnen we ons analoog aan (5.2) en (5.3) afvragen, welke x de best bijpassende is in kleinste-kwadraten zin en de funktionaal

J(x) := kAx − bk²2 (5.23)

minimaliseert. We zoeken dus een y = Ax ∈ Im(A) (in de beeldruimte van A), die een minimale afstand heeft tot b.

Zoals we in fig. 10 zien, wordt dit punt Ax gegeven door de orthogonale projektie van b op Im(A) en dus door de eis b − Ax ⊥ Im(A). Evenals in §5.b leidt dit tot de normaalvergelijkingen

A^TAx = A^Tb (5.24)

Een alternatief bewijs van de bewering “de vektor x minimaliseert de functionaal J in (5.23) dan en slechts dan als x oplossing is van het stelsel normaalvergelijkingen (5.24) A^TAx = A^Tb” is alsvolgt:

Als J(x) minimaal is, dan moet gelden J(x + w) ≥ J(x) ∀w ∈ IRⁿ. Uitwerking van de norm geeft:

kAx + Aw − bk²= kAx − bk²+ 2(Ax − b, Aw) + kAwk² ≥ kAx − bk². Hieruit volgt, dat de lineaire term nul moet zijn voor alle w:

(Ax − b, Aw) = 0 ∀w ∈ IRⁿ en dit is equivalent met de normaalvergelijkingen (5.24).

Dit stelsel normaalvergelijkingen (5.24) kunnen we oplossen met een Choleski-ontbinding van de (symmetrische) matrix A^TA, op voorwaarde dat deze matrix inverteerbaar is. Deze matrix is (als zij al inverteerbaar is) echter vaak slecht geconditioneerd tengevolge van de kwadratering van A.

Voor de nauwkeurigheid van de numerieke berekeningen is het dan beter om een andere methode te gebruiken, waarbij het niet nodig is om het produkt A^TA te berekenen. Dit zijn de zogenaamde orthogonale methoden, die gebruik maken van een QR-ontbinding van A, zie het boek van Golub

& Van Loan.

Voorbeeld. Als we rekenen op een processor met floating point machineprecisie η (met correcte afronding) en als ε = ¹₃√η een klein getal is, zodat voor de berekende waarde van 1 + 2ε² geldt f l(1 + 2ε²) = 1, dan vinden we voor de matrix A ∈ IR^3×2

A :=





1 1

0 ε



 de berekende waarde f l(A^TA) =

µ 1 1

1 1

¶

, (5.25)

(7)

zodat de rang van de berekende A^TA gelijk is aan 1, terwijl de rang van A gelijk is aan 2 en het conditiegetal κ₂(A) ≈^p2/η groot is maar toch nog ver verwijderd is van 1/η . Kennelijk verdwijnt alle informatie over de kleine singuliere waarde volledig bij de berekening van A^TA .

5.g Oplossing via de singuliere-waardenontbinding

Omdat het rechterlid A^Tb van (5.24) een element is van Im(A), heeft dit stelsel vergelijkingen altijd een oplossing. Als echter de matrix A niet van volle rang is, dan is de oplossing niet uniek. Voor de uniciteit kunnen we dan als extra eis stellen, dat de oplossing van het kleinste- kwadratenprobleem (5.23) een minimale lengte (Euclidische norm) moet hebben. Om die oplossing te vinden gebruiken we de singuliere-waardenontbinding (voortaan af te korten met SVD, Singular Value Decomposition) van A,

A = U ΣV^T , (5.26)

met U ∈ IR^m^×m en V ∈ IRⁿ^×n orthogonaal en

Σ = diag(σ₁, σ₂, · · · , σn) ∈ IR^m^×n,

waar de singuliere waarden dalend geordend zijn, σ_k≥ σk+1, en waar σ_r 6= 0 en σk= 0 voor k > r, zodat de rang van de matrix A gelijk is aan r (r ≤ n). Als we de vektoren u^k ∈ IR^m en vk∈ IRⁿ defini¨eren als de k-de kolommen van U resp. V , zodat

U = µ

u₁| · · · | um

¶

en V = µ

v₁| · · · | vn

¶

, (5.27)

dan vormen de verzamelingen {u1, · · · , um} en {v1, · · · , vn} orthonormale bases in IR^m resp. IRⁿ en we kunnen A dan schrijven als

A = Xr k=1

σ_ku_kv_k^T. (5.28)

De vektoren x en b kunnen we schrijven als lineaire combinaties van deze basisvektoren, x=

Xn k=1

ξ_kv_k met ξ_k onbekend en b= Xm k=1

β_ku_k met β_k:= u^T_kb, en invullen in formule (5.23); we vinden dan

J(x) = k Xr k=1

σkξkuk− Xm k=1

βkukk²2 = Xr k=1

(σkξk− β^k)²+ Xm k=r+1

β_k². (5.29) Deze kwadratische expressie is minimaal als ξi = βi/σi voor i = 1, · · · , r ongeacht de waarden van ξi voor i = r + 1, · · · , n. Het is duidelijk dat kxk minimaal is als alle co¨effici¨enten in deze laatste groep nul zijn. De oplossing van het minimalisatieprobleem (5.23) met kleinste lengte wordt dus gegeven door:

x= Xr k=1

β_k

σ_k u^T_kb v_k. (5.30)

De afbeelding van IR^m naar IRⁿ, die b afbeeldt op deze minimum-norm-oplossing van (5.23) heet de pseudoinverse (of Moore-Penrose-inverse) van A en wordt aangeduid met A^†. Uit (5.30) vinden we analoog aan (5.29):

A^†= Xr k=1

1

σ_k v_ku^T_k = V Σ^†U^T . (5.31) De matrix Σ^† vinden we uit Σ door transpositie plus het vervangen van de positieve diagonaalele- menten σk door 1/σk (k = 1 · · · r).

Formule (5.29) beschrijft precies de minimum-norm-oplossing van (5.23) in termen van de SVD;

over de feitelijke berekening van de SVD zullen we het later hebben.

(8)

5.h Totale kleinste kwadraten in IRⁿ

In het n-dimensionale regressieprobleem (5.18) kunnen we analoog aan (5.10) ook naar het minimum zoeken van de som van kwadraten van Euclidische afstanden van de datapunten tot het hypervlak.

De aanpak van §5.d laat zich hierbij onmiddellijk generaliseren. Het n−1-dimensionale hypervlak in IRⁿdoor w loodrecht op r is de verzameling {z | ∈ IRⁿ| r^T(z − w) = 0} de afstand van de vektor xtot dit hypervlak is r^T(x − w) als krk = 1 . We moeten dus weer vektoren r (van lengte 1) en w bepalen, zodat de functionaal I,

I(r, w) :=

Xm i=1

(r^T(x_i− w))² = Xm i=1



 Xn j=1

r_j(x⁽ⁱ⁾_j − wj)





2

met x_i:=





 x⁽ⁱ⁾₁

... x⁽ⁱ⁾_n₋₁

yi





. (5.32)

minimaal is. Wegens (5.11) geldt ook hier I(r, w) ≥ I(r, x) , waar x := _m¹ ^P^mi−1 x_i het zwaartepunt van de data is, zodat we de vektor r vinden door minimalisatie van I(r, x),

I(r, x) = kBrk²2, met B :=







x⁽¹⁾₁ − x1 · · · x⁽¹⁾n−1− xⁿ−1 y₁− y x⁽²⁾₁ − x¹ · · · x⁽²⁾n−1− xⁿ−1 y2− y

... ... ...

x^(m)₁ − x1 · · · x^(m)n−1− xⁿ−1 ym− y





 . (5.33)

Het minimum wordt dus weer aangenomen door de rechter singuliere vektor behorende bij de kleinste singuliere waarde van B en dit minimum is uniek, als deze kleinste singuliere waarde strikt kleiner is dan de andere.

Het kleinste-kwadratenprobleem (5.23) is iets algemener dan de lineaire regressie in (5.19), omdat A niet noodzakelijk een kolom (1, 1, · · · , 1)^T bevat zoals in (5.20). Het idee voor de aanpak van totale kleinste kwadraten voor een algemeen overbepaald stelsel Ax = b is echter analoog aan het bovenstaande. In §5.f hebben we de functionaal J, gedefinieerd in (5.23), ge¨ınterpreteerd als afstand in IR^m en opgelost door een projektie op Im(A), de deelruimte opgespannen door de kolommen van A. Analoog aan 5.d kunnen we Ax = b ook interpreteren in IRⁿ⁺¹als het zoeken van een n-dimensionaal hypervlak, dat het best past bij een wolk van m punten (observaties). Hiertoe beschouwen we de m rijen van de uitgebreide matrix ( A | −b ) ∈ IR^m^×(n+1) als vektoren in IRⁿ⁺¹,

a_k:=





 a_k1 a_k2 ... akn

−bk







zodat ( A | −b )^T = ( a₁| a2| · · · | a^m) . (5.34)

De k-de rij a_k van ( A | −b ) bevat dus precies de co¨ordinaten van het k-de punt van de puntenwolk (de k-de observatie). De functionaal J kunnen we nu interpreteren als de som

J(x) = Xm k=1

(a^T_kx)b ² met xb :=

µx 1

¶

=





 x₁ x₂ ... x_n

1







∈ IRⁿ⁺¹. (5.35)

Aangezien a^T_kxb de k-de component is van Ax − b, sommeert J precies de kwadraten van het overschot in iedere component.

(9)

Omdat de n+1-ste component van x_b gelijk is aan 1, kunnen we de grootheid a^T_k_bx ook interpreteren als de afstand gemeten langs de n+1-ste co¨ordinaatas van het punt ak ∈ IRⁿ⁺¹ tot xb^⊥, d.w.z. tot het hypervlak door de oorsprong loodrecht opx. Dit betekent, dat het “foutenmodel”_b J ervan uit gaat, dat alle fouten in de benadering aan de n+1-ste co¨ordinaat (het rechterlid dus) moeten worden toegeschreven. In de praktijk bevatten meestal alle componenten van een waar- neming en dus ook de elementen van A meetfouten en is het natuurlijker de totale fout in alle richtingen te verdisconteren.

De totale kleinste-kwadratenbenadering voor het oplossen van het overbepaalde stelsel Ax = b bestaat er dan ook in, de Euclidische afstanden van de observaties ak (k = 1 · · · m) tot x^b^⊥ te minimaliseren. De afstand van ak tot_bx^⊥wordt gegeven door a^T_kx_b/kxbk. We moeten dus een vektor xzoeken, die de functionaal I minimaliseert,

I(x) :=

Xm k=1

(a^T_kx)b ² b

x^Txb = k( A | −b )x^bk² b

x^Txb met xb :=

µx 1

¶

. (5.36)

Aangezien we ons bij de minimalisatie van k( A | − b )xbk²/x_b^Tx_b kunnen beperken tot de (com- pacte) bol kx^bk = 1, is er altijd een minimum x; dit geeft echter alleen een minimum voor I als^b de laatste component van x_b niet gelijk is aan 0. Precies als in (5.33) is I minimaal, als _bx de rechter singuliere vektor is van de matrix ( A | − b ) behorende bij de kleinste singuliere waarde σmin. Als σmin strikt kleiner is dan alle andere singuliere waarden, dan is de oplossing uniek.

Als de laatste component van de singuliere vektor gelijk is aan nul, is er geen oplossing voor het totale kleinste-kwadratenprobleem. Er is dus duidelijk een verschil tussen het n-dimensionale lineaire-regressieprobleem (5.18), waar er altijd een oplossing bestaat (in de zin van totale kleinste kwadraten), en het algemene kleinste-kwadratenprobleem (5.23), waar dit niet noodzakelijk het geval is.

Voorbeeld 1. Zoek de regressierechte door de punten (1, 1), (−1, 1), (1, −1) en (−1, −1) , de vier hoekpunten van een vierkant in het platte vlak. Het zwaartepunt is de oorsprong; alle regressierechten gaan door dit punt.

Regressie van y op x. Uit formule (5.7) volgt, dat de richtingsco¨effici¨ent β = 0 in de rechte voor regressie van y op x: de rechte is {(x, y) ∈ IR²| y = 0 ∀x}.

Regressie van x op y. Analoog volgt uit (5.9), dat de richtingsco¨effici¨ent δ = 0 in de rechte voor regressie van x op y: de rechte is {(x, y) ∈ IR²| x = 0 ∀y}. Deze staat dus loodrecht op de vorige.

Regressie met totale kleinste kwadraten. Volgens (5.13) moeten we hier de volgende SVD bepalen:

B :=







1 1

1 −1

−1 1

−1 −1





=







1

2 1

2

q1

2 0

1

2 −¹₂ 0 ^q¹₂

−¹₂ ¹₂ 0 ^q¹₂

−¹₂ −¹₂ ^q¹₂ 0













2 0

0 2

0 0







µ 1 0

0 1

¶

. (5.37)

Beide singuliere waarden zijn gelijk, zodat iedere rechte door de oorsprong de functionaal I in (5.13) minimaliseert. De totale kleinste-kwadratenbenadering is dus niet uniek; de beide regressierechten zijn het wel (in dit geval).

Voorbeeld 2. Los op in (gewone) kleinste-kwadratenzin en in totale kleinste-kwadratenzin:





1 0

0 0



 Ãx

y

!

=



 1 1 1



 met normaalvergelijkingen

µ 1 0

0 0

¶ Ãx y

!

= µ 1

0

¶

. (5.38) Uit de normaalvergelijkingen vinden we x = 1 en y is onbepaald, zodat de oplossing voor het (gewone) kleinste-kwadratenprobleem niet uniek is; iedere vektor (1, y)^T is een oplossing.

(10)

Om de totale kleinste-kwadratenbenadering te vinden moeten we van de volgende matrix B de kleinste singuliere waarde bepalen:

B =





1 0 1

0 0 1



.

Aangezien B rang 2 heeft (B heeft twee onafhankelijke kolommen) en de vektor u := (0, 1, 0)^T in de kern van B zit (Bu = 0), is σmin:= 0 de kleinste singuliere waarde en u de bijbehorende rechter singuliere vektor. De laatste component van deze vektor is echter 0, zodat herschaling hiervan nooit een 1 kan maken. We zien hier dus een voorbeeld, waarin de functionaal I uit (5.36) een minimum heeft, dat niet overeenkomt met een oplossing van het totale kleinste-kwadratenprobleem.

5.i Een alternatieve benadering voor totale kleinste kwadraten in IRⁿ

Bij het oplossen van het overbepaalde (en dus i.h.a. strijdige) stelsel vergelijkingen Ax = b in de zin van (gewone) kleinste kwadraten zoeken we een vektor r ∈ IR^m van minimale lengte met de eigenschap b + r ∈ Im(A), zodat het gewijzigde stelsel Ax = b + r een oplossing heeft. Alle onzekerheid in de data wordt hierbij toegeschreven aan het rechterlid b.

In een benadering via “totale kleinste kwadraten” willen we ook een stuk van de onzekerheid toeschrijven aan de matrix A. We zoeken dus een stoormatrix E ∈ IR^m^×nen een vektor r ∈ IR^mvan minimale grootte, zodat b + r ∈ Im(A+E), of anders gezegd, zodat (A+E)x = b+r een oplossing heeft. De grootte van de storing (E | r) ∈ IR^m^×(n+1)kunnen we meten in de “Frobenius-norm” k·k^F (wortel van de som van kwadraten van alle matrixelementen), die evenals de k · k2-norm invariant is onder orthogonale transformaties. Het probleem kunnen we dus formuleren als het bepalen van het minimum van

{ k (E | r) k^F | E ∈ IR^m^×n, r ∈ IR^m, b + r ∈ Im(A + E) } . (5.39) Laten we nu aannemen, dat rang(A) = n, zodat alle kolommen van A onafhankelijk zijn en geen der singuliere waarden van A nul is. Verder nemen we aan, dat b 6∈ Im(A), omdat er anders een oplossing is (met E = 0 en r = 0). Bijgevolg is de rang van (A | b) gelijk aan n + 1. Nu moet (A + E)x = b + r een oplossing hebben. Deze vergelijking kunnen we ook schrijven als

(A + E | b + r)x^b = 0 met xb :=

µ x

−1

¶

∈ IRⁿ⁺¹.

Dit betekent, dat de matrix (A + E | b + r) singulier moet zijn en dus, dat de rang ervan hoogstens n mag zijn. Het minimaliserende koppel (E | r) (in de Frobeniusnorm) kunnen we vinden door de SVD van (A | b) te maken,

(A | b) = U Σ V^T =

n+1X

k=1

σkukv^T_k, met







U = (u1| · · · | u^m) ∈ IR^m^×m,

V = (v1| · · · | vⁿ⁺¹) ∈ IR(n+1)×(n+1), Σ = diag(σ1, · · · , σⁿ⁺¹) ∈ IR^m^×(n+1),

waar U en V orthogonale matrices zijn en Σ een diagonaalmatrix is met de dalend geordende singuliere waarden op de hoofddiagonaal. Het minimaliserende koppel (E₀| r0) is dan gelijk aan

(E₀| r0) = −σn+1u_n+1v_n+1^T . Dit koppel is uniek, als de ongelijkheid σ_n+1 < σnstrikt is. Aangezien

(A + E₀| b + r0) = Xn k=1

σ_ku_kv^T_k ,

zit de rechter singuliere vektor v_n+1, behorend bij de kleinste singuliere waarde, in de kern ervan.

De vektorx_bis hier dus een veelvoud van; dit geeft weer de eerder gevonden oplossing van het totale kleinste-kwadratenprobleem, als de laatste component van deze vektor niet gelijk is aan nul.

(11)

References

[1] M. Hestenes & E. Stiefel, Methods of conjugate gradients for solving linear systems, J. Research NBS, 49, pp. 409 – 436, 1952.

[2] C. Lanczos, An iteration method for the solution of the eigenvalue problem of linear differential and integral operators, J. Research NBS, 45, pp. 255 – 282, 1950.

[3] J.K. Reid, On the method of conjugate gradients for the solution of large sparse systems of linear equations, Proc. Conf. on Large Sparse Sets of Linear Equations, Academic Press, New York, 1971.

[4] J.A. Meijerink and H.A. van der Vorst, An iterative solution method for linear systems of which the coefficient matrix is a symmetric M-matrix, Math.of Comp., 31, pp. 148 – 162, 1977.

[5] G.H. Golub & C.F. Van Loan, Matrix Computations, The Johns Hopkins University Press, Baltimore, Maryland, USA, 1^ste druk, 1983, 2^dedruk, 1988, 3^de druk, 1995.

[6] R. Bulirsch & J. Stoer, Introduction to Numerical Analysis, Springer Verlag, Berlin, 1977. (Ook verkri- jgbaar in een goedkope duitstalige pocketeditie).

[7] D. Kincaid & W. Cheney, Numerical Analysis, Brooks & Cole Publishing Company, Pacific Grove, California, USA, 1991; 2de druk, 1996.