• No results found

De numerieke kwaliteit van statistische informatie

2.2 De kwaliteit van steekproeven

2.2.1 Accuraatheid (accuracy), juistheid (trueness) en precisie (precision)

Met een steekproef willen we een kenmerk van een populatie schatten door slechts een deel van de populatie (de steekproefelementen) te bemonsteren. De schatting van dat kenmerk moet aan twee kwaliteitscriteria voldoen: ten eerste mag er geen systematische afwijking of vertekening zijn en ten

tweede moet de variabiliteitvan de schatter klein zijn. In de (Engelstalige) literatuur spreekt men van

trueness en precision. Deze termen kunnen we vertalen door respectievelijkjuistheid(= geen of slechts een beperkte vertekening) en precisie (= een lage variabiliteit). Merk op dat juistheid en precisie positieve begrippen zijn, de equivalente negatieve begrippen zijn vertekening (bias) en variabiliteit (variability ) (tabel 2.1).

Tabel 2.1: Terminologie i.v.m. de nauwkeurigheid van meetresultaten. Noot: soms wordt de term “accuraatheid” gebruikt

om juistheid aan te duiden; hier volgen we de recente ISO-norm 5725 “Accuracy (trueness and precision) of

measurements methods and results” waarin accuraatheid gedefinieerd wordt als de combinatie van juistheid en

precisie.

Accuraatheid (accuracy )

Positief begrip Juistheid (trueness) Precisie (precision) Negatief begrip Vertekening (bias) Variabiliteit (variability )

2.2.2 Statistische achtergrond

Statistische inductie (statistical inference) is gebaseerd op de veronderstelling dat we uit de doelpopulatie een door het toeval bepaalde steekproef getrokken hebben. Als deze veronderstelling correct is, kunnen we op basis van de kanswetten van de statistische theorie uit de steekproef conclusies trekken over bepaalde kenmerken van de doelpopulatie met een bepaalde betrouwbaarheid. Als de veronderstelling niet (of onvoldoende) juist is, is de validiteit van de uitspraken laag. Om dat te onderzoeken is een belangrijke veronderstelling in de statistiek dat we de steekproef waarmee we het populatiekenmerk schatten oneindig veel keer kunnen herhalen. Een onvertekende schatter betekent dan dat de gemiddelde waarde van al deze schattingen gelijk is aan de werkelijke waarde in de populatie. Een schatter met een hoge precisie heeft als eigenschap dat de waarden van de verschillende schattingen onderling weinig verschillen en dus heel weinig vari¨eren van steekproef tot steekproef .

Voor een meer wiskundige formulering duiden we de waarde van het onbekende populatiekenmerk aan met ϑ (thˆeta) en de schatting ervan met ˆϑ (thˆeta hoedje) en we onderzoeken het verschil Δ = ˆϑ− ϑ

tussen beide. Voor een betere interpretatie kunnen we het verschil als volgt herschrijven: Δϑˆ= ˆϑ− ϑ =ϑˆ− Eϑˆ  + E  ˆ ϑ  − ϑ (2.1) met E ˆ ϑ

de gemiddelde of verwachte (E = expected value) waarde van de schattingen als we de steekproef oneindig keer (kunnen) herhalen.

De voorwaarde dat er geen vertekening mag zijn, noteren we als volgt:

ϑ = E  ˆ ϑ  (2.2)

Formule (2.2) drukt uit dat de verwachte waarde van de schattingen gelijk moet zijn aan de werkelijke waarde. Wanneer er wel een systematisch verschil is tussen de verwachte waarde en de werkelijke waarde, dan is de schatter vertekend. Een maat voor de vertekening van de schatting is bijgevolg het verschil tussen de verwachte waarde en de werkelijke waarde:

Δsyst = E ˆ

ϑ



− ϑ (2.3)

De systematische fout Δsyst moeten we (in absolute waarde) zo klein mogelijk houden. Maar dat is niet voldoende. Want in de praktijk hebben maar ´e´en steekproef en het is met die ene steekproef dat we verder moeten. Dat kunnen we uitdrukken door te eisen dat het toevallige verschilΔrand (random

error ) tussen de geschatte waarde op basis van de steekproef en de verwachte waarde klein is voor zoveel

mogelijk steekproeven:

Δrand = ˆϑ− Eϑˆ



(2.4)

We veronderstellen opnieuw dat we de steekproef heel veel (oneindig) keer kunnen uitvoeren. Dan is het gemiddelde van deze afstand in het kwadraat een maat voor de variabiliteit van de schatter. Deze grootheid wordt de variantie van de schatter genoemd:

V ar  ˆ ϑ Δ = E Δ2 rand  (2.5)

De variantie van de schatter geeft aan in hoeverre de individuele schattingen gemiddeld dicht liggen bij de verwachte waarde. Hoe kleiner deze waarde, des te groter de garantie dat een individuele steekproefwaarde dicht bij de verwachte waarde ligt. De vierkantswortel hieruit is de standaardfout (standard error ): s.e.[ ˆϑ]=Δ  V ar  ˆ ϑ  (2.6)

Het voordeel van deze maat is dat ze in dezelfde schaal is als de schatter. Daarom wordt ze heel veel gebruikt als maat voor de variabiliteit of de precisie.

De eerste component van formule (2.1) is (2.3) en de tweede component is (2.4). We kunnen dus deze formule interpreteren als een som van een systematische fout en een random fout. Beide componenten moeten klein zijn:

Δϑˆ= ˆϑ− ϑ = Δsyst+ Δrand (2.7)

2.2.3 Een analogie ter verheldering

We hebben dus de twee complementaire kwaliteitsmaten: vertekening (juistheid) en variabiliteit (pre-cisie). Het onderscheid tussen beiden is wezenlijk. De factoren die de vertekening en de variabiliteit bepalen verschillen sterk en bijgevolg moeten we ook andere maatregelen nemen om de vertekening

respectievelijk de variabiliteit laag te houden. Om de twee begrippen te verduidelijken, maakt figuur 2.1 een analogie met een schietschijf. De roos is de onbekende parameterwaarde en de kruisjes stellen de steekproefschattingen voor. De gemiddelde positie van de kruisjes stellen we voor door een zwarte bol en dat stemt overeen met de verwachte waarde E . Het verschil tussen beide is dus het systematische verschilΔsyst. De spreiding van de kruisjes rond de zwarte bol is een maat voor de variabiliteit. Wanneer we het gemiddelde berekenen van de gekwadrateerde afstandΔrand tussen elk kruisje en de zwarte bol en hieruit de vierkantswortel nemen, dan bekomen we de standaardfout.

Figuur 2.1: Vertekening en variabiliteit: analogie met een schietschijf. De roos in het midden stelt de werkelijke waarde

van de parameter voor, de kruisjes (de plaatsen waar de pijltjes terecht kwamen) geven de schattingen van de parameter voor herhaalde steekproeven. De zwarte bol is de gemiddelde positie van de kruisjes (de geschatte waarde van de parameter) en de afstand van dit punt tot de roos is een maat voor de vertekening. De spreiding van de kruisjes weerspiegelt de variabiliteit.

Vier typesituaties kunnen voorkomen:

De eerste situatie (links boven) is de ideale toestand. De gemiddelde positie van de kruisjes ligt heel dicht bij de roos (weinig vertekening) en de individuele posities liggen dichtbij elkaar (lage variabiliteit).

In het tweede geval (rechts boven) zitten we gemiddeld goed (weinig vertekening), maar de individuele schattingen kunnen ver van de roos liggen (hoge variabiliteit).

In het derde geval (links onder) liggen de individuele schattingen heel nauw bij elkaar (lage variabiliteit), maar ligt gemiddelde positie van de kruisjes ligt duidelijk naast de roos (sterke vertekening).

De laatste situatie (rechts onder) combineert beide problemen: de gemiddelde positie van de kruisjes ligt naast de roos (sterke vertekening) en de individuele schattingen liggen ver van elkaar (hoge variabiliteit). De nauwkeurigheid (accuraatheid) is hier dus erg laag.

2.2.4 Problemen ten gevolge van vertekening

Deze analogie kunnen we doortrekken naar het M SE-criterium (mean square error ) uit de statistische theorie. Deze maat voor de accuraatheid geeft de gemiddelde kwadratische afstand aan van de schatter ten opzichte van de werkelijke waarde.

M SE = E[( ˆϑ− ϑ)2] (2.8)

De statistische theorie toont aan dat M SE variabiliteit en vertekening in ´e´en maat combineert en uiteenvalt in de som van de vertekening in het kwadraat en de variantie van de schatter.

M SE = Δ2syst+ V ar[ ˆϑ] (2.9)

Bovenstaande relatie is plausibel als we vergelijken met (2.7) waar de totale fout opgesplitst wordt in een systematische afwijking en een toevallige afwijking.

In figuur 2.1 hebben we M SE berekend voor de vier typesituaties en tonen we ook de opsplitsing in de twee componenten (de eenheden op zich hebben geen belang, alleen hun relatieve waarde). Interessant hierbij is dat de tweede typesituatie (lage vertekening, hoge variabiliteit) ongeveer dezelfde M SE heeft als de derde typesituatie (hoge vertekening, lage variabiliteit). We zouden dus kunnen argumenteren dat beide situaties min of meer evenwaardig zijn want de fout is gemiddeld even groot. Maar dat is misleidend. De derde typesituatie is veel problematischer. We kunnen immers de variabiliteit van de schatter afleiden uit de steekproefgegevens door de standaardfout te berekenen. In de tweede typesituatie zullen we een grote standaardfout bekomen en we zullen beseffen dat het resultaat weinig precies is. In de derde typesituatie zal de standaardfout klein zijn maar we zullen echter geen signaal krijgen dat we een vertekend beeld hebben. Dat wekt de indruk dat de steekproefresultaten een heel accuraat beeld geven van de doelpopulatie (wat in wezen de doelstelling is van de steekproeftechniek), terwijl dat door de grote vertekening niet het geval is.

Hoe groot de vertekening is en in welke richting ze ligt, kunnen we in tegenstelling tot de variabiliteit spijtig genoeg onmogelijk afleiden uit de gegevens van een enkele steekproef. De enige mogelijkheden zijn het nemen van meerdere steekproeven of het opzetten van een alternatieve proef die vanuit een andere invalshoek de gegevens inzamelt. Maar dat zijn vaak omslachtige en dure procedures. Daarom is het essentieel om vooraf alles in het werk te stellen zodat de getrokken steekproef en de metingen in de steekproefpunten representatief zijn voor de doelpopulatie. Dat is het onderwerp van hoofdstuk 3. Belangrijk om in te zien is dat we de precisieroutinematig uit de gegevens van een meetnet kunnen afleiden. Als de precisie laag is, dan zullen we dat vaststellen bij de statistische verwerking. Want de statistische theorie toont aan dat we de variabiliteit van de resultaten kunnen afleiden uit de gegevens. Bovendien kunnen we de variabiliteit reduceren door een grotere steekproef te nemen (zie hoofdstuk 4). Daarentegen heeft een verhoging van de steekproefgrootte geen effect op de vertekening. Als we refereren naar de analogie met een schietschijf zal bij een toenemende steekproefomvang de tweede typesituatie evolueren in de richting van het eerste type en het vierde type in de richting van het derde. Vertekening kunnen we enkel uitschakelen door een verbetering van de proefopzet. Anders

gezegd: de juistheid moeten we projectmatig aanpakken door te werken aan het selecteren van een representatieve steekproef.

2.3 Het schatten van parameters