• No results found

Het schatten van parameters .1De betrouwbaarheid van de schattingen

De numerieke kwaliteit van statistische informatie

2.3 Het schatten van parameters .1De betrouwbaarheid van de schattingen

Een eerste toepassing van het cijfermateriaal van meetnetten is dat we zo precies mogelijk een kenmerk (of een parameter) van de doelpopulatie willen schatten. Enkele voorbeelden:

Het percentage van de bevolking dat last heeft van nachtlawaai en het verschil in deze waarde tussen mensen in de stad en op het platteland.

Het gemiddelde van de dagmaxima van de ozonconcentratie in de Brusselse binnenstad tijdens de zomermaanden.

De parameters (helling en intercept) van de lineaire relatie tussen de dagmaxima van de tempe-ratuur en de ozonconcentratie in de Brusselse binnenstad tijdens de zomermaanden, om op basis hiervan een waarschuwingssysteem te ontwikkelen.

Met de meetnetgegevens zijn we perfect in staat de kenmerken van de onderzochte steekproef te berekenen. We beschouwen deze waarden echter als schattingen voor de werkelijke (en onbekende) waarden voor de hele doelpopulatie. Echter, aangezien toeval meespeelt bij het trekken van de steekproef, zal er altijd een kans zijn dat we ons vergissen. Dat risico op een vergissing is een (negatieve) maat voor de betrouwbaarheid van het resultaat.

Een belangrijk concept is het betrouwbaarheidsinterval van een schatting. Een betrouwbaarheidsinterval is een intervalschatter met als doel een beeld te geven over de onzekerheid op de puntschatter ˆϑ zodat

we de gegevens beter kunnen interpreteren en toepassen. We weten dat ˆϑ niet volledig samenvalt

met de werkelijke waarde en we hebben een idee van de precisie van de schatter op basis van de standaardfout. Een betrouwbaarheidsinterval gaat een stap verder door in plaats van een enkele waarde (de puntschatter) een interval te specificeren dat, met een zekere waarschijnlijkheid, de plausibele waarden aangeeft voor de onbekende parameter ϑ. Hierbij moeten we “plausibel” begrijpen als “in overeenstemming met de gegevens”. Waarden die buiten het interval vallen, zijn dan in tegenspraak met de gegevens en kunnen we uitsluiten.

Een betrouwbaarheidsinterval is typisch van volgende vorm: ˆ

ϑ± F M (2.10)

met als eigenschap dat:

Er bestaan ook asymmetrische betrouwbaarheidsintervallen, maar voor de eenvoud veronderstellen we hier dat dit niet het geval is. De foutmarge F M is gelijk aan de helft van de breedte van het

betrouwbaarheidsinterval. De foutmarge is zo ingesteld dat in(1 − α)% van alle mogelijke experimenten de werkelijke parameterwaarde in het interval zal liggen en in α% van de gevallen niet. 1− α heet

het betrouwbaarheidniveau C (confidence level ) en hoe hoger het betrouwbaarheidsniveau, des te

zekerder we zijn dat de werkelijke waarde in het interval zal liggen, maar – zoals we straks zullen zien – hoe breder het interval.

Courant kiezen we voor een95% betrouwbaarheidsinterval. Dat betekent dat in 5% van de gevallen de werkelijke waarde niet in het interval zal liggen. Vinden we dat risico te groot, dan moeten we het betrouwbaarheidsniveau verhogen. Maar als we aan het ontwerp van de studie (en meer in het bijzon-der de steekproefgrootte) niets veranbijzon-deren, zal hierdoor de foutmarge toenemen en de bruikbaarheid afnemen.

2.3.2 Het verband tussen het betrouwbaarheidsniveau en de breedte van het

be-trouwbaarheidsinterval

Om het begrip verder te illustreren, geeft figuur 2.2 het resultaat van een simulatie waarbij we fictief honderd keer eenzelfde experiment herhaald hebben. De vier (deel)figuren bevatten dezelfde reeks experimenten, maar we lieten het betrouwbaarheidsniveau stijgen van 80% naar 99% van links boven naar rechts onder. De betrouwbaarheidsintervallen in het rood bevatten de werkelijke waarde niet. In de marge staat in hoeveel gevallen dat is. Deze aantallen zijn in goede overeenstemming met de nominale waarde van de betrouwbaarheidsniveaus.

Hoewel we de simulaties hebben uitgevoerd voor een specifieke situatie, zijn volgende eigenschappen algemeen geldig:

De betrouwbaarheidsintervallen liggen zowel onder als boven de werkelijke waarde. Voor de si-mulatie weten we hoe de vork in de steel zit en zijn herhalingen mogelijk, maar in werkelijkheid moeten we op basis van ´e´en interval conclusies trekken. We hebben dus totaal geen idee waar de werkelijke waarde precies ligt, behalve de garantie dat de werkelijke waarde ergens in het interval ligt in (1 − α)% van de gevallen. Alle waarden binnen het interval komen in aanmerking voor de werkelijke waarde. De ondergrens en de bovengrens van het interval zijn de waarden van ϑ die we nog net als een mogelijke uitkomst van de gegevens beschouwen. Bij de interpretatie en toepassing van de gegevens moeten we rekening houden met deze twee extremen en nagaan wat de implicaties ervan zijn.

Negatief uitgedrukt impliceert een (1 − α)% betrouwbaarheidsinterval dat het in α% van de gevallen de werkelijke waarde niet zal bevatten. We zouden het betrouwbaarheidsniveau kunnen optrekken. Maar als gevolg hiervan zal de breedte van het interval toenemen. We zijn wel zekerder van het resultaat, maar aan de andere kant moeten we met een groter interval rekening houden, wat beslissingen kan bemoeilijken. We moeten de breedte van het interval dus afwegen tegen het risico dat het interval de werkelijke waarde niet bevat. De foutmarge en het betrouwbaarheidniveau

Figuur 2.2: Betrouwbaarheidsintervallen van 100 experimenten om een parameter te bepalen. Voor alle figuren gaat het

om dezelfde reeks en is de puntschatting gelijk. Maar het betrouwbaarheidsniveau stijgt van linksboven tot rechtsonder: 80%, 90%, 95% en 99%. In de marge staat aangegeven hoeveel (rode) intervallen de werkelijke waarde niet bevatten.

specificeren samen aan welke norm de schatter moet voldoen om bruikbaar te zijn. In functie van deze instelwaarden moeten we de steekproef ontwerpen.

2.3.3 De gewenste breedte van betrouwbaarheidsintervallen

Hoe smaller het betrouwbaarheidsinterval, hoe meer zekerheid we hebben over de werkelijke waarde ϑ en omgekeerd, hoe breder het interval, hoe voorzichtiger we moeten zijn. Figuur 2.3 geeft een schets van drie typische situaties. Hierbij veronderstellen we dat de parameter ϑ het effect voorstelt van een bepaalde behandeling. Als θ = 0 dan is er helemaal geen effect, terwijl kleine waarden van ϑ geen praktische implicaties hebben, zoals de figuur aangeeft. Het is maar vanaf een zekere drempelwaarde –

aangegeven door de verticale lijnen – dat een beperkt positief en negatief effect optreedt en vanaf een tweede drempelwaarde is er sprake van een belangrijk effect.

In situatie A geeft de puntschatter aan dat er geen noemenswaardig effect is, maar alleen bij het nauwste interval kunnen we op basis van de gegevens besluiten dat er geen effect is met praktisch belang. Voor het tweede interval is een beperkt positief effect mogelijk en voor het derde interval kunnen we een belangrijk positief en zelfs een beperkt negatief effect niet uitsluiten. In dat geval is de studie onbeslist (Engels: inconclusive) en kunnen we op basis van het resultaat weinig of niets besluiten.

De bespreking van situatie B is volledig analoog. Alleen het eerste smalle interval geeft eenduidig aan dat er een beperkt positief effect is. Met het tweede iets bredere interval kunnen we niet uitsluiten dat er geen effect is en met het derde heel brede interval kan het werkelijke effect zowel positief als negatief zijn. In situatie C kunnen we voor de drie intervallen uitsluiten dat er een positief effect is, maar alleen met het smalste interval is de conclusie ondubbelzinnig dat er een belangrijk negatief effect is. Voor het breedste interval is het mogelijk dat er in werkelijkheid geen effect is.

Bij de interpretatie van een betrouwbaarheidsinterval is het dus belangrijk te kijken naar het begin- en eindpunt van het interval en dat te toetsen aan de inhoudelijke betekenis die we aan deze waarden geven.

Figuur 2.3: Hoe een betrouwbaarheidsinterval interpreteren? De X-as geeft uitkomst van de schatting van een parameter

ϑ, bijvoorbeeld het effect van een behandeling. Het bereik van de X-as is opgedeeld in stroken naargelang

het praktisch belang van het effect. Bij elke situatie (A, B en C) worden drie betrouwbaarheidsintervallen voorgesteld: een smal, een middelmatig en een breed interval. De puntschatters in A wijzen op geen praktisch effect, in B op een beperkt positief effect en in C op sterk negatief effect. Maar de middelmatige en brede betrouwbaarheidsintervallen vertellen een ander verhaal.

We moeten onszelf een beeld vormen van wat we belangrijk of betekenisvol en minder belangrijk of niet betekenisvol vinden. Die inhoudelijke vragen zijn geen onderdeel van een statistische vraagstelling. Ze zijn niet alleen essentieel bij de verwerking en interpretatie van de gegevens, maar ook en misschien vooral bij het ontwerp van de steekproef. We moeten ons verwachtingspatroon zo concreet mogelijk uitdrukken zodat we het ontwerp hierop kunnen ori¨enteren. Want het ontwerp en in het bijzonder de steekproefgrootte be¨ınvloeden de breedte van het betrouwbaarheidsinterval. De helft van deze lengte heet de foutmarge. Daarom moeten we bij het ontwerp behalve het betrouwbaarheidniveau C ook een bovengrens voor de foutmarge (F M ≤ ΔF) specificeren waaraan de schatter moet voldoen. De hiervoor gegeven voorbeelden (zie 2.3.1) zouden we dus als volgt kunnen herformuleren:

Het percentage, met een maximale foutmarge van ± 10% bij een betrouwbaarheidsniveau van

95%, van de bevolking dat last heeft van nachtlawaai en dit voor mensen die wonen in de stad en bewoners van het platteland.

Het gemiddelde van de dagmaxima van de ozonconcentratie, met een maximale foutmarge van

±15μg/m3 bij een betrouwbaarheidsniveau van 95%, in de Brusselse binnenstad tijdens de zo-mermaanden.

De parameters (helling en intercept), met een relatieve foutmarge van ± 20% bij een

betrouw-baarheidsniveau van 95%, van de lineaire relatie tussen de dagmaxima van temperatuur en de ozonconcentratie in de Brusselse binnenstad tijdens de zomermaanden, om op basis hiervan een waarschuwingssysteem te ontwikkelen.

Deze scherpere formulering van de vraagstelling kan soms aanzienlijk meer tijd vragen, maar is wel wezenlijk voor een goede dimensionering van het meetnet.

2.4 Het toetsen van statistische hypothesen