• No results found

Vergelijken van twee gemiddelden .1 Toetsen of twee onafhankelijke gemiddelden verschillen

De numerieke kwaliteit van statistische informatie

5.3 Vergelijken van twee gemiddelden .1 Toetsen of twee onafhankelijke gemiddelden verschillen

⎨ ⎩ NH(R)(α, π) = Fτ(z1−α 2 + zπ)2 η2τ = ϕ2 τΔ2 H  σ2ε (5.9)

Nτ(R)(α, π): steekproefgrootte in de referentietoestand R, waarbij ϕ2τ = 1 en ΔHε = 1, zodat η2

τ = 1. Deze waarde is alleen functie van het significantieniveau en het onderscheidend vermogen.

η2τ: ontwerpfactor, combineert in ´e´en term de instellingen van het ontwerp met uitzondering van het significantieniveau en het onderscheidend vermogen.

Formule (5.9) is analoog aan die voor de steekproefgrootteberekening voor schatters (4.10). Het enige verschil is de vorm van NR waarbij nu ook het onderscheidend vermogen π van belang is. De invloed hiervan bespreken we later (tabel 5.1). Eerst overlopen we een paar specifieke gevallen. We merken alvast op dat (5.6) een bijzonder geval is van (5.9) met Fτ = 1 en ϕ2

τ = 1.

5.3 Vergelijken van twee gemiddelden

5.3.1 Toetsen of twee onafhankelijke gemiddelden verschillen

We willen statistisch toetsen of het verschil tussen de gemiddelden van twee groepen significant afwijkt van een vooropgezette waarde δ0 op basis van de toetsingsgrootheid d:

τμ2−μ1 = d = ( ¯Y2− ¯Y1) − δ0 (5.10)

We veronderstellen dat de twee groepen statistisch onafhankelijk zijn. De variantie van (5.10) is gelijk aan de variantie van d = ¯Y2− ¯Y1 in formule (4.16) omdat δ0 een constante is.

V ar[d] = 4 ϕ2 b σ2 ε N (5.11)

Substitutie van (5.11) in de startformule (5.2) geeft na herschikking de vereiste steekproefgrootte om minimaal een werkelijk verschil Δδ = δ − δ0 te detecteren bij een significantieniveau α met een onderscheidend vermogen π: Nδ Nδ(R)(α,π) η2 δ ⎧ ⎨ ⎩ Nδ(R)(α, π) = 4(z1−α 2 + zπ)2 ηδ2 = ϕ2 b2 δ  σε2) (5.12) met:

Nδ(R)(α, π): steekproefgrootte onder standaardvoorwaarden (η2 δ = 1 ).

ηδ2: ontwerpfactor; product van de balansfactor ϕ2b met het kwadraat van het ingestelde minimale effect Δδ relatief ten opzichte van de ruis σε2.

Formule (5.12) is een vuistregel voor de nodige steekproef voor de t-toets voor het verschil tussen

twee onafhankelijke gemiddelden. In vergelijking met (5.6) is er in de teller een factor vier bijgekomen, en in de noemer de balansfactor ϕ2b (die we al in hoofdstuk 4 besproken hebben). Voor de rest zijn de formules identiek. Als we twee groepen vergelijken, hebben we minstens (ϕ2b ≤ 1) vier keer zoveel

waarnemingen nodig, dan wanneer we ´e´en groep vergelijken met een referentiewaarde.

5.3.2 Rekenvoorbeelden bij vergelijken van twee gemiddelden

Rekenvoorbeeld 5.1c (monitoring lozingspunt)

De bedrijfsleiding is niet akkoord dat de monitoring steunt op het detecteren van verschillen met een referentiesituatie en argumenteert de rivier mogelijk reeds vervuild is voor de lozing plaatsvindt. Daarom wil het bedrijf twee steekproeven: ´e´en voor de lozing effectief begint (nulmeting) en ´e´en na de lozing. Ten opzichte van rekenvoorbeeld 5.1a hebben we nu een vier keer grotere steekproef nodig:

Nδ = 195 ∗ 4 = 780.

Met G*power kiezen we bij Test Family t-tests en voor Statistical Test Means: difference between two independent means (two groups). Om eenzijdig te toetsen, is tails one. Vervolgens de ontwerpparameters bij Input Parameters ingeven. Het resultaat is 784. Het verschil met de manuele berekening (780) is opnieuw klein.

Rekenvoorbeeld 5.3a (overlevingskans kwabaaleieren)

Hier vergelijken we overlevingskansen. In deze leidraad hebben we hiervoor geen formule, maar we kunnen G*power gebruiken. We beginnen met de toets te kiezen via het menu of rechtstreeks via het hoofdscherm:

Test Family: z tests

Statistical Test: Proportions: Difference between two independent proportions. Zes input parameters worden opgevraagd:

Tail(s) [tweezijdig of eenzijdig]: two Proportion p2: 0.55

Proportion p1: 0.65

Significantieniveau [α]: 0.05 Power [π]: 0.80

Allocation ratio N2/N1: 1

We kiezen voor een tweezijdige toets omdat we niet a priori willen uitsluiten dat de overleving verbetert. Omdat de steekproefgrootteberekeningen gebaseerd zijn op een continue benadering van een discrete distributie, is het aangeraden om in Options use continuity correction aan te vinken. De uitkomst is N = 790 of 395 waarnemingen per groep.

Rekenvoorbeeld 5.3b (overlevingskans kwabaaleieren): ongelijke steekproefgrootte

Omdat A de natuurlijke toestand voorstelt, willen we met het experiment de overleving SAnauwkeuriger bepalen. Daarom nemen we groep A vier keer zo groot als groep B om het betrouwbaarheidsinterval twee keer zo smal te maken. Volgens hoofdstuk 4 moeten we met een balansfactor ϕ2b rekening houden. Alhoewel we het resultaat niet expliciet hebben aangetoond voor een binomiale verdeling, is het interessant om na te gaan in hoeverre de vuistregel geldig blijft.

Uit (4.15) volgt dat ϕ2b = 41 5(1 −1

5) = 16

25 of de steekproef moet anderhalve keer (2516 ≈ 1.56) zo groot

zijn. Dus N = 1234. Met G*power zetten we 4 in Allocation ratio N2/N1. We krijgen als oplossing 1217 (A: 974 + B: 243): iets kleiner dus. De vuistregel blijkt dus goed te werken! Dat is heel dikwijls zo: de teller in (5.9) is specifiek voor een toets, maar de noemer is generiek. In sectie 5.5 zullen we daarom een algemene discussie maken van de factoren die het onderscheidend vermogen bepalen. Sectie 5.6 is een nog verdere uitbreiding.

5.3.3 Toetsen of gepaarde gemiddelden verschillen

Het komt vaak voor dat op dezelfde plaats achtereenvolgens twee (of zelfs meerdere) metingen doorgaan (bijvoorbeeld v´o´or en na een behandeling). De metingen zijn niet meer statistisch onafhankelijk. We spreken vangepaarde waarnemingen. Hiervan ligt de variantie een factor1 − ρ lager dan (5.11), met

V ar[d] = ϕ2 b 4 σ 2 ε N(1 − ρ) (5.13)

Als gevolg hiervan zal de vereiste steekproefgrootte met dezelfde factor afnemen en is de vuistregel voor det-toets voor gepaarde waarnemingen:

Nδ(ρ) Nδ(R)(α,π) η2 δ(ρ) ⎧ ⎨ ⎩ Nδ(R)(α, π) = 4(z1−α 2 + zπ)2 η2δ(ρ)= ϕ2 b/(1− ρ).(Δ2 δ  σ2ε) (5.14)

Zoals het volgende voorbeeld aantoont, kan een gepaarde meetopstelling veel effici¨enter zijn.

5.3.4 Rekenvoorbeeld gepaarde waarnemingen

Rekenvoorbeeld 5.1d (monitoring lozingspunt): gepaarde waarnemingen

Ook de tweede oplossing is niet helemaal bevredigend voor de bedrijfsleiding. Het zou kunnen dat de vervuiling van hogerop komt en we willen dat verifi¨eren. Een ander knelpunt is dat het vereiste aantal metingen (bijna 800) erg groot is. Om die redenen wordt gedacht aan een andere procedure. Uit ervaring weten we dat simultaan uitgevoerde metingen op nabije plaatsen onderling sterk gecorreleerd zijn (ρ = 0.9). Daarom stelt men voor om met gepaarde metingen te werken door telkens op dezelfde dag op twee plaatsen te meten: een v´o´or en een voorbij het lozingspunt . Voor ρ = 0.9 herleidt de gewenste steekproef zich tot Nδ(0.9) = 78. Maar aangezien we er nu niet meer van uit gaan dat het gemiddelde in de omgeving van het bedrijf hoger ligt, kiezen we voor een tweezijdige test. Het resultaat is Nδ(0.9)= 87.

Met G*power moeten we bij Test Family t-tests kiezen en voor Statistical Test Means: difference between two dependent means (matched pairs). Vervolgens bij Input Parameters de ontwerp-parameters invullen. We kiezen voor een tweezijdige test (Two) en via Determine kunnen we het gestandaardiseerde effect berekenen. Het resultaat is 47. G*power geeft het aantal paren. Het resultaat met twee vermenigvuldigen geeft 94, iets groter dan de vuistregel (voor kleinere aantallen is de onderschatting groter).