Vergelijken van twee gemiddelden .1 Toetsen of twee onafhankelijke gemiddelden verschillen

De numerieke kwaliteit van statistische informatie

5.3 Vergelijken van twee gemiddelden .1 Toetsen of twee onafhankelijke gemiddelden verschillen

⎨ ⎩ N_H(R)(α, π) = F_τ(z₁₋α 2 + z_π)2 η²_τ = ϕ2 τΔ2 H σ²_ε (5.9)

N_τ_(R)(α, π): steekproefgrootte in de referentietoestand R, waarbij ϕ²_τ = 1 en Δ_H/σ_ε = 1, zodat η2

τ = 1. Deze waarde is alleen functie van het signiﬁcantieniveau en het onderscheidend vermogen.

η²_τ: ontwerpfactor, combineert in één term de instellingen van het ontwerp met uitzondering van het significantieniveau en het onderscheidend vermogen.

Formule (5.9) is analoog aan die voor de steekproefgrootteberekening voor schatters (4.10). Het enige verschil is de vorm van N_R waarbij nu ook het onderscheidend vermogen π van belang is. De invloed hiervan bespreken we later (tabel 5.1). Eerst overlopen we een paar speciﬁeke gevallen. We merken alvast op dat (5.6) een bijzonder geval is van (5.9) met F_τ = 1 en ϕ2

τ = 1.

5.3 Vergelijken van twee gemiddelden

5.3.1 Toetsen of twee onafhankelijke gemiddelden verschillen

We willen statistisch toetsen of het verschil tussen de gemiddelden van twee groepen signiﬁcant afwijkt van een vooropgezette waarde δ₀ op basis van de toetsingsgrootheid d^∗:

τμ2−μ1 = d∗ = ( ¯Y₂− ¯Y₁) − δ0 ^(5.10)

We veronderstellen dat de twee groepen statistisch onafhankelijk zijn. De variantie van (5.10) is gelijk aan de variantie van d = ¯Y₂− ¯Y₁ in formule (4.16) omdat δ₀ een constante is.

V ar[d^∗] = 4 ϕ2 b σ2 ε N (5.11)

Substitutie van (5.11) in de startformule (5.2) geeft na herschikking de vereiste steekproefgrootte om minimaal een werkelijk verschil Δ_δ = δ − δ0 ^{te detecteren bij een signiﬁcantieniveau α met een} onderscheidend vermogen π: N_δ≥ ^Nδ(R)(α,π) η2 δ ⎧ ⎨ ⎩ N_δ(R)(α, π) = 4(z₁₋α 2 + z_π)2 η_δ² = ϕ2 b(Δ2 δ σ_ε²) (5.12) met:

N_δ(R)(α, π): steekproefgrootte onder standaardvoorwaarden (η2 δ = 1 ).

η_δ²: ontwerpfactor; product van de balansfactor ϕ²_b met het kwadraat van het ingestelde minimale eﬀect Δ_δ relatief ten opzichte van de ruis σ_ε².

Formule (5.12) is een vuistregel voor de nodige steekproef voor de t-toets voor het verschil tussen

twee onafhankelijke gemiddelden. In vergelijking met (5.6) is er in de teller een factor vier bijgekomen, en in de noemer de balansfactor ϕ²_b (die we al in hoofdstuk 4 besproken hebben). Voor de rest zijn de formules identiek. Als we twee groepen vergelijken, hebben we minstens (ϕ²_b ≤ 1) vier keer zoveel

waarnemingen nodig, dan wanneer we ´e´en groep vergelijken met een referentiewaarde.

5.3.2 Rekenvoorbeelden bij vergelijken van twee gemiddelden

Rekenvoorbeeld 5.1c (monitoring lozingspunt)

De bedrijfsleiding is niet akkoord dat de monitoring steunt op het detecteren van verschillen met een referentiesituatie en argumenteert de rivier mogelijk reeds vervuild is voor de lozing plaatsvindt. Daarom wil het bedrijf twee steekproeven: één voor de lozing effectief begint (nulmeting) en één na de lozing. Ten opzichte van rekenvoorbeeld 5.1a hebben we nu een vier keer grotere steekproef nodig:

Nδ = 195 ∗ 4 = 780.

Met G*power kiezen we bij Test Family t-tests en voor Statistical Test Means: difference between two independent means (two groups). Om eenzijdig te toetsen, is tails one. Vervolgens de ontwerpparameters bij Input Parameters ingeven. Het resultaat is 784. Het verschil met de manuele berekening (780) is opnieuw klein.

Rekenvoorbeeld 5.3a (overlevingskans kwabaaleieren)

Hier vergelijken we overlevingskansen. In deze leidraad hebben we hiervoor geen formule, maar we kunnen G*power gebruiken. We beginnen met de toets te kiezen via het menu of rechtstreeks via het hoofdscherm:

Test Family: z tests

Statistical Test: Proportions: Difference between two independent proportions. Zes input parameters worden opgevraagd:

Tail(s) [tweezijdig of eenzijdig]: two Proportion p2: 0.55

Proportion p1: 0.65

Signiﬁcantieniveau [α]: 0.05 Power [π]: 0.80

Allocation ratio N2/N1: 1

We kiezen voor een tweezijdige toets omdat we niet a priori willen uitsluiten dat de overleving verbetert. Omdat de steekproefgrootteberekeningen gebaseerd zijn op een continue benadering van een discrete distributie, is het aangeraden om in Options use continuity correction aan te vinken. De uitkomst is N = 790 of 395 waarnemingen per groep.

Rekenvoorbeeld 5.3b (overlevingskans kwabaaleieren): ongelijke steekproefgrootte

Omdat A de natuurlijke toestand voorstelt, willen we met het experiment de overleving S_Anauwkeuriger bepalen. Daarom nemen we groep A vier keer zo groot als groep B om het betrouwbaarheidsinterval twee keer zo smal te maken. Volgens hoofdstuk 4 moeten we met een balansfactor ϕ²_b rekening houden. Alhoewel we het resultaat niet expliciet hebben aangetoond voor een binomiale verdeling, is het interessant om na te gaan in hoeverre de vuistregel geldig blijft.

Uit (4.15) volgt dat ϕ²_b = 41 5(1 −1

5) = 16

25 ^{of de steekproef moet anderhalve keer (}²⁵16 ≈ 1.56) zo groot

zijn. Dus N = 1234. Met G*power zetten we 4 in Allocation ratio N2/N1. We krijgen als oplossing 1217 (A: 974 + B: 243): iets kleiner dus. De vuistregel blijkt dus goed te werken! Dat is heel dikwijls zo: de teller in (5.9) is speciﬁek voor een toets, maar de noemer is generiek. In sectie 5.5 zullen we daarom een algemene discussie maken van de factoren die het onderscheidend vermogen bepalen. Sectie 5.6 is een nog verdere uitbreiding.

5.3.3 Toetsen of gepaarde gemiddelden verschillen

Het komt vaak voor dat op dezelfde plaats achtereenvolgens twee (of zelfs meerdere) metingen doorgaan (bijvoorbeeld v´o´or en na een behandeling). De metingen zijn niet meer statistisch onafhankelijk. We spreken vangepaarde waarnemingen. Hiervan ligt de variantie een factor1 − ρ lager dan (5.11), met

V ar[d^∗] = ϕ2 b 4 ^σ 2 ε N(1 − ρ) (5.13)

Als gevolg hiervan zal de vereiste steekproefgrootte met dezelfde factor afnemen en is de vuistregel voor det-toets voor gepaarde waarnemingen:

N_δ_(ρ)≥ ^Nδ(R)(α,π) η2 δ(ρ) ⎧ ⎨ ⎩ N_δ_(R)(α, π) = 4(z₁₋α 2 + z_π)2 η²_δ(ρ)= ϕ2 b/(1− ρ).(Δ2 δ σ²_ε) (5.14)

Zoals het volgende voorbeeld aantoont, kan een gepaarde meetopstelling veel eﬃci¨enter zijn.

5.3.4 Rekenvoorbeeld gepaarde waarnemingen

Rekenvoorbeeld 5.1d (monitoring lozingspunt): gepaarde waarnemingen

Ook de tweede oplossing is niet helemaal bevredigend voor de bedrijfsleiding. Het zou kunnen dat de vervuiling van hogerop komt en we willen dat verifiëren. Een ander knelpunt is dat het vereiste aantal metingen (bijna 800) erg groot is. Om die redenen wordt gedacht aan een andere procedure. Uit ervaring weten we dat simultaan uitgevoerde metingen op nabije plaatsen onderling sterk gecorreleerd zijn (ρ = 0.9). Daarom stelt men voor om met gepaarde metingen te werken door telkens op dezelfde dag op twee plaatsen te meten: een vó´or en een voorbij het lozingspunt . Voor ρ = 0.9 herleidt de gewenste steekproef zich tot N_δ(0.9) = 78. Maar aangezien we er nu niet meer van uit gaan dat het gemiddelde in de omgeving van het bedrijf hoger ligt, kiezen we voor een tweezijdige test. Het resultaat is N_δ(0.9)= 87.

Met G*power moeten we bij Test Family t-tests kiezen en voor Statistical Test Means: difference between two dependent means (matched pairs). Vervolgens bij Input Parameters de ontwerp-parameters invullen. We kiezen voor een tweezijdige test (Two) en via Determine kunnen we het gestandaardiseerde eﬀect berekenen. Het resultaat is 47. G*power geeft het aantal paren. Het resultaat met twee vermenigvuldigen geeft 94, iets groter dan de vuistregel (voor kleinere aantallen is de onderschatting groter).

In document Ontwerp en evaluatie van meetnetten voor het milieu- en natuurbeleid: leidraad voor de meetnetontwerper (pagina 170-174)