STATISTIEK I
R-CODES
R-code Betekenis
Dim () Aantal rijen (= aantal personen id steekproef) en kolommen (= aantal variabelen) vd tabel
Head 1e 6 rijen + bijhorende kolommen Names () Namen variabelen
$ Waarde ve variabele uit de date (alCjd gevolgd door de naam vd data) Table () Absolute/relaCeve frequenCe
Read.table () Data lezen Pie () Cirkeldiagram Barplot () Staafdiagram
Cut () Klassen
Breaks Grenzen tss de klassen Hist () Histogram
Cumsum () CumulaCeve absolute frequenCe Ecdf ()
Plot ()
CumulaCeve frequenCecurve
Mean () Gemiddelde Median () Mediaan
Min () Minimum Max () Maximum
Aad () Gemiddelde absolute afwijking Var () VarianCe
Sd ()
Sqrt () Vierkantswortel (vd varianCe om de standaarddeviaCe te vinden) QuanHle () PercenCelen/kwarCelen
IQR () InterkwarCelafstand Boxplot () Boxplot
Cov () CovarianCe
Cor () CorrelaCecoëfficiënt Cor () + opHe
“Kendall”
Kendall’s tau StandaarddeviaCe
Bv. Sd = sqrt(4): standaarddeviaCe = 4 = 2
Belangrijke commando’s 1. q
= quanCle: waarde - We weten de kans
- We willen de waarde weten waarvoor …% ligt eronder/boven 2. p
= probability: kans - We weten de waarde
- We willen de kans weten die onder/boven een bep waarde ligt FORMULES EN BIJHORENDE SYMBOLEN
!! steeds finaleresultaat (≠ tussenbewerkingen) afronden op 2 decimalen (<5 naar ↘, ≤ 5 naar ↗) Dbinom (k,N,p) Kansdichtheid P(X = k)
Pbinom (k,N,p) CumulaCeve verdelingsfuncCe (P ≤ k)
Kansdichtheid fx(x) Pchisq (y,k)
Qchisq(fy (y),k) = y Pt (t,k)
t.test () t-toets (g-toets maar in R → t) mu H0
t Toetsingsgrootheid g
Df() = degrees of freedom: aantal vrijheidsgraden
= k
= n -1 p-value = p-waarde
= onderscheidingskans t.test (alternaHve =
“less”)
Linkszijdige toets
t.test (alternaHve =
“greater”)
Rechtszijdige toets
Kansen P(T ≤ t) voor varibale T ~ tk Kans P(X ≤ x) voor variabele
!! in R dus niet maar (door vierkantswortel te nemen)
!! bij standaardnormale mogen worden weggelaten X ~ N(μ, σ2)
σ2 σ
μ, σ Dnorm (x,μ, σ)
Pnorm (x, ) Pnorm(bekomen Z) μ, σ
Kansen P(Y ≤ y) voor variabele Y ~ xk2
NAAM FORMULE HOE?
RELATIEVE FREQUENTIE Kennen
HARMONISCH GEMIDDELDE Zullen we niet
echt hanteren
MEETKUNDIG OF GEOMETRISCH GEMIDDELDE
Zullen we niet echt hanteren Begrijpen, niet
reproduceren
GEMIDDELDE O.B.V. EEN FREQUENTIEVERDELING
Kennen
KLASSENMIDDEN Begrijpend
lezen Absolute f requentie
Aantal steek proefelementen
!! klassenmiddens ]a,b] = [a,b[ = ]a,b[ = [a,b]
a + b 2 (REKENKUNDIG)
STEEKPROEFGEMIDDELDE
= GEMIDDELDE O.B.V. WAARDEN VE VARIABELE
¯x
Waarbij
- = unieke waarde vd variabele X in steekproef
Bv. = vrouw en = man - = absolute frequenCe van deze
waarde
- p = aantal unieke waarden vd variabele X id steekproef
!! uitkomst hiervan = uitkomst gem. o.b.v.
waarden (logisch)
¯x = 1n
p
∑i=1
fixiu
xiu
x1u x2u fi
(x1+ x2+ … + xn) n
¯x = 1n
n
∑i=1
xi
nx1· x2· … · xn
= waarde vh ie element n
∑ni=1xi1 xi
GEMIDDELDE VAN GEGROEPEERDE DATA Begrijpend lezen
Bij oneven waarden: middelste waarde in geordende rij
Bij even waarden: middelste 2 waarden gedeeld door 2
Kennen
Waarde/klasse met de hoogste frequenCe
!! er kunnen meerdere waarden/klassen zijn = modi
- 1 modus = unimodaal - 2 modi = bimodaal
Kennen
Grootste – kleinste waarde OF
Bovengrens laatste klasse – ondergrens eerste klasse (= 2 uitersten)
!! kan nooit negaCef zijn: max (alCjd) > min
Kennen
Kennen
Formularium STEEKPROEFVARIANTIE sn2 xof s2x
Waarbij = absolute frequenCe · klassenmidden
!! uitkomst hiervan = ± uitkomst gem. o.b.v.
waarden of frequenCeverdeling
¯x = 1n
p
∑i=1
fi(ai + bi 2 ) fi(ai + bi
2 )
GEMIDDELDE ABSOLUTE AFWIJKING gax
sn2x= 1 n
n
∑i=1(xi− ¯x)2 sx2= 1n − 1
n
∑i=1(xi− ¯x)2 VARIATIEBREEDTE vx
!! absolute waarde: anders alCjd 0 (+ en - heffen elkaar op bij gem.)
x1− ¯x + x2− ¯x + … + xn− ¯x n
gax = 1n
n
∑i=1
xi− ¯x MODUS mo
MEDIAAN m dx
STEEKPROEFVARIANTIE O.B.V.
FREQUENTIEVERDELING
Formularium
Weten
Kennen Waarbij
- = unieke waarde vd variabele X in steekproef
Bv. = vrouw en = man
- = absolute frequenCe van deze waarde sn2x= 1n
p
∑i=1fi(xiu− ¯x)2 sx2= 1n − 1
n
∑i=1fi(xi− ¯x)2
xiu
x1u x2u fi
STEEKPROEFSTANDAARDDEVIATIE snx Vierkantswortel vd varianCe snx = sn2x
sx = sx2
Kennen
Verschil 3e en 1e kwarCel P75 – P25
Weten
INTERKWARTIELINTERVAL [P75, P25]
!! bevat 50% van alle waarden
Weten PERCENTIEL Pk
Waarbij
- Pk = het k-de percenCel
- = cumulaCeve relaCeve frequenCe Bv. Voor het 10e percenCel:
1) k = 10
2) CumulaCeve relaCeve frequenCe = k/
100 = 10%
3) 10% vd waarden zijn hetzelfde of kleiner
Bijzondere percenCelen:
KwarCel Sym-bool % vd waarden die gelijk zijn of eronder liggen
1e kwarCel P25 25%
2e kwarCel P50 50%
3e kwarCel P75 75%
4e kwarCel P100 100%
!!
F(Pk)
n = k100
F(Pk) n
m dx= P50
INTERKWARTIELAFSTAND Q
SPREIDINGSMAAT D Formularium
OUTLIERS Weten
Formularium covXY = 1
n − 1
n
∑i=1
(xi− ¯x)(yi− ¯y) P25− 1,5 · Q P75+ 1,5 · Q
COVARIANTIE covxy
Waarbij
- p = aantal unieke waarden - = aantal keer dat de m - n = aantal steekproefelementen
!! van 0 (geen spreiding) t.e.m. 1 (maximale spreiding)
d = 1 − fmon 1 −1p
fmo
Weten
CONCORDANT PAAR Kennen
DISCORDANT PAAR Kennen
Formularium
REGRESSIELIJN Formularium
1. CovarianCe berekenen
2. StandaarddeviaCe berekenen voor x
=
3. StandaarddeviaCe berekenen voor y
=
4.
!! correlaCecoëffieciënt heey alCjd zelfde teken als covarianCe
rXY = covsXsXYY
covXY = 1n − 1
n
∑i=1(xi− ¯x)(yi− ¯y)
sx2 1 n − 1
n
∑i=1(xi− ¯x)2
sy2 1 n − 1
n
∑i=1(yi− ¯y)2
covariantie
standaarddeviatie x · standaarddeviatie y
KENDALL’S TAU τ
Waarbij
- b1 = regressiecoëfficiënt: helling vd rechte - b0 = intercept: snijpunt met y-as
Y = b0+ b1X
τ = 2(#concordante paren − #discordante paren) n(n − 1)
= negaCeve hellingsgraad yj − yi
xj − xi < 0 CORRELATIECOËFFICIËNT rxy
= posiCeve hellingsgraad yj − yi
xj − xi > 0
REGRESSIECOËFFICIËNT BIJ PERFECT LINEAIR VERBAND
Kennen
INTERCEPT BIJ PERFECT LINEAIR VERBAND Kennen
REGRESSIECOËFFICIËNT BIJ NIET PERFECT LINEAIR VERBAND
Formularium
INTERCEPT BIJ NIET PERFECT LINEAIR VERBAND
Formularium
VANAF HIER: OP POPULATIE NIVEAU LIMIET VAN DE RELATIEVE FREQUENTIE (WANNEER STEEKPROEF = ∞)
Begrijpen, niet
reproduceren Begrijpen, niet
reproduceren
KANS BIJ CONTINUE VARIABELEN Begrijpen,
niet
reproduceren
DICHTHEIDSFUNCTIE OF KANSDICHTHEID Begrijpen,
niet
reproduceren
INTEGRATIE DICHTHEIDSFUNCTIE Begrijpen,
niet
reproduceren Begrijpen, niet
reproduceren
KANS BIJ CONTINUE VARIABELEN O.B.V.
EIGENSCHAP
Kennen
VOLLEDIGE OPPERVLAKTE ONDER DICHTHEIDSFUNCTIE
Begrijpen, niet
reproduceren
!! daarom beroep doen op dichtheidsfuncCe P(X = x) = 0
b0= yi− b1xi
P(x1≤ X ≤ x2) = ∫x1x2 f x(x)d x
P(X ≤ x) = ∫− ∞x f x(x)d x P(X > x) = ∫x+ ∞ f x(x)d x Univariate:
Bivariate:
FX(x) = P(X ≤ x)
FX,y(x, y) = P(X ≤ x en Y ≤ y) b0= ¯y − b1¯x
b1= yj− yi xj− xi
∫
+ ∞
− ∞ f x(x)d x = 1 f x(x) = lim
b→0
Fx(x + b) − Fx (x) b
P(X = xi) = limn→∞ fi
n
!! b1 zal alCjd zelfde teken hebben als rxy b1= rXY sY
sX
CUMULATIEVE VERDELINGSFUNCTIE BIJ DISCRETE EN CONTINUE VARIABELEN
FX(x)
P(x1≤ X ≤ x2 ) = P(X ≤ x2) − P(X ≤ x1) = Fx(x2) − Fx(x1)
Formularium Begrijpen, niet
reproduceren
Formularium Begrijpen, niet
reproduceren
Weten
UNIVARIATE KANSVERDELING BIJ DISCRETE VARIABELEN
POPULATIE VARIANTIE V(X ), σx 2of σ2
σx = V(X ) POPULATIE GEMIDDELDE OF
VERWACHTINGSWAARDE E(X ), μx of μ
Discreet:
ConCnu :
V(X ) = ∑p
i=1P(X = xi)(xi− E(x))2 V(X ) = ∫− ∞+ ∞ f x(x)(x − E(X ))2d x Discreet:
ConCnu:
E(X ) = ∑p
i=1P(X = xi)xi
E(X ) = ∫− ∞+ ∞ f x(x)d x
POPULATIESTANDAARDDEVIATIE σx of σ
Waarbij
- p = aantal mogelijke waarden dat X kan aannemen
- q = aantal mogelijke waarden dat Y kan aannemen
P(X = xi) =
q
∑j=1P(X = x1 en Y = yj)
P(Y = yi) =
p
∑i=1
P(X = x1 en Y = yj)
STATISTISCHE ONAFHANKELIJKHEID Kennen
Niet kunnen
Formularium
Begrijpen, niet reduceren
Kennen
EIGENSCHAP POPULATIE GEMIDDELDE OF VERWACHTINGSWAARDE
E(a) = a
Indien a = constante
Bv. Iedereen 2000 euro inkomen → gem. = 2000
Weten Discreet:
ConCnu:
Waarbij
- = standaarddeviaCe van x - = standaarddeviaCe van y
y
ρXY = COV(X, Y )σXσY
ρXY = COV(X, Y )σXσY
σX
σY Discreet:
ConCnu:
COV(X, Y ) =∑p
i=1 q
∑j=1P(X = xi en Y = yj)(yj− E(Y )
COV(X, Y ) = ∫− ∞+ ∞∫
+ ∞
− ∞ f x, y(x, y)(x−E(X ))(y − E(Y ))d xd y
POPULATIE CORRELATIECOËFFICIËNT ρXY
Discreet:
2 discrete variabelen X en Y zijn ona{ankelijk indien:
geldt voor alle mogelijke combinaCes i en j 1. Alle kansen neerschrijven
2. Marginale verdeling berekenen 3. Marginale verdeling vermenigvuldigen 4. Deze aan elkaar stellen
ConCnu:
2 conCnue variabelen X en Y zijn ona{ankelijk indien:
Voor alle mogelijke waarden x en y P(X = xienY = yj) = P(X = xi)P(Y = yj)
P(X ≤ xenY ≤ y) = P(X ≤ x)P(Y ≤ y)
POPULATIE COVARIANTIE COV(X, Y )
EIGENSCHAP POPULATIE VARIANTIE V(a) = 0
Bv. Iedereen zelfde inkomen: geen spreiding en varianCe = 0
Weten
BIJZONDERE VERDELINGEN
Formularium
Weten
POPULATIE GEMIDDELDE OF VERWACHTINGSWAARDE VAN EEN BINOMIALE VARIABELE
Formularium
POPULATIE VARIANTIE VAN EEN BINOMIALE VARIABELE
Formularium Waarbij
- N = max. aantal successen - k = aantal gewenste successen - p = de kans op een succes - ! = faculteit (via GRM uitrekenen)
Bv. 4! = 4·3·2·1 Enkel wanneer:
- N = vast
- p blijy ongewijzigd Op grafiek
- Bij kleine kans op succes: scheef naar rechts
Logisch want meeste hebben lage score en enkel de uitzonderingen een hoge - Bij hely kans op succes: symmetrisch - Bij grote kans op succes: scheef naar links
Logisch want meeste hebben hoge score en enkel de uitzonderingen een lage P(X = k) = N !
k!(N − k)!pk(1 − p)N−k BINOMIALE KANSVERDELING
X ~ Binom(N, p)
V(X ) = N · p (1 − p) E(X ) = N · p
Formularium
Weten
Weten
INTEGRAAL VAN DE KANS VAN EEN NORMALE VERDELING
Begrijpen, niet reduceren DICHTHEIDSFUNCTIE NORMALE
VERDELING X ~ N(μ, σ2)
Waarbij - = 3,14…
- = 2,71
- = populaCe gemiddelde = E(X) - = populaCe varianCe = V(X) - = populaCe standaarddeviaCe Op grafiek:
- Hoogste punt (top) = gemiddelde - Grote varianCe = laag + breed - Kleine varianCe = hoog + smal - Symmetrisch
- Enkel posiCeve waarden
-
f x(x) = 1
σ 2π · e −(x − μ)22σ2
π e μ σ2 σ
P(x1≤ X ≤ x2) = ∫x1x2 1
σ 2πe −(x − μ)22σ2 d x
Weten
STANDAARDISEREN VAN X BIJ EEN NORMALE VERDELING
Formularium Weten = 0
= 1 2 belangrijke eigenschappen
1. Symmetrisch rond 0 Bijgevolg:
2. Totale opp. = 1
Bijgevolg:
)
Sidenote:
- Bij - teken veranderen haakjes van kant
- < = ≤ en > = ≥ (want conCnue variabelen)
μ σ2
P(X > x) = P(X < − x)
P(X ≤ − x) = 1 − P(X ≤ x) P(X ≥ − x) = 1 − P(X ≥ x
P(X < x) = 1 − P(X > x) P(X > x) = 1 − P(X < x)
Omdat ≠ alCjd 0 en ≠ alCjd 1 → standaardiseren:
1.
2. → dit vervangen in bovenstaande formule
3.
Hierdoor: nieuwe variabele die de standaardnormale verdeling wél volgt →
μ σ2
P(X ≤ x) = P(X − μ
σ ≤ x − μσ ) Z = X − μσ
P(X ≤ x) = P(Z ≤ x − μ σ ) Z
Z ~ N(0,1) PRINCIPES STANDAARDNORMALE
VERDELING X ~ N(0,1)
Formularium Weten
POPULATIE GEMIDDELDE BIJ EEN CHI- KWARDRAAT VERDELING
Formularium
POPULATIE VARIANTIE BIJ EEN CHI- KWARDRAAT VERDELING
Formularium
Formularium
InterpretaCe ervan niet kennen Weten
POPULATIEGEMIDDELDE BIJ EEN T- VERDELING
Formularium
VARIANTIE BIJ EEN T-VERDELING Formularium
VANAF HIER: STEEKPROEVENVERDELING Steekproefgemiddelde
V(T ) = kk − 2, voor k > 2 VARIABELE VAN DE STUDENT-T
VERDELING T ~ tk
E(T ) = 0 k = aantal vrijheidsgraden Op grafiek:
- Indien k → ∞(= ): valt exact samen met standaardnormale
- Hoogste punt (top) = populaCe gemiddelde = 0
- Symmetrisch
T = X1
kY
t∞ V(Y ) = 2k VARIABELE VAN DE CHI-KWADRAAT
VERDELING Y ~ χk2
E(Y ) = k Waarbij
- k = aantal vrijheidsgraden (en ook populaCe gemiddelde)
- Op grafiek:
- Hoogste punt (top) = k en dus ook populaCe gemiddelde
- Scheve verdeling: asymmetrisch - Enkel posiCeve waarden - Totale opp./kans = 1
Y = x12+ x22 + … + xk2
χk ~ N(0,1)
Kennen
Formularium
Formularium
VERDELING VAN HET STEEKPROEFGEMIDDELDE
= STEEKPROEFVERDELING VAN HET GEMIDDELDE
Formularium
STANDAARDISEREN VAN HET STEEKPROEFGEMIDDELDE
Kennen
SteekproefvarianVe
Kennen VARIANTIE VAN HET
STEEKPROEFGEMIDDELDE V( ¯X )
Bij ona{ankelijke, lukrake trekkingen uit populaCe dat normaal verdeeld is:
¯X ~ N(μx,σx2 n ) VERWACHTINGSWAARDE VAN HET
STEEKPROEFGEMIDDELDE E( ¯X )
V(¯X) = σx2
n STEEKPROEFGEMIDDELDE
= GEMIDDELDE VAN VERSCHILLENDE STEEKPROEVEN
¯X
STEEKPROEFVARIANTIE SNx 2 of Sx2
E(¯X) = μx
!!
= steekproefgemiddelde voor een bepaalde steekproef, voor een steekproef ih algemeen
= steekproefgemiddelde o.b.v. 1 specifieke steekproef
¯X = 1n
n
∑i=1
Xi
¯X
¯x
SNx2= 1n
n
∑i=1(Xi− ¯X)2 Sx2= 1n − 1
n
∑i=1(Xi− ¯X)2 of
Voorwaarde:
- X komt uit normale verdeling Hierbij: n maakt niet uit OF
- n ≥ 30
Z ≤ x − μ σ2x∕ n Z ≤ x − μ
σx/ n
VERWACHTINGSWAARDE VOOR STEEKPROEFVARIANTIE
Formularium
VERDELING VAN DE STEEKPROEFVARIANTIE
Formularium
SCHATTERS
Weten
STANDAARDDEVIATIE VAN DE SCHATTER = STANDAARDFOUT
Weten EEN GOEDE SCHATTER VOOR EEN
POPULATIEPARAMETER
^θ θ
Bij ona{ankelijke, lukrake trekkingen uit populaCe dat normaal verdeeld is:
(n − 1)Sx2 σ2x ~ χn−12
Of want
Scha•er met kleinste standaardfout = het efficiënst
V(^θ) σ
n V(¯X) = σx2 n
!! daarom: in prakCjk meer dan E(SNx2) = n − 1
n σx2 E(Sx2) = σx2
Sx2 SN2x
is een goede scha•er voor indien:
1. De scha•er zuiver is: verwachCngswaarde scha•er = populaCeparameter
2. De varianCe vd scha•er kleiner wordt naarmate de steekproefgroo•e n
↗
= naarmate n ↗ wordt de scha•er nauwkeuriger
^θ θ
E(^θ) = θ
V(^θ)
STEEKPROEFGEMIDDELDE: EEN GOEDE SCHATTER VOOR
POPULATIEGEMIDDELDE?
Weten
STEEKPROEFVARIANTIE: EEN GOEDE SCHATTER VOOR POPULATIEVARIANTIE?
Weten
2 MOGELIJKHEDEN OM O.B.V. SCHATTING UITSPRAAK TE DOEN OVER POPULATIEPARAMETER 2 formules voor steekproefvarianCe → bekijken beide
Formule 1:
Deze is geen goede scha•er, want
1.
Dus (populaCevarianCe) zal steeds te klein worden geschat (door (n-1)/n 2. Naarmate n ↗ zal het wel
nauwkeuriger worden
⇒ slechts 1 vd 2 voorwaarden is voldaan
⇒ geen goede scha•er
Formule 2:
1.
VerwachCng vd steekproefvarianCe = populaCevarianCe → goed!!
2. Naarmate n ↗ zal het wel nauwkeuriger worden
⇒ beide voorwaarden zijn voldaan
⇒ deze formule = voorkeur sn2x= 1n
n
∑i=1(xi− ¯x)2
E(SNx2) = n − 1 n σx2 σx2
sx2= 1n − 1
n
∑i=1(xi− ¯x)2 E(Sx2) = σx2
Steekproefgemiddelde = goede scha•er want 1.
Dus gem. van alle steekproefgem.
populaCe gem.
2. VarianCe steekproefgemiddelde =
Dus naarmate n ↗ → nauwkeuriger
⇒ Ja!! goede scha•er
E(¯X) = μx
≈
V(¯X) = σx2 n
Via betrouwbaarheidsinterval (enkel tweezijdig kunnen) BETROUWBAARHEIDSINTERVAL
WANNEER VARIANTIE GEKEND
Kennen
BETROUWBAARHEIDSINTERVAL WANNEER VARIANTIE ONGEKEND IS
Formularium
Via staVsVsch toetsen (eenzijdig en tweezijdig kunnen)
(Hierbij gaan we er alVjd vanuit dat x normaal verdeeld is of n ≥ 30 is)
NULHYPOTHESE Formularium
ALTERNATIEVE HYPOTHESE Tweezijdig: Formularium
Linkszijdig:
Rechtszijdig:
Ha: μ ≠ μ0
Ha: μ < μ0
Ha: μ > μ0
= waarde vd standaardnormale verdeling zodat de opp. vd curve rechts vd waarde =
[¯X − zα2σ / n, ¯X + zα2σ / n]
Zα
α
Bij tweezijdig, linkszijdig en rechtszijdig
= gegeven waarde
H0: μ = μ0 μ0
= waarde vd t-verdeling zodat de opp.
vd curve rechts vd waarde =
[¯X − tn−1;α/2Sx/ n, ¯X + tn−1;α/2Sx/ n]
Tn−1;α/2
α
TOETSINGSGROOTHEID Formularium
Weten Wanneer nulhypothese waar is ( :
- G volgt tn-1-verdeling
- Waarden van G liggen rond 0 - Waarden van G zijn + en - Wanneer nulhypothese niet waar is en
:
- Grotere waarden ↔
- G heey enkel posiCeve waarden Wanneer nulhypothese niet waar is en
:
- Kleinere waarden ↔
- G heey enkel negaCeve waarden
g = waarde van G die we bekomen o.b.v. één steekproef
Maar: wanneer wat doen met g-waarde?
- Als g rond 0 ligt → H0 niet verwerpen - Als g sterk van 0 verschilt → H0 wel
verwerpen
Wat is “rond” en wat is “sterk verschilt”? → verschillende beslissingsregels
G = ¯X − μ0 SX∕ n
μ = μ0)
μ > μ0
μ = μ0
μ < μ0
μ = μ0
1.
BESLISSINGSREGELS O.B.V.
AANVAARDINGSGEBIED/KRITIEKE WAARDEN
Komen overeen met interval vd tweezijdige toets
Formularium
Weten Formularium
Weten Formularium
TYPE I FOUT H0 = correct maar we verwerpen ze → type I fout
Weten
KANS OP EEN TYPE I FOUT Weten
Tweezijdig:
Indien g tussen het volgende interval ligt:
H0 niet verwerpen
Ligt het er niet in → H0 wél verwerpen M.a.w.:
tn−1;α/2 → H0 niet verwerpen
tn−1;α/2 → H0 verwerpen, Ha aanvaarden Linkszijdig:
→ H0 niet verwerpen
→ H0 verwerpen, Ha aanvaarden Rechtszijdig:
→ H0 niet verwerpen
→ H0 verwerpen, Ha aanvaarden
= significanCe niveau
−tn−1;α/2≤ g ≤ tn−1;α/2
g ≤ g >
g > −tn−1;α
g < −tn−1;α
g ≤ tn−1;α
g > tn−1;α
α
P(verwerp H0 | | =
= het significanCeniveau en is alCjd gegeven μ = μ0 α
α
Weten
TYPE II FOUT H0 ≠ correct maar we verwerpen ze niet → type II fout
Weten
KANS OP EEN TYPE II FOUT Weten
Weten
2.
BESLISSINGSREGELS O.B.V.
BETROUWBAARHEIDSINTERVAL
Formularium P(verwerp H0 niet | |=
= bèta
μ ≠ μ0 β β
KANS OP CORRECT BESLUIT INDIEN
= ONDERSCHEIDINGSKANS OF POWER μ ≠ μ0
Indien tussen het volgende interval ligt:
H0 niet verwerpen
Ligt het er niet in → H0 wél verwerpen μ0
[¯X − tn−1;α/2Sx/ n, ¯X + tn−1;α/2Sx/ n]
P(verwerp H0 niet| |= 1 - OF
Kijken naar …% betrouwbaarheidsinterval Bv. Bij 95% betrouwbaarheidsinterval:
1. = 0,05 1-0,05 = 0,95
Dit: kans op correct besluit OF
2. 95% betrouwbaarheidsinterval dus 95%
kans op correct besluit μ = μ0 α
α
P(verwerp H0| |= 1 - Invloeden
- SignificanCeniveau Wanneer ↗ → ↘ - Steekproefgroo•e
Wanneer n ↗ → ↘
En dus kans op correct besluit (1 - ) ↗
μ ≠ μ0 β
α β
β
β KANS OP CORRECT BESLUIT INDIEN
μ = μ0
3.
BESLISSINGSREGELS O.B.V. P-WAARDE OF OVERSCHRIJDINGSKANS
Formularium p-waarde
- Wordt berekend in veronderstelling dat H0 waar is
- Hangt af vd Ha Basisregel:
p ≥ → H0 niet verwerpen p < → H0 verwerpen
Linkszijdig: P(G < g| )
1. berekenen
2. Deze g: in R output “pt()“ steken 3. Bekomen waarde vergelijken met +
basisregel toepassen Rechtszijdig:P(G > g| )
1. berekenen
2. 1 - pt(g,(n-1)) doen
3. Bekomen waarde vergelijken met α + basisregel toepassen
Tweezijdig:
1. g waarde berekenen 2. g waarde vergelijken met 0
- Als g > 0:
p = 2 · P(T > g) - Als g ≤ 0:
p = 2 · P (T < g) Deze kansen → aflezen in R α
α
μ = μ0 P(T < g)
α
μ = μ0
P(T > g)
VERDUIDELIJKING POPULATIEPARAMETERS
Formularium (behalve correlaCe) Moeten we niet kunnen uitrekenen STAPPENPLAN BETROUWBAARHEIDSINTERVAL
Wanneer? PopulaCe gem. is ongekend maar we willen er toch uitspraak over doen Bij discrete variabelen Bij conVnue variabelen
PopulaVe covarianVe
PopulaVe
correlaVecoëfficiënt
COV (X, Y ) = ∫− ∞+ ∞∫ + ∞
− ∞ f x, y (x, y)(x −E(X ))(y − E(Y ))d x d y
E (X ) = ∑i=1p P(X = xi)xi
V (X ) = ∫− ∞+ ∞f x (x)(x − E (X ))2d x → andere definiCe nodig:
P(X = xi) = 0
E (X ) = ∫− ∞+ ∞ f x (x)d x
ρXY= COV(X, Y )σXσY PopulaVe varianVe
V(X ), σx 2of σ2
COV(X, Y ) =i=1∑p q
∑j=1P (X = xi e n Y = yj)(yj− E (Y ))
PopulaVe gemiddelde / verwachVngswaarde E(X ), μx of μ
V (X ) = i=1∑p P(X = xi)(xi− E (x))2
Vraag 1: X normaal verdeeld?
JA NEE
Vraag 2: PopulaCevarianCe gekend?
JA NEE NEE
STAPPENPLAN STATISTISCH TOETSEN
1. H0 en Ha opstellen (uit gekregen opgave) 2. SignificanCeniveau vaststellen
3. Gem. en standaarddevidaCe vd specifieke steekproef berekenen (of uit opgave halen) 4. Toetsingsgrootheid g berekenen
5. Beslissingsregels toepassen - M.b.v. kriCeke waarde
!! bij kriCsche waarde: 1-P(T < t-waarde) doen
Dit = P(T > t-waarde) wat alCjd zo is (want t-waarde = waarde rechts vd grafiek) - M.b.v. betrouwbaarheidsinterval
- M.b.v. p-waarde
!! andere beslissingsregels voor eenzijdig, linkszijdig en rechtszijdig
6. Conclusie formuleren: H0 verwerpen of niet?
Indien grote steekproef:
centrale limietstelling Indien kleine steekproef: GEEN LEERSTOF VAN STATISTIEK I Nu: t-verdeling ipv normale verdeling
Deze: lijken op elkaar Toch verschillen:
- Tn-1-verdeling heey een grotere varianCe
- Tn-1; /2-waarde is groter dan -waarde
Maar ook hierbij: naarmate n ↗ → steeds betere benadering
standaardnormale verdeling
[¯X − tn−1;α/2Sx/ n, ¯ X + tn−1;α/2Sx/ n]
α zα2
Ligt het tss dit interval → interval bevat pop.gem.
Bv. Bij 95% betrouwbaarheidsinterval → in 95% vd gevallen ligt pop. gem. erin Invloeden
1. Steekproefgroo•e
Naarmate n ↗ → interval smaller 2. Als ↗ → interval smaller
Want 1 - zal ↘ en hiertss = interval Indien je de kans wil ↗ dat pop.gem. erin ligt
→ interval moet breed zijn maar indien breed: niet zo informaCef meer
⇒ compromis tss beide vinden (vaak 95%) [¯X − zα2σ / n, ¯X + zα2σ / n]
α α
G = ¯X − μ0 SX∕ n
- Niet verwerpen = H0 aanvaarden - Verwerpen = Ha aanvaarden
Oplehen !!
Voor zowel de - waarde, de Tn-1; /2-waarde als de kriCsche waarde: gaat het om de waarde rechts vd grafiek Maar: R-output geey standaard wat links onder grafiek ligt
Oplossing?
1. Eigenschap normale/t-verdeling gebruiken 1 - … doen
OF
2. Bij R-output extra info geven: “lower.tail”
Voorbeeld = 0,025 ⇒ Dus 1 - 0,025 = 0,975 Dit in R-output: qnorm(0,975) Uitkomst van deze = juiste z-waarde
Zα α
α P (Z > Z0,025) = 0,025