• No results found

Aantal rijen (= aantal personen id steekproef) en kolommen (= aantal variabelen) vd tabel Head 1 e 6 rijen + bijhorende kolommen

N/A
N/A
Protected

Academic year: 2022

Share "Aantal rijen (= aantal personen id steekproef) en kolommen (= aantal variabelen) vd tabel Head 1 e 6 rijen + bijhorende kolommen"

Copied!
26
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

STATISTIEK I

R-CODES

R-code Betekenis

Dim () Aantal rijen (= aantal personen id steekproef) en kolommen (= aantal variabelen) vd tabel

Head 1e 6 rijen + bijhorende kolommen Names () Namen variabelen

$ Waarde ve variabele uit de date (alCjd gevolgd door de naam vd data) Table () Absolute/relaCeve frequenCe

Read.table () Data lezen Pie () Cirkeldiagram Barplot () Staafdiagram

Cut () Klassen

Breaks Grenzen tss de klassen Hist () Histogram

Cumsum () CumulaCeve absolute frequenCe Ecdf ()

Plot ()

CumulaCeve frequenCecurve

Mean () Gemiddelde Median () Mediaan

Min () Minimum Max () Maximum

Aad () Gemiddelde absolute afwijking Var () VarianCe

Sd ()

Sqrt () Vierkantswortel (vd varianCe om de standaarddeviaCe te vinden) QuanHle () PercenCelen/kwarCelen

IQR () InterkwarCelafstand Boxplot () Boxplot

Cov () CovarianCe

Cor () CorrelaCecoëfficiënt Cor () + opHe

“Kendall”

Kendall’s tau StandaarddeviaCe

Bv. Sd = sqrt(4): standaarddeviaCe = 4 = 2

(2)

Belangrijke commando’s 1. q

= quanCle: waarde - We weten de kans

- We willen de waarde weten waarvoor …% ligt eronder/boven 2. p

= probability: kans - We weten de waarde

- We willen de kans weten die onder/boven een bep waarde ligt FORMULES EN BIJHORENDE SYMBOLEN

!! steeds finaleresultaat (≠ tussenbewerkingen) afronden op 2 decimalen (<5 naar ↘, ≤ 5 naar ↗) Dbinom (k,N,p) Kansdichtheid P(X = k)

Pbinom (k,N,p) CumulaCeve verdelingsfuncCe (P ≤ k)

Kansdichtheid fx(x) Pchisq (y,k)

Qchisq(fy (y),k) = y Pt (t,k)

t.test () t-toets (g-toets maar in R → t) mu H0

t Toetsingsgrootheid g

Df() = degrees of freedom: aantal vrijheidsgraden

= k

= n -1 p-value = p-waarde

= onderscheidingskans t.test (alternaHve =

“less”)

Linkszijdige toets

t.test (alternaHve =

“greater”)

Rechtszijdige toets

Kansen P(T ≤ t) voor varibale T ~ tk Kans P(X ≤ x) voor variabele

!! in R dus niet maar (door vierkantswortel te nemen)

!! bij standaardnormale mogen worden weggelaten X ~  N(μ, σ2)

σ2  σ

μ, σ Dnorm (x,μ, σ)

Pnorm (x, ) Pnorm(bekomen Z) μ, σ

Kansen P(Y ≤ y) voor variabele Y ~ xk2

(3)

NAAM FORMULE HOE?

RELATIEVE FREQUENTIE Kennen

HARMONISCH GEMIDDELDE Zullen we niet

echt hanteren

MEETKUNDIG OF GEOMETRISCH GEMIDDELDE

Zullen we niet echt hanteren Begrijpen, niet

reproduceren

GEMIDDELDE O.B.V. EEN FREQUENTIEVERDELING

Kennen

KLASSENMIDDEN Begrijpend

lezen Absolute f requentie

Aantal steek proefelementen

!! klassenmiddens ]a,b] = [a,b[ = ]a,b[ = [a,b]

a + b 2 (REKENKUNDIG)

STEEKPROEFGEMIDDELDE

= GEMIDDELDE O.B.V. WAARDEN VE VARIABELE

¯x

Waarbij

- = unieke waarde vd variabele X in steekproef

Bv. = vrouw en = man - = absolute frequenCe van deze

waarde

- p = aantal unieke waarden vd variabele X id steekproef

!! uitkomst hiervan = uitkomst gem. o.b.v.

waarden (logisch)

¯x = 1n

p

i=1

fixiu

xiu

x1u x2u fi

(x1+ x2+ … + xn) n

¯x = 1n

n

i=1

xi

nx1· x2· … · xn

= waarde vh ie element n

ni=1xi1 x

(4)

GEMIDDELDE VAN GEGROEPEERDE DATA Begrijpend lezen

Bij oneven waarden: middelste waarde in geordende rij

Bij even waarden: middelste 2 waarden gedeeld door 2

Kennen

Waarde/klasse met de hoogste frequenCe

!! er kunnen meerdere waarden/klassen zijn = modi

- 1 modus = unimodaal - 2 modi = bimodaal

Kennen

Grootste – kleinste waarde OF

Bovengrens laatste klasse – ondergrens eerste klasse (= 2 uitersten)

!! kan nooit negaCef zijn: max (alCjd) > min

Kennen

Kennen

Formularium STEEKPROEFVARIANTIE snxof s2x

Waarbij = absolute frequenCe · klassenmidden

!! uitkomst hiervan = ± uitkomst gem. o.b.v.

waarden of frequenCeverdeling

¯x = 1n

p

i=1

fi(a+  bi  2 ) fi(a+  bi 

2 )

GEMIDDELDE ABSOLUTE AFWIJKING gax

sn2x= 1 n

n

i=1(xi− ¯x)2 sx2= 1n − 1

n

i=1(xi− ¯x) VARIATIEBREEDTE vx

!! absolute waarde: anders alCjd 0 (+ en - heffen elkaar op bij gem.)

x1−   ¯x  +   x2−   ¯x  + … + xn−   ¯x  n

gax =   1n

n

i=1

xi− ¯x MODUS mo

MEDIAAN m dx

(5)

STEEKPROEFVARIANTIE O.B.V.

FREQUENTIEVERDELING

Formularium

Weten

Kennen Waarbij

- = unieke waarde vd variabele X in steekproef

Bv. = vrouw en = man

- = absolute frequenCe van deze waarde sn2x= 1n

p

i=1fi(xiu− ¯x)2 sx2= 1n − 1

n

i=1fi(xi− ¯x)2

xiu

x1u x2u fi

STEEKPROEFSTANDAARDDEVIATIE snx Vierkantswortel vd varianCe snx = sn2x

sx =   sx2

(6)

Kennen

Verschil 3e en 1e kwarCel P75 – P25

Weten

INTERKWARTIELINTERVAL [P75, P25]

!! bevat 50% van alle waarden

Weten PERCENTIEL Pk

Waarbij

- Pk = het k-de percenCel

- = cumulaCeve relaCeve frequenCe Bv. Voor het 10e percenCel:

1) k = 10

2) CumulaCeve relaCeve frequenCe = k/

100 = 10%

3) 10% vd waarden zijn hetzelfde of kleiner

Bijzondere percenCelen:

KwarCel Sym-bool % vd waarden die gelijk zijn of eronder liggen

1e kwarCel P25 25%

2e kwarCel P50 50%

3e kwarCel P75 75%

4e kwarCel P100 100%

!!

F(Pk)

n =   k100

F(Pk) n

m dx= P50

INTERKWARTIELAFSTAND Q

(7)

SPREIDINGSMAAT D Formularium

OUTLIERS Weten

Formularium covXY = 1

n − 1

n

i=1

(xi− ¯x)(yi− ¯y) P25− 1,5 · Q P75+ 1,5 · Q

COVARIANTIE covxy

Waarbij

- p = aantal unieke waarden - = aantal keer dat de m - n = aantal steekproefelementen

!! van 0 (geen spreiding) t.e.m. 1 (maximale spreiding)

d =  1 −  fmon 1 −1p

fmo

(8)

Weten

CONCORDANT PAAR Kennen

DISCORDANT PAAR Kennen

Formularium

REGRESSIELIJN Formularium

1. CovarianCe berekenen

2. StandaarddeviaCe berekenen voor x

=

3. StandaarddeviaCe berekenen voor y

=

4.

!! correlaCecoëffieciënt heey alCjd zelfde teken als covarianCe

rXY = covsXsXYY

covXY = 1n − 1

n

i=1(xi− ¯x)(yi− ¯y)

sx2 1 n − 1

n

i=1(xi− ¯x)

sy2 1 n − 1

n

i=1(yi− ¯y)

covariantie

standaarddeviatie x  ·  standaarddeviatie y

KENDALL’S TAU τ

Waarbij

- b1 = regressiecoëfficiënt: helling vd rechte - b0 = intercept: snijpunt met y-as

Y = b0+ b1X

τ = 2(#concordante paren − #discordante paren) n(n − 1)

= negaCeve hellingsgraad y−  yi

x−  xi < 0 CORRELATIECOËFFICIËNT rxy

= posiCeve hellingsgraad y−  yi

x−  xi > 0

(9)

REGRESSIECOËFFICIËNT BIJ PERFECT LINEAIR VERBAND

Kennen

INTERCEPT BIJ PERFECT LINEAIR VERBAND Kennen

REGRESSIECOËFFICIËNT BIJ NIET PERFECT LINEAIR VERBAND

Formularium

INTERCEPT BIJ NIET PERFECT LINEAIR VERBAND

Formularium

VANAF HIER: OP POPULATIE NIVEAU LIMIET VAN DE RELATIEVE FREQUENTIE (WANNEER STEEKPROEF = ∞)

Begrijpen, niet

reproduceren Begrijpen, niet

reproduceren

KANS BIJ CONTINUE VARIABELEN Begrijpen,

niet

reproduceren

DICHTHEIDSFUNCTIE OF KANSDICHTHEID Begrijpen,

niet

reproduceren

INTEGRATIE DICHTHEIDSFUNCTIE Begrijpen,

niet

reproduceren Begrijpen, niet

reproduceren

KANS BIJ CONTINUE VARIABELEN O.B.V.

EIGENSCHAP

Kennen

VOLLEDIGE OPPERVLAKTE ONDER DICHTHEIDSFUNCTIE

Begrijpen, niet

reproduceren

!! daarom beroep doen op dichtheidsfuncCe P(X = x) = 0

b0= yi− b1xi

P(x1≤ X  ≤ x2) =  ∫x1x2 f x(x)d x

P(X ≤  x) =  ∫− ∞x f x(x)d x P(X >  x) =  ∫x+ ∞ f x(x)d x Univariate:

Bivariate:

FX(x) = P(X ≤ x)

FX,y(x, y) = P(X ≤ x en Y ≤ y)  b0= ¯y − b1¯x

b1= yj− yi xj− xi

+ ∞

− ∞ f x(x)d x = 1  f x(x) =   lim

b→0

Fx(x + b) −  F(x) b

P(X = xi) = limn→∞ fi

n

!! b1 zal alCjd zelfde teken hebben als rxy b1= rXY sY

sX

CUMULATIEVE VERDELINGSFUNCTIE BIJ DISCRETE EN CONTINUE VARIABELEN

FX(x)

P(x1≤ X ≤ x) = P(X ≤ x2) − P(X ≤ x1) = Fx(x2) − Fx(x1

(10)

Formularium Begrijpen, niet

reproduceren

Formularium Begrijpen, niet

reproduceren

Weten

UNIVARIATE KANSVERDELING BIJ DISCRETE VARIABELEN

POPULATIE VARIANTIE V(X ),  σ2of σ2

σx = V(X ) POPULATIE GEMIDDELDE OF

VERWACHTINGSWAARDE E(X ),  μx of μ

Discreet:

ConCnu :

V(X ) =p

i=1P(X = xi)(xi− E(x))2 V(X ) = ∫− ∞+ ∞ f x(x)(x − E(X ))2d x  Discreet:

ConCnu:

E(X ) =p

i=1P(X = xi)xi

E(X ) = ∫− ∞+ ∞ f x(x)d x 

POPULATIESTANDAARDDEVIATIE σx of σ

Waarbij

- p = aantal mogelijke waarden dat X kan aannemen

- q = aantal mogelijke waarden dat Y kan aannemen

P(X = xi) =

q

j=1P(X = x1 en Y =  yj)

P(Y = yi) =

p

i=1

P(X = x1 en Y =  yj)

(11)

STATISTISCHE ONAFHANKELIJKHEID Kennen

Niet kunnen

Formularium

Begrijpen, niet reduceren

Kennen

EIGENSCHAP POPULATIE GEMIDDELDE OF VERWACHTINGSWAARDE

E(a) = a

Indien a = constante

Bv. Iedereen 2000 euro inkomen → gem. = 2000

Weten Discreet:

ConCnu:

Waarbij

- = standaarddeviaCe van x - = standaarddeviaCe van y

y

ρXY = COV(X, Y )σXσY

 ρXY = COV(X, Y )σXσY

σX

σY Discreet:

ConCnu:

COV(X, Y ) =p

i=1 q

j=1P(X = xi en Y = yj)(yj− E(Y )

COV(X, Y ) =  ∫− ∞+ ∞

+ ∞

− ∞ f x, y(x, y)(x−E(X ))(y −  E(Y ))d xd y

POPULATIE CORRELATIECOËFFICIËNT ρXY

Discreet:

2 discrete variabelen X en Y zijn ona{ankelijk indien:

geldt voor alle mogelijke combinaCes i en j 1. Alle kansen neerschrijven

2. Marginale verdeling berekenen 3. Marginale verdeling vermenigvuldigen 4. Deze aan elkaar stellen

ConCnu:

2 conCnue variabelen X en Y zijn ona{ankelijk indien:

Voor alle mogelijke waarden x en y P(X = xienY = yj) = P(X = xi)P(Y = yj)

P(X ≤ xenY ≤ y) = P(X ≤ x)P(Y ≤ y)

POPULATIE COVARIANTIE COV(X, Y )

(12)

EIGENSCHAP POPULATIE VARIANTIE V(a) = 0

Bv. Iedereen zelfde inkomen: geen spreiding en varianCe = 0

Weten

BIJZONDERE VERDELINGEN

Formularium

Weten

POPULATIE GEMIDDELDE OF VERWACHTINGSWAARDE VAN EEN BINOMIALE VARIABELE

Formularium

POPULATIE VARIANTIE VAN EEN BINOMIALE VARIABELE

Formularium Waarbij

- N = max. aantal successen - k = aantal gewenste successen - p = de kans op een succes - ! = faculteit (via GRM uitrekenen)

Bv. 4! = 4·3·2·1 Enkel wanneer:

- N = vast

- p blijy ongewijzigd Op grafiek

- Bij kleine kans op succes: scheef naar rechts

Logisch want meeste hebben lage score en enkel de uitzonderingen een hoge - Bij hely kans op succes: symmetrisch - Bij grote kans op succes: scheef naar links

Logisch want meeste hebben hoge score en enkel de uitzonderingen een lage P(X = k) = N !

k!(N − k)!pk(1 − p)N−k BINOMIALE KANSVERDELING

X ~ Binom(N, p)

V(X ) = N · p (1 − p) E(X ) = N · p

(13)

Formularium

Weten

Weten

INTEGRAAL VAN DE KANS VAN EEN NORMALE VERDELING

Begrijpen, niet reduceren DICHTHEIDSFUNCTIE NORMALE

VERDELING X ~  N(μ, σ2)

Waarbij - = 3,14…

- = 2,71

- = populaCe gemiddelde = E(X) - = populaCe varianCe = V(X) - = populaCe standaarddeviaCe Op grafiek:

- Hoogste punt (top) = gemiddelde - Grote varianCe = laag + breed - Kleine varianCe = hoog + smal - Symmetrisch

- Enkel posiCeve waarden

-

f x(x) =   1

σ  2π · e −(x − μ)22σ2  

π e μ σ2 σ

P(x1≤ X ≤ x2) = ∫x1x2 1

σ  2πe −(x − μ)22σ2 d x

(14)

Weten

STANDAARDISEREN VAN X BIJ EEN NORMALE VERDELING

Formularium Weten = 0

= 1 2 belangrijke eigenschappen

1. Symmetrisch rond 0 Bijgevolg:

2. Totale opp. = 1

Bijgevolg:

)

Sidenote:

- Bij - teken veranderen haakjes van kant

- < = ≤ en > = ≥ (want conCnue variabelen)

μ σ2

P(X > x) = P(X <   − x)

P(X ≤   − x) = 1 − P(X ≤ x) P(X ≥ − x) = 1 − P(X ≥ x

P(X < x) = 1 − P(X > x) P(X > x) = 1 − P(X < x)

Omdat ≠ alCjd 0 en ≠ alCjd 1 → standaardiseren:

1.

2. → dit vervangen in bovenstaande formule

3.

Hierdoor: nieuwe variabele die de standaardnormale verdeling wél volgt →

μ σ2

P(X ≤ x) = P(X − μ

σ ≤ x − μσ ) Z = X − μσ

P(X ≤ x) = P(Z ≤ x − μ σ ) Z

Z ~  N(0,1) PRINCIPES STANDAARDNORMALE

VERDELING X ~  N(0,1)

(15)

Formularium Weten

POPULATIE GEMIDDELDE BIJ EEN CHI- KWARDRAAT VERDELING

Formularium

POPULATIE VARIANTIE BIJ EEN CHI- KWARDRAAT VERDELING

Formularium

Formularium

InterpretaCe ervan niet kennen Weten

POPULATIEGEMIDDELDE BIJ EEN T- VERDELING

Formularium

VARIANTIE BIJ EEN T-VERDELING Formularium

VANAF HIER: STEEKPROEVENVERDELING Steekproefgemiddelde

V(T ) = kk − 2,  voor k > 2 VARIABELE VAN DE STUDENT-T

VERDELING T ~  tk

E(T ) = 0 k = aantal vrijheidsgraden Op grafiek:

- Indien k → ∞(= ): valt exact samen met standaardnormale

- Hoogste punt (top) = populaCe gemiddelde = 0

- Symmetrisch

T =   X1

kY

t V(Y ) = 2k VARIABELE VAN DE CHI-KWADRAAT

VERDELING Y ~  χk2

E(Y ) = k Waarbij

- k = aantal vrijheidsgraden (en ook populaCe gemiddelde)

- Op grafiek:

- Hoogste punt (top) = k en dus ook populaCe gemiddelde

- Scheve verdeling: asymmetrisch - Enkel posiCeve waarden - Totale opp./kans = 1

Y = x12+ x2+ … + xk2

χk ~  N(0,1)

(16)

Kennen

Formularium

Formularium

VERDELING VAN HET STEEKPROEFGEMIDDELDE

= STEEKPROEFVERDELING VAN HET GEMIDDELDE

Formularium

STANDAARDISEREN VAN HET STEEKPROEFGEMIDDELDE

Kennen

SteekproefvarianVe

Kennen VARIANTIE VAN HET

STEEKPROEFGEMIDDELDE V( ¯X )

Bij ona{ankelijke, lukrake trekkingen uit populaCe dat normaal verdeeld is:

¯X ~ N(μx,σx2 n ) VERWACHTINGSWAARDE VAN HET

STEEKPROEFGEMIDDELDE E( ¯X )

V(¯X) = σx2

n STEEKPROEFGEMIDDELDE

= GEMIDDELDE VAN VERSCHILLENDE STEEKPROEVEN

¯X

STEEKPROEFVARIANTIE SN2 of  Sx2

E(¯X) = μx 

!!

= steekproefgemiddelde voor een bepaalde steekproef, voor een steekproef ih algemeen

= steekproefgemiddelde o.b.v. 1 specifieke steekproef

¯X = 1n

n

i=1

Xi

¯X

¯x

SNx2= 1n

n

i=1(Xi− ¯X)2 Sx2= 1n − 1

n

i=1(Xi− ¯X)2 of

Voorwaarde:

- X komt uit normale verdeling Hierbij: n maakt niet uit OF

- n ≥ 30

Z ≤ x − μ σ2x∕ n Z ≤ x − μ

σx/ n

(17)

VERWACHTINGSWAARDE VOOR STEEKPROEFVARIANTIE

Formularium

VERDELING VAN DE STEEKPROEFVARIANTIE

Formularium

SCHATTERS

Weten

STANDAARDDEVIATIE VAN DE SCHATTER = STANDAARDFOUT

Weten EEN GOEDE SCHATTER VOOR EEN

POPULATIEPARAMETER

^θ θ

Bij ona{ankelijke, lukrake trekkingen uit populaCe dat normaal verdeeld is:

(n − 1)Sx2 σ2x ~ χn−12

Of want

Scha•er met kleinste standaardfout = het efficiënst

V(^θ) σ

n V(¯X) = σx2 n

!! daarom: in prakCjk meer dan E(SNx2) = n − 1

n σx2 E(Sx2) = σx2

Sx2 SN2x

is een goede scha•er voor indien:

1. De scha•er zuiver is: verwachCngswaarde scha•er = populaCeparameter

2. De varianCe vd scha•er kleiner wordt naarmate de steekproefgroo•e n

= naarmate n ↗ wordt de scha•er nauwkeuriger

θ

E(^θ) = θ

V(^θ)

(18)

STEEKPROEFGEMIDDELDE: EEN GOEDE SCHATTER VOOR

POPULATIEGEMIDDELDE?

Weten

STEEKPROEFVARIANTIE: EEN GOEDE SCHATTER VOOR POPULATIEVARIANTIE?

Weten

2 MOGELIJKHEDEN OM O.B.V. SCHATTING UITSPRAAK TE DOEN OVER POPULATIEPARAMETER 2 formules voor steekproefvarianCe → bekijken beide

Formule 1:

Deze is geen goede scha•er, want

1.

Dus (populaCevarianCe) zal steeds te klein worden geschat (door (n-1)/n 2. Naarmate n ↗ zal het wel

nauwkeuriger worden

⇒ slechts 1 vd 2 voorwaarden is voldaan

⇒ geen goede scha•er

Formule 2:

1.

VerwachCng vd steekproefvarianCe = populaCevarianCe → goed!!

2. Naarmate n ↗ zal het wel nauwkeuriger worden

⇒ beide voorwaarden zijn voldaan

⇒ deze formule = voorkeur sn2x= 1n

n

i=1(xi− ¯x)2

E(SNx2) = n − 1 n σx2 σx2

sx2= 1n − 1

n

i=1(xi− ¯x) E(Sx2) = σx2

Steekproefgemiddelde = goede scha•er want 1.

Dus gem. van alle steekproefgem.

populaCe gem.

2. VarianCe steekproefgemiddelde =

Dus naarmate n ↗ → nauwkeuriger

⇒ Ja!! goede scha•er

E(¯X) = μx

V(¯X) = σx2 n

(19)

Via betrouwbaarheidsinterval (enkel tweezijdig kunnen) BETROUWBAARHEIDSINTERVAL

WANNEER VARIANTIE GEKEND

Kennen

BETROUWBAARHEIDSINTERVAL WANNEER VARIANTIE ONGEKEND IS

Formularium

Via staVsVsch toetsen (eenzijdig en tweezijdig kunnen)

(Hierbij gaan we er alVjd vanuit dat x normaal verdeeld is of n ≥ 30 is)

NULHYPOTHESE Formularium

ALTERNATIEVE HYPOTHESE Tweezijdig: Formularium

Linkszijdig:

Rechtszijdig:

Ha: μ ≠  μ0 

Ha: μ <  μ0 

Ha: μ >  μ0 

= waarde vd standaardnormale verdeling zodat de opp. vd curve rechts vd waarde =

[¯X − zα2σ / n, ¯X + zα2σ / n]

Zα

α

Bij tweezijdig, linkszijdig en rechtszijdig

= gegeven waarde

H0: μ =  μ0  μ0

= waarde vd t-verdeling zodat de opp.

vd curve rechts vd waarde =

[¯X − tn−1;α/2Sx/ n, ¯X + tn−1;α/2Sx/ n]

Tn−1;α/2

α

(20)

TOETSINGSGROOTHEID Formularium

Weten Wanneer nulhypothese waar is ( :

- G volgt tn-1-verdeling

- Waarden van G liggen rond 0 - Waarden van G zijn + en - Wanneer nulhypothese niet waar is en

:

- Grotere waarden ↔

- G heey enkel posiCeve waarden Wanneer nulhypothese niet waar is en

:

- Kleinere waarden ↔

- G heey enkel negaCeve waarden

g = waarde van G die we bekomen o.b.v. één steekproef

Maar: wanneer wat doen met g-waarde?

- Als g rond 0 ligt → H0 niet verwerpen - Als g sterk van 0 verschilt → H0 wel

verwerpen

Wat is “rond” en wat is “sterk verschilt”? → verschillende beslissingsregels

G = ¯X − μ0 SX∕ n

μ =  μ0)

μ >  μ0

μ =  μ0

μ <  μ0

 μ =  μ0

(21)

1.

BESLISSINGSREGELS O.B.V.

AANVAARDINGSGEBIED/KRITIEKE WAARDEN

Komen overeen met interval vd tweezijdige toets

Formularium

Weten Formularium

Weten Formularium

TYPE I FOUT H0 = correct maar we verwerpen ze → type I fout

Weten

KANS OP EEN TYPE I FOUT Weten

Tweezijdig:

Indien g tussen het volgende interval ligt:

H0 niet verwerpen

Ligt het er niet in → H0 wél verwerpen M.a.w.:

tn−1;α/2 → H0 niet verwerpen

tn−1;α/2 → H0 verwerpen, Ha aanvaarden Linkszijdig:

→ H0 niet verwerpen

→ H0 verwerpen, Ha aanvaarden Rechtszijdig:

→ H0 niet verwerpen

→ H0 verwerpen, Ha aanvaarden

= significanCe niveau

−tn−1;α/2≤ g ≤ tn−1;α/2

g ≤ g >

g > −tn−1;α

g < −tn−1;α

g ≤ tn−1;α

g > tn−1;α

α

P(verwerp H0 | | =

= het significanCeniveau en is alCjd gegeven μ =  μ0 α

α 

(22)

Weten

TYPE II FOUT H0 ≠ correct maar we verwerpen ze niet → type II fout

Weten

KANS OP EEN TYPE II FOUT Weten

Weten

2.

BESLISSINGSREGELS O.B.V.

BETROUWBAARHEIDSINTERVAL

Formularium P(verwerp H0 niet | |=

= bèta

μ ≠  μ0  β β

KANS OP CORRECT BESLUIT INDIEN

= ONDERSCHEIDINGSKANS OF POWER μ ≠ μ0

Indien tussen het volgende interval ligt:

H0 niet verwerpen

Ligt het er niet in → H0 wél verwerpen μ0

[¯X − tn−1;α/2Sx/ n, ¯X + tn−1;α/2Sx/ n]

P(verwerp H0 niet| |= 1 - OF

Kijken naar …% betrouwbaarheidsinterval Bv. Bij 95% betrouwbaarheidsinterval:

1. = 0,05 1-0,05 = 0,95

Dit: kans op correct besluit OF

2. 95% betrouwbaarheidsinterval dus 95%

kans op correct besluit μ =  μ0 α

α 

P(verwerp H0| |= 1 - Invloeden

- SignificanCeniveau Wanneer ↗ → ↘ - Steekproefgroo•e

Wanneer n ↗ → ↘

En dus kans op correct besluit (1 - ) ↗

μ ≠  μ0  β

α β 

β

β KANS OP CORRECT BESLUIT INDIEN

μ =  μ0

(23)

3.

BESLISSINGSREGELS O.B.V. P-WAARDE OF OVERSCHRIJDINGSKANS

Formularium p-waarde

- Wordt berekend in veronderstelling dat H0 waar is

- Hangt af vd Ha Basisregel:

p ≥ → H0 niet verwerpen p < → H0 verwerpen

Linkszijdig: P(G < g| )

1. berekenen

2. Deze g: in R output “pt()“ steken 3. Bekomen waarde vergelijken met +

basisregel toepassen Rechtszijdig:P(G > g| )

1. berekenen

2. 1 - pt(g,(n-1)) doen

3. Bekomen waarde vergelijken met α + basisregel toepassen

Tweezijdig:

1. g waarde berekenen 2. g waarde vergelijken met 0

- Als g > 0:

p = 2 · P(T > g) - Als g ≤ 0:

p = 2 · P (T < g) Deze kansen → aflezen in R α 

α

μ =  μ0 P(T < g)

α

μ =  μ0

P(T > g)

(24)

VERDUIDELIJKING POPULATIEPARAMETERS

Formularium (behalve correlaCe) Moeten we niet kunnen uitrekenen STAPPENPLAN BETROUWBAARHEIDSINTERVAL

Wanneer? PopulaCe gem. is ongekend maar we willen er toch uitspraak over doen Bij discrete variabelen Bij conVnue variabelen

PopulaVe covarianVe

PopulaVe

correlaVecoëfficiënt

COV (X, Y ) =  ∫− ∞+ ∞ + ∞

− ∞ f x, y (x, y)(x −E(X ))(y −  E(Y ))d x d y

E (X ) = i=1p P(X = xi)xi

V (X ) = ∫− ∞+ ∞f x (x)(x − E (X ))2d x  → andere definiCe nodig:

P(X = xi) = 0

E (X ) = ∫− ∞+ ∞ f x (x)d x 

ρXY= COV(X, Y )σXσY PopulaVe varianVe

V(X ),  σ2of σ2

COV(X, Y ) =i=1p q

j=1P (X = xi e n Y = yj)(yj− E (Y ))

PopulaVe gemiddelde / verwachVngswaarde E(X ),  μx of μ

V (X ) = i=1p P(X = xi)(xi− E (x))2

Vraag 1: X normaal verdeeld?

JA NEE

Vraag 2: PopulaCevarianCe gekend?

JA NEE NEE

(25)

STAPPENPLAN STATISTISCH TOETSEN

1. H0 en Ha opstellen (uit gekregen opgave) 2. SignificanCeniveau vaststellen

3. Gem. en standaarddevidaCe vd specifieke steekproef berekenen (of uit opgave halen) 4. Toetsingsgrootheid g berekenen

5. Beslissingsregels toepassen - M.b.v. kriCeke waarde

!! bij kriCsche waarde: 1-P(T < t-waarde) doen

Dit = P(T > t-waarde) wat alCjd zo is (want t-waarde = waarde rechts vd grafiek) - M.b.v. betrouwbaarheidsinterval

- M.b.v. p-waarde

!! andere beslissingsregels voor eenzijdig, linkszijdig en rechtszijdig

6. Conclusie formuleren: H0 verwerpen of niet?

Indien grote steekproef:

centrale limietstelling Indien kleine steekproef: GEEN LEERSTOF VAN STATISTIEK I Nu: t-verdeling ipv normale verdeling

Deze: lijken op elkaar Toch verschillen:

- Tn-1-verdeling heey een grotere varianCe

- Tn-1; /2-waarde is groter dan -waarde

Maar ook hierbij: naarmate n ↗ → steeds betere benadering

standaardnormale verdeling

[¯X − tn−1;α/2Sx/ n, ¯ X + tn−1;α/2Sx/ n]

α zα2

Ligt het tss dit interval → interval bevat pop.gem.

Bv. Bij 95% betrouwbaarheidsinterval → in 95% vd gevallen ligt pop. gem. erin Invloeden

1. Steekproefgroo•e

Naarmate n ↗ → interval smaller 2. Als ↗ → interval smaller

Want 1 - zal ↘ en hiertss = interval Indien je de kans wil ↗ dat pop.gem. erin ligt

→ interval moet breed zijn maar indien breed: niet zo informaCef meer

⇒ compromis tss beide vinden (vaak 95%) [¯X − zα2σ / n, ¯X + zα2σ / n]

α  α

G = ¯X − μ0 SX∕ n

(26)

- Niet verwerpen = H0 aanvaarden - Verwerpen = Ha aanvaarden

Oplehen !!

Voor zowel de - waarde, de Tn-1; /2-waarde als de kriCsche waarde: gaat het om de waarde rechts vd grafiek Maar: R-output geey standaard wat links onder grafiek ligt

Oplossing?

1. Eigenschap normale/t-verdeling gebruiken 1 - … doen

OF

2. Bij R-output extra info geven: “lower.tail”

Voorbeeld = 0,025 ⇒ Dus 1 - 0,025 = 0,975 Dit in R-output: qnorm(0,975) Uitkomst van deze = juiste z-waarde

Zα α

α P (Z > Z0,025) =  0,025

Referenties

GERELATEERDE DOCUMENTEN

Omdat Nederland 13 stemmen heeft moeten er dus minimaal 148 voorstemmers uit andere landen zijn.. Nederland kan dus de doorslag geven bij 148 t/m 160

Om hieruit zink te maken, laat men het zinksulfide eerst met zuurstof reageren.. Bij deze reactie worden zinkoxide (ZnO) en

Het kan deze elektronen opnemen aan de negatieve pool, waar een overschot aan elektronen

Het aantal personen dat per jaar Rustical kreeg voorgeschreven, wordt sinds 1991 bij benadering gegeven door A t ( ) 3900 1,3.. 4p 12 † Onderzoek in hoeveel tijd volgens dit

Gebruik van rekenmachine, boek of aantekeningen is niet toegestaan.. Vermeld op ieder blad dat je inlevert je naam en

Elke speler heeft nu de taak om uit de beschikbare kranten de gewenste kleding te scheuren en aan zijn kleding te bevestigen. De eigen ideeën en creaties

aantal in GEBWMOTAB maar niet in WMOBUS ∗ aantal in WMOBUS maar niet in GEBWMOTAB aantal dubbelingen in GEBWMOTAB en

Aantal leerlingen in het gewoon lager en het gewoon secundair onderwijs woonachtig in de gemeente met minstens 2 jaar schoolse vertraging, naar thuistaal in 2016-2017. Bron: