Aantal rijen (= aantal personen id steekproef) en kolommen (= aantal variabelen) vd tabel Head 1 e 6 rijen + bijhorende kolommen

(1)

STATISTIEK I

R-CODES

R-code Betekenis

Dim () Aantal rijen (= aantal personen id steekproef) en kolommen (= aantal variabelen) vd tabel

Head 1^e 6 rijen + bijhorende kolommen Names () Namen variabelen

$ Waarde ve variabele uit de date (alCjd gevolgd door de naam vd data) Table () Absolute/relaCeve frequenCe

Read.table () Data lezen Pie () Cirkeldiagram Barplot () Staafdiagram

Cut () Klassen

Breaks Grenzen tss de klassen Hist () Histogram

Cumsum () CumulaCeve absolute frequenCe Ecdf ()

Plot ()

CumulaCeve frequenCecurve

Mean () Gemiddelde Median () Mediaan

Min () Minimum Max () Maximum

Aad () Gemiddelde absolute afwijking Var () VarianCe

Sd ()

Sqrt () Vierkantswortel (vd varianCe om de standaarddeviaCe te vinden) QuanHle () PercenCelen/kwarCelen

IQR () InterkwarCelafstand Boxplot () Boxplot

Cov () CovarianCe

Cor () CorrelaCecoëﬃciënt Cor () + opHe

“Kendall”

Kendall’s tau StandaarddeviaCe

Bv. Sd = sqrt(4): standaarddeviaCe = 4 = 2

(2)

Belangrijke commando’s 1. q

= quanCle: waarde - We weten de kans

- We willen de waarde weten waarvoor …% ligt eronder/boven 2. p

= probability: kans - We weten de waarde

- We willen de kans weten die onder/boven een bep waarde ligt FORMULES EN BIJHORENDE SYMBOLEN

!! steeds ﬁnaleresultaat (≠ tussenbewerkingen) afronden op 2 decimalen (<5 naar ↘, ≤ 5 naar ↗) Dbinom (k,N,p) Kansdichtheid P(X = k)

Pbinom (k,N,p) CumulaCeve verdelingsfuncCe (P ≤ k)

Kansdichtheid fx(x) Pchisq (y,k)

Qchisq(fy (y),k) = y Pt (t,k)

t.test () t-toets (g-toets maar in R → t) mu H0

t Toetsingsgrootheid g

Df() = degrees of freedom: aantal vrijheidsgraden

= k

= n -1 p-value = p-waarde

= onderscheidingskans t.test (alternaHve =

“less”)

Linkszijdige toets

t.test (alternaHve =

“greater”)

Rechtszijdige toets

Kansen P(T ≤ t) voor varibale T ~ t_k Kans P(X ≤ x) voor variabele

!! in R dus niet maar (door vierkantswortel te nemen)

!! bij standaardnormale mogen worden weggelaten X ~ N(μ, σ²)

σ² σ

μ, σ Dnorm (x,μ, σ)

Pnorm (x, ) Pnorm(bekomen Z) μ, σ

Kansen P(Y ≤ y) voor variabele Y ~ x_k²

(3)

NAAM FORMULE HOE?

RELATIEVE FREQUENTIE Kennen

HARMONISCH GEMIDDELDE Zullen we niet

echt hanteren

MEETKUNDIG OF GEOMETRISCH GEMIDDELDE

Zullen we niet echt hanteren Begrijpen, niet

reproduceren

GEMIDDELDE O.B.V. EEN FREQUENTIEVERDELING

Kennen

KLASSENMIDDEN Begrijpend

lezen Absolute f requentie

Aantal steek proefelementen

!! klassenmiddens ]a,b] = [a,b[ = ]a,b[ = [a,b]

a + b 2 (REKENKUNDIG)

STEEKPROEFGEMIDDELDE

= GEMIDDELDE O.B.V. WAARDEN VE VARIABELE

¯x

Waarbij

- = unieke waarde vd variabele X in steekproef

Bv. = vrouw en = man - = absolute frequenCe van deze

waarde

- p = aantal unieke waarden vd variabele X id steekproef

!! uitkomst hiervan = uitkomst gem. o.b.v.

waarden (logisch)

¯x = 1n

p

∑i=1

f_ix_i^u

x_i^u

x₁^u x₂^u f_i

(x1+ x₂+ … + x_n) n

¯x = 1n

n

∑i=1

x_i

nx₁· x₂· … · x_n

= waarde vh i^e element n

∑ⁿ_i=1_xi¹ x_i

(4)

GEMIDDELDE VAN GEGROEPEERDE DATA Begrijpend lezen

Bij oneven waarden: middelste waarde in geordende rij

Bij even waarden: middelste 2 waarden gedeeld door 2

Kennen

Waarde/klasse met de hoogste frequenCe

!! er kunnen meerdere waarden/klassen zijn = modi

- 1 modus = unimodaal - 2 modi = bimodaal

Kennen

Grootste – kleinste waarde OF

Bovengrens laatste klasse – ondergrens eerste klasse (= 2 uitersten)

!! kan nooit negaCef zijn: max (alCjd) > min

Kennen

Formularium STEEKPROEFVARIANTIE sn²_xof s²_x

Waarbij = absolute frequenCe · klassenmidden

!! uitkomst hiervan = ± uitkomst gem. o.b.v.

waarden of frequenCeverdeling

¯x = 1n

p

∑i=1

f_i(a_i+ b_i 2 ) f_i(a_i+ b_i

2 )

GEMIDDELDE ABSOLUTE AFWIJKING ga_x

sn_2x= 1 n

n

∑i=1(xi− ¯x)² s_x²= 1n − 1

n

∑_i=1(xi− ¯x)² VARIATIEBREEDTE vx

!! absolute waarde: anders alCjd 0 (+ en - heﬀen elkaar op bij gem.)

x₁− ¯x + x₂− ¯x + … + x_n− ¯x n

ga_x = 1n

n

∑i=1

x_i− ¯x MODUS mo

MEDIAAN m dx

(5)

STEEKPROEFVARIANTIE O.B.V.

FREQUENTIEVERDELING

Formularium

Weten

Kennen Waarbij

- = unieke waarde vd variabele X in steekproef

Bv. = vrouw en = man

- = absolute frequenCe van deze waarde sn_2x= 1n

p

∑i=1f_i(xi^u− ¯x)² sx²= 1n − 1

n

∑i=1fi(xi− ¯x)²

x_i^u

x₁^u x₂^u f_i

STEEKPROEFSTANDAARDDEVIATIE snx Vierkantswortel vd varianCe snx = sn_2x

sx = sx²

(6)

Kennen

Verschil 3^e en 1^e kwarCel P75 – P25

Weten

INTERKWARTIELINTERVAL [P75, P25]

!! bevat 50% van alle waarden

Weten PERCENTIEL P_k

Waarbij

- Pk = het k-de percenCel

- = cumulaCeve relaCeve frequenCe Bv. Voor het 10^e percenCel:

1) k = 10

2) CumulaCeve relaCeve frequenCe = k/

100 = 10%

3) 10% vd waarden zijn hetzelfde of kleiner

Bijzondere percenCelen:

KwarCel Sym-bool % vd waarden die gelijk zijn of eronder liggen

1^e kwarCel P25 25%

2^e kwarCel P50 50%

3^e kwarCel P75 75%

4^e kwarCel P100 100%

!!

F(P_k)

n = k100

F(P_k) n

m dx= P₅₀

INTERKWARTIELAFSTAND Q

(7)

SPREIDINGSMAAT D Formularium

OUTLIERS Weten

Formularium covXY = 1

n − 1

n

∑i=1

(x_i− ¯x)(y_i− ¯y) P25− 1,5 · Q P₇₅+ 1,5 · Q

COVARIANTIE cov_xy

Waarbij

- p = aantal unieke waarden - = aantal keer dat de m - n = aantal steekproefelementen

!! van 0 (geen spreiding) t.e.m. 1 (maximale spreiding)

d = 1 − ^fmo_n 1 −¹_p

f_mo

(8)

Weten

CONCORDANT PAAR Kennen

DISCORDANT PAAR Kennen

Formularium

REGRESSIELIJN Formularium

1. CovarianCe berekenen

2. StandaarddeviaCe berekenen voor x

=

3. StandaarddeviaCe berekenen voor y

=

4.

!! correlaCecoëﬃeciënt heey alCjd zelfde teken als covarianCe

rXY = covsXs^XYY

covXY = 1n − 1

n

∑i=1(xi− ¯x)(yi− ¯y)

sx² 1 n − 1

n

∑i=1(xi− ¯x)²

sy² 1 n − 1

n

∑i=1(yi− ¯y)²

covariantie

standaarddeviatie x · standaarddeviatie y

KENDALL’S TAU τ

Waarbij

- b1 = regressiecoëﬃciënt: helling vd rechte - b0 = intercept: snijpunt met y-as

Y = b₀+ b₁X

τ = 2(#concordante paren − #discordante paren) n(n − 1)

= negaCeve hellingsgraad yj − yi

xj − xi < 0 CORRELATIECOËFFICIËNT r_xy

= posiCeve hellingsgraad yj − yi

xj − xi > 0

(9)

REGRESSIECOËFFICIËNT BIJ PERFECT LINEAIR VERBAND

Kennen

INTERCEPT BIJ PERFECT LINEAIR VERBAND Kennen

REGRESSIECOËFFICIËNT BIJ NIET PERFECT LINEAIR VERBAND

Formularium

INTERCEPT BIJ NIET PERFECT LINEAIR VERBAND

Formularium

VANAF HIER: OP POPULATIE NIVEAU LIMIET VAN DE RELATIEVE FREQUENTIE (WANNEER STEEKPROEF = ∞)

Begrijpen, niet

reproduceren Begrijpen, niet

reproduceren

KANS BIJ CONTINUE VARIABELEN Begrijpen,

niet

reproduceren

DICHTHEIDSFUNCTIE OF KANSDICHTHEID Begrijpen,

niet

reproduceren

INTEGRATIE DICHTHEIDSFUNCTIE Begrijpen,

niet

reproduceren Begrijpen, niet

reproduceren

KANS BIJ CONTINUE VARIABELEN O.B.V.

EIGENSCHAP

Kennen

VOLLEDIGE OPPERVLAKTE ONDER DICHTHEIDSFUNCTIE

Begrijpen, niet

reproduceren

!! daarom beroep doen op dichtheidsfuncCe P(X = x) = 0

b₀= y_i− b₁x_i

P(x1≤ X ≤ x2) = ∫_x1^x2 f x(x)d x

P(X ≤ x) = ∫_− ∞^x f x(x)d x P(X > x) = ∫_x^+ ∞ f x(x)d x Univariate:

Bivariate:

F_X(x) = P(X ≤ x)

F_X,y(x, y) = P(X ≤ x en Y ≤ y) b0= ¯y − b1¯x

b1= y_j− y_i xj− xi

∫

+ ∞

− ∞ f x(x)d x = 1 f x(x) = lim

b→0

F_x(x + b) − Fx (x) b

P(X = xi) = lim_n→∞ fi

n

!! b1 zal alCjd zelfde teken hebben als rxy b1= rXY sY

sX

CUMULATIEVE VERDELINGSFUNCTIE BIJ DISCRETE EN CONTINUE VARIABELEN

F_X(x)

P(x1≤ X ≤ x₂) = P(X ≤ x2) − P(X ≤ x1) = Fx(x2) − Fx(x1)

(10)

Formularium Begrijpen, niet

reproduceren

Formularium Begrijpen, niet

reproduceren

Weten

UNIVARIATE KANSVERDELING BIJ DISCRETE VARIABELEN

POPULATIE VARIANTIE V(X ), σ_x²of σ²

σx = V(X ) POPULATIE GEMIDDELDE OF

VERWACHTINGSWAARDE E(X ), μ_x of μ

Discreet:

ConCnu :

V(X ) = ∑^p

i=1P(X = xi)(xi− E(x))² V(X ) = ∫_− ∞^+ ∞ f x(x)(x − E(X ))²d x Discreet:

ConCnu:

E(X ) = ∑^p

i=1P(X = xi)xi

E(X ) = ∫_− ∞^+ ∞ f x(x)d x

POPULATIESTANDAARDDEVIATIE σ_x of σ

Waarbij

- p = aantal mogelijke waarden dat X kan aannemen

- q = aantal mogelijke waarden dat Y kan aannemen

P(X = xi) =

q

∑_j=1P(X = x₁ en Y = y_j)

P(Y = yi) =

p

∑i=1

P(X = x₁ en Y = y_j)

(11)

STATISTISCHE ONAFHANKELIJKHEID Kennen

Niet kunnen

Formularium

Begrijpen, niet reduceren

Kennen

EIGENSCHAP POPULATIE GEMIDDELDE OF VERWACHTINGSWAARDE

E(a) = a

Indien a = constante

Bv. Iedereen 2000 euro inkomen → gem. = 2000

Weten Discreet:

ConCnu:

Waarbij

- = standaarddeviaCe van x - = standaarddeviaCe van y

y

ρXY = COV(X, Y )σXσY

σX

σ_Y Discreet:

ConCnu:

COV(X, Y ) =∑^p

i=1 q

∑j=1P(X = x_i en Y = y_j)(y_j− E(Y )

COV(X, Y ) = ∫_− ∞^+ ∞∫

+ ∞

− ∞ f x, y(x, y)(x−E(X ))(y − E(Y ))d xd y

POPULATIE CORRELATIECOËFFICIËNT ρ_XY

Discreet:

2 discrete variabelen X en Y zijn ona{ankelijk indien:

geldt voor alle mogelijke combinaCes i en j 1. Alle kansen neerschrijven

2. Marginale verdeling berekenen 3. Marginale verdeling vermenigvuldigen 4. Deze aan elkaar stellen

ConCnu:

2 conCnue variabelen X en Y zijn ona{ankelijk indien:

Voor alle mogelijke waarden x en y P(X = xⁱenY = yj) = P(X = xⁱ)P(Y = y^j)

P(X ≤ xenY ≤ y) = P(X ≤ x)P(Y ≤ y)

POPULATIE COVARIANTIE COV(X, Y )

(12)

EIGENSCHAP POPULATIE VARIANTIE V(a) = 0

Bv. Iedereen zelfde inkomen: geen spreiding en varianCe = 0

Weten

BIJZONDERE VERDELINGEN

Formularium

Weten

POPULATIE GEMIDDELDE OF VERWACHTINGSWAARDE VAN EEN BINOMIALE VARIABELE

Formularium

POPULATIE VARIANTIE VAN EEN BINOMIALE VARIABELE

Formularium Waarbij

- N = max. aantal successen - k = aantal gewenste successen - p = de kans op een succes - ! = faculteit (via GRM uitrekenen)

Bv. 4! = 4·3·2·1 Enkel wanneer:

- N = vast

- p blijy ongewijzigd Op graﬁek

- Bij kleine kans op succes: scheef naar rechts

Logisch want meeste hebben lage score en enkel de uitzonderingen een hoge - Bij hely kans op succes: symmetrisch - Bij grote kans op succes: scheef naar links

Logisch want meeste hebben hoge score en enkel de uitzonderingen een lage P(X = k) = N !

k!(N − k)!p^k(1 − p)^N−k BINOMIALE KANSVERDELING

X ~ Binom(N, p)

V(X ) = N · p (1 − p) E(X ) = N · p

(13)

Formularium

Weten

INTEGRAAL VAN DE KANS VAN EEN NORMALE VERDELING

Begrijpen, niet reduceren DICHTHEIDSFUNCTIE NORMALE

VERDELING X ~ N(μ, σ²)

Waarbij - = 3,14…

- = 2,71

- = populaCe gemiddelde = E(X) - = populaCe varianCe = V(X) - = populaCe standaarddeviaCe Op graﬁek:

- Hoogste punt (top) = gemiddelde - Grote varianCe = laag + breed - Kleine varianCe = hoog + smal - Symmetrisch

- Enkel posiCeve waarden

-

f x(x) = 1

σ 2π · e^{−(x − μ)2}^2σ2

π e μ σ² σ

P(x₁≤ X ≤ x₂) = ∫_x1^x2 1

σ 2πe^{−(x − μ)2}^2σ2 d x

(14)

Weten

STANDAARDISEREN VAN X BIJ EEN NORMALE VERDELING

Formularium Weten = 0

= 1 2 belangrijke eigenschappen

1. Symmetrisch rond 0 Bijgevolg:

2. Totale opp. = 1

Bijgevolg:

)

Sidenote:

- Bij - teken veranderen haakjes van kant

- < = ≤ en > = ≥ (want conCnue variabelen)

μ σ²

P(X > x) = P(X < − x)

P(X ≤ − x) = 1 − P(X ≤ x) P(X ≥ − x) = 1 − P(X ≥ x

P(X < x) = 1 − P(X > x) P(X > x) = 1 − P(X < x)

Omdat ≠ alCjd 0 en ≠ alCjd 1 → standaardiseren:

1.

2. → dit vervangen in bovenstaande formule

3.

Hierdoor: nieuwe variabele die de standaardnormale verdeling wél volgt →

μ σ²

P(X ≤ x) = P(X − μ

σ ≤ x − μσ ) Z = X − μσ

P(X ≤ x) = P(Z ≤ x − μ σ ) Z

Z ~ N(0,1) PRINCIPES STANDAARDNORMALE

VERDELING X ~ N(0,1)

(15)

Formularium Weten

POPULATIE GEMIDDELDE BIJ EEN CHI- KWARDRAAT VERDELING

Formularium

POPULATIE VARIANTIE BIJ EEN CHI- KWARDRAAT VERDELING

Formularium

InterpretaCe ervan niet kennen Weten

POPULATIEGEMIDDELDE BIJ EEN T- VERDELING

Formularium

VARIANTIE BIJ EEN T-VERDELING Formularium

VANAF HIER: STEEKPROEVENVERDELING Steekproefgemiddelde

V(T ) = kk − 2, voor k > 2 VARIABELE VAN DE STUDENT-T

VERDELING T ~ t_k

E(T ) = 0 k = aantal vrijheidsgraden Op graﬁek:

- Indien k → ∞(= ): valt exact samen met standaardnormale

- Hoogste punt (top) = populaCe gemiddelde = 0

- Symmetrisch

T = X₁

kY

t_∞ V(Y ) = 2k VARIABELE VAN DE CHI-KWADRAAT

VERDELING Y ~ χ_k²

E(Y ) = k Waarbij

- k = aantal vrijheidsgraden (en ook populaCe gemiddelde)

- Op graﬁek:

- Hoogste punt (top) = k en dus ook populaCe gemiddelde

- Scheve verdeling: asymmetrisch - Enkel posiCeve waarden - Totale opp./kans = 1

Y = x₁²+ x₂²+ … + x_k²

χ_k ~ N(0,1)

(16)

Kennen

Formularium

VERDELING VAN HET STEEKPROEFGEMIDDELDE

= STEEKPROEFVERDELING VAN HET GEMIDDELDE

Formularium

STANDAARDISEREN VAN HET STEEKPROEFGEMIDDELDE

Kennen

SteekproefvarianVe

Kennen VARIANTIE VAN HET

STEEKPROEFGEMIDDELDE V( ¯X )

Bij ona{ankelijke, lukrake trekkingen uit populaCe dat normaal verdeeld is:

¯X ~ N(μ_x,σ_x² n ) VERWACHTINGSWAARDE VAN HET

STEEKPROEFGEMIDDELDE E( ¯X )

V(¯X) = σx²

n STEEKPROEFGEMIDDELDE

= GEMIDDELDE VAN VERSCHILLENDE STEEKPROEVEN

¯X

STEEKPROEFVARIANTIE SN_x² of S_x²

E(¯X) = μx

!!

= steekproefgemiddelde voor een bepaalde steekproef, voor een steekproef ih algemeen

= steekproefgemiddelde o.b.v. 1 speciﬁeke steekproef

¯X = 1n

n

∑i=1

X_i

¯X

¯x

SN_x²= 1n

n

∑i=1(Xi− ¯X)² S_x²= 1n − 1

n

∑i=1(Xi− ¯X)² of

Voorwaarde:

- X komt uit normale verdeling Hierbij: n maakt niet uit OF

- n ≥ 30

Z ≤ x − μ σ_2x∕ n Z ≤ x − μ

σx/ n

(17)

VERWACHTINGSWAARDE VOOR STEEKPROEFVARIANTIE

Formularium

VERDELING VAN DE STEEKPROEFVARIANTIE

Formularium

SCHATTERS

Weten

STANDAARDDEVIATIE VAN DE SCHATTER = STANDAARDFOUT

Weten EEN GOEDE SCHATTER VOOR EEN

POPULATIEPARAMETER

^θ θ

Bij ona{ankelijke, lukrake trekkingen uit populaCe dat normaal verdeeld is:

(n − 1)S_x² σ_2x ~ χ_n−1²

Of want

Scha•er met kleinste standaardfout = het eﬃciënst

V(^θ) σ

n V(¯X) = σ_x² n

!! daarom: in prakCjk meer dan E(SNx²) = n − 1

n σ_x² E(Sx²) = σx²

S_x² SN²x

is een goede scha•er voor indien:

1. De scha•er zuiver is: verwachCngswaarde scha•er = populaCeparameter

2. De varianCe vd scha•er kleiner wordt naarmate de steekproefgroo•e n

↗

= naarmate n ↗ wordt de scha•er nauwkeuriger

^θ θ

E(^θ) = θ

V(^θ)

(18)

STEEKPROEFGEMIDDELDE: EEN GOEDE SCHATTER VOOR

POPULATIEGEMIDDELDE?

Weten

STEEKPROEFVARIANTIE: EEN GOEDE SCHATTER VOOR POPULATIEVARIANTIE?

Weten

2 MOGELIJKHEDEN OM O.B.V. SCHATTING UITSPRAAK TE DOEN OVER POPULATIEPARAMETER 2 formules voor steekproefvarianCe → bekijken beide

Formule 1:

Deze is geen goede scha•er, want

1.

Dus (populaCevarianCe) zal steeds te klein worden geschat (door (n-1)/n 2. Naarmate n ↗ zal het wel

nauwkeuriger worden

⇒ slechts 1 vd 2 voorwaarden is voldaan

⇒ geen goede scha•er

Formule 2:

1.

VerwachCng vd steekproefvarianCe = populaCevarianCe → goed!!

2. Naarmate n ↗ zal het wel nauwkeuriger worden

⇒ beide voorwaarden zijn voldaan

⇒ deze formule = voorkeur sn_2x= 1n

n

∑i=1(xi− ¯x)²

E(SNx²) = n − 1 n σ_x² σ_x²

sx²= 1n − 1

n

∑i=1(xi− ¯x)² E(S^x²) = σ^x²

Steekproefgemiddelde = goede scha•er want 1.

Dus gem. van alle steekproefgem.

populaCe gem.

2. VarianCe steekproefgemiddelde =

Dus naarmate n ↗ → nauwkeuriger

⇒ Ja!! goede scha•er

E(¯X) = μx

≈

V(¯X) = σ_x² n

(19)

Via betrouwbaarheidsinterval (enkel tweezijdig kunnen) BETROUWBAARHEIDSINTERVAL

WANNEER VARIANTIE GEKEND

Kennen

BETROUWBAARHEIDSINTERVAL WANNEER VARIANTIE ONGEKEND IS

Formularium

Via staVsVsch toetsen (eenzijdig en tweezijdig kunnen)

(Hierbij gaan we er alVjd vanuit dat x normaal verdeeld is of n ≥ 30 is)

NULHYPOTHESE Formularium

ALTERNATIEVE HYPOTHESE Tweezijdig: Formularium

Linkszijdig:

Rechtszijdig:

H_a: μ ≠ μ₀

Ha: μ < μ0

Ha: μ > μ0

= waarde vd standaardnormale verdeling zodat de opp. vd curve rechts vd waarde =

[¯X − z^α₂σ / n, ¯X + z^α₂σ / n]

Zα

α

Bij tweezijdig, linkszijdig en rechtszijdig

= gegeven waarde

H₀: μ = μ₀ μ0

= waarde vd t-verdeling zodat de opp.

vd curve rechts vd waarde =

[¯X − t^n−1;α/2Sx/ n, ¯X + tn−1;α/2Sx/ n]

T_n−1;α/2

α

(20)

TOETSINGSGROOTHEID Formularium

Weten Wanneer nulhypothese waar is ( :

- G volgt tn-1-verdeling

- Waarden van G liggen rond 0 - Waarden van G zijn + en - Wanneer nulhypothese niet waar is en

:

- Grotere waarden ↔

- G heey enkel posiCeve waarden Wanneer nulhypothese niet waar is en

:

- Kleinere waarden ↔

- G heey enkel negaCeve waarden

g = waarde van G die we bekomen o.b.v. één steekproef

Maar: wanneer wat doen met g-waarde?

- Als g rond 0 ligt → H0 niet verwerpen - Als g sterk van 0 verschilt → H0 wel

verwerpen

Wat is “rond” en wat is “sterk verschilt”? → verschillende beslissingsregels

G = ¯X − μ₀ S_X∕ n

μ = μ₀)

μ > μ₀

μ = μ₀

μ < μ0

μ = μ₀

(21)

1.

BESLISSINGSREGELS O.B.V.

AANVAARDINGSGEBIED/KRITIEKE WAARDEN

Komen overeen met interval vd tweezijdige toets

Formularium

Weten Formularium

TYPE I FOUT H0 = correct maar we verwerpen ze → type I fout

Weten

KANS OP EEN TYPE I FOUT Weten

Tweezijdig:

Indien g tussen het volgende interval ligt:

H0 niet verwerpen

Ligt het er niet in → H0 wél verwerpen M.a.w.:

tn−1;α/2 → H0 niet verwerpen

tn−1;α/2 → H0 verwerpen, Ha aanvaarden Linkszijdig:

→ H0 niet verwerpen

→ H0 verwerpen, Ha aanvaarden Rechtszijdig:

→ H0 niet verwerpen

→ H0 verwerpen, Ha aanvaarden

= signiﬁcanCe niveau

−tn−1;α/2≤ g ≤ tn−1;α/2

g ≤ g >

g > −tn−1;α

g < −tn−1;α

g ≤ tn−1;α

g > t_n−1;α

α

P(verwerp H0 | | =

= het signiﬁcanCeniveau en is alCjd gegeven μ = μ₀ α

α

(22)

Weten

TYPE II FOUT H0 ≠ correct maar we verwerpen ze niet → type II fout

Weten

KANS OP EEN TYPE II FOUT Weten

Weten

2.

BESLISSINGSREGELS O.B.V.

BETROUWBAARHEIDSINTERVAL

Formularium P(verwerp H0 niet | |=

= bèta

μ ≠ μ0 β β

KANS OP CORRECT BESLUIT INDIEN

= ONDERSCHEIDINGSKANS OF POWER μ ≠ μ₀

Indien tussen het volgende interval ligt:

H0 niet verwerpen

Ligt het er niet in → H0 wél verwerpen μ₀

[¯X − t^n−1;α/2S_x/ n, ¯X + t_n−1;α/2S_x/ n]

P(verwerp H0 niet| |= 1 - OF

Kijken naar …% betrouwbaarheidsinterval Bv. Bij 95% betrouwbaarheidsinterval:

1. = 0,05 1-0,05 = 0,95

Dit: kans op correct besluit OF

2. 95% betrouwbaarheidsinterval dus 95%

kans op correct besluit μ = μ0 α

α

P(verwerp H0| |= 1 - Invloeden

- SigniﬁcanCeniveau Wanneer ↗ → ↘ - Steekproefgroo•e

Wanneer n ↗ → ↘

En dus kans op correct besluit (1 - ) ↗

μ ≠ μ0 β

α β

β

β KANS OP CORRECT BESLUIT INDIEN

μ = μ₀

(23)

3.

BESLISSINGSREGELS O.B.V. P-WAARDE OF OVERSCHRIJDINGSKANS

Formularium p-waarde

- Wordt berekend in veronderstelling dat H0 waar is

- Hangt af vd Ha Basisregel:

p ≥ → H0 niet verwerpen p < → H0 verwerpen

Linkszijdig: P(G < g| )

1. berekenen

2. Deze g: in R output “pt()“ steken 3. Bekomen waarde vergelijken met +

basisregel toepassen Rechtszijdig:P(G > g| )

1. berekenen

2. 1 - pt(g,(n-1)) doen

3. Bekomen waarde vergelijken met α + basisregel toepassen

Tweezijdig:

1. g waarde berekenen 2. g waarde vergelijken met 0

- Als g > 0:

p = 2 · P(T > g) - Als g ≤ 0:

p = 2 · P (T < g) Deze kansen → aﬂezen in R α

α

μ = μ₀ P(T < g)

α

μ = μ0

P(T > g)

(24)

VERDUIDELIJKING POPULATIEPARAMETERS

Formularium (behalve correlaCe) Moeten we niet kunnen uitrekenen STAPPENPLAN BETROUWBAARHEIDSINTERVAL

Wanneer? PopulaCe gem. is ongekend maar we willen er toch uitspraak over doen Bij discrete variabelen Bij conVnue variabelen

PopulaVe covarianVe

PopulaVe

correlaVecoëﬃciënt

COV (X, Y ) = ∫_− ∞^+ ∞∫ + ∞

− ∞ f x, y (x, y)(x −E(X ))(y − E(Y ))d x d y

E (X ) = ∑_i=1^p P(X = xi)xi

V (X ) = ∫_− ∞^+ ∞f x (x)(x − E (X ))²d x → andere deﬁniCe nodig:

P(X = xi) = 0

E (X ) = ∫_− ∞^+ ∞ f x (x)d x

ρ_XY= COV(X, Y )σ_Xσ_Y PopulaVe varianVe

V(X ), σ_x²of σ²

COV(X, Y ) =_i=1∑^p q

∑j=1P (X = xi e n Y = yj)(yj− E (Y ))

PopulaVe gemiddelde / verwachVngswaarde E(X ), μ_x of μ

V (X ) = _i=1∑^p P(X = xi)(xi− E (x))²

Vraag 1: X normaal verdeeld?

JA NEE

Vraag 2: PopulaCevarianCe gekend?

JA NEE NEE

(25)

STAPPENPLAN STATISTISCH TOETSEN

1. H0 en Ha opstellen (uit gekregen opgave) 2. SigniﬁcanCeniveau vaststellen

3. Gem. en standaarddevidaCe vd speciﬁeke steekproef berekenen (of uit opgave halen) 4. Toetsingsgrootheid g berekenen

5. Beslissingsregels toepassen - M.b.v. kriCeke waarde

!! bij kriCsche waarde: 1-P(T < t-waarde) doen

Dit = P(T > t-waarde) wat alCjd zo is (want t-waarde = waarde rechts vd graﬁek) - M.b.v. betrouwbaarheidsinterval

- M.b.v. p-waarde

!! andere beslissingsregels voor eenzijdig, linkszijdig en rechtszijdig

6. Conclusie formuleren: H0 verwerpen of niet?

Indien grote steekproef:

centrale limietstelling Indien kleine steekproef: GEEN LEERSTOF VAN STATISTIEK I Nu: t-verdeling ipv normale verdeling

Deze: lijken op elkaar Toch verschillen:

- Tn-1-verdeling heey een grotere varianCe

- Tn-1; /2-waarde is groter dan -waarde

Maar ook hierbij: naarmate n ↗ → steeds betere benadering

standaardnormale verdeling

[¯X − t^n−1;α/2S_x/ n, ¯ X + t_n−1;α/2S_x/ n]

α z^α₂

Ligt het tss dit interval → interval bevat pop.gem.

Bv. Bij 95% betrouwbaarheidsinterval → in 95% vd gevallen ligt pop. gem. erin Invloeden

1. Steekproefgroo•e

Naarmate n ↗ → interval smaller 2. Als ↗ → interval smaller

Want 1 - zal ↘ en hiertss = interval Indien je de kans wil ↗ dat pop.gem. erin ligt

→ interval moet breed zijn maar indien breed: niet zo informaCef meer

⇒ compromis tss beide vinden (vaak 95%) [¯X − z^α2σ / n, ¯X + z^α₂σ / n]

α α

G = ¯X − μ₀ SX∕ n

(26)

- Niet verwerpen = H0 aanvaarden - Verwerpen = Ha aanvaarden

Oplehen !!

Voor zowel de - waarde, de Tn-1; /2-waarde als de kriCsche waarde: gaat het om de waarde rechts vd graﬁek Maar: R-output geey standaard wat links onder graﬁek ligt

Oplossing?

1. Eigenschap normale/t-verdeling gebruiken 1 - … doen

OF

2. Bij R-output extra info geven: “lower.tail”

Voorbeeld = 0,025 ⇒ Dus 1 - 0,025 = 0,975 Dit in R-output: qnorm(0,975) Uitkomst van deze = juiste z-waarde

Z_α α

α P (Z > Z_0,025) = 0,025