Werkcollege 3
Statistiek
Matthijs Fleurke
1 (1)
a) We meten bij meerdere objecten tegelijkertijd 2 interval- of ratiovariabelen (bijvoorbeeld bij meerdere proefpersonen de hartslag en bloeddruk). Deze waarnemingen kunnen we als punten in een spreidingsdiagram zetten.
De correlatie geeft de mate aan waarin deze punten op een rechte lijn liggen.
De correlatie loopt van –1 tot 1. Een waarde dichtbij de –1 wijst op een negatieve samenhang (dalende lijn), een waarde dichtbij de 1 wijst op een positieve samenhang (stijgende lijn) en een waarde dichtbij de nul wijst op geen samenhang.
Je mag deze correlatiecoefficient berekenen als de 2 populatieverdelingen van de 2
variabelen waar je de correlatie van berekend normaal verdeeld zijn. Omdat je dit over het algemeen niet weet, kun je je gegevens plotten en kijken of er een normale verdeling uitkomt.
Als je minder dan 25 gegevens hebt (waardoor je geen goed plaatje meer kunt maken) en je weet niet of de verdelingen normaal zijn, is deze correlatiecoefficient niet de juiste keuze.
1 (2)
b) Hetzelfde als bij a), alleen kijken we nu niet naar de waarden van de variabelen zelf maar naar de
rangschikking (dus de hoogste hartslag krijgt een 1, die daarna een 2 etc. en hetzelfde bij de bloeddruk).
Deze correlatiecoefficient gebruik je als je die bij a) niet kan of mag gebruiken
c) Als er sprake is van correlatie dan is het zinnig om
door de puntenwolk een lijn te tekenen. De best
passende lijn noemen we de regressielijn
2 (2)
wiskunde (X) statistiek (Y) X2 Y2 XY
60 75 3600 5625 4500
85 80 7225 6400 6800
32 40 1024 1600 1280
58 50 3364 2500 2900
45 50 2025 2500 2250
70 72 4900 5184 5040
84 80 7056 6400 6720
72 48 5184 2304 3456
40 46 1600 2116 1840
64 49 4096 2401 3136
∑ = 610 ∑ = 590 ∑ = 40074 ∑ = 37030 ∑ = 37922
2 (3)
0.76 25215.23 =
19320 22200 =
• 28640
19320
= r
) = 590 -
37030
• )(10 610
- 40074
• (10
590
• 610 -
37922
•
= 10 r
] = y) (
- y ][(n
x) (
- x [n
y x
- xy
= n r
xy
2 xy 2
2 2
2 xy 2
∑
∑
∑
∑
∑ ∑ ∑
2 (4)
H
0: ρ = 0 H
1: ρ > 0 r = 0.76 n = 10
Nu kijken we in de tabel bij α = 0.01 en n = 10 voor eenzijdig toetsen.
Daar vinden we een (kritieke) waarde 0.746. Alle r-waarden groter dan 0.746 zien we dus als verschillend van 0.
r = 0.76 > 0.746, in kritieke gebied, dus H
0verwerpen
Conclusie: Er is voldoende reden om aan te nemen dat de
correlatiecoefficient groter is dan 0.
3 (1)
3 (2)
student wiskunde statistiek
rang wiskunde
rang
statistiek d d2
a 50 65 5 5 0 0
b 30 40 1 1 0 0
c 65 80 6 6.5 -0.5 0.25
d 45 60 3.5 4 -0.5 0.25
e 40 45 2 2 0 0
F 75 80 7 6.5 0.5 0.25
g 45 50 3.5 3 0.5 0.25
Σ = 1