• No results found

Stopcriteria voor hierarchische clustermethoden en een methode om te toetsen of twee clusters verenigd mogen worden tot een cluster

N/A
N/A
Protected

Academic year: 2021

Share "Stopcriteria voor hierarchische clustermethoden en een methode om te toetsen of twee clusters verenigd mogen worden tot een cluster"

Copied!
87
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Stopcriteria voor hierarchische clustermethoden en een

methode om te toetsen of twee clusters verenigd mogen

worden tot een cluster

Citation for published version (APA):

Buckens, J. M. (1983). Stopcriteria voor hierarchische clustermethoden en een methode om te toetsen of twee clusters verenigd mogen worden tot een cluster. (Computing centre note; Vol. 9). Technische Hogeschool Eindhoven.

Document status and date: Gepubliceerd: 01/01/1983 Document Version:

Uitgevers PDF, ook bekend als Version of Record Please check the document version of this publication:

• A submitted manuscript is the version of the article upon submission and before peer-review. There can be important differences between the submitted version and the official published version of record. People interested in the research are advised to contact the author for the final version of the publication, or visit the DOI to the publisher's website.

• The final author version and the galley proof are versions of the publication after peer review.

• The final published version features the final layout of the paper including the volume, issue and page numbers.

Link to publication

General rights

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights.

• Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain

• You may freely distribute the URL identifying the publication in the public portal.

If the publication is distributed under the terms of Article 25fa of the Dutch Copyright Act, indicated by the “Taverne” license above, please follow below link for the End User Agreement:

www.tue.nl/taverne

Take down policy

If you believe that this document breaches copyright please contact us at:

openaccess@tue.nl

providing details and we will investigate your claim.

(2)

THE-RC 49455

Eindhoven University of Technology Computing Centre Note 9

STOPCRITERIA VOOR HIERARCHISCHE CLUSTERMETHODEN EN EEN METHODE OM TE TOBTSEN OF TWEE CLUSTERS VERENIGD MOGEN WORDEN TOT een CLUSTER.

Auteur: Jack Buckens.

Stage statistische analyse onder leiding van: prof.dr. R. Doornbos, drs. J.B. Dijkstra.

BJBLJOTHEEK

mei 1983 --_._~--_.

--...----1

S 310175

T.H.EINDHO\'EN

(3)

TRE-RC 49455 me! 1983

Inhoudsopgave:

1. Stopcriteria voor hi~rarchischeclustermethoden 1.1. Inleiding

1.2. Algemene representatie van hi~rarchischeclustermethoden 1.3. Stopcriteria

1.4. Praktische toepassing van de stopregels 1.5. Bespreking van de resultaten

1.6. Literatuur CC-NOTE 9 blz.2 bladzijde 3 3 4 6 9 27 28 2. Ben methode om te toetsen of twee clusters mogen worden

verenigd tot €en groot cluster 29

2.1. Inleiding 29

2.2. Model 29

2.3. Definitie en berekening van de projecties 30

2.4. Definitie voor de mate van disjunct!e van de

clusters A en B 32

2.5. Afle!ding van Wexp 36

2.6. Ret gebruik van de toets in de praktijk

Appendix: Nog enige voorbeelden van het gebruik van de toets 39

2.7. Andere toetsingsmogelijkheden 54

2.8. Literatuur 55

3. Beschrijving van de gebruikte procedures 3.1. De niet-centrale Student verdeling 3.2. De procedure reconstructclusters 3.3. De procedure clusterprojections

3.4. De procedure Welchclustertest

4. Voorstel voor beschrijving van de diverse procedures ten behoeve van de gebruikers

56 56 66 66 66 71

(4)

TRE-RC 49455

mei 1983

1. Stopcriteria voor hierarchische clustermethoden.

CC-NOTE 9 bIz. 3

1.1. Inleiding.

Met ciusteranalyse worden technieken aangeduid die een groot aan-tal objecten (personen, landen, etc.) op grond van een aanaan-tal gegevens (verkregen door metingen, enquetes, tests, etc.) indelen in groepen die van te voren niet bekend zijn.

Men gaat uit van de veronderstelling dat de verzameling objecten een steekproef is uit een onbekend aantal onbekende populaties, waartussen verschillen bestaan wat betreft de verzameide gege-vens.

Bij een hierarchische clustermethode bestaat er een criterium vol-gens welk in elke situatie waarin een clusterindeling gegeven is,

twee clusters tot een worden samengevoegd.

Aan het begin van het clusterproces worden aIle objecten als een-puntsclusters opgevat, terwijl het proces eindigt met de situatie waarin aIle objecten tot een cluster behoren.

Ret verloop van een dergelijk proces is weergegeven in figuur 1.1.

«(Xl' .••• , (16 zijn de criterlumwaarden).

i

figuur 1.1: Schematisch verloop van een hierarchisch cluster~

proces 1

I

3

I

5

I

6

I

De knopen van de getekende boom geven het niveau aan waarop twee clusters worden samengevoegd.

(5)

TRE-RC 49455 mei 1983

CC-NOTE 9 bIz. 4

Dit niveau hangt direct samen met het gehanteerde criterium. Ach-teraf wordt nu het aantal clusters bepaald op grond van het verloop van de waarden van de criterium-functie in de verschillende knopen. Ret clusterproces wordt gestopt als op een gegeven moment de sprong

in de criteriumwaarden "te groot" is.

In figuur 1.1 is bijvoorbeeld n S - n4 te groot, zodat tot de

clus-tering {I}, {2, 3}, {4, 5, 6, 7} wordt besloten. De bedoeling is nu om een preciezere omschrijving te vinden voor het moment waarop het clusterproces afgebroken dient te worden en (indien mogelijk) zo'n stopcriterium in te bouwen in de clustertechnieken die beschikbaar zijn in de procedurebibliotheek van het TRE-Rekencentrum.

1.2. Algemene representatie van hi~rarchischeclustermethoden.

Als we N objecten Ql' .••• , QN willen clusteren, be palen we eerst

de dissociatiematrix D

=

{dij}, waarbij dij de afstand

tus-sen Qi en Qj aangeeft (vaak wordt voor dij de Euclidische

afstand genomen, maar er zijn ook andere definities in gebruik). Per slag van het clusterproces worden nu twee clusters samengevoegd en de dissociatiematrix D wordt aangepast aan de nieuwe situatie.

De verschillen tussen hi~rarchische methoden worden veroorzaakt

door verschillen in de manier waarop deze aanpassing geschie~t.

AIle hi~rarchischemethoden om N objecten te clusteren kunnen

wor-den gekarakteriseerd door een verzameling partities {PI' ••• , P

N-l } van de N objecten en de bijbehorende

criterium-waarden n

l , ••• , ~-1' De indices 1, 2, ••• , N-l geven aan dat we

met N-l, N-2, ••• , 1 clusters bezig zijn.

De zes hi~rarchische clustermethoden die in de

procedurebiblio-theek van het TRE-Rekencentrum aanwezig zijn, zijn:

single linkage methode (nearest neighbour, Johnson's min) 1

complete linkage methode (farthest neighbour, Johnson's max): 2

(1.1) average linkage methode (weighted average) 3

centroId linkage methode median linkage methode

Wards linkage methode (Wards error sum of sqaures)

4 5 6

(6)

THE-RC 49455 mei 1983

CC-NOTE 9 bIz. 5

Lance en Williams ([lJ) hebben een algemene representatie van deze methoden gegeven:

(1.2) d

rs

waarin r de index is van het nieuwe cluster. dat ontstaan is door de clusters met indices p en q samen te voegen. en drs is de afstand tussen de clusters met indices r en s.

De waarden van apt a q • b en g voor de diverse methoden zijn weergegeven in onderstaande tabel.

tabel 1.1: (ni := het aantal elementen van het cluster met index i) methode a a b g p q single linkage

\

\

0

-\

complete linkage

\

\

0 \ average linkage n

In

n

In

0 0 p r q r centroid linkage n

In

n

In

n n 0 p r q r

-

.J:....9. n n r r median linkage

\

\

-1/4 0 n

+

n n

+

n n Wards linkage s p s q

-

s 0 n

+

n n

+

n n

+

n s r s r s r

Voor de single linkage-methode vinden we:

drs

=

\dps + \dqs + 0 - \Idps-dqs

I

=

min{dps• dqs}.

en voor de complete linkage-methode:

d \d

+

\d

+

0

+

\Id -d

I

=

max{d • d }.

(7)

THE-RC 49455 mei 1983

De criteriumwaarden worden nu gedefinieerd door:

CC-NOTE 9 bIz. 6 (1.3) a : .. min d j i<m im voo r 1 " j "N-1 1 " i, m " N- j 1.3. Stopcriteria.

Orndat de omschrijving van een stopcriterium, zoals gegeven in de inleiding, erg vaag is, wordt nu getracht om een methode te vinden die nauwkeuriger formuleert wanneer een clusterproces gestopt dient te worden.

We gaan uit van N objecten die geclusterd moeten worden. Methoden die aangeven welke van de partities PI, " ' , PN-1

de beste is, kunnen we baseren op het "gedrag" van de

criterium-vector a := (aI, " ' , ~-1)' of van een geschikte

trans-formatie van deze vector. Voor de methoden 1, 2, 3 en 6 in (1.1) is a monotoon niet-dalend, dat wil zeggen:

o "

~

" ... "

~-1' maar voor de methoden 4 en 5 hoeft dit niet het geval te zijn (zie bijvoorbeeld [4J pagina 28).

,

Een te grote sprong in a duidt erop dat het clusterproces afgebro-ken moet worden, en dat de betreffende clusters niet meer samenge-voegd mogen worden.

Het is dan ook aanlokkelijk om als stopregel in te voeren:

Stop zodra ai - ai-1 maximaal is. 20'n regel zal echter in

de praktijk niet voldoen, omdat het vaak gebeurt dat in de laatste stappen van het clusterproces de sprongen tussen opeenvolgende criteriumwaarden steeds groter worden. (Dit wordt veroorzaakt door het feit dat hierarchische cluster-methoden pas stoppen nadat aIle objecten in een cluster verenigd zijn, terwijl het vaak duidelijk is dat tot meerdere clusters moet worden besloten.). In dergelijke gevallen zal de bovenvermelde stopregel het proces vee1 te laat laten stoppen.

(8)

THE-RC 49455 mei 1983

Mojena ([2] en [3]) stelt de volgende regel voor:

CC-NOTE 9 bIz. 7

De beste partitie P

j wordt gegeven door de k1einste j,

1 ( j ( N-2 die voldoet aan

-a j+l > a+ K8 , met a (1.4 ) N-l a :=

I

a / (N-l) i=l N-l 8 :=

{ I

(ai-a)2/(N-2)}~

a i=l

(82 is een zuivere schatter van de varian tie van de rij

a

Tenslotte is Keen te kiezen parameter, K > O.

Als geen enkele j aan bovensgestelde eisen vo1doet, dan is het beste aantal clusters een.

Mojena heeft de bovenstaande stopregel uitvoerig getest, speciaa1 voor de methode van Ward. Hij concludeert in [3J p. 430 dat ~oor de methode van Ward stopregel (1.4) toegepast met K

=

2.0 goede resultaten geeft. Ook voor de andere clustermethoden uit (1.1) is deze regel goed toepasbaar.

Toch zijn er weI enkele nadelen aan (1.4). Beschouw de volgende criteriumvector: a := (0, 0.2, 0.4, 0.4, 1, 7, 40).

-In dit geval is a

=

7 en S

=

14.76, dus a + K

*

s > 7,

a a

ongeacht de keuze van K. We vinden dan twee clusters, terwijl de sprong van as = 1 naar a

6 = 7 ook erg groot is. Dit verschijnsel wordt natuurlijk veroorzaakt door het feit dat a 7 erg groot is. Algemeen geldt: als

ON-I

groot genoeg is, wordt de beste struc-tuur door PN-2 gegeven en stoppen we met 2 clusters.

(9)

THE-RC 49455 mei 1983

CC-NOTE 9 blz.8

Om dergelijke effecten tegen te gaan. kunnen we per stap van het clusterproces de lopende gemidde1den en standaarddeviaties aanpas-sen.

De beste partitie p. wordt gegeven door de kleineste j, J

1 ~ j ~ N-2 die voldoet aan

aj+1 > aj + K

*

Sa • met j (1.5 ) j a. := (

L

ai)!j J 1=1 1 j - \ S : ... (j-1

*

L

(a - a ) 2) aj j-1 1 j (8~ := 0).

K is een te kiezen parameter, K> 0

Als geen enkele j aan bovengestelde eisen voldoet, dan is

(10)

THE-RC 49455 mei 1983

CC-NOTE 9

bIz. 9

toch ~ en ~-1 weg.

Een veel eenvoudiger criterium verkrijgen we door in de berekening

van a en S de eerste en laatste 5% van de criteriumwaarden niet

a

[N-1 ]

op te nemen. Als ~ = 0 laten we

We vinden dan als derde stopregel:

f

De beste partitie P

j wordt gegeven

1 ( j ( N-2 die voldoet aan

N-l-r

a

:= (

L

a i )/(N-2-2r) i=r+1 (1.6 ) N-1-r Sa := [

L

(a -e)2/(N-2-2r)]\ IJ i=r+1 1 door de kleinste j. r :

=

max {1.

[~~

1]} K als in (1.4) en (1.5)

Als geen enkele j aan bovengenoemde rege1s voldoet. dan is het

beste aantal clusters een.

1.4. Praktische toepassing van de stopregels.

Voor toepasslng van de drie voorgestelde stopregels gaan we uit van de gegevens op pagina 12. Van 70 land en is het aantal

geboor-ten en sterfgevallen per 1000 inwoners in een zeker jaar gegeven. Omdat we te maken hebhen met objecten (landen). waaraan twee vari-abelen gemeten zijn. kunnen we ieder paar gegevens als een punt in het platte vlak weergeven. Het resultaat ziet u op pagina 13. De landen zijn hlerbij vervangen door hun rangnummer in tabel 1.7 op pagina 12.

(11)

THE-RC 49455 mei 1983

CC-NOTE 9 bIz. 10

Er wordt een clusterproces uitgevoerd met de methoden 1, 2, 3 en 6 in (1.1) (single, average, complete en wards linkage methode). Op pagina 15 tot en met 26 vindt u de resultaten. De

c1usterstruc-turen na 60 stappen van het c1usterproces zijn bijgevoegd. Tevens zijn voor iedere methode de waarden van

a, Sa'

a,

Sa' a

i en S (1 .. i .. 69) berekend.

I-' a

i

De parameter K krijgt achteenvolgens de waarden 1.5, 2.0, 2.5 en 3.0.

-Voor regel (1.4) vindt u de waarden van a

+

KS voor de

verschil-a

lende methoden, als functie van K, in tabel 1.2.

a+

KS a K 1.5 2.0 2.5 3.0 single linkage 4.669 5.555 6.438 7.325 average linkage 11.123 13.633 16.143 18.653 complete linkage 16.898 20.845 24.792 28.739 wards linkage 103.547 133.161 162.775 192.390 Tabel 1.2

De waarden

e

+ KS

e

voor K = 1.5, 2.0, 2.5, 3.0 voor de verschil1en-de methoverschil1en-den staan in tabel 1.3

B

+ KS

e

K 1.5 2.0 2.5 3.0 single linkage 3.298 3.802 4.306 4.810 average linkage 6.240 7.371 8.501 9.631 complete linkage 9.539 11.437 13.335 15.233 wards linkage 19.776 24.414 29.051 33.689 Tabel 1.3

(12)

mei 1983 bIz. 11

In de tabellen 1.4, 1.5 en 1.6 is tenslotte het aantal

clusterslagen en daarachter tussen haakjes het aantal clusters gegeven voor de verschillende methoden en K-waarden.

aantal clusterslagen/ aantal clusters K 1.5 2.0 2.5 3.0 single linkage 66 (4) 66 (4) 67 (3) 67 (3) average linkage 66 (4) 67 (3) 67 (3) 67 (3) complete linkage 65 (5) 67 (3) 67 (3 ) 67 (3) wards linkage 68 (2) 68 (2) 68 (2) 68 (2)

Tabel 1.4: aantal clusterslagen en aantal clusters voor de verschillende waarden van Kj voor stopregel (1.4).

aantal clusterslagen/ aantal clusters K 1.5 2.0 2.5 3.0 single linkage 2 (68) 2 (68) 2 (68) 2 (68) average linkage 4 (66) 4 (66) 4 (66) 61 ( 9) complete linkage 4 (66) 4 (66) 45 (25) 59 (11) wards linkage 4 (66) 4 (66) 32 (38) 51 (19)

Tabel 1.5: aantal clusterslagen en aantal clusters voor de verschillende waarden van K; voor stopregel (1.5).

aantal clusterslagen/ aantal clusters K 1.5 2.0 2.5 3.0 single linkage 60 (10) 62 (8) 65 (5) 66 (4) average linkage 60 (10) 62 (8) 64 (6) 65 (5) complete linkage 60 (10) 63 (7) 63 (7) 64 (6) wards linkage 62 (8) 62 (8) 64 (6) 65 (5)

Tabel 1.6: aantal clusterslagen en aantal clusters voor de verschillende waarden van K; voor stopregel (1.6).

(13)

THE-RC 49455 mei 1983

\.;C-NOTE 9 bIz. 12

Geboorte Sterven Geboorte Sterven

1. AlgeriE! 36.4 14.6 36. Argentini~ 21.8 8.1 2. Congo 37.3 8.0 37. Bolivia 17.4 5.8 3. Egypte 42.1 15.3 38. Brazili~ 45.0 13.5 4. Ghana 55.8 25.6 39. Chili 33.6 11.8 5. Ivoorkust 56.1 33.1 40. Columbia 44.0 11.7 6. Madagascar 41.8 15.8 41. Ecuador 44.2 13.5 7. Marokko 46.1 18.7 42. Peru 27.7 8.2 8. Tunesi~ 41.7 10.1 43. Uruguay 22.5 7.8 9. Cambodja 41.4 19.7 44. Venezuela 42.8 6.7 10. Ceylon 35.8 8.5 45. Oostenrijk 18.8 12.8 11. China 34.0 11.0 46. Belgi~ 17.1 12.7 12. Taiwan 36.3 6.1 47. Engeland 18.2 12.2 13. Hongkong 32.1 5.5 48. Bulgarije 16.4 8.2 14. India 20.9 8.8 49. Tsjechoslowakije 16.9 9.5 15. Indonesi~ 27.7 10.2 50. Denemarken 17.6 19.8 16. Irak 20.5 3.9 51. Finland 18.1 9.2 17. IsralH 25.0 6.2 52. Frankrijk 18.2 11.7 18. Japan 17.3 7.0 53. DDR 17.5 13.7 19. Jordaan 46.3 6.4 54. BRn 18.5 11.4 20. Korea 14.8 5.7 55. Griekenland 17.4 7.8 21. Maleisi~ 33.5 6.4 56. Hongarije 13.1 9.9 22. MongolH! 39.2 11.2 57. Ierland 22.3 11.9 23. Filippijnen 28.4 7.1 58. Itali~ 19.0 10.2 24. Syri~ 26.2 4.3 59. Nederland 20.9 8.0 25. Thailand 34.8 7.9 60. Noorwegen 17.5 10.0 26. Vietnam 23.4 5.1 61. Polen 19.0 7.5 27. Canada 24.8 7.8 62. Portugal 23.5 10.8

28. Costa Rica 49.9 8.5 63. Roemeni~ 15.7 8.3

29. Dominicaanse Rep. 33.0 8.4 64. Spanje 21.5 9.1

30. Guatemala 47.7 17.3 65. Zweden 14.8 10.1 31. Honduras 46.6 9.7 66. Zwitserland 18.9 9.6 32. Mexico 45.1 10.5 67. Rusland 21.2 7.2 33. Nicaragua 42.9 7.1 68. Joegoslavi~ 21.4 8.9 34. Panama 40.1 8.0 69. Australi~ 21.6 8.7 35. Amerika 21.7 9.6 70. Nieuw-Zeeland 25.5 8.8

(14)

THE-RC 119455 rnei W3

CC-NOTE 9 bIz. 13 If)

s-cI' , ! . I ! _N

1"'-,--::

I.fl t

,

"..+

s.-n~·

~

rt-J

• t

"

1

l.6:·

Q:;)--l)

_4-' ... (Z) .r ..,S) .:r ::r :r r-J

:r

0

.:r-eo

rf1 . :.' , 1

...,

:t

., •• t -, I I I 1-00

""

.:...

'01" r')

•••

"-i)

I ! ,

.

-1-1. I -

..

!

-r , I j

.,

..I

'

I j I I

t

"i-I I I 1 ,! . !

....

I

I , ., ,, -1~ . • . --t

, ,'"

2-.... :1 ..

1

,-l I

I

I I I , -._--._---_.~_, ..

9

~

~

j

-0.

~

-J..J

cl

'::,)

a-1

~ ~ . -• j)

,--1

~

.~

J)I.) CfI~. ,~

-~

- I ~

8

,

-~

\..L

\!5

i ., i-. ! , -, I I , r I --

,

(15)

THE-RC 49455 mel 1983 CC-NOTE 9 bIz. 14

100

110

120

130

140

150

160

170

180

190

200

210

220

230

240

250

260

270

280

290

300

310

320

330

340

350

360

370

380

390

400

410

420

430

440

4~jO

460

$SET INSTALLATION

BEGIN

FILE IN1(KIND=DISK),OUT(KIND=REMOTE>,IN2(KIND=DISK,FILETYPE=9);

INTEGER N1,N2;

READ(IN1,I,Nl,N2);

BEGIN

INTEGER I,J,ENT,R;

REAL L,M,BET,S2BET,C;

REAL ARRAY XE1:Nl,1:N2J,COMPC1:N1-1,1:2J;

REAL ARRAY AC1:Nl,1:N1J,DIST,MEAN,5D[1:N1-1J;

READ(IN2,I,FOR 1:=1 STEP 1 UNTIL Nl DO

FOR J:=l STEP

1

UNTIL N2

DO

XLI,J]);

TRANSFORM1(X,1,Nl,1,N2,A,FALSE),

WRITE(OUT,<II,"SINGLELINKAGESTOP"»,

SINGLELINKAGE(A,Nl,COMP,DIST>;

MEAN[lJ:=DIST[lJ; 5D[lJ:=O,

FOR 1:=2 STEP 1 UNTIL Nl-1 DO

BI::GIN

M:=DIST(IJ-MEAN[I-1J;

L:=M/I,

MEAN[IJ:=MEANEI-1J+L;

5D[IJ:=SQRT(~SD[I-1J**2)*(I-2)/(I-l)+M*L);

ENII;

WRITE<OUT,<III,X4,"I",Xl,"COMPEI,1]",X1,"COMPLI,2J",

X4,"DI5TCIJ",X4,"MEAN[IJ",X6,·SD[IJ"»;

FOR 1:=1 STEP

1

UNTIL Nl-1 DO

WRITE(OUT,<X2,I3,X4,I3,X7,I3,X4,F9.3,X2,F9.3,

X3,F9.3>,I,COMPCI,lJ,COMP(I,2J,DIST[IJ,

MEAN(

I J,sriL IJ) ;

R:=ENTIER«N1-1)/20)+1;

IF R=l THEN R:=2;

BA5ICSTATISTICS(DIST,R,Nl-R,BET,S2BET,C) ,

WRITE<OUT,<I,"ALFA-GEMIDDELD

",F9.4>,MEANCN1-l);

WRITE(OUT,<I,·ST. DEVIATIE V. ALFA

·,F9.4>,SD[Nl-1J);

WRITE<OUT,<I,"BETA-GEMIDDELD

",F9.4),BET),

WRITE<OUT,<I,"ST. DEVIATIE

V. BETA

",F9.4>,S2BET>;

END;

(16)

THE-RC /J')455 CC-NOTE 9 mel 1983 bIz. 15

--_._-SINGLELINKAGESTOP

t c/..1.

~d·

'I.

I COMP[l,1] COMP[l,2] DIST[!] MEANE!]

SDCIJ

1 64 68 0.224 0.224 0.000 2 64 69 0.283 0.253 0.042 3 33 44 0.412 0.306 0.097 4 52 54 0.424 0.336 0.098 5 47 52 0.500 0.369 0.113 6 14 64 0.510 0.392 0.116 7 14 35 0.539 0.413 0.119 8 3 6 0.583 0.434 0.126 9 58 66 0.608 0.454 0.131 10 14 36 0.632 0.472 0.136 11 48 63 0.707 0.493 0.147 12 14 43 0.762 0.515 0.160 13 49 60 0.781 0.536 0.170 14 14 59 0.800 0.555 0.178 15 38 41 0.800 0.571 0.183 16 18 55 0.806 0.586 0.186 17 45 47 0.849 0.601 0.191 18 14 67 0.854 0.615 0.195 19 11 39 0.894 0.630

.

0.200 20 51 58 0.894 0.643 0.204 21 49 51 1.000 0.660 0.213 22 18 48 1.077 0.679 0.226 23 46 53 1.077 0.696 0~236 24 10 25 1.166 0.716 0.250 25 18 37 1.204 0.735 0.263 26 45 46 1.208 0.754 0.274 27 27 70 1.221 0.771 0.284 f~. 28 45 49 1.300 0.790 0.296 2930 23 42 1.304 0.808 0.306 18 45 1.393 0.827 0.319 31 2 10 1.581 0.851 0.341 32 17 27 1.612 0.875 0.362 33 32 40 1.628 0.898 0.379 " -34 57 62 1.628 0.919 0.394 35 18 61 1.628 0.940 0.406 36 13 21 1.664 0.960 0.418 37 31 32 1.700 0.980 0.430 - - ~ 38 56 65 L.712 0.999 0.440 . 3940 31 38 1.811 1.020 0.454

_.

2 29 1.868 1.041 0.467 41 17 26 1.942 1.063 0.483 42 14 18 1.965 1.085 0 ••' . 43 2 13 1.985. 1.106 0.509 44 15 23 2.000' 1.126 0.521

-_

.. 45 14 56 2.012 1.146 .. 0.532. _'_' .. 46 7 30 2.126 1.167 0.545 47 2 12 2.147 1.198 0.558 48 14 57 2.163 1.208 0.570 t -49 17 24 2.~1, 1.229 0.583 'i 50 15 17 2.280 1.250 0.596

I

51 14 15 2.300 1.271 0.608

(17)

THE-RC 49455 mei 1983 CC-NOTE 9 bIz. 16 52 14 20 2.602 1.296 0.630 53 8 34 2.640 1.322 0.650 54 8 22 2.731 1.348 0.672 55 3 31 2.766 1.374 0.693 56 2 11 2.786 1.399 0.712 57 2 8 2.800 1.423 0.730 58 2 3 2.802 1.447 0.745 59 2 33 2.941 1.473 0.764 60 14 16 3.138 1.500 0.788 61 2 19 3.314 1.530 0.915 62 2 28 3.511 1.562 0.846 63 1 2 3.960 1.600 0.892 64 1 9 3.962 1.637 0.933 65 1 14 4.031 1.674 0.972 66 1 7 4.662 1.719 1.032 67 1 50 6.101 1.784 1.156 68 4 5 7.506 1.869 1.341 69 1 4 11.597 2.010 1.773

ALFA-GEMIDDELD

2.0096 ST.

DEVIATIE:

v.

ALFA

1.7728

BETA-GEMIDDELD

1.7864

ST. DEVIATIE V. BETA

1.0079 - --- - - - --- - - - _ .

(18)

THE-RC 49455 rnei, ]9{?3 ) ,,~- - / ' \

~;)

CC-NOTE 9 bIz. 17 . J If'

,...

..T ..J .:r I~'"

J

\ r

.

.. I

Ql

,~ () )

I

c.:

,- '.I :.>

\:--,.J

-'

y

. / .J-' -< J ~ ~ ~ .~ I 7" ~ :' 0 'r

-9

w .J.-o) ,J ~

-<

,

---' '>J

0

s:

i

, ! I I :. r ... () r f .r N , .-, ... Q) ..._. N .0 ,', /" ',;. 'J ;:;.::...)

--b

s-".l

--

...,.. C<).;....p.,J-~ ---,--=---.:...:.--=-...,....-I.('J

(19)

THE-RC 49455 mel 1983 CC-NOTE 9 bIz. 18 AVERAGELINKAGESTOP 0(. 0(- 'Sol-L l. l

I COMP(l,l) COMP[I,2J DIST(lJ

MEAN[IJ

SD[IJ

1 64 68 0.224 0.224 0.000 "') 64 69 0.348 0.286 0.088 .:.. 3 33 44 0.412 0.328 0.096 4- 52 54 0.424 0.352 0.092 5 3 6 0.583 0.398 0.130 6 58 66 0.608 0.433 0.145 7 14 64 0.629 0.461 0.152 8 47 52 0.677 0.488 0.160 9 48 63 0.707 0.513 0.166 10 36 43 0.762 0.537 0.175 11 49 60 0.781 0.560 0.182 12 38 41 0.800 0.580 0.187 13 18 55 0.806 0.597 0.190 14 14 35 0.834 0.614 0.193 15 59 67 0.854 0.630 0.196 16 11 39 0.894 0.647 0.201 17 46 53 1.077 0.672 0.220 18 49 51 1.118 0.697 0.238 19 10 25 1.166 0.721 0.255 20 45 47 1.178 0.744 0.269 21 27 70 1.221 0.767 0.282 22 36 59 1.258 0.789 0.2'94 23 23 42 1.304 0.812 0 .• 307 24 14 36 1.433 0.837 0.326 25 49 58 1.571 0.867 0.351 26 18 37 1.602 0.895 0.373 27 32 40 1.628 0.922 0.392 ---"---28 57 62 1.628 0.947 0.407 29 13 21 1.664 0.972 0.421

-30 56 65 1.712 0.997 0.436 31 45 46 1. 771 1.022 0.450

- _ .

32 18 61 1.911 1.050 0.470 33 17 26 1.942 1.077 0.488 - - _ . 34 2 10 2.042 1.105 0.508 3536 7 30 2.126 1.134 0.530 --_.-.-18 48 2.265 1.166 0.555 37 2 12 2.314 1.197 0.579 38 31 32 2.490 1.231 0.608 3940 13 29 2.549 1.264 0.636 17 24 2.580 1.297 0.662

-41 15 23 2.589 1.329 0.684 4243 8 34 2.640 1.360 0.705 18 49 2.789 ' 1.393 0.730 44 8 22 3.028 1.430 0.762 45 15 27 3.101 1.468 Q ..79~_ . 46 31 38 3.104 1.503 0.821 47 14 57 3.344 1.542 0.855 48 19 33 3.4Cf~. 1.583 0.992 49 2 13 3.620 1.625 0.929 50 18 20 4.099 1.674 ,., 0.984 51 1 11 4.143 1.722 1.034

(20)

THE-RC 49455 mei 1983 CC-NOTE 9 bIz. 19 52 15 17 4.184 1.770 1.079 53 18 56 4.226 1.816 1.120 54 :5 9 4.237 1.861 1.158 55 18 45 4.498 1.909 1.201 56 8 19 4.989 1.964 1.259 57 14 18 5.265 2.022 1.322 ---~ --58 B 31 5.505 2.082 1.388 59 1 2 5.637 2.142 1.452 60 3 7 5.765 2.203 1.513 61 14 16 6.333 2.270 1.591 62 8 28 7.076 2.348 1.692 63 4 5 7.506 2.430 1.900 64 14 15 8.076 2.518 1.920 65 3 8 8.539 2.610 2.046 66 1 3 10.862 2.735 2.270 67 14 50 11. 792 2.971 2.510 68 1 14 20.867 3.135 3.312 69 1 4 34.653 3.592 5.020

ALFA-GEMIDDELD

3.5921

ST. DEVIATIE V. ALFA

5.0204

BETA-GEMIDDELD

2.8501

ST. DEVIATIE V. BETA

2.2602

(21)

-THE-RC 49455 I .. } me"

1lU3 )

',,~ CC-NOTE 9 bIz. 20 J II' ,

co

l'

i'-' . ('J I I .., I ..£ !,

','-'

"-I I ! ;r N ;--I C'"

o

Lf' N Lf' , i I 1 "r'" .r I i i ! •., 1 1"\ '1 4---_ ~

I

N

, ...

~,_._+

.. ,

co

, I:

i

!

!

.~-- '. r-- ~ I , i 1 IIf),

,

.,..,

'?

o ~. : i L ,'4lI) .i

I.

:

.

';:

.

, , I

, i

I, : i

,',

'! . . . i . I I I -:) ~ (

-3m

J ~ :~

r

;.)

~

-p

'~

-j

3

~ v -..J

(22)

THE-RC 49455 mel 1983 CC-NOTE 9 bIz. 21 COMPLETELINKAGESTOP d...

otl

~ol'

\, I.

I COMPCl,1] COMPCI,2] DIST[I] MEAN[I)

SD[IJ

1 64 68 0.224 0.224 0.000 2 33 44 0.412 0.318 0.133 3 64 69 0.412 0.349 0.109 4 52 S4 0.424 0.368 0.097 5 3 6 0.583 0.411 0.127 6 58 66 0.608 0.444 0.140 7 14 64 0.707 0.482 0.162 8 48 63 0.707 0.510 0.170 9 36 43 0.762 0.538 0.179 10 49 60 0.781 0.562 0.186 11 38 41 0.800 0.584 0.190 12 -18 55 0.806 0.602 0.193 13 45 47 0.849 0.621 0.197 14 59 67 0.854 0.638 0.199 15 11 39 0.894 0.655 0.203 16 46 53 1.077 0.681 0.223 17 14 35 1.131 0.708 0.242 18 10 '")"'-.:....J 1.166 0.733 0.258 19 27 70 1.221 0.759 0.275 2021 49 51 1.237 0.783 0.288 23 42 1.304 0.808 0.303 22 45 52 1.432 0.836 0.324 2324 36 59 1.612 0.870 0.356 32 40 1.628 0.901 0.381 25 57 62 1.628 0.930 0.400 26 13 21 1.664 0.959 0.417 27 56 65 1.712 0.987 0.434 28 18 61 1.772 1.015 0.451 29 17 26 1.942 1.047 0.475 30 7 30 2.126 1.083 0.307 31 2 12 2.147 1.117 0.534 32 49 58 2.214 1.151 0.360 33 18 37 2.335 1.187 0.588 14 2.452 1.224 0.619 --_.-.-34 36 35 2 10 2.502 1.261 0.647 ----_ ...• ---36 45 46 2.508 1.295 0.670 37 8 34 2.640 1.332 0.697 _._---_.-38 17 24 2.912 1.373 0.734 39 20 48 2.968 1.414 0.768 -40 13 29 3.036 1.455 0.800 41 32 38 3.132 1.496 0.832 ----~---42 15 23 3.178 1.536 0.862 43 19 31 3.314 1.577 0.894 -44 8 22 3.324 1.617 0.922 45 15 27 3.764 1.664 0.966 -.--- ---_. ---46 19 28 4.168 1.719 1.024 47 1 11 4.327 1.774 1.0B2 -48 3 9 4.512 1.831 1.141 56 4.531' 1.887 1.193

-

---'-~--'--49 20 50 45 49 4.540 1.940 1.239 51 14 57 4.827 1.996 1.291

(23)

THE-RC 49455 mei 1983 CC-NOTE 9 bIz. 22 ..- '"J 16 18 4.982 2.054 1.344 J.:. 53 8 33 5.763 2.124 1.425 54 2 13 5.770 2.191 1.496 ",0C:-15 17 6.671 2.273 1.601 J - J 56 3 7 7.023 2.357 1.708 57 8 32 7.366 2.445 1.818 58 4 5 7.506 2.533 1.921 59 14 45 7.734 2.621 2.021 60 16 20 9.527 2.736 2.193 61 1 2 10.065 2.856 2.369 62 14 16 10.439 2.978 2.539 63 8 19 11.035 3.106 2.715 64 3 8 14.280 3.281 3.034 65 14 15 15.554 3.470 3.374 66 14 50 17.726 3.686 3.780 67 1 3 19.560 3.922 4.223 68 1 4 36.575 4.403 5.766 69 1 14 49.563 5.057 7.894

ALFA-GEMIDDELD

5.0572

ST. DEVIATIE V. ALFA

7.8938

BETA-GEMIDDELtI

3.8444

ST. DEVIATIE V. BETA

3.7963 _0_. _ _ ·· · .

(24)

-THE-RC 49455 mei 1983 ,...---~

~~J

CC-NOTE ') blz. 23

®

~'I

I , : -I 1\ Q. I I ~ ·1 . I : I !

c

u

r \ ' ( ... CL. .- - ...1 I . ...L . I

I

I

I

I

j • -i - I -.~ I -j

i

;.:r ~r

.

I

i.)

~~

..,

t /

: I I .! ., I :. : • , '-.S,), I . I

~~/I

I ; I :. I . . I : . !

.-,

-c

,- J , NJ

(25)

THE-RC 49455 mei 1983 CC-NOTE 9 bIz. 24 WARDSLINKAGESTOP

01...

01..

50/.

l

.

~ t

I COMP[l,lJ COMP[l,2J DISTEIJ

MEANEIJ SD[IJ 1 64 68 0.224 0.224 0.000 2 64 69 0.389 0.306 0.117 3 33 44 0.412 0.342 0.103 4 52 54 0.424 0.362 0.094 5 3 6 0.583 0.406 0.128 6 58 66 0.608 0.440 0.141 7 48 63 0.707 0.478 0.163 8 47 52 0.762 0.514 0.181 9 36 43 0.762 0.541 0.189 10 49 60 0.781 0.565 0.194 11 14 64 0.791 0.586 0.196 12 38 41 0.800 0.604 0.197 13 18 55 0.806 0.619 0.196 14 59 67 0.854 0.636 0.199 15 11 39 0.894 0.653 0.203 16 14 3S 1.054 0.678 0.220 17 46 53 1.077 0.702 0.234 18 10 ~"'- 1.166 0.727 0.252 .. ..J 19 27 70 1.221 0.753 0.270 20 49 51 1.231 0 .. 777 0.284 21 23 42 1.304 0.802 0.299 22 45 47 1.470 0.833 0.325 23 32 40 1.628 0.867 0.358 24 57 62 1.628 0.899 0.383 25 13 21 1.664 0.930 0.405 26 36 59 1.708 0.960 0.425 27 56 65 1.712 0.987 0.441 28 18 37 1.867 1.019 0.464 29 17 26 1.942 1.051 0.487 30 7 30 2.126 1.087 0.517 31 2 12 2.147 1.121 0.543 - ? 18 61 2.199 1.154 0.567 .:l_ 33 49 58 2.600 1.198 0.612 34 8 34 2.640 1.241 0.652 35 10 29 2.725 1.283 0.689 36 31 32 2.778 1.325 0.724 37 17 24 2.792 1.364 0.753 38 15 23 3.017 1.408 0.790 39 45 46 3.121 1.452 0.826 40 8 22 3.157 1.494 0.859 41 14 36 3.432 1.542 0.901 42 20 48 3.577 1.590 0.943 43 2 10 4.043 1.647 1.004 --_.__ ._-44 19 28 4.168 1.704 1.063 45 18 20 4.450 1.765 1.128- - - ~ -.. -46 15 27 4.983 1.835 1.212 47 31 38 5.206 1.907 1.295 _. ---'._-48 1 11 5.226 1.976 1.368 49 5.45? .' 2.047 1.442

- - _ .

3 9 '.. 50 16 17 5.770 2.122 1.521 51 2 13 6.081 2.199 1.605

(26)

THE-RC 49455 mei 1983 CC-NOTE 9 bIz. 25 52 8 33 7.045 2.292 1.725 53 4 5 7.506 2.391 1.853 54 14 57 7.936 2.493 1.994 55 18 56 8.936 2.611 2.i49 56 18 49 9.599 2.735 2.325 57 3 7 10.146 2.865 2.505 58 19 31 10.617 2.999 2.693 59 45 50 11. 739 3.147 2.893 60 15 16 12.165 3.298 3.096 61' 1 2 14.045 3.474 3.364 62 8 19 16.550 3.695 3.727 63 14 15 25.653 4.033 4.618 64 18 45 25.853 4.374 5.332 65 3 8 31.171 4.787 6.247 66 3 4 59.268 5.612 9.133 67 14 18 71.301 6.592 12.106 68 1 3 84.439 7.737 15.290 69 1 14 488.450 14.704 59.826

ALFA-GEMIIIDELIt

14.7041

ST. DEVIATIE V. ALFA

59.8255

BETA-GEMlItIlELIt

5.8630

ST. DEVIATIE V. BETA

9.2753 .~-_._---

(27)

---•

THE-RC 49455 mel. 1983

---

----"'--\

.

' CC-NOTE 9 bIz. 26 ,) I J J .... U

o

cc

o

'

.

'"

/

~,

, 1 ""!.! WI· I L , T I f'

i

. ,

,

'j

I • . '-5),. , , , ; ,

"""a

i

,

~a

~,

/

..

\

:\

.)

(28)

-THE-RC 49455 mei 1983

CC-NOTE 9 blz.27

1.5. Bespreking van de resultaten.

Het eerste wat opvalt in tabel 1.5 is dat stopregel (1.5) niet goed werkt en bovendien bijzonder gevoelig is voor veranderingen in K. Het is duidelijk dat (1.5) geen goede stopregel is en der-halve niet gebruikt moet worden.

Misschien is deze regel te verbeteren door in de definitie op pagina 8 a

j te vervangen door a of ~.

Een nadeel blijft echter dat toch vele waarden van S bekeken

u

j moeten worden om tot een afbreekpunt te komen.

In tabel 1.4 komt duidelijk het nadeel van stopregel (1.4) tot

uiting. Door grote waarden van de laatste ai' worden u en S

s a

erg groot. waardoor het proces nogal laat gestopt wordt. Vooral bij de methode van Ward is dit goed te zien.

Stopregel (1.6) (zie tabel 1.6) levert voor deze data dan ook betere resultaten. Bovendien kan de parameter K naar eigen goed-dunken ingesteld worden. (Bij de methode van Ward. toegepast met

stopregel (1.4). heeft veranderen van K = 1.5 naar K = 3.0 geen

effect!)

Een algemene conclusie mag echter uit 'dit ene voorbeeld niet ge-trokken worden. Als de criteriumwaarden van het begin tot het eind geleidelijk oplopen, zal het verschil tussen de stopregels (1.4) en (1.6) gering zijn.

Persoonlijk lijkt het mij aan te bevelen om stopregel (1.6) te gebruiken met verschillende waarden van K.

Uit de gevonden waarden van

a

+ K

*

S~ kan dan een geschikt

af-breekpunt gekozen worden.

Het lijkt me niet gewenst om stopregel (1.6) in te bouwen in de verschillende clustermethoden. maar de gebruiker te wijzen op de mogelijkheden die deze stopregel biedt.

De gebruiker kan dan zelf bepalen welke waarde van K hij kiest. rekening houdende met de kennis die hij van de gebruikte data heeft.

(29)

THE-RC 49455 mei 1983 CC-NOTE 9 bIz. 28 1.6. Literatuur. [1] G.N. Lance, Williams W.T. (1967)

A General Theory of Classificatory Sorting Strategies I. Hierarchical Systems

The Computer Journal, 9 pp. 373-380 [2] R. Mojena (1977)

Hierarchical Grouping Methods and Stopping Rules: an Evaluation The Computer Journal, 20 pp. 359-363

[3] R. Mojena, Wishart D. (1980)

Stopping Rules for Ward's Clustering Method Compstat 1980

Int. Association for Statistical Computing, pp. 426-432 [4] J.A. Schouten (1979)

Afstudeerscriptie Clusteranalyse

(30)

TRE-RC 49455 mei 1983

CC-NOTE 9 bIz. 29

2. Een methode om te toetsen of twee clusters verenigd mogen worden tot een groot cluster.

2.1. Inleiding.

In het hiernavolgende wordt een methode afgeleid die het mogelijk maakt om de hypothese te toetsen dat twee gegeven clusters met respectievelijk N

A en NB elementen twee aangrenzende stukken van

een groot cluster zijn.

De objecten van de clusters worden opgevat als punten in een Euclidische ruimte en geprojecteerd op de lijn die de

zwaartepun-ten van de beide clusters verbindt.

Uit deze projecties wordt de zogenaamde disjunctie W berekend.

Onder de nulhypothese blijkt dat W

*

I(N

A + NB)'niet-centraal

Stu-dent verdeeld is. Getoetst wordt of de disjunctie significant grater is dan een bepaalde waarde, die onder andere afhangt van N

A en NB (onder de nodige veronderstellingen).

Wordt de hypothese niet verworpen, dan mogen de twee betreffende clusters samengevoegd worden tot een cluster. Een eis is dat ieder cluster minstens 2 elementen bevat.

De methode is gebaseerd op de door P.R.A. Sneath (zie [2J en [3]) ontwikkelde toets.

2.2. Model.

We gaan ult van een Euclidisch model.

Stel we hebben m objecten Ql' " ' , Q

mwaaraan n variabelen

VI' " ' , V

n gemeten zijn. De score van object Qi op variabele Vj

noemen we X

ij (1 , i ' m , 1 , j 'n).

We beschouwen in het vervolg steds twee clusters, zeg A en E met respectievelijk N

A en NB elementen.

De clusters A en B kunnen nu opgevat worden als twee verzamelingen in een n-dimensionale Euclidische ruimte.

(31)

THE-RC 49455

mei 1983

CC-NOTE 9

bIz. 30

De afstand tussen twee objecten Q en Q (1 (u, v , m) wordt nu

u v gedefinieerd als (2.1) d~ n :=

(1 \

(X - X

)~

n L UJ' vj j=l

De factor l/n is een schalingsfactor.

Een eerste voorwaarde is nu dat de clusters bij benadering (hy-per)sferisch zijn. Aan deze voorwaarde wordt in het algemeen vol-daan als de clusters verkregen zijn als resultaat van een clus-terproces met de methode van Ward of met de complete linkage-methode (Johnson's max., farthest neighbour). Verder wordt nog verondersteld dat de clusters bij benadering steekproeven uit een multivariate normale verde ling vormen.

Als het aantal objecten in een cluster kleiner is dan het aantal variabelen waaraan de objecten gemeten zijn, dan kunnen we er niet vanuit gaan dat zo'n cluster (hyper)sferisch is, omdat de ver-strooling van de objecten in bepaalde richtingen nul is. Oaarom wordt aangenomen dat N

A > n en NB > n.

2.3. Oefinitie en berekening van de projecties.

Door de clusters A en B te projecteren op de verbindingsliJn 1 van hun zwaartepunten wordt het n-dimensionale probleem teruggebracht

(32)

THE-RC 49455 mei 1983

A

, 1

---

- . '... .., CC-NOTE 9 bIz. 31

figuur 2.1: Twee clusters A en B met hun projecties op de lijn 1 die de zwaartepunten ZA en ZB verbindt.

Laat gA en gB de verzamelingen geprojecteerde punten van A, respectievelijk B op de lijn 1 zijn.

Zij d

iA de afstand tussen Qi t.: A V B en ZA:

(2.2)

en diB de afstand tussen Q

i € A V B en Zb:

(2.3)

(N.B.:

I.

betekent: sommeer over die waarden van p waarvoor ge1dt

Q€:A p

dat Q(A; analoog voor

I.)

p QE:B

P

Tenslotte wordt dAB gedefinieerd als de afstand tussen ZA en ZB:

(2.4)

Om het probleem zo simpel mogelijk te houden, worden de projecties van de elementen van A en B zo gedefinieerd dat ZA in de oorsprong en ZB in het punt dAB terecht komt.

(33)

THE-RC 49455 mei 1983

CC-NOTE 9 bIz. 32

Eenvoudig is na te gaan dat dit als voIgt wordt bewerkste1ligd:

definieer de projectie qi van object

Ql

AvB als

Zij qA := 1

I

q N A en QE: A P P 1

I

q qB := N B Qe. B P P

dan voIgt uit het bovenstaande:

Voor het uitvoeren van de toets hebben we nog de zuivere schatters

1 - 2 ~

I

(qp-qA) , gebaseerd op N A - 1 vrijheidsgraden A Q A p (2.8) 2 s B := N -11

I

(qr-qB) , gebaseerd op N- 2 B - 1 vrijheidsgraden. B Q B r

2.4. Definitie voor de mate van disjunctie van de clusters A en B. De opmerkzame lezer verwacht waarschijnlijk dat nu getoetst wordt of de zwaartepunten van A en B significant verschillen. Dit is ech-ter niet het geval.

Zelfs bij twee clusters die sterk overlappen, kan het verschil

tus

-sen qA en qB significant zijn, als de clusters maar groot genoeg zijn (dat wil zeggen N

A en NB groot genoeg). We komen hier later nog

(34)

THE-RC 49/~55 mei 1983

CC-NOTE 9 b1z. 33

De mate van disjunctie van A en B wordt geba8eerd op de verkregen

projecties van A en B op I als voIgt:

duide1ijk worden. \.[ bo s :=

I

S2 s2

l \

L(NA+NB ) (N A A +

NBB~

De keuze van deze definitie zal later (2.9)

In het eenvoudigste geval. a1s N

A

=

NB

=

N en s2A 2 S B 2 S geldt dat W obs = dAB!(2s). dus d

W

*

1:2JN=

~

*

IN.

wat op een Student-verdeling met 2N-2

obs ~

vrijheid8graden lijkt.

(Bij een t-toets voor het vergelijken van de gemiddelden van 2

onafhankelijke steekproeven Xl' •••• X

n en Y1• •..• Ymwaarbij

de waarnemingen normaal verdeeld zijn met eenzelfde onbekende cr is

de toetsingsgrootheid voor de nulhypothese HO: ~l

=

~2 gelijk aan

!-Y. ~

--*- *

I~ s met V n + m - 2 V 1 '" n - 1; v2

=

m - 1

*

2 2 s = (vl~ +v~2)/v.

Voor n m = N en ~21 ~22 82 vinden we:

x - Y.

8

fNl

~-Y.

*/-i=U*/N

Onder HO heeft deze grootheid een Student-verdeling met 2N-2

(35)

THE-RC 49455 mei 1983

CC-NOTE 9 bIz. 34

In het algemeen is natuurlijk niet aan de bovengenoemde voorwaar-den voldaan.

Welch

([4]

en

[5])

heeft aangetoond dat de t-toets robuust is met

betrekking tot afwijkingen van gelijke varianties, mits gebruik gemaakt wordt van een zogenaamde effectief aantal vrijheidsgraden, zeg F.

De nulhypothese:

(2.10) HO: de twee clusters zijn afkomstig uit dezelfde populatie,

wordt getoetst met de toetsingsgrootheid t

w

'

obs

met effectief aantal vrijheidsgraden F, te weten

2 2 (2.12) F :=

[C

+ (l-c) ]-1 waarbij N - 1 N - 1 ' A B (2.13) C := NB

*

(zie

[5],

pagina 82A+ NA

*

296).

significant kleiner is dan de waarde t

w

,die behoort

exp

dan wordt de nulhypothese

Ais t

w

obs

bij een gekozen waarde van W, zeg W ,

exp

aanvaard, en mogen de clusters samengevoegd worden.

In paragraaf 2.5 zal blijken dat, onder zekere aannamen, geIdt:

(2.14) W exp is de

niet-centraliteits-*

O. Voor gekozen W exp Onder Ho is t

w

exp

parameter geIijk aan

(2.15) 6 =

/(N

(36)

THE-RC 49455 mel 1983 CC-NOTE 9 bIz. 35 tot en met (2.14) ~ t

w

obs

)

bepaald. en 0 bepaald volgens (2.11) overschrijdingskans

PC! (0)

F

Willen we H

o

met onbetrouwbaarheid a toetsen, dan worden t

w

obs

'

F

en hiermee wordt de

Als rleze overschrijdingskans ~l - a is. dan wordt H

o

aanvaard

(twee clusters uit dezelfde populatie) en mogen de clusters worden samengevoegd.

(37)

THE-RC 49455 mei 1983 CC-NOTE 9 b1z. 36 2.5. Af1eiding van W • exp

Voor het uitvoeren van de toets is uitgegaan van de vo1gende veronderstel1ingen:

1. de clusters zijn bij benadering (hyper)sferisch. en

2. de objecten uit ieder cluster kunnen grofweg gezien worden als steekproeven uit een multivariate normale verdeling.

Sneath ([2]) redeneert nu als voIgt:

Als we twee aaneengrenzende clusters uit eenzelfde multivariate normale verdeling hebben. dan zullen deze clusters samen meestal het "middenstuk" van een grate mu1tivariaat-normale puntenwolk representeren. zodat de verdeling van de projecties langs 1 eer-der homogeen dan Gaussisch is.

Hij beschouwt daarom het volgende model: twee aaneengrenzende clusters die samen bij benadering een cylinder vormen. waarbinnen de objecten een meerdimensionale Poissonverdeling vo1gen. De zwaartepunten van de clusters liggen op de as van de cylinder. De verdeling van de projecties 1angs 1 is dan (voor N

A en NB groat)

bij benadering homogeen. De clusters verdelen de cylinders in twee stukken (zie figuur 2.2.).

Small numbers in clusters

;.•...

l. "',

.. M<

...

. . . .

".

Large numbeu in clusten ,~ ~(...,~ ~J'" < •

.

.

", I. figuur 2.2.

(38)

THE-RC 49455 mei 1983

CC-NOTE 9 blz. 37

Het voordeel van dit model is dat, voor grote N

A en N , WB exp bij

benadering 13 is, onafhankelijk van de plaats waar de cylinder in

twee delen gesplitst is. Dit is als volgt in te zien:

Beschouw een cylinder die verdeeld is in twee vakken I en I I ter

lengte aI' respectievelijk a 2. Laat het aantal elementen in deel I

en I I nl' respectievelijk n2 zijn, en veronderstel dat deze

ele-menten in beide stukken een poisson-proces met intensiteit A

vol-gen (zie figuur 2.3).

x.---

,

figuur 2.3 Dan is W

=

EW b

=

E exp 0 s 2 2 =: f(~l' ~2' ~l' s2) -r I - 2 2

Ontwikkelen van f rond (E~I' E~2' E~I' E~2) levert:

W

exp E

Omdat !I - Ps(A) en !2 - Ps(A) is

IE~1-E~21

=

~(al+a2)'

2 1 2 2 1 2

E~1 =

U

a1> E~2 =

12

a2 en

(39)

THE-RC 49455 mei 1983 Hieruit voIgt: CC-NOTE 9 bIz. 38 W exp = \(An 1+>.n2) ---:::2~---::'2-- =

13

\ A n1 A O2 \ (n 1+n2)

(-yz-

+

-yz-)

(Met enig rekenwerk is in te zien dat het totaal van de hogere-orde termen voor grote n 1 eo O2 naar nul gaat).

Voor kleine waarden van N

A en NB moet echter een correctie worden toegepast. Met Monte-Car1o-methoden is bepaald dat 3/(N

A+NB-1) een goede correctie is (zie [2]).

We vinden dus onder dit model, onder de nulhypothese:

3

(2.16)W

=I'S+N

+N -1·

exp A B

Merk op dat strikt gezien het cylindrische model niet realistisch is." Uitgaande van 2 (hyper)sferische aangrenzende clusters W9rdt

I

overgegaan op een cylindrisch model, waarbij de 2 clusters de

cylinder in 2 stukken splitsen (zie figuur 2.2).

In praktische situaties zal echter het convex omhulse1 van de clusters samen ronde uiteinden hebben. Door met het cy1indrische model te werken, wordt W aIleen wat vergroot, waardoor de toets conservatief is (zie [2], pagina 133). Bovendieo heeft de ervaring geleerd dat dit model robuust is met betrekking tot verschi11en in verdeling van de clusters (zie [3], pagina 22).

We hebben nu al1e informatie die nodig is om de beschreven toets uit te voeren.

(40)

THE-RC 49455 mei 1983

CC-NOTE 9 bIz. 39

2.6. Ret gebruik van de toets in de praktijk.

Om de in 2.2 tot en met 2.5 afgeleirle methode toe te passen, heb ik een aantal procedures geschreven, namelijk de procedures

- Reconstructclusters - Clusterprojections - Welchsclustertest

- Noncentra1studentprobability.

De procedures worden hier kort toegelicht; meer informatie vindt u in hoofdstuk 3.

De procedure reconstructclusters is geschreven om een clusterpro-ces, dat bijvoorbeeld met een stopcriterium zoals in hoofdstuk 1 beschreven gestopt is, direct te kunnen laten volgen door een toets. In 1.3 hadden we 70 objecten gemeten aan 2 variabelen. De gegevens waren opgeslagen in de ruwe datamatrix X[1:70, 1:2] (zie pagina 12, 13). A1s we de objecten c1usteren met de complete linkage-methode en stoppen na 60 clusterslagen, krijgen we de clusterstructuur zoals op pagina 23. Willen we nu toetsen of de clusters A en B nog samengevoegd mogen worden, dan wordt met re-constructclusters bepaald welke objecten in cluster A,

I,

respectievelijk cluster B horen. De gegevens behorende bij d~ objecten in de be ide clusters worden opgeslagen in de array's CLUSTERA[l:NA, 1:2] en CLUSTERB[l:NB, 1:2]. We hebben dan aIle gegevens die nodig zijn voor het uitvoeren van de toets.

Met de procedure clusterprojections worden nu, uitgaande vanJde array's CLUSTERA en CLUSTERB, voor de 2 clusters hun zwaartepun-ten, de afstand tussen de zwaartepunten en de projecties van de clusters op de lijn 1 die de zwaartepunten verbindt, berekend.

(41)

THE-RC 49455 mei 1983

CC-NOTE 9 bIz. 40

De procedures Welchclustertest bepaalt nu:

2 2

qA' qB' sA • sB' t

w

, t

w

Wobs ' Wexp ' F en de

overschrij-obs exp dingskans P(!F(c5) ) t), waarbij t W exp t

w

obs en

Deze kans wordt berekend met de real procedure noncentralstudent-probability.

De toets is uitgevoerd voor de clusters A en B die op pagina 23 zijn aangegeven. De resultaten vindt u op pagina 41.

We zien dat voor a

=

0.1 de hypothese dat A en B afkomstig zijn

uit dezelfde populatie niet aanvaard wordt.

Aan het einde van deze paragraaf worden nog enkele voorbeelden gegeven (zie appendix op pagina 42).

(42)

THE-RC 49455 CC-Note 9

mei 1983 b1z. 41

GFVARMAF CLUSTERS MET HUN DATAMATRICES

14 20.9000 8.8000 35 21.7000 9.6000 36 21.8000 8.1000 43 22.5000 7.8000 45 18.8000 12.8000 46 17.1000 12.7000 47 18.2000 12 .2000 49 16.9000 9.5000 51 18.1000 9.2000 52 18.2000 11.7000 53 17.5000 13.7000 54 18.5000 11.4000 57 22.3000 11.9000 58 19.0000 10.2000 59 20.9000 8.0000 60 17.5000 10.0000 62 23.5000 10.8000 64 21.5000 9.1000 66 18.9000 9.6000 67 21.2000 7.2000 68 21.4000 8.9000 69 21.6000 8.7000 16 20.5000 3.9000 18 17.3000 7.0000 20 14.8000 5.7000 37 17.4000 5.8000 48 16.4000 8.2000 55 17.4000 7.8000 56 13.1000 9.9000 61 19.0000 7.5000 63 15.7000 8.3000 65 14.8000 10.1000 NA FN NR 77 10 ZWAARTEPUNT CLUSTER A 19.909 10.086

NAR (AFSTAND ZWAARTEPUNTEN) IS:

ZWAARTEPUNT CLUSTER B 16.640 7.470 2.983 MFAN PROJA MFAN PROJR VARIANCE PROJA VARIANCE PROJB 0.0000 2.9830 0.9634 0.7194

RFRFKENDF T-WAARDE, TWORS 8.76836

DISJUNCTIE, W-OBS. 1.55004

FFF. AANTAL VRIJHEIDSGRADEN: 20

VERWACHTE DISJUNCTIE, W-FXP: 1.82883 VERWACHTE T-WAARDE, TW-EXP.: 10.34540

OVERSCHRIJDINGSKANS 0.8389

(43)

THE-RC 49455 mel 1983

Appendix

Nog enige voorbeelden van het gebruik van de toets.

CC-NOTE 9 bIz. 42

T

, )J2 = (2, 2.5, 3)

Opmerking vooraf:

lIe hierna te bespreken clusters komen uit multivariate normale verde-lingen en zijn gegenereerd met de procedure multivariatenormalarray (zie [6]).

Voor het clusteren is gebruik gemaakt van de complete linkage-methode. Er is zes keer een toets uitgevoerd. De benodigde informatie is hieron-der kort opgesomd.

1. Steekproefgrootte: n

=

100;

L

1 3 ;

)J

=

(2, 2, 2)T

Toets I: c1usterproces stoppen na 95 stappen en de toets uitvoeren

voor cluster 1 en 2.

Overschrljdingskans: 0.9663

- HO niet verwerpen - (a = 0.05)

Toets II: clusterproces stoppen na 80 stappen en de toets uitvoeren

I

voor cluster 5 en 6.

Overschrijdingskans: 0.5591 HO niet aanvaarden

-2. Twee steekproeven Xl en X2 ter grootte SO.

L

I

=

1 3 ' )JI

=

(3, 3. 3) T

L2 •

[g

1

~5 ~

Toets III: clusterproces stoppen na 91 stappen en de toets uitvoeren voor cluster 1 en 2.

Overschrijdingskans: 0.1805

Toets IV: als toets III maar met cluster 8 in plaats van cluster

2.0verschrljdingskans: 0.0388

De hypothese: de clusters zijn afkomstig uit verschillen-de populaties worverschillen-den niet verworpen.

(44)

THE-RC 49455 mei 1983

CC-NOTE 9 bIz. 43

Opmerking:

Merk op dat bij toets IV cluster 1 uit 8 elementen bestaat, aIle afkom-stig uit X, terwijl cluster 8 uit 15 elementen bestaat, waarvan er 14

nit X

z

komen.

3. Twee steekproeven Xl en X

z

ter grootte 50.

Xl als in 2.

I

z

=

~ 1~5 ~

,

~z

= (4, 5, 6)T

~

0

~

Toets V clusterproces stoppen na 92 stappen en de toets uitvoeren

voor cluster 1 en 2.

Overschrijdingskans: 0.3749

Toets VI: clusterproces stoppen na 92 stappen en de toets uitvoeren voor cluster 3 en 52.

Overschrijdingskans: 0.0073

De hypothese: de clusters zijn afkomstig uit verschil1ende populaties wordt met kracht aanvaard.

(Vergelijk de opmerking bij toets IV.)

Voor uitgebreide informatie voor

onderdeel 1. , zie pagina 44, 45, 46, 47 onderdee1 2. , zie pagina 48, 49, 50

(45)

THE-RC 49455 mei 1983

CC-NOTI~ 9 bIz. 44

I .••:

..

1 t,L. .:. • •:'.] UL:) I.:l1 , 1 ] eel,~'] [lCI]

:'.~~ ,"--; 0 .. 112 ::'1 ::-0 52 0.798 ;7 /2 O.:.65 52 4 39 0.807 ,.~ J; ;0 0. l79 ~s ::~ 21 0.854 4 :4 59 0.208 54 12 60 0.865 .J :~:o 78 0.239 .~-'-' 83 93 0.866 b 75 98 0.257 56 14 19 0.870 7 .25 87 0.259 57 16 18 0.896 8 6 31 0.262 58 13 81 0.937 9 32 94 0.283 59 30 82 0.944 10 1.2 S3 0.288 60 24 46 1.018 11 92 96 0.291 61 43 66 1.052 :12 39 40 0.297 62 23 62 1.054 1~ 14 57 0.297 63 8 15 1.051 :14 1 37 0.304 64 1 45 1.093 15 3 54 0.312 65 3 10 1.099 16 9 ~;O 0.316 66 12 17 1.121 17 12 63 0.336 67 5 51 1.185 18 28 ~j8 0.347 68 20 42 1.191 19 2 41 0.349 69 69 71 1.231 20 48 64 0.367 70 14 92 1.253 21 49 76 0.371 71 4 75 1.255 22 46 47 0.412 72 9 34 1.309 23 92 91' 0.427 73 67 95 1.354 24 62 85 0.430 74 2 30 1.451 25 17 32 0.440 75 6 14 1.521 26 45 0:5 0.442 76 1 24 1.511 27 b 74 0.469 77 5 12 1.724' .'8 j 9 :53 0.481 78 1 13 1.725 29 CI::- "73 0.510 19 16 43 1.808 .,-' 30 35 813 0.517 80 3 83 1.814 .,1 9 86 0.519 81 22 38 1.967 32 5 19 O.cJ~~9 82 7 23 1.979 ~,3

--

9() 0.541 83 8 26 1.984 34 ,5i3 ;:)9 0 ..'306 84 9 36 2.126 :5~J 49 0 .. 582 85 1 67 '2.184 :~6 :'0 84 0.595 n6

"

7 2.216 "37 7 9l i).596 87 2 :~9 2.239 38 ,4 80 0.620 88 4 69 2.263 :S9 r.,/ 1.0() O.b30 139 "",J 22 2.562 40 24 -)::-J 0.b6l 90 3 4 2.~70 41 :.~6 ".I () ..66~, 91 5 20 3.073 42 '" }':i 0.673 <;,.)2 9 99 3.234 4~,: :22 4(:; 0.692 '7'3 8 16 3.254 44 23 iJ8 0.704 '/4 5 3.519 1 45 ~. :.11":) (). ;;:" 1. 95 2 6 3.557 fl iH:> 6 I

,

(). 7 :\':, '10 ~5 8 4.514 .;1i !.b '> ..7)".:; '1'7 t 9 4 .. 852 43 ;').~ 44 ~j..lHt) "8 :' 3 50191

"'"

'" ";" () .. 7b::: <;",',J 1 :2 6.358 j',' ~'::J l,"J ..;';~ .~) L '.II.) 0 0 0.000 1 steekproef: n 100

I

13 lJ

=

(2, 2, 2)T random

=

123967

(46)

THE-RC 49455

mei 1983

CJ :::: ;.... U!:::"1)1::~ CL..u~:)i I::J<b hI:::T :-iUN I) (:, T ('1MfiTI:;;1: CE S

~.at1~:!.~ 2.2031 0.8036 ~ 0.3031 2.5008 2.2543 ., ' :... ;';<.,,:<;:, ;.;.ti)/O :1.8908 : . 5 :.•,;;;D':~'~j :L .08'.8 J..2750 17 J.•0295 1.9022 1.9798 ~u 0.2949 3.7700 1.3305 22 ~.3394 3.1400 1.0288 24 1.6400 1.7539 1.3537 CC-NOTE 9 bIz. 45 '"i.,"'"j '•• JA'•• 94 9":; :iOO .r. .:. , d. 1.21"79 :i.•TY?2 :I..812~:; O.07:t6 2.0:1.:1.6 :i..31'+6 ~.~.:I.(;n9 1.85"79 1.6333 2.21:j8 0.2979 0.7873 :1..4970 1.27~.i8 :1..4290 :i.•2590 :1.."7036 :i.."7~j05 O.B008 1.0i:i.2 1."7611 1.4957 2.2301 :i..4031

o.

165~5 0.9070 O.BBB4 1.B7":.i2 1."7~jOl :i.•4()~"j9 \) • .I. ;:.::6 4 0.'1272 :':j •:5(,tH<> ~.~.~ n(:>~~~~.;.:3 2.~464 1. .l9~52 2.0048 3.7832 4.3223 2 .. 9513 2.3382 2.5808 2.4035 3.0730 2.1 (179 3.1435 3.3700 2.7348 2.2853 2.6322 2.5962 3.4310 :2.:5708 2.5710 1.8514 :l..910:~ 2.0823 1.9438 2.7827 ~~.00·71. :L ~7598 3.7646 3.8536 :::~.49()6 ;:.' • () 0;:j9 J.•B4J () ..•. . ", .~ ~)• .I .-' .1. ',) : •40~i:':'.; ,:.' .. 646/ I. ..!Jt.,::;.l. ,~.<UHO :;;; • ;:.'86('> :.• ;.;~!.b4 1.iI.Oc,'

:5.

:.':j033 2.1753 0.6314 2.1927 0.8550 1.0085 0.3658 1.5670 1.7260 1.5780 0.5437 2.7289 0.8459 2.0015 1.4938 2.7400 1.9074 1.5408 0.4338 :1..3575 2.1508 0.7653 1.9054 0.8136 2.0402 2.4218 0.8358 1.288:5 2."7511 :1..0609 2. 183:::j ().9:526 1.9736 ~2..312:1. ~~.5B6"7 l.""j:!.:~,i 2.6941 ;:: ..()6~~B ::. • I. HOII .L .. :L:5} 1 ;~;

. ()'n

4 () .. 13l:l5 :I •~jEi()(t 2 .. 7:j40 1 ..2~j3"7 ~.i.3622

(47)

THE-RC 49455 mei 1983 CC-NOTE 9 biz. 46 " " ~:,4~:::::" .!. ';.',~,~14 ()()~5b "

..

'

·

..

."

·

,'..) " 2?":,'5

.

'+4l:J':'j 1. Uil'.:I.

·

,.

..

·

()...:: ,-'.

..

·.·./·9 !. :":" 1

·

<;i::':1.<;i 0

·

;':j13:54 ,~)d -.:1

·

()44~j 2

..

OOti8 i

..

31.56 ...4 ::.:: t~.~:9~5 :1. ~jBii:l "; S06}

·

·

..,

·

7B 2-

·

23.1.5 :3

·

4709 i

·

l:30B ii () 2

·

4010 1

·

2~548 1

·

4740 H2 " • 96'?'O 3 4869 1 141 2 ,,-

·

·

B~:J 2

..

} 1.O::i 1.8216 0

·

9935 B7 2

·

4135 2.

·

0421 2

·

2257 Y" 3

·

0448 0· 92:52 1

·

8736 • •J. 92 " 6('ii4 ..) 3589 i 9905

...

·

...

·

·

96 2

·

8'7. wi -; "

...

·

1569 1

·

8839 I?'} 2

·

'7503 2.

·

:kj.i. i 1

·

5680 NA EN NB :: 40 28 ZUAARTEPUNT CLUSTER A i.306 2.598 1.518 ZWAARTEPUNT CLUSTER B 2.708 2.250 1.773

DAB (AFSTAND ZWAARTEPUNTEN) IS: 0.847

Mi::f.1N PROJA :

MEAN efWJB V(4i:;:TANCE PR(J ...lf.1

<,if'li:<i ANC[ F'RUJIl

"·0.0000

() . B·rn

0.1237

().O::ilB BEREKENDE T-UAf.1RDE, TWOBS DISJUNCTIE, W-OBS. E~F. f.1f.1NTf.1L VRIJ~EIDSGRf.1DEN:: VERWACHTE DISJUNCTIE,W-EXP :: VERUf.1CHTE T-Uf.1f.1RDE,TW-EXP. : OVERSCHRIJDINGSKANS 12.04831 1.46107 il6 1.77683 .1.4.65209 0.9t)6:~

(48)

THE-RC 49455 mei 1983 CC-NOTE 9 bIz. 47 ::. •~:.'()Ob 2"2~:j4:~ -:.; • tl / /0 :i. • (390B 1..90:U

.,

.1•• 9)'913 :l... )1(l:i2 2.:i.7~j3 ~~

.

14:5~j 2.7289 2.7348 2.00J.5 :?.63:~:~

:?.

'7400 ). ;:j962 i .90'74 1.8514 2. 150B 2.7827 2.0402 2.0071 :~.42l8 2.0059 ~~!" 1835 :I..8410 2.5867 2.0567 2.6941 1.4025 2.0668 :i..9926 1.5956 :I..9651 2.0974 :i..9284 2.7540 1 .7109 1 .2537 i .5314 2.0038 1 .4485 1 .8641 1.5878 2.5067 l .2548 1.4740 2.0421 2.2257 2.358(1 1 .9905 2.1569 1.8839 2.3511 :I. .5680 -) .i.5 .I. ".. 6 :~:

.

:I.64~3 .i.:i. ..,,;..)

.

6213 14 2.29~38 :i.9 :~.4639 'jf;:" 2.201'7 .:....J 3:i. 2.3464 :'53 2"276~3 :j7 2.~j425 59 ';1/,0••.2943 74 2. .i.395 SO :L40l.0 f:l7 ..) .4135

...

9':;

...

2• 6(H4 96 2.B7.i.3 97 2• 750:5 :i3 :1. •i+97() 60 :I..4::'90 t'd :1..2:j(?O ]0 :!..()ll~.~ /7 1..403:i. 79 O. 1('~53 94 :i..40:W N(.oj EN NB

GE~ORMDE CL~srERS MET H~N DATAMATRICES

~;) 0 • :.'5():S:I i ~:.:: .:. ..:.~:j (I':~:5 ~.; t • () :::. 9~~ ,:;,;:. :i. "2::79 ZWAARTEPUNT CLUSTER A J..051 :::.~5B2 2.206 ZWAARTEPUNT CLUSTER B 2.431 1.842 2.038

DAB (AFSTAND ZWAARTEPUNTEN) IS: 0.861

ME{.lN 1::',:~·D,.!(oj

MI::. (2,i'~ ::.',:;:0.j13 i..)(4 ::\:OJ".I~'~NC:::~ j".:.!:~'.D,jA

0.0000 O"i:lt)l~~; O.08d7 O ..():t:~:l.

0E~E~~NDE T-wAARDC, TWOBS

(I ::: ::; ,..ll.1 ,'I(.i:j::. \oJ ....UB b •

•:: I:: ,::" (, (,N T (:, :.. ;..;I:~:i:, j :..j \:;::i:1)~:;l:iI:;~(oji) ::::N :

\;: I:;;~J i;~I'..i\'jC 11 :::~:)d l.i NCi'Xi::: , W·..

·1:.

XI::' :

~ERwACriiC T-WAARDC,TW-EXP. : U~LRSChRX~DINGSKAhS 9.5.1.5C)8 1 .1:;:51:~9 !..84i44 ''1.599::;6

o •

:;~'j91

(49)

THE-RC 49455 mei 1983

I C[I,lJ Cn,2J DnJ I C[I,lJ CCI,2J D[IJ

1 28 91 0.175 51 12 30 0.985 2 6 31 0.262 52 14 24 1.044 3 1 37 0.278 53 29 79 1.057 4 17 32 0.292 54 10 18 1.058 5 39 40 0.297 55 95 99 1.098 6 9 50 0.316 56 3 17 1.111 7 2 41 0.349 57 65 71 1.124 8 84 93 0.368 58 51 54 1.127 9 23 90 0.368 59 12 22 1.154 10 51 87 0.372 60 76 81 1.191. 11 12 47 0.384 61 2 21 1.:2U 12 43 83 0.386 62 56 70 '1.223 13 24 62 0.388 63 6 43 .t.227 14 3 69 0.397 64 9 34 '1.109 15 53 92 0.400 65 8 57 ':.\lh 16 38 66 0.425 66 23 29 1":.1: 17 15 60 0.438 67 73 94

't:=

18 55 63 0.447 68 55 80 19 78 96 0.451 69 10

"

't,~.~· 20 73 88 0.472 70 13 14

.,...

-, 21 19 33 0.481 71 1 9

"J-ft:'

22 21 74 0.481 72 4 6 loi ' 23 71 86 0.514 73 2 38

,,,

..

' 24 6 11 0.517 74 23 67

.

1.Ml 25 2 77 0.518 75 3 5 1 • •7 26 1 49 0.522 76 56 73 1.723 27 3 35 0.544 77 61 68, 1.737 28 94 98 0.567 78 53 78 1.738 29 26 58 0.568 79 52 55 1.921

.

30 14 25 0.571 80 4 7 1.998 31 54 84 0.592 81 51 65 2.121 32 65 89 0.599 82 2 15 2.260 33 70 75 0.608 83 4 13 2.326 34 18 28 0.611 84 1 36 2.432 35 22 48 0.626 85 3 12 2.624 36 68 97 0.639 86 56 61 2.665 37 61 82 0.639 87 8 51 2.726 38 56 64 0.660 88 8 76 2.909 39 51 59 0.672 89 2 52 3.214 40 12 46 0.684 90 4 10 3.270 41 22 44 0.698 91 56 95 3.334 42 20 42 0.762 92 3 20 3.852 43 16 27 0.775 93 2 53 3.873 44 4 39 0.807 94 1 23 4.251 45 80 100 0.859 95 1 3 4.560 46 14 19 0.884 96 2 8 4.866 47 78 85 0.886 97 2 56 5.381 48 8 72 0.923 98 1 4 5.798 49 1 45 0.929 99 1 2 9.057 50 15 26 0.965 100 0 0 0.000 2 steekproeven: n 1

: 5:

~

~

n2 50 0 L 1 13 2 0 1.5 1, I)T 0 3)T ~1 = (1, ~2 = (2, 2.5, random = 123967 random = 357919 CC-NOTE 9 bIz. 48

De elementen uit de eerste steekproef zijn genummerd van 1 tot en met 50.

(50)

THE-RC 49455

mei 1983

CC-NOTE 9 bIz. 49

GEVORMDE CLUSTERS MET HUN DATAMATRICES

1 0.8315 1.2031 -0.1964 9 1.3692 0.4580 -0.7194 34 1.5326 1.1665 -1.4210 36 1.0171 0.6678 -2.5617 37 0.7392 1.0048 -0.3686 45 0.3146 1.3382 -0.6342 49 1.2159 1.1979 -0.4563 50 1.4344 0.2160 -0.5262 / 2 2.3246 2.8214 1.3121 15 1.2765 1.8508 2.1575 21 2.1154 3.2639 1.1809 26 1.2436 2.4786 2.8895 38 0.8124 2.7832 1.1927 41 2.4591 2.5033 1.3622 52 2.5486 4.3491 1.8448 55 1.7634 4.0685 3.2652 58 1.0154 2.4156 2.3736 60 0.9448 1.7959 2.4380 63 1.5091 3.8129 3.0007 66 1.1555 2.9176 1.4042 74 1.7057 3.4508 1.3507 77 2.0832 2.4855 1.6239 80 1.0311 5.0067 2.5483 lOa 0.9321 4.2182 2.8746

NA EN NB

.

.

8 16

ZWAARTEPUNT CLUSTER A

ZWAARTEPUNT CLUSTER.

B

1.057 1.558

0.907 3.139

-0.860 2.051

DAB (AFSTAND ZWAARTEPUNTEN) IS:

2.138

MEAN PROJA

:

MEAN PROJB

:

VARIANCE PROJA

VARIANCE PROJB

0.0000 2.1379 0.1560 0.2697

BEREKENDE T-WAARDE, TUOBS

:

DISJUNCTIE, W-OBS. :

EFF. AANTAL VRIJHEIDSGRADEN:

VERWACHTE DISJUNCTIE,W-EXP :

VERWACHTE T-WAARDE,TW-EXP. :

OVERSCHRIJDINGSKANS

11.21318 2.28888 18 1.86249 9.12428 0.1805

(51)

THE-RC 49455

mei 1983

CC-NOTE 9

bIz. 50

GEVQRMIIE CLUSTERS MET HUN DATAMATRICES

1 0.8315 1.2031 -0.1964 9 1.3692 0.4580 -0.7194 34 1.5326 1.1665 -1.4210 36 1.0171 0.6678 -2.5617 37 0.7392 1.0048 -0.3696 45 0.3146 1.3382 -0.6342 49 1.2158 1.1979 -0.4563 50 1.4344 0.2160 -0.5262 8 2.2958 1.6153 2.0030 51 2.5640 1.7027 2.8086 54 2.6728 0.8907 3.~394 57 3.0148 0.8241 1.4287 59 2.2536 1.1632 2.8531 65 2.1774 2.8672 3.0266 71 2.9423 2.1130 3.3481 72 3.0002 2.1119 1.6729 76 4.9445 2.1150 2.5390 81 3.8674 2.3002 3.0237 84 2.6710 1.0914 2.9822 86 2.6139 2.0834 2.9532 87 2.7795 1.4912 2.5921 89 2.4988 2.7502 2.5347 93 2.7983 1.1729 3.3176

NA EN NB

: 8 15

ZWAARTEPUNT CLUSTER A

ZUAARTEPUNT CLUSJER

B

1.057 2.873

0.907 1.753

-0.960 2.708

DAB (AFSTAND ZWAARTEPUNTEN) IS:

2.363

MEAN PROJA

:

MEAN PROJB

:

VARIANCE PROJA

VARIANCE PROJB

0.0000 2.3629 0.1526 0.1273

BEREKENDE T-WAARDE, TUOBS

:

DISJUNCTIE, U-OBS.

:

EFF. AANTAL VR1JHEIDSGRADEN:

VERWACHTE DISJUNCTIE,U-EXP :

VERUACHTE T-WAARDE,TU-EXP. :

OVERSCHRIJDINGSKANS

:

14.23224 2.96763 13 1.86841 8.96060 0.0388

Referenties

GERELATEERDE DOCUMENTEN

Teams kunnen warme haarden van inspiratie zijn maar net zo kille plaatsen worden waar men elkaar niet verstaat.. Onze ervaring is als die van onze bijbelse voorgangers: samen kan

Bovendien wordt aandacht besteed aan een aantal knelpunten in de organisatie van het proces van internationale samenwerking in ontnemingszaken die door de respondenten niet

• Mode wordt niet meer alleen door mode-ontwerpers bepaald maar tevens door grote bedrijven/merken, of: Modetrends worden medebepaald door het concept van Lifestyle,

• Het zelfportret is een genre binnen de kunst; Mariko Mori heeft zichzelf als onderwerp genomen voor dit kunstwerk, of: Mariko Mori maakt een foto van een performance, wat

Zie

[r]

Vanwege de evenwijdigheid van lijn k en lijn l is driehoek OKM.. gelijkvormig met driehoek

[r]