De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen

(1)

Tilburg University

De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen

Uiterwijk, Jan Hendrik

Publication date:

1994

Document Version

Publisher's PDF, also known as Version of record Link to publication in Tilburg University Research Portal

Citation for published version (APA):

Uiterwijk, J. H. (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Instituut voor Toetsontwikkeling (Cito).

General rights

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain

• You may freely distribute the URL identifying the publication in the public portal Take down policy

(2)

Eindtoets

_{Basisonderwijs}

Henny

Uiterwijk

De bruikbaarheid van

de

Eindtoets

_{Basisonderwijs}

voor

_{allochtone leerlingen}

(3)

(4)

De bruikbaarheid van

de

_{Eindtoets Basisonderwijs}

(5)

(6)

De bruikbaarheid van

de

_{Eindtoets Basisonderwijs}

voor allochtone leerlingen

Proefschrift

ter verkrijging vandegraadvandoctor

aande KatholiekeUniversiteit Brabant,

op gezag vande rectormagnificus,

prof. dr. L.F.W. deKlerk,

inhet openbaarteverdedigen

ten overstaan van een

door_{het college}vandekanen aangewezen commissie in de aula vandeUniversiteit

op vrijdag 20 mei 1994 te 16.15 uur

door

Jan

_{Hendrik Uiterwijk}

geboren te Arnhem

-

--0-IL"

UNIVERSITEIT 0 EjIR. 0VAN TILBURG

°To

BIBLIO-fHEEK

(7)

Promotores: Prof. di. A.J.A.G. Extra Prof. dr. L.F.W. de Klerk Co-promotor: Dr. A. Vallen

Omslagontwerp en_grafische_{vormgeving: Hdldne de Wit}

(8)

Voonvoord

Om na te gaan ofde Eindtoets _{Basisonderwijs}_{voor allochtone leerlingen even} goed bruikbaar is als voor autochtone.hebben medewerkers van het

Werkverband Taal en Minderheden vande Letterenfaculteit vande Katholieke Universiteit Brabant (KUB) enmedewerkers van het project Eindtoets

Basisonderwijs van het Instituut voor Toetsontwikkeling (Cito)samen een

onderzoeksproject uitgevoerd. In dit project zijndetoetsscores van allochtone

en autochtone leerlingenop (onderdelen van)deEindtoets Basisonderwijs

berekend en isvastgesteld hoe vandeze leerlingende toelating tot en de doorstroming in het voortgezet onderwijs verloopt. Verderisonderzocht of

enerzijds deEindtoets Basisonderwijsalsgeheel enanderzijdsde _{afzonderlijke}

toetsitems ook _{voor allochtone leerlingen aan hun}doel beantwoorden. In het

eerstegeval gaat het omdevraag of er al dan nietsprake isvan toetsbias. in het laatste geval gaat het om itembias.

Toetsbias wordt indit verband_opgevatalsonderzoek naarde_{vraag hoe hoog} de_{voorspellende} waarde vande_{Eindtoets Basisonderwijs is voor allochtone en}

autochtone leerlingenin_{vergelijking met}de_{voorspellende}waarde van het schoolkeuze-advies vandebasisschool. In hetonderzoeknaaritembias zijn twee complementairefasenonderscheiden. Inde_{eerste fase zijn met statistische}

procedures items opgespoordwaarbij sprake is vanitembias. Inde tweede fase

iseen pogingondernomen om teonderzoeken wat bij eenbepaald item de

oorzaakvan itembiaszou_{kunnen zijn. Bij} het achterhalen vandie_mogelijke

oorzakenvan _{itembias zijn drie} _groepen_personenbetrokken geweest: de

projectmedewerkers (van KUB en Cito). niet bij het onderzoeksproject betrokken _expertsen_{leerlingen uit}_{groep acht van het basisonderwijs.}

Na de start van het_project_{bleek at gauw dat het}onderzoek naaritembias in

meerdere _opzichteneen _{ontdekkingsreis}zou_{worden. Zo werd bijvoorbeeld} spoedigduidelijk dat inde VerenigdeStatenweliswaarveel aandacht is besteed

aanstatistische procedures voorhetopsporen vanitembias, maartevensbleek daarbij datvergelijkbare procedures niet totdezelfde resultaten leiden. Op de

vraagbij hoeveelitems vaneen bepaaldetoetssprake is vanitembias. zijn dan ook verschillende antwoorden mogelijk. Verder bleek dat methet zoeken naar oorzakenvan itembias, niet alleen in Nederland maar ookin andere landen,

bijzonder weinig ervaringisopgedaan. Goed gefundeerde

taalkundig-inhoudelijke verklaringeninzakeitembias_{voor allochtone leerlingen ontbreken}

geheel. Omdat eentheoretisch kader betreffende bronnen van itembias voor allochtone leerlingen vooralsnog niet voorhanden is. hebbendeconclusies. die op basis van het onderhavigeonderzoek inditverbandworden getrokken. een

voorlopig karakter.

Bij de_{uitvoering van}het _{onderzoeksproject zijn in}de_{verschillende jaren}

diverse personenbetrokkengeweest.Zonderhun inzetenstimulerendeinvloed

zouditproject wellicht nooit tot eengoed eindezijngebracht. Een aantal

mensen wil ik hier in het_bijzonderbedanken.

In deeersteplaats noem ik dr. Ton Vallen (KUB) dievan begin tot eind op uiterst constructieve wijzehet _projectaan_{Tilburgse zijde} heeft_{geleid. In de} beginfase van hetproject heeft ook dr. Anne Kerkhoff (KUB) bij de

(9)

veel waardevolle suggestiesgedaan. Bij devragenlijstconstructie is ook dankbaar gebruikgemaakt van deexpertise van drs. FonsMoelands (Cito). Drs. Marianne de Jong en drs._MarjaCoenen hebbenals Assistenten In Opleiding vande Lettereniaculteit van de KUB een_{belangrijke bijdrage}

geleverd aan hetproject. Dat geldtvooral tenaanzien van het achterhalen van

mogelijke bronnen van itembias. Doorhetaanvaarden vaneen _werkkring

elders hebben beiden helaas_vroegtijdig hun_{werkzaamheden beeindigd.}

Drs. Marijke van de Waal (KUB)heeftalsstudent(assistente) hetonderzoek

uitgevoerd naar de oordelen van experts over bronnenvan itembias,waarover

ze in haardoctoraalscriptieverslag heeftgedaan. Dr. Ron Engelen(Cito) heeft hetproject terzijdegestaanmet methodologische adviezen. ook ophet relatief

nieuwe terrein van itembias.

Dezedissertatie vormt_{het eindverslag van het genoemde}samenwerkingsproject

van hetWerkverband Taalen Minderheden en het Cito. Bijdetotstandkoming

vandedissertatie hebben een aantal mensen.ondanks hunvele andere

werkzaamheden. bijzonder waardevolle ondersteuning verleend. Ik ben hen

zeer veel dank _{verschuldigd.}

Destimulerende invloed die bij het_{schrijven van} dezedissertatie van de

co-promotor dr. Ton Vallen is_{uitgegaan. kan} _moeilijkoverschat_{worden. Hij} heeft

steeds _op_{vriendschappelijke}_wijze_{duidelijk gemaakt wat er nog kon en nog} moestgebeuren. Van zijn grote kennisen inzicht ophetterrein van de

linguistiek endetaalvaardigheid vanallochtone leerlingen heb ikveel geleerd.

De gesprekken metde beide_{promotores, prof. dr.}Guus_{Extra en prof. dr.}

Len deKlerk. hebben er toe_{geleid dat} hetaantal blinde viekken op mijn netvliesisverminderd. Het waseen _{genoegen om met zulke breed}

georienteerdemensen over hetmanuscript tekunnen discussieren.

Dr.Johan _{Wijnstra (Cito)}heeft hetmanuscript eveneensvankritisch commentaar voorzien. Ik heb niet alleeninverband met mijndissertatie een beroep mogen doen opzijn grote kenniseninzicht alsonderwijskundig onderzoeker. maar ik hebhetvoorrecht in hemal _{bijna 15 jaar} eenuitstekende

collegate hebben diesteeds bereid isteluisteren en te adviseren.

Zowel hij dc _{uitvoering van}het_{project als} het schrijven van dedissertatie heb ik_{veel geleerd op}_{methodologisch terrein. Dr.} _{Ron Engelen} (Cito) bleef steeds geduldig uitleggen welke procedures gevolgd moesten worden enwaarom dat

moest. Anneliesvan Exter (Cito) heeftsamen met de Grafische Dienst van het Cito ervoorgezorgd dat een diskette met verschillendesoorten bestanden is

oingewerkt lot dit fraaie hoek.

Het schrijven vaneen dissertatie wordt gemakkelijker geniaakt door een stimulerende _omgeving._{Mensen die niet bij} het_{schrijven zelf betrokken zijn,} maar die latenmerken dat ze dit soortwerk waarderen en die van tijd tot tijd informeren naarde voortgang. In dit verband wil iktwee groepen mensen in het

bijzonderbedanken:mijncollega's en mijngezinsleden.

De medewerkers van het Cito en met name die vandesector Basis-en _Speciaal

Onderwijs vindenhetvanzelfsprekend dat je van je werk schriftelijk

verantwoordingaflegt enzevinden het niet ongebruikelijk om dat te doen in de vorm van eendissertatie. Deze opvatting brengt mensenertoehoge eisen te

(10)

Mijn vrouw Harmke enonze zonen Rik en Koen hebben mij de afgelopen tijd

enerzijdsdenodige ruimtegegeven enanderzijdsbleven ze mij bij het

gezinslevenbetrekken. Zodoendehebbenzeertoebijgedragen dat mijn studeerkamer _geenisoleercel is_geworden.

(11)

(12)

Inhoud

1 De bruikbaarheid van

de

_{Eindtoets Basisonderwijs voor}

allochtone leerlingen 1

1.1 Inleiding 1

1.2 Toets-enitembias 5

1.2.1 Onderzoek naartoetsbias 7

1.2.2 Onderzoek naaritembias 14

1.3 _{Onderzoeksvragen 18}

1.3.1 Trends indeschoolresultatenvanallochtoneen autochtone leerlingen 19

1.3.2 _{De predictieve validiteit van}de _{Eindtoets Basisonderwijs voor de} onderscheiden etnische groepen invergelijking met die van het advies van debasisschool 21

1.3.3 Itembiasvoor allochtone leerlingen 21

2

Potentilile

bronnen

van toets-en

itembias 25

2.1 _{Mogelijke determinanten van}verschillen inde_predictieve validiteit van deEindtoets _{Basisonderwijs}voor allochtoneen autochtone leerlingeninvergelijking methet adviesbasisschool 25

2.2 Mogelijkebronnenvan itembiasvoor allochtoneleerlingen 27

2.2.1 Een theoretisch raamwerk voorde relatietussentaalvaardigheid en schoolsucces van allochtone leerlingen 30

2.2.2 Potentiele linguistisch bronnen van itembias 32

2.2.3 Potentiele culturelebronnenvan itembias 40

2.2.4 Onderwijsaanbodalspotentiele bronvan itembias 43

2.3 Samenvatting 44

2.3.1 Samenvatting van demogelijke determinantenvan verschillen in de predictieve validiteit vande Eindtoets_{Basisonderwijs en het advies} basisschool 44

2.3.2 Samenvatting vandepotentiele bronnenvanitembias 44

3 Beschrijving

en

_{verantwoording van}

de

onderzoeks-instrumenten 47

3.1 Opzet van de Eindtoets Basisonderwijs 1987 en 1989 47

3.1.1 Deinhoud enconstructie vande EindtoetsBasisonderwijs 47

3.1.2 Schaalconstructie voorderapportage opleerlingniveau 50

3.2 Verantwoording van de vragenlijsten op leerlingen schoolniveau 51

3.2.1 Vragenlijstop

leerlingniveau 52

3.2.2 Vragenlijstopschoolniveau 57

3.3 Toelatings-endoorstroomonderzoeken 58

(13)

4 Toetsresultaten en toelatings-

en

_{doorstroomgegevens van}

deelnemers aan de

Eindtoets Basisonderwijs 1987 en 1989 61

4.1 Representativiteit 61

4.2 Toetsresultaten van de deelnemers aan de Eindtoets Basisonderwiis 1987 en 1989 64

4.3 _Toelatings-_{en doorstroomgegevens van de deelnemers aan de} Eindtoets Basisonderwijs 1987 en 1989 7()

4.4 _{Samenvatting 78}

5 Toetsbias in

de

_{Eindtoets Basisonderwijs 1987 en 1989 81}

5.1 Meetniveau van de onafhankelijke variabelen 82

5.2 De constructie van eenschaal voorschoolsucces 85

5.3 De _predictievevaliditeit van het adviesbasisschool ende Eindtoets Basisonderwijs voor allochtoneen autochtone leerlingen 88

5.4 De effectenvan determinanten van schoolloopbanen van allochtone enautochtone

leerlingen 93

5.4.1 Een_{schoolloopbaanmodel met} hetadvies basisschool en de Cito-score 94

5.4.2 Eenschoolloopbaanmodel met de toetsscoresTaal, Rekenen en

Informatieverwerking 99

5.4.3 Een_{schoolloopbaanmodel per}onderscheiden etnische

minderheidsgroep 104

5.5 _Samenvatting 107

6 Itembias in

de

Eindtoets

Basisonderwijs 1987 en

1989 109

6.1 De itembiasdetectieprocedure 110

6.1.1 Klassieke testtheorieprocedures 110

6.1.2 Itemresponsetheorie 112

6.1.3 Opzet van de itembiasanalyses 115

6.2 Resultaten van de analyses naar itembias ll8

6.2.1 De resultaten van de Mantel-Haenszel-analyses 119

6.2.2 De resultaten vande _IRT-analyses 123

6.3 _{Samenvatting en} conclusie 128

7 Bronnen

van

itembias

133

7.1 inhoudelijke analyse van partijdigeitems 134

7.1.1 Problemen bij de inhoudelijke analyse vanpartijdige items 134

7.1.2 Eerste resultaten van de inhoudelijke analyse vanpartijdige items 140

7.1.3 Overeenstemmingtussen de inhoudsanalyse van items die volgens

de Mantel-Haenszel- en de_{IRT-procedure partijdig zijn} 160

7.2 Oordelenvan_experts _{over mogelijke}bronnenvan itembias 161

7.2.1 Opzet van hetonderzoek naarde oordelen van_experts 162

7.2.2 Resultaten van het onderzoek naarde oordelenvan experts 163

7.2.3 Conclusies uit het onderzoek naardeoordelen _{van experts} 165

7.3 _{Een hardop-denken-experiment voor} het _opsporenvan mogelijke

(14)

7.3.1 Opzet vanhet hardop-denken-experiment 166

7.3.2 Resultaten van het_{hardop-denken-experiment} 168

7.3.3 Conclusies uit hethardop-denken-experiment 173

7.4 _Samenvatting 173

8 Samenvatting

endiscussie 177

8.1 Samenvatting vande Hoofdstukken 1-3 177

8.1.1 De bruikbaarheid vande Eindtoets_{Basisonderwijs}voor allochtone

leerlingen (Hoofdstuk 1) 177

8.1.2 Potentiele bronnenvan toetsen itembias_(Hoofdstuk₂₎ 178

8.1.3 Beschrijvingen_{verantwoording van}deonderzoeksinstrumenten

(Hoofdstuk3) 179

8.2 _{Samenvatting van de Hoofdstukken 4 en 5 en}discussie 181

8.2.1 Toetsresultatenentoelatings-endoorstroomgegevens van deelnemers aande Eindtoets_{Basisonderwijs 1987 en 1989}

(Hoofdstuk4) 181

8.2.2 Toetsbias indeEindtoets_{Basisonderwijs 1987 en 1989}

(Hoofdstuk5) 182

8.2.3 Discussie 183

8.3 _{Samenvatting van de Hoofdstukken 6 en 7 en}discussie 187

8.3.1 Itembias in deEindtoets Basisonderwijs 1987 en 1989

(Hoofdstuk6) 187

8.3.2 Bronnenvan itembias_(Hoofdstuk₇₎ 189

8.3.3 Discussie 192

Summary

195

Literatuur

199

Bijlagen

209

(15)

(16)

1 De bruikbaarheid van

de

_{Eindtoets Basisonderwijs}

voor

allochtone

leerlingen

1.1 Inleiding

Het isniet _{ongebruikelijk om voor}de_{beschrijving van}de _{schoolprestaties van}

allochtone enautochtone leerlingen toetsresultatente gebruiken,zeker als het

erom gaat deverschillentussen beidegroepen indebeheersing van eenaantal

aspecten van de Nederlandse taaltot uitdrukkingtebrengen. Ook voor de communicatie metpersonenbuitenhetonderwijsveld worden toetsresultaten gebruikt. Zo hanteren Tesser_{& Vierke (1990)}als_{operationalisering}van school-prestatiesonderandere scoresop taaltoetsen,wanneer zij opverzoek van het MinisterievanBinnenlandse _{Zaken rapporteren over}de _{schoolprestaties van}

allochtoneen_{autochtone leerlingen in} _{het basisonderwijs.}

Tegendeachtergrond vanhet bovenstaande wekt het enigeverbazing dat er tot

nu toein_{Nederland nauwelijks onderzoek} is_{gedaan naar}de_{vraag of}

veel-gebruiktetoetsen weleen geschiktmiddel zijn omdevaardigheid vanzowel

allochtone alsautochtone leerlingen ophet terreinvan bepaalde onderwijs-doelstellingente meten.Vooral wanneerdegemiddelde toetsscores van

onderscheiden groepen, zoalsallochtone en_{autochtone leerlingen, aanzienlijk}

verschillen, kandeonderzoekerzichimmersafvragen ofdieverschillen toe te schrijven zijnaanverschillen in dete metenvaardigheden of dat ze eenartefact zijn vande_gehanteerde_{meetprocedure.}

Sommige onderzoekers verwachtendattoetsen eenonderschattinggeven van

het prestatieniveauvan_{allochtone leerlingen. Vallen} & _{Kerkhoff (1985) zijn} bijvoorbeeld van_{mening dat van}alle _leerlingende _{resultaten op de}

gebruikelijketoetsen metde nodige reserves bekekenmoeten worden. Volgens

hen gelden die reserves ten aanzien vanallochtone kinderen innogsterkere

mate. De_{linguYstische en} _{culturele achtergronden van}deze _leerlingen_spelen

volgens heneen belangrijke rol bij hetmaken vantoetsen inhet

immigratie-land.

Ook vanuitde_{onderwijspraktijk}wordtde bruikbaarheidvan toetsen voor leerlingen uitetnische _{minderheidsgroepen zo nu en}dan_betwijfeld. DeTurkse Leerkrachten VereniginginGelderland stelt_{bijvoorbeeld dat} hetafnemen van toetsen.waaronderdc Cito-toetsenin groep acht van hetbasisonderwijs, bij allochtone leerlingen inde _praktijkveel _problemen_{oplevert. De vraagstelling} vande Cito-toetsis_{volgens hen vaak}cultureelbepaald,waardoor van

allochtone leerlingenmeerwordt_{gevraagd dan van} _{autochtone leerlingen}

(Ersoy, 1991).

Er worden_{door onderzoekers pogingen in het werk}_{gesteld om anderen ervan} te overtuigen dat de doorhengehanteerde toetsenvoor allochtone leerlingen bruikbaar zijn. Zo_{stelt Driessen (1990: 74) dat het}toetsenvanallochtone leerlingen in een taal die vooreen groot deel van hen nietde moedertaal is, mogelijkeen _probleem_{vormt. Bij}de_{constructie van de in zijn onderzoek}

gebruiktetoetsen is daar danook,volgens hem, speciale aandachtaanbesteed.

Hij deelt evenwel nietmee welke_maatregelen_{er genomen zijn om de}te meten vaardigheden bij allochtone leerlingenadequaatte meten._{Driessen (1990: 206)}

(17)

toetsbruikbaar is voor allochtone leerlingen nog in dekinderschoenenstaat.

De twijfel aande bruikbaarheid van meetinstrumenten voor leerlingen uit

etnische minderheidsgroepeiigeldt ook voor intelligentietests. Extra & Verhoeven (1985) zijn bijvoorbeeldvan mening dat een intelligentietest die bedoeld isvoor monolinguale leerlingen.niet zonder meerte gebruiken is om

de intelligentiete meten van allochtone kinderen. ZoweldeNederlandstalige instructie bij de nonverbaleen verbaletaken als de verbale takenzelfhouden

geen rekening metdemeertalige achtergrondvanallochtone kinderen. Er moet.

volgensExtra& Verhoeven(1985). rekeningmee_gehoudenworden dat met de

tot nu toe gebruikte intelligentietestsniet nagegaanwordthoeintelligent allochtone leerlingen zijn. maarinwelke mate ze het Nederlands alstweede laal beheersen. Vande Vijver (1991:66)stelt dat een testbij onderscheiden

culturele groepen hetzelfdepsychologischeconstructmoet meten. Na een

beschrijving vande literatuurover'culture-fair' tests komt hij (1991: 65) tot de conclusie dat ookalsvoorafeisen_{zijn geformuleerd om}de bruikbaarheid van

een testbij onderscheiden culturele groepentemaximaliseren. de

implementatie niet garandeertdatmeetartefacten. bijvoorbeeld veroorzaakt door differentiele vertrouwdheid met het stimulusmateriaal. geelimineerd zijn. Hofstee. voorzitter vaneen testscreeningscommissie dietwintig van de in Nederland meestgebruikte psychologischetestsop 'cultural bias' en op cultuurgebondenenracistische items doorlichtte, komt totdeconclusie dat de

schijnbaareenvoudige vraag of eentestallochtone leerlingenbenadeelt. in feite

een_{gecompliceerde} kwestie is en dat het_empirisch onderzoek in deze aan hoge eisen moet voldoen_{(Hofstee. 199()). Deze testscreeningscommissie spoort tot} verhoogde onderzoeksinspanning op ditterrein aan endeponeert debewijslast

voor testfairness, in de zin van afwezigheid van testbias. bijdetestontwikkelaar en testgebruiker.

In dezomervan 1985 hebben medewerkers van hetWerkverband Taal en Minderheden vande Letterenfaculteit vande Katholieke Universiteit Brabant

(KUB)

contact gezocht met medewerkers van hetproject Eindtoets

Basisonderwils van het Instituut voor Toetsontwikkeling (Cito) om de mogelijkhedenteverkennen samen eenonderzoeksproject opte zetten. Het gingtoen vooral om devolgende onderzoeksvragen:

- Hoc ontwikkelen de scores op de Eindtoets Basisonderwijs vanallochtone en autochtone leerlingen zich inde _{komende jaren?}

Met welke itemsentoetsonderdelen hebben allochtone leerlingenspecifieke

problemen?

- Welke mogelijkheden zijn er onide Eindtoets zo aante passen.dat eventuele biases' voor allochtone leerlingen in verband met hun taligeen culturele

achtergrond opgeheven worden?

De KUB en het Citobeslotensamen een onderzoek tegaan uitvoeren om antwoordentevindenop bovenstaande en eenaantal aanvullende

onderzoeks-vragen. Er werdafgesproken om,nadat in 1986eenvooronderzoek zou zijn

gehouden. achtergrondgegevensteverzamelen vande leerlingen die in 1987 en

(18)

De keuze omdeEindtoetsBasisonderwijstelatenfungeren als object van onderzoekis_{vooral ingegeven door het feit dat elk jaar}eengroot aantal leerlingen aandezetoetsdeelneemt. In de periode 1980

-1990 ligt het aantal deelnemers aande toetstussen de 75 000 en 100 000. In 1987 namen 3801 scholen met samen 80685leerlingen aan detoets deel: in 1989waren dit 4652 scholen met 92448_{leerlingen. Dat} is_{ongeveer 45%,}_{respectievelijk 55% van}

het totaalaantal leerlingeningroep acht van het basisonderwijs. Sinds 1992 ligt het aantal Eindtoetsdeelnemerszelfs boven de 100 000.

DeEindtoetsBasisonderwijs. waarvan elk jaareen nieuwe versie_verschijnt. heefttwee functies. Enerzijdsverschaftde toetsinformatie over individuele leerlingen in verband metde_{overgang naar het}_voortgezet_onderwijs._anderzijds

levertde toetsinformatie voordeevaluatie van hetonderwijsprogramma van de

basisschool. In het onderhavigeonderzoekstaat de eerste functiecentraal. De toetsbestaat uit 180opgaven dieevenredigverdeeld zijn overde onderdelen Taal. Rekenenen _{Informatieverwerking. De inhoud van}detoetswordt

verantwoord in hetzo_gehetenDoelenboek,de _{inhoudsverantwoording van de}

EindtoetsBasisonderwijs_(Cito, 19868). Op leerlingniveauwordt gerapporteerd

overhet totaal en ophet niveau vandetoetsonderdelenTaal, Rekenen,

Informatieverwerking.

Om de scores vaneentoets die moet functioneren voorde keuze vaneen school

voorvoortgezetonderwijs.te kunneninterpreteren, moetderelatie gelegd

kunnen wordentussen descores en de verschillende typen voortgezet

onderwijs. Bij deEindtoetsBasisonderwijsgebeurt dit doortoelatings- en doorstroomgegevensteverstrekken van leerlingen die in eenvoorgaand jaar

aande toetsdeelnamen. Aan de hand vandebehaalde totaalscore, die door de

zogehetenequivaleringsprocedure (zie 3.1.2) van jaar tot jaar vergelijkbaar is. wordt depositiegeschat diede leerling in de verschillende typen voortgezet

onderwijszalinnemen alsdeleerling naar dat type zou gaan. Deze schatting is gebaseerd oponderzoek naardescoreverdeling indediverse typenvoortgezet

onderwijs (Cito, 1988b; Engelen& Uiterwijk, 1990: Cito, 1990:_{Uiterwijk &}

Engelen, 1992).Figuur 1.1 _geeft eenvoorbeeld van het_{leerlingrapport van de}

Eindtoets _{Basisonderwijs 1987 en 1989.}

Figuitr 1.1 Leerlingrapport Eindtoets Basisonderwijs

ateCentraalInstituut voorToetsontw,kkeling

Resultaten Taal Rekenen Informatieverwerking Totaal

Aantalopgaven 60 60 60 180 Standaardscore ₅₃₅

Aantalsped 43 37 50 130 Oiderswand figuu, geeft u een Indruk of de berlingmet deze standaardscore waarschlinlijk toldebetere. makkere dan wd tot de m,ddenmoot behoortin een bepaaid schoottype De poppetles achter de

school-Percentelscore 3 6 3 3 6 9 4 3 types g"en alle 'e/ingen wee, d/neardatschool· type gaan Het gernerkle poppet,e geeft de plaats

aan dte de leerling Inneernt tussen zIJn medeleer

ingen In d. .choollype

/ inet"rielkle % met d bgerescore 096 2096 4096 6096 8096 10096 hollI score

LBO 83 02£711947$08QRQ*3£1000idOGGEA1510RQ DOGit-471730 17£16161£ltmARRE-lflfAGFI 17

MAvo 53 _{Di"inni"Ki ififinni*inG988600000il 0068000(liiBil 100AORAOARBS} 47

MAVO/HAVO en

29 Bnoililvionfloiloonhootio 0*100000£70;ingloof}00000090*loonfiR 71 MAVO/HAVO/VWO

HAVO.VWO en

(19)

Nader onderzoek naarde bruikbaarheid vandeEindtoets Basisonderwijs voor allochione leerlingenwordt vooral ingegeven door de wens meerduidelijkheid le verwerven over het meten vanvaardigheden bii een doelgroepwaarvan de

sociaal-culturele en linguistische achtergrond overhet algemeen sterkverschilt

van die vanautochtone leerlingenenwaarvan bovendien bekend is dat ze bij metingvanverschillendevaardigheden lagere scoresbehalen._Empirisch

onderzoekmoet duidelijk maken ofdescores opdeEindtoets Basisonderwijs

een over-_{of onderschatting of}een_juiste_{weergave geven van} de_vaardigheid

van_{allochtone leerlingen in}de _gemetendomeinen.

Het samenwerkingsproject KUB - Cito richt zich op drie onderdelen.

Teneersteheeft het onderzoekbetrekking op het beschrijvenvantrends in de

schoolresultatenvan allochtoneen_{autochtone leerlingen. Met schoolresultaten}

worden hierde toetsscoresvandeze _{leerlingen op}de (onderdelen van de) Eindtoets Basisonderwijsbedoeld ende _gegevens_{over toelating tot en}

doorstroming inhet voortgezetonderwijs. In detweedeplaats gaatdezestudie

over onderzoeknaar toetsbias. Toetsbiaswordt hieropgevat alsonderzoek naar

de vraag hoe hoogdevoorspellende waarde vande EindtoetsBasisonderwijs is

voor allochtoneen _{autochtone leerlingen in vergelijking met die van}het advies vandebasisschool. Het derde_{onderdeel gaat over}hetonderzoeknaar itembias.

Inhet onderhavige onderzoeknaaritembiasworden tweecomplementaire

fasen onderscheiden. In deeerste faseworden met_{statistische procedures items} opgespoordwaarbijsprake isvanitembias. In de tweedefasewordt ingegaan op

de vraag wat bij een_{bepaald item}deoorzaakvan itembiaszou _{kunnen zijn.}

Bijhet opsporen vanmogelijke oorzaken vanitembiaswerdendriegroepen personen betrokken, respectievelijkde_{projectmedewerkers van KUB en Cito.}

niet bij hetproject betrokken expertsenleerlingen uit groep acht van het

basisonderwijs. In 1.3.3wordt de_{opzet van het}onderzoeknaaritembiasnader

beschreven. Uit hetonderzoeknaar toets-en itembias moet ook blijken met welke _aanpassingendebruikbaarheid vande Eindtoets Basisonderwijs voor allochtone leerlingen eventueel _vergroot kanworden.

Dezedissertatie vormthet eindverslag van dit onderzoek. in devolgende

paragraaf_(1.2)wordt ingegaan op het begrippenpaartoets-enitembias.terwijl dit hoofdstuk wordt_{afgesloten met} een overzicht vande centrale onderzoeks-vragen ( 1.3). In hoofdstuktwee worden mogelijke oorzaken van bias voor leerlingen uit etnische minderheidsgroepen aan deordegesteld. In hoofdstuk drie staatdebeschrijvingenverantwoording van degebruikte onderzoeks-instrumenten centraal. In hoofdstuk vier komen detrends in de toetsscores van de_{onderscheiden etnische groepen op}de (onderdelen vande) Eindtoets Basisonderwijs 1987 en 1989 aan de orde.Bovendienworden detrends in de toelatings-en doorstroomgegevens vandezeleerlingen in het voortgezet

onderwijsgegeven. In hoofdstuk vijf wordtverslag gedaan van hetonderzoek naarde _{predictieve validiteit van}de_{Eindtoets Basisonderwijs voor allochtone} en autochtone leerlingeninvergelijking met die vanhet advies van de

basisschool. Hoofdstukzes heeft_{betrekking op}de_{procedures die}_{gevolgd zijn}

om items op te_sporen _waarbij_{sprake is van bias. De}resultaten van de verschillende analyseswordenbesproken envergeleken. In hoofdstukzeven

wordt aangegeven welke verklaringenermogelijktegeven zijnvoor itembias.

Inhet laatste hoofdstuk wordt eensamenvattinggegevenenworden de

(20)

1.2 Toets-en itembias

Bijdebeoordeling vande kwaliteitvantoetsen isdevraag naardevaliditeit een centraal punt. In validiteitsonderzoek wordtnagegaan inwelke mate een toets

aan zijn doelbeantwoordt (Drenth,1973). Dergelijk onderzoekmoetresulteren

in een oordeel over dematewaarinerempirische evidentie bestaat voor de beweringdatscoresbepaalde conclusiesenactiestoelaten _{(vgl. Jensen, 1980:}

Messick, 1986; 1987). Devaliditeit heeftdusbetrekking ophet_{gebruik van de} toetsresultaten. Een toets kan vooreen_{bepaald doel zeer valide zijn, maar niet}

vooreen ander doel. De items vaneentoetslokken bijde toetsdeelnemer

bepaalde responsen uit en aan de hand vandeze_responsenwordtdestatus van de toetsdeelnemertenopzichte vaneen bepaaldconstructofcriterium

vastgesteld. Detoetsontwikkelaar heeft tot taak derelatietussendescores op

eenverzamelingitems en hetconstructof criteriumteverantwoorden. Validiteitsonderzoekkan verschillendevormenaannemen.De'American EducationalResearch_{Association' (AERA),}de American_{Psychological} Association' (APA) ende'National CouncilonMeasurementinEducation' (NCME) hebben ineen_gezamenlijke_{publicatie (1985)}een _{indeling naar drie}

soorten validiteit_gegeven.

- Inhoudsvaliditeit wordt geevalueerd door vasttestellen hoe goed

deinhoud

vaneentoetshet _{domein van situaties,}kennisinhoudenofvaardigheden

representeertwaaroverconclusiesgetrokkenmoetenworden.

- Criteriumvaliditeitwordt geevalueerd door

descores te vergelijken met een

externevariabele,die verondersteldwordteendirecte meting te zijn van het

gedraginkwestie. Er wordentwee soortencriteriumvaliditeitonderscheiden:

• Predictieve validiteit die de _{mate aangeeft}waarineenscoreiemands

toekomstige niveau opeencriteriumkanvoorspellen.

• _{Gelijktijdige} _{(concurrent) validiteit die de}_{mate aangeeft}waarineenscore iemands huidige niveau op eencriteriumkan schatten.

- Constructvaliditeit wordt geevalueerd doorteonderzoekenwelke

psychologische kwaliteiteneen toets meet.'Construct' is dan een

gepostuleerdevaardigheidwaarvanverondersteld wordt dat deze gereflecteerdwordt indetoetsprestatie.

Messick (1987)benadrukt dat dezedriesoorten validiteitniet_{gezien moeten} wordenals_{alternatieven, maar als aspecten van}_{validiteitsonderzoek. Hij wijst}

op deovereenkomsttussencriterium- enconstructvaliditeit.Inonderzoek naar de criteriumvaliditeit vaneen meetinstrument ishetimmersessentieel om te bepalen in hoeverredeexterne variabele_(het_{criterium) hetzelfde meet als het} meetinstrumentin kwestiebeoogt te meten.Messickbenadrukt dat het bij criteriumvaliditeit niet enkelen alleen gaat omdecorrelatie tussentoets en

criterium. Het isvanbelang omteverklaren waarom ereenbepaald verband bestaat tussen hetcriterium ende toets (vgl.ook Cronbach, 1972;Drenth,

1972).Hiervoormoeten hetcriterium enhetmeetinstrumentin kwestie

(21)

onderzoek naar deconstructvaliditeit van toets envancriterium. VolgensJensen (1980)constateerden Bineten Simonreeds dat hun

intelligentietest.ontwikkeldvoor Parijsearbeiderskinderen, afgenomen bij kinderen meteenhogere sociaal-economische statusaanzienlijk hogere

gemiddelde testscoresopleverde. Vertegenwoordigdendescores van delagere

en _{hogere sociale}_{milieus inderdaad verschillende intelligentieniveaus of}waren

de verschillen een artefact van de test?Binet heeftdezeonderzoeksvraag nooit formeel onderzocht(Jensen, 1980). maarniet direct verklaarbare verschillen

tussenrelevante geledingen indepopulatie zijn vaak aanleiding om te

onderzoeken of een test oftoets ook vooronderscheiden subpopulaties aan zijn doel beantwoordt.

Zo wordt erin Nederland bijvoorbeeldnagegaan ofdeitems van het Centraal SchriftelijkEindexamen moderne vreemdetalen van het LBO. MAVO, HAVO en VWO voor_jongensen _meisjes_{op dezelfde} _{wijze functioneren. Bij}deze

examensworden _{items opgespoord die} deleden van deene sekse _significant

betermaken dan deleden van deandere meteen_{vergelijkbaar gemiddeld}

prestatieniveau (Bugel & Robben-Willems, 1989: Bugel, 1991: Biigel & Glas.

1991). In de_Verenigde Staten _{besteedt men op}_soortgelijke wijze veel aandacht

aan de validiteitvantoetsenvoor leerlingen uitetnische minderheidsgroepen in vergelijking met die voorde blanke _{meerderheidsgroep (Berk, 1982; Holland &}

Wainer, 1993).Tatsuoka e.a. (1988)gingen na ofeentoets ook aan zijn doel beantwoordt voor leerlingen vaneen _{vergelijkbaar prestatieniveau die bij}

bepaaldecognitieve taken verschillende 'problem-solving'-strategieenhanteren.

In onderzoek naardevaliditeit van toetsenvoorsubgroepenwordt het begrip

'bias' gehanteerd. Inhet algemeenverwijst bias naardesystematische over- of onderschatting vaneen parameterals functie van het lidmaatschap van een

onderscheiden subgroep(vgl.Jensen, 1980:Reynolds, 1982).Biasonderzoek kan

betrekkinghebben opde toets alsgeheel en op de afzonderlijke toetsopgaven.

Bij een toetsdiegebruikt wordtom iemandsniveau opeenextern criterium te

schatten. kanonderzocht worden ofde criteriumvaliditeit voor de

onderscheiden subgroepen even hoog is. Biasonderzoek heeftbetrekking op de constructvaliditeit.wanneeronderzocht wordt ofdeafzonderlijke toetsitems

voorde onderscheiden subgroepen het construct opdezelfde wijze

representeren.

Elk onderzoek naardehruikbaarheid van toetsenvoor relevante geledingen in

de populatie is noggeen toets- ofitembiasonderzoek. Hofstee (1990) maakt onderscheidtussenonderzoek naar biasenonderzoek waarinbec,ordeeld wordt of er ineentoets oftestetnocentrischeofracistischeinhouden voorkomen.

Volgens Hofstee isdevraag ofeentekst ofeen _{afbeelding door}debeugel kan een kwestie vanoordeelsvorming. De vraag ofeen _{leerling door}_bepaalde

plaatjes ofbewoordingenbenadeeldwordt.is_{daarbij niet aan de} orde. Alleen empirisch onderzoek kanuitsluitsel gevenofscoresvan _{leerlingen door} bepaaldeinhoudenbeYnvloed worden: "Een testkanetnocentrische inhoud vertonen of niet. en losdaarvanallochtonen benadelen of niet.De beidecriteria zijn onafhankelijkvanelkaar"(Hofstee. 1990: 292).Ekstrom, Lockheed &

Donlon (1979) daarentegen sprekenover onderzoek naar'bias' wanneer de

(22)

een testsprake is van'bias'. wanneer er in detestinhoudvaker mannelijke

zelfstandige naamwoordenvoorkomen dan_vrouwelijke.

Indezedissertatie wordt aangesloten bijde_opvatting_{van Hofstee (1990).}

Met 'onderzoek naarbias'wordtverwezennaar _{empirisch onderzoek}_waarbij nagegaanwordt of het item ofdetoets het te metenconstruct.respectievelijk criterium voor_{onderscheiden subgroepen}_{vergelijkbaar}_{representeren.} Indien

de items_bij _{bepaalde subgroepen iets anders}meten, kan ditdescores van die groepen beYnvloeden. Voor het beoordelen van de inhoudvan toetsen oftesten

op zichwordt hier de term 'inhoudsanalyse' gehanteerd.

'Bias' isniet hetzelfdeals _{'moeilijkheid'.} _Regelmatig_{blijkt dat}deresultaten van verschillende bevolkingsgroepenop toetsenverschillen. Op zich is dit geen

argument om aan dekwaliteit vandetoetstetwijfelen. Wemoeteneraltijd rekeningmee houden datene bevolkingsgroep gemiddeld vaardiger is in het te

metenconstruct dandeandere.Als bijvoorbeeld taalitems voorbepaalde

leerlingen moeilijker zijn dan voorandere,wordt meestal voldaan aan de

functie vandieitems ofdetaaltoets als geheel: hetdiscrimineren tussen meer en

mindertaalvaardige leerlingenmetbetrekking tot de taaldie getoetstwordt. Er wordt afbreuk_{gedaan aan}deconstructvaliditeit van het meetinstrument wanneer voorhet_{juist beantwoorden van}de_{items nog andere}_vaardigheden

nodig zijn dandevaardigheid diede items beogente meten. Wanneer de

benodigdeadditionele vaardigheden niet bij alleonderscheiden subgroepen in vergelijkbaremate aanwezigzijn, spreken we van bias. Datkan_{bijvoorbeeld het} gevalzijn wanneer het niet tot hette meten constructbehorende taalgebruik in een rekenopgave vooreen_bepaalde_groep_leerlingendermate _{ingewikkeld is,} dat ze ten gevolge daarvan niet aan hetuitvoeren vande beoogderekenoperatie toekomenofdaaraanonvoldoende aandachtkunnenbesteden. De vaardigheid

diedetoetsitems beogentemeten, spelenbij onderzoek naar bias eencruciale

rol.

Kok₍₁₉₈₈₎hanteertals _{equivalent voor 'bias'}het Nederlandse_begrip

'partijdigheid'. In navolging vanhemworden indit_{proefschrift 'bias' en} 'partijdigheid' als zelfstandig naamwoord gebruikten_'partijdig' als_bijvoeglijk

naamwoord.

Het begriptoetswordt hierbeschouwd alseenverbijzondering van hetbegrip

test.Toetswordtgebruikt vooreen meetprocedure vandoor onderwijs en

studieverworven_kennis,inzichten _{vaardigheid op 66n of}_{meer vakgebieden.}

Test_{wordt gebruikt voor}een _{meetprocedure van niet door intentioneel}

onderwijsenstudieverworven_{eigenschappen van} de_{persoon (vgl.} DeGroot &

Van Naerssen, 1969:Drenth, 1973: DeKlerk, 1983)

1.2.1 Onderzoek naar toetsbias

Toetsenworden in het algemeenontwikkeldomvoorspellingen te doen over buitendetoetssituatieliggend gedrag. Opbasis vande behaalde toetsscore sprekenwe_{verwachtingen uit over feiten,}_{waarvan we op zichzelf geen weet}

(23)

toetssituatie _liggende feiten _(vgl.Drenth, 1973: De Klerk. 1983).

Wanneerde criteriumvaliditeit vaneen toets voor twee ofmeer subgroepen

wordt onderzocht. cpreken wevanonderzoek naar toetsbias. Reynolds (1982) en Malpass& Poortinga(1986) definierentoetsbias als het maken van

systematischeschattingsfouten bij het voorspellen vande_{positie op}eenextern

criterium alseenfunctie van eenspecifiek_{groepslidmaatschap. Jensen (1980:}

381) zegt dateen toetspartijdigiswanneerde hellingen.de intercepts en de

schattingsfouten vanderegressielijnen vantweesubgroepen significant van elkaar verschillen. De 'American EducationalResearch _{Association' (AERA),}

de 'American_{Psychological} Association' (APA) ende 'National Council on Measurement in _{Education' (NCME) onderschrijven in} een_gezamenlijke

publicatie (1985)de_opvattingvanJensen. Wanneerde_{regressielijnen van twee}

onderscheiden subgroepen samenvallen, danvoorspelt de toetshetextern criteriumvoor _{heide groepen}_op _{dezelfde wijze. De}_{intercepten en}de_hellingen

van allochtoneen _{autochtone leerlingen zijn}_gelijk en_{schattingsfouten in de}

predictie zijn niet gecorreleerd met groepslidmaatschap.

Een toetsispartijdigwanneerde regressielijnenvan onderscheiden subgroepen

uit de_{populatie significant}vanelkaar verschillen ende_{gemeenschappelijke}

regressievergelijking gebruikt wordt omde_{positie van}_{die subgroepen op het} externcriteriumte schatten. Dezesituatie doet zich voor wanneer bij de predictie van het extern criteriumgeen onderscheidgemaakt wordt naar

subgroepen.

Wanneerde _{regressielijnen niet}samenvallen, kunnen zichdrie situaties

voordoen:de _{intercepten verschillen constant (a),}dehellingen verschillen (b) en de intercepten ende _hellingenverschillen (c) (Cronbach. 1972:Reynolds.

1982). Validiteit veronderstelt betrouwbaarheid. Bij de volgende situatieswordt ervan uitgegaan datde meting voldoende betrouwbaargenoemd kan worden en

(24)

a de intercepten verschillen significant

Wanneerde_{intercepten verschillen en de hellingen niet, dan ontstaat er een}

situatie als in figuur 1.2.

Figuur 1.2 De intercepten van de regressielijnen verschillen

voorspeller

extern criterlum

Allochtonen Autochtonen

Gemeensch. regr.lijn

Gebruik vande_{gemeenschappelijke}_{regressievergelijking resulteert in bias ten}

nadele vandesubgroep metdehoogste gemiddelde score opdetoets (de

voorspeller). Omdatde _hellingenvan _{beide subgroepen}_{gelijk zijn. blijft de}

over-_{of onderschatting in} de_predictieconstantenfluctueert niet alseen functie

van iemands score opde_{voorspeller. De mate van over- of onderschatting van}

het niveau ophetexterncriterium isdusonafhankelijk van iemandstoetsscore.

In figuur 1.2 leidthetgebruik vande_{gemeenschappelijke}_{regressievergelijking}

(25)

b de hellingen verschillen significant

Figuur 1.3_geeft desituatie weerwaarin de _hellingen verschillen en de

intercepten niet.

Figuitr j.3 De hellingen van de regressielijiten verschillen

voorspeller

extern criterium

Alloch tonen - Autochtonen

In figuur 1.3_lopende _{regressielijnen van} deonderscheiden_{subgroepen niet}

parallel.hetgeen betekent dat bij gebruik van degemeenschappelijke

regressie-vergelijking hetcriteriumniveau vandesubgroep met dehoogste gemiddelde toetsscr)re_{(voorspeller)} onderschatwordt en dathet niveau vande_{groep met}

laagste scoreoverschatwordt. De matevantoetsbias is hier niet bij elke

toets<core even _{groot. maar}is_{afhankelijk van} _{het scoreniveau op de}

roorspeller. Naarmate detoetsscorevan allochtone leerlingen hogeris.wordt in figuur 1.3hetcriteriumniveau sterkeroverschat:bij autochtone leerlingen gaat

het om onderschatten.

c de hellingen en de intercepten verschillen significant

De situatie in _{figuur 1.4}is_{aanzienlijk complexer: zowel de hellingen als} intercepten verschillen. Bij gebruik vande_{gemeenschappelijke}

regressie-vergelijking is de matevantoetsbiasafhankelijk van het scoreniveau op de

voorspeller, maarhet scoreniveau opde_{voorspeller bepaalt ook of}_{er sprake is}

van over- of onderschatting vanhetcriteriumniveau. In figuur1.4_{wordt bij} relatieflage toetsscores hetcriteriumniveau bij allochtone leerlingenoverschat.

bij relatiefhogescoresonderschat. Alleen bil kruisende regressielijnen kan het

(26)

Figuitr 1.4 De hellingen en de intercepten van de regressielijnen verscltillen

voorspeller

extern criterium

Allochtonen Autochtonen

Messick (1987)onderscheidtdrie_{soorten beslissingen die met toetsscores}

genomen kunnen worden.

- selectie

Bijselectiebeslissingenwordt bepaald ofeen _{persoon wei of niet}in_aanmerking

komt vooreen _bepaalde_behandeling._{Behandeling wordt hier}_gebruiktin ruime zin: hetkan_betrekking_{hebben op}een_{aanvullend onderwijsprogramma. een}

therapeutische interventie ofeenarbeidsovereenkomst. - classificatie

Bijclassificatiebeslissingenworden alle personen over twee ofmeersoorten

behandelingenverdeeld. De_{maatschappelijke waardering van de} onderscheiden behandelingen is_gelijk.

- plaatsing

Bijplaatsingsbeslissingenworden de_leerlingen verdeeld_{over behandelingen} die geziende_{maatschappelijke waardering}een_rangorde vormen.

Messick (1987)vindtdat toetsscores dievoorselectie. classificatieofplaatsing gebruikt worden,geevalueerd moetenworden door longitudinaal onderzoek.

De personen uitde_{onderscheiden subgroepen moeten gevolgd}worden en na

een_bepaalde_periode_{moeten gegevens verzameld}worden overhet criterium-gedrag. Metdeze _{gegevens moet}de_{predictieve validiteit van}de_{scores per}

(27)

Cronbach (1972),Drenth (1972) en _{Messick (1987) zeggen dat het aangeven van}

de regressievan toetsscore op het extern criterium opzichonvoldoende is.

Het isvan belang om dedeterminanten van het criteriumgedrag tebepalen.

Dit betekentin _{feite longitudinaal onderzoek met} een modelwaarin eenaantal

relevante onafnankelijke variabelen. waarondertoetsscore,zijn opgenomen en

waarin het_{criteriumgedrag}als_{afhankelijke variabele fungeert.}

Voor onderzoek naarderelatie toetsscore- externcriterium voor

onderscheiden subgroepen is ookeen _{longitudinaal} _{model nodig. We moeten er}

immers rekeningmeehouden, dat de invloedvan allerlei relevante variabelen op derelatietoetsscore-criterium bij elke onderscheiden subgroepen niet

gelijk is. Het isuitermate belangrijk om vast testellen welkefactoren bij de

onderscheidensubgroepen in dit verband differentieleeffecten kunnen veroorzaken. Dezefactoren _{moeten adequaat gemeten}worden en_vervolgens

moetendeeffectenvan_{mogelijke determinanten}van _{schoolloopbanen van de} onderscheiden subgroepen ineen _{longitudinaal} _{model geschat}worden.

Cronbach (1972), Jensen (1980). Reynolds (1982), Kok (1988) en Vande _Vijver. Willemse & Van de Rijt ₍₁₉₉₃₎merken op dat bij onderzoeknaar toetsbias

wordt aangenomen dat van hetextern criteriumeen betrouwbareen valide

operationalisatie beschikbaar is._{Jensen (1980) en Van} de_{Vijver, Willemse &}

Van de Rijt (1993)erkennen dat eenonpartijdig extern criterium niet altijd voorhanden is. met name niet wanneer hetexterncriterium_{gebaseerd is op}

subjectieve. invalide observaties zoalsbijvoorbeeld schoolcijfers. Wanneer het

extern criteriumterdiscussie staat. kan volgens Jensen (1980)enReynolds (1982)de aandacht_{beter uitgaan naar}deconstructvaliditeit van het

meetinstrument,want_{uitspraken over} decriteriumvaliditeit zijndan_eigenlijk

niet mogelijk en niet toegestaan.

In Nederlands schoolloopbaanonderzoek wordtmeestal het niveau dat een leerling naeen bepaalde periode inhetvoortgezet onderwijs bereikt heeft als criterium voorschoolsucces gehanteerd. Uitgangspunt hierbij is datde bereikte onderwijsposities verticaal (leeriaren) en horizontaal (van IBO tot VWO) verschillen _{in niveau en op}cfdn_{schaal gebracht kunnen worden.} Vervolgens kan

de regressie vande_{onafhankelijke variabelen (bijvoorbeeld:} advies basisschool

en toetsscore) op deschaal voor_{schoolsucces bepaaid worden.} _{Er blijken} verschillende manieren te zijn om debereikte onderwijsniveaus teschalen

(Cremers, 198(}:Tesser. 1986, Bosker. 1990. Uiterwijk. 199Ob: Vander Velden.

1991). Inverband met veranderingen in het voortgezet onderwijsmoeten we er ook rekeningmee houden dateen schaalvoor bereikt onderwijsniveau een beperkte geldigheidsduurbezit.

Voor onderzoeknaar toetsbias kan men als externcriteriumeenschaal voor

bereikt onderwijsniveau construeren. maar bijde verantwoording van deze

schaal moet ook _aangegeven worden ofdezeschaal_{zelf onpartijdig is met}

betrekking totdeonderscheiden subgroepen.

Jungbluth. Van Langen & Vierke (1990: 91)stellen dat bijde_{overgang van}

basisonderwijsnaarvoortgezet onderwijs achteraf moeilijkvastgesteld kan

worden ofhetadvies van debasisschool ofeen toetsscorecorrect isgeweest.

(28)

zodanigeverwachtingen dat het advies basisschool inde_regelzijneigen

correctheid bevordert. Bovendien zullen'systeemimmanente processen' met name categoriale scholenvoor voortgezet onderwijs afhouden van op- en afstroomvan _{leerlingen. Het}is derhalveniet ondenkbaar dat bijhet besluit om een leerlingeenandere school te adviserenwellicht onbedoeld meerfactoren

meespelen dan alleen de_{capaciteiten en het}prestatieniveau van de leerling. Maar ook bijbrede scholengemeenschappen kan men zich afvragen waar de selectietijdensdebrugperiode op gebaseerdis.Bredescholengemeenschappen

zijn voor onderzoek naar toetsbiasvoor allochtone leerlingen belangrijk, omdat zij opdeze_schooltypen_{vergeleken met}_{autochtone leerlingen}

oververtegenwoordigd zijn (Uiterwijk, 199Oa). Tot nu toe isuit onderzoek

weinig bekend overdevraag hoe opdezescholen selectieprocessen totstand komen._Wijnstra_{(1984b), De Jong (1987),}_Uiterwijk(1990b). Driessen (1991 a),

Van Langen&Jungbluth (1992) en_Meijnen& Riemersma (1992) constateren

dat kinderenuit_{etnische minderheidsgroepen aan het einde van}de basisschool

gemiddeldeen _{hoger advies} krijgen dande_{autochtone leerlingen met een}

vergelijkbare test-c.q.toetsscore. Het is niet uitgeslotendatleerkrachten van

brede scholengemeenschappen net als huncollega's uithetbasisonderwijs bij

plaatsings-enovergangsbeslissingen hetprestatieniveauvan bepaalde

subgroepen over-of onderwaarderen. Hierdoor ishetvinden van een

onpartijdig extern criteriumeen_probleem.

De conclusie moet zijn dat hetstriktgenomen in deNederlandsesituatie

onmogelijk is omtebeoordelen of er bijeenbepaaldetoetssprake is van toetsbias vanwege hetontbreken van eenonpartijdigextern criterium. Aan de

anderekant moetenwevaststellen dat indeonderwijspraktijktoetsen en het advies basisschooleen functie vervullen bijdeschoolkeuze en detoelating tot

het voortgezetonderwijs. Daardoor functioneert indepraktijk hetbereikte onderwijsniveauweldegelijk als maat voorschoolsucces.Zozeggen we

bijvoorbeeld dathetadvies vande_{basisschool goed}is_{geweest, wanneer een} leerling meteenVWO-advieszonderdoubleren in dederde klas VWOterecht komt. We_zeggenechter ook dat de_toetsuitslag_onjuistwas,wanneer een

leerling meteenscorenetonder_{het gemiddelde}zonderdoublereneveneens in de derde klasVWO terecht komt.Uiteraard ishetmogelijk dathet 'zich-zelf-waarmakendkarakter' vanhet advies basisschool andereeffecten heeft op de schoolloopbaan dan dat vandetoetsuitslag,waardoorhet moeilijk is om over juisteenonjuisteadviezenen scores tespreken.

Voordeonderwijspraktijk kanhetevenwel vanbelang zijnte weten bij welke

vanonderscheiden subgroepen het advies basisschool hogercorreleert met een

schaalvoor schoolsucces,bij welkesubgroepende toetsscorehoger correleert

en_{bij welke}_subgroepen decorrelatiesvanadviesenscore_{vergelijkbaar zijn.}

Indezestudiewordtgeenonderzoeknaar toetsbias gedaan door aan de hand vanhetverschiltussende regressielijnenvan Eindtoetsscoreop externcriterium van allochtoneenautochtone leerlingentebepalen of er bij deEindtoets Basisonderwijssprake is van toetsbias. Het ontbreken vaneenonpartijdig

externcriterium maakt hetin_{feite onmogelijk om}te_{beoordelen of er bij de}

Eindtoets Basisonderwijs al dan nietsprakeistoetsbias.Onderzoek naar

(29)

1.2.2 Onderzoeknaaritembias

Bij het ontwikkelen van een toetswordteen reeksitemsgeconstrueerd die samengeacht wordeneen bepaaldconstruct te representeren. Deafzonderlijke itemszijn operationalisaties vanhetconstruct datdetoets als geheel meet.

In onderzoek naarde constructvaliditeit kan nagegaanworden ofde items het

constructvoor onderscheiden _{subgroepen op}vergelijkbare wijzerepresenteren.

Reynolds (1982) en_{Shepard (1982) stellen dat een} item_partijdigis,wanneer

een toets bij deene groepeenanderconstruct meet dan bij deandere of

wanneerde toets bij tweesubgroepen welhetzelfde meet maar dat niet met

dezelfde_{nauwkeurigheid}doet._{Holland & Thayer}(1986) zeggenkortweg dat partijdige items voor de ene_subgroepeenanderefunctie hebben dan voor de

andere. Inde _VerenigdeStatenwordt_{in plaats van}over'itembias' ook wel

gesproken over'Differential Item Functioning' (DIF).

Overdedefinitievanitembias blijken demeningenovereente stemmen. Een

item is_partijdig_{wanneer leerlingen}uit _{onderscheiden subgroepen. maar met}

eengelijke vaardigheid.eenongelijkekanshebben om het item goed te

beantwoorden (Ironson, 1982:Angoff, 1982:Scheuneman,1988;Verhelst. 1988:

Kok. 1988;Hambleton & Rogers, 1989:Mellenbergh, 1989: Glas, 1991; Van de

Vijver. 1991:_{Bugel. 1991, Glas} & Ouborg, 1993). Alsalle items vaneen toets het te metendomein (bijvoorbeeld het rekendomein 'kommagetallen')

adequaat representeren,dan hebben_{leerlingen die}even _{vaardig zijn in dat}

domein,eengelijke kans omeen_{bepaald item uit}die toets goed te

beantwoorden. Van belang is dat voorhet_{juist beantwoorden van}deitems een bepaaldepopulatie (bijvoorbeeld autochtone leerlingen) geen andere

vaardigheden nodig heeft dan de_{vaardigheid die}de _{items beogen}temeten.

Deitemsmeten indie_{populatie dan}een _{eendimensionele vaardigheid}

('kommagetallen'). Verder isvan_{belang dat}de_leerlingen_{geclassificeerd}

kunnenworden naarde_{vaardigheid die de} teonderzoeken _{items beogen te} meten. Er moet duseen criterium beschikbaar zijn. waarmeede _{leerlingen van}

een bepaalde populatie (bijvoorbeeld autochtone leerlingen)ingedeeld kunnen

worden in niveaugroepen. Dit criteriummoethetzelfde constructmeten ('kommagetallen') als de teonderzoeken itemspretenderente meten.

Vervolgens kan met statistische procedures onderzochtworden of leerlingen uit

onderscheiden subgroepen (bijvoorbeeld autochtoneen_{allochtone leerlingen).}

maar meteen _{vergelijkbaar vaardigheidsniveau.}een _ongelijkekans hebben om

het item goedtebeantwoorden.

Holland & Thayer(1986) zeggen datals resultaat van het classificeren van de leerlingen dezevergelijkbaar moeten zijn ten aanzien van

- het construct dat het item meet:

- het ontvangen onderwijsaanbod ofandererelevante ervaringen, - lidmaatschapvan andere groepen.

Zij erkennen dat inde _{praktijk vrijwel altijd}met minder_{genoegen moet}worden

genomen, hetgeendetrefzekerheid beperktwaarmeeuitspraken over itembias

gedaan kunnen worden.

Voor onderzoeknaaritembias zijn verschillendestatistische procedures

(30)

a Klassieke Testtlieorie

Klassieketesttheorieprocedures gaan vande aanname uit dat het totaal aantal goed gemaakte opgaveneen goede schatting is van dete metenvaardigheid.

Omdatdeze aanname_{niet statistisch getoetst}wordt, iseen _proceduregebaseerd

op de klassieke testtheorie methodologisch eenvoudiger daneen itemresponse-theorie-procedure. De laatstejaren isdemeestgebruikte klassieke testtheorie-procedurede_{Mantel-Haenszel-techniek (Holland & Wainer. 1993: Glas &}

Ouborg, 1993).Hierbijworden aan de hand vande totaalscoredeleerlingen uit de_{onderscheiden subgroepen} _{(bijvoorbeeld allochtone}en autochtone

leerlingen) ingedeeld in niveaugroepen.Vervolgenswordtde hypothese getoetst dat binnendeze _{niveaugroepen}de _{p-waarde. het percentage}_leerlingen

dat het item_goed _{maakt, van het item bij allochtone}en_{autochtone leerlingen}

gelijkis(Verhelst, 1988). Het classificeren naar niveaugroepen aan de hand van

de totaalscore kaneenprobleemzijn,omdatdetotaalscore ookde responsen op

partijdigeitems kan bevatten.Hiervoor kaneenoplossing gevonden worden doordetotaalscore metbehulp van eeniteratieve procedure te 'zuiveren' van partijdigeitems. Eerstwordteen _{Mantel-Haenszel-analyse uitgevoerd waarbij}

alle items vandetoetsin kwestiezijn opgenomen indetotaalscore. Vervolgens worden deitems die inde eersteanalyse partijdigbleken te zijn. inde tweede analyse niet opgenomen in detotaaiscore. Hetis mogelijk dat er inde tweede analyse nieuwepartijdige itemsbijkomen, maar het iseveneens_{mogelijk dat}

items nietmeer_{partijdig zijn die in} de_{eerste analyse wel}_partijdig waren.

Het iteratieveproces gaatdoortotdat ereenverzameling onpartijdigeitems gevondenwordt waaropdetotaalscore gebaseerd kan worden.Wanneer de leerlingen op basis vande'gezuiverde' totaalscore zijningedeeldin

niveau-groepen,wordt vervolgens voor elk item uitdetoetsdehypothesegetoetst dat binnen de_{niveaugroepen}de_{p-waarde van het item voor}deonderscheiden subgroepengelijk is. Bij het'zuiveren' vande totaalscore doet zichde vraag

voor ofde_{overgebleven items het}construct_nogvoldoendedekken. Dit is de

vraag naardeinhoudsvaliditeit vande_{overgebleven items. Wanneer de}

onderzoeker aannemelijkkan maken datresterende items het domein voldoende _{representeren, dan}beschikken we overeen_onpartijdige

operationalisatie van hette metenconstruct. b Itemresponsetheorie

Procedures die gebaseerd zijn op eenmodel uitde _{itemresponsetheorie (IRT)}

gaan vande aanname uit datde_{geobserveerde} _{itemresponsen} verklaard kunnen worden vanuit66n onderliggendevaardigheid,de latentetrek.Onder een IRT-modelwordt statistisch_{getoetst of}deitemseenlatente _{trek vertegenwoordigen.} Alshet IRT-modelpast, metende itemseen eendimensionele_{vaardigheid. De} kans op een goedantwoord wordtdanbeschreven alseen functie_van

persoons-en_{itemparameters.} _Leerlingenmet_{dezelfde score op}de latentetrek hebben

een gelijke kans om een item goedtebeantwoorden onafhankelijk van de populatie waartoezebehoren. Een_belangrijkeaanname_{bij eendimensionaliteit} is dat de_{waarschijnlijkheid dat}detoetsdeelnemer een item_goed beantwoordt,

eenmonotoonstijgendefunctie vandelatente trek is. De itemkarakteristieke

curve_{(item characteristic curve of}_ICC)geeftde relatieweer tussen de

eendimensionele vaardigheid en de kans om het item goedtebeantwoorden. Ondereen IRT-modelisonderzoeknaaritembiashet_{bepalen of}de_parameters

(31)

verschillen (Skaggs & Lissitz. 1988: Kok. 1988: Hambleton& Rogers. 1989:

Hills, 1989: Mellenbergh. 1989. Camilli & Smith.1990: _{Bligel & Glas. 1991)}

Er worden meestal drieparametersgebruikt worden om de iCCte beschrijven:

- de moeilijkheidsparameter. diehet _{vaardigheidsniveau}_aangeeft:

- de discriminatieparameter.dieaangeeft in welke mate de kans op een goed

antwoord stijgt. naarmatede_{vaardigheid toeneemt:}

- de raadparameter, die de kans aangeeft datdetoetsdeelnemer het item goed beantwoordt doorteraden.

Een IRT-model is dan ookmeestal op ddn. twee ofdrieparametersgebaseerd.

Glas & Verhelst (1993)en_Shealy & Stout (1993)wijzenop multidimensionele

IRT-modellen _{waarmee vastgesteld kan}worden in welke mate elk item uit een

toetseenberoep doet op twee ofmeerlatente vaardigheden. maardezerelatief

nieuwe _{modellen zijn wiskundig ingewikkeld en}debruikbaarheid ervan voor onderzoek naaritembiasis_vooralsnog_beperkt.

Ondereen IRT-model issprake van itembiaswanneerdegeobserveerde responsen van de_{onderscheiden subgroepen} _{(bijvoorbeeld allochtone en}

autochtone leerlingen) niet vanuit 66n en dezelfdelatente trek verklaard kunnen worden. Itembiaswordt hiernagegaandooreerst de items voor den subgroep(bijvoorbeeld autochtone leerlingen)teschalen. Deitemsdie blijken

te passen opeen schaal representerenbij autochtone leerlingen dezelfde latente trek. Vervolgens wordtbepaaldofdezelfdeitems ookeen latente trek

vertegenwoordigenbij allochtoneen _{autochtone leerlingen}_(vgl. _Mellenbergh,

1989: Bugel & Glas, 1991). Deitems die bijde beidesubgroepen niet opdeze

schaal passenzijn partijdig. Voorallochtone leerlingen zijn er kennelijk additionele vaardigheden inhet geding.

De vraag naarde bestestatistische_{procediwe laat zich niet eenvoudig}

beantwoorden. Omdat bij IRT-modellen onderzocht wordt ofde_{items bij het}

model_{passen. is}deze_{benadering vergeleken} met klassieke

testtheorie-procedurestheoretisch superieur. IRT-modellen zijn echterwiskundig ingewikkeld en ze zijn volgens Kok (1988: 28) onbetrouwbaarbij kleine

steekproeven. Bovendien is de_{IRT-benadering} niet_{volledig bruikbaar}wanneer

blijkt dat 06n of meer ineen toetsopgenomen items vooreen bepaalde

populatie niet bil het model passen (Glas. 1991). Deze itemsmoeten dan bij

deze analyses buiten beschouwingblijven. hoewel ze vanwege dit kenmerk voor

onderzoek naar itembias juist interessant zijn.

Klassieketesttheorieprocedures kunnen gebruikt worden bij relatief kleine steekproeven. leveren ophet eerste gezicht goed interpreteerbarestatistische toetsen, maar maken niet duidelijk ofdeitems dete meten _vaardigheid adequaatrepresenteren (Kok. 1988). Intraprasert(1986) concludeert na

vergelijking van vijf itembiasdetectieprocedures dat eenaantal van 400 - 500

waarnemingen per steekproef bijelke methodetotbetrouwbare resultaten leidt. Bij Educational Testing Service (ETS) inde _Verenigde_{Staten geldt} als_{regel dat}

voor_{alle statistische procedures}_{bij voorkeur}_{steekproeven van 500}

waarnemingenper subgroep beschikbaarmoeten_zijn _{(Zieky. 1993). In 6.1.3}

komen we opdesteekproefomvangterug.

Zowelbij IRT-modellen als bij klassieketesttheorieprocedures moet

vastgesteldworden of we temaken hebbenmet niet-uniforme itembias. Er is

(32)

laagpresterende en nietbij hoogpresterende niveaugroepenof omgekeerd

(Uiterwijk, 19908).

Het is niet ongebruikelijk om voorhet opsporen vanpartijdige items zowel een procedure gebaseerd op het IRT-model alseen klassieketesttheorie-procedure

te_gebruiken_(Skaggs& Lissitz, 1988;Hambleton& Rogers, 1989: Hills, 1989;

Camilli& Smith, 1990; Bugel & Glas, 1991: Hambleton &Jones. 1992: Glas & Ouborg. 1993).Hierdoor wordt duidelijkinwelke mate er overlap bestaat tussen de _gehanteerde_procedures. Zovonden Hambleton& _{Rogers (1989) dat} de Mantel-Haenszel-procedure en een ophet IRT-model_gebaseerdeprocedure

in het aanwijzen vanpartijdige enonpartijdige items bij 75 tot 80 % van de

items overeenstemden. Hills₍₁₉₈₉₎vermeldtdatverschillende itembiasdetectie-procedures nietvolledig overeenstemmen bijhet aanwijzenvan_partijdige items

engeeft bovendien aan datitembiasindices aanzienlijk verschillen wanneer dezelfdedetectieprocedurewordttoegepast opverschillendea-selecte

steekproeven uiteen _{populatie. Bij}33 _analysesmetzowelde

Mantel-Haenszel-techniek als met op eenIRT-modelgebaseerdetechniekop afzonderlijke

a-selecte steekproevenuit dezelfde_{populatie blijkt}_geen enkel item 33 keer partijdig te zijn.Slechts zevenitems bleken 20 van de 33 keerpartijdig; van de in totaal92itemswaren 13itemsnooitpartijdig.

Uit het bovenstaandeblijkt dathet moeilijk is om vasttestellen of een item partijdig is of niet. Wei kan aangegeven wordenin_{welke mate een item bij de}

verschillende _procedures_{partijdig is: bij alle. bij een deel} of_{nooit (vgl.} Uiterwijk, 199Oa).

Kok (1988: 6)onderscheidt bijonderzoeknaaritembias tweefasen.

In_{de detectiefase}_{worden met statistische procedures beslissingen genomen over}

de vraagof items wel of niet partijdig zijn.

Inde _{verklaringsfase}_{worden naar aanleiding van de geconstateerde statistische}

itembias en opgrondvanandere kennisen inzichten_hypothesen_geformuleerd over mogelijke oorzakenvanitembias.

De hypothesen kunnen betrekkinghebben opdeeigenschappen van

toets-deelnemers maar ook_opkenmerkenvan items, die verantwoordelijk zijn voor itembias. Verklaringen voor itembias kunnen ookgevondenworden door

experimenteelencorrelationeel_{onderzoek. Scheuneman (1982; 1985),}

Scheuneman_{& Steinhaus (1987). Kok, (1988); Bugel & Robben-Willems (1989).}

De Jong & Vallen (1989),Uiterwijk(1990a) enCoenen& Vallen(1991), Bugel

& Glas (1991)en _{Uiterwijk & Vallen}(1991) proberen doordeinhoud van partijdigeitemsteanalyserendeoorzakenvanitembiasteachterhalen. Door te

zoeken naar_{overeenkomstige kenmerken}van_partijdigeen_onpartijdige items

kunnen aanwijzingen verkregen worden over oorzakenvanitembias. Deze aanwijzingen kunnenmogelijkeenrichtsnoer vormenvoor toetsontwikkelaars. VolgensScheuneman&Steinhaus (1987) is het zeermoeilijkom achteraf vast

te stellenwelk element uit eenitemverantwoordelijk is vooritembias. Bevindt de bronvan_{itembias bij bijvoorbeeld}een vierkeuze-item_{voor begrijpend}lezen

zich indetekstwaaroverdevraagwordtgesteld, indeintroducerende itemtekst, inde_{geformuleerde vraag of in de vier antwoordmogelijkheden?}

In verband metdezeonzekerheidhebben deeventueleconclusies uit de

verklaringsfaseeen_{voorlopig karakter. Herhaald onderzoek en}een _uitgebreide

(33)

opsporen vande oorzaken van itembiasbescheiden (Scheuneman & Steinhaus.

1987. Uiterwijk & Vallen. 1991).

Het analyseren vande inhoudvan_partijdige items stemtovereen met wat we in

1.1 _{inhoudsanalyse genoemd hebben. Inhoudsanalyse heeft} _{betrekkelijk weinig}

betekenis _{wanneer we dit doen bij} itemswaarvanweslechts vermoeden dat ze

partijdig zijn. Aande verklaringsfase moetdedetectiefase voorafgaan,omdat we dan opempirische basiskunnen aangeven welkeitemsvoor kinderen uit

etnische _{minderheidsgroepen partijdig zijn.}

1.3 Onderzoeksvragen

Dit onderzoek richt zich op drie onderdelen. Ten eerste (1.3.1) gaat het om het

beschrijven van trends in deschoolresultaten vanallochtoneen autochtone leerlingen. Met schoolresultaten worden hierde toetsscores op de(onderdelen

van de) EindtoetsBasisonderwijs bedoeld en degegevens overdetoelating tot en de doorstroming in hetvoortgezet onderwijs.De groep allochtone leerlingen wordt hier onderverdeeld in diverse etnische groepen. Ten tweede ( 1.3.2) richt

het onderzoek zich opde _{vraag hoe hoog}de_{voorspellende}waarde van de

Eindtoets Basisonderwijs is voordeonderscheiden etnische_{groepen in}

vergelijking met die van het advies vande_{basisschool. Ten derde (1.3.3) gaat}

het onderzoek in opde _{vraag welke items}_{partijdig zijn voor allochtone of}

autochtone leerlingenen_{waarom dat het geval is.}

Het onderhavige onderzoek beoogtondermeerinformatie te verschaffen over de predictieve enconstructvaliditeit van deEindtoets Basisonderwijs voor allochtoneen _{autochtone leerlingen. Uit itembiasonderzoek}is bekend dat het in het algemeen moeilijk is ommetzekerheid vast te stellenwaarom een item partijdig is voor allochtone of autochtone leerlingen. De onderzoeker kan het

bestevoordat de items metstatistische technieken onderzocht worden.

hypothesen formuleren over mogelijke oorzakenvan itembias. Omdat een item

in feite bestaat uit een aantal elementen is het nietaltijd duidelijk welk element

van een partijdig item de bias veroorzaakt. De conclusies die nade

inhouds-analyse van departijdige itemsgetrokken worden.hebben derhalve nog een voorlopig karakter. Deze voorlopigeconclusies zijntebeschouwen als

hypothesen voor eeneventuele volgende fase van het onderzoek. Voor item-biasonderzoek iseen groot aantal items nodig en het onderzoek verloopt in feite via een _{aantal cycli.} Inverband_{hiermee zijn in dit onderzoek van de}

Eindtoetsdeelnemers uit 1987 en uit 1989_{achtergrondgegevens verzameld.}

Door zowel in 1987 als in 1989_{gegevens over de aan}de Eindtoets

Basisonderwijs teverzamelen is het ook mogelijkom onderzoeksgegevens van

verschillende jarentevergelijken. Met de data uit 1987 en 1989wordentrends in enerzijds toetsresultatenen anderzijds in toelatings-endoorstroomgegevens

getraceerden krijgen weeenindruk vandestabiliteit van depredictieve validiteit van deEindtoetsBasisonderwijs en van het advies basisschool voor