Tilburg University
De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen
Uiterwijk, Jan Hendrik
Publication date:
1994
Document Version
Publisher's PDF, also known as Version of record Link to publication in Tilburg University Research Portal
Citation for published version (APA):
Uiterwijk, J. H. (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Instituut voor Toetsontwikkeling (Cito).
General rights
Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain
• You may freely distribute the URL identifying the publication in the public portal Take down policy
Eindtoets
Basisonderwijs
Henny
Uiterwijk
De bruikbaarheid van
de
Eindtoets
Basisonderwijs
voor
allochtone leerlingen
De bruikbaarheid van
de
Eindtoets Basisonderwijs
De bruikbaarheid van
deEindtoets Basisonderwijs
voor allochtone leerlingen
Proefschrift
ter verkrijging vandegraadvandoctor
aande KatholiekeUniversiteit Brabant,
op gezag vande rectormagnificus,
prof. dr. L.F.W. deKlerk,
inhet openbaarteverdedigen
ten overstaan van een
doorhet collegevandekanen aangewezen commissie in de aula vandeUniversiteit
op vrijdag 20 mei 1994 te 16.15 uur
door
Jan
Hendrik Uiterwijk
geboren te Arnhem
-
--0-IL"
UNIVERSITEIT 0 EjIR. 0VAN TILBURG
°To
BIBLIO-fHEEK
Promotores: Prof. di. A.J.A.G. Extra Prof. dr. L.F.W. de Klerk Co-promotor: Dr. A. Vallen
Omslagontwerp engrafischevormgeving: Hdldne de Wit
© InstituutwoorToetsontwikkeling (Cito). Arnhem 1994
Voonvoord
Om na te gaan ofde Eindtoets Basisonderwijsvoor allochtone leerlingen even goed bruikbaar is als voor autochtone.hebben medewerkers van het
Werkverband Taal en Minderheden vande Letterenfaculteit vande Katholieke Universiteit Brabant (KUB) enmedewerkers van het project Eindtoets
Basisonderwijs van het Instituut voor Toetsontwikkeling (Cito)samen een
onderzoeksproject uitgevoerd. In dit project zijndetoetsscores van allochtone
en autochtone leerlingenop (onderdelen van)deEindtoets Basisonderwijs
berekend en isvastgesteld hoe vandeze leerlingende toelating tot en de doorstroming in het voortgezet onderwijs verloopt. Verderisonderzocht of
enerzijds deEindtoets Basisonderwijsalsgeheel enanderzijdsde afzonderlijke
toetsitems ook voor allochtone leerlingen aan hundoel beantwoorden. In het
eerstegeval gaat het omdevraag of er al dan nietsprake isvan toetsbias. in het laatste geval gaat het om itembias.
Toetsbias wordt indit verbandopgevatalsonderzoek naardevraag hoe hoog devoorspellende waarde vandeEindtoets Basisonderwijs is voor allochtone en
autochtone leerlingeninvergelijking metdevoorspellendewaarde van het schoolkeuze-advies vandebasisschool. In hetonderzoeknaaritembias zijn twee complementairefasenonderscheiden. Indeeerste fase zijn met statistische
procedures items opgespoordwaarbij sprake is vanitembias. Inde tweede fase
iseen pogingondernomen om teonderzoeken wat bij eenbepaald item de
oorzaakvan itembiaszoukunnen zijn. Bij het achterhalen vandiemogelijke
oorzakenvan itembias zijn drie groepenpersonenbetrokken geweest: de
projectmedewerkers (van KUB en Cito). niet bij het onderzoeksproject betrokken expertsenleerlingen uitgroep acht van het basisonderwijs.
Na de start van hetprojectbleek at gauw dat hetonderzoek naaritembias in
meerdere opzichteneen ontdekkingsreiszouworden. Zo werd bijvoorbeeld spoedigduidelijk dat inde VerenigdeStatenweliswaarveel aandacht is besteed
aanstatistische procedures voorhetopsporen vanitembias, maartevensbleek daarbij datvergelijkbare procedures niet totdezelfde resultaten leiden. Op de
vraagbij hoeveelitems vaneen bepaaldetoetssprake is vanitembias. zijn dan ook verschillende antwoorden mogelijk. Verder bleek dat methet zoeken naar oorzakenvan itembias, niet alleen in Nederland maar ookin andere landen,
bijzonder weinig ervaringisopgedaan. Goed gefundeerde
taalkundig-inhoudelijke verklaringeninzakeitembiasvoor allochtone leerlingen ontbreken
geheel. Omdat eentheoretisch kader betreffende bronnen van itembias voor allochtone leerlingen vooralsnog niet voorhanden is. hebbendeconclusies. die op basis van het onderhavigeonderzoek inditverbandworden getrokken. een
voorlopig karakter.
Bij deuitvoering vanhet onderzoeksproject zijn indeverschillende jaren
diverse personenbetrokkengeweest.Zonderhun inzetenstimulerendeinvloed
zouditproject wellicht nooit tot eengoed eindezijngebracht. Een aantal
mensen wil ik hier in hetbijzonderbedanken.
In deeersteplaats noem ik dr. Ton Vallen (KUB) dievan begin tot eind op uiterst constructieve wijzehet projectaanTilburgse zijde heeftgeleid. In de beginfase van hetproject heeft ook dr. Anne Kerkhoff (KUB) bij de
veel waardevolle suggestiesgedaan. Bij devragenlijstconstructie is ook dankbaar gebruikgemaakt van deexpertise van drs. FonsMoelands (Cito). Drs. Marianne de Jong en drs.MarjaCoenen hebbenals Assistenten In Opleiding vande Lettereniaculteit van de KUB eenbelangrijke bijdrage
geleverd aan hetproject. Dat geldtvooral tenaanzien van het achterhalen van
mogelijke bronnen van itembias. Doorhetaanvaarden vaneen werkkring
elders hebben beiden helaasvroegtijdig hunwerkzaamheden beeindigd.
Drs. Marijke van de Waal (KUB)heeftalsstudent(assistente) hetonderzoek
uitgevoerd naar de oordelen van experts over bronnenvan itembias,waarover
ze in haardoctoraalscriptieverslag heeftgedaan. Dr. Ron Engelen(Cito) heeft hetproject terzijdegestaanmet methodologische adviezen. ook ophet relatief
nieuwe terrein van itembias.
Dezedissertatie vormthet eindverslag van het genoemdesamenwerkingsproject
van hetWerkverband Taalen Minderheden en het Cito. Bijdetotstandkoming
vandedissertatie hebben een aantal mensen.ondanks hunvele andere
werkzaamheden. bijzonder waardevolle ondersteuning verleend. Ik ben hen
zeer veel dank verschuldigd.
Destimulerende invloed die bij hetschrijven van dezedissertatie van de
co-promotor dr. Ton Vallen isuitgegaan. kan moeilijkoverschatworden. Hij heeft
steeds opvriendschappelijkewijzeduidelijk gemaakt wat er nog kon en nog moestgebeuren. Van zijn grote kennisen inzicht ophetterrein van de
linguistiek endetaalvaardigheid vanallochtone leerlingen heb ikveel geleerd.
De gesprekken metde beidepromotores, prof. dr.GuusExtra en prof. dr.
Len deKlerk. hebben er toegeleid dat hetaantal blinde viekken op mijn netvliesisverminderd. Het waseen genoegen om met zulke breed
georienteerdemensen over hetmanuscript tekunnen discussieren.
Dr.Johan Wijnstra (Cito)heeft hetmanuscript eveneensvankritisch commentaar voorzien. Ik heb niet alleeninverband met mijndissertatie een beroep mogen doen opzijn grote kenniseninzicht alsonderwijskundig onderzoeker. maar ik hebhetvoorrecht in hemal bijna 15 jaar eenuitstekende
collegate hebben diesteeds bereid isteluisteren en te adviseren.
Zowel hij dc uitvoering vanhetproject als het schrijven van dedissertatie heb ikveel geleerd opmethodologisch terrein. Dr. Ron Engelen (Cito) bleef steeds geduldig uitleggen welke procedures gevolgd moesten worden enwaarom dat
moest. Anneliesvan Exter (Cito) heeftsamen met de Grafische Dienst van het Cito ervoorgezorgd dat een diskette met verschillendesoorten bestanden is
oingewerkt lot dit fraaie hoek.
Het schrijven vaneen dissertatie wordt gemakkelijker geniaakt door een stimulerende omgeving.Mensen die niet bij hetschrijven zelf betrokken zijn, maar die latenmerken dat ze dit soortwerk waarderen en die van tijd tot tijd informeren naarde voortgang. In dit verband wil iktwee groepen mensen in het
bijzonderbedanken:mijncollega's en mijngezinsleden.
De medewerkers van het Cito en met name die vandesector Basis-en Speciaal
Onderwijs vindenhetvanzelfsprekend dat je van je werk schriftelijk
verantwoordingaflegt enzevinden het niet ongebruikelijk om dat te doen in de vorm van eendissertatie. Deze opvatting brengt mensenertoehoge eisen te
Mijn vrouw Harmke enonze zonen Rik en Koen hebben mij de afgelopen tijd
enerzijdsdenodige ruimtegegeven enanderzijdsbleven ze mij bij het
gezinslevenbetrekken. Zodoendehebbenzeertoebijgedragen dat mijn studeerkamer geenisoleercel isgeworden.
Inhoud
1 De bruikbaarheid van
deEindtoets Basisonderwijs voor
allochtone leerlingen 1
1.1 Inleiding 1
1.2 Toets-enitembias 5
1.2.1 Onderzoek naartoetsbias 7
1.2.2 Onderzoek naaritembias 14
1.3 Onderzoeksvragen 18
1.3.1 Trends indeschoolresultatenvanallochtoneen autochtone leerlingen 19
1.3.2 De predictieve validiteit vande Eindtoets Basisonderwijs voor de onderscheiden etnische groepen invergelijking met die van het advies van debasisschool 21
1.3.3 Itembiasvoor allochtone leerlingen 21
2
Potentilile
bronnen
van toets-enitembias 25
2.1 Mogelijke determinanten vanverschillen indepredictieve validiteit van deEindtoets Basisonderwijsvoor allochtoneen autochtone leerlingeninvergelijking methet adviesbasisschool 25
2.2 Mogelijkebronnenvan itembiasvoor allochtoneleerlingen 27
2.2.1 Een theoretisch raamwerk voorde relatietussentaalvaardigheid en schoolsucces van allochtone leerlingen 30
2.2.2 Potentiele linguistisch bronnen van itembias 32
2.2.3 Potentiele culturelebronnenvan itembias 40
2.2.4 Onderwijsaanbodalspotentiele bronvan itembias 43
2.3 Samenvatting 44
2.3.1 Samenvatting van demogelijke determinantenvan verschillen in de predictieve validiteit vande EindtoetsBasisonderwijs en het advies basisschool 44
2.3.2 Samenvatting vandepotentiele bronnenvanitembias 44
3 Beschrijving
enverantwoording van
de onderzoeks-instrumenten 473.1 Opzet van de Eindtoets Basisonderwijs 1987 en 1989 47
3.1.1 Deinhoud enconstructie vande EindtoetsBasisonderwijs 47
3.1.2 Schaalconstructie voorderapportage opleerlingniveau 50
3.2 Verantwoording van de vragenlijsten op leerling- en schoolniveau 51
3.2.1 Vragenlijstop
leerlingniveau 52
3.2.2 Vragenlijstopschoolniveau 57
3.3 Toelatings-endoorstroomonderzoeken 58
4 Toetsresultaten en toelatings-
endoorstroomgegevens van
deelnemers aan de
Eindtoets Basisonderwijs 1987 en 1989 61
4.1 Representativiteit 61
4.2 Toetsresultaten van de deelnemers aan de Eindtoets Basisonderwiis 1987 en 1989 64
4.3 Toelatings-en doorstroomgegevens van de deelnemers aan de Eindtoets Basisonderwijs 1987 en 1989 7()
4.4 Samenvatting 78
5 Toetsbias in
deEindtoets Basisonderwijs 1987 en 1989 81
5.1 Meetniveau van de onafhankelijke variabelen 82
5.2 De constructie van eenschaal voorschoolsucces 85
5.3 De predictievevaliditeit van het adviesbasisschool ende Eindtoets Basisonderwijs voor allochtoneen autochtone leerlingen 88
5.4 De effectenvan determinanten van schoolloopbanen van allochtone enautochtone
leerlingen 93
5.4.1 Eenschoolloopbaanmodel met hetadvies basisschool en de Cito-score 94
5.4.2 Eenschoolloopbaanmodel met de toetsscoresTaal, Rekenen en
Informatieverwerking 99
5.4.3 Eenschoolloopbaanmodel peronderscheiden etnische
minderheidsgroep 104
5.5 Samenvatting 107
6 Itembias in
deEindtoets
Basisonderwijs 1987 en
1989 1096.1 De itembiasdetectieprocedure 110
6.1.1 Klassieke testtheorieprocedures 110
6.1.2 Itemresponsetheorie 112
6.1.3 Opzet van de itembiasanalyses 115
6.2 Resultaten van de analyses naar itembias ll8
6.2.1 De resultaten van de Mantel-Haenszel-analyses 119
6.2.2 De resultaten vande IRT-analyses 123
6.3 Samenvatting en conclusie 128
7 Bronnen
vanitembias
1337.1 inhoudelijke analyse van partijdigeitems 134
7.1.1 Problemen bij de inhoudelijke analyse vanpartijdige items 134
7.1.2 Eerste resultaten van de inhoudelijke analyse vanpartijdige items 140
7.1.3 Overeenstemmingtussen de inhoudsanalyse van items die volgens
de Mantel-Haenszel- en deIRT-procedure partijdig zijn 160
7.2 Oordelenvanexperts over mogelijkebronnenvan itembias 161
7.2.1 Opzet van hetonderzoek naarde oordelen vanexperts 162
7.2.2 Resultaten van het onderzoek naarde oordelenvan experts 163
7.2.3 Conclusies uit het onderzoek naardeoordelen van experts 165
7.3 Een hardop-denken-experiment voor het opsporenvan mogelijke
7.3.1 Opzet vanhet hardop-denken-experiment 166
7.3.2 Resultaten van hethardop-denken-experiment 168
7.3.3 Conclusies uit hethardop-denken-experiment 173
7.4 Samenvatting 173
8 Samenvatting
endiscussie 1778.1 Samenvatting vande Hoofdstukken 1-3 177
8.1.1 De bruikbaarheid vande EindtoetsBasisonderwijsvoor allochtone
leerlingen (Hoofdstuk 1) 177
8.1.2 Potentiele bronnenvan toets- en itembias(Hoofdstuk2) 178
8.1.3 Beschrijvingenverantwoording vandeonderzoeksinstrumenten
(Hoofdstuk3) 179
8.2 Samenvatting van de Hoofdstukken 4 en 5 endiscussie 181
8.2.1 Toetsresultatenentoelatings-endoorstroomgegevens van deelnemers aande EindtoetsBasisonderwijs 1987 en 1989
(Hoofdstuk4) 181
8.2.2 Toetsbias indeEindtoetsBasisonderwijs 1987 en 1989
(Hoofdstuk5) 182
8.2.3 Discussie 183
8.3 Samenvatting van de Hoofdstukken 6 en 7 endiscussie 187
8.3.1 Itembias in deEindtoets Basisonderwijs 1987 en 1989
(Hoofdstuk6) 187
8.3.2 Bronnenvan itembias(Hoofdstuk7) 189
8.3.3 Discussie 192
Summary
195Literatuur
199Bijlagen
2091 De bruikbaarheid van
deEindtoets Basisonderwijs
voor
allochtone
leerlingen
1.1 Inleiding
Het isniet ongebruikelijk om voordebeschrijving vande schoolprestaties van
allochtone enautochtone leerlingen toetsresultatente gebruiken,zeker als het
erom gaat deverschillentussen beidegroepen indebeheersing van eenaantal
aspecten van de Nederlandse taaltot uitdrukkingtebrengen. Ook voor de communicatie metpersonenbuitenhetonderwijsveld worden toetsresultaten gebruikt. Zo hanteren Tesser& Vierke (1990)alsoperationaliseringvan school-prestatiesonderandere scoresop taaltoetsen,wanneer zij opverzoek van het MinisterievanBinnenlandse Zaken rapporteren overde schoolprestaties van
allochtoneenautochtone leerlingen in het basisonderwijs.
Tegendeachtergrond vanhet bovenstaande wekt het enigeverbazing dat er tot
nu toeinNederland nauwelijks onderzoek isgedaan naardevraag of
veel-gebruiktetoetsen weleen geschiktmiddel zijn omdevaardigheid vanzowel
allochtone alsautochtone leerlingen ophet terreinvan bepaalde onderwijs-doelstellingente meten.Vooral wanneerdegemiddelde toetsscores van
onderscheiden groepen, zoalsallochtone enautochtone leerlingen, aanzienlijk
verschillen, kandeonderzoekerzichimmersafvragen ofdieverschillen toe te schrijven zijnaanverschillen in dete metenvaardigheden of dat ze eenartefact zijn vandegehanteerdemeetprocedure.
Sommige onderzoekers verwachtendattoetsen eenonderschattinggeven van
het prestatieniveauvanallochtone leerlingen. Vallen & Kerkhoff (1985) zijn bijvoorbeeld vanmening dat vanalle leerlingende resultaten op de
gebruikelijketoetsen metde nodige reserves bekekenmoeten worden. Volgens
hen gelden die reserves ten aanzien vanallochtone kinderen innogsterkere
mate. DelinguYstische en culturele achtergronden vandeze leerlingenspelen
volgens heneen belangrijke rol bij hetmaken vantoetsen inhet
immigratie-land.
Ook vanuitdeonderwijspraktijkwordtde bruikbaarheidvan toetsen voor leerlingen uitetnische minderheidsgroepen zo nu endanbetwijfeld. DeTurkse Leerkrachten VereniginginGelderland steltbijvoorbeeld dat hetafnemen van toetsen.waaronderdc Cito-toetsenin groep acht van hetbasisonderwijs, bij allochtone leerlingen inde praktijkveel problemenoplevert. De vraagstelling vande Cito-toetsisvolgens hen vaakcultureelbepaald,waardoor van
allochtone leerlingenmeerwordtgevraagd dan van autochtone leerlingen
(Ersoy, 1991).
Er wordendoor onderzoekers pogingen in het werkgesteld om anderen ervan te overtuigen dat de doorhengehanteerde toetsenvoor allochtone leerlingen bruikbaar zijn. Zostelt Driessen (1990: 74) dat hettoetsenvanallochtone leerlingen in een taal die vooreen groot deel van hen nietde moedertaal is, mogelijkeen probleemvormt. Bijdeconstructie van de in zijn onderzoek
gebruiktetoetsen is daar danook,volgens hem, speciale aandachtaanbesteed.
Hij deelt evenwel nietmee welkemaatregelener genomen zijn om dete meten vaardigheden bij allochtone leerlingenadequaatte meten.Driessen (1990: 206)
toetsbruikbaar is voor allochtone leerlingen nog in dekinderschoenenstaat.
De twijfel aande bruikbaarheid van meetinstrumenten voor leerlingen uit
etnische minderheidsgroepeiigeldt ook voor intelligentietests. Extra & Verhoeven (1985) zijn bijvoorbeeldvan mening dat een intelligentietest die bedoeld isvoor monolinguale leerlingen.niet zonder meerte gebruiken is om
de intelligentiete meten van allochtone kinderen. ZoweldeNederlandstalige instructie bij de nonverbaleen verbaletaken als de verbale takenzelfhouden
geen rekening metdemeertalige achtergrondvanallochtone kinderen. Er moet.
volgensExtra& Verhoeven(1985). rekeningmeegehoudenworden dat met de
tot nu toe gebruikte intelligentietestsniet nagegaanwordthoeintelligent allochtone leerlingen zijn. maarinwelke mate ze het Nederlands alstweede laal beheersen. Vande Vijver (1991:66)stelt dat een testbij onderscheiden
culturele groepen hetzelfdepsychologischeconstructmoet meten. Na een
beschrijving vande literatuurover'culture-fair' tests komt hij (1991: 65) tot de conclusie dat ookalsvoorafeisenzijn geformuleerd omde bruikbaarheid van
een testbij onderscheiden culturele groepentemaximaliseren. de
implementatie niet garandeertdatmeetartefacten. bijvoorbeeld veroorzaakt door differentiele vertrouwdheid met het stimulusmateriaal. geelimineerd zijn. Hofstee. voorzitter vaneen testscreeningscommissie dietwintig van de in Nederland meestgebruikte psychologischetestsop 'cultural bias' en op cultuurgebondenenracistische items doorlichtte, komt totdeconclusie dat de
schijnbaareenvoudige vraag of eentestallochtone leerlingenbenadeelt. in feite
eengecompliceerde kwestie is en dat hetempirisch onderzoek in deze aan hoge eisen moet voldoen(Hofstee. 199()). Deze testscreeningscommissie spoort tot verhoogde onderzoeksinspanning op ditterrein aan endeponeert debewijslast
voor testfairness, in de zin van afwezigheid van testbias. bijdetestontwikkelaar en testgebruiker.
In dezomervan 1985 hebben medewerkers van hetWerkverband Taal en Minderheden vande Letterenfaculteit vande Katholieke Universiteit Brabant
(KUB)
contact gezocht met medewerkers van hetproject EindtoetsBasisonderwils van het Instituut voor Toetsontwikkeling (Cito) om de mogelijkhedenteverkennen samen eenonderzoeksproject opte zetten. Het gingtoen vooral om devolgende onderzoeksvragen:
- Hoc ontwikkelen de scores op de Eindtoets Basisonderwijs vanallochtone en autochtone leerlingen zich inde komende jaren?
Met welke itemsentoetsonderdelen hebben allochtone leerlingenspecifieke
problemen?
- Welke mogelijkheden zijn er onide Eindtoets zo aante passen.dat eventuele biases' voor allochtone leerlingen in verband met hun taligeen culturele
achtergrond opgeheven worden?
De KUB en het Citobeslotensamen een onderzoek tegaan uitvoeren om antwoordentevindenop bovenstaande en eenaantal aanvullende
onderzoeks-vragen. Er werdafgesproken om,nadat in 1986eenvooronderzoek zou zijn
gehouden. achtergrondgegevensteverzamelen vande leerlingen die in 1987 en
De keuze omdeEindtoetsBasisonderwijstelatenfungeren als object van onderzoekisvooral ingegeven door het feit dat elk jaareengroot aantal leerlingen aandezetoetsdeelneemt. In de periode 1980
-1990 ligt het aantal deelnemers aande toetstussen de 75 000 en 100 000. In 1987 namen 3801 scholen met samen 80685leerlingen aan detoets deel: in 1989waren dit 4652 scholen met 92448leerlingen. Dat isongeveer 45%,respectievelijk 55% van
het totaalaantal leerlingeningroep acht van het basisonderwijs. Sinds 1992 ligt het aantal Eindtoetsdeelnemerszelfs boven de 100 000.
DeEindtoetsBasisonderwijs. waarvan elk jaareen nieuwe versieverschijnt. heefttwee functies. Enerzijdsverschaftde toetsinformatie over individuele leerlingen in verband metdeovergang naar hetvoortgezetonderwijs.anderzijds
levertde toetsinformatie voordeevaluatie van hetonderwijsprogramma van de
basisschool. In het onderhavigeonderzoekstaat de eerste functiecentraal. De toetsbestaat uit 180opgaven dieevenredigverdeeld zijn overde onderdelen Taal. Rekenenen Informatieverwerking. De inhoud vandetoetswordt
verantwoord in hetzogehetenDoelenboek,de inhoudsverantwoording van de
EindtoetsBasisonderwijs(Cito, 19868). Op leerlingniveauwordt gerapporteerd
overhet totaal en ophet niveau vandetoetsonderdelenTaal, Rekenen,
Informatieverwerking.
Om de scores vaneentoets die moet functioneren voorde keuze vaneen school
voorvoortgezetonderwijs.te kunneninterpreteren, moetderelatie gelegd
kunnen wordentussen descores en de verschillende typen voortgezet
onderwijs. Bij deEindtoetsBasisonderwijsgebeurt dit doortoelatings- en doorstroomgegevensteverstrekken van leerlingen die in eenvoorgaand jaar
aande toetsdeelnamen. Aan de hand vandebehaalde totaalscore, die door de
zogehetenequivaleringsprocedure (zie 3.1.2) van jaar tot jaar vergelijkbaar is. wordt depositiegeschat diede leerling in de verschillende typen voortgezet
onderwijszalinnemen alsdeleerling naar dat type zou gaan. Deze schatting is gebaseerd oponderzoek naardescoreverdeling indediverse typenvoortgezet
onderwijs (Cito, 1988b; Engelen& Uiterwijk, 1990: Cito, 1990:Uiterwijk &
Engelen, 1992).Figuur 1.1 geeft eenvoorbeeld van hetleerlingrapport van de
Eindtoets Basisonderwijs 1987 en 1989.
Figuitr 1.1 Leerlingrapport Eindtoets Basisonderwijs
ateCentraalInstituut voorToetsontw,kkeling
Resultaten Taal Rekenen Informatieverwerking Totaal
Aantalopgaven 60 60 60 180 Standaardscore 535
Aantalsped 43 37 50 130 Oiderswand figuu, geeft u een Indruk of de berlingmet deze standaardscore waarschlinlijk toldebetere. makkere dan wd tot de m,ddenmoot behoortin een bepaaid schoottype De poppetles achter de
school-Percentelscore 3 6 3 3 6 9 4 3 types g"en alle 'e/ingen wee, d/neardatschool· type gaan Het gernerkle poppet,e geeft de plaats
aan dte de leerling Inneernt tussen zIJn medeleer
ingen In d. .choollype
/ inet"rielkle % met d bgerescore 096 2096 4096 6096 8096 10096 hollI score
LBO 83 02£711947$08QRQ*3£1000idOGGEA1510RQ DOGit-471730 17£16161£ltmARRE-lflfAGFI 17
MAvo 53 Di"inni"Ki ififinni*inG988600000il 0068000(liiBil 100AORAOARBS 47
MAVO/HAVO en
29 Bnoililvionfloiloonhootio 0*100000£70;ingloof}00000090*loonfiR 71 MAVO/HAVO/VWO
HAVO.VWO en
Nader onderzoek naarde bruikbaarheid vandeEindtoets Basisonderwijs voor allochione leerlingenwordt vooral ingegeven door de wens meerduidelijkheid le verwerven over het meten vanvaardigheden bii een doelgroepwaarvan de
sociaal-culturele en linguistische achtergrond overhet algemeen sterkverschilt
van die vanautochtone leerlingenenwaarvan bovendien bekend is dat ze bij metingvanverschillendevaardigheden lagere scoresbehalen.Empirisch
onderzoekmoet duidelijk maken ofdescores opdeEindtoets Basisonderwijs
een over-of onderschatting ofeenjuisteweergave geven van devaardigheid
vanallochtone leerlingen inde gemetendomeinen.
Het samenwerkingsproject KUB - Cito richt zich op drie onderdelen.
Teneersteheeft het onderzoekbetrekking op het beschrijvenvantrends in de
schoolresultatenvan allochtoneenautochtone leerlingen. Met schoolresultaten
worden hierde toetsscoresvandeze leerlingen opde (onderdelen van de) Eindtoets Basisonderwijsbedoeld ende gegevensover toelating tot en
doorstroming inhet voortgezetonderwijs. In detweedeplaats gaatdezestudie
over onderzoeknaar toetsbias. Toetsbiaswordt hieropgevat alsonderzoek naar
de vraag hoe hoogdevoorspellende waarde vande EindtoetsBasisonderwijs is
voor allochtoneen autochtone leerlingen in vergelijking met die vanhet advies vandebasisschool. Het derdeonderdeel gaat overhetonderzoeknaar itembias.
Inhet onderhavige onderzoeknaaritembiasworden tweecomplementaire
fasen onderscheiden. In deeerste faseworden metstatistische procedures items opgespoordwaarbijsprake isvanitembias. In de tweedefasewordt ingegaan op
de vraag wat bij eenbepaald itemdeoorzaakvan itembiaszou kunnen zijn.
Bijhet opsporen vanmogelijke oorzaken vanitembiaswerdendriegroepen personen betrokken, respectievelijkdeprojectmedewerkers van KUB en Cito.
niet bij hetproject betrokken expertsenleerlingen uit groep acht van het
basisonderwijs. In 1.3.3wordt deopzet van hetonderzoeknaaritembiasnader
beschreven. Uit hetonderzoeknaar toets-en itembias moet ook blijken met welke aanpassingendebruikbaarheid vande Eindtoets Basisonderwijs voor allochtone leerlingen eventueel vergroot kanworden.
Dezedissertatie vormthet eindverslag van dit onderzoek. in devolgende
paragraaf(1.2)wordt ingegaan op het begrippenpaartoets-enitembias.terwijl dit hoofdstuk wordtafgesloten met een overzicht vande centrale onderzoeks-vragen ( 1.3). In hoofdstuktwee worden mogelijke oorzaken van bias voor leerlingen uit etnische minderheidsgroepen aan deordegesteld. In hoofdstuk drie staatdebeschrijvingenverantwoording van degebruikte onderzoeks-instrumenten centraal. In hoofdstuk vier komen detrends in de toetsscores van deonderscheiden etnische groepen opde (onderdelen vande) Eindtoets Basisonderwijs 1987 en 1989 aan de orde.Bovendienworden detrends in de toelatings-en doorstroomgegevens vandezeleerlingen in het voortgezet
onderwijsgegeven. In hoofdstuk vijf wordtverslag gedaan van hetonderzoek naarde predictieve validiteit vandeEindtoets Basisonderwijs voor allochtone en autochtone leerlingeninvergelijking met die vanhet advies van de
basisschool. Hoofdstukzes heeftbetrekking opdeprocedures diegevolgd zijn
om items op tesporen waarbijsprake is van bias. Deresultaten van de verschillende analyseswordenbesproken envergeleken. In hoofdstukzeven
wordt aangegeven welke verklaringenermogelijktegeven zijnvoor itembias.
Inhet laatste hoofdstuk wordt eensamenvattinggegevenenworden de
1.2 Toets-en itembias
Bijdebeoordeling vande kwaliteitvantoetsen isdevraag naardevaliditeit een centraal punt. In validiteitsonderzoek wordtnagegaan inwelke mate een toets
aan zijn doelbeantwoordt (Drenth,1973). Dergelijk onderzoekmoetresulteren
in een oordeel over dematewaarinerempirische evidentie bestaat voor de beweringdatscoresbepaalde conclusiesenactiestoelaten (vgl. Jensen, 1980:
Messick, 1986; 1987). Devaliditeit heeftdusbetrekking ophetgebruik van de toetsresultaten. Een toets kan vooreenbepaald doel zeer valide zijn, maar niet
vooreen ander doel. De items vaneentoetslokken bijde toetsdeelnemer
bepaalde responsen uit en aan de hand vandezeresponsenwordtdestatus van de toetsdeelnemertenopzichte vaneen bepaaldconstructofcriterium
vastgesteld. Detoetsontwikkelaar heeft tot taak derelatietussendescores op
eenverzamelingitems en hetconstructof criteriumteverantwoorden. Validiteitsonderzoekkan verschillendevormenaannemen.De'American EducationalResearchAssociation' (AERA),de AmericanPsychological Association' (APA) ende'National CouncilonMeasurementinEducation' (NCME) hebben ineengezamenlijkepublicatie (1985)een indeling naar drie
soorten validiteitgegeven.
- Inhoudsvaliditeit wordt geevalueerd door vasttestellen hoe goed
deinhoud
vaneentoetshet domein van situaties,kennisinhoudenofvaardigheden
representeertwaaroverconclusiesgetrokkenmoetenworden.
- Criteriumvaliditeitwordt geevalueerd door
descores te vergelijken met een
externevariabele,die verondersteldwordteendirecte meting te zijn van het
gedraginkwestie. Er wordentwee soortencriteriumvaliditeitonderscheiden:
• Predictieve validiteit die de mate aangeeftwaarineenscoreiemands
toekomstige niveau opeencriteriumkanvoorspellen.
• Gelijktijdige (concurrent) validiteit die demate aangeeftwaarineenscore iemands huidige niveau op eencriteriumkan schatten.
- Constructvaliditeit wordt geevalueerd doorteonderzoekenwelke
psychologische kwaliteiteneen toets meet.'Construct' is dan een
gepostuleerdevaardigheidwaarvanverondersteld wordt dat deze gereflecteerdwordt indetoetsprestatie.
Messick (1987)benadrukt dat dezedriesoorten validiteitnietgezien moeten wordenalsalternatieven, maar als aspecten vanvaliditeitsonderzoek. Hij wijst
op deovereenkomsttussencriterium- enconstructvaliditeit.Inonderzoek naar de criteriumvaliditeit vaneen meetinstrument ishetimmersessentieel om te bepalen in hoeverredeexterne variabele(hetcriterium) hetzelfde meet als het meetinstrumentin kwestiebeoogt te meten.Messickbenadrukt dat het bij criteriumvaliditeit niet enkelen alleen gaat omdecorrelatie tussentoets en
criterium. Het isvanbelang omteverklaren waarom ereenbepaald verband bestaat tussen hetcriterium ende toets (vgl.ook Cronbach, 1972;Drenth,
1972).Hiervoormoeten hetcriterium enhetmeetinstrumentin kwestie
onderzoek naar deconstructvaliditeit van toets envancriterium. VolgensJensen (1980)constateerden Bineten Simonreeds dat hun
intelligentietest.ontwikkeldvoor Parijsearbeiderskinderen, afgenomen bij kinderen meteenhogere sociaal-economische statusaanzienlijk hogere
gemiddelde testscoresopleverde. Vertegenwoordigdendescores van delagere
en hogere socialemilieus inderdaad verschillende intelligentieniveaus ofwaren
de verschillen een artefact van de test?Binet heeftdezeonderzoeksvraag nooit formeel onderzocht(Jensen, 1980). maarniet direct verklaarbare verschillen
tussenrelevante geledingen indepopulatie zijn vaak aanleiding om te
onderzoeken of een test oftoets ook vooronderscheiden subpopulaties aan zijn doel beantwoordt.
Zo wordt erin Nederland bijvoorbeeldnagegaan ofdeitems van het Centraal SchriftelijkEindexamen moderne vreemdetalen van het LBO. MAVO, HAVO en VWO voorjongensen meisjesop dezelfde wijze functioneren. Bijdeze
examensworden items opgespoord die deleden van deene sekse significant
betermaken dan deleden van deandere meteenvergelijkbaar gemiddeld
prestatieniveau (Bugel & Robben-Willems, 1989: Bugel, 1991: Biigel & Glas.
1991). In deVerenigde Staten besteedt men opsoortgelijke wijze veel aandacht
aan de validiteitvantoetsenvoor leerlingen uitetnische minderheidsgroepen in vergelijking met die voorde blanke meerderheidsgroep (Berk, 1982; Holland &
Wainer, 1993).Tatsuoka e.a. (1988)gingen na ofeentoets ook aan zijn doel beantwoordt voor leerlingen vaneen vergelijkbaar prestatieniveau die bij
bepaaldecognitieve taken verschillende 'problem-solving'-strategieenhanteren.
In onderzoek naardevaliditeit van toetsenvoorsubgroepenwordt het begrip
'bias' gehanteerd. Inhet algemeenverwijst bias naardesystematische over- of onderschatting vaneen parameterals functie van het lidmaatschap van een
onderscheiden subgroep(vgl.Jensen, 1980:Reynolds, 1982).Biasonderzoek kan
betrekkinghebben opde toets alsgeheel en op de afzonderlijke toetsopgaven.
Bij een toetsdiegebruikt wordtom iemandsniveau opeenextern criterium te
schatten. kanonderzocht worden ofde criteriumvaliditeit voor de
onderscheiden subgroepen even hoog is. Biasonderzoek heeftbetrekking op de constructvaliditeit.wanneeronderzocht wordt ofdeafzonderlijke toetsitems
voorde onderscheiden subgroepen het construct opdezelfde wijze
representeren.
Elk onderzoek naardehruikbaarheid van toetsenvoor relevante geledingen in
de populatie is noggeen toets- ofitembiasonderzoek. Hofstee (1990) maakt onderscheidtussenonderzoek naar biasenonderzoek waarinbec,ordeeld wordt of er ineentoets oftestetnocentrischeofracistischeinhouden voorkomen.
Volgens Hofstee isdevraag ofeentekst ofeen afbeelding doordebeugel kan een kwestie vanoordeelsvorming. De vraag ofeen leerling doorbepaalde
plaatjes ofbewoordingenbenadeeldwordt.isdaarbij niet aan de orde. Alleen empirisch onderzoek kanuitsluitsel gevenofscoresvan leerlingen door bepaaldeinhoudenbeYnvloed worden: "Een testkanetnocentrische inhoud vertonen of niet. en losdaarvanallochtonen benadelen of niet.De beidecriteria zijn onafhankelijkvanelkaar"(Hofstee. 1990: 292).Ekstrom, Lockheed &
Donlon (1979) daarentegen sprekenover onderzoek naar'bias' wanneer de
een testsprake is van'bias'. wanneer er in detestinhoudvaker mannelijke
zelfstandige naamwoordenvoorkomen danvrouwelijke.
Indezedissertatie wordt aangesloten bijdeopvattingvan Hofstee (1990).
Met 'onderzoek naarbias'wordtverwezennaar empirisch onderzoekwaarbij nagegaanwordt of het item ofdetoets het te metenconstruct.respectievelijk criterium vooronderscheiden subgroepenvergelijkbaarrepresenteren. Indien
de itemsbij bepaalde subgroepen iets andersmeten, kan ditdescores van die groepen beYnvloeden. Voor het beoordelen van de inhoudvan toetsen oftesten
op zichwordt hier de term 'inhoudsanalyse' gehanteerd.
'Bias' isniet hetzelfdeals 'moeilijkheid'. Regelmatigblijkt datderesultaten van verschillende bevolkingsgroepenop toetsenverschillen. Op zich is dit geen
argument om aan dekwaliteit vandetoetstetwijfelen. Wemoeteneraltijd rekeningmee houden datene bevolkingsgroep gemiddeld vaardiger is in het te
metenconstruct dandeandere.Als bijvoorbeeld taalitems voorbepaalde
leerlingen moeilijker zijn dan voorandere,wordt meestal voldaan aan de
functie vandieitems ofdetaaltoets als geheel: hetdiscrimineren tussen meer en
mindertaalvaardige leerlingenmetbetrekking tot de taaldie getoetstwordt. Er wordt afbreukgedaan aandeconstructvaliditeit van het meetinstrument wanneer voorhetjuist beantwoorden vandeitems nog anderevaardigheden
nodig zijn dandevaardigheid diede items beogente meten. Wanneer de
benodigdeadditionele vaardigheden niet bij alleonderscheiden subgroepen in vergelijkbaremate aanwezigzijn, spreken we van bias. Datkanbijvoorbeeld het gevalzijn wanneer het niet tot hette meten constructbehorende taalgebruik in een rekenopgave vooreenbepaaldegroepleerlingendermate ingewikkeld is, dat ze ten gevolge daarvan niet aan hetuitvoeren vande beoogderekenoperatie toekomenofdaaraanonvoldoende aandachtkunnenbesteden. De vaardigheid
diedetoetsitems beogentemeten, spelenbij onderzoek naar bias eencruciale
rol.
Kok(1988)hanteertals equivalent voor 'bias'het Nederlandsebegrip
'partijdigheid'. In navolging vanhemworden inditproefschrift 'bias' en 'partijdigheid' als zelfstandig naamwoord gebruikten'partijdig' alsbijvoeglijk
naamwoord.
Het begriptoetswordt hierbeschouwd alseenverbijzondering van hetbegrip
test.Toetswordtgebruikt vooreen meetprocedure vandoor onderwijs en
studieverworvenkennis,inzichten vaardigheid op 66n ofmeer vakgebieden.
Testwordt gebruikt vooreen meetprocedure van niet door intentioneel
onderwijsenstudieverworveneigenschappen van depersoon (vgl. DeGroot &
Van Naerssen, 1969:Drenth, 1973: DeKlerk, 1983)
1.2.1 Onderzoek naar toetsbias
Toetsenworden in het algemeenontwikkeldomvoorspellingen te doen over buitendetoetssituatieliggend gedrag. Opbasis vande behaalde toetsscore sprekenweverwachtingen uit over feiten,waarvan we op zichzelf geen weet
toetssituatie liggende feiten (vgl.Drenth, 1973: De Klerk. 1983).
Wanneerde criteriumvaliditeit vaneen toets voor twee ofmeer subgroepen
wordt onderzocht. cpreken wevanonderzoek naar toetsbias. Reynolds (1982) en Malpass& Poortinga(1986) definierentoetsbias als het maken van
systematischeschattingsfouten bij het voorspellen vandepositie opeenextern
criterium alseenfunctie van eenspecifiekgroepslidmaatschap. Jensen (1980:
381) zegt dateen toetspartijdigiswanneerde hellingen.de intercepts en de
schattingsfouten vanderegressielijnen vantweesubgroepen significant van elkaar verschillen. De 'American EducationalResearch Association' (AERA),
de 'AmericanPsychological Association' (APA) ende 'National Council on Measurement in Education' (NCME) onderschrijven in eengezamenlijke
publicatie (1985)deopvattingvanJensen. Wanneerderegressielijnen van twee
onderscheiden subgroepen samenvallen, danvoorspelt de toetshetextern criteriumvoor heide groepenop dezelfde wijze. Deintercepten endehellingen
van allochtoneen autochtone leerlingen zijngelijk enschattingsfouten in de
predictie zijn niet gecorreleerd met groepslidmaatschap.
Een toetsispartijdigwanneerde regressielijnenvan onderscheiden subgroepen
uit depopulatie significantvanelkaar verschillen endegemeenschappelijke
regressievergelijking gebruikt wordt omdepositie vandie subgroepen op het externcriteriumte schatten. Dezesituatie doet zich voor wanneer bij de predictie van het extern criteriumgeen onderscheidgemaakt wordt naar
subgroepen.
Wanneerde regressielijnen nietsamenvallen, kunnen zichdrie situaties
voordoen:de intercepten verschillen constant (a),dehellingen verschillen (b) en de intercepten ende hellingenverschillen (c) (Cronbach. 1972:Reynolds.
1982). Validiteit veronderstelt betrouwbaarheid. Bij de volgende situatieswordt ervan uitgegaan datde meting voldoende betrouwbaargenoemd kan worden en
a de intercepten verschillen significant
Wanneerdeintercepten verschillen en de hellingen niet, dan ontstaat er een
situatie als in figuur 1.2.
Figuur 1.2 De intercepten van de regressielijnen verschillen
voorspeller
extern criterlum
Allochtonen Autochtonen
Gemeensch. regr.lijn
Gebruik vandegemeenschappelijkeregressievergelijking resulteert in bias ten
nadele vandesubgroep metdehoogste gemiddelde score opdetoets (de
voorspeller). Omdatde hellingenvan beide subgroepengelijk zijn. blijft de
over-of onderschatting in depredictieconstantenfluctueert niet alseen functie
van iemands score opdevoorspeller. De mate van over- of onderschatting van
het niveau ophetexterncriterium isdusonafhankelijk van iemandstoetsscore.
In figuur 1.2 leidthetgebruik vandegemeenschappelijkeregressievergelijking
b de hellingen verschillen significant
Figuur 1.3geeft desituatie weerwaarin de hellingen verschillen en de
intercepten niet.
Figuitr j.3 De hellingen van de regressielijiten verschillen
voorspeller
extern criterium
Alloch tonen - Autochtonen
Gemeensch. regr.lijn
In figuur 1.3lopende regressielijnen van deonderscheidensubgroepen niet
parallel.hetgeen betekent dat bij gebruik van degemeenschappelijke
regressie-vergelijking hetcriteriumniveau vandesubgroep met dehoogste gemiddelde toetsscr)re(voorspeller) onderschatwordt en dathet niveau vandegroep met
laagste scoreoverschatwordt. De matevantoetsbias is hier niet bij elke
toets<core even groot. maarisafhankelijk van het scoreniveau op de
roorspeller. Naarmate detoetsscorevan allochtone leerlingen hogeris.wordt in figuur 1.3hetcriteriumniveau sterkeroverschat:bij autochtone leerlingen gaat
het om onderschatten.
c de hellingen en de intercepten verschillen significant
De situatie in figuur 1.4isaanzienlijk complexer: zowel de hellingen als intercepten verschillen. Bij gebruik vandegemeenschappelijke
regressie-vergelijking is de matevantoetsbiasafhankelijk van het scoreniveau op de
voorspeller, maarhet scoreniveau opdevoorspeller bepaalt ook ofer sprake is
van over- of onderschatting vanhetcriteriumniveau. In figuur1.4wordt bij relatieflage toetsscores hetcriteriumniveau bij allochtone leerlingenoverschat.
bij relatiefhogescoresonderschat. Alleen bil kruisende regressielijnen kan het
Figuitr 1.4 De hellingen en de intercepten van de regressielijnen verscltillen
voorspeller
extern criterium
Allochtonen Autochtonen
Gemeensch. regr.lijn
Messick (1987)onderscheidtdriesoorten beslissingen die met toetsscores
genomen kunnen worden.
- selectie
Bijselectiebeslissingenwordt bepaald ofeen persoon wei of nietinaanmerking
komt vooreen bepaaldebehandeling.Behandeling wordt hiergebruiktin ruime zin: hetkanbetrekkinghebben opeenaanvullend onderwijsprogramma. een
therapeutische interventie ofeenarbeidsovereenkomst. - classificatie
Bijclassificatiebeslissingenworden alle personen over twee ofmeersoorten
behandelingenverdeeld. Demaatschappelijke waardering van de onderscheiden behandelingen isgelijk.
- plaatsing
Bijplaatsingsbeslissingenworden deleerlingen verdeeldover behandelingen die geziendemaatschappelijke waarderingeenrangorde vormen.
Messick (1987)vindtdat toetsscores dievoorselectie. classificatieofplaatsing gebruikt worden,geevalueerd moetenworden door longitudinaal onderzoek.
De personen uitdeonderscheiden subgroepen moeten gevolgdworden en na
eenbepaaldeperiodemoeten gegevens verzameldworden overhet criterium-gedrag. Metdeze gegevens moetdepredictieve validiteit vandescores per
Cronbach (1972),Drenth (1972) en Messick (1987) zeggen dat het aangeven van
de regressievan toetsscore op het extern criterium opzichonvoldoende is.
Het isvan belang om dedeterminanten van het criteriumgedrag tebepalen.
Dit betekentin feite longitudinaal onderzoek met een modelwaarin eenaantal
relevante onafnankelijke variabelen. waarondertoetsscore,zijn opgenomen en
waarin hetcriteriumgedragalsafhankelijke variabele fungeert.
Voor onderzoek naarderelatie toetsscore- externcriterium voor
onderscheiden subgroepen is ookeen longitudinaal model nodig. We moeten er
immers rekeningmeehouden, dat de invloedvan allerlei relevante variabelen op derelatietoetsscore-criterium bij elke onderscheiden subgroepen niet
gelijk is. Het isuitermate belangrijk om vast testellen welkefactoren bij de
onderscheidensubgroepen in dit verband differentieleeffecten kunnen veroorzaken. Dezefactoren moeten adequaat gemetenworden envervolgens
moetendeeffectenvanmogelijke determinantenvan schoolloopbanen van de onderscheiden subgroepen ineen longitudinaal model geschatworden.
Cronbach (1972), Jensen (1980). Reynolds (1982), Kok (1988) en Vande Vijver. Willemse & Van de Rijt (1993)merken op dat bij onderzoeknaar toetsbias
wordt aangenomen dat van hetextern criteriumeen betrouwbareen valide
operationalisatie beschikbaar is.Jensen (1980) en Van deVijver, Willemse &
Van de Rijt (1993)erkennen dat eenonpartijdig extern criterium niet altijd voorhanden is. met name niet wanneer hetexterncriteriumgebaseerd is op
subjectieve. invalide observaties zoalsbijvoorbeeld schoolcijfers. Wanneer het
extern criteriumterdiscussie staat. kan volgens Jensen (1980)enReynolds (1982)de aandachtbeter uitgaan naardeconstructvaliditeit van het
meetinstrument,wantuitspraken over decriteriumvaliditeit zijndaneigenlijk
niet mogelijk en niet toegestaan.
In Nederlands schoolloopbaanonderzoek wordtmeestal het niveau dat een leerling naeen bepaalde periode inhetvoortgezet onderwijs bereikt heeft als criterium voorschoolsucces gehanteerd. Uitgangspunt hierbij is datde bereikte onderwijsposities verticaal (leeriaren) en horizontaal (van IBO tot VWO) verschillen in niveau en opcfdnschaal gebracht kunnen worden. Vervolgens kan
de regressie vandeonafhankelijke variabelen (bijvoorbeeld: advies basisschool
en toetsscore) op deschaal voorschoolsucces bepaaid worden. Er blijken verschillende manieren te zijn om debereikte onderwijsniveaus teschalen
(Cremers, 198(}:Tesser. 1986, Bosker. 1990. Uiterwijk. 199Ob: Vander Velden.
1991). Inverband met veranderingen in het voortgezet onderwijsmoeten we er ook rekeningmee houden dateen schaalvoor bereikt onderwijsniveau een beperkte geldigheidsduurbezit.
Voor onderzoeknaar toetsbias kan men als externcriteriumeenschaal voor
bereikt onderwijsniveau construeren. maar bijde verantwoording van deze
schaal moet ook aangegeven worden ofdezeschaalzelf onpartijdig is met
betrekking totdeonderscheiden subgroepen.
Jungbluth. Van Langen & Vierke (1990: 91)stellen dat bijdeovergang van
basisonderwijsnaarvoortgezet onderwijs achteraf moeilijkvastgesteld kan
worden ofhetadvies van debasisschool ofeen toetsscorecorrect isgeweest.
zodanigeverwachtingen dat het advies basisschool inderegelzijneigen
correctheid bevordert. Bovendien zullen'systeemimmanente processen' met name categoriale scholenvoor voortgezet onderwijs afhouden van op- en afstroomvan leerlingen. Hetis derhalveniet ondenkbaar dat bijhet besluit om een leerlingeenandere school te adviserenwellicht onbedoeld meerfactoren
meespelen dan alleen decapaciteiten en hetprestatieniveau van de leerling. Maar ook bijbrede scholengemeenschappen kan men zich afvragen waar de selectietijdensdebrugperiode op gebaseerdis.Bredescholengemeenschappen
zijn voor onderzoek naar toetsbiasvoor allochtone leerlingen belangrijk, omdat zij opdezeschooltypenvergeleken metautochtone leerlingen
oververtegenwoordigd zijn (Uiterwijk, 199Oa). Tot nu toe isuit onderzoek
weinig bekend overdevraag hoe opdezescholen selectieprocessen totstand komen.Wijnstra(1984b), De Jong (1987),Uiterwijk(1990b). Driessen (1991 a),
Van Langen&Jungbluth (1992) enMeijnen& Riemersma (1992) constateren
dat kinderenuitetnische minderheidsgroepen aan het einde vande basisschool
gemiddeldeen hoger advies krijgen dandeautochtone leerlingen met een
vergelijkbare test-c.q.toetsscore. Het is niet uitgeslotendatleerkrachten van
brede scholengemeenschappen net als huncollega's uithetbasisonderwijs bij
plaatsings-enovergangsbeslissingen hetprestatieniveauvan bepaalde
subgroepen over-of onderwaarderen. Hierdoor ishetvinden van een
onpartijdig extern criteriumeenprobleem.
De conclusie moet zijn dat hetstriktgenomen in deNederlandsesituatie
onmogelijk is omtebeoordelen of er bijeenbepaaldetoetssprake is van toetsbias vanwege hetontbreken van eenonpartijdigextern criterium. Aan de
anderekant moetenwevaststellen dat indeonderwijspraktijktoetsen en het advies basisschooleen functie vervullen bijdeschoolkeuze en detoelating tot
het voortgezetonderwijs. Daardoor functioneert indepraktijk hetbereikte onderwijsniveauweldegelijk als maat voorschoolsucces.Zozeggen we
bijvoorbeeld dathetadvies vandebasisschool goedisgeweest, wanneer een leerling meteenVWO-advieszonderdoubleren in dederde klas VWOterecht komt. Wezeggenechter ook dat detoetsuitslagonjuistwas,wanneer een
leerling meteenscorenetonderhet gemiddeldezonderdoublereneveneens in de derde klasVWO terecht komt.Uiteraard ishetmogelijk dathet 'zich-zelf-waarmakendkarakter' vanhet advies basisschool andereeffecten heeft op de schoolloopbaan dan dat vandetoetsuitslag,waardoorhet moeilijk is om over juisteenonjuisteadviezenen scores tespreken.
Voordeonderwijspraktijk kanhetevenwel vanbelang zijnte weten bij welke
vanonderscheiden subgroepen het advies basisschool hogercorreleert met een
schaalvoor schoolsucces,bij welkesubgroepende toetsscorehoger correleert
enbij welkesubgroepen decorrelatiesvanadviesenscorevergelijkbaar zijn.
Indezestudiewordtgeenonderzoeknaar toetsbias gedaan door aan de hand vanhetverschiltussende regressielijnenvan Eindtoetsscoreop externcriterium van allochtoneenautochtone leerlingentebepalen of er bij deEindtoets Basisonderwijssprake is van toetsbias. Het ontbreken vaneenonpartijdig
externcriterium maakt hetinfeite onmogelijk omtebeoordelen of er bij de
Eindtoets Basisonderwijs al dan nietsprakeistoetsbias.Onderzoek naar
1.2.2 Onderzoeknaaritembias
Bij het ontwikkelen van een toetswordteen reeksitemsgeconstrueerd die samengeacht wordeneen bepaaldconstruct te representeren. Deafzonderlijke itemszijn operationalisaties vanhetconstruct datdetoets als geheel meet.
In onderzoek naarde constructvaliditeit kan nagegaanworden ofde items het
constructvoor onderscheiden subgroepen opvergelijkbare wijzerepresenteren.
Reynolds (1982) enShepard (1982) stellen dat een itempartijdigis,wanneer
een toets bij deene groepeenanderconstruct meet dan bij deandere of
wanneerde toets bij tweesubgroepen welhetzelfde meet maar dat niet met
dezelfdenauwkeurigheiddoet.Holland & Thayer(1986) zeggenkortweg dat partijdige items voor de enesubgroepeenanderefunctie hebben dan voor de
andere. Inde VerenigdeStatenwordtin plaats vanover'itembias' ook wel
gesproken over'Differential Item Functioning' (DIF).
Overdedefinitievanitembias blijken demeningenovereente stemmen. Een
item ispartijdigwanneer leerlingenuit onderscheiden subgroepen. maar met
eengelijke vaardigheid.eenongelijkekanshebben om het item goed te
beantwoorden (Ironson, 1982:Angoff, 1982:Scheuneman,1988;Verhelst. 1988:
Kok. 1988;Hambleton & Rogers, 1989:Mellenbergh, 1989: Glas, 1991; Van de
Vijver. 1991:Bugel. 1991, Glas & Ouborg, 1993). Alsalle items vaneen toets het te metendomein (bijvoorbeeld het rekendomein 'kommagetallen')
adequaat representeren,dan hebbenleerlingen dieeven vaardig zijn in dat
domein,eengelijke kans omeenbepaald item uitdie toets goed te
beantwoorden. Van belang is dat voorhetjuist beantwoorden vandeitems een bepaaldepopulatie (bijvoorbeeld autochtone leerlingen) geen andere
vaardigheden nodig heeft dan devaardigheid diede items beogentemeten.
Deitemsmeten indiepopulatie daneen eendimensionele vaardigheid
('kommagetallen'). Verder isvanbelang datdeleerlingengeclassificeerd
kunnenworden naardevaardigheid die de teonderzoeken items beogen te meten. Er moet duseen criterium beschikbaar zijn. waarmeede leerlingen van
een bepaalde populatie (bijvoorbeeld autochtone leerlingen)ingedeeld kunnen
worden in niveaugroepen. Dit criteriummoethetzelfde constructmeten ('kommagetallen') als de teonderzoeken itemspretenderente meten.
Vervolgens kan met statistische procedures onderzochtworden of leerlingen uit
onderscheiden subgroepen (bijvoorbeeld autochtoneenallochtone leerlingen).
maar meteen vergelijkbaar vaardigheidsniveau.een ongelijkekans hebben om
het item goedtebeantwoorden.
Holland & Thayer(1986) zeggen datals resultaat van het classificeren van de leerlingen dezevergelijkbaar moeten zijn ten aanzien van
- het construct dat het item meet:
- het ontvangen onderwijsaanbod ofandererelevante ervaringen, - lidmaatschapvan andere groepen.
Zij erkennen dat inde praktijk vrijwel altijdmet mindergenoegen moetworden
genomen, hetgeendetrefzekerheid beperktwaarmeeuitspraken over itembias
gedaan kunnen worden.
Voor onderzoeknaaritembias zijn verschillendestatistische procedures
a Klassieke Testtlieorie
Klassieketesttheorieprocedures gaan vande aanname uit dat het totaal aantal goed gemaakte opgaveneen goede schatting is van dete metenvaardigheid.
Omdatdeze aannameniet statistisch getoetstwordt, iseen proceduregebaseerd
op de klassieke testtheorie methodologisch eenvoudiger daneen itemresponse-theorie-procedure. De laatstejaren isdemeestgebruikte klassieke testtheorie-proceduredeMantel-Haenszel-techniek (Holland & Wainer. 1993: Glas &
Ouborg, 1993).Hierbijworden aan de hand vande totaalscoredeleerlingen uit deonderscheiden subgroepen (bijvoorbeeld allochtoneen autochtone
leerlingen) ingedeeld in niveaugroepen.Vervolgenswordtde hypothese getoetst dat binnendeze niveaugroepende p-waarde. het percentageleerlingen
dat het itemgoed maakt, van het item bij allochtoneenautochtone leerlingen
gelijkis(Verhelst, 1988). Het classificeren naar niveaugroepen aan de hand van
de totaalscore kaneenprobleemzijn,omdatdetotaalscore ookde responsen op
partijdigeitems kan bevatten.Hiervoor kaneenoplossing gevonden worden doordetotaalscore metbehulp van eeniteratieve procedure te 'zuiveren' van partijdigeitems. Eerstwordteen Mantel-Haenszel-analyse uitgevoerd waarbij
alle items vandetoetsin kwestiezijn opgenomen indetotaalscore. Vervolgens worden deitems die inde eersteanalyse partijdigbleken te zijn. inde tweede analyse niet opgenomen in detotaaiscore. Hetis mogelijk dat er inde tweede analyse nieuwepartijdige itemsbijkomen, maar het iseveneensmogelijk dat
items nietmeerpartijdig zijn die in deeerste analyse welpartijdig waren.
Het iteratieveproces gaatdoortotdat ereenverzameling onpartijdigeitems gevondenwordt waaropdetotaalscore gebaseerd kan worden.Wanneer de leerlingen op basis vande'gezuiverde' totaalscore zijningedeeldin
niveau-groepen,wordt vervolgens voor elk item uitdetoetsdehypothesegetoetst dat binnen deniveaugroependep-waarde van het item voordeonderscheiden subgroepengelijk is. Bij het'zuiveren' vande totaalscore doet zichde vraag
voor ofdeovergebleven items hetconstructnogvoldoendedekken. Dit is de
vraag naardeinhoudsvaliditeit vandeovergebleven items. Wanneer de
onderzoeker aannemelijkkan maken datresterende items het domein voldoende representeren, danbeschikken we overeenonpartijdige
operationalisatie van hette metenconstruct. b Itemresponsetheorie
Procedures die gebaseerd zijn op eenmodel uitde itemresponsetheorie (IRT)
gaan vande aanname uit datdegeobserveerde itemresponsen verklaard kunnen worden vanuit66n onderliggendevaardigheid,de latentetrek.Onder een IRT-modelwordt statistischgetoetst ofdeitemseenlatente trek vertegenwoordigen. Alshet IRT-modelpast, metende itemseen eendimensionelevaardigheid. De kans op een goedantwoord wordtdanbeschreven alseen functievan
persoons-enitemparameters. Leerlingenmetdezelfde score opde latentetrek hebben
een gelijke kans om een item goedtebeantwoorden onafhankelijk van de populatie waartoezebehoren. Eenbelangrijkeaannamebij eendimensionaliteit is dat dewaarschijnlijkheid datdetoetsdeelnemer een itemgoed beantwoordt,
eenmonotoonstijgendefunctie vandelatente trek is. De itemkarakteristieke
curve(item characteristic curve ofICC)geeftde relatieweer tussen de
eendimensionele vaardigheid en de kans om het item goedtebeantwoorden. Ondereen IRT-modelisonderzoeknaaritembiashetbepalen ofdeparameters
verschillen (Skaggs & Lissitz. 1988: Kok. 1988: Hambleton& Rogers. 1989:
Hills, 1989: Mellenbergh. 1989. Camilli & Smith.1990: Bligel & Glas. 1991)
Er worden meestal drieparametersgebruikt worden om de iCCte beschrijven:
- de moeilijkheidsparameter. diehet vaardigheidsniveauaangeeft:
- de discriminatieparameter.dieaangeeft in welke mate de kans op een goed
antwoord stijgt. naarmatedevaardigheid toeneemt:
- de raadparameter, die de kans aangeeft datdetoetsdeelnemer het item goed beantwoordt doorteraden.
Een IRT-model is dan ookmeestal op ddn. twee ofdrieparametersgebaseerd.
Glas & Verhelst (1993)enShealy & Stout (1993)wijzenop multidimensionele
IRT-modellen waarmee vastgesteld kanworden in welke mate elk item uit een
toetseenberoep doet op twee ofmeerlatente vaardigheden. maardezerelatief
nieuwe modellen zijn wiskundig ingewikkeld endebruikbaarheid ervan voor onderzoek naaritembiasisvooralsnogbeperkt.
Ondereen IRT-model issprake van itembiaswanneerdegeobserveerde responsen van deonderscheiden subgroepen (bijvoorbeeld allochtone en
autochtone leerlingen) niet vanuit 66n en dezelfdelatente trek verklaard kunnen worden. Itembiaswordt hiernagegaandooreerst de items voor den subgroep(bijvoorbeeld autochtone leerlingen)teschalen. Deitemsdie blijken
te passen opeen schaal representerenbij autochtone leerlingen dezelfde latente trek. Vervolgens wordtbepaaldofdezelfdeitems ookeen latente trek
vertegenwoordigenbij allochtoneen autochtone leerlingen(vgl. Mellenbergh,
1989: Bugel & Glas, 1991). Deitems die bijde beidesubgroepen niet opdeze
schaal passenzijn partijdig. Voorallochtone leerlingen zijn er kennelijk additionele vaardigheden inhet geding.
De vraag naarde bestestatistischeprocediwe laat zich niet eenvoudig
beantwoorden. Omdat bij IRT-modellen onderzocht wordt ofdeitems bij het
modelpassen. isdezebenadering vergeleken met klassieke
testtheorie-procedurestheoretisch superieur. IRT-modellen zijn echterwiskundig ingewikkeld en ze zijn volgens Kok (1988: 28) onbetrouwbaarbij kleine
steekproeven. Bovendien is deIRT-benadering nietvolledig bruikbaarwanneer
blijkt dat 06n of meer ineen toetsopgenomen items vooreen bepaalde
populatie niet bil het model passen (Glas. 1991). Deze itemsmoeten dan bij
deze analyses buiten beschouwingblijven. hoewel ze vanwege dit kenmerk voor
onderzoek naar itembias juist interessant zijn.
Klassieketesttheorieprocedures kunnen gebruikt worden bij relatief kleine steekproeven. leveren ophet eerste gezicht goed interpreteerbarestatistische toetsen, maar maken niet duidelijk ofdeitems dete meten vaardigheid adequaatrepresenteren (Kok. 1988). Intraprasert(1986) concludeert na
vergelijking van vijf itembiasdetectieprocedures dat eenaantal van 400 - 500
waarnemingen per steekproef bijelke methodetotbetrouwbare resultaten leidt. Bij Educational Testing Service (ETS) inde VerenigdeStaten geldt alsregel dat
vooralle statistische proceduresbij voorkeursteekproeven van 500
waarnemingenper subgroep beschikbaarmoetenzijn (Zieky. 1993). In 6.1.3
komen we opdesteekproefomvangterug.
Zowelbij IRT-modellen als bij klassieketesttheorieprocedures moet
vastgesteldworden of we temaken hebbenmet niet-uniforme itembias. Er is
laagpresterende en nietbij hoogpresterende niveaugroepenof omgekeerd
(Uiterwijk, 19908).
Het is niet ongebruikelijk om voorhet opsporen vanpartijdige items zowel een procedure gebaseerd op het IRT-model alseen klassieketesttheorie-procedure
tegebruiken(Skaggs& Lissitz, 1988;Hambleton& Rogers, 1989: Hills, 1989;
Camilli& Smith, 1990; Bugel & Glas, 1991: Hambleton &Jones. 1992: Glas & Ouborg. 1993).Hierdoor wordt duidelijkinwelke mate er overlap bestaat tussen de gehanteerdeprocedures. Zovonden Hambleton& Rogers (1989) dat de Mantel-Haenszel-procedure en een ophet IRT-modelgebaseerdeprocedure
in het aanwijzen vanpartijdige enonpartijdige items bij 75 tot 80 % van de
items overeenstemden. Hills(1989)vermeldtdatverschillende itembiasdetectie-procedures nietvolledig overeenstemmen bijhet aanwijzenvanpartijdige items
engeeft bovendien aan datitembiasindices aanzienlijk verschillen wanneer dezelfdedetectieprocedurewordttoegepast opverschillendea-selecte
steekproeven uiteen populatie. Bij33 analysesmetzowelde
Mantel-Haenszel-techniek als met op eenIRT-modelgebaseerdetechniekop afzonderlijke
a-selecte steekproevenuit dezelfdepopulatie blijktgeen enkel item 33 keer partijdig te zijn.Slechts zevenitems bleken 20 van de 33 keerpartijdig; van de in totaal92itemswaren 13itemsnooitpartijdig.
Uit het bovenstaandeblijkt dathet moeilijk is om vasttestellen of een item partijdig is of niet. Wei kan aangegeven wordeninwelke mate een item bij de
verschillende procedurespartijdig is: bij alle. bij een deel ofnooit (vgl. Uiterwijk, 199Oa).
Kok (1988: 6)onderscheidt bijonderzoeknaaritembias tweefasen.
Inde detectiefaseworden met statistische procedures beslissingen genomen over
de vraagof items wel of niet partijdig zijn.
Inde verklaringsfaseworden naar aanleiding van de geconstateerde statistische
itembias en opgrondvanandere kennisen inzichtenhypothesengeformuleerd over mogelijke oorzakenvanitembias.
De hypothesen kunnen betrekkinghebben opdeeigenschappen van
toets-deelnemers maar ookopkenmerkenvan items, die verantwoordelijk zijn voor itembias. Verklaringen voor itembias kunnen ookgevondenworden door
experimenteelencorrelationeelonderzoek. Scheuneman (1982; 1985),
Scheuneman& Steinhaus (1987). Kok, (1988); Bugel & Robben-Willems (1989).
De Jong & Vallen (1989),Uiterwijk(1990a) enCoenen& Vallen(1991), Bugel
& Glas (1991)en Uiterwijk & Vallen(1991) proberen doordeinhoud van partijdigeitemsteanalyserendeoorzakenvanitembiasteachterhalen. Door te
zoeken naarovereenkomstige kenmerkenvanpartijdigeenonpartijdige items
kunnen aanwijzingen verkregen worden over oorzakenvanitembias. Deze aanwijzingen kunnenmogelijkeenrichtsnoer vormenvoor toetsontwikkelaars. VolgensScheuneman&Steinhaus (1987) is het zeermoeilijkom achteraf vast
te stellenwelk element uit eenitemverantwoordelijk is vooritembias. Bevindt de bronvanitembias bij bijvoorbeeldeen vierkeuze-itemvoor begrijpendlezen
zich indetekstwaaroverdevraagwordtgesteld, indeintroducerende itemtekst, indegeformuleerde vraag of in de vier antwoordmogelijkheden?
In verband metdezeonzekerheidhebben deeventueleconclusies uit de
verklaringsfaseeenvoorlopig karakter. Herhaald onderzoek eneen uitgebreide
opsporen vande oorzaken van itembiasbescheiden (Scheuneman & Steinhaus.
1987. Uiterwijk & Vallen. 1991).
Het analyseren vande inhoudvanpartijdige items stemtovereen met wat we in
1.1 inhoudsanalyse genoemd hebben. Inhoudsanalyse heeft betrekkelijk weinig
betekenis wanneer we dit doen bij itemswaarvanweslechts vermoeden dat ze
partijdig zijn. Aande verklaringsfase moetdedetectiefase voorafgaan,omdat we dan opempirische basiskunnen aangeven welkeitemsvoor kinderen uit
etnische minderheidsgroepen partijdig zijn.
1.3 Onderzoeksvragen
Dit onderzoek richt zich op drie onderdelen. Ten eerste (1.3.1) gaat het om het
beschrijven van trends in deschoolresultaten vanallochtoneen autochtone leerlingen. Met schoolresultaten worden hierde toetsscores op de(onderdelen
van de) EindtoetsBasisonderwijs bedoeld en degegevens overdetoelating tot en de doorstroming in hetvoortgezet onderwijs.De groep allochtone leerlingen wordt hier onderverdeeld in diverse etnische groepen. Ten tweede ( 1.3.2) richt
het onderzoek zich opde vraag hoe hoogdevoorspellendewaarde van de
Eindtoets Basisonderwijs is voordeonderscheiden etnischegroepen in
vergelijking met die van het advies vandebasisschool. Ten derde (1.3.3) gaat
het onderzoek in opde vraag welke itemspartijdig zijn voor allochtone of
autochtone leerlingenenwaarom dat het geval is.
Het onderhavige onderzoek beoogtondermeerinformatie te verschaffen over de predictieve enconstructvaliditeit van deEindtoets Basisonderwijs voor allochtoneen autochtone leerlingen. Uit itembiasonderzoekis bekend dat het in het algemeen moeilijk is ommetzekerheid vast te stellenwaarom een item partijdig is voor allochtone of autochtone leerlingen. De onderzoeker kan het
bestevoordat de items metstatistische technieken onderzocht worden.
hypothesen formuleren over mogelijke oorzakenvan itembias. Omdat een item
in feite bestaat uit een aantal elementen is het nietaltijd duidelijk welk element
van een partijdig item de bias veroorzaakt. De conclusies die nade
inhouds-analyse van departijdige itemsgetrokken worden.hebben derhalve nog een voorlopig karakter. Deze voorlopigeconclusies zijntebeschouwen als
hypothesen voor eeneventuele volgende fase van het onderzoek. Voor item-biasonderzoek iseen groot aantal items nodig en het onderzoek verloopt in feite via een aantal cycli. Inverbandhiermee zijn in dit onderzoek van de
Eindtoetsdeelnemers uit 1987 en uit 1989achtergrondgegevens verzameld.
Door zowel in 1987 als in 1989gegevens over de aande Eindtoets
Basisonderwijs teverzamelen is het ook mogelijkom onderzoeksgegevens van
verschillende jarentevergelijken. Met de data uit 1987 en 1989wordentrends in enerzijds toetsresultatenen anderzijds in toelatings-endoorstroomgegevens
getraceerden krijgen weeenindruk vandestabiliteit van depredictieve validiteit van deEindtoetsBasisonderwijs en van het advies basisschool voor