• No results found

De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen

N/A
N/A
Protected

Academic year: 2021

Share "De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen"

Copied!
231
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Tilburg University

De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen

Uiterwijk, Jan Hendrik

Publication date:

1994

Document Version

Publisher's PDF, also known as Version of record Link to publication in Tilburg University Research Portal

Citation for published version (APA):

Uiterwijk, J. H. (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Instituut voor Toetsontwikkeling (Cito).

General rights

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain

• You may freely distribute the URL identifying the publication in the public portal Take down policy

(2)

Eindtoets

Basisonderwijs

Henny

Uiterwijk

De bruikbaarheid van

de

Eindtoets

Basisonderwijs

voor

allochtone leerlingen

(3)
(4)

De bruikbaarheid van

de

Eindtoets Basisonderwijs

(5)
(6)

De bruikbaarheid van

de

Eindtoets Basisonderwijs

voor allochtone leerlingen

Proefschrift

ter verkrijging vandegraadvandoctor

aande KatholiekeUniversiteit Brabant,

op gezag vande rectormagnificus,

prof. dr. L.F.W. deKlerk,

inhet openbaarteverdedigen

ten overstaan van een

doorhet collegevandekanen aangewezen commissie in de aula vandeUniversiteit

op vrijdag 20 mei 1994 te 16.15 uur

door

Jan

Hendrik Uiterwijk

geboren te Arnhem

-

--0-IL"

UNIVERSITEIT 0 EjIR. 0VAN TILBURG

°To

BIBLIO-fHEEK

(7)

Promotores: Prof. di. A.J.A.G. Extra Prof. dr. L.F.W. de Klerk Co-promotor: Dr. A. Vallen

Omslagontwerp engrafischevormgeving: Hdldne de Wit

© InstituutwoorToetsontwikkeling (Cito). Arnhem 1994

(8)

Voonvoord

Om na te gaan ofde Eindtoets Basisonderwijsvoor allochtone leerlingen even goed bruikbaar is als voor autochtone.hebben medewerkers van het

Werkverband Taal en Minderheden vande Letterenfaculteit vande Katholieke Universiteit Brabant (KUB) enmedewerkers van het project Eindtoets

Basisonderwijs van het Instituut voor Toetsontwikkeling (Cito)samen een

onderzoeksproject uitgevoerd. In dit project zijndetoetsscores van allochtone

en autochtone leerlingenop (onderdelen van)deEindtoets Basisonderwijs

berekend en isvastgesteld hoe vandeze leerlingende toelating tot en de doorstroming in het voortgezet onderwijs verloopt. Verderisonderzocht of

enerzijds deEindtoets Basisonderwijsalsgeheel enanderzijdsde afzonderlijke

toetsitems ook voor allochtone leerlingen aan hundoel beantwoorden. In het

eerstegeval gaat het omdevraag of er al dan nietsprake isvan toetsbias. in het laatste geval gaat het om itembias.

Toetsbias wordt indit verbandopgevatalsonderzoek naardevraag hoe hoog devoorspellende waarde vandeEindtoets Basisonderwijs is voor allochtone en

autochtone leerlingeninvergelijking metdevoorspellendewaarde van het schoolkeuze-advies vandebasisschool. In hetonderzoeknaaritembias zijn twee complementairefasenonderscheiden. Indeeerste fase zijn met statistische

procedures items opgespoordwaarbij sprake is vanitembias. Inde tweede fase

iseen pogingondernomen om teonderzoeken wat bij eenbepaald item de

oorzaakvan itembiaszoukunnen zijn. Bij het achterhalen vandiemogelijke

oorzakenvan itembias zijn drie groepenpersonenbetrokken geweest: de

projectmedewerkers (van KUB en Cito). niet bij het onderzoeksproject betrokken expertsenleerlingen uitgroep acht van het basisonderwijs.

Na de start van hetprojectbleek at gauw dat hetonderzoek naaritembias in

meerdere opzichteneen ontdekkingsreiszouworden. Zo werd bijvoorbeeld spoedigduidelijk dat inde VerenigdeStatenweliswaarveel aandacht is besteed

aanstatistische procedures voorhetopsporen vanitembias, maartevensbleek daarbij datvergelijkbare procedures niet totdezelfde resultaten leiden. Op de

vraagbij hoeveelitems vaneen bepaaldetoetssprake is vanitembias. zijn dan ook verschillende antwoorden mogelijk. Verder bleek dat methet zoeken naar oorzakenvan itembias, niet alleen in Nederland maar ookin andere landen,

bijzonder weinig ervaringisopgedaan. Goed gefundeerde

taalkundig-inhoudelijke verklaringeninzakeitembiasvoor allochtone leerlingen ontbreken

geheel. Omdat eentheoretisch kader betreffende bronnen van itembias voor allochtone leerlingen vooralsnog niet voorhanden is. hebbendeconclusies. die op basis van het onderhavigeonderzoek inditverbandworden getrokken. een

voorlopig karakter.

Bij deuitvoering vanhet onderzoeksproject zijn indeverschillende jaren

diverse personenbetrokkengeweest.Zonderhun inzetenstimulerendeinvloed

zouditproject wellicht nooit tot eengoed eindezijngebracht. Een aantal

mensen wil ik hier in hetbijzonderbedanken.

In deeersteplaats noem ik dr. Ton Vallen (KUB) dievan begin tot eind op uiterst constructieve wijzehet projectaanTilburgse zijde heeftgeleid. In de beginfase van hetproject heeft ook dr. Anne Kerkhoff (KUB) bij de

(9)

veel waardevolle suggestiesgedaan. Bij devragenlijstconstructie is ook dankbaar gebruikgemaakt van deexpertise van drs. FonsMoelands (Cito). Drs. Marianne de Jong en drs.MarjaCoenen hebbenals Assistenten In Opleiding vande Lettereniaculteit van de KUB eenbelangrijke bijdrage

geleverd aan hetproject. Dat geldtvooral tenaanzien van het achterhalen van

mogelijke bronnen van itembias. Doorhetaanvaarden vaneen werkkring

elders hebben beiden helaasvroegtijdig hunwerkzaamheden beeindigd.

Drs. Marijke van de Waal (KUB)heeftalsstudent(assistente) hetonderzoek

uitgevoerd naar de oordelen van experts over bronnenvan itembias,waarover

ze in haardoctoraalscriptieverslag heeftgedaan. Dr. Ron Engelen(Cito) heeft hetproject terzijdegestaanmet methodologische adviezen. ook ophet relatief

nieuwe terrein van itembias.

Dezedissertatie vormthet eindverslag van het genoemdesamenwerkingsproject

van hetWerkverband Taalen Minderheden en het Cito. Bijdetotstandkoming

vandedissertatie hebben een aantal mensen.ondanks hunvele andere

werkzaamheden. bijzonder waardevolle ondersteuning verleend. Ik ben hen

zeer veel dank verschuldigd.

Destimulerende invloed die bij hetschrijven van dezedissertatie van de

co-promotor dr. Ton Vallen isuitgegaan. kan moeilijkoverschatworden. Hij heeft

steeds opvriendschappelijkewijzeduidelijk gemaakt wat er nog kon en nog moestgebeuren. Van zijn grote kennisen inzicht ophetterrein van de

linguistiek endetaalvaardigheid vanallochtone leerlingen heb ikveel geleerd.

De gesprekken metde beidepromotores, prof. dr.GuusExtra en prof. dr.

Len deKlerk. hebben er toegeleid dat hetaantal blinde viekken op mijn netvliesisverminderd. Het waseen genoegen om met zulke breed

georienteerdemensen over hetmanuscript tekunnen discussieren.

Dr.Johan Wijnstra (Cito)heeft hetmanuscript eveneensvankritisch commentaar voorzien. Ik heb niet alleeninverband met mijndissertatie een beroep mogen doen opzijn grote kenniseninzicht alsonderwijskundig onderzoeker. maar ik hebhetvoorrecht in hemal bijna 15 jaar eenuitstekende

collegate hebben diesteeds bereid isteluisteren en te adviseren.

Zowel hij dc uitvoering vanhetproject als het schrijven van dedissertatie heb ikveel geleerd opmethodologisch terrein. Dr. Ron Engelen (Cito) bleef steeds geduldig uitleggen welke procedures gevolgd moesten worden enwaarom dat

moest. Anneliesvan Exter (Cito) heeftsamen met de Grafische Dienst van het Cito ervoorgezorgd dat een diskette met verschillendesoorten bestanden is

oingewerkt lot dit fraaie hoek.

Het schrijven vaneen dissertatie wordt gemakkelijker geniaakt door een stimulerende omgeving.Mensen die niet bij hetschrijven zelf betrokken zijn, maar die latenmerken dat ze dit soortwerk waarderen en die van tijd tot tijd informeren naarde voortgang. In dit verband wil iktwee groepen mensen in het

bijzonderbedanken:mijncollega's en mijngezinsleden.

De medewerkers van het Cito en met name die vandesector Basis-en Speciaal

Onderwijs vindenhetvanzelfsprekend dat je van je werk schriftelijk

verantwoordingaflegt enzevinden het niet ongebruikelijk om dat te doen in de vorm van eendissertatie. Deze opvatting brengt mensenertoehoge eisen te

(10)

Mijn vrouw Harmke enonze zonen Rik en Koen hebben mij de afgelopen tijd

enerzijdsdenodige ruimtegegeven enanderzijdsbleven ze mij bij het

gezinslevenbetrekken. Zodoendehebbenzeertoebijgedragen dat mijn studeerkamer geenisoleercel isgeworden.

(11)
(12)

Inhoud

1 De bruikbaarheid van

de

Eindtoets Basisonderwijs voor

allochtone leerlingen 1

1.1 Inleiding 1

1.2 Toets-enitembias 5

1.2.1 Onderzoek naartoetsbias 7

1.2.2 Onderzoek naaritembias 14

1.3 Onderzoeksvragen 18

1.3.1 Trends indeschoolresultatenvanallochtoneen autochtone leerlingen 19

1.3.2 De predictieve validiteit vande Eindtoets Basisonderwijs voor de onderscheiden etnische groepen invergelijking met die van het advies van debasisschool 21

1.3.3 Itembiasvoor allochtone leerlingen 21

2

Potentilile

bronnen

van toets-en

itembias 25

2.1 Mogelijke determinanten vanverschillen indepredictieve validiteit van deEindtoets Basisonderwijsvoor allochtoneen autochtone leerlingeninvergelijking methet adviesbasisschool 25

2.2 Mogelijkebronnenvan itembiasvoor allochtoneleerlingen 27

2.2.1 Een theoretisch raamwerk voorde relatietussentaalvaardigheid en schoolsucces van allochtone leerlingen 30

2.2.2 Potentiele linguistisch bronnen van itembias 32

2.2.3 Potentiele culturelebronnenvan itembias 40

2.2.4 Onderwijsaanbodalspotentiele bronvan itembias 43

2.3 Samenvatting 44

2.3.1 Samenvatting van demogelijke determinantenvan verschillen in de predictieve validiteit vande EindtoetsBasisonderwijs en het advies basisschool 44

2.3.2 Samenvatting vandepotentiele bronnenvanitembias 44

3 Beschrijving

en

verantwoording van

de

onderzoeks-instrumenten 47

3.1 Opzet van de Eindtoets Basisonderwijs 1987 en 1989 47

3.1.1 Deinhoud enconstructie vande EindtoetsBasisonderwijs 47

3.1.2 Schaalconstructie voorderapportage opleerlingniveau 50

3.2 Verantwoording van de vragenlijsten op leerling- en schoolniveau 51

3.2.1 Vragenlijstop

leerlingniveau 52

3.2.2 Vragenlijstopschoolniveau 57

3.3 Toelatings-endoorstroomonderzoeken 58

(13)

4 Toetsresultaten en toelatings-

en

doorstroomgegevens van

deelnemers aan de

Eindtoets Basisonderwijs 1987 en 1989 61

4.1 Representativiteit 61

4.2 Toetsresultaten van de deelnemers aan de Eindtoets Basisonderwiis 1987 en 1989 64

4.3 Toelatings-en doorstroomgegevens van de deelnemers aan de Eindtoets Basisonderwijs 1987 en 1989 7()

4.4 Samenvatting 78

5 Toetsbias in

de

Eindtoets Basisonderwijs 1987 en 1989 81

5.1 Meetniveau van de onafhankelijke variabelen 82

5.2 De constructie van eenschaal voorschoolsucces 85

5.3 De predictievevaliditeit van het adviesbasisschool ende Eindtoets Basisonderwijs voor allochtoneen autochtone leerlingen 88

5.4 De effectenvan determinanten van schoolloopbanen van allochtone enautochtone

leerlingen 93

5.4.1 Eenschoolloopbaanmodel met hetadvies basisschool en de Cito-score 94

5.4.2 Eenschoolloopbaanmodel met de toetsscoresTaal, Rekenen en

Informatieverwerking 99

5.4.3 Eenschoolloopbaanmodel peronderscheiden etnische

minderheidsgroep 104

5.5 Samenvatting 107

6 Itembias in

de

Eindtoets

Basisonderwijs 1987 en

1989 109

6.1 De itembiasdetectieprocedure 110

6.1.1 Klassieke testtheorieprocedures 110

6.1.2 Itemresponsetheorie 112

6.1.3 Opzet van de itembiasanalyses 115

6.2 Resultaten van de analyses naar itembias ll8

6.2.1 De resultaten van de Mantel-Haenszel-analyses 119

6.2.2 De resultaten vande IRT-analyses 123

6.3 Samenvatting en conclusie 128

7 Bronnen

van

itembias

133

7.1 inhoudelijke analyse van partijdigeitems 134

7.1.1 Problemen bij de inhoudelijke analyse vanpartijdige items 134

7.1.2 Eerste resultaten van de inhoudelijke analyse vanpartijdige items 140

7.1.3 Overeenstemmingtussen de inhoudsanalyse van items die volgens

de Mantel-Haenszel- en deIRT-procedure partijdig zijn 160

7.2 Oordelenvanexperts over mogelijkebronnenvan itembias 161

7.2.1 Opzet van hetonderzoek naarde oordelen vanexperts 162

7.2.2 Resultaten van het onderzoek naarde oordelenvan experts 163

7.2.3 Conclusies uit het onderzoek naardeoordelen van experts 165

7.3 Een hardop-denken-experiment voor het opsporenvan mogelijke

(14)

7.3.1 Opzet vanhet hardop-denken-experiment 166

7.3.2 Resultaten van hethardop-denken-experiment 168

7.3.3 Conclusies uit hethardop-denken-experiment 173

7.4 Samenvatting 173

8 Samenvatting

endiscussie 177

8.1 Samenvatting vande Hoofdstukken 1-3 177

8.1.1 De bruikbaarheid vande EindtoetsBasisonderwijsvoor allochtone

leerlingen (Hoofdstuk 1) 177

8.1.2 Potentiele bronnenvan toets- en itembias(Hoofdstuk2) 178

8.1.3 Beschrijvingenverantwoording vandeonderzoeksinstrumenten

(Hoofdstuk3) 179

8.2 Samenvatting van de Hoofdstukken 4 en 5 endiscussie 181

8.2.1 Toetsresultatenentoelatings-endoorstroomgegevens van deelnemers aande EindtoetsBasisonderwijs 1987 en 1989

(Hoofdstuk4) 181

8.2.2 Toetsbias indeEindtoetsBasisonderwijs 1987 en 1989

(Hoofdstuk5) 182

8.2.3 Discussie 183

8.3 Samenvatting van de Hoofdstukken 6 en 7 endiscussie 187

8.3.1 Itembias in deEindtoets Basisonderwijs 1987 en 1989

(Hoofdstuk6) 187

8.3.2 Bronnenvan itembias(Hoofdstuk7) 189

8.3.3 Discussie 192

Summary

195

Literatuur

199

Bijlagen

209

(15)
(16)

1 De bruikbaarheid van

de

Eindtoets Basisonderwijs

voor

allochtone

leerlingen

1.1 Inleiding

Het isniet ongebruikelijk om voordebeschrijving vande schoolprestaties van

allochtone enautochtone leerlingen toetsresultatente gebruiken,zeker als het

erom gaat deverschillentussen beidegroepen indebeheersing van eenaantal

aspecten van de Nederlandse taaltot uitdrukkingtebrengen. Ook voor de communicatie metpersonenbuitenhetonderwijsveld worden toetsresultaten gebruikt. Zo hanteren Tesser& Vierke (1990)alsoperationaliseringvan school-prestatiesonderandere scoresop taaltoetsen,wanneer zij opverzoek van het MinisterievanBinnenlandse Zaken rapporteren overde schoolprestaties van

allochtoneenautochtone leerlingen in het basisonderwijs.

Tegendeachtergrond vanhet bovenstaande wekt het enigeverbazing dat er tot

nu toeinNederland nauwelijks onderzoek isgedaan naardevraag of

veel-gebruiktetoetsen weleen geschiktmiddel zijn omdevaardigheid vanzowel

allochtone alsautochtone leerlingen ophet terreinvan bepaalde onderwijs-doelstellingente meten.Vooral wanneerdegemiddelde toetsscores van

onderscheiden groepen, zoalsallochtone enautochtone leerlingen, aanzienlijk

verschillen, kandeonderzoekerzichimmersafvragen ofdieverschillen toe te schrijven zijnaanverschillen in dete metenvaardigheden of dat ze eenartefact zijn vandegehanteerdemeetprocedure.

Sommige onderzoekers verwachtendattoetsen eenonderschattinggeven van

het prestatieniveauvanallochtone leerlingen. Vallen & Kerkhoff (1985) zijn bijvoorbeeld vanmening dat vanalle leerlingende resultaten op de

gebruikelijketoetsen metde nodige reserves bekekenmoeten worden. Volgens

hen gelden die reserves ten aanzien vanallochtone kinderen innogsterkere

mate. DelinguYstische en culturele achtergronden vandeze leerlingenspelen

volgens heneen belangrijke rol bij hetmaken vantoetsen inhet

immigratie-land.

Ook vanuitdeonderwijspraktijkwordtde bruikbaarheidvan toetsen voor leerlingen uitetnische minderheidsgroepen zo nu endanbetwijfeld. DeTurkse Leerkrachten VereniginginGelderland steltbijvoorbeeld dat hetafnemen van toetsen.waaronderdc Cito-toetsenin groep acht van hetbasisonderwijs, bij allochtone leerlingen inde praktijkveel problemenoplevert. De vraagstelling vande Cito-toetsisvolgens hen vaakcultureelbepaald,waardoor van

allochtone leerlingenmeerwordtgevraagd dan van autochtone leerlingen

(Ersoy, 1991).

Er wordendoor onderzoekers pogingen in het werkgesteld om anderen ervan te overtuigen dat de doorhengehanteerde toetsenvoor allochtone leerlingen bruikbaar zijn. Zostelt Driessen (1990: 74) dat hettoetsenvanallochtone leerlingen in een taal die vooreen groot deel van hen nietde moedertaal is, mogelijkeen probleemvormt. Bijdeconstructie van de in zijn onderzoek

gebruiktetoetsen is daar danook,volgens hem, speciale aandachtaanbesteed.

Hij deelt evenwel nietmee welkemaatregelener genomen zijn om dete meten vaardigheden bij allochtone leerlingenadequaatte meten.Driessen (1990: 206)

(17)

toetsbruikbaar is voor allochtone leerlingen nog in dekinderschoenenstaat.

De twijfel aande bruikbaarheid van meetinstrumenten voor leerlingen uit

etnische minderheidsgroepeiigeldt ook voor intelligentietests. Extra & Verhoeven (1985) zijn bijvoorbeeldvan mening dat een intelligentietest die bedoeld isvoor monolinguale leerlingen.niet zonder meerte gebruiken is om

de intelligentiete meten van allochtone kinderen. ZoweldeNederlandstalige instructie bij de nonverbaleen verbaletaken als de verbale takenzelfhouden

geen rekening metdemeertalige achtergrondvanallochtone kinderen. Er moet.

volgensExtra& Verhoeven(1985). rekeningmeegehoudenworden dat met de

tot nu toe gebruikte intelligentietestsniet nagegaanwordthoeintelligent allochtone leerlingen zijn. maarinwelke mate ze het Nederlands alstweede laal beheersen. Vande Vijver (1991:66)stelt dat een testbij onderscheiden

culturele groepen hetzelfdepsychologischeconstructmoet meten. Na een

beschrijving vande literatuurover'culture-fair' tests komt hij (1991: 65) tot de conclusie dat ookalsvoorafeisenzijn geformuleerd omde bruikbaarheid van

een testbij onderscheiden culturele groepentemaximaliseren. de

implementatie niet garandeertdatmeetartefacten. bijvoorbeeld veroorzaakt door differentiele vertrouwdheid met het stimulusmateriaal. geelimineerd zijn. Hofstee. voorzitter vaneen testscreeningscommissie dietwintig van de in Nederland meestgebruikte psychologischetestsop 'cultural bias' en op cultuurgebondenenracistische items doorlichtte, komt totdeconclusie dat de

schijnbaareenvoudige vraag of eentestallochtone leerlingenbenadeelt. in feite

eengecompliceerde kwestie is en dat hetempirisch onderzoek in deze aan hoge eisen moet voldoen(Hofstee. 199()). Deze testscreeningscommissie spoort tot verhoogde onderzoeksinspanning op ditterrein aan endeponeert debewijslast

voor testfairness, in de zin van afwezigheid van testbias. bijdetestontwikkelaar en testgebruiker.

In dezomervan 1985 hebben medewerkers van hetWerkverband Taal en Minderheden vande Letterenfaculteit vande Katholieke Universiteit Brabant

(KUB)

contact gezocht met medewerkers van hetproject Eindtoets

Basisonderwils van het Instituut voor Toetsontwikkeling (Cito) om de mogelijkhedenteverkennen samen eenonderzoeksproject opte zetten. Het gingtoen vooral om devolgende onderzoeksvragen:

- Hoc ontwikkelen de scores op de Eindtoets Basisonderwijs vanallochtone en autochtone leerlingen zich inde komende jaren?

Met welke itemsentoetsonderdelen hebben allochtone leerlingenspecifieke

problemen?

- Welke mogelijkheden zijn er onide Eindtoets zo aante passen.dat eventuele biases' voor allochtone leerlingen in verband met hun taligeen culturele

achtergrond opgeheven worden?

De KUB en het Citobeslotensamen een onderzoek tegaan uitvoeren om antwoordentevindenop bovenstaande en eenaantal aanvullende

onderzoeks-vragen. Er werdafgesproken om,nadat in 1986eenvooronderzoek zou zijn

gehouden. achtergrondgegevensteverzamelen vande leerlingen die in 1987 en

(18)

De keuze omdeEindtoetsBasisonderwijstelatenfungeren als object van onderzoekisvooral ingegeven door het feit dat elk jaareengroot aantal leerlingen aandezetoetsdeelneemt. In de periode 1980

-1990 ligt het aantal deelnemers aande toetstussen de 75 000 en 100 000. In 1987 namen 3801 scholen met samen 80685leerlingen aan detoets deel: in 1989waren dit 4652 scholen met 92448leerlingen. Dat isongeveer 45%,respectievelijk 55% van

het totaalaantal leerlingeningroep acht van het basisonderwijs. Sinds 1992 ligt het aantal Eindtoetsdeelnemerszelfs boven de 100 000.

DeEindtoetsBasisonderwijs. waarvan elk jaareen nieuwe versieverschijnt. heefttwee functies. Enerzijdsverschaftde toetsinformatie over individuele leerlingen in verband metdeovergang naar hetvoortgezetonderwijs.anderzijds

levertde toetsinformatie voordeevaluatie van hetonderwijsprogramma van de

basisschool. In het onderhavigeonderzoekstaat de eerste functiecentraal. De toetsbestaat uit 180opgaven dieevenredigverdeeld zijn overde onderdelen Taal. Rekenenen Informatieverwerking. De inhoud vandetoetswordt

verantwoord in hetzogehetenDoelenboek,de inhoudsverantwoording van de

EindtoetsBasisonderwijs(Cito, 19868). Op leerlingniveauwordt gerapporteerd

overhet totaal en ophet niveau vandetoetsonderdelenTaal, Rekenen,

Informatieverwerking.

Om de scores vaneentoets die moet functioneren voorde keuze vaneen school

voorvoortgezetonderwijs.te kunneninterpreteren, moetderelatie gelegd

kunnen wordentussen descores en de verschillende typen voortgezet

onderwijs. Bij deEindtoetsBasisonderwijsgebeurt dit doortoelatings- en doorstroomgegevensteverstrekken van leerlingen die in eenvoorgaand jaar

aande toetsdeelnamen. Aan de hand vandebehaalde totaalscore, die door de

zogehetenequivaleringsprocedure (zie 3.1.2) van jaar tot jaar vergelijkbaar is. wordt depositiegeschat diede leerling in de verschillende typen voortgezet

onderwijszalinnemen alsdeleerling naar dat type zou gaan. Deze schatting is gebaseerd oponderzoek naardescoreverdeling indediverse typenvoortgezet

onderwijs (Cito, 1988b; Engelen& Uiterwijk, 1990: Cito, 1990:Uiterwijk &

Engelen, 1992).Figuur 1.1 geeft eenvoorbeeld van hetleerlingrapport van de

Eindtoets Basisonderwijs 1987 en 1989.

Figuitr 1.1 Leerlingrapport Eindtoets Basisonderwijs

ateCentraalInstituut voorToetsontw,kkeling

Resultaten Taal Rekenen Informatieverwerking Totaal

Aantalopgaven 60 60 60 180 Standaardscore 535

Aantalsped 43 37 50 130 Oiderswand figuu, geeft u een Indruk of de berlingmet deze standaardscore waarschlinlijk toldebetere. makkere dan wd tot de m,ddenmoot behoortin een bepaaid schoottype De poppetles achter de

school-Percentelscore 3 6 3 3 6 9 4 3 types g"en alle 'e/ingen wee, d/neardatschool· type gaan Het gernerkle poppet,e geeft de plaats

aan dte de leerling Inneernt tussen zIJn medeleer

ingen In d. .choollype

/ inet"rielkle % met d bgerescore 096 2096 4096 6096 8096 10096 hollI score

LBO 83 02£711947$08QRQ*3£1000idOGGEA1510RQ DOGit-471730 17£16161£ltmARRE-lflfAGFI 17

MAvo 53 Di"inni"Ki ififinni*inG988600000il 0068000(liiBil 100AORAOARBS 47

MAVO/HAVO en

29 Bnoililvionfloiloonhootio 0*100000£70;ingloof}00000090*loonfiR 71 MAVO/HAVO/VWO

HAVO.VWO en

(19)

Nader onderzoek naarde bruikbaarheid vandeEindtoets Basisonderwijs voor allochione leerlingenwordt vooral ingegeven door de wens meerduidelijkheid le verwerven over het meten vanvaardigheden bii een doelgroepwaarvan de

sociaal-culturele en linguistische achtergrond overhet algemeen sterkverschilt

van die vanautochtone leerlingenenwaarvan bovendien bekend is dat ze bij metingvanverschillendevaardigheden lagere scoresbehalen.Empirisch

onderzoekmoet duidelijk maken ofdescores opdeEindtoets Basisonderwijs

een over-of onderschatting ofeenjuisteweergave geven van devaardigheid

vanallochtone leerlingen inde gemetendomeinen.

Het samenwerkingsproject KUB - Cito richt zich op drie onderdelen.

Teneersteheeft het onderzoekbetrekking op het beschrijvenvantrends in de

schoolresultatenvan allochtoneenautochtone leerlingen. Met schoolresultaten

worden hierde toetsscoresvandeze leerlingen opde (onderdelen van de) Eindtoets Basisonderwijsbedoeld ende gegevensover toelating tot en

doorstroming inhet voortgezetonderwijs. In detweedeplaats gaatdezestudie

over onderzoeknaar toetsbias. Toetsbiaswordt hieropgevat alsonderzoek naar

de vraag hoe hoogdevoorspellende waarde vande EindtoetsBasisonderwijs is

voor allochtoneen autochtone leerlingen in vergelijking met die vanhet advies vandebasisschool. Het derdeonderdeel gaat overhetonderzoeknaar itembias.

Inhet onderhavige onderzoeknaaritembiasworden tweecomplementaire

fasen onderscheiden. In deeerste faseworden metstatistische procedures items opgespoordwaarbijsprake isvanitembias. In de tweedefasewordt ingegaan op

de vraag wat bij eenbepaald itemdeoorzaakvan itembiaszou kunnen zijn.

Bijhet opsporen vanmogelijke oorzaken vanitembiaswerdendriegroepen personen betrokken, respectievelijkdeprojectmedewerkers van KUB en Cito.

niet bij hetproject betrokken expertsenleerlingen uit groep acht van het

basisonderwijs. In 1.3.3wordt deopzet van hetonderzoeknaaritembiasnader

beschreven. Uit hetonderzoeknaar toets-en itembias moet ook blijken met welke aanpassingendebruikbaarheid vande Eindtoets Basisonderwijs voor allochtone leerlingen eventueel vergroot kanworden.

Dezedissertatie vormthet eindverslag van dit onderzoek. in devolgende

paragraaf(1.2)wordt ingegaan op het begrippenpaartoets-enitembias.terwijl dit hoofdstuk wordtafgesloten met een overzicht vande centrale onderzoeks-vragen ( 1.3). In hoofdstuktwee worden mogelijke oorzaken van bias voor leerlingen uit etnische minderheidsgroepen aan deordegesteld. In hoofdstuk drie staatdebeschrijvingenverantwoording van degebruikte onderzoeks-instrumenten centraal. In hoofdstuk vier komen detrends in de toetsscores van deonderscheiden etnische groepen opde (onderdelen vande) Eindtoets Basisonderwijs 1987 en 1989 aan de orde.Bovendienworden detrends in de toelatings-en doorstroomgegevens vandezeleerlingen in het voortgezet

onderwijsgegeven. In hoofdstuk vijf wordtverslag gedaan van hetonderzoek naarde predictieve validiteit vandeEindtoets Basisonderwijs voor allochtone en autochtone leerlingeninvergelijking met die vanhet advies van de

basisschool. Hoofdstukzes heeftbetrekking opdeprocedures diegevolgd zijn

om items op tesporen waarbijsprake is van bias. Deresultaten van de verschillende analyseswordenbesproken envergeleken. In hoofdstukzeven

wordt aangegeven welke verklaringenermogelijktegeven zijnvoor itembias.

Inhet laatste hoofdstuk wordt eensamenvattinggegevenenworden de

(20)

1.2 Toets-en itembias

Bijdebeoordeling vande kwaliteitvantoetsen isdevraag naardevaliditeit een centraal punt. In validiteitsonderzoek wordtnagegaan inwelke mate een toets

aan zijn doelbeantwoordt (Drenth,1973). Dergelijk onderzoekmoetresulteren

in een oordeel over dematewaarinerempirische evidentie bestaat voor de beweringdatscoresbepaalde conclusiesenactiestoelaten (vgl. Jensen, 1980:

Messick, 1986; 1987). Devaliditeit heeftdusbetrekking ophetgebruik van de toetsresultaten. Een toets kan vooreenbepaald doel zeer valide zijn, maar niet

vooreen ander doel. De items vaneentoetslokken bijde toetsdeelnemer

bepaalde responsen uit en aan de hand vandezeresponsenwordtdestatus van de toetsdeelnemertenopzichte vaneen bepaaldconstructofcriterium

vastgesteld. Detoetsontwikkelaar heeft tot taak derelatietussendescores op

eenverzamelingitems en hetconstructof criteriumteverantwoorden. Validiteitsonderzoekkan verschillendevormenaannemen.De'American EducationalResearchAssociation' (AERA),de AmericanPsychological Association' (APA) ende'National CouncilonMeasurementinEducation' (NCME) hebben ineengezamenlijkepublicatie (1985)een indeling naar drie

soorten validiteitgegeven.

- Inhoudsvaliditeit wordt geevalueerd door vasttestellen hoe goed

deinhoud

vaneentoetshet domein van situaties,kennisinhoudenofvaardigheden

representeertwaaroverconclusiesgetrokkenmoetenworden.

- Criteriumvaliditeitwordt geevalueerd door

descores te vergelijken met een

externevariabele,die verondersteldwordteendirecte meting te zijn van het

gedraginkwestie. Er wordentwee soortencriteriumvaliditeitonderscheiden:

• Predictieve validiteit die de mate aangeeftwaarineenscoreiemands

toekomstige niveau opeencriteriumkanvoorspellen.

Gelijktijdige (concurrent) validiteit die demate aangeeftwaarineenscore iemands huidige niveau op eencriteriumkan schatten.

- Constructvaliditeit wordt geevalueerd doorteonderzoekenwelke

psychologische kwaliteiteneen toets meet.'Construct' is dan een

gepostuleerdevaardigheidwaarvanverondersteld wordt dat deze gereflecteerdwordt indetoetsprestatie.

Messick (1987)benadrukt dat dezedriesoorten validiteitnietgezien moeten wordenalsalternatieven, maar als aspecten vanvaliditeitsonderzoek. Hij wijst

op deovereenkomsttussencriterium- enconstructvaliditeit.Inonderzoek naar de criteriumvaliditeit vaneen meetinstrument ishetimmersessentieel om te bepalen in hoeverredeexterne variabele(hetcriterium) hetzelfde meet als het meetinstrumentin kwestiebeoogt te meten.Messickbenadrukt dat het bij criteriumvaliditeit niet enkelen alleen gaat omdecorrelatie tussentoets en

criterium. Het isvanbelang omteverklaren waarom ereenbepaald verband bestaat tussen hetcriterium ende toets (vgl.ook Cronbach, 1972;Drenth,

1972).Hiervoormoeten hetcriterium enhetmeetinstrumentin kwestie

(21)

onderzoek naar deconstructvaliditeit van toets envancriterium. VolgensJensen (1980)constateerden Bineten Simonreeds dat hun

intelligentietest.ontwikkeldvoor Parijsearbeiderskinderen, afgenomen bij kinderen meteenhogere sociaal-economische statusaanzienlijk hogere

gemiddelde testscoresopleverde. Vertegenwoordigdendescores van delagere

en hogere socialemilieus inderdaad verschillende intelligentieniveaus ofwaren

de verschillen een artefact van de test?Binet heeftdezeonderzoeksvraag nooit formeel onderzocht(Jensen, 1980). maarniet direct verklaarbare verschillen

tussenrelevante geledingen indepopulatie zijn vaak aanleiding om te

onderzoeken of een test oftoets ook vooronderscheiden subpopulaties aan zijn doel beantwoordt.

Zo wordt erin Nederland bijvoorbeeldnagegaan ofdeitems van het Centraal SchriftelijkEindexamen moderne vreemdetalen van het LBO. MAVO, HAVO en VWO voorjongensen meisjesop dezelfde wijze functioneren. Bijdeze

examensworden items opgespoord die deleden van deene sekse significant

betermaken dan deleden van deandere meteenvergelijkbaar gemiddeld

prestatieniveau (Bugel & Robben-Willems, 1989: Bugel, 1991: Biigel & Glas.

1991). In deVerenigde Staten besteedt men opsoortgelijke wijze veel aandacht

aan de validiteitvantoetsenvoor leerlingen uitetnische minderheidsgroepen in vergelijking met die voorde blanke meerderheidsgroep (Berk, 1982; Holland &

Wainer, 1993).Tatsuoka e.a. (1988)gingen na ofeentoets ook aan zijn doel beantwoordt voor leerlingen vaneen vergelijkbaar prestatieniveau die bij

bepaaldecognitieve taken verschillende 'problem-solving'-strategieenhanteren.

In onderzoek naardevaliditeit van toetsenvoorsubgroepenwordt het begrip

'bias' gehanteerd. Inhet algemeenverwijst bias naardesystematische over- of onderschatting vaneen parameterals functie van het lidmaatschap van een

onderscheiden subgroep(vgl.Jensen, 1980:Reynolds, 1982).Biasonderzoek kan

betrekkinghebben opde toets alsgeheel en op de afzonderlijke toetsopgaven.

Bij een toetsdiegebruikt wordtom iemandsniveau opeenextern criterium te

schatten. kanonderzocht worden ofde criteriumvaliditeit voor de

onderscheiden subgroepen even hoog is. Biasonderzoek heeftbetrekking op de constructvaliditeit.wanneeronderzocht wordt ofdeafzonderlijke toetsitems

voorde onderscheiden subgroepen het construct opdezelfde wijze

representeren.

Elk onderzoek naardehruikbaarheid van toetsenvoor relevante geledingen in

de populatie is noggeen toets- ofitembiasonderzoek. Hofstee (1990) maakt onderscheidtussenonderzoek naar biasenonderzoek waarinbec,ordeeld wordt of er ineentoets oftestetnocentrischeofracistischeinhouden voorkomen.

Volgens Hofstee isdevraag ofeentekst ofeen afbeelding doordebeugel kan een kwestie vanoordeelsvorming. De vraag ofeen leerling doorbepaalde

plaatjes ofbewoordingenbenadeeldwordt.isdaarbij niet aan de orde. Alleen empirisch onderzoek kanuitsluitsel gevenofscoresvan leerlingen door bepaaldeinhoudenbeYnvloed worden: "Een testkanetnocentrische inhoud vertonen of niet. en losdaarvanallochtonen benadelen of niet.De beidecriteria zijn onafhankelijkvanelkaar"(Hofstee. 1990: 292).Ekstrom, Lockheed &

Donlon (1979) daarentegen sprekenover onderzoek naar'bias' wanneer de

(22)

een testsprake is van'bias'. wanneer er in detestinhoudvaker mannelijke

zelfstandige naamwoordenvoorkomen danvrouwelijke.

Indezedissertatie wordt aangesloten bijdeopvattingvan Hofstee (1990).

Met 'onderzoek naarbias'wordtverwezennaar empirisch onderzoekwaarbij nagegaanwordt of het item ofdetoets het te metenconstruct.respectievelijk criterium vooronderscheiden subgroepenvergelijkbaarrepresenteren. Indien

de itemsbij bepaalde subgroepen iets andersmeten, kan ditdescores van die groepen beYnvloeden. Voor het beoordelen van de inhoudvan toetsen oftesten

op zichwordt hier de term 'inhoudsanalyse' gehanteerd.

'Bias' isniet hetzelfdeals 'moeilijkheid'. Regelmatigblijkt datderesultaten van verschillende bevolkingsgroepenop toetsenverschillen. Op zich is dit geen

argument om aan dekwaliteit vandetoetstetwijfelen. Wemoeteneraltijd rekeningmee houden datene bevolkingsgroep gemiddeld vaardiger is in het te

metenconstruct dandeandere.Als bijvoorbeeld taalitems voorbepaalde

leerlingen moeilijker zijn dan voorandere,wordt meestal voldaan aan de

functie vandieitems ofdetaaltoets als geheel: hetdiscrimineren tussen meer en

mindertaalvaardige leerlingenmetbetrekking tot de taaldie getoetstwordt. Er wordt afbreukgedaan aandeconstructvaliditeit van het meetinstrument wanneer voorhetjuist beantwoorden vandeitems nog anderevaardigheden

nodig zijn dandevaardigheid diede items beogente meten. Wanneer de

benodigdeadditionele vaardigheden niet bij alleonderscheiden subgroepen in vergelijkbaremate aanwezigzijn, spreken we van bias. Datkanbijvoorbeeld het gevalzijn wanneer het niet tot hette meten constructbehorende taalgebruik in een rekenopgave vooreenbepaaldegroepleerlingendermate ingewikkeld is, dat ze ten gevolge daarvan niet aan hetuitvoeren vande beoogderekenoperatie toekomenofdaaraanonvoldoende aandachtkunnenbesteden. De vaardigheid

diedetoetsitems beogentemeten, spelenbij onderzoek naar bias eencruciale

rol.

Kok(1988)hanteertals equivalent voor 'bias'het Nederlandsebegrip

'partijdigheid'. In navolging vanhemworden inditproefschrift 'bias' en 'partijdigheid' als zelfstandig naamwoord gebruikten'partijdig' alsbijvoeglijk

naamwoord.

Het begriptoetswordt hierbeschouwd alseenverbijzondering van hetbegrip

test.Toetswordtgebruikt vooreen meetprocedure vandoor onderwijs en

studieverworvenkennis,inzichten vaardigheid op 66n ofmeer vakgebieden.

Testwordt gebruikt vooreen meetprocedure van niet door intentioneel

onderwijsenstudieverworveneigenschappen van depersoon (vgl. DeGroot &

Van Naerssen, 1969:Drenth, 1973: DeKlerk, 1983)

1.2.1 Onderzoek naar toetsbias

Toetsenworden in het algemeenontwikkeldomvoorspellingen te doen over buitendetoetssituatieliggend gedrag. Opbasis vande behaalde toetsscore sprekenweverwachtingen uit over feiten,waarvan we op zichzelf geen weet

(23)

toetssituatie liggende feiten (vgl.Drenth, 1973: De Klerk. 1983).

Wanneerde criteriumvaliditeit vaneen toets voor twee ofmeer subgroepen

wordt onderzocht. cpreken wevanonderzoek naar toetsbias. Reynolds (1982) en Malpass& Poortinga(1986) definierentoetsbias als het maken van

systematischeschattingsfouten bij het voorspellen vandepositie opeenextern

criterium alseenfunctie van eenspecifiekgroepslidmaatschap. Jensen (1980:

381) zegt dateen toetspartijdigiswanneerde hellingen.de intercepts en de

schattingsfouten vanderegressielijnen vantweesubgroepen significant van elkaar verschillen. De 'American EducationalResearch Association' (AERA),

de 'AmericanPsychological Association' (APA) ende 'National Council on Measurement in Education' (NCME) onderschrijven in eengezamenlijke

publicatie (1985)deopvattingvanJensen. Wanneerderegressielijnen van twee

onderscheiden subgroepen samenvallen, danvoorspelt de toetshetextern criteriumvoor heide groepenop dezelfde wijze. Deintercepten endehellingen

van allochtoneen autochtone leerlingen zijngelijk enschattingsfouten in de

predictie zijn niet gecorreleerd met groepslidmaatschap.

Een toetsispartijdigwanneerde regressielijnenvan onderscheiden subgroepen

uit depopulatie significantvanelkaar verschillen endegemeenschappelijke

regressievergelijking gebruikt wordt omdepositie vandie subgroepen op het externcriteriumte schatten. Dezesituatie doet zich voor wanneer bij de predictie van het extern criteriumgeen onderscheidgemaakt wordt naar

subgroepen.

Wanneerde regressielijnen nietsamenvallen, kunnen zichdrie situaties

voordoen:de intercepten verschillen constant (a),dehellingen verschillen (b) en de intercepten ende hellingenverschillen (c) (Cronbach. 1972:Reynolds.

1982). Validiteit veronderstelt betrouwbaarheid. Bij de volgende situatieswordt ervan uitgegaan datde meting voldoende betrouwbaargenoemd kan worden en

(24)

a de intercepten verschillen significant

Wanneerdeintercepten verschillen en de hellingen niet, dan ontstaat er een

situatie als in figuur 1.2.

Figuur 1.2 De intercepten van de regressielijnen verschillen

voorspeller

extern criterlum

Allochtonen Autochtonen

Gemeensch. regr.lijn

Gebruik vandegemeenschappelijkeregressievergelijking resulteert in bias ten

nadele vandesubgroep metdehoogste gemiddelde score opdetoets (de

voorspeller). Omdatde hellingenvan beide subgroepengelijk zijn. blijft de

over-of onderschatting in depredictieconstantenfluctueert niet alseen functie

van iemands score opdevoorspeller. De mate van over- of onderschatting van

het niveau ophetexterncriterium isdusonafhankelijk van iemandstoetsscore.

In figuur 1.2 leidthetgebruik vandegemeenschappelijkeregressievergelijking

(25)

b de hellingen verschillen significant

Figuur 1.3geeft desituatie weerwaarin de hellingen verschillen en de

intercepten niet.

Figuitr j.3 De hellingen van de regressielijiten verschillen

voorspeller

extern criterium

Alloch tonen - Autochtonen

Gemeensch. regr.lijn

In figuur 1.3lopende regressielijnen van deonderscheidensubgroepen niet

parallel.hetgeen betekent dat bij gebruik van degemeenschappelijke

regressie-vergelijking hetcriteriumniveau vandesubgroep met dehoogste gemiddelde toetsscr)re(voorspeller) onderschatwordt en dathet niveau vandegroep met

laagste scoreoverschatwordt. De matevantoetsbias is hier niet bij elke

toets<core even groot. maarisafhankelijk van het scoreniveau op de

roorspeller. Naarmate detoetsscorevan allochtone leerlingen hogeris.wordt in figuur 1.3hetcriteriumniveau sterkeroverschat:bij autochtone leerlingen gaat

het om onderschatten.

c de hellingen en de intercepten verschillen significant

De situatie in figuur 1.4isaanzienlijk complexer: zowel de hellingen als intercepten verschillen. Bij gebruik vandegemeenschappelijke

regressie-vergelijking is de matevantoetsbiasafhankelijk van het scoreniveau op de

voorspeller, maarhet scoreniveau opdevoorspeller bepaalt ook ofer sprake is

van over- of onderschatting vanhetcriteriumniveau. In figuur1.4wordt bij relatieflage toetsscores hetcriteriumniveau bij allochtone leerlingenoverschat.

bij relatiefhogescoresonderschat. Alleen bil kruisende regressielijnen kan het

(26)

Figuitr 1.4 De hellingen en de intercepten van de regressielijnen verscltillen

voorspeller

extern criterium

Allochtonen Autochtonen

Gemeensch. regr.lijn

Messick (1987)onderscheidtdriesoorten beslissingen die met toetsscores

genomen kunnen worden.

- selectie

Bijselectiebeslissingenwordt bepaald ofeen persoon wei of nietinaanmerking

komt vooreen bepaaldebehandeling.Behandeling wordt hiergebruiktin ruime zin: hetkanbetrekkinghebben opeenaanvullend onderwijsprogramma. een

therapeutische interventie ofeenarbeidsovereenkomst. - classificatie

Bijclassificatiebeslissingenworden alle personen over twee ofmeersoorten

behandelingenverdeeld. Demaatschappelijke waardering van de onderscheiden behandelingen isgelijk.

- plaatsing

Bijplaatsingsbeslissingenworden deleerlingen verdeeldover behandelingen die geziendemaatschappelijke waarderingeenrangorde vormen.

Messick (1987)vindtdat toetsscores dievoorselectie. classificatieofplaatsing gebruikt worden,geevalueerd moetenworden door longitudinaal onderzoek.

De personen uitdeonderscheiden subgroepen moeten gevolgdworden en na

eenbepaaldeperiodemoeten gegevens verzameldworden overhet criterium-gedrag. Metdeze gegevens moetdepredictieve validiteit vandescores per

(27)

Cronbach (1972),Drenth (1972) en Messick (1987) zeggen dat het aangeven van

de regressievan toetsscore op het extern criterium opzichonvoldoende is.

Het isvan belang om dedeterminanten van het criteriumgedrag tebepalen.

Dit betekentin feite longitudinaal onderzoek met een modelwaarin eenaantal

relevante onafnankelijke variabelen. waarondertoetsscore,zijn opgenomen en

waarin hetcriteriumgedragalsafhankelijke variabele fungeert.

Voor onderzoek naarderelatie toetsscore- externcriterium voor

onderscheiden subgroepen is ookeen longitudinaal model nodig. We moeten er

immers rekeningmeehouden, dat de invloedvan allerlei relevante variabelen op derelatietoetsscore-criterium bij elke onderscheiden subgroepen niet

gelijk is. Het isuitermate belangrijk om vast testellen welkefactoren bij de

onderscheidensubgroepen in dit verband differentieleeffecten kunnen veroorzaken. Dezefactoren moeten adequaat gemetenworden envervolgens

moetendeeffectenvanmogelijke determinantenvan schoolloopbanen van de onderscheiden subgroepen ineen longitudinaal model geschatworden.

Cronbach (1972), Jensen (1980). Reynolds (1982), Kok (1988) en Vande Vijver. Willemse & Van de Rijt (1993)merken op dat bij onderzoeknaar toetsbias

wordt aangenomen dat van hetextern criteriumeen betrouwbareen valide

operationalisatie beschikbaar is.Jensen (1980) en Van deVijver, Willemse &

Van de Rijt (1993)erkennen dat eenonpartijdig extern criterium niet altijd voorhanden is. met name niet wanneer hetexterncriteriumgebaseerd is op

subjectieve. invalide observaties zoalsbijvoorbeeld schoolcijfers. Wanneer het

extern criteriumterdiscussie staat. kan volgens Jensen (1980)enReynolds (1982)de aandachtbeter uitgaan naardeconstructvaliditeit van het

meetinstrument,wantuitspraken over decriteriumvaliditeit zijndaneigenlijk

niet mogelijk en niet toegestaan.

In Nederlands schoolloopbaanonderzoek wordtmeestal het niveau dat een leerling naeen bepaalde periode inhetvoortgezet onderwijs bereikt heeft als criterium voorschoolsucces gehanteerd. Uitgangspunt hierbij is datde bereikte onderwijsposities verticaal (leeriaren) en horizontaal (van IBO tot VWO) verschillen in niveau en opcfdnschaal gebracht kunnen worden. Vervolgens kan

de regressie vandeonafhankelijke variabelen (bijvoorbeeld: advies basisschool

en toetsscore) op deschaal voorschoolsucces bepaaid worden. Er blijken verschillende manieren te zijn om debereikte onderwijsniveaus teschalen

(Cremers, 198(}:Tesser. 1986, Bosker. 1990. Uiterwijk. 199Ob: Vander Velden.

1991). Inverband met veranderingen in het voortgezet onderwijsmoeten we er ook rekeningmee houden dateen schaalvoor bereikt onderwijsniveau een beperkte geldigheidsduurbezit.

Voor onderzoeknaar toetsbias kan men als externcriteriumeenschaal voor

bereikt onderwijsniveau construeren. maar bijde verantwoording van deze

schaal moet ook aangegeven worden ofdezeschaalzelf onpartijdig is met

betrekking totdeonderscheiden subgroepen.

Jungbluth. Van Langen & Vierke (1990: 91)stellen dat bijdeovergang van

basisonderwijsnaarvoortgezet onderwijs achteraf moeilijkvastgesteld kan

worden ofhetadvies van debasisschool ofeen toetsscorecorrect isgeweest.

(28)

zodanigeverwachtingen dat het advies basisschool inderegelzijneigen

correctheid bevordert. Bovendien zullen'systeemimmanente processen' met name categoriale scholenvoor voortgezet onderwijs afhouden van op- en afstroomvan leerlingen. Hetis derhalveniet ondenkbaar dat bijhet besluit om een leerlingeenandere school te adviserenwellicht onbedoeld meerfactoren

meespelen dan alleen decapaciteiten en hetprestatieniveau van de leerling. Maar ook bijbrede scholengemeenschappen kan men zich afvragen waar de selectietijdensdebrugperiode op gebaseerdis.Bredescholengemeenschappen

zijn voor onderzoek naar toetsbiasvoor allochtone leerlingen belangrijk, omdat zij opdezeschooltypenvergeleken metautochtone leerlingen

oververtegenwoordigd zijn (Uiterwijk, 199Oa). Tot nu toe isuit onderzoek

weinig bekend overdevraag hoe opdezescholen selectieprocessen totstand komen.Wijnstra(1984b), De Jong (1987),Uiterwijk(1990b). Driessen (1991 a),

Van Langen&Jungbluth (1992) enMeijnen& Riemersma (1992) constateren

dat kinderenuitetnische minderheidsgroepen aan het einde vande basisschool

gemiddeldeen hoger advies krijgen dandeautochtone leerlingen met een

vergelijkbare test-c.q.toetsscore. Het is niet uitgeslotendatleerkrachten van

brede scholengemeenschappen net als huncollega's uithetbasisonderwijs bij

plaatsings-enovergangsbeslissingen hetprestatieniveauvan bepaalde

subgroepen over-of onderwaarderen. Hierdoor ishetvinden van een

onpartijdig extern criteriumeenprobleem.

De conclusie moet zijn dat hetstriktgenomen in deNederlandsesituatie

onmogelijk is omtebeoordelen of er bijeenbepaaldetoetssprake is van toetsbias vanwege hetontbreken van eenonpartijdigextern criterium. Aan de

anderekant moetenwevaststellen dat indeonderwijspraktijktoetsen en het advies basisschooleen functie vervullen bijdeschoolkeuze en detoelating tot

het voortgezetonderwijs. Daardoor functioneert indepraktijk hetbereikte onderwijsniveauweldegelijk als maat voorschoolsucces.Zozeggen we

bijvoorbeeld dathetadvies vandebasisschool goedisgeweest, wanneer een leerling meteenVWO-advieszonderdoubleren in dederde klas VWOterecht komt. Wezeggenechter ook dat detoetsuitslagonjuistwas,wanneer een

leerling meteenscorenetonderhet gemiddeldezonderdoublereneveneens in de derde klasVWO terecht komt.Uiteraard ishetmogelijk dathet 'zich-zelf-waarmakendkarakter' vanhet advies basisschool andereeffecten heeft op de schoolloopbaan dan dat vandetoetsuitslag,waardoorhet moeilijk is om over juisteenonjuisteadviezenen scores tespreken.

Voordeonderwijspraktijk kanhetevenwel vanbelang zijnte weten bij welke

vanonderscheiden subgroepen het advies basisschool hogercorreleert met een

schaalvoor schoolsucces,bij welkesubgroepende toetsscorehoger correleert

enbij welkesubgroepen decorrelatiesvanadviesenscorevergelijkbaar zijn.

Indezestudiewordtgeenonderzoeknaar toetsbias gedaan door aan de hand vanhetverschiltussende regressielijnenvan Eindtoetsscoreop externcriterium van allochtoneenautochtone leerlingentebepalen of er bij deEindtoets Basisonderwijssprake is van toetsbias. Het ontbreken vaneenonpartijdig

externcriterium maakt hetinfeite onmogelijk omtebeoordelen of er bij de

Eindtoets Basisonderwijs al dan nietsprakeistoetsbias.Onderzoek naar

(29)

1.2.2 Onderzoeknaaritembias

Bij het ontwikkelen van een toetswordteen reeksitemsgeconstrueerd die samengeacht wordeneen bepaaldconstruct te representeren. Deafzonderlijke itemszijn operationalisaties vanhetconstruct datdetoets als geheel meet.

In onderzoek naarde constructvaliditeit kan nagegaanworden ofde items het

constructvoor onderscheiden subgroepen opvergelijkbare wijzerepresenteren.

Reynolds (1982) enShepard (1982) stellen dat een itempartijdigis,wanneer

een toets bij deene groepeenanderconstruct meet dan bij deandere of

wanneerde toets bij tweesubgroepen welhetzelfde meet maar dat niet met

dezelfdenauwkeurigheiddoet.Holland & Thayer(1986) zeggenkortweg dat partijdige items voor de enesubgroepeenanderefunctie hebben dan voor de

andere. Inde VerenigdeStatenwordtin plaats vanover'itembias' ook wel

gesproken over'Differential Item Functioning' (DIF).

Overdedefinitievanitembias blijken demeningenovereente stemmen. Een

item ispartijdigwanneer leerlingenuit onderscheiden subgroepen. maar met

eengelijke vaardigheid.eenongelijkekanshebben om het item goed te

beantwoorden (Ironson, 1982:Angoff, 1982:Scheuneman,1988;Verhelst. 1988:

Kok. 1988;Hambleton & Rogers, 1989:Mellenbergh, 1989: Glas, 1991; Van de

Vijver. 1991:Bugel. 1991, Glas & Ouborg, 1993). Alsalle items vaneen toets het te metendomein (bijvoorbeeld het rekendomein 'kommagetallen')

adequaat representeren,dan hebbenleerlingen dieeven vaardig zijn in dat

domein,eengelijke kans omeenbepaald item uitdie toets goed te

beantwoorden. Van belang is dat voorhetjuist beantwoorden vandeitems een bepaaldepopulatie (bijvoorbeeld autochtone leerlingen) geen andere

vaardigheden nodig heeft dan devaardigheid diede items beogentemeten.

Deitemsmeten indiepopulatie daneen eendimensionele vaardigheid

('kommagetallen'). Verder isvanbelang datdeleerlingengeclassificeerd

kunnenworden naardevaardigheid die de teonderzoeken items beogen te meten. Er moet duseen criterium beschikbaar zijn. waarmeede leerlingen van

een bepaalde populatie (bijvoorbeeld autochtone leerlingen)ingedeeld kunnen

worden in niveaugroepen. Dit criteriummoethetzelfde constructmeten ('kommagetallen') als de teonderzoeken itemspretenderente meten.

Vervolgens kan met statistische procedures onderzochtworden of leerlingen uit

onderscheiden subgroepen (bijvoorbeeld autochtoneenallochtone leerlingen).

maar meteen vergelijkbaar vaardigheidsniveau.een ongelijkekans hebben om

het item goedtebeantwoorden.

Holland & Thayer(1986) zeggen datals resultaat van het classificeren van de leerlingen dezevergelijkbaar moeten zijn ten aanzien van

- het construct dat het item meet:

- het ontvangen onderwijsaanbod ofandererelevante ervaringen, - lidmaatschapvan andere groepen.

Zij erkennen dat inde praktijk vrijwel altijdmet mindergenoegen moetworden

genomen, hetgeendetrefzekerheid beperktwaarmeeuitspraken over itembias

gedaan kunnen worden.

Voor onderzoeknaaritembias zijn verschillendestatistische procedures

(30)

a Klassieke Testtlieorie

Klassieketesttheorieprocedures gaan vande aanname uit dat het totaal aantal goed gemaakte opgaveneen goede schatting is van dete metenvaardigheid.

Omdatdeze aannameniet statistisch getoetstwordt, iseen proceduregebaseerd

op de klassieke testtheorie methodologisch eenvoudiger daneen itemresponse-theorie-procedure. De laatstejaren isdemeestgebruikte klassieke testtheorie-proceduredeMantel-Haenszel-techniek (Holland & Wainer. 1993: Glas &

Ouborg, 1993).Hierbijworden aan de hand vande totaalscoredeleerlingen uit deonderscheiden subgroepen (bijvoorbeeld allochtoneen autochtone

leerlingen) ingedeeld in niveaugroepen.Vervolgenswordtde hypothese getoetst dat binnendeze niveaugroepende p-waarde. het percentageleerlingen

dat het itemgoed maakt, van het item bij allochtoneenautochtone leerlingen

gelijkis(Verhelst, 1988). Het classificeren naar niveaugroepen aan de hand van

de totaalscore kaneenprobleemzijn,omdatdetotaalscore ookde responsen op

partijdigeitems kan bevatten.Hiervoor kaneenoplossing gevonden worden doordetotaalscore metbehulp van eeniteratieve procedure te 'zuiveren' van partijdigeitems. Eerstwordteen Mantel-Haenszel-analyse uitgevoerd waarbij

alle items vandetoetsin kwestiezijn opgenomen indetotaalscore. Vervolgens worden deitems die inde eersteanalyse partijdigbleken te zijn. inde tweede analyse niet opgenomen in detotaaiscore. Hetis mogelijk dat er inde tweede analyse nieuwepartijdige itemsbijkomen, maar het iseveneensmogelijk dat

items nietmeerpartijdig zijn die in deeerste analyse welpartijdig waren.

Het iteratieveproces gaatdoortotdat ereenverzameling onpartijdigeitems gevondenwordt waaropdetotaalscore gebaseerd kan worden.Wanneer de leerlingen op basis vande'gezuiverde' totaalscore zijningedeeldin

niveau-groepen,wordt vervolgens voor elk item uitdetoetsdehypothesegetoetst dat binnen deniveaugroependep-waarde van het item voordeonderscheiden subgroepengelijk is. Bij het'zuiveren' vande totaalscore doet zichde vraag

voor ofdeovergebleven items hetconstructnogvoldoendedekken. Dit is de

vraag naardeinhoudsvaliditeit vandeovergebleven items. Wanneer de

onderzoeker aannemelijkkan maken datresterende items het domein voldoende representeren, danbeschikken we overeenonpartijdige

operationalisatie van hette metenconstruct. b Itemresponsetheorie

Procedures die gebaseerd zijn op eenmodel uitde itemresponsetheorie (IRT)

gaan vande aanname uit datdegeobserveerde itemresponsen verklaard kunnen worden vanuit66n onderliggendevaardigheid,de latentetrek.Onder een IRT-modelwordt statistischgetoetst ofdeitemseenlatente trek vertegenwoordigen. Alshet IRT-modelpast, metende itemseen eendimensionelevaardigheid. De kans op een goedantwoord wordtdanbeschreven alseen functievan

persoons-enitemparameters. Leerlingenmetdezelfde score opde latentetrek hebben

een gelijke kans om een item goedtebeantwoorden onafhankelijk van de populatie waartoezebehoren. Eenbelangrijkeaannamebij eendimensionaliteit is dat dewaarschijnlijkheid datdetoetsdeelnemer een itemgoed beantwoordt,

eenmonotoonstijgendefunctie vandelatente trek is. De itemkarakteristieke

curve(item characteristic curve ofICC)geeftde relatieweer tussen de

eendimensionele vaardigheid en de kans om het item goedtebeantwoorden. Ondereen IRT-modelisonderzoeknaaritembiashetbepalen ofdeparameters

(31)

verschillen (Skaggs & Lissitz. 1988: Kok. 1988: Hambleton& Rogers. 1989:

Hills, 1989: Mellenbergh. 1989. Camilli & Smith.1990: Bligel & Glas. 1991)

Er worden meestal drieparametersgebruikt worden om de iCCte beschrijven:

- de moeilijkheidsparameter. diehet vaardigheidsniveauaangeeft:

- de discriminatieparameter.dieaangeeft in welke mate de kans op een goed

antwoord stijgt. naarmatedevaardigheid toeneemt:

- de raadparameter, die de kans aangeeft datdetoetsdeelnemer het item goed beantwoordt doorteraden.

Een IRT-model is dan ookmeestal op ddn. twee ofdrieparametersgebaseerd.

Glas & Verhelst (1993)enShealy & Stout (1993)wijzenop multidimensionele

IRT-modellen waarmee vastgesteld kanworden in welke mate elk item uit een

toetseenberoep doet op twee ofmeerlatente vaardigheden. maardezerelatief

nieuwe modellen zijn wiskundig ingewikkeld endebruikbaarheid ervan voor onderzoek naaritembiasisvooralsnogbeperkt.

Ondereen IRT-model issprake van itembiaswanneerdegeobserveerde responsen van deonderscheiden subgroepen (bijvoorbeeld allochtone en

autochtone leerlingen) niet vanuit 66n en dezelfdelatente trek verklaard kunnen worden. Itembiaswordt hiernagegaandooreerst de items voor den subgroep(bijvoorbeeld autochtone leerlingen)teschalen. Deitemsdie blijken

te passen opeen schaal representerenbij autochtone leerlingen dezelfde latente trek. Vervolgens wordtbepaaldofdezelfdeitems ookeen latente trek

vertegenwoordigenbij allochtoneen autochtone leerlingen(vgl. Mellenbergh,

1989: Bugel & Glas, 1991). Deitems die bijde beidesubgroepen niet opdeze

schaal passenzijn partijdig. Voorallochtone leerlingen zijn er kennelijk additionele vaardigheden inhet geding.

De vraag naarde bestestatistischeprocediwe laat zich niet eenvoudig

beantwoorden. Omdat bij IRT-modellen onderzocht wordt ofdeitems bij het

modelpassen. isdezebenadering vergeleken met klassieke

testtheorie-procedurestheoretisch superieur. IRT-modellen zijn echterwiskundig ingewikkeld en ze zijn volgens Kok (1988: 28) onbetrouwbaarbij kleine

steekproeven. Bovendien is deIRT-benadering nietvolledig bruikbaarwanneer

blijkt dat 06n of meer ineen toetsopgenomen items vooreen bepaalde

populatie niet bil het model passen (Glas. 1991). Deze itemsmoeten dan bij

deze analyses buiten beschouwingblijven. hoewel ze vanwege dit kenmerk voor

onderzoek naar itembias juist interessant zijn.

Klassieketesttheorieprocedures kunnen gebruikt worden bij relatief kleine steekproeven. leveren ophet eerste gezicht goed interpreteerbarestatistische toetsen, maar maken niet duidelijk ofdeitems dete meten vaardigheid adequaatrepresenteren (Kok. 1988). Intraprasert(1986) concludeert na

vergelijking van vijf itembiasdetectieprocedures dat eenaantal van 400 - 500

waarnemingen per steekproef bijelke methodetotbetrouwbare resultaten leidt. Bij Educational Testing Service (ETS) inde VerenigdeStaten geldt alsregel dat

vooralle statistische proceduresbij voorkeursteekproeven van 500

waarnemingenper subgroep beschikbaarmoetenzijn (Zieky. 1993). In 6.1.3

komen we opdesteekproefomvangterug.

Zowelbij IRT-modellen als bij klassieketesttheorieprocedures moet

vastgesteldworden of we temaken hebbenmet niet-uniforme itembias. Er is

(32)

laagpresterende en nietbij hoogpresterende niveaugroepenof omgekeerd

(Uiterwijk, 19908).

Het is niet ongebruikelijk om voorhet opsporen vanpartijdige items zowel een procedure gebaseerd op het IRT-model alseen klassieketesttheorie-procedure

tegebruiken(Skaggs& Lissitz, 1988;Hambleton& Rogers, 1989: Hills, 1989;

Camilli& Smith, 1990; Bugel & Glas, 1991: Hambleton &Jones. 1992: Glas & Ouborg. 1993).Hierdoor wordt duidelijkinwelke mate er overlap bestaat tussen de gehanteerdeprocedures. Zovonden Hambleton& Rogers (1989) dat de Mantel-Haenszel-procedure en een ophet IRT-modelgebaseerdeprocedure

in het aanwijzen vanpartijdige enonpartijdige items bij 75 tot 80 % van de

items overeenstemden. Hills(1989)vermeldtdatverschillende itembiasdetectie-procedures nietvolledig overeenstemmen bijhet aanwijzenvanpartijdige items

engeeft bovendien aan datitembiasindices aanzienlijk verschillen wanneer dezelfdedetectieprocedurewordttoegepast opverschillendea-selecte

steekproeven uiteen populatie. Bij33 analysesmetzowelde

Mantel-Haenszel-techniek als met op eenIRT-modelgebaseerdetechniekop afzonderlijke

a-selecte steekproevenuit dezelfdepopulatie blijktgeen enkel item 33 keer partijdig te zijn.Slechts zevenitems bleken 20 van de 33 keerpartijdig; van de in totaal92itemswaren 13itemsnooitpartijdig.

Uit het bovenstaandeblijkt dathet moeilijk is om vasttestellen of een item partijdig is of niet. Wei kan aangegeven wordeninwelke mate een item bij de

verschillende procedurespartijdig is: bij alle. bij een deel ofnooit (vgl. Uiterwijk, 199Oa).

Kok (1988: 6)onderscheidt bijonderzoeknaaritembias tweefasen.

Inde detectiefaseworden met statistische procedures beslissingen genomen over

de vraagof items wel of niet partijdig zijn.

Inde verklaringsfaseworden naar aanleiding van de geconstateerde statistische

itembias en opgrondvanandere kennisen inzichtenhypothesengeformuleerd over mogelijke oorzakenvanitembias.

De hypothesen kunnen betrekkinghebben opdeeigenschappen van

toets-deelnemers maar ookopkenmerkenvan items, die verantwoordelijk zijn voor itembias. Verklaringen voor itembias kunnen ookgevondenworden door

experimenteelencorrelationeelonderzoek. Scheuneman (1982; 1985),

Scheuneman& Steinhaus (1987). Kok, (1988); Bugel & Robben-Willems (1989).

De Jong & Vallen (1989),Uiterwijk(1990a) enCoenen& Vallen(1991), Bugel

& Glas (1991)en Uiterwijk & Vallen(1991) proberen doordeinhoud van partijdigeitemsteanalyserendeoorzakenvanitembiasteachterhalen. Door te

zoeken naarovereenkomstige kenmerkenvanpartijdigeenonpartijdige items

kunnen aanwijzingen verkregen worden over oorzakenvanitembias. Deze aanwijzingen kunnenmogelijkeenrichtsnoer vormenvoor toetsontwikkelaars. VolgensScheuneman&Steinhaus (1987) is het zeermoeilijkom achteraf vast

te stellenwelk element uit eenitemverantwoordelijk is vooritembias. Bevindt de bronvanitembias bij bijvoorbeeldeen vierkeuze-itemvoor begrijpendlezen

zich indetekstwaaroverdevraagwordtgesteld, indeintroducerende itemtekst, indegeformuleerde vraag of in de vier antwoordmogelijkheden?

In verband metdezeonzekerheidhebben deeventueleconclusies uit de

verklaringsfaseeenvoorlopig karakter. Herhaald onderzoek eneen uitgebreide

(33)

opsporen vande oorzaken van itembiasbescheiden (Scheuneman & Steinhaus.

1987. Uiterwijk & Vallen. 1991).

Het analyseren vande inhoudvanpartijdige items stemtovereen met wat we in

1.1 inhoudsanalyse genoemd hebben. Inhoudsanalyse heeft betrekkelijk weinig

betekenis wanneer we dit doen bij itemswaarvanweslechts vermoeden dat ze

partijdig zijn. Aande verklaringsfase moetdedetectiefase voorafgaan,omdat we dan opempirische basiskunnen aangeven welkeitemsvoor kinderen uit

etnische minderheidsgroepen partijdig zijn.

1.3 Onderzoeksvragen

Dit onderzoek richt zich op drie onderdelen. Ten eerste (1.3.1) gaat het om het

beschrijven van trends in deschoolresultaten vanallochtoneen autochtone leerlingen. Met schoolresultaten worden hierde toetsscores op de(onderdelen

van de) EindtoetsBasisonderwijs bedoeld en degegevens overdetoelating tot en de doorstroming in hetvoortgezet onderwijs.De groep allochtone leerlingen wordt hier onderverdeeld in diverse etnische groepen. Ten tweede ( 1.3.2) richt

het onderzoek zich opde vraag hoe hoogdevoorspellendewaarde van de

Eindtoets Basisonderwijs is voordeonderscheiden etnischegroepen in

vergelijking met die van het advies vandebasisschool. Ten derde (1.3.3) gaat

het onderzoek in opde vraag welke itemspartijdig zijn voor allochtone of

autochtone leerlingenenwaarom dat het geval is.

Het onderhavige onderzoek beoogtondermeerinformatie te verschaffen over de predictieve enconstructvaliditeit van deEindtoets Basisonderwijs voor allochtoneen autochtone leerlingen. Uit itembiasonderzoekis bekend dat het in het algemeen moeilijk is ommetzekerheid vast te stellenwaarom een item partijdig is voor allochtone of autochtone leerlingen. De onderzoeker kan het

bestevoordat de items metstatistische technieken onderzocht worden.

hypothesen formuleren over mogelijke oorzakenvan itembias. Omdat een item

in feite bestaat uit een aantal elementen is het nietaltijd duidelijk welk element

van een partijdig item de bias veroorzaakt. De conclusies die nade

inhouds-analyse van departijdige itemsgetrokken worden.hebben derhalve nog een voorlopig karakter. Deze voorlopigeconclusies zijntebeschouwen als

hypothesen voor eeneventuele volgende fase van het onderzoek. Voor item-biasonderzoek iseen groot aantal items nodig en het onderzoek verloopt in feite via een aantal cycli. Inverbandhiermee zijn in dit onderzoek van de

Eindtoetsdeelnemers uit 1987 en uit 1989achtergrondgegevens verzameld.

Door zowel in 1987 als in 1989gegevens over de aande Eindtoets

Basisonderwijs teverzamelen is het ook mogelijkom onderzoeksgegevens van

verschillende jarentevergelijken. Met de data uit 1987 en 1989wordentrends in enerzijds toetsresultatenen anderzijds in toelatings-endoorstroomgegevens

getraceerden krijgen weeenindruk vandestabiliteit van depredictieve validiteit van deEindtoetsBasisonderwijs en van het advies basisschool voor

Referenties

GERELATEERDE DOCUMENTEN

De hoog-, gemiddeld- en laag-effectieve scholen, die apart voor taal en rekenen zijn ingedeeld op basis van hun kwaliteitsscore (interceptschattingen algemene model), verschillen

De zorg voor leerlingen in het voortgezet onderwijs wordt tegenwoordig steeds vaker door scholen en instellingen zelf georganiseerd, zo blijkt uit onderzoek naar de vormgeving

òçïÉä= îêçìïÉå= ~äë= ã~ååÉå= î~å= qìêâëÉ= Éå= j~êçââ~~åëÉ= ÜÉêâçãëí= ÇáÉ= ìáí= ÇÉ= ÉÅÜí==. ÖÉëÅÜÉáÇÉå= òáàå= çÑ= ~~å= ÜÉí= ëÅÜÉáÇÉå= òáàåK=

(waarbij de leerkracht een aantal heeft genoemd) Er is zeker sprake van armoede thuis bij één of meerdere leerlingen, maar ik kan geen inschatting maken om hoeveel leerlingen het

Dit waarderingskader werd gemaakt voor een onderzoek naar de samenhang tussen opbrengstgericht werken en leerling prestaties wat betreft rekenen.. Bij dit onderzoek waren 166

Je mag zelf weten wat je het eerst in het glas doet: water, poeder of een klontje; Als je alles in het glas hebt gedaan ga je goed roeren.. Ik kan deze vraag

Opmerkelijk is dat er geen significant verschil is in de (impliciete en expliciete) heersende norm bij de ouders van Nederlandse, Turkse en Marokkaanse leerlingen; alle ouders

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of