Heus, Mark, Ontwerponderzoek, Biologie

(1)

ONTWERPONDERZOEK

ONTWERPONDERZOEK

Naam auteur Mark Heus Vakgebied Biologie

Titel De verslaglegging van de afsluitende onderdelen van onderzoek verbeteren door te werken met rubrics

Onderwerp Het aanleren van de vaardigheid verslaglegging rond de afsluitende onderdelen van een verslag (resultaten-, conclusie- en discussiesectie).

Opleiding Interfacultaire Lerarenopleidingen, Universiteit van Amsterdam Doelgroep 4 Atheneum

Sleuteltermen Onderzoek, verslaglegging, natuurwetenschappen, Domein A, rubrics, validiteit Links

http://dare.ubvu.vu.nl/bitstream/handle/1871/38422/Rubrics%20zelfevaluatie-instrument_SvdJagt_aug12[x].pdf?sequence=6 Bibliografische

referentie

Heus, M.D. (2018). De verslaglegging van de afsluitende onderdelen van

onderzoek verbeteren door te werken met rubrics. Amsterdam: Interfacultaire

Lerarenopleidingen UvA. Studentnumme

r

11851015

Begeleider(s) Liesbeth van der Hoeven, Evie Goossen en Erik Joling Datum 12 juli 2018

(2)

INHOUDSOPGAVE Inhou Inhoudsopgave...2 1. Probleemstelling...2 2. Probleemanalyse...2 Huidige praktijk...2 Leerlingvaardigheden...4 3. oplossingsstrategieen...5

4. Ontwerpregels & ontwerphypothese...5

5. Lesopzet...7

Onderbouwing vormkeuze hybride rubrics...7

Beschrijving context/casus en leerlinggroepen...9

Planning...10

Onderzoeksplan: opzet & gekozen onderzoeksinstrumenten...10

Effectmeting leereffect...10

Effectmeting leerhouding/-beleving...11

...11

Uitvoering...11

Uitvoering ontwerp en evaluatie verzamelde data effectmetingen...11

resultaten...14

Resultaten Leereffect...14

Resultaten Leerhouding/-beleving...16

Analyse en interpretatie resultaten...17

Leereffect...17

Leerhouding/-beleving...18

Conclusie en Discussie...19

Suggesties voor herontwerp...20

Suggesties met betrekking tot rubrics...21

Referenties...22

Bijlages...24

Bijlage A: Lesplannen Bijlage A1...24

Bijlage A2...27

Bijlage A3...29

Bijlage A4...31

(3)

Bijlage C: Instrumenten effectmetingen. C1: Rubrics beoordeling schriftelijke verslaglegging

leerlingonderzoeken...40 Bijlage C2: Learner report inclusief verwerking resultaten...56 Bijlage D: Overig D1...59

(4)

1. PROBLEEMSTELLING

Het probleem dat op mijn school speelt is dat de gemaakte verslagen voor de bètavakken van een (te) laag niveau zijn. Het vierde jaar atheneum deze jaarlaag bestaat uit twee parallelklassen die beide deelnemen aan wat het Bètalab wordt genoemd. Eén van de doelen van het Bètalab is om leerlingen te trainen in het doen van onderzoek, evenals de verslaglegging hiervan. Uit een rondgang onder de collega’s Natuurwetenschappen blijkt dat vooral de verslaglegging bij uitgevoerd onderzoek ver beneden de maat is. Dit is door de betreffende collega’s afgeleid uit eerder ingeleverde

onderzoeksverslagen. Met het oog op volgend jaar, waarin al een begin wordt gemaakt met het profielwerkstuk (PWS) door deze leerling, is het verbeteren van de vaardigheid verslaglegging belangrijk. Veel eisen die worden gesteld aan het PWS spelen nu al een rol in de beoordeling van de verslagen.

De opzet van het Bètalab is om één langere aaneengesloten lesperiode per week te hebben waarin de bètavakken de tijd en ruimte hebben om grotere opdrachten met de leerlingen uit te werken. Deze opdrachten focussen vooral op de vaardigheden genoemd in domein A van de bètavakken (College voor Toetsen en Examen, a., 2016a; College voor Toetsen en Examen, a., 2016b; College voor Toetsen en Examen, a., 2016c), waar de domeinen een sterke overlap onderling vertonen. Het gaat dan vooral om vaardigheden rond onderzoeken en ontwerpen. In de praktijk wordt dit in het Bètalab uitgewerkt tot de mogelijkheid te het werken aan een ontwerpopdracht en/of ruimte om practica te doen (zie ook Probleemanalyse).

Voor het Bètalab is de opzet vanuit de sectie geweest om aan het begin van het jaar de focus op het eerste onderdeel van het verslag te leggen en zo gedurende het jaar de focus steeds verder op te schuiven naar de volgende onderdelen in de verslaglegging. Er is daarom in overleg met de sectie besloten om nu, richting het einde van het jaar, te focussen op een verbetering van de vaardigheden van leerlingen in de verslaglegging met betrekking tot de afsluitende componenten in de

verslaglegging: resultaten, conclusie en discussie.

2. PROBLEEMANALYSE

Huidige praktijk

Op dit moment zijn er verslagen van enkele duo’s uit beide 4V-klassen verslagen rondom een scheikunde experiment beschikbaar. Idealiter worden er ook biologisch verslagen bekeken, maar helaas zijn deze niet beschikbaar.

Bij de scheikunde verslagen valt vooral op dat de leerlingen erg kort van stof zijn en de focus vooral ligt op het beantwoorden van de onderzoeksvraag. Verder valt het op dat de verslagen eindigen met een (relatief lange) conclusie en er geen discussie aanwezig is. Het lijk erop dat leerlingen onderdelen die normaal in een discussie thuis horen verwerken onder het kopje conclusie, bijvoorbeeld een uitgebreide onderbouwing.

In het kader van dit ontwerponderzoek is het interessant om te kijken hoe het staat met de validiteit in de verslagen: meet je ook echt wat je wilt meten? Bij afwezigheid van een discussie is gezocht onder het kopje conclusie. Het valt op dat leerlingen helemaal geen aandacht besteden aan validiteit: of zij wel hebben gemeten wat zij wilde meten. Een mogelijk verklaringen die meespeelt is dat de verslagen zijn gemaakt op basis van een zogeheten kookboek-experiment waarin de leerlingen wordt gezegd wat ze moeten doen en hoe. Soms zijn er dan ook nog specifieke vragen uit een boek of werkblad die de leerlingen moeten beantwoorden, waardoor de conclusie nog meer wordt gestuurd tot simpelweg een antwoord op die vragen, soms in combinatie met de onderzoeksvraag. Verder is er ook nog een vastgezet format voor de componenten die in een verslag moeten terugkomen en inderdaad lijkt discussie hier niet genoemd te zijn. Opmerkelijk, daar een andere 1e_{graads docent}

(5)

nakijkgemak lijkt het erop dat de leerlingen zijn aangestuurd tot het gebruiken van dit format, waarmee het maken van het onderzoeksverslag lijkt te zijn gereduceerd tot een invulopdracht rond een kookboekpracticum.

Kijkend naar de literatuur kan deze problematiek drie mogelijke oorzaken hebben:

1. Er wordt geen aandacht besteed aan de concepten nauwkeurigheid, betrouwbaarheid en validiteit

2. Er wordt te veel gefocust op de inhoud van de proeven en niet op de verwerking

3. De verschillende typen van een practica worden in mengvorm aan de leerlingen aangeboden Hieronder worden deze drie oorzaken nader toegelicht:

Er wordt geen aandacht besteed aan de concepten nauwkeurigheid, betrouwbaarheid en validiteit Zoals aangegeven zijn vaardigheden rond onderzoeken een centraal onderdeel van de eindtermen in domein A voor alle bètavakken. Hierbij spelen de begrippen nauwkeurigheid, betrouwbaarheid en validiteit een belangrijke rol en deze worden dan ook in dit domein in examenprogramma en syllabus, deels of allen genoemd bij de vakken biologie (College voor Toetsen en Examen, a., 2016a),

scheikunde (College voor Toetsen en Examen, a., 2016c) en natuurkunde (College voor Toetsen en Examen, a., 2016b). Inzicht in deze procedurele kenmerken helpt leerlingen zich een beeld te vormen van criteria en werkwijze die natuurwetenschappers gebruiken wanneer zij onderzoek bedenken en uitvoeren (van der Jagt, van Rens, Schalk, Pilot, & Beishuizen, 2013). Van der Jagt et al. (2013) deed onderzoek bij leerlingen in hoeverre zij in staat zijn om denauwkeurigheid, betrouwbaarheid en validiteit van onderzoek te evalueren. Zij stelt dat VWO-leerlingen beginners zijn in het evalueren van deze drie kenmerken met betrekking tot onderzoek (van der Jagt et al., 2013). Kortom, het schrijven van een gebrekkig onderzoekverslag kan dus in de basis veroorzaakt zijn door het gebrek aan kennis dat leerlingen hebben over de begrippen nauwkeurigheid, betrouwbaarheid en validiteit en de invloed die dit heeft op onderzoek.

Er wordt te veel gefocust op de inhoud van de proeven en niet op de verwerking

Een andere mogelijk oorzaak voor het schrijven van gebrekkige verslagen kan zijn dat er tijdens de proeven te veel gefocust wordt op de inhoud van de proeven en niet zo zeer op de verwerking hiervan in een verslag. Toch lijkt dit onwaarschijnlijk: de proeven zijn namelijk zeer eenvoudig in de uitvoering en gaan bijna uitsluitende over de stof die de leerlingen op dat moment in de les

behandelen. Na de uitvoering hebben de leerlingen tijdens het Bètalab nog voldoende tijd om het verslag verder uit te werken, waarbij de docent eventueel om hulp gevraagd kan worden. Tevens krijgen de leerlingen ook nog een vastgezet format voor de onderdelen die er in een verslag moeten terugkomen en bijbehorende hulpvragen die sturing geven aan de inhoud van dit onderdeel. Kortom, het lijkt er niet op dat de focus te veel ligt op de inhoud van de proeven in plaats de verwerking. Echter, de op dit moment gevolgde methode om leerlingen te onderwijzen in de verslaglegging van onderzoek blijkt ook niet effectief of anders ontoereikend te zijn. Uit de bekeken scheikunde verslagen komt duidelijk naar voren dat de leerlingen het noteren van getallen die uit een experiment komen in een enkele tabel zie als afdoende betreffende een resultatensectie. Begeleidende tekst, het benoemen van de belangrijkste data en onderschriften (grafieken) of bovenschriften (tabellen) lijkt hen totaal vreemd. De conclusie wordt vaak gereduceerd tot het formuleren van een antwoord op een

richtinggevend vraag. Een discussie ontbreekt vaak in zijn volledigheid (om nog maar niet te spreken over een bespreking rond nauwkeurigheid, betrouwbaarheid en validiteit).

Om ook nog even een leerling letterlijk te citeren: “Meneer, een discussie… daar hebben wij echt nog nooit van gehoord”.

De verschillende typen van een practica worden in mengvorm aan de leerlingen aangeboden

Vanuit de literatuur is beschreven dat er grofweg drie practicum vormen bestaan, geclassificeerd op basis van het doel dat het practicum kan nastreven. Deze zijn 1) apparatuur practica 2)

(6)

onderzoekspracticum en 3) begrippenpracticum (van den Berg & Buning, 1994). Van der Jagt (2013) hanteer een soortgelijke indeling, zij het iets anders verwoordt. Zij spreekt over practica met als doel 1) een nadruk op het vergroten van conceptuele kennis, 2) het uitbreiden van praktische

vaardigheden en 3) het vergroten van het procedureel inzicht binnen natuurwetenschappelijk onderzoek. Hierbinnen benoemt Van der Jagt (2013) dus het belang van de evaluatie van

betrouwbaarheid, nauwkeurigheid en validiteit met als groter doel: het vergroten van het procedureel inzicht binnen natuurwetenschappelijk onderzoek. De concepten nauwkeurigheid, betrouwbaarheid en validiteit spelen een belangrijke rol, zeker ook in direct zin nu de beoordeling hiervan in

examenvragen direct terugkomt (zie examenvraag 18 (CITO, 2018)). Inzicht in de procedurele kenmerken van nauwkeurigheid, betrouwbaarheid en validiteit helpt leerlingen zich een beeld te vormen van criteria en werkwijze die natuurwetenschappers gebruiken wanneer zij onderzoek bedenken en uitvoeren. VWO-leerlingen zijn echter beginners in het evalueren van deze drie kenmerken met betrekking tot onderzoek (van der Jagt et al., 2013). In haar rubrics geeft van der Jagt beschrijvingen en voorbeelden van wat volgens haar nauwkeurigheid, betrouwbaarheid en validiteit inhouden en wanneer dit goed (voldoende) is en wanneer niet (van der Jagt, 2012). Voor nauwkeurigheid dien je bijvoorbeeld aan te geven in hoeverre deze doorwerken in je metingen en conclusie (van der Jagt, 2012). Voor betrouwbaarheid doe je hetzelfde met betrekking tot je resultaten en conclusie (van der Jagt, 2012).

Volgens de biologiedocent op mijn stageschool is vooral de validiteit een probleem bij biologische onderzoeken. Om te kijken hoever deze doorwerken in je conclusie kijk je vooral naar wat je hebt gemeten en of dit antwoord kan bieden op de onderzoeksvragen (van der Jagt, 2012). Ondanks dat de nadruk ligt op validiteit worden betrouwbaarheid en nauwkeurigheid ook meegenomen in de beoordeling, aangezien het gaat om natuurwetenschappelijk onderzoek in de brede zin. Het biologisch karakter dient zowel als vector en als leerdoel met het oog op het curriculum biologie (zie ook verder). Validiteit en betrouwbaarheid zijn veel gehoorde termen in de onderzoeksdidactiek. Stokking

(Stokking, 2016) geeft als omschrijving van validiteit: “meten wat je wilt meten”. Dit is vooral van belang in de biologie, waar de regulatie van experimenten vaak niet even goed gaat en het operationaliseren van “wat je wilt weten” vaak al moeilijkheden geeft. Hierbij kan bijvoorbeeld gedacht worden aan: hoe operationaliseer je “goed groeien” bij een plant? In het voortraject (lees: voordat experiment wordt ingezet) zullen de leerlingen wel worden bijgestaan door de docent in het operationaliseren van dergelijke onderzoeksdoelen.

Leerlingvaardigheden

Leerlingen hebben dus erg veel moeite met de eisen die aan hen worden gesteld met betrekking tot het doen van onderzoek. Zij zijn beginners in het evalueren van nauwkeurigheid, betrouwbaarheid en validiteit (van der Jagt et al., 2013) en lopen vaak al in de ontwerpfase van onderzoek tegen

problemen met betrekking tot deze concepten aan. Een voorbeeld is het negeren van lichtintensiteit bij een onderzoek naar de invloed van de kleur licht op de groei van een plant. Of het feit dat er regulatie plaats moet vinden op de duur van kunstlicht waaraan planten worden blootgesteld, als men deze wil vergelijken met planten die groeien onder daglicht (laat staan hoe dit op te lossen). Mogelijk komt dit door het ontbreken van de nodige biologische kennis bij de leerlingen. Echter, parallel aan deze lessen lopen de reguliere lessen biologie waarbij fotosynthese wordt behandeld. Dit, in

combinatie met het boek zou afdoende moeten zijn om leerlingen (eventueel met een beetje hulp van de docent) te laten inzien hoe factoren die zijzelf interessant vinden van invloed (kunnen) zijn op plantengroei.

Samenvattend: de wens is om leerlingen te trainen in het beter schrijven van de afsluitend

componenten van een verslag, aangezien in de praktijk deze vaardigheid ver beneden de gewenste, en uiteindelijke vereiste standaard is (denk aan PWS en zie verschillende syllabi bètavakken). Oorzaken voor de slechte onderzoeksverslagen van leerlingen kunnen zijn: 1) een gebrek aan aandacht voor de concepten nauwkeurigheid, betrouwbaarheid en validiteit, 2) te veel focus op inhoud van proeven en niet (schriftelijke) verwerking en 3) dat de verschillende typen practica in mengvormen worden aangeboden. Met betrekking tot dit laatste punt is het bijvoorbeeld goed om te

(7)

realiseren dat, in tegenstelling tot het apparatuurpracticum, het onderzoekspracticum ter training van het leren onderzoeken, juist veel vrijheid voor de leerlingen moet bieden. Bijvoorbeeld de vrijheid om keuzes te maken in de opzet van experimenten en ruimte voor discussie tussen leerlingen onderling en met de docent over de voor- en nadelen van diverse mogelijkheden (van den Berg & Buning, 1994).

3. OPLOSSINGSSTRATEGIEEN

Er zijn verschillende oplossingen voor ons probleem: hoe verbeteren we de verslaglegging van onderzoek gedaan door leerlingen, met name met betrekking tot de resultaten-, conclusie- en discussiesectie.

1. Zelfevaluatie door leerlingen: leerlingen een rubrics geven waarmee zij een inschatting kunnen maken van de kwaliteit van hun eigen werk. Zelfevaluatie richt leerlingen op belangrijke aspecten van een taak, helpt bij het structureren van nieuwe kennis en laat hen sterke en zwakke punten van hun eigen verrichtingen herkennen (van der Jagt et al., 2013). Naast een woordelijke omschrijving per onderdeel van ieder niveau kan dit ook nog worden voorzien van een voorbeeld (van der Jagt, 2012). Algemene beschrijvingen in een rubrics worden namelijk beter door leerlingen begrepen als ze worden vergezeld door een normstellend voorbeeld (van der Jagt et al., 2013).

2. Peerreview: leerlingen elkaars verslagen laten lezen en beoordelen Hiervoor is het belangrijk dat een rubrics wordt gebruikt waarvan de leerlingen vinden dat deze hanteerbaar is (van der Jagt et al., 2013). Verder is een voordeel van peer-feedback dat leerlingen objectiever elkaars werk beoordelen, ten opzichte van hun eigen werk (Orsmond, Merry, & Reiling, 2002). 3. Leerlingen elkaars werk laten beoordelen aan de hand van een beoordelaarsschaal. Hierbij

laten zogeheten “Ankerteksten” zien hoeveel punten een bepaalde tekst voor een bepaald onderdeel krijgt en deze puntentelling wordt toegelicht (voor meer zie o.a. (Leendertse, 2014; Liemburg, 2013).

4. Leerlingen laten zien hoe een goede resultatensectie, conclusie- en discussie- eruitzien aan de hand van “echt” wetenschappelijk onderzoek (van der Jagt et al., 2013).

5. Zelf dergelijk sectie(’s) van onderdelen schrijven en leerlingen laten beoordelen. Hierna wordt verwacht dat zijzelf hierin meer bekwaam zijn kijkend naar hun eigen onderzoeksverslag. Dit kan ook gecombineerd worden met gebruik van een rubrics of beoordelaarsschaal.

6. Leerlingen (populair) wetenschappelijk quasi-onderzoek laten bekritiseren. Aansluitend kan de leerlingen gevraagd worden aan de hand van deze kritiek een beoordelingsmodel te maken. Gezien de sterke nadruk die ligt op het geven van feedback (via rubrics of bij evaluatie, review, beoordelen) is het goed om te bekijken wat kenmerken zijn van effectief feedback geven. In zijn boek Toetsrevolutie (Sluijsmans & Kneyber, 2016) geeft Kneyber aan dat formatieve toetsing meer effectief heeft dan allerlei andere interventies, mits aan drie voorwaarden wordt voldaan (Sluijsmans & Kneyber, 2016). Aangezien de voormeting ook gezien kan worden als een formatieve toetsing is het goed hier aandacht op te vestigen. De regels zijn:

• De toetsing mag niet beoordeeld worden. Er mag geen cijfer worden gegeven, want dat zou afleiden van de inhoud.

• De feedback moet begrijpelijk en zinvol zijn voor de leerlingen en hen richting geven en aan het denken zetten.

• De feedback moet onmiddellijk zijn, dus tijdens de les (Sluijsmans & Kneyber, 2016) 4. ONTWERPREGELS & ONTWERPHYPOTHESE

Binnen deze opsommingen en de beschreven oplossingsstrategieën is ervoor gekozen voor een hybride oplossingsstrategie met een nadruk op oplossingsstrategie 1 met implementatie van

elementen uit oplossingsstrategie 2 en 3. Dit betekent dus dat er gebruik gaat worden gemaakt van een rubrics (zie ook verder)

(8)

De volgend ontwerpregels kunnen worden gedestilleerd:

1. De lengte van de lessenserie staat gelijk aan die van 4 lesuren (4*45 min)

2. Er wordt gebruik gemaakt van rubrics en/of beoordelingsschaal gedurende de lessenreeks 3. De rubrics bevat voorbeelden per onderdeel en niveau en een ankertekst voor die

onderdelen/niveaus die zich lastig laten vatten

4. Leerlingen bekijken elkaars werk en geven daar feedback op in discussievorm 5. Feedback wordt actief toegepast door opstellen verbeterde versie van het werk

6. De toetsing of beoordeling (a.d.h.v. rubrics) van het eerste werk mag niet leiden tot een cijfer 7. Feedback moet begrijpelijk en zinvol zijn voor de leerlingen en hen richting geven en aan het

denken zetten

8. Feedback geven moet zo snel mogelijk plaatsvinden, waar mogelijk binnen dezelfde les Onafhankelijke variabele: Lessenserie

Afhankelijke variabele: Verslagcijfers (versie 1 & 2), Schrijfvaardigheid, Tekst lay-out, Antwoorden learner report (compleet + gecategoriseerd)

De hypothese kan vervolgens op verschillende manier vorm gegeven worden. Hier is ervoor gekozen dit zowel opgedeeld in onderdelen te doen ten behoeve van de leesbaarheid, als zoveel mogelijk in één zin.

Ontwerphypothese in onderdelen:

Doelgroep: 18 leerlingen (uit twee verschillende klassen) van 4 Atheneum van het Baken Park Lyceum. Zij nemen, op basis van hun eigen keuze voor een onderzoeksopdracht, deel aan de lessenserie.

Lessenserie: De leerlingen mogen zelf groepen van drie of vier maken. Per groep leerlingen voeren zij een onderzoek uit, rond een zelf gekozen onderwerp waarbij ook de opzet en uitvoer door de leerlingen zelf wordt bedacht. Per groep wordt er één leerling random uitgekozen om plaats te nemen in de beoordelaarsgroep (ook wel directie of leerlinggroep 1 genoemd). Leerlinggroep 1 gaat in een onderlinge discussie ten overstaan van de gehele groep leerlingen besluiten over de kwaliteit van de verslagen. Leerlinggroep 2 luistert en maakt aantekeningen over wat er beter kan aan, voornamelijk hun eigen, verslag.

Onderzoeksvaardigheden: Via de 1e_{versie van verslag, ingeleverd voor de lessenserie, wordt}

gekeken naar het niveau van de leerlingen vooraf. De nameting is de 2e_{versie van het verslag (de}

verbeterede versie ten gevolge van de lessenserie).

Schrijfvaardigheid (schriftelijke rapportage): Alleen via de ingeleverde verslagen

Metingen: Voormeting 1e_{versie van het verslag, nameting is de 2}e_{(verbeterde) versie van het}

verslag. Learner report dient om leerhouding/-belevingte bepalen. Binnen één zin zou de ontwerphypothese het beste te omschrijven zijn als:

Als ik bij 4 Atheneum leerlingen per onderzoeksgroep één leerling selecteer en deze samen resultaat-, conclusie- en discussiesectie, van elkaars verslag in discussievorm laat bespreken, met als leidraad de hybride rubrics begeleid voorgedaan door de docent, dan is het resultaat dat in een verbeterde versie van hun verslag er beter wordt gescoord op de onderdelen resultaat-, conclusie- en discussie-sectie als deze opnieuw wordt beoordeeld aan de hand van de hybride rubrics.

Het verslag wordt gemaakt op basis van een onderzoek dat wordt uitgevoerd in het voortraject. Hierbij dient er veel keuzevrijheid zijn in termen van het onderzoeksonderwerp te zijn voor de leerlingen, aangezien het een onderzoekspracticum betreft (van den Berg & Buning, 1994). Echter, aangezien leerlingen mogelijk niet gewend zijn om zoveel vrijheid te krijgen in het ontwerpen en uitvoeren van een grote onderzoeksopdracht, waarbij een strakke planning gehanteerd wordt, is het ook interessant om leerhouding/-beleving te onderzoeken.

Voor het onderzoeken van leerhouding/-beleving (kwalitatief) zijn er verschillende mogelijkheden. Eén ervan is interviews, maar dit heeft wel als nadeel dat er slechts weinig leerlingen te bevragen zijn (maximaal haalbaar is waarschijnlijk 6, op een groep van 18 leerlingen). Een learner report is een

(9)

tweede mogelijkheid, maar heeft als nadeel dat het kan leiden tot sociaal wenselijke en minder specifieke antwoorden en elimineert de mogelijkheid tot doorvragen hierop. Door het anoniem laten invullen van het learner report wordt de neiging tot het geven van sociaal wenselijke antwoorden hopelijk zo veel mogelijk gereduceerd. Groot voordeel is dat wel alle leerlingen bevraagd kunnen worden. Dit voordeel, het direct kunnen bevragen van alle leerlingen, weegt volgens mij zwaarder dan de nadelen (die deels ook in interviews te verwachten zijn).

Een laatste ontwerpregels is dus:

9. Er wordt een learner report opgesteld en afgenomen, zodat alle leerlingen bevraagd kunnen worden.

5. LESOPZET

Onderbouwing vormkeuze hybride rubrics

Aangezien er een sterke nadruk ligt op gebruik van een rubrics (ontwerpregels 2) wordt gedacht aan de volgende mogelijkheden om deze te verkrijgen:

a) Rubrics door van der Jagt (voor begrippen nauwkeurigheid, betrouwbaarheid en validiteit, maar ook resultaten (berekening gemiddelden en spreiding).

b) Rubrics ontwikkeld door collega Natuurkunde (geen onderbouwing uit literatuur, maar als format aan leerlingen verstrekt).

c) Rubrics gebruikt bij PWS (geen onderbouwing uit literatuur)

d) Rubrics uit afstudeerscriptie gebruiken (onderbouwd met literatuur; (Zantema, 2010)) e) Zelf ontwikkelen van rubrics (onderbouwd door literatuur, maar aangepast op basis

van eigen kennis).

Uiteindelijk is gekozen optie e). De reden hiervoor is als volgt:

Het is belangrijk om te onthouden dan bij de opties b) en c) er helemaal geen rekening wordt

gehouden met de begrippen nauwkeurigheid, betrouwbaarheid en validiteit. Optie d) bespreekt alleen nauwkeurigheid (aangezien de focus ligt op natuurkunde, waar nauwkeurigheid inderdaad van groter belang is), terwijl voor biologie juist validiteit interessanter (belangrijker) is, zoals ook de vakdocent biologie op voorhand aangaf. Optie a) en e) hebben deze nadelen niet. Wel is een voordeel van d) boven a) dat er aardige richtlijnen worden gegeven voor de lay-out van de resultaten sectie (alleen niets over een beschrijvende tekst), een groot gemis in het kader van het doel van dit onderzoek (verbetering in geschreven resultaten sectie die op dit moment gereduceerd wordt tot één tabel/grafiek met cijfertjes).

De rubrics wordt dus zelf gemaakt (optie e)) en vormt dus een hybirde tussen die van Van der Jagt (2013) en die van Zantema (2010), aangevuld met eigen ervaringen (de niveaus 7, en de blokken met een “*”). Hiervoor is gekozen, omdat de rubrics van Van der Jagt erg sterk is voor beoordeling van bijvoorbeeld betrouwbaarheid, nauwkeurigheid en validiteit, maar niet duidelijk laat zien waar deze evaluatie in het verslag terugkomt (overal, of specifiek in één sectie, bijvoorbeeld de discussie?). Zantema (2010) pleitte verder voor een indeling van haar eigen rubrics in zeven categorieën, waarvan de middelste vijf het meeste zullen worden gebruikt. Aangezien het aannemelijk is dat met het huidige niveau van de leerlingen, zonder kennis van de rubrics van van der Jagt, sommige onderdelen

compleet ontbreken is de eerste categorie van Zantema (2010) geïmplementeerd in de rubrics: niveau 1, waardering: afwezig. Verder is het niveau dat van der Jagt (2012) verwacht van leerlingonderzoek meerdere keren de hoogste categorie binnen haar eigen rubrics en mede daarom is, samen met de opmerking van Zantema (2010), ervoor gekozen een zevende categorie toe te voegen aan het andere einde van het spectrum.

Met de extra categorie wordt getracht om leerlingen te laten inzien dat er geen perfectie van hen wordt verwacht, maar wel vaak een prima resultaat. Het stellen van hoge verwachtingen is volgens mij geen probleem en via deze hybride rubrics wordt getracht dit vorm te geven. Toch is de gele arcering die van der Jagt hanteert volgens mij erg hoog gegrepen voor leerlingen en worden die leerlingen die deze lat halen zeer goed beoordeeld (op dit moment zou ik zeggen: tussen 8 en 9 op

(10)

een schaal van 1-10). Dit wordt ook bepaald doordat het hier leerlingen uit 4 VWO betreft (en niet bijvoorbeeld 6 VWO, wat ook “VWO-leerlingen” zijn.

Om wat het bekend raken van de leerlingen verder te ondersteunen worden er ook voorbeelden aan de rubrics toegevoegd. Zoals bij de oplossingsstrategieën al is aangegeven en wat ontwerpregel 3 betreft, wordt er ook per niveau binnen een onderdeel/blok in de rubrics een voorbeeld gegeven van hoe dit niveau bij dit onderdeel in een verslag in tekst vormgegeven zou kunnen zijn. Algemene beschrijvingen in een rubrics worden namelijk beter door leerlingen begrepen als ze worden vergezeld door een normstellend voorbeeld (van der Jagt et al., 2013). Er bestaat echter discussie over hoe deze voorbeelden vorm moeten krijgen. Om creativiteit de ruimte te geven en te onderstrepen in welke contexten een rubrics allemaal gebruikt kan worden (bijvoorbeeld verslaglegging voor ieder betavak?), kan gekozen worden om de voorbeeldcontexten zo breed te maken als dat de toepassing van de rubrics kan zijn (Jonsson & Svingby, 2007). Van der Jagt (van der Jagt et al., 2013) stelt echter dat een dergelijk breed scala aan voorbeelden verwarrend werkt voor de leerlingen en voor hen de hiërarchie en samenhang binnen de rubrics moelijker zichtbaar maakt. Er wordt daarom bij ontwerpregel 3 gekozen voor voorbeelden passend bij het onderdeel en niveau, binnen de context waarin de rubrics in dit geval wordt gebruikt: een biologie onderzoek bij planten. Daarnaast worden leerling een klein beetje op weg geholpen bij onderdelen die voor hen zeer waarschijnlijk volledig onbekend zijn: er wordt bijvoorbeeld bij het onderdeel “resultaten: gemiddelde waarden en spreiding” ook een berekening voor de standaarddeviatie te geplaatst, aangezien het onwaarschijnlijk wordt geacht dat de leerlingen hier al mee bekend zijn. Wat dit voorbeeld betreft is het tegelijk erg lastig om in de beperkte ruimte een voorbeeld te geven, vooral van de hogere niveaus. Er wordt daarom verwezen naar een zogeheten ankertekst (oplossingsstrategie en ontwerpregels 3). Dit is een onderzoeksverslag (onderzoeksstage 15 EC, 3e_{jaars Bachelor studenten Biologie) met als voordelen}

dat het een vrij tastbaar onderwerp heeft, niet van een onbegrijpelijk hoog niveau is en geschreven is in het Nederlands.

Naast de rubrics focussen meerdere ontwerpregels (4 t/m 8) ook op het geven van feedback, met als basis de drie regels voor het effectief geven van feedback voorgesteld door Kneyber (Sluijsmans & Kneyber, 2016). Er is wel aangegeven dat het eindproduct een cijfer krijgt, maar hier is niet

gedurende de lessen op gefocust door de docent (en vervolgens ook niet door de leerlingen). Verder wordt aangegeven dat versie 1 geen cijfer krijgt (ontwerpregel 6, versie 1 wordt alleen becijferd voor de analyse). Uit het onderzoek van Van der Jagt (van der Jagt et al., 2013) komt verder al naar voren dat de leerlingen haar versie van de rubrics als hanteerbaar beoordelen. Daaruit zou moeten volgen dat feedback, gegeven in het kader van de rubrics eveneens als zinvol ervaren zou moeten worden. Daarnaast is in iedere onderzoeksgroep een directielid aanwezig die eventuele onduidelijkheden in de rubrics kan kaderen en anders kan de docent dit doen. Daarmee is de feedback dus begrijpelijk en zinvol voor de leerlingen. Het richting geven wordt extra ondersteund door de gegeven voorbeelden bij de beschreven niveaus en zet hen waarschijnlijk aan het denken in termen als “hoe kunnen wij dit niveau, toegepast op onze onderzoekssituatie, in ons onderzoeksverslag bereiken?” (ontwerpregel 7). Alle feedback wordt in de les gegeven, maar ik denk niet dat dat direct wordt bedoeld met

“onmiddellijk” (Sluijsmans & Kneyber, 2016). Het echt onmiddellijk geven van feedback is lastig, want een compleet verslag kan niet on the spot beoordeeld worden. De docent kan hier hooguit enigszins in faciliteren door specifieke punten te benoemen en te koppelen aan de rubrics, maar ook dit

gebeurd niet in dezelfde les als waarin het verslag wordt ingeleverd. Wel is het zo dat de directieleden na hun training (les 1) direct de rubrics in hun bezit hebben en de kennis hebben die nodig is om het verslag van hun eigen onderzoeksgroep van feedback te voorzien. Verder worden elkaars verslagen in les 2 in groepsverband besproken en in les 3 in discussievorm besproken (ontwerpregels 4), wat vrij “direct” na elkaar is. Mogelijk voelt het voor de leerlingen zelfs nog als dezelfde lessen, aangezien les 2 en 3 beide in hetzelfde Betalab blok van 3 lesuren wordt gegeven (ontwerpregel 8). Het verbeteren van versie 1 naar versie 2 in alleen het ene lesuur dat nog resteert (les 4, ontwerpregel 1), is niet reëel en wordt daarom doorgeschoven naar les een week later.

(11)

Voor de vormgeving van ontwerpregels 4 (discussievorm) en 5 (verbeterede versie maken) verwijzen wij ook graag naar het volgende blok.

Beschrijving context/casus en leerlinggroepen

De uiteindelijke uitwerking rond de casus (of eigenlijk: de context) gaat op dit moment als volgt vorm krijgen. De gehele groep behoort tot Groep 1 of Groep 2.

Groep 1 (bijlage B1) zijn leerlingen die behoren tot de directie of Raad van Bestuur. Uit iedere onderzoeksgroep van 3 of 4 personen wordt één iemand willekeurig geselecteerd (met behulp van het programma Wheel Decide) voor de directie. Er zijn 5 groepen die in groepsverband onderzoek uitvoeren (let op: onderzoeksgroepen zijn drie of viertallen, maar verslagen zijn geschreven in duo’s), dus de directie bestaat uiteindelijk uit 5 leerlingen. Zij krijgen (a.d.h.v. onder andere de hybride rubrics) als groep uitleg over wat een goede resultaten/conclusie/discussie sectie is en hoe dat eruitziet (Begeleid voordoen door de docent, die de naam krijgt van consultant/adviseur)). De rubrics bevat voorbeelden voor iedere onderdeel en ieder niveau dat wordt omschreven, om de leerlingen extra duidelijkheid te verschaffen. Tevens wordt één ankertekst (oplossingsstrategie 3) aan de leerlingen beschikbaar gemaakt, zodat zij ook voorbeelden hebben voor die onderdelen die zich lastig kort laten samenvatten (bijvoorbeeld lay-out van resultaten en zie ontwerpregel 3), maar wel

belangrijk zijn in het kader van dit onderzoek.

Het uiteindelijk doel van de directie/groep 1 is om gezamenlijk in discussie te gaan en over alle verslagen waardeoordeel te vellen. Hierbij is het doel sterke zaken en zwakke punten te noemen, waarmee de onderzoeksgroep als geheel zelf mee aan de slag kan om een verbeterde versie te maken. Omdat er uit iedere groep één lid in de directie plaatsneemt kan deze bepaalde zaken in het onderzoeksverslag duiden gedurende de discussie waar nodig; zij hebben immers zelf aan één onderzoek deelgenomen (en bijgedragen aan de verslaglegging). Om de directie een gewogen oordeel te kunnen laten vellen over de verslagen, zullen zij deze wel allemaal moeten doornemen. Hiervoor worden zij bijgestaan door hun eigen onderzoeksgroep (die allemaal in groep 2 zitten, zie hieronder).

Groep 2 (bijlage B2): Dit zijn alle leerlingen die niet tot groep 1 behoren: de onderzoekers. Deze zijn tijdens de groepsuitleg van de directieleden (Groep 1) bezig met de verdere uitwerking van hun onderzoek in de vorm van het verslag. Na de uitleg voor het directielid van de onderzoeksgroep, dienen de deelnemers van groep 2 hun directielid bij te staan met zijn taak om op de hoogte te komen van de inhoud van de verslagen. Het directielid kan alle verslagen die hij moet beoordelen verdelen onder zijn groepsgenoten (uiteraard in overleg, de hiërarchie is een schijnwerkelijkheid en dient niet in realiteit aanwezig te zijn). De leden van groep 2 dienen dan (hun deel van) de verslagen te lezen en hun directielid op de hoogte te brengen van de inhoud van het verslag en eventueel te becommentariëren. De leden van Groep 1 laten zich vervolgens in de les door hun groepsgenoten die niet tot de directie behoren (groep 2) bijpraten over de inhoud. Het directielid moet wel zelf het waardenoordeel over het verslag vormen; immers hebben alleen zij op dat moment, begeleid voorgedaan gekregen waar specifiek naar gekeken moet worden en nemen alleen zij deel aan de uiteindelijke discussie: de directiebespreking

Gezamenlijk zullen zij na dit alles een tweede verbeterede versie van hun onderzoeksverslag inleveren bij de docent. Iedere groep heeft minimaal één directielid die, als “getraind” persoon, de rubrics verder kan duiden los van de docent, waar dit nodig is.

Planning

Aan de hand van bovenstaande omtrent de taken voor leerlinggroep 1 en leerlinggroep 2 samen met de ontwerpregels en het leerlingmateriaal is de volgende planning gemaakt.

Les 1 (15 mei), 45 min les: Directiebespreking.

Begeleid voordoen van beoordeling verslag aan de hand van rubrics en daarin opgenomen

voorbeelden voor leerlinggroep 1. Leerlinggroep 2 werkt zelfstandig verder aan de afronding van het verslag onder toezicht van een collega. Na de bespreking kan het directielid direct zijn kennis, o.a.

(12)

omtrent gebruik van de rubrics gaan delen met zijn/haar groepsgenoten en de te lezen verslagen gaan verdelen binnen de groep. De verslagen worden in deze periode ingeleverd bij de docent en digitaal (geanonimiseerd) via de ELO aan de leerlingen beschikbaar gesteld. Tevens wordt de kennis van het directielid toegepast op de eigen situatie: waar kan het onderzoeksverslag van de groep nog worden verbeterd.

Deadline 1e_{versie verslag (15 mei) voor afloop van het Bètalab (vóór 11:50 uur)}

Les 2 (22 mei) 45 min les: Discussie binnen onderzoeksgroepen.

Les waarin de onderzoeksgroepen onderling de gelezen verslagen bespreken/bediscussiëren a.d.h.v. rubrics. Iedere groepslid deelt zijn/haar visie en beoordeling op de door hem/haar gelezen verslagen van medeleerlingen. De overige groepsleden stellen vragen, evenals het directielid welke ook aantekeningen maakt voor gedurende de directievergadering. De docent stuurt hier in het groepsproces de verschillende groepen aan.

Les 3 (22 mei) 45 min les: Directievergadering.

Deze les vindt de directievergadering plaats. De vijfkoppige directie gaat met elkaar in discussie over de sterke en zwakke kanten van alle gelezen verslagen, waarin wederom de rubrics leidend is. De docent zal in de hoedanigheid van een consultant deze vergadering voorzitten en zo de discussie begeleiden.

Les 4 (29 mei) 45 min: Laatste les waarin de leerlingen de feedback gekregen tijdens de

directievergadering gaan verwerken in hun verslag. Hieruit komt een tweede verbeterde versie van het verslag die opnieuw wordt ingeleverd bij de docent.

Deadline 2e_{versie van het verslag (30 mei vóór 13:00)}

Learner reports (18x) laten invullen door leerlingen (5 juni)

ONDERZOEKSPLAN: OPZET & GEKOZEN ONDERZOEKSINSTRUMENTEN

Effectmeting leereffect

Leereffect wordt gemeten door het verschil in de gemiddeldes tussen de voormeting (1e_versie

verslag) en de nameting (2e_{versie van het verslag) te onderzoeken. Het cijfer van de voor- en}

nameting komt tot stand door voor iedere omschreven onderdeel uit de rubrics (bijlage C1) de 1e

versie van het verslag en een verbeterde 2e_{versie van het verslag te scoren. Om een zo eerlijk}

mogelijk te score te verkrijgen op de verschillende onderdelen, en te corrigeren voor de zogeheten interbeoordelaarsbetrouwbaarheid waar ook Van der Jagt tegenaan liep (van der Jagt et al., 2013), wordt gepoogd iedere versie te laten scoren door drie docenten: de auteur (beide versies), een scheikunde docent en een biologie docent. Voor zowel de scheikunde docent als de biologie docent geldt dat er tweemaal door een andere docent wordt gescoord (1e_{versie door docent A, 2}e_{versie door}

docent B. Beide biologie en scheikunde docenten zijn 1e_{graads bevoegd en geven bovenbouw klassen}

les. De verslagen die zijn gaan beoordelen worden hen geanonimiseerd aangeleverd. Door middel van het anonimiseren van de verslagen zijn deze docenten niet bevooroordeeld en ook niet van versie 1 naar versie 2, omdat deze door verschillende docenten wordt gescoord. Vanzelfsprekend is hen nadrukkelijk verzocht ook deze verslagen te scoren middels de ontworpen rubrics (bijlage C1). De gegeven score van auteur en docenten wordt per beschreven onderdeel gemiddeld. De behaalde score was de som van het gemiddeld gescoorde niveau voor alle beoordeelde onderdelen. De maximale score was de som van het hoogste niveau dat kon worden behaald op alle beoordeelde onderdelen. Het cijfer volgend uit de formule:

cijfer=

behaalde score

maximale score

∗¿

9 +1

Deze cijferberekening/formule wordt zowel voor versie 1, als versie 2 van het verslag toegepast. Het verschil tussen deze berekend cijfers wordt gebruikt voor verdere analyse. Op deze reeks van cijfer uit

(13)

de voormeting en de nameting wordt vervolgens een t-toets uitgevoerd, om te zien of de er een significant verschil is tussen de eerste reeks cijfers (voormeting, 1e_{versie van het verslag) en de}

tweede reeks cijfers (nameting, 2e_{versie van het verslag). Dit is gedaan voor zeven verschillende}

verslaggroepen (n=7).

Effectmeting leerhouding/-beleving

Voor de kleinschaligere effectmeting op leerhouding/-beleving wordt er gebruik gemaakt van een learner report. Deze is door de auteur zelf geconstrueerd, waarbij veel gebruik is gemaakt van een hand-out “Vuistregels voor het ontwerpen van een learner report” (via Blackboard beschikbaar gesteld), wat betreft vormgeving en vraagstelling.

De learner report wordt afgenomen bij zoveel mogelijk van de 18 individuele leerlingen. De learner report bestaat uit 6 stellingen, waarvan is verzocht 1 t/m 5 in te vullen voor de lessenserie en stelling 6 is toegevoegd voor “overige opmerkingen”. De instructie bij afname bestond daarnaast nog uit de volgende zaken:

 Alleen afnemen bij leerlingen die hebben deelgenomen aan onderzoeksopdracht  Niet onderling overleggen tijdens invullen

 Anoniem invullen is togestaan, maar graag afnemen bij volgende 18 lln (namenlijst)  Nadruk op: eerlijk en duidelijk (uitgebreid) invullen

Deze instructie is toegevoegd en mondeling toegelicht aan de dienstdoende docent, aangezien de auteur niet in staat was de les waarin deze learner report werd afgenomen bij te wonen. Na afloop zijn er 11 ingevulde learner report geretourneerd door de dienstdoende docent. Analyse zal

plaatsvinden aan de hand van deze 11 learner reports (n=11).

De verwerking van de learner report vindt plaats door voor alle stellingen een (samengevatte) weergave te geven van de gegeven antwoorden. Zeer overeenkomstige antwoorden worden gegroepeerd. Het learner report (of gewoon leerrapport (Stokking, 2016)) heeft als

onderzoeksmethoden wel een aantal nadelen waar rekening mee wordt gehouden. Allereerst moet het geven van sociaal wenselijke antwoorden worden vermeden, dit wordt gedaan door het anoniem invullen van de learner report in afwezigheid van de auteur. Beperking in de vaardigheid om eigen vaardigheden te onderscheiden is helaas niet te vermijden. Beperkingen in de (taal)vaardigheid wordt niet verwacht als een lastig punt op het niveau van 4 atheneum.

Een probleem in de verwerking is dat veel gebruikers van het leerrapport in elke leereffectzin één of meer leerervaringen onderscheiden, deze leerervaringen in categorieën onder te brengen, en de aantallen leerervaringen per categorie en de totale aantallen te tellen. Dit is echter per definitie een onnauwkeurige werkwijze volgens Stokking (Stokking, 2016). In plaats daarvan wordt er hier in dit verslag een zo nauwkeurig mogelijke samenvatting van de inhoud gegeven. Dit gebeurt wel op basis van een indeling in (vrij exacte) categorieën van antwoorden, waardoor veel categorieën slechts eenmaal zijn geteld, maar daardoor wel een goede weergave zijn van gegeven antwoorden. Deze verwerking wordt in de bijlage opgenomen, zodat de lezer de samenvatting kan afzetten tegen deze verwerking. Deze manier van verwerken wordt ook aangeraden door Stokking als het vrij open vragen betreft in het leerrapport (Stokking, 2016). De verwerking van het leerrapport zal hier in het verslag dus vooral van beschrijvende aard zijn.

UITVOERING

Uitvoering ontwerp en evaluatie verzamelde data effectmetingen

In de uiteindelijke uitvoering van de ontworpen lessen zijn er wel een aantal zaken anders gedaan, dan gepland. Dit heeft voor een deel te maken met de gemaakte keuze rond het

onderzoeksonderwerp. Voorafganaad aan de lessenserie en voordat er een verslag van de leerlingen verlangd kon worden, moest er namelijk worden besloten over een onderzoeksonderwerp. In het kader van de theorie rond de het onderzoekspracticum is ervoor gekozen de leerlingen hier veel vrijheid in te bieden. De enige richtlijn was dat het onderzoek ging over planten, waarbij werd aangegeven dat de leerlingen deze nog wel zelfs moesten laten groeien, en dat het aardig zou zijn als het onderzoek aan de planten zou aansluiten bij het lesonderwerp van de biologielessen:

(14)

gehele periode, werd uitleg gegeven over een onderzoeksplan dat ook werd geschreven/verlangd van de leerlingen en werden de experimenten ingezet. In deze lessen werd al langzaamaan duidelijk dat het werktempo van de leerlingen waarschijnlijk niet hoog genoeg was om alles tot een goed einde te maken. Pogingen om de leerlingen aan te sporen of hierop aan te spreken waren niet succesvol. Op hun beurt werden de leerlingen gefrustreerd: zij voelde hun inzet niet gewaardeerd en waren in hun ogen niet voorbereid op deze hoeveelheid werk, terwijl er ook nog andere dingen in het Betalab moesten worden gedaan. Om leerlingen beter voor te bereiden op de verdere hoeveelheid werk is er voor het ingaan van de meivakantie al besloten tot het persoonlijk uitdelen van de

opdrachtomschrijving in de context van directieleden en onderzoekers (Bijlage B1 en B2) en werd hier ook nog een planning aan toegevoegd (zie bijlage B1 en B2 in rood). De leerlingen werd gevraagd dit rustig alvast door te lezen voor de eerste les na de meivakantie. De gedachte hierachter was dat het op deze manier het meer tijd zou hebben om te bezinken bij de leerlingen, tot een betere acceptatie zou leiden en, met een planning, meer duidelijkheid zou geven aan de leerlingen. Ook zou het een tijdsbesparing in de les geven als deze tekst, al was het maar globaal, was doorgelezen door de leerlingen.

De situatie waarin de lessenserie startte, na de meivakantie en bij afronding van de experimentele fase, was niet optimaal. Allereerst had geen van de leerlingen de uitgedeelde tekst gelezen, dus daarvoor moest in de les nog tijd worden uitgetrokken. De hoofdpunten werden er mondeling nog uitgelicht en de directieleden werd verzocht om mee te komen, naar een aparte kamer. De overige groepsleden gingen de eerste versie van hun verslag afronden (deadline was diezelfde dag, zie ook planning in rood bijlage B1/B2). Echter, in dezelfde week was er ook een internationaliseringsproject, waaraan leerlingen (en ikzelf ook deels als begeleider) deelnamen. Ondanks mondelinge toelichting 20 minuten voor aanvang van de bespreking, mistte één leerling hierdoor alsnog de directiebespreking In de bespreking was er uiteindelijk niet echt heel veel tijd om de volledige rubrics zo door te nemen als gewenst was (zie ook herontwerp). Vanzelfsprekend kan dit van invloed zijn op het resultaat van de tweede versie, want de rubrics is vrij omvangrijk en bevatte toch ook componenten die voor de leerlingen lastig (of zelfs nieuw zijn). Er is bij bespreking van de rubrics extra aandacht besteed aan de componenten resultaten, en discussie. Bij “Resultaten: gemiddelde waarden en spreiding” is bijvoorbeeld een kort rekenvoorbeeld gegeven voor het berekenen van de spreiding, waarmee de toegevoegde formule verduidelijkt werd. Bij discussie is, eveneens met een voorbeeld aangegeven wat betrouwbaarheid inhoudt (zelfde uitkomst bij herhaling) en wat validiteit inhoudt (meten wat je wilt meten, en bijvoorbeeld niet hoofdomtrek bij intelligentie, maar een IQ-test). Als laatste werd hen meegegeven: help elkaar, deel deze informatie met je groepsgenoten en dat deze informatie nog NIET verwerkt hoefde te worden in de 1e_{versie van het verslag.}

Na deze bespreking zijn de leerlingen zelfstandig verder gegaan met het afronden van de 1e_versie

van het verslag, onder toezicht van een andere docent.

Voor de tweede les was het doel dat de leerlingen, ter voorbereiding, thuis als groep al alle verslagen van medestudenten hadden gelezen. Door de onrust/weerstand bij leerlingen ervaren in de eerste les, is deze voorbereiding niet mondeling toegelicht, maar één dag later via mail en ELO gedeeld met de leerlingen. Opnieuw waren er veel leerlingen waarbij deze voorbereiding niet goed op orde was. Anticiperend hierop is les 2 doorgeschoven naar 10:00-10:45 en is het huiswerk, voor diegene die dit niet hadden gedaan, naar 09:15-10:00 verplaatst. De auteur heeft zoveel mogelijk groepen bezocht om hen aan te sporen. De uitkomsten van de besprekingen van de leerlingen waren enigszins summier en door sommige leerlingen/groepen simpelweg benedenmaats uitgevoerd, wat extra duidelijk naar voren kwam in de directiebespreking. Erg jammer, want in les 2 gaven de serieus werkende leerlingen zelf aan hoe zinvol en leerzaam zij het vonden om aan de hand van de complete rubrics ook te kijken naar verslagen van collega-leerlingen.

Les 3 heeft zoals gepland doorgang gevonden van 11:05-11:50, maar in een ander lokaal met grotere tafels, waardoor de uiteindelijk setting van tafels anders uitpakte. Dit is zeer waarschijnlijk niet van invloed op de uitkomsten. Aangezien de auteur alle verslagen ook al had gelezen en beoordeeld, kon deze de inbreng van de groepen goed op waarde schatten. De tijd voor de directiebespreking was ook vrij krap, mede door de verplaatsing naar een ander lokaal en de afwezigheid (het te laat komen) van

(15)

enkele leerlingen. Een langere periode voor de bespreking (in ieder geval de zo’n 40 minuten) had waarschijnlijk wel meer opgeleverd voor de verslaggroepjes. Er viel op dat leerlingen via de rubrics veel aspecten van de verslagen hadden bekeken, maar dat zij de resultaten (spreiding en

gemiddelden) niet gewaardeerd hadden. Validiteit konden zij ook nog geen waardering aan geven, aangezien een discussie, vooral op dit punt ontbrak in vrijwel alle verslagen. Aangezien het doel van de lessenserie ook gaat over validiteit is het wel belangrijk dit op te merken.

In afwezigheid van één directielid van één groepje en deels om de goed werkende leerlingen niet de dupe te laten worden van matig werk van andere leerlingen, heeft de auteur tijdens de

directiebespreking ook nog enige feedback gegeven. Luisterend naar de feedback van leerlingen, heeft de auteur wel kort even resultaten en discussie, inclusief validiteit besproken per verslag. De leerlingen uit de groepjes met voldoende inbreng werden na afloop van de bespreking hartelijk bedankt hiervoor en de leerlingen met niet/nauwelijks inbreng werden aangesproken op hun houding. Tussen les 3 en 4 is ook gebleken dat enkele leerlingen een dermate hoge mate van stress ervaarde dat zij bij de afdelingsleider en hun mentor klaagde over de te hoge werkdruk. Dit werd vervolgens teruggekoppeld naar mij. Ik heb mijn begeleider en collega’s uit de sectie schriftelijke laten reageren en omdat zij al op de hoogte waren van het reilen en zeilen van mijn lessen hebben zij dit verder afgesloten. Er is besloten de werkdruk van de leerlingen iets te verlichten door andere onderdelen te schrappen, maar verder vast te houden aan de oorspronkelijke planning, zoals die ook aan de leerlingen is verstrekt (bij aanvang en in het rood, zie bijlage B1 en B2). Via de mentor heb ik in dezelfde periode gehoord dat de leerlingen overlegde of ze niet allemaal samen zouden beslissen om geen 2e_{verbeterde versie in te leveren, wetend dat de lessen voor mijn onderzoek waren (dit was hen}

namelijk tussen neus en lippen door gemeld in het voortraject en ik hierdoor in de problemen zou komen.

Hiermee samenhangend en medebepalend voor de reactie van mijn collega’s is dat de huidige jaarlaag van het 4e_{Atheneum niet goed presteert, zowel qua werkhouding als que opbrengst,}

resultaten. Dit is via een interne mail vanuit de afdelingsleider gebleken gedurende het uitvoeren van mijn lessenserie. Na afloop van de lessenserie is dit opnieuw gebleken: de schoolexamens (SE’s) uit de SE-week voor de vakken biologie, scheikunde, biologie en Engels (waar ik van heb gehoord) waren allemaal buitengewoon slechts gemaakt door deze jaarlaag 4 Atheneum.

Deze twee zaken zijn zeker het vermelden waard, al is lastig in te schatten hoe dit de metingen beïnvloed. Op basis van inzet (en een boycot, zie verder) is het aannemelijk dat (sommige) leerlingen niet een maximale inspanning hebben geleverd in het verbeteren van hun 1e_{versie naar een 2}e

verbeterde versie. Zeker niet die leerlingen die tijdens de lessenserie al op zitten blijven stonden. In aanloop naar les 4 is, terugkijkend naar les 3 nagedacht over de opbrengt van de bespreking. De matige inzet van een deel van de leerlingen in de voorbereiding (les 2) en de bespreking (les 3), zou een behoorlijke reductie in mogelijke opbrengt kunnen geven. Er is daarom besloten om tussen les 3 en 4 per verslaggroep de feedback (niveau waardering per onderdeel) van de auteur digitaal uit te werken in de rubrics door deze groen te arceren. Tevens is er op één A4’tje per onderdeel in enkele regels wat feedback gegeven over het betreffende onderdeel (waarom dit niveau). Aan het begin van les 4 wordt deze feedback verspreid over de verslaggroepen als richtlijnen in de verbetering van het verslag. Na deze mededeling als start van les 4 is de auteur alle verslaggroepen langs gegaan om verder vragen te beantwoorden. Opnieuw bleek hier dat betrouwbaarheid en validiteit moeilijk te begrijpen waren voor de leerlingen, maar met uitleg van de auteur is dit bij de meeste leerlingen veel duidelijker geworden.

Les 4 is dus iets anders verlopen van gepland, met als belangrijkste verschil een meer prominente rol van de docent en zijn feedback. Toch is de rol van coach in het schrijven van het verslag behouden gebleven. Een uitzondering is een verslaggroep die het complete verslag al voor de uitvoering van les 4 inleverde (dit waren 3 groepen in totaal).

(16)

Resultaten Leereffect

Voor het leereffect is dus gekeken naar de het verschil in het cijfer gegeven voor versie 1 en versie 2. Deze cijfers zijn het gewogen gemiddelde van het niveau voor iedere onderdeel gescoord door de auteur en een 1e_{graads docent scheikunde. De geselecteerde docenten biologie hadden helaas niet}

voldoende tijd om hun score aan te leveren (binnen examenperiode, SE-week, PO’s organiseren en nakijken en internationaliseringsweek bleef weinig tijd over), zodat deze kon worden meegenomen voor de analyse, al had wel verder geholpen met de interbeoordelaarsbetrouwbaarheid. Dit is weliswaar geen onderdeel van dit onderzoek, maar wel interessant om later terug te kijken naar hoe de rubrics werd gebruikt. Ook in het laatste onderdeel van de rubrics “Discussie: Ideeën voor vervolgonderzoek” niet meegenomen in de beoordeling, omdat dit laatste onderdeel niet altijd in de rubrics aanwezig bleek te zijn (weggevallen bij afdrukken?).

Het gescoorde niveau werd gelijkgesteld aan de score op dat onderdeel (niveau 1 = score 1, niveau is score 2, enzovoorts). De behaalde score was de som van het gemiddeld gescoorde niveau voor alle beoordeelde onderdelen. De maximale score was de som van het hoogste niveau dat kon worden behaald op alle beoordeelde onderdelen. Het cijfer volgende formule:

cijfer=

behaalde score

maximale score

∗¿

9 +1 De resultaten waren als volgt:

Verslaggroe

p Voormeting (Versie 1) Nameting (Versie 2) Verschilpunten(versie 2 - versie 1)

6 4,72 5,42 0,69 7 4,19 5,00 0,81 5 4,61 5,67 1,06 2 4,14 5,53 1,39 3 3,72 5,28 1,56 4 3,47 5,06 1,58 1 4,67 6,53 1,86

In tabel 1 is te zien dat in de kolom verschilpunten is voor iedere groep een positieve waarde staat, wat betekent dat iedere groep een betere 2e_{versie van het verslag heeft ingeleverd ten opzichte van}

hun 1e_{versie van het verslag.}

Tabel 1 behaalde cijfers volgens de formule voor de voormeting (versie 1) en de nameting (versie 2). Verschilpunten geeft aan met hoe groot de verbetering was tussen versie 1 en versie 2. Deze zijn alle positief, wat betekent dat iedere groep een betere 2e_{versie heeft ingeleverd, ten opzichte van hun 1}e_{versie. De tabel is}

gefilterd weergegeven waarbij de groep met de kleinste verbetering (verschilpunten) bovenaan staat, en die met de grootste onderaan.

(17)

Deze verbetering tussen de cijfers van versie 1 en versie 2 is ook visueel weer te geven in een staafdiagram (Fig. 1). Hieronder staan verschillende categorieën van cijfer verbetering tussen versie 1 en versie 2 van het verslag, met voor iedere categorie aangegeven hoe vaak deze is behaald

(frequentie). 0-0, 24 0,25 -0,4 9 0, 5-0,74 0,75 -0,9 9 1-1, 24 1,25 -1,4 9 1, 5-1,74 1,75 -1,9 9 2-2, 24 2,24 -2,5

0

1

2

3 Verschil in cijfers (v2 - v1, n=7)

Catogorieën

Fr

eq

u

en

ti

e

De vraag blijft natuurlijk of er een significante verbetering heeft plaatsgevonden in het cijfer van versie 1 naar versie 2. Hiervoor is er een tweezijdige t-toets uitgevoerd op bovenstaande data (tabel 2). Tweezijdige, omdat op voorhand onbekend was of er een verschil zou zijn tussen versie 1 en versie 2 en eveneens onbekend was of dit verschil positief, dan wel negatief zou uitvallen.

Figuur 1 Staafdiagram dat de verbetering van cijfers tussen versie 1 en versie 2 (cijfer versie 2 min cijfer versie 1) weergeeft, onderverdeeld in verschillende categorieën hoe vaak deze voorkwam (frequentie). Zoals verwacht zijn er geen grote verschillen in frequentie te zien vanwege de kleine hoeveelheid groepen (n=7). Er is te zien dat er een behoorlijke spreiding is in verbetering tussen versie 1 en versie 2 van minimaal 0,5 tot maximaal 1,99. De gemiddelde verbetering bevond zich in de categorie met de asterix (“*”) en was 1,28.

(18)

t-toets: twee gepaarde steekproeven voor gemiddelden Variabele 1 Variabele 2 Gemiddelde 4,218253968 5,496031746 Variantie 0,236478542 0,264770723 Waarnemingen 7 7 Pearson-correlatie 0,623336485

Schatting van verschil tussen gemiddelden 0

Vrijheidsgraden 6

T- statistische gegevens 7,770135134

-P(T<=t) eenzijdig 0,000119553

Kritiek gebied van T-toets: eenzijdig 1,943180281

P(T<=t) tweezijdig 0,000239107

Kritiek gebied van T-toets: tweezijdig 2,446911851

De nulhypothese H0 is dat er geen significant verschil is tussen het gemiddelde cijfer van versie 1 van het verslag en versie 2 van het verslag. De alternatieve hypothese H1 is dat er wel een verschil tussen het gemiddelde cijfer van versie 1 van het verslag en versie 2 van het verslag. Het gemiddelde van versie 1 is van het verslag is 4,2 tegen over een gemiddeld cijfer van 5,5 voor de tweede versie van het verslag Dit blijk significant hoger te zijn, aangezien p-waarde voor de tweezijdige t-toets kleiner is dat 0,05 (vrijheidsgraden=6, p=0,00024***). Daarom wordt hypothese H0 verworpen en de

alternatieve hypothese H1 aangenomen. De cijfers voor de 1e_{versie van het verslag zijn significant}

lager dan de cijfer voor de 2e_{versie van het verslag, of omgekeerd; de cijfer voor de 2}e_{versie zijn}

significant hoger dan de cijfers voor de 1e_{versie van het verslag.}

Ondanks dat de interbeoordelaarsbetrouwbaarheid van de rubrics niet het doel is van het onderzoek, is het toch interessant om hier even naar te kijken. De meeste onderdelen konden gescoord worden van niveau 1 t/m 7. Er zijn zeker verschillen in de beoordeling van versie 1 tussen auteur en

scheikundedocent. Tussen veel scores die 1 tot 0,5 niveau uit elkaar liggen zijn ook verschillen van 2 niveaus geen uitzondering. Er zijn zelf enkele gevallen waarin de beoordeling 3 of 4 niveaus uit elkaar ligt. De verschillen in de beoordeling van versie 2 van het verslag zijn veel kleiner. Hier is de

beoordeling vaak van hetzelfde niveaus, en hier en daar 0,5 niveau hoger/lager. Het grootste verschil in beoordeling tussen auteur en scheikundedocent betreft hier 3 niveaus, maar dit is slechts twee keer geconstateerd.

Resultaten Leerhouding/-beleving

Om het leerhouding/-beleving te meten werd als nameting een learner report afgenomen bij de de leerlingen die de lessenserie hadden gevolgd. Van de 18 deelnemende leerlingen waren er uiteindelijk 11 die een learner report ingevuld hadden en die verwerkt konden worden. Hieronder volgt een samenvatting van de uitslagen van de verwerking. Voor het volledige learner report en de verwerking, zie bijlage C2. Let op dat in de toelichting en beschrijvende tekst is gevraagd om bij stelling 1 t/m 5 te antwoorden met betrekking tot de lessen behorende tot deze lessenserie, terwijl het antwoord op stelling 6 werd vrijgelaten.

Stelling 1 vroeg naar wat leerlingen hadden geleerd van het schrijven van het onderzoeksverslag. Viermaal gaven leerlingen aan te hebben geleerd over de discussie (zonder verdere toelichting), soms

Tabel 2 Uitkomst t-toets uitgevoerd op de cijfers voor versie 1 en versie 2e_{van het}

verslag. De verwachting is dat er geen verschil is tussen de cijfers als de lessenserie geen effect heeft gehad (Schatting verschil tussen gemiddelde= 0). De uitkomst voor t-test op dergelijke gegevens staat in de onderste rijen weergegeven.

(19)

specifiek over wat daarin moest komen (de inhoud). Drie keer werd als antwoord gegeven dat de leerlingen hadden geleerd over hoe een verslag is opgezet. Twee antwoorden werden twee keer gegeven, namelijk dat de leerlingen hadden geleerd wat validiteit was en dat het doen van onderzoek veel werk is.

Stelling 2 vroeg of leerlingen nog specifiek iets hadden geleerd van de gebruikte rubrics. Hierbij werden twee antwoorden drie keer gegeven, namelijk (opnieuw) hoe een verslag is opgezet en dat jijzelf kritisch moet zijn bij het schrijven van een verslag (en/of dat er bij de beoordeling kritisch gekeken wordt naar een verslag).

De overige stellingen gingen meer over hoede leerlingen het doen van deze opdracht hadden ervaren. Stelling 3 vroeg om in te vullen hoe de leerlingen het vonden om deze opdracht te doen en om hier een reden voor te geven. Vijfmaal werd aangegeven dat de opdracht als niet leuk werd ervaren en driemaal werd aangegeven dat deze te lang was. De redenen hiervoor waren dat de

onderzoeksopdracht veel werk was (6 keer geantwoord) en dat het (onderzoeks)onderwerp saai was (3 keer geantwoord). Drie verschillende redenen werden ook nog tweemaal genoemd, namelijk 1) Weinig teruggekregen (feedback en of weinig opgeleverd), 2) Stresserend en 3) Veel moeten doen (voor deze opdracht).

Stelling 4 en 5 vroegen specifiek naar wat de leerlingen goed vonden en wat er beter kon aan deze onderzoeksopdracht. Even vaak, driemaal, werd er bij stelling 4 niets ingevuld als dat er werd gezegd dat het goed was er veel keuzevrijheid was in het onderzoek (onderwerp en opzet). Tweemaal werd er in de antwoorden van leerlingen ook nog iets opgemerkt over dat zij het goed vonden dat je leerde om een verslag te maken.

Over wat er minder goed was (stelling 5) waren de leerlingen het roerende eens: tot 9 keer toe werd er een antwoord gegeven in de strekking van dat de opdracht te tijdrovend was of te veel tijd innam. Hierbij werd zowel gerefereerd naar de tijd die het innam gedurende de lessen, evenals daarbuiten en/of in algemene zin. Drie antwoorden over wat beter kon werden ook nog driemaal gegeven, namelijk: meer duidelijkheid geven, de organisatie/planning en minder hoge verwachtingen/lager niveau vragen.

Stelling 6 is meer toegevoegd als uitlaatklep voor eventueel nog niet geuite frustraties van de leerlingen (zoals hierboven geschreven, waren de leerlingen initieel van plan deze opdracht te boycotten). Hier mocht ook geantwoord worden in het kader van de gehele opdracht, in plaats van alleen met betrekking tot de lessenserie. Hier werd vooral door leerlingen opnieuw aangegeven dat de opdracht er meer tijd nodig was voor deze opdracht (of dat er nu te weinig tijd was). Verder vonden enkele leerlingen de opdracht onoverzichtelijk en zouden leerlingen graag een duidelijkere planning zien. Ook was er nog een leerling die heel graag kwijt wilde dat ik egoïstisch was stellende dat: “Jij, (naam auteur), hebt dit onderzoek alleen voor jezelf, voor je eigen onderzoek waardoor je het onderzoek voor ons te groot en te moeilijk maakt.”.

Analyse en interpretatie resultaten

Leereffect

Het effect van de lessenserie op het leereffect werd gemeten door middel van het becijferen van een 1e_{versie van een verslag en vervolgens een 2}e_{versie van het verslag. De behaalde (gescoorde) cijfers}

voor de 2e_{versie van het verslag zijn significant hoger dan die behaald voor de 1}e_{versie van het}

verslag. Hieruit zou kunnen opgemaakt worden dat de lessenserie effectief is geweest in het verbeteren van de vaardigheid verslaglegging bij de leerlingen. Echter, het zou legitiem zijn het gevonden resultaat als enigszins kunstmatig te bestempelen. Stel dat een opdracht als een verslag beoordeeld wordt bij twee gelijkende groepen, waarbij één groep toegang heeft tot het

beoordelingsmodel, terwijl de andere er het beste van probeert te maken op basis van wat ze al geleerd hebben. Op basis van zulke gegevens is het zeer redelijk om te verwachten dat de groep die het beoordelingsmodel kan inzien een beter cijfer haalt dan de groep die dit niet kon.

Eenzelfde effect is eigenlijk gemeten bij afloop van deze lessenserie: een 1e_{versie van het verslag}

(20)

gemaakt met toegang tot een beoordelingsmodel (de rubrics) EN feedback van leerlingen/docent. Om hierna concrete uitspraken te doen over wat de leerlingen nu precies aan vaardigheden hebben geleerd van deze lessenserie, is daarom ingewikkeld.

Los van de specifieke vaardigheden die de leerlingen wel (of niet) hebben opgedaan gedurende deze lessenserie is er wel door de leerlingen kennis gemaakt met de rubrics (+feedback). Deze is ook effectief toegepast op het aanpassen van het eigen werk, immers, het heeft bij iedere groep geleid tot een beter tweede versie. Op basis van dit gegeven mag wel gesteld worden dat de leerlingen nu meer inzicht hebben in hoe de beoordeling van een verslag eruitziet en welke componenten er in een verslag moeten worden verwerkt.

Bij het verkrijgen van de resultaten zijn er ook nog enkele kanttekeningen te plaatsen. Allereerst is de auteur zelf misschien bevooroordeeld in het beoordelen van de leerlingen. Deze heeft hen immers van dichtbij meegemaakt en kon (ondanks voorzorgsmaatregelen, zoals direct schrappen van namen voor nakijken) nooit geheel anoniem de verslagen nakijken. De scheikundedocenten die ook ieder een versie hebben beoordeeld waren weliswaar onbevooroordeeld door het anoniem aangeleverd krijgen van de verslagen, maar zij hebben mogelijk een andere visie op hoe een verslag eruit hoort te zien of op hoe de rubrics gehanteerd dient te worden. Het onderzoeksverslag naar de invloed van

mineralenconcentraties op de groei van planten wordt, bijvoorbeeld, ongetwijfeld anders bekeken door de auteur, met als vakgebied biologie, dan door een scheikundedocent. Niet alleen een andere visie ten opzichte van de auteur, maar mogelijk (waarschijnlijk) ook ten opzichte van elkaar speelt een rol (zie resultaten, waar de verschillen i beoordeling van versie 1 meer uit elkaar lijken te lopen dan bij versie 2). Hieruit komt dus naar voren dat voorzorgsmaatregelen die dienen om bevoordeeld nakijken te voorkomen, ook weer extra problemen geven die leiden tot een lagere betrouwbaarheid, omdat de interbeoordelaarsbetrouwbaarheid niet gewaarborgd kan worden. Toch is de verwachting dat de hantering van de rubrics en het beoordelen door meerdere personen een eerlijkere uitkomst geeft van een cijfer dan beoordelen zonder rubrics en slechts door één (bevoordeeld?) persoon, zoals de auteur. Als laatste spelen er nog enkele factoren mee bij de resultaten van dit onderzoek waarde

onderzoeker/auteur weinig invloed op had. Allereerst is het aantal groepen dat heeft deelgenomen aan de lessenserie en waarbij dus dit onderzoek is uitgevoerd niet erg groot. Ondanks dat het

resultaat statistisch erg sterk is zijn kleinere groepen wel gevoeliger voor toevalsfactoren. Ten tweede kan aan de hand van de resultaten alleen gesproken worden over groepen, omdat de onderzoeken en verslagen gedaan/gemaakt zijn in groepen. Het staat dus ook niet vast dat (alle) individuele leerlingen uit een groep dezelfde mate van leereffect hebben laten zien gedurende de lessenserie.

Leerhouding/-beleving

Uit de kleinere analyse rondom leerhouding/-beleving kan onder andere worden afgeleid dat de leerlingen, ontevreden waren over inrichting van de onderzoeksopdracht. Echter alleen de laatste vier lessen behoorde tot de lessenserie, de lessen met het ontwerpen en inzetten van het onderzoek niet. Ondanks het verzoek om de learner report in te vullen voor de lessenserie is dit helaas toch niet gelukt/gebeurd. Dit hangt waarschijnlijk ook samen met de frustraties die leefden onder de leerlingen (bijna leidende tot een boycot). Aan de antwoorden op de stellingen is te zien dat deze niet

beantwoord zijn voor de lessenserie. Immers, de vier lessen zijn qua tijd iets uitgelopen, maar niet in dergelijke mate dat er ontzettend veel tijd door de leerlingen in moest worden gestopt. De complete onderzoeksopdracht daarentegen kostte wel veel tijd: het opzetten, bedenken en uitvoeren van een onderzoek kost veel moeite. Eén leerling haalde ook nog aan door aan te geven dat ze het niet leuk vond dat van hen werd verwacht dat zij elke dag in de pauze de planten water moesten geven (dit kwam trouwens helemaal niet aan de orde bij mij, maar dat terzijde).

Verder is een interpretatie van de data erg lastig. Zo zijn er bijvoorbeeld ook leerlingen die aanhalen dat de opdracht niet leuk was, vanwege het saaie onderwerp, terwijl ze dit zelf mochten kiezen. Dit realiseren zij zichzelf ook een stelling later “wat was er goed aan de opdracht?”: de keuzevrijheid in het onderzoek. Kijkende naar de individuele learner reports lijkt er niet alleen een groot verschil te zijn in uitkomst (en taalgebruik) tussen de verschillende learner reports, maar zelf binnen één learner report.

(21)

De meest prominente boodschap die in ieder geval naar voren kwam was dat de (complete) opdracht (niet de lessenserie) te lang was en (o.a.) qua planning niet duidelijk genoeg was. Ik kan mij hier wel in vinden, want het was inderdaad een grote opdracht en de laatste periode van het jaar was korter dan de voorgaande periode i.v.m. SE-week en nakijktijd. Verder had het nog eerder opzetten van een dergelijke opdracht waarschijnlijk geleid tot meer duidelijkheid. Het maken en verspreiden van een planning voor de leerlingen mocht kennelijk ook niet baten.

Toch denk ik dat de schuld gedeeld moet worden, gezien de werkhouding van de leerlingen gedurende de opdracht en wat ik hoor en zie van andere collega’s over de huidige jaarlaag 4

atheneum. Verder telde deze opdracht mee als een voortgangstoets in hun PTA voor het vak biologie EN het vak scheikunde EN het vak natuurkunde. Een opdracht die tegelijk meetelt voor alle drie je Bètavakken mag mijns inziens ook wel een behoorlijke omvang hebben.

Een andere opmerking van een leerling die ik trouwens niet ben vergeten is de volgende. Tijdens de les was er ook nog een leerling die aangaf dat zij vooral les 2 erg nuttig vond, waarin met de rubrics werd gekeken naar andermans verslagen. Zij gaf aan dat zij hierdoor ook wel met een andere blik ging kijken naar haar eigen verslag en veel beter begon in te zien waarop wordt gelet bij het beoordelen van verslagen.

CONCLUSIE EN DISCUSSIE

Terugkijkende naar de resultaten en de analyse kan het volgende worden geconcludeerd. Leerlingen scoren een beter cijfer voor de 2e_{versie van het verslag ten opzichte van hun 1}e_{versie van het}

verslag, als ze na de 1e_{versie van hun verslag de beschikking krijgen over het beoordeling model (de}

rubrics) en enige uitleg met wat feedback krijgen.

Voor leerhouding/-beleving geldt dat de leerlingen deze opdracht in zijn geheel niet leuk vonden om te doen, met name, omdat het hen erg veel tijd kostte.

Terugkijkend naar de ontwerphypothese, deze was:

Als ik bij 4 Atheneum leerlingen per onderzoeksgroep één leerling selecteer en deze samen resultaat-, conclusie- en discussiesectie, van elkaars verslag in discussievorm laat bespreken, met als leidraad de hybride rubrics begeleid voorgedaan door de docent, dan is het resultaat dat in een verbeterde versie van hun verslag er beter wordt gescoord op de onderdelen resultaat-, conclusie- en discussie-sectie als deze opnieuw wordt beoordeeld aan de hand van de hybride rubrics.

Uit de resultaten valt niet direct te controleren of deze hypothese klopt. Immers, leerlingen scoren wel beter bij de 2e_{versie van het verslag, maar in de rubrics zijn alle onderdelen van het verslag}

opgenomen. Uit de hier opgenomen resultaten valt niet af te leiden of de leerlingen ook echter beter scoren op de specifieke onder resultaten, conclusie en discussie. Echter, kijkende naar de rubrics zijn er 12 onderdelen waarop een niveau gescoord wordt voor het verslag. Van deze twaalf onderdelen zijn er maar liefst zeven (= 58%) onderdelen die betrekking hebben op de resultaten-, conclusie- of discussiesectie van het verslag. Als leerlingen dus van de 1e_{versie naar de 2}e_{versie een beter cijfer}

willen scoren is het zeer aannemelijk dat zij inderdaad ook beter scoren op de resultaten-, conclusie- en/of discussiesectie van hun verslag. Dit is nog eens visueel gecontroleerd in de ruwe data (zie bijlage D1). Hiervoor kunnen we dus voor zeven verslaggroepen, zeven onderdelen (7*7, dus n=49) bekijken en zien of er in de 2e_{versie, ten opzichte van de 1}e_{versie, hoger, gelijk of lager is gescoord.}

Voor deze 49 niveaus (verspreid over alle verslaggroepen) geldt dat er:  In 4 gevallen lager is gescoord in de 2e_{versie t.o.v. de 1}e_versie

 In 11 gevallen even oog is gescoord in de 2e_{versie t.o.v. de 1}e_{versie en}

 In 34 gevallen hoger is gescoord in de 2e_{versie t.o.v. de 1}e_versie.

Daarnaast kan uit de verwerking van het learner report worden opgemaakt wat leerlingen zelf voornamelijk hebben geleerd. Inderdaad geven bij stelling 1:

 4 leerlingen aan iets te hebben geleerd over (inhoud van) de discussie  2 leerlingen aan specifiek te hebben geleerd wat validiteit inhoudt  1 leerling aan te hebben geleerd wat standaarddeviatie inhoudt

Dit zijn 7 responsies op een totaal van 19, verspreid over de 11 learner reports van de leerlingen. Dit zijn antwoorden die duidelijk aangeven dat de leerlingen iets hebben geleerd over de onderdelen