Subjectieve scoringsmethoden van de alternative uses taak : volgens welke methode kan het beste beoordeeld worden?

(1)

Subjectieve Scoringsmethoden van de Alternative Uses Taak – Volgens welke methode kan het beste beoordeeld worden?

Isabelle A. Bruchhage Universiteit van Amsterdam

Naam: Isabelle A. Bruchhage Studentnummer: 10200681

Afdeling: Psychologische Methodenleer Begeleiding: Dr. Claire Stevenson

(2)

Inhoudsopgave Abstract 3 Inleiding 4 Methode Deelnemers 7 Materialen 7 Procedure 8 Scoring 9 Analyses 10 Resultaten Data 12

Verschillen tussen Scoringsmethoden 12

Betrouwbaarheid van de Scoringsmethoden (Deelvraag 1) 13 Betrouwbaarheid van de Scoringsmethoden (Deelvraag 1) 14

Conclusies en Discussie 15

Literatuur 19

(3)

Abstract

In deze studie werden drie verschillende subjectieve scoringsmethoden van de Alternative Uses Task (AUT) met elkaar vergeleken op het gebied van

betrouwbaarheid en validiteit. Ten einde de betrouwbaarheid vast te stellen van de Top 2, de snapshot en de average scoringsmethode werd de

interbeoordelaarsbetrouwbaarheid en interne consistentie vastgesteld. De validiteit van de drie scoringsmethoden werd in kaart gebracht door de divergente validiteit enerzijds aan de hand van de correlatie tussen de drie methoden en fluency te bepalen en de convergente validiteit anderzijds door de correlatie tussen de

methoden en een door de respondent zelf beoordeelde creativiteitsmaat. Tegen de verwachtingen in bleek de snapshot methode het meest betrouwbaar, terwijl de average methode het meest valide bleek. Globaal gezien kwam de snapshotscoring als meest geschikte methode naar voren om de AUT te beoordelen. Ook vanwege de relatief korte beoordelingsduur lijkt de snapshot methode een verantwoorde en efficiënte keuze voor de beoordeling van divergent denken en creativiteit.

Keywords: Creativiteit, Divergent Denken, Alternative Uses Task, Betrouwbaarheid, Validiteit

(4)

Onder creativiteit verstaat men over het algemeen het vermogen om iets nieuws te scheppen (Van Dale, 1976). Creativiteit is niet moeilijk om te vinden in de wereld om ons heen. Gebouwen, technologieën en objecten – bijna alles om ons heen dat geschapen is door de mensheid getuigt van haar creativiteitspotentiaal. Het is dan ook geen verassing dat creativiteit ook in het bedrijfsleven de laatste jaren steeds meer gevraagd wordt (Anderson, Potočnik & Zhou, 2014). Daarom stijgt tevens de interesse in creativiteits-assessment als aanvulling op traditionele metingen van vaardigheden en prestaties van sollicitanten in sollicitatieprocedures (Kaufmann, Plucker & Baer, 2008). Het meten van creativiteit is sinds de jaren 50 steeds

populairder geworden en sindsdien zijn er meerdere manieren ontwikkeld om creativiteit te meten (Guilford, 1967). Een efficiënte methode om de mate van

creativiteit van iemand vast te stellen zou simpelweg zijn door het te vragen. Echter, door een gebrek aan zelfinzicht is deze manier van testen mogelijk niet erg valide. Daarnaast zouden sommige deelnemers, vanuit een wens om uit te blinken, mogelijk niet eerlijk zijn over de mate van hun creativiteit (Kaufman, Lee, Baer & Lee, 2007).

Creativiteit kan in verschillende subonderdelen ingedeeld worden, waarvan één divergent denken is. Binnen het onderzoek naar creativiteit op individueel niveau is divergent denken, één van de meest veelbelovende maten van creativiteit (Plucker & Renzulli, 1999; Runco, 2007). Onder de tests waarmee divergent denken gemeten kan worden, wordt de Alternative Uses Task (AUT; Wallach & Kogan, 1965) frequent toegepast. Hierbij bedenkt de participant zo veel mogelijk alternatieve

(5)

gebruiksmogelijkheden voor een bepaald voorwerp. Ondanks het feit dat de AUT in vergelijking met andere divergent denken tests de beste maat voor divergent denken bleek te zijn (Silvia, 2011), zijn er ook problemen met deze test. Deze problemen hangen samen met de verschillende manieren van scoring van de AUT, die gebruikt worden. In feite hangt namelijk de uitslag van de test – de mate van creativiteit van de respondent - af van de manier van scoren. Een handige, uniforme

scoringsmethode is daarom belangrijk voor een valide en betrouwbare meting van divergent denken (Plucker, Qian & Wang, 2011). Wanneer de scoringsmethode niet valide en betrouwbaar is, hebben respondenten met dezelfde mate van creativiteit andere testresultaten. Daarnaast zouden er bij meervoudige afname steeds andere resultaten uitkomen. Hierdoor zijn de uitslagen niet meer interpretabel en moeilijk te vergelijken.

Er is een tweedeling in subjectieve en objectieve methoden te vinden onder de verschillende mogelijkheden van scoring van de AUT. Objectieve methoden zijn onafhankelijk van de subjectieve beoordeling van een expert en zijn daarom over het algemeen in hoge mate betrouwbaar. Nadelig aan deze methoden is echter de

confounding van fluency en creativiteit doordat de kwantiteit van de responsen

meetelt voor de testscore (Silvia et al., 2008); hetgeen duidt op een minder hoge mate van validiteit. Daarentegen zijn er voor subjectieve scoringsmethoden van de AUT beoordelingen van experts nodig. Alhoewel subjectieve methoden over het algemeen minder betrouwbaar zijn dan objectieve methoden, kunnen er toch veel

(6)

bijvoorbeeld de confounding met fluency (Silvia et al., 2008). Hiermee is echter niet gezegd dat alle subjectieve scoringsmethoden goed werken. Binnen de subjectieve scoring bleek de Top 2 methode superieur aan andere subjectieve methoden (Silvia et al., 2008). Deze methode houdt in dat de respondent na invullen van de AUT zijn of haar naar eigen zegge twee creatiefste antwoorden markeert. De experts beoordelen vervolgens deze antwoorden op een 5-puntsschaal (Silvia et al., 2008). De Top 2 methode heeft een hogere validiteit dan de average scoringsmethode waarbij experts élk gegeven antwoord op een 5-puntsschaal beoordelen (Silvia et al., 2008). De average scoring blijkt over het algemeen echter betrouwbaarder te zijn dan de Top 2 scoring (Silvia, 2011). Dit is echter voor de hand liggend omdat average scores gebaseerd zijn op alle gegeven antwoorden en Top 2 scores maar op twee. Een van de algemene kritiekpunten op subjectieve scoring is hun tijdsintensiviteit; er zijn meerdere beoordelaars nodig om de antwoordensets te beoordelen, hetgeen veel tijd in beslag neemt. Daarom is snapshot scoring ontwikkeld (Runco & Mraz, 1992)

waarbij alle antwoorden van één respondent bekeken worden door de beoordelaars en vervolgens een holistisch oordeel wordt gevormd over de hele antwoordenset van één respondent. Deze methode bleek een goede constructvaliditeit en convergente validiteit te hebben. Alhoewel de snapshot scoring over het algemeen veelbelovend is kon er wel meer variantie verklaard worden door de Top 2 methode (Silvia, Martin & Nusbaum, 2009).

Volgens de onderzoeksgroep van Silvia, die de Top 2 methode heeft

(7)

gezien het meest geschikt om de AUT te scoren. Vanwege een gebrek aan onderzoek op dit gebied valt dit oordeel echter moeilijk in perspectief te plaatsen. Mogelijk wordt het oordeel van de onderzoeksgroep beïnvloed door een te positieve en eenzijdige kijk (Kaptchuk, 2003). Daarnaast heeft deze onderzoeksgroep nog geen vergelijking getrokken tussen de average-, de snapshot- en de Top 2 scoring binnen één onderzoek. Hierdoor wordt het lastig om te zeggen welke methode het beste werkt. De effectgroottes zijn namelijk niet vergelijkbaar en er zijn verschillende steekproeven gebruikt voor de onderzoeken. Een ander interessant vraagstuk is de vergelijking van de interbeoordelaarsbetrouwbaarheid van de drie methoden, deze is door de onderzoeksgroep van Silvia niet onderzocht.

Vanwege bovenstaande beperkingen wordt in de huidige studie onderzocht welke scoringsmethode de beste weergave van creativiteit biedt. Hierbij worden de average-, de snapshot- en de Top 2 methode met elkaar vergeleken op het gebied van betrouwbaarheid (Deelvraag 1) en validiteit (Deelvraag 2). Verwacht wordt dat de average-scoring de meest betrouwbare scoringsmethode blijkt, maar dat de Top 2 methode het meest valide is van de drie scoringsmethoden.

Methode Deelnemers

Aan deze studie participeerden 25 vrouwen en negen mannen. De deelnemers waren gemiddeld 29.12 jaar oud (SD = 12.95, range = 18 – 61 jaar). Aan het onderzoek mochten Nederlandstalige volwassenen vanaf 18 jaar deelnemen. Exclusiecriterium

(8)

was het niet kunnen bedienen van een computer. Ter beloning ontvingen alle

eerstejaarsstudenten psychologie een halve proefpersoonpunt. Daarnaast werden er onder alle deelnemers twee boekenbonnen à 25 euro verloot.

Materialen

Een aangepaste versie van de Alternative Uses Test (AUT; Guilford, 1950) werd op de computer afgenomen om creatieve ideeënvorming te meten. De aangepaste test bestond uit acht items, die tevens uit de naam van één object bestonden. De aangeboden objectnamen waren baksteen, vork, boek, stok, handdoek, paperclip, riem en blikje. Voor elk item had de deelnemer twee minuten de tijd om zo veel mogelijk creatieve alternatieve gebruiksmogelijkheden te verzinnen voor het

gepresenteerde object. Om de continuïteit van woordproductie te meten zijn naast de AUT twee fluency taken afgenomen op de computer. De aangeboden stimuli waren dieren en beroepen. Per begrip had de deelnemers twee minuten de tijd om zo veel mogelijk begrippen binnen de op het scherm gepresenteerde categorie te bedenken en in te toetsen.

Procedure

Alle geworven deelnemers werden in een beschermde, rustige omgeving getest. Voor begin van het onderzoek lazen en tekenden zij het informed consent formulier. Het onderzoek begon met de AUT, waarbij de deelnemers allereerst de instructie kregen om tijdens deze computer taak zo veel mogelijk originele en

(9)

tegelijkertijd bruikbare voorwerpen te bedenken. Vervolgens werden de

objectnamen één voor één op het computerscherm getoond. De deelnemers hadden per object twee minuten de tijd om alternatieve toepassingen te bedenken. Zij typten hun antwoorden één voor één in de hiervoor voorziene balk en drukten na het intoetsen telkens op ENTER. Na afloop van de twee minuten verdween de objectnaam van het scherm en konden de deelnemers zelf aangeven wanneer zij verder wilden met het volgende begrip door op ‘OK’ te klikken. Op de AUT volgden de twee fluency taken in de volgorde dieren, beroepen. De instructie luidde om zo veel mogelijk begrippen binnen de gepresenteerde categorieën te bedenken.

Wederom typten de deelnemers de bedachte begrippen in een balk en drukten na het intoetsen van elk bedacht woord op ENTER. Na afloop van de fluency taak werden alle door de deelnemer tijdens de AUT bedachte begrippen per item opnieuw

getoond en werd de deelnemer gevraagd om zijn of haar twee creatiefste alternatieve toepassingen per item aan te vinken.

Scoring

De AUT werd op drie verschillende manieren gescoord, hetgeen telkens gebeurde door drie experts op een 10-puntsschaal waarbij 1 een lage mate en 10 een hoge mate van creativiteit representeerde. Volgens de Top 2 methode werden alleen de door de deelnemers zelf gekozen beste twee antwoorden gescoord. Om tot een gemiddelde Top 2-testscore te komen werden alle scores van één deelnemer bij elkaar opgeteld en door het aantal Top 2 antwoorden gedeeld. De beoordeling

(10)

volgens de snapshot methode gebeurde door alle alternatieve toepassingen voor één item per deelnemer aan de drie experts voor te leggen. De experts kwamen op deze manier tot één holistisch oordeel per gepresenteerde antwoordenset. Om tot een gemiddelde snapshot-testscore te komen werden de behaalde scores per deelnemer bij elkaar opgeteld en gedeeld door het aantal items. De beoordeling aan de hand van de average methode gebeurde door elk afzonderlijk gegeven antwoord te beoordelen. Om tot een gemiddelde average-testscore te komen werden alle scores per deelnemer bij elkaar opgeteld en gedeeld door het totale aantal antwoorden gegeven door de deelnemer. Zowel de Top 2-testscore, als de snapshot-, en de average-testscore konden variëren tussen 1 en 10. De beoordeling van de verbal fluency taken kwam tot stand door het aantal gegenereerde antwoorden van een proefpersoon bij elkaar op te tellen. De fluency-totaalscore werd berekend door alle valide antwoorden bij elkaar op te tellen en te delen door het aantal taken, in dit geval twee.

Een laatste maat is berekend door de Top 2 antwoorden uitgekozen door de deelnemers tevens door hen te laten beoordelen op een 10-puntsschaal waarbij 1 een lage en 10 een hoge mate van creativiteit weerspiegelde. Om tot de

Top2-zelfbeoordeling score te komen zijn alle scores per deelnemer bij elkaar opgeteld en vervolgens gedeeld door het aantal antwoorden.

Analyses

Er zijn geen outliers verwijderd omdat alleen geldige scores tussen 1 en 10 gegeven konden worden aan de responsen van de deelnemers. De experts hebben

(11)

invalide antwoorden niet beoordeeld; deze zijn pairwise als missing value behandeld. Ook bij de verbal fluency-test zijn invalide antwoorden verwijderd en niet

meegenomen in de analyses. Ten einde vast te stellen of de drie scoringsmethoden wat betreft hun testscores daadwerkelijk van elkaar verschilden is allereerst een herhaalde metingen ANOVA uitgevoerd waarbij rekening is gehouden met de assumptie van sfericiteit door middel van de Mauchly’s W (A. Field, 2013). Welke van de drie scoringsmethoden het meest geschikt is voor de AUT is aan de hand van betrouwbaarheid (Deelvraag 1) en validiteit (Deelvraag 2) van de methoden

onderzocht. De wijze van scoring is per methode bovenstaand toegelicht. Om de betrouwbaarheid van de scoringsmethoden vast te stellen is er gekeken naar de interbeoordelaarsbetrouwbaarheid, door de correlaties tussen de ruwe scores gegeven door de experts per scoringsmethode te berekenen, en de interne

consistentie, aan de hand van Cronbach’s alpha. Om de divergente validiteit per scoringsmethode te onderzoeken is een Pearson correlatie tussen de fluency-totaalscore en de testscore van elke scoringsmethode berekend. Daarnaast is de Pearson correlatie tussen de Top 2-zelfbeoordeling van de participanten en de testscore van alle drie de scoringmethoden berekend ten einde de convergente validiteit vast te stellen.

(12)

Resultaten Data

Op basis van de exclusiecriteria zijn er geen deelnemers uitgesloten voor de analyses en zijn derhalve de data van 34 personen geanalyseerd. In totaal hebben de deelnemers 1989 responsen gegenereerd waarvan er per beoordelaar gemiddeld 112 antwoorden als invalide zijn gescoord door één of meerdere beoordelaars en daarom niet zijn meegenomen in de analyses. Alhoewel als maat van fluency het gemiddelde van twee fluency taken genomen zou worden, is ervoor gekozen om alleen de

totaalscore van de tweede fluency taak te nemen (beroepen). De reden hiervoor is dat vier deelnemers de eerste fluency taak (dieren) niet goed hadden begrepen en

uitsluitend invalide responsen hadden gegenereerd; mogelijk dachten zij dat zij alternatieve gebruiksmogelijkheden moesten verzinnen voor het gepresenteerde begrip.

Verschillen tussen Scoringsmethoden

Ten einde vast te stellen of de testscores voortkomende uit de drie verschillende scoringsmethoden daadwerkelijk van elkaar verschilden is een herhaalde metingen ANOVA uitgevoerd. Aangezien er niet aan de assumptie van sfericiteit was voldaan is de Greenhouse-Geiser correctie gebruikt. Er bleek een significant hoofdeffect van scoringsmethode, F (1, 188) = 43,892, p > .001. Hieruit volgt dat de drie scoringsmethoden van elkaar verschillen waardoor het nuttig lijkt

(13)

om de betrouwbaarheid en de validiteit te onderzoeken van de afzonderlijke methoden.

Betrouwbaarheid van de Scoringsmethoden (Deelvraag 1)

De betrouwbaarheid van de drie scoringsmethoden is door middel van twee verschillende analyses onderzocht om te beginnen met

interbeoordelaars-betrouwbaarheid. Voor de Top 2 methode lag deze betrouwbaarheid op .236; voor de snapshot methode betrof dit .767 en de average methode had een interbeoordelaars-betrouwbaarheid van .324 (Tabel 2). De interbeoordelaars-betrouwbaarheid van de scoringsmethoden is ook onderzocht aan de hand van de interne consistentie zoals gemeten met

Cronbach’s alpha. Voor de Top 2 methode lag de Cronbach’s alpha bij α = .665, voor de snapshot methode betrof dit α = .904 en de alpha van de average methode was α = .728. De snapshot methode had daarmee zowel de hoogste

(14)

Tabel 2

Interbeoordelaarsbetrouwbaarheid en interne consistentie per scoringsmethode. Scorings-methode Interbeoordelaars-betrouwbaarheid Interne consistentie Top 2 .236 α = .665 Snapshot .767 α = .904 Average .324 α = .728

Noot. De hoogste betrouwbaarheidswaardes zijn dikgedrukt.

Validiteit van de Scoringsmethoden (Deelvraag 2)

De divergente en convergente validiteit van de drie scoringsmethoden zijn door middel van twee verschillende analyses onderzocht om te beginnen met de Pearson correlaties die berekend zijn tussen de fluency totaalscore enerzijds en de testscore volgens elke scoringsmethode anderzijds. Voor de Top 2 methode lag de correlatie bij r = .516 welke significant was, p = .004. De snapshot methode correleerde met r = .444, hetgeen ook een significante correlatie was, p = .012. De correlatie tussen de average testscore en de fluency totaalscore betrof r = .055; deze was niet significant (Tabel 3). De validiteit van de scoringsmethoden is tevens onderzocht aan de hand van de Pearson correlatie tussen de Top 2-zelfbeoordeling en de testscore volgens elke scoringsmethode. Voor de Top 2 methode lag deze correlatie bij r = .198; deze was niet significant. Voor de snapshot methode werd een correlatie van .061

(15)

correlatie r = - .131; hetgeen ook geen significant resultaat was. Op basis van alleen de significante correlaties lijkt de average methode het meest valide (Tabel 3).

Tabel 3

Pearson correlaties tussen de drie scoringsmethoden enerzijds en de correlatie met fluency respectievelijk de correlatie met de Top2-zelfbeoordeling anderzijds.

Scorings-methode Correlatie fluency Correlatie Top2-zelfbeoordeling Top 2 .516* p = .004 .198 p = .294 Snapshot .444* p = .012 .061 p = .744 Average .055 p = .767 -.131 p = .481

Noot. Waarden met een * bleken significant bij � = .05.

Conclusies en Discussie

In dit onderzoek werden drie subjectieve scoringsmethoden van de AUT onderzocht door de betrouwbaarheid en de validiteit te evalueren van elke methode. Concluderend kan gezegd worden dat de snapshot methode het meest betrouwbaar is gebleken met zowel de hoogste interbeoordelaarsbetrouwbaarheid als de hoogste

(16)

interne consistentie. Tegen de verwachtingen in was de

interbeoordelaarsbetrouwbaarheid van de snapshot en de average methode erg laag. Dit zou mede veroorzaakt kunnen zijn door een gebrek aan expertise van de

beoordelaars. Een andere mogelijke verklaring is het hogere aantal waardes van de Top 2 en average scoring in vergelijking met de snapshot scoring. Door grotere variaties in de scores kan een lagere correlatie ontstaan tussen de verschillende beoordelaars hetgeen resulteert in een lagere interbeoordelaarsbetrouwbaarheid in vergelijking met de snapshot methode. Kijkend naar de validiteit is de average

methode door zijn lage correlatie met fluency de meest valide methode. Ondanks het ontbreken van significantie ervan, correleerde de Top 2 methode het hoogst met de Top 2-zelfbeoordeling. Dit resultaat is echter geen verrassing; immers werden hierbij precies dezelfde begrippen beoordeeld door enerzijds de beoordelaars en anderzijds de deelnemers zelf. Alhoewel de average methode betreffende de correlatie met fluency en de Top 2 methode betreffende de correlatie met de Top 2-zelfbeoordeling het meest valide bleken, moet hierbij opgemerkt worden dat de betrouwbaarheid een plafond vormt voor de validiteit van de methoden; een methode die onvoldoende betrouwbaar is kan er niet in slagen voldoende valide te zijn. Alle twee de methoden bleken duidelijk minder betrouwbaar dan de snapshot methode. Aangezien de

snapshot methode het meest betrouwbaar bleek van de drie en ook niet het minst valide was van de drie methoden komt de snapshot methode in tegenstelling tot de verwachtingen alles bij elkaar genomen als de beste scoringsmethode van de AUT naar voren. Deze bevinding is niet in lijn met de conclusies van de onderzoeksgroep

(17)

van Silvia (Silvia et al., 2008, Silvia, 2011) waarbij de Top 2 methode alom geprezen werd.

Een mogelijk probleem van het onderzoek zou de keuze voor een

10-puntsschaal voor de beoordeling van de responsen kunnen zijn. Mogelijkerwijs is de beoordeling met een 10-puntsschaal moeilijker voor de experts door te moeten kiezen uit een vrij hoog aantal verschillende cijfers dan een kleinere schaal. Dit zou van invloed kunnen zijn op de constantie van de beoordeling en zodoende voor de betrouwbaarheid van de methoden; antwoorden die een beoordelaar in

werkelijkheid even creatief vindt zouden op deze manier telkens lichtelijk van elkaar verschillende cijfers kunnen krijgen. In het vervolg zou een 5-puntsschaal kunnen worden gebruikt met het doel een constantere en zodoende betrouwbaardere beoordeling te verkrijgen.

Los daarvan is de meting van fluency mogelijk niet optimaal valide geweest. Normaalgesproken worden fluency taken mondeling afgenomen (Mulder, Dekker & Dekker, 2006); echter, in het huidige onderzoek werd deze taak op de computer uitgevoerd. Door fluency met de computer te meten ontstaat het risico dat

individuele verschillen in computervaardigheden een invloed hebben op de prestatie van deelnemers op de fluency taak, waardoor een gedeelte van de fluency meting mogelijk niet valide was. Omdat typesnelheid van invloed is op de

fluency-totaalscore maar in mindere mate of zelfs helemaal niet op de testscores van de AUT, zouden individuelle verschillen hierin tot een vertekening van de correlatie kunnen leiden. In vervolgonderzoek zou de fluency taak mondeling kunnen worden

(18)

afgenomen waardoor de confound computervaardigheid uitgesloten zou kunnen worden.

Los van de problemen met de fluency taak is de validiteit van de

scoringsmethoden niet optimaal vastgesteld waardoor het kiezen van een meest valide scoringsmethode wordt bemoeilijkt. Idealiter zou de validiteit kunnen worden vastgesteld met een meting die een soortgelijk concept meet als divergent denken, zoals bijvoorbeeld een andere creativiteitstest of een persoonlijkheidstest die de nadruk legt op creativiteit zodat de validiteit van de scoringsmethoden goed kan worden vastgesteld.

Wanneer een afweging van kosten en baten van de drie scoringsmethoden van de AUT wordt gemaakt komt de snapshot methode zowel wat betreft tijdsinvestering als wat betreft de psychometrische kwaliteiten als duidelijke winnaar uit de bus. De snapshot methode lijkt een betrouwbare, valide en snelle methode die in de praktijk makkelijk kan worden toegepast voor de scoring van de AUT en daarmee voor de meting van divergent denken en creativiteit.

(19)

Anderson, N., Potočnik, K., & Zhou, J. (2014). Innovation and creativity in organizations a state-of-the-science review, prospective commentary, and guiding framework. Journal of Management, 40(5), 1297-1333.

Van Dale, G. W. D. N. taal. 10 e dr. 1976. M. Nijhoff,‘s-Gravenhage. Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage.

Guilford, J. P. (1967). Creativity: Yesterday, today and tomorrow. The Journal of Creative Behavior, 1(1), 3-14.

Kaptchuk, T. J. (2003). Effect of interpretive bias on research evidence. British Medical Journal, 326(7404), 1453.

Kaufman, J. C., Lee, J., Baer, J., & Lee, S. (2007). Captions, consistency, creativity, and the consensual assessment technique: New evidence of reliability. Thinking Skills and Creativity, 2(2), 96-106.

Kaufman, J. C., Plucker, J. A., & Baer, J. (2008). Essentials of creativity assessment (Vol. 53). John Wiley & Sons.

Mulder, J. L., Dekker, P. H., & Dekker, R. (2006). Woord-fluency test/figuur-fluency test, handleiding. PITS: Leiden.

Plucker, J. A., Qian, M., & Wang, S. (2011). Is originality in the eye of the beholder? Comparison of scoring techniques in the assessment of divergent thinking. The Journal of Creative Behavior, 45(1), 1-22.

Runco, M. A., & Mraz, W. (1992). Scoring divergent thinking tests using total ideational output and a creativity index. Educational and Psychological Measurement, 52(1), 213-221.

(20)

Silvia, P. J. (2011). Subjective scoring of divergent thinking: Examining the reliability of unusual uses, instances, and consequences tasks. Thinking Skills and

Creativity, 6(1), 24-30.

Silvia, P. J., Martin, C., & Nusbaum, E. C. (2009). A snapshot of creativity: Evaluating a quick and simple method for assessing divergent thinking. Thinking Skills and Creativity, 4(2), 79-85.

Silvia, P. J., Winterstein, B. P., Willse, J. T., Barona, C. M., Cram, J. T., Hess, K. I., & Richard, C. A. (2008). Assessing creativity with divergent thinking tasks: Exploring the reliability and validity of new subjective scoring methods. Psychology of Aesthetics, Creativity, and the Arts, 2(2), 68.

Reflexieverslag

Het bachelorproject leek in het begin een erg onoverzichtelijk en moeilijk project. Gaandeweg werden de bedoelingen duidelijker voor mij en is het mij

(21)

uiteindelijk gelukt, een eindproduct in te leveren waarmee ik grotendeels tevreden ben. Het groepsproces gedurende het project was voor mij, zoals ik het ook tijdens de hele Bachelor Psychologie heb ervaren, niet altijd makkelijk. Toch ben ik achteraf blij met de samenwerkervaringen die ik tijdens het project heb opgedaan en heb ik hierin veel over mijzelf kunnen leren. Moeilijk vond ik soms ook de hoge mate van

zelfstandigheid die werd verwacht in het plannen van het project, het indelen van de tijd voor de deelproducten en de organisatie van het testonderzoek. Hierin liep ik soms tegen mijn moeilijkheden met plannen en organiseren aan. Toch kon ik mijzelf ook hierin verbeteren door zelfstandig een planning te maken van mijn bezigheden betreffende het project. Helaas kwam ik op het einde in tijdsnood waardoor het niet meer mogelijk was om nog wat meer diepgang in het stuk te krijgen wat

bijvoorbeeld de analyses betreft. Dit vond ik erg jammer, maar ik probeer dit te accepteren als resultaat van mijn moeilijkheden wat betreft het plannen.

Samenvattend heb ik deels met moeite maar ook grotendeels met plezier aan het bachelorproject gewerkt. Ik heb geleerd dat ook projecten die in het begin