Het dualisme van het validiteitsbegrip : waar heeft validiteit betrekking op?

(1)

Het Dualisme van het Validiteitsbegrip; Waar heeft

Validiteit Betrekking op?

Gabrielle Peters

Studentnummer: 10018646 Begeleider: Prof.dr. D. Borsboom Aantal woorden: 5.851

Datum: 29-06-2014

(2)

Inhoud

Abstract ... 3

Inleiding... 4

De Validiteit van Testscore Interpretatie ... 8

De Validiteit van een Test ... 13

Het Validiteitsbegrip Herbeschouwd ... 17

Conclusies en Discussie ... 22

Literatuur ... 25

(3)

Abstract

Testvaliditeit is een begrip in de psychologie waar een twijfelachtige consensus over bestaat. Er zijn twee contrasterende theorieën in de wetenschapsliteratuur die ieder een eigen verklaring geven van waarin validiteit besloten ligt. Enerzijds is er de consensus definitie die stelt dat validiteit kan worden toegewezen aan de interpretatie van een testscore. Anderzijds kan validiteit gezien worden als een eigenschap van een test zelf. Beide definities worden uiteengezet met als voorbeeld de validatie van de WAIS-IV intelligentie test. Gaandeweg in dit proces wordt duidelijk dat bij toepassing op de testpraktijk deze twee theorieën kunnen worden beschouwd als complementair aan elkaar. Uit een combinatie van beide theorieën wordt een nieuwe wetenschapsfilosofische omschrijving van validiteit opgesteld. Deze wordt gelabeld als de utiliteitstheorie.

(4)

Inleiding

In de verschillende velden van de wetenschap, zijn er uiteenlopende wetenschappelijke vraagstukken op te lossen. Deze vraagstukken kunnen gaan over de filosofie achter de wetenschap, of over de manier waarop kennis uit de wetenschap wordt toegepast in de

praktijk. In het specifieke gebied van de psychologie, zijn er vele filosofische en pragmatische problemen op te lossen. Dit komt doordat de meeste psychologische constructen, uit te leggen als abstracte psychologische verschijnselen, niet direct waarneembaar zijn. Om deze

constructen toch te kunnen meten, wordt er in de psychologie gebruik gemaakt van tests. Een test heeft daarbij als doel om te meten hoe een proefpersoon op een bepaald construct scoort. Een Emotionele Quotiënt (EQ) test bijvoorbeeld, meet hoeveel emotionele intelligentie een proefpersoon heeft.

In dit literatuuroverzicht wordt er getracht in te gaan op zowel de filosofie als de praktijk bij het meten van constructen door middel van tests. Filosofisch gezien is het bij het

testproces belangrijk om er zo zeker mogelijk van te zijn dat het beoogde construct wordt gemeten en geen ongewilde andere constructen. Dit probleem is een bekend probleem in de psychologie en wordt gelabeld als het validiteitsvraagstuk. Ook vanuit het perspectief van de praktijk, is er een groot belang bij het correct meten van een construct. Bij de beoordeling, ook wel assessment, van mensen is het belangrijk dat metingen daadwerkelijk valide zijn. Dat wil zeggen dat de metingen over het beoogde construct, ook daadwerkelijk een afspiegeling zijn van de hoeveelheid van dat specifieke construct die de proefpersoon bezit.

Om te onderzoeken hoe validiteit vastgesteld kan worden, zal als eerste de term construct inzichtelijker gemaakt worden, dit wordt gedaan door middel van een terugkerend

voorbeeldconstruct. Het veelvuldig in de psychologie omschreven construct intelligentie zal hiervoor gebruikt worden. Intelligentie is een moeilijk te omschrijven psychologisch

(5)

construct. Desalniettemin groeit tegelijkertijd de wens om de mate hiervan nauwkeurig te kunnen bepalen bij ieder willekeurig individu. Dit is belangrijk in het onderwijs, bij personeelsselectie en in de klinische praktijk. Een test die is ontworpen om intelligentie zo nauwkeurig mogelijk te meten is de Weschler Adult Intelligence Scale IV (WAIS-IV). Omdat dit de meest gebruikte intelligentie test is, is zijn betrouwbaarheid en zijn mogelijkheid tot het doen van valide metingen uitvoerig onderzocht door onder andere Nelson en Canivez (2013).

De betrouwbaarheid van een test is de constantheid waarmee deze over de tijd heen meet (Cohen, Montague, Nathanson & Swerdlik, 1988). De WAIS-IV wordt dus bijvoorbeeld betrouwbaar geacht als deze bij twee metingen van dezelfde proefpersoon ongeveer dezelfde scores geeft. Over de uitleg van het begrip betrouwbaarheid bestaat consensus. In het geval van de WAIS-IV is de betrouwbaarheid door Nelson en Canivez (2013) voor de factor algemene intelligentie gemeten. Deze betrouwbaarheid werd uitgedrukt in een

betrouwbaarheidseenheid, hiërarchische omega genoemd, en had een waarde van 0.74. Dit is een hoge waarde (Cohen, Montague, Nathanson & Swerdlik, 1988). Aan de hand van de bestaande consensus over hoe betrouwbaarheid te meten, kan aan de hand van de waarde 0.74 de algehele WAIS-IV als betrouwbaar worden geacht.

De mate waarin een test op een valide manier meet, is de mate waarin de test meet wat de onderzoeker ermee beoogt te meten (Cohen, Montague, Nathanson & Swerdlik, 1988). Over de uitleg van het begrip validiteit bestaat nog geen consensus. In het geval van de WAIS-IV is de structurele – en incrementele validiteit ervan vastgelegd door Nelson en Canivez (2013). Wanneer op deze manier de validiteit wordt onderzocht, is er de assumptie dat validiteit een eigenschap is van de test zelf.

Waar validiteit een eigenschap van is, kan bediscussieerd worden. Deze discussie speelt enerzijds in de testpraktijk bij het valideren van het testproces en anderzijds leeft het

sporadisch op in de wetenschapsliteratuur. In de wetenschapsliteratuur bestaat er een door de 5

(6)

Standards for Educational and Psychological Testing in 1999 vastgestelde consensus definitie

(Newton, 2012). Deze definitie is als volgt: “Validity refers to the degree to which evidence and theory support the interpretations of test scores entailed by proposed uses of tests .” (American Educational Research Association, American Psychological Association, & National Council on Measurement in Education, 1999, p. 9). Na het vastleggen van deze consensus definitie, heeft de wetenschappelijke wereld zich een tijd lang relatief stil gehouden. Testontwikkelaars blijven de consensus definitie gebruiken om hun

valideringsproces te verantwoorden. Echter, recentelijke publicaties halen deze definitie onderuit en stellen er de volgende tegenover: “Validity is a property of tests: A valid test can convey the effect of variation in the attribute one intends to measure.” (Borsboom,

Mellenberg & van Heerden, 2004, p. 1067). Deze contrasterende definitie heeft nog geen verschuiving teweeg gebracht in de testpraktijk. Echter, wel een nieuwe beweging in het wetenschappelijke validiteitsdebat.

Dit literatuuroverzicht zal een gedetailleerd overzicht geven van het lopende

validiteitsdebat. Daarbij worden de volgende vragen beantwoordt. Waarin ligt validiteit besloten? Ligt deze besloten in de interpretatie van een test, in de test zelf of is er een derde mogelijke omschrijving? Bij beantwoording van deze vragen, wordt het duidelijk dat de consensus definitie de omschrijving is die in de praktijk wordt aangehouden. Echter, de alternatieve definitie is ook plausibel en heeft zeer afwijkende praktische implicaties. Als validiteit wordt gezien als de eigenschap van een test, verschuift het validatie proces van de interpretatie van een test, naar de test zelf. Dit is een groot verschil. Een derde mogelijke omschrijving van validiteit kan dit gat wellicht dichten. Aan de hand van het

praktijkvoorbeeld van de WAIS-IV, zullen alle mogelijke situaties worden behandeld. De opbouw van dit literatuuroverzicht is als volgt. In de eerste paragraaf wordt er

ingegaan op de chronologische ontwikkelingen op het gebied van de consensus definitie, die 6

(7)

stelt dat validiteit een eigenschap is van de testscore interpretatie. De tweede paragraaf zal ingaan op de claim dat validiteit een eigenschap is van een test. Vervolgens zullen deze twee zienswijzen in de laatste paragraaf op basis van argumenten in elkaar worden geïntegreerd. Hieruit ontstaat een derde nieuwe theorie, met als doel validiteit tot een inzichtelijk en tegelijkertijd in de praktijk werkbaar begrip te maken. Tenslotte zal er een overzicht worden gegeven van alle besproken validiteitstheorieën.

De Validiteit van Testscore Interpretatie

(8)

De opvatting dat validiteit een eigenschap is die kan worden toegeschreven aan de interpretatie van een testscore, is door de Educational and Psychological Measurement and

Assessment (EPMA) gemeenschap voorgesteld als consensus definitie (Newton, 2012). De

EPMA is een invloedrijke Amerikaanse gemeenschap die veel testontwikkelaars en testgebruikers beïnvloedt. De consensus definitie stelt dat aan de hand van een test, een testscore kan worden opgesteld met een bijbehorende interpretatie. Deze interpretatie wordt ingeschat op plausibiliteit, waarbij ook de praktische consequenties van de interpretatie worden meegenomen in de afweging (Newton, 2012).

Bij toepassing van deze theorie op de WAIS-IV, ziet het validatie proces er als volgt uit. In het geval van het construct intelligentie, bestaan er specificaties over de verschillende subonderdelen waarop intelligentie gemeten kan worden. De WAIS-IV meet intelligentie met behulp van vier subschalen: verbale vaardigheden, perceptuele verwerking, werkgeheugen en cognitieve verwerkingssnelheid. Deze onderdelen zijn opgesteld aan de hand van langdurig onderzoek waarbij factoranalyse is gebruikt. Vervolgens kan gekeken worden hoe de items op de WAIS-IV zich onderling tot elkaar verhouden. Als bijvoorbeeld scores op de items die werkgeheugen trachten te meten een hoge correlatie met elkaar hebben, dan kan er

gehypothetiseerd worden dat scores op deze items daadwerkelijk het functioneren van het werkgeheugen meten. Door het vinden van deze correlaties tussen items, wordt er evidentie verzameld in het valideringsproces. Dit kan gedaan worden voor elke subschaal, waarna de scores op de subschalen gesummeerd kunnen worden en de totaalscore gelabeld kan worden als algemene intelligentie. Het validatie proces is een opeenstapeling van stukjes evidentie voor de stelling dat de totaalscores op de WAIS-IV indicatief zijn voor intelligentie. Alle evidentie bij elkaar kan tenslotte de scores op de WAIS-IV bestempelen als zijnde meer valide of meer invalide.

(9)

In de wetenschapsliteratuur omtrent het validatieproces, zijn er een aantal basisprincipes die steeds terug komen. Ieder artikel geeft op een andere manier aanvulling op de

omschrijving van validiteit maar er zijn vier kernpunten die altijd terugkeren. Het eerste kernpunt dat expliciet in de wetenschapsliteratuur wordt genoemd, is dat validiteit niet

besloten ligt in de test zelf of de testscores (Newton, 2012). Een test zelf wordt gezien als een hulpmiddel om tot een valide uitspraak te komen over de proefpersoon. Een test kan het werkwoord “meten” niet letterlijk tot uitvoering brengen. Ook de scores zijn betekenisloos zonder bijbehorende interpretatie. Ten tweede is er een gemeenschappelijk idee over het soort validiteit waarover wordt gesproken. Lange tijd is er een Trinitarian concept of validity geweest (Guion, 1980). Deze stelt dat er drie soorten validiteit zijn; criteriumvaliditeit, inhoudsvaliditeit en constructvaliditeit. Criteriumvaliditeit is daarbij de mate waarin de test voorspellende waarde heeft. Inhoudsvaliditeit gaat over de mate waarin de test het te

bestuderen construct meet. Constructvaliditeit gaat specifiek over de testscores en of deze een indicatie zijn van het te meten construct. Onder andere de Commissie Testaangelegenheden Nederland (COTAN) hanteert deze drieledige uitsplitsing van validiteit bij het beoordelen van tests (Evers, Lucassen, Meijer & Sijtsma, 2010). Echter, zowel bij de consensus definitie als in de meeste wetenschapsliteratuur, wordt deze driedeling achterwege gelaten. De nieuwe consensus stelt dat validiteit een unitair concept is en samengevat kan worden met de term “construct” (Netwon, 2012). Als er in de literatuur over de consensus definitie van validiteit gesproken wordt, betreft dit constructvaliditeit. De derde consensus stelt dat validatie een continu proces is (Newton, 2012). De interpretaties kunnen veranderen over de tijd heen doordat er nieuwe ontdekkingen worden gedaan met betrekking tot het onderliggende construct. Als de interpretaties veranderen, is de voorgaande validatie niet direct ongeldig maar dient de kwestie opnieuw bekeken te worden. Het laatste kernpunt heeft betrekking op de mate van validiteit. Een testscore interpretatie is niet slechts valide of invalide, maar kan in

(10)

meer of mindere mate valide worden bevonden (Newton, 2012). Hiermee kan er op basis van argumentatie in meer of mindere mate validiteit worden toegeschreven aan een interpretatie.

Een artikel van Cronbach en Meehl (1955) is invloedrijk geweest bij de totstandkoming van de voorgenoemde vier hoekstenen die bestaan in de consensus definitie van validiteit. Als basis van dit artikel, wordt de validatie van een test expliciet beschreven als een incorrect fenomeen. De onderbouwing die hiervoor wordt gegeven, is dat sommige uitkomsten van een test valide kunnen zijn en andere invalide. De algehele validiteit van de test zelf is dan niet vast te stellen. Ook verschillende soorten van validiteit worden besproken, waarbij

constructvaliditeit als belangrijkst wordt gezien. Wel wordt beschreven dat constructvaliditeit is op te delen in een aantal andere soorten validiteit. Dit gaat in tegen de zienswijze van de consensusdefinitie, die stelt dat validiteit slechts constructvaliditeit is (Newton, 2012).

Cronbach en Meehl (1955) beschrijven in hun artikel ook expliciet het validatieproces. Tijdens dit proces is het als eerste belangrijk om aan de hand van wetenschappelijke regels een netwerk van aan elkaar gekoppelde constructen, een nomologisch netwerk, op te stellen. Deze constructen kunnen aan elkaar gekoppeld worden op basis van verbanden die ze met elkaar aangaan. Bij de WAIS-IV als het gaat over het construct intelligentie, zouden er dus andere constructen gevonden moeten worden waar intelligentie hoog mee correleert. Vervolgens kan het verband worden beschreven tussen intelligentie en de gevonden andere constructen. Dit vanuit de theorie geopperde patroon, wordt vervolgens teruggezocht in de data. Op deze manier ontstaat er een nomologisch netwerk waarin de theorie een koppeling van constructen suggereert en volgens deze verbanden een netwerk legt met de verbanden in de data. Tenslotte kan na het ontdekken van het patroon in de data, de testscores in dit geval, de interpretatie aan de hand van dit patroon worden opgesteld. Met het artikel van Cronbach en Meehl (1955) is de basis gelegd voor de omschrijving van de validatie procedure. De hierna verschenen artikelen vormen op uiteenlopende wijze aanvullingen hierop.

(11)

In 1989, net voordat de consensus definitie in de Standards for Educational and

Psychological Testing, verscheen er een artikel van Messick (1989). Messick (1989) geeft een

gedetailleerde definitie van validiteit: “Validity is an integrated evaluative judgment of the degree to which empirical evidence and theoretical rationales support the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment.” (p.13). Het nieuwe aan deze definitie, is dat het gebruik van een test expliciet beschouwd wordt als onderdeel van het validatie proces. Zo kunnen de sociale gevolgen van het gebruik van een test afdoen of bijdragen aan de validiteit van het testproces.

Een artikel van Cizek (2012) echter, acht het meewegen van sociale gevolgen in het validatieproces, zoals geopperd door Messick (1989), als minder belangrijk. Cizek (2012) ziet testscore interpretatie en testscore gebruik als twee fenomenen die af en toe met elkaar in verband kunnen worden gebracht. Sommige testscore interpretaties beginnen met een idee waar de score uiteindelijk voor te gebruiken (Cizek, 2012). En sommige toepassingen van een test kunnen weer evidentie geven voor de validiteit van een interpretatie (Cizek, 2012).

Echter, in de kern heeft validatie betrekking op de interpretatie van testscores en niet op testgebruik, aldus Cizek (2012). Het gebruik van een testscore volgt namelijk na het

validatieproces. Testgebruik vereist andere vormen van empirisch bewijs die verantwoording geven voor het gebruik van een test in een specifieke situatie.

Ook een artikel van Kane (2013) levert een bijdrage in de omschrijving van validiteit. Kane (2013) oppert in zijn artikel de argument based approach. Deze benadering is gebaseerd op acht kernpunten in het validatieproces. Dit verschaft een nauwkeurig uitgewerkt handvat bij de uitvoering van het validatieproces. Wanneer aan de acht kernpunten voldaan wordt, heeft het validatie proces op een optimale manier plaats gevonden. Uit dit proces kan een conclusie komen over het in meer of mindere mate valide zijn van een testscore interpretatie. Kane (2013) is vernieuwend op een aantal punten. Waar andere artikelen het onderwerp uit de

(12)

weg gaan, noemt Kane (2013) bijvoorbeeld dat uitgebreidere interpretaties meer validatie vereisen dan minder uitgebreide interpretaties. Ingaand op de andere kernpunten, benadrukt ook Kane (2013) de importantie van de validatie van testgebruik. Daarbij wordt genoemd dat interpretatie en testgebruik allebei onderdelen zijn van validiteit. Echter, ze moeten allebei apart gevalideerd worden. Bij eenzelfde test kan een valide testinterpretatie bestaan zonder valide testgebruik en vice versa. Als bijvoorbeeld uit een afname van de WAIS-IV zou blijken dat de meerderheid van de proefpersonen ondergemiddeld scoort, zou dit volgens Kane

(2013) gelabeld kunnen worden als een negatieve consequentie van het test gebruik. Hoewel de interpretatie van de testscores valide kan zijn, bestempelt Kane (2013) in dit geval het gebruik van deze test als invalide.

Concluderend kan er gesteld worden dat er veel debat is over de omschrijving van de validiteit van testscore interpretaties en wat daar precies toe gerekend wordt. Dat validiteit een eigenschap is van testscore interpretaties is echter wel de huidige consensus. Vier hoekstenen van deze definitie zijn bekend en door de tijd heen ondersteund door accumulerende

argumenten en toegevoegde begrippen. Het begrip is op deze manier zeer breed en algemeen geworden. Iedere testscore vereist een andere validatie procedure ten aanzien van de score en het latere testgebruik. Echter, dit is ook de kracht van deze definitie. Het proces wordt er flexibel door en multi-inzetbaar.

De Validiteit van een Test

Naast het bestaan van de consensus dat validiteit een eigenschap is van een testscore interpretatie, bestaat er een andere definitie van validiteit. Elke psychologie student maakt

(13)

kennis met het validiteitsbegrip. Daarbij wordt de definitie van validiteit in een veelgebruikt leerboek als volgt vermeldt: “By validity is meant the degree to which a test or examination measures what it purports to measure.” (Cohen, Montague, Nathanson & Swerdlik, 1988, p. 154). De overeenkomst met de consensus definitie, is dat de testgebruiker een goed beeld moet hebben van het te meten construct. Echter, validiteit wordt beschreven als een

eigenschap van een test; de test zelf kan hiermee bestempeld worden als valide of invalide. Dit staat lijnrecht tegenover de visie van de consensus definitie.

Als deze theorie wordt toegepast op de WAIS-IV, volgt de validatie een andere procedure dan bij de voorgaande theorie. In deze procedure wordt als eerste het construct intelligentie zo nauwkeurig mogelijk onderzocht en beschreven. Als er genoeg evidentie wordt gevonden voor het bestaan van intelligentie, kan vervolgens de validiteit van de WAIS-IV bekeken worden. Hierbij wordt er gezocht naar causaliteit. Als de mate van intelligentie van de proefpersonen verschilt, hoort dit zichtbaar te zijn in op de scores die uit de test komen. Een lagere mate van intelligentie zou bijvoorbeeld een lagere score moeten veroorzaken en een hogere mate van intelligentie een hogere totaalscore op de test. Als dit het geval is, kan de test door middel van een testscore de hoeveelheid intelligentie van de proefpersoon weerspiegelen en kan de test als een valide instrument worden beschouwd.

Buiten de tekstboek literatuur, wordt de visie dat validiteit een eigenschap is van een test, niet door veel wetenschappers aangehangen. Zoals Newton (2012) in zijn historische

overzicht van de ontwikkelingen met betrekking tot het validiteitsbegrip weerspiegelt, zijn er aan deze zijde van het vraagstuk slechts een paar artikelen verschenen. In 1924 verscheen deze visie voor een van de eerste keren in het artikel van Ruch. Vervolgens kwam het terecht in leerboeken en dit is sindsdien onveranderd gebleven. Weinig wetenschappers durfden zich sindsdien aan de consensus definitie te wagen. In 2004 verscheen er echter een artikel van Borsboom, Mellenbergh en van Heerden, dat validiteit ook beschreef als eigenschap van een

(14)

test. De consensus theorie wordt hierbij beschouwd als foutief. De interpretatie van een testscore blijft een belangrijk onderdeel in het testproces, echter dit staat los van het

validiteitsvraagstuk. Hier werd in het later verschenen artikel van Borsboom, Cramer, Kievit, Zand Scholten en Franić (2009) aan toegevoegd dat constructvaliditeit niet bestaat.

Constructen zijn in de psychologie namelijk niet volledig te specificeren en daarom zijn ze ook niet te meten. Om dit te beargumenteren, wordt het door Cronbach en Meehl (1955) voorgestelde nomologische netwerk uit elkaar gehaald. Volgens dit netwerk kan een construct onderzocht worden door zijn relatie met andere constructen. In de psychologie echter, bestaat er geen zekerheid over bijvoorbeeld de samenhang van het construct intelligentie met andere constructen. Daarom is het volgens Borsboom, Cramer, Kievit, Zand Scholten en Franić (2009) ook onzinnig om constructen te valideren.

Borsboom, Mellenbergh en van Heerden (2004) geven op gedetailleerde wijze onderbouwing aan hun tegen de consensus ingaande opinie. Aan de hand van twee hoofdargumenten wordt hun nieuwe visie als “theoretisch superieur” afgezet tegen de consensus definitie (Borsboom, Mellenbergh & van Heerden, 2004). Als eerste wordt het wetenschappelijk veld van de psychologie vergeleken met de exacte wetenschappen. In de natuurwetenschappen gaat men bij onderzoek als basis uit van een waarneembare eigenschap; bijvoorbeeld temperatuur. In tegenstelling tot de consensus definitie waarbij de theorie over het te meten construct nog in de kinderschoenen kan staan, wordt er ook bij deze validatie procedure gewerkt vanuit een nauwkeurige definitie over het te meten concept en vervolgens gezocht naar een hulpmiddel dat dit concept kan meten (Borsboom, Mellenbergh & van Heerden, 2004). Ten tweede wordt validiteit beschreven als een term die binnen de

psychologie, in vergelijking met alle andere wetenschappen, een uniek probleem oplevert. Dat komt doordat psychologische verschijnselen (nog) moeilijk vast te leggen zijn. Ook binnen de psychologie en het psychologisch testen is validiteit de enige term die niet toegewezen kan

(15)

worden aan de methodologie. Een test die niet goed meet wat een onderzoeker beoogt te meten, kan niet meer valide worden gemaakt door zonder theoretische basis de test te ijken (Borsboom, Mellenbergh & van Heerden, 2004).

Borsboom et al. (2009) poneren met hun titel een krachtige stelling; “The end of construct validity”. Als eerste wordt genoemd dat bij validatie een meetinstrument wordt gevalideerd en niet het bestaan van een construct. Het bestaan en zoeken naar de meting van een construct wordt gezien als een loze bezigheid aangezien er geen stellig te verdedigen nomologische netwerken zouden bestaan in de psychologie. Door de zoektocht naar constructvaliditeit te staken, wordt de basis van de consensus definitie onderuit gehaald. Om enige vorm van verwarring te voorkomen, wordt het woord construct vervangen door psychologische eigenschap. Ook wordt een tweede basiselement uit de consensus theorie onderuit gehaald. Validatie zou in mindere mate een voortdurend proces zijn. Als er evidentie is dat validiteit kan accumuleren, dan is er geen gezet einde aan dit proces. Een test kan echter valide of invalide zijn. Het ontkrachten van twee van de pijlers van de consensus definitie, is een startpunt voor de nieuwe theorie.

Bij de toekenning van validiteit aan een test zelf, wordt van drie zaken uitgegaan (Borsboom, Mellenbergh & van Heerden, 2004). Als eerste zal elke aanhanger van deze tweede theorie realist zijn. Hetgeen dat wordt gemeten door een test, wordt namelijk als uitganspunt aangenomen als een bestaand fenomeen. Vervolgens is de tweede zaak dat men bij de beschrijving van het te meten construct, gebruik maakt van referentie. Men kan refereren naar het vanuit het realisme geaccepteerde construct. Door uit te gaan van het

realisme hoeft er geen bewijs te worden geleverd voor het bestaan van dit construct. Als derde en laatste zaak, wordt er uitgegaan van causaliteit. Het te meten construct heeft bij een valide meetinstrument een causaal effect op de uitkomsten. Bij de consensus definitie wordt er

(16)

uitgegaan van een correlatie tussen de testscore en de hoeveelheid van een construct, maar niet van causaliteit (Borsboom, Mellenbergh & van Heerden, 2004).

De opvatting dat validiteit een eigenschap is van een test, gaat lijnrecht in tegen de consensus definitie. Ondanks dit gegeven, zorgt deze alternatieve theorie voor een minder gecompliceerde uitleg van validiteit. Deze opvatting dat validiteit een eigenschap is van een test, is zeer werkbaar in de theorie. Maar in de praktijk is het valideren van een test lastig. Het is namelijk moeilijk te zeggen wanneer een onderzoeker met behulp van een nog

ongevalideerde test aan het meten is wat hij wil meten. Dit punt kan echter ontkracht worden door naar de consensus definitie te kijken. Bij deze definitie is het in de praktijk ook lastig om te beoordelen wanneer een testscore interpretatie valide is. Wat een bijkomstigheid is van de toeschrijving van validiteit aan een test, is dat de testontwikkelaar meer verantwoordelijkheid krijgt. Voorheen was het aan de testgebruiker om verantwoordelijkheid te dragen voor zijn score interpretaties. Echter bij deze theorie is het aan de testontwikkelaar om een valide instrument op de markt te brengen.

(17)

Het Validiteitsbegrip Herbeschouwd

Om het validiteitsbegrip te herbeschouwen, is het belangrijk om vanaf de absolute basis in de psychometrie naar mogelijke knelpunten te kijken binnen de testconstructie. Michell (2009) doet dit in zijn artikel. In de psychologie worden de te meten constructen beschouwd als kwantitatief en meetbaar. Michell (2009) trekt echter dit gegeven in twijfel. Hij (Michell, 2009) ontkracht in zijn artikel niet dat psychologische verschijnselen meetbaar zijn maar beargumenteert wel dat dat met de huidige kennis nog niet aangetoond is. De huidige kennis over psychologische verschijnselen is in de visie van Michell (2009) nog niet ver genoeg en de reden dat we niet zeker kunnen zijn over of we wel aan het meten zijn wat we willen meten. Filosofisch is dit mogelijk een sterk punt. De enige manier om Michell (2009) zijn standpunt te ontkrachten, is door een proces te doorlopen van validatie aan de hand van testgebruik. In de praktijk is het essentieel om psychologische constructen te blijven meten. Dit heeft de huidige maatschappij op een positieve manier vorm gegeven. Bijvoorbeeld door het afnemen van de CITO toets aan het einde van de basisschool. Deze toets onderscheid kinderen op hun capaciteiten om vervolgens voor ieder kind gepast onderwijs te kunnen bieden. Uit het standpunt van Michell (2009) volgt dus een validatie van het testproces via testgebruik. Dit standpunt sluit niet duidelijk aan bij een van de voorgaande

validiteitstheorieën. De definitie uit de Standards for Educational and Psychological Testing (1999) stelt wel dat er bij de interpretatie van een testscore, het gebruik van de test moet worden meegenomen. Er wordt echter niet gesteld dat alleen aan de hand van testgebruik, het testproces valide is.

In een artikel van Hood (2009) wordt ook gezocht naar een standpunt in het

validiteitsdebat aan de hand van filosofische ideeën. In tegenstelling tot Michell (2009) die stelt dat testen op zichzelf nog niet mogelijk is, richt Hood (2009) zich op het realisme. Het

(18)

realisme is een standpunt binnen de filosofie en stelt als basis dat het te meten psychologische verschijnsel in de werkelijkheid bestaat. Met het realisme als uitgangspunt kunnen beide validiteitsdefinities volgens Hood (2009) worden ondersteund. In het artikel wordt danook gesteld dat de definitie van Messick (1989) en die van Borsboom, Mellenbergh en van Heerden (2004) complementair aan elkaar zijn. Een combinatie van beide theorieën zou een bijdrage leveren aan het psychometrisch realisme en als uitgangspunt gebruikt kunnen worden in het validatieproces. Hood (2009) is revolutionair in zijn artikel in de zin dat hij beide theorieën als complementair aan elkaar beschouwt. Hij formuleert echter geen duidelijke nieuwe theorie met betrekking tot het validiteitsdebat. Hij combineert slechts elementen uit beide bestaande theorieën.

Om de taak van het combineren van stukjes uit voorgaande literatuur weg te nemen bij de testontwikkelaar en de testgebruiker, zou het vormen van een nieuwe definitie welkom zijn. De facetten van beide voorgaande theorieën zijn als volgt. De consensus definitie heeft als hoofdzaak dat validiteit betrekking heeft op: de interpretatie van testscores, het te meten construct, een continu - en een gradueel proces. De theorie over testvaliditeit, beschrijft al deze vier hoofdzaken op een tegengestelde manier. Volgens deze theorie heeft validiteit betrekking op: een test, de te meten psychologische eigenschap, een besloten – en dichotoom proces.

De zojuist genoemde vier kernpunten waar de twee validiteitstheorieën op verschillen, kunnen gecombineerd worden. Als aanvulling op Hood (2009) die beide theorieën naast elkaar laat bestaan, zal er voor ieder kernpunt een beslissing worden gemaakt. Test versus interpretatie; het woord “test” kan beschouwd worden als het volledige proces. Dit heeft betrekking op de test zelf, de scores en de testinterpretatie. Construct versus eigenschap; hier kan overeen worden gekomen met een nieuw label, latente variabele. Een latente variabele is een niet-waarneembare psychologische variabele die observeerbaar wordt gemaakt door

(19)

middel van een test. Deze omschrijving heeft betrekking op zowel een construct als een eigenschap en is daarmee een geschikte overkoepelende term. Continu proces versus afgeronde procedure; validatie kan gezien worden als zowel een continu als een eindigend proces. Bij de validatie volgt er een vastgestelde conclusie over de validiteit, deze kan echter bij beide interpretaties achteraf bijgesteld worden. Continu versus dichotoom; kan een test beschouwd worden als meer of minder valide, of alleen als valide of invalide. Bij dit laatste punt is er geen middenweg mogelijk en zal validiteit moeten worden aangezien als een graduele eigenschap. Het proces van het verzamelen van evidentie voor de aanwezigheid van validiteit middels verschillende wegen, het kunnen toekennen van meer of minder validiteit aan het testproces. Hiermee wordt het validatie proces tot een continu proces gemaakt en niet dichotoom in de zin van de optie dat een proces valide is of invalide. Wetenschappelijke kennis over psychologische variabelen is namelijk niet eindig.

Op basis van de vier hergeformuleerde kernpunten, kan de “utiliteitstheorie” opgesteld worden. De utiliteitstheorie kan uitgelegd worden aan de hand van de volgende definitie: “De validatie van een test, gebeurt via accumulatie van evidentie voor de accuratesse waarmee de te meten latente variabele wordt gemeten op basis van de gestelde eisen aan de test”.

Bij toepassing van de utiliteitstheorie op de WAIS-IV ziet het validatie proces er als volgt uit. Als eerste is het belangrijk om de eigenschappen van de latente variabele intelligentie vast te leggen. Dit is hetgene wat er in het proces gemeten dient te worden en wat de hoeveelheid meetpretentie van de WAIS-IV bepaalt. Vervolgens is het belangrijk om als testontwikkelaar uitgewerkt te hebben wat de gestelde eisen zijn aan de test. Hierbij dienen twee elementen over het uiteindelijke gebruik, de utiliteit, van de test uitgewerkt te worden. Als eerste is het belangrijk vast te stellen wat de doelgroep is waarvoor de test gebruikt gaat worden. In het geval van de WAIS-IV is de enige specificatie van de doelgroep dat het volwassenen zijn. Dit is een brede doelgroep met uiteenlopende waarden op de latente variabele. Het tweede

(20)

element dat uitgewerkt dient te worden, is de specificatie van de testgebruiker. In het geval van de WAIS-IV is ook dit een uiteenlopende groep. Testgebruikers zullen bedrijven zijn maar ook bijvoorbeeld psychologen of de particulier. Samengevat zal de WAIS-IV dus worden gebruikt en toegepast door een brede populatie mensen. Dit heeft implicaties voor het validatie proces. De WAIS-IV wordt geacht robuust te zijn tegen uiteenlopende intelligentie scores en de testgebruiker wordt niet geacht kennis te hebben over psychometrie. Daarom kan op basis van de twee eisen aan de utiliteit van de WAIS-IV, validiteit worden beschouwd als een eigenschap van de test die door de testontwikkelaar zo goed mogelijk moet worden bewerkstelligd. Het proces van validatie van de WAIS-IV is vervolgens gelijk aan hoe dat beschreven is in de tweede paragraaf.

In deze paragraaf is het validiteitsbegrip herbeschouwd. Via de absolute basis beginselen in de psychometrie beschreven door Michell (2009), werd er over gegaan op het realisme van Hood (2009). Dit realisme vormt een legitimatie voor het bestaan van de twee genoemde theorieën over validiteit. Vervolgens werden deze twee theorieën gerecapituleerd om tenslotte tot een nieuwe theorie te komen. De utiliteitstheorie borduurt voort op het realisme. Als grondbeginsel wordt niks als foutief bestempeld. Er mag zowel over testvaliditeit als over de validiteit van testscore interpretaties worden gesproken. In het validatieproces zelf, volgens de utiliteitstheorie, wordt er ook uitgegaan van het realisme. De latente variabele wordt

beschouwd als een bestaand gegeven. Dit maakt plaats om de facetten van het uiteindelijke gebruik als basis te nemen voor het validatieproces. Hierin zorgen de doelgroep en de

testgebruiker voor een beschrijving van het validiteitsproces dat er gaat volgen. Een doelgroep waarvan bepaalde specificaties bekend zijn en een testgebruiker die ook de testontwikkelaar is volgt bijvoorbeeld het pad van validatie via testscore interpretatie. Echter, een

tegenovergestelde situatie, zoals bij de WAIS-IV, vereist een valide opgeleverde test.

(21)

Conclusies en Discussie

(22)

In het voorgaande betoog, is de validiteitskwestie uiteen gezet aan de hand van de vraag waar validiteit betrekking op heeft. Hierbij was het doel de volgende onderzoeksvragen te beantwoorden. Waarin ligt validiteit uiteindelijk besloten? Ligt deze besloten in de

interpretatie van een test, in de test zelf of is er een derde mogelijke omschrijving? De consensus definitie oppert de visie dat validiteit besloten ligt in de interpretatie van de score van een test (Cronbach & Meehl, 1955; Messick, 1989; Hubley & Zumbo, 2011; Cizek, 2012; Kane, 2013). Daar wordt tegenin gebracht dat validiteit besloten ligt in de test zelf (Ruch, 1924; Borsboom, Mellenbergh & van Heerden, 2004; Borsboom et al., 2009). Een de derde mogelijke omschrijving werd in dit literatuuroverzicht voorgesteld en gelabeld als de utiliteitstheorie. Deze richt zich op de utiliteit van de test en laat daar zijn validatieproces vanaf hangen. Daarbij kan validiteit besloten liggen in de test zelf, maar ook in de testscore interpretatie.

Aan de hand van het praktijkvoorbeeld van de WAIS-IV zijn in vogelvlucht de

toepassingen van de verschillende validiteitstheorieën beschreven. De validering van deze test kan op verschillende manieren plaatsvinden. Bij de validatie van de testscore interpretatie wordt er gezocht naar een positieve correlatie tussen items die intelligentie meten. Bij de validatie van de test zelf, werd er gezocht naar de causale invloed van verschillende

intelligentieniveaus op de uiteindelijke testscores. Bij toepassing van de utiliteitstheorie werd als eerste het beoogde gebruik van de WAIS-IV vastgesteld. Om vervolgens te concluderen dat het vereist is om als testontwikkelaar de validiteit van de WAIS-IV zelf te waarborgen. Dit wordt gedaan door middel van het zoeken naar de causale invloed van verschillende intelligentieniveaus op de uiteindelijke testscores. Vervolgens kan de WAIS-IV aan de hand van zijn utiliteit worden bestempeld als een valide test.

In het validiteitsvraagstuk spelen er op de achtergrond verschillende belanghebbende partijen. Enerzijds is er de wetenschap die tracht het validiteitsprobleem op te lossen door de

(23)

filosofie erbij te betrekken. Anderzijds is er de testpraktijk die tot doel heeft om een definitie te hebben die werkbaar is. De wetenschapsartikelen die zijn verschenen aan de consensus zijde van het vraagstuk zijn merendeels geschreven door testontwikkelaars. Er valt dan ook tussen de regels door af te lezen dat men actief moeite moet doen om het woord testvaliditeit uit de weg te gaan. Als een test valide of invalide kan zijn, dan komt er een grotere

verantwoordelijkheid te liggen bij de testmaker. Los van de kloppende argumentatie achter de consensus definitie, kan dit een verklaring zijn achter de impopulaire visie dat validiteit een eigenschap is van een test en waarom deze visie zo lang op de achtergrond is gebleven. Anderzijds is de theorie over de validiteit van een test minder goed onderbouwd. De theorie ziet er in een artikel aannemelijk uit, maar is in de praktijk moeilijk werkbaar. Om een test te valideren zijn namelijk ook testscores en testinterpretaties vereist. Dit kan worden beschouwd als het convenience argument zoals geciteerd in Newton (2013). Het convenience argument stelt dat validiteit toegeschreven wordt aan een test, slechts om op een aangename manier de werkelijkheid te versimpelen.

Verschillende artikelen hebben laten zien dat validiteit betrekking kan hebben op

verschillende onderdelen (uit het proces naar de ontwikkeling) van een testinstrument. Aan de hand van argumentatie is echter gepoogd om het dualisme van het validiteitsbegrip te

ontleden. Middels het uiteengezette betoog is duidelijk geworden dat beschouwd kan worden dat validiteit besloten ligt in een test. Met het woord test wordt vervolgens op het brede begrip gedoeld van het hele testproces. Hiermee is van dualisme niet langer sprake. Validiteit kan beschouwd worden als een unitair concept waar veel literatuuronderzoek aan vooraf gaat alvorens dit unitaire concept op de juiste wijze toegepast kan worden.

De gevonden conclusies hebben implicaties voor de testontwikkelaar. Bij het aanhouden van de consensus definitie heeft de testontwikkelaar geen directe verantwoordelijkheid voor de validiteit die wordt vastgehangen aan de scores op zijn test. Zijn test is slechts een middel

(24)

waar door de testgebruiker conclusies aan worden verbonden. Echter, de nieuw opgestelde utiliteitstheorie, stelt dat validatie in sommige gevallen ook betrekking kan hebben op de test zelf. Zoals in het voorbeeld van de WAIS-IV. Dit zorgt niet voor een volledige verschuiving van verantwoordelijkheid van testgebruiker naar testontwikkelaar maar zorgt wel voor een op scherp stelling van de testontwikkelaar.

Het dualisme van het validiteitsbegrip is in dit literatuuroverzicht uiteengezet. Validiteit werd daarbij toegeschreven aan verschillende zaken. Als eerste aan de testscore interpretatie, vervolgens aan de test zelf en als laatste aan een geïntegreerde combinatie van beiden. De hieruit volgende implicaties voor enerzijds de wetenschapsliteratuur en anderzijds de testpraktijk, werden beschreven. Ook werden de verschillende op de achtergrond spelende belangen bij testontwikkeling benadrukt. Met de ontwikkeling van het utiliteitsargument, is er gepoogd het dualisme van het validiteitsbegrip op te heffen. Na doordringing van deze theorie in de wetenschapsliteratuur, kan er een nieuw handvat ontstaan voor de testpraktijk. Hierin worden testontwikkelaars meer uitgedaagd na te denken over de utiliteitseisen die zij aan de test willen stellen, alvorens het proces van de testontwikkeling in te gaan. Hiermee is een deel van de verantwoordelijkheid in de validiteitskwestie teruggekaatst van de testafnemer naar de testontwikkelaar. De testontwikkelaar heeft zo een mooie positie gekregen in het nieuw gevalideerde validatieproces.

Literatuur

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1999). Standards for educational and

psychological testing. Washington, DC: American Educational Research Association.

(25)

Borsboom, D., Mellenbergh, G. J., & Van Heerden, J. (2004). The concept of validity.

Psychological Review, 111, 1061–1071.

Borsboom, D., Cramer, A. O. J., Kievit, R. A., Zand Scholten, A. , & Franić, S. (2009). The end of construct validity. In R. W. Lissitz (Ed.). The concept of validity: Revisions, new

directions, and applications (pp. 135–170). Charlotte, NC: Information Age Publishing.

Cizek, G. (2012). Defining and distinguishing validity: Interpretations of score meaning and justifications of test use. Psychological Methods, 17, 1, 31–43.

Cohen, R. J., Montague, P., Nathanson, L. S., & Swerdlik, M. E. (1988). Psychological

testing: An introduction to tests & measurement. Mountain View, CA: Mayfield Publishing

Co.

Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests.

Psychological Bulletin, 52, 4, 281-302.

Evers, A., Lucassen, W., Meijer, R., & Sijtsma, K. (2010). COTAN Beoordelingssysteem voor de kwaliteit van tests. Nederlands Instituut van Psychologen, 1-52.

Guion, R. M. (1980). On Trinitarian doctrines of validity. Professional Psychology, 11, 3, 385-398.

(26)

Hood, S. B. (2009). Validity in psychological testing and scientific realism. Theory &

Psychology 19, 4, 451–473.

Hubley, A. M., & Zumbo, B. D. (2011). Validity and the consequences of test interpretation and use. Social Indicators Research, 103, 219-230.

Kane, M. T. (2013). Validating the interpretations and uses of test scores. Journal of

Educational Measurement, 50, 1, 1-73.

Messick, S. (1989). Meaning and values in test validation: the science and ethics of assessment. Educational Researcher, 18, 2, 5-11.

Michell, J. (2009). Invalidity in validity. In R. W. Lissitz (Ed.). The concept of validity:

Revisions, new directions, and applications (pp. 111–133). Charlotte, NC: Information Age

Publishing.

Nelson, J. M. & Canivez, G. L. (2013). Strutural and incremental validity of the Wechsler adult intelligence scale-fouth edition with a clinical sample. Psychological Assessment, 25, 618-630.

Newton, P. E. (2012). Clarifying the consensus definition of validity. Measurement, 10, 1-29.

Newton, P. E. (2012). Questioning the consensus definition of validity. Measurement, 10, 110-122.

(27)

Newton, P. E., & Shaw, S. D. (2013). Standards for talking and thinking about validity.

Psychological Methods, 18, 3, 301-319.

Ruch, G. M. (1924). The improvement of the written examination. Chicago, IL: Scott, Foresman.