Item analysis of single-peaked response data : the psychometric evaluation of bipolar measurement scales Polak, M.G.

(1)

Item analysis of single-peaked response data : the

psychometric evaluation of bipolar measurement scales

Polak, M.G.

Citation

Polak, M. G. (2011, May 26). Item analysis of single-peaked response data :

the psychometric evaluation of bipolar measurement scales. Optima,

Rotterdam. Retrieved from https://hdl.handle.net/1887/17697

Version: Not Applicable (or Unknown) License:

Licence agreement concerning inclusion of doctoral thesis in the Institutional Repository of the University of Leiden

Downloaded from:

https://hdl.handle.net/1887/17697

Note: To cite this publication please use the final published version (if

applicable).

(2)

Summary in Dutch (Samenvatting)

Dit proefschrift biedt een methode voor de psychometrische analyse van bipolaire meetschalen en overeenkomstig de item-analyse van enkeltoppige (single-peaked) response items. Deze methode werd in het bijzonder toegepast als onderdeel van de psychometrische evaluatie van het Ontwikkelingsprofiel (Abraham, 1993, 2005;

Abraham, et al. 2001), een meetinstrument voor persoonlijkheidsontwikkeling, waarvan de resultaten gepresenteerd werden in Hoofdstuk 5.

Hoofdstuk 1 geeft een overzicht van de beschikbare analysetechnieken voor de psychometrische evaluatie van psychologische meetschalen. Er wordt in dit overzicht een onderscheid gemaakt tussen technieken die gebaseerd zijn op de klassieke testtheorie enerzijds, en technieken die gebaseerd zijn op de later ont- wikkelde item response theorie (IRT) anderzijds. Bovendien wordt een onderscheid gemaakt tussen unipolaire meetschalen, waarbij de relatie tussen de locatie van personen op de schaal en hun respons op de verschillende items op dezelfde meetschaal typisch monotoon stijgend is; en bipolaire meetschalen, waarbij bovenge- noemde relatie enkeltoppig is.

Een voorbeeld van een unipolaire meetschaal is een vaardigheidsschaal, waarop items geordend zijn van gemakkelijk naar moeilijk en individuen geordend zijn van niet-vaardig naar zeer vaardig. Een voorbeeld van een bipolaire meetschaal is een attitudeschaal bedoeld om opinies ten aanzien van abortus (of andere con- troversi¨ele onderwerpen) te meten, waarop items geordend zijn van volledig pro- abortus tot volledig contra-abortus en, overeenkomstig, individuen geordend zijn van sterke voorstanders ten aanzien van abortus tot sterke tegenstanders van abortus. De item response functie, die de kans aangeeft om het eens te zijn met een dergelijk item, is in dit geval een unimodale functie van de afstand tussen de locatie van een individu op de meetschaal en de locatie van een item op diezelfde meetschaal: naarmate de inhoud van het item dichterbij iemands persoonlijke standpunt komt, neemt de kans dat diegene het met dit item eens is immers toe.

Echter, voor zowel items die meer richting de linker pool van de meetschaal liggen, als voor items die meer richting de rechter pool van de meetschaal liggen, neemt de kans af dat dit individu het met de stellingen eens is.

Bipolaire meetschalen vereisen een heel ander type analyse dan unipolaire schalen, omdat de data-analyse bij bipolaire schalen uit dient te gaan van een niet-

(3)

Summary in Dutch (Samenvatting)

lineaire (of niet-monotoon-stijgende) relatie tussen de geobserveerde responsen en de onderliggende schaal. In de praktijk van psychometrisch onderzoek ligt sterk de nadruk op de analyse van unipolaire schalen. De technieken die ontwikkeld zijn vanuit de klassieke test theorie, dat wil zeggen, factor analyse (FA) en principale componenten analyse (PCA), zijn zelfs uitsluitend bedoeld voor de analyse van unipolaire schalen. Ook het merendeel van het onderzoek binnen de IRT richt zich op unipolaire schalen. Omdat er vanuit de praktijk wel behoefte bestaat aan de psychometrische evaluatie van bipolaire schalen, bijvoorbeeld, in opinieonderzoek, onderzoek naar (consument) preferenties, en onderzoek waarbij de ontwikkeling van individuen centraal staat, zijn er de laatste decennia vanuit de IRT verschei- dene modellen/technieken ontwikkeld voor de analyse van bipolaire schalen; deze technieken worden aangeduid als unfolding IRT modellen/technieken.

In dit proefschrift wordt correspondentie analyse (CA) voorgesteld als een methode voor de evaluatie van bipolaire schalen, die past in de traditie van de klassieke testtheorie, maar die in tegenstelling tot FA en PCA, expliciet geschikt is voor de analyse van bipolaire schalen en overeenkomstig, enkeltoppige items.

Dit proefschrift bouwt voort op eerdere bevindingen van Heiser (1981), waarbij bovendien bevindingen uit de ecologische literatuur (zie bijvoorbeeld Ter Braak, 1985; Ter Braak & Prentice, 1988, 2004) worden vertaald naar een psychometrische context.

Er wordt getracht het gebruik van CA als unfolding techniek verder te onder- bouwen door enerzijds CA te vergelijken met unfolding IRT technieken (Hoofd- stuk 2), en anderzijds aan te tonen dat CA voor de analyse van bipolaire schalen meer geschikt is dan PCA (Hoofdstuk 3). Verder wordt het gebruik van CA uitgebreid met een methode voor item-analyse (ordered conditional means, OCM;

Polak, De Rooij, & Heiser, 2010), die zich tevens leent voor het onderzoeken van de interne consistentie van bipolaire schalen (Hoofdstuk 4). In Hoofdstuk 5, ten slotte, wordt CA toegepast voor de analyse van pati¨entgegevens op basis van het Ontwikkelingsprofiel, waaraan in de basis een bipolaire schaal ten grondslag ligt.

Met behulp van CA worden testitems en individuen geordend op een schaal die varieert van zeer disadaptief (onrijp) functioneren van de persoonlijkheid tot zeer adaptief (rijp) functioneren van de persoonlijkheid.

Ondanks de ontwikkelingen op het gebied van de modernere unfolding IRT, wordt in dit proefschrift de toepassing van CA op bipolaire schalen verder uit- gewerkt. De motivatie hiervoor, die in Hoofdstuk 2 uiteengezet wordt, is dat CA een aantal belangrijke voordelen heeft ten opzichte van de modellen/technieken gebaseerd op de unfolding IRT. Ten eerste, CA is onderdeel van SPSS (Categories

(4)

module, Meulman & Heiser, 2004) en SAS/STAT (CORRESP procedure, SAS institute, 2008). De SPSS output van CA is vergelijkbaar met die van PCA. Zo biedt CA bijvoorbeeld, net als PCA, de mogelijkheid om een twee-dimensionele grafische weergave te maken van de resultaten, waarbij voor beide technieken geldt dat een perfecte oplossing gevonden wordt wanneer er voldoende dimensies worden gekozen. Verder biedt CA net als PCA maten voor verklaarde variantie per dimensie en zijn de oplossingen in verschillende dimensies genest. Deze eigen- schappen zijn in het bijzonder aantrekkelijk voor toegepast onderzoek, omdat ze, in tegenstelling tot de meeste output uit IRT-gebaseerde software, vertrouwd zijn en aansluiten bij de vooropleiding van de meeste psychologisch onderzoekers, waarin SPSS een vast onderdeel is.

Ten tweede is CA een technisch eenvoudige techniek, die geringe computer capaciteit vereist. CA heeft bovendien het voordeel dat het, net als PCA en FA, met relatief kleine steekproeven (e.g. N = 300) in stabiele oplossingen resulteert, terwijl IRT software veel grotere steekproeven vereist om voor vergelijkbare popu- laties tot stabiele schattingen te komen (e.g. N = 1000). Ten derde resulteert CA, in tegenstelling tot de unfolding IRT sofware, die vaak een voorselectie van items vereist, altijd in een oplossing voor alle items.

Ten slotte is een voordeel van CA de reeds uitgebreid onderbouwde mogelijkheid tot het opnemen van verklarende variabelen (explanatory variables) in de data-analyse. Deze uitbreiding van reguliere CA is bekend als constrained CA (of canonische CA; cf. Ter Braak, 1986, 1987; Takane, Yanai, & Mayekawa, 1991; Takane & Hwang, 2002), waarbij elke dimensie geschat wordt als (optimale) lineaire combinatie van de verklarende variabelen. Het gebruik van constrained CA sluit aan bij het framework van explanatory monotonic IRT (cf. De Boeck

& Wilson, 2004). In de bestaande unfolding IRT software is deze uitbreiding nog niet voor handen. In Hoofdstuk 2 wordt een toepassing van CA met verklarende variabelen besproken voor pati¨entgegevens op basis van het Ontwikkelingsprofiel.

In Hoofdstuk 2 wordt bovendien het gebruik van CA als techniek voor schaal- evaluatie ge¨ıllustreerd op basis van onderzoeksdata (N = 245) van Roberts en Laughlin (1996) naar opinies ten aanzien van de doodstraf (i.e., Thurstone’s capi- tal punishment scale).

Er worden richtlijnen gegeven voor een eerste itemselectie op basis van de CA oplossing, waarbij het belangrijk is om te vermelden dat de itemselectie geen noodzakelijke voorwaarde is om een oplossing te vinden met CA. Ook worden richtlijnen gegeven voor het beoordelen van de dimensionaliteit en de kwaliteit van de oplossing. De item-analyse die in Hoofdstuk 4 wordt ge¨ıntroduceerd is

(5)

bedoeld als aanvulling op de resultaten van de CA en biedt meer gedetailleerde informatie over de psychometrische kwaliteit van de afzonderlijke items en de schaal als geheel.

Een vergelijking van CA met de unfolding IRT modellen MUDFOLD (Van Schuur, 1984; Van Schuur & Post, 1998) en GGUM (Roberts & Laughlin, 1996;

Roberts, Donoghue, & Laughlin, 2000) op basis van deze onderzoeksdata toont aan dat CA het meest spaarzaam is met de items in de schaal, en dat de geschatte itemlocaties sterk overeenkomen met de geschatte itemlocaties op basis van de unfolding IRT programma’s, respectievelijk wat betreft de ordening van de items op de schaal (MUDFOLD), en ook wat betreft de spreiding van de items op de schaal (GGUM).

In het tweede deel van Hoofdstuk 2 worden de drie unfolding technieken vergeleken op basis van zogenaamde benchmark datasets, die gesimuleerd zijn met behulp van het GGUM model. Samengevat laten de analyses zien dat in alle condities van dit onderzoek de drie technieken de ware itemlocaties (of de item-ordening in het geval van MUDFOLD) zeer goed terugvonden. Wat betreft de geschatte persoonslocaties worden enkele interessante verschillen tussen de drie technieken besproken. Ten eerste komt de door CA en GGUM geschatte ordening van de personen sterker overeen met de ware ordening van personen, dan die geschat door MUDFOLD. Ten tweede blijkt voor alle technieken dat de kwaliteit van de schattingen van de persoonslocaties beter is voor de langere schalen (bestaande uit 20 items), dan voor de kortere schalen (bestaande uit 10 items). Ten derde blijkt dat, hoewel CA de volgorde van de personen ongeveer even goed weergeeft als GGUM, de spreiding van de door CA geschatte persoonslocaties minder goed is dan bij GGUM. Dit laatste wordt toegeschreven aan het rand effect (edge-effect ) in CA, dat alleen optrad in de condities waarbij de items niet gelijkmatig over de schaal verdeeld zijn.

Een interessante uitkomst van de studie van de gesimuleerde data is dat zelfs in de condities waar de items in het midden van de schaal verwijderd zijn, de locaties van de personen in het midden van de schaal adequaat geschat worden.

Dit gold voor zowel CA als beide unfolding IRT technieken. Dit is een belangrijk resultaat, omdat het aantoont dat deze technieken ook gebruikt kunnen worden bij het analyseren van bipolaire schalen die ontwikkeld zijn met de Likert procedure, waarbij men uitsluitend met relatief extreme items werkt. Een voordeel van unfolding technieken is dat deze niet vereisen (juist niet) dat de contra-indicatieve items omgepoold worden voorafgaand aan de analyse. Hierdoor hoeft men bij unfolding analyse niet de discutabele aanname te doen dat het sterk oneens zijn met

(6)

een bepaald indicatief item (e.g., “De doodstraf is rechtvaardig en noodzakelijk”) gelijk is aan (of zelfs impliceert) dat men het sterk eens is met een vergelijkbaar contra-indicatief item (e.g., “Ik geloof onder geen enkele omstandigheid in de doodstraf”).

In Hoofdstuk 3 wordt CA vergeleken met PCA, waarbij zowel op basis van een literatuuroverzicht als op basis van een Monte Carlo simulatie wordt aangetoond dat PCA niet geschikt is voor de analyse van bipolaire schalen, maar dat CA, mits rechtstreeks toegepast op de ruwe data, wel voor dit doeleinde geschikt is. Uit het literatuuroverzicht dat in Hoofdstuk 3 gegeven wordt, blijkt dat er in de literatuur grofweg twee soorten parametrische unfolding modellen bestaan, namelijk modellen die de persoon-tot-item afstanden met een kwadratische functie beschrijven, of modellen die voor deze afstanden een exponenti¨ele functie gebruiken.

Er wordt aangetoond dat enkeltoppige items empirisch te herkennen zijn aan zogenaamde Robinson patronen in de inter-item correlaties. Een belangrijke nu- ancering hierbij blijkt, dat voor items die voldoen aan exponenti¨ele modellen het Robinson patroon “naar binnen gebogen extremen” vertoont. Dit onderscheid blijkt in een twee-dimensionale PCA oplossing te herkennen als boog (arch) ver- sus hoefijzer (horseshoe), waarbij in het laatste geval de uiteinden naar binnen gebogen zijn. Deze bevinding is relevant omdat het aantoont dat ogenschijnlijk geringe verschillen tussen response-modellen, substanti¨ele implicaties hebben voor de verwachte basale structuur in de data.

Monte Carlo simulaties tonen bovendien aan dat voor bipolaire schalen CA een betere representatie geeft van persoons- en itemlocaties dan PCA, in het bijzonder voor de data op basis van exponenti¨ele modellen.

Ten slotte wijzen de resultaten uit dat CA op de ruwe data tot betere schattingen leidt dan CA op de zogenaamde ontdubbelde (gededoubleerde) data. Dit is een belangrijk resultaat, omdat het dedoubleren van de data een gangbare aanpak is bij de analyse van rating scale data (vgl. Greenacre, 1984). In dit hoofdstuk wordt aangetoond dat CA op de ruwe scores een onconventionele, maar zeer relevante methode is voor de analyse van bipolaire schalen.

In Hoofdstuk 4 wordt de methode van geordende conditionele gemiddelden (ordered conditional means, OCM; Polak, De Rooij, & Heiser, 2010) ge¨ıntroduceerd.

De OCM methode schat item respons functies zonder de aanname van een speci- fiek model, zoals GGUM. De enige aannames van de voorgestelde methode zijn dat de items geordend kunnen worden op een bipolaire schaal en dat de item response functies enkeltoppig zijn.

De OCM methode is een generalisatie van Thurstone’s irrelevantiecriterium

(7)

(criterion of irrelevance; Thurstone & Chave, 1929) dat in de jaren ’20 van de vorige eeuw ontwikkeld werd voor binaire attitude items. De huidige OCM methode heeft als voordeel dat zij ook geschikt is voor polytome items. De OCM methode is uitgebreid met een unimodale smoothing methode, die recentelijk ge¨ıntro- duceerd is in de chemometrie (zie Eilers, 2005), maar nog onbekend was binnen de psychometrie. De unimodale smoother wordt gebruikt om de kwaliteit van de item response functies te beoordelen. Een centrale aanname van de in dit proefschrift ge¨evalueerde analysetechnieken/modellen (CA, GGUM en MUDFOLD) is dat een item alleen eenduidig te schalen is als de response functie van het item enkeltoppig is. In Hoofdstuk 4 worden fitmaten voor de unimodale smoother besproken, die per item kwantificeren in hoeverre de geschatte item response functie unimodaal is. De item-fitinformatie kan door onderzoekers gebruikt worden om te bepalen of een item al dan niet uit het meetinstrument verwijderd moet worden, dan wel beter geformuleerd moet worden.

Ten slotte wordt voorgesteld de item-fitmaten te aggregeren om zo een maat voor schaalfit te verkrijgen. De resultaten van de in dit hoofdstuk uitgevoerde Monte Carlo simulatie studie laten zien dat het mogelijk is om grenswaarden op te stellen voor de fitmaten waarbij zowel de kans op een type I fout (i.e., een item onterecht verwijderen), als op een type II fout (i.e., een item onterecht behouden) acceptabel blijft. Een voordeel van de OCM methode in combinatie met de unimodale smoother, is dat het zowel grafische als kwantitatieve informatie geeft over de psychometrische kwaliteit van de items van een meetinstrument, die als aanvullend beschouwd kan worden ten opzichte van alle reeds bestaande unfolding technieken (zoals CA, GGUM en MUDFOLD).

In Hoofdstuk 5 worden de resultaten van een valideringsstudie van het Ont- wikkelingsprofiel (OP) besproken. Hiertoe is een grote steekproef (N = 763) van pati¨enten en gezonde controles bestudeerd. De psychometrische analyse van de pati¨entgegevens op basis van het OP was relatief complex, omdat het meetinstrument een mix is van unipolaire schalen en een onderliggende bipolaire schaal. Het OP bestaat uit negen subschalen van elk negen items die persoonlijkheidsken- merken beschrijven, die corresponderen met een bepaald ontwikkelingsniveau. De mate waarin een individu functioneert op elk niveau wordt verkregen door per niveau de itemscores op te tellen, waarbij hogere item scores aangeven dat het be- treffende item in sterkere mate op een individu van toepassing is. Verder worden de niveauscores geaggregeerd tot een drietal cluster scores. De kwaliteit van deze clusterscores en van de cumulatieve subschalen is beoordeeld op basis van confir- matieve factor analyses (CFA) en Cronbach’s alfa’s. De model-fitmaten bij de CFA

(8)

waren redelijk tot goed, hetgeen de organisatie van de items in een negental subschalen ondersteunt. De uitkomsten bieden bovendien voldoende rechtvaardiging voor het interpreteren van de clusterscores, maar wezen uit dat men voorzichtig moet zijn bij het interpreteren van de afzonderlijke subschaalscores. Als verkla- ring voor deze laatste bevinding word gewezen op het feit dat het OP werkt met relatief korte schalen (negen items) die soms zeldzame, maar klinisch wel relevante kenmerken meten.

Op basis van CA wordt vervolgens aangetoond dat de negen subschalen geordend kunnen worden op een onderliggende bipolaire schaal, die varieert van zeer disadaptief (onrijp) functioneren van de persoonlijkheid tot zeer adaptief (rijp) functioneren van de persoonlijkheid. CA resulteert ook in posities van individuen op deze schaal. Het blijkt dat verschillende pati¨entgroepen, die onderscheiden worden op basis van de ernst van hun klachten, op deze CA schaal significant en sterk van elkaar onderscheiden worden. Met name voor wetenschappelijk onderzoek, bijvoorbeeld wanneer men op basis van het OP wil meten of een pati¨ent vooruitgang boekt in de loop van een therapie, is het aantrekkelijk dat met behulp van CA een schatting gemaakt kan worden van iemands positie op de disadaptief- adaptief-schaal. Op basis van een dergelijke schaalscore kan namelijk bepaald worden of iemand in de loop van een therapie meer richting de adaptieve pool opgeschoven is.

Hoofdstuk 6, ten slotte, besluit het proefschrift met een algemene conclusie en een discussie. De sterke en zwakke punten van de toepassing van CA op bipolaire schalen worden besproken aan de hand van de resultaten uit de technische hoofdstukken 2 tot en met 4. Als mogelijke richtingen voor vervolgonderzoek worden onder andere genoemd: het uitbreiden van het simulatieonderzoek van de OCM methode met verschillende steekproefgroottes en het expliciet vergelijken van deze methode met andere item-fitstatistieken uit de GGUM en MUDFOLD software. Verder wordt gereflecteerd op de mogelijke toepassing van de OCM methode voor het bepalen van de fit voor personen (person fit ).

Met betrekking tot de toepassing van CA als volwaardig alternatief van PCA voor de analyse van bipolaire schalen, worden naast het rotatieprobleem in CA, het boog effect (arch-effect ) en het bijkomende rand effect (edge-effect ) besproken als mogelijke problemen. Verschillende manieren, die in de literatuur reeds zijn voorgesteld om deze problemen op te lossen, worden verder verkend als opties voor vervolgonderzoek.

(9)