DE MEEST IDEALE LIKERTSCHAAL OP BASIS VAN ONZEKERHEID

(1)

ABSTRACT

In deze bachelorscriptie wordt onderzoek gedaan naar de ideale Likertschaal. De Likertschalen kunnen verschillen in het aantal schaalpunten, de labeling of het aanbieden van een middelste schaalpunt. Om dit te onderzoeken wordt een vragenlijst aan een deel van het panel van Kieskompas aangeboden. Deze vragenlijst is ingevuld door 751 respondenten die eerder ook dezelfde vragen hebben beantwoord op Likertschalen zoals aangeboden door Kieskompas. Er wordt onderzocht of er een verband is tussen de mate van verandering in de gegeven antwoorden op verschillende Likertschalen en de mate van onzekerheid over de antwoordposities op diezelfde Likertschaal, waarbij wordt gecorrigeerd voor de algemene onzekerheid van de respondent. Uit het onderzoek blijkt dat er geen significante verschillen in de mate van onzekerheid bestaan tussen de verschillende mate van verandering in gekozen antwoord-posities op een Likertschaal. Er worden wel significante verschillen gevonden tussen de gegeven antwoorden bij het aanbieden van een andere Likertschaal op hetzelfde vragen-blok. Deze significante verschillen zijn echter niet te verklaren door de mate van onzeker-heid.

D

E MEEST IDEALE

L

IKERTSCHAAL

OP BASIS VAN ONZEKERHEID

MW. N.E. HEUSSEN

Universiteit van Amsterdam

Begeleid door

DHR. DR. D. HEINHUIS Tweede lezer

DHR. IR. A.M. STOLWIJK Met dank aan

DHR. DR. A.P.M. KROUWEL Kieskompas

BACHELORSCRIPTIE INFORMATIEKUNDE,

(2)

Voorwoord

U bent zojuist begonnen met het lezen van mijn scriptie ‘De meest ideale Likertschaal’. Deze scriptie is geschreven in het kader van mijn afstuderen aan de Bacheloropleiding Informatiekunde aan de Universiteit van Amsterdam. Vanaf februari 2016 ben ik met de voorbereidingen bezig geweest om een samenwerking met Kieskompas aan te gaan. Bij een gastcollege raakte ik in gesprek met founder André Krouwel over het ideaal aantal schaalpunten op een Likertschaal en hij bood aan om gebruik te maken van hun data. Het ideaal aantal schaalpunten is uitgebreid naar de ideale Likertschaal. Het daadwerkelijke scriptietraject op de universiteit begon pas op 30 maart en vanaf deze periode ben ik bezig geweest met het onderzoek en het schrijven van de scriptie.

Tijdens het traject heeft mijn scriptiebegeleider Dick Heinhuis ten alle tijden mijn vragen beantwoord en dacht goed mee waar nodig. Bij dezen wil ik dan ook mijn begeleider bedanken voor de fijne begeleiding en ondersteuning tijdens dit scriptietraject. Ook gaat mijn dank uit naar André Krouwel en Yordan Kutiyski van Kieskompas. André voor het vertrouwen in mijn scriptieonderzoek om de data aan te leveren en Yordan voor het fijne en snelle contact over de data. Ook een bedankje aan mijn ouders en vrienden die mee hebben kunnen sparren over mijn onderzoek, ook van hen heb ik wijze raad gekregen.

Dan rest nu alleen nog het lezen van de scriptie zelf. Ik wens u veel leesplezier toe.

Nynke Heussen

(3)

3

Inhoudsopgave

Voorwoord ... 2 Inhoudsopgave ... 3 1. Inleiding ... 4 2. Theoretisch kader ... 6

2.1. Definitie van ideaal ... 6

2.2. Invalshoeken ... 6 2.3. Informatieverwerking ... 7 2.4. Likertschalen ... 9 3. Methode ... 11 3.1. Onderzoeksopzet ... 11 3.2. Steekproef ... 11 3.3. Vragenlijst ... 12 3.4. Dataset ... 15 4. Analyse ... 16 4.1. Hercodering ... 16 4.2. Missende waarden... 16 4.3. Hypothesen ... 17 4.4. Assumpties ... 18 4.5. Verschil in onzekerheid ... 18 4.6. Verschil in Likertschalen ... 24 5. Conclusie ... 27 5.1. Discussie ... 27 5.2. Limitations ... 28 Referenties ... 29 Appendix ... 34

(4)

1. Inleiding

Informatie komt veel voor in de huidige samenleving. Zelfs zo veel dat men de constant groeiende stroom aan informatie en de daarbij horende prikkels als een belangrijk issue van deze tijd ziet (Blair, 2010). Dit is echter niet een nieuwe constatering. Al in de vroege geschiedenis sprak men zijn zorgen uit over een teveel aan informatie. In de eerste eeuw van de moderne jaartelling waarschuwde de Romeinse schrijver Seneca de Oudere dat “een overvloed van boeken afleiding betekent” (Blair, 2010). In 1903 sprak er voor het eerst een sociale wetenschapper over de negatieve gevolgen van te veel sensaties die het brein prikkelden (Simmel, 1903): ‘sensory overload’. De psycholoog Milgram vertaalde dit later naar ‘information overload’ (1974).

Informatie-overload bestaat uit twee facetten: namelijk de informatieload (de hoeveelheid informatie) en de informatieverwerkingscapaciteit (het beperkte vermogen van de mens om wat met deze informatie te doen). Informatieverwerking wordt veelal vanuit de psychologie bestudeerd en het bekendste experiment hierin is dat van Miller (1956). In dit experiment bleek dat men vaak slechts maximaal zeven items in het werkgeheugen kan onthouden en er dus grenzen bestaan. De informatieload heeft tevens gevolgen voor de kwaliteit van de informatieverwerking. Er is sprake van een informatie-overload als de informatieload groter is dan de informatieverwerkingscapaciteit. De geschiedenis van de mens wordt gekenmerkt door een proces van toename in de hoeveelheid informatie (Blair, 2010). Informatieload heeft vanwege deze toename een grotere kans op uiting in informatie-overload. Het is vanwege deze toenames maatschappelijk relevant om dit te onderzoeken.

Naast het feit dat informatie-overload een rol speelt in de samenleving, is het ook relevant binnen het wetenschappelijk onderzoek. In wetenschappelijke vragenlijsten is het van belang dat de respondent zo waarheidsgetrouw mogelijk de vragen kan beantwoorden zodat de onderzoeker de meest representatieve data aangeleverd krijgt. Het vermogen om de beste keuze te maken is namelijk beperkter op lage en hoge niveaus van informatieload vergeleken met de niveaus ertussenin (Jacoby, Speller & Berning, 1974). De informatieload moet dus passend zijn, zodat de informatieverweking zo optimaal mogelijk verloopt.

In zulke wetenschappelijke vragenlijsten worden vaak Likertschalen (Likert, 1932) gebruikt, vooral in attitudeonderzoek – onderzoek naar de houding ten opzichte van een bepaald onderwerp – is dit veelvoorkomend (Jacoby & Matell, 1971; Richins & Dawson, 1992). Er is oneindig veel literatuur te vinden over dit schaaltype. Likertschalen zijn schalen met een x aantal schaalpunten waarvan de respondent één positie moet kiezen om in een bepaalde mate wel of niet in te stemmen met een gegeven stelling. De schaal begint bij een uiterste en eindigt, na een x aantal schaalpunten die in bepaalde mate op- of aflopen, bij het tegenovergestelde uiterste. De schaalpunten kunnen een tekstueel label bevatten; alleen een cijfer bij een schaalpunt wordt in dit onderzoek niet als label beschouwd. Zowel de uitersten als de tussenposities kunnen door de respondent als antwoord gekozen worden (zie Figuur 1).

Helemaal mee oneens 1 2 3 4 Helemaal mee eens 5

o

(5)

5

Likertschalen bevatten een bepaalde informatieload (in de vorm van het aantal schaalpunten of het aantal labels) die de respondent tot zich moet nemen. Veel gebruikte schaallengtes zijn 5- en 7-punts Likertschalen, maar ook kortere of langere schalen zijn in omloop. Omdat er grenzen bestaan aan de hoeveelheid informatie die een mens tegelijkertijd kan opslaan, zal niet elke Likertschaal even goed worden opgenomen in het geheugen. Er zijn aanwijzingen uit experimenten op basis van de meettheorie dat men voor de meeste psychometrische constructen (zoals attitude) geen zinnig onderscheid meer kan maken tussen meer dan vijf antwoordopties. Beschikbaar wetenschappelijk onderzoek naar Likertschalen is tevens vooral benaderd vanuit de statistiek en niet vanuit de informatiekunde. Er is niet eenduidig bekend wat de meest ideale Likertschaal is om de informatie-overload zo minimaal mogelijk te maken of zelfs helemaal te voorkomen.

Op de gemiddelde niveaus van informatieload worden de beste keuzes gemaakt (Jacoby, Speller & Berning, 1974); te veel informatie zorgt voor een informatie-overload en met te weinig informatie is geen goede keuze mogelijk. Vanuit de informatieverwerking wordt een antwoord gezocht waar deze intermediaire levels op het gebied van Likertschalen liggen. Het vormt een antwoord op de kwestie uit de vorige alinea: het vinden van een ideale Likertschaal, waardoor wetenschappelijke vragenlijsten aan de behoeftes van meer of minder informatie kunnen voldoen. De onderzoeksvraag die hierbij past is:

“In hoeverre is het mogelijk om de ideale Likertschaal op te stellen?”

De deelvragen die hierbij worden opgesteld zijn:

Deelvraag 1: In hoeverre is het aan de hand van de theorie mogelijk om de ideale Likertschaal op te stellen?

Deelvraag 2: In hoeverre is het aan de hand van dit empirisch onderzoek mogelijk om de ideale Likertschaal op te stellen?

Deze scriptie bestaat uit twee onderdelen. In hoofdstuk 2 ‘Theoretisch kader’ wordt de eerste deelvraag beantwoord aan de hand van literatuuronderzoek. In hoofdstuk 4 ‘Analyse’ wordt de tweede deelvraag beantwoord.

(6)

2. Theoretisch kader

2.1. Definitie van ideaal

Bij de twee deelvragen uit de Inleiding ontstaat het probleem dat ‘ideaal’ lastig te definiëren is. De hoeveelheid informatie kan invloed hebben op hoe men zich bij een keuze voelt en dit kan helpen om een ‘ideale situatie’ te omschrijven. Bijvoorbeeld het effect van keuze op ons geluk (zie Figuur 2) is veelvuldig onderzocht. Schwarz (2004) beargumenteert dat meer keuzes een negatief effect heeft op het geluksgevoel van de mens. Het punt waar de ‘net feelings’-curve de x-as bereikt in Figuur 2 wordt beschreven als “goede dingen die verzadigen en slechte dingen die escaleren” (Coombs & Avrunin, 1977).

Figuur 2. Het effect van keuze op ons geluk (Schwarz, 2004).

Maar hoe zit het met het onzekerheidsgevoel van de mens over een bepaalde keuze, als er meer of minder informatie wordt aangeboden? Het antwoord op deze vraag kan er voor zorgen dat de omgeving voor de mens zo wordt ingericht dat men keuzes op de best mogelijke manier kan maken. Dit door rekening te houden met de meest ideale situatie waarin men zich het zekerst voelt over een keuze. Onzekerheid is namelijk een belemmering voor het maken van een (goede) keuze en een gevoel van zekerheid is dus een betere indicator voor ‘ideaal’ dan geluk. Als dit wordt terugvertaald naar de Likertschalen: de meest ideale Likertschaal is de schaal waarbij een respondent de minste onzekerheid voelt over zijn of haar keuze. In de vragenlijst van dit onderzoek zal deze mate van onzekerheid ook gemeten worden. Het probleem van ‘ideaal’ definiëren zou hiermee zijn opgelost.

2.2. Invalshoeken

In de volgende twee paragrafen van dit hoofdstuk wordt de literatuur behandeld aan de hand van twee stromingen. Deze stromingen zijn informatieverwerking en het reeds uitgevoerde onderzoek over Likertschalen. De eerste deelvraag uit de inleiding wordt op deze manier beantwoord vanuit deze twee verschillende invalshoeken.

Bij beide invalshoeken spelen drie controverses rondom de informatieload (van een Likertschaal) een rol. Als eerste kan een Likertschaal verschillen in het aantal schaalpunten. Als tweede kan er een neutrale antwoordpositie worden aangeboden, dit door van een even schaal een oneven schaal te maken; het middelste punt geldt dan als

(7)

7

neutraal. Als derde is er veel discussie over het wel of niet labelen van de schaalpunten, zo kunnen alleen de uiteinden gelabeld worden of alle schaalpunten.

De aanwijzingen dat er grenzen zitten aan de hoeveelheid antwoordopties zijn afkomstig uit de psychometrie. Dit is een deelgebied van de wetenschap psychologie en houdt zich bezig met de technieken van het meten van psychologische fenomenen. Er worden meerdere psychologische theorieën in de informatiekunde gebruikt en in die zin speelt psychologie ook een rol binnen de informatiekunde. In dit scriptieonderzoek wordt ingezoomd op dit ene aspect. Er is voor het literatuuronderzoek gefocust op psychologische journals omdat dit meer specialistische literatuur oplevert, het vakgebied informatiekunde is veel breder en zou daarom de deelvragen minder goed beantwoorden. Tevens is er gelet op het aantal citaten en worden er veel bekende psychologische onderzoeken met duizenden citaten aangehaald in dit scriptieonderzoek. Voor het onderzoek naar Likertschalen is dit aantal citaten niet haalbaar omdat het een kleiner vakgebied is. Een paar honderd citaten, op een enkele uitzondering na (zoals het artikel van Likert zelf), is hier het maximum.

2.3. Informatieverwerking

De meeste mensen kunnen slechts zeven willekeurig gekozen items tegelijk in het kortetermijngeheugen opnemen en zich daarna correct herinneren (Miller, 1956). De items mogen bijvoorbeeld woorden, cijfers, letters of voorwerpen zijn − steeds treedt dit fenomeen op. Sommige mensen halen negen willekeurige elementen en anderen slechts vijf. Zodra deze aantallen worden overschreden ontstaat er een overload aan informatie. Men kan zich niet bewust zijn van meer dan vijf tot negen aandachtspunten, de rest van de aangeboden informatie zal onbewust waargenomen worden. Men zal op zo’n punt niet meer in staat zijn om een juiste beslissing te maken omdat men verward raakt (Miller, 1956).

Dat verwarring bij een te grote hoeveelheid te verwerken informatie optreedt, werd ook duidelijk in een ander experiment. Participanten kregen een steeds grotere hoeveelheid merken van een bepaald artikel aangeboden en per merk kon de informatieload ook groter worden. De participanten raakten echter zodanig verward dat zij steeds slechtere keuzes begonnen te maken als de hoeveelheid merken toenam (Jacoby, Speller & Berning, 1974). Door verwardheid kan tevens een gevoel van onzekerheid ontstaan. Shenk (1998) noemt dit informatiestress, veroorzaakt door een te grote hoeveelheid informatie. Dit kan uitgroeien tot keuzestress. Deze stress wordt veroorzaakt doordat men wordt overspoeld met informatie die overwogen moet worden om een ‘goede’ keuze te kunnen maken en dit wordt de keuzeparadox (‘paradox of choice’) genoemd (Schwartz, 2004). Te veel keuze verlamt de mens en leidt tevens tot ontevredenheid. De ontevredenheid ontstaat doordat men zich makkelijker voor kan stellen dat een andere keuze wellicht beter was geweest omdat de keuzes meer op elkaar lijken bij een groter aanbod. Men blijft zich op zo’n moment afvragen of er wel de juiste keuze is gemaakt (Keys & Schwartz, 2007). Hierdoor kan er ook meer twijfel ontstaan, wat kan leiden tot onzekerheid. Schwarz & Ward (2004) benoemen hiervoor de term ‘opportunity costs’ als fenomeen dat zich afspeelt in het hoofd van de mens, nadat de beste keuze met positieve aspecten is gemaakt. Men denkt namelijk dan alsnog aan de andere kansen die men heeft laten liggen. Hoe meer keuzes, des te meer positieve aspecten men zal vinden in de opties die men niet heeft gekozen.

In een ander onderzoek (Iyengar & Lepper, 2000) kregen studenten de mogelijkheid om studiepunten te halen door een essay te schrijven. De kwaliteit van het essay had geen invloed op het cijfer, alleen het wel/niet afmaken en inleveren van een essay. De

(8)

studenten werden opgesplitst in twee groepen: 1 groep kreeg 6 verschillende onderwerpen om uit te kiezen en de andere groep kreeg er 30. De groep die het minst aantal essayonderwerpen aangeboden kreeg, had uiteindelijk de meeste essays ingeleverd. Men haakt dus af bij te veel keuzes.

Er is ook een positieve kant te noemen aan het hebben van meer keuze. Als de keuze schaalbaar is op één productdimensie, dan is meer keuze beter dan minder keuze (Gourville & Soman, 2005). Dit houdt in dat er één variabele is op hetzelfde product, bijvoorbeeld ‘alignable options’ in de lengtematen van een broek. Men kan dan specifieker kiezen en de kans is groter dat men precies kan kiezen wat men wil.

In een experiment van andere aard werden proefpersonen gevraagd om de posities van schaakstukken op het schaakbord te onthouden en te reproduceren. De conclusies (Chase & Simon, 1973; Groot, de, 1946) waren als volgt: nieuwelingen en grootmeesters zijn ongeveer even slecht in het reproduceren van de schaakstukken als deze willekeurig zijn neergezet. Als de schaakposities echter niet willekeurig waren, dan waren grootmeesters veel beter in het onthouden van de posities dan nieuwelingen. Het kortetermijngeheugen is bij de nieuwelingen en grootmeesters gelijk, het ligt dus aan de hoeveelheid informatie waardoor er verschil in beide prestaties zit. De grootmeesters krijgen bij bekende schaakposities ‘meer informatie’ dan de nieuwelingen. Mensen onthouden dus niet zoals computers bits, maar het werkgeheugen van de mens kan meer aan als het om betekenisvolle ‘chunks’ gaat. Zo is bijvoorbeeld de letterreeks FBIUSACIA makkelijker te onthouden als men ziet dat het in principe uit drie achtereenvolgende bekende afkortingen bestaat: de drie betekenisvolle chunks. De mens kan een stuk of vier chunks tegelijk in het werkgeheugen in zich opnemen (Cowan, 2011), dit maximum is de cognitieve limiet (Sweller, 1988).

Een iets recentere variant van de theorie van Miller is de theorie van mentale belasting, de ‘Cognitive Load Theory’ (Sweller, 1988). Deze theorie gaat uit van drie opeenvolgende elementen in het menselijk geheugen: het zintuiglijk geheugen, het kortetermijngeheugen/werkgeheugen en het langetermijngeheugen. De capaciteit van het werkgeheugen is echter beperkt en kan volgens Sweller (1988) intrinsiek of extrinsiek belast worden. Uit de Cognitive Load Theory volgt dat goede instructiemodellen (van bijvoorbeeld vragenlijsten) rekening houden met de beperking van het kortetermijngeheugen en de onnodige extrinsieke cognitieve belasting hierdoor verminderen. Alle cognitieve belasting die niet bijdraagt (‘extraneous load’) kan beter achterwege worden gelaten (Sweller, 1999). Het werkgeheugen helpt namelijk bij het nemen van betere beslissingen en moet zinvol benut worden. Hoe onzekerder men is, hoe meer het gedrag informatiezoekend is (Berger & Calabrese, 1975). Controle over het eigen gedrag leidt tot betere beslissingen (Rondeel, Steenbergen, van, Holland & Knippenberg, van, 2015) en zal dus voor minder onzekerheid zorgen.

Op basis van dit literatuuronderzoek over informatieverwerking worden de eerste twee hypothesen opgesteld. Zowel het aanbieden van meer schaalpunten als meer labels op een Likertschaal kunnen gezien worden als een grotere informatieload. De validiteit van de Likertschaal wordt getoetst aan de hand van de mate van onzekerheid, zoals in paragraaf ‘2.1. Definitie van ideaal’ is uitgelegd. Beide principes komen tot uiting in de volgende twee hypothesen:

Hypothese 1: Er is een verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een oneven Likertschaal als er minder schaalpunten worden aangeboden.

Hypothese 2: Er is een verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een Likertschaal als alle schaalpunten worden gelabeld.

(9)

9

De eerste deelvraag met als invalshoek informatieverwerking kan ondertussen deels beantwoord worden: een ideale Likertschaal moet niet te veel schaalpunten (keuzes) bevatten omdat de respondenten anders verward raken over hun keuze en hierdoor onzeker zijn.

2.4. Likertschalen

Zoals voor de eerste twee hypothesen is aangegeven: Likertschalen kunnen verschillen in informatieload door meer of minder informatie op verschillende gebieden van de Likertschaal. Deze gebieden kunnen bijvoorbeeld het aantal schaalpunten of de labeling zijn. Er is veel discussie over wat het meest ideaal is en deze verschillende bevindingen worden in dit deel van het Theoretisch kader verder uitgediept. Eerst wordt het aantal schaalpunten besproken, daarna het labelen van Likertschaalpunten en tot slot de literatuur over het neutrale middelste schaalpunt op een oneven schaal.

Zoals genoemd kan er een verschil zitten in het aantal Likertschaalpunten. Te weinig antwoord-mogelijkheden maakt onderzoek naar de daadwerkelijke attitude van een respondent moeilijk (Kim, 2010). Respondenten zijn ook meer tevreden over een schaal met meer schaalpunten (Cosley, Lam, Albert, Konstan & Riedl, 2003). Een Likertschaal wordt tevens statistisch betrouwbaarder naarmate de granulariteit hoger is (Matell & Jacoby, 1971), maar er zit wel een grens aan het aantal punten. Zo heeft een 7-punts Likertschaal de hoogste betrouwbaarheid. Nunnally, Bernstein & Berge (1967) zijn hiervan de invloedrijkste bron, maar ook recentere onderzoeken bevestigen hun conclusie. Sparling & Sen (2010) vonden ook dat er een grens zit aan het aanbod van het aantal opties. De slider met 100 opties werd als minst positief ervaren en een 5-punts schaal (zonder labels) als meest positief (zie Figuur 3). Preston & Colman (2000) vonden dat de respondenten de grootste voorkeur hadden voor een 10-puntsschaal gevolgd door de 7-punts en de 9-punts.

Figuur 3. Gebruikerstevredenheid over diverse schalen. De verticale as is het aandeel van de ontvangen stemmen over een bepaalde schaal (Sparling & Sen, 2010).

Conclusie op basis van literatuuronderzoek over het aantal schaalpunten is dat een Likertschaal met een oneven aantal schaalpunten het meest ideaal is. Preston & Colman (2000) tonen echter aan dat de respondenten de grootste voorkeur hadden voor een 10-punts schaal – wat een even schaal is. Bij Preston & Colman (2000) ging het om het beoordelen van categorieën op het gebied van de service van een restaurant of winkel. Een cijfer geven op een 10-puntsschaal is vrij gebruikelijk en zou de voorkeur kunnen

(10)

verklaren. Deze voorkeur hoeft niet te gelden in dit scriptieonderzoek omdat het niet om een cijfer geven gaat, maar om de mate van instemming met een stelling weer te geven.

Dan de literatuur over de labeling. Het middelste punt op een oneven schaal zal vaak als ‘gemiddeld’ of ‘neutraal’ worden geïnterpreteerd (Fowler, 1995) als dit schaalpunt niet tekstueel gelabeld is. Matell & Jacoby (1972) hebben een negatieve correlatie gevonden tussen het aantal schaalpunten en de mogelijkheid dat het middelste punt als ‘weet niet’ of ‘geen mening’ wordt geïnterpreteerd. Dit betekent dat een ongelabeld middelpunt beter past in een schaal met meer punten, aangezien het middelste punt dan – zoals bedoeld – in de continuïteit van de schaal wordt geïnterpreteerd (‘gemiddeld’ of ‘neutraal’). Tevens worden de intervallen tussen de schaalpunten als meer gelijk geïnterpreteerd als alleen de uiteinden zijn gelabeld (Weijters, Cabooter & Schillewaert, 2010).

Het weglaten van een middelste schaalpunt kan tot negatievere gemiddelde antwoord-scores leiden (Dawes, 2001; Garland, 1991) of tot positievere (Worcester & Burns, 1975). Dit effect zou verklaard kunnen worden doordat men een middelste schaalpunt normaliter kan gebruiken om niet een ‘minder sociaal geaccepteerd antwoord’ te hoeven kiezen (Johns, 2010). Afhaakgedrag treedt vaker op aan de kant van de respondent bij het dwingen van een keuze (Raaijmakers et al., 2000). Een oneven schaal zorgt er voor dat respondenten niet worden geforceerd iets meer naar links of naar rechts te gaan op de Likertschaal en dus niet hoeven af te wijken van hun mening. Een gevoel van geforceerd worden (bij een even schaal) zou tot meer onzekerheid bij de respondent kunnen leiden. Dit leidt tot de derde hypothese:

Hypothese 3: Er is een verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een Likertschaal als er een middelste schaalpunt wordt aangeboden.

De eerste deelvraag met als invalshoek het onderzoek naar Likertschalen leidt er toe dat een ideale Likertschaal bestaat uit een oneven aantal schaalpunten met een neutrale middelste antwoordmogelijkheid. Alleen de uiteinden van een schaal dienen gelabeld te worden. Over het precieze aantal oneven schaalpunten (5/7/9/11) is echter veel discussie en het empirisch onderzoek van deze afstudeerscriptie zou hierin een uitkomst kunnen bieden.

(11)

11

3. Methode

3.1. Onderzoeksopzet

Aan het begin van het onderzoek is de scope (informatieverwerking en Likertschalen) bepaald en is er literatuuronderzoek uitgevoerd. Het scriptieonderzoek maakt, naast eigen gegenereerde data, gebruik van oudere data aangeleverd door Kieskompas. Er is een tabel aangemaakt met alle karakteristieken van de gebruikte Likertschalen in de twee aangeleverde vragenlijsten van Kieskompas. De karakteristieken bestaan uit het aantal schaalpunten, of er een continue labeling is of alleen de uiteinden en of er een uitwijkoptie (‘weet niet’) beschikbaar is. Deze tabel is gebruikt om transformaties van de Likertschalen (bijvoorbeeld van een 5-punts naar een 7-punstsschaal) te bepalen en vast te leggen. De transformaties houden in dat een selectie van vragenblokken uit de vragenlijsten van Kieskompas een andere Likertschaal toegewezen kregen in dit scriptieonderzoek. Deze transformaties zijn het belangrijkste onderdeel in de onderzoeksopzet omdat hiermee de hypothesen getoetst gaan worden. De vragen-blokken die geen Likertschaalwijziging kregen werden geschrapt. Het overgebleven resultaat diende als de eerste opzet van de vragenlijst voor dit onderzoek. De vragenlijst werd uitgebreid met de nodige nieuwe stellingen over onzekerheid om de hypothesen te kunnen toetsen. Deze vragenlijst is uiteindelijk uitgezet naar een deel van het panel van Kieskompas. De antwoorden van deze respondenten genereerden de nieuwe data om, samen met de data van de oude Kieskompas-vragenlijsten, de hypothesen mee te kunnen toetsen.

3.2. Steekproef

De participanten van dit onderzoek zijn Nederlandse kiesgerechtigden benaderd door Kieskompas. Een kiesgerechtigde is een persoon met Nederlands staatsburgerschap, minstens achttien jaar en van wie het recht om te stemmen niet is ontnomen. De participanten maakten eerder gebruik van het Kieskompas (een stemhulp) en hebben toentertijd aangegeven Kieskompas te willen helpen met wetenschappelijk onderzoek. Hierdoor zijn ze opgenomen in het zogeheten panel van Kieskompas.

De aangemaakte vragenlijst voor dit onderzoek is verstuurd naar een random deel van die panelleden die al eerder de Kieskompas vragenlijsten ‘Politiek van de Angst’ (2013) en ‘Spirualiteitsonderzoek’ (2015) hebben ingevuld. Deze twee vragenlijsten zijn namelijk ook gebruikt in dit onderzoek en doordat (een deel van) dezelfde respondenten worden gebruikt in het onderzoek van deze afstudeerscriptie kan de nieuw gecreëerde dataset samengevoegd worden met de eerdere twee datasets. De online vragenlijst van dit onderzoek is uiteindelijk ingevuld door in totaal 751 respondenten.

Het Kieskompas is een stemhulp die door een select deel van het electoraat gebruikt zal worden omdat deze niet bij elke kiesgerechtigde bekend is. Het panel is hier weer een onderdeel van. Het is een selecte steekproef omdat niet iedere persoon uit de populatie kiesgerechtigden evenveel kans heeft om in de steekproef te komen. Politiek geïnteresseerde internetgebruikers zullen waarschijnlijk oververtegenwoordigd zijn en personen met geringe politieke belangstelling zullen ondervertegenwoordigd zijn. Er is zo gezegd een convenience steekproef getrokken voor dit onderzoek. De steekproefleden zijn geselecteerd omdat zij beschikbaar zijn (ze zijn namelijk onderdeel van het panel); het is een steekproef op basis van bereikbaarheid.

(12)

3.3. Vragenlijst

Er wordt in de vragenlijst van dit onderzoek gebruik gemaakt van gesloten vragen, in de vorm van stellingen, met (bijna altijd, zie Figuur 4) antwoordmogelijkheden op een Likertschaal. Deze stellingen zijn geclusterd in verschillende vragenblokken die als matrices worden aangeboden. Horizontaal in de vragenblokmatrix staat de Likertschaal en verticaal staan de stellingen. Het kruispunt van de rijen en kolommen zijn de bolletjes op de Likertschaal die door de respondent gekozen kunnen worden als antwoordpositie. Gesloten vragen worden doorgaans als minder bedreigend en gemakkelijker te beantwoorden beschouwd en er wordt data gegenereerd waar geen waarden en betekenissen van de respondenten in worden meegenomen (Bryman, 2012). De vragenlijst bestaat uit twee delen en is hieronder schematisch weergegeven in Figuur 4 (zie Appendix 1 voor de uitgewerkte vragenlijst).

Vragenlijst

Eerste deel

Vragenblok met stellingen van Kieskompas 1.

2. … x.

Vragenblok met stellingen over onzekerheid

1. Ik ben zeker van mijn gekozen posities op de antwoordschalen hierboven 2. Ik had het gevoel dat ik tussen twee antwoordposities in stond

Eventueel vragenblok over onzekerheid*

(3.) Tussen welke twee posities heeft u het meest getwijfeld?

Herhaling van nog 6x de vragenblokken binnen het eerste deel Tweede deel

Vragenblok met Nederlandse vertaling van de Rosenberg’s Self-Esteem Scale 1. Over het algemeen ben ik tevreden met mezelf

…

10. Ik neem een positieve houding aan ten opzichte van mezelf Vragenblok over geslacht*

Wat is uw geslacht?

Figuur 4. Schematische weergave van de vragenlijst (* = geen Likertschaal).

Eerst wordt het eerste deel besproken. Uit twee Kieskompas vragenlijsten (Politiek van de Angst (2013) en Spirualiteitsonderzoek (2015)) zijn vragenblokken met Likertschalen overgenomen, maar kregen in dit onderzoek een andere Likertschaal toegewezen. Bij meerdere vragenblokken met dezelfde Likertschaalsoort is gekozen voor het vragenblok met de meest algemene stellingen omdat de uitkomsten van de twee onderzoeken (juli-september 2013 en november 2014-januari 2015) van Kieskompas verouderd kunnen zijn op het gebied van politiek. Ook zijn binnen de geselecteerde vragenblokken nog stellingen weggelaten als de kans groot werd geacht dat de hedendaagse houding veranderd kan zijn ten opzichte van respectievelijk 2013 of 2014/2015. Zo zijn vragen rondom religie in combinatie met politiek weggelaten omdat bijvoorbeeld de huidige rol van IS groter is dan in 2013. Ook zijn stellingen omtrent migranten weggelaten omdat de vluchtelingencrisis nu (nog) veel meer speelt in Nederland dan in 2013. Hierdoor kan de Nederlandse samenleving, en kunnen de respondenten van dit onderzoek, anders antwoorden op deze stellingen. De gevonden verschillen in de analyse van dit onderzoek zouden in dat geval niet per se te wijten aan het verschil in de gebruikte Likertschaal (en

(13)

13

dus door het verschil in de hoeveelheid informatie), maar doordat de houding ten opzichte van bepaalde standpunten in de samenleving is veranderd.

De transformaties van de Likertschalen (het toewijzen van een andere schaal aan dezelfde vraag) op de verschillende soorten Likertschalen zijn uitgevoerd om de drie hypothesen te kunnen toetsen. De Likertschaal kan getransformeerd zijn in het aantal tekstuele labels of in het aantal schaalpunten – er werd meer of minder informatie gegeven ten opzichte van de antwoordmogelijkheden van Kieskompas. Al deze transformaties zijn vastgelegd in een tabel, zie Tabel 1 voor de beknopte versie en zie Appendix 2 voor de gehele versie. De zwarte waarde voor de transformatiepijl (>>) in deze tabel geeft aan hoe de Likertschaal er in het Kieskompas onderzoek uitzag, de rode waarden geven de nieuwe Likertschaalkenmerken in dit scriptieonderzoek weer.

H1: Er is een verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een oneven Likertschaal als er minder schaalpunten worden aangeboden.

H2: Er is een verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een Likertschaal als alle schaalpunten worden gelabeld.

H3: Er is een verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een Likertschaal als er een middelste schaalpunt wordt aangeboden.

Tabel 1. Beknopte versie van de aangemaakte tabel met vraagkarakterestieken van de Kieskompas vragenblokken en de gedane transformaties in dit onderzoek.

Elk vragenblok in het eerste deel van de vragenlijst is tevens uitgebreid met een nieuw vragenblok met twee stellingen. In deze twee vragen wordt de onzekerheid van de respondent gemeten over de gebruikte Likertschaal in het vragenblok erboven (zie Figuur 4). De keuze welke Likertschaal het best gebruikt kan worden voor deze onzekerheidsvragen is een lastige en tevens ironische keuze. De meest ideale Likertschaal blijkt namelijk pas na de uitkomsten van dit onderzoek.

De keuze is uiteindelijk gevallen op een 5-punts Likertschaal omdat Kieskompas ook dit aantal gebruikt in hun wereldwijde stemhulpen. Kieskompas gaat uit van het werk van Saris (Revilla, Saris & Krosnick, 2013). Het andere kenmerk van de Likertschaal

(14)

voor de onzekerheidsvragen is als volgt: alleen de uiteinden en het middelste punt zijn tekstueel gelabeld; de overige intermediaire labels missen. Het middelste punt is gelabeld zodat er geen verwarring ontstaat over wat het schaalpunt betekent, het wordt nu aangeduid met ‘neutraal’. Doordat verder alleen de uiteinden zijn gelabeld, worden de intervallen tussen de schaalpunten als meer gelijk geïnterpreteerd (Weijters, Cabooter & Schillewaert, 2010) en kan als meetniveau ‘interval’ worden aangehouden vanwege de continue schaal. Hierdoor zijn er meer statistische toetsen in de analyse mogelijk.

Als de respondent heeft aangegeven te hebben getwijfeld tussen twee antwoordmogelijkheden dan verschijnt er nog een derde vraag om te achterhalen tussen welke twee posities getwijfeld is.

De vragenlijst is gemaakt in Qualtrics omdat Kieskompas met dit programma werkt. De vragenlijst voor dit onderzoek moest in deze tool worden aangeleverd zodat Kieskompas deze vragenlijst kon uitzetten naar hun panelleden. Tevens zijn in Qualtrics goede conditionele statements toe te voegen, een ‘if-statement’ is gebruikt om steeds wel of niet de derde onzekerheidsvraag in het eerste deel te tonen. Het tonen van deze vraag is afhankelijk van het antwoord op de tweede onzekerheidsstelling. Als (‘if’) het antwoord op deze tweede stelling aangeeft dat er is getwijfeld tussen twee antwoordposities, dan wordt in de derde vraag gesteld tussen welke twee posities dit was.

Het tweede deel van de vragenlijst bestaat uit een vragenblok om de algemene onzekerheid van een respondent te meten zodat hiervoor gecorrigeerd kan worden – de controlevariabele. Dit vragenblok bevat een Nederlandse vertaling van de Rosenberg’s Self-Esteem Scale (RSES)-vragenlijst (1965). De Engelse RSES beschikt over een hoge interne consistentie (Schmitt & Allik, 2005) en een goede test-hertest betrouwbaarheid (Pullmann & Allik, 2000; Robins, Hendin & Trzesniewski, 2001). De beste Nederlandse gevalideerde vertaling is afkomstig van Franck, De Raedt, Barbez & Rosseel (2008) en deze bewerking is gebruikt in dit onderzoek. De gebruikte antwoordschaal is in deze vertaling ook een 4-puntsschaal (net als in de originele RSES) en de vertaalprocedure gebeurde via de ‘forward and back’ vertaalmethode. Ook is er in deze Nederlandse vertaling sprake van een hoge interne consistentie (Cronbach’s α = 0,86). Franck et al. (2008) konden na hun onderzoek concluderen dat de goede psychometrische eigenschappen (betrouwbaarheid en validiteit) van de Engelse RSES terug te zien zijn in de Nederlandse bewerking.

Het doel van de RSES-vragenlijst is om de algemene evaluatie van de respondent te meten (Rosenberg, 1979). Een gevoel van zelfwaarde ligt dicht bij een gevoel van zelfverzekerdheid. Deze vragenlijst is een veelgebruikte manier om achter de onzekerheid te komen, want direct vragen naar een gevoel van zelfvertrouwen is subjectief: het is de interpretatie van de respondent en kan in grotere mate per levensfase verschillen dan een gevoel van eigenwaarde.

De RSES vragenlijst bestaat uit tien vragen in de vorm van stellingen met een Likertschaal. Per vraag wordt het gegeven antwoord omgezet in een score. Helemaal Niet Akkoord = 0, Niet Akkoord = 1, Akkoord = 2 en Helemaal Akkoord = 3. Deze scores zijn gehercodeerd in Qualtrics voordat de vragenlijst werd uitgezet. Hoe hoger de score op een vraag, des te hoger is de gerapporteerde zelfwaarde van de respondent. In de negatief geladen RSES-vragen 2, 5, 6, 8 en 9 geldt echter nog hoe hoger de score, des te minder zelfwaarde. De scores op deze vijf vragen zijn daarom gespiegeld ( 0 / 1 / 2 / 3  3 / 2 / 1 / 0) in SPSS om het juiste puntenaantal toe te kennen.

Voor de totaalscore (met een maximum van 30 vanwege 10 vragen x 3 punten) wordt een nieuwe variabele ‘RSES’ in SPSS aangemaakt die alle waarden van de tien vragen van de Self-Esteem Scale bij elkaar optelt. Scores tussen 15 en 25 vallen binnen de normale range, scores lager dan 15 punten duiden op een lage zelfwaarde en scores hoger

(15)

15

dan 25 duiden op een hoge zelfwaarde. Deze zelfwaarde-categorieën ‘laag’, ‘normaal’ of ‘hoog’ zijn gehercodeerd in nog een nieuwe variabele ‘RSES_range’.

Het tweede deel wordt afgesloten met een vraag naar het geslacht van de respondent. De identificatievraag naar het geslacht wordt pas helemaal aan het einde van de vragenlijst gesteld omdat deze vraag als intimiderend kan worden ervaren. Mocht een respondent weigeren om deze vraag te beantwoorden, dan is de kerninformatie (vragen die rechtstreeks verband houden met de onderzoeksvraag) reeds verzameld en is de data van de respondent nog steeds nuttig.

3.4. Dataset

De dataset met de responsen op bovenstaande vragenlijst is samengevoegd met de twee datasets van Kieskompas die zijn ontstaan na de vragenlijsten ‘Politiek van de Angst’ (2013) en ‘Spirualiteitsonderzoek’ (2015). De koppeling van de datasets is gebeurd op basis van het e-mailadres van het panellid. Het e-mailadres moet in elk van de drie datasets bestaan voordat de waarden in de samengevoegde dataset terecht komen; elke respondent heeft dus aan alle drie de vragenlijsten deelgenomen. Dit betekent dat elke respondent twee keer dezelfde stellingen heeft beantwoord, maar dan op een ander moment in tijd (2013 en 2014/2015 tegenover 2016) en op een andere Likertschaal. De onzekerheidsvragen uit de vragenlijst van het scriptieonderzoek waren nieuw voor de panelleden en zijn niet twee keer beantwoord.

De samengevoegde dataset is daarna opgeschoond in SPSS door alle respondenten die één van de drie vragenlijsten niet hadden afgerond (‘Finished = 0’) er uit te halen. Van de 751 respondenten bleven er hierdoor 670 over. Door hierop te filteren werden eventuele vertekende antwoorden verwijderd en werd de dataset gereed gemaakt voor de analyse. Ook zijn alle variabelen ingesteld op het juiste meetniveau zodat de statistische toetsen correct toegepast kunnen worden. Een ander onderdeel van het gereedmaken van de dataset, is het hercoderen van de variabelen. De hercodering wordt verder uitgediept in de paragraaf ‘4.1. Hercodering’.

(16)

4. Analyse

4.1. Hercodering

Zoals eerder is uitgelegd, hebben er transformaties op de Likertschalen van Kieskompas plaatsgevonden. De respondenten hebben de vragenlijsten van Kieskompas toentertijd ingevuld en tevens de vragenlijst van dit scriptieonderzoek. Het verschil per vragenblok met stellingen is het gebruik van een andere Likertschaal. Aangezien deze twee verschillende Likertschalen moeten worden vergeleken, is een standaardisering van deze variabelen noodzakelijk. Alle mogelijke Likertschalen van de Kieskompas vragenlijsten, waarbij de transformatie ging om het aantal schaalpunten (zie Tabel 1 in ‘3.3. Vragenlijst’), zijn opgedeeld rondom het midden (de nul) met aan beide kanten uitersten tot -3 en 3. Deze hercodering (zie Tabel 2) is een standaardisering net zoals dit bij een z-score het geval is. Een standaardisering op basis van z-z-scores is echter niet mogelijk omdat deze score berekend wordt op basis van het gemiddelde en de standaard-afwijking. Het gemiddelde en de standaardafwijking zijn per vragenblok echter verschillend en hierdoor zal het resultaat met een z-scorestandaardisering in dit geval geen juiste standaardisering opleveren. Zo zou bijvoorbeeld het midden op een 7-puntsschaal een andere gehercodeerde waarde hebben dan het midden op een 5-puntsschaal. Er is gekozen voor een rationeel logische hercodering: het midden op een Likertschaal wordt 0 en de twee uitersten -3 en 3, alles daartussen in wordt berekend op basis van gelijke intervallen. De beschrijvende statistiek (zoals de frequenties) van de gehercodeerde data ten opzichte van de originele data blijft op deze manier gelijk.

Voordat de hercodering is ingevoerd in SPSS zijn deze variabelen op ‘comma’ gezet (in plaats van ‘numerical’), is het aantal decimalen toegekend en zijn de waarden van de labels gewijzigd naar de nieuwe waarden zoals in Tabel 2.

Likertschaal Schaalpuntwaarden 5-punts 1 / 2 / 3 / 4 / 5  -3 / -1,5 / 0 / 1,5 / 3 6-punts 1 / 2 / 3 / 4 / 5 / 6  -3 / -1,8 / -0,6 / 0,6 / 1,8 / 3 7-punts 1 / 2 / 3 / 4 / 5 / 6 / 7  -3 / -2 / -1 / 0 / 1 / 2 / 3 9-punts 1 / 2 / 3 / 4 / 5 / 6 / 7 / 8 / 9  -3 / -2,25 / -1,5 / -0,75 / 0 / 0,75 / 1,5 / 2,25 / 3 11-punts 1 / 2 / 3 / 4 / 5 / 6 / 7 / 8 / 9 / 10 / 11  -3 / -2,4 / -1,8 / -1,2 / -0,6 / 0 / 0,6 / 1,2 / 1,8 / 2,4 / 3

Tabel 2. Standaardisering van de Likertschalen.

4.2. Missende waarden

Een veelvoorkomend probleem bij het verzamelen van data zijn missende waarden (Little & Rubin, 1987). Respondenten falen vaak om alle items op een schaal te beantwoorden. Alle vragenlijsten van Kieskompas zijn namelijk uitgezet zonder dat de respondent werd verplicht de vraag te beantwoorden. Alleen de participanten die de vragenlijst niet hebben afgerond (als in niet hebben verzonden; Finished = 0), zijn uit de dataset gehaald. De respondenten die een incomplete vragenlijst hebben afgeleverd zijn niet verwijderd omdat er dan te weinig data zou overblijven en ze toch een goede bijdragen leveren aan het onderzoek door alle vragen die ze wel hebben ingevuld.

Kieskompas liet over hun ‘Spirualiteitsonderzoek’-vragenlijst weten (waaruit vragenblok Q28 is gebruikt in dit scriptieonderzoek) dat deze is gerandomiseerd voordat het samenvoegen van de datasets plaatsvond, dit omdat de dataset van

(17)

‘Spirualiteits-17

onderzoek’ anders te groot was. Tevens gaf Kieskompas aan dat de vragen in deze vragenlijst zijn beantwoord door slechts een klein deel van de participanten. Q28 mist hierdoor over de elf vragen binnen dit vragenblok gemiddeld 60% (gemiddeld 402 van de 670 respondenten). Per vraag zijn er rond de 300 respondenten over.

In dit scriptieonderzoek wordt gezocht naar de ideale Likertschaal. Deze verschillende Likertschalen betreffen per soort een heel vragenblok en niet één vraag; er wordt gewerkt met de gemiddelde antwoorden over een heel vragenblok. Deze gemiddelde scores worden alleen berekend als alle vragen binnen dat vragenblok zijn beantwoord, anders valt de respondent af binnen die analyse (‘listwise’-verwijdering). Op deze manier wordt verzekerd dat alle respondenten exact dezelfde vragen hebben ingevuld en de enige verandering de Likertschaal tussen toen en nu is. In het vragenblok Q28 mist bij iedere respondent minstens één antwoord op een vraag. Van de aanvankelijk voldoende respondenten (N = ± 270) per vraag binnen Q28 blijven er door de listwise-verwijdering geen gemiddelden, en dus geen respondenten, meer over (N = 0; zie Appendix 3) en kunnen er geen analyses worden uitgevoerd.

Als oplossing voor de grote hoeveelheid missende data van het vragenblok Q28 is gekozen voor ‘mean substitution’. Dit betekent dat alle ontbrekende waarden worden vervangen door nieuw berekende waarden. De vervangende waarde is de gemiddelde antwoordpositie van alle respondenten die de variabele wel hebben ingevuld: het steekproefgemiddelde per vraag. Deze benadering behoudt het originele gemiddelde, maar vermindert de variantie. Het aantal respondenten per vraag is door de mean substitution 670. Omdat alle waarden ingevuld zijn en dus de listwise-verwijdering niet meer voor een vermindering zorgt in het aantal respondenten, is ook het berekende gemiddelde voor Q28 van de Kieskompas vragenlijst op basis van 670 respondenten. Op basis hiervan zijn wel analyses mogelijk.

4.3. Hypothesen

De laatste twee paragrafen van het Theoretisch kader hebben geleid tot drie hypothesen behorend bij de onderzoeksvraag “In hoeverre is het mogelijk om de ideale Likertschaal op te stellen?”. Hieronder worden de hypothesen, passend bij de tweede deelvraag “In hoeverre is het aan de hand van dit empirisch onderzoek mogelijk om de ideale Likertschaal op te stellen?” nogmaals opgesomd. Omdat de hypothesen getoetst moeten worden is er per hypothese, naast de reeds genoemde alternatieve hypothese, ook een nulhypothese geformuleerd die wordt getoetst verderop in de analyse. Alle hypothesen worden in dit scriptieonderzoek getoetst op een significantieniveau van α = 0,05. Alle overschrijdingskansen (p-waarden) die uit de statistische toetsen komen worden met deze alfa-waarde vergeleken.

1. H0: Er is geen verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een oneven Likertschaal als er minder schaalpunten worden aangeboden.

HA: Er is een verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een oneven Likertschaal als er minder schaalpunten worden aangeboden.

2. H0: Er is geen verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een Likertschaal als alle schaalpunten worden gelabeld. HA: Er is een verschil in de mate van onzekerheid bij een participant over een

(18)

3. H0: Er is geen verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een Likertschaal als er een middelste schaalpunt wordt aangeboden.

HA: Er is een verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een Likertschaal als er een middelste schaalpunt wordt aangeboden.

4.4. Assumpties

Er zijn twee assumpties om een parametrische statistische toets te mogen uitvoeren. Bij een parametrische toets worden eisen gesteld aan de metingen: de variabelen moeten minstens op intervalniveau zijn en de data moet normaal verdeeld zijn. Omdat deze assumpties vaker zullen terugkeren in dit scriptieonderzoek worden ze alvast in deze paragraaf overzichtelijk behandeld.

De eerste assumptie is het minimale intervalniveau. Veel van de data in dit onderzoek is op basis van Likertschalen. Op het gebied van Likertschalen is veel controverse (Jamieson, 2004). Deze discussie gaat over het feit of de intervallen tussen de schaalpunten als wel of niet gelijk mogen worden gezien. Het verschil tussen bijvoorbeeld ‘Helemaal mee oneens’ en ‘Mee oneens’ moet even groot zijn als ‘Mee oneens’ en ‘Neutraal’ om het als interval- in plaats van ordinaal meetniveau te categoriseren. Cohen, Mansion & Morrison (2013) stellen dat het onrechtmatig is om het intervalniveau aan te houden. Kennedy, Riquier & Sharp (1996) tonen ook aan dat de data niet als intervalniveau behandeld mag worden omdat de intervallen niet gelijk zijn. Echter heeft Dawes (2008) hier een kritische noot op: het verband tussen de originele Likertschaalwaarden en de schaal zoals die geïnterpreteerd is, liggen wel erg dicht bij elkaar. Bij Kennedy et al. (1996) is het 1 / 2 / 3 / 4 / 5 tegenover 1 / 2,2 / 3,1 / 4,1 / 5. Dawes (2008) ziet deze grote gelijkenis tussen de daadwerkelijke en geïnterpreteerde schaal in meer empirische onderzoeken terugkomen en stelt daarom dat intervalniveau mag worden aangehouden. Hofacker (1984) en Blaikie (2003) zien ook in dat onderzoekers veelal aannemen dat de intervallen gelijk zijn. Onder andere Gaito (1980) stelt zelfs dat de assumptie van Stevens (1946) – dat een bepaalde meetschaal een vereiste kan zijn om statistische procedures uit te voeren – een misconcept is: “als de data een normale verdeling volgt, dan zal de data van nature van intervalniveau zijn”. In dit scriptieonderzoek wordt aangenomen dat de intervallen tussen de Likertschaalpunten als gelijk geïnterpreteerd mogen worden en het dus een intervalniveau betreft.

De tweede assumptie is de normale verdeling. Hoe groter de steekproef, des te minder normaal de residuen verdeeld mogen zijn om toch nog betrouwbare conclusies te trekken. Bij een steekproefgrootte die groot genoeg is mag er van worden uitgegaan dat het een normale verdeling betreft (Dunning, 1993; Field, 2013). Deze aanname van normaliteit bij grote samples is een gevolg van de ‘Central Limit Theorem’ (Rosenblatt, 1956). Aangezien in dit scriptieonderzoek gebruik wordt gemaakt van een groot aantal respondenten is de aanname van een normale verdeling valide.

4.5. Verschil in onzekerheid

Het eerste deel van de vragenlijst bestaat uit vragenblokken afkomstig van oudere Kieskompas onderzoeken. Elk vragenblok bevat een Likertschaal die in dit scriptie-onderzoek is getransformeerd. De uitkomsten van de statistische toetsen moeten leiden tot een aanname of verwerping van de hypothesen over een verandering op een Likertschaal. Er wordt gekeken naar de interne consistentie (zie Tabel 3 en Appendix 4)

(19)

19

tussen de vragen binnen een vragenblok zodat er één variabele – het gemiddelde van de antwoorden op de vragen per respondent – van kan worden gemaakt.

Vragenblok Cronbach’s alpha

Q65 met alleen uiteindes gelabeld α = 0,334

Q18 met alleen uiteindes gelabeld α = 0,645

Q33 met uiteindes gelabeld en uitwijkoptie ‘weet niet’ α = 0,769 Q34 met uiteindes gelabeld en uitwijkoptie ‘weet niet’ α = 0,805

Q28 met alle punten gelabeld α = 0,114

Q14 met 4 schaalpunten α = 0,698

Q58 met 4 schaalpunten α = 0,814

Tabel 3. Interne consistentie tussen de vragen binnen ieder vragenblok.

Uit de tabel blijkt dat de interne consistentie op een aantal vragenblokken laag uitvalt (α ≤ 0,7) (Cronbach, 1951). Omdat de vragenblokken zijn overgenomen van Kieskompas zijn deze lage waarden niet te verklaren en wordt er voor gekozen om geen aanpassingen te maken. Er wordt een variabele aangemaakt waarin het gemiddelde per vragenblok wordt berekend.

Tevens wordt in het eerste deel van de vragenlijst van dit scriptieonderzoek elk vragenblok uitgebreid met twee onzekerheidsvragen (of drie onzekerheidsvragen, afhankelijk van het antwoord op de tweede vraag). Deze onzekerheidsvragen (zie Figuur 5) gaan over de gekozen antwoordposities binnen dat vragenblok met één bijbehorende Likertschaal. In SPSS is de schaal van de tweede vraag over onzekerheid gespiegeld. Deze hercodering is gedaan zodat een hogere waarde duidt op een hogere mate van zekerheid, net zoals bij de RSES-score (zie ‘3.3. Vragenlijst’) het geval is. De hercodering is als volgt: 1 / 2 / 3 / 4 / 5  5 / 4 / 3 / 2 / 1. In Figuur 5 zijn de (nieuwe) waarden van de antwoordmogelijkheden zichtbaar gemaakt naast de antwoordbolletjes (deze schuin-gedrukte waarden tussen haakjes waren niet zichtbaar voor de respondent).

Helemaal mee oneens 1 2 Neutraal 3 4 Helemaal mee eens 5

Ik ben zeker van mijn gekozen posities op de antwoordschalen hierboven  (1)  (2)  (3)  (4)  (5) Ik had het gevoel dat ik tussen twee antwoordposities in stond  (5)  (4)  (3)  (2)  (1)

Figuur 5. De twee gebruikte onzekerheidsvragen met hercodering.

De correlatie tussen deze twee vragen wordt berekend zodat er wellicht één afhankelijke variabele van kan worden gemaakt. Voor de correlatie wordt gewerkt met de gemiddelden per respondent over alle zeven herhalingen (er zijn zeven Kieskompas vragenblokken in het eerste deel van de vragenlijst) van de eerste en tweede vraag over onzekerheid. Bij een steekproefgrootte die groot genoeg is mag er van worden uitgegaan dat het een normale verdeling betreft (zie ‘4.4. Assumpties’) en dus mag de parametrische Pearson gebruikt worden om de correlatie te berekenen. Er blijkt sprake te

(20)

zijn van een matige positieve correlatie tussen de twee onzekerheidsvragen: r = 0,515, n = 567, p = 0,000 (zie Appendix 5). Omdat er outliers zichtbaar zijn in het spreidingsdiagram (Figuur 6) en Pearson gevoelig is voor outliers, wordt als veilige optie toch nog gebruik gemaakt van de non-parametrische Spearman’s rho-toets ter controle. Uit deze toets komt een sterk positief verband: ρ(567)= 0,661, p = 0,000 (zie Appendix 5). Vanwege de aanwezige positieve correlatie mogen de twee vragen over onzekerheid worden samengevoegd tot één onzekerheidsvariabele.

Figuur 6. Spreiding van de twee vragen over onzekerheid.

Er wordt later in deze analyse een verband gezocht tussen de mate van onzekerheid (de samengevoegde onzekerheidsvariabele) over de gekozen antwoordpositie op de gebruikte Likertschaal en de gemiddelde verandering in antwoordposities bij een Likertschaaltransformatie. Deze uitkomst wordt gebruikt om de hypothesen te toetsen (“Er is geen verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een Likertschaal als…”). Onder de gemiddelde verandering wordt het volgende verstaan: het gaat om de gemiddelde verandering per respondent tussen de antwoorden van toen (gemiddelde 1) en nu (gemiddelde 2) over alle vragen op een vragenblok. Deze verandering kan ontstaan als er een andere Likertschaal boven dat vragenblok wordt aangeboden (minder schaalpunten, meer labels of het toevoegen van een middelste schaalpunt). De gemiddelde verandering wordt berekend door de twee gemiddelden van elkaar af te trekken. Alle waarden van de berekende gemiddelde verandering zijn (waar nodig) omgezet in een absoluut getal omdat het gaat om de mate van verandering, ongeacht welke richting.

Om een beter beeld te schetsen van de gemiddelden, wordt Figuur 7 op de volgende pagina als voorbeeld gebruikt: een respondent heeft deze vragen in het vragenblok Q18 beantwoord in een eerdere vragenlijst van Kieskompas en tevens in de vragenlijst van dit onderzoek. Er wordt gebruik gemaakt van de gestandaardiseerde waarden (zie Tabel 2 in paragraaf ‘4.1. Hercodering’) om de gemiddelden te berekenen. Gemiddelde 1 van deze respondent binnen Q18 is in dit voorbeeld 0,15 (in Figuur 7: (9 + 5 + 5 + 6 + 1) / 5  (3 + 0 + 0 + 0,75 + -3) / 5 = 0,15). Gemiddelde 2 van deze respondent is in dit voorbeeld 0,3 ((4 + 3 + 3 + 4 + 2) / 5  (1,5 + 0 + 0 + 1,5 + -1,5) / 5 = 0,3). De gemiddelde verandering zou dan 0,15 zijn (|0,15 – 0,3| = 0,15) voor deze respondent op vragenblok Q18.

(21)

21

Q18 Iedereen ervaart de politieke gang van zaken in Nederland op een andere

manier. Wat is uw gevoel bij politieke partijen in de Nederlandse politiek?

Q18 Iedereen ervaart de politieke gang van zaken in Nederland op een andere

manier. Wat is uw gevoel bij politieke partijen in de Nederlandse politiek?

Figuur 7. Voorbeeld van twee ingevulde vragenblokken door één respondent (boven: Kieskompas, onder: scriptieonderzoek) waarvan bij beide het gemiddelde wordt berekend.

Ook hier geldt dat er gebruik wordt gemaakt van listwise-verwijdering: is er minstens één antwoord niet gegeven op één van de vragen in de twee vragenblokken dan wordt de gemiddelde verandering niet uitgerekend omdat minstens één gemiddelde ontbreekt. Het wordt een missende waarde; de respondent wordt niet meegenomen in de analyse. Op deze manier is het zeker dat elke participant exact dezelfde vragen heeft beantwoord en dat een gemiddelde (en dus de gemiddelde verandering) bij elke respondent op dezelfde manier ontstaat.

In de hypothesen (zie ‘4.3. Hypothesen’) gaat het om een verschil in de mate van onzekerheid en dat moet nog getoetst worden. De onzekerheid is de afhankelijke variabele en de Likertschaal de onafhankelijke variabele; de eventueel veranderende mate van onzekerheid is mogelijk een gevolg van de verschillende Likertschalen. Tevens is er sprake van een continue storende variabele, namelijk de algemene mate van onzekerheid van een respondent die wordt uitgedrukt in een RSES-score (zie ‘3.3. Vragenlijst’). Deze variabele heeft naar verwachting invloed op de relatie tussen de onafhankelijke en de afhankelijke variabele; de RSES-score (1-30) is dus een covariaat die

(22)

dient als controlevariabele. Het effect kan significant zijn, maar ook bij geen significantie zal deze variabele invloed uitoefenen op de relatie en daarom wordt de afhankelijke variabele uitgezuiverd voor de covariaat. De toets die hiervoor geschikt is, is de ANCOVA. Deze toets gaat, net als de t-toets, uit van gemiddelde scores.

Bij de ANCOVA moet de onafhankelijke variabele een discrete variabele zijn. Echter, de onafhankelijke variabele is hier de gemiddelde verandering tussen het gestandaardiseerde gemiddelde 1 en 2 en is dus een continue variabele. Deze wordt omgezet in een discrete ordinale variabele. In SPSS is hiervoor gebruik gemaakt van ‘visual binning’ om automatisch gelijke percentielen te creëren. Er is gekozen voor twee ‘cutpoints’; drie groepen van ieder 33,33%. Deze cutpoints worden per vragenblok (met een bepaalde Likertschaal) bepaalt, het gaat namelijk om de relatieve gemiddelde verandering. Dit betekent een relatief kleine/middelmatige/grote gemiddelde verandering tussen de gegeven antwoorden door dezelfde respondent op een andere Likertschaal.

De covariaat en de afhankelijke variabele moeten minimaal op intervalniveau zijn. De covariaat is een score van nul tot en met dertig en dit is rationiveau (hoger dan intervalniveau). De afhankelijke variabele is een Likertschaal en dit mag als intervalniveau worden gezien (zie ‘4.4. Assumpties’).

Ook is een assumptie van een covariantie-analyse dat het verband tussen de covariaat (RSES-score) en de afhankelijke variabele (onzekerheidsvariabele) voor elke groep hetzelfde is; de assumptie van homogene regressielijnen. Dit wordt onderzocht door de interactie tussen de covariaat en de onafhankelijke variabele te toetsen door middel van een meervoudige variantieanalyse (vanwege meerdere factoren) waarbij de covariaat in drie categorieën wordt opgesplitst. Deze categorieën zijn vastgelegd in de variabele ‘RSES_range’ (zie ‘3.3. Vragenlijst’). Er wordt per vragenblok een model gemaakt met de discrete mate van verandering en ‘RSES_range’ als hoofdeffecten waartussen de interactie wordt getoetst. Er blijkt geen sprake te zijn van interactie tussen de mate van verandering en ‘RSES_range’; het verband tussen ‘RSES_range’ en de mate van onzekerheid is voor alle drie de groepen (kleine/middelmatige/grote gemiddelde verandering) gelijk omdat bij alle vragenblokken er geen significant verschil (p > 0,05) uit de toets komt (zie Appendix 6).

Tevens is een ANCOVA een parametrische toets en moet er sprake zijn van een normale verdeling. Omdat de steekproefgrootte groot genoeg is, wordt ook aan deze assumptie voldaan (zie ‘4.4. Assumpties’). Voorafgaand aan de ANCOVA is de Levene’s test uitgevoerd (de standaard test voor homogeniteit bij ANCOVA) om te toetsen of er gelijkheid in variantie bestaat tussen de groepen, dit is ook een assumptie om de ANCOVA te mogen uitvoeren. De uitkomsten van beide toetsen (zie Appendix 7 en 8) zijn weergegeven in Tabel 4 (op de volgende pagina) en ingedeeld bij de drie nulhypothesen.

(23)

23

Vragenblok Transformatie Levene’s ANCOVA Power

H10: Er is geen verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op

een oneven Likertschaal als er minder schaalpunten worden aangeboden. Q65 met alleen uiteindes

gelabeld

7-puntsschaal >> 5-puntsschaal

p = 0,003 F = 6,098 Q18 met alleen uiteindes

gelabeld 9-puntsschaal >> 5-puntsschaal p = 0,265 F = 1,332 p = 0,759 F = 0,276 0,988

Q33 met uiteindes gelabeld en uitwijk-optie ‘weet niet’

11-puntsschaal >> 5-puntsschaal p = 0,161 F = 1,838 p = 0,300 F = 1,210 0,979

Q34 met uiteindes gelabeld en uitwijk-optie ‘weet niet’

11-puntsschaal >> 7-puntsschaal p = 0,967 F = 0,034 p = 0,607 F = 0,500 0,980

een Likertschaal als alle schaalpunten worden gelabeld. Q14 met 4 schaal-punten Uiteindes gelabeld >>

alle punten gelabeld

p = 0,085 F = 2,990

p = 0,814 F = 0,055

0,992

Q58 met 4 schaal-punten Alle punten gelabeld >> uiteindes gelabeld

p = 0,021 F = 3,984

een Likertschaal als er een middelste schaalpunt wordt aangeboden. Q28 met alle punten gelabeld 6-puntsschaal >>

5-puntsschaal p = 0,602 F = 0,508 p = 0,304 F = 1,193 0,999

Tabel 4. Uitkomsten van de ANCOVA toets.

Uit Tabel 4 blijkt dat de Levene’s-significanties van Q65 en Q58 de nulhypothese van gelijke variantie verwerpen (p ≤ 0,05); er bestaat in deze vragenblokken geen gelijke variantie tussen de drie groepen.

Tevens wordt er nog getoetst op gelijke variantie met Hartley’s Fmax omdat Levene’s test niet altijd de beste manier is om te beoordelen of de ongelijke variantie daadwerkelijk verschillend genoeg is (Field, 2013). De formule hieronder wordt ingevuld voor Q65: SDmax = 0,90725; SDmin = 0,77960 en Q58: SDmax = 0,84451; SDmin = 0,68654 (zie Appendix 9) met als uitkomsten 1,354 voor Q65 en 1,513 voor Q58. Deze waarden zijn groter dan de kritieke waarde van 1,00 (bij k = 3; N > 60) in de tabel van Hartley (David, 1952, zie Appendix 9).

Functie 1. Hartley’s Fmax-formule, met s = standaarddeviatie (SD)

De twee testen voor homogeniteit tonen aan dat er voor Q65 en Q58 geen ANCOVA uitgevoerd mag worden omdat de assumptie van gelijke variantie geschonden wordt (bij Levene’s p ≤ 0,05; bij Hartley’s Fmax F > 1,00). Echter, er wordt in diverse publicaties gesteld dat er te veel aandacht naar de assumpties (van gelijke variantie en een normale verdeling) van een ANOVA gaat, terwijl deze testen worden gezien als robuust tegen matige schendingen (Box, 1953; Cochran, 1947; Glass, Peckham & Sanders, 1972;

(24)

Underwood, 1997; Winer, Brown & Michels, 1971). Als vuistregel mag gebruikt worden dat de grootste standaardafwijking maximaal twee keer zo groot mag zijn als de kleinste standaardafwijking. Dit is hier het geval (1,16 < 2 voor Q65; 1,23 < 2 voor Q58) waardoor, volgens dit principe, toch de ANCOVA gebruikt zou mogen worden. Het is echter een lastige discussie en omdat er geen significante verschillen worden gevonden op deze twee vragen met de ANCOVA (p = 0,205 voor Q58; p = 0,444 voor Q65) wordt het in dit scriptieonderzoek bij deze discussie gelaten; er zijn namelijk nog resterende vragenblokken per hypothese om de nulhypothesen aan te nemen of te verwerpen.

In Tabel 4 is in de ANCOVA-kolom af te lezen dat er op de resterende vragenblokken ook geen significante verschillen (p > 0,05) in onzekerheid bestaan tussen de verschillende mate van verandering in de gekozen antwoordposities op een Likertschaal, wanneer er wordt gecorrigeerd voor de algemene onzekerheid van een respondent. Er is dus geen verband tussen de mate van verandering in de gegeven antwoorden voor en na een Likertschaaltransformatie en de mate van onzekerheid over de gekozen antwoordposities op de Likertschaal, waardoor alle drie de nulhypothesen moeten worden aangenomen:

1. H0: Er is geen verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een oneven Likertschaal als er minder schaalpunten worden aangeboden.

2. H0: Er is geen verschil in de mate van onzekerheid bij een participant over een gemaakte keuze op een Likertschaal als alle schaalpunten worden gelabeld. 3. H0: Er is geen verschil in de mate van onzekerheid bij een participant over een

gemaakte keuze op een Likertschaal als er een middelste schaalpunt wordt aangeboden.

De nulhypothesen worden niet verworpen, maar er kan sprake zijn van een type II fout (β). De nulhypothese van geen verschil wordt dan aangenomen, terwijl er wel een effect in de populatie is – ook al toont de statistische toets dit effect niet aan. De kans op een type II fout kan berekend worden door: 1 – power. Hoe hoger de power, hoe kleiner de kans op een type II fout. De power is berekend met de G*Power-tool (zie Appendix 10) met een medium effect size. Er is gekozen voor ‘medium’ (in plaats van small of large) omdat een medium effect size aannemelijk is in psychologisch onderzoek (Cohen, 1962; Cooper & Findley, 1982; Sedlmeier & Gigerenzer, 1989). De uitkomsten zijn tevens weergegeven in Tabel 4 en tonen aan dat de kans op deze fout zeer klein is en er daadwerkelijk geen effect in de populatie is; de nulhypothesen zijn terecht niet verworpen.

4.6. Verschil in Likertschalen

De nulhypothesen van dit scriptieonderzoek zijn aangenomen. Er worden verdere analyses gedaan om wellicht nog interessante uitspraken te kunnen doen.

Eerst wordt teruggegaan naar de basis: er zijn verschillende transformaties op de Likertschalen uitgevoerd (zie Tabel 1 in ‘3.3. Vragenlijst’). Door de gegeven antwoorden te standaardiseren (zie ‘4.1. Hercodering’) kunnen deze per respondent per vragenblok als paar vergeleken worden over tijd, met als onafhankelijke variabele de verschillende Likertschalen. Een paar bestaat per respondent uit de twee gemiddelden van de gegeven antwoorden binnen een vragenblok van toen (gemiddelde 1) en nu (gemiddelde 2) (zie ‘4.5. Verschil in onzekerheid’). Als er verschillen in de gegeven antwoorden worden gevonden, komt dit door het gebruik van een andere Likertschaal. De Likertschaal is namelijk de enige verandering tussen toen en nu; de stellingen zijn gelijk. Dit wordt