Vraagtypes en afname-modus in vragenlijsten

(1)

Vraagtypes en afname-modus in vragenlijsten

Een onderzoek naar het effect van vraagtypes en afname-modus op de antwoordverdeling in een vragenlijst over kunstmatige intelligentie.

Masterscriptie Communicatiekunde

Rijksuniversiteit Groningen, Faculteit der Letteren Lutten, 9 juli 2019

Begeleider: dr. Y.P. Ongena

Tweede beoordelaar: prof. dr. J.C.J. Hoeks Student: Angela Altena

Studentnummer: S2858215

Adres Anerweg Noord 138, 7775AW Lutten Email: a.a.r.altena@student.rug.nl

(2)

Samenvatting

Onderzoek doen aan de hand van vragenlijsten heeft een groot voordeel: de mogelijkheid veel informatie te verzamelen over veel respondenten in relatief korte tijd. Helaas krijgt de

onderzoeker weinig informatie over hoe de vragenlijst door de respondenten begrepen wordt. Een onderzoeker weet dan dus niet of het antwoord tot stand gekomen is door middel van een optimising (wanneer het verwerkingsproces volledig wordt doorlopen) of een satisficing (wanneer het verwerkingsproces vervroegd wordt afgebroken en mensen kiezen voor een makkelijke uitweg) antwoordstrategie. Het is belangrijk de vragenlijst zo op te stellen dat de kans op satisficing zo klein mogelijk wordt.

In dit onderzoek stond een reeds bestaande vragenlijst over kunstmatige intelligentie centraal. Kunstmatige intelligentie kan in de medische wereld veel processen versnellen. De vraag is echter of mensen dit ook willen. Een vragenlijst is de goedkoopste manier om attitudes te meten, maar dan moeten de antwoorden wel betrouwbaar zijn. De bestaande vragenlijst over

kunstmatige intelligentie is ingekort en aangepast. Aan de hand van deze vragenlijst is vervolgens het effect onderzocht van verschillende vraagtypes en afname-modi op de

antwoordverdeling. Er waren drie condities: een eentonige offline-, een gemengde offline- en een eentonige online vragenlijst. De eentonige lijsten bestonden enkel uit agree/disagree vragen en de gemengde vragenlijst uit een combinatie van agree/disagree, item-specific en ja/nee vragen. De offline vragenlijsten werden uitgedeeld door de onderzoeker en de online vragenlijst was te bereiken via een QR-code die linkte naar Qualtrics. Er deden in totaal 208 participanten mee. Vervolgens zijn er vier hypotheses gebruikt als uitgangspunt om te bekijken of er verschillen in antwoorden bestonden tussen de condities. Deze hypotheses zijn daarna getoetst met

verschillende analysemethodes. Op het niveau van de volledige vragenlijst werd er voor vraagtype wel een verschil gevonden. De gemengde vragenlijst had een lager gemiddelde en week significant af van beide eentonige condities. Voor de variabele afname-modus (online versus offline) werd geen verschil gevonden.

Op vraagniveau werd er voor vraagtype geen consistent beeld gevonden. De gemengde vragenlijst leidt tegen de verwachting in niet tot minder neutrale antwoorden. Het veel

voorkomen van neutrale antwoorden zou een indicatie van satisficing kunnen zijn. Vervolgens lag in de gemengde conditie de standaarddeviatie per respondent over alle vragen wel significant hoger. Dit betekent dat de antwoorden meer gespreid zijn in de gemengde conditie en dat is een aanwijzing voor een optimising antwoordstrategie. Verder lieten twee van de drie

gemanipuleerde vragen in de eenvoudige conditie een significant hoger gemiddelde zien. Vraagtype lijkt dus wel invloed te hebben. Tot slot werden er ook op vraagniveau geen verschillen gevonden tussen de online en de offline conditie.

Toch ligt de voorkeur na dit onderzoek bij de gemengde conditie. Deze lijkt namelijk aan te zetten tot een diepere verwerking. Mensen verbeteren numeriek gezien vaker, lijken meer opmerkingen te schrijven en hebben per persoon een hogere standaarddeviatie (dus meer spreiding) in hun antwoorden. Het hoge aantal neutrale antwoorden in alle drie de condities is waarschijnlijk een gevolg van het moeilijke onderwerp van de vragenlijst. Er is dan ook vervolgonderzoek nodig met andere onderwerpen om meer duidelijkheid te krijgen over het effect van vraagtypen en samenstellingen van vragenlijsten.

(3)

Voorwoord

Voor u ligt mijn masterscriptie Vraagtypes en afname-modus in vragenlijsten. Deze scriptie is geschreven in het kader van de master Communicatiekunde aan de Rijksuniversiteit Groningen. Nadat ik in het eerste semester van de master de cursus Vragenlijstontwerp met succes had afgerond, besloot ik me verder in het vakgebied te verdiepen. In de praktijk word je regelmatig gevraagd om je mening te geven door middel van een vragenlijst. Je ziet deze lijsten echter in zoveel verschillende vormen en indelingen, dat ik nieuwsgierig werd naar de invloed hiervan. Uiteraard is het onmogelijk om al deze aspecten te onderzoeken en daarom maakte ik voor deze scriptie de keuze voor vraagtype en afname-modus.

Ruim vier jaar geleden begon ik aan de Bachelor Communicatie- en Informatiewetenschappen, nadat ik een jaar op een MBO ICT-opleiding had doorgebracht. Tijdens dit jaar ontdekte ik hoe belangrijk ik communicatie en het correct schrijven van teksten vond en zo kon ik na 1,5 jaar twijfelen eindelijk de knoop doorhakken en me inschrijven voor een studie waar ik echt toekomst in zag. Dit bleek al snel de juiste keuze. Met veel plezier heb ik dan ook de bachelor en nu ook grotendeels de master doorlopen.

Naast communicatie heb ik ook altijd grote interesse gehad in techniek en de invloed hiervan op de toekomst van de mens. Toen mijn begeleidster, Yfke Ongena, met een vragenlijst over kunstmatige intelligentie kwam, was ik dan ook direct enthousiast. Weliswaar wist ik van tevoren dat ik waarschijnlijk niet inhoudelijk in kon gaan op het onderwerp, maar toch levert het combineren van twee voor mij persoonlijk relevante onderwerpen meer motivatie op.

Deze scriptie had niet tot stand kunnen komen zonder alle respondenten die meegewerkt hebben aan het onderzoek. Uiteraard is het geen doen om ze alle 208 apart te benoemen, maar in het bijzonder wil ik graag twee mensen bedanken die mij erg geholpen hebben bij het werven van de respondenten. Allereerst de floormanager van mijn part-time baan, Ina Schenkel. Dankzij haar kon ik veel collega’s bereiken, die allemaal hun steentje bijgedragen hebben. Ten tweede wil ik graag mijn moeder Eggy Altena, noemen. Zij heeft tijdens twee grote evenementen geholpen met het bereiken van potentiële respondenten en met het vervolgens uitdelen en innemen van de vragenlijsten.

Uiteraard wil ik via deze weg ook Yfke Ongena bedanken voor de bijna wekelijkse begeleiding en supersnelle feedback. Door jouw inzichten, ideeën en hulp bij de statistiek is deze scriptie geworden wat hij nu is.

Voor mijzelf houdt het studeren nog niet op met het inleveren van deze scriptie. Ik heb er namelijk bewust voor gekozen om mijn master in drie semesters te doen. Volgend semester zal ik dus mijn laatste vakken afronden en hopelijk kan ik dan begin 2020 met trots mijn mastertitel in ontvangst nemen. Dan rest mij voor nu alleen nog te zeggen dat ik iedereen die deze scriptie voor zich heeft, veel leesplezier wens.

Angela Altena Lutten, 1 juli 2019

(4)

Inhoudsopgave

1. Inleiding 1

2. Theoretisch kader 3

2.1 Soorten vraagstellingen 4

2.1.1 Item-specific versus agree/disagree 4

2.1.2 Variëren met vraagstellingen 7

2.2 Online en offline vraagbeantwoording 7

3. Methode 9

3.1 Materiaal - inkorten van de vragenlijst 10

3.2 Materiaal - de versies 11 3.3 Participanten 12 3.4 Procedure 13 3.5 Analyse 14 4. Resultaten 16 4.1 Agree/disagree vs item-specific 16

4.2 Antwoordspreiding - neutrale antwoorden 19

4.3 Antwoordspreiding - standaarddeviatie 21

4.4 Online vs offline 22

4.5 Overige bevindingen 24

4.6 Inhoudelijke bevindingen 26

5. Conclusie en discussie 29

5.1 Beperkingen en aanbevelingen voor vervolgonderzoek 31

5.2 Aanbevelingen voor de praktijk 32

Bibliografie 34

Bijlage 1 - brief CETO 36

Bijlage 2 - tabellen 37

Bijlage 3 - originele vragenlijst 39

Bijlage 4 - eentonige vragenlijst (1) 40

(5)

1. Inleiding

De techniek omtrent kunstmatige intelligentie is de laatste jaren in een stroomversnelling geraakt. We dragen horloges die kunnen voorspellen dat we ziek worden en onze woningen verlichten zichzelf zodra het donker wordt. Toch is kunstmatige intelligentie niet alleen iets om ons dagelijks leven makkelijker te maken, ook in de zorg kan het veel opleveren. Uit onderzoek van Duitse, Franse en Amerikaanse wetenschappers bleek al dat een zelflerende computer een groep van 58 dermatologen te slim af kon zijn als het aankwam op het herkennen van

kwaadaardige melanomen (Bijlsma, 2019). De kans is dus serieus aanwezig dat computers binnenkort veel taken van artsen over kunnen nemen. Deze verschuiving brengt veel ethische veranderingen met zich mee op het gebied van verantwoordelijkheid en omvang van de diagnose (Bijlsma, 2019). Daarom is het erg belangrijk om de mening en daarmee mogelijke bezwaren van mensen te kennen. Op deze manier kan de communicatie omtrent de komende verschuiving gespecificeerd worden om mensen op de juiste punten gerust te stellen en eventueel tegemoet te komen. Om dit zo efficiënt mogelijk te kunnen doen, is het onvermijdelijk een

vragenlijstonderzoek uit te voeren.

Onderzoek doen aan de hand van vragenlijsten heeft een groot voordeel: de mogelijkheid veel informatie te verzamelen over veel respondenten in relatief korte tijd. Helaas komt er op een mogelijke pre-test na, meestal weinig tot geen informatie over hoe de vragenlijst begrepen wordt. Het verwerkingsproces bij het beantwoorden van een vraag bestaat uit vier fases, namelijk het begrijpen van de vraag, het ophalen van de benodigde gegevens, het beoordelen van de relevantie en tot slot het formuleren van een antwoord (Tourangeau, 1984). Idealiter wil de onderzoeker dat het verwerkingsproces volledig doorlopen wordt, deze antwoordstrategie wordt ook wel optimising genoemd. De vraag is echter hoe je je vragenlijst het beste kan presenteren om de kans op een optimising antwoord het grootst te maken. Deze vraag is erg breed, omdat er op verschillende facetten van de vragenlijst ingegaan kan worden, zoals formulering van vragen, antwoordalternatieven en instructies, de lay-out van de vragenlijst en de afname-modus

(Dijkstra, Ongena en Loosveldt, 2014).

Tevens staan ontwerpers van vragenlijsten tegenwoordig voor de keuze of ze de lijst offline of online willen distribueren. Met offline wordt hier bedoeld dat de vragenlijst op papier voorgelegd wordt aan een groep mensen op een bepaalde locatie. Deze vorm van offline verspreiden heeft een persoonlijker karakter en daardoor een lagere non-response, maar als nadeel dat er tijdsdruk bestaat. De onderzoeker staat immers te wachten tot de vragenlijst weer wordt ingeleverd. Online is dit juist precies andersom, het is minder persoonlijk, maar er bestaat geen tijdsdruk

(Tourangeau, 1984).

De vragenlijst die in dit onderzoek centraal staat gaat over kunstmatige intelligentie in de radiologie en werd enkel offline verspreid. Het doel van deze vragenlijst is het meten van de opinie van zowel ex-patiënten als niet-patiënten. Met de term patiënt wordt in dit geval een persoon bedoeld die een scan op de afdeling radiologie moet laten maken. In een vooronderzoek hebben namelijk reeds 155 patiënten de originele vragenlijst ingevuld (Ongena, Haan, Yakar en Kwee, 2019). Bij dit onderzoek was de respons echter laag. Dit zou mede veroorzaakt kunnen zijn door de lengte van de vragenlijst en de tijdsdruk waaronder de vragenlijst ingevuld moest worden. De patiënten konden namelijk elk moment opgeroepen worden. Daarnaast bleken

(6)

sommige vragen niet geschikt voor de gebruikte antwoordschaal. De meeste vragen moesten beantwoord worden op een agree/disagree schaal, sommige andere vragen waren juist item-specific. De keuze voor deze opties lag niet altijd voor de hand. In dit onderzoek is er dan ook voor gekozen om vooral te kijken naar het type vragen en de manier hoe de vragen gepresenteerd worden in termen van papier (offline) en beeldscherm (online).

De onderzoeksvraag die in dit onderzoek centraal staat is:

Kan de vragenlijst Kunstmatige Intelligentie in de Radiologie het beste online of offline afgenomen worden en met welk type vragen?

Deze vraag heeft zowel maatschappelijke als wetenschappelijke relevantie omdat hij enerzijds concrete handvatten zal bieden om de vragenlijst over kunstmatige intelligentie in de radiologie te optimaliseren. Anderzijds zal dit onderzoek bijdragen aan de literatuur over vragenlijstontwerp en dan specifiek over de vorm waarin vragen gepresenteerd worden en over de manier waarop vragenlijsten beter ingevuld kunnen worden in termen van online of offline. Omdat een

vragenlijst ook en vorm van communicatie is, is de relevantie van de onderzoeksvraag binnen het vakgebied Communicatie- en Informatiewetenschappen ook duidelijk.

(7)

2. Theoretisch kader

Zoals in de inleiding al kort genoemd werd, doorloopt een respondent bij het beantwoorden van een vraag een aantal processen. Idealiter bestaat dit proces uit vier verschillende fases (Schwarz & Sudman, 1996; Tourangeau, 1984) die systematisch en doordacht doorlopen worden. Deze fases licht ik toe aan de hand van de volgende stelling: ‘Door kunstmatige intelligentie worden dokters lui’ met een 5-punts Likert schaal die loopt van zeer mee oneens tot zeer mee eens. De eerste fase is het begrijpen van de vraag, dit gaat zowel om de directe inhoud als om de representatie van het antwoord. Met dit laatste wordt meer de pragmatische betekenis bedoeld, dus wat vraagt deze vraag van mij, waar moet ik antwoord op geven? Bij de gegeven stelling moet je dus weten wat kunstmatige intelligentie inhoudt, om welke dokters het gaat en wat er in deze context bedoeld wordt met ‘lui’. Wanneer één of meerdere van deze begrippen verkeerd begrepen wordt, krijgt de stelling een heel andere betekenis. De tweede fase gaat over het

‘ophalen’ van alle benodigde gegevens voor het beantwoorden van de vraag uit het geheugen van de respondent. Bij de voorbeeldstelling worden dus het begrip kunstmatige intelligentie, met de bijbehorende associaties en de taak van dokters opgehaald. Ook moet de causale link tussen kunstmatige intelligentie en luiheid van dokters hier gelegd worden. Respondenten die minder of geen ziekenhuiservaringen hebben of geen idee hebben wat kunstmatige intelligentie is, zouden hier problemen kunnen ondervinden. Fase drie bestaat vervolgens uit het beoordelen of de uit het geheugen opgehaalde informatie wel relevant en voldoende compleet is voor beantwoording van de vraag. In deze fase wordt dus gekeken of de kennis over kunstmatige intelligentie en de taak van dokters relevant en voldoende is. De laatste fase is vervolgens het formuleren van een antwoord. In het geval van de stelling dus het uitdrukken van de mening op de 5-puntsschaal. Indien deze vier fases correct worden doorlopen, is er sprake van een optimising

antwoordstrategie (Krosnick 1999, Vanette & Krosnick 2013). Dit houdt in dat er een betrouwbaar antwoord wordt gegeven dat de werkelijkheid representeert. Het kan echter voorkomen dat een of meerdere van de fasen niet, of niet correct, worden doorlopen doordat de respondent hier geen motivatie meer voor heeft. Dit wordt ook wel een satisficing

antwoordstrategie genoemd (Krosnick 1999). In zo’n geval kiest de respondent vaak voor een makkelijke uitweg. Hij of zij zou dus bijvoorbeeld de eerste antwoordmogelijkheid in de lijst van antwoorden kunnen kiezen of juist de neutrale. De kwaliteit van de verkregen data is op deze manier erg laag.

Wanneer een respondent wel alle vier de fases voor het beantwoorden van een vraag doorloopt, maar fase 2 en 3 verkort, dan wordt dat ‘weak satisficing’ genoemd. Wanneer de inzet nog verder verslechterd en respondenten de tweede en derde fase volledig overslaan, dan wordt dat ‘strong satisficing’ genoemd. Er bestaan een aantal satisficing strategieën die respondenten hanteren afhankelijk van de vorm en de kenmerken van de vraag. Er volgt nu een kort overzicht van deze strategieën (Vanette & Krosnick 2013).

Don’t know - Dit is een ‘strong satisficing’ strategie waarbij de respondent automatisch kiest voor de ‘weet ik niet’-optie of de ‘geen mening’-optie, indien deze aanwezig is. Deze vorm is strong satisficing, omdat de respondent geen enkele moeite doet om een antwoord te formuleren. Wel moet rekening gehouden worden met het feit dat een respondent een vraag ook oprecht niet kan weten of oprecht geen mening kan hebben. Het weglaten van deze mogelijkheden is dus niet automatisch een oplossing om betrouwbaardere antwoorden te krijgen. Bij mondelinge vragen treedt ook nog een ander dilemma bij de respondent op. Vaak voor de ‘weet ik niet’-optie of de

(8)

‘geen mening’-optie kiezen kan je onwetend over laten komen en zo zijn deze opties dus eigenlijk sociaal-onwenselijke antwoorden.

Acquiescence - Dit is een ‘weak satisficing’ strategie waarbij de respondent het automatisch overal mee eens is. Dit kan voorkomen omdat de respondent niet de capaciteit of de motivatie heeft om te antwoorden, maar ook omdat hij of zij het beleefd of sociaal vindt of tegen de onderzoeker opkijkt. Deze vorm van satisficing is weak, omdat de respondent nog wel de vraag leest. Ook hier moet rekening gehouden worden met de mogelijkheid dat de respondent het echt eens is met de stellingen. Dit is uiteraard te controleren door een negatief geformuleerde vraag toe te voegen in de vragenlijst.

Response-order effects - Dit is een ‘weak satisficing’ strategie waarbij de volgorde van de antwoordopties effect heeft op het antwoord dat gekozen wordt door de respondent. De

respondent kiest bij het hanteren van deze strategie namelijk het eerste plausibele antwoord dat hij of zij tegenkomt in de antwoordopties. Dit heet ook wel een primacy effect. Deze vorm van satisficing is weak, omdat de respondent wel achter het antwoord staat dat hij geeft. Er bestaat echter de mogelijkheid dat er verder naar onderen een antwoordoptie stond die nog beter

overeenkwam met de attitude van de respondent. Bij het mondeling horen van de antwoordschaal treedt juist het tegenovergestelde beeld op. De opties die als laatste zijn opgelezen hebben de meeste kans om gekozen te worden, omdat ze nog in het werkgeheugen van de respondent zitten. Dit heet een recency effect. Ook hier geeft de respondent wel een antwoord waar hij achter staat. Nondifferentiation in using rating scales - Veel onderzoekers geloven dat een rij vragen met dezelfde antwoordopties makkelijker en leuker is om in te vullen. Helaas blijkt vaak dat een respondent voor de bovenste optie een geschikt punt vindt en dan de rest van de vragen dezelfde waarde toekent. Deze manier is dus makkelijk, maar wel heel gevoelig voor satisficing.

Nondifferentiation komt vooral voor onder laagopgeleiden en aan het einde van vragenlijsten. Deze vorm van satisficng is ook weak, omdat de respondent bij de eerste stelling wel oprecht een positie kiest. De onderzoeker zou deze vorm van satisficing wederom kunnen achterhalen door negatief geformuleerde vragen toe te voegen aan de lijst.

Het is dus aan de onderzoeker om een vragenlijst zo op te stellen dat de respondent niet

makkelijk voor een satisficing antwoordstrategie kiest. Het soort vragen en de plaatsing van de vragen spelen hierbij een belangrijke rol. De volgende paragraaf zal verder in gaan op soorten vraagstellingen.

2.1 Soorten vraagstellingen

2.1.1 Item-specific versus agree/disagree

Een vraag kan op verschillende manieren gesteld worden in een vragenlijst. Meestal wordt een schaal waarop geantwoord kan worden aan de hand van mee eens-niet mee eens gebruikt als het aankomt op het meten van attitudes en meningen. Denk bijvoorbeeld aan de Likert schaal. Volgens een meting van Robinson, Shaver, and Wrightsman (1999) is ruim 81% van de

empirische bevindingen in sociaalwetenschappelijk onderzoek gebaseerd op dit soort vragen. De voordelen van schalen als die van Likert (agree/disagree) zijn dan ook groot. Ten eerste kunnen onderzoekers makkelijk vragen stellen over ongerelateerde onderwerpen, terwijl ze dezelfde antwoordschaal gebruiken. Dit maakt statistische analyse vaak eenvoudiger. En ten tweede bespaart deze manier van vragen ruimte en tijd, omdat mensen niet telkens weer de schaal

(9)

opnieuw hoeven te bekijken. Zeker wanneer de vragen in een Matrix (zie afbeelding 1) gesteld worden (Höhne & Lenzner, 2018, pp 402).

Afbeelding 1: Voorbeeld van een Matrix

Er kleven echter ook enkele nadelen aan schalen als die van Likert. Er wordt namelijk

gesuggereerd dat dergelijke vragen een moeizame cognitieve verwerking vereisen. De termen mee eens en niet mee eens passen namelijk niet altijd direct bij de stelling of vraag. Bijvoorbeeld bij de stelling ‘Als het in de kosten niet uitmaakt zou een computer altijd een scan van het hele lichaam moeten maken in plaats van alleen een deel van het lichaam’.

Hier liggen alleen de twee uiterste opties voor de hand. Een scan maken van wel of niet het hele lichaam is namelijk geen beslissing die je gedeeltelijk kan maken. Ofwel je scant alleen het deel van het lichaam waar klachten voorkomen, ofwel je scant het hele lichaam. Je ziet hier dat de vertaalslag tussen het antwoord in je hoofd en het antwoord op de schaal, die dus vervolgens gemaakt moet worden, niet altijd zuiver is. De meerderheid van de respondenten (70,8%) in het onderzoek van Ongena, Haan, Yakar en Kwee (2019) hebben namelijk toch één van de drie tussen-antwoorden gekozen bij het beantwoorden van deze vraag. De respondenten hanteerden dus een satisficing antwoordstrategie zoals don’t know of ze kozen hun antwoord op basis van de proportie van argumenten voor en argumenten tegen de stelling. Wanneer ze vijf argumenten voor en vijf argumenten tegen de stelling zouden hebben, zou dit kunnen leiden tot het kiezen van het middelste antwoord. Deze laatste optie vergt echter veel denkvermogen en wordt waarschijnlijk alleen gebruikt door respondenten met een zeer hoge motivatie.

Een volgend nadeel van een agreedisagree schaal is het mogelijke gevaar van een response-bias. Dit houdt in dat mensen sociaal wenselijk antwoorden of het gewoon overal mee eens zijn, ongeacht de inhoud. Dit werd in de vorige paragraaf ook wel acquiescence genoemd. De exacte reden waarom agree/disagree schalen hier zo gevoelig voor zijn is niet duidelijk, maar het lijkt verband te houden met de motivatie van de respondenten (Höhne & Lenzner, 2018, pp 403). Wanneer een respondent niet de moeite neemt om de vertaalslag goed te maken, is hij eerder geneigd om een satisficing antwoordstrategie te gebruiken (Bell, 2007, p.462). Dit gebeurt bijvoorbeeld wanneer de vragen te makkelijk of te moeilijk zijn. Wanneer de vragen te makkelijk zijn treedt verveling op en wanneer de vragen te moeilijk zijn verminderd de betrokkenheid. Een alternatief voor schalen gebaseerd op agree/disagree, zijn de zogenoemde item-specific vragen. Bij deze vragen worden woorden op de schaal geplaatst, die direct verband houden met

(10)

de gestelde vraag. Een agree/disagree stelling als ‘Ik vind het gebruiken van computers om een scan te beoordelen een slechte zaak’, wordt dan als item-specific: ‘Het gebruiken van computers om een scan te beoordelen vind ik…’, waarbij de schaal loopt van een goede zaak naar een slechte zaak. Er wordt beweerd dat de kwaliteit van de data van deze vragen hoger ligt, omdat ze voor de respondent directer en informatiever zijn en daardoor eenvoudiger te beantwoorden. Ook zorgen item-specific vragen voor minder verveling en dus minder response-bias. De keerzijde hiervan is echter dat je een veel actievere en intensievere houding van de respondent vraagt. Hij of zij moet namelijk bij elke vraag opnieuw de schaal tot zich nemen en zichzelf daarop

uitdrukken (Höhne & Lenzner, 2018, pp 402,404). Höhne & Lenzner (2018) concludeerden uit eye-trackingsonderzoek dat mensen langer en vaker naar een item-specific vraag kijken, dan naar hun tegenhanger op Likert schaal. Dit zou kunnen betekenen dat mensen een item-specific vraag moeilijker te beantwoorden vinden, maar aangezien de vragen directe tegenhangers zijn is het waarschijnlijker dat Likert schaalvragen een staat van verveling en vermoeidheid bevorderen, waardoor oppervlakkige cognitieve verwerking plaatsvindt. Dit zou tot uiting kunnen komen door veel eentonige antwoorden, veel keuzes voor het neutrale antwoord of veel missende antwoorden. Ook is een veel voorkomend probleem bij agree/disagree vragen dat mensen het gewoon overal mee-eens zijn, wat de inhoud van de stelling ook is (Saris, Revilla, Krosnick & Shaeffer, 2010). Opmerkelijk is dat mensen bij item-specific vragen niet meer antwoordopties lezen, voor beide vraagstellingen was dit gemiddeld iets meer dan 3. Uiteraard houden de opties in beide versies verband (ze verhouden zich tot elkaar als eens en oneens), dus het lezen van alle individuele antwoordopties is geen vereiste om de vraag goed te kunnen beantwoorden. Höhne & Lenzner (2018) vonden in hun onderzoek geen significant verschil tussen de daadwerkelijke antwoorden (agree/disagree vs item-specific), maar ze vonden dus wel een verschil in proces. Saris et al. (2010) deden ook onderzoek naar het verschil tussen agree/disagree vragen en item-specific vragen. Zij deden dit niet door middel van eye-tracking, maar door verschillende experimenten in heel veel verschillende landen. Zij vonden in elk experiment wel een groot verschil in kwaliteit van de antwoorden in het voordeel van de item-specific vragen. Met kwaliteit wordt hier waarschijnlijk de kans op een optimising strategie bedoeld, maar een concrete definitie ontbreekt in het artikel. De kwaliteit werd gemeten door dezelfde vragen op allerlei manieren (tijdens een interview, op verschillende schalen en in verschillende

bewoordingen) te vragen en tevens de motivatie van de respondent bij te houden. Dit onderzoek speelde dus voornamelijk in op test-hertest betrouwbaarheid en niet op de validiteit.

Dykema, Garbarski, Wall & Edwards (2019) maakten in hun onderzoek wederom de

vergelijking tussen agree/disagree en item-specific vragen. Zij keken echter heel specifiek naar betrouwbaarheid, validiteit, recency, reactietijden en indicatoren van problemen bij het

verwerken van antwoorden. Dit onderzoek is extra relevant omdat het onderwerp van de vragenlijst ging over het vertrouwen in medische onderzoekers. Dykema et al. vonden dat agree/disagree vragen leiden tot een hogere betrouwbaarheid in vergelijking tot item-specific vragen. Ze vonden geen verschillen in validiteit, daarnaast bleken sommige item-specific vragen vatbaarder te zijn voor recency effecten en tot slot concludeerden ook zij gebaseerd op

reactietijden en gedragsindicatoren dat item-specific vragen zorgen voor een diepere verwerking. Het is duidelijk dat er in elk geval een verschil bestaat in cognitieve verwerking bij de

verschillende type vragen, ook lijkt er een aanwijzing te zijn dat de antwoorden ook daadwerkelijk verschillen. Daarom luidt de eerste hypothese:

(11)

H1: De antwoorden op eenzelfde stelling verschillen wanneer de vraag gesteld wordt als agree/disagree stelling of als item-specific.

2.1.2 Variëren met vraagstellingen

In de originele vragenlijst over Kunstmatige Intelligentie in de radiologie komen ook ja/nee vragen voor. In dit onderzoek worden deze vragen in de gemengde conditie behouden. Deze derde manier van bevragen bevordert de variatie in de vragenlijst en een ja/nee vraag kan nooit neutraal beantwoord worden. Je verplicht de respondent op deze manier tot het maken van een keuze. Dit kan enigszins van invloed zijn op de algemene attitude en dus ook op de antwoorden die gegeven worden op de agree/disagree en item-specific vragen. Maar nog waarschijnlijker is dat het afdwingen van een keuze tot frustratie leidt.

Agree/disagree schalen met vijf opties hebben een duidelijk neutraal middelpunt. Optie drie ligt net zo ver verwijderd van optie één als van optie vijf. Mensen die niet kiezen voor extreme antwoorden zullen dus relatief snel voor het midden (drie) kiezen. Daarbij zijn alle 5 de opties van de schaal voorzien van een label. Bij item-specific vragen met eveneens vijf opties ligt dit echter anders. Stel de schaal van een item-specific vraag heeft de volgende uitersten: gevaarlijk en ongevaarlijk. Het verschil tussen de vijf opties is niet automatisch even groot, de opties zijn niet gelabeld en in tegenstelling tot agree/disagree schalen, waar de middelste optie de neutrale is, is ongevaarlijk (vijf) hier eigenlijk de neutrale optie. Omdat de neiging tot het kiezen van optie drie zo vermindert, worden alle drie de binnenste antwoorden ongeveer even vaak gekozen (Liu, Lee & Conrad, 2015). Dit betekent dat bij enkel agree/disagree vragen in een matrix waarschijnlijk vaker het middelste antwoord gekozen wordt, omdat dit altijd de neutrale optie is. In dat geval zou de standaarddeviatie (spreiding) in agree/disagree vragen dus lager liggen. De volgende hypotheses luiden:

H2a: De gemengde vragenlijst leidt tot minder neutrale antwoorden dan de vragenlijst met alleen agree/disagree vragen.

H2b: De gemengde vragenlijst leidt tot een hogere standaarddeviatie per respondent dan de vragenlijst met alleen agree/disagree vragen.

2.2 Online en offline vraagbeantwoording

Om eenvoudig grote groepen mensen te bereiken worden vragenlijsten steeds vaker digitaal uitgevoerd. Ironisch genoeg blijkt juist bij digitale vragenlijst de response vele malen lager te zijn dan bij vragenlijsten op papier. Dit kan ervoor zorgen dat een niet-representatieve steekproef ontstaat. Johnson (2003) noemt een responspercentage van 71% voor papieren en 50% voor digitale afnames. In vergelijking met andere onderzoeken (allen onder de 15 %) zijn deze percentages erg hoog. Toch blijkt een lage respons niet perse een probleem te zijn. Zeker niet wanneer de groep mensen over wie je uitspraken wilt doen groot genoeg is en de steekproef random is. Bij een groep van 100 personen is 21 procent respons in de meeste gevallen al genoeg om iets over de groep in z’n geheel te kunnen zeggen (Nulty, 2007).

Van Os en van Beek (2011) deden een soortgelijk onderzoek, alleen keken zij naar online en offline onderzoeksevaluaties. Ze vonden een resultaat dat in overeenstemming was met het door Nulty (2007) versterkte verband tussen groepsgrootte en responspercentage. Non-response hoeft dus geen reden te zijn om een vragenlijst offline te houden. In het huidige onderzoek worden

(12)

mensen persoonlijk benaderd. Ze krijgen of een printje met een QR-code die linkt naar de vragenlijst of een papieren vragenlijst. De respondent heeft vervolgens de gelegenheid de vragenlijst in te vullen en deze wordt dan later weer door de onderzoeker ingenomen. Dit beeld lijkt op de zogenoemde drop-off/pick-up methode, waarbij een vragenlijst persoonlijk door de onderzoeker wordt gebracht en gehaald. Jackson-Smith et al. (2016) noemen dit een

veelbelovende manier van vragenlijstbeheer. Door het persoonlijk brengen en halen van de vragenlijst wordt de non-response nog verder verminderd. Zeker bij erg lange vragenlijsten. In verhouding tot het houden van interviews is deze manier vrijwel net zo effectief, alleen

aanzienlijk goedkoper. Daarbij komt nog dat bij een vragenlijst minder kans is op sociaal-wenselijk antwoorden. Zeker wanneer deze wordt ingevuld wanneer de onderzoeker niet aanwezig is.

Dat de lengte van een vragenlijst niet perse afschrikt bewijst het onderzoek van Jackson-Smith et al (2016). In dit onderzoek werd namelijk een 16 pagina’s lange vragenlijst aangeboden die ruim 60 procent van de mensen daadwerkelijk ingevuld heeft. De respons ligt hier dus veel hoger dan bij digitale vragenlijsten die via email of sociale media aangeboden worden (zoals de eerder genoemde 15 procent). Dit percentage zal voor een 16 pagina’s lange vragenlijst waarschijnlijk alleen maar verder dalen.

De eerdere dataverzameling van Ongena, Haan, Yakar en Kwee (2019) betrof in principe ook een drop-off/pick-up situatie, maar dan in een ziekenhuis wachtkamer, waar patiënten een vragenlijst onder wat hogere tijdsdruk moesten invullen omdat ze opgeroepen konden worden. Ook dit zou in het huidige onderzoek niet het geval zijn, omdat respondenten worden benaderd in hun vrije tijd. Op basis van deze gegevens lijkt gesteld te kunnen worden dat het

responspercentage geen problemen op zou moeten leveren in het uit te voeren onderzoek. Vervolgens speelt de vraag of digitale vragenlijsten gemiddeld tot meer positieve of meer negatieve uitkomsten leiden. Johnson (2003) stelt dat digitale vragenlijsten tot hogere scores leiden. Dit verschil was stelselmatig, maar niet significant. Van Os en van Beek (2011) vonden geen verschil tussen de papieren en de digitale vragenlijst. Ook in hun vooronderzoek werden geen echte consistente verschillen gevonden. Toch zijn er in dit onderzoek wel enkele

uitschieters te vinden en blijkt de hertest-betrouwbaarheid onder bepaalde omstandigheden minder hoog bij digitale vragenlijsten. Deze gegevens in combinatie met het feit dat de

vragenlijst van van Os en van Beek slechts 18 losse vragen had, zouden erop kunnen wijzen dat er bij de bevraging met agree/disagree vragen wel degelijk een verschil bestaat. Op papier bestaat namelijk minder afleiding en blijf je de vragen zien (niet scrollen of doorklikken), waardoor meer variatie zou kunnen ontstaan.

Dat lezen vanaf een beeldscherm of vanaf papier verschil maakt bewijzen meerdere

onderzoeken. Kaufman en Flanagan (2016) vergeleken mensen die vanaf een beeldscherm leren versus mensen die van papier leren. Zij vonden onder andere dat leren via beeldscherm een soort tunnelvisie met zich mee brengt. Je focust op de details die je op dat moment leest, maar vergeet de bredere context. Dit komt hoofdzakelijk door het scrollen. Je zou dus kunnen stellen dat scrollen het leesproces op een negatieve manier beïnvloedt. Lezen van papier helpt om die bredere context wel te zien en laat je dus ook de meer abstracte dingen begrijpen. Singer en Alexander (2017) vonden een vergelijkbaar resultaat. Zij lieten mensen een verhaal lezen en ontdekten dat het bij algemene vragen niet uitmaakt hoe de tekst gelezen wordt, maar zodra de

(13)

vragen specifieker werden, scoorde de groep papierlezers aanzienlijk hoger. Volgens Jabr (2013) komt dit door de fysieke lay-out van de papieren tekst. Je kunt iets beter onthouden, wanneer je je kunt herinneren waar op de pagina het stond. Dit komt doordat de connectie tussen geest, lichaam en papier sterker is en daardoor bouw je veel sneller een zogenoemde mindmap op. Daarbij komt dat online teksten vaak veel hyperlinks bevatten. De lezer is zo veel sneller geneigd om door te klikken waardoor hij weer opnieuw begint met het maken van een mindmap. Op deze manier kun je wel snel stukjes informatie tot je nemen, maar de cognitieve focus bij elk van deze stukjes is laag (Baron, 2016). Een tekst is uiteraard iets anders dan een vragenlijst, maar ook bij het beantwoorden van een vraag moet je telkens een kleine mindmap in je hoofd aanmaken met alle relevante begrippen en overtuigingen.

Bovenstaande gegevens wijzen erop dat het voor moeilijke vragen verschil zou moeten maken of er vanaf papier of vanaf een beeldscherm gelezen wordt. Uiteraard is ‘moeilijk’ bij

attitudevragen een relatief begrip, maar in een vragenlijst zijn sommige vragen altijd moeilijker dan andere. Welke vragen dan moeilijk zijn hoeft niet van tevoren bepaald te worden. Dat zal uit de analyse blijken. De volgende hypothese luidt dan ook:

H3: Er bestaat een verschil in antwoorden tussen de digitale en de papieren versie van de vragenlijst.

In het volgende hoofdstuk zal nu eerst het materiaal, de participanten, de procedure en de manier van analyseren toegelicht worden.

(14)

3. Methode

Dit onderzoek maakt gebruik van een ingekorte en bewerkte versie van de vragenlijst

‘Kunstmatige Intelligentie in de Radiologie’. Deze vragenlijst is gezien en goedgekeurd door de Commissie Ethische Toetsing (CETO) (zie brief in Bijlage 1). Het doel van dit onderzoek is nieuw licht werpen op het effect van vraagstelling en medium op de antwoordstrategie bij de afname van een vragenlijst. Om de invloed hiervan te onderzoeken is een vragenlijstonderzoek uitgevoerd met één vragenlijst op drie verschillende manieren. Het onderzoek kent dus drie condities, een offline vragenlijst met alleen maar agree/disagree vragen(1), een offline versie met gevarieerde vragen(2) en een online versie met alleen maar agree/disagree vragen(3). Omdat dit onderzoek gebruik maakt van een bestaande vragenlijst en deze als het ware wil verbeteren, is er geen gemengde online conditie. Dit zou namelijk betekenen dat deze conditie twee stappen (manipulaties) verwijderd ligt van het origineel. De twee manipulaties (onafhankelijke variabelen) in dit onderzoek zijn dus het medium en het type vragen, welke hier beide een tussen-proefpersonen design hebben. De afhankelijke variabele is in dit onderzoek dus niet de daadwerkelijke opinie, maar de variatie in antwoorden.

3.1 Materiaal - inkorten van de vragenlijst

Mensen hebben de neiging om lange vragenlijsten niet af te maken of er niet eens aan te

beginnen. Om het slagen van dit onderzoek meer kans te geven is daarom de vragenlijst ingekort. De originele vragenlijst heeft 15 vragen met vele items per vraag. De totale lengte was dan ook 7 pagina’s. Uit globale analyse van de met de originele vragenlijst verworven data, bleek dat niet alle vragen even goed bijdroegen aan het meten van de attitude. Daarom is de vragenlijst voor dit onderzoek teruggebracht naar 14 vragen met minder items per vraag. De totale lengte is nu dan ook voor beide versies 5 pagina’s.

Uiteraard zijn er bepaalde criteria gebruikt voor het weglaten van vragen in de originele vragenlijst. Deze criteria zijn: (Saunders, Lewis & Thornhill (2009) & Verhoeven (2004))

1. Onnodige details vermijden

2. Voldoende variatie in de responses.

3. Iedere vraag moet verschillende ‘kwaliteiten’ meten. 4. Een lage niet-response ratio.

5. Een zinvol gemiddelde.

Onnodige details vermijden (1) houdt in dat de vragenlijst dus zo compact mogelijk gemaakt wordt. Zo is het introducerende tekstje ingekort, omdat zinnen als ‘Voor alle duidelijkheid: op dit moment wordt er nog geen gebruik gemaakt van kunstmatige intelligentie bij het beoordelen van uw röntgenfoto of scan’, niet van toepassing zijn op het huidige onderzoek. Ook zijn ‘dubbele’ vragen weggehaald. Bijvoorbeeld bij vraag 7 waar de schalen nuttig - nutteloos en zinvol - zinloos zo goed als hetzelfde betekenen.

Voldoende variatie in de responses (2) houdt in dat vragen verwijderd zijn waarbij respondenten in de eerste meting bijna allemaal hetzelfde antwoord kozen. Dit zijn dus vragen met een lage spreiding. Bijvoorbeeld vraag 14.5: ‘Wanneer dingen beginnen te vervelen, hou ik er van om nieuwe en onbekende ervaringen te zoeken’. Geen van de respondenten was het zeer oneens met deze stelling en een ruime meerderheid (68 procent) koos voor optie 4 of 5.

(15)

Iedere vraag moet verschillende ‘kwaliteiten’ meten (3) houdt in dat de respons tussen twee meet-items geen sterke correlatie moet hebben. Dit criterium houdt enigszins verband met criterium 1, omdat de tweede vraag in de meeste gevallen onnodig was. Je zou ook kunnen zeggen dat een groepje vragen een niet te hoge Cronbach’s Alpha mag hebben. Echter, dit criterium kan ook slaan op vragen die het tegenovergestelde van elkaar vragen zoals vraag 10.7 en 10.8: ‘Door het gebruik van kunstmatige intelligentie kunnen mijn persoonlijke gegevens in verkeerde handen komen’ en ‘Computers gaan zorgvuldiger om met persoonlijke gegevens dan dokters’.

Een lage niet-response ratio (4) houdt in dat vragen die vaak overgeslagen worden beter weggelaten kunnen worden. In de vragenlijst voor dit onderzoek geldt dit bijvoorbeeld voor vraag 11.8. Naast de vraagstelling, heeft ook de plaatsing te maken met het soms overslaan van vragen. Wanneer een vraag niet op de pagina past en dus als enige op een andere pagina staat, dan neemt de kans toe dat respondenten hem over het hoofd zien.

Een zinvol gemiddelde (5) houdt verband met voldoende variatie in de responses (2). Bij voorkeur zou het gemiddelde een betekenis moeten hebben en in de meeste gevallen dus niet precies in het midden moeten liggen (neutraal). Uiteraard geeft de spreiding hierbij de doorslag. De laatste meerkeuzevraag onder vraag 8 is op deze wijze komen te vervallen. De vraag lag blijkbaar zo voor de hand, dat vrijwel iedereen onder andere voor optie B gekozen heeft (m = 0,88).

De vragen die uiteindelijk uit de vragenlijst verwijderd zijn staan genoteerd in Bijlage 3 (hierbij geldt de nummering van de originele vragenlijst).

3.2 Materiaal - de versies

Dit onderzoek is gebaseerd op een bestaande vragenlijst over kunstmatige intelligentie. Het oorspronkelijke doel van deze vragenlijst is het achterhalen van de attitude van patiënten over kunstmatige intelligentie in de radiologie. Omdat dit onderwerp in de huidige maatschappij behoorlijk in opkomst is en mensen hier naar alle waarschijnlijkheid een mening over kunnen vormen, is dit onderwerp geschikt voor dit onderzoek. Zoals eerder genoemd zijn er drie condities in dit onderzoek.

De eentonige vragenlijst (1) is een vragenlijst met enkel agree/disagree vragen (op 5-punts schalen). Dit houdt in dat vraag 7, die item specific was in de originele vragenlijst, omgezet is naar een agree/disagree vraag. Ook de ja/nee vragen zijn of verwijderd of omgezet naar

agree/disagree stellingen in een matrixblok. Vraag 12a en b zijn aparte blokken geworden, omdat de tussentekstjes zijn geïmplementeerd konden worden in de stelling zelf (8.9 en 12).

De gemengde vragenlijst (2) is een vragenlijst met verschillende type vragen. Hier heeft juist het tegenovergestelde plaatsgevonden. Vragen 9 en 13 waren agree/disagree vragen, maar zijn omgezet naar item specific vragen (wederom op 5-punts schalen). Drie stellingen uit vraag 13 zijn ja/nee vragen geworden, aangezien deze vragen niet op een schaal gezet konden worden. Er is voor gekozen om niet meer vragen om te zetten naar item specific, omdat lang niet alle stellingen hier geschikt voor zijn en dit ten koste zou gaan van de natuurlijkheid van de

vragenlijst. Het is niet de bedoeling dat irritaties of onbegrip invloed hebben op het resultaat. De overige ja/nee vragen uit de originele vragenlijst zijn in conditie 2 behouden.

(16)

De eentonige online vragenlijst (3) is identiek aan de eentonige offline vragenlijst (1). Echter was deze vragenlijst alleen online te bereiken via een link naar Qualtrics. Het aantal vragen per pagina online is identiek aan de offlineversies. Uiteraard moet er online op volgende geklikt worden in plaats van het omslaan van de bladzijde.

Er heeft ook nog een wijziging plaatsgevonden in de demografische gegevens van alle condities. De intro is aangepast naar niet- of ex-patiënten. Het blokje waarin het soort scan moest worden aangegeven is vervangen door een vraag of mensen ooit een scan of röntgenfoto hebben laten maken. Bovenaan de eerste pagina wordt door middel van een checkbox om toestemming gevraagd om de gegevens te mogen gebruiken. Dit is ook een toevoeging die niet opgenomen was in de oorspronkelijke vragenlijst. De oorspronkelijke vragenlijst en de twee gebruikte versies in dit onderzoek, zijn opgenomen in Bijlagen 3, 4 en 5.

3.3 Participanten

Aan dit onderzoek hebben in totaal 208 participanten deelgenomen. Deze participanten hebben geheel vrijwillig meegedaan aan het onderzoek en zijn verworven middels een

gemakssteekproef. De doelgroep is in feite iedereen boven de 16 jaar. Door deze brede doelgroep is het steekproefkader des te belangrijker. Er zijn elke keer groepjes van drie respondenten gemaakt die qua demografische gegevens ongeveer overeen kwamen. Dit werd bereikt door niet random her en der een persoon te benaderen, maar juist groepen mensen te benaderen in

bijvoorbeeld sportkantines, winkels en op het werk. Elk type locatie werd twee keer bezocht. De eerste keer met papieren vragenlijsten (conditie 1 en 2) en de tweede keer met de QR-code voor conditie 3 (eentonig, online). De participanten wisten van te voren dus niet dat er meerdere versies bestonden en ze wisten ook niet dat het meten van de attitude ten opzichte van kunstmatige intelligentie in de radiologie niet het hoofddoel was. De onderzoeker was altijd aanwezig bij beide bezoeken, maar toch leverde de online vragenlijst wat non-respons op doordat mensen niet bereid waren meteen de lijst in te vullen. De participanten konden zelf de code scannen met hun telefoon, of gebruik maken van de meegebrachte laptop. Uiteraard is geprobeerd de bezoeken plaats te laten vinden rond hetzelfde tijdstip op twee vergelijkbare dagen. Conditie 1 (eentonig) heeft in totaal 71 respondenten (34%), conditie 2 (gemengd) heeft er 77 (37%) en conditie 3 (eentonig, online) 60 (29%). Tabel 1 toont de specificatie van de werving van de respondenten:

Tabel 1: Werving van respondenten

Waar? Wanneer? Conditie? Aantal respondenten?

Sportschool Lutten 1 mei avond 1 & 2 12

Sportschool Lutten 2 mei avond 3 5

Rit Lutten 27 april middag 1, 2 & 3 58

Rit Fluitenberg 5 mei middag 1, 2 & 3 42

Werk Dalen 26 april middag 1 & 2 37

(17)

Overig familie/vrienden 1, 2 & 3 38

Totaal: 208 (71, 77, 60)

De demografische gegevens van de drie condities komen goed overeen. De gemiddelde leeftijden liggen tussen de 46 en 48 jaar, elke conditie heeft rond de 65% vrouwelijke

participanten en de gemiddelden voor het ooit gemaakt hebben van een foto of scan liggen tussen de 85% en 87%. Op de overige demografische gegevens wijkt conditie 3 iets af. Deze conditie was namelijk iets slimmer (gemiddeld 4,08 van de 6) en ook werden computer, tablet en

smartphone vaker dagelijks gebruikt. Deze derde conditie was uiteraard de online conditie. Deze kleine verschillen zijn dus te relateren aan het gegeven dat sommige mensen de onlineversie niet wilden of konden invullen. Echter heeft slechts één van de 208 participanten aangegeven dat hij nooit een computer, tablet of smartphone gebruikt. In principe worden de andere 207 personen dus in staat geacht de online vragenlijst in te vullen. Tabel 2 toont de precieze getallen per conditie.

Tabel 2: Specificatie van demografische variabelen per conditie

Conditie 1 (71) Conditie 2 (77) Conditie 3 (60) Gemiddelde leeftijd 48 (1,950) 46 (2,048) 46 (2,091)

Percentage vrouw 63% 66% 63%

Percentage wel een scan

laten maken 87% 87% 85% Gemiddeld opleidingsniveau (schaal 0 - 6) 3,61 (0,145) 3,68 (0,138) 4,08 (0,172) Gemiddeld gebruik computer (schaal 0 - 3) 2,62 2,56 2,80

Gemiddeld gebruik tablet (schaal 0 - 3) 1,86 1,74 1,95 Gemiddeld gebruik smartphone (schaal 0 - 3) 2,89 2,86 3 3.4 Procedure

De participanten in dit onderzoek waren van te voren niet op de hoogte gesteld van de

hypotheses. Zij moesten geloven dat echt de opinie ten opzichte van kunstmatige intelligentie in de radiologie gemeten werd. Dit was ook van ethisch belang, aangezien het UMCG mogelijk de gevonden gegevens wil gebruiken. De vragenlijst begon met een introductie. In deze introductie

(18)

stond duidelijk omschreven wat het doel was van het onderzoek, hoe lang het onderzoek zou duren en wat er van de respondenten werd verwacht. Na het lezen van de instructie moesten de respondenten hun goedkeuring geven door middel van het aanvinken van een checkbox. Hierna kregen de respondenten vijf vragen over hun persoonlijke gegevens: ‘Wat is uw

geboortedatum?’, Wat is uw geslacht?’, ‘Heeft u ooit een scan of röntgenfoto laten maken in het ziekenhuis?’, ‘Wat is uw hoogst genoten opleiding?’ en ‘Hoe vaak gebruikt u een computer, tablet of smartphone?’. Na deze algemene vragen begon de echte vragenlijst, welke 4 kantjes in beslag nam en 44 stellingen/items telde. De agree/disagree vragen liepen van ‘zeer mee oneens’ tot ‘zeer mee eens’ en in de item specific vragen was het de bedoeling dat de keuze gemaakt werd tussen twee uiterste, zoals ‘nuttig’ en ‘nutteloos’ of ‘duidelijk’ en ‘onduidelijk’. Beide typen vragen hadden vijf mogelijkheden. Aan het eind was ruimte voor eventuele opmerkingen over de vragenlijst of het onderwerp.

De vragenlijsten zijn zoveel mogelijk ingevuld in het bijzijn van de onderzoeker. Zo kon er toegezien worden op een eerlijke verdeling en de mate waarin de vragenlijst serieus genomen werd. Overleggen was niet toegestaan en mensen die naast elkaar zaten hadden zoveel mogelijk verschillende versies.

Sociaal wenselijk gedrag zou kunnen optreden omdat de onderzoeker aanwezig is bij het invullen van de vragenlijst. Daarbij kunnen participanten het vooroordeel hebben dat dit

onderzoek geen verschil maakt en de verschuiving richting kunstmatige intelligentie er toch wel komt. Mensen weten dat (de organisaties achter) het ziekenhuis dat uiteindelijk kan (kunnen) beslissen. Ook dit kan invloed hebben op de antwoordstrategie.

Uiteraard waren de respondenten van te voren op de hoogte van de anonimiteit en

vertrouwelijkheid van het onderzoek. Ze wisten dat ze elk moment zouden kunnen stoppen met deelname. Dit is overigens offline niet gebeurd, online hebben 8 mensen vroegtijdig de

vragenlijst beëindigd. Ook werd dus expliciet om toestemming gevraagd voor het gebruik van de gegevens door middel van een aan te kruisen vakje bovenaan de vragenlijsten.

3.5 Analyse

De data van de afgenomen vragenlijsten werden verwerkt in een Excel-bestand. Conditie 3 werd ingevuld op een mobiele telefoon of laptop (door middel van de QR code), deze gegevens konden vanuit Qualtrics geëxporteerd worden naar het Excel-bestand. Er werd een extra kolom aangemaakt voor de conditie. Vervolgens werd dit bestand geëxporteerd naar SPSS.

In SPSS is gekeken in hoeverre de vraagformuleringen (gemengd of alleen agree/disagree) en het medium (online of offline) effect hebben op de antwoordstrategie en de variatie in antwoorden. Om dit te kunnen meten is per afhankelijke variabele een univariate analysis of variance (vanaf nu ANOVA) uitgevoerd. Er is gekozen voor een ANOVA, omdat er telkens sprake is van één afhankelijke variabele (conditie) met drie groepen is en één onafhankelijke variabele (vraagsoort of medium). Omdat de groepen groot genoeg waren kon ervan uit gegaan worden dat de data normaal verdeeld waren. Wel werd gekeken of er outliers bestonden (respondenten die bijvoorbeeld bijna alleen 5’en of 1’en gegeven hebben). Uiteraard zou dit een mening kunnen zijn, maar aangezien de vragen verschillen in richting is dit niet waarschijnlijk. Een score werd als outlier gezien wanneer deze groter of kleiner was dan driemaal de standaarddeviatie boven of

(19)

onder het groepsgemiddelde (dus buiten de 99,7%). In de boxplot waren geen outliers zichtbaar, waardoor de data niet gereduceerd is.

De demografische variabelen waren zoals eerder genoemd erg consistent in alle drie de condities. Er wordt dus vanuit gegaan dat leeftijd, geslacht, ervaring met scans, opleidingsniveau of

gebruik van apparaten geen invloed heeft op de relatie tussen conditie en de afhankelijke variabelen.

(20)

4. Resultaten

In de komende paragrafen zullen de verschillende hypotheses één voor één besproken worden. Maar voordat er in detail ingegaan wordt op de data, is het interessant om na te gaan of er een verschil bestaat in de condities als geheel. Hiermee wordt bedoeld dat de vragenlijsten in het geheel met elkaar vergeleken worden. Dit kan een eerste indicatie geven over of er een verschil bestaat tussen de verschillende versies van de vragenlijst. Hiervoor is, om rekening te houden met het feit dat de vragen binnen een vragenlijst steeds dezelfde respondent betreffen, een Repeated Measures test gedaan om de drie vragenlijsten met elkaar te vergelijken. Deze analyse heeft een binnen-items design met acht verschillende vraaggroepen, met conditie als tussen-proefpersoon factor. De test heeft alle vragen vergeleken, behalve de vragen die in de gemengde vragenlijst (conditie 2) beantwoord moeten worden met ja/nee (vraag 12 en 13.2, 13.3, 13.4), terwijl in de eentonige vragenlijsten dit vijfpuntsschalen betrof. Deze vragen konden daardoor voor conditie 2 versus 1 en 3 niet met elkaar vergeleken worden.

De Repeated Measures test bleek significant, f: f(2, 187) = 32,657, p = 0,000). Aan de hand van een Post Hoc Tukey test is vervolgens bekeken welke conditie dan van welke verschilt. Deze resultaten en de bijbehorende gemiddelden zijn opgenomen in Tabel 3.

Zoals uit Tabel 3 op te maken is, verschillen de condities 1 & 2 en 2 & 3 wel significant van elkaar. Conditie 2 is de gemengde vragenlijst, dus volgens deze eerste test bestaat er een verschil in antwoorden bij deze gemengde vragenlijst in vergelijking tot de eentonige lijst. Omdat er tussen conditie 1 (eentonig) & 3 (eentonig, offline) geen significant verschil gevonden is, lijkt het er voorlopig op dat het online of offline invullen van de vragenlijst geen effect heeft gehad. We gaan nu in meer detail naar de verschillende hypotheses kijken.

Tabel 3: Post Hoc Tukey resultaten voor Repeated Measures

Post Hoc Tukey

Conditie Gemiddelde Eentonig (1) Gemengd (2) Eentonig, online (3)

Eentonig (1) 3,64 X 0,000 (1 > 2) 0,549

Gemengd (2) 3,29 0,000 (1 > 2) X 0,000 (2 < 3) Eentonig, online (3) 3,59 0,549 0,000 (2 < 3) X

4.1 Agree/disagree vs item-specific

In deze paragraaf zal de eentonige vragenlijst (conditie 1) vergeleken worden met de gemengde vragenlijst (conditie 2). Enkele agree/disagree vragen in conditie 1, werden in conditie 2 als item-specific vragen gesteld. Het gaat om de vragen 6, 9 en 13, met vijf, zeven en twee items per vraag. Vraag 6 gaat over het algemene oordeel ten opzichte van kunstmatige intelligentie in de radiologie, vraag 9 gaat over verantwoordelijkheden bij de inzet van kunstmatige intelligentie en vraag 13 gaat over de inzet van kunstmatige intelligentie (computers) in de praktijk.

(21)

H1 gaat over het ontdekken van een mogelijk verschil in antwoorden tussen agree/disagree vragen in item-specific vragen.

H1: De antwoorden op eenzelfde stelling verschillen wanneer de vraag gesteld wordt als agree/disagree stelling of als item-specific.

Bij H1 zijn de uitkomsten van een Cronbach’s Alpha betekenisvol om mogelijke verschillen te ontdekken. De Cronbach’s Alpha is een maat voor de interne consistentie van vragenlijsten en normaal wordt deze alleen gebruikt om te controleren. Wanneer de gemiddelde covariantie tussen de vragen verschilt, betekent dit dat mensen op een andere manier geantwoord hebben. Een andere manier wil zeggen dat de antwoorden meer of minder bij elkaar passen. Om de Cronbach’s Alpha te kunnen berekenen moeten wel alle stellingen in dezelfde richting gesteld zijn. Er mag dus bijvoorbeeld geen ontkenning in de stelling zitten. Wanneer dit wel het geval is dan kunnen de antwoorden omgedraaid worden. Een 5 wordt dan een 1 en een 4 een 2 etcetera; de waardes van de vragen worden dan consistent. In conditie 1 (eentonig) zijn de volgende vragen omgedraaid: 9.6, 9.7, 13.1, in conditie 2 de vragen: 6.1, 9.1, 9.2, 9.4. Item 9.6 was bijvoorbeeld: ‘Ik ben van mening dat mensen meer fouten maken dan computers’. Deze stelling is negatief ten opzichte van mensen, terwijl de rest van de stellingen in deze vraag juist negatief waren ten opzichte van computers. Zo luidt 9.3 bijvoorbeeld: ‘Ik zou nooit blindelings op een computer vertrouwen’. De waardes van de Cronbach’s Alpha op basis van consistent gecodeerde waardes voor de betrokken vragen staan in Tabel 4. Vraag 13 is niet opgenomen in deze tabel, omdat het berekenen van de Cronbach’s Alpha over twee items niet bruikbaar is. Dit is omdat de overige items van deze vraag in conditie 2 niet omgezet zijn in item-specific. Dit zijn namelijk ja/nee vragen geworden, die dus niet meegenomen konden worden bij het toetsen van H1. Ook moet hier opgemerkt worden dat in conditie 1 (eentonig) de volgorde van vraag 13 anders was dan in conditie 2 (gemengd). In conditie 1 werden de vragen namelijk als eerste en vijfde gesteld. In conditie 2 stonden de vragen wel direct na elkaar als eerste en tweede.

Tabel 4: Waardes van Cronbach’s Alpha

Conditie 1 (eentonig) Conditie 2 (gemengd) Vraag 6 α = 0,954 α = 0,896 Vraag 9 α = 0,390 α = 0,488

Tabel 4 laat zien dat de waarden van Cronbach’s Alpha voor vraag 6 in beide condities

behoorlijk hoog zijn, de waarde voor conditie 1 is numeriek net iets hoger dan die van conditie 2. De waarden van vraag 9 verschillen ongeveer net zoveel, maar dan in tegengestelde richting. Hier is namelijk conditie 2 (gemengd) numeriek juist hoger dan conditie 1 (eentonig). Daarbij komt dat deze waarden als onvoldoende worden beschouwd (alles onder 0,7).

Als volgende stap zijn de items per vraag samengevoegd. Voor de hypothese zijn namelijk de verschillen per vraag interessant. Om te beginnen een specificatie van vraag 6. De items van vraag 6 zijn samengevoegd tot één variabele met de naam ‘vraag 6’. Er is vervolgens gekozen voor een ANOVA test met een Post Hoc Tukey test. Op deze manier worden wederom alle drie

(22)

de condities vergeleken. Voor H1 is dus vooral het verschil tussen conditie 1 en 2 van belang . Conditie 3 is qua vragen namelijk identiek aan conditie 1. Alleen speelt er in conditie 3 nog een andere factor mee, namelijk online afname. Voor H1 is dus vooral het verschil tussen conditie 1 en 2 van belang. Op de relatie met conditie 3 wordt teruggekomen in paragraaf 4.4. In deze paragraaf wordt alleen H1 behandeld.

De ANOVA test (zie tabel op pagina 19) voor vraag 6 bleek significant, f: f(2,200) = 55,623, p = 0,000).

Tabel 5: Post Hoc Tukey resultaten voor vraag 6

Post Hoc Tukey

Conditie Gemiddelde Eentonig (1) Gemengd (2) Eentonig, online (3) Eentonig (1) 3,77 (SD = 0,84) X 0,000 (1 > 2) 0,308

Gemengd (2) 2,28 (SD = 0,94) 0,000 (1 > 2) X 0,000 (2 < 3) Eentonig, online (3) 3,54 (SD = 0,93) 0,308 0,000 (2 < 3) X

Uit deze test blijkt dat het verschil tussen conditie 1 en 2 in vraag 6 significant is. Dit is in overeenstemming met hypothese H1.

Voor vraag 9 en 13 (13.1 en 13.5) is hetzelfde proces doorlopen. De ANOVA test voor vraag 9 bleek significant, f: f(2,199) = 3,479, p = 0,033). Voor vraag 13 was de ANOVA test niet significant. De relevante resultaten van de Post Hoc Tukey test voor alle drie de vragen staan in Tabel 6.

Tabel 6: Post Hoc Tukey resultaten voor relevante vragen

Gemiddelde

eentonig (1) Gemiddelde gemengd (2) Tukey p-waarde Significant? Vraag 6 3,77 (SD = 0,84) 2,28 (SD = 0,94) 1 vs 2 0,000 Ja (1 > 2) Vraag 9 3,50 (SD = 0,41) 3,64 (SD = 0,48) 1 vs 2 0,173 Nee (2 > 1) Vraag 13 (13.1 en 13.5) 3,58 (SD = 0,47) 2,00 (SD = 0,36) 1 vs 2 0,000 Ja (1 > 2)

Er is in vraag 6 en vraag 13 een duidelijk verschil zichtbaar tussen stellingen in agree/disagree vorm en stellingen in item-specific vorm. Vraag 9 is niet significant en laat numeriek gezien een kleine tegenstelling zien aangezien hier juist het gemiddelde van conditie 2 (gemengd) iets hoger ligt. Vraag 9 ging specifiek over de verantwoordelijkheid van kunstmatige intelligentie, terwijl

(23)

vragen 6 en 13 meer algemeen de attitude bevroegen. Het is mogelijk dat dit van invloed is op de resultaten. Ook was de Cronbach’s Alpha onvoldoende voor vraag 9, er bestaat dus een

mogelijkheid dat een deel van de items alsnog een hoger gemiddelde hadden in de eentonige conditie. Omdat vraag 6 en 13 zo sterk afwijken en de algemene Repeated Measures test wel significant was bestaat er wel een vermoeden dat vraagvorm een verschil maakt, echter is dit niet voor elke vraag het geval. De antwoorden op eenzelfde stelling verschillen dus vaak, maar niet altijd wanneer de vraag anders gesteld wordt (Agree/disagree vs item-specific). Waarschijnlijk hangt dit af van het concept dat gemeten wordt. H1 blijft behouden, maar er is zeker nader onderzoek nodig.

4.2 Antwoordspreiding - neutrale antwoorden

Bij de volgende hypothese is wederom het verschil tussen de eentonige conditie (1) en de gemengde conditie (2) van belang. De hypothese die nu behandeld wordt luidt:

H2a: De gemengde vragenlijst leidt tot minder neutrale antwoorden dan de vragenlijst met alleen agree/disagree vragen.

Om deze hypothese te kunnen beantwoorden moet het aantal 3’en geteld worden. Score 3 is bij alle items namelijk het neutrale (oftewel middelste) antwoord. Vraag 12 doet dus wederom niet mee in deze analyse, omdat een ja/nee vraag geen middelpunt heeft. De volledige tabel met het aantal 3’en per item is te vinden in Bijlage 2. De relevante gegevens zijn per vraag opgenomen in Tabel 7. De betekenis van de getallen per cel is: aantal 3’en/totaal aantal items (percentage). Tabel 7: Aantal 3’en per vraag

Vraag Conditie 1 (eentonig) Conditie 2 (gemengd) Conditie 3 (eentonig, online) Vraag 5 19/354 (5,37) 24/385 (6,23) 18/300 (6) Vraag 6 74/355 (20,85) 92/372 (24,73) 76/300 (26) Vraag 7 36/142 (25,35) 55/153 (35,95) 42/120 (35) Vraag 8 171/490 (34,90) 192/537 (35,75) 139/420 (33,09) Vraag 9 120/489 (24,54) 157/534 (29,4) 103/420 (24,52) Vraag 10 133/426 (31,22) 137/462 (29,65) 90/348 (25,86) Vraag 11 8/213 (3,76) 11/231(4,76) 5/174 (2,87) Vraag 13 22/140 (15,71) 58/153 (37,91) 32/116 (27,58)

(24)

In deze tabel is af te lezen dat het aantal 3’en per vraag overal redelijk overeenkomt per conditie. Wanneer het aantal in conditie 1 laag is, is dit ook het geval in condities 2 en 3. Alleen vraag 13 lijkt een uitschieter, verder bestaan er wel kleine verschillen.

Ook bij deze hypothese ligt de interesse weer bij de vragen 6, 9 en 13, aangezien deze vragen een manipulatie bevatten. Daarom is een Chi-kwadraat test uitgevoerd met de absolute getallen en alleen van de vragen 6, 9 en 13 van conditie 1 en 2. De resultaten staan in Tabellen 8, 9 en 10.

Tabel 8: Chi-kwadraat van vraag 6*

Vraag 6 Middel antwoord Geen middel

antwoord Rij totaal Conditie 1 74 (81.06) [0.61] 281 (273.94) [0.18] 355 Conditie 2 92 (84.94) [0.59] 280 (287.06) [0.17] 372

Kolom totaal 166 561 727 (Grand Total)

De chi-square statistic is 1.5569. De p-waarde is 0.212117. Het resultaat is niet significant op p < .05.

*De getallen binnen haakjes geven de verwachte celtotalen aan, de getallen binnen blokhaken geven het Chi-kwadraat getal per cel weer.

De chi-square statistic is 3.0545. De p-waarde is 0.080515. Het resultaat is niet significant op p < .05.

*De getallen binnen haakjes geven de verwachte celtotalen aan, de getallen binnen blokhaken geven het Chi-kwadraat getal per cel weer.

De chi-square statistic is 18.1425. De p-waarde is 0.00002. Het resultaat is significant op p < .05. *De getallen binnen haakjes geven de verwachte celtotalen aan, de getallen binnen blokhaken geven het Chi-kwadraat getal per cel weer.

Zoals in bovenstaande tabellen zichtbaar wordt, is de Chi Kwadraat test alleen direct significant voor vraag 13. De hypothese is eenzijdig en dus zou vraag 9 ook significant zijn, echter

(25)

voorspelde hypothese H2a een situatie waarin de waarden van conditie 2 lager zouden liggen. Dit was alleen bij vraag 10 het geval. Het lijkt er dus eerder op dat juist het tegengestelde van de geformuleerde hypothese waar is. De gemengde vragenlijst leidt tot meer neutrale antwoorden dan de vragenlijst met alleen agree/disagree vragen. Hypothese H2a wordt verworpen.

4.3 Antwoordspreiding - standaarddeviatie

Hypothese 2 gaat over antwoordspreiding en bestaat uit een a en b deel. In deze paragraaf komt deel b aan bod. Ook bij deze hypothese worden conditie 1 en 2 met elkaar vergeleken. Hypothese H2b luidt:

H2b: De gemengde vragenlijst leidt tot een hogere standaarddeviatie per respondent dan de vragenlijst met alleen agree/disagree vragen.

Wanneer er veel neutrale antwoordopties gekozen worden (en weinig uitersten), is de spreiding en dus de standaarddeviatie klein. Omdat het verschil tussen de vijf opties in een item-specific vraag niet automatisch even groot is (in tegenstelling tot agree/disagree schalen) en ze niet allemaal gelabeld zijn is de kans groter dat wanneer mensen niet extreem willen antwoorden ze alle drie de binnenste antwoorden ongeveer even vaak kiezen. Ook dwingen de ja/nee je om een mening te vormen.

Omdat de gemengde vragenlijst dus meer verschillende antwoordopties zou kunnen uitlokken wordt verwacht dat de spreiding hier groter is. Om dit te kunnen testen zijn de vragen 12a, 12b en 13.2, 13.3 en 13.4 uit de standaarddeviatie berekening gelaten. Deze vragen zijn wederom de ja/nee vragen en deze hebben slechts twee antwoordopties, waardoor de spreiding juist kleiner wordt ten opzichte van de andere twee condities.

De ANOVA test voor de standaarddeviaties bleek significant, f: f(2,205) = 27,176, p = 0,000). De gemiddelden zien er als volgt uit:

Conditie 1: M = 0,9191, met SD = 0,23 Conditie 2: M = 1,2145, met SD = 0,24 Conditie 3: M = 1,0221, met SD = 0,28

De Post Hoc Tukey test laat zien dat alle drie de condities van elkaar lijken te verschillen als het aankomt op het vergelijken van de standaarddeviatie. Het verschil tussen conditie 1 en conditie 3 is op het randje. Dit is uiteraard te verklaren doordat deze vragenlijsten precies hetzelfde zijn, alleen het medium was anders.

De hypothese voorspelde dat conditie 2 de hoogste standaarddeviatie zou hebben en dat is gebaseerd op de gemiddeldes correct. De gemengde vragenlijst leidt inderdaad tot een hogere standaarddeviatie per respondent dan de vragenlijst met alleen agree/disagree vragen. De hypothese blijft behouden.

(26)

Tabel 11: Tukey test resultaten van het vergelijken van standaarddeviaties

Tukey p-waarde Significant?

Conditie 1 (eentonig) vs 2 (gemengd) 0,000 Ja (1 < 2) Conditie 1 (eentonig) vs 3 (eentonig, online) 0,049 Ja (1 < 3) Conditie 2 (gemengd) vs 3 (eentonig, online) 0,000 Ja (2 > 3) 4.4 Online vs offline

De laatste hypothese gaat over het verschil tussen conditie 1 (eentonige offline) en conditie 3 (eenvoudig online). Deze condities waren identiek qua inhoud. Echter betrof conditie 1 een vragenlijst op papier en conditie 3 een online vragenlijst in Qualtrics. Zo kon een zo direct mogelijke vergelijking gemaakt worden. De hypothese hierbij luidt als volgt:

H3: Er bestaat een verschil in antwoorden tussen de digitale en de papieren versie van de vragenlijst.

Om een eerste indruk te krijgen van de manier van antwoorden van de participanten in de twee condities wordt eerst weer naar de Cronbach’s Alpha waardes gekeken. Om deze waardes te bepalen moesten enkele vragen omgekeerd worden, dit betrof de vragen 7.2, 8.1, 8.2, 9.6, 9.7, 10.1, 10.2 en 13.1. Tabel 12 toont de waardes van Cronbach’s Alpha per vraag. De groene kleur geeft aan dat de waardes boven de 0,7 liggen en dus acceptabel zijn qua interne consistentie.

Tabel 12: Cronbach’s Alpha waarden van alle vragen

Conditie 1

(offline) Conditie 3 (online) Vraag 5 α = 0,843 α = 0,901 Vraag 6 α = 0,954 α = 0,931 Vraag 7 α = 0,466 α = 0,395 Vraag 8 α = 0,349 α = 0,521 Vraag 9 α = 0,390 α = 0,518 Vraag 10 α = 0,466 α = 0,448 Vraag 11 α = 0,732 α = 0,824 Vraag 12a α = 0,789 α = 0,717

(27)

Vraag 12b α = 0,841 α = 0,849 Vraag 13 α = 0,592 α = 0,347

Zoals op te maken valt uit Tabel 12 lijkt het beeld op het eerste gezicht erg consistent. Wanneer in conditie 1 de waarde boven de 0,7 ligt, is dat in conditie 3 ook het geval en andersom. Ook is er geen duidelijke trend zichtbaar in welke conditie steeds een hogere waarde heeft. Dit wisselt zich precies 50/50 af. Om een algemeen beeld te krijgen van hoe de eentonige offline (1) en de eentonige online (3) zich tot elkaar verhouden is een Repeated Measures test gedaan met enkel conditie 1 en 3. Deze Repeated Measures test heeft wederom 8 factoren en vergelijkt deze weer met de verschillende condities als tussen-proefpersoon factor, alleen bestaat deze nu uit twee groepen.

De Repeated Measures test bleek niet significant, f: f(1, 122) = 2,168, p = 0,144). Gebaseerd op deze waardes wordt er op vraagniveau geen groot verschil in antwoordstrategie verwacht tussen de condities. Om dit zeker te weten is wederom een ANOVA per vraag met Post Hoc Tukey test nodig.

Niet de f waarde van de ANOVA test, maar de Post Hoc Tukey test is voor deze hypothese interessant. Dit komt omdat voor H3 alleen de verschillen tussen conditie 1 en 3 beoordeeld moeten worden. Er kon geen betrouwbare ANOVA waarde gevonden worden voor vraag 12, aangezien deze vraag in conditie 2 (gemengd) enkel ja/nee vragen heeft en dus automatisch afwijkt van de andere twee. De resultaten zien er als volgt uit:

Tabel 13: Uitkomst ANOVA’s

Vraag M conditie 1 M conditie 2 M conditie 3 f df1 df2 Sig. (2-‐tailed) 5 4,3000 4,2519 4,3267 0,201 2 204 0,818 6 3,7690 2,2806 3,5367 55,623 2 200 0,000 7 2,9648 3,0526 3,2333 2,288 2 204 0,104 8 3,3510 3,3543 3,1476 4,607 2 202 0,011 9 3,4990 3,6380 3,4333 3,479 2 199 0,033 10 3,2887 3,2965 3,1408 2,427 2 203 0,091 11 4,2585 4,3766 4,3851 1,017 2 203 0,364 13.1 en 13.5 3,5771 2,0027 3,4862 0,035 2 200 0,965

Zoals in Tabel 13 af te lezen is, zijn enkel de vragen 6, 8 en 9 significant op Alpha niveau 0,005. Binnen deze vragen zou dus een verschil kunnen bestaan. De resultaten van de Post Hoc Tukey test voor conditie 1 vs 3 zien er per vraag als volgt uit:

(28)

Tabel 14: Uitkomst Post Hoc Tukey test voor conditie 1 vs 3

Tukey p-waarde Significant?

Vraag 5 1 vs 3 0,975 Nee (3 > 1) Vraag 6 1 vs 3 0,308 Nee (1 > 3) Vraag 7 1 vs 3 0,090 Nee (3 > 1) Vraag 8 1 vs 3 0,025 Ja (1 > 3) Vraag 9 1 vs 3 0,699 Nee (1 > 3) Vraag 10 1 vs 3 0,149 Nee (3 > 1) Vraag 11 1 vs 3 0,439 Nee (3 > 1) Vraag 12a 1 vs 3 0,246 Nee (1 > 3) Vraag 12b 1 vs 3 0,074 Nee (1 > 3) Vraag 13 1 vs 3 0,512 Nee (1 > 3)

Tabel 14 laat zien dat alleen in vraag 8 een significant verschil gevonden is tussen conditie 1 en conditie 3. Deze vraag was ook binnen de ANOVA test significant. Bij deze vraag werden offline hogere waardes toegekend aan de items dan online. Dit beeld treedt echter niet op bij de andere vragen. De richting lijkt zelfs nogal willekeurig.

Hiermee kan geconcludeerd worden dat er in dit onderzoek geen verschil in antwoorden bestaat tussen de digitale en de papieren versie van de vragenlijst. H3 wordt op basis van deze gegevens verworpen.

4.5 Overige bevindingen

Tijdens het afnemen van de vragenlijsten en het verwerken van de gegevens vielen enkele zaken op. Zo werd er meerdere keren door respondenten opgemerkt dat de vragen 12a en 12b hetzelfde zouden zijn. Dit is ook het geval, maar in het korte tekstje voorafgaande aan de tekst stond wel degelijk een verschil namelijk:

- Stelt u zich de situatie voor waarin de computer scans even goed beoordeelt als een radioloog.

- Stelt u zich de situatie voor waarin de computer scans beter beoordeelt dan een radioloog.

Ook viel het op dat de agree/disagree items in grotere matrixblokken vaak allemaal dezelfde score kregen. Zeker richting het einde van de vragenlijst. Dit zou een indicatie kunnen zijn dat de lijst alsnog te lang is. Vervolgens werden vraag correcties lang niet altijd gedaan op de manier zoals beschreven staat. Dit toont aan dat de meeste mensen de tussenstukjes in een vragenlijst niet of zeer haastig lezen. Daarbij was het opvallend dat in conditie 2 veel meer verbeteringen

Vraagtypes en afname-­modus in vragenlijsten