Meten van vertrouwen - Vertrouwen in de lokale overheid : Een methodologische zoektocht naar fa

Vertrouwen kan je op verschillende manieren meten. Het vervelende is, dat dit ook gevolgen heeft voor de relaties die je vindt met de antecedenten. Cook en Gronke (2005) lieten in een onderzoek zien dat verschillende metingen van vertrouwen empirisch verschillen. Zij namen in hun vragenlijst een aantal in de Verenigde Staten veel gebruikte items voor het meten van vertrouwen in de overheid op, onder andere de vragen uit de National Election Studies (NES), en daarnaast een eigen schaal voor vertrouwen die liep van actief vertrouwen tot actief wantrouwen.

Met de standaardvragen overschat je het aantal mensen dat geen vertrouwen in de overheid heeft. Weinig vertrouwen wordt in vertrouwensonderzoeken vaak geïnterpreteerd als wantrouwen. Bij meting met een doorlopende schaal, van actief vertrouwen tot actief wantrouwen met in het midden een neutrale positie (geen vertrouwen en geen wantrouwen), blijkt dat het aantal wantrouwenden of mensen met een cynische houding wel meevalt en dat veel respondenten eerder sceptisch zijn en niet weten of ze de overheid moeten vertrouwen dan wel wantrouwen. Per saldo is de groep sceptici en vertrouwenden aanzienlijk groter dan de groep wantrouwenden of cynici. Cook en Gronke vergeleken vier verschillende maten voor vertrouwen (waaronder vertrouwen-wantrouwen) met drie sets voor- spellende variabelen en met een aantal demografische variabelen. Voor ieder van de vertrouwensmaten bleek te verschillen wat de statistisch significante voorspel- lers waren (Cook & Gronke, 2005).

Hamm et al. (2011) kwamen tot vergelijkbare bevindingen bij hun onderzoek naar het vertrouwen in rechtbanken. Zij maten het vertrouwen in rechtbanken op drie verschillende manieren. Hoewel de onafhankelijke variabelen met alle drie de vertrouwensmaten correleerden, verschilden de resultaten van de regressie- analyses voor de drie operationaliseringen.

Met het voorgaande in gedachten is het niet zo vreemd dat bij de bespreking van de antecedenten van vertrouwen in hoofdstuk 3 bleek dat de relatie tussen diverse antecedenten en vertrouwen nogal eens verschilt van onderzoek tot onderzoek. Ook de manier waarop vertrouwen wordt gemeten verschilt namelijk tussen die onderzoeken. Ik inventariseer daarom voor alle onderzoeken die ik gebruikte voor het maken van mijn antecedentenlijst hoe het vertrouwen werd gemeten. Ik kijk daarbij uitsluitend naar empirisch onderzoek naar vertrouwen. Overzichtsartikelen, meta-analyses, en de in hoofdstuk 3 ook aangehaalde onderzoeken naar tevredenheid van Boogers (2013), Glaser en Denhardt (2000) en Glaser en Hildreth (1999), laat ik buiten beschouwing. In twee gevallen is er sprake van respectievelijk onvoldoende informatie over de meetmethode (Smith, 2010) en het

Exploratie – Methoden, data en schaalconstructie

uitsluitend meten van antecedenten (Grimmelikhuijsen, 2012). Daardoor resteren 35 rapportages.

Kijkend naar de manier waarop vertrouwen is gemeten in de in hoofdstuk 3 aangehaalde onderzoeken, blijkt dat er grofweg vier verschillende methodes zijn gebruikt. Drie daarvan omvatten ieder ongeveer een derde van de onderzoeken, de vierde werd in één geval toegepast.

1. Bij de eerste methode (elf onderzoeken) bestaat de meting van het vertrouwen in de overheid, een overheidsinstelling of de politiek uit het stellen van één vertrouwensvraag. Die vraag heeft ongeveer deze vorm: Hoeveel vertrouwen

hebt u in [overheidsobject]?. Deze methode is gebruikt door Alarcón Garcia en

Ayala Gaytán (2013), Braithwaite (1998), De Fine Licht (2011), De Heer (2014), Downe et al. (2013), Kim, J. (2005), Meyer et al. (2013), Rahn en Rudolph (2002), Shaleva (2015), Solé-Ollé en Sorribas-Navarro (2014), en Tolbert en Mossberger (2006).

2. De tweede methode (twaalf onderzoeken) bestaat uit het stellen van eenzelfde soort vertrouwensvraag als bij de eerste methode, maar dan voor meerdere afzonderlijke vertrouwensobjecten, zoals de verschillende overheidslagen of verschillende overheidsinstituties. Die metingen worden vervolgens gecombi- neerd tot één schaal, als maat voor vertrouwen. Deze methode is terug te vinden bij Camaj (2014), Christensen en Lægreid (2005), Crête, Pelletier en Couture (2007), Gefen (2000), Job (2005), Mishler en Rose (2001), Netjes (2005), Newton en Norris (1999), Segovia Arancibia (2008), Van Engen, Van Loon en Tummers (2014), Van der Meer (2003), en Vigoda-Gadot (2007).

3. De derde methode (elf onderzoeken) is wezenlijk anders dan de vorige twee. Bij deze methode maken de onderzoekers een schaal bestaande uit een aantal items die (volgens hen) een relatie met vertrouwen hebben. De gebruikte items verschillen nogal per onderzoek, zowel in aantal als inhoud. Veel van die items meten wat ook als antecedenten van vertrouwen kunnen worden beschouwd, zoals politiek cynisme of politieke scepsis. Daarmee lopen mogelijk de antecedenten van vertrouwen en het vertrouwensconcept zelf door elkaar, waarover zo meer. Deze methode is toegepast door Alink (2014), Denters en Klok (2006), Dunn en Schweitzer (2005), Hamm et al. (2013), Herian (2014), Kim, D.J. (2005), Schoon en Cheng (2011), Wang en Wan Wart (2007), Yang (2005), Yao (2014), en Zhang en Wang (2010).

Hoofdstuk 4

4. De vierde methode (één onderzoek) maakt gebruik van de vertrouwensschaal van Mayer en Davis (1999), twee van de drie auteurs van het model van Mayer et al. (1995). Deze methode lijkt op de derde, maar hierin bestaat de vertrouwensschaal uit vier items die je kunt zien als vragen naar uitingen van vertrouwen.11_{Toegepast door Gill et al. (2005).}

De eerste twee methodes, in tweederde van de onderzoeken gebruikt, zijn in es- sentie hetzelfde, alleen verschilt het object van vertrouwen. In beide gevallen wordt rechtstreeks naar vertrouwen gevraagd, maar bij de tweede methode wordt de vertrouwensscore opgebouwd uit het oordeel over een aantal deelobjecten. Ove- rigens zijn er tussen de onderzoeken nog behoorlijk wat verschillen tussen de formulering van de vragen en de beschikbare antwoordcategorieën.

De derde en vierde methode lijken ook op elkaar, maar waar de derde het vertrouwen meet door naar antecedenten te vragen, doet de vierde dat door uitingen van vertrouwen te meten.

Voor wie, zoals ik, wil weten wat mensen bedoelen als ze zeggen vertrouwen in de overheid te hebben, is de derde methode problematisch. Mogelijke antecedenten voor vertrouwen in de overheid maken deel uit van de vertrouwensmaat, waardoor de analyses vertekend raken. Dit probleem speelt bijvoorbeeld bij onderzoekers die gebruik maken van de vertrouwensvragen uit de Amerikaanse National Elec- tion Studies (ANES of NES). Deze vragen gaan over of mensen trust the government

to do what’s right, whether government is run by a few big interests, how much tax money the government wastes, whether those running government are crooked, and whether those running government are smart (Gershtenson & Plane, 2007, p. 1). De

vragen worden sinds 1958 gesteld; de laatste vraag is na 1980 vervallen. Onderzoe- kers gebruiken veelal de eerste vier vragen om een vertrouwensschaal te maken, maar soms ook drie of twee van de vragen, met slechts minimale rechtvaardiging voor hun keuze. Dit heeft tot debat geleid over het samenvoegen van oorzaken en gevolgen met het onderliggende concept (Gershtenson & Plane, 2007; zie voor kritiek op de NES-vragen ook het hierboven besproken onderzoek van Cook & Gronke, 2005). Het gebruiken van alleen de eerste vraag, of men vertrouwt dat de

11 De vragen die Mayer en Davis (1999) gebruikten luiden als volgt:

1. If I had my way, I wouldn’t let top management have any influence over issues that are important to me.*

2. I would be willing to let top management have complete control over my future in this company.

3. I really wish I had a good way to keep an eye on top management.*

4. I would be comfortable giving top management a task or problem which was critical to me, even if I could not monitor their actions.

Exploratie – Methoden, data en schaalconstructie

overheid de goede dingen doet, komt ook voor, bijvoorbeeld in het onderzoek van Rahn en Rudolph (2002), door mij bij de eerste methode meegeteld. Deze vraag wordt beschouwd als de standaard, single item, vertrouwensvraag uit de NES.

Gershtenson en Plane (2007) hebben in een pilot-onderzoek gekeken hoe de vertrouwensvragen in de NES, en specifiek de standaardvraag, kunnen worden aangepast om een aantal problemen te ondervangen. Naast het vermengen van antecedent en concept betreffen de problemen onder meer de gebruikte antwoord- categorieën. Dat zijn er te weinig en ze hebben zeer verschillende bandbreedtes per categorie. Daardoor zijn grote veranderingen in vertrouwen mogelijk zonder dat dit de respondenten noopt tot het kiezen van een andere antwoordcategorie. Respondenten die nog redelijk vertrouwen in de overheid hebben worden daardoor meegeteld bij de groep met weinig vertrouwen. Gershtenson en Plane vergeleken daarom drie subsamples die ieder andere vertrouwensvragen kregen voorgelegd en verschillende antwoordmogelijkheden. Op basis daarvan bevelen zij een “per- centage van de tijd”-antwoordcategorie aan: hoeveel procent van de tijd vertrouwt

u…. Hoewel het volgens Gershtenson en Plane aanbeveling verdient om vragen

naar proces en uitkomsten van elkaar te onderscheiden, kan dat tot te lange vra- genlijsten leiden. In dat geval bevelen Gershtenson en Plane aan om één vraag te gebruiken: Op een schaal van 0-100, hoeveel procent van de tijd denkt u dat u de

regering in Washington kunt vertrouwen?. Deze gestroomlijnde versie van de stan-

daard vertrouwensvraag is rechttoe rechtaan en laat de respondenten vrij om zelf te bepalen welke criteria hun vertrouwen in de overheid bepalen. Dit in tegenstel- ling tot de oude vraag, die het heeft over vertrouwen in de overheid “om de juiste dingen te doen” (Gershtenson en Plane, 2007). Daarmee komen Gershtenson en Plane uit op de eerste van de vier door mij onderscheiden methodes voor vertrou- wensmeting.

Voor mijn onderzoek opteer ik primair voor één rechtstreekse vraag naar vertrouwen, met een ruim aantal antwoordcategorieën: een rapportcijfer voor vertrouwen. De redenen daarvoor zijn hiervoor deels aan de orde gekomen, maar een belangrijke overweging is een andere. Vertrouwen is multidimensionaal, maar als je wilt weten welke dimensies dat zijn, kan je vertrouwen niet meerdimensionaal meten. Je maakt dan al een keuze voor de dimensies die van vertrouwen deel uit zouden maken. Mijn focus is gericht op datgene wat bepaalt dat mensen een antwoord weten te geven op de vraag hoeveel vertrouwen ze hebben in de (lokale) overheid, tot uiting komend bijvoorbeeld in de vorm van een rapportcijfer. Iedere keuze voor een schaal bestaande uit meerdere items impliceert een al vooraf ge- maakte selectie van een aantal dimensies. Bij de rapportcijfervraag bepalen mensen zelf wat ze onder vertrouwen verstaan en wat de mate van vertrouwen

Hoofdstuk 4

bepaalt. Een belangrijk bijkomend voordeel van meten met een rapportcijfer is het reduceren van common source bias, omdat je dan geen likertschaal met likertschalen correleert (zie hierna en hoofdstuk 6).

Het beantwoorden van een één item-vraag naar vertrouwen is de gedragshan- deling die volgt uit het vertrouwen dat mensen hebben in de overheid. Uit dat vertrouwen zouden ook andere gedragingen kunnen volgen. Dat is de benadering uit de slechts sporadisch toegepaste vierde meetmethode. De onderzoekers hebben in die aanpak gekozen voor een aantal hypothetische gedragingen die het gevolg kunnen zijn van vertrouwen. Het nadeel van deze methode is, dat de onderzoeker noodgedwongen slechts een selectie aan gedragsopties kan voorleggen. Afhanke- lijk van de reden voor het onderzoek kan dit evenwel een bruikbare aanpak zijn. Voor mij is dit minder het geval, omdat ik primair geïnteresseerd ben in wat bepaalt dat mensen al dan niet de gemeente zeggen te vertrouwen en andere gedragshan- delingen dan het antwoord op de vertrouwensvraag dus minder relevant zijn.

In de literatuur is de kwestie van single-item versus multiple item metingen onderwerp van uitvoerige discussie (geweest). Hoewel lange tijd metingen met single items min of meer taboe waren, zelfs in die mate dat tijdschriften dergelijke onderzoeken niet publiceerden (Bergkvist & Rossiter, 2007; Wanous, Reichers & Hudy, 1997), blijkt uit onderzoek naar deze kwestie dat single items onder bepaalde voorwaarden goed bruikbaar zijn en in sommige gevallen beter dan schalen bestaande uit meerdere items.

Bergkvist en Rossiter (2007) gaan uitgebreid in op de voor- en nadelen van het gebruik van zowel meerdere als enkele items en testen een groot aantal op basis daarvan geformuleerde hypotheses. Hun conclusie is dat onder bepaalde condities single items goed bruikbaar zijn en voordelen hebben boven multiple items. Een belangrijke voorwaarde is dat het te meten construct concreet is en niet abstract. Diamantopoulos, Sarstedt, Fuchs, Wilczynski en Kaiser (2012) repliceerden het onderzoek van Bergkvist en Rossiter (2007) en deden een simulatiestudie om vast te stellen onder welke condities single items mogelijk even goed of beter zijn dan multiple. Diamantopoulos et al. (2012) komen tot de conclusie dat single items het overwegen waard zijn bij kleine samples (bij mij niet aan de orde), of als Cronbachs α voor een schaal met meerdere items 0,90 of hoger is. Single items zijn tot slot mogelijk als men er van uit mag gaan dat de respondenten het in hoge mate eens zijn over wat het te meten construct inhoudt; met andere woorden, of iedereen hetzelfde verstaat onder het te meten begrip. Bij vertrouwen is dat naar mijn in- schatting het geval. Of vertrouwen abstract is of concreet is een interessant punt: het feit dat iedereen in het dagelijks spraakgebruik weet waar je het over hebt als je het over vertrouwen hebt, doet mij vermoeden dat vertrouwen voldoende con-

Exploratie – Methoden, data en schaalconstructie

creet is om het met één item te mogen meten. Vertrouwen lijkt wat dat betreft op

geluk. Van geluk is empirisch op basis van meerdere onderzoeken vastgesteld dat

je het met één vraag kan meten: zie Veenhoven (2008b).

Onderzoek van Gardner, Cummings, Dunham en Pierce (1998) is relevant als het om de keus gaat tussen een schaal bestaande uit likert items en een anders- oortige enkelvoudige meting, zoals in mijn geval een vertrouwensschaal en een rapportcijfer. Gardner et al. (1998) vergeleken empirisch beide meetmethoden, waarbij het single item een verticale lijn was waarop respondenten hun positie moesten aankruisen. Net als bij een rapportcijfer levert dat een nauwkeurigere gradatie dan met vijfpunts likert items het geval is. Een belangrijk probleem dat bij het uitsluitend gebruiken van likertschalen aan de orde is, is dat van de common

method-variantie. Als zowel de afhankelijke als de onafhankelijke indicatoren uit

likertschalen bestaan, kunnen de gevonden verbanden sterker zijn doordat een deel van de gemeenschappelijke variantie het gevolg is van dezelfde meetmethode. Het resultaat van de vergelijking was, dat beide methoden tot vergelijkbare resultaten leidden. De ene methode was dus niet superieur aan de andere (bij dit on- derzoeksonderwerp, de mate waarin medewerkers hun aandacht op hun werk focussen). Als het risico van common method-variantie groot is, kan het volgens Gardner et al. (1998) goed zijn om verschillende meetmethoden te kiezen voor de onafhankelijke en afhankelijke variabelen (zie ook: Podsakoff, Mackenzie & Pods- akoff (2012), en de bespreking van deze kwestie in hoofdstuk 6). Hun onderzoek toont aan dat dit zonder nadelige gevolgen mogelijk is. Zoals altijd zal de onderzoeker de opties beredeneerd tegen elkaar moeten afwegen, en zoals Gardner et al. (1998) op basis van hun onderzoek stellen: single item metingen moeten niet op voorhand al worden verworpen.

Een belangrijk argument tegen het gebruik van enkele items is dat die een onacceptabel lage betrouwbaarheid zouden hebben (Wanous et al., 1997). Wanous et al. (1997) deden daarom een meta-analyse van onderzoeken naar baantevre- denheid met single item en multi item schalen. Zij konden daarbij de minimale betrouwbaarheid van de single item metingen schatten. Op basis daarvan achtten zij een minimale betrouwbaarheid van 0,70 voor dergelijke metingen realistisch. Dat is vergelijkbaar met de betrouwbaarheid van schalen. Bovendien bleken de single item metingen robuuster. Wanous et al. (1997) doen niet af aan de waarde van goed geconstrueerde schalen, maar stellen op grond van hun bevindingen dat het gebruik van single items ook acceptabel is, als de onderzoeksvraag dat impliceert of als er omstandigheden zijn die het gebruik van schalen belemmeren.

Nu de literatuur over de kwestie van single item versus multiple items het gebruik van single items minstens acceptabel acht (uiteraard onder voorwaarden),

Hoofdstuk 4

kies ik op basis van de argumenten hierboven primair voor het gebruik van een enkele meting voor vertrouwen, en wel in de vorm van een rapportcijfer. Daarbij is relevant hoe concreet “vertrouwen” is voor inwoners. Als men geheel verschillende dingen daaronder verstaat, is dat een negatieve indicatie voor het gebruik van het rapportcijfer. Als daarentegen iedereen er ongeveer hetzelfde bij voor ogen heeft, is het rapportcijfer een verantwoorde maat. Ik veronderstel dat mensen bij het begrip vertrouwen daadwerkelijk hoogst vergelijkbare beelden hebben, zonder dat ze dat misschien direct onder woorden kunnen brengen.

In document Vertrouwen in de lokale overheid : Een methodologische zoektocht naar factoren die het vertrouwen in de gemeente verklaren (pagina 96-102)