• No results found

Multilevel analyse

De data zijn verzameld op individueel niveau. De variabelenconstructie zoals die in de vorige paragraaf per afname is beschreven zijn ook aan de hand van de individuele scores uitgevoerd. Om deze data te mogen gebruiken op het object van onderzoek, de betreffende teams, is een analyse nodig van de coherentie van antwoorden binnen de teams. Dit heet een multilevel analyse. In principe is sprake van twee niveaus: teamniveau (macro-level) en individueel niveau (micro-level). Uiteraard is nog een hoger niveau te definiëren. Dit niveau betreft de clustering van teams naar de onderdelen van de organisatie (krijgsmachtdelen, zoals KL en KLu of organisatieonderdelen als de OPCO’s en DMO). In dat geval is het individu microniveau, het team meso- en het krijgsmacht- of organisatiedeel macroniveau. Ook is een een derde niveau te creëren door de teams te differentiëren naar een andere dimensie zoals een contextuele of teamdemografische variabele. Het is interessant om te onderzoeken of bijvoorbeeld hoogdynamische teams anders leren dan laagdynamische teams. De derde hypothese gaat hier over. De steekproefgrootte (het aantal teams) kan wel een beperkende factor vormen om dit derde niveau te mogen hanteren.

Bij het werken met twee niveaus geldt dat de scores onder leden van elk team overeen moeten komen en dat deze overeenkomst groter moet zijn dan de overeenkomst tussen teams. Er moet dus sprake zijn van een tussengroepvariantie (between-subject variance in ANOVA) die significant groter is dan toeval/de binnengroepvariantie (within-subject variance in ANOVA), om de individuele scores naar teamniveau om te mogen zetten. De intraklasse correlaties ICC(1) (Intra Class Correlation) en ICC(2) zijn hierbij behulpzaam (Tabachnick en Fidell, 2007). ICC(1) geeft het percentage van de variantie in de afhankelijke variabelen weer welke veroorzaakt wordt door teamlidmaatschap, in formule: ICC(1)=Var(team): (Var(error)+Var(team)) [=between group): (Var-between subject+ Var-(Var-between group)].

ICC(2) geeft de betrouwbaarheid van de groepsgemiddelden weer en is af te leiden van ICC(1) en de gemiddelde groepsgrootte. De interpretatie van de ICC(2) verloopt hetzelfde als bij Cronbach’s α. In formulevorm:

ICC(2)=(NxICC(1)): (1+(N-1)ICC(1)).

Vaker wordt de interbeoordelaarsovereenstemming (rWG) gebruikt (James, Demaree en Wolf, 1984). Deze coëfficiënt komt voort uit de vergelijking: rWG= echte variantie: (echte variantie + foutenvariantie), of ingevuld: = (σ (EU)²- s(xj)²): [(σ (EU)²- s(xj)²) + s(xj)²].

De items in de vragenlijst zijn allemaal gelijk gericht rond de betreffende variabele. De uitgevoerde factor- en betrouwbaarheidsanalyse draagt hier zorg voor. Dan mag worden aangenomen dat de varianties van de items ongeveer gelijk zijn. De voorgaande formule mag dan worden omgezet naar:

R (WG(j))= {J[1-(s(xj)² : σ (EU)²)]} : {J[1-(s(xj)² : σ (EU)²)]+ (s(xj)² : σ (EU)²)} (James e.a., 1984).

De interbeoordelaarsovereenstemming (rWG(j)) is een maat die aangeeft in hoeverre teamleden het met elkaar eens zijn bij het beoordelen van de constructen. Het is een coëfficiënt die de binnengroep (within-group) gelijkgestemdheid (interrater reliability) van de gemiddelde scores van de respondenten op J items weergeeft. Hierbij is s(xj)² de gemiddelde opgetreden variantie van de J-items en σ (EU)² is de te verwachten variantie die optreedt als fout (Error). Gezien de omstandigheden van afname wordt verondersteld dat elke respondent onder dezelfde condities de vragenlijst beantwoordde als zijn teamleden. Er mag dan gesteld worden dat per team de verdeling van de fouten een uniforme (Uniform) verdeling is.

Voor σ (EU)² geldt: σ (EU)² = (A²-1):12 (Mood, Graybill en Boes, 1974). Hierbij is A het aantal alternatieven in de antwoordschaal voor de items. De aanname bij het werken met de vergelijking van de foutenvariantie σ (EU)² (σ (EU)² = (A²-1):12) is dat discrete antwoordschalen worden gebruikt. Divers onderzoek onderbouwt dit en het blijkt dat de meeste verdelingen van de uitkomsten uiteindelijk resulteren in zeven, plus of min twee, categorieën of antwoordschalen (James e.a., 1984). De A= 5 voor dit onderzoek valt hier binnen.

De rWG(j) kan tussen de 0 en 1 variëren en een rWG(j) van minimaal 0,70 wordt noodzakelijk geacht om de individuele scores te kunnen aggregeren naar teamniveau daar er dan een redelijke overeenstemming binnen de groep wordt verondersteld (George, 1990). Bij de interpretatie van de resultaten moet wel rekening worden gehouden met het feit dat hoe meer items een variabele bevat, hoe hoger de waarde van rWG(j) is (Castro, 2002).

Uit de resultaten van de berekeningen van de interbeoordelaarsovereenstemming in dit onderzoek blijkt de laagste waarde 0,07 (een echte uitschieter), en de hoogste 1,0 (diverse malen) te zijn. Het gemiddelde van de ruim 2400 waarden is 0,92 en de spreiding is heel erg klein (de variantie is 0,006). In bijlage E staan alle resultaten.

Bij analyse van de resultaten viel op dat bij de variabelen Belangen, Dynamiek, Betrokkenheid, Distal learning en Beoordelen de rWG bij een aantal teams onder de 0,7 scoort. Bij Belangen is dit 31 maal, bij 25 teams; bij Dynamiek 10 maal bij 8 teams, bij Betrokkenheid 3 maal bij 3 teams, bij Distal learning 6 maal bij 5 teams en bij Beoordelen 3 maal bij ook 3 teams.

De variabelen Belangen, Dynamiek en Boordelen zijn de enige variabelen die opgebouwd zijn uit drie items en waarvan de verwachting ook was dat de hoogte van rWG, gezien de formule, lager uitviel. Van de 53 rWG-waarden van onder de

0,7 vallen 44 onder deze drie variabelen. De gemiddelde rWG van deze variabelen zijn ook het laagste, voor de drie afnamen respectievelijk 0,79, 0,85 en 0,89.

Bij een analyse per team werd allereerst beschouwd welke teams meer dan eenmaal opvallen met een te lage rWG. Binnen één en dezelfde variabele blijken dit team 28, 29, 33 en 43 te zijn voor Belangen, team 31 en 43 voor Dynamiek en team 28 voor Distal learning. Op zich lijkt hier geen systematische oorzaak aan ten grondslag te liggen. Team 43 is gedurende het onderzoek flink veranderd (bijvoorbeeld uiteindelijk maar één teamlid die gedurende de drie afnamen bij het team bleef) en team 28 is na de tweede afname voor de helft gewijzigd. Ook bij teams 29 en 33 is tussentijds veel verloop geweest. Verloop, het in- en uitstromen van teamleden heeft een effect op de interbeoordelaarsovereenstemming. Nieuwe teamleden hebben nog geen ervaring met het team en de werkzaamheden, contacten, historie en dergelijke. Wat alle bovenstaande teams ook gemeen hebben, is dat ik bij de eerste afname geen rechtstreeks contact heb gehad met de teamleden om doel en opzet van het onderzoek toe te lichten. Dit is echter geen sluitende verklaring voor de lage(re) interbeoordelaarsovereenstemming. Er zijn nog enkele andere teams geweest waar de vragenlijsten van de eerste afname via de commandant, met zijn inleiding en uitleg, en niet via mij zijn verstrekt. Een andere verklaring is dat de teamleden van deze teams echt uiteenlopende ervaringen en perspectieven hebben op twee contextuele variabelen en Distal learning. Maar een verbindende oorzaak hiervan is binnen deze teams niet te vinden.

Kijkend naar de gemiddelde rWG over alle teams per afname is de laagste waarde 0,78, terwijl de hoogste waarde 0,98 is en het gemiddelde 0,92. Dit zijn op zich goede waarden om de resultaten naar teamniveau te mogen aggregeren.

Conclusie: de respons van de teamleden mag op teamniveau worden beschouwd. Dit houdt in dat het aantal teams, de N, voor de drie afnamen respectievelijk 64, 59 en 50 blijft (waarbij 49 teams aan alle drie afnamen hebben deelgenomen). 4.3 Datacontrole op teamniveau

Daar de aantallen (N) met grofweg een factor vijf tot zes verminderd zijn bij het overgaan van individueel- naar teamniveau, was een extra screening van de data gewenst. Bij N van een paar honderd wordt al vlug voldaan aan de aannames om parametrische toetsen te mogen uitvoeren in plaats van verdelingsvrije toetsen (zoals een Chi-kwadraattoets). Bij de huidige N van de teams moest opnieuw gekeken worden of de data ook parametrisch getoetst kunnen worden (met bijvoorbeeld een t- of F-toets). Deze assumpties gelden ook voor het toepassen van Structural Equation Modeling (SEM) (Kline, 2005).

De te onderzoeken aspecten hierbij waren: (A) waren de data normaal verdeeld, (B) in hoeverre waren er uitbijters en hoe is hiermee omgegaan, (C) in hoeverre

was er sprake van multicollineariteit, (D) waren de data betrouwbaar en valide en (E) hoe is omgegaan met ‘missing data’?

A

Een belangrijke eis is dat de variabelen een normale verdeling hebben. Hiervoor zijn de skewness en kurtosis berekend. Voor een eenduidige beoordeling kunnen de skewness en kurtosis beoordeeld worden met z-scores. Uit bijlage F (Analyse Normale verdeling op teamniveau; Skewness-Kurtosis) blijkt dat de waarde van 1,96 (p< 0,05) achtmaal wordt overschreden. Z-waarden boven 3,29 zijn signifi-cant bij p< 0,001. Als deze bovengrens wordt gehanteerd, blijven nog twee hogere z-waarden, behorende bij één variabele (Informeel leren) bij het tweede meetmoment over. Deze afwijking van de skewness en kurtosis is significant. In het histogram zijn deze afwijkende waarden echter niet terug te vinden.

De gegevens werden geaccepteerd en de data worden beschouwd als zijnde normaal verdeeld.

B

Om uitbijters te analyseren werden met behulp van SPSS voor elke afname stamdiagrammen (‘stem and leaf plots’) en boxdiagrammen opgesteld voor elke variabele. Er is sprake van een uitbijter bij p< 0,001. Voor de eerste afname blijkt één team (59) verantwoordelijk te zijn voor een uitbijter bij vier variabelen. In totaal zijn er vijf uitbijters bij vier variabelen.

Bij de tweede afname zijn bij zes variabelen uitbijters. Team 24 komt tweemaal voor. Bij de variabele Double loop leren is sprake van zes uitbijters. Bij de andere variabelen is driemaal sprake van een uitbijter veroorzaakt door één team en tweemaal door twee teams. De zes betrokken variabelen zijn anderen dan de vier van de eerste afname.

De derde afname is goed voor twaalf uitbijters, verspreid over acht variabelen. Team 32 komt hier tweemaal voor.

Uitbijters veroorzaken skewness. Bij T0 en T2 blijken de in totaal vijf variabelen die te skew zijn, ook die variabelen te zijn die uitbijters hebben. De enige variabele die (juist zwaar) geskewed is bij T1 (Informeel leren) veroorzaakt vreemd genoeg geen uitbijters. De variabele bij T1 die de meeste uitbijters telt (zes bij Double loop leren) blijft onder de significantiewaarde van 1,96. Hier heffen de uitersten (twee boven en vier er onder) elkaar waarschijnlijk min of meer op.

De conclusie was dat er sprake is van uitbijters maar dat deze niet dusdanig hinderlijk zijn dat ze verstorend werken op uitkomsten van berekeningen.

C

Van multicollineariteit is sprake als er overlap is tussen constructen. Een eerste maatstaf om multicollineariteit te beoordelen, is het interpreteren van de correlatiematrix. Indien R> 0,9 is er sprake van multicollineariteit (o.a. Tabachnick en Fidell, 2007). Uit de correlatiematrices (bivariatie) blijkt dat een enkele keer 0,9 wordt benaderd (bijlage G).

Bij T0 is de correlatie tussen Single loop leren en Planning het sterkst (R= 0,89). Daarnaast blijkt dat Vertrouwen met twee andere variabelen hoog correleert (R= 0,82 en 0,83, respectievelijk Actie en Beoordelen). De overige correlatiecoëfficiënten liggen (ver) onder de 0,8.

Bij T1 is de hoogste correlatiecoëfficiënt weer die tussen Single loop leren en Planning, R= 0,87. Hierbuiten zijn de hoogste correlatiecoëfficiënten 0,82 en 0,80, beiden met de variabele Beoordelen, waarbij de hoogste R gekoppeld is aan Vertrouwen (net als bij T0), de ander aan Single loop leren.

Bij T2 is de hoogste correlatiecoëfficiënt 0,80, tussen Beoordelen en Single loop leren. De correlatie tussen Beoordelen en Planning bedraagt nu 0,79. Single loop leren blijkt steeds sterk te correleren met Planning, de R is respectievelijk 0,89, 0,87 en 0,75.

Om te zien of er sprake is van multicollineariteit zijn ook de Collinearity Statistics bekeken, de Tolerantie en de VIF (Variance Inflation Factor). Field (2005) concludeert op grond van Myers (1990) dat vanaf een VIF-waarde van 10 er reden is voor zorgen over multicollineariteit. Voor een andere invalshoek verwijst Field (2005) naar Bowerman en O’Connell (1990) die uitgaan van de gemiddelde VIF-waarde in het regressiemodel. Indien dit gemiddelde groter is dan 1, is sprake van multicollineariteit. Tolerantie is de reciproke waarde van VIF. Volgens Field (2005) hanteert Menard (1995) een grens van 0,2 bij Tolerantie om te spreken over multicollineariteit.

Voor clusters van variabelen waarbij multicollineariteit zou kunnen optreden werden regressieanalyses uitgevoerd. Bij een lineaire regressie met als afhankelijke variabele Single loop leren en als onafhankelijke variabelen Vertrouwen, Betrokkenheid en Beoordelen (Teamsensation) bleken de VIF-waarden op T0 respectievelijk 3,7, 2,7 en 3,5 te zijn. Dit is lager dan 10 en de Tolerantiegrens (0,2) werd niet overschreden: 0,27, 0,37 en 0,29.

Voor T1 waren de VIF-waarden respectievelijk 3,5, 2,2 en 3,1 en voor T2 lagen ze in dezelfde orde: 3,3, 2,2 en 2,6. De Tolerantie bleef steeds boven de 0,2 en de scores liggen onder de 10.

Hoewel de correlaties vrij hoog zijn, is er dus niet eenduidig sprake van multicollineariteit bij deze drie variabelen.

Het volgende cluster van samenhangende variabelen dat bekeken is, betreft Distal learning, Informeel leren, Single- en Double loop leren, Dialoog en Planning. De VIF-waarden bij T0 waren respectievelijk: 1,5, 1,2, 6,6, 2,2, 2,2 en 4,8. Voor T1 werd dit: 1,3, 1,6, 5,3, 2,8, 2,2 en 4,5. T2 kwam ook bij deze variabelen het meest gunstig voor de dag met betrekking tot multicollineariteit: 1,3, 1,4, 3,1, 1,6, 1,8 en 2,8.

Met name Single loop was volgens deze toetsen verantwoordelijk voor enige mate van multicollineariteit.

Analyses op Actie, Borgen en Verspreiden leverden voor T0 respectievelijk de volgende VIF-waarden op: 1,9, 2,7 en 1,7. Voor T1 en T2 waren dit: 1,3, 1,8 en 1,6 en: 1,4, 1,9 en 1,4. Hier zijn geen aanwijzingen voor multicollineariteit. Een laatste multicollineariteitsanalyse werd verricht op de variabelen Dynamiek en Complexiteit. Bij een regressie waarbij ook Belangen werd meegenomen, bleek voor deze laatste de VIF-waarde gemiddeld 1,2 te zijn. Complexiteit scoorde gemiddeld 1,4 en dynamiek 1,5. Geen redenen om hier multicollineariteit te veronderstellen.

De VIF-waarden zijn niet boven de 10 en de Tolerantie niet onder de 0,2. De toetsen geven aan dat multicollineariteit geen bedreiging vormt.

D

Betrouwbare en valide data waren assumpties om op teamniveau hiermee te mogen werken. De betrouwbaarheid en validiteit waren al op individueel niveau onderzocht. De betrouwbaarheidsanalyse leverde goede Cronbach’s alfa op. Middels factoranalyses was bij een aantal factoren één of meer items vervallen om tot stevige constructen te komen.

E

Om de resultaten van SEM correct te interpreteren, moet duidelijk zijn welk protocol is gehanteerd bij ‘missing data’. Bij de individuele gegevens kwamen ‘missing data’ niet veel voor en de N was groot. Bij het overgaan op teamscores is de N met een factor vijf tot zes verkleind. Bij analyse van de geaggregeerde data kwamen twee ‘missing data’ naar voren. Voor T1 was bij team vier de variabele Belangen leeg. Het ging hierbij om twee respondenten (de teamgrootte was vier). Er werd gekozen voor de eenvoudige methode om het gemiddelde van deze variabele bij deze afname te gebruiken: ‘mean substitution’ (Tabachnick en Fidell, 2006; Kline, 2005). Dit leverde 2,75 op. Bij T2 bleek bij team 49 (een trio) de enige respondent de stellingen omtrent Borgen niet te hebben ingevuld. Ook hier werd gekozen om het gemiddelde van de groepsscore op T2 voor borgen, 3,58 te gebruiken.

Samenvattende conclusie

De bovenstaande datacontrole was nodig om op teamniveau vast te stellen of aan de assumpties voor statistische analyses was voldaan. De conclusies zijn dat de data normale verdelingen hebben, dat er enkele onproblematische uitbijters zijn, dat er geen sprake is van sterke multicollineariteit, dat de data betrouwbaar en valide zijn en tenslotte dat ontbrekende data zijn ingevuld.

De correlatiematrices zijn opgesteld (bijlage G). Wat hierin naast de al besproken hoge correlaties opvalt, is dat Belangen weinig significante correlaties kent (respectievelijk per afname 2, 3 en 6). Ook Dynamiek geeft weinig significante correlaties aan (respectievelijk 4, 5 en 2). Distal learning heeft gemiddeld bij alle variabelen de laagste correlatie, bij al de drie afnamen. Informeel leren scoort bij

bijna alle factoren, voor alle drie afnamen, negatieve correlaties. Een voorlopig resultaat dat later de nodige aandacht behoeft.

In bijlage H staan statistische parameters van de geaggregeerde variabelen vermeld. Hieruit blijkt dat per variabele de gemiddelden tijdens de drie afnamen weinig afwijken.

Naast het toetsen van bovenstaande statistische assumpties op de data, was in de onderzoeksopzet ook sprake van een bronnentriangulatie. Dit betrof de vragenlijsten voor de leidinggevenden.