• No results found

Evaluatie van de confirmatieve factoranalyse en de modelverbetering

Validering van de onderzoeksinstrumenten

4.3 Betrouwbaarheid en validiteit van de vragenlijsten over schoolleidersgedrag

4.3.6 Evaluatie van de confirmatieve factoranalyse en de modelverbetering

Het meetmodel voor schoolleidersgedrag is met behulp van LISREL getoetst aan schoolleidersdata en docentendata met behulp van verschillende confirmatieve factoranalyse methoden. Uit tabel 4.5 blijkt dat de parameterschattingen met de Full Information Maximum

Likelihood (FIML) schattingsmethode op schoolniveau (between groups) niet erg consistent

zijn (zie 4.3.3). De uitkomsten voor de afzonderlijke schalen lijken beter te kloppen dan die voor het volledige meetmodel. De schattingen met Muthén’s approximate Maximum

Likelihood solution (MUML) op schoolniveau zouden minder nauwkeurig kunnen zijn dan de

FIML schattingen, vanwege de vereenvoudigde benadering, maar de uitkomsten lijken acceptabel. De parameterschattingen van de éénniveau confirmatieve factoranalyse voor individuele docentendata liggen dicht bij die van de meerniveau analyses op docentenniveau (within groups), omdat de variantie op docentenniveau veel groter is dan op schoolniveau. De éénniveau analyse voor docentendata levert weinig informatie op over de passing van het model op schoolniveau. De uitkomsten van de éénniveau confirmatieve factoranalyses voor schoolleidersdata lijken redelijk consistent te zijn voor het volledige meetmodel en de afzonderlijke schalen. Ook bij uitvoering van deze éénniveau analyses traden echter problemen op, die in het voorgaande nog niet zijn besproken. Zowel de problemen bij de éénniveau analyses voor schoolleidersdata, als die bij de meerniveau analyses met FIML houden waarschijnlijk verband met het relatief beperkte aantal cases op schoolniveau. Dit wordt hieronder toegelicht. De belangrijkste vraag hierbij is hoe accuraat de uitkomsten van de verschillende confirmatieve factoranalyses zijn.

De accuratesse van de parameterschattingen in structural equation modeling is gekoppeld aan de steekproefgrootte. In de literatuur zijn verschillende vuistregels te vinden voor de steekproefgrootte (zie Garson, z.j., b). Mitchell (1993) geeft bijvoorbeeld aan dat er tien tot twintig keer zoveel cases zouden moeten zijn als variabelen. Volgens Stevens (1996) zijn er tenminste vijftien cases nodig per geobserveerde variabele. Bij meer dan tien variabelen zou een steekproefgrootte van minder dan 200 cases leiden tot onstabiele parameterschattingen (Garson, z.j., b). Voor multilevel analyse geeft Muthén (1997) aan dat de maximum likelihood schattingsmethode al goed werkt bij tenminste 50 groepen. Hox (2002, p.175) stelt dat een steekproef die bestaat uit 100 groepen van tien individuen geschikt is voor complexe multilevel analyses. Bij simulatiestudies (zie bijv. Hox & Maas, 2001) wordt echter meestal gewerkt met relatief eenvoudige modellen. In principe zou een steekproef van 100 scholen met gemiddeld tien docenten per school moeten voldoen voor meerniveau confirmatieve factoranalyse, maar aan de andere kant is in dit onderzoek het aantal cases op schoolniveau

wel erg klein in vergelijking met het aantal variabelen in het meetmodel voor schoolleidersgedrag.

Bij het uitvoeren van éénniveau analyse aan de hand van schoolleidersdata traden problemen op die waarschijnlijk ook een gevolg waren van de steekproefgrootte. LISREL accepteert input in verschillende vormen, bijvoorbeeld een covariantiematrix, een correlatiematrix, of ruwe data. Voor een éénniveau confirmatieve factoranalyse op basis van ordinale data wordt aanbevolen om eerst met PRELIS (een deelprogramma van LISREL) de ‘polychorische correlatie matrix’ en de ‘asymptotische covariantie matrix’ te berekenen, die dan gezamenlijk als input gebruikt worden voor de Generally Weighted Least Squares (WLS) schattingsmethode (du Toit & du Toit, 2001). Bij het berekenen van de polychorische correlaties wordt ervan uitgegaan dat ordinale variabelen een onderliggende continue variabele hebben (Jöreskog & Sörbom, 1993a, p. 44). De polychorische correlaties zijn de theoretische correlaties tussen deze onderliggende variabelen. De asymptotische covariantiematrix van de polychorische correlaties is nodig om een z.g. weight matrix te berekenen die nodig is voor de WLS schattingsmethode (Jöreskog & Sörbom, 1993a, p. 45). Voor de schoolleidersgegevens bleken zowel de polychorische correlatie matrix als de asymptotische covariantiematrix niet geschikt te zijn om de WLS schattingsmethode uit te kunnen voeren, vermoedelijk als gevolg van het relatief kleine aantal cases.4 Jöreskog en Sörbom (1993b, p. 223) raden af om te werken met een asymptotische covariantiematrix die is gebaseerd op een (te) kleine steekproef. Zij geven aan dat het in zo’n geval beter is om bijvoorbeeld maximum likelihood als schattingsmethode te gebruiken in plaats van WLS (zie bijlage 2B).

Vanwege de problemen met de input matrices zijn de éénniveau confirmatieve factoranalyses voor schoolleidersdata en docentendata uitgevoerd met de maximum likelihood schattingsmethode, zoals beschreven door Mels (2004), met ruwe data als input voor LISREL. Hierbij werden de Likert schaal variabelen beschouwd als continue (interval) variabelen. Over het interpreteren van Likert schaal variabelen als interval variabelen is veel discussie (Heiser, z.j.). Jöreskog (2005) geeft aan dat Likert schaal variabelen als ordinale variabelen behandeld zouden moeten worden (zie ook du Toit, du Toit, Mels & Cheng, 2007). In de praktijk worden Likert schaal variabelen echter ook wel geïnterpreteerd als interval variabelen, waarbij bijvoorbeeld wordt gerefereerd aan Tabachnick en Fidell (1983, in Heiser, z.j.). Garson ( z.j., b) geeft aan dat voor de weighted least squares schatting een grote steekproef nodig is (meer dan 2000 cases) en dat in diverse onderzoeken is aangetoond dat maximum likelihood en weighted least squares overeenkomstige resultaten opleveren, ook wanneer theoretisch een weighted least squares schatting nodig zou zijn. Op basis van deze overwegingen kan worden aangenomen dat de uitkomsten van de éénniveau confirmatieve factoranalyses in de tabellen 4.5 en 4.9 accuraat zijn.

Bij de meerniveau confirmatieve factoranalyses voor de docentendata werd gebruik gemaakt van twee schattingsmethoden. Volgens Mels en Von Briesen (Scientific Software

4 De polychorische correlatie matrix en de asymptotische covariantiematrix waren ‘niet positief definiet’. Dat

betekent dat de determinant van deze matrices niet positief was. De determinant kan worden geïnterpreteerd als een maat voor ‘algemene’ variantie (Rigdon, z.j.). Negatieve variantie bestaat niet. Volgens Rigdon (z.j.) zijn er vele mogelijke oorzaken voor het niet positief definiet zijn van covariantie- of correlatiematrices, zoals lineaire afhankelijkheid tussen variabelen, ontbrekende data, toevallige variaties in de steekproef (vooral bij kleine steekproeven) of een zeer groot aantal variabelen in de matrix.

International5, persoonlijke communicate, november 2006) moet de MUML methode als minder accuraat worden beschouwd dan de FIML methode, omdat MUML uitgaat van onafhankelijke groepen voor het schoolniveau en het docentenniveau. Hox en Maas (2001) concluderen op basis van simulatiestudies echter dat de uitkomsten van de MUML methode op basis van één within groep en één between groep, vergeleken met FIML, goede resultaten oplevert, zolang het aantal groepen groot genoeg is. Deze auteurs wijzen erop dat het within

groups deel van het model meestal geen problemen oplevert, omdat op dit niveau voldoende

observaties zijn. Het aantal groepen speelt vooral een rol op het between groups niveau. Bij een klein aantal groepen, gecombineerd met een lage intraklasse correlatie is volgens Hox en Maas (2001) het percentage ‘onaanvaardbare oplossingen’ (inadmissible solutions) vrij groot. De onaanvaardbaare oplossingen worden gekenmerkt door extreme waarden in de parameter schattingen. Als een acceptabele oplossing wordt bereikt zijn de geschatte factorladingen echter in het algemeen accuraat. Om onaanvaardbare oplossingen en afwijkingen in andere parameterschattingen te voorkomen bevelen Hox en Maas (2001) aan om tenminste honderd groepen te analyseren. Aan de voorwaarde van tenminste honderd groepen wordt in hier beschreven onderzoek naar het effect van schoolleidersgedrag (net) voldaan, maar zoals eerder opgemerkt is het de vraag of deze regel ook geldt voor een complex meetmodel met veel parameters. In principe zouden de MUML parameterschattingen in de tabellen 4.5 en 4.9 accuraat moeten zijn. De FIML parameterschattingen voor het volledige meetmodel in tabel 4.5 vertonen opvallende afwijkingen ten opzichte van de schattingen voor de afzonderlijke schalen. De uitkomsten voor de afzonderlijke schalen zijn waarschijnlijk beter, omdat het aantal te schatten parameters kleiner is, zodat er meer cases zijn per parameter. De MUML parameterschattingen voor het volledige meetmodel liggen dicht bij de FIML schattingen voor de afzonderlijke schalen. Wellicht is de FIML methode (in LISREL) gevoeliger voor het aantal cases op schoolniveau en zijn de MUML schattingen in dit geval toch beter.

Voor het optimaliseren van het meetmodel voor schoolleidersgedrag zijn de uitkomsten van verschillende confirmatieve factoranalyses vergeleken. De FIML schattingen voor het volledige model werden hierbij als het minst robuust beschouwd. Door het verwijderen van minder betekenisvolle en niet eenduidige items, zijn de passingswaarden van het volledige meetmodel en van de afzonderlijke schalen verbeterd. De vraag is nu in hoeverre hier sprake is van kanskapitalisatie. Door de ‘datagedreven’ aanpassingen in het meetmodel zou het resultaat specifiek kunnen zijn voor de steekproef en niet generaliseerbaar naar de hele populatie (zie bijv. Kelloway, 1998, p. 22; MacCallum, Roznowski & Necowitz, 1992; Stevens, 2002). Een veelgebruikte strategie om de geldigheid van een model te testen, is kruisvalidering aan de hand van twee onafhankelijke datasets. Als er geen onafhankelijke datasets beschikbaar zijn, kan de dataset in tweeën gesplitst worden. De ene helft van de data dient dan om het model vast te stellen en de andere helft voor de validering (Jöreskog en Sörbom, 1993a, p.129). Vanwege de complexiteit van het meetmodel voor schoolleidersgedrag is het splitsen van de dataset hier echter geen goede optie, omdat het aantal cases op schoolniveau te klein zou worden om acceptabele schattingen op te leveren. Een andere aanbevolen strategie is om vooraf op basis van de theorie verschillende modellen op te stellen en die te testen (MacCallum, Roznowksi & Necowitz, 1992). Door Schmidt (2009, zie ook Sleegers & van Schooten, 2006, p.31) is voor de handelingen van schoolleiders, als alternatief voor het vier factoren model, een ‘facet-model’ getest waarbij elk item laadt op twee van de vier oriëntaties (kwadranten) in het concurrerende waarden model. Het facet-model bleek echter minder goede resultaten op te leveren dan het model waarbij elk

item laadt op één factor. Vanwege de koppeling aan het concurrerende waarden model is het vier factoren model voor het meten van de handelingen van schoolleiders verder gehandhaafd. Uit simulatiestudies van MacCallum, Roznowski en Necowitz (1992) kan worden opgemaakt dat modelverbetering voor grote steekproeven van 800-1200 cases stabiele resultaten oplevert bij kruisvalidering, terwijl bij kleinere steekproeven de resultaten uiteenlopen. In dit onderzoek is de omvang van de steekproef op docentenniveau groot genoeg, maar het aantal cases op schoolniveau niet. Naar aanleiding van hun simulatiestudies raden MacCallum, Roznowski en Necowitz (1992) aan om een parallel specification search uit te voeren. Dat betekent dat het modelverbeteringsproces voor twee onafhankelijke steekproeven wordt doorlopen, waarna de uitkomsten worden vergeleken. Daarbij zou ook een dubbele kruisvalidering uitgevoerd moeten worden. In dit onderzoek is de parallelle procedure benaderd doordat bij de modelverbetering voor schoolleidersgedrag werd uitgegaan van zowel schoolleidersdata als docentendata. Er heeft echter geen kruisvalidering plaatsgevonden en bovendien waren schoolleiders en docenten afkomstig van dezelfde 100 scholen. Desondanks is het risico van kanskapitalisatie wellicht beperkt door de wijze waarop het model voor de handelingen van schoolleiders is verbeterd. Bij een specification search worden volgens MacCallum et al. (1992) in het algemeen parameters toegevoegd om de modelpassing te verbeteren (bijvoorbeeld covarianties tussen indicatoren). Bij de verbetering van het meetmodel voor de handelingen van schoolleiders werden alleen indicatoren

verwijderd en enkele verplaatst. Daarbij werd steeds nagegaan in hoeverre de vier schalen

inhoudelijk in overeenstemming waren met het concurrerende waarden model. Feitelijk werden telkens alternatieve vier factoren modellen getest (zie ook bijlage 2C).

Samenvattend kan worden gesteld dat voor de (geclusterde) docentendata meerniveau confirmatieve factoranalyse een beter inzicht gaf in de constructvaliditeit van het onderzoeksinstrument dan éénniveau analyse. Meerniveau analyse in LISREL met FIML leverde echter geen stabiele resultaten op vanwege het complexe meetmodel van schoolleidersgedrag. Waarschijnlijk was de steekproef van 100 scholen niet toereikend voor deze analysemethode. De lage intraklasse correlatie voor de docentendata zal hierbij ook van invloed zijn geweest (Hox & Maas, 2001). De MUML methode was wel robuust. De beperkte steekproefgrootte op schoolniveau speelde ook een rol bij de (éénniveau) analyse van schoolleidersdata. Hoewel niet is uit te sluiten dat er bij de verbetering van het meetmodel aan de hand van schoolleidersdata en docentendata kanskapitalisatie optrad, is het effect waarschijnlijk beperkt vanwege de parallelle verbeteringsprocedure, zowel aan de hand van schoolleidersdata, als aan de hand van docentendata en de behoudende aanpak, waarbij alleen indicatoren werden verwijderd of verplaatst en geen parameters (paden) aan het model werden toegevoegd.

De zwakke items die aan het licht kwamen bij meerniveau confirmatieve factoranalyse werden ook bij exploratieve factoranalyses gedetecteerd (zie 4.3.4). In principe zou het model dus verbeterd kunnen worden aan de hand van de uitkomsten van exploratieve factoranalyse. Daarbij kan echter geen vooraf opgesteld model worden getest, zodat de modelverbetering nog meer datagedreven zou zijn. Verder levert confirmatieve factoranalyse betere parameterschattingen op dan exploratieve factoranalyse, omdat rekening wordt gehouden met meetfouten. Het was dan ook de bedoeling om aan de hand van het verbeterde meetmodel factorscores (latente variabele scores) te berekenen op schoolniveau, die gebruikt zouden kunnen worden bij de causale analyse van het onderzoeksmodel (zie ook De Maeyer en Rymenans, 2004, p.285). Nadat de meerniveau confirmatieve factoranalyses waren uitgevoerd, bleek echter dat het in LISREL niet mogelijk was om bij FIML factorscores op

schoolniveau te genereren6 (Mels & Von Briesen, SSI, persoonlijke communicatie, november 2006). Dat betekende dat de latente variabele scores voor de schoolleidersdata met behulp van éénniveau confirmatieve factoranalyse berekend zouden moeten worden en geaggregeerd. In principe is het niet nodig om factorscores te berekenen voor een causale analyse, omdat meetmodellen kunnen worden opgenomen in het structurele model. Vanwege de omvang van het meetmodel voor de handelingen van schoolleiders en de relatief beperkte steekproefgrootte was dit voor de validering van het onderzoeksmodel (zie hoofdstuk 6) geen goede optie. De bruikbaarheid van meerniveau confirmatieve factoranalyse bleef dus beperkt tot het bepalen van de constructvaliditeit van het onderzoeksinstrument.

4.4 Betrouwbaarheid en validiteit van de vragenlijsten over schoolcultuur