• No results found

Het poolen van partiӫle eta-kwadraat bij variantieanalyse na multipele imputatie

N/A
N/A
Protected

Academic year: 2021

Share "Het poolen van partiӫle eta-kwadraat bij variantieanalyse na multipele imputatie"

Copied!
21
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Typ hier uw vergelijking.

Bachelorscriptie Studierichting Psychologie

Faculteit Sociale Wetenschappen - Universiteit Leiden Mei 2017

Bachelorproject: B77 Studentnummer: s1556428 Begeleider: Dr. J.R. Van Ginkel Sectie: Methodenleer en Statistiek

Het poolen van partiële

eta-kwadraat bij variantieanalyse na

multipele imputatie

(2)

2 Inhoud Samenvatting 3 Inleiding 4 Variantieanalyse 4 Partiele-eta-kwadraat 4 Missing-data 6 Multipele Imputatie 6 Combinatieregels tweeweg-ANOVA 7 Huidig Onderzoek 10 Methode 10 Constante factoren 11 Onafhankelijke variabelen 11 Afhankelijke variabelen 12 Resultaten 13 Resultaten voor 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴2 13 Resultaten voor 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐵2 15 Resultaten voor 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐵2 17 Discussie 19 Implicaties en conclusie 19 Dankbetuiging 20 Referenties 21

(3)

3 Samenvatting

Multipele imputatie (Rubin, 1987) is een veel aangeraden procedure voor het

missingdataprobleem. De procedure schat meerdere plausibele waardes voor de missing-data, wat resulteert in meerdere complete versies van de incomplete dataset. Vervolgens wordt elk van de geïmputeerde dataset geanalyseerd volgens standaard statistische analyses. Deze resultaten worden gecombineerd in één algemene analyse door middel van een

combinatiemethode. Er is in de literatuur niet beschreven wat de beste manier is waarop partiële-eta-kwadraat in tweeweg-variantieanalyse gecombineerd kan worden. In deze simulatiestudie zijn bestaande combinatiemethoden van Rubin (1987), Harel (2009) en voorgestelde combinatiemethoden door Van Ginkel (2017) met elkaar vergeleken. De combinatiemethode voorgesteld door Van Ginkel (2017) waarbij de partiële-eta-kwadraat berekend wordt over alle data sets tezamen, geeft de beste resultaten wanneer de kwadraat zeer dichtbij 0 of 1 ligt. Bij een waarde van de populatie-partiële-eta-kwadraat dichterbij het gemiddelde presteert simpelweg middelen het best. Er moet vermeld worden dat de verschillen tussen de resultaten van de combinatiemethoden dicht bij elkaar liggen, dus in de praktijk zal het weinig uitmaken welke methode gebruikt wordt.

Abstract

Multiple imputation (Rubin, 1987) is an accepted procedure for handling missing data. The procedure estimates multiple plausible values for the missing data, which results in several complete versions of the incomplete dataset. Next, each of these imputed data sets are analyzed using standard statistical analyses. These results are combined into one overall analysis, using a combination method. It has never been explicitly mentioned in the current literature on multiple imputation how partial eta squared in Two-way analysis of variance can be combined. In this paper, existing combination methods proposed by Rubin (1987) and Harel (2009), and new methods proposed by Van Ginkel (2017) are applied to partial eta squared. One of the methods proposed by Van Ginkel (2017), considers the several complete versions of the incomplete data sets as one data set and calculates partial eta squared over this one data set. This method gives the best results when the population partial eta squared is close to either 0 or 1. If the population partial eta squared is closer to the middle of the scale, simply averaging of the partial eta squared across the data sets gives the best result. It must be mentioned that for practical implications, it will not matter much which method is used, since the differences between the methods are very small.

(4)

4 Inleiding

Variantieanalyse

Variantieanalyse (Engels: analysis of variance, afgekort ANOVA) is een veelgebruikte statistische techniek in de sociale wetenschappen. ANOVA wordt veelal gebruikt om

gelijkheid van gemiddelden te toetsen, door het vergelijken van variantie tussen groepen met variantie binnen groepen, waarbij variantie binnen groepen veroorzaakt wordt door random error. Wanneer er sprake is van twee onafhankelijke categorische variabelen en één

afhankelijke nominale variabele wordt dit een tweeweg-variantieanalyse genoemd.

Tweeweg-variantieanalyse. Tweeweg-variantieanalyse toetst de relatie tussen twee onafhankelijke variabelen en hun interactie enerzijds, en de afhankelijke variabele anderzijds. De waarde op de afhankelijke variabele van persoon i, (i =1, …, N) uit niveau j, (j = 1, …, J) van de eerste factor en uit niveau k, (k =1,…, K) van de tweede factor wordt aangeduid met 𝑌𝑖𝑗𝑘. 𝑌𝑖𝑗𝑘 bestaat uit (1) het algehele gemiddelde 𝜇, (2) de afwijking van het gemiddelde van

het niveau j van factor 𝐴 ten opzichte van het algehele gemiddelde, aangeduid als 𝛼𝑗, (3) de afwijking van het gemiddelde van niveau k van factor 𝐵 ten opzichte van het algehele gemiddelde, aangeduid als 𝛽𝑘, (4) een interactieterm behorend bij niveau j van factor 𝐴 en

niveau k van factor 𝐵 en tot slot (5) de individuele errorterm 𝜀𝑖𝑗𝑘, waarvan aangenomen wordt

dat deze normaal verdeeld is met een gemiddelde van nul en variantie 𝜎2. Het

tweeweg-ANOVA-model wordt gegeven door:

𝑌𝑖𝑗𝑘= 𝜇 + 𝛼𝑗+ 𝛽𝑘+ 𝛼𝛽𝑗𝑘+ 𝜀𝑖𝑗𝑘 (1)

Partiële-eta-kwadraat

Met ANOVA kan getoetst worden of gemiddelden significant van elkaar verschillen, maar wanneer een bepaalde factor significant is, zegt dat niets over de praktische relevantie van het gevonden effect. Om hier uitspraak over te kunnen doen is het gebruikelijk om een effectmaat te rapporteren. Een effectmaat is in tegenstelling tot de p-waarde onafhankelijk van de

steekproefgrootte. Een mogelijke effectmaat die gerapporteerd kan worden voor tweeweg-ANOVA is de partiële-eta-kwadraat (𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 ).

𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 geeft aan wat voor een percentage van de totale variantie in Y verklaard wordt

door één factor, wat niet verklaard wordt door andere variabelen in de analyse. 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 staat

(5)

5 met 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 . Aangezien 𝜂

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 een percentage is, kan deze lopen van 0 tot 1, waarbij 0

inhoudt dat de betreffende factor geen variantie van Y verklaart, en 1 inhoudt dat alle variantie verklaard wordt door de betreffende factor. Om te interpreteren hoe groot het gevonden effect van 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 is heeft Cohen (1977, pp. 280-287)richtlijnen opgesteld: 0.01 = klein, 0.06 =

medium en 0.14 = groot. Voor het berekenen van 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 van een effect zijn de

kwadratensommen van de effecten en de totale kwadratensom nodig.

Definieer 𝑛𝑗. als het aantal personen in niveau j van factor A, 𝑦̅𝑗.als het gemiddelde van het j’de niveau van factor A en 𝑦̅.. als het algehele gemiddelde van de afhankelijke

variabele y. De kwadratensom van het effect van factor A, ook wel sum of squares van A genoemd (SSA) wordt berekend als:

𝑆𝑆𝐴 = ∑𝐽𝑗=1𝑛𝑗.(𝑦̅𝑗.− 𝑦̅..)2, (2)

Op een vergelijkbare manier kan de sum of squares van factor B (SSB) berekend worden. Definieer 𝑛.𝑘 als het aantal personen in niveau k van factor B, 𝑦̅.𝑘 als het gemiddelde van het

k’de niveau van factor B. SSB wordt berekend als:

𝑆𝑆𝐵 = ∑𝐾 𝑛.𝑘(

𝑘=1 𝑦̅.𝑘− 𝑦̅..)2, (3)

De kwadratensom van het interactie-effect (SSAB) wordt als volgt berekend: Definieer 𝑛𝑗𝑘 als aantal personen in niveau j van factor A én in niveau k van factor B en 𝑦̅𝑗𝑘 als het

gemiddelde van niveau i van factor A en in niveau k van factor B. SSAB wordt berekend als:

𝑆𝑆𝐴𝐵 = ∑𝐽𝑖=1∑𝐾𝑘=1𝑛𝑗𝑘(𝑦̅𝑗𝑘− 𝑦̅𝑗.− 𝑦̅.𝑘 − 𝑦̅..)2. (4)

De kwadratensom van de errorvariantie (SSE) wordt berekend als:

𝑆𝑆𝐸 = ∑ ∑ ∑𝐾 (𝑌𝑖𝑗𝑘− 𝑦̅𝑗𝑘 𝑘=1 𝐽 𝑗=1 𝑛𝑗𝑘 𝑖=1 )2 (5)

De kwadratensom van de totale variantie (SST) als:

(6)

6 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙2 voor factor 𝐴 kan vervolgens berekend worden als:

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴 2 = 𝑆𝑆𝐴

(𝑆𝑆𝐴 + 𝑆𝑆𝐸),

(7)

𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙2 voor factor 𝐵 als:

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐵 2 = 𝑆𝑆𝐵

(𝑆𝑆𝐵 + 𝑆𝑆𝐸),

(8)

en 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙2 voor factor 𝐴𝐵 kan tot slot als volgt berekend worden:

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴𝐵 2 = 𝑆𝑆𝐴𝐵

(𝑆𝑆𝐴𝐵 + 𝑆𝑆𝐸),

(10)

Missing-data

Net als andere statistische technieken kunnen de resultaten van tweeweg-ANOVA lijden onder missing-data. Missing-data kan ontstaan wanneer participanten bijvoorbeeld hun deelname aan een onderzoek afbreken of weigeren specifieke vragen te beantwoorden. Het simpelweg verwijderen van deze incomplete cases uit de analyse kan leiden tot vertekende resultaten wanneer er systematische verschillen zijn tussen de complete en incomplete cases. Een voorbeeld van een dergelijke situatie is wanneer mannen gemiddeld een hoger inkomen hebben dan vrouwen en dat bij een onderzoek vrouwen vaker hun salaris niet invullen dan mannen, waardoor er meer mannen overblijven en er een vertekend beeld van de hoogte van het salaris ontstaat.

Multipele imputatie

Een oplossing voor het missingdataprobleem die veel wordt aangeraden is multipele imputatie (Rubin, 1987). Bij multipele imputatie wordt het missingdataprobleem in drie stappen

behandeld: (1) De techniek vervangt elke ontbrekende waarde voor meerdere M random waarden die worden ingevuld volgens een (logistisch) regressiemodel, met andere variabelen in de data als voorspellers. (2) Vervolgens wordt er met de M complete datasets de analyse uitgevoerd waar men in geïnteresseerd is. De resultaten van deze analyses zullen verschillen vanwege de geïmputeerde waardes die bij elk van geïmputeerde dataset weer anders zijn. (3) In de laatste stap worden de M resultaten van de statistische analyses gecombineerd tot één uiteindelijke analyse. Het combineren wordt door middel van specifieke combinatie-formules

(7)

7 gedaan waarbij de extra onzekerheid, ontstaan door de missing data, in de standaard

meetfouten en de p-waarden wordt meegenomen.

Combinatieregels voor tweeweg-ANOVA

Er zijn meerdere combinatieregels beschreven in de literatuur voor het combineren van de resultaten van M geïmputeerde datasets tot één uiteindelijke analyse. Voor 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 zijn er nog

geen regels gedefinieerd. Wel zijn er combinatieregels voor 𝑅2 in regressieanalyse

beschreven die mogelijk toegepast kunnen worden op 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 .

Rubin’s combinatieregels. Rubin (1987) heeft combinatieregels beschreven voor parameterschattingen, hun significatietoetsen en betrouwbaarheidsintervallen. De

combinatieregels combineren M analyseresultaten in een uiteindelijke algemene

parameterschatting 𝑄̅. Elke geïmputeerde dataset m (m = 1 …, M) geeft een schatting 𝑄̂ van Q die verkregen zou zijn wanneer de data compleet was. De uiteindelijke algemene

parameterschatting over alle M geïmputeerde datasets wordt berekend als het gemiddelde van alle 𝑄̂𝑚’s waarbij 𝑄̂𝑚 staat voor de geschatte parameter van geïmputeerde dataset m:

𝑄̅ = ∑𝑀𝑚=1𝑄̂𝑚. (11)

Als we 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 beschouwen als een parameterschatting, dan zou dit volgens de formule van Rubin impliceren dat het combineren simpelweg gedaan kan worden door de geschatte 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 ’s (𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂

𝑚 2

̂ ) van de geïmputeerde datasets te middelen zoals beschreven in formule 11, wat resulteert in een uiteindelijke gemiddelde waarde 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2.

Mogelijk probleem van het middelen. Een potentieel probleem van het middelen is

dat wanneer de effectmaat dichtbij de 0 of 1 ligt de parameter gebiast wordt naar het midden door bodem-en plafondeffecten. Doordat extreme waardes minder voorkomen zal het

middelen van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̂ 𝑚2′𝑠 resulteren in waardes richting het midden. Een mogelijk

oplossing voor dit probleem is het toepassen van een Fisher-z-transformatie zoals beschreven wordt door Harel (2009).

Harel (2009): Fisher- z-transformatie. Harel (2009) beschrijft combinatieregels voor het poolen van 𝑅2. Hij beargumenteert dat het toepassen van de combinatieregels beschreven

(8)

8 combinatieregels gedefinieerd zijn onder de assumptie dat de steekproevenverdeling van de paramater (𝑅2) normaal is terwijl dit bij 𝑅2 niet het geval is.

De methode maakt gebruik van de procedure voorgesteld door Schafer (1997, p. 109). Schafer zegt dat voor het combineren van significantietoetsen van correlaties of correlaties zelf, het aan te raden is om een transformatie toe te passen. Een

Fisher-z-transformatie zet een Pearsoncorrelatie om in een (bij benadering) normaal verdeelde

variabele z. Deze Fisher-z-scores van de wortel van 𝑅2 kunnen daarna gemiddeld worden en

dit gemiddelde wordt vervolgens weer terug getransformeerd naar de originele schaal. Harel (2009) past de procedure van Schafer (1997) toe op de wortel van 𝑅2 in multipele regressie,

omdat dit volgens hem ook een correlatie is.

De gecombineerde versie van 𝑅2 wordt als volgt berekend: 𝑅

𝑚2 is de het percentage

verklaarde variantie van de analyse voor de geïmputeerde data set m. 𝑅𝑚2 wordt eerst

getransformeerd naar een Fisher-𝑍𝐹,𝑚-score door middel van de volgende formule:

𝑍𝐹,𝑚 =1 2𝑙𝑛 ( 1 + √𝑅𝑚2 1 − √𝑅𝑚2) (12)

Deze combinatietechniek kan ook worden toegepast op 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 door 𝑅2 in de formules

simpelweg te vervangen door 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2.Vervolgens wordt 𝑍̅ berekend door:

𝑍̅ = ∑ 𝑍𝐹,𝑚

𝑀 𝑀

𝑚=1 (13)

Tot slot, om de gecombineerde 𝑅2 te berekenen moet de gepoolde Fisher-z-score 𝑍̅, verkregen

uit formule 13, terug getransformeerd worden naar de originele schaal van 𝑅2 :

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 = (exp(2𝑍̅) − 1

exp(2𝑍̅) + 1)

2 (14)

Mogelijk probleem Harel’s combinatieregels. Van Ginkel (2017) beschrijft een

potentieel probleem van de procedure beschreven door Harel (2009). Bij een correlatie rekt de Fisher-z-transformatie de ondergrens van een correlatie van -1 uit naar min oneindig, en de bovengrens van +1 naar plus oneindig. Hoewel de wortel van 𝑅2 strikt gezien een correlatie

(9)

9 is, wijkt het af van een standaard correlatie tussen twee variabelen omdat de waarde alleen van 0 tot 1 kan lopen. De ondergrens van de Fisher-z-getransformeerde wortel van 𝑅2 loopt

hierdoor van 0 tot plus oneindig. Door streekproeffluctuatie zal de waarde van de

getransformeerde 𝑅2 in de ene datsaset groter zijn dan de werkelijke getransformeerde waarde

van 𝑅2(wanneer er geen missingdata is) en in de andere dataset kleiner. Als de werkelijke

getransformeerde waarde dichtbij 0 ligt, zullen afwijkingen in negatieve richting gemiddeld kleiner zijn dan de afwijkingen positieve richting, omdat de ondergrens van de

getransformeerde wortel van 𝑅2 niet uitgerekt is naar min oneindig. Door dit bodemeffect zal

de getransformeerde 𝑅2 bij het middelen in positieve richting gebiast worden. Een mogelijke

oplossing voor dit probleem voorgesteld door Van Ginkel (2017) is een logit-transformatie.

Logit-transformatie. Van Ginkel (2007) noemt een logit-transformatie als een mogelijke oplossing voor zowel het bodem- als plafondeffect. De logit-transformatie (Johnson, 1949, pp. 150-152) past namelijk de schaal van 0 tot 1 aan van min oneindig tot plus oneindig. In deze methode wordt de uiteindelijke algemene 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 als volgt

berekend: 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝑚2 is de parameter van de m’de geïmputeerde data set. 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝑚2 wordt

getransformeerd door middel van:

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡,𝑚2 = log ( 𝑝𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝑀2

(1−𝑝𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝑀2))

(15)

Middel vervolgens Partial 𝜂𝐿𝑜𝑔𝑖𝑡,𝑚2 door:

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡2

̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅ = ∑ 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡,𝑚2 𝑀 𝑀

𝑚=1 (16)

Ten slotte wordt deze combineerde log-getransformeerde-waarde 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝐿𝑜𝑔𝑖𝑡2 terug

getransformeerd naar de originele schaal van 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 doormiddel van:

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 = ( exp(𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅ )𝐿𝑜𝑔𝑖𝑡2

(1+exp( 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅)𝐿𝑜𝑔𝑖𝑡2 ).

(17)

Mogelijke problemen logit-transformatie. Van Ginkel (2017) bespreekt een mogelijk

(10)

10 probleem ligt in de betekenis van de waarden van 𝑅2. Wanneer het percentage verklaarde

variantie in de populatie 𝜌2 gelijk is aan 1, zal de steekproefschatting voor 𝑅2 ook gelijk zijn

aan 1. Door het ontbreken van error gedraagt de data zich exact zoals het model, waardoor er geen steekproeffluctuatie is. Als 𝜌2 echter gelijk is aan 0, dan zullen de steekproefschattingen

voor 𝑅2 wegens steekproeffluctuatie vaak een stukje hoger zijn dan 0. Wanneer 𝜌2 dicht in de

buurt van 0 zit, zal bij het middelen van 𝑅2 over geïmputeerde datasets de gemiddelde waarde

niet alleen opschuiven naar het midden wegens het bodemeffect, maar ook doordat de steekproefwaarden van zichzelf al meer geneigd zijn naar het midden te schuiven.

Geïmputeerde datasets samenvoegen tot één set. Een poolingsmethode die het probleem van een bodem-en plafondeffect omzeilt is het beschouwen van de M geïmputeerde datasets als één set en hierover 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙 2 berekenen. De M geïmputeerde datasets worden dus

samengevoegd tot één set. Vervolgens wordt deze gehele set gebruikt om 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀 2 te

berekenen. Op deze manier hoeven er geen M analyses gemiddeld worden, waardoor de schatting van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̂ 2 minder richting het midden gebiast zal zijn.

Huidig onderzoek

Het huidige onderzoek zal onderzoeken hoeveel bias in 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 elk van de bovenstaande

methoden veroorzaakt. Op dit moment is hier namelijk nog niets over bekend in de literatuur. In de volgende paragraaf wordt de opzet van een simulatiestudie beschreven, waarin deze combinatietechnieken voor 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 worden vergeleken. De verwachting is dat 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂

𝑀2

̅̅̅̅̅̅̅̅̅̅̅̅̅̅ meer bias oplevert dan de andere methoden wegens bodem- en plafondeffecten. Daarnaast wordt verwacht dat wanneer de effectgrootte in de populatie 0 is, 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 en

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀 2 , minder bias opleveren dan 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂 𝐻𝑎𝑟𝑒𝑙

2 , omdat deze methoden niet te

lijden hebben onder bodemeffecten. Tot slot wanneer de effectgrootte in de populatie dichtbij 1 komt zal het middelen meer bias opleveren dan de andere methoden, omdat alleen middelen te maken heeft met een plafondeffect.

Methode

Om te onderzoeken hoe de vier combinatiemethoden voor 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 presteren is een

simulatiestudie uitgevoerd. De data zijn volgens een tweeweg-ANOVA-model gesimuleerd. Factor A van het tweeweg-ANOVA-model bestaat uit 3 niveaus en factor B uit 2 niveaus. De details over de parameters van het tweeweg-ANOVA-model staan bij de onafhankelijke

(11)

11 variabelen toegelicht. De simulatiestudie was geprogrammeerd in R (R Development Core Team, 2013).

Constante Factoren

Per conditie werden er 100 replicaties van N = 60 gesimuleerd. De data werd M = 20 keer geïmputeerd per gerepliceerde data set.

Missing-data werden gesimuleerd onder het missingnessmechanisme missing

completely at random (MCAR; Little & Rubin, 2002, p. 10). Bij dit missingnessmechanisme is de missing-data compleet random verdeeld over de data en is de missing data op geen enkele manier gerelateerd aan de geobserveerde variabelen. Er bestaan naast MCAR ook missingnessmechanismen waarbij de missing-data wel gerelateerd zijn aan geobserveerde data (Missing at random; MAR; Little & Rubin, 2002, p. 10) of aan niet geobserveerde data (Not missing at random; NMAR; Little & Rubin, 2002, p.10). Missingnessmechanismen MAR en MNAR zullen niet bestudeerd worden, omdat dit niet het onderwerp is van deze studie. Listwise-deletion zou onder MCAR ook ongebiaste resultaten geven, maar omdat dit onderzoek niet kijkt naar het verschil in werking van multipele imputatie en listwise-deletion is dit verder niet relevant.

Onafhankelijke variabelen

Tabel 1 geeft de waarden voor de factoren onder verschillende groottes van de 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2. De

parameterwaarden uit kolommen 3 en 4 zijn het gevolg van het vertweevoudigen (kolom 3) en het verdrievoudigen (kolom 4) van de parameterwaarden uit kolom 2. Dit resulteerde in de volgende waarden van de populatie-effectmaat: (Partial 𝜂𝐴2, Partial 𝜂

𝐵

2, 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂 𝐴𝐵2 ) =

(0,0,0,0), (0,0.33,0.57,0.13), (0,0.66,0.84,0.37) en (0,0.82, 0.92, 0.57) waaronder de data is gesimuleerd.

Percentage data. In totaal werden er drie verschillende percentages missing-data gesimuleerd: 10%, 20% en 40%. De missing-missing-data is alleen op Y gesimuleerd, omdat missing-data op de predictoren imputeren ingewikkelder is en het interactie-effect lastig te modeleren is.

(12)

12 Tabel 1

Populatiecoëfficiënten van de vier populaties van de gesimuleerde data 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅ 0 0.34 0.62 0.77 𝜇 27 27 27 27 𝛼1 0 -6 -12 -18 𝛼2 0 0 0 0 𝛼3 0 6 12 18 𝛽1 0 -3 -6 -9 𝛽2 0 3 3 9 𝛼𝛽11 0 2 4 6 𝛼𝛽12 0 -2 -4 -6 𝛼𝛽21 0 -1 -2 -3 𝛼𝛽22 0 1 2 3 𝛼𝛽31 0 -1 -2 -3 𝛼𝛽32 0 1 2 3

Combinatiemethoden. In totaal werden 4 verschillende combinatiemethoden voor 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̂ 2onderzocht: (1) Middelen, genoteerd als 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅ (2) Harel’s methode 2

genoteerd als: 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 (3) Logit-methode genoteerd als: 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂

𝐿𝑜𝑔𝑖𝑡 2 (4) M datasets

beschouwen als één: genoteerd als 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 .

Afhankelijke variabelen

In totaal werden 3 afhankelijke variabelen bestudeerd: de bias in de 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̂ 2’s van de

(13)

13 Resultaten

Om te evalueren welke combinatiemethode het minste bias oplevert zijn drie 4 (aantal waarden van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2) × 3 (percentages missing-data) × 4 (combinatiemethoden) ×

repeated-measures-ANOVA’s uitgevoerd met respectievelijk bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴2 ,bias

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐵 2en bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂 𝐴𝐵

2 als afhankelijke variabelen. Percentage missing-data en

combinatiemethoden zijn beide within-subjectsfactoren, omdat verschillende percentages van missing-data gesimuleerd zijn in dezelfde gerepliceerde datasets en de verschillende

combinatiemethoden worden toegepast op dezelfde repliceerde datasets. Hoewel

verschillende 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2′𝑠 voor verschillende datasets zorgen, is ook deze factor een

within-subjectsfactor. De errors zijn namelijk met dezelfde seed-waarde gesimuleerd, waardoor de datasets gerelateerd zijn aan elkaar.

Aangezien combinatiemethode de belangrijkste factor is van dit onderzoek zijn alle (interactie)effecten met betrekking tot deze factor gerapporteerd in Tabel 2. De effecten die in Tabel 2 staan weergegeven zijn significant en hebben een p-waarde van kleiner dan 0.001. De 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙2 van de bijbehorende effecten zijn met 𝜂

𝑃𝑎𝑟𝑡𝑖𝑎𝑙2 groter dan 0.14 volgens de richtlijnen

van Cohen (1977, pp. 280-287) grote effecten.

Hoewel het effect van methode significant is (Tabel 2), valt het in Tabellen 3 t/m 5 (kolom 5, panel 4) op dat de verschillen tussen de grootte van de bias van de methoden zeer klein zijn.

Resultaten voor Partial 𝜼𝑨 𝟐

De resultaten voor bias van Partial 𝜂𝐴 2 staan in Tabel 3 weergegeven. Ter vergelijking zijn

ook de resultaten van de originele data zonder missing-data gerapporteerd. De bias neemt toe en wijkt meer af van de originele data, wanneer het percentage missing-data stijgt (Tabel 3 panel 1 t/m 3). Deze toename is volgens verwachting, omdat er door het hogere percentage missing-data minder informatie is om de nieuwe waarden voor de missing-data te schatten.

De bias is het hoogst bij een 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 van 0 wegens het bodemeffect. De methoden die minder te lijden hebben onder het bodemeffect, 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 en 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂

1….𝑀

2 hebben,

zoals verwacht, een lagere bias dan de overige methoden (kolom 1). Zodra de 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2

dichterbij het midden ligt, neemt de hoogte van de bias voor alle methoden af ten opzichte van de 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 van 0 (panel 4). Als naar het hoofdeffect van methode gekeken wordt (kolom 5,

(14)

14 Tabel 2

ANOVA-resultaten met bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴2 , bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂

𝐵 2en bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴𝐵 2 als afhankelijke variabelen Effect df F 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙2 Bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴 2 Methode 3 2202.784 0.957 Percentage × Methode 6 685.096 0.874 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅ × Methode 9 380.869 0.794 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅ × Percentage × Methode 18 115.591 0.539 Bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐵 2 Methode 3 2772.588 0.966 Percentage × Methode 6 830.959 0.894 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅ × Methode 9 1056.735 0.914 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅ × Percentage × Methode 18 271.516 0.733 Bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴𝐵 2 Methode 3 1843.276 0.949 Percentage × Methode 6 557.515 0.849 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅ × Methode 9 196.844 0.665 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅ × Percentage × Methode 18 46.662 0.320 Note: Alle p-waarden waren kleiner dan 0.001.

Tabel 3

(15)

15 Bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴 2: Gemiddelde waardes van de bias per methode

(standard-errors-of-the-mean tussen haakjes) onder de verschillende condities van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 en percentage

missing-data. De waarden van de bias zijn vermenigvuldigd met 103.

Percentage Methode 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2

0 0.33 0.66 0.82 Totaal

M (SE) M (SE) M (SE) M (SE) M (SE)

Origineel 18 (28) 3 (100) 5 (71) 1 (42) 5 (5) 10% 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 22 (3) 3 (10) 1 (7) 2 (4) 7 (5) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 20 (3) 3 (10) 2 (7) 2 (4) 7 (5) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 18 (3) 2 (10) 2 (7) 2 (4) 6 (5) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 19 (3) 1 (10) -1 (7) 1 (4) 4 (5) 20% 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 29 (3) -2 (12) -5 (8) -3 (5) 5 (6) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 25 (3) -2 (12) -4 (8) -2 (5) 4 (6) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 21 (3) -4 (12) -5 (8) -2 (5) 2 (6) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 23 (3) -9 (12) -12 (8) -7 (5) -1 (6) 40% 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 45 (4) -14 (13) -20 (9) -13 (6) -1 (7) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 37 (4) -15 (13) -18 (9) -11 (6) -1 (7) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 28 (4) -23 (14) -19 (9) -11 (6) -6 (7) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 30 (4) -34 (13) -39 (10) -26 (6) -17 (7) Totaal 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 32 (3) -4 (11) -8 (8) -5 (4) 4 (6) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 28 (3) -5 (11) -7 (8) -4 (4) 3 (6) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 22 (3) -8 (11) -7 (8) -4 (4) 1 (6) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 24 (3) -14 (11) -18 (8) -11 (5) -5 (6)

Resultaten voor Partial 𝜼𝑩 𝟐

De resultaten van de bias van Partial 𝜂𝐵 2staan weergeven in Tabel 4. Opvallend is dat, in

tegenstelling tot de resultaten in Tabel 3, de bias in afneemt naarmate het percentage missing-data toeneemt (panel 5). Daarnaast liggen de resultaten het dichtst bij de originele missing-data set als percentage missing-data 20% is, in plaats van 10%.

De bias in kolom 4 is ondanks de hoge waarde van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 (0.92), nagenoeg gelijk tussen de methoden. Er werd echter verwacht dat door het plafondeffect 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 minder

(16)

16 goed zou presteren ten opzichte van de overige methoden. In Tabel 3 presteert 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 bij

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 van 0.82 ook nagenoeg gelijk aan de overige methoden.

Voor Partial 𝜂𝐵 2 geeft 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 in tegenstelling tot eerdere resultaten de minste bias (kolom 5, panel 4).

Tabel 4

Bias Partial 𝜂𝐵 2: Gemiddelde waardes van de bias per methode

(standard-errors-of-the-mean tussen haakjes) onder verschillende condities van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 en percentage

missing-data. De waarden van de bias zijn vermenigvuldigd met 103.

Percentage Methode 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2

0 0.57 0.84 0.92

M (SE) M (SE) M (SE) M (SE) M (SE)

Origineel 36 (32) 26 (84) 9 (36) 4 (17) 19 (4) 0.10 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 46 (4) 34 (9) 12 (4) 6 (2) 57 (3) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 44 (4) 35 (9) 12 (4) 6 (2) 54 (3) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 42 (4) 35 (9) 12 (4) 6 (2) 49 (3) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 41 (4) 31 (9) 10 (4) 5 (2) 44 (3) 0.20 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 48 (4) 25 (9) 8 (4) 3 (2) 26 (9) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 45 (4) 26 (9) 8 (4) 4 (2) 28 (9) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 41 (4) 25 (9) 8 (4) 4 (2) 27 (9) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 38 (4) 16 (9) 4 (4) 1 (2) 15 (9) 0.40 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 79 (5) 20 (10) 2 (5) -1 (2) 7 (4) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 72 (5) 23 (10) 4 (5) 1 (2) 8 (4) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 63 (5) 21 (10) 4 (5) 1 (2) 8 (4) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 52 (5) -2 (11) -10 (5) -6 (2) 1 (4) Totaal 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 57 (3) 26 (9) 7 (4) 3 (2) 23 (4) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 54 (3) 28 (9) 8 (4) 4 (2) 23 (4) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 49 (3) 27 (9) 8 (4) 4 (2) 22 (4) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 44 (3) 15 (9) 1 (4) 1 (2) 15 (4) Resultaten voor 𝑷𝒂𝒓𝒕𝒊𝒂𝒍 𝜼𝑨𝑩 𝟐

(17)

17 De waarden van de bias van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴𝐵 2 staan weergegeven in Tabel 5.

De bias van de originele data is zeer laag bij 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 van 0.13. Dit lijkt de waarde te zijn voor 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 waarbij het minst geleden wordt onder bodem-en plafondeffecten. Bij

een lage waarde van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 presteert 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂

1….𝑀2 het beste (panel 4), maar zodra

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 dichter naar het midden schuift, wordt 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂

1….𝑀2 negatief en presteert

slechter dan de overige combinatiemethoden.

Uit kolom 5, panel 4 blijkt dat 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 ten opzichte van de overige methoden de minste bias geeft. Het verschil in de hoogte van deze bias is, met name ten opzichte van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 zeer klein.

(18)

18 Bias 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴𝐵 2 : Gemiddelde waardes van de bias per methode

(standard-errors-of-the-mean tussen haakjes) onder verschillende levels van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 en percentage

missing-data. De waarden zijn vermenigvuldigd met 103.

Percentage Methode 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2

0 0.13 0.37 0.57 Totaal

M (SE) M (SE) M (SE) M (SE) M (SE) Origineel 34 (30) 1 (84) -45 (106) -60 (96) -18 (7) 0.10 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 45 (4) 13 (9) -37 (11) -55 (10) -9 (8) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 43 (4) 12 (9) -37 (11) -55 (11) -9 (8) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 41 (4) 11 (9) -38 (11) -55 (11) -10 (8) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 41 (4) 9 (9) -41 (11) -59 (11) -13 (8) 0.20 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 53 (4) 10 (9) -45 (11) -63 (10) -11 (7) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 50 (4) 8 (9) -45 (11) -63 (10) -13 (8) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 45 (4) 4 (9) -47 (11) -64 (10) -15 (8) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 43 (4) 0 (9) -55 (11) -72 (10) -21 (8) 0.40 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 93 (7) 34 (11) -42 (13) -72 (12) 3 (10) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 86 (7) 29 (11) -43 (14) -70 (12) 1 (10) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 76 (7) 20 (12) -49 (14) -73 (12) -6 (10) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 66 (7) 7 (11) -69 (13) -96 (12) -23 (10) Totaal 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 63 (4) 19 (9) -41 (11) -63 (10) -6 (8) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐻𝑎𝑟𝑒𝑙2 60 (4) 16 (9) -42 (11) -62 (10) -7 (8) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 54 (4) 12 (9) -45 (11) -64 (10) -11 (8) 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀2 50 (4) 5 (9) -55 (11) -76 (10) -19 (8)

(19)

19 Discussie

In dit onderzoek zijn vier verschillende technieken vergeleken voor het combineren van 𝜂𝑃𝑎𝑟𝑡𝑖𝑎𝑙2 in multipel geïmputeerde data. Alle (interactie)effecten bleken significant te zijn voor

Partial 𝜂𝐴 2, Partial 𝜂

𝐵 2 en 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴𝐵 2 , allen met een groot effect.

Er werd verwacht dat 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 en 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀 2 de minste bias zouden opleveren, omdat alleen deze combinatietechnieken niet te lijden hebben onder bodem-en plafondeffecten. De resultaten van dit onderzoek konden deze verwachting niet volledig bevestigingen. Er bleek niet één specifieke methode het beste te presteren voor de drie factoren. 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 , presteerde het best voor Partial 𝜂

𝐴 2, 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1…𝑀2 voor Partial 𝜂𝐵 2

en 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 voor Partial 𝜂

𝐴𝐵 2 . Er moet vermeld worden dat alle methoden goed presteren,

de bias ten opzichte van de originele data set is klein. Daarnaast zijn ook de verschillen in grootte van de bias tussen de vier methoden zeer klein.

Bij 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 van 0 geven 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐿𝑜𝑔𝑖𝑡 2 en 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀 2 het minste bias ten opzichte van de overige methoden. Dit is volgens verwachting, omdat deze methoden minder te lijden hebben onder het bodemeffect. Er werd ook verwacht dat wanneer 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2

dichtbij 1 ligt, 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 het meeste bias zou geven, omdat alleen deze methode te lijden

heeft onder het plafondeffect. Alle methoden presteren echter goed en nagenoeg hetzelfde bij een 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 van bij de 1. 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂

1….𝑀 2 geeft bij deze hoge 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 (0.92) het minste

bias, maar als de waarden van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 naar verhouding kleiner zijn en meer richting het

midden van de schaal schuiven zoals bij 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂𝐴𝐵 2 , wordt de bias van de

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀 2 groter en negatief. Hoe deze relatief lage waarden van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 voor deze

hogere en negatieve bias zorgen is nog onduidelijk.

Implicaties en conclusie

𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀 2 geeft zoals beschreven veelbelovende resultaten voor lage en zeer hoge

waarden van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2. Bij 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2 van rond 0.5 geeft 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂

1….𝑀 2 deze methode

negatieve en relatief hoge bias. Het zou mogelijk interessant zijn om te onderzoeken wat de oorzaak hiervan is door bijvoorbeeld te onderzoeken of hetzelfde effect ook gevonden wordt bij andere analyses zoals 𝑅2. In dit onderzoek is alleen missing-data gesimuleerd op Y. Het

zou interessant zijn om te onderzoeken hoe de methoden presteren wanneer er ook missing-data op de onafhankelijke variabelen wordt gesimuleerd.

(20)

20 combineren van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂2onder verschillende condities getoetst. Alle vier de

combinatiemethoden geven weinig bias ten opzichte van de originele data en de verschillen tussen de methoden zijn zeer klein. Het zal in de praktijk daarom niet veel uitmaken welke combinatiemethode gebruikt wordt. 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂1….𝑀 2 geeft goede resultaten, maar meer

onderzoek is nodig naar de werking van deze methode. Op basis van de resultaten en de simpliciteit is het voor nu te adviseren om 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̅̅̅̅̅̅̅̅̅̅̅̅̅̅𝑀2 te gebruiken als methode voor het

combineren van 𝑃𝑎𝑟𝑡𝑖𝑎𝑙 𝜂̂ 2 in multipel geïmputeerde data.

Dankbetuiging

Graag wil ik Dr. Joost van Ginkel bedanken voor het schrijven van de R code voor deze simulatiecode, maar ook voor zijn enthousiasme voor het onderwerp en zijn heldere uitleg en specifieke feedback.

(21)

21 Referenties

Cohen, J. (1977). Statistical power analysis for the behavioral sciences. New York: Academic.

Harel, O. (2009). The estimation of 𝑅2 and adjusted 𝑅2 in incomplete data sets using multiple

imputation. Journal of Applied Statistics, 10, 1109-1118. doi: 510.1080/02664760802553000

Johnson, N. (1949). Systems of frequency curves generated by methods of translation. Biometrika, 36, 149-176. doi: 10.2307/2332539

R Development Core Team (2013). R: A Language and Environment for Statistical Computing. Vienna, Austria: the R Foundation for Statistical Computing.

Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley

Rubin, D.B. & Little, R.J. (2002). Statistical analysis with missing data. Hoboken, New York: John Wiley & Sons. doi: 10.1002/9781119013563

Schafer, J.L. (1997). Analysis of incomplete multivariate data. London: Chapman & Hall. doi: 10.1002/9781119013563.ch4

Van Ginkel, J.R. (2017). F-tests and estimates for 𝑅2 for multiple regression in multiply

imputed datasets: a cautionary note on earlier findings. Manuscript ingediend voor publicatie.

Van Ginkel, J.R. & Kroonenberg, P.M. (2014). Analysis of variance of multiply imputed data. Multivariate Behavioral Research, 49, 78-91. doi:

Referenties

GERELATEERDE DOCUMENTEN

[r]

[r]

Weet dat de schaduw zich altijd bevindt achter diegene die voor zich uit

De belangrijkste vragen die mensen hebben als ze nadenken over hun levenseinde, zijn: wat zal er met mij gebeuren en hoe kan ik daar invloed op hebben.. Het

Burgers – dat zijn geen pure consumenten, die op hun rechten staan en die eisen stellen, want van hen wordt veel verwacht, ze hebben verplichtingen, ze moeten steeds meer hun

Het idee is dat als de onderwijsinstellingen hun zaken wat betreft intern toezicht, bestuur, en kwaliteit goed op orde hebben, de rol van de Inspectie van het Onderwijs kan

Vergeet niet dat iedere baby zijn eigen ritme en ontwikkeling heeft.

Als de ziekte langer bestaat, merken de meeste patiënten dat de aanvallen minder vaak komen of wegblijven, maar dat er een geleidelijke toename van verschijnselen ontstaat