• No results found

Het selecteren van instrumentele variabelen : vergelijking van de Lasso- en adaptieve Lasso-methode

N/A
N/A
Protected

Academic year: 2021

Share "Het selecteren van instrumentele variabelen : vergelijking van de Lasso- en adaptieve Lasso-methode"

Copied!
22
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Het  selecteren  van  instrumentele  variabelen  

Vergelijking  van  de  Lasso-­‐  en  adaptieve  Lasso-­‐methode  

 

   

Abstract  

In  dit  scriptieonderzoek  zijn  twee  verschillende  momentselecterende  methoden  met  elkaar   vergeleken,   dit   zijn   de   Lasso-­‐methode   en   de   adaptieve   Lasso-­‐methode.   Aan   de   hand   van   een   Monte   Carlosimulatie   is   onderzocht   welke   van   deze   methoden   het   beste   valide   instrumenten   selecteert.   Dit   is   onderzocht   aan   de   hand   van   drie   toetsingscriteria   voor   verschillende   situaties   met   betrekking   tot   het   aantal   invalide   instrumenten   en   steekproefgrootte.  Er  is  gebleken  dat  de  adaptieve  Lasso-­‐methode  een  grotere  kans  heeft   op  het  perfect  selecteren  van  de  juiste  instrumenten  ten  opzichte  van  de  Lasso-­‐methode,   wanneer  steekproefgrootte  voldoende  groot  wordt  gekozen.  

         

Naam:  Joost  Jansen  

Studentnummer:  10155864   Datum:  29-­‐6-­‐2015  

Opleiding:  Econometrie  en  Operationele  Research   Universiteit  van  Amsterdam  

Begeleider:  Milan  Pleus  

(2)

Inhoudsopgave  

1.  Inleiding   1

 

2.  Theoretisch  kader   3

 

2.1  Momentcondities   3

 

2.1.1  Sargan-­‐toets   4

 

2.2  Overige  methoden   4

 

2.2.1  Lasso-­‐methode   4

 

2.2.2  Adaptieve  Lasso-­‐methode   7

 

2.3.  Hypothese  en  toetsingsgrootheid   7

 

3.  Onderzoeksopzet   8

 

3.1  Datagenererend  proces   8

 

3.2  Scenario’s  simulatie   9

 

4.  Resultaten  en  analyse   10

 

4.1  Verschillende  waarden  F-­‐statistiek   10

 

4.2  Wisselend  aantal  invalide  instrumenten   13

 

4.3  Oracle  properties   15

 

5.  Conclusie   16

 

Bibliografie   18

 

Appendix  

 

                       

(3)

1.  Inleiding  

Instrumentele  variabelen  zijn  nodig  wanneer  in  econometrisch  onderzoek  of  economische   theorie  blijkt  dat  de  verklarende  variabelen  niet  exogeen  zijn.  Dit  is  het  geval  wanneer  één   of  meerdere  verklarende  variabelen  gecorreleerd  zijn  met  de  storingsterm.  De  variabelen   die  gecorreleerd  zijn  met  de  storingsterm  worden  endogeen  genoemd.  Wanneer  er  sprake   is   van   endogeniteit   van   de   verklarende   variabelen   levert   de   standaard   kleinstekwadratenschatter   onzuivere   schattingen   op.   De   parameters   kunnen   dan   geschat   worden   aan   de   hand   van   de   IV-­‐schatter,   deze   corrigeert   voor   de   endogeniteit.   Deze   schatter   heeft   als   nadeel   dat   de   variantie   van   de   geschatte   parameters   groter   is   dan   wanneer   de   kleinstekwadratenschatter   wordt   gebruikt.   Voor   deze   IV-­‐schatter   zijn   instrumentele   variabelen   nodig,   die   valide   en   relevant   dienen   te   zijn.   Instrumenten   zijn   valide   wanneer   deze   ongecorreleerd   zijn   met   de   storingsterm   (exogeen),   relevante   instrumenten  zijn  voldoende  gecorreleerd  met  de  endogene  verklarende  variabelen.  Voor   het  toetsen  van  de  exogeniteit  van  instrumentele  variabelen  zijn  momenteel  verschillende   toetsen  beschikbaar,  waaronder  de  Sargan-­‐toets  (Sargan,  1958).    

  Indien  meer  instrumenten  beschikbaar  zijn  dan  parameters  om  te  schatten,  wordt   gebruikgemaakt   van   de   GMM-­‐schatter   voor   het   schatten   van   de   parameters.   Voor   het   selecteren   van   de   juiste   instrumenten,   worden   met   de   mogelijke   instrumenten   momentcondities  opgesteld.  Deze  momentcondities  worden  getoetst  op  validiteit,  wanneer   deze  valide  zijn  worden  de  instrumenten  waarmee  de  momentcondities  werden  opgesteld   geselecteerd  voor  het  model.  Een  momentconditie  is  valide  wanneer  de  verwachting  van   deze  momentconditie  gelijk  is  aan  nul.  Voor  het  vinden  van  een  valide  set  van  instrumenten   zijn   momenteel   meerdere   technieken   bekend;   de   Lasso-­‐methode   die   ontwikkeld   is   door   Tibshirani   (1996),   de   adaptieve   Lasso-­‐methode   die   ontwikkeld   is   door   Zou   (2006)   en   uitgebreid   door  Liao   (2013),   de   J-­‐toets   ontwikkeld   door   Andrews   en   Lu   (2001),   de   subset   versie  van  de  Sargan-­‐toets  (Sargan,  1958)  en  onlangs  is  Han  (2008)  met  een  nieuwe  manier   gekomen  voor  het  selecteren  van  instrumentele  variabelen.  Al  deze  methoden  worden  op   verschillende   manieren   gebruikt   voor   het   selecteren   van   invalide   instrumenten,   in   dit   onderzoek  wordt  verder  ingegaan  op  de  Sargan-­‐toets,  de  Lasso-­‐methode  en  de  adaptieve   Lasso-­‐methode.  

Voor   toekomstig   econometrisch   onderzoek   is   het   van   belang   te   weten   wat   de   meest  efficiënte  manier  is  voor  het  selecteren  van  valide  momentcondities.  Dit  zorgt  ervoor   dat  er  een  kleinere  kans  is  op  het  selecteren  van  invalide  instrumenten  en  vergroot  de  kans  

(4)

op   selecteren   van   alle   valide   instrumenten.   In   dit   scriptieonderzoek   worden   twee   methoden   bekeken   en   met   elkaar   vergeleken:   de   Lasso-­‐methode   en   de   adaptieve   Lasso-­‐ methode.   De   centrale   vraag   is   welke   van   deze   twee   momentselecterende   methoden   het   meest  efficiënt  de  valide  instrumenten  selecteert,  oftewel  welke  van  de  methoden  heeft  de   grootste   kans   om   de   juiste   instrumenten   te   selecteren.   Deze   methoden   zijn   geselecteerd   om  te  onderzoeken,  omdat  in  het  artikel  van  Fan  en  Li  (2001)  wordt  bediscussieerd  of  de   Lasso-­‐methode   en   de   adaptieve   Lasso-­‐methode   wel   of   niet   voldoen   aan   de   oracle  

properties.   Volgens   Fan   en   Li   voldoet   de   Lasso-­‐methode   hier   niet   aan   en   de   adaptieve  

Lasso-­‐methode  wel.  Een  methode  voldoet  aan  de  oracle  properties  als  deze  in  verwachting   de  juiste  coëfficiënten  gelijkstelt  aan  nul,  in  het  geval  van  dit  onderzoek  wil  dit  dus  zeggen   dat  de  methode   de   juiste   momenten   als   valide   aanwijst.  Voor  het  voldoen  aan  de   oracle  

properties   dient   een   methode   asymptotisch   optimaal   te   zijn,   dit   betekent   dat   de  

coëfficiënten   zo   efficiënt   mogelijk   worden   geschat.   Dit   betekent   dat   de   coëfficiënten   de   kleinst  mogelijke  covariantiematrix  hebben.    

  Het  vergelijken  van  de  twee  momentselecterende  methoden  wordt  gedaan  aan  de   hand   van   een   Monte   Carlosimulatie.   Aan   de   hand   van   drie   toetsingscriteria   worden   de   methoden   in   de   verschillende   scenario’s   met   elkaar   vergeleken.     De   instellingen   voor   de   datageneratie   zijn   afwisselend   met   betrekking   tot   de   steekproefgrootte,   de   mate   van   endogeniteit  van  de  invalide  momenten,  het  aantal  invalide  momenten   en  de  F-­‐statistiek   op   basis   van   de   concentratieparameter.   Deze   Monte   Carlosimulatie   is   gebaseerd   op   het   artikel  van  Caner,  Maasoumi  en  Riquelme  (2014),  waar  de  adaptieve  Lasso-­‐methode  (Liao,   2013),  de  J-­‐toets  methode  (Andrews  &  Lu,  2001)  en  de  Continuous  Updating  Objective  van   Hong,  Han,  Preston  en  Shum  (2003).  

  In   het   volgende   hoofdstuk   volgt   een   bespreking   van   de   reeds   gepubliceerde   literatuur   omtrent   de   Lasso-­‐methode   en   andere   momentselecterende   functies.   Het   onderzoek   van   Caner   et   al.   (2014)   zal   worden   aangehaald,   dat   een   vergelijking   maakt   tussen   verschillende   momentselecterende   methoden.   In   hoofdstuk   3   wordt   de   onderzoeksmethode  van  dit  onderzoek  besproken  met  hierin  de  beschrijving  van  de  Monte   Carlosimulatie.   De   resultaten   van   de   Monte   Carlosimulatie   worden   weergegeven   en   geanalyseerd  in  hoofdstuk  4.  In  het  afsluitende  hoofdstuk  5,  wordt  de  conclusie  getrokken   welke  van  de  momentselecterende  methoden  het  meest  efficiënt  de  valide  instrumenten   selecteert.    

(5)

2.  Theoretisch  kader  

In  het  geval  dat  er  evenveel  beschikbare  instrumenten  zijn  als  parameters  om  te  schatten,   kan   gebruik   worden   gemaakt   van   de   standaard   IV-­‐schatter   voor   het   schatten   van   de   parameters.  Indien  er  meer  instrumenten  zijn  dan  parameters,  kan  er  getoetst  worden  of   sommige  van  de  momentcondities  opgesteld  met  de  instrumenten  ongeldig  zijn.  Hiervoor   worden   momentselecterende   methoden   gebruikt.   Deze   momentselecterende   methoden   maken   gebruik   van   zogenoemde   momentcondities,   die   uitgaan   van   exogeniteit   van   de   instrumenten  met  de  storingsterm.    

De   bekendste   toets   op   exogeniteit   is   de   Sargan-­‐toets   (Sargan,   1958).   Hiermee   kan   achteraf  getoetst  worden  of  de  set  instrumenten  die  is  geselecteerd  daadwerkelijk  exogeen   is  ten  opzichte  van  de  storingsterm.  Er  zijn  ook  andere  methoden  beschikbaar  om  validiteit   te   toetsen,   die   meer   informatie   kunnen   verschaffen,   op   het   moment   dat   er   minstens   zo   veel   instrumenten   beschikbaar   zijn   als   regressoren   in   het   model. Deze   methoden   zullen   worden  besproken  in  paragraaf  2.2.  

2.1  Momentcondities  

In  dit  onderzoek  wordt  gebruik  gemaakt  van  het  volgende  lineaire  model:  

𝑦 = 𝑋𝜃!+ 𝜀      (1)  

𝑋 = 𝑍𝜋!+ 𝑢      (2)   in  dit  model  is  𝑋  de  matrix  met  mogelijk  endogene  verklarende  variabelen  en  𝜃!  de  te  schatten  

parameters.  De  matrix  𝑍  bevat  de  instrumenten  die  mogelijk  gebruikt  kunnen  worden  voor  het   schatten  van  𝜃!.  𝜀  en  𝑢  zijn  de  storingstermen  van  de  beide  modellen.  Voor  de  IV-­‐schatter  zijn  

verschillende  instrumenten  nodig  voor  het  schatten  van  de  parameters.  In  het  geval  dat  er   gebruik  wordt  gemaakt  van  instrumentele  variabelen  moeten  deze  ongecorreleerd  zijn  met  de   storingsterm  (exogeniteit).  Dit  wil  zeggen  dat  de  momentcondities  opgesteld  met  deze  

instrumenten  moeten  voldoen  aan:  

𝑔! 𝜃   = 𝑍! 𝑦!− 𝑋!𝜃      𝐸 𝑔! 𝜃! =  0      ∀  𝑖                            (3)  

 

waarin   𝑔!(𝜃)   staat   voor   de   matrixvermenigvuldiging   van   de   instrumenten   en   de  

storingsterm.   De   conditie   dat   de   verwachting   hiervan   gelijk   dient   te   zijn   aan   nul,   is   de   momentconditie.   In   bovenstaande   vergelijking   staat   𝜀!   weergegeven   als   𝑦!− 𝑋!𝜃 .   De  

(6)

2.1.1  Sargan-­‐toets  

De   Sargan-­‐toets   dient   voor   het   toetsen   van   de   instrumentele   variabelen   op   exogeniteit.   Met   de   Sargan-­‐toets   kan   getoetst   worden   of   er   al   dan   niet   wordt   voldaan   aan   de   validiteitsnorm  van  de  instrumenten.  Deze  toets  kan  op  twee  manieren  uitgevoerd  worden,   waarvan  één  erg  lijkt  op  de  methode  die  in  dit  onderzoek  toegepast  zal  worden.  Hiervoor   dienen  twee  regressies  uitgevoerd  te  worden  namelijk;  een  instrumentele  regressie  op  het   te  schatten  model,  gevolgd  door  een  regressie  van  de  residuen  van  deze  regressie  op  de   instrumentele   variabelen.   Als   de   instrumenten   exogeen   zijn,   zijn   de   residuen   ongecorreleerd   met   de   instrumenten.   Dit   wordt   getoetst   aan   de   hand   van   de   toetsingsgrootheid   𝐿𝑀 = 𝑛𝑅!.   Met   𝑅!   uit   de   regressie   van   de   storingsterm   op   de  

instrumentele  variabelen.  

  Het   nadeel   van   de   Sargan-­‐toets   is   dat   deze   slechts   toetst   of   er   endogene   instrumenten   gebruikt   worden   in   de   instrumentele   regressie.   De   toets   geeft   geen   informatie  over  welke  instrumenten  invalide  zijn  of  hoeveel  instrumenten  invalide  zijn.  De   methoden   die   besproken   worden   in   de   volgende   paragrafen   kunnen   deze   informatie   wel   verschaffen.  

2.2  Overige  methoden    

Er   zijn   andere   methoden   voor   het   toetsen   op   validiteit   van   instrumenten   die   meer   informatie  kunnen  verschaffen  over  welke  instrumenten  invalide  zijn.  Deze  methoden  zijn   alle   te   gebruiken   wanneer   er   minimaal   evenveel   instrumenten   beschikbaar   zijn   als   regressoren  in  het  te  schatten  model.  Deze  methoden  worden  in  het  artikel  van  Caner  et  al.   (2014)  vergeleken,  namelijk  de  adaptieve  Lasso-­‐methode  zoals  beschreven  door  Zou  (2006)   en  uitgebreid  door  Liao  (2013),  de  J-­‐toets  uit  het  artikel  van  Andrews  en  Lu  (2001)  en  de  

Continuous  Updating  Objective  (CUE)  uit  het  artikel  van  Hong  et  al.  (2003).  Aangezien  Caner  

et   al.   (2014)   concluderen   dat   de   adaptieve   Lasso-­‐methode   het   meest   efficiënt   de   valide   instrumenten  selecteert,  wordt  in  dit  onderzoek  verder  ingegaan  op  deze  methode  en  dan   met  name  de  vergelijking  met  de  Lasso-­‐methode.  In  de  volgende  paragrafen  zullen  beide   methoden  verder  worden  beschreven.  

2.2.1  Lasso-­‐methode  

De   Lasso-­‐methode   is   een   methode   die   meer   informatie   kan   verschaffen   over   mogelijke   invalide  instrumenten.  Hierbij  wordt  gebruikgemaakt  van  het  feit  dat  de  onderzoeker  van   een   subset   van   de   instrumenten   ervan   uitgaat   dat   deze   valide   zijn   en   de   rest   van   de   instrumenten   met   de   Lasso-­‐methode   toetst   op   exogeniteit.   De   uitkomst   geeft   niet   alleen  

(7)

aan  of  er  sprake  is  van  endogeniteit,  maar  tevens  ook  welke  instrumenten  endogeen  zijn.   Onderstaande  formules  geven  weer  hoe  de  momentcondities  worden  opgesteld  voor  het   toetsen  van  de  instrumenten.  

  𝑔!! 𝜃   = 𝑍!! 𝑦!− 𝑋!𝜃      𝐸 𝑔!! 𝜃! = 0      ∀  𝑖      (4)   𝑔!! 𝜃 = 𝑍!! 𝑦!− 𝑋!𝜃 − 𝛽      𝐸 𝑔!! 𝜃! = 0      ∀  𝑖      (5)   𝑔! 𝜃, 𝛽 =   !!!(!) !!!(!,!)  ,        𝑔   𝜃, 𝛽 =   ! ! 𝑔! 𝜃, 𝛽      (6) ! !!!                                                            

het   totale   aantal   instrumenten   𝑙   wordt   opgesplitst   in   een   subset   met   hierin   de   𝑙!  

instrumenten   bevat   die   als   valide   worden   beschouwd.   𝑍!!   is   een   𝑙!   x   1   vector   uit   𝑍!   die  

deze  instrumenten  bevat.  De  overige  instrumenten  𝑙!  worden  samengevoegd  in  de  matrix  

𝑍!  waar  𝑍!!  een  𝑙!  x  1  vector  uit  is.  Deze  instrumenten  worden  aan  de  hand  van  de  Lasso-­‐

methode   getoetst.   𝛽   in   (5)   kan   beschouwd   worden   als   de   onzuiverheid   die   wordt   veroorzaakt   doordat   de   instrumenten   niet   exogeen   zijn.   Wanneer   de   instrumenten   wel   exogeen   zijn   is   deze   𝛽   gelijk   aan   nul.   De   Lasso-­‐methode   kent   verschillende   stappen.   Allereerst  wordt  𝜃  geschat  met  de  volgende  IV-­‐regressie:  

 

𝜃!" = (𝑋!𝑃!!𝑋)!!𝑋!𝑃!!𝑦,      𝑢!= 𝑦 − 𝑋𝜃      (7)       in   bovenstaande   vergelijking   staat   𝑃!!   voor   de   projectiematrix,   deze   wordt   gedefinieerd   door   𝑃!!= 𝑍!(𝑍!!𝑍

!)!!𝑍!′.   Vervolgens   zou   𝛽   geschat   kunnen   worden   met   de   volgende  

formule:  

  𝛽 =  !!!!!

!      (8)

                                                                                                                                                                                   

indien  er  uit  een  toets  blijkt  dat  de  waarde  van  𝛽  niet  ongelijk  aan  nul  is  kan  men  stellen  dat   er  sprake  is  van  exogeniteit  en  is  het  niet  nodig  te  toetsen  welke  instrumenten  invalide  zijn,   die  zijn  er  dan  namelijk  niet.  De  Lasso-­‐methode  wordt  toegepast  op  de  volgende  regressie   om  te  onderzoeken  welke  instrumenten  endogeen  zijn:  

 

𝑢!= 𝑍!𝛾 + 𝑣      (9)  

dit  wil  zeggen  dat  de  minimalisatie  die  tijdens  de  regressie  opgelost  dient  te  worden  er  als   volgt  uit  komt  te  zien:  

min ! 𝑢!− 𝑍!𝛾 ! 𝑢 !− 𝑍!𝛾 + 𝜆 𝛾! !! !!!      (10)  

(8)

in  bovenstaande  formule  is  𝜆  de  zogenoemde  tuning  parameter    voor  de  Lasso-­‐regressie,   deze  bepaalt  in  feiten  hoe  groot  de  l1-­‐penalty  is  van  de  Lasso-­‐regressie.  Wanneer  𝜆  gelijk  

aan   nul   wordt   gekozen,   is   de   regressie   niet   anders   dan   de   kleinstekwadratenschatter.   Wanneer   𝜆   groot   genoeg   wordt   gekozen,   zullen   alle   coëfficiënten   naar   nul   gaan.   In   deze   methode  dient  𝜆  optimaal  gekozen  te  worden.  Dit  gebeurt  in  dit  onderzoek   aan  de  hand   van   cross-­‐validatie.   In   het   proces   van   cross-­‐validatie   wordt   de   data   opgesplitst   in   verschillende  subsets  (Tibshirani,  1996).  Vervolgens  wordt  elke  subset  eenmaal  weggelaten   en   wordt   deze   weggelaten   subset   voorspeld   met   de   overige   data,   voor   verschillende   waarden   van   de   tuning   parameter.   Voor   elk   van   deze   voorspellingen   wordt   de   cross-­‐ validatiefout   berekend,   dit   is   het   verschil   tussen   de   geschatte   waarden   en   de   werkelijke   waarden  van  de  weggelaten  subset.  De  tuning  parameter  waarvoor  deze  cross-­‐validatiefout   minimaal   is   wordt   aangewezen   als   optimale   tuning   parameter   en   gebruikt   in   de   Lasso-­‐ regressie.  

De  variabelen  waarvan  de  coëfficiënt  uit  de  Lasso-­‐regressie  gelijk  aan  nul  zijn,  zijn   de  valide  instrumenten  en  kunnen  gebruikt  worden  voor  het  schatten  van  𝜃.  Nu  kan  een   verzameling  gevormd  worden  van  de  valide  instrumenten  namelijk  𝑍∗  =   𝑍

!    𝑍!∗ .  In  deze  

vergelijking   is   𝑍!   de   eerste   subset   van   instrumenten   die   vooraf   al   als   valide   werden  

beschouwd  en    𝑍!∗  de  instrumenten  die  door  de  Lasso-­‐methode  als  valide  zijn  getoetst.  Als  

laatste  stap  wordt  𝜃  geschat  aan  de  hand  van  de  IV-­‐schatter  met  de  valide  instrumenten:      

𝜃∗= (𝑋!𝑃

!∗𝑋)!!𝑋!𝑃!∗𝑦      (11)   in   deze   regressie   is   𝑃!∗   de   projectiematrix   van   de   instrumenten   op   de   regressoren.   Deze  

projectiematrix   wordt   gedefinieerd   als   𝑃!∗=   𝑍∗(𝑍∗′𝑍∗)!!𝑍∗′.   𝜃∗  is   de   uiteindelijke   schatter   voor   𝜃   met   gebruikmaking   van   de   door   de   Lasso-­‐methode   geselecteerde   instrumenten.  

Van   de   Lasso-­‐methode   werd   door   Tibshirani   (1996)   gesteld   dat   deze   voldoet   aan   de  

oracle  properties,  dit  wil  zeggen  dat  asymptotisch  de  juiste  variabelen  gelijk  worden  gesteld  

aan  nul.  In  het  geval  van  dit  onderzoek  wil  dit  zeggen  dat  de  Lasso-­‐methode  de  juiste  valide   momenten  zou  selecteren  wanneer  de  steekproef  naar  oneindig  gaat.    

Echter,   Fan   en   Li   (2001)   stellen   dat   voor   grote   coëfficiënten   onzuivere   schattingen   kunnen  worden  geproduceerd  door  de  Lasso-­‐methode.  Dit  wil  zeggen  dat  er  niet  optimaal   geschat   wordt   door   de   Lasso-­‐methode.   Meinshausen   en   Bühlmann   (2004)   stellen   dat   wanneer  𝜆  in  vergelijking  (10)  optimaal  wordt  gekozen,  dit  inconsistente  variabelselecties   oplevert.  Door  deze  twee  artikelen  worden  de  oracle  properties    van  de  Lasso-­‐methode  in   twijfel  getrokken.  

(9)

2.2.2  Adaptieve  Lasso-­‐methode  

Vanwege  het  in  twijfel  trekken  van  de  oracle  properties  van  de  Lasso-­‐methode  komt  Zou   (2006)   met   een   methode   waarmee   er   gecorrigeerd   wordt   voor   de   inconsistenties   in   de   Lasso-­‐methode.  Hiervoor  komt  hij  in  zijn  artikel  met  een  aangepaste  versie  van  de  Lasso-­‐ methode,   namelijk   de   adaptieve   Lasso-­‐methode.   Er   wordt   gebruikgemaakt   van   een   gewogen   l1-­‐penalty.   Dit   betekent   dat   er   ten   opzichte   van   de   minimalisatiefunctie   in  

vergelijking  (10)  een  aanpassing  gemaakt  wordt  namelijk:     min ! 𝑢!− 𝑍!𝛾 ! 𝑢 !− 𝑍!𝛾 + 𝜆 𝑤! 𝛾! !! !!!      (12)  

hierin  zijn  𝑤!  de  wegingsfactoren  die  worden  berekend  als  volgt:  

𝑤!=   !!

!      (13)     met   hierin   𝛾!   de   coëfficiënten   uit   de   regressie   van   vergelijking   (9).   Doordat   de  

wegingsfactoren   op   deze   manier   berekend   worden,   geldt   dat   hoe   groter   de   geschatte   coëfficiënt    van  de  IV-­‐schatter  hoe  kleiner  de  wegingsfactor  is.  Door  deze  correctie  voldoet   de  adaptieve  Lasso-­‐methode  volgens  Zou  (2006)  wel  altijd  aan  de  oracle  properties.  In  dit   scriptieonderzoek  wordt  voornamelijk  onderzocht  of  er  daadwerkelijk  een  dermate  verschil   te  zien  is  tussen  de  Lasso-­‐methode  en  de  adaptieve  Lasso-­‐methode,  dat  geconcludeerd  kan   worden   dat   de   adaptieve   Lasso-­‐methode   voldoet   aan   de   oracle   properties   en   de   Lasso-­‐ methode  niet.  

2.3  Hypothese  en  toetsingsgrootheid  

Dit   onderzoek   is   erop   gericht   om   duidelijkheid   te   verschaffen   in   de   verschillen   tussen   de   Lasso-­‐methode   en   de   adaptieve   Lasso-­‐methode.   Daarom   is   een   vergelijkend   onderzoek   uitgevoerd   tussen   deze   twee   methoden   in   verschillende   simulatie   opzetten.   Voor   deze   verschillende   simulatie   opzetten   worden   de   methoden   op   drie   verschillende   criteria   beoordeeld  namelijk:  de  kans  dat  een  model  de  juiste  instrumenten  als  valide  aanwijst  en   geen   van   de   invalide   instrumenten   selecteert   (perfecte   selectie);   de   kans   dat   het   model   slechts   valide   instrumenten   selecteert,   maar   minder   dan   het   werkelijke   aantal   valide   instrumenten  en  daarbij  geen  invalide  instrumenten  selecteert.  Het  laatste  criterium  is  de   kans   dat   het   model   een   invalide   instrument   aanwijst   als   valide.   Dit   zijn   dezelfde   toetsingscriteria   zoals   gebruikt   in   Caner   et   al.   (2014).   De   uiteindelijke   vraag   die   dit   onderzoek  probeert  te  beantwoorden  is  of  de  adaptieve  Lasso-­‐methode  significant  beter  is   dan   de   Lasso-­‐methode   in   het   selecteren   van   valide   momentcondities   en   of   de   adaptieve  

(10)

Lasso-­‐methode  daadwerkelijk  voldoet  aan  de  oracle  properties  en  de  Lasso-­‐methode  niet.   Na  het  bestuderen  van  de  al  aanwezige  literatuur  is  de  verwachting  dat  dit  het  geval  is.  

3.  Onderzoeksopzet  

De   Monte   Carlosimulatie   heeft   als   doel   om   de   Lasso-­‐methode   en   de   adaptieve   Lasso-­‐ methode  te  vergelijken.  Aan  de  hand  van  de  drie  in  hoofdstuk  2  benoemde  toetsingscriteria   is   bekeken   welke   van   deze   twee   methoden   het   beste   valide   instrumenten   selecteert.   De   Monte   Carlosimulatie   zoals   die   is   uitgevoerd   door   Caner   et   al.   (2014)   wordt   hierbij   als   uitgangspunt  gebruikt.  In  dit  hoofdstuk  zal  het  datagenererende  proces  worden  behandeld   en   de   parameters   die   worden   gebruikt   uitgelegd.   De   verschillende   simulatie   opzetten   worden  tevens  nader  verklaard.  

3.1  Datagenererend  proces  

Voor  het  genereren  van  de  data  worden  de  volgende  lineaire  modellen  gebruikt:    

𝑦 = 𝛼 +  𝑋𝜃!+ 𝜀      (14)   𝑋 = 𝜑 +   𝑍!𝜋!"+ 𝑍!𝜋!"+ 𝑢      (15)   met  hierin  𝑋  een  𝑛  𝑥  𝑘  matrix  met  endogene  verklarende  variabelen.  𝑍!  is  de  n  x  3  matrix  

met  de  valide  instrumenten.  𝑍!  is  de  n  x  8  matrix  met  hierin  de  instrumenten  die  getoetst  

worden   op   exogeniteit.   𝜀   en   𝑢   zijn   onderling   gecorreleerde   storingstermen   met   een   covariantie  van  0,5.  De  variantie  van  𝜀  is  gelijk  aan  1,2  en  de  variantie  van  𝑢  is  gelijk  aan  1.   𝛼  en  𝜑  zijn  beide  constante  in  het  model.  De  werkelijke  waarde  van  𝜃!  is  gelijkgesteld  aan  

0,5.   De   variantie   van   de   instrumenten   is   constant   en   de   instrumenten   zijn   onderling   ongecorreleerd,   𝜎!!! = 0,5   ∙ Ι!.   Er   wordt   gebruikgemaakt   van   een   multivariate   normale  

verdeling   voor   het   genereren   van   de   data   𝑍, 𝜀, 𝑢  ~  𝑁(0, Σ)   met   hierin   𝛴   de   13   x   13   symmetrische  matrix  die  als  volgt  wordt  opgesteld:  

  𝛴 =   𝜎!!! ∙ Ι ! 𝜎!"! 0!! 𝜎!" 𝜎!! 𝜎!" 0! 𝜎!" 𝜎!! =   0,5 ∙ Ι!! 𝜎!"! 0!!! 𝜎!" 1,2 0,5 0!! 0,5 1      

𝜎!"  is  de  covariantie  tussen  de  instrumenten  en  de  storingsterm,  deze  neemt  verschillende  

waarden  aan  voor  het  aantal  invalide  instrumenten  en  de  mate  van  endogeniteit.  Voor  het   geval  dat  er  twee  invalide  instrumenten  aanwezig  zijn  in  𝑍!  geldt  𝜎!" = (0,0,0,0,0,0, 𝑑, 𝑑),  

(11)

scenario   met   zes   invalide   instrumenten   geldt   𝜎!" = (0,0, 𝑑, 𝑑, 𝑑, 𝑑, 𝑑, 𝑑).   Hierin   is   𝑑   de  

mate   van   endogeniteit   van   de   instrumenten,   de   covariantie   tussen   de   invalide   instrumenten  en  de  storingsterm.  De  simulatie  kent  10.000  herhalingen.    

3.2  Scenario’s  simulatie  

De  Monte  Carlosimulatie  zal  op  verschillende  wijzen  worden  ingesteld  voor  het  genereren   van  de  data.  Om  verschillende  situaties  te  bekijken  voor  de  sterkte  van  de  identificatie  van   de   instrumenten   is   gekeken   naar   de   F-­‐statistiek     die   wordt   berekend   door   de   concentratieparameter  te  delen  door  het  totale  aantal  instrumenten:    

 

𝐹 =  𝜋!  !𝑍!𝑍𝜋! 𝑘!

𝜎!!      (16)  

 

hierin  is  𝑍  de  door  de  Monte  Carlosimulatie  gegenereerde  data  en  𝜋!  de  coëfficiënten  van  

de  instrumenten.  De  coëfficiënten  hebben  verschillende  waarden  voor  de  instrumenten  in   𝑍!   ten   opzichte   van   𝑍!,   𝜋! =   𝜋!" 𝜋!" .   De   coëfficiënten   𝜋!"   zijn   gelijk   aan   0,2;   de  

coëfficiënten   𝜋!"   nemen   verschillende   waarden   aan   zodanig   dat   de   F-­‐statistiek   waarden  

aanneemt  van  3,  10,  30  of  80.  Als  vuistregel  wordt  door  Staiger  en  Stock  (1997)  voorgesteld   tien   als   grenswaarde   te   bepalen   tussen   zwakke   en   sterke   identificatie.   Vandaar   de   keuze   voor   deze   waarden   van   de   F-­‐statistiek;   zwakke   identificatie,   het   grensgeval,   sterke   identificatie   en   zeer   sterke   identificatie.   Een   overzicht   van   de   coëfficiënten   van   de   instrumenten   in   𝑍!   staan   weergegeven   in   de   appendix.     Wanneer   de   F-­‐statistiek   wordt  

berekend  als  in  (16)  voor  het  onderzoek  van  Caner  et  al.  (2014)  blijkt  dat  zij  juiste  waarden   hebben  gekozen  voor  de  coëfficiënten  𝜋!",  voor  het  zwakke  identificatie  scenario  is  deze  

namelijk  gelijk  aan  één  en  voor  het  sterke  identificatie  scenario  aan  100.  𝑘!  staat  voor  het  

aantal  kolommen  in  de  Z-­‐matrix  en  is  dus  gelijk  aan  het  aantal  instrumenten,  11.  𝜎!!  is  de  

variantie   van   de   storingsterm   in   vergelijking   (15),   deze   is   heeft   de   waarde   1.   De   steekproefgrootte   heeft   drie   verschillende   waarden:   50,   100   en   250.   Het   aantal   invalide   instrumenten  in  𝑍!  zal  gelijk  zijn  aan  twee,  vier  of  zes.  Terwijl  het  totaal  aantal  variabelen  in  

𝑍!  gelijk   blijft   aan   acht.   De   mate   van   endogeniteit   van   de   invalide   instrumenten   met   de  

storingsterm   zal   ook   voor   verschillende   scenario’s   geanalyseerd   worden.   Voor   de   analyse   geldt   dat   𝑑 = (0,1; 0,2; 0,3)   met   hierin   𝑑,   de   mate   van   endogeniteit.   De   mate   van   endogeniteit   is   de   covariantie   tussen   de   invalide   instrumenten   en   de   storingsterm.   Ook   wordt  nog  het  speciale  geval  bekeken  waar  𝑑 = 0,  hiervoor  geldt  dus  dat  er  geen  invalide  

(12)

instrumenten   aanwezig   zijn   in   𝑍!.   Voor   het   onderzoeken   van   de   oracle   properties   is   een  

extra  simulatie  uitgevoerd  met  een  steekproefgrootte  van  5.000.  

4.  Resultaten  en  analyse  

In   dit   hoofdstuk   worden   de   resultaten   van   de   Monte   Carlosimulatie   weergegeven   en   besproken.   In   paragraaf   4.1   zullen   de   resultaten   weergegeven   en   geanalyseerd   worden   voor   het   geval   dat   er   vier   invalide   instrumenten   aanwezig   zijn   in   𝑍!   voor   wisselende  

waarden   van   de   F-­‐statistiek.   In   de   daaropvolgende   paragraaf   wordt   gekeken   naar   de   situaties   waarin   twee   of   zes   invalide   instrumenten   aanwezig   zijn   in   de   data.   De   situatie   waarin  de  covariantie  tussen  de  storingsterm  en  de  instrumenten  gelijkgesteld  is  aan  nul,   wordt  hier  ook  weergegeven.  Er  zijn  hierdoor  zijn  er  geen  invalide  instrumenten  aanwezig   in   de   data.   In   de   laatste   paragraaf   van   dit   hoofdstuk   worden   de   resultaten   weergegeven   voor   een   grote   steekproefgrootte   om   te   analyseren   of   de   Lasso-­‐methode   en/of   de   adaptieve  Lasso-­‐methode  voldoen  aan  de  oracle  properties.  In  alle  tabellen  staat  𝑑  voor  de   waarde   van   de   covariantie   tussen   de   invalide   instrumenten   en   de   storingsterm.   Met   𝑛   wordt  de  steekproefgrootte  uitgedrukt.  De  waarden  P  en  SE  staan  respectievelijk  voor  de   kans  en  standaardfout  van  de  verschillende  toetsingsgrootheden.  De  standaardfout  wordt   als  volgt  berekend:  

 

𝑆𝐸 =   𝑝(1 − 𝑝) 𝑅      (17)    

hierin  staat  𝑝  voor  de  kans  waar  de  standaardfout  voor  berekend  wordt.  𝑅  voor  het  aantal   herhalingen  van  de  Monte  Carlosimulatie.  R  is  dus  gelijk  aan  10.000  

4.1  Verschillende  waarden  F-­‐statistiek  

In  deze  paragraaf  worden  de  resultaten  weergegeven  voor  verschillende  waarden  van  de  F-­‐ statistiek   zoals   berekend   in   (16).   De   coëfficiënten   𝜋!"   zijn   zodanig   gekozen   dat   deze   F-­‐

statistiek   de   waarden   3,   10,   30   en   80   heeft   aangenomen.   Aangezien   de   resultaten   voor   deze   vier   scenario’s   grote   gelijkenissen   vertonen   staan   in   deze   paragraaf   alleen   de   resultaten   voor   het   geval   dat   de   F-­‐statistiek   gelijk   is   aan   drie   en   voor   het   geval   dat   deze   gelijk  is  aan  80.  De  resultaten  voor  de  F-­‐statistiek  gelijk  aan  10  en  30  staan  weergegeven  in   de  bijlagen.    

In   tabel   1   staan   de   resultaten   weergegeven   waarin   de   F-­‐statistiek   in   (16)   gelijk   is   aan  drie,  dit  is  dus  de  situatie  van  zwakke  identificatie.  De  kans  op  perfecte  selectie  is  in  het  

(13)

geval   van   de   kleinste   steekproef   en   de   kleinste   waarde   van   de   covariantie   tussen   de   instrumenten  en  de  storingsterm  voor  beide  methoden  nagenoeg  gelijk  aan  elkaar;  0,0031   voor  de  Lasso-­‐methode  tegen  0,004  voor  de  adaptieve  Lasso-­‐methode.    

 

Tabel  1:  vier  invalide  instrumenten,  F-­‐statistiek  =  3  

   

   

Perfecte  Selectie  

Valide  Selectie  

Invalide  Selectie  

n  

d  =  0,1    

P  

SE  

P  

SE  

P  

SE  

50  

Lasso  

0,0031  

0,00056  

0,0911  

0,00288  

0,9058   0,00292  

 

A.  Lasso  

0,004  

0,00063  

0,0477  

0,00213  

0,9483   0,00221  

100  

Lasso  

0,0095  

0,00097  

0,1846  

0,00388  

0,8059   0,00396  

 

A.  Lasso   0,0152  

0,00122  

0,101  

0,00301  

0,8838   0,00320  

250  

Lasso  

0,0348  

0,00183  

0,5142  

0,00500  

0,451  

0,00498  

 

A.  Lasso   0,0737  

0,00261  

0,3285  

0,00470  

0,5978   0,00490  

 

d  =  0,2    

   

   

   

   

 

   

50  

Lasso  

0,0284  

0,00166  

0,45  

0,00497  

0,5216   0,00500  

 

A.  Lasso   0,0525  

0,00223  

0,2923  

0,00455  

0,6552   0,00475  

100  

Lasso  

0,0536  

0,00225  

0,8278  

0,00378  

0,1186   0,00323  

 

A.  Lasso   0,1561  

0,00363  

0,6089  

0,00488  

0,235  

0,00424  

250  

Lasso  

0,0532  

0,00224  

0,9423  

0,00233  

0,0045   0,00067  

 

A.  Lasso   0,3059  

0,00461  

0,6818  

0,00466  

0,0123   0,00110  

 

d  =  0,3    

   

   

   

   

 

   

50  

Lasso  

0,0406  

0,00197  

0,9428  

0,00232  

0,0166   0,00128  

 

A.  Lasso   0,2056  

0,00404  

0,751  

0,00432  

0,0434   0,00204  

100   Lasso  

0,0404  

0,00197  

0,9585  

0,00199  

0,0011   0,00033  

 

A.  Lasso   0,2871  

0,00452  

0,7107  

0,00453  

0,0022   0,00047  

250   Lasso  

0,0412  

0,00199  

0,9585  

0,00199  

0,0003   0,00017  

 

 

A.  Lasso   0,3542  

0,00478  

0,6448  

0,00479  

0,001  

0,00032  

Naarmate  de  waarde  van  𝑑  en  𝑛  toenemen  wordt  het  verschil  op  perfecte  selectie   tussen  de  Lasso-­‐methode  en  de  adaptieve  Lasso-­‐methode  groter.  Zo  is  te  zien  dat  wanneer   de  steekproefgrootte  stijgt  naar  250  bij  gelijke  waarde  van  𝑑  de  kans  op  perfecte  selectie   voor  de  adaptieve  Lasso-­‐methode  0,0737  is  tegenover  0,0348  voor  de  Lasso-­‐methode.  De   kans  op  perfecte  selectie  voor  de  adaptieve  Lasso-­‐methode  toeneemt  naar  0,2056  terwijl   die   van   de   Lasso-­‐methode   stijgt   naar   0,0406,   in   het   geval   dat   alleen   de   waarde   van   𝑑   toeneemt  naar  0,3.  Wanneer  zowel  de  waarde  voor  𝑑  als  voor  𝑛  toeneemt  is  het  verschil   maximaal   in   deze   tabel,   0,3542   tegen   0,0412.   Duidelijk   zichtbaar   is   dus   dat   de   kans   op   perfecte  selectie  van  de  adaptieve  Lasso-­‐methode  sneller  stijgt  met  de  steekproefgrootte   en  de  mate  van  endogeniteit  van  de  invalide  instrumenten  dan  bij  de  Lasso-­‐methode.    

De   kans   op   invalide   selectie   gaat   voor   beide   methoden   wel   naar   nul   voor   een   stijging  van  de  steekproefgrootte  en  de  mate  van  endogeniteit.  In  het  geval  van  de  kleinste  

(14)

steekproefgrootte  en  kleinste  mate  van  endogeniteit  is  de  kans  op  invalide  selectie  voor  de   Lasso-­‐methode   0,9058   tegen   0,9483   voor   de   adaptieve   Lasso-­‐methode.   Wanneer   de   grootste   waarden   wordt   gekozen   voor   zowel   de   mate   van   endogeniteit   als   voor   de   steekproefgrootte   valt   te   zien   dat   de   kans   op   invalide   selectie   door   de   Lasso-­‐methode   is   gedaald  naar  0,0003  tegenover  0,001  voor  de  adaptieve  Lasso-­‐methode.  

In  tabel  2  staan  de  resultaten  weergegeven  voor  het  geval  dat  de  F-­‐statistiek  in  (16)   gelijk  is  aan  80.    

 

Tabel  2:  vier  invalide  instrumenten,  F-­‐statistiek  =  80  

   

   

Perfecte  Selectie  

Valide  Selectie  

Invalide  selectie  

n  

d  =  0,1    

P  

SE  

P  

SE  

P  

SE  

50  

Lasso  

0,0049  

0,00070  

0,1307  

0,00337  

0,8644  

0,00342  

 

A.  Lasso   0,0058  

0,00076  

0,0767  

0,00266  

0,9175  

0,00275  

100   Lasso  

0,0133  

0,00115  

0,2494  

0,00433  

0,7373  

0,00440  

 

A.  Lasso   0,0212  

0,00144  

0,1531  

0,00360  

0,8257  

0,00379  

250   Lasso  

0,0332  

0,00179  

0,5616  

0,00496  

0,4052  

0,00491  

 

A.  Lasso   0,0845  

0,00278  

0,3801  

0,00485  

0,5354  

0,00499  

 

d  =  0,2    

   

   

   

   

 

   

50  

Lasso  

0,0277  

0,00164  

0,4828  

0,00500  

0,4895  

0,00500  

 

A.  Lasso   0,058  

0,00234  

0,3279  

0,00469  

0,6141  

0,00487  

100   Lasso  

0,0508  

0,00220  

0,817  

0,00387  

0,1322  

0,00339  

 

A.  Lasso   0,1567  

0,00364  

0,6084  

0,00488  

0,2349  

0,00424  

250   Lasso  

0,0518  

0,00222  

0,9475  

0,00223  

0,0007  

0,00026  

 

A.  Lasso   0,3043  

0,00460  

0,6901  

0,00462  

0,0056  

0,00075  

 

d  =  0,3    

   

   

   

   

 

   

50  

Lasso  

0,0384  

0,00192  

0,9368  

0,00243  

0,0248  

0,00156  

 

A.  Lasso   0,2071  

0,00405  

0,7327  

0,00443  

0,0602  

0,00238  

100   Lasso  

0,0417  

0,00200  

0,9583  

0,00200  

0  

0,00000  

 

A.  Lasso   0,2879  

0,00453  

0,7118  

0,00453  

0,0003  

0,00017  

250   Lasso  

0,042  

0,00201  

0,958  

0,00201  

0  

0,00000  

 

A.  Lasso   0,3652  

0,00481  

0,6348  

0,00481  

0  

0,00000  

 

De   resultaten   in   tabel   2   tonen   grote   gelijkenissen   met   de   resultaten   in   tabel   1.   Zo   is   het   verschil  tussen  de  kans  op  perfecte  selectie  voor  de  Lasso-­‐methode  en  de  adaptieve  Lasso-­‐ methode   voor   𝑛 = 50   en   𝑑 = 0,1   klein;   0,0049   tegenover   0,0058.   Voor   zowel   stijgende   waarden   van   de   mate   van   endogeniteit   als   voor   de   steekproefgrootte   neemt   deze   kans   sneller  toe  voor  de  adaptieve  Lasso-­‐methode  dan  voor  de  Lasso-­‐methode.  In  het  scenario   dat   𝑛 = 250   en   𝑑 = 0,3   is   de   kans   op   perfecte   selectie   door   de   Lasso-­‐methode   0,042   tegenover  0,3652  voor  de  adaptieve  Lasso-­‐methode.  De  kans  op  invalide  selectie  gaat  ook  

(15)

voor   het   geval   dat   de   F-­‐statistiek   gelijk   is   aan   80   naar   nul   voor   beide   methode   met   een   stijging  van  de  steekproefgrootte  en  de  mate  van  endogeniteit.    

4.2  Wisselend  aantal  invalide  instrumenten  

In   deze   paragraaf   wordt   gekeken   naar   de   scenario’s   voor   een   wisselend   aantal   invalide   instrumenten.  Dit  is  gedaan  voor  een  vaste  waarde  van  de  F-­‐statistiek,  namelijk  80.  In  tabel   3   staan   de   resultaten   weergegeven   voor   het   geval   dat   er   twee   invalide   instrumenten   aanwezig  zijn  in  matrix  𝑍!.    

 

Tabel  3:  twee  invalide  instrumenten,  F-­‐statistiek  =  80  

 

   

Perfecte  Selectie  

Valide  Selectie  

Invalide  selectie  

n  

d  =  0,1    

P  

SE  

P  

SE  

P  

SE  

50   Lasso  

0,0111  

0,00105  

0,1914  

0,00393  

0,7975  

0,00378  

 

A.  Lasso   0,0168  

0,00129  

0,1728  

0,00378  

0,8104  

0,00392  

100   Lasso  

0,0233  

0,00151  

0,2832  

0,00451  

0,6935  

0,00461  

 

A.  Lasso  

0,036  

0,00186  

0,2546  

0,00436  

0,7094  

0,00454  

250   Lasso  

0,0598  

0,00237  

0,5267  

0,00499  

0,4135  

0,00492  

 

A.  Lasso   0,0969  

0,00296  

0,4707  

0,00499  

0,4324  

0,00495  

 

d  =  0,2    

   

   

   

   

 

   

50   Lasso  

0,0439  

0,00205  

0,4393  

0,00496  

0,5168  

0,00500  

 

A.  Lasso   0,0687  

0,00253  

0,4039  

0,00491  

0,5274  

0,00499  

100   Lasso  

0,0859  

0,00280  

0,704  

0,00456  

0,2101  

0,00407  

 

A.  Lasso   0,1536  

0,00361  

0,6174  

0,00486  

0,229  

0,00420  

250   Lasso  

0,1057  

0,00307  

0,8871  

0,00316  

0,0072  

0,00085  

 

A.  Lasso   0,2748  

0,00446  

0,7129  

0,00452  

0,0123  

0,00110  

 

d  =  0,3    

   

   

   

   

 

   

50   Lasso  

0,0839  

0,00277  

0,7792  

0,00415  

0,1369  

0,00344  

 

A.  Lasso   0,1718  

0,00377  

0,677  

0,00468  

0,1512  

0,00358  

100   Lasso  

0,1004  

0,00301  

0,8934  

0,00309  

0,0062  

0,00078  

 

A.  Lasso  

0,269  

0,00443  

0,7212  

0,00448  

0,0098  

0,00099  

250   Lasso  

0,103  

0,00304  

0,897  

0,00304  

0  

0,00000  

   

A.  Lasso  

0,345  

0,00475  

0,655  

0,00475  

0  

0,00000  

 

De   kans   op   perfecte   selectie   voor   het   geval   dat   𝑛 = 50   en   𝑑 = 0,1   is   voor   de   adaptieve   Lasso-­‐methode   en   de   Lasso-­‐methode   ongeveer   even   groot;   0,0168   tegen   0,0111.   Deze   kansen  zijn  twee  maal  zo  hoog  als  voor  het  geval  dat  er  vier  invalide  instrumenten  aanwezig   zijn  in  de  data.  De  kans  op  invalide  selectie  is  kleiner  ten  opzichte  van  tabel  1  en  2.  Voor   stijgende  waarden  van  de  mate  van  endogeniteit  en  de  steekproefgrootte  neemt  de  kans   op   perfecte   selectie   door   de   adaptieve   Lasso-­‐methode   sneller   toe   dan   voor   de   Lasso-­‐ methode.  Zo  is  de  kans  op  perfecte  selectie  door  de  adaptieve  Lasso-­‐methode  in  het  geval  

(16)

dat  𝑛 = 250  en  𝑑 = 0,3  gelijk  aan  0,345  tegenover  0,103  voor  de  Lasso-­‐methode.  De  kans   op   invalide   selectie   is   bij   deze   waarden   van   de   steekproefgrootte   en   de   mate   van   endogeniteit  voor  beide  methoden  gelijk  aan  nul.  

In  onderstaande  tabel  4  staan  de  resultaten  weergegeven  voor  het  geval  dat  er  zes   invalide   instrumenten   aanwezig   zijn   in   de   data.   In   deze   tabel   staan   geen   resultaten   weergegeven  voor  het  geval  dat  𝑑 = 0,3.  Voor  dit  geval  kon  de  simulatie  niet  uitgevoerd   worden,  de  covariantiematrix  van  de  data  kon  niet  gevormd  worden.  Waar  dit  door  komt  is   in  dit  onderzoek  niet  duidelijk  geworden,  hier  is  verder  onderzoek  voor  benodigd.  Opnieuw   is  het  verschil  tussen  de  kans  op  perfecte  selectie  met  de  Lasso-­‐methode  en  de  adaptieve   Lasso-­‐methode   klein   wanneer   𝑛 = 50   en   𝑑 = 0,1;   0,0079   tegen   0,0085.   De   kans   op   perfecte  selectie  met  de  adaptieve  Lasso-­‐methode  neemt  sterker  toe  met  een  stijging  van   de   mate   van   endogeniteit   en   steekproefgrootte   dan   voor   de   Lasso-­‐methode,   wanneer   𝑑 = 0,2  en  𝑛 = 250  zijn  de  kansen  namelijk  0,4364  tegenover  0,0711.  Wat  opvalt  is  dat  de   adaptieve   Lasso-­‐methode   een   hogere   kans   heeft   op   perfecte   selectie   wanneer   er   zes   invalide  instrumenten  aanwezig  zijn  in  de  data  ten  opzichte  van  de  scenario’s  met  vier  en   twee  invalide  instrumenten,  terwijl  voor  de  Lasso-­‐methode  het  juist  omgekeerd  het  geval   is.   Deze   heeft   de   hoogste   kans   op   perfecte   selectie   wanneer   twee   invalide   instrumenten   aanwezig  zijn  in  de  data.  De  kans  op  invalide  selectie  gaat  voor  beide  methoden  opnieuw   naar  nul  met  een  stijging  van  de  mate  van  endogeniteit  en  de  steekproefgrootte.    

 

Tabel  4:  zes  Invalide  instrumenten,  F-­‐statistiek  =  80  

   

   

Perfecte  Selectie  

Valide  Selectie  

Invalide  selectie  

n  

d  =  0,1    

P    

SE    

P    

SE    

P  

 SE  

50   Lasso  

0,0079  

0,00089  

0,118  

0,00323   0,8741   0,00332  

 

A.  Lasso   0,0085  

0,00092  

0,0452  

0,00208   0,9463   0,00225  

100   Lasso  

0,0189  

0,00136  

0,2476  

0,00432   0,7335   0,00442  

 

A.  Lasso   0,0304  

0,00172  

0,1018  

0,00302   0,8678   0,00339  

250   Lasso  

0,0545  

0,00227  

0,5888  

0,00492   0,3567   0,00479  

 

A.  Lasso   0,1283  

0,00334  

0,3067  

0,00461  

0,565  

0,00496  

 

d  =  0,2    

   

   

   

   

 

   

50   Lasso  

0,0513  

0,00221  

0,5408  

0,00498   0,4079   0,00491  

 

A.  Lasso   0,1074  

0,00310  

0,2819  

0,00450   0,6107   0,00488  

100   Lasso  

0,0783  

0,00269  

0,8552  

0,00352   0,0665   0,00249  

 

A.  Lasso   0,2756  

0,00447  

0,5356  

0,00499   0,1888   0,00391  

250   Lasso  

0,0711  

0,00257  

0,9289  

0,00257  

0  

0,00000  

 

A.  Lasso   0,4364  

0,00496  

0,5619  

0,00496   0,0017   0,00041  

   

(17)

In  tabel  5  staan  de  resultaten  weergegeven  voor  het  geval  dat  𝑑 = 0.  Dit  betekent  dat  er   geen  invalide  instrumenten  aanwezig  zijn  in  de  data,  hierom  worden  in  de  tabel  alleen  de   kansen   weergegeven   op   perfecte   en   valide   selectie,   aangezien   er   geen   invalide   selectie   mogelijk  is.  Opvallend  is  dat  in  deze  situatie  de  kans  op  perfecte  selectie  groter  is  voor  de   Lasso-­‐methode   dan   voor   de   adaptieve   Lasso-­‐methode   voor   elke   steekproefgrootte.   De   resultaten  blijven  ook  vrijwel  constant  voor  elke  steekproefgrootte  voor  beide  methoden.      

Tabel  5:  d  =  0,  F-­‐statistiek  =  80  

n  

   

Perfecte  Selectie  

Valide  Selectie  

50  

Lasso  

0,5229  

0,00499  

0,4771  

0,00499  

 

A.  Lasso  

0,2957  

0,00456  

0,7043  

0,00456  

100   Lasso  

0,5119  

0,00500  

0,4881  

0,00500  

 

A.  Lasso  

0,2922  

0,00455  

0,7078  

0,00455  

250   Lasso  

0,5159  

0,00500  

0,4841  

0,00500  

 

A.  Lasso  

0,2922  

0,00455  

0,7078  

0,00455  

 

4.3  Oracle  properties  

In  deze  paragraaf  wordt  gekeken  naar  een  grootte  steekproefgrootte  om  te  onderzoeken  of   de   adaptieve   Lasso-­‐methode   en   de   Lasso-­‐methode   voldoen   aan   de   oracle   properties.   De   steekproefgrootte  is  gelijkgesteld  aan  5.000,  het  aantal  invalide  instrumenten  in  de  data  is   vier  en  de  waarde  van  de  F-­‐statistiek  is  80.  Wat  opvalt  is  dat  voor  een  stijgende  mate  van   endogeniteit  de  kans  op  perfecte  selectie  met  de  Lasso-­‐methode  afneemt  en  dat  de  kans   op  perfecte  selectie  niet  veel  hoger  is  dan  in  de  situatie  waarin  de  steekproef  gelijk  is  aan   250;   0,0573   tegen   0,0332.   Daartegenover   staat   dat   de   kans   op   perfecte   selectie   met   de   adaptieve  Lasso-­‐methode  veel  is  toegenomen  ten  opzichte  van  de  situatie  waarin  𝑛 = 250.   Zo  is  in  het  geval  dat  𝑑 = 0,3  de  kans  op  perfecte  selectie  gestegen  van  0,3652  naar  0,9745.   Ook  is  in  de  tabel  te  zien  dat  de  kans  op  perfecte  selectie  met  de  adaptieve  Lasso-­‐methode   juist   toeneemt   voor   grotere   waarden   van   de   mate   van   endogeniteit.   Zo   is   de   kans   op   perfecte   selectie   voor   𝑑 = 0,3   voor   de   adaptieve   Lasso-­‐methode   gelijk   aan   0,9745   tegenover   0,042   voor   de   Lasso-­‐methode.   Deze   resultaten   geven   dus   een   indicatie   dat   de   adaptieve  Lasso-­‐methode  voldoet  aan  de  oracle  properties,  aangezien  de  kans  op  perfecte   selectie   naar   één   lijkt   te   gaan.   Aangezien   de   kans   op   perfecte   selectie   voor   de   Lasso-­‐ methode  lijkt  te  stagneren  en  niet  verder  lijkt  te  stijgen,  lijkt  het  er  sterk  op  dat  de  Lasso-­‐ methode  inderdaad  niet  voldoet  aan  de  oracle  properties.  

(18)

Tabel  6:  n  =  5.000,  F-­‐statistiek  =  80  

d  

   

Perfecte  Selectie  

Valide  Selectie  

Invalide  Selectie  

0,1   Lasso  

0,0573  

0,00232  

0,9427  

0,00232  

0  

0  

 

A.  Lasso   0,4386  

0,00496  

0,5614  

0,00496  

0  

0  

0,2   Lasso  

0,0521  

0,00222  

0,9479  

0,00222  

0  

0  

 

A.  Lasso   0,6712  

0,00470  

0,3288  

0,00470  

0  

0  

0,3   Lasso  

0,042  

0,00201  

0,958  

0,00201  

0  

0  

   

A.  Lasso   0,9745  

0,00158  

0,0255  

0,00158  

0  

0  

 

5.  Conclusie  

De   centrale   vraag   in   dit   onderzoek   in   hoeverre   de   adaptieve   Lasso-­‐methode   een   efficiëntere   methode   is   voor   het   selecteren   van   valide   instrumenten.   Ook   is   geprobeerd   meer   duidelijkheid   te   scheppen   omtrent   de   mogelijke   oracle   properties     waar   volgens   de   theorie  de  adaptieve  Lasso-­‐methode  wel  aan  zou  voldoen  en  de  Lasso-­‐methode  niet.       Indien   de   steekproefgrootte   en   de   mate   van   endogeniteit   kleine   waarden   aannemen  is  de  kans  op  perfecte  selectie  tussen  de  adaptieve  Lasso-­‐methode  en  de  Lasso-­‐ methode  klein,  de  kans  op  invalide  selectie  is  groter  voor  de  adaptieve  Lasso-­‐methode  dan   voor   de   Lasso-­‐methode.   Wanneer   de   grootte   van   de   steekproefgrootte   en   de   mate   van   endogeniteit  stijgen,  neemt  de  kans  op  perfecte  selectie  met  de  adaptieve  Lasso-­‐methode   meer  toe  dan  met  de  Lasso-­‐methode.  Dit  is  het  geval  voor  elke  waarde  van  de  onderzochte   concentratieparameter   en   aantal   invalide   instrumenten.   Voor   al   deze   scenario’s   gaat   de   kans   op   invalide   selectie   met   beide   methoden   naar   nul   voor   een   groeiende   steekproefgrootte  en  stijgende  mate  van  endogeniteit.    

  Het  geval  dat  de  covariantie  tussen  invalide  instrumenten  en  de  storingsterm  gelijk   is  aan  nul,  levert  echter  andere  resultaten  op.  In  deze  situatie  blijven  de  resultaten  constant   voor  verschillende  waarden  van  de  steekproefgrootte.  De  kans  op  perfecte  selectie  is  in  dit   geval  groter  voor  de  Lasso-­‐methode  dan  voor  de  adaptieve  Lasso-­‐methode,  wat  opvallend   is  kijkend  naar  andere  resultaten  in  dit  onderzoek.  De  reden  dat  de  Lasso-­‐methode  in  dit   geval   efficiënter   is   in   het   selecteren   van   valide   instrumenten   wordt   in   dit   onderzoek   niet   duidelijk,  hier  is  vervolgonderzoek  voor  benodigd.  

  De   waarde   van   de   F-­‐statistiek   lijkt   weinig   effect   te   hebben   op   de   mate   van   efficiëntie   van   beide   methoden   in   het   selecteren   van   valide   instrumenten.   De   verschillen   tussen  de  resultaten  voor  de  vier  verschillende  waarden  van  de  F-­‐statistiek  zijn  erg  klein,  er   is  dus  geen  verschil  wanneer  er  sprake  is  van  sterke  of  zwakke  identificatie.  

Referenties

GERELATEERDE DOCUMENTEN

However, applying regular lasso for the proportional hazards model yields different selections of variables and reasonably different regression coefficients for those few variables

Subject headings: additive tree; city-block models; distinctive features models; fea- ture models; feature network models; feature selection; Monte Carlo simulation;..

Table 1.3 shows the feature discriminability parameters and the associated theo- retical standard errors and 95% t-confidence intervals for the theoretic features of the plants data.

The data on bank-specific variables such as: Bank/Financial Fragility (proxied by Impaired Loans to Gross Loan), Bank Size (proxy of Total Assets), Growth of Gross Loans, Bank

Chapter 3 showed that given a special, nested, feature structure, formed by a com- bination of cluster features, unique features and internal nodes, the feature network

Feature network models for proximity data : statistical inference, model selection, network representations and links with related models..

H ierna v olgde de studie Franse T aal- en Letterkunde aan de U niv ersiteit Leiden die in 1992 afgesloten werd met h et doctoraal ex amen, en in 1993 werd de eerstegraads- bev

Feature network models for proximity data : statistical inference, model selection, network representations and links with related models..