Opheldering van de blackbox : een vergelijking van methoden om de parti ele effecten van inputvariabelen te meten binnen artifici ele neurale netwerken

(1)

Faculty Economics and Business, Amsterdam School of Economics University of Amsterdam

OPHELDERING VAN DE BLACKBOX

Een vergelijking van methoden om de parti¨ele effecten van

inputvariabelen te meten binnen artifici¨ele neurale netwerken

Bachelorscriptie Econometrie 2017-2018

Ea Camilla Werner 10754199 22 december 2017

Begeleider: Dr. N.P.A van Giersbergen Abstract

Artifici¨ele neurale netwerken zijn in staat zeer gecompliceerde niet-lineaire patronen in data te achterhalen. Echter, doordat deze netwerken steeds ingewikkelder worden naarmate de hoeveelheid variabelen toeneemt, is er vaak weinig bekend over het parti¨ele effect dat inputvariabelen hebben op de output. Eerder onderzoek, naar de methoden die deze effecten kunnen schatten, levert veel verschillende resultaten op waaruit geen eenduidige conclusie valt te trekken. Om meer duidelijkheid te verkrijgen over de kwaliteit van deze methoden wordt er een onderzoek gedaan naar drie veel gebruikte methoden: Partial Derivatives, Garson’s Algorithm en Connection Weights. Er wordt een Monte Carlosimulatie uitgevoerd op basis van een DGP. Connection Weights blijkt de meest accurate schattingen te leveren.

(2)

Verklaring eigen werk

Hierbij verklaar ik, Ea Camilla Werner, dat ik deze scriptie zelf geschreven heb en dat ik de volledige verantwoordelijkheid op me neem voor de inhoud ervan. Ik bevestig dat de tekst en het werk dat in deze scriptie gepresenteerd wordt origineel is en dat ik geen gebruik heb gemaakt van andere bronnen dan die welke in de tekst en in de referenties worden genoemd. De Faculteit Economie en Bedrijfskunde is alleen verantwoordelijk voor de begeleiding tot het inleveren van de scriptie, niet voor de inhoud.

(3)

1 Inleiding 2 Theoretische achtergrond 2 2.1 Neurale netwerken . . . 2 2.2 Blackboxmethoden . . . 5 3 DGP en onderzoeksopzet 8 3.1 DGP . . . 8 3.2 Onderzoeksopzet . . . 9 3.3 Partial Derivatives-methode . . . 10 3.4 Garson’s Algorithm . . . 11 3.5 Connection Weights . . . 12 4 Resultaten 12 4.1 Neuraal netwerk . . . 13 4.2 Partial Derivatives-methode . . . 14 4.3 Garson’s Algorithm . . . 15 4.4 Connection Weights . . . 16 4.5 Analyse en vergelijking . . . 17 5 Conclusie 17 Bibliografie 19

(4)

1 Inleiding

’Een supercomputer heeft eindelijk een menselijke kampioen verslagen bij Go, het moeilijkste bordspel ter wereld’, schrijft Bennie Mols in het NRC Handelsblad (2016). Dat dit gebeurt met behulp van neurale netwerken is voor de wetenschap geen verrassing; keer op keer wordt de menselijke denkkracht verslagen door computers.

Artificiële neurale netwerken (ANN) zijn data-verwerkende modellen die zijn gebaseerd op biologische neurale netwerken zoals die bij mensen voorkomen. In eerste instantie zijn deze netwerken ontwikkeld om meer te weten te komen over hoe zoogdierbreinen werken (Olden, Joy & Death, 2004). Maar al snel kwamen onderzoekers erachter dat ANN toepasbaar waren in veel meer wetenschappelijke onderzoeksvelden. Als voorspellingstechniek is ANN in staat zeer ingewikkelde niet-lineaire patronen te ontdekken (S.L. Özesmi & U. Özesmi, 1999) en onderscheidt zich daarmee van de meer klassieke statistische methoden. Dit gebeurt door het model te trainen met bekende data, waarna het vervolgens in staat is met nieuwe input zelf de bijbehorende output te voorspellen.

Echter, er kleeft ook een nadeel aan het gebruik van ANN. Doordat de netwerken zeer ingewikkeld kunnen worden naarmate het aantal lagen en variabelen toeneemt, is er vaak maar weinig bekend over de individuele invloed die de afzonderlijke inputvariabelen hebben op de output. Het gevolg hiervan is dat de output wel geschat kan worden, maar dat de onderliggende modelstructuur onbekend blijft. Om deze reden worden ANN met grote regelmaat ook wel blackboxes genoemd (Gevrey, Dimopoulos & Lek, 2003).

Teneinde dit probleem op te lossen is er de afgelopen decennia een grote verscheidenheid aan methoden ontwikkeld om een redelijke schatting van de individuele effecten van de afzonderlijke inputvariabelen te verkrijgen. Deze methoden worden blackboxmethoden genoemd. De vele discussies omtrent dit onderwerp – veelal over welke methode de beste resultaten oplevert – maken het interessant om hier verder onderzoek naar te doen. Dat is dan ook de doelstelling van dit specifieke onderzoek: meer duidelijkheid verkrijgen over welk van deze methoden het best presteert.

(5)

Drie veelgebruikte methoden zijn Partial Derivatives (PaD), Connection Weights en Garson’s Algorithm. Onderzoek naar de kwaliteit van deze methoden levert veel verschillende resultaten op. Zowel positief (Gevrey et al., 2003) (Olden et al., 2004) als negatief (Sung, 1998). Deze grote discrepantie kan worden verklaard doordat er in deze onderzoeken vaak gebruik wordt gemaakt van empirische data. Omdat de werkelijke invloeden bij empirische data onbekend zijn, kunnen de resultaten verkeerd ge¨ınterpreteerd worden, waaruit mogelijk onjuiste conclusies worden getrokken. Om dit probleem te omzeilen wordt in dit onderzoek gebruikgemaakt van een Monte Carlosimulatie op basis van een data generating process (DGP) (Olden et al., 2004). De bovengenoemde methoden worden getest en vergeleken met de werkelijke parti¨ele effecten. Daarna worden ze beoordeeld op de eigenschappen accuraatheid en precisie.

De verdere opbouw van dit onderzoek is als volgt: In de volgende paragraaf wordt een theoretische achtergrond gegeven van zowel neurale netwerken in het algemeen als van de verschillende blackboxmethoden. Daarna wordt in paragraaf 3 een beschrijving gegeven van het gebruikte DGP en de verdere onderzoeksmethode uiteengezet. Vervolgens worden in paragrafen 4 en 5 respectievelijk de resultaten en de conclusie beschreven.

2 Theoretische achtergrond

In dit hoofdstuk wordt eerst beschreven hoe artifici¨ele neurale netwerken zijn opgebouwd en hoe deze werken. Aansluitend worden de blackboxmethoden in twee groepen opgesplitst, waarna een korte theoretische achtergrond volgt van een aantal belangrijke methoden. Deze worden op basis van de resultaten uit recente onderzoeken met elkaar vergeleken. Ten slotte volgt hieruit een hypothese voor het eigen onderzoek.

2.1 Neurale netwerken

Zoals reeds genoemd in de inleiding zijn artifici¨ele neurale netwerken dataverwerkende modellen die zijn gebaseerd op de biologische neurale netwerken zoals die bij mensen

(6)

voorkomen. Net zoals in het menselijke brein ontvangen de neuronen een signaal dat vervolgens via een synaps wordt doorgegeven aan een neuron in de volgende laag. Aan deze synapsen hangen gewichten, vari¨erend tussen −1 en 1, die de sterkte van het signaal naar de volgende neuron bepalen. Bij het trainen van een neuraal netwerk worden, naarmate het leerproces vordert, de gewichten zodanig aangepast dat ofwel de sum-of-squared-errors (weergegeven in formule 2.1.1) ofwel de cross-entropy-errorfunctie (weergegeven in formule 2.1.2) wordt geminimaliseerd. R(θ) = K X k=1 N X i=1 (yik− fk(xi))2, (2.1.1) R(θ) = K X k=1 N X i=1 yiklogfk(xi), (2.1.2)

waarbij fk(xi) de waarde van de output yik voorspelt. Er bestaan verschillende typen ANN.

Een feed-forward neuraal netwerk bestaat uit meerdere neuronen die zijn opgedeeld in verschillende lagen. De eerste laag betreft de input, waarna ´e´en of meerdere verborgen lagen volgen. Als laatste volgt de outputlaag. Bij een feed-forwardnetwerk bestaan slechts verbindingen tussen aansluitende lagen; daardoor kunnen er geen cycli van signalen voorkomen.

Figure 1: Feed-forward neuraal netwerk

(7)

kwaliteit van het model. Hornik (1989) stelt dat het gebruik van ´e´en verborgen laag genoeg is voor het schatten van de meeste continue non-lineaire functies. Wordt er gebruik gemaakt van discontinue data, dan worden twee of meer verborgen lagen geadviseerd (Hornik, 1989). Het bepalen van het aantal neuronen waaruit deze lagen bestaan heeft tevens significante invloed op de kwaliteit van het model. Wanneer er te weinig neuronen gebruikt worden, zal het neuraal netwerk mogelijk niet in staat zijn het juiste model te kunnen schatten en treed misspecificatie op. Echter, wanneer er te veel neuronen gebruikt worden, kan dit overfitting veroorzaken. Hoe meer vrijheidsgraden het model bevat, des te beter het model zich kan aanpassen voor de trainingset. Hoewel de totale error voor de trainingset dan in een globaal minimum terechtkomt, is het gevolg dat het geschatte model onjuist is voor de testset (Prechelt, 1998).

Om overfitting tegen te gaan zijn er verschillende regularisatiemethoden ontwikkeld. Twee veel gebruikte methoden zijn Weight Decay en Early Stopping. Bij Weight Decay staat er een straf op het toevoegen van gewichten, waardoor het ontmoedigd wordt gewichten onnodig groot te maken. Dit gebeurd door het toevoegen van een strafterm aan de te minimaliseren functie. Bij Early Stopping wordt er een maximum gegeven aan het aantal iteraties dat mag worden gebruikt om het netwerk te trainen. Dit maximum wordt dan het Early Stopping Critirium genoemd. Prechelt (1998) stelt dat Early Stopping als nadeel heeft dat het soms lastig kan zijn de maximale hoeveelheid iteraties te bepalen, waardoor vaak een slecht onderbouwde waarde wordt gekozen.

Een activatiefunctie wordt gebruikt om de output van een neuron te limiteren met een bepaalde amplitude (Karlik & Olgac, 2011). Leshno et al. (1993) stellen dat elke non-polynomische functie als activatiefunctie kan worden gebruikt. Veel gebruikt activatiefuncties zijn de Sigmoid-, de Tangent- en de Radial Basis-functie. De Sigmoid-functie wordt voornamelijk gebruikt voor neurale netwerken die getraind zijn met het populaire Back-Propagation algoritme (Karlik & Olgac, 2011). Het domein van deze functie bestaat uit alle waarden tussen min en plus oneindig, en wordt omgezet naar een output tussen nul en een. De Sigmoid-functie ziet er als volgt uit:

(8)

σ(x) = 1

1 + e−x (2.1.3)

2.2 Blackboxmethoden

Blackboxmethoden zijn op te delen in twee families: gevoeligheidsanalyse en analyse welke gebaseerd is op de gewichten van de synapsen (Monta˜no & Palmer, 2003). Verschillende varianten van methoden binnen deze families zijn de afgelopen decennia door een groot aantal onderzoekers getest op verschillende kwaliteiten (Olden & Jackson, 2002) (Gevrey et al., 2003) (Olden et al., 2004). Hierbij worden met name accuraatheid en precisie gemeten. De accuratesse van een methode beschrijft de mate waarin de geschatte invloed die een inputwaarde heeft op de output, overeenkomt met de werkelijkheid. Het wel of niet precies zijn van een methode hangt af van de variatie in de uitkomsten bij het meermaals toepassen van deze methode.

Monta˜no en Palmer (2003) bespreken in hun onderzoek de voor- en nadelen van de tot dan toe onderzochte blackboxmethoden en concluderen dat deze niet effectief zijn. Zij testen uit beide eerdergenoemde families (gevoeligheidsanalyse en analyse die gebaseerd is op de gewichten van de synapsen) meerdere methoden: Garson’s Algorithm en een aanpassing op Connection Weights die Weight Product wordt genoemd uit de eerste familie, en een standaard gevoeligheidsanalyse uit de tweede. Ook stellen zij een aanpassing voor op deze gevoeligheidsanalyse, die eveneens te gebruiken is voor discrete data: numerieke gevoeligheidsanalyse (NSA). Het onderzoek wordt uitgevoerd met een steekproef die verkregen is met een DGP. Uit hun resultaten blijkt dat gevoeligheidsanalyse beter werkt dan zowel Garson’s Algorithm als Weight Product. Beide op gewichten gebaseerde methoden zijn niet accuraat; de belangrijkste en minst belangrijke variabelen worden respectievelijk over- en onderschat. Ook is de variatie in accuraatheid groter dan wanneer gebruik wordt gemaakt van gevoeligheidsanalyse. Hieruit blijkt dat deze methoden minder precies zijn. Garson’s Algorithm presteert beter dan Weight Product. In de discussie wordt de Partial Derivatives-methode (PaD) genoemd als een goede methode binnen de familie

(9)

van de gevoeligheidsanalyse, deze is echter niet getest. De PaD-methode wordt, samen met zes andere onder welke ook Connection Weights, onderzocht door Gevrey et al. (2003). Zij voeren op basis van een empirische dataset een studie uit naar de leefomstandigheden van de bruine forel. Deze dataset werd eerder gebruikt door Delacoste, Baran, Lek en Lascaux (1995) en Lek et al. (1996). De PaD-methode komt uit hun onderzoek naar voren als beste methode. Deze methode berekent partiële afgeleiden op basis van echte data, terwijl gevoeligheidsanalysemethoden, zoals bijvoorbeeld de Profile, de variabelen één voor één aanpassen met gebruikmaking van een fictieve matrix. Gevrey et al. (2003) beschouwen dit als een groot voordeel, aangezien de geschatte partiële effecten hierdoor betrouwbaarder zijn. In vergelijking met Connection Weights is de PaD-methode stabieler. Dit blijkt uit het kleinere betrouwbaarheidsinterval. De Profile-methode levert ook accurate schattingen, maar is eveneens minder stabiel.

Een nadeel aan de PaD-methode is dat elke inputvariabele apart wordt onderzocht, waardoor er geen rekening wordt gehouden met mogelijke interactie tussen verschillende factoren (Gevrey et al., 2006). Onderzoek naar een aanpassing van de PaD-methode werd al eerder voorgesteld door Beres en Hawkins (2001), maar uiteindelijk uitgevoerd door Gevrey et al. (2006). Bij de door hen voorgestelde variant, de PaD2 methode, wordt rekening gehouden met een interactie tussen maximaal twee factoren. Uit de resultaten komt naar voren dat de PaD2 inderdaad in staat is de verwachte kruisverbanden te identificeren. Verder zijn de accuraatheid en precisie vergelijkbaar met de PaD.

Olden et al. (2004) bekritiseren het onderzoek van Gevrey et al. (2003) op basis van de door hen gebruikte data en onderzoeksmethode. Bij empirische data ontbreekt kennis van de werkelijke structuur en daarmee ook van de werkelijke invloed die afzonderlijke inputvariabelen hebben op de output, zelfs wanneer deze datasets al vele malen zijn onderzocht. De onderzoeksresultaten worden daardoor mogelijk vergeleken met onjuist gegeneraliseerde waarden. Over het vermogen van de methoden om accuraat te schatten, worden hierdoor wellicht verkeerde conclusies getrokken. Voor het eigen onderzoek gebruiken Olden et al. (2004) een DGP. Ze gebruikten hiervoor dezelfde zeven methoden als

(10)

die in het onderzoek van Gevrey et al. (2003). Deze zijn de PaD-methode, de Connection Weights-methode, de Perturb-methode, de Profile-methode, de classical stepwise-methode en twee variaties op de laatst genoemde: de improved stepwise a en b. Als toevoeging wordt ook Garson’s Algorithm onderzocht. De methoden worden meerdere malen getest, telkens met opnieuw gesimuleerde data. In tegenstelling tot wat zowel Mo˜ntano en Palmer (2003) als Gevrey et al. (2003) concluderen, namelijk dat Connection Weights niet precies genoeg is, wordt deze methode hier zowel accuraat als precies bevonden. Zowel factoren met veel invloed als factoren met weinig invloed worden juist geschat. Daarentegen schat de PaD alleen die twee inputvariabelen juist welke het meeste effect hebben op de output. De waarden die voor de overige drie factoren geschat worden, verschillen per steekproef veel. Hieruit volgt dat de Weightsmethode preciezer is dan de PaD. Garson’s Algorithm presteert het slechtst, deze methode schat de parti¨ele effecten zelden juist en heeft daar bovenop de grooste variatie in uitkomsten.

De bevindingen van Olden et al. (2004) komen grotendeels overeen met die van O˜na en Garrido (2013). Het onderzoek van O˜na en Garrido (2013) houdt zich voornamelijk bezig met het wel of niet juist classificeren van de factoren. Onder andere de PaD-methode en Connection Weights worden onderzocht. Zij noemen beide methoden valide vanwege het feit dat deze alle twee in staat zijn zowel de meest - als de minst belangrijke variabelen te identificeren. De onderzoekers raden het gebruik van de PaD-methode echter wel af omdat deze het minst precies schat in vergelijking met de andere geteste methoden.

Uit bovengenoemde onderzoeken blijkt dat de PaD- en Connection Weights afwisselend het best lijken te presteren. Hoewel Garson’s Algorithm een van de meest gebruikte blackboxmethoden is, zijn de onderzoeksresultaten naar deze methode voornamelijk negatief. In het eigen onderzoek zullen alle drie de bovengenoemde methoden, Partial Derivatives, Garson’s Algorithm en Connection Weights, worden onderzocht op acuraatheid en precisie. Er wordt verwacht dat de resultaten overeen komen met de vergelijkbare onderzoeken die ook gebruik maken van een DGP (Olden et al., 2004) (Monta˜no & Palmer, 2003). Hoe dit onderzoek wordt gedaan wordt in de volgende

(11)

paragraaf uiteengezet.

3 DGP en onderzoeksopzet

Nadat in de vorige paragraaf een overzicht is gegeven van de theoretische achtergrond van verschillende blackboxmethoden, volgt in dit hoofdstuk een beschrijving van de eigen onderzoeksmethode. Eerst wordt de gebruikte data beschreven en vervolgens de architectuur van het neurale netwerk. Daarna wordt uitgelegd hoe in dit onderzoek wordt bepaald welke van de methoden betere prestaties levert. Aan het einde volgt een beknopte beschrijving van de te onderzoeken blackboxmethoden.

3.1 DGP

Hoewel er bij onderzoek naar de verschillende blackboxmethoden vaak empirische data worden gebruikt, betekent dat niet per se dat dit de juiste manier is (Olden et al., 2004). De werkelijke invloed van de verschillende inputvariabelen is dan namelijk onbekend. Zolang de resultaten niet vergeleken kunnen worden met de werkelijke waarden, zal nooit geconcludeerd kunnen worden welke daadwerkelijk de beste methode is. Om die reden maakt dit onderzoek gebruik van een DGP. Hierbij wordt de data gesimuleerd door de volgende wiskundige vergelijking:

Y = −2σ(a1X) − σ(a2X) + σ(a3X) + 2σ(a4X) + ε (3.1.1)

De vectoren ai hebben de volgende waarden:

a1=(1 1.25 1.5 0 0 0), a2=(0 1 1.25 1.5 0 0), a3=(0 0 1 1.25 1.5 0), a4=(0 0 0 1 1.25 1.5).

De verschillende waarden X worden gesimuleerd uit een multivariaat normale verdeling, X ∼ M V N (0, I6). σ representeert de Sigmoid-functie (2.1.3) en ε is de toegevoegde foutterm,

waarvoor geldt dat ε ∼ N (0, v2). Hierbij is v2 zodanig gekozen dat geldt: v2 =pvar(Y )/4 De parti¨ele effecten per inputvariabelen zijn: E[_δX1δY ] = −0.286, E[_δX2δY ] = −0.500, E[_δX3δY ] = −0.465, E[δY δX4] = 0.250, E[ δY δX5] = 0.572 en E[ δY δX6] = 0.429.

(12)

Eerder onderzoek toont aan dat het gebruik van niet-lineaire data slechts weinig effect heeft op de prestaties van de verschillende methoden en wordt daarom in dit onderzoek achterwege gelaten (Olden et al. 2004).

3.2 Onderzoeksopzet

Teneinde de prestaties van de verschillende methoden goed te kunnen vergelijken met andere onderzoeken wordt gebruiktgemaakt van een feed-forward neuraal netwerk dat bestaat uit een input- en een outputlaag, met daartussen ´e´en verborgen laag. Dit type neuraal netwerk wordt gezien als een universele schatter voor elke continue functie (Hornik, Stinchcombe & White, 1989) en is om die reden het meest gebruikte type netwerk in de vergelijkbare onderzoeken die in de vorige paragraaf zijn beschreven. Om de Monte Carlosimulatie uit te voeren worden 10.000 oberservaties gegenereerd uit de eerder genoemde vergelijking. Deze en alle verdere stappen worden gedaan in R met behulp van het pakket ’nnet’. Deze data worden vervolgens willekeurig verdeeld over een training- en een testset. De trainingset wordt gebruikt om het netwerk te trainen. Dit gebeurt met het Back-Propagation algoritme. Dit is de populairste optimalisatiemethode met betrekking tot neurale netwerken (Ilonen, Kamarainen & Lampinen, 2003). Met een maximum van duizend iteraties wordt door dit algoritme de optimale combinatie van gewichten gekozen. Om overfitting te voorkomen wordt onderzocht of het toevoegen van Weight Decay nodig is. Ook wordt gekeken naar de gemiddelde kwadratensom ten opzichte van het aantal neuronen in de verborgen laag. Op basis van deze resultaten zal de uiteindelijke netwerkstructuur worden gekozen. Het door het DGP geschreven neurale netwerk is te zien in Figuur 2.

Met dit neurale netwerk schatten zowel de PaD-methode en Connection Weights als Garson’s Algorithm de respectievelijke invloed van de verschillende inputneuronen. Het proces, vanaf het simuleren van een steekproefpopulatie, wordt vervolgens vijfhonderd keer herhaald. De verschillende schattingen worden daarna, per inputvariabele, voor elke methode weergegeven in zes boxplots. In deze boxplots is ook de werkelijke relatieve invloed aangegeven. Dit onderzoek wordt gedaan voor drie verschillende groottes voor de trainingset

(13)

(i.e. 250, 500, 1000) Uiteindelijk worden de resultaten van alle drie de methoden met elkaar vergeleken op basis van zowel accuraatheid als precisie.

Figure 2: Neuraal netwerk op basis van het DGP

3.3 Partial Derivatives-methode

De PaD-methode is op te delen in twee stappen. Allereerst wordt voor alle observaties j = 1, .., N de parti¨ele afgeleiden van de output yj met respect tot de input xj bepaald. Voor een

feed-forward neuraal netwerk met ni inputneuronen, met ´e´en verborgen laag met nh neuronen

en een enkele output neuron ziet dat er als volgt uit:

dji= Soi nh

X

h=1

whoIh(1 − Ih)wih, (3.3.1)

hierbij is Soi de afgeleide van de output met respect tot de input, I de reactie van de h-de

verborgen neuron en who en wih de gewichten tussen de neuronen van de verborgen laag met

de neuronen uit respectievelijk de output- en inputlaag.

(14)

berekend door de som te nemen over de gekwadrateerde parti¨ele afgeleiden per inputvariabele. Dit ziet er als volgt uit:

SSDi= N

X

j=1

(dji)2 (3.3.2)

Zo kunnen de inputvariabelen geordend worden op relatieve invloed. Hierbij heeft de variabele met de hoogste SSD-waarde het meeste invloed op de output.

3.4 Garson’s Algorithm

Niet alleen de PaD-methode, maar ook de Garson’s Algorithm bestaat uit meerdere stappen. Eerst wordt voor elke verborgen neuron h de absolute waarde genomen van het gewicht aan de synapsen tussen de inputneuronen en neuron h. Vervolgens wordt deze waarde gedeeld door de som van alle gewichten tussen de verborgen- en de inputlaag.

Qih= |wih| ni X i=1 |w_ih| (3.4.1)

Om de relatieve invloed te bepalen wordt vervolgens voor iedere inputneuron de som van zijn bijbehorende waarden Q gedeeld door de som van de waarden Q van alle inputneuronen. Als de hieruit verkregen waarde vervolgens wordt vermenigvuldigd met 100, wordt de procentuele respectievelijke invloed verkregen:

RI(%) = nh X h=1 Qih nh X h=1 ni X i=1 Qih ∗ 100 (3.4.2)

(15)

3.5 Connection Weights

De derde en laatste blackboxmethode die in dit onderzoek aan bod komt, is Connection Weights. Deze methode maakt gebruikt van zowel de gewichten tussen de imput en verborgen laag als van de gewichten tussen de verborgen en outputlaag.

Een nadeel aan eerdere varianten op de Connection Weights, zoals de Weight Product methode van Monta˜no en Palmer (2003), is dat er geen rekening wordt gehouden met het effect van de activatiefunctie (Kingston et al., 2006). Connetion Weights houdt hier wel rekening mee: CWi = nh X h=1 g(wih) ∗ who (3.5.1)

g(.) representeert de gebruikte activatiefunctie.In het eigen onderzoek is dit de Sigmoid-functie (2.1.3). wih is het gewicht tussen inputvariabele i en verborgen neuron h.

who is vervolgens het gewicht tussen diezelfde verborgen neuron en de output.

Het berekenen van de relatieve invloed per inputvariabele is identiek aan de tweede stap van Garson’s Algorithm:

RI(%) = _P_niCWi

i=1|CWi|

∗ 100 (3.5.2)

4 Resultaten

Nadat in de vorige paragraaf de onderzoeksopzet uiteen is gezet en de verschillende blackboxmethode zijn beschreven, volgt nu een beschrijving en tevens analyse van de verschillende onderzoeksresultaten. Eerst worden de resultaten van het onderzoek naar de netwerkstructuur beschreven. Daaropvolgend worden de resultaten van alle drie de methoden afzonderlijk beschreven en uiteindelijk met elkaar vergeleken en geanalyseerd. Ook worden de resultaten vergeleken met voorgaand onderzoek.

(16)

Figure 3: MSE t.o.v. het aantal neuronen in de verborgen laag

(a) Netwerk zonder Weight Decay (b) Netwerk met Weight Decay

4.1 Neuraal netwerk

Beide bovenstaande figuren zijn gebaseerd op 50 replicaties. Figuur 3a toont de testfout ten opzichte van verschillende hoeveelheden verborgen neuronen. Er is te zien dat er twee minima zijn waarin de testfout zich tussen de 4.6 en 4.7 bevindt. Het minimum voor een netwerkstructuur met vier neuronen in de verborgen laag is logisch vanwege het feit dat Formule 3.1.1 is opgebouwd uit vier elementen. Het minimum voor een netwerkstructuur met negen neuronen in de verborgen laag was niet verwacht, maar is te verklaren doordat Formule 3.1.1 mogelijk te herschrijven is tot een vergelijking bestaande uit negen elementen.

In Figuur 3b is opnieuw de testfout gemeten ten opzichte van het aantal verborgen neuronen. Ditmaal is er Weight Decay toegevoegd. Wanneer het aantal neuronen in de verborgen laag toeneemt verandert er weinig aan de grootte van de testfout. Dit kan mogelijk verklaard worden doordat, als er een neuron aan het model wordt toegevoegd, Weight Decay er voor zorgt dat de gewichten naar - en vanaf die neuron zeer klein worden gehouden.

Uit deze subparagraaf is gebleken dat de testfout, zoals van te voren verwacht werd, het kleinst is voor een netwerk met 4 verborgen neuronen, ook wanneer gebruik wordt gemaakt

(17)

van Weight Decay. Daarom zal de rest van het onderzoek worden uitgevoerd met een dergelijke netwerkstructuur.

4.2 Partial Derivatives-methode

Figure 4: De relatieve invloed per input variabele geschat door de PaD-methode

(a) (b) (c)

Alle boxplots zijn gebaseerd op 500 replicaties. Voor n = 250 is te zien dat de PaD-Methode voor kleine waarden van n niet accuraat schat. Het effect van X4 wordt groter geschat dan het effect van X5 terwijl dit respectievelijk de minst en meest invloedrijke variabelen zijn. Naarmate n groter wordt treedt veel verbetering op. Het verbeteren stopt rond n = 1000. De grootheid van de spreiding van de vijfhonderd afzonderlijke waarnemingen neemt, tegen verwachting in, niet af naarmate n groter wordt.

Deze resultaten zijn deels in tegenspraak met de onderzoeksresultaten van zowel Grevrey et al. (2004) als O˜na en Garrido (2013). Zij concluderen allemaal dat de PaD-methode in staat is de minst en de meest belangrijke inputvariabele te identificeren, hetgeen in onze resultaten niet het geval is. Wel wordt er bevestigd dat de PaD-methode niet precies is. De resultaten uit het onderzoek van Gevrey et al. (2006) zijn niet goed te vergelijken met de eigen resultaten omdat zij gebruikmaken van een DGP waarin

(18)

kruisverbanden tussen de verschillende inputvariabelen zijn opgenomen.

4.3 Garson’s Algorithm

Figure 5: De relatieve invloed per input variabele geschat door Garson’s Algorithm

(a) (b) (c)

Uit de bovenstaande boxplots is op te maken dat Garson’s Algorithm, evenals de PaD-methode, de effecten van de meest en minst invloedrijke inputvariabelen respectievelijk onder- en overschat. En ondanks dat er correct wordt bepaald dat X4 de minst invloedrijke inputvariabele is, valt de werkelijke waarde buiten de op het eerste en derde kwartiel gebaseerde doos van de boxplot. Hoewel, naarmate n groter wordt, de schattingen enigszins verbeteren, blijven alle waarden dicht rond het gemiddelde van 0,167 hangen. Vanaf n = 1000 verbeteren de schattingen nog maar minimaal. Wel schat Garson’s Algorithm redelijk precies, wat wil zeggen dat de spreiding van de afzonderlijke schattingen relatief dicht bij elkaar in de buurt liggen.

Het onder- en overschatten van de effecten van de respectievelijk meest en minst invloedrijke inputvariabelen bevestigt de onderzoeksresultaten van Monta˜no en Palmer (2003). Ook uit het onderzoek van Gevrey et al. (2004) kwam naar voren dat Garson’s Algorithm zelden in staat is de relatieve parti¨ele effecten juist te schatten. In beide

(19)

onderzoeken wordt Garson’s Algorithm een niet-precieze methode genoemd, dit komt niet overeen met de eigen resultaten. Dit verschil kan wellicht verklaard worden door het feit dat de werkelijke parti¨ele effecten in het eigen onderzoek relatief dicht bij elkaar liggen, terwijl er in de andere onderzoeken een grotere spreiding is.

4.4 Connection Weights

Figure 6: De relatieve invloed per input variabele geschat door Connection Weights

(a) (b) (c)

Wanneer er naar de bovenstaande boxplots wordt gekeken, is te zien dat Connection Weights al vanaf n = 250 in staat is de belangrijkste input variabelen te identificeren. X5 en X2 voor n = 250 en X5, X2 en X3 voor n = 500. Naarmate n groter wordt, worden de schattingen significant beter. Vanaf n = 1000 worden alle zes inputvariabelen juist geschat. Als n groter wordt dan 1000 verandert er, net als bij de andere methoden, nog maar weinig aan de geschatte waarden. De spreiding tussen de afzonderlijke schattingen per inputvariabele neemt zelfs licht toe. Dit gaat tegen de verwachtingen in.

De resultaten komen overeen met het onderzoek van Olden et al. (2004) die, in tegenstelling tot Gevrey et al. (2003), concludeert dat Connection Weights een accurate en precieze methode is.

(20)

4.5 Analyse en vergelijking

Als de accuraatheid van alle drie de blackboxmethoden met elkaar wordt vergeleken, komt naar voren dat Connection Weights verreweg de beste prestaties levert. Deze methode is als enige in staat om vanaf n = 1000 voor elke inputvariabele een juiste schatting te maken van de relatieve invloed van de verschillende inputvariabelen op de output.

Wanneer er naar de precisie van de verschillende methoden wordt gekeken, lijkt Garson’s Algorithm het best te presteren. Echter, deze methode levert een zodanig onjuiste volgorde van minst - naar meest invloedrijke inputvariabele dat het gebruik ervan wordt afgeraden. Bij geen van de drie methoden verbetert de precisie naarmate n groter wordt.

Al met al wordt bevonden dat Connection Weights de beste methode is. Garson’s Algorithm presteert slechter dan de PaD-methode aangezien deze laatste acurater wordt voor grotere waardes van n. Bij Garson’s Algorithm is dit nauwelijks het geval. Deze resulaten komen grotendeels overeen met andere onderzoeken die gebruikmaken van een DGP, wat de in paragraaf 2 genoemde hypothese bevestigt.

5 Conclusie

Het hoofddoel van dit onderzoek was te bepalen welke blackboxmethode de beste prestaties levert, teneinde zo iets meer duidelijkheid te verkrijgen over wat er binnenin een artifici¨eel neuraal netwerk gebeurt. De resultaten van vergelijkbare onderzoeken zijn zeer divers. Dit is mogelijk te verklaren door het feit dat de verschillende blackboxmethoden vaak getest worden op empirische data. Dit heeft als resultaat dat de geschatte parti¨ele effecten worden vergeleken met mogelijk onjuist voor waar aangenomen waarden (Olden et al. 2004). Om dit probleem te omzeilen is in dit onderzoek gebruikgemaakt van een data generating process, waarbij de onderliggende modelstructuur reeds bekend is. Zodoende kunnen er over de prestaties van de drie verschillende blackboxmethoden, te weten, Partial Derivatives, Garson’s Algorithm en Connection Weights, betere conclusies worden getrokken.

(21)

toevoegen van Weight Decay ten opzichte van de testerror geanalyseerd. Hieruit komt naar voren dat een neuraal netwerk met vier verborgen neuronen inderdaad de beste netwerkstructuur is. Het toevoegen van Weight Decay is daarbij overbodig. Vervolgens zijn alle drie de methoden vijfhonderd keer toegepast op steeds opnieuw gesimuleerde data. De schattingen van de parti¨ele effecten zijn voor elke methode, per inputvariabele, in meerdere boxplots weergegeven.

Er wordt verwacht dat Connection Weights de meest accurate en precieze resultaten zal leveren. Garson’s Algorithm komt, hoewel het een veel gebruikte methode is, in veel onderzoeken als ´e´en van de minst goed presterende methoden naar voren. Uit de eigen resultaten blijkt dat Connection Weights inderdaad de meest accurate schattingen levert. Deze methode is echter niet zo precies als verwacht werd. Ook neemt de spreiding van de schattingen niet af naarmate n groter wordt. De PaD-methode schat de relatieve effecten pas juist vanaf n = 4000. Ook Garson’s Algorithm scoort naar verwachting. Deze schattingen liggen het verst van de werkelijke waarden af en verbeteren nauwelijks naarmate n groter wordt. De gestelde hypothese wordt hiermee grotendeels bevestigd.

In dit onderzoek is gebruik gemaakt van slechts één DGP. Hierdoor zijn de verschillende blackbox methoden maar voor één modelstructuur met elkaar vergeleken. Voor verder onderzoek is het wellicht interessant om de kwaliteit van de methoden te vergelijken wanneer deze getest worden met meerdere DGP’s, om zo een completer beeld te verkrijgen van de eigenschappen van de verschillende blackbox methoden.

(22)

Bibliografie

Beres, D. L., & Hawkins, D. M. (2001). Plackett-Burman technique for sensitivity analysis of many-parametered models. Ecological Modelling, 141 (1), 171-183.

Delacoste, M., Baran, P., Lek, S., & Lascaux, J. M. (1995). Classification et clé de détermination des faciès d’écoulements en rivières de montagne. Bulletin Fran¸cais de la Pêche et de la Pisciculture, (337-338-339), 149-156.

Gevrey, M., Dimopoulos, I., & Lek, S. (2003). Review and comparison of methods to study the contribution of variables in artificial neural network models. Ecological modelling, 160 (3), 249-264.

Gevrey, M., Dimopoulos, I., & Lek, S. (2006). Two-way interaction of input variables in the sensitivity analysis of neural network models. Ecological modelling, 195 (1), 43-50.

Hornik, K., Stinchcombe, M., & White, H. (1989). Multilayer feedforward networks are universal approximators. Neural networks, 2 (5), 359-366.

Ilonen, J., Kamarainen, J. K., & Lampinen, J. (2003). Differential evolution training algorithm for feed-forward neural networks. Neural Processing Letters, 17 (1), 93-105.

Karlik, B., & Olgac, A. V. (2011). Performance analysis of various activation functions in generalized MLP architectures of neural networks. International Journal of Artificial Intelligence and Expert Systems, 1 (4), 111-122.

Kingston, G. B., Maier, H. R., & Lambert, M. F. (2006). Forecasting cyanobacteria with Bayesian and deterministic artificial neural networks. Neural Networks, 22 (3) 4870-4877. Lek, S., Delacoste, M., Baran, P., Dimopoulos, I., Lauga, J., & Aulagnier, S. (1996). Application of neural networks to modelling nonlinear relationships in ecology. Ecological modelling, 90 (1), 39-52.

Leshno, M., Lin, V. Y., Pinkus, A., Schocken, S. (1993). Multilayer feedforward networks with a nonpolynomial activation function can approximate any function. Neural networks, 6 (6), 861-867.

Mols, B. (2016, 28 januari). ’Computer kraakt go’. NRC. Geraadpleegd van https://www.nrc.nl/nieuws/2016/01/28/computer-kraakt-go-1582283-a1274402

Monta˜no, J. J., & Palmer, A. (2003). Numeric sensitivity analysis applied to feedforward neural networks. Neural Computing & Applications, 12 (2), 119-125.

(23)

Olden, J. D., Joy, M. K., & Death, R. G. (2004). An accurate comparison of methods for quantifying variable importance in artificial neural networks using simulated data. Ecological Modelling, 178 (3), 389-397.

De O˜na, J., & Garrido, C. (2014). Extracting the contribution of independent variables in neural network models: a new approach to handle instability. Neural Computing and Applications, 25 (3-4), 859-869.

¨

Ozesmi, S. L., & ¨Ozesmi, U. (1999). An artificial neural network approach to spatial habitat modelling with interspecific interaction. Ecological modelling, 116 (1), 15-31.

Prechelt, L. (1998). Automatic early stopping using cross validation: quantifying the criteria. Neural Networks, 11 (4), 761-767.

Sung, A. H. (1998). Ranking importance of input parameters of neural networks. Expert Systems with Applications, 15 (3), 405-411.

Opheldering van de blackbox : een vergelijking van methoden om de parti ele effecten van inputvariabelen te meten binnen artifici ele neurale netwerken