• No results found

RESULTATEN EN DISCUSSIE

AANVULLENDE RESULTATEN MULTIPLE REGRESSIES

Naast de eerder getoonde multiple regressies zijn er meer regressies uitgevoerd waarbij ver- schillende subsets zijn gemaakt en aanvullende informatie zoals oppervlaktewaterkwaliteit is meegenomen. Vanwege ontbrekende data levert dit een lager aantal waarnemingen op. In alle gevallen waren de uitkomsten vergelijkbaar met bovenstaande resultaten. Tabel 3.2 laat hiervan beknopt de resultaten zien. In deze tabel zijn de gestandaardiseerde coëfficiënten opgenomen voor de geselecteerde parameters. Gestandaardiseerd wil zeggen dat deze coëf- ficiënt is geschaald op een manier zodat deze onderling te vergelijken zijn. Hierdoor geven deze coëfficiënten inzicht in het relatieve belang van deze factor binnen de regressie. In de tabel staan de uitkomsten voor de regressies voor de complete database, alleen de waar- nemingen in sloten, voor de verschillende bodemtypes. Verder voor de database aangevuld met visdata en fysisch chemische waterkwaliteit (waardoor veel meetlocaties eruit vallen), en een aparte analyse op de data in het gebied van Waternet/AGV.

Hier komt een vergelijkbaar beeld uit als in de eerdere analyse: bedekking met submerse vegetatie, watertemperatuur en score voortplanting worden in veel modellen geselecteerd als belangrijke positieve indicatoren voor kreeftenvangsten. De gemiddelde breedte van de rietkraag wordt als een belangrijke negatieve indicator geselecteerd. Verder komt doorzicht er zowel positief als negatief uit, afhankelijk van de specifieke regressie. Op basis van de vis- data wordt de specifieke indicator brasem+karper geselecteerd, zoals uit de eerdere analyse ook al bleek. Wanneer de database wordt verrijkt met fysisch chemische waterkwaliteitsdata wordt ook minimum zuurstofverzadigingspercentage geselecteerd door de stepwise regres-

sie. Verder worden er variabelen als het aantal zoetwaterpissebedden en grote poelslakken geselecteerd door het model.

Op basis van bovenstaande tabel blijkt dat de meeste regressies een vergelijkbaar beeld laten zien. Veel van de factoren uit de eerdere analyse worden geselecteerd en het teken van de coëfficiënten (+ of -) is verklaarbaar. Wel is de r2 voor de meeste modellen laag tot zeer laag, dit wordt veroorzaakt door grote hoeveelheid ruis in de dataset. De geselecteerde factoren zijn echter wel geselecteerd op basis van een significante toename in de fit van het model. Het opsplitsen van de dataset in verschillende gebieden met mogelijk verschillende mecha- nismen/verklaringen voor de kreeftenvangsten biedt geen uitkomst om een betere verklaring te vinden. Veel variatie in de data kan niet worden verklaard door een of meerdere van de gemeten factoren.

In deze analyse is uitgegaan van een zo groot mogelijke dataset met zoveel mogelijk factoren. Veel van de factoren zijn echter gecorreleerd, waardoor mogelijk problemen met intercorre- latie ontstaan. Dit kan mogelijke leiden tot suboptimale modellen, waarbij door de selectie van een specifieke factor een andere factor niet geselecteerd wordt omdat deze een hoge cor- relatie met elkaar hebben. Ondanks dit mogelijke probleem zien we in de meeste gevallen dat de factoren die we in de eerdere analyse selecteerden als kansrijk ook hier uit de regres- sieanalyse komen.

In een uitgebreide studie van Maceda-Veiga et al. (2013) is onderzoek uitgevoerd naar de rol van milieufactoren in 325 locaties in Catalonië. Dit is op een vergelijkbare manier uitgevoerd

TABEL 3.2 OVERZICHT MET GESTANDAARDISEERDE COËFFICIËNTEN UIT DE MULTIPLE REGRESSIES VOOR DE VERSCHILLENDE SUBSETS UIT

DE DATABASE. AANVULLEND ZIJN DE R2 EN DE N WEERGEGEVEN VOOR DE REGRESSIEMODELLEN

Parameter Complete Sloten Veen Zandige Kleiige +Visdata Waternet +Fys.chem.

database bodem bodem bodem waterdata

r2 0.27 0.31 0.25 0.37 0.24 0.52 0.36 0.44 N 130.00 73.00 71.00 64.00 55.00 57.00 35.00 39.00 submerse vegetatie (%) 0.29 0.29 0.19 0.46 0.45 0.39 0.51 watertemperatuur 0.22 0.29 0.37 0.31 0.36 0.24 zoetwaterpissebed -0.25 -0.17 -0.27 -0.32 -0.28 -0.18 score voortplanting 0.13 0.25 0.20 0.22 0.22 0.27 grote poelslak -0.21 -0.17 -0.20 -0.21 -0.24 breedte rietkraag -0.13 -0.17 -0.15 brasem + karper (%) 0.379 pH -0.12 -0.19

zicht / diepte ratio -0.28

Kroosvaren (%) -0.17 -0.06

minimum O2 % 0.21

Calcium bodem 0.17

doorzicht 0.17

fosfaat bodem -0.073

als deze studie met multiple regressie technieken. De aanwezigheid van kreeften werd in deze studie gerelateerd aan milieufactoren als geografische eigenschappen (hoogteligging, temperatuur, stroming), eutrofiering, alkaliniteit/pH en introductie van exotische vissoorten. Ook deze studie geeft nauwelijks aanknopingspunten of maatregelen om kreeftenbiomassa te verlagen of kreeften uit te roeien.

3.7.2 RESULTATEN MULTIPLE REGRESSIE OP PCA-ASSEN

In dit onderzoek gebruiken we de PCA-analyse vooral als controle op de multiple regressie- methode. De multiple regressiemethode, waarbij alle parameters worden ingevoegd, kunnen last hebben van intercorrelaties tussen de variabelen. Bij intercorrelatie is er sprake van een hoge correlatie tussen twee verklarende variabelen, waardoor de multiple regressie vermoe- delijk kiest voor het toevoegen van één van de twee variabelen. In een vervolgstap wordt de tweede variabele vervolgens niet meer gekozen omdat deze nu in het model weinig meer- waarde heeft. Het kan zijn dat hierdoor een variabele met een hoge correlatie gekozen wordt terwijl het geen causaal verband laat zien, terwijl een tweede variabele (waarbij wel een cau- saal verband verwacht zou mogen worden) niet wordt toegevoegd aan het multiple regres- siemodel omdat de intercorrelatie met de andere variabele dit voorkomt. Om bovenstaand probleem te omzeilen en een check op de eerdere multiple regressiemodellen uit te voeren, wordt de multiple regressie ook uitgevoerd op de PCA-assen. Aangezien de PCA-assen zijn geëxtraheerd waarbij orthogonaliteit (iedere nieuwe as moet haaks staan op de vorige) wordt geëist, is de kans op intercorrelatie tussen de PCA-assen nihil. Verder is het idee dat met de PCA-techniek meer informatie per PCA-as aanwezig is in vergelijking tot de variabelen zelf. Hierdoor zou het in theorie eenvoudiger moeten zijn om multiple regressiemodellen met een hogere verklarende variantie (lees hogere r2) te kunnen maken.

Hieronder worden eerst beknopt de resultaten van de PCA analyse beschreven, daarna vol- gen de resultaten van analyse waarbij de PCA-assen zijn gebruikt als input voor de multiple regressies.

PCA-ANALYSE

De eerste vraag is hoeveel de PCA-assen verklaren. Dit wordt aan de hand van een scree-plot uitgelegd (figuur 3.31). Hierin staan de PCA-assen op de horizontale as, deze zijn genummerd aan de hand van de volgorde waarin ze zijn afgeleid (N.B. de nummering begint in deze gra- fiek bij 0 i.p.v. 1). Op de linker y-as is de eigenvalue (een maat voor de grootte van de afgeleide parameterruimte) weergegeven, en rechts de R2 (een maat voor het totale percentage ver- klaarde variantie (cumulatief)). Hoe groter de eigenvalues, hoe groter de parameterruimte is die gebruikt wordt voor de as. Te zien is dat de eigenvalues afnemen bij elke volgende as die wordt toegevoegd en dat de verklaarde variantie toeneemt.

Om vervolgens te achterhalen of een bepaalde as relevant is, zijn er verschillende beoorde- lingsmethoden beschikbaar. Een eenvoudige methode is de regel dat een eigenvalue van een as groter moet zijn dan een eigenvalue van 1. Dit wil zeggen dat deze as meer verklaard dan een enkele variabele. Het is immers logisch om in ieder geval assen te gebruiken die meer zeggen dan een enkele variabele. In dit geval zijn de eigenvalues vooral in het begin erg groot. Op basis van deze selectiemethode zouden er veel assen gebruikt kunnen worden. Dit is ech- ter strijdig met het concept van datareductie, omdat dan beter gewoon alle variabelen zelf gebruikt kunnen worden.

Een tweede methode is de ‘scree plot’ methode, waarbij er gekeken wordt naar het patroon van de scree plot, bijvoorbeeld naar knikken in de grafiek. In figuur 3.30 is een ‘plateau’ te zien tussen 7-10 assen. Op basis hiervan zou het logisch zijn om bijvoorbeeld de eerste 10 PCA- assen te gebruiken voor een vervolganalyse. Tegelijkertijd kan de verklaarde variantie afge- lezen worden in de grafiek (rechter y-as). Wanneer er 10 assen gebruikt worden, wordt door deze assen samen ongeveer 65-70% van de variantie in de dataset verklaard. Het gaat hierbij om de variantie van de inputvariabelen die verklaard wordt en niet om een verklaring van bijvoorbeeld de kreeftenvangsten. Om tot een verklaarde variantie van 80% te komen zijn ongeveer 18 PCA-assen nodig.

FIGUUR 3.31 SCREEPLOT VOOR STANDAARD DATASET. X-AS DE PCA-ASSEN (OP VOLGORDE VAN EXTRAHEREN) EN OP DE LINKER Y-AS

(BLAUW) DE EIGENVALUES, DE RECHTER Y-AS DE CUMULATIEVE VERKLAARDE VARIANTIE (R2)

Op basis van bovenstaande analyse bekijken we de uitkomsten van de eerste assen in meer detail. In figuur 3.32 zijn de resultaten van de eerste twee PCA-assen grafisch weergegeven. Hierin zijn de locaties te zien met de kleurcodes. Enkele variabelen met een hoge correlatie met de PCA-assen zijn weergegeven als rode lijnen (de grootte van de lijnen is afhankelijk van de eigenvalues en vallen in dit geval ruim buiten de grafiek). Er is hierbij gekozen om niet alle variabelen te laten zien, maar alleen de variabelen met de hoogste correlaties met beide PCA-assen. Te zien is dat de locaties ruwweg clusteren op basis van locatie en waterschap. De locaties van Waternet (paars) clusteren bijvoorbeeld bij elkaar, afgezien van twee waarnemin- gen van Kivietsbuurt en Tienhovense plassen. Ook de groene punten van de Krimpenerwaard clusteren ongeveer bij elkaar. Tegelijkertijd is te zien dat er geen strikte scheidingen ontstaan tussen waterschappen of tussen gebieden: er is overlap in de eigenschappen. De verschillen tussen deze gebieden worden vooral gekenmerkt door zicht/diepte-ratio, percentage ondiep, aantallen predatoren van kleine kreeften en beschoeiingshoogte. Ook de aantallen zoetwa- terpissebedden is blijkbaar een onderscheidende factor op deze assen.

Figuur 3.33 laat de uitkomsten van de PCA-assen 3 en 4 zien. Het onderscheid tussen locaties en waterschappen is hierin minder duidelijk. Wel is weer de tegenstelling tussen de gebieden van Waternet (paars) en Delfland (donkerblauw) te zien. Belangrijke variabelen die correleren met de geëxtraheerde assen zijn percentage ondiep, voedselbron kreeften, maximale diepte, beschoeiingshoogte, doorzicht en totaal aantal ongewervelden. Hier zit enige overlap in met de vorige assen. Figuur 3.34 laat de grafiek met de vijfde en zesde as zien. Dit beeld is verge-

FIGUUR 3.32 UITKOMSTEN VAN DE EERSTE TWEE PCA-ASSEN GRAFISCH WEERGEGEVEN. PCA-AS 1 STAAT OP DE X-AS, PCA-AS 2 STAAT OP DE Y-AS. DE LOCATIES ZIJN WEERGEGEVEN MET DE KLEURCODES; VARIABELEN DIE HOOG SCOREN OP DEZE ASSEN ZIJN WEERGE- GEVEN MET LIJNEN

FIGUUR 3.33 UITKOMSTEN VAN DE DERDE EN VIERDE PCA-ASSEN GRAFISCH WEERGEGEVEN. PCA-AS 3 STAAT OP DE X-AS, PCA-AS 4 STAAT

OP DE Y-AS. DE LOCATIES ZIJN WEERGEGEVEN MET DE KLEURCODES; VARIABELEN DIE HOOG SCOREN OP DEZE ASSEN ZIJN