Data Driven Growing in de praktijk Hoe te beginnen met data-analyse voor teelt optimalisatie

(1)

Data Driven Growing in de praktijk

Hoe te beginnen met data-analyse voor teelt optimalisatie

Whitepaper

Data Driven Growing in praktijk

(2)

(3)

Data is een veelbesproken onderwerp in de tuinbouwsector. Steeds meer bedrijven implementeren op data

gebaseerde oplossingen. Veel onderzoeken en ontwikkelingen zijn gebaseerd op data en daardoor verschijnen er ook vacatures voor tuinbouw data-analisten. Echter, waarom is data zo essentieel geworden? Is data-analyse werkelijk zo winstgevend? Welke data moet verzameld worden? Hoe belangrijk is de kwaliteit van data? Hoe moet begonnen worden met data-analyse? Welke instrumenten moeten gebruikt worden?

Voor de beantwoording van deze vragen is begrip van de basisprincipes van data-analyse cruciaal. In deze

whitepaper worden enkele belangrijke vereisten besproken om in de praktijk aan de slag te gaan met data-gestuurd telen.

Introductie

Data-opschoning: het proces van het opsporen en corrigeren van onjuiste waarden in een dataset.

Beschrijvende statistiek: waarden die een dataset samenvatten.

Informatie: geanalyseerde data in een speciﬁ eke context.

Lineaire interpolatie: het construeren van nieuwe datapunten door aan te nemen dat er een rechte lijn bestaat tussen de bestaande datapunten.

Metadata: data die andere data beschrijft.

Ruwe data: data die nog niet handmatig of door computer software verwerkt is.

SMART criteria: doelen die Speciﬁ ek, Meetbaar, Acceptabel, Realistisch en Tijdgebonden zijn.

Typfout: een bij het invoeren gemaakte kleine fout in een tekst of getal.

Heatmap: een visualisatie die ruimtelijke verschillen in een kas laat zien, zoals verschillen in luchttemperatuur.

Woordenlijst

www.letsgrow.com

(4)

Een moderne kas is uitgerust met een computersysteem voor de klimaatregeling. De klimaatcomputer bestuurt de kasinstallaties met behulp van sensoren. Naast de sensoren die nodig zijn voor de klimaat regeling kunnen ook extra sensoren geïnstalleerd worden in een kas. Denk bijvoorbeeld aan een netwerk van draadloze sensoren voor het meten van horizontale verschillen in kastemperatuur of een thermograﬁ sche camera voor het registreren van verschillen in planttemperatuur.

Sensoren verzamelen data die nuttige inzichten in de teeltstrategie kunnen geven. Data-analyse kan een deel van de oplossing zijn voor het vinden van de optimale strategie. Sensor-data moet van hoge kwaliteit zijn om bruikbaar te zijn voor data-analyse.

Wanneer bijvoorbeeld de kascondities van dit jaar vergeleken worden met die van vorig jaar is regelmatige kalibratie van de sensoren vereist. Een ander aspect is de absolute nauwkeurigheid van een sensor. Wanneer data

van twee verschillende typen luchttemperatuur sensoren met elkaar vergeleken wordt is het belangrijk om te controleren of de nauwkeurigheid van de sensoren vergelijk- baar is. Als dit niet zo is, is een correctie nodig, of moet er gekeken worden naar trends in plaats van absolute waarden. Het gebruik van sensor-data van hoge kwaliteit voorkomt dat aan het eind van een analyse foutieve conclusies getrokken worden.

Om de sensor-data in de juiste context te plaatsen moet aanvullende data over het gewas verzameld worden.

Gewasregistratie wordt meestal handmatig en één keer per week gedaan. Dataverzameling met betrekking tot gewasregistraties kan leiden tot verder inzicht in gewas- groei en –ontwikkeling.

Met gewasregistratiedata kunnen de effecten van korte- en lange termijn veranderingen in de klimaat condities zichtbaar gemaakt worden en kunnen de juiste conclusies getrokken worden. Wanneer de klimaatstrategie aangepast is als gevolg van een gewasobservatie moet bovendien de effectiviteit van deze aanpassing beoordeeld worden. Om de gewas observaties te kunnen re- lateren aan de klimaatregistraties moeten de gewasme- tingen dichtbij de meetbox en andere relevante sensoren worden uitgevoerd.

Net als bij de sensor-data is de kwaliteit van gewas registratie van cruciaal belang. In tegenstelling tot ge- automatiseerde dataverzameling is handmatige dataverzameling (gewasregistratie) onderhevig aan menselijke fouten. Om het risico op fouten te verkleinen is het be-

langrijk om erg nauwkeurig te zijn bij gewas registratie.

Het consistent meten van gewaskarakteristieken op regelmatige tijdstippen is de basis voor een dataset van hoge kwaliteit. Typfouten zijn ook een veelvoorkomende bron van fouten, bijvoorbeeld bij het invoeren van hand- geschreven data in een digitale spreadsheet.

Het invoeren van registraties met een app is minder foutgevoelig. Een ander voordeel is dat een app voor data-invoer gebruikt kan worden voor meerdere doeleinden. Het is mogelijk om ziekten en plagen in te voeren, maar ook om foto’s te maken van plagen of andere opmerkelijke gewaswaarnemingen.

Data verzamelen

Door sensoren gegenereerde data

Voorbeeld sensor-data: een thermograﬁ sch beeld dat de verschillen in planttemperatuur weergeeft.

Gewasregistraties

Data-invoer app voor gewasregistratie.

Om te beginnen met data-gestuurd telen moet data beschikbaar zijn. De eerste stap is dus het verzamelen van data.

Waar komt deze data vandaan en hoe moet al deze data worden opgeslagen?

(5)

De rol van MyLetsGrow.

Metadata

Opslag en privacy

De rol van MyLetsGrow.

Bij dataverzameling is het ook belangrijk om te kijken naar de metadata. Dit is data die informatie geeft over andere data. Een kolom in een spreadsheet met de naam

“temperatuur” kan bijvoorbeeld leiden tot veel vragen.

Gaat het om de kastemperatuur of de buitentemperatuur?

Wat is de eenheid, Celsius of Fahrenheit? Hoe en waar is dit gemeten?

Het hebben van deze informatie voorkomt misvattingen over de context van de data. Het creëren van een dataset van hoge kwaliteit kost tijd en toewijding, maar is noodzakelijk voor een juiste analyse. Een analyse leidt alleen tot juiste informatie als de data waarop de analyse gebaseerd is juist is.

De snelheid waarmee nieuwe data wordt gcreëerd neemt nog steeds toe. Het is een feit dat 90% van alle opgeslagen data in de wereld in de afgelopen twee jaar is verzameld! Ook in geavanceerde kassen wordt steeds meer data verzameld. Voor een klimaatcomputer in een geavanceerde kas worden ruwweg 7500 datasamples per hectare per dag verzameld en dit aantal neemt snel toe. Denk bijvoorbeeld aan data van nieuwe (draadloze) sensoren, (thermograﬁ sche) camera’s, verpakkingsmachines en oogstrobots. Echter, hoe moet deze gigantische hoeveelheid data worden opgeslagen?

Er zijn verschillende opslagmedia beschikbaar.

Kastemperatuurmetingen van een meetbox worden lokaal opgeslagen op de harde schijf van de klimaatcomputer. Voor de data van draadloze sensoren

kan gebruik gemaakt worden van cloudopslag op meerdere servers. Gewasregistraties kunnen worden opgeschreven in een notitieblok of worden ingevuld in een spreadsheet en opgeslagen op een lokale computer of externe harde schijf. Al deze media hebben een eigen opslaglocatie en indeling; denk aan de verschillende datum- en tijdsindelingen of –scheidingtekens.

Door deze verschillen leidt het gebruik van data van verschillende bronnen vaak tot problemen. De oplossing is een centraal dataplatform. Door gebruik te maken van één platform met één standaard indeling voor dataopslag wordt het risico of fouten enorm verkleind, wat data- analyse veel efﬁ ciënter maakt. Gebruik maken van één platform voor alle databronnen maakt het eenvoudiger om alle data tegelijk te beheren.

Wanneer de hoeveelheid data toeneemt wordt opslag steeds complexer. Er zijn verschillende kernfactoren met betrekking tot dataopslag, zoals capaciteit, prestatie, toegankelijkheid en veiligheid. Aanzienlijke hoeveelheden data moeten worden opgeslagen worden en deze data

moet 24/7 beschikbaar zijn voor meerdere gebruikers wereldwijd. Het vereist speciﬁ eke kennis om een dataopslag-omgeving op te zetten en te onderhouden op een manier die aan deze eisen voldoet.

(6)

Data-opschoning

Naast de technische uitdagingen met betrekking tot dataopslag is een ethisch aspect als privacy ook van groot belang. In dit geval gaat het niet over de privacy van de zoekgeschiedenis op Google, Facebook of YouTube, maar over de bedrijfsstrategie. Belangrijke onderwerpen in de discussie rondom de dataprivacy zijn bijvoorbeeld eigendom, gebruikers en delen van data. In deze discussie is de gebruiker niet altijd automatisch de

eigenaar van de data. De producent van een sensor of de eigenaar van het platform waarop, de data is opgeslagen kunnen claimen dat zij ook de eigenaar zijn van de data en dat zij dit mogen gebruiken voor andere doeleinden.

Maak daarom gebruik van een transparant platform dat duidelijk stelt dat de klant de eigenaar is van de data. De klant moet de enige zijn die kan beslissen wie er toegang heeft tot de data en met wie de data gedeeld wordt.

Zoals eerder beschreven zijn kalibratie van sensoren en consistente gewasregistratie essentieel voor goede datakwaliteit. Voordat de dataset gebruikt kan worden voor analyse moet de data opgeschoond worden. Het idee achter data-opschoning is eenvoudig; het is het proces van het “schoonmaken” van ruwe data.

Ook een gekalibreerde sensor kan kapot gaan en fouten veroorzaken in de dataset. Dit zijn fouten die niet gebruikt dienen te worden bij het berekenen van de beschrijven statistieken zoals de gemiddelde waarde. Om deze reden is data-opschoning nodig om de kwaliteit van de dataset te verbeteren.

Data-opschoning kan gedaan worden met verschillende hulpmiddelen, scripts of algoritmes. Voordat dit gedaan wordt, is het belangrijk om te bedenken welke data nodig is voor de analyse. De dataset zo klein mogelijk houden kan veel tijd besparen. Na het selecteren van alle benodigde data is het tijd om te concentreren op het daadwerkelijk opschonen van de data. Eerst moet een idee verkregen worden van hoe de data er uitziet.

Een goede eerste stap is om een aantal beschrijvende statistieken te berekenen, zoals gemiddelde-, minimum -en maximum waarden. Deze statistieken kunnen vergeleken worden met eerdere kennis over de dataset. Hiervoor is het essentieel dat de persoon die verantwoordelijk is voor data-analyse over voldoende achtergrond informatie beschikt.

Wanneer bijvoorbeeld in de dataset de maximum waarde voor de relatieve vochtigheid in de kas 10 is, dan zijn er waarschijnlijk kolomnamen verwisseld, zoals vochtdeﬁ cit met relatieve vochtigheid. Deze statistieken zijn nuttig om mogelijke fouten op te sporen.

Een andere benadering voor data-opschoning is het visualiseren van de data. Een eenvoudige graﬁ ek met datum en tijd op de X-as geeft veel informatie. Komen de schommelingen per uur, per dag, of zelfs per jaar overeen met de verwachting? Is de buitentemperatuur hoger in de zomerperiode? Door het beantwoorden van deze eenvoudige vragen kunnen fouten in de dataset worden opgespoord.

(7)

Voorbeeld van een graﬁ ek die foutieve informatie laat zien.

Na het maken van een duidelijk beeld van de waargenomen fouten in de dataset is het tijd om een oplossing te vinden. Er zijn talloze mogelijke kwaliteitsproblemen bij datasets, maar de meeste hebben betrekking op onjuiste en incomplete data. Zo ook in het voorbeeld in bovenstaande graﬁ ek waarbij een uitschieter in de dagelijkse stralingssom te zien is omdat de som is berekend voor twee dagen. Verschillende technieken kunnen gebruikt worden om deze problemen op te lossen en de dataset zo schoon mogelijk te maken.

Aan de ene kant is het vervangen van onjuiste of missende waarden met nieuwe waarden een goede manier. Bij het vervangen van een onjuiste of missende waarde is het altijd de vraag hoe zeker en representatief de nieuwe waarde is. Wanneer er sprake is van slechts een gat van vijf minuten in de kastemperatuur, dan kunnen de waarden voor en na dit moment veilig gebruikt worden

(lineaire interpolatie). Echter, als het gat met missende waarden groot is, laten we zeggen een paar uur, kan het beter zijn om de rijen met missende waarden te verwijderen en niet te gebruiken. Zelfs wanneer dit leidt tot een gat in de tijdreeks, wat de dataset onbruikbaar voor ana- lyses kan maken. Wanneer bijvoorbeeld de relatie tussen kastemperatuur en dagelijkse stralingssom wordt vergeleken, kan het misschien zelfs beter zijn om dagen met onjuiste waarden te verwijderen. Denk hierbij aan de dagen waarop de teeltwisseling plaatsvindt.

Er bestaat geen duidelijke leidraad voor data-opschoning. Iedere dataset heeft een eigen aanpak nodig. Mo- gelijke oplossingen zijn afhankelijk van de doel van de analyse. Uiteindelijk moet de data-analyse juiste en be- trouwbare conclusies opleveren.

(8)

Data-analyse

Graﬁ eken

Om een dataset van goede kwaliteit om te zetten in resultaten is de data-analyse een belangrijke stap. Data- analyse is echter een breed begrip. Het is essentieel om duidelijke doelstellingen te bepalen om uiteindelijk tot de gewenste resultaten te komen.

Het is aan te raden om de gedeﬁ nieerde doelstellingen te testen aan de hand van de SMART criteria. Dit voorkomt vage doelenstelling, zoals “het optimaliseren van groei”

of “energie besparen”. Het bepalen van doelstellingen voorkomt vastlopen in data-analyse. In het algemeen zijn er vier typen data-analyse: beschrijvend, diagnostisch, voorspellend en voortschrijvend. Ieder type heeft betrekking op één van de volgende vragen: Wat is er

gebeurd? Waarom gebeurde het? Wat zal er gebeuren?

Wat is het beste dat kan gebeuren? Het vinden van antwoorden op de laatste vraag vereist een complexere analyse dan het vinden van antwoorden op de eerste vraag, maar de bedrijfswaarde van deze antwoorden is ook groter.

De resultaten van iedere data-analyse kunnen anders zijn, afhankelijk van het doel en type analyse. De uitkomst kan een dashboard zijn met graﬁ eken om de resultaten te laten zien, een rapport met een statistische analyse of zelfs een voorspellend Machine Learning model. Deze whitepaper kijkt naar betekenis en reactie; wat is er gebeurd en waarom is het gebeurd?

Visualisatie is een belangrijk aspect van beschrijvende analyse. Beeldmateriaal zoals graﬁ eken en diagrammen maken het mogelijk om de resultaten van een gebeurtenis transparant te delen en presenteren. Er zijn verschillende soorten visualisaties: lijngraﬁ eken, staafdiagrammen, histogrammen, spreidingsdiagrammen, etc. Deze kunnen allemaal zeer nuttig zijn, maar niet in iedere situatie.

De juiste visualisatie kan geselecteerd worden op basis van data type, aantal variabelen en/of de dataset chronologisch geordend is of niet. Een goede visualisatie kan leiden tot een uitstekende interpretatie

van de data zonder enige aanvullende informatie. Dit impliceert betekenisvolle as-namen, titelnaam en uitleg van verschillende kleuren of lijn/punt typen (legenda). In de meeste gevallen geeft een eenvoudige lijngraﬁ ek in een spreadsheet genoeg informatie, bijvoorbeeld om de variatie in de jaarlijkse stralingssom weer te geven.

In het geval van grote datasets, die enorme hoeveelheden informatie bevatten, wordt datavisualisatie een hele kunst op zich.

Verschillende niveaus van data-analyse.

(9)

Het kan een uitdaging zijn om naar trends te zoeken in de lijngraﬁ ek. Op sommige dagen kan de temperatuur op locatie A bijvoorbeeld hoger zijn dan op locatie B en andersom. Daarom zijn speciale functies ontwikkeld om trends uit een lijngraﬁ ek af te leiden, bijvoorbeeld de functie die data per uur groepeert. Op deze manier wordt het duidelijk op welke momenten van de dag de gemiddelde temperatuur op locatie B afwijkt van de gemiddelde temperatuur op locatie A.

Een lijngraﬁ ek met de kastemperatuur van locatie A (rood) en locatie B (blauw).

Een “spaghetti graﬁ ek” met veel afzonderlijke metingen.

De kastemperatuur van twee locaties gegroepeerd per uur. In de maand mei was de temperatuur op locatie A (rood) gemiddeld genomen lager tijdens de nacht en hoger gedurende de dag.

Ter verduidelijking van data-analyse volgt nu een voorbeeld. Een teler merkt op dat de productie op locatie A altijd hoger is dan op locatie B. Door middel van data-analyse wil de teler uitzoeken waarom de productie op locatie A hoger was. In dit geval is

een lijngraﬁ ek een goede start om te visualiseren wat er gebeurd is. Het verschil in productie kan gerelateerd zijn aan het kasklimaat. Een maand lang de kastemperaturen in kaart brengen kan bijvoorbeeld laten zien dat er een verschil is tussen de twee locaties.

Het kan lastig zijn om afwijkingen te ontdekken in een lijngrafi ek, vooral wanneer er veel metingen zijn. Het is mogelijk dat de gemiddelde kastemperatuur op de twee locaties redelijk gelijkwaardig is, maar er kan een verschil zijn tussen afzonderlijke metingen. Een lijngrafi ek waarin al deze data wordt samengevoegd wordt een “spaghetti grafi ek”

genoemd.

(10)

Het schaduw gebied geeft het gemiddelde (inclusief een marge) van de lijnen in bovenstaande graﬁ ek weer. De lijnen buiten de schaduw gebieden geven de afwijkingen weer.

Dashboards

Voorbeeld van een dashboard waarop verschillende typen visualisaties zichtbaar zijn.

Derhalve is het mogelijk om alleen data weer te geven die afwijkt van het gemiddelde van alle metingen in een graﬁ ek. Een ingestelde marge kan weergegeven worden door een “schaduw gebied” in de graﬁ ek. Alleen lijnen buiten de marge zijn zichtbaar en dit zijn de momenten die extra aandacht nodig hebben. Met deze functie is het mogelijk om direct te zien wanneer de temperatuur van een afzonderlijke meting afwijkt van de gemiddelde kastemperatuur inclusief de ingestelde marge.

Hoewel graﬁ eken nuttig kunnen zijn bij het direct zichtbaar maken van essentiële informatie kunnen ze ook misleidend zijn. Vooral wanneer de schaal van de y-as verkeerd is. Een te grote schaal maskeert verschillen en een te kleine schaal legt te veel nadruk op kleine verschillen. Bovendien maakt het toevoegen

van te veel informatie aan een graﬁ ek het moeilijk om de juiste conclusies te trekken. Een diagram moet één verhaal vertellen en niet meerdere verhalen in één keer.

Om te observeren “wat er is gebeurd” is het maken van graﬁ eken noodzakelijk. Voor de volgende stap,

“waarom is het gebeurd”, is het essentieel om data van verschillende bronnen te combineren. Hiervoor is een dashboard handig. Een dashboard maakt het mogelijk om data van gewasregistraties te verbinden met door sensoren gegenereerde data. Het is ook mogelijk om verschillende typen visualisaties te combineren, zoals meters, graﬁ eken en een heatmap. Een heatmap geeft de temperatuur verdeling weer op een kasplattegrond op basis van data van meerdere (draadloze) temperatuur -en RV sensoren. Een heatmap kan ook gebruikt worden om de ontwikkeling van ziekten en plagen in de kas

te laten zien. Een dashboard kan nuttig zijn om in één oogopslag de antwoorden op meerdere vragen weer te geven. Het kan bijvoorbeeld een antwoord geven op de vraag waarom er een verschil is tussen de opbrengsten van twee locaties. Er kunnen meerdere antwoorden zijn op deze vraag, maar een dashboard maakt het veel makkelijker om deze antwoorden te vinden. Een logische verklaring kan zijn dat beide kassen een andere klimaatstrategie gebruikten. Doorgaans impliceert de klimaatstrategie meerdere met elkaar samenhangende factoren. Het is daarom nodig om het klimaat zodanig te controleren dat deze strategie zichtbaar wordt. Dit wordt uitgelegd in de volgende paragraaf.

(11)

Klimaatmonitor

Klimaatmonitor graﬁ ek die de mate van balans van het groeiklimaat laat zien. Wanneer de groene verticale lijn 100% bereikt bevinden alle groeifactoren zich binnen de gestelde grenswaarden en is het klimaat dus in balans.

Plantbalans RTR

Visualisatie van de verhouding tussen straling en temperatuur (RTR).

Om een hoge productiviteit te bereiken in combinatie met efﬁ ciënt gebruik van middelen is het noodzakelijk om de instellingen voor het aansturen van de abiotische factoren in de kasomgeving, zoals temperatuur, vochtigheid en CO₂ op elkaar af te stemmen. Deze samenhang van factoren wordt ook wel de klimaatstrategie genoemd.

Echter, in de praktijk ontstaan er vaak afwijkingen. Zulke afwijkingen zorgen voor een minder ideaal kasklimaat en zijn niet bevorderlijk voor de groei en ontwikkeling van het gewas. Echter, hoe kunnen deze afwijkingen worden bijgehouden? En hoe moet de kwaliteit van het gerealiseerde klimaat beoordeeld worden in vergelijking met de klimaatstrategie?

Het gewas ervaart het groeiklimaat als een combinatie van licht, temperatuur, vochtigheid en CO₂. Bij ieder stralingsniveau moeten de andere factoren zich binnen bepaalde grenswaarden bevinden om de beste combinatie te vormen voor fotosynthese en groei. Dit zorgt ervoor dat de plant in balans blijft, met optimale productie en kwaliteit. Om deze reden richt de Klimaatmonitor zich in de basis op de juiste combinatie van groeifactoren in de kas. De visualisatie biedt snel en toegankelijk inzicht in de kwaliteit van het kasklimaat.

Het is mogelijk om te zien op welke momenten welke grenswaarden worden overschreden en waar dus verbeteringen in klimaatbeheersing te behalen zijn.

Naast het monitoren van de kwaliteit van het kasklimaat is het belangrijk om inzicht te krijgen in de assimilatenbalans van de plant. Het is bekend dat de productie van assimilaten vooral afhankelijk is van de totale lichtsom per dag en dat de plantgroei grotendeels afhankelijk is van de gemiddelde etmaaltemperatuur. De ontwikkeling van de plant wordt daarom voornamelijk bepaald door de verhouding tussen straling en temperatuur (Radiation-Temperature-Ratio; RTR). Met de module Plantbalans RTR is het mogelijk om de assimilatenbalans te visualiseren en monitoren om te zien wanneer en waarom de gerealiseerde RTR afwijkt van de gewenste strategie. Het ultieme doel is een uitgebalanceerd gewas met optimale productie en kwaliteit. Dit vergroot de gezondheid en weerbaarheid van de plant.

(12)

Statistiek

Conclusie

Om te observeren “wat er is gebeurd” en “waarom het is gebeurd” is het meestal genoeg om voor de data- analyse gebruik te maken van graﬁ eken en dashboards.

Echter, wanneer belangrijke beslissingen gebaseerd zijn op de waargenomen verschillen moet statistiek gebruikt worden om de besluitvorming te ondersteunen.

Wat betreft statistiek is het belangrijk om bekend te zijn met een aantal basisconcepten. Eén hiervan is de relatie tussen de effectgrootte, de steekproefgrootte en het signiﬁ cantiecriterium. Een groot effect kan gemeten worden met een kleine steekproefgrootte en andersom.

Het signiﬁ cantiecriterium is de drempelwaarde waarbij experimenten signiﬁ cant van elkaar verschillen. Wanneer alle drie de componenten bekend zijn kan de statistische kracht van een toets berekend worden. De statistische kracht is de waarschijnlijkheid dat een toets een effect ontdekt wanneer er een effect is. In een kas met een grote populatie planten wordt meestal maar een kleine steekproef gebruikt voor gewasregistratie. Het kost te veel tijd om bijvoorbeeld de vruchten van iedere plant te beoordelen.

Zoals uitgelegd leidt het verkleinen van de steekproefgrootte tot een afname van de kracht van een statistische test waardoor het moeilijker is om verschillen te ontdekken, vooral als de verschillen klein zijn. Het is daarom belangrijk om bewust te zijn van het effect van de steekproefgrootte op de nauwkeurigheid van de gewasregistratiewaarden.

Statistiek is handig bij het vinden van de juiste antwoorden op vragen zoals “waarom iets is gebeurd”.

Echter, werken met statistiek kan lastig zijn. Het is daarom belangrijk om voorzichtig te zijn, bijvoorbeeld met betrekking tot het verschil tussen correlatie en causaliteit. Een spreidingsdiagram van twee variabelen kan laten zien dat deze variabelen sterk correleren. Echter, correlatie impliceert geen causaliteit. Een welbekend voorbeeld is de hoge correlatie tussen de verkoop van ijsjes en zonnebrillen. Dit betekent immers niet dat ijsjes een hogere verkoop van zonnebrillen veroorzaakt. De onderliggende oorzaak is in dit geval de hoeveelheid zonneschijn. Begrip van dit verschil is essentieel voor het trekken van correcte conclusies.

Data-analyse in de tuinbouw is meer dan alleen graﬁ eken maken in een spreadsheet. Data-analyse begint bij het proces van de verzameling, opslag en opschoning van data. Een dataset van hoge kwaliteit creëert veel mogelijkheden voor data-analyse, zoals het beantwoorden van vragen als “wat is er gebeurd”

en “waarom is het gebeurd”. Het visualiseren van data met data-analyse kan essentieel zijn voor het vinden van de juiste antwoorden. Bij het combineren van data van verschillende bronnen zijn hulpmiddelen zoals een dashboard, de Klimaatmonitor of Plantbalans RTR nodig om resultaten op een duidelijke manier

weer te geven. Data-gestuurd telen vereist kennis van data-analyse. Als teler of consultant is het belangrijk om in contact te komen met de juiste partijen die kunnen helpen bij het maken van de transitie naar data-gestuurd telen. Belangrijke selectiecriteria zijn het hebben van een centraal dataplatform, kennis van planten, praktische ervaring in tuinbouw, beschikbare hulpmiddelen en transparantie met betrekking tot privacy en data-eigendom. Alleen door gebruik te maken van het juiste platform is het mogelijk om data- gestuurd telen volledig in de praktijk te implementeren.

(13)

Epiloog

Letsgrow.com

Hoogendoorn Growth Management levert duurzame en gebruiksvriendelijke automatiseringsoplossingen voor alle soorten tuinbouwbedrijven wereldwijd. Dit voorziet telers van een complete oplossing voor het efﬁ ciënt managen van het kasklimaat, irrigatie en energieverbruik, ongeacht de kasstructuur, locatie en uitrusting. De intelligente regelingen maken het mogelijk om gewas te telen van hoge kwaliteit en maximale gewasopbrengst te bereiken met minimaal gebruik van schaarse middelen, zoals water, energie en voedingsstoffen. Groei, continuïteit en innovatie staan hierbij centraal.

LetsGrow.com is operationeel sinds 2002. Samen met Wageningen University Horticultural Research zijn prognosemodellen voor gewasopbrengst ontwikkeld.

De services van LetsGrow.com omvatten de volledige tuinbouwmarkt: de klimaatcomputers van alle populaire merken worden ondersteund.

Klanten hebben wereldwijd 24/7 toegang tot real-time data. Het feit dat er al meer dan 1000 telers onder glas een abonnement hebben op LetsGrow.com, getuigt hiervan. Dit zijn zowel individuele bedrijven als grote teeltverenigingen.

Zowel Hoogendoorn als LetsGrow biedt de mogelijkheid om teeltgerelateerde data te verzamelen en analyseren.

Via een online platform kunt u data analyseren met betrekking tot bijvoorbeeld kasklimaat, gewas, arbeid en energieverbruik. Graﬁ eken en dashboards kunnen eenvoudig gecreëerd worden om inzicht te verkrijgen in de teeltdata. Daarnaast kunnen berekeningen uitgevoerd worden met real-time data om nog meer inzicht te geven.

Op deze manier wordt data omgezet in betekenisvolle informatie.

(14)

Data Driven Growing in de praktijk Hoe te beginnen met data-analyse voor teelt optimalisatie