• No results found

Kansrekening en statistiek bij de

verspreiding van

besmettelijke ziektes

[ Ronald Meester ]

inleiding

Van tijd tot tijd worden we in Nederland opgeschrikt door het uitbreken van een besmettelijke ziekte onder dieren. Zo’n tien jaar geleden bijvoorbeeld zorgde een uitbraak van de varkenspest voor gruwelijke beelden op de televisie, en nog niet zo lang geleden was er de dreiging van mond- en klauwzeer uit Engeland. Bij elke (dreigende) uitbraak van een dergelijke ziekte moeten er maatregelen getroffen worden om verdere verspreiding te voorkomen. Hierbij kun je denken aan vaccinatie, een vervoersverbod, of het zogenaamde ‘ruimen’ van bedrijven, een eufemisme voor het doden van alle dieren op een bepaald bedrijf.

De keuze voor bepaalde (combinaties van) methodes wordt gemaakt aan de hand van een aantal overwegingen. Bij deze overwe- gingen spelen vooral economische motie- ven een rol, want het gaat eigenlijk altijd over geld. Daarnaast is het natuurlijk ook belangrijk dat een bepaalde voorgestelde methode ook het beoogde effect zal hebben. Het is duidelijk dat sommige van deze overwegingen met elkaar conflicteren: alle dieren vaccineren zou een bepaalde uitbraak waarschijnlijk kunnen stoppen, maar deze maatregel kan bijvoorbeeld te duur bevon- den worden.

Maar hoe kunnen we voorspellen of een bepaalde maatregel wel het beoogde effect zal hebben? Bij het beantwoorden van deze vraag spelen zaken als ervaring natuurlijk een grote rol, maar ook de wiskunde - en in het bijzonder de kansrekening en statistiek - kan hier een bijdrage leveren. Wiskundigen kunnen proberen om de uitbraak van een

epidemie te modelleren, en kunnen ver- volgens proberen om aan de hand van dat model een voorspelling te doen over het verdere verloop van een epidemie. Als het model aangeeft dat de epidemie verder uit de hand zal lopen, dan moeten er mogelijk maatregelen getroffen worden. Het is zelfs mogelijk om met behulp van een wiskundig model na te gaan welke maatregelen het meest effectief zouden kunnen zijn. Natuurlijk is het modelleren van een gecompliceerd proces als een epidemie een hachelijke zaak, en iedereen die zich hier- mee bezighoudt zal erkennen dat een model de werkelijkheid maar zeer beperkt kan weergeven. De precisie die modellen in bij- voorbeeld de natuurkunde bereiken is hier zeker niet te verwachten, maar ondanks dat kan een verstandig model ons wel degelijk inzicht geven over de vraag wat een goede maatregel zou kunnen zijn.

De keuze van een model is niet eenvoudig. Om te beginnen kunnen we kiezen tussen een deterministisch of een stochastisch model. In een deterministisch model speelt toeval geen rol, terwijl dat in een stochas- tisch model wel zo is. Als vuistregel kun je denken aan een deterministisch model als de epidemie al een tijdje op streek is - het gaat dan over grote aantallen en de toeval- lige fluctuaties worden dan als het ware uit- gemiddeld - terwijl een stochastisch model meer op zijn plaats lijkt aan het begin van een epidemie. Maar ook als je het type model hebt bepaald zijn er vaak nog vele manieren om het model op te zetten. Dit noopt tot enige bescheidenheid, want het model is altijd gebaseerd op je eigen keuzes. In dit artikel wil ik een voorbeeld geven van een eenvoudig model waarin kansreke- ning en statistiek een voorname rol spelen. Kansrekening en statistiek omvatten zo veel meer dan vazen met ballen, en in de

praktijk is de toepassing ervan vaak een stuk weerbarstiger dan je misschien denkt. Ik wil ook laten zien hoe een toegepast probleem kan leiden tot interessante theoretische vragen - vragen waaraan we zonder deze toepassing nooit gedacht zouden hebben. Dit illustreert de interactie tussen theorie en praktijk die ik zelf als uitermate inspirerend ervaar. Het voorbeeld komt uit de recente wiskundige onderzoekspraktijk (zie [1]). Het model

Stel dat een besmettelijke ziekte ontstaat op een bepaald bedrijf; we noemen dat bedrijf dan besmet. Om het verloop van de ziekte te beschrijven kiezen we als tijdseenheid een week. In zo’n week kunnen twee dingen gebeuren. Het kan zijn dat de ziekte op het bedrijf ontdekt wordt; in dat geval wordt in dit model het bedrijf geruimd, en besmet het geen andere bedrijven. Als de ziekte op het bedrijf echter niet ontdekt wordt, dan zal het een aantal andere bedrijven in de omgeving besmetten. Om concreet te zijn stellen we dat de kans dat er in dat geval precies k bedrijven in een week besmet worden door het oorspronkelijke bedrijf, gelijk is aan:k k p e k λλ − = !

voor k = 0, 1, 2, … Dit is de zogenoemde Poisson-verdeling die in de kansrekening een voorname rol speelt. Deze verdeling is in dit model heel natuurlijk: als je eist dat het proces geen geheugen heeft (dat wil zeggen dat toekomstige ontwikkelingen alleen mogen afhangen van de huidige situatie), dan wordt deze verdeling je als het ware opgedrongen. Het bewijs hiervan geef ik niet, maar is niet eens zo moeilijk. De parameter

λ

kunnen we kiezen om ervoor te zorgen dat het model zo realistisch mogelijk wordt; daarover zo meer. Als het aantal besmette bedrijven op deze manier wordt gekozen, dan is het niet zo moeilijk

Euclid

E

s

83|4

216

om uit te rekenen dat er gemiddeld gespro- ken in een week λ bedrijven besmet worden door het oorspronkelijk besmette bedrijf. Dit gemiddelde wordt meestal de verwach- ting van de Poisson-verdeling genoemd. De kans dat het bedrijf ontdekt wordt in een bepaalde week stellen we op π. Als het bedrijf ontdekt wordt (hetgeen met kans π gebeurt), dan is de epidemie na een week dus afgelopen; als het bedrijf niet ontdekt wordt (en dit gebeurt met kans 1 – π), dan zijn er na een week met kans pk precies k + 1

besmette bedrijven: het oorspronkelijke bedrijf plus de k besmette bedrijven. Voor de tweede week doen we precies het- zelfde, maar nu voor elk van de bedrijven die na de eerste week (nog) besmet zijn. Elk van deze bedrijven besmetten op hun beurt dus weer een (toevallig) aantal bedrijven met dezelfde Poisson-kansverdeling als eerst, mits ze niet ontdekt worden. En voor elk bedrijf geldt dat de kans op ontdek- king gelijk is aan π. Dit proces herhaalt zich week na week, totdat er geen besmette bedrijven meer zijn, en de epidemie over is. Voordat we er wiskundig naar gaan kijken, wil ik opmerken dat dit model niet realis- tisch is als de epidemie te groot wordt. In dat geval zullen er namelijk gewoon niet genoeg bedrijven zijn die besmet kunnen worden door locale geografische uitput- ting. Echter, voor niet al te grote epide- mieën is dit misschien helemaal geen gekke beschrijving.

Het model dat ik zojuist heb geschetst heeft twee onbekenden, namelijk λ en π. Gemiddeld gesproken zal een bepaald bedrijf verantwoordelijk zijn voor R = (1 – π)(λ + 1)

besmette bedrijven in de daarop volgende week. Immers, allereerst moet het bedrijf niet ontdekt worden, hetgeen met kans 1 –

π gebeurt, en vervolgens besmet het gemid- deld λ andere bedrijven, en de extra 1 is het bedrijf zelf dat immers de volgende week ook nog gewoon besmet is.

Welnu, het is bekend - en niet zo moeilijk te bewijzen - dat voor R < 1 de epidemie zeker uitsterft. Met andere woorden, om er voor te zorgen dat de ziekte zich niet blijft uitbreiden, is het zaak ervoor te zorgen dat (1 – π)(λ + 1) < 1. Dit is echter een stuk lastiger dan het op het eerste gezicht lijkt, want hoe bepalen we hoe groot λ en π eigenlijk zijn? De grootste moeilijkheid hier is dat we niet de hele epidemie kunnen observeren. Immers, we observeren (natuur- lijk) alleen maar bedrijven waarbij de ziekte ontdekt is, en die vervolgens geruimd worden. Natuurlijk geeft dit aantal een indicatie voor het werkelijke (onbekende) aantal besmette bedrijven, en de wiskundige kunst is nu om op basis van de observaties die we doen, een schatting te maken van R zodat we kunnen nagaan of de getroffen maatregelen voldoende zijn om R kleiner dan 1 te maken.

Dit is nu een mooi voorbeeld van een theoretische vraag, die naar voren kwam door een werkelijk praktisch probleem. Het proces dat we beschouwen, heet ook wel een vertakkingsproces, en de vraag waarnaar we nu kijken is, wat we kunnen zeggen over het (toevallige) aantal nakomelingen van een bepaald ‘individu’ (in ons geval is een individu een bedrijf) als we iets weten over alleen die individuen die geen nakomelingen hebben. Zonder praktijkmo- tivatie zouden we dit zeker niet bestudeerd hebben, terwijl de theorie mooi blijkt te zijn. In de rest van dit artikel wil ik een impressie geven van wat je er wiskundig zoal over kunt zeggen.

Het schatten van R

Laten we het aantal besmette bedrijven na n weken aangeven met Xn, en het aantal

dat hiervan ontdekt wordt in de komende (n+1)-ste week met Zn. Het is belangrijk

je te realiseren dat we de Xn ’s niet kunnen

waarnemen, maar de Zn ’s wel. Wanneer

we dus Z0, Z1, Z2, …, Zn hebben waarge-

nomen, is de vraag wat we op basis van die informatie over R kunnen zeggen. Hiervoor hebben we om te beginnen de volgende stelling. Stelling 1. De getallen 1 n n n Z A Z− = (1) zijn goede schattingen voor R in de zin dat als het proces niet uitsterft, we zeker weten dat de rij An naar R convergeert.

Hoewel het bewijs van deze stelling nog niet eens zo simpel is, is het niet zo moeilijk om in te zien waarom hij wel waar zal zijn. Dit gaat als volgt. Stel dat Zn – 1 gelijk is aan

z. Dan zal Xn – 1 ongeveer gelijk zijn aan πz

immers, Zn – 1 is ongeveer een fractie π van

Xn – 1. Omdat elk besmet bedrijf gemiddeld

voor R besmette bedrijven zorgt in de vol- gende week, zal Xn ongeveer gelijk zijn aan

zR

π , en hiervan wordt een fractie π ontdekt,

hetgeen leidt tot Zn= × =zRπ π zR. Hieruit

concluderen we dat 1 n n Z Z− wel in de buurt

van R zal liggen.

Op het eerste gezicht lijkt het probleem hiermee opgelost, maar kunnen we niets beters doen? Hiertoe is het belangrijk op te merken dat bij de berekening van An alleen

maar informatie van de weken n – 1 en n gebruikt wordt! De rest van de beschik- bare informatie wordt genegeerd, en dat betekent dat we - door die extra informatie verstandig te gebruiken - wellicht een betere schatting voor R kunnen doen.

In de volgende stelling wordt wel alle infor-

Euclid

E

s

83|4

217

matie gebruikt. Stelling 2. De getallen 1 1 0 n i i n n j j Z B Z = − = =

(2)

zijn goede schattingen voor R in de zin dat als het proces niet uitsterft, we zeker weten dat Bn

naar R convergeert.

Hoewel het niet direct in de stellingen tot uitdrukking komt, is de rij Bn echt beter

dan de rij An in de zin dat de convergentie

sneller is, maar daar ga ik hier niet verder op in. De reden waarom Stelling 2 waar is, is eigenlijk dezelfde als voor Stelling 1; het formele bewijs is lastiger omdat de uitdruk- king wat ingewikkelder is.

Het schatten van π en λ afzonderlijk

Het kan belangrijk (of alleen maar interes- sant) zijn om niet alleen informatie over R te hebben, maar ook over

π

en

λ

zelf. Als we ook de Xj ’s zouden kunnen waarnemen,

dan zou het veel gemakkelijker zijn, van- wege het volgende resultaat.

Stelling 3. De getallen 0 0 n i i n n j j Z C X = = =

(3)

zijn goede schattingen voor

π

in de zin dat als het proces niet uitsterft, we zeker weten dat Cn

naar

π

convergeert.

Ook dit resultaat is vrij makkelijk te begrij- pen: immers, de teller is het aantal ontdek- kingen en de noemer het totale aantal bedrijven dat ontdekt had kunnen worden. Helaas is de stelling niet bruikbaar in de praktijk, omdat we de Xj ’s niet kunnen

waarnemen.

Het blijkt echter dat we toch nog iets meer kunnen doen dan dit. Hiertoe moeten we ons echter wel in wat bochten wringen, en dat resulteert in de volgende stelling. Ik ben me er van bewust dat het onmogelijk duide- lijk kan zijn waarom de stelling waar is.

Stelling 4. De getallen 2 1 0 1 ( 1) 1 n i n i i n i Z D Z B n = Z +   = + +  

(4)

zijn goede schattingen voor

2 2

(1 ) (1 ) (1 )( 1)

γ = −π λ+ −π + −π λ+ (5)

in de zin dat als het proces niet uitsterft, we zeker weten dat Dn naar γ convergeert. [a]

Ik kan in dit artikel niet echt uitleggen waarom deze stelling waar is. De formules lijken een beetje uit de lucht te vallen, maar de γ in (5) blijkt toch een mooie interpre- tatie te hebben als een bepaalde spreidings- maat. De liefhebbers verwijs ik naar [1]. Wat hebben we nu bereikt? Welnu, wanneer we Z1, …, Zn observeren, dan kunnen we

met behulp van (2), (4) en (5) twee vergelij- kingen met twee onbekenden λ en π opstel-

len, en met een beetje geluk kunnen we dan λ en π bepalen. Immers, als we Z1, …, Zn

kennen, dan kennen we ook Bn en Dn en

dan hebben we het stelsel vergelijkingen:

2 2 (1 )( 1) (1 ) (1 ) (1 )( 1) n n B D π λ π λ π π λ = − + = − + − + − +

Dit alles lijkt allemaal vrij voorspoedig te verlopen, maar er zit toch nog een verve- lend addertje onder het gras. Weliswaar zijn bovengenoemde stellingen allemaal juist, maar de convergentie in Stelling 4 blijkt in de praktijk bijzonder langzaam te gaan. Hierdoor kan het gebeuren dat het boven- genoemde stelsel helemaal geen oplossing heeft, of bijvoorbeeld geen oplossing voor π tussen 0 en 1; dat is ons meerdere malen overkomen. Dit betekent zeker niet dat al deze moeite zonde van de tijd is. Wat we er (ook) van leren, is dat de beschikbare gegevens soms principieel te weinig informa- tie bevatten om een betrouwbare schatting te geven van de onbekende parameters. Dit weerspiegelt de spanning tussen realiteit en theorie: zelfs als het in theorie prachtig werkt (zoals hier), dan nog is het niet altijd zeker dat we het in de praktijk ook kunnen gebruiken.

In de volgende paragraaf geven we een toepassing waarbij we ons beperken tot het schatten van R en γ. De liefhebber kan pro- beren om hieruit een schatting voor π en λ te destilleren.

Toepassing: de varkenspestepidemie van 1997

In deze paragraaf bestuderen we de al eerder genoemde varkenspestepidemie van 1997 in Nederland. Omdat gedurende verschillende periodes van die epidemie verschillende maatregelen van kracht waren, leek het ons verstandig om voor elk van die periodes een aparte schatting van R en van γ te maken. In de tabel valt te zien dat we vier periodes hebben onderscheiden, die respectievelijk 10, 8, 9 en 30 weken duurden; gedurende elk van die periodes veranderden de geno- men maatregelen niet. Verder zien we dat in de eerste periode 101 bedrijven geruimd werden, 160 in de tweede, 107 in de derde en 51 in de laatste periode. In de laatste twee kolommen vinden we de schattin- gen van R en γ via bovenstaande theorie. (Indien gewenst kun je proberen om hieruit een schatting voor π en voor λ te destille- ren. Lukt dat in alle gevallen?)

Het is aardig om op te merken dat in de

eerste twee periodes geldt dat R > 1, terwijl de strengere maatregelen in periodes 3 en 4 er voor zorgden dat R onder de 1 terecht kwam; dit was nodig om de epidemie tot staan te brengen.

In principe zijn dit soort berekeningen mogelijk tijdens het verloop van de epide- mie, en dus niet alleen na afloop. Aan de hand van de ontdekte besmette bedrijven kunnen we de schatting van R bepalen, en zien of deze kleiner is dan 1. Natuurlijk moet het model ook gevalideerd worden; er moet gekeken worden of bijvoorbeeld de epidemie inderdaad uitsterft als de schatting voor R kleiner is dan 1. Of het model dan bij een volgende gelegenheid ook weer bruikbaar is, is altijd maar weer de vraag. Wat dat betreft denk ik dat model- len als deze wel een rol kunnen spelen bij de besluitvorming, maar beleid kan en mag zeker niet alleen afhangen van wat wiskundigen er over zeggen; daarvoor zijn de modellen simpelweg niet nauwkeurig genoeg. De modellen en de berekeningen kunnen wel een bijdrage leveren wanneer het erom gaat te begrijpen welke maatregel wellicht het meest effectief is. En naast deze (enigszins bescheiden) praktische motivatie [b],

levert het denken over dit soort problemen ook gewoon mooie wiskunde op.

Noten

Strikt gesproken is dit niet exact [a]

wat we bewijzen, maar het verschil met wat hier staat, is puur tech- nisch en voor dit verhaal niet van belang.

(Red.) Zie ook het centraal examen [b]

VWO Wiskunde A1 2006 (2e tijd- vak), Varkenspest.

literatuur

R. Meester, P. Trapman (2006): [1]

Estimation in branching proces- ses with restricted observations. In: Advances of Applied Probability, pp. 1098-1115.

Over de auteur

Ronald Meester is hoogleraar waarschijn- lijkheidsrekening aan de Vrije Universiteit in Amsterdam.

E-mailadres: rmeester@few.vu.nl periode aantal weken aantal geruimde bedrijven R γ

1 10 101 1,15 1,03 2 8 160 1,04 1,87 3 9 107 0,857 0,813 4 30 51 0,880 0,859

Euclid

E

s

83|4

218

statistische proces-