• No results found

Cover Page. The handle holds various files of this Leiden University dissertation.

N/A
N/A
Protected

Academic year: 2022

Share "Cover Page. The handle holds various files of this Leiden University dissertation."

Copied!
5
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Cover Page

The handle http://hdl.handle.net/1887/22619 holds various files of this Leiden University dissertation.

Author: Iterson, Maarten van

Title: The power of high-dimensional data in genomics research

Issue Date: 2013-11-28

(2)

Samenvatting

Biologische achtergrond1

In de laatste decennia zijn nieuwe technologie¨en ontwikkeld die het DNA- onderzoek (genomics-research) in een stroomversnelling hebben gebracht. Ge- nomics is de term voor grootschalig onderzoek naar erfelijkheid en de genen.

De term “genomics” is afgeleid van het woord “genoom”, het totaal van genen in een organisme.

De hoeveelheid data die deze nieuwe technologie¨en produceren is immens.

Deze technologie¨en hebben nu al een ongekend grote bijdrage geleverd aan de kennis van hoe ziektes ontstaan door veranderingen (mutaties) in genen.

Een gen bevat de DNA code voor ´e´en of meerdere specifieke eiwitten. Deze eiwitten kunnen een erfelijke eigenschap tot uiting brengen, zoals bloedgroep of oogkleur. In het DNA treden voortdurend veranderingen op. Een stuk coderend DNA kan hierdoor beschadigd worden. Het betreffende gen werkt dan niet goed meer. Mutaties in genen kunnen daarom de oorzaak zijn van afwijkingen en ziekten, maar meestal zijn de verandering onschuldig of worden ze ongedaan gemaakt door het lichaam zelf.

E´en van die nieuwe technologie¨en is de “microarray” technologie. Een micro- array is een microscopisch klein rechthoekig plaatje met daarop kleine stipjes met DNA in een matrixpatroon (array). Ieder stipje op de microarray bevat een stukje van het DNA van ´e´en specifiek gen van b.v. de mens. Alle stipjes samen vertegenwoordigen het complete genoom van de mens, of een deel ervan.

Met een microarray kun je meten welke genen in een bepaald weefsel actief zijn en welke niet. Omdat een groot deel van alle genen uit een genoom op een microarray staan, kun je met ´e´en experiment de activiteit van tienduizenden genen tegelijk meten. Door activiteiten van de genen van gezonde personen te vergelijken met die van zieke personen kunnen genen met afwijkende activiteit

1Dit stuk is gebaseerd op: “Erfelijk Wat is dat? Over erfelijkheid bij de mens en over erfe- lijkheidsadvies”, deze brochure is een uitgave van de Nederlandse Anthropogenetische Vereni- ging en de Vereniging Klinische Genetica Nederland (www.nvhg-nav.nl) en het boekje “DNA etcetera AllesoverDNA” dat een greep uit (bewerkte) artikelen van www.allesoverDNA.nl bevat.

(3)

HOOFDSTUK 10. SAMENVATTING

opgespoord worden. Deze afwijkende activiteit kan mogelijk de ziekte veroor- zaken of daaraan bijdragen. Als bekend is welke genen de ziekte veroorzaken, kan het ontwikkelen van een medicijn tegen die ziekte enorm bevorderd worden.

Dit proefschrift beschrijft nieuwe statistische methoden die optimale infor- matie uit de immense hoeveelheid data kunnen halen, om zo beter genen met afwijkende activiteiten op te kunnen sporen.

Statistische achtergrond

Statistische methoden zijn nodig voor het opsporen van genen met een afwij- kende activiteit. Dit gaat als volgt: voor elk gen worden twee hypotheses ge- formuleerd, namelijk de zogenaamde nulhypothese: “gen heeft geen afwijkende activiteit” en de alternatieve hypothese: “gen heeft afwijkende activiteit”. Met behulp van een toetsingsgrootheid en zijn verdeling kan de waarschijnlijkheid van de nulhypothese getoetst worden. Een toetsingsgrootheid is een enkel getal dat vaak samengesteld is uit een of meerdere gemiddelde en standaarddevia- ties. Een toetsingsgrootheid heeft een verdeling die aangeeft wat de meest waarschijnlijke waarde van deze grootheid is. De meest bekende verdeling is de normaal verdeling of Gauss-kromme. Een hiervan afgeleide verdeling is de Student’s t-kromme, deze verdeling wordt vaak gebruikt als de metingen twee groepen betreft.

Afhankelijk van de uitkomst van de toets kan de nulhypothese wel of niet verworpen worden. Als de nulhypothese wordt verworpen dan wordt de al- ternatieve hypothese aanvaard. Er bestaat altijd een zeker risico om een ge- formuleerde nulhypothese ten onrechte te verwerpen. Dit wordt ook wel de onbetrouwbaarheid van de toets genoemd, of de kans op een vals positief resul- taat, deze wordt vaak met α aangeduid. Voordat de toets uitgevoerd wordt, wordt bepaald welke onbetrouwbaarheid toelaatbaar is. Wordt bijvoorbeeld α = 5% gekozen dan is het voor 1 op de 20 toetsen (5% =5/100=1/20) toelaat- baar geacht om deze ten onrechte te verwerpen (in het geval dat voor alle 20 toetsen de nulhypothese waar is). Soms worden er meer stringentere criteria gebruikt zoals α = 1% of α = 0, 1%. Dit heeft echter tot gevolg dat het ook moeilijker wordt om genen met echt afwijkende activiteit (echt positief) op te sporen. Een toets die goed echt positief van vals positief kan onderscheiden wordt krachtig, of een toets met grote power genoemd.

Er zijn verschillende factoren die de power van een toets bepalen. Als de activiteit van een gen van gezonde personen erg verschilt met de activiteit van zieke personen is het makkelijker deze op te sporen, en heeft de toets dus een grotere power dan als dit verschil klein is. Ook heeft het verschil van activi- teit binnen de groep gezonde en binnen de groep zieke personen invloed op de power. Als de activiteit binnen een groep niet veel verschilt, zal dit de power positief be¨ınvloeden. Dit wordt ook bereikt door de grootte van de groepen, ook wel steekproefgrootte, uit te breiden.

(4)

probleem voor dat als in 1 op de 20 toetsen de nulhypothese ten onrechte wordt verworpen met tienduizenden toetsen er zo’n 500 (10.000×1/20= 500) ten on- rechte verworpen kunnen worden. Dit heeft tot gevolg dat het erg moeilijk wordt de genen met echt afwijkende activiteit (echt positief) te onderscheiden van de ten onrechte verworpen nulhypotheses (vals positief). Dit probleem wordt het “meerdere toetsenprobleem” genoemd. Verschillende correctiepro- cedures zijn bedacht met ieder zijn specifieke voor- of nadelen. De correc- tieprocedure die het meest toegepast wordt bij microarray data analyse is de

“False Discovery Rate” of FDR correctieprocedure. Deze procedure is ontwik- keld door Benjamini en Hochberg, eind jaren negentig van de vorige eeuw. De FDR correctieprocedure is er specifiek op gericht om echt positieve hypotheses te vinden ten koste van een controleerbaar aantal vals positieve hypotheses. Na het toetsen van de tienduizenden genen en het toepassen van de FDR correc- tieprocedure, is de lijst van tienduizenden genen gereduceerd tot de genen die hoogstwaarschijnlijk afwijkende activiteit vertonen. Een klein percentage zal nog steeds vals positief zijn.

Het is dus toch nog lastig, ook al past men de FDR correctieprocedure toe, om de echt afwijkende genen te vinden. In dit proefschrift worden verschillende methoden beschreven die dit proberen eenvoudiger te maken, of die aangeven onder welke condities de beste resultaten verwacht kunnen worden. Hoofd- stuk 2 dient als een inleiding in de gebruikte terminologie in het proefschrift.

Ook wordt hier aangegeven welke termen vaak door elkaar gebruikt worden.

In het vakgebied Bioinformatica werken onderzoekers met verschillende achter- gronden zoals biologen en informatici. Dit kan misverstanden in de gebruikte terminologie¨en met zich meebrengen. In dit hoofdstuk brengen wij hier duide- lijkheid in.

Het opsporen van echt afwijkende genen tussen zieke en gezonde personen is makkelijker als de groep zieke en gezonde personen groot is. Maar hoe groot is groot genoeg? De statistische methode die hier antwoord op kan geven is een “power en steekproefgrootte analyse”. In de hoofdstukken 3 en 4 laten we zien hoe optimale steekproefgrootte bepaald kan worden op basis van een pilotstudie. Dit wil zeggen dat het experiment zoals gepland eerst kleinschalig wordt uitgevoerd, met bijv. 5 zieke en 5 gezonde personen. Op basis hiervan kan dan bepaald worden dat een steekproefgrootte van bijv. 25 zieke en 25 gezonde personen optimaal is om genen met afwijkende activiteit op te sporen.

Een veel toegepaste methode om het aantal valse positieve genen te redu- ceren is d.m.v. filteren. Door naar bepaalde meetbare eigenschappen van de genen te kijken, b.v. hoe hoog of hoe laag de activiteit is, en dan genen met een lage activiteit er alvast uit te halen voordat er getoetst wordt, hoopt men het aantal vals positieve genen verder terug te dringen. In hoofdstuk 5 laten wij zien aan welke voorwaarde zo’n filter moet voldoen, en dat niet alle filters

(5)

HOOFDSTUK 10. SAMENVATTING

die momenteel gebruikt worden het gewenste effect opleveren. Deze filters kun- nen dus maar beter niet gebruikt worden. Ook hebben wij een test ontwikkeld waarmee bepaald kan worden of een filter aan de juiste voorwaarde voldoet.

Voordat het hypothese toetsen plaatsvindt, vinden er eerst data prepro- cessing stappen plaats. Deze stappen zorgen ervoor dat de data opgeschoond wordt door het verwijderen van technische effecten. Voor speciaal opgezette ex- perimenten zijn erg specifieke preprocessing stappen nodig, omdat bij gebruik van standaard methoden na hypothese toetsen volledig onzinnige resultaten verkregen kunnen worden. In hoofdstuk 6 hebben wij zelf een methode ont- wikkeld die beter de data opschoont dan de tot nu toe bekende methoden.

Wij hebben aangetoond dat met behulp van deze aangepaste het ongewenste technische effect verwijderd wordt, en het biologische effect behouden blijft.

In hoofdstuk 7 laten wij zien dat computervoorspellingen die aangevuld zijn met verschillende experimentele data veel betere resultaten opleveren dan wanneer alleen de computer voorspellingen gebruikt worden. Het is juist die combinatie doe zo werkzaam is, want alleen met de experimentele data zonder de computervoorspellingen waren we ook niet ver gekomen. In de toekomst zullen dit soort ge¨ıntegreerde benaderingen waarschijnlijk veel toegepast gaan worden.

Referenties

GERELATEERDE DOCUMENTEN

De KNGF-richtlijn Artrose Heup en Knie bevat ook aanbevelingen over de behande- ling van patiënten die een gewrichtsvervangende operatie ondergaan (zie hoofdstuk 2). Hoofdstuk

In hoofdstuk 5 wordt een fase I studie gepresenteerd, waarin het effect van een experimenteel opioïd van Mundipharma Research Ltd (Cambridge, UK), te weten

Dit onderzoek laat zien dat opvattingen over sensitieve opvoeding in de vroege kindertijd gedeeld worden in verschillende culturen en dat sprake is van een cognitieve match

Collega-promovendi op kamer 45 en 46, dank voor eerste hulp bij promoveer- ongelukken, voor het kunnen delen van promotie perikelen en voor veel gezelligheid, en alle andere

Na het bepalen van de optimale grootte van PLGA-deeltjes voor eiwitvaccins, beschrijven we in Hoofdstuk 4 de toepassing van deze PLGA-NDs als afgiftesysteem voor het beladen van

In het verleden zijn artikelen gepubliceerd voor andere eiwitten waarin target engagement wordt aangetoond met ‘two-step photoaffinity-based protein profiling’ (pA f BPP),

De resultaten lieten zien dat bij de patiënten met het Val 66 Val genotype van het BDNF Val 66 Met polymorphism nicotine-afhankelijke rokers ernstigere symptomen van

  De  belangrijkste  empirische  consequentie  vloeit  voort  uit  het  feit  dat  electorale  volatiliteit  endogene  oorzaken  kan  hebben.  Deze  waarneming