• No results found

Hiervan zijn circa 2.000 genen geconserveerd en die vormen het zogenaamde kerngenoom. De andere 3.000 genen variëren sterk per betreffende bacteriestam, maar zijn wel heel erg belangrijk omdat sommige E. coli-stammen beruchte ziek- teverwekkers zijn, zoals EHEC of E. coli O157:H7, terwijl anderen geen enkel kwaad doen.

Totaal microbioomanalyse

Een andere methode is shotgun sequencing, waar- bij de DNA-sequenties van al het geëxtraheerde DNA uit een monster, dus zowel van de bacteriën, schimmels, virussen als de gastheer, in een keer worden bepaald. Om een idee te krijgen van de complexe microbiële diversiteit van een monster moeten er veel DNA-fragmenten worden afgele- zen. Bijvoorbeeld met de Illumina sequencing- methode worden er dan typisch 20 – 200 miljoen fragmenten van 100 – 250 basenparen bepaald. Het

voordeel van deze aanpak is dat het zowel informa- tie oplevert over welke micro-organismen er in het monster zitten als over hun gemeenschappelijke genetische repertoire aan moleculaire functies. Die functies worden voorspeld door de sequentie van het metagenoom te vergelijken met databanken waar genen met bekende functies in zijn opgesla- gen, zodat je de functies die gecodeerd zijn in het metagenoom kan voorspellen. Zo kan je bijvoor- beeld een beeld krijgen van het collectieve meta- bole potentieel van het microbioom. Meer over DNA-sequencing kun je lezen in ons cahier ‘Genen en gezondheid’.

Door de grote hoeveelheid afgelezen DNA- sequenties (reads) vergt dataverwerking van shotgun sequencing veel rekentijd en is zeer bewerkelijk. Assemblageprogramma’s voegen gedeeltelijk overlappende reads eerst samen tot grotere DNA-fragmenten (contigs). Hoe meer reads er van een bepaalde DNA-regio zijn, hoe beter dat gaat. Van grotere DNA-fragmenten is het daarna makkelijker een precieze match te vinden in de databank. Bacteriële genen zijn gemiddeld 1000 baseparen lang. Hoe langer de afgelezen of geas- sembleerde DNA-sequentie (reads en contigs) is, hoe groter de kans dat een gen in zijn geheel erop gecodeerd ligt en hoe beter de functie van dat gen kan worden voorspeld.

Bacteriën die veel voorkomen in het monster springen er snel uit. Om ook de bacteriën die in lage hoeveelheden voor komen te vinden, kan er iteratief worden geassembleerd. De meest voor- komende en geassembleerde DNA-sequenties worden weggehaald, zodat DNA-fragmenten van minder frequent voorkomende bacteriesoorten te voorschijn komen. De fractie reads die niet (iteratief) geassembleerd worden moet apart bekeken worden en vergeleken met een databank. Het is verstandig om shotgun metagenomics te doen wanneer een biologische vraag niet op te lossen is met 16S RNA of soortspecifieke marker-

De darm-

bacterie

Escherichia

coli heeft

een enorm

divers

genoom

sequencing. Bijvoorbeeld als je wilt weten welke antibioticaresistentie in het microbioom van een patiënt aanwezig is, om daar de behandeling op af te stemmen.

Knelpunten bij het ontrafelen van data

Al bij het bepalen van de sequenties kunnen er fouten in de analyse sluipen omdat de machines waarmee de DNA-sequenties worden bepaald niet foutloos zijn. Afhankelijk van de techniek kan de frequentie van sequentiefouten variëren van 0.1% foute (Illumina) tot ongeveer 20% foute basenparen (single-molecule-sequencing). Speciale softwarepakketten kunnen deze fouten deels weer verwijderen.

Wat betreft de bioinformatica valt of staat het eindresultaat bij de kwaliteit van de databank.

Een databank kan te specifiek of te generiek zijn. Vergelijk je DNA-sequenties van darmbacteriën met een databank van waterorganismen dan zal je weinig overeenkomsten (hits of matches) vinden. Vergelijk je het met een generieke genendatabank, dan zullen veel DNA-sequenties wel een match vinden, maar de gevonden moleculaire functie kan dan minder precies worden bepaald. Je kan dan bijvoorbeeld voorspellen dat het gen codeert voor een enzym dat suikermoleculen op een eiwit zet, maar je weet dan nog niet welke suikermoleculen of op welk eiwit.

Belangrijke databanken zijn de nt (non-redun- dant nucleotide) en de nr (non-redundant protein) databanken die worden bijgehouden door het Amerikaanse National Center for Biotechnology Information (NCBI). Daarnaast zijn er specifieke databanken van het humane microbioom van diverse plekken op het menselijk lichaam (het Amerikaanse HMP project) en het Europese Meta- Hit-project met darmmicrobiomen (Metageno- mics of the Human Intestinal Tract). Bijvoorbeeld de MetaHit-databank is gebaseerd op microbio- men van honderden personen van voornamelijk Europese afkomst. Leg je daar de sequenties van het darmmicrobioom van bijvoorbeeld een Afri- kaan naast, die een heel ander dieet heeft, dan kan het tot heel weinig overeenkomsten leiden. De beste oplossing is de DNA-sequenties verkregen met shotgun metagenomics te vergelijken met meerdere databanken. Het aan elkaar knopen van die informatie is vervolgens wel weer een enorme klus, want hoe weeg je voor een DNA-sequentie de matches gevonden in verschillende databanken? 16S RNA-gensequencing is uitontwikkeld en bin- nen enkele weken te analyseren en te interprete- ren met de beschikbare softwareprogramma’s. Veel werk wordt nu gedaan aan shotgun metagenomics, waarvan men hoopt dat het alle biologische vraag- stukken gaat oplossen. Echter, voor uitgebreide analyse van een groot aantal mensen is het te duur DNA sequentie-analyse.

en is de analyse van de gegevens nog geen haalbare kaart qua rekentijd en benodigde mankracht. Een groot struikelblok in de dataverwerking is het assembleren van alle DNA-sequenties en het pre- cies bepalen van de moleculaire functie. Shotgun metagenomics wordt veel lucratiever wanneer de sequencingtechnieken langere en betrouwbare

DNA-sequenties zouden opleveren. Maar dat is voorlopig een toekomstdroom van de bioinforma- ticus.

Standaardisatie: orde in de janboel