• No results found

Bio-informatica:Hoe algoritmen tot levenbrengen? Bart De Moor

N/A
N/A
Protected

Academic year: 2021

Share "Bio-informatica:Hoe algoritmen tot levenbrengen? Bart De Moor"

Copied!
1
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Bio-informatica:Hoe algoritmen tot leven brengen?

Bart De Moor

ESAT-SCD Katholieke Universiteit Leuven

Kasteelpark Arenberg 10 B-3001 Leuven Belgium

T: +32-(0)16321709 M: +32-(0)475 28 70 52 F: +32-(0)16321970 E: bart.demoor@esat.kuleuven.ac.be

W-persoonlijk: http://www.esat.kuleuven.ac.be/~demoor

W-KUL-nederlands: http://www.kuleuven.ac.be/cv/u0008904.htm W-KUL-engels: http://www.kuleuven.ac.be/cv/u0008904e.htm Korte samenvatting:

De tweede helft van de 20ste eeuw werd gekenmerkt door grote wetenschappelijke doorbraken op het gebied van informatietechnologie (computers, software en databanken, het internet, numerieke algoritmen) en biologie (de structuur van DNA en de ontrafeling van het menselijk genoom). In de 21ste eeuw leiden al deze ingrediënten tot nieuwe multi-disciplinaire onderzoeksdomeinen, zoals bio- informatica, proteomics en systeembiologie. Bio(techno)logie is geëvolueerd tot een informatieverwerkende wetenschap, waarbij computers, het internet en wiskundige algoritmen een essentiële rol spelen.

Belangrijkste bio-bibliografische gegevens:

Bart De Moor studeerde aan het Sint-Jan-Berchmanscollege in Brussel en het departement Elektrotechniek van de K.U.Leuven, waar hij in 1988 doctoreerde. Na een verblijf aan de Stanford Universiteit (KUL) werd hij Gewoon Hoogleraar aan de K.U.Leuven. Zijn onderzoek situeert zich op het gebied van systeemtheorie en regeltechniek, numerieke lineaire algebra en bioinformatica en werd bekroond met verschillende wetenschappelijke prijzen. Het resulteerde ook in 3 spin-off bedrijven.

Van 1991 tot 1999 was hij kabinetsadviseur en –chef Wetenschaps- en Technologiebeleid van verschillende federale en Vlaamse ministers. Op http://www.esat.kuleuven.ac.be/~sistawww/cgi-bin/pub.pl kan men een exhaustieve publikatielijst vinden. Op http://www.esat.kuleuven.ac.be/~demoor vindt men een uitgebreid CV.

Dankbetuiging

Deze les is mede tot stand gekomen door de inzet van onze ‘postdocs’ (Dr. Ir. Stein Aerts, Dr. Ir. Dr.med. Frank De Smet, Dr. Patrick Glenisson, Dr. Ir. Kathleen Marchal, Dr. Ir. Janick Mathys, Dr. Ir. Yves Moreau, Dr. Ir. Gert Thijs), onze doctorandi (Joke Allemeersch, Bert Coessens, Steffen Durinck, Kristof Engelen, Olivier Gevaert, Karen Lemmens, Pieter Monsieurs, Nathalie Pochet, Qizheng Sheng, Wouter Van Delm, Tim Van den Bulcke, Raf Van de Plas, Ruth Van Hellemont, Tom Van Herpe, Peter Van Loo, Steven Van Vooren) en de verschillende medewerkers en collegae van onze onderzoeksgroep ESAT-SCD. Hen wens ik allen van harte te bedanken !

(2)

1. Inleiding

In een beroemd artikel van slechts één pagina, dat verscheen in het bekende tijdschrift Nature in 1953 [Watson, 1953], beschreven Francis Crick en James Watson voor het eerste de chemische structuur van het DNA1. Sinds die ontdekking is het wetenschappelijk onderzoek in de moleculaire biologie en biotechnologie werkelijk geëxplodeerd. We weten steeds meer over de genetische en biochemische processen die zich in de cel afspelen. Verwacht wordt dat de impact van toepassingen op mens, dier en plant enorm zal zijn.

Een gelijkaardige exponentiële evolutie van toepassingen maken we heden ten dage mee in de informatietechnologie. Deze is gegroeid uit het fundamenteel onderzoek van de eerste helft van de 20ste eeuw. Wat we vandaag hardware noemen, is ontstaan uit de electro-magnetische wetten van Maxwell (electriciteit en draadloze transmissies). Het onderzoek in de quantummechanica door Einstein, Bohr, Schrödinger, Heisenberg en vele anderen heeft uiteindelijk geleid tot de eerste transistor in 1948. Wat we omschrijven als software is gebaseerd op de vele wiskundige ontdekkingen en ontwikkelingen tussen 1850 en 1950, de formulering van de informatietheorie door Shannon en het onderzoek in de computerwetenschappen sinds de jaren 50. ‘Software’ omvat numerieke algoritmes, databases, transmissieprotocols, computertalen enz... De spectaculaire groei van de informatietechnologie wordt soms gekarakteriseerd door de Wet Van Moore2, waarvan de manifestaties zeer goed te zien zijn in ons dagelijkse leven: Denken we maar aan computers en lap tops, DVD spelers, mobiele telefoons en iPODs, het internet en het WereldWijde Web. Het zijn stuk voor stuk technologieën en realisaties die tien jaar geleden nog niet bestonden.

Deze bijdrage gaat echter niet alleen maar over moleculaire biologie of enkel over informatietechnologie, maar wel over de synergie tussen deze op het eerste gezicht totaal verschillende wetenschappen. Deze symbiose wordt de bio-informatica genoemd. De manier waarop vandaag moleculair biologisch onderzoek wordt verricht, is door de informatietechnologie ingrijpend veranderd. ‘Biology has become an information science’, zegt Leroy Hood van het Institute for Systems Biology in Seattle (zie http://www.systemsbiology.org/).

In wat volgt zullen we de belangrijkste ingrediënten van de bioinformatica toelichten, zonder exhaustiviteit na te streven.

2. Wat is bio-informatica ?

Bioinformatica ontstaat op de samenvloeiing van twee wetenschapsdomeinen, namelijk dat van de informatietechnologie en dat van de moderne biologie. Vooraleer we ons buigen over enkele illustratieve voorbeelden van toepassingen in de bioinformatica, is het nodig om dieper in te gaan op de verschillende doorbraken in de biologie, de technologie en de wiskunde.

(3)

2.1. Doorbraken in de biologie

It has not escaped our notice that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.

Laatste zin uit het Crick & Watson artikel in Nature, 1953

Van alle wetenschappen is de biologie misschien wel deze die het vlugst is geëvolueerd gedurende de afgelopen vijftig jaar. In deze discipline zijn er dan ook geweldig veel wetenschappelijke ontdekkingen gedaan, teveel om hier op te noemen, met elk een diepe impact op onze kennis over virussen, bacteriën, planten, dieren en mensen. Van het hiernavolgend bondig overzicht maken we ook gebruik om de lezer in het kort vertrouwd te maken met de vereiste biologische basiskennis3.

2.1.1. DNA en genomen

Het menselijk lichaam bestaan uit ettelijke miljarden cellen. In de kern van elke cel vinden we de chromosomen. Deze chromosomen kunnen beschouwd worden als hoofdstukken van een boek, dat geschreven is in het alfabet van het DNA. DNA4 staat voor ‘DeoxyriboNucleic Acid’. Elk DNA molecule is een lineaire aaneenrijging van vier genetische basiscomponenten (nucleotide basen, ook gewoon nucleotides genoemd), die aangeduid worden met de letters A (Adenine), C (Cytosine), T (Thymine) en G (Guanine). Wat Watson en Crick beschreven in hun artikel in Nature van 1953, was de moleculair geometrische structuur van een DNA molecule – de befaamde dubbele helix. Deze ziet er uit als een wenteltrap, waarbij de treden bestaan uit paren van A-T en G-C moleculen. De dubbele spiraal waartussen deze treden gevormd wordt, bestaat uit twee ketens van fosfaat-deoxyribose suiker polymeren.

Het geheel noemt men dan ‘dubbelstrengig DNA’. Het feit dat A hier altijd samen voorkomt met een T, en een G altijd met een C, noemt men de complementariteit van het DNA. Deze complementariteit is het fundamentele principe waarmee DNA bij celdelingen wordt gecopieerd. Op één of andere manier splitsen de treden van de trap in het midden, waarbij elke A van de overeenkomstige T wordt gescheiden, en elke G van de overeenkomstige C. Vervolgens worden de twee gescheiden strengen van het DNA elk opnieuw ‘gecomplementeerd’ met ‘complementaire strengen’, doordat aan elke A (of T) een nieuw molecule T (of A) wordt ‘gebreid’ (idem dito met C (of G) en G (of C)). De realiteit is natuurlijk wel heel wat ingewikkelder dan hier beschreven, maar dit is een goed begin ! De complementariteit van het DNA laat dus toe om de genetische informatie als het ware te ‘ontdubbelen’ en vervolgens te copiëren. Zoals we verderop zullen zien, is de complementariteit ook de basis van de nieuwe technologie van microroosters.

Een andere grote doorbraak is de beschikbaarheid vandaag de dag, van de volledige DNA sequentie – het genoom - van een toenemend aantal organismen. Zeer recent werd dat van de mens volledig ontrafeld en gepubliceerd in twee belangrijke artikels met bijbehorende websites5 [Lander, 2001] [Venter, 2001]6. Naast het menselijk genoom, dat ongeveer drie miljard tekens lang is, heeft men de laatste tien jaar ook heel wat andere genomen van organismen gesequenceerd, zoals dat van verschillende virussen7, ééncellige organismen zoals bacteriën8 (e.g. Haemophilus influenzae), organismen zoals gist (Saccharomyces cerevisae), planten zoals Arabidopsis

(4)

thaliana (Nature, 14 december 2000), rijst9, of de kiezelalg10, de nematode worm Caenorhabditis elegans11, het fruitvliegje Drosophila melanogaster (Science, 24 maart 2000) en de muis Mus musculus (zie Nature, 420, 5 december 2002).

2.1.2. Genen, aminozuren en eiwitten, en ook nog junk DNA

Zoals we gezien hebben bestaat het genoom van elk organisme in essentie uit een lineaire aaneenschakeling van nucleotides. In dit genoom bevinden zich bepaalde functionele stukken. Hiervan zijn de genen de meest bekende. Een gen kan biologisch gedefinieerd worden12, maar hier geven we een vereenvoudigde informatie- theoretische beschrijving. Een gen bestaat eigenlijk uit een aaneenrijging van

‘codons’, waarbij elk codon bestaat uit drie opeenvolgende nucleotides. Elk van deze drie letters staat voor een bepaald aminozuur. In de natuur zijn er 20 verschillende aminozuren. Het begin van een gen wordt aangeduid door een start-codon (meestal ATG) en het einde ervan door een stop-codon (meestal TAA, TAG of TGA)13. Men moet zich nu inbeelden dat een gen door een welbepaald leesmechanisme wordt afgelezen van bij het start-codon, waarbij elke opeenvolgende drie letters chemisch vertaald wordt in een aminozuur. De opeenvolgende aminozuren worden dan aan mekaar geregen tot een eiwit (proteïne). Het zijn deze proteïnes die zowat de werkpaarden zijn in alle mogelijke biologische processen. Het traject van de functionele entiteiten – de genen – in het DNA, via codons en aminozuren, naar proteïnes wordt het centraal dogma van de biologie genoemd. Recent echter zijn hierop ook belangwekkende uitzonderingen ontdekt en is men eigenlijk niet langer zeker of dit ‘dogma’ wel zo universeel is.

Omdat een codon drie letters bevat, die kunnen gekozen worden uit een alfabet van vier letters (A, C, T, G), bestaan er 64 verschillende combinaties (nl. 4 tot de 3de macht). In de natuur komen echter slechts 20 verschillende aminozuren voor. Het is dan ook zo dat sommige aminozuren gekenmerkt worden door verschillende groepjes van drie letters. Dit is geen ‘fout’ van de natuur, maar eerder één van haar sterktes: Op die manier mag er af en toe, bijvoorbeeld door een toevallige mutatie, een letter in het DNA veranderen zonder dat dit een merkbaar effect heeft op het geproduceerde aminozuur. Maar af en toe gebeurt het ook dat één kleine puntmutatie in het DNA zeer erge gevolgen heeft. Dit is het geval bij sommige monogenetische ziekten, waarbij de afwijking in één enkel gen soms catastrofaal is.

Niettegenstaande het aantal aminozuren beperkt is, is het aantal mogelijke proteïnen astronomisch groot. Immers, voor proteïnen die bestaan uit L aaneengeregen aminozuren, is het aantal mogelijke combinaties ’20-tot-de-L-de-macht’.

Proteïnen, die dus eigenlijk lineaire ketens zijn van aminozuren, zijn meestal opgerold volgens ingewikkelde driedimensionale geometrische configuraties. De geometrische structuur van elk proteïne is zeer determinerend voor zijn preciese interactie met andere proteïnen en moleculen, zoals bindingseigenschappen en –affiniteiten, enzymatische catalyse, signaaltransductie, cel-cel communicatie en vele andere functies en processen in de cel: Het zijn de eiwitten die cellen aan mekaar klitten tot weefsels, die die weefsels tot organen organiseren en van daaruit een levend wezen scheppen. Eiwitten regelen de celdeling, herstellen kapot erfelijk materiaal, leveren belangrijke stoffen aan het natuurlijke afweersysteem, helpen bij de zuurstofvoorziening enz.... 14. Wanneer er met de eiwitproductie iets misgaat (bvb.

productie van teveel of te weinig van bepaalde eiwitten) omdat er iets misloopt in één

(5)

van de stroomopwaartse stappen (een fout in het DNA, problemen bij transcriptie en translatie 15, enz...), dan wordt dat snel duidelijk op het niveau van de weefsels, de organen en uiteindelijk het algemeen welvoelen van de patiënt. Zo bijvoorbeeld weet men dat bij het ontstaan van prostaatkanker, vier eiwitten, een belangrijke rol spelen (nl. (te weinig) PPAP2B en GSTP1, (teveel) PIM1 en HPN,). Er wordt dan ook veel onderzoek verricht naar methodes die de preciese geometrische vorm van een proteïne kunnen voorspellen, vertrekkende van de DNA sequentie die er voor codeert (het zgn.

‘protein-folding’ probleem).

De hierjuist beschreven genetische code, vertrekkende van DNA sequenties, over codons/aminozuren naar proteïnen, is quasi universeel voor alle organismen op onze planeet, wat natuurlijk op termijn heel wat perspectieven opent om stukjes DNA sequentie uit te wisselen tussen organismen om daarbij bepaalde ‘verbeteringen’ te realizeren. Naarmate men de genomen van steeds meer organismen opgelijnd krijgt, kan men ook steeds meer preciezere schattingen maken van het aantal genen dat aanwezig is in elk organisme. Enkele voorbeelden zijn Bacteriophage lambda (grootte genoom 5.0E+04 base paren16, 60 genen), Escherichia coli (4.6E+06 bp, 4290 genen), Gist (12.0E+06 bp, 6144 genen), de fruitvlieg Drosophila melanogaster (1.0E+08 bp, 13338 genen), het wormpje Caenorhabditis elegans (1.0E+08 bp, 18266 genen), de ‘zandraket’ Arabidopsis thaliana (2.3E+08 bp, 27000 genen) en de mens Homo sapiens (3.0E+09 bp, ‘slechts’ 25 000 genen)17.

In het genoom van mensen, zoogdieren en planten zitten ook sequenties van DNA die niet coderen voor eiwitten. Deze worden aangeduid als UTR (UnTranslated Regions).

Het zijn de intergenetische stukken DNA die tussen de genen liggen (exonen) of soms ook in de genen zelf (intronen). Tot voor kort werden deze stukken omschreven als

‘junk DNA’. De laatste jaren komt men terug van die wat oneerbiedige naam.

Immers, in deze niet-coderende gebieden liggen tal van andere functionele entiteiten, zoals regulatorische elementen en motieven, waarop we hierna verder zullen ingaan.

Dit zijn ‘schakelaars’, die een gen aan of af kunnen zetten, en die ook kunnen ageren als ‘dimmers’ (d.w.z. een gen meer of minder aktief maken, m.a.w. de hoeveelheid geproduceerd mRNA regelen) en ‘timers’ (d.w.z. de activiteit van een gen aansturen als functie van de tijd, bvb. bij bioritmes en –cycli). Er zijn ook ‘pseudo-genen’, d.w.z. genen die lange tijd geleden, ergens in de evolutie wel een functie hebben gehad, maar die nu niet langer worden aangeschakeld. En er is tenslotte ook - zoals blijkt uit recente experimenten18 – echt junk DNA dat klaarblijkelijk geen precieze functie heeft. Vandaag de dag gebeurt zeer veel onderzoek over de ontrafeling van alle mogelijke interacties tussen regulatorische elementen, genen of groepjes van genen. Men noemt dergelijke interacties ‘genetische netwerken’.

Al deze biochemische reacties spelen zich af op gigantisch kleine schalen. Zo bijvoorbeeld zijn virussen slechts zijn enkele honderden nanometer groot (een nanometer is een miljoenste van een millimiter, dus 0.000000001 m). Maar de tijdschalen waarop biologische systemen actief zijn, kunnen een enorme variatie vertonen. De bacterie E. Coli kan zich in ideale omstandigheden delen in 20 minuten.

Dit betekent dat na 8 uur 1 bacterie aan de basis kan liggen van een populatie van 2- tot-de-24-ste macht aantallen bacteriën. Een verdubbeling dus om de 20 minuten.

Anderzijds zijn er bijvoorbeeld de genetische systemen die verantwoordelijk zijn voor bioritmes. Deze hebben een periodiciteit van 24 uren of zelfs langer.

(6)

2.2. Doorbraken in technologie: microroosters en bio-data

De complementariteit in het DNA, het feit dat een A altijd aan een T is gebonden, en een C aan een G, is de essentie van het genetisch copieermechanisme, waarbij erfelijk materiaal wordt doorgegeven wanneer cellen delen. Maar diezelfde complementariteit ligt ook aan de basis van een belangrijke nieuwe technologie die de laatste jaren opgang maakt, namelijk deze van de microroosters.

In het pad van DNA naar proteïnen, dat we hierboven sterk vereenvoudigd hebben beschreven, speelt boodschapper RNA (mRNA met de ‘m’ van messenger) een belangrijke rol. mRNA bestaan uit kleine enkelstrengse kopieën van DNA. Het is eigenlijk het mRNA dat kan migreren vanuit de kern, waar het genetisch erfgoed zit opgeslagen, naar de buik van de cel om daar het eiwitsyntheseapparaat van instructies te voorzien zoals hierboven beschreven. Eén en ander wordt geïllustreerd in Figuur 1.

Hoe meer mRNA vanuit het erfelijk epicentrum wordt aangevoerd, hoe harder de eiwitmachine zal draaien. Afwijkende eiwitconcentraties zijn rechtstreeks terug te voeren tot een verstoorde aanvoer van mRNA en duiden op een mogelijk ziektepatroon. Daarom is de hoeveelheid mRNA moleculen – de concentratie - een belangrijke indicatie over de moleculair biologische activiteit van bepaalde genen, wat op zijn beurt een uiterst belangrijk beeld kan geven van wat er zich afspeelt m.b.t.

bepaalde ziektes.

Recente technologische ontwikkelingen in de moleculaire biologie hebben het mogelijk gemaakt om de activiteit of het expressieniveau (d.i. een maat voor de transcriptie of de hoeveelheid mRNA dat van een bepaald gen wordt aangemaakt), van duizenden genen in een cel simultaan te meten. Eén van deze technologische ontwikkelingen zijn de microroosters (van het Engels ‘microarrays’) [Schena, 1995]

[DeRisi, 1997] [Lander, 1999]. Microroosters bestaan uit een groot aantal sondes samengebracht op een klein oppervlak. Sterk vereenvoudigd kan gesteld worden dat ieder van deze sondes bestaat uit DNA dat complementair is of bindt aan één welbepaalde mRNA-streng (ze meten dus de activiteit van één welbepaald gen).

Iedere mRNA-streng zal dus specifiek binden aan (of hybridiseren met) zijn complementaire sonde(s) wanneer het totaal mRNA, afkomstig uit cellen van een welbepaald celtype, in contact wordt gebracht met de sondes op het microrooster. De binding van iedere complementaire sonde met zijn overeenkomstig mRNA kan gemeten worden en is dus een maat voor de hoeveelheid mRNA (expressieniveau) afkomstig van één welbepaald gen. Door het groot aantal sondes aanwezig op het microrooster kan dus het expressieniveau van duizenden genen tegelijk worden gemeten. De keuze van de genen of sondes wordt meestal bepaald door het probleem dat wordt bestudeerd (bijvoorbeeld weefselspecifieke genen). Maar de tijd is niet meer ver af dat men gewoon alle genen van een organisme op één microrooster zal aanbrengen.

Expressieniveaus van genen bepalen was vroeger reeds mogelijk met specifieke technologieën (bijvoorbeeld Northern blot), maar de grote kracht van microroosters bestaat erin dat deze bepaling, op redelijk eenvoudige wijze, voor duizenden genen tegelijk kan gebeuren. Men heeft het over ‘high-throughput’ technologieën. Dit wil zeggen dat voor ieder staal dat wordt geanalyseerd op een microrooster (bijvoorbeeld

(7)

een biopsie van een tumor), duizenden getallen (één per gemeten gen) als resultaat verkregen worden. Het spreekt voor zich dat het niet eenvoudig is om deze enorme hoeveelheid data te analyseren. Precies daarvoor hebben we wiskunde en statistiek nodig, en ook numerieke computeralgoritmes die deze enorme hoeveelheden data kunnen verwerken en er de relevante biologische informatie uithalen. Dit is precies wat bioinformatica doet.

Met al de nieuwe technologie die nu ter beschikking komt, hoeft het geen verwondering te wekken dat de hoeveelheid biologische informatie op het internet, exponentieel toeneemt. Men schat dat de hoeveelheid genoom sequentie informatie elke 18 maanden verdubbelt, wat - toeval of niet – dezelfde exponentiële verdubbeling is als die in de Wet van Moore. Experts voorspellen dat binnenkort ongeveer 100 gigabyte aan biologische informatie, per dag, zal geproduceerd worden.

Al deze data hebben enkele gemeenschappelijke kenmerken, die we ‘biodata kenmerken’ hebben genoemd [De Moor, 2003] en die we hier even kort samenvatten:

Biodata kenmerk I: Biologische data worden gecollecteerd onder meestal moeilijke experimentele omstandigheden, en zijn daarom niet altijd van de hoogste kwaliteit (technisch zegt men dat de ‘signaal-ruis’ verhouding, d.w.z. de verhouding van hoeveelheid ‘nuttige’ informatie t.o.v. de hoeveelheid ‘nutteloze’ of ‘random’

informatie (=ruis), zeer laag is).

Biodata kenmerk II: Biologie als wetenschap wordt (nog?) niet gekenmerkt door een

‘axiomatische aanpak’, m.a.w. het is een empirische wetenschap waarin nog heel veel van de zogenaamde ‘first principles’ moeten worden geformuleerd, zoniet ontdekt.

Daarom ook doet men zeer intensief een beroep op de statistiek en op proabilistische methodes.

Biodata kenmerk III: Niettegenstaande het feit dat biologie tot nader order niet axiomatisch is, en de kwaliteit van de empirische data relatief laag, toch is de kwalitatieve kennis van biologische systemen heel groot. Dit vraagt om relatief complexe kennisrepresentatiesystemen.

Biodata kenmerk IV: Biologische systemen opereren op meervoudige schalen in ruimte en tijd. Dit impliceert de noodzaak aan methodes die informatie kunnen integreren over verschillende ordes van grootte.

Biodata kenmerk V: Biologisch onderzoek op eenzelfde organisme of pathologie gebeurt tegelijkertijd in verschillende (honderden tot duizenden) onderzoeksgroepen ter wereld. Bijgevolg is ook de kennis gedistribueerd, niet alleen geografisch, maar ook over verschillende honderden (wellicht duizenden) websites met biologische databanken en met relevante publicaties. Dit vraagt om bijzondere methodes van kennisintegratie.

Biodata kenmerk VI: Biologen representeren biologische problemen en systemen veelal op een grafische manier. Daarom zijn gebruikersvriendelijke ‘user interfaces’

zeer belangrijk alsook grafische metaforen voor informatie-uitwisseling.

(8)

2.3. Doorbraken in wiskunde en statistiek

Men zou kunnen denken dat biologie en wiskunde werkelijk twee totaal verschillende takken van de wetenschap zijn. Niets is minder waar. In de twintigste eeuw heeft men

‘ontdekt’ dat de fundamentele wetten van materie, energie en informatie op een bijzonder efficiënte wijze door wiskunde kunnen worden gevat19. In de éénentwintigste eeuw zal men tot dezelfde conclusie komen voor wat betreft de fundamentele biologische wetmatigheden [Lesk, 2000]. De DNA-code zoals we die hierboven kort (en zeer sterk vereenvoudigd) hebben toegelicht, is een zuiver voorbeeld van het coderen van informatie. De manier waarop proteïnen met mekaar interageren, kan treffend beschreven worden door differentiaalvergelijkingen.

Informatietheorie, wiskunde en statistiek zullen dus ook bijzonder effectief blijken bij het beschrijven van biologische systemen.

Dat dit alles geen toeval is, moge blijken uit enkele historische voorbeelden. De manier waarop de Tsjechische monnik Gregor Mendel de naar hem genoemde erfelijkheidswetten ontdekte, was niet gebaseerd op biologische inzichten, maar wel op statistische inferentie [Henig, 2000]. De titel van het doctoraatswerk van Claude Shannon in 1940 was ‘An algebra for theoretical genetics’. Het is dezelfde ingenieur die een kleine tien jaar later aan de wieg stond van een gloednieuwe tak van de wiskunde, die informatietheorie wordt genoemd. En de beroemde Britse wiskundige Alan Turing, die in de jaren 30-40 van de vorige eeuw belangrijke bijdragen leverde tot de computerwetenschappen (de ‘Turing-machine’), die ook in de tweede Wereldoorlog de geheime codes van de nazis hielp ontcijferen, diezelfde Alan Turing beschreef rond 1950 de celdeling waaruit embryo’s ontstaan (‘morphogenesis’) aan de hand van reactie-diffusievergelijkingen. En er zijn talloze andere voorbeelden van deze symbiose tussen wiskunde en biologie. In de nieuwe wetenschap die biomimycry (van het Grieks, bios, leven, en mimesis, ‘imiteren’) wordt genoemd (zie www.biomimicry.org), laten wetenschappers zich inspireren door de natuur om nieuwe en betere technologische oplossingen voor allerhande problemen te vinden.

De onderliggende redenering is dat de natuur een gigantische computer is, die meer dan 3.8 miljard jaar de tijd heeft gehad om allerhande overlevingsstrategieën uit te proberen en er de beste van over te houden. Zo bijvoorbeeld gebruiken ingenieurs vandaag artificiële neurale netwerken om moeilijke niet-lineaire verbanden tussen allerlei grootheden te beschrijven. We gebruiken genetische algoritmen, die gebaseerd zijn op het Darwiniaanse idee van natuurlijke selectie (‘survival-of-the-fittest’) om moeilijke optimizatieproblemen op te lossen. Of we gebruiken gesofisticeerde zoekalgoritmen, die geïnspireerd zijn op de manier waarop mieren met elkaar communiceren door gebruik te maken van feromonen. Onze computervirus- detectiemethodes zijn geïnspireerd op natuurlijke immuunsystemen. En we maken nu ook al DNA-computers20, waarbij de complementariteit van DNA-strengen (zie hierboven) gebruikt wordt om moeilijke combinatorische optimizatieproblemen aan te pakken [Kari, 1997].

Door de Wet van Moore, die erop neerkomt dat de rekenkracht van onze computers elke 18 maanden verdubbelt, zijn we in staat om algoritmen, waarvan sommigen op papier al meer dan 100 jaar bestaan, nu ook daadwerkelijk te gaan gebruiken op

(9)

grootschalige databestanden21, van vele mega- tot gigabytes groot. Een algoritme22 is in de computerwetenschappen een bepaalde procedure die gebruikt wordt om een probleem op te lossen. Wanneer men bijvoorbeeld een lijst van namen alfabetisch wil sorteren, dan zal men daarvoor een bepaalde procedure uitdenken – een sorteeralgoritme- dat dan naderhand vertaald wordt in een computerprogramma dat geschreven wordt in een bepaalde computertaal. Een numeriek algoritme is een algoritme dat gebruikt maakt van numerieke wiskunde en (lineaire) algebra. Zo bijvoorbeeld kan je een numeriek algoritme bedenken om de vierkantswortel van een getal te berekenen, om twee matrices met mekaar op te tellen of te vermenigvuldigen of om de eigenwaarden en –vectoren van een matrix uit te rekenen.

Bioinformatica is mogelijk geworden precies door de interactie tussen deze doorbraken op biologisch, technologisch en wiskundig-statistisch gebied. Maar ook de toenemende communicatie via het internet, is een sterke catalysator voor de verdere ontwikkeling van deze nieuwe discipline: Immers, de dag van vandaag zijn er talloze biologische databases beschikbaar, niet alleen met wetenschappelijke artikels, maar ook met de genomen van een toenemend aantal organismen (zoals het menselijk genoom, dat van rijst, van de hond, van bacteriën, enz...) en met biologische kennis over regulatorische elementen, genetische netwerken, interacties tussen proteïnen en dies meer.

In wat volgt beschrijven we een tweetal concrete bioinformatica toepassingen.

3. Toepassingen

De eerste toepassing betreft het herkennen van verschillende soorten van leukemie aan de hand van genetische informatie, afkomstig van microarrays. Dit voorbeeld toont aan hoe men in de toekomst meer dan waarschijnlijk ‘decision-support-tools’

zal maken voor dokters, die ondersteuning kunnen bieden bij het bepalen van een diagnose. In de tweede toepassing illustreren we hoe microroosters gebruikt worden om nieuwe biologische ontdekkingen te doen, met name het detecteren van zogenaamde regulatorische elementen in het ‘junk-DNA’.

3.1. Klinische toepassingen in oncologie

Recent zijn verschillende publicaties verschenen die aantonen hoe gegevens, bekomen met microroosters, zouden kunnen gebruikt worden voor klinische doeleinden - veelal in de oncologie (bijvoorbeeld voor het bepalen van de prognose van borsttumoren [van de Vijver, 2002] [van ’t Veer, 2002]). Deze gegevens kunnen aangewend worden om het proces van diagnose, bepaling van prognose en therapieplanning van kwaadaardige processen mee te sturen. Wanneer deze technologie in de toekomst op grote schaal zal worden gebruikt, valt het te verwachten dat de kostprijs ervan zeker zal dalen, waardoor deze techniek het experimenteel stadium zal ontgroeien en binnen het bereik komt van de meeste artsen (wat op zijn beurt een ware revolutie zou kunnen betekenen in het klinisch beleid bij kanker).

Het ontstaan van kanker is een proces dat zich voor een groot deel afspeelt op het niveau van het genoom. Onder invloed van bepaalde factoren (bestraling, virale infecties,…) kunnen mutaties ontstaan in bepaalde genen met eventueel

(10)

ongecontroleerde celgroei en de mogelijkheid tot invasie en metastasering (uitzaaiing van kwaadaardige cellen) tot gevolg. Door deze mutaties kan er ook bij andere genen (waarin geen mutatie optreedt, maar waarvan de expressie direct of indirect door het product of de proteïne van een gemuteerd gen wordt geregeld, bijvoorbeeld als het gemuteerd gen codeert voor een transcriptiefactor) verstoring van hun expressie optreden. Het is de verzameling van deze ontregelde genexpressies die het fenotype of gedrag van de tumorcel bepaalt, zoals het stadium van de tumor, de prognose of het antwoord op een bepaalde therapie. Het meten van een groot gedeelte van deze expressieniveaus door middel van microroosters zou dus van grote waarde kunnen zijn om het werkelijk gedrag van de tumorcellen te kennen, te voorspellen en te begrijpen. Door de expressieniveaus te betrekken in de klinische besluitvorming, zouden de fundamentele processen die aan de basis liggen van de carcinogenese mee in rekening kunnen worden gebracht om het klinisch beleid te bepalen. Dit zou een verbetering betekenen in vergelijking met de meer empirische beslissingsschema’s die nu gebruikt worden.

Bij de studie van tumorstalen met microroosters kan men echter niet onmiddellijk besluiten trekken uit de enorme hoeveelheid gegevens (één waarde per gen of sonde aanwezig op het microrooster wat resulteert in duizenden getallen per microrooster- experiment). Het is dus duidelijk dat er, om uit deze gegevens klinisch bruikbare resultaten te halen, bepaalde wiskundige en statistische technieken zullen moeten worden aangewend.

Als voorbeeld nemen een verzameling van 72 patiënten met acute lymfatische leukemie (ALL), acute myeloïde (AML) leukemie, of een derde klasse acute leukemie die MLL-leukemie worden genoemd. Bloed- of beenmergstalen van deze patiënten werden geanalyseerd met een microrooster waarop sondes aanwezig waren voor een 12600-tal genen. De resultaten van deze metingen [Armstrong, 2002] zijn publiek beschikbaar op het internet (zie http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi.

De gegevens afkomstig van microroosters kunnen worden ingezet om - kenmerken te selecteren;

- individuele genen te selecteren die relevant zijn voor één van de drie vormen van leukemie;

- combinaties van genen te selecteren die relevant zijn voor één van de drie klasses;

- allerhande voorspellingen te doen rond het klinisch beleid;

- voorheen ongekende klassen te ontdekken.

Op dit alles gaan we nu even nader in.

3.1.1. Selectie van kenmerken

Een eerste doelstelling is het verminderen van het aantal gegevens (of aantal waarden) per patiënt of per meting op het microrooster. Dit wordt ook het probleem van de dimensionaliteitsreductie genoemd. Voor de dataset bestaande uit de 72 patiënten met acute leukemie is de dimensionaliteit zonder reductie ongeveer 12600. Een dimensionaliteitsreductie is noodzakelijk vooraleer gestart kan worden met de verdere analyse omwille van het grote aantal gegevens. Belangrijk is echter dat deze afname gepaard gaat met een minimaal verlies aan essentiële informatie. Enkel de meest essentiële kenmerken, nodig voor het bestuderen van een bepaald probleem, moeten worden geselecteerd. Deze selectie kan het best op één van de twee volgende manieren gebeuren:

(11)

3.1.2. Selectie van individuele genen

De meest eenvoudige manier is de selectie van individuele genen waarvan de expressie het best gecorreleerd is met een bepaalde klasse (dit noemt men ook genen die differentieel tot expressie komen en de technieken die men gebruikt voor de selectie behoren tot de univariate analyse (bv. hypothese testen)). Dergelijke selectie is nogal voor de hand liggend vermits niet alle genen een expressiepatroon hebben dat informatie bevat over een bepaalde klasse zodat deze genen kunnen worden weggelaten. Zo zouden bijvoorbeeld voor de patiënten met acute leukemie de 15 genen kunnen worden geselecteerd waarvan het expressieniveau in één van de drie klassen (ALL, AML of MLL) het meest beduidend verschilt in vergelijking met de andere twee (zie Figuur 2). De andere genen worden, voor dit probleem, gewoon buiten beschouwing gelaten. Dit komt dan overeen met een dimensionaliteitsreductie van 12600 naar 45 (selectie van 15 genen voor ieder van de drie klassen). Op deze manier kunnen ook onmiddellijk de genen worden geïdentificeerd die een rol spelen bij een bepaald klassenverschil, wat eventueel zou kunnen helpen om hun rol in de carcinogenese te bepalen. In de literatuur kan men reeds een groot aantal artikels vinden die op een dergelijke manier genen trachten te identificeren. Dit gebeurt aan de hand van metingen van expressieniveaus in cellen onder verschillende omstandigheden. Deze verschillende omstandigheden komen overeen met de verschillende klassen (bijvoorbeeld gezonde cellen versus tumorale cellen, cellen van tumoren met een verschillende prognose, cellen van tumoren met een verschillende respons op therapie, cellen met een bepaalde mutatie versus cellen zonder een bepaalde mutatie, …).

3.1.3. Selectie van combinaties van genen

Een tweede methode om het probleem van de dimensionaliteitreductie op te lossen is de selectie van verschillende combinaties van genexpressies. Ieder van deze combinaties resulteert dan in één enkele waarde en kan dan beschouwd worden als een kenmerk. Merk op dat in de vorige methode ieder kenmerk overeenkomt met één enkel expressieniveau. Omdat het onderscheid tussen verschillende klassen over het algemeen niet volledig zal bepaald worden door de individuele activiteit van een gen, maar door de interactie van verschillende genen, is het beter om met combinaties van genexpressies te werken.

Eén van deze methoden voor het bepalen van geschikte combinaties van genexpressies is de “Principale Component Analyse” (PCA). Dit is een numerieke techniek die reeds lang gekend is in de multivariate statistiek en waarvoor de dag van vandaag zeer goede software bestaat. PCA zoekt als het ware de combinaties die het meest “informatief” zijn voor een verzameling patiënten of microrooster- experimenten. Deze combinaties (of kenmerken) worden dan de principale componenten genoemd van deze verzameling patiënten. Zo kunnen voor de dataset van Armstrong et al., zoals die hierboven werd beschreven (acute leukemie), drie principale componenten worden bepaald waardoor we drie kenmerken of waarden krijgen per patiënt. Hierdoor kunnen we iedere patiënt voorstellen als een punt in een assenstelsel met drie assen (Figuur 3). In dit geval is er dus sprake van een reductie van de dimensionaliteit van 12600 naar 3. Noteer dat het resultaat in Figuur 3 ons in staat stelt om de groep patiënten op een visuele manier voor te stellen. Hierdoor

(12)

kunnen we reeds zien dat de drie beschouwde klassen leukemie relatief goed gescheiden zijn (wat er dus op wijst dat ALL, AML en MLL specifieke expressiepatronen hebben).

3.1.4. Voorspellingen

In een klinische omgeving is het belangrijk dat, aan de hand van metingen met microroosters (eventueel aangevuld met andere klinische gegevens), voor individuele patiënten voorspellingen kunnen worden gedaan i.v.m. prognose, antwoord op therapie, e.d. Dit gebeurt door middel van modellen die aan de hand van geselecteerde kenmerken de tumor trachten te classificeren. De parameters van het model moeten worden bepaald aan de hand van een verzameling patiënten van wie reeds geweten is tot welke klasse ze behoren (m.a.w. patiënten voor wie prognose, effect van therapie, … reeds gekend zijn). Deze verzameling van patiënten wordt de trainingsset genoemd. Het getrainde model kan achteraf aangewend worden om voorspellingen te doen voor patiënten van de testset, namelijk die patiënten van wie de classificatie nog niet gekend is. Enkele voorbeelden van veel gebruikte modellen zijn: Artificiële Neurale Netwerken, Bayesiaanse Netwerken, Lineaire Discriminant Analyse en Support Vector Machines. Zo zouden we dus de 72 patiënten met acute leukemie (waarvan de diagnose – ALL, AML of MLL – reeds gekend is) kunnen gebruiken om een model te trainen dat het onderscheid kan maken tussen ALL, AML en MLL aan de hand van expressiepatronen. Die modellen kunnen dan later worden gebruikt om de diagnose te stellen voor nieuwe patiënten.

Met de zonet beschreven methodologie kunnen modellen ontwikkeld worden waarin metingen op microroosters gebruikt worden om de arts te helpen bij de diagnose of waarmee gepoogd wordt een voorspelling te maken van het klinisch verloop van een tumoraal proces. Enkele voorbeelden:

- Een model kan op een dusdanige manier worden getraind dat het de aanwezigheid van metastasen of uitzaaiingen tracht te voorspellen (zelfs indien die nog niet klinisch waarneembaar zouden zijn). Zo kunnen de patiënten met uitzaaiingen die het meest baat hebben bij een aanvullende therapie (bv. chemotherapie) na chirurgie worden geselecteerd. Omgekeerd kunnen patiënten worden geïdentificeerd voor wie de aanvullende therapie waarschijnlijk onnodige toxiciteit of mutilatie zou betekenen.

- Het klinisch wisselend verloop van sommige tumoren (bv. van de prostaat) kan zich vertalen op moleculair-biologisch niveau (differentieel tot expressie komende genen). Dit maakt het mogelijk om modellen te maken die voorspellen of de tumor een eerder traag dan wel agressief verloop zal kennen.

Deze modellen kunnen dus gebruikt worden om een schatting van de prognose te maken.

- Modellen die tot doel hebben het antwoord op therapie te voorspellen, zouden kunnen gebruikt worden om, aan de hand van expressieniveaus in de onbehandelde tumor, een schatting te maken van de kans op succes van een behandelingsschema. Er kan bijvoorbeeld gepoogd worden te bepalen welke patiënten tijdens behandeling met chemotherapie een volledige remissie of, integendeel, progressie van het tumoraal proces zullen vertonen. Zo ook kan getracht worden te voorspellen welke patiënten die, na het behalen van een volledige remissie, al dan niet zullen hervallen. De gekozen modellen kunnen dan gebruikt worden om een keuze te maken van de meest geschikte therapie.

(13)

3.1.5. Ontdekken van klassen

Door gebruik te maken van het uitgebreid arsenaal aan klinische en morfologische parameters kan men een kwaadaardig proces indelen in verschillende categorieën of klassen. De manier van classificeren zal in de meeste gevallen ook het beleid bepalen.

Zoals reeds vermeld kunnen patiënten met een gelijkaardige diagnose en therapie (dus patiënten die volgens de huidige kennis tot dezelfde categorie behoren) een variabel verloop kennen. Door het herschikken of opdelen van diagnostische categorieën kan gepoogd worden deze variabiliteit binnen eenzelfde klasse te verminderen en kan het in sommige gevallen mogelijk zijn om de therapie te verfijnen en het verloop van de ziekte beter te voorspellen. Hier is het dus niet de bedoeling om voorspellingen te gaan maken voor individuele patiënten (zoals in de vorige doelstelling), maar om te bepalen welke de verschillende tumorklassen en hun eigenschappen zijn.

Het is mogelijk om, op basis van metingen met microroosters (dus op basis van het expressieniveau van een paar duizend genen), een groep patiënten in te delen in verschillende klassen of clusters waarvan de eigenschappen niet op voorhand gekend zijn. Een klasse of cluster groepeert over het algemeen patiënten die een zekere graad van overeenkomst vertonen. De indeling wordt over het algemeen bepaald d.m.v.

clusteringstechnieken. Enkele voorbeelden van veelgebruikte methoden zijn:

hiërarchische clustering , “Self Organizing Maps” en “K-means clustering” . In veel gevallen zal de indeling, gevonden door deze clusteringstechnieken, grotendeels overeenkomen met de gekende indeling. In sommige gevallen zal er echter een totaal nieuwe indeling gevonden worden die eventueel klinisch relevant kan zijn.

Zo zouden we de 72 patiënten met acute leukemie, waarbij vooraf geen onderscheid wordt gemaakt tussen ALL, AML en MLL, kunnen onderwerpen aan een clusteranalyse waarbij aan het algoritme wordt gevraagd om drie groepen patiënten of clusters te ontdekken, waarbij iedere cluster patiënten bevat die een zo hoog mogelijke graad van gelijkenis vertonen in hun expressiepatronen. Dit wil dus zeggen dat het clusteralgoritme in staat is om zelf de bestaande diagnostische categorieën te ontdekken zonder enige voorkennis. Dit wordt geïllustreerd in Figuur 4.

3.2. Ontrafelen van DNA functies

3.2.1. Situering

Het belangrijkste aspect van het genexpressieproces is dat de transcriptie gestart wordt door het binden van een geactiveerde transcriptiefactor met het DNA. In [Berg, 1987] werd aangetoond dat er een zekere complementariteit moet bestaan tussen de actieve site van het proteïne en het DNA vooraleer de transcriptiefactor kan binden met het DNA. Dit betekent ook dat, als we verschillende bindingsplaatsen van een bepaalde transcriptiefactor vergelijken, die bindingsplaatsen bepaalde kenmerken op sequentieniveau gemeenschappelijk hebben. Momenteel wordt veel onderzoek gedaan om algoritmen te maken die dergelijke bindingsplaatsen kunnen detecteren. De beginhypothese is dat genen die een gelijkaardige expressie vertonen, mogelijks gereguleerd worden door dezelfde transcriptiefactor(en) en dus ook een zekere gelijkenis vertonen op sequentieniveau. Als eerste stap in de ontdekking van regulerende elementen moeten we dus genen identificeren die een gelijkaardig

(14)

expressiegedrag vertonen. Deze stap noemen we het clusteren van genexpressieprofielen.

3.2.2. Clusteren van genexpressieprofielen

Zoals voordien gezegd kunnen we met microroosters het expressieniveau bepalen van duizenden genen tegelijk. Microrooster-experimenten kunnen echter ook worden herhaald met verschillende stalen op verschillende tijdstippen van een biologisch proces (bv. op verschillende tijdstippen van een celdeling of celcyclus). Bij het clusteren van genexpressieprofielen is het de bedoeling om genen te groeperen die een zo groot mogelijke overeenkomst vetonen in hun gedrag als functie van de tijd. Van genen met een gelijkaardig expressiegedrag, zeggen we dat ze co-expressie vertonen.

In Figuur 5 kunnen we een deel van het resultaat bekijken van de clusteranalyse van een verzameling genen waarvan de expressie gemeten werd gedurende 18 tijdstippen tijdens twee celdelingen van gistcellen [Spellman, 1998]. De genen die in deze figuur tot dezelfde cluster behoren hebben dus een hogere kans om gelijkaardige biologische functies in de celcyclus te hebben en bijgevolg gelijkaardige bindingsplaatsen te bevatten voor transcriptiefactoren.

3.2.3. Representatie van de bindingsplaats van een transcriptiefactor

Om naar een collectie van bindingsplaatsen te refereren introduceren we de term motief. Een specifieke bindingsplaats is dan een instantie van het motief. Een motief stellen we voor aan de hand van een motiefmodel, dit kan zowel een string, een reguliere uitdrukking als een matrixmodel zijn. Om een motiefmodel aan te maken, vertrekken we van een set van DNA segmenten waar de transcriptiefactor bindt. Als we deze voorbeelden groeperen dan kunnen we daaruit een zogenaamde consensus distilleren. Deze consensus wordt gevormd door alle segementen te aligneren en op elke positie de meest waarschijnlijke nucleotide(n) te selecteren en voor te stellen volgens een bepaald alfabet. Een meer verfijnde aanpak is deze van het matrixmodel waarbij we rekening houden met de relatieve verhouding van de vier nucleotiden op een bepaalde positie. Dit resulteert in een positie-specifieke frequentiematrix waarbij iedere waarde in de matrix een maat is voor het aantal keren dat een bepaald nucleotide gevonden wordt op die specifieke positie. Een voorbeeld hiervan vinden we in Figuur 6, waar we een typische probabilistische voorstelling zien van een motief van 10 letters.

Recent hebben we geavanceerde algoritmes ontwikkeld die in DNA sequenties motieven kunnen ontdekken en ze vervolgens gaan voorstellen op een statistische wijze zoals getoond in Figuur 6. Op het internet bestaan verschillende databanken waarin dergelijke motieven gestockeerd worden, ter verificatie door andere onderzoekers of voor biologische validatie.

3.2.4. Voorbeeld

Als voorbeeld van een uitgebreide analyse van microrooster-gegevens gebruiken we een dataset die door velen als voorbeeld is gekozen, namelijk de celcyclus in

(15)

bakkersgist, Saccharomyces cerevisiae [Spellman, 1998]. De celcyclus bestaat uit een opeenvolging van vier fasen: de fase G1 waarin de cel groeit, de S-fase waarin de DNA synthese plaatsvindt, de overgangsfase G2 en uiteindelijk de mitose in de M- fase. De microrooster-metingen gebeurden op 18 tijdsstippen gedurende twee opeenvolgende celcycli. Na het voorbereiden van de data, zoeken we naar clusters van genen met een door ons ontwikkeld clusteralgoritme (Adaptive Quality-Based Clustering) wat resulteert in achtendertig clusters. Uit deze achtendertig clusters kiezen we er vier die een specifiek profiel vertonen dat overeenkomt met de fases in de celcyclus (zie Figuur 5). De eerste drie clusters (clusters 3, 4 en 28) vertonen een duidelijk periodiek verloop. De vierde cluster (cluster 24) bevat negentien genen die een hoog expressie niveau hebben bij de start van het experiment en die daarna uitgeschakeld zijn.

Van de genen in elk van deze clusters selecteren we stroomopwaartse sequenties van 800 nucleotides. In elk van de vier sequentiesets zoeken we naar motieven waarbij we de lengte laten variëren tussen 5 en 17 nucleotides. De resultaten die we bekomen zijn sterk uiteenlopend voor de verschillende clusters. Het meest uitgesproken motief vinden we in de sequenties van cluster 28. Hier vinden we in alle motieven een gemeenschappelijke consensus ACGCGT. Deze consensus stemt overeen met het bekende MCB motief waarvan geweten is dat het een belangrijke rol speelt tijdens de celcyclus. In cluster 4 vinden we twee motieven, TTTsGykT en TGTTTsTT (de kleine letters zijn combinaties van mogelijke nucleotides), die niet overeenkomen met een bekend motief. Deze motieven worden ook door andere motiefzoek-algoritmen aangeduid als de meest significante motieven in deze cluster. Cluster 3 geeft in tegenstelling tot de twee andere periodische clusters geen bevredigend resultaat. In dit geval vinden we enkel motieven die als consensus een opeenvolging van A's of T's zijn. Het is geweten dat zulke opeenvolging niet echt een regulatorische functie heeft.

Een test met een string-gebaseerde methode geeft de volgende twee motieven als meest overgerepresenteerde motieven: TGAAAAAT en AAAATTT. Het tweede motief komt overeen met het motief dat we vinden bij de lengtes 7 en 8 nucleotides.

De analyse van de niet-periodische cluster 24 geeft voor de korte motieflengtes een gemeenschappelijke consensus ATGAAAC. Dit motief vertoont grote gelijkenis met het STE12 motief dat we in de gespecialiseerde databanken vinden. Verdere analyse van dit resultaat geeft aan dat één van de genen waarvan bewezen is dat het gereguleerd wordt door STE12, ook in de cluster gevonden is. Dit is een indicatie dat het motief dat gevonden is waarschijnlijk ook effectief van belang is voor de genen in deze cluster. Voor de langere motieflengtes vinden we een sterk motief ATATATGnnTCAGATA, dat gevonden wordt in 7 genen. Hiervan kunnen we niet dadelijk de functie achterhalen. Maar het feit dat we dit motief consistent terugvinden kan een mogelijke inspiratiebron zijn voor verder biologisch onderzoek en validatie.

4. De (nabije) toekomst: systeembiologie

Tot voor enkele jaren werden in het functioneel moleculair biologisch onderzoek, genen, proteïnen en andere moleculen één voor één als geïsoleerde entiteiten bestudeerd. Het gebruik van de nieuwe technologieën situeert de functie van een gen nu in een globale context, namelijk als deel van een complex regulatorisch netwerk.

Vanuit dit nieuw perspectief wordt het organisme beschouwd als een systeem dat interageert met zijn omgeving (zie ook Figuur 7). Het gedrag ervan wordt bepaald

(16)

door de complexe dynamische interacties tussen genen/proteïnen/metabolieten op het niveau van het regulatorische netwerk. Door de beschikbaarheid van data van verschillende modelorganismen kunnen bovendien de cellulaire mechanismen tussen de organismen vergeleken worden.

Systeembiologie is een interdisciplinair onderzoeksdomein waarin getracht wordt, door een combinatie van high-throughput moleculaire biologie (microarrays, proteomics, etc…) en via principes uit de systeemidentificatie en datamining, een mechanistisch inzicht te verwerven in een biologisch systeem. Dit is één van de belangrijkste uitdagingen van het interdisciplinair bio-informatica onderzoek. De reconstructie van genetische netwerken aan de hand van moleculair biologische data (i.e. netwerkinferentie) is één van de kernpunten van het systeembiologie onderzoek.

Omdat elk van de beschikbare datatypes vanuit een andere invalshoek informatie levert over de structurele opbouw van de regulatorische netwerken, resulteert het combineren van deze data in een meer holistische beschrijving van het bestudeerde biologische proces. Een cel kan beschouwd worden als een systeem dat door interactie met zijn omgeving wijzigingen in omgevingssignalen (inputsignalen) omzet in een aangepast gedrag. Het genetische netwerk is hierbij verantwoordelijk voor de signaaltransductie. Het bestaat uit moleculair biologische entiteiten (genen en proteinen) die onderling een hiërarchisch georganiseerde connectiviteit vertonen.

Genetische circuits kunnen in dit opzicht vergeleken worden met elektrische circuits.

Wanneer een gen, gesitueerd aan de top van de regulatiecascade, wordt aangeschakeld door een wijzigend omgevingssignaal, zal het overeenkomstige proteïne op zijn beurt verantwoordelijk zijn voor het aanschakelen van een volgende set genen. Door de hiërarchische structuur van een genetisch netwerk is echter de cellulaire signaaltransductie multiplicatief. De niet-lineaire aard van het signaaltransductiemechanisme (aanwezigheid van terugkoppelingsmechanismen, synergistische effecten, en logische relaties zoals XOR) maken van de cel een autonoom gereguleerd systeem dat zichzelf op efficiënte wijze beschermt tegen extreme variaties in omgevingsfactoren. In vele gevallen is de wijze waarop dit genetisch netwerk actief is, niet gekend, d.w.z. de wijze waarop genen onderling een causaal verband vertonen is onbekend. Dankzij recente moleculair-biologische analyse-technieken is het tegenwoordig dus mogelijk om het signaaltransductieproces op te meten (dynamische wijzigingen in genexpressie gedurende de evolutie van een systeem naar zijn regimetoestand) en kan men mits het ontwikkelen en toepassen van de geschikte analysemethodes aan de hand van de data een inzicht verwerven in de structuur en de kwantitatieve eigenschappen van het genetische netwerk.

Naast het fundamenteel inzicht in de mechanistische werking van een organisme biedt netwerkinferentie of een systeembiologische aanpak eveneens de mogelijkheid tot verregaande industriële of medische toepassingen. Het ontrafelen van eenvoudige netwerkmodules, betrokken bij het ontstaan van sommige kankertypes, kan bijvoorbeeld een verbeterde diagnose, prognose of behandeling opleveren (bv.

identificeren van een merker in het bloed om vroegtijdig kanker op te sporen, het produceren van een kankervaccin).

Een ander voorbeeld van een proces dat vermoedelijk gecontroleerd wordt door een complex genetisch netwerk is quorum sensing of cel-cel-communicatie bij prokaryoten (bacteriën). Men heeft ondekt dat veel verschillende soorten bacteriën kunnen communiceren in een gemeenschappelijke chemische taal die dient om bijvoorbeeld het begin van de pathogenese te reguleren en coördineren. Het ontrafelen van de fundamentele mechanismen achter quorum sensing is een belangrijke uitdaging in de microbiologie (en heeft bijvoorbeeld belang in de ontwikkeling van

(17)

probiotica als alternatieve aanpak voor het voorkomen en bestrijden van infecties).

Quorum sensing wordt mogelijk gemaakt door de productie en vrijzetting van signaalmoleculen, die auto-inducers (AI) genoemd worden. Het gen dat codeert voor het AI-2 synthase, i.e. luxS, is geconserveerd in meer dan veertig species. Bacteriën passen hun genexpressie aan in functie van veranderingen in de hoeveelheid van deze signaalmoleculen. Van het genetisch netwerk dat (rechtstreeks of onrechtstreeks) gecontroleerd wordt door AI-2 of dat leidt tot veranderingen in de productie van AI-2 is nog maar weinig geweten. Het identificeren van dit netwerk kan dus gebeuren met een systeembiologische aanpak.

We kunnen nu wel stellen dat we pas aan de vooravond staan van een nieuwe revolutie in de wetenschappen, waarin biologie en informatietechnologie ons verder zullen leiden naar ongekende nieuwe ontdekkingen en toepassingen. Nu al denkt men er aan om het eeuwenoude classificatiesysteem van dieren en planten, 250 jaar geleden uitgedacht door Linnaeus, compleet te veranderen: Immers, verwantschap tussen organismen is veel nauwkeuriger te beschrijven op basis van DNA informatie dan op basis van uiterlijke kenmerken zoals bij Linnaeus [Holmes, 2004]. Maar er is meer. In deze bijdrage hebben we het vooral gehad over wat ook wel eens

‘transcriptomics’ wordt genoemd. We hebben ons vooral geconcentreerd op de ontrafeling van de functie van bepaalde DNA sequenties door middel van microroosters. Maar nu reeds zijn er nieuwe belangrijke technologische doorbraken die zullen leiden tot proteomics (interacties tussen eiwitten) en metabolomics (biochemische processen in de cel). De hoeveelheid informatie, vervat in databanken op het web, en in databanken met miljoenen wetenschappelijke artikels, is zo immens groot geworden, dat het noodzakelijk wordt om algoritmen te maken die al deze artikels kunnen samenvatten en bepaalde verbanden gaan leggen op basis van allerlei correlatietechnieken. Men noemt deze discipline ‘text mining’. Nu al gebruiken biologen ‘text-mining tools’ om duizenden artikels tegelijk te screenen om op die manier potentiële globale biologische verbanden te ontdekken, die naderhand dan biologisch kunnen gevalideerd worden.

5. Voor wie meer wil lezen

Als je meer wilt te weten komen over het onderzoek in de bioinformatica aan de K.U.Leuven, kan je altijd de ‘pub-engine’ van onze website raadplegen. Deze is te vinden op http://www.esat.kuleuven.ac.be/~sistawww/cgi-bin/pub.pl. Daarop kan je ook enkele overzichtsartikels raadplegen waarvan sommigen hieronder ook vermeld staan. Voorbeelden van bioinformatica software vind je op http://www.esat.kuleuven.ac.be/~dna/BioI/Software.html, of op http://www.mathworks.com/products/bioinfo/ en op talloze andere websites.

Ook op de website www.vib.be van het Vlaams Interuniversitair Instituut voor Biotechnologie vind je heel wat nuttige informatie, zowel wetenschappelijk als maatschappelijk. Enkele zeer leesbare Nederlandstalige boeken rond bio(techno)logie en genetica zijn:

- David Cassiman, Jean-Jacques Cassiman. Adam en Eva en andere verhalen over genetica. Stichting Kunstboek, 2000.

- Jean-Jacques Cassiman e.a.. Wat zit er in mijn genen. Davidsfonds, 2004.

Referenties

GERELATEERDE DOCUMENTEN

Dit leidde tot de hypothese dat AML patiënten waarvan hun leukemie cellen hoge expressie van miR-551b laten zien een leukemie zouden kunnen hebben die is ontstaan uit een

In deel II wordt ook gebruik gemaakt van de gevulde pauze en ook hier komt deze voor als aanduiding voor de start van een nieuw onderdeel, maar lijkt deze ook weer de vorm te

4p 2 Bereken in welk jaar het aantal broedende kieviten voor het eerst minder dan de helft zal zijn van het aantal in 2010...

-DATA4s delivers end-to-end solutions to financial institutions and telecom operators for improved risk analysis and management. of their customer and

share common ancestral gene in evolution.

Wij kunnen leren van de hervormers en van alle grote mannen in de kerkgeschiedenis, maar we moeten voortdurend alle dingen toetsen aan het Woord van God, en deze mannen enkel

Quantitative assessment of minimal residual disease in acute myeloïd leukemia car- rying nucleophosmin (NPM1) gene mutations. E, Green C, Allen C, Mead AJ, Burnett

In aanvulling hierop werden groepen AML-patiënten geïdentificeerd die werden gekarakteriseerd door de aanwezigheid van bepaalde genetische afwijkingen in een hoog percentage