Probabilistische modellen
in de bio-informatica
Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie
Overzicht
n Wat is bio-informatica? n Waarom bio-informatica? n Planning van de cursus
Uurrooster
n Les
n Week 39-40
n Donderdag 8:25-10:25
n Lokaal 00.57
n Geen les op 4 october en op 1 november n Oefenzittingen n Vr 23 nov 2001 14.00 91.33 n Di 27 nov 2001 10.30 91.33 n Di 04 dec 2001 10.30 91.33 n Vr 14 dec 2001 14.00 91.33 n Ma 17 dec 2001 10.30 91.33
Kernreferenties
n Hoofdreferentie: R. Durbin, A. Krogh, S. Eddy, G. Mitchinson, Biological
Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids,
Oxford University Press, 199x.
n B. Alberts, D. Bray, A. Johnson, J. Lewis, M. Raff, K. Roberts, P. Walter,
Essential Cell Biology: An Introduction to the Molecular Biology of the Cell,
Garland Publishing, 1998 (+ Interactive CD).
n P. Baldi, S. Brunak, Bioinformatics: The Machine Learning Approach, MIT Press, 2001.
n A. Baxevanis, B. Ouellette, Bioinformatics: A Practical Guide to the Analysis
of Genes and Proteins, Wiley-Interscience, 2001.
Cursusoverzicht
n Inleiding tot de moleculaire biologie
n Aligneren van biologische sequenties
n Globale aligneringsmethoden n Locale aligneringsmethoden
n Motieven vinden in sequenties I
n Meerdere aligneringen n Consensussequentie n Positie-gewichtmatrices
n Motieven vinden in sequenties II
n Verborgen Markovketens n Leeralgoritmes
Cursusoverzicht
n Genvoorspelling
n Prokaryoten n Eukaryoten
n Analyse van genuitdrukking
n Microroostertechnologieen n Clusteranalyse
n Ontdekking van regulatiemotieven
n Frequentiemethoden
n Expectation-Maximization n Gibbs sampling
Overzicht van de oefenzittingen
n Oefenzitting 1
n Web resources, BLAST, CLUSTALW
n Oefenzitting 2
n Ontwikkeling van een verborgen Markovketen
n Oefenzitting 3
n Genvoorspelling
n Oefenzitting 4
n Microroosteranalyse
n Oefenzitting 5
Wat is bio-informatica?
n Computers in de biologie en de geneeskunde
n Medische informatica n Computationele biologie n Chemo-informatica
Wat is bio-informatica?
Information Technologie Algoritmiek Moleculaire Biologie DNA RNA Proteïnen Wiskunde Statistiek Patroon-herkenning A.I. Databanken Gedistribueerde software Supercomputing Lessen OefenzittingenWaarom bio-informatica?
n Human Genome Project
n Menselijk genoom: 3 miljard basenparen
n Celera: ‘shotgun’ – grootste burgerlijke computercluster n Post-genomica
n Pharma & biotech
n Genomica levert massale hoeveelheden data n Pharma:
n Kostprijs per drug: ~ $500.000.000
n Return per drug daalt
n Pijplijn moet gestroomlijnd worden
n Biotech: onderzoekspijplijn voor
n Transgenische gewassen (Gentse specialiteit)
n ‘Nutraceuticals’ (e.g., Procter & Gamble, kanker-beschermende broccoli)
n Productie van medicamenten en moleculen met hoge toegevoegde waarde
Pharma/biotech in Belgïe
n Janssen Pharmaceutica n GlaxoSmithKline
n Aventis Crop Science n Tibotec-Virco
n DevGen
Bio-informatica op ESAT
n Onderzoeksteam van 12 mensen
n Elekt. ir., CW, statistiek, physica, wiskunde
n Bioingenieurs, arts
Moleculaire machines
n “DNA replication fork”
n “mRNA translation”
n “Safecrackers”
n Uit “Essential Cell Biology – Interactive CD”, Alberts et al., Garland
Complexiteit in de moleculaire biologie
n Kyoto Encyclopedia of Genomes and Genes
n Evolutie van Genbank en Swissprot
n Publieke databanken van genomische informatie
Moleculaire paden
Evolutie van sequentiedatabanken
n Genbank
Publieke databanken van genomische
informatie
Elementen van de moleculaire biologie
Illustraties uit Molecular Biology of the Cell en
Tree of Life
n Eukaryoten / prokaryoten (bacteriën + archaeabacteriën) n Phylogenie
Modelorganismen
E. coli (3 µm) Gist (10 µm) (Saccharomyces Cerevisae) Caenorrabdhitis elegans (1mm) Fruitvlieg (Drosophila melanogaster) Arabidopsis thaliana (20 cm) Muis (Mus musculus) Mens (Homo sapiens)De cel
n Bacteriën/prokaryoten hebben geen
celkern om hun genoom te beschermen
DNA makes RNA makes proteins
n Centraal dogma
DNA
n DNA helix (6.1) n Complementaire strengen (A-T, G-C) n Draait ‘clockwise’, 10 nucleotiden per omwentelingChemische structuur van het DNA
n Deoxyribonucleïnezuur n Adenine n Thymine n Cytosine n Guanine n Structuur n Suiker (ribose) n Phosphaatgroep n Ringverbinding n Basecomplementariteit via waterstofverbindingRNA
n Adenine – Uracil (vs. Thymine), Guanine – Cytosine
n Enkelvoudige streng (A-U paar zwakker dan A-T) n Waarschijnlijk voorouder van DNA
Functioneel RNA
n RNA heeft ook belangrijke en complexe functionele rollen n Functionele RNAs hebben een complexe structuur
Proteïnen
n Grote polymeren van 20 aminozuren
F L I M V S P T A Y H N D Q K E C R S W G R
Tridimensionale structuur van proteïnen
n Basis tridimensionale structuren
n Alpha helix (ECBI 5.2) n Beta sheet (ECBI 5.3) n Loop
n Voorbeelden van proteïnen
n Antilichaam (ECBI 5.4) n Neuramidase (ECBI 5.5)
n Elongation factor EF-Tu (ECBI 5.6)
Proteïnerollen
n Proteïne hebben
veel functies in cellen
n Katalyse (enzymen) n Bouwstructuur n Vervoer n Motor n Moleculaire opslag n Signalisatie n Receptoren n Regulatie n Voorspelling van proteïnefamilies
Kleine moleculen
n Allerhande kleine organische moleculen zijn nodig voor
de cel en zijn betrokken bij het metabolisme
n Enzymen zijn proteïne die de chemische transformatie
van deze moleculen catalyseren.
n Glucose (ECBI 2.1)
Metabolisme
Databanken van moleculaire paden
DNA makes RNA makes proteins
n Genen dragen de informatie voor de productie van proteïnen
n Transcriptie (van DNA naar mRNA) door RNA polymerase n Translatie (van mRNA naar proteïne) door ribosomen
Aminozuren en de genetische code
n 64 codons
n Start & Stop codon
Operons in prokaryoten
n Prokaryoten hebben operons waar meerdere genen
RNA splitsing in eukaryoten
n In eukaryoten wordt het gen getranscribeerd naar pre-mRNA, na welke
intronen verwijderd worden langs de splice sites om een boodschapper
mRNA van exonen te vormen
n De mRNA wordt getranslateerd van de START codon tot de STOP codon (de 5’ en 3’ UnTranslated Regions worden niet getranslateerd)
Alternatieve splitsing
Controle van regulatie
n Om transcriptie te kunnen beginnen moet
een uitgebreide complex van proteïnen aanwezig zijn
n De controle van regulatie gebeurdt
via de promotor n Bindingplaats
n Bindingproteïne / transcriptie factor
Promotor-architectuur
n Kernpromotor: TATA box – TATA binding protein, RNA
polymerase II, …
Enhancers en repressoren
n Homeodomain (8.1) n Zinc finger motif (8.2)
n Leucine zipper motif (8.3) n TATA-binding protein (8.4)
Combinatoriale controle
n Complexe integratie van signalen bepaalt de genactiviteit