Probabilistische modellen in de bio-informatica

(1)

Probabilistische modellen

in de bio-informatica

Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie

(2)

Overzicht

n Wat is bio-informatica? n _{Waarom bio-informatica?} n Planning van de cursus

(3)

(4)

Uurrooster

n Les

n Week 39-40

n Donderdag 8:25-10:25

n Lokaal 00.57

n _{Geen les op 4 october en op 1 november} n _{Oefenzittingen} n Vr 23 nov 2001 14.00 91.33 n Di 27 nov 2001 10.30 91.33 n Di 04 dec 2001 10.30 91.33 n Vr 14 dec 2001 14.00 91.33 n Ma 17 dec 2001 10.30 91.33

(5)

Kernreferenties

n Hoofdreferentie: R. Durbin, A. Krogh, S. Eddy, G. Mitchinson, Biological

Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids,

Oxford University Press, 199x.

n B. Alberts, D. Bray, A. Johnson, J. Lewis, M. Raff, K. Roberts, P. Walter,

Essential Cell Biology: An Introduction to the Molecular Biology of the Cell,

Garland Publishing, 1998 (+ Interactive CD).

n P. Baldi, S. Brunak, Bioinformatics: The Machine Learning Approach, MIT Press, 2001.

n A. Baxevanis, B. Ouellette, Bioinformatics: A Practical Guide to the Analysis

of Genes and Proteins, Wiley-Interscience, 2001.

(6)

Cursusoverzicht

n _{Inleiding tot de moleculaire biologie}

n _{Aligneren van biologische sequenties}

n Globale aligneringsmethoden n Locale aligneringsmethoden

n Motieven vinden in sequenties I

n Meerdere aligneringen n Consensussequentie n Positie-gewichtmatrices

n Motieven vinden in sequenties II

n Verborgen Markovketens n Leeralgoritmes

(7)

Cursusoverzicht

n _{Genvoorspelling}

n Prokaryoten n Eukaryoten

n Analyse van genuitdrukking

n Microroostertechnologieen n Clusteranalyse

n Ontdekking van regulatiemotieven

n Frequentiemethoden

n Expectation-Maximization n Gibbs sampling

(8)

Overzicht van de oefenzittingen

n Oefenzitting 1

n Web resources, BLAST, CLUSTALW

n Oefenzitting 2

n Ontwikkeling van een verborgen Markovketen

n _{Oefenzitting 3}

n Genvoorspelling

n Oefenzitting 4

n Microroosteranalyse

n Oefenzitting 5

(9)

(10)

Wat is bio-informatica?

n _{Computers in de biologie en de geneeskunde}

n Medische informatica n Computationele biologie n Chemo-informatica

(11)

Wat is bio-informatica?

Information Technologie Algoritmiek Moleculaire Biologie DNA RNA Proteïnen Wiskunde Statistiek Patroon-herkenning A.I. Databanken Gedistribueerde software Supercomputing Lessen Oefenzittingen

(12)

Waarom bio-informatica?

n _{Human Genome Project}

n Menselijk genoom: 3 miljard basenparen

n Celera: ‘shotgun’ – grootste burgerlijke computercluster n Post-genomica

n _{Pharma & biotech}

n Genomica levert massale hoeveelheden data n Pharma:

n Kostprijs per drug: ~ $500.000.000

n Return per drug daalt

n Pijplijn moet gestroomlijnd worden

n Biotech: onderzoekspijplijn voor

n Transgenische gewassen (Gentse specialiteit)

n ‘Nutraceuticals’ (e.g., Procter & Gamble, kanker-beschermende broccoli)

n Productie van medicamenten en moleculen met hoge toegevoegde waarde

(13)

(14)

Pharma/biotech in Belgïe

n Janssen Pharmaceutica n GlaxoSmithKline

n Aventis Crop Science n Tibotec-Virco

n DevGen

(15)

Bio-informatica op ESAT

n Onderzoeksteam van 12 mensen

n Elekt. ir., CW, statistiek, physica, wiskunde

n Bioingenieurs, arts

(16)

Moleculaire machines

n “DNA replication fork”

n “mRNA translation”

n “Safecrackers”

n Uit “Essential Cell Biology – Interactive CD”, Alberts et al., Garland

(17)

Complexiteit in de moleculaire biologie

n _{Kyoto Encyclopedia of Genomes and Genes}

n Evolutie van Genbank en Swissprot

n _{Publieke databanken van genomische informatie}

(18)

Moleculaire paden

(19)

Evolutie van sequentiedatabanken

n Genbank

(20)

Publieke databanken van genomische

informatie

(21)

(22)

Elementen van de moleculaire biologie

Illustraties uit Molecular Biology of the Cell en

(23)

Tree of Life

n Eukaryoten / prokaryoten (bacteriën + archaeabacteriën) n _Phylogenie

(24)

Modelorganismen

E. coli (3 µm) Gist (10 µm) (Saccharomyces Cerevisae) Caenorrabdhitis elegans (1mm) Fruitvlieg (Drosophila melanogaster) Arabidopsis thaliana (20 cm) Muis (Mus musculus) Mens (Homo sapiens)

(25)

De cel

n Bacteriën/prokaryoten hebben geen

celkern om hun genoom te beschermen

(26)

DNA makes RNA makes proteins

n Centraal dogma

(27)

DNA

n DNA helix (6.1) n Complementaire strengen (A-T, G-C) n Draait ‘clockwise’, 10 nucleotiden per omwenteling

(28)

Chemische structuur van het DNA

n Deoxyribonucleïnezuur n Adenine n Thymine n Cytosine n Guanine n Structuur n Suiker (ribose) n Phosphaatgroep n Ringverbinding n _{Basecomplementariteit} via waterstofverbinding

(29)

RNA

n Adenine – Uracil (vs. Thymine), Guanine – Cytosine

n Enkelvoudige streng (A-U paar zwakker dan A-T) n Waarschijnlijk voorouder van DNA

(30)

Functioneel RNA

n RNA heeft ook belangrijke en complexe functionele rollen n _{Functionele RNAs hebben een complexe structuur}

(31)

Proteïnen

n Grote polymeren van 20 aminozuren

F L I M V S P T A Y H N D Q K E C R S W G R

(32)

Tridimensionale structuur van proteïnen

n Basis tridimensionale structuren

n Alpha helix (ECBI 5.2) n Beta sheet (ECBI 5.3) n Loop

n Voorbeelden van proteïnen

n Antilichaam (ECBI 5.4) n Neuramidase (ECBI 5.5)

n Elongation factor EF-Tu (ECBI 5.6)

(33)

Proteïnerollen

n Proteïne hebben

veel functies in cellen

n Katalyse (enzymen) n Bouwstructuur n Vervoer n Motor n Moleculaire opslag n Signalisatie n Receptoren n Regulatie n _Voorspelling van proteïnefamilies

(34)

Kleine moleculen

n Allerhande kleine organische moleculen zijn nodig voor

de cel en zijn betrokken bij het metabolisme

n Enzymen zijn proteïne die de chemische transformatie

van deze moleculen catalyseren.

n Glucose (ECBI 2.1)

(35)

(36)

(37)

Metabolisme

Databanken van moleculaire paden

(38)

DNA makes RNA makes proteins

n Genen dragen de informatie voor de productie van proteïnen

n Transcriptie (van DNA naar mRNA) door RNA polymerase n Translatie (van mRNA naar proteïne) door ribosomen

(39)

Aminozuren en de genetische code

n 64 codons

n Start & Stop codon

(40)

Operons in prokaryoten

n Prokaryoten hebben operons waar meerdere genen

(41)

RNA splitsing in eukaryoten

n In eukaryoten wordt het gen getranscribeerd naar pre-mRNA, na welke

intronen verwijderd worden langs de splice sites om een boodschapper

mRNA van exonen te vormen

n De mRNA wordt getranslateerd van de START codon tot de STOP codon (de 5’ en 3’ UnTranslated Regions worden niet getranslateerd)

(42)

Alternatieve splitsing

(43)

(44)

Controle van regulatie

n Om transcriptie te kunnen beginnen moet

een uitgebreide complex van proteïnen aanwezig zijn

n _{De controle van regulatie gebeurdt}

via de promotor n Bindingplaats

n Bindingproteïne / transcriptie factor

(45)

Promotor-architectuur

n Kernpromotor: TATA box – TATA binding protein, RNA

polymerase II, …

(46)

Enhancers en repressoren

n Homeodomain (8.1) n _{Zinc finger motif (8.2)}

n Leucine zipper motif (8.3) n TATA-binding protein (8.4)

(47)

Combinatoriale controle

n Complexe integratie van signalen bepaalt de genactiviteit