• No results found

Probabilistische modellen in de bio-informatica

N/A
N/A
Protected

Academic year: 2021

Share "Probabilistische modellen in de bio-informatica"

Copied!
47
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

Probabilistische modellen

in de bio-informatica

Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie

(2)

Overzicht

n Wat is bio-informatica? n Waarom bio-informatica? n Planning van de cursus

(3)
(4)

Uurrooster

n Les

n Week 39-40

n Donderdag 8:25-10:25

n Lokaal 00.57

n Geen les op 4 october en op 1 november n Oefenzittingen n Vr 23 nov 2001 14.00 91.33 n Di 27 nov 2001 10.30 91.33 n Di 04 dec 2001 10.30 91.33 n Vr 14 dec 2001 14.00 91.33 n Ma 17 dec 2001 10.30 91.33

(5)

Kernreferenties

n Hoofdreferentie: R. Durbin, A. Krogh, S. Eddy, G. Mitchinson, Biological

Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids,

Oxford University Press, 199x.

n B. Alberts, D. Bray, A. Johnson, J. Lewis, M. Raff, K. Roberts, P. Walter,

Essential Cell Biology: An Introduction to the Molecular Biology of the Cell,

Garland Publishing, 1998 (+ Interactive CD).

n P. Baldi, S. Brunak, Bioinformatics: The Machine Learning Approach, MIT Press, 2001.

n A. Baxevanis, B. Ouellette, Bioinformatics: A Practical Guide to the Analysis

of Genes and Proteins, Wiley-Interscience, 2001.

(6)

Cursusoverzicht

n Inleiding tot de moleculaire biologie

n Aligneren van biologische sequenties

n Globale aligneringsmethoden n Locale aligneringsmethoden

n Motieven vinden in sequenties I

n Meerdere aligneringen n Consensussequentie n Positie-gewichtmatrices

n Motieven vinden in sequenties II

n Verborgen Markovketens n Leeralgoritmes

(7)

Cursusoverzicht

n Genvoorspelling

n Prokaryoten n Eukaryoten

n Analyse van genuitdrukking

n Microroostertechnologieen n Clusteranalyse

n Ontdekking van regulatiemotieven

n Frequentiemethoden

n Expectation-Maximization n Gibbs sampling

(8)

Overzicht van de oefenzittingen

n Oefenzitting 1

n Web resources, BLAST, CLUSTALW

n Oefenzitting 2

n Ontwikkeling van een verborgen Markovketen

n Oefenzitting 3

n Genvoorspelling

n Oefenzitting 4

n Microroosteranalyse

n Oefenzitting 5

(9)
(10)

Wat is bio-informatica?

n Computers in de biologie en de geneeskunde

n Medische informatica n Computationele biologie n Chemo-informatica

(11)

Wat is bio-informatica?

Information Technologie Algoritmiek Moleculaire Biologie DNA RNA Proteïnen Wiskunde Statistiek Patroon-herkenning A.I. Databanken Gedistribueerde software Supercomputing Lessen Oefenzittingen

(12)

Waarom bio-informatica?

n Human Genome Project

n Menselijk genoom: 3 miljard basenparen

n Celera: ‘shotgun’ – grootste burgerlijke computercluster n Post-genomica

n Pharma & biotech

n Genomica levert massale hoeveelheden data n Pharma:

n Kostprijs per drug: ~ $500.000.000

n Return per drug daalt

n Pijplijn moet gestroomlijnd worden

n Biotech: onderzoekspijplijn voor

n Transgenische gewassen (Gentse specialiteit)

n ‘Nutraceuticals’ (e.g., Procter & Gamble, kanker-beschermende broccoli)

n Productie van medicamenten en moleculen met hoge toegevoegde waarde

(13)
(14)

Pharma/biotech in Belgïe

n Janssen Pharmaceutica n GlaxoSmithKline

n Aventis Crop Science n Tibotec-Virco

n DevGen

(15)

Bio-informatica op ESAT

n Onderzoeksteam van 12 mensen

n Elekt. ir., CW, statistiek, physica, wiskunde

n Bioingenieurs, arts

(16)

Moleculaire machines

n “DNA replication fork”

n “mRNA translation”

n “Safecrackers”

n Uit “Essential Cell Biology – Interactive CD”, Alberts et al., Garland

(17)

Complexiteit in de moleculaire biologie

n Kyoto Encyclopedia of Genomes and Genes

n Evolutie van Genbank en Swissprot

n Publieke databanken van genomische informatie

(18)

Moleculaire paden

(19)

Evolutie van sequentiedatabanken

n Genbank

(20)

Publieke databanken van genomische

informatie

(21)
(22)

Elementen van de moleculaire biologie

Illustraties uit Molecular Biology of the Cell en

(23)

Tree of Life

n Eukaryoten / prokaryoten (bacteriën + archaeabacteriën) n Phylogenie

(24)

Modelorganismen

E. coli (3 µm) Gist (10 µm) (Saccharomyces Cerevisae) Caenorrabdhitis elegans (1mm) Fruitvlieg (Drosophila melanogaster) Arabidopsis thaliana (20 cm) Muis (Mus musculus) Mens (Homo sapiens)

(25)

De cel

n Bacteriën/prokaryoten hebben geen

celkern om hun genoom te beschermen

(26)

DNA makes RNA makes proteins

n Centraal dogma

(27)

DNA

n DNA helix (6.1) n Complementaire strengen (A-T, G-C) n Draait ‘clockwise’, 10 nucleotiden per omwenteling

(28)

Chemische structuur van het DNA

n Deoxyribonucleïnezuur n Adenine n Thymine n Cytosine n Guanine n Structuur n Suiker (ribose) n Phosphaatgroep n Ringverbinding n Basecomplementariteit via waterstofverbinding

(29)

RNA

n Adenine – Uracil (vs. Thymine), Guanine – Cytosine

n Enkelvoudige streng (A-U paar zwakker dan A-T) n Waarschijnlijk voorouder van DNA

(30)

Functioneel RNA

n RNA heeft ook belangrijke en complexe functionele rollen n Functionele RNAs hebben een complexe structuur

(31)

Proteïnen

n Grote polymeren van 20 aminozuren

F L I M V S P T A Y H N D Q K E C R S W G R

(32)

Tridimensionale structuur van proteïnen

n Basis tridimensionale structuren

n Alpha helix (ECBI 5.2) n Beta sheet (ECBI 5.3) n Loop

n Voorbeelden van proteïnen

n Antilichaam (ECBI 5.4) n Neuramidase (ECBI 5.5)

n Elongation factor EF-Tu (ECBI 5.6)

(33)

Proteïnerollen

n Proteïne hebben

veel functies in cellen

n Katalyse (enzymen) n Bouwstructuur n Vervoer n Motor n Moleculaire opslag n Signalisatie n Receptoren n Regulatie n Voorspelling van proteïnefamilies

(34)

Kleine moleculen

n Allerhande kleine organische moleculen zijn nodig voor

de cel en zijn betrokken bij het metabolisme

n Enzymen zijn proteïne die de chemische transformatie

van deze moleculen catalyseren.

n Glucose (ECBI 2.1)

(35)
(36)
(37)

Metabolisme

Databanken van moleculaire paden

(38)

DNA makes RNA makes proteins

n Genen dragen de informatie voor de productie van proteïnen

n Transcriptie (van DNA naar mRNA) door RNA polymerase n Translatie (van mRNA naar proteïne) door ribosomen

(39)

Aminozuren en de genetische code

n 64 codons

n Start & Stop codon

(40)

Operons in prokaryoten

n Prokaryoten hebben operons waar meerdere genen

(41)

RNA splitsing in eukaryoten

n In eukaryoten wordt het gen getranscribeerd naar pre-mRNA, na welke

intronen verwijderd worden langs de splice sites om een boodschapper

mRNA van exonen te vormen

n De mRNA wordt getranslateerd van de START codon tot de STOP codon (de 5’ en 3’ UnTranslated Regions worden niet getranslateerd)

(42)

Alternatieve splitsing

(43)
(44)

Controle van regulatie

n Om transcriptie te kunnen beginnen moet

een uitgebreide complex van proteïnen aanwezig zijn

n De controle van regulatie gebeurdt

via de promotor n Bindingplaats

n Bindingproteïne / transcriptie factor

(45)

Promotor-architectuur

n Kernpromotor: TATA box – TATA binding protein, RNA

polymerase II, …

(46)

Enhancers en repressoren

n Homeodomain (8.1) n Zinc finger motif (8.2)

n Leucine zipper motif (8.3) n TATA-binding protein (8.4)

(47)

Combinatoriale controle

n Complexe integratie van signalen bepaalt de genactiviteit

Referenties

GERELATEERDE DOCUMENTEN

Daarmee wordt bedoeld dat een morele overtui- ging ( evenals een godsdienstige) aileen nog particuliere betekenis heeft, daarom evenveel vormen aanneemt als er parti-

share common ancestral gene in evolution.

Als we ons afvragen, bij welke kansverdeling met n mogelijke uitkomsten we de grootste onzekerheid hebben, ligt het voor de hand dat dit bij een uniforme verdeling het geval is, want

Als we nog eens naar het voorbeeld van de taalherkenning middels letterfre- quenties kijken, kunnen we dit zien als een Markov proces waarbij de states de verschillende letters zijn.

Maar we hebben nu gezien dat de entropie de verwachtingswaarde van de informatie in de enkele uitkomsten is, dus kunnen we 2 H (X) interpreteren als het gemiddelde aantal

In the first scenario we know the previous utilization of all VMs in the changed SCs, so we only need to accurately characterize their behavior. For a new VM this is not applicable,

Een meer vakdidactische onderzoeksactiviteit bij deze kennisbank is het ver- werven van inzicht in het leren en onderwijzen van het modelleren, het ab- straheren en het zich eigen

Bereken de kans zowel voor de normale als voor de exponenti¨ele verdeling dat een data punt verder zal liggen dan de bovenste whisker in de boxplot3. Vergelijk beide kansen