• No results found

HK07 – Les 6

N/A
N/A
Protected

Academic year: 2021

Share "HK07 – Les 6"

Copied!
43
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

HK07 – Les 6

Toepassingen van verborgen Markov modellen

Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002

(2)

Toepassingen van verborgen Markov modellen

Profiel-HMMs

Schatting

Databanksearch

Alignering

Genvoorspelling

Elementen voor genvoorspelling

Prokaryoten vs. eukaryoten

Genvoorspelling via homologie

GENSCAN

(3)

Profiel-HMMs

Verborgen Markov modellen

voor het modeleren van proteïnefamilies en voor meervoudige alignering

Voorbeeld

Deel van een alignering van het SH3 domein

Twee geconserveerde gebieden

gescheiden door een variabele regio

GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV

(4)

Profiel-HMMs

We kunnen de twee geconserveerde gebieden modelleren via een soort Positie-Specifieke

ScoringsMatrix (PSSM)

Probleem met variabele regio (geen vaste lengte)

Probleem met deleties in geconserveerde gebieden

L

i x

i x

i i

q m R

x P

M x

S P

1

) log

| (

)

| log (

(5)

Profiel-HMMs

Verborgen Markov modellen voor het modeleren van proteïnefamilies en voor meervoudige alignering

Match-, insertie-, en deletietoestanden

Bgn End Match

Insertie Deletie

(6)

Stille deletietoestanden

Deleties zouden gemodelleerd kunnen worden met shortcut jumps tussen toestanden

Probleem : aantal transities groeit kwadratisch

Andere oplossing : gebruik parallelen toestanden die geen symbool kunnen produceren (stille toestanden)

(7)

HMM uit meervoudige alignering

GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV

Meervoudige alignering (+ geconserveerde kolommen) Parameter schatting = schatting met gekende paden

.85

Overeenkomstige profiel-HMM

(8)

Pseudocounts

Waarschijnlijkheden gelijk aan nul in de HMM veroorzaken het afkeuren van sequenties met residus die niet eerder gezien zijn

Om dit probleem te vermijden worden pseudocounts toegevoegd

.33 .85

(9)

Databanksearch met profiel-HMMs

Het geschatte model kan gebruikt worden om nieuwe leden van de proteïnefamilie op te sporen in een

sequentiedatabank

Voor iedere sequentie in de databank wordt P(x, * | M) (Viterbi) of P(x | M) (voorwaarts-achterwaarts) berekend

In de praktijk worden log odds berekend (t.o.v. het random model P(x | R))

(10)

Alignering met profiel-HMMs

Via Viterbi (zoeken naar het beste aligneringspad)

kunnen sequenties gealigneerd worden t.o.v. een profiel- HMM

Trainingsequenties

Databankmatches

(11)

Meervoudige alignering met profiel-HMM

Indien de sequenties niet gealigneerd zijn is het toch mogelijk een profiel-HMM te trainen

Initialisatie : kies de lengte van de profiel-HMM

Lengte van profiel-HMM is aantal matchtoestand  sequentielengte

Training : schat het model via Viterbi training of Baum- Welch training

Heuristieken om lokale minimas te voorkomen

Meervoudige alignering : gebruik Viterbi decoding om de sequenties te aligneren

(12)

Uitbreidingen

Meer gesofisticeerde pesudocounts kunnen gebruikt worden

Dirichlet mengelingen

Substitutiematrixmengelingen

Aligneringsvarianten zijn mogelijk

Locale alignering

Methoden zijn beschikbaar om de matchtoestanden vs.

de insertietoestanden systematisch te bepalen

Methoden zijn beschikbaar om sequenties te wegen in functie van evolutieafstanden

(13)

Software voor profiel-HMMs

SAM: University of California Santa Cruz

http://www.cse.ucsc.edu/research/compbio/sam.html

Web service: http://www.cse.ucsc.edu/research/compbio /HMM-apps/HMM-applications.html

Hmmer (‘hammer’): Washington University, St. Louis

http://genome.wustl.edu/eddy/hmmer.html

(14)

Proteïnefamilies

PFAM

http://www.sanger.ac.uk/Software/Pfam/search.shtml

Verzameling van proteïnefamilies en proteïnedomeinen

Meervoudige aligneringen van de proteïnefamilies t.o.v. hun domeinen

Domeinorganizatie van proteïnen die worden gematched aan een familie

Profiel-HMMs van de domeinen

(15)

Genvoorspelling

(16)

Overzicht

Elementen voor genvoorspelling

Prokaryoten vs. eukaryoten

Genvoorspelling via homologie

GENSCAN

(17)
(18)

DNA makes RNA makes proteins

(19)

Elementen voor genvoorspelling

Moeilijk probleem

Genomische signalen zijn gedegenereerd

Sequentiefouten

Prokaryoten vs. eukaryoten

Hogere densiteit van genen in prokaryoten

Geen intronen in prokaryoten

Aanwijzingsbronnen (positief en negatief)

Similariteit met features die coderende gebieden meestal niet overlappen (e.g., Alu repeats)

Sequentie similariteit met gekende genen (e.g., gevonden via BLASTX)

Statistische maat van codonvoorkeur

Templatematches met functionele lokaties (e.g., splice site)

De voorspelde structuur moet de biologische grammatica respecteren

(20)

‘Search by signal vs. search by content’

Search by signal

Opsporing van korte signalen in het genoom

e.g., splice site, kernpromotor

Positiegewichtsmatrices en neurale netwerken zijn hier bruikbaar

Search by content

Opsporing van specifieke uitgestrekte gebieden op basis van uitgemiddelde frequenties

e.g., coderende gebieden, CpG eilanden

Verborgen Markov modellen zijn hier bruikbaar

Genevoorspellingsalgoritmes combineren beiden standpunten

(21)

Probabilistische modellering vs. homologie

Verborgen Markov modellen kunnen gebruikt worden voor genvoorspelling

Homologie van een sequentie met een gekend gen geeft ook een sterke aanwijzing voor het bestaan van een gen in deze sequentie

Genvoorspelling kan de twee aanpakken combineren

(22)

Problemen : prokaryoten

Korte genen zijn moeilijk te detecteren

Operonen

Overlappende genen

(23)

Signalen in prokaryoten

Transcriptiestart en stop

-35 regio

TATA box

Translatiestart en stop

Open Reading Frames

Shine-Delgarno motief

Start ATG/GTG

Stop TAA/TAG/TGA

Stem-loops

Operon

(24)

Signalen in eukaryoten

Transcriptie

Promotor/enhancer/silencer

TATA box

Introns/exons

Donor/acceptor/branch

polyA

Repeats

Alu, satelieten, expansies

CpG eilanden

Cap/CCAAT&GC boxes

Translation

5’ and 3’ UTR

Kozak consensus

Start ATG

Stop TAA/TAG/TGA

(25)

Centraal dogma

(26)

Promotor, enhancers en silencers

(27)

Intron-exonsplitsing

Consensus

Donor

(A,C)AG/GT(A,G)AGT

Acceptor

TTTTTNCAG/GCCCCC

Branch

CT(G,A)A(C,T)

(28)

Probleem : alternatieve splitsing

(29)

Probleem : pseudogenen

Verlies van promoter, extra stop codon, frameshift

Translocatie, duplicatie

(30)

Probleem : RNA genen

rRNA (ribosoom)

tRNA (transfer)

snRNA (splitsing)

tmRNA (telomerase)

(31)

Genvoorspelling via homologie

(32)

Genvoorspelling via homologie

Coderende gebieden evolueren trager dan niet

coderende gebied (geconserveerd door natuurlijke selectie omwille van hun functionele rol)

Niet enkel de proteïnesequentie maar ook de genstructuur kan geconserveerd zijn

Gebruik van standard homologiemethoden

Gensyntax moet gerespecteerd worden

(33)

Genvoorspelling via homologie

(34)

Procrustes

Vind mogelijke gerelateerde proteïnen met BLASTX (= modelsequenties)

Vind alle mogelijke blokken (exonen) op basis van acceptor/donor lokaties

Zoek welke blokken kunnen gealigneerd worden met modelsequenties

Zoek de beste alignering van blokken met de query-sequentie

(35)

Genvoorspelling via homologie

Voordelen

Erkenning van korte exonen en atypische exonen

Juiste assemblage van complexe genen (> 10 exonen)

Nadelen

Genen zonder gekenden homologen worden gemist

Goede homologen nodig voor voorspelling van genstructuur

Zeer gevoelig voor sequentiefouten

(36)

GENSCAN

(37)

GENSCAN

GENSCAN werd gebruikt voor de annotatie van het menselijk genoom in het Human Genome Project

Genvoorspelling m.b.v. verborgen semi-Markov modellen (Hidden Semi-Markov Model)

Verschillende modellen in functie van GC-inhoud (<43%

G+C, 43-50%, 50-57%, >57%)

(38)

Typische genstructuur

(39)

Signaal : menselijke splice site

5’ splice site

3’ splice site

(40)

Verborgen semi-Markov modellen

(41)

Voorbeeld

Knopen van HSMM

Positie-gewichtsmatrix (signal)

Hogere orde positie-gewichtsmatrix

HMM (content)

(42)

Architectuur van GENSCAN

(43)

Training van HSMM

Viterbi algoritme Viterbi algoritme voor HSMMs

Referenties

GERELATEERDE DOCUMENTEN

Omdat in dit geval de kwadratische afwij- kingen binnen de steekproeven relatief een groter deel bijdragen aan de totale kwadratische afwijking, zou men de nulhypothese

 Homologe sequenties zijn ortholoog als hun verschillen niet gerelateerd zijn aan een

 Om de ruis te verminderen in de schatting van de frequenties, zijn de matrixscores voor een bepaalde positie niet enkel afhankelijk van de betrokken kolom maar ook van

Stel dat er een vaste relatie bestaat tussen de overtuiging in een stelling en de overtuiging in de negatie van deze stelling.. Stel dat er een vaste relatie bestaat tussen

 Voor de voorwaartse en achterwaartse algoritmen kan er met logaritmes gewerkt worden via een benadering of kan er met een herschalering van de variabelen gewerkt

•Move centroids to center of assign

 Kies het aantal clusters K en start met willekeurige posities voor K centra.

 EM clustering mogelijk voor diagonale covariantie ; meestal onmogelijk voor volledige covariantiematrix omwille van het te groot aantal parameters.  EM clustering mogelijk