HK07 – Les 6

(1)

HK07 – Les 6

Toepassingen van verborgen Markov modellen

Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002

(2)

Toepassingen van verborgen Markov modellen

 Profiel-HMMs

 Schatting

 Databanksearch

 Alignering

 Genvoorspelling

 Elementen voor genvoorspelling

 Prokaryoten vs. eukaryoten

 Genvoorspelling via homologie

 GENSCAN

(3)

Profiel-HMMs

 Verborgen Markov modellen

voor het modeleren van proteïnefamilies en voor meervoudige alignering

 Voorbeeld

 Deel van een alignering van het SH3 domein

 Twee geconserveerde gebieden

gescheiden door een variabele regio

GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV

(4)

Profiel-HMMs

 We kunnen de twee geconserveerde gebieden modelleren via een soort Positie-Specifieke

ScoringsMatrix (PSSM)

 Probleem met variabele regio (geen vaste lengte)

 Probleem met deleties in geconserveerde gebieden





 ^L

i x

i i

q m R

x P

M x

S P

1

) log

| (

)

| log (

(5)

Profiel-HMMs

 Verborgen Markov modellen voor het modeleren van proteïnefamilies en voor meervoudige alignering

 Match-, insertie-, en deletietoestanden

Bgn End Match

Insertie Deletie

(6)

Stille deletietoestanden

 Deleties zouden gemodelleerd kunnen worden met shortcut jumps tussen toestanden

 Probleem : aantal transities groeit kwadratisch

 Andere oplossing : gebruik parallelen toestanden die geen symbool kunnen produceren (stille toestanden)

(7)

HMM uit meervoudige alignering

GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV

Meervoudige alignering (+ geconserveerde kolommen) Parameter schatting = schatting met gekende paden

.85

Overeenkomstige profiel-HMM

(8)

Pseudocounts

 Waarschijnlijkheden gelijk aan nul in de HMM veroorzaken het afkeuren van sequenties met residus die niet eerder gezien zijn

 Om dit probleem te vermijden worden pseudocounts toegevoegd

.33 .85

(9)

Databanksearch met profiel-HMMs

 Het geschatte model kan gebruikt worden om nieuwe leden van de proteïnefamilie op te sporen in een

sequentiedatabank

 Voor iedere sequentie in de databank wordt P(x, ^* | M) (Viterbi) of P(x | M) (voorwaarts-achterwaarts) berekend

 In de praktijk worden log odds berekend (t.o.v. het random model P(x | R))

(10)

Alignering met profiel-HMMs

 Via Viterbi (zoeken naar het beste aligneringspad)

kunnen sequenties gealigneerd worden t.o.v. een profiel- HMM

 Trainingsequenties

 Databankmatches

(11)

Meervoudige alignering met profiel-HMM

 Indien de sequenties niet gealigneerd zijn is het toch mogelijk een profiel-HMM te trainen

 Initialisatie : kies de lengte van de profiel-HMM

 Lengte van profiel-HMM is aantal matchtoestand  sequentielengte

 Training : schat het model via Viterbi training of Baum- Welch training

 Heuristieken om lokale minimas te voorkomen

 Meervoudige alignering : gebruik Viterbi decoding om de sequenties te aligneren

(12)

Uitbreidingen

 Meer gesofisticeerde pesudocounts kunnen gebruikt worden

 Dirichlet mengelingen

 Substitutiematrixmengelingen

 Aligneringsvarianten zijn mogelijk

 Locale alignering

 Methoden zijn beschikbaar om de matchtoestanden vs.

de insertietoestanden systematisch te bepalen

 Methoden zijn beschikbaar om sequenties te wegen in functie van evolutieafstanden

(13)

Software voor profiel-HMMs

 SAM: University of California Santa Cruz

 http://www.cse.ucsc.edu/research/compbio/sam.html

 Web service: http://www.cse.ucsc.edu/research/compbio /HMM-apps/HMM-applications.html

 Hmmer (‘hammer’): Washington University, St. Louis

 http://genome.wustl.edu/eddy/hmmer.html

(14)

Proteïnefamilies

 PFAM

 http://www.sanger.ac.uk/Software/Pfam/search.shtml

 Verzameling van proteïnefamilies en proteïnedomeinen

 Meervoudige aligneringen van de proteïnefamilies t.o.v. hun domeinen

 Domeinorganizatie van proteïnen die worden gematched aan een familie

 Profiel-HMMs van de domeinen

(15)

Genvoorspelling

(16)

Overzicht

 Elementen voor genvoorspelling

 Genvoorspelling via homologie

 GENSCAN

(17)

(18)

DNA makes RNA makes proteins

(19)

Elementen voor genvoorspelling

 Moeilijk probleem

 Genomische signalen zijn gedegenereerd

 Sequentiefouten

 Hogere densiteit van genen in prokaryoten

 Geen intronen in prokaryoten

 Aanwijzingsbronnen (positief en negatief)

 Similariteit met features die coderende gebieden meestal niet overlappen (e.g., Alu repeats)

 Sequentie similariteit met gekende genen (e.g., gevonden via BLASTX)

 Statistische maat van codonvoorkeur

 Templatematches met functionele lokaties (e.g., splice site)

 De voorspelde structuur moet de biologische grammatica respecteren

(20)

‘Search by signal vs. search by content’

 Search by signal

 Opsporing van korte signalen in het genoom

 e.g., splice site, kernpromotor

 Positiegewichtsmatrices en neurale netwerken zijn hier bruikbaar

 Search by content

 Opsporing van specifieke uitgestrekte gebieden op basis van uitgemiddelde frequenties

 e.g., coderende gebieden, CpG eilanden

 Verborgen Markov modellen zijn hier bruikbaar

 Genevoorspellingsalgoritmes combineren beiden standpunten

(21)

Probabilistische modellering vs. homologie

 Verborgen Markov modellen kunnen gebruikt worden voor genvoorspelling

 Homologie van een sequentie met een gekend gen geeft ook een sterke aanwijzing voor het bestaan van een gen in deze sequentie

 Genvoorspelling kan de twee aanpakken combineren

(22)

Problemen : prokaryoten

 Korte genen zijn moeilijk te detecteren

 Operonen

 Overlappende genen

(23)

Signalen in prokaryoten

 Transcriptiestart en stop

 -35 regio

 TATA box

 Translatiestart en stop

 Open Reading Frames

 Shine-Delgarno motief

 Start ATG/GTG

 Stop TAA/TAG/TGA

 Stem-loops

 Operon

(24)

Signalen in eukaryoten

 Transcriptie

 Promotor/enhancer/silencer

 TATA box

 Introns/exons

 Donor/acceptor/branch

 polyA

 Repeats

 Alu, satelieten, expansies

 CpG eilanden

 Cap/CCAAT&GC boxes

 Translation

 5’ and 3’ UTR

 Kozak consensus

 Start ATG

 Stop TAA/TAG/TGA

(25)

Centraal dogma

(26)

Promotor, enhancers en silencers

(27)

Intron-exonsplitsing

 Consensus

 Donor

 (A,C)AG/GT(A,G)AGT

 Acceptor

 TTTTTNCAG/GCCCCC

 Branch

 CT(G,A)A(C,T)

(28)

Probleem : alternatieve splitsing

(29)

Probleem : pseudogenen

 Verlies van promoter, extra stop codon, frameshift

 Translocatie, duplicatie

(30)

Probleem : RNA genen

 rRNA (ribosoom)

 tRNA (transfer)

 snRNA (splitsing)

 tmRNA (telomerase)

(31)

Genvoorspelling via homologie

(32)

Genvoorspelling via homologie

 Coderende gebieden evolueren trager dan niet

coderende gebied (geconserveerd door natuurlijke selectie omwille van hun functionele rol)

 Niet enkel de proteïnesequentie maar ook de genstructuur kan geconserveerd zijn

 Gebruik van standard homologiemethoden

 Gensyntax moet gerespecteerd worden

(33)

Genvoorspelling via homologie

(34)

Procrustes

 Vind mogelijke gerelateerde proteïnen met BLASTX (= modelsequenties)

 Vind alle mogelijke blokken (exonen) op basis van acceptor/donor lokaties

 Zoek welke blokken kunnen gealigneerd worden met modelsequenties

 Zoek de beste alignering van blokken met de query-sequentie

(35)

Genvoorspelling via homologie

 Voordelen

 Erkenning van korte exonen en atypische exonen

 Juiste assemblage van complexe genen (> 10 exonen)

 Nadelen

 Genen zonder gekenden homologen worden gemist

 Goede homologen nodig voor voorspelling van genstructuur

 Zeer gevoelig voor sequentiefouten

(36)

GENSCAN

(37)

GENSCAN

 GENSCAN werd gebruikt voor de annotatie van het menselijk genoom in het Human Genome Project

 Genvoorspelling m.b.v. verborgen semi-Markov modellen (Hidden Semi-Markov Model)

 Verschillende modellen in functie van GC-inhoud (<43%

G+C, 43-50%, 50-57%, >57%)

(38)

Typische genstructuur

(39)

Signaal : menselijke splice site

 5’ splice site

 3’ splice site

(40)

Verborgen semi-Markov modellen

(41)

Voorbeeld

 Knopen van HSMM

 Positie-gewichtsmatrix (signal)

 Hogere orde positie-gewichtsmatrix

 HMM (content)

(42)

Architectuur van GENSCAN

(43)

Training van HSMM

Viterbi algoritme Viterbi algoritme voor HSMMs