HK07 – Les 6
Toepassingen van verborgen Markov modellen
Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002
Toepassingen van verborgen Markov modellen
Profiel-HMMs
Schatting
Databanksearch
Alignering
Genvoorspelling
Elementen voor genvoorspelling
Prokaryoten vs. eukaryoten
Genvoorspelling via homologie
GENSCAN
Profiel-HMMs
Verborgen Markov modellen
voor het modeleren van proteïnefamilies en voor meervoudige alignering
Voorbeeld
Deel van een alignering van het SH3 domein
Twee geconserveerde gebieden
gescheiden door een variabele regio
GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV
Profiel-HMMs
We kunnen de twee geconserveerde gebieden modelleren via een soort Positie-Specifieke
ScoringsMatrix (PSSM)
Probleem met variabele regio (geen vaste lengte)
Probleem met deleties in geconserveerde gebieden
L
i x
i x
i i
q m R
x P
M x
S P
1
) log
| (
)
| log (
Profiel-HMMs
Verborgen Markov modellen voor het modeleren van proteïnefamilies en voor meervoudige alignering
Match-, insertie-, en deletietoestanden
Bgn End Match
Insertie Deletie
Stille deletietoestanden
Deleties zouden gemodelleerd kunnen worden met shortcut jumps tussen toestanden
Probleem : aantal transities groeit kwadratisch
Andere oplossing : gebruik parallelen toestanden die geen symbool kunnen produceren (stille toestanden)
HMM uit meervoudige alignering
GGWWRGdy.ggkkqLWFPSNYV IGWLNGynettgerGDFPGTYV PNWWEGql..nnrrGIFPSNYV DEWWQArr..deqiGIVPSK-- GEWWKAqs..tgqeGFIPFNFV GDWWLArs..sgqtGYIPSNYV GDWWDAel..kgrrGKVPSNYL -DWWEArslssghrGYVPSNYV GDWWYArslitnseGYIPSTYV GEWWKArslatrkeGYIPSNYV GDWWLArslvtgreGYVPSNFV GEWWKAkslsskreGFIPSNYV GEWCEAgt.kngq.GWVPSNYI SDWWRVvnlttrqeGLIPLNFV LPWWRArd.kngqeGYIPSNYI RDWWEFrsktvytpGYYESGYV EHWWKVkd.algnvGYIPSNYV
Meervoudige alignering (+ geconserveerde kolommen) Parameter schatting = schatting met gekende paden
.85
Overeenkomstige profiel-HMM
Pseudocounts
Waarschijnlijkheden gelijk aan nul in de HMM veroorzaken het afkeuren van sequenties met residus die niet eerder gezien zijn
Om dit probleem te vermijden worden pseudocounts toegevoegd
.33 .85
Databanksearch met profiel-HMMs
Het geschatte model kan gebruikt worden om nieuwe leden van de proteïnefamilie op te sporen in een
sequentiedatabank
Voor iedere sequentie in de databank wordt P(x, * | M) (Viterbi) of P(x | M) (voorwaarts-achterwaarts) berekend
In de praktijk worden log odds berekend (t.o.v. het random model P(x | R))
Alignering met profiel-HMMs
Via Viterbi (zoeken naar het beste aligneringspad)
kunnen sequenties gealigneerd worden t.o.v. een profiel- HMM
Trainingsequenties
Databankmatches
Meervoudige alignering met profiel-HMM
Indien de sequenties niet gealigneerd zijn is het toch mogelijk een profiel-HMM te trainen
Initialisatie : kies de lengte van de profiel-HMM
Lengte van profiel-HMM is aantal matchtoestand sequentielengte
Training : schat het model via Viterbi training of Baum- Welch training
Heuristieken om lokale minimas te voorkomen
Meervoudige alignering : gebruik Viterbi decoding om de sequenties te aligneren
Uitbreidingen
Meer gesofisticeerde pesudocounts kunnen gebruikt worden
Dirichlet mengelingen
Substitutiematrixmengelingen
Aligneringsvarianten zijn mogelijk
Locale alignering
Methoden zijn beschikbaar om de matchtoestanden vs.
de insertietoestanden systematisch te bepalen
Methoden zijn beschikbaar om sequenties te wegen in functie van evolutieafstanden
Software voor profiel-HMMs
SAM: University of California Santa Cruz
http://www.cse.ucsc.edu/research/compbio/sam.html
Web service: http://www.cse.ucsc.edu/research/compbio /HMM-apps/HMM-applications.html
Hmmer (‘hammer’): Washington University, St. Louis
http://genome.wustl.edu/eddy/hmmer.html
Proteïnefamilies
PFAM
http://www.sanger.ac.uk/Software/Pfam/search.shtml
Verzameling van proteïnefamilies en proteïnedomeinen
Meervoudige aligneringen van de proteïnefamilies t.o.v. hun domeinen
Domeinorganizatie van proteïnen die worden gematched aan een familie
Profiel-HMMs van de domeinen
Genvoorspelling
Overzicht
Elementen voor genvoorspelling
Prokaryoten vs. eukaryoten
Genvoorspelling via homologie
GENSCAN
DNA makes RNA makes proteins
Elementen voor genvoorspelling
Moeilijk probleem
Genomische signalen zijn gedegenereerd
Sequentiefouten
Prokaryoten vs. eukaryoten
Hogere densiteit van genen in prokaryoten
Geen intronen in prokaryoten
Aanwijzingsbronnen (positief en negatief)
Similariteit met features die coderende gebieden meestal niet overlappen (e.g., Alu repeats)
Sequentie similariteit met gekende genen (e.g., gevonden via BLASTX)
Statistische maat van codonvoorkeur
Templatematches met functionele lokaties (e.g., splice site)
De voorspelde structuur moet de biologische grammatica respecteren
‘Search by signal vs. search by content’
Search by signal
Opsporing van korte signalen in het genoom
e.g., splice site, kernpromotor
Positiegewichtsmatrices en neurale netwerken zijn hier bruikbaar
Search by content
Opsporing van specifieke uitgestrekte gebieden op basis van uitgemiddelde frequenties
e.g., coderende gebieden, CpG eilanden
Verborgen Markov modellen zijn hier bruikbaar
Genevoorspellingsalgoritmes combineren beiden standpunten
Probabilistische modellering vs. homologie
Verborgen Markov modellen kunnen gebruikt worden voor genvoorspelling
Homologie van een sequentie met een gekend gen geeft ook een sterke aanwijzing voor het bestaan van een gen in deze sequentie
Genvoorspelling kan de twee aanpakken combineren
Problemen : prokaryoten
Korte genen zijn moeilijk te detecteren
Operonen
Overlappende genen
Signalen in prokaryoten
Transcriptiestart en stop
-35 regio
TATA box
Translatiestart en stop
Open Reading Frames
Shine-Delgarno motief
Start ATG/GTG
Stop TAA/TAG/TGA
Stem-loops
Operon
Signalen in eukaryoten
Transcriptie
Promotor/enhancer/silencer
TATA box
Introns/exons
Donor/acceptor/branch
polyA
Repeats
Alu, satelieten, expansies
CpG eilanden
Cap/CCAAT&GC boxes
Translation
5’ and 3’ UTR
Kozak consensus
Start ATG
Stop TAA/TAG/TGA
Centraal dogma
Promotor, enhancers en silencers
Intron-exonsplitsing
Consensus
Donor
(A,C)AG/GT(A,G)AGT
Acceptor
TTTTTNCAG/GCCCCC
Branch
CT(G,A)A(C,T)
Probleem : alternatieve splitsing
Probleem : pseudogenen
Verlies van promoter, extra stop codon, frameshift
Translocatie, duplicatie
Probleem : RNA genen
rRNA (ribosoom)
tRNA (transfer)
snRNA (splitsing)
tmRNA (telomerase)
Genvoorspelling via homologie
Genvoorspelling via homologie
Coderende gebieden evolueren trager dan niet
coderende gebied (geconserveerd door natuurlijke selectie omwille van hun functionele rol)
Niet enkel de proteïnesequentie maar ook de genstructuur kan geconserveerd zijn
Gebruik van standard homologiemethoden
Gensyntax moet gerespecteerd worden
Genvoorspelling via homologie
Procrustes
Vind mogelijke gerelateerde proteïnen met BLASTX (= modelsequenties)
Vind alle mogelijke blokken (exonen) op basis van acceptor/donor lokaties
Zoek welke blokken kunnen gealigneerd worden met modelsequenties
Zoek de beste alignering van blokken met de query-sequentie
Genvoorspelling via homologie
Voordelen
Erkenning van korte exonen en atypische exonen
Juiste assemblage van complexe genen (> 10 exonen)
Nadelen
Genen zonder gekenden homologen worden gemist
Goede homologen nodig voor voorspelling van genstructuur
Zeer gevoelig voor sequentiefouten
GENSCAN
GENSCAN
GENSCAN werd gebruikt voor de annotatie van het menselijk genoom in het Human Genome Project
Genvoorspelling m.b.v. verborgen semi-Markov modellen (Hidden Semi-Markov Model)
Verschillende modellen in functie van GC-inhoud (<43%
G+C, 43-50%, 50-57%, >57%)
Typische genstructuur
Signaal : menselijke splice site
5’ splice site
3’ splice site
Verborgen semi-Markov modellen
Voorbeeld
Knopen van HSMM
Positie-gewichtsmatrix (signal)
Hogere orde positie-gewichtsmatrix
HMM (content)
Architectuur van GENSCAN
Training van HSMM
Viterbi algoritme Viterbi algoritme voor HSMMs