HK07 – Les 4
Inleiding tot de Bayesiaanse statistiek
Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002
Overzicht
De Cox-Jaynes axiomas
De regel van Bayes
Probabilistische modellen
Maximum aannemelijkheid
Maximum a posteriori
Bayesiaanse inferentie
Multinomiale en Dirichletverdelingen
Schatting van frequentiematrices
Pseudocounts
Dirichletmengeling
De Cox-Jaynes axiomas
en de regel van Bayes
Waarschijnlijkheid vs. overtuiging
Wat is een waarschijnlijkheid?
Frequentistisch standpunt
Waarschijnlijkheden zijn wat frequentietellingen (muntstuk, dobbelsteen) en histogrammen (lengte van mensen) naar convergeren
Zulke definitie trekt op een cirkelredenering omwille van de afhankelijkheid op de Centrale Limiete Stelling
Maattheoriestandpunt
Waarschijnlijkheden voldoen aan de -algebra axiomas van Kolmogorov
Rigoureuze definitie die goed past binnen het kader van integratieleer en maattheorie
Maar definitie is ad hoc opgebouwd om binnen dit kader te passen
Bayesiaans standpunt
Waarchijnlijkheden zijn modellen voor de onzekerheid betreffende stellingen binnen een domein
Inductie vs. deductie
Deductie
ALS ( A B EN A = WAAR ) DAN B = WAAR
Inductie
ALS ( A B EN A = WAAR ) DAN wordt A meer plausibel
Waarschijnlijkheden voldoen aan de regel van Bayes
Cox-Jaynes axiomas
De Cox-Jaynes axiomas laten toe een ruim
probabilistich raamwerk op te bouwen met minimale veronderstellingen
Eerst, enkele begrippen
A is een stelling
A waar of niet waar
D is een domein
Informatie die beschikbaar is over de huidige situatie
OVERTUIGING (belief): (A=TRUE |D)
Overtuiging die we hebben dat de stelling waar is gegeven de domeininformatie
Tweede, enkele veronderstellingen
1. Stel dat we overtuigingen kunnen vergelijken
(A|D) > (B|D) A is meer plausibel dan B gegeven D en stel dat deze vergelijking transitief is
We hebben een ordeningsrelatie, dus is een getal
))
| ( )
| ( ( DAN
))
| ( )
| ( ( EN ))
| ( )
| ( ( ALS
D D
D D
D D
C B
C B
B A
2. Stel dat er een vaste relatie bestaat tussen de overtuiging in een stelling en de overtuiging in de negatie van deze stelling
3. Stel dat er een vaste relatie bestaat tussen enerzijds de overtuiging in de vereningen van twee stellingen en
anderzijds de overtuiging in de eerste stelling en de overtuiging in de tweede stelling gegeven de eerste
d.w.z. ( | ) ( | ) ( | ) ( | )
))
| ( ( )
| (
D D
D D
D D
B A
B A
A f
A
)) ,
| ( ),
| ( ( )
| ,
(A B
D
g AD
B AD
Regel van Bayes
DAN (na herschalering van de overtuigingen) kan er aangetoond worden dat
Regel van Bayes
Als we de Cox-Jaynes axiomas aanvaarden, kunnen we de regel van Bayes altijd toepassen, ongeacht de
specifieke definitie van waarschijnlijkheden )
| (
)
| ( ).
,
| ) (
,
|
(
D
D D D
A P
B P B
A A P
B
P
)
| ( ).
,
| ( )
| , (
1 )
| ( )
| (
D D
D
D D
A P A
B P B
A P
A P A
P
Belang van het domein D
Het domein D is een flexibel begrip dat de achtergrond informatie omvat die relevant is voor het probleem
Het is belangrijk het probleem binnen het gepaste domein te plaatsen
Voorbeeld
Diagnose van de ziekte van Tay-Sachs
Zeldzame ziekte die vaker voorkomt bij asjkenazi joden
Met dezelfde symptomen zal de waarschijnlijkheid van de ziekte kleiner zijn als we ons in Gasthuisberg bevinden dan als we in Mount Sinai Hospital in New York bevinden
Als we proberen een model op te bouwen met alle patienten ter wereld, zal dit model niet efficienter zijn
) ,
| ( )
,
|
(D S DBE P D S DNY
P
World) NY)
World Asjk
,
| ( ,
| (
) ,
Asjk ,
| ( )
, Asjk ,
| (
D D
D D
S D P S
D P
P S D P P
S D P
Probabilistische modellen en inferentie
Probabilistische modellen
We hebben een domein
D
We hebben observatiegegevens D
We hebben een model M met parameters
Voorbeeld 1
Domein D: het genoom van een bepaald organisme
Gegevens D: een DNA sequentie S = ’ACCTGATCACCCT’
Model M: de sequenties worden gegenereerd via een multinomiale verdeling op het alfabet {A,C,G,T}
Parameters : (A,C,G,T ) with A C G T 1
Voorbeeld 2
Domein D: alle mensen in Europa
Gegevens D: de lengte van mensen uit een groep
Model M: de lengte is normaal verdeeld N(m,)
Parameters : de gemiddelde m en de variantie
Generatieve modellen
Het is vaak mogelijk een model op te zetten van de aannemelijkheid van de observatiegegevens
Bijvoorbeeld, voor de DNA sequentie
Meer gesofisticeerde modellen zijn mogelijk
HMMs
Gibbs sampling voor het vinden van motieven
Bayesiaanse netwerken
We willen het model vinden dat onze gegevens best beschrijft
L
i
Si
M S
P
1
) ,
|
(
‘Maximum likelihood’
Maximum aannemelijkheid (maximum likelihood ML)
Consistent: als de gegevens gegenereerd werden door het
model M met parameters *, zal ML naar * convergeren als het aantal gegevens naar oneindig gaat
Merk op dat de gegevens misschien niet door een instantie van het model gegenereerd werden
Als de hoeveelheid gegevens klein is, kan er een groot verschil zijn tussen ML en *
) ,
| (
argmax P D M
ML
Maximum a posteriori waarschijnlijkheid
Maximum a posteriori waarschijnlijkheid (MAP)
Regel van Bayes
Dus
) ,
| (
argmaxP D M
MAP
)
| ( / )
| ( ) ,
| ( )
,
|
( D M P D M P M P D M
P
posterior aannemelijkheid
van de gegevens prior
)
| (
)
| ( ) ,
| argmax (
M D
P
M P
M D
MAP P
a priori knowledge plays no role in optimization over
Posterior gemiddelde schatting
Posterior gemiddelde schatting
Posterior mean estimate
PME .P( | D,M )d
Verdelingen over parameters
Laten we meer voorzichtig kijken naar P(|M) (of naar P(|D,M))
P(|M) is een waarschijnlijkheidsverdeling over de PARAMETERS
We moeten tegelijk verdelingen over observatiegegevens en over parameters behandelen
Voorbeeld
Verdeling van de lengte van mensen P(D|,M)
Prior P(|M)
) (L p
Lengte
150 175 200
) , (m N
) (m p
Gemiddelde
150 175 200
) ( p
Standard deviatie lengte
5 10 15
Bayesiaanse inferentie
Als we de verdeling van de waarschijnlijkheid van de parameters willen updaten met nieuwe gegevens D
1. Kies een redelijke prior
2. Voeg de informatie uit de gegevens toe
3. Bekom de geupdated verdeling voor de parameters (Vaak wordt er gewerkt met logaritmes)
d M P
M D
P
M P
M D
P
M D
P
M P
M D
M P D P
)
| ( )
| , (
)
| ( ) ,
| (
)
| (
)
| ( ) ,
| ) (
,
|
( 1
3
2
Bayesiaanse inferentie
Voorbeeld
)
| (m M p
Gemiddelde lengte
150 175 200
) ,
|
(m B M p
Gemiddelde lengte
150 175 200
) ,
|
(m H M p
Gemiddelde lengte
150 175 200
100 Belgische mannen
100 Nederlandse mannen
Multinomiale en Dirichletverdelingen
Multinomiale verdeling
Multinomiale verdeling
K onafhankelijke uitkomsten met waarschijnlijkheden i
Voorbeeld
Dobbelsteen K=6
DNA sequentie K=4
Aminozuursequentie K=20
Voor K=2 hebben we de binomiale verdeling
) , 1,..., met 0 1en i 1
(X i i i K i i
P
De multinomiale verdeling geeft het aantal keer dat de verschillende uitkomsten worden geobserveerd
De multinomiale verdeling is de natuurlijke verdeling voor het modelleren van biologische sequenties
!
! ))
,..., ((
iefactor normalizat
met
)) ,...,
((
) 1 ,...,
, (
1 1 1
1 1 2
2 1
1
K
k
k K
i
i k
K
i
n i k
k k
n n n
n M
n n
n M N
n N
n N
P i
Dirichletverdeling
Verdeling over het deel van de parameterruimte van waar
De verdeling heeft parameters
De Dirichletverdeling geeft de kans van
De verdeling is zoals een ‘dobbelsteenfabriek’
K
i i
i 1 en 0 1, 1,...,
i
K i 1,...,
i 0,
K i K
i K i
i i
i i
K i
i
d Z
Z
i
i
1 1
) 1 (
1
) 1 (
) ( 1
) (
) ( ) 1
| (
D
Dirichletverdeling
Z() is een normalizatiefactor zodat
is de gammafunctie
Veralgemening van de faculteit voor reëlle getallen
De Dirichletverdeling is de natuurlijke prior voor sequentieanalyse omdat deze verdeling geconjugeerd is met de multinomiale
verdeling, d.w.z. dat indien wij een Dirichletprior hebben en wij deze prior updaten met multinomiale gegevens, de posterior ook de vorm van een Dirichletverdeling zal hebben
Computationeel zeer aantrekkelijk
P( |)d 1) ( )
1 (
)!
1 (
)
(n n x x x
Schatting van frequentiematrices
Schatting van waarschijnlijkheden op basis van tellingen
Zie bvb. Positie-Specifieke ScoringsMatrix in PSI-BLAST
Voorbeeld: matrix model van een locaal motief
GACGTG CTCGAG CGCGTG AACGTG CACGTG
. . . . . .
. . . . . .
. . . . . .
. . . . . .
T G C A
Tel het aantal instaties in de kolom
Indien er veel (N>>) gealigneerde sites zijn, kunnen we de frequenties schatten als
Dit is de maximum aannemelijkheidschatting voor N
n N
n N
n N
nA C C G G T T
A / , / , / , /
N n n
P
n P n
N n
N n
N n
N P
ML
T G C
A T
T G
G C
C A
A
)
| ( max arg
)
| ( )
, , ,
| ,
, ,
(
Bewijs
We willen aantonen dat
Dit is equivalent met
Verder
ML
ML P n
n
P( | ) ( |),
0 ))
| ( / )
| (
log(P n ML P n
entropie) van
p (eigenscha 0
log
) / (
log
le) multinomia de
van (definitie
) log
| (
)
| log (
ML ML i
i ML i
i i
ML i i
i
n i i
ML n i ML
N
N n n
n P
n P
i i
‘Pseudocounts’
Als er maar een beperkt aantal tellingen is, is de
lmaximumaannemelijkheidschatting niet betrouwbaar (bvb., voor symbolen die niet geobserveerd zijn in de gegevens)
In zo een geval willen we de observaties combineren met prior kennis
Stel dat we voor een Dirichletprior gebruiken:
Laten we de Bayesiaanse update berekenen )
( )
| ) (
|
( P n
n n P
P
D( | )
)
|
D(
)
|
)
(
( ) ( ) (
) (
) ( ) ( ) ( ) 1
| (
1
) 1
(
n
n M Z
n P
n Z n
M Z
n n P
P K
i
n
i i i
D
K
i
i i
Z 1
) 1 (
) ( ) 1
|
(
D
K
i
n i i
n n M
P
) 1
( ) 1
(
) ( )
| ) (
|
( P n
n n P
P
D( | )
)
| (
)
|
( n
nP
D
k
n k i
i PME
i d
n d Z
n k k
1
) (
) 1
| D(
Bayesiaanse update
=1 omdat beide verdelingen genormalizeerd zijn
Berekening van de posterior gemiddelde schatting
A N
n n
Z n
Z i i i
PME
i
) (
) (
Normalizatie-integrale Z(.)
‘Pseudocounts’
Pseudocounts
De prior levert een contributie in de schatting in de vorm van pseudogegevens
Als weinig gegevens beschikbaar zijn, dan speelt de prior een belangrijke rol
Als veel gegevens beschikbaar zijn, dan spelen de pseudogegevens een verwasloorbare rol
i i i i
PME
i A
A N
n
with
Dirichletmengeling
Soms worden de gegevens gegenereerd door een heterogeen process (bvb., hydrophobische vs. hydrophilische domeinen in proteïnen, AT-rijke vs. GC-rijke gebieden in DNA)
In dergelijke situaties zouden we verschillende priors willen gebruiken afhankelijk van de context
Maar we kennen niet noodzakelijk de context op voorhand
Een mogelijkheid is het gebruik van een Dirichletmengeling
)
| ( )
,...,
|
( 1 m qk k
P
D
Dirichletmengeling
Posterior
Via de regel van Bayes
nt) (pseudocou )
| ( ) ,
| (
e) (disjuncti )
| (
) ,
| ( )
| (
k k
k
k k
k
n n
P
n P
n P
n P
D
l
l l
k k k
n P q
n P n q
P ( | )
)
| ) (
|
(
l
k l
l
k k
k k
Z n
Z q
Z n
Z n q
P ( ) / ( )
) (
/ ) ) (
|
(
Dirichletmengeling
Integratie om de posterior gemiddelde schatting te berekenen
De verschillende componenten van de
Dirichletmengeling worden eerst als aparte pseudocounts beschouwd
Daarna worden die gecombineerd met een gewicht afhankelijk van de aannemelijkheid van de
Dirichletcomponent
k k i ik
PME
i N A
n n
P
( | )
l lk lk
l
k k
k k
Z n
Z q
Z n
Z n q
P ( )/ ( )
) (
/ ) ) (
|
(
) /(
)
(ni ik N A
)
|
( n
P k
Samenvatting
De Cox-Jaynes axiomas
De regel van Bayes
Probabilistische modellen
Maximum aannemelijkheid
Maximum a posteriori
Bayesiaanse inferentie
Multinomiale en Dirichletverdelingen
Schatting van frequentiematrices
Pseudocounts
Dirichletmengeling