HK07 – Les 4

(1)

HK07 – Les 4

Inleiding tot de Bayesiaanse statistiek

Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002

(2)

Overzicht

 De Cox-Jaynes axiomas

 De regel van Bayes

 Probabilistische modellen

 Maximum aannemelijkheid

 Maximum a posteriori

 Bayesiaanse inferentie

 Multinomiale en Dirichletverdelingen

 Schatting van frequentiematrices

 Pseudocounts

 Dirichletmengeling

(3)

De Cox-Jaynes axiomas

en de regel van Bayes

(4)

Waarschijnlijkheid vs. overtuiging

 Wat is een waarschijnlijkheid?

 Frequentistisch standpunt

 Waarschijnlijkheden zijn wat frequentietellingen (muntstuk, dobbelsteen) en histogrammen (lengte van mensen) naar convergeren

 Zulke definitie trekt op een cirkelredenering omwille van de afhankelijkheid op de Centrale Limiete Stelling

 Maattheoriestandpunt

 Waarschijnlijkheden voldoen aan de -algebra axiomas van Kolmogorov

 Rigoureuze definitie die goed past binnen het kader van integratieleer en maattheorie

 Maar definitie is ad hoc opgebouwd om binnen dit kader te passen

(5)

 Bayesiaans standpunt

 Waarchijnlijkheden zijn modellen voor de onzekerheid betreffende stellingen binnen een domein

 Inductie vs. deductie

 Deductie

 ALS ( A  B EN A = WAAR ) DAN B = WAAR

 Inductie

 ALS ( A  B EN A = WAAR ) DAN wordt A meer plausibel

 Waarschijnlijkheden voldoen aan de regel van Bayes

(6)

Cox-Jaynes axiomas

 De Cox-Jaynes axiomas laten toe een ruim

probabilistich raamwerk op te bouwen met minimale veronderstellingen

 Eerst, enkele begrippen

 A is een stelling

 A waar of niet waar

 D is een domein

 Informatie die beschikbaar is over de huidige situatie

 OVERTUIGING (belief): (A=TRUE |D⁾

 Overtuiging die we hebben dat de stelling waar is gegeven de domeininformatie

(7)

 Tweede, enkele veronderstellingen

1. Stel dat we overtuigingen kunnen vergelijken

 (A|D) > (B|D)  A is meer plausibel dan B gegeven D en stel dat deze vergelijking transitief is

 We hebben een ordeningsrelatie, dus  is een getal

))

| ( )

| ( ( DAN

))

| ( )

| ( ( EN ))

| ( )

| ( ( ALS

D D

C B

B A















(8)

2. Stel dat er een vaste relatie bestaat tussen de overtuiging in een stelling en de overtuiging in de negatie van deze stelling

3. Stel dat er een vaste relatie bestaat tussen enerzijds de overtuiging in de vereningen van twee stellingen en

anderzijds de overtuiging in de eerste stelling en de overtuiging in de tweede stelling gegeven de eerste



^d.w.z. ⁽ ^| ⁾ ⁽ ^| ⁾ ⁽ ^| ⁾ ⁽ ^| ⁾



))

| ( ( )

| (

D D

B A

A f

A



















)) ,

| ( ),

| ( ( )

| ,

(^A ^B

D

^ ^g ^ ^A

D

^ ^B ^A

D



(9)

Regel van Bayes

 DAN (na herschalering van de overtuigingen) kan er aangetoond worden dat

 Regel van Bayes

 Als we de Cox-Jaynes axiomas aanvaarden, kunnen we de regel van Bayes altijd toepassen, ongeacht de

specifieke definitie van waarschijnlijkheden )

| (

)

| ( ).

,

| ) (

,

|

(

D

D D D

A P

B P B

A A P

B

P 

)

| ( ).

,

| ( )

| , (

1 )

| ( )

| (

D D

D

D D

A P A

B P B

A P

A P A

P





(10)

Belang van het domein D

 Het domein D is een flexibel begrip dat de achtergrond informatie omvat die relevant is voor het probleem

 Het is belangrijk het probleem binnen het gepaste domein te plaatsen

 Voorbeeld

 Diagnose van de ziekte van Tay-Sachs

 Zeldzame ziekte die vaker voorkomt bij asjkenazi joden

 Met dezelfde symptomen zal de waarschijnlijkheid van de ziekte kleiner zijn als we ons in Gasthuisberg bevinden dan als we in Mount Sinai Hospital in New York bevinden

 Als we proberen een model op te bouwen met alle patienten ter wereld, zal dit model niet efficienter zijn

) ,

| ( )

,

|

(^D ^S DBE ^P ^D ^S DNY

P 

World) NY)

World Asjk

,

| ( ,

| (

) ,

Asjk ,

| ( )

, Asjk ,

| (

D D

S D P S

D P

P S D P P

S D P





(11)

Probabilistische modellen en inferentie

(12)

Probabilistische modellen

 We hebben een domein

D

 We hebben observatiegegevens D

 We hebben een model M met parameters 

 Voorbeeld 1

 Domein D: het genoom van een bepaald organisme

 Gegevens D: een DNA sequentie S = ’ACCTGATCACCCT’

 Model M: de sequenties worden gegenereerd via een multinomiale verdeling op het alfabet {A,C,G,T}

 Parameters :   (_A,_C,_G,_T ) with _A _C _G _T 1

(13)

 Voorbeeld 2

 Domein D: alle mensen in Europa

 Gegevens D: de lengte van mensen uit een groep

 Model M: de lengte is normaal verdeeld N(m,)

 Parameters : de gemiddelde m en de variantie 

(14)

Generatieve modellen

 Het is vaak mogelijk een model op te zetten van de aannemelijkheid van de observatiegegevens

 Bijvoorbeeld, voor de DNA sequentie

 Meer gesofisticeerde modellen zijn mogelijk

 HMMs

 Gibbs sampling voor het vinden van motieven

 Bayesiaanse netwerken

 We willen het model vinden dat onze gegevens best beschrijft





 ^L

i

S_i

M S

P

1

) ,

|

(  

(15)

‘Maximum likelihood’

 Maximum aannemelijkheid (maximum likelihood ML)

 Consistent: als de gegevens gegenereerd werden door het

model M met parameters ^*, zal ^ML naar ^* convergeren als het aantal gegevens naar oneindig gaat

 Merk op dat de gegevens misschien niet door een instantie van het model gegenereerd werden

 Als de hoeveelheid gegevens klein is, kan er een groot verschil zijn tussen ^ML en ^*

) ,

| (

argmax P D M

ML 

  

(16)

Maximum a posteriori waarschijnlijkheid

 Maximum a posteriori waarschijnlijkheid (MAP)

 Regel van Bayes

 Dus

) ,

| (

argmaxP D M

MAP 

  

)

| ( / )

| ( ) ,

| ( )

,

|

( D M P D M P M P D M

P    

posterior aannemelijkheid

van de gegevens prior

)

| (

)

| ( ) ,

| argmax (

M D

P

M P

M D

MAP P  

  

a priori knowledge plays no role in optimization over 

(17)

Posterior gemiddelde schatting

 Posterior gemiddelde schatting

 Posterior mean estimate



   

 ^PME .P( | D,M )d

(18)

Verdelingen over parameters

 Laten we meer voorzichtig kijken naar P(|M) (of naar P(|D,M))

 P(|M) is een waarschijnlijkheidsverdeling over de PARAMETERS

 We moeten tegelijk verdelingen over observatiegegevens en over parameters behandelen

 Voorbeeld

 Verdeling van de lengte van mensen P(D|,M)

 Prior P(|M)

) (L p

Lengte

150 175 200

) , (m  N

) (m p

Gemiddelde

150 175 200

) ( p

Standard deviatie lengte

5 10 15

(19)

Bayesiaanse inferentie

 Als we de verdeling van de waarschijnlijkheid van de parameters willen updaten met nieuwe gegevens D

1. Kies een redelijke prior

2. Voeg de informatie uit de gegevens toe

3. Bekom de geupdated verdeling voor de parameters (Vaak wordt er gewerkt met logaritmes)







   



 

d M P

M D

P

M P

M D

P

M D

P

M P

M D

M P D P

)

| ( )

| , (

)

| ( ) ,

| (

)

| (

)

| ( ) ,

| ) (

,

|

( 1

3

2

(20)

Bayesiaanse inferentie

 Voorbeeld

)

| (m M p

Gemiddelde lengte

150 175 200

) ,

|

(m B M p

Gemiddelde lengte

150 175 200

) ,

|

(m H M p

Gemiddelde lengte

150 175 200

100 Belgische mannen

100 Nederlandse mannen

(21)

Multinomiale en Dirichletverdelingen

(22)

Multinomiale verdeling

 Multinomiale verdeling

 K onafhankelijke uitkomsten met waarschijnlijkheden i

 Voorbeeld

 Dobbelsteen K=6

 DNA sequentie K=4

 Aminozuursequentie K=20

 Voor K=2 hebben we de binomiale verdeling



^





 ) , 1,..., met 0 1en _i 1

(X i _i i K _i _i

P   

(23)

 De multinomiale verdeling geeft het aantal keer dat de verschillende uitkomsten worden geobserveerd

 De multinomiale verdeling is de natuurlijke verdeling voor het modelleren van biologische sequenties

!

! ))

,..., ((

iefactor normalizat

met

)) ,...,

((

) 1 ,...,

, (

1 1 1

1 1 2

2 1

1



 



 









K

k

k K

i

i k

K

i

n i k

k k

n n n

n M

n n

n M N

n N

P  ⁱ

(24)

Dirichletverdeling

 Verdeling over het deel van de parameterruimte van  waar

 De verdeling heeft parameters

 De Dirichletverdeling geeft de kans van 

 De verdeling is zoals een ‘dobbelsteenfabriek’

K

i i

i 1 en 0 1, 1,...,

i    



^ ^

K i 1,...,

i  0, 









 



 



 





  











K i K

i K i

i i

K i

i

d Z

Z

i

1 1

) 1 (

1

) 1 (

) ( 1

) (

) ( ) 1

| (











 







D 

(25)

(26)

Dirichletverdeling

 Z() is een normalizatiefactor zodat

  is de gammafunctie

 Veralgemening van de faculteit voor reëlle getallen

 De Dirichletverdeling is de natuurlijke prior voor sequentieanalyse omdat deze verdeling geconjugeerd is met de multinomiale

verdeling, d.w.z. dat indien wij een Dirichletprior hebben en wij deze prior updaten met multinomiale gegevens, de posterior ook de vorm van een Dirichletverdeling zal hebben

 Computationeel zeer aantrekkelijk



^P⁽^ ^|^⁾^d^ ^{ 1}

) ( )

1 (

)!

1 (

)

(n  n   x   x x



(27)

Schatting van frequentiematrices

 Schatting van waarschijnlijkheden op basis van tellingen

 Zie bvb. Positie-Specifieke ScoringsMatrix in PSI-BLAST

 Voorbeeld: matrix model van een locaal motief

GACGTG CTCGAG CGCGTG AACGTG CACGTG

















. . . . . .

T G C A

Tel het aantal instaties in de kolom

(28)

 Indien er veel (N>>) gealigneerde sites zijn, kunnen we de frequenties schatten als

 Dit is de maximum aannemelijkheidschatting voor  N

n N

n_A _C _C _G _G _T _T

A  / ,  / ,  / ,  /



N n n

P

n P n

N n

N P

ML

T G C

A T

T G

G C

C A

A



)

| ( max arg

)

| ( )

, , ,

| ,

, ,

(



(29)

Bewijs

 We willen aantonen dat

 Dit is equivalent met

 Verder

ML

ML P n

n

P( | )  ( |),  

0 ))

| ( / )

| (

log(P n  ^ML P n  

 

entropie) van

p (eigenscha 0

log

) / (

log

le) multinomia de

van (definitie

) log

| (

)

| log (









ML ML i

i ML i

i i

ML i i

i

n i i

ML n i ML

N

N n n

n P

i i

 



(30)

‘Pseudocounts’

 Als er maar een beperkt aantal tellingen is, is de

lmaximumaannemelijkheidschatting niet betrouwbaar (bvb., voor symbolen die niet geobserveerd zijn in de gegevens)

 In zo een geval willen we de observaties combineren met prior kennis

 Stel dat we voor  een Dirichletprior gebruiken:

 Laten we de Bayesiaanse update berekenen )

( )

| ) (

|

( P n

n n P

P   

D(  |  )

)

|

D(  

(31)

)

|

)

(

( ) ( ) (

) (

) ( ) ( ) ( ) 1

| (

1

) 1

( 



 

 ^ 



^ ^ ^



^





 n

n M Z

n P

n Z n

M Z

n n P

P ^K

i

n

i ⁱ ⁱ

D





 ^K 

i

i ⁱ

Z ₁

) 1 (

) ( ) 1

|

(  ^

 

D







 ^K

i

n i ⁱ

n n M

P

) 1

( ) 1

( 

) ( )

| ) (

|

( P n

n n P

P   

D(  |  )

)

| (

)

|

( ⁿ ^



ⁿ^

P

D

 



^ ^ _ ^ ^



k

n k i

i PME

i d

n d Z

n   ^k ^k 

 





 ^{ 1}

) (

) 1

| D(

Bayesiaanse update

=1 omdat beide verdelingen genormalizeerd zijn

Berekening van de posterior gemiddelde schatting

A N

n n

Z n

Z _i _i _i

PME

i 

 



  





 

) (

Normalizatie-integrale Z(.)

(32)

‘Pseudocounts’

 Pseudocounts

 De prior levert een contributie in de schatting in de vorm van pseudogegevens

 Als weinig gegevens beschikbaar zijn, dan speelt de prior een belangrijke rol

 Als veel gegevens beschikbaar zijn, dan spelen de pseudogegevens een verwasloorbare rol



 

 ⁱ  ⁱ _i _i

PME

i A

A N

n  

 with

(33)

Dirichletmengeling

 Soms worden de gegevens gegenereerd door een heterogeen process (bvb., hydrophobische vs. hydrophilische domeinen in proteïnen, AT-rijke vs. GC-rijke gebieden in DNA)

 In dergelijke situaties zouden we verschillende priors willen gebruiken afhankelijk van de context

 Maar we kennen niet noodzakelijk de context op voorhand

 Een mogelijkheid is het gebruik van een Dirichletmengeling

)

| ( )

,...,

|

( ¹ ^m q_k ^k

P    ^

 ^D

 

(34)

Dirichletmengeling

 Posterior

 Via de regel van Bayes

nt) (pseudocou )

| ( ) ,

| (

e) (disjuncti )

| (

) ,

| ( )

| (

k k

k

k k

k

n n

P

n P



















D





l

l l

k k k

n P q

n P n q

P ( | )

)

| ) (

|

( 

 



^^



l

k l

l

k k

Z n

Z q

Z n

Z n q

P ( ) / ( )

) (

/ ) ) (

|

(  



 

(35)

Dirichletmengeling

 Integratie om de posterior gemiddelde schatting te berekenen

 De verschillende componenten van de

Dirichletmengeling worden eerst als aparte pseudocounts beschouwd

 Daarna worden die gecombineerd met een gewicht afhankelijk van de aannemelijkheid van de

Dirichletcomponent



^_

 _k ^k ⁱ ⁱ^k

PME

i N A

n n

P  

 ( | ) ^



l ^^

lk lk

l

k k

Z n

Z q

Z n

Z n q

P ( )/ ( )

) (

/ ) ) (

|

(  



 

) /(

)

(n_i _i^k N  A

)

|

( n

P ^k

(36)

Samenvatting

 De Cox-Jaynes axiomas

 De regel van Bayes

 Probabilistische modellen

 Maximum aannemelijkheid

 Maximum a posteriori

 Bayesiaanse inferentie

 Multinomiale en Dirichletverdelingen

 Schatting van frequentiematrices

 Pseudocounts

 Dirichletmengeling