• No results found

HK07 – Les 4

N/A
N/A
Protected

Academic year: 2021

Share "HK07 – Les 4"

Copied!
36
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

HK07 – Les 4

Inleiding tot de Bayesiaanse statistiek

Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002

(2)

Overzicht

De Cox-Jaynes axiomas

De regel van Bayes

Probabilistische modellen

Maximum aannemelijkheid

Maximum a posteriori

Bayesiaanse inferentie

Multinomiale en Dirichletverdelingen

Schatting van frequentiematrices

Pseudocounts

Dirichletmengeling

(3)

De Cox-Jaynes axiomas

en de regel van Bayes

(4)

Waarschijnlijkheid vs. overtuiging

Wat is een waarschijnlijkheid?

Frequentistisch standpunt

Waarschijnlijkheden zijn wat frequentietellingen (muntstuk, dobbelsteen) en histogrammen (lengte van mensen) naar convergeren

Zulke definitie trekt op een cirkelredenering omwille van de afhankelijkheid op de Centrale Limiete Stelling

Maattheoriestandpunt

Waarschijnlijkheden voldoen aan de -algebra axiomas van Kolmogorov

Rigoureuze definitie die goed past binnen het kader van integratieleer en maattheorie

Maar definitie is ad hoc opgebouwd om binnen dit kader te passen

(5)

Bayesiaans standpunt

Waarchijnlijkheden zijn modellen voor de onzekerheid betreffende stellingen binnen een domein

Inductie vs. deductie

Deductie

ALS ( A  B EN A = WAAR ) DAN B = WAAR

Inductie

ALS ( A  B EN A = WAAR ) DAN wordt A meer plausibel

Waarschijnlijkheden voldoen aan de regel van Bayes

(6)

Cox-Jaynes axiomas

De Cox-Jaynes axiomas laten toe een ruim

probabilistich raamwerk op te bouwen met minimale veronderstellingen

Eerst, enkele begrippen

A is een stelling

A waar of niet waar

D is een domein

Informatie die beschikbaar is over de huidige situatie

OVERTUIGING (belief): (A=TRUE |D)

Overtuiging die we hebben dat de stelling waar is gegeven de domeininformatie

(7)

Tweede, enkele veronderstellingen

1. Stel dat we overtuigingen kunnen vergelijken

(A|D) > (B|D)  A is meer plausibel dan B gegeven D en stel dat deze vergelijking transitief is

We hebben een ordeningsrelatie, dus  is een getal

))

| ( )

| ( ( DAN

))

| ( )

| ( ( EN ))

| ( )

| ( ( ALS

D D

D D

D D

C B

C B

B A

(8)

2. Stel dat er een vaste relatie bestaat tussen de overtuiging in een stelling en de overtuiging in de negatie van deze stelling

3. Stel dat er een vaste relatie bestaat tussen enerzijds de overtuiging in de vereningen van twee stellingen en

anderzijds de overtuiging in de eerste stelling en de overtuiging in de tweede stelling gegeven de eerste

d.w.z. ( | ) ( | ) ( | ) ( | )

))

| ( ( )

| (

D D

D D

D D

B A

B A

A f

A

)) ,

| ( ),

| ( ( )

| ,

(A B

D

g A

D

B A

D

(9)

Regel van Bayes

DAN (na herschalering van de overtuigingen) kan er aangetoond worden dat

Regel van Bayes

Als we de Cox-Jaynes axiomas aanvaarden, kunnen we de regel van Bayes altijd toepassen, ongeacht de

specifieke definitie van waarschijnlijkheden )

| (

)

| ( ).

,

| ) (

,

|

(

D

D D D

A P

B P B

A A P

B

P

)

| ( ).

,

| ( )

| , (

1 )

| ( )

| (

D D

D

D D

A P A

B P B

A P

A P A

P

(10)

Belang van het domein D

Het domein D is een flexibel begrip dat de achtergrond informatie omvat die relevant is voor het probleem

Het is belangrijk het probleem binnen het gepaste domein te plaatsen

Voorbeeld

Diagnose van de ziekte van Tay-Sachs

Zeldzame ziekte die vaker voorkomt bij asjkenazi joden

Met dezelfde symptomen zal de waarschijnlijkheid van de ziekte kleiner zijn als we ons in Gasthuisberg bevinden dan als we in Mount Sinai Hospital in New York bevinden

Als we proberen een model op te bouwen met alle patienten ter wereld, zal dit model niet efficienter zijn

) ,

| ( )

,

|

(D S DBE P D S DNY

P

World) NY)

World Asjk

,

| ( ,

| (

) ,

Asjk ,

| ( )

, Asjk ,

| (

D D

D D

S D P S

D P

P S D P P

S D P

(11)

Probabilistische modellen en inferentie

(12)

Probabilistische modellen

We hebben een domein

D

We hebben observatiegegevens D

We hebben een model M met parameters 

Voorbeeld 1

Domein D: het genoom van een bepaald organisme

Gegevens D: een DNA sequentie S = ’ACCTGATCACCCT’

Model M: de sequenties worden gegenereerd via een multinomiale verdeling op het alfabet {A,C,G,T}

Parameters :   (A,C,G,T ) with A C G T 1

(13)

Voorbeeld 2

Domein D: alle mensen in Europa

Gegevens D: de lengte van mensen uit een groep

Model M: de lengte is normaal verdeeld N(m,)

Parameters : de gemiddelde m en de variantie 

(14)

Generatieve modellen

Het is vaak mogelijk een model op te zetten van de aannemelijkheid van de observatiegegevens

Bijvoorbeeld, voor de DNA sequentie

Meer gesofisticeerde modellen zijn mogelijk

HMMs

Gibbs sampling voor het vinden van motieven

Bayesiaanse netwerken

We willen het model vinden dat onze gegevens best beschrijft

L

i

Si

M S

P

1

) ,

|

(  

(15)

‘Maximum likelihood’

Maximum aannemelijkheid (maximum likelihood ML)

Consistent: als de gegevens gegenereerd werden door het

model M met parameters *, zal ML naar * convergeren als het aantal gegevens naar oneindig gaat

Merk op dat de gegevens misschien niet door een instantie van het model gegenereerd werden

Als de hoeveelheid gegevens klein is, kan er een groot verschil zijn tussen ML en *

) ,

| (

argmax P D M

ML

 

(16)

Maximum a posteriori waarschijnlijkheid

Maximum a posteriori waarschijnlijkheid (MAP)

Regel van Bayes

Dus

) ,

| (

argmaxP D M

MAP

 

)

| ( / )

| ( ) ,

| ( )

,

|

( D M P D M P M P D M

P    

posterior aannemelijkheid

van de gegevens prior

)

| (

)

| ( ) ,

| argmax (

M D

P

M P

M D

MAP P  

 

a priori knowledge plays no role in optimization over 

(17)

Posterior gemiddelde schatting

Posterior gemiddelde schatting

Posterior mean estimate

   

PME .P( | D,M )d

(18)

Verdelingen over parameters

Laten we meer voorzichtig kijken naar P(|M) (of naar P(|D,M))

P(|M) is een waarschijnlijkheidsverdeling over de PARAMETERS

We moeten tegelijk verdelingen over observatiegegevens en over parameters behandelen

Voorbeeld

Verdeling van de lengte van mensen P(D|,M)

Prior P(|M)

) (L p

Lengte

150 175 200

) , (m N

) (m p

Gemiddelde

150 175 200

) ( p

Standard deviatie lengte

5 10 15

(19)

Bayesiaanse inferentie

Als we de verdeling van de waarschijnlijkheid van de parameters willen updaten met nieuwe gegevens D

1. Kies een redelijke prior

2. Voeg de informatie uit de gegevens toe

3. Bekom de geupdated verdeling voor de parameters (Vaak wordt er gewerkt met logaritmes)

  

 

d M P

M D

P

M P

M D

P

M D

P

M P

M D

M P D P

)

| ( )

| , (

)

| ( ) ,

| (

)

| (

)

| ( ) ,

| ) (

,

|

( 1

3

2

(20)

Bayesiaanse inferentie

Voorbeeld

)

| (m M p

Gemiddelde lengte

150 175 200

) ,

|

(m B M p

Gemiddelde lengte

150 175 200

) ,

|

(m H M p

Gemiddelde lengte

150 175 200

100 Belgische mannen

100 Nederlandse mannen

(21)

Multinomiale en Dirichletverdelingen

(22)

Multinomiale verdeling

Multinomiale verdeling

K onafhankelijke uitkomsten met waarschijnlijkheden i

Voorbeeld

Dobbelsteen K=6

DNA sequentie K=4

Aminozuursequentie K=20

Voor K=2 hebben we de binomiale verdeling

 ) , 1,..., met 0 1en i 1

(X i i i K i i

P   

(23)

De multinomiale verdeling geeft het aantal keer dat de verschillende uitkomsten worden geobserveerd

De multinomiale verdeling is de natuurlijke verdeling voor het modelleren van biologische sequenties

!

! ))

,..., ((

iefactor normalizat

met

)) ,...,

((

) 1 ,...,

, (

1 1 1

1 1 2

2 1

1



 

 

K

k

k K

i

i k

K

i

n i k

k k

n n n

n M

n n

n M N

n N

n N

Pi

(24)

Dirichletverdeling

Verdeling over het deel van de parameterruimte van  waar

De verdeling heeft parameters

De Dirichletverdeling geeft de kans van 

De verdeling is zoals een ‘dobbelsteenfabriek’

K

i i

i 1 en 0 1, 1,...,

i    

K i 1,...,

i  0, 

  

K i K

i K i

i i

i i

K i

i

d Z

Z

i

i

1 1

) 1 (

1

) 1 (

) ( 1

) (

) ( ) 1

| (

D

(25)
(26)

Dirichletverdeling

Z() is een normalizatiefactor zodat

 is de gammafunctie

Veralgemening van de faculteit voor reëlle getallen

De Dirichletverdeling is de natuurlijke prior voor sequentieanalyse omdat deze verdeling geconjugeerd is met de multinomiale

verdeling, d.w.z. dat indien wij een Dirichletprior hebben en wij deze prior updaten met multinomiale gegevens, de posterior ook de vorm van een Dirichletverdeling zal hebben

Computationeel zeer aantrekkelijk

P( |)d  1

) ( )

1 (

)!

1 (

)

(nn   x   xx

(27)

Schatting van frequentiematrices

Schatting van waarschijnlijkheden op basis van tellingen

Zie bvb. Positie-Specifieke ScoringsMatrix in PSI-BLAST

Voorbeeld: matrix model van een locaal motief

GACGTG CTCGAG CGCGTG AACGTG CACGTG





. . . . . .

. . . . . .

. . . . . .

. . . . . .

T G C A

Tel het aantal instaties in de kolom

(28)

Indien er veel (N>>) gealigneerde sites zijn, kunnen we de frequenties schatten als

Dit is de maximum aannemelijkheidschatting voor  N

n N

n N

n N

nA C C G G T T

A  / ,  / ,  / ,  /

N n n

P

n P n

N n

N n

N n

N P

ML

T G C

A T

T G

G C

C A

A

)

| ( max arg

)

| ( )

, , ,

| ,

, ,

(

(29)

Bewijs

We willen aantonen dat

Dit is equivalent met

Verder

ML

ML P n

n

P( | )  ( |),  

0 ))

| ( / )

| (

log(P nML P n  

 

 

entropie) van

p (eigenscha 0

log

) / (

log

le) multinomia de

van (definitie

) log

| (

)

| log (

ML ML i

i ML i

i i

ML i i

i

n i i

ML n i ML

N

N n n

n P

n P

i i

(30)

‘Pseudocounts’

Als er maar een beperkt aantal tellingen is, is de

lmaximumaannemelijkheidschatting niet betrouwbaar (bvb., voor symbolen die niet geobserveerd zijn in de gegevens)

In zo een geval willen we de observaties combineren met prior kennis

Stel dat we voor  een Dirichletprior gebruiken:

Laten we de Bayesiaanse update berekenen )

( )

| ) (

|

( P n

n n P

P   

D(  |  )

)

|

D(  

(31)

)

|

)

(

( ) ( ) (

) (

) ( ) ( ) ( ) 1

| (

1

) 1

(

 

n

n M Z

n P

n Z n

M Z

n n P

P K

i

n

i i i

D

K

i

i i

Z 1

) 1 (

) ( ) 1

|

( 

 

D

K

i

n i i

n n M

P

) 1

( ) 1

( 

) ( )

| ) (

|

( P n

n n P

P   

D(  |  )

)

| (

)

|

( n

n

P

D

 

k

n k i

i PME

i d

n d Z

n   k k

 

 1

) (

) 1

| D(

Bayesiaanse update

=1 omdat beide verdelingen genormalizeerd zijn

Berekening van de posterior gemiddelde schatting

A N

n n

Z n

Z i i i

PME

i

 

  

 

) (

) (

Normalizatie-integrale Z(.)

(32)

‘Pseudocounts’

Pseudocounts

De prior levert een contributie in de schatting in de vorm van pseudogegevens

Als weinig gegevens beschikbaar zijn, dan speelt de prior een belangrijke rol

Als veel gegevens beschikbaar zijn, dan spelen de pseudogegevens een verwasloorbare rol

 

ii i i

PME

i A

A N

n  

 with

(33)

Dirichletmengeling

Soms worden de gegevens gegenereerd door een heterogeen process (bvb., hydrophobische vs. hydrophilische domeinen in proteïnen, AT-rijke vs. GC-rijke gebieden in DNA)

In dergelijke situaties zouden we verschillende priors willen gebruiken afhankelijk van de context

Maar we kennen niet noodzakelijk de context op voorhand

Een mogelijkheid is het gebruik van een Dirichletmengeling

)

| ( )

,...,

|

( 1 m qk k

P   

D

 

(34)

Dirichletmengeling

Posterior

Via de regel van Bayes

nt) (pseudocou )

| ( ) ,

| (

e) (disjuncti )

| (

) ,

| ( )

| (

k k

k

k k

k

n n

P

n P

n P

n P

D

l

l l

k k k

n P q

n P n q

P ( | )

)

| ) (

|

( 

 

l

k l

l

k k

k k

Z n

Z q

Z n

Z n q

P ( ) / ( )

) (

/ ) ) (

|

(  

 

(35)

Dirichletmengeling

Integratie om de posterior gemiddelde schatting te berekenen

De verschillende componenten van de

Dirichletmengeling worden eerst als aparte pseudocounts beschouwd

Daarna worden die gecombineerd met een gewicht afhankelijk van de aannemelijkheid van de

Dirichletcomponent

k k i ik

PME

i N A

n n

P  

 ( | )

l

lk lk

l

k k

k k

Z n

Z q

Z n

Z n q

P ( )/ ( )

) (

/ ) ) (

|

(  

 

) /(

)

(ni ik NA

)

|

( n

Pk

(36)

Samenvatting

De Cox-Jaynes axiomas

De regel van Bayes

Probabilistische modellen

Maximum aannemelijkheid

Maximum a posteriori

Bayesiaanse inferentie

Multinomiale en Dirichletverdelingen

Schatting van frequentiematrices

Pseudocounts

Dirichletmengeling

Referenties

GERELATEERDE DOCUMENTEN

Vergadering, dan neem ik aan, dat die geen betrekking heeft, want U bent ook voor een ordelijk bestuur in deze partij, dat dat de 2 themacongressen waarvoor

Zijn er aspecten nog niet aanbod gekomen die naar uw mening wel belangrijk

Aangezien we vermoeden dat de invloed van de transformationeel leider (TL) gemodereerd wordt door steun van de leidinggevende uit de moederorganisatie (SLM) moeten we ook in de

Dit fenomeen is te omschrijven als kwaliteitsonzekerheid (zie 2.5.2). Er zijn veel artiesten die zouden willen optreden in een uitverkocht stadion. Toch zijn er maar een

De bevolking blijkt drie hoofdtakan can de politica toe to kennen waarin In de loop der jaren vrOwel germ wij - ziging in opgatreden is. Doze taken zlin ordehandhaving, handhaving

Kenmerkend verschil tussen de leeuwen in Tsavo en Serengeti (een natuurreservaat in Tanzania) is dat de mannelijke dieren in Tsavo beduidend minder manen hebben dan die in

vermeldt het arrest van de Raad van State van 13 november 1990 (waarop de omzendbrief onder meer steunt, zoals in punt 1 van de omzendbrief wordt aangegeven) dat de aan- vraag

Met behulp van de Independent-Samples T Test wordt per onafhankelijke variabele onderzocht of er een significant verschil bestaat tussen de Citotoets score voor deze beide