• No results found

Popular summary (in Dutch)

Een graaf bestaat uit een verzameling punten, die we ook wel knopen noemen, en een aantal lijnen die sommige van de punten verbinden. Een grafisch model bestaat ook uit een verzameling knopen en lijnen. De knopen stellen echter stochasten oftewel toe- valsvariabelen voor. Dit zijn variabelen waarvan de waarde afhangt van de uitkomst van een kansexperiment. Een voorbeeld is de stochast X die de waarde aanneemt van het aantal ogen van een dobbelsteen na eenmaal werpen. Het werpen van een dobbelsteen is een kansexperiment en X is een variabele waarvan de waarde geheel afhangt van de uitkomst van dat kansexperiment. De lijnen in een grafisch model geven de afhankelijk-

heid tussen de stochasten in het grafisch model weer. Als twee stochasten X en Y

helemaal niet verbonden zijn (zie figuur 7.1), dan zijn X en Y onafhankelijk. Dit betekent dat als we de waarde van X weten, dit niet kan be¨ınvloeden wat de waarde van Y wordt. Echter, als er een pad van X naar Y loopt zijn de stochasten niet onafhankelijk en be¨ınvloedt de waarde van X die van Y en omgekeerd.

Het doel in grafische modellen is nu om kansen binnen het model te bepalen, met name de onderliggende kansverdeling van het model. Dit is de multivariate verdeling van alle stochasten in het model, die voor een model met de stochasten X1, . . . , Xn wordt

gegeven door p(X1 = x1, X2 = x2, . . . , Xn = xn), waarbij x1 een waarde is die X1 kan

aannemen, x2 een waarde die X2 kan aannemen, etc. Er zijn exacte manieren om dit

soort kansen in grafische modellen te berekenen. Het blijkt echter dat dit in het beste geval exponenti¨ele tijd kost. Dit betekent dat er grafische modellen bestaan waarvoor geldt dat telkens als we in een dergelijk grafisch model een knoop toevoegen, de tijd die nodig is voor het berekenen van de kans met een factor wordt vermenigvuldigd. In grote grafische modellen kan het exact berekenen van kansen dus tijdconsumerend zijn. Omdat in de natuurkunde en KI veel grote grafische modellen voorkomen is het daarom wenselijk om ook naar manieren te kijken die kansen benaderen en misschien wel minder tijdconsumerend zijn.

Er zijn grafische modellen waarvan bekend is dat de onderliggende verdeling een zoge- naamde exponenti¨ele familie is, die afhangt van een parameter θ. De verdelingsfunctie bevat de term A(θ), die de normalisatieconstate voorstelt en ervoor zorg dat de totale kans 1 wordt, zoals een verdeling behoort. Het blijkt dat het tijdconsumerende van het bereke-

X Z W Y X Z W Y

Figuur 7.1.: Twee grafische modellen, beide met stochasten W, X, Y, Z. In het model links zijn X en Y op geen manier verbonden en dus onafhankelijk. In het model rechts loopt er via Z en W een pad van X naar Y waardoor ze niet onafhankelijk zijn.

nen van de verdelingsfunctie het berekenen van deze normalisatieconstante is. Een van de manieren om de onderliggende kans in een grafisch model te benaderen transformeert het probleem van het berekenen van A(θ) dan ook in een optimalisatieprobleem, waar- bij we A(θ) benaderen door de optimale waarde van een bepaalde term te vinden. Het optimaliseren gebeurt over alle verdelingen q. Dus er wordt naar een verdeling q gezocht die de optimalisatieterm optimaliseert en zo A(θ) het beste benadert. Deze manier om de onderliggende kans te bepalen wordt variationele inferentie genoemd.

Het vinden van de optimale waarde zodat A(θ) het beste benaderd wordt blijkt echter ook niet gemakkelijk. De Mean Field methode vergemakkelijkt het probleem door niet te optimaliseren over alle verdelingen q, maar slechts een deel van alle verdelingen. Het blijkt dat het benaderen van A(θ) dan overeenkomt met het minimaliseren van de Kullback- Leibler divergentie tussen de echte onderliggende verdeling p en het deel van de verdeling- en q die nog in beschouwing zijn. Voor discrete verdelingen is deze Kullback-Leibler divergentie gegeven door

D(q||p) = X X1,...,Xn q(x1, . . . , xn) h logq(x1, . . . , xn) p(x1, . . . , xn) i

Grafische modellen zijn dus grafen waarin de knopen stochasten voorstellen en de lijnen tussen de knopen de afhankelijkheid van de stochasten modelleren. Het bepalen van de onderliggende kans in het model op een exacte manier blijkt voor sommige grafen te tijdconsumerend. Variationele inferentie in grafische modellen waarvan de onderliggende verdeling een exponenti¨ele verdeling is transformeert het probleem van het berekenen van de normalisatieconstante A(θ) naar het optimaliseren van een bepaalde term over alle verdelingen q. Voor een deel van alle verdelingen q blijkt dit hetzelfde te zijn als het minimaliseren van de Kullback-Leibler divergentie tussen die verdelingen en de echte onderliggende kansverdeling.

Bibliography

[1] Blei, D.M. (2004). Probablistic Models of Text and Images. University of California, Berkeley.

[2] Cheung, S. (2008). Proof of Hammersley-Clifford Theorem. University of Kentucky, Kentucky

[3] Cook, S.A. (2006). “P versus NP problem”. In The Millennium Prize Problems. Clay Mathematics Institute, Cambridge, American Mathematical Society, Providence [4] Hammersley, J.M., Clifford, P. (1971). Markov Fields on Finite Graphs and Lattices.

University of California, Berkeley, University of Oxford, Oxford

[5] Hiriart-Urruty, J., Lemar´echal (1993). Convex Analysis and Minimization Algorithms Vol 1. Springer-Verlag, New York.

[6] Jordan, M.I. “Graphical Models”. Statistical Science 19, 1 (2004): 140-155

[7] Jordan, M.I., Ghahramani, Z., Jaakkola, T., Saul, L. “An Introduction to Variational Methods for Graphical Models”. Machine Learning 37, (1999): 183 - 233

[8] Klein, B.J.K. (2015). Bayesian Statistics, Lecture Notes 2015. University of Amster- dam, Amsterdam

[9] Koller, D.,Friedman, N. (2009). Probablistic Graphical Models: principles and tech- niques. The MIT Press, Cambridge

[10] Koller, D., Friedman, N., Getoor, L. and Taskar, B. (2007). “Graphical Models in a Nutshell”. In Introduction to Statistical Relation Learning. The MIT Press, Cambridge [11] Pollard, D. (2004). Hammersley-Clifford Theorem for Markov Random Fields. Yale

University, New Haven

[12] Precup, D. (2008). “Lecture 3: Conditional independence and graph structure” [Lec- ture slides]. Retrieved from

http://www.cs.mcgill.ca/ dprecup/courses/Prob/Lectures/prob-lecture03.pdf [13] Rockafellar, G. (1970). Convex Analysis. Princeton University Press, Princeton [14] Tatikonda, S., Jordan, M.I. (2002). “Loopy belief propagation and Gibbs measures”.

In Uncertainty in Artificial Intelligence. Morgan Kaufmann, San Mateo

[15] Valiant, L.G. “The Complexity of Computing the Permanent”. Theoretical Computer Science 8 (1979): 189-201

[16] Wainwright, M.J., Jordan M.I. (2003). “Variational inference in graphical models: The view from the marginal polytype”. Allerton Conference on Control, Communi- cation and Computing. October 1–3. Urbana-Champaign

[17] Wainwright, M.J., Jordan, M.I. “Graphical Models, Exponential Families, and Vari- ational Inference”. Foundations and Trends in Machine Learning 1, 1-2 (2008): 1 - 305

[18] Winn, J., Bishop, M. “Variational Message Passing”. Journal of Machine Learning Research 6, (2005): 661-694

GERELATEERDE DOCUMENTEN