Back-ups maken, herstellen en bestanden terugzetten

In document Gebruikershandleiding (pagina 71-74)

Aucune des quatre m´ethodes mentionn´ees pr´ec´edemment ne permet le passage `a l’´echelle avec le nombre de SNP : elles ne peuvent traiter plus d’un millier de SNP, ce qui les restreint `a l’analyse de petites r´egions chromosomiques. Pour r´esoudre ce probl`eme, plusieurs m´ethodes ont ´et´e propos´ees : les premi`eres sont bas´ees sur un processus markovien, tandis que les secondes contraignent l’apprentissage de la struc- ture par une distance physique maximale.

Les processus markoviens constituent des outils naturels pour le traitement de donn´ees s´equentielles, telles que les donn´ees g´en´etiques. Dans cette perspective, les mod`eles de Markov cach´es (MMC) pr´esentent l’avantage de manipuler des ´etats la- tents, comme la phase manquante dans les donn´ees g´enotypiques. En se basant sur cette id´ee, Scheet et Stephens [82] proposent un mod`ele o`u les ´etats latents corres- pondent `a des clusters haplotypiques, interpr´et´es comme des haplotypes ancestraux. Le mod`ele est pr´esent´e en figure 4.4a, en suivant la repr´esentation des RB. Les arcs verticaux peuvent ˆetre consid´er´es comme des mutations apparues entre les haplotypes ancestraux (maternels et paternels) et le g´enotype actuel observ´e, alors que les arcs horizontaux sont des ´ev`enements de recombinaison survenus entre deux SNP conti- gus. Ce mod`ele est impl´ement´e dans le programme bien connu fastPHASE, disponible `

a l’adresse Internet http ://stephenslab.uchicago.edu/software.html. La grande force de ce mod`ele r´eside dans le fait qu’il peut prendre en compte `a la fois la structure en blocs du LD et la diminution graduelle de ce dernier avec la distance s´eparant les SNP. En outre, fastPHASE est pr´ecis et capable de manipuler de grands jeux de

SNP1

Chevauchement minimal requis pour les intervalles

Représentation du modèle par intervalles

SNP3 SNP4 SNP5 SNP6 SNP7

Séquence génomique

SNP2

Graphe d'intervalle correspondant

Intervalle maximum

Légende

Intervalle (rectangle) et position du SNP (pointillés)

SNP1 SNP2 SNP3 SNP4 SNP5 SNP6 SNP7 SNP1 SNP2 SNP3 SNP4 SNP5 SNP6 SNP7

Figure 4.5: Graphe d’intervalle (GI) utilis´e par Thomas [100]. Voir figure 4.2 pour la nomenclature des nœuds.

donn´ees (un millier d’individus et des centaines de milliers de SNP). Le logiciel fast- PHASE a ´et´e consid´er´e comme l’outil de r´ef´erence pour l’inf´erence pang´enomique des haplotypes jusqu’`a l’apparition de la m´ethode de Browning et Browning impl´ement´ee dans la suite logicielle BEAGLE [11, 13].

Browning [12] propose l’emploi du mod`ele de Markov de longueur variable (MMLV) qui s’adapte automatiquement `a l’´etendue du LD entre les SNP pr´esents sur le chro- mosome. Dans le MMLV, la longueur de la m´emoire du processus n’est pas constante et peut varier le long de la chaˆıne selon le contexte, permettant ainsi de prendre en compte la nature multilocus du LD. Par exemple, la longueur de la m´emoire sera plus importante dans les r´egions de fort LD que dans les r´egions de faible LD. En comparaison du MMC mentionn´e pr´ec´edemment, le MMLV pr´esente l’avantage de ne pas n´ecessiter de sp´ecification pr´ealable de la structure du mod`ele, telle que le nombre d’haplotypes ancestraux, et l’apprentissage peut ˆetre r´ealis´e au moyen d’heuristiques rapides. La suite logicielle BEAGLE impl´emente cet algorithme. Elle est disponible `a l’adresse Internet http ://faculty.washington.edu/browning/beagle/beagle.html.

4.2 ´Etat de l’art 49

strat´egie consiste `a restreindre l’espace de recherche des MGP par une contrainte portant sur la distance physique s´eparant les SNP. Suivant cette id´ee, deux m´ethodes ont ´et´e d´evelopp´ees. Verzilli et al. [107] ont con¸cu une approche ”Markov chain Monte Carlo” (MCMC) afin d’´echantillonner dans l’espace des cliques disjointes, un sous- espace des graphes non orient´es d´ecomposables. Deux op´erateurs simples de parcours sont utilis´es : la fusion et la scission de deux cliques choisies al´eatoirement dans le graphe courant. La distance physique maximale entre SNP pouvant appartenir `a une mˆeme clique, ainsi que la taille maximale des cliques, sont fix´ees, assurant ainsi le passage `a l’´echelle de la m´ethode. L’utilisation de ces contraintes ainsi que le par- cours d’un espace plus petit que celui des RM d´ecomposables - l’espace des cliques disjointes - assure un apprentissage tr`es rapide. Pour donner un ordre d’id´ee : l’al- gorithme ne n´ecessite que 5 minutes pour traiter 105 SNP et 268 individus. Cette m´ethode est impl´ement´ee dans le package R graphminer et est disponible `a l’adresse Internet http ://homepages.lshtm.ac.uk/encdcver/.

Thomas [100] a propos´e d’employer les graphes d’intervalle, une sous-classe des graphes non orient´es d´ecomposables. Un graphe d’intervalle (GI) est un graphe pour lequel les nœuds repr´esentent des intervalles localis´es sur une mˆeme ligne et pour lequel les arˆetes connectent les paires d’intervalles se chevauchant. Les GI sont intrin- s`equement d´ecomposables. La d´ecomposabilit´e en cliques de petite taille constitue la cl´e pour le passage `a l’´echelle de l’apprentissage des RM. Elle assure un calcul simple et local de la vraisemblance, ´evite une perte de temps importante li´ee `a la proposition de solutions non d´ecomposables, et permet l’emploi d’algorithmes d’inf´erence per- formants tels que l’algorithme forward-backward (appel´e aussi message passing dans l’arbre de jonction) [48]. Outre ces atouts calculatoires, les GI apparaissent intuitive- ment comme des outils particuli`erement adapt´es pour la mod´elisation du LD, puisque les intervalles peuvent ˆetre interpr´et´es comme le LD pr´esent autour d’un locus. Les GI sont facilement contraints `a l’aide des positions physiques des SNP, refl´etant le fait que des corr´elations fortes auront davantage de chance d’ˆetre observ´ees entre SNP proches sur le chromosome. Le mod`ele est pr´esent´e en figure 4.5.

En th´eorie, une structure de donn´ees en arbre peut ˆetre utilis´ee pour stocker et mettre `a jour en temps logarithmique les intervalles inf´er´es par ´echantillonnage MCMC (ici nous parlons de complexit´e en fonction du nombre de SNP `a traiter). Cependant, en pratique, la construction de l’arbre se r´ev`ele superlin´eaire en temps lorsque de grands jeux de donn´ees sont trait´es (plus de 104 SNP). Pour r´esoudre ce probl`eme, une nouvelle restriction a ´et´e introduite [101] : les intervalles ne sont pas autoris´es `a d´epasser une largeur maximale de part et d’autre de la position du SNP. Tr`es r´ecemment, l’emploi de GI est devenu obsol`ete avec le d´eveloppement du mod`ele d’Abel et Thomas [1] qui se base sur un nouvel algorithme d’´echantillonnage dans l’espace g´en´eral des graphes d´ecomposables [103, 104]. Pour ce mod`ele, la lin´earit´e de l’algorithme d’apprentissage a aussi ´et´e atteinte au moyen de contraintes portant sur les graphes : seuls les SNP s´epar´es par une distance inf´erieure `a une distance maxi- male peuvent ˆetre d´ependants. Cette contrainte est en fait identique `a celle employ´ee pour l’apprentissage des GI. Afin d’estimer le mod`ele (GI ou graphe d´ecomposable)

Modèle Variables Restrictions Paradigme Objectif Logiciel Référence RM allèles décomposabilité non fréquentiste

modélisation du LD HapGraph (Thomas et Camp, 2004)

RB

aucune

sélection de tagSNPs - (Lee et Shatkay, 2006)

modélisation du LD - (Villanueva et Maciel, 2010)

RB avec VL

modélisation du LD - (Nefian, 2006)

- (Zhang et Ji, 2009)

bayésien cartographie fine HaploBlock

oui

fréquentiste fastPHASE (Scheet et Stephens, 2006)

fréquentiste Beagle (Browning, 2006)

RM génotypes bayésien graphminer

RM allèles

fréquentiste IntervalLD

fréquentiste FitGMLD (Abel et Thomas, 2011)

Passage à l'échelle allèles & clusters haplotypiques inférence de blocs haplotypiques (Greenspan et Geiger, 2004) (Greenspan et Geiger, 2005) RB avec VL (MMC) allèles & clusters

haplotypiques ordre physique des SNP

inférence d'haplotypes RB

(MMLV)

clusters

haplotypiques étude d'association

pangénomique distance physique &

décomposabilité (Verzilli et al., 2006)

distance physique &

graphe d'intervalle inférence

d'haplotypes

(Thomas, 2009a) (Thomas, 2009b) distance physique &

décomposabilité

Tableau 4.1: Comparaison des m´ethodes bas´ees sur des mod`eles graphiques probabilistes pour la mod´elisation du d´es´equilibre de liaison. RM : r´eseau de Markov ; RB : r´eseau bay´esien ; MMC : mod`ele de Markov cach´e ; MMLV : mod`ele de Markov de longueur variable ; VL : variable latente ; LD : d´es´equilibre de liaison.

et d’inf´erer les haplotypes, une approche ”diviser pour r´egner” consid`ere une fenˆetre glissante le long du chromosome. A l’int´erieur de la fenˆetre, l’algorithme forward- backward est employ´e. Grˆace `a ce moyen, les complexit´es en temps et en m´emoire sont lin´eaires.

In document Gebruikershandleiding (pagina 71-74)