SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
Un outil pour l’int´egration, l’exploration, et
l’´evaluation des donn´ees r´esultats issus de
diff´erents protocoles d’analyse ´epistatique
Debit Ahmed
Universit´e de Li`ege
Bioinformatique et Mod´elisation
27 Oct 2015
Outline
Les ´etudes d’associations `a l’´echelle g´enomique GWAS
Workflow d’un protocol GWAS
Le catalogue GWAS
Des ´etudes GWAs aux ´etudes GWAIs
Les ´etudes d’interactions `a l’´echelle g´enomique GWAIs
Le myst`ere de l’h´eritabilit´e manquante ’Missing heritability”
L’Epistasie
D´etection de l’´epistasie
Projet de recherche
Probl´ematique trait´ee
Objectifs de la recherche
Projet de recherche
Perspectives `a long terme
Les ´etudes d’associations `a l’´echelle g´enomique GWAS
Workflow d’un protocol GWAS
Le catalogue GWAS
En 2008, le premier catalogue exhaustif compil´e, pr`es de 200 SNPs
sont associ´es aux traits. Aujourd’hui, le catalogue a collect´e plus
de 1900 papiers, reportant plus de 14000 SNPs significativement
associ´es `a plus de 1500 traits [Welter et al. 2014].
Des ´etudes GWAS aux ´etudes GWAI [K. Van Steen, Feb
2013]
La complexit´e de la g´en´etique des maladies complexes peut
largement ˆetre attribu´ee au ph´enom`ene de l’´epistasie ou
l’interaction g`ene-g`ene.
Les interactions g`ene-g`ene est l’une des particularit´es des
maladies g´en´etiques complexes.
L’effet d’un locus donn´e est alt´er´e ou masqu´e par l’effet d’un
autre locus, alors la capacit´e de d´etection du premier loci sera
r´eduite
L’´elucidation de la combination des effets ind´ependants de ces
deux loci sera entrav´ee par leur interaction.
Les ´etudes d’interactions `a l’´echelle g´enomique GWAIs
Le myst`ere de l’h´eritabilit´e manquante ’Missing
heritability”: les interactions derri`ere l’h´eritabilit´e
phantome
La grande partie de l’h´eritabilit´e d’un trait ne peut ˆetre
expliqu´ee par les loci/variants (pris individuellement) associ´es
au trait d’int´erˆet. O`u peut-on trouver cette h´eritabilit´e
manquante ?
Le probl`eme de l’h´eritabilit´e manquante: les g`enes pris
individuellement ne peuvent pas expliquer l’h´eritabilit´e d’un
trait.
Le myst`ere de l’h´eritabilit´e manquante ’Missing
heritability”: les interactions derri`ere l’h´eritabilit´e
phantome
Le myst`ere de l’h´eritabilit´e manquante ’Missing
heritability”: les interactions derri`ere l’h´eritabilit´e
phantome
La proportion de l’h´eritabilt´e expliqu´ee par un ensemble de
variants est donn´ee par le ratio suivant:
πexplained =
h2
known
h2
all
hknown: num´erateur (h´eritabilit´e due `a ces variants) estim´ee
directement `a partir de leurs effets observ´es (effets additifs des
variants connus)
hall : d´enominateur (h´eritabilit´e inf´er´ee indirectement `a partir
des donn´ees sur la population ´etudi´ee, proportion de la
variance ph´enotypique attribuable aux effets additifs de tous
les variants, incluant ceux qui ne sont pas encore d´ecouverts)
Le myst`ere de l’h´eritabilit´e manquante ’Missing
heritability”: les interactions derri`ere l’h´eritabilit´e
phantome
La surestimation de l’h´eritabilit´e totale (d´enominateur), et du
coup sous-estimer l’h´eritabilit´e expliqu´ee peut ˆetre d´erri`ere
cette ”h´eritabilit´e phantome”
Par exemple, 80% de l’h´eritabilit´e manquante actuelle de la
maladie de Crohn peut ˆetre due aux interactions g´en´etiques.
Comment expliquer ce probl`eme ?
Variants rares, CNVs rares, Facteurs ´epig´en´etiques, ou.. effets
´epistatiques?
Epistasie: D´efinition
L’´epistasie est g´en´eralement d´efinie comme l’interaction impliquant
2 loci (g`enes) ou plus par rapport `a un ph´enotype d’int´erˆet. En
d’autres termes, si l’effet d’un g`ene particulier est modul´e par un
autre g`ene, dans ce c`as on peut dire qu’une interaction ´epistatique
a eu lieu entre ces deux g`enes [Hyunghoon Cho, 2012].
Epistasie biologique: fait r´ef´erence `a l’action des g`enes les uns
des autres.
Epistasie statistique: fait r´eference aux composantes de la
variance g´en´etique dans le cas incluant les interactions
´epistatiques:
VarG´en´etique = VarAdditif + VarDominant + VarInteractions
D´etection de l’´epistasie: Challenges
Objectifs de la d´etection de l’´epistasie
Trouver des interactions “pairwise”significatives dans le cadre
d’une maladie donn´ee.
D´eterminer l’action d’un g`ene ´epistatique dans le contexte
d’une maladie humaine am´eliorera notre compr´ehension sur les
syst`emes biologiques qui sous-tendent la variation du risque de
maladie ainsi que d’augmenter la pr´ecision de la pr´ediction du
risque [Makay and Moore, 2014].
Les connaissances concernant l’action des g`enes ´epistatiques
sont tr`es importantes dans la dissection de la carte
g´enotype-ph´enotype pour les traits et les maladies complexes
dans le cadre de la g´en´etique humaine (human genetic).
Les protocoles de d´etection de l’´epistasie [Jestinah M.
2012]
Toutes les m´ethodes de d´etection de l’´epistasie peuvent ˆetre
class´ees en trois cat´egories. Cette classification est bas´ee sur la
strat´egie de recherche adopt´ee, i.e recherche exhaustive,
recherche stochastique, et recherche heuristique.
Les protocoles de d´etection de l’´epistasie
Projet de recherche
Probl´ematique
Plusieurs strat´egies pour la d´etection des interactions ´epistatiques
⇒ H´et´erog´eneit´e dans les r´esultats.
⇒ Ciblent diff´erentes architectures g´en´etiques.
Comment examiner les diff´erents r´esultats issus des diff´erentes
techniques de l’analyse de l’´epistasie (interpr´etation), et combiner
le meilleur de chaque technique lors du balayage du g´enome ?
Objectifs de la recherche
- L’objectif principal de ce projet est le d´eveloppement d’un outil
hybride capable de combiner et d’explorer les diff´erentes donn´ees
r´esultats issues de diff´erents techniques d’analyse ´epistatique.
- On opte pour l’utilisation de la mod´elisation par les r´eseaux
d’interaction (th´eorie des graphes, matrice de similarit´e, fusion de
r´eseaux de similarit´e SNF, autres m´ethodes) des diff´erents r´esultats
obtenus pour chaque strat´egie choisie.
Objectifs de la recherche
L’outil `a d´evelopper nous permet entre autre de:
Mod´eliser chaque r´esultat issu d’un protocol d’analyse inclus
dans l’´etude sous format matriciel (SNPxSNP) ⇒ Mieux
visualiser les patterns des interactions ´epistatiques de chaque
technique.
Conversion de la matrice en un r´eseau d’interactions (SNPs =
noeuds, interaction = arˆete, puissance d’interaction = largeur
de l’arˆete) ⇒ ´elucider les interactions, formation de clusters,
...
Combiner tous les r´eseaux obtenus afin de construire un seul
r´eseau consensus d’interactions (un r´eseau de convergence) ⇒
contribution de chaque protocol d’analyse.
Travaux r´ealis´es en termes d’´evaluation des m´ethodes de
d´etection
Plusieurs m´ethodes de d´etection/analyse de l’´epistasie.
Peu d’´etudes consacr´ees `a leur comparaison !
Peu d’´etudes consacr´ees `a leur classification !
Pas d’´etudes consacr´ees `a leurs combination et leurs
integration en un seul framework !!!
Travaux r´ealis´es en termes d’´evaluation des m´ethodes de
d´etection
Comparaison et ´evaluation de 5 m´ethodes: TEAM, BOOST,
SNPRuler, AntEpiSeeker et epiMODE sur la base de: puissance de
d´etection, sensibilit´e (sensitivity), complexit´e de calcul
Travaux r´ealis´es en termes d’´evaluation des m´ethodes de
d´etection
Comparaison empirique de 5 m´ethodes: TEAM, BOOST,
SNPHarvester, SNPRuler, et Screen and Clean (SC) bas´ee sur:
capacit´e de d´etection, type I error-rate, scalability, Completeness
Travaux r´ealis´es en termes d’´evaluation des m´ethodes de
d´etection
L’´evaluation est bas´ee
sur: Le nombre
de paires de SNPs
chevauchant, distance
entre protocoles, influ-
ence de la MAF sur
le r´esultat de l’analyse
⇒ d´emonstration
empirique: Simple
changement dans le
protocol d’analyse ⇒
h´et´erog´eneit´e dans les
r´esultats des ´etudes
GWAI
Projet de recherche
Combiner et explorer diff´erentes donn´ees r´esultant de
plusieurs analyses:
A notre connaissance, aucun travail sur l’exploration et la
combinaison des diff´erents r´esultats issus des differentes m´ethodes
n’a ´et´e fait. Le projet propos´e s’inscrit dans ce contexte, et
constitue une tentative d’aborder ce probl`eme.
Projet de recherche -Framework-
Projet de recherche -D´emarches-
D´emarches: Les grandes lignes du projet propos´e incluent entre
autres:
R´ecup´eration des donn´ees de simulation Case/Control `a partir
de la source WTCCC (wtccc.org.uk)
Choix des protocols `a inclure dans l’´etude (puissance de
d´etection, temps d’ex´ecution, disponibilit´e de software,
r´eecriture du code, ...)
R´ealiser l’analyse de l’´epistasie pour chaque protocol en
incluant les pr´e-traitement des donn´ees (Quality control)
Mod´elisation de chaque r´esultat issu de chaque protocol
(matrice, r´eseau)
Combiner les r´eseaux entre eux ⇒ R´esultat consensus
Impl´ementation de l’outil pour l’´evaluation des r´esultats
obtenus (overlaps, diff´erences).
Projet de recherche -Environnement de travail-
Ce projet sera r´ealis´e en collaboration entre:
Unit´e de G´en´etique Statistique et Bioinformatique (Institut
Montefiore) de l’universit´e de Li`ege (Prof. Van Steen)
Centre de Biologie Computationnelle (CBIO -
http://cbio.ensmp.fr), un laboratoire commun entre l’Ecole
d’ing´enieur Mines ParisTech et l’institut Curie (Paris) (Dr.
Chlo´e Azencott).
Projet de recherche -Environnement de travail-
- Domaines de recherche dans l’unit´e G´en´etique Statistique
(ULg):
Caract´erisation patient / population (stratification) →
[Kridsadakorn Chaichoompu, Ramouna Fouladi]
Interactions: GWAIs, Techniques de d´etection de l’´epistasie
→ [Dr. Elena Gusareva]
D´eveloppement d’algorithmes de d´etection de l’´epistasie →
[Fran¸cois Van Lishout]
Integromics: combiner de multiples donn´ees omics → [K.
Bessonov].
Projet de recherche -Environnement de travail-
Le CBIO b´en´eficie d’un exceptionnel environnement scientifique
avec un acc`es imm´ediat aux experts et collaborateurs dans la
biologie et la m´edecine, permettant un travail et un ´echange
multidisciplinaire.
- Domaines de recherche dans l’unit´e au sein du CBIO:
Analyse des donn´ees biologiques et application en m´edecine
personnalis´ee.
Analyse et reconstruction des r´eseaux de g`enes.
Int´egration des donn´ees g´enomiques avec les r´eseaux de g`enes.
Algorithmes en apprentissage statistique.
Projet de recherche -Facilit´es techniques-
NIC3 Cluster (ULg) est un serveur de calcul parall`ele destin´e
aux calculs num´eriques intensifs. Ce cluster est constitu´e de
208 noeuds(serveurs). Chaque serveur a deux processeurs
quadcore de 2.5 GHZ. 2/3 des serveurs ont 16GB de m´emoire
RAM, et 1/3 ont 32GB. Cel`a donne 416 processeurs/CPUs et
1664 coeurs.
GIGA-R qui est un institut de recherche biom´edical
interdisciplinaire dispose ´egalement d’infrastructure IT pour le
stockage massif de donn´ees, puissance de calcul,
d´eveloppemnt software, et recherches bioinformatiques.
Impact sur la m´edecine de pr´ecision (precision medicine)
La d´etection, la caract´erisation, et l’interpr´etation des interactions
g`ene-g`ene sont pr´emordiales `a l’am´elioration du diagnostique, la
pr´evention et le traitement des maladies humaines complexes. On
attend `a ce que notre outil peut atteindre cet objectif quant `a son
utilisation appropri´ee.

Contenu connexe

Similaire à presentation

Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)
Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)
Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)Mohammed TAMALI
 
Evidence-based policy making
Evidence-based policy makingEvidence-based policy making
Evidence-based policy makingGenève Lab
 
Cartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deCartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deJovani NDABTJE
 
Métrologie : Jusqu'où ne pas aller trop loin ?
Métrologie : Jusqu'où ne pas aller trop loin ?Métrologie : Jusqu'où ne pas aller trop loin ?
Métrologie : Jusqu'où ne pas aller trop loin ?Jean-Michel POU
 
Terminologies en statistique - Copy.docx
Terminologies en statistique  - Copy.docxTerminologies en statistique  - Copy.docx
Terminologies en statistique - Copy.docxsafaebelkyr
 
Incidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsIncidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsPasteur_Tunis
 
Journal collaboratif innovation SGS MULTILAB Rouen 2015
Journal collaboratif innovation SGS MULTILAB Rouen 2015Journal collaboratif innovation SGS MULTILAB Rouen 2015
Journal collaboratif innovation SGS MULTILAB Rouen 2015Yvon Gervaise
 
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...Jean-Emmanuel Bibault Bibault, MD, PhD
 
Le concept de mécanisme et l'approche réaliste en évaluation de programme
Le concept de mécanisme et l'approche réaliste en évaluation de programmeLe concept de mécanisme et l'approche réaliste en évaluation de programme
Le concept de mécanisme et l'approche réaliste en évaluation de programmeAnthony Lacouture
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1aduboi4
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfFootballLovers9
 
RCaller dans l'analyse de données biodiversité
RCaller dans l'analyse de données biodiversitéRCaller dans l'analyse de données biodiversité
RCaller dans l'analyse de données biodiversitéSafe Software
 
7490_chap02.pdf
7490_chap02.pdf7490_chap02.pdf
7490_chap02.pdfSaidSousdi
 
Pluye et al._mthodes_mixtes
Pluye et al._mthodes_mixtesPluye et al._mthodes_mixtes
Pluye et al._mthodes_mixtesTayeb Sid
 
Description de la technologie CFAR-m
Description de la technologie CFAR-mDescription de la technologie CFAR-m
Description de la technologie CFAR-mbusinessangeleu
 

Similaire à presentation (19)

Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)
Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)
Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)
 
Evidence-based policy making
Evidence-based policy makingEvidence-based policy making
Evidence-based policy making
 
Cartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deCartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire de
 
Métrologie : Jusqu'où ne pas aller trop loin ?
Métrologie : Jusqu'où ne pas aller trop loin ?Métrologie : Jusqu'où ne pas aller trop loin ?
Métrologie : Jusqu'où ne pas aller trop loin ?
 
Terminologies en statistique - Copy.docx
Terminologies en statistique  - Copy.docxTerminologies en statistique  - Copy.docx
Terminologies en statistique - Copy.docx
 
Russo ined june12
Russo ined june12Russo ined june12
Russo ined june12
 
Les statistiques
Les statistiquesLes statistiques
Les statistiques
 
Incidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsIncidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer genetics
 
Journal collaboratif innovation SGS MULTILAB Rouen 2015
Journal collaboratif innovation SGS MULTILAB Rouen 2015Journal collaboratif innovation SGS MULTILAB Rouen 2015
Journal collaboratif innovation SGS MULTILAB Rouen 2015
 
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
 
Le concept de mécanisme et l'approche réaliste en évaluation de programme
Le concept de mécanisme et l'approche réaliste en évaluation de programmeLe concept de mécanisme et l'approche réaliste en évaluation de programme
Le concept de mécanisme et l'approche réaliste en évaluation de programme
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1
 
Iris.pdf Med-Sci
Iris.pdf Med-SciIris.pdf Med-Sci
Iris.pdf Med-Sci
 
TS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdfTS-TC-Statistiques-manuel-stagiaire.pdf
TS-TC-Statistiques-manuel-stagiaire.pdf
 
RCaller dans l'analyse de données biodiversité
RCaller dans l'analyse de données biodiversitéRCaller dans l'analyse de données biodiversité
RCaller dans l'analyse de données biodiversité
 
7490_chap02.pdf
7490_chap02.pdf7490_chap02.pdf
7490_chap02.pdf
 
Stat1 Les Indices
Stat1  Les IndicesStat1  Les Indices
Stat1 Les Indices
 
Pluye et al._mthodes_mixtes
Pluye et al._mthodes_mixtesPluye et al._mthodes_mixtes
Pluye et al._mthodes_mixtes
 
Description de la technologie CFAR-m
Description de la technologie CFAR-mDescription de la technologie CFAR-m
Description de la technologie CFAR-m
 

presentation

  • 1. Un outil pour l’int´egration, l’exploration, et l’´evaluation des donn´ees r´esultats issus de diff´erents protocoles d’analyse ´epistatique Debit Ahmed Universit´e de Li`ege Bioinformatique et Mod´elisation 27 Oct 2015
  • 2. Outline Les ´etudes d’associations `a l’´echelle g´enomique GWAS Workflow d’un protocol GWAS Le catalogue GWAS Des ´etudes GWAs aux ´etudes GWAIs Les ´etudes d’interactions `a l’´echelle g´enomique GWAIs Le myst`ere de l’h´eritabilit´e manquante ’Missing heritability” L’Epistasie D´etection de l’´epistasie Projet de recherche Probl´ematique trait´ee Objectifs de la recherche Projet de recherche Perspectives `a long terme
  • 3. Les ´etudes d’associations `a l’´echelle g´enomique GWAS
  • 5. Le catalogue GWAS En 2008, le premier catalogue exhaustif compil´e, pr`es de 200 SNPs sont associ´es aux traits. Aujourd’hui, le catalogue a collect´e plus de 1900 papiers, reportant plus de 14000 SNPs significativement associ´es `a plus de 1500 traits [Welter et al. 2014].
  • 6. Des ´etudes GWAS aux ´etudes GWAI [K. Van Steen, Feb 2013] La complexit´e de la g´en´etique des maladies complexes peut largement ˆetre attribu´ee au ph´enom`ene de l’´epistasie ou l’interaction g`ene-g`ene. Les interactions g`ene-g`ene est l’une des particularit´es des maladies g´en´etiques complexes. L’effet d’un locus donn´e est alt´er´e ou masqu´e par l’effet d’un autre locus, alors la capacit´e de d´etection du premier loci sera r´eduite L’´elucidation de la combination des effets ind´ependants de ces deux loci sera entrav´ee par leur interaction.
  • 7. Les ´etudes d’interactions `a l’´echelle g´enomique GWAIs
  • 8. Le myst`ere de l’h´eritabilit´e manquante ’Missing heritability”: les interactions derri`ere l’h´eritabilit´e phantome La grande partie de l’h´eritabilit´e d’un trait ne peut ˆetre expliqu´ee par les loci/variants (pris individuellement) associ´es au trait d’int´erˆet. O`u peut-on trouver cette h´eritabilit´e manquante ? Le probl`eme de l’h´eritabilit´e manquante: les g`enes pris individuellement ne peuvent pas expliquer l’h´eritabilit´e d’un trait.
  • 9. Le myst`ere de l’h´eritabilit´e manquante ’Missing heritability”: les interactions derri`ere l’h´eritabilit´e phantome
  • 10. Le myst`ere de l’h´eritabilit´e manquante ’Missing heritability”: les interactions derri`ere l’h´eritabilit´e phantome La proportion de l’h´eritabilt´e expliqu´ee par un ensemble de variants est donn´ee par le ratio suivant: πexplained = h2 known h2 all hknown: num´erateur (h´eritabilit´e due `a ces variants) estim´ee directement `a partir de leurs effets observ´es (effets additifs des variants connus) hall : d´enominateur (h´eritabilit´e inf´er´ee indirectement `a partir des donn´ees sur la population ´etudi´ee, proportion de la variance ph´enotypique attribuable aux effets additifs de tous les variants, incluant ceux qui ne sont pas encore d´ecouverts)
  • 11. Le myst`ere de l’h´eritabilit´e manquante ’Missing heritability”: les interactions derri`ere l’h´eritabilit´e phantome La surestimation de l’h´eritabilit´e totale (d´enominateur), et du coup sous-estimer l’h´eritabilit´e expliqu´ee peut ˆetre d´erri`ere cette ”h´eritabilit´e phantome” Par exemple, 80% de l’h´eritabilit´e manquante actuelle de la maladie de Crohn peut ˆetre due aux interactions g´en´etiques. Comment expliquer ce probl`eme ? Variants rares, CNVs rares, Facteurs ´epig´en´etiques, ou.. effets ´epistatiques?
  • 12. Epistasie: D´efinition L’´epistasie est g´en´eralement d´efinie comme l’interaction impliquant 2 loci (g`enes) ou plus par rapport `a un ph´enotype d’int´erˆet. En d’autres termes, si l’effet d’un g`ene particulier est modul´e par un autre g`ene, dans ce c`as on peut dire qu’une interaction ´epistatique a eu lieu entre ces deux g`enes [Hyunghoon Cho, 2012]. Epistasie biologique: fait r´ef´erence `a l’action des g`enes les uns des autres. Epistasie statistique: fait r´eference aux composantes de la variance g´en´etique dans le cas incluant les interactions ´epistatiques: VarG´en´etique = VarAdditif + VarDominant + VarInteractions
  • 14. Objectifs de la d´etection de l’´epistasie Trouver des interactions “pairwise”significatives dans le cadre d’une maladie donn´ee. D´eterminer l’action d’un g`ene ´epistatique dans le contexte d’une maladie humaine am´eliorera notre compr´ehension sur les syst`emes biologiques qui sous-tendent la variation du risque de maladie ainsi que d’augmenter la pr´ecision de la pr´ediction du risque [Makay and Moore, 2014]. Les connaissances concernant l’action des g`enes ´epistatiques sont tr`es importantes dans la dissection de la carte g´enotype-ph´enotype pour les traits et les maladies complexes dans le cadre de la g´en´etique humaine (human genetic).
  • 15. Les protocoles de d´etection de l’´epistasie [Jestinah M. 2012] Toutes les m´ethodes de d´etection de l’´epistasie peuvent ˆetre class´ees en trois cat´egories. Cette classification est bas´ee sur la strat´egie de recherche adopt´ee, i.e recherche exhaustive, recherche stochastique, et recherche heuristique.
  • 16. Les protocoles de d´etection de l’´epistasie
  • 18. Probl´ematique Plusieurs strat´egies pour la d´etection des interactions ´epistatiques ⇒ H´et´erog´eneit´e dans les r´esultats. ⇒ Ciblent diff´erentes architectures g´en´etiques. Comment examiner les diff´erents r´esultats issus des diff´erentes techniques de l’analyse de l’´epistasie (interpr´etation), et combiner le meilleur de chaque technique lors du balayage du g´enome ?
  • 19. Objectifs de la recherche - L’objectif principal de ce projet est le d´eveloppement d’un outil hybride capable de combiner et d’explorer les diff´erentes donn´ees r´esultats issues de diff´erents techniques d’analyse ´epistatique. - On opte pour l’utilisation de la mod´elisation par les r´eseaux d’interaction (th´eorie des graphes, matrice de similarit´e, fusion de r´eseaux de similarit´e SNF, autres m´ethodes) des diff´erents r´esultats obtenus pour chaque strat´egie choisie.
  • 20. Objectifs de la recherche L’outil `a d´evelopper nous permet entre autre de: Mod´eliser chaque r´esultat issu d’un protocol d’analyse inclus dans l’´etude sous format matriciel (SNPxSNP) ⇒ Mieux visualiser les patterns des interactions ´epistatiques de chaque technique. Conversion de la matrice en un r´eseau d’interactions (SNPs = noeuds, interaction = arˆete, puissance d’interaction = largeur de l’arˆete) ⇒ ´elucider les interactions, formation de clusters, ... Combiner tous les r´eseaux obtenus afin de construire un seul r´eseau consensus d’interactions (un r´eseau de convergence) ⇒ contribution de chaque protocol d’analyse.
  • 21. Travaux r´ealis´es en termes d’´evaluation des m´ethodes de d´etection Plusieurs m´ethodes de d´etection/analyse de l’´epistasie. Peu d’´etudes consacr´ees `a leur comparaison ! Peu d’´etudes consacr´ees `a leur classification ! Pas d’´etudes consacr´ees `a leurs combination et leurs integration en un seul framework !!!
  • 22. Travaux r´ealis´es en termes d’´evaluation des m´ethodes de d´etection Comparaison et ´evaluation de 5 m´ethodes: TEAM, BOOST, SNPRuler, AntEpiSeeker et epiMODE sur la base de: puissance de d´etection, sensibilit´e (sensitivity), complexit´e de calcul
  • 23. Travaux r´ealis´es en termes d’´evaluation des m´ethodes de d´etection Comparaison empirique de 5 m´ethodes: TEAM, BOOST, SNPHarvester, SNPRuler, et Screen and Clean (SC) bas´ee sur: capacit´e de d´etection, type I error-rate, scalability, Completeness
  • 24. Travaux r´ealis´es en termes d’´evaluation des m´ethodes de d´etection L’´evaluation est bas´ee sur: Le nombre de paires de SNPs chevauchant, distance entre protocoles, influ- ence de la MAF sur le r´esultat de l’analyse ⇒ d´emonstration empirique: Simple changement dans le protocol d’analyse ⇒ h´et´erog´eneit´e dans les r´esultats des ´etudes GWAI
  • 25. Projet de recherche Combiner et explorer diff´erentes donn´ees r´esultant de plusieurs analyses: A notre connaissance, aucun travail sur l’exploration et la combinaison des diff´erents r´esultats issus des differentes m´ethodes n’a ´et´e fait. Le projet propos´e s’inscrit dans ce contexte, et constitue une tentative d’aborder ce probl`eme.
  • 26. Projet de recherche -Framework-
  • 27. Projet de recherche -D´emarches- D´emarches: Les grandes lignes du projet propos´e incluent entre autres: R´ecup´eration des donn´ees de simulation Case/Control `a partir de la source WTCCC (wtccc.org.uk) Choix des protocols `a inclure dans l’´etude (puissance de d´etection, temps d’ex´ecution, disponibilit´e de software, r´eecriture du code, ...) R´ealiser l’analyse de l’´epistasie pour chaque protocol en incluant les pr´e-traitement des donn´ees (Quality control) Mod´elisation de chaque r´esultat issu de chaque protocol (matrice, r´eseau) Combiner les r´eseaux entre eux ⇒ R´esultat consensus Impl´ementation de l’outil pour l’´evaluation des r´esultats obtenus (overlaps, diff´erences).
  • 28. Projet de recherche -Environnement de travail- Ce projet sera r´ealis´e en collaboration entre: Unit´e de G´en´etique Statistique et Bioinformatique (Institut Montefiore) de l’universit´e de Li`ege (Prof. Van Steen) Centre de Biologie Computationnelle (CBIO - http://cbio.ensmp.fr), un laboratoire commun entre l’Ecole d’ing´enieur Mines ParisTech et l’institut Curie (Paris) (Dr. Chlo´e Azencott).
  • 29. Projet de recherche -Environnement de travail- - Domaines de recherche dans l’unit´e G´en´etique Statistique (ULg): Caract´erisation patient / population (stratification) → [Kridsadakorn Chaichoompu, Ramouna Fouladi] Interactions: GWAIs, Techniques de d´etection de l’´epistasie → [Dr. Elena Gusareva] D´eveloppement d’algorithmes de d´etection de l’´epistasie → [Fran¸cois Van Lishout] Integromics: combiner de multiples donn´ees omics → [K. Bessonov].
  • 30. Projet de recherche -Environnement de travail- Le CBIO b´en´eficie d’un exceptionnel environnement scientifique avec un acc`es imm´ediat aux experts et collaborateurs dans la biologie et la m´edecine, permettant un travail et un ´echange multidisciplinaire. - Domaines de recherche dans l’unit´e au sein du CBIO: Analyse des donn´ees biologiques et application en m´edecine personnalis´ee. Analyse et reconstruction des r´eseaux de g`enes. Int´egration des donn´ees g´enomiques avec les r´eseaux de g`enes. Algorithmes en apprentissage statistique.
  • 31. Projet de recherche -Facilit´es techniques- NIC3 Cluster (ULg) est un serveur de calcul parall`ele destin´e aux calculs num´eriques intensifs. Ce cluster est constitu´e de 208 noeuds(serveurs). Chaque serveur a deux processeurs quadcore de 2.5 GHZ. 2/3 des serveurs ont 16GB de m´emoire RAM, et 1/3 ont 32GB. Cel`a donne 416 processeurs/CPUs et 1664 coeurs. GIGA-R qui est un institut de recherche biom´edical interdisciplinaire dispose ´egalement d’infrastructure IT pour le stockage massif de donn´ees, puissance de calcul, d´eveloppemnt software, et recherches bioinformatiques.
  • 32. Impact sur la m´edecine de pr´ecision (precision medicine) La d´etection, la caract´erisation, et l’interpr´etation des interactions g`ene-g`ene sont pr´emordiales `a l’am´elioration du diagnostique, la pr´evention et le traitement des maladies humaines complexes. On attend `a ce que notre outil peut atteindre cet objectif quant `a son utilisation appropri´ee.