30/11/2010 Méthodes combinatoires     de reconstructionde réseaux phylogénétiques       Philippe Gambette
Plan     • Les réseaux phylogénétiques     • Motivations de lapproche combinatoire     • Restrictions sur les réseaux phyl...
Plan     • Les réseaux phylogénétiques     • Motivations de lapproche combinatoire     • Restrictions sur les réseaux phyl...
Les arbres phylogénétiques     Arbre phylogénétique dun ensemble despèces :     • Les organiser en fonction de caractères ...
Les arbres phylogénétiques     Arbre phylogénétique dun ensemble despèces :     • Les organiser en fonction de caractères ...
Les arbres phylogénétiques     Arbre phylogénétique dun ensemble despèces :     • Les organiser en fonction de caractères ...
Les arbres phylogénétiques     Arbre phylogénétique dun ensemble despèces :     • Les organiser en fonction de caractères ...
Les arbres phylogénétiques        Arbre phylogénétique dun ensemble despèces :        • Les organiser en fonction de carac...
Transferts de matériel génétique        Transferts de matériel génétique entre espèces coexistantes :        • transfert h...
Transferts de matériel génétique         Transferts de matériel génétique entre espèces coexistantes :         • transfert...
Transferts de matériel génétique         Transferts de matériel génétique entre espèces coexistantes :         • transfert...
Les réseaux phylogénétiques      Réseau phylogénétique : réseau représentant des données dévolution      • réseaux phylogé...
Les réseaux phylogénétiques       Réseau phylogénétique : réseau représentant des données dévolution       • réseaux phylo...
Plate-forme bibliographique                                            Who is Who in                                      ...
Plan      • Les réseaux phylogénétiques      • Motivations de lapproche combinatoire      • Restrictions sur les réseaux p...
Reconstruction de réseaux phylogénétiques     espèce   1   :   AATTGCAG TAGCCCAAAAT     espèce   2   :   ACCTGCAG TAGACCAA...
Reconstruction de réseaux phylogénétiques                                 Problème : méthodes généralement lentes,        ...
Reconstruction de réseaux phylogénétiques     espèce   1   :   AATTGCAG TAGCCCAAAAT     espèce   2   :   ACCTGCAG TAGACCAA...
Reconstruction de réseaux phylogénétiques     espèce   1   :   AATTGCAG TAGCCCAAAAT     espèce   2   :   ACCTGCAG TAGACCAA...
Triplets et quadruplets, clades et bipartitions     Problème :     Reconstruire le super-réseau dun ensemble darbres est  ...
Triplets et quadruplets, clades et bipartitions     Idée :     reconstuire un réseau contenant tous les :                 ...
Triplets et quadruplets, clades et bipartitions     Idée :     reconstuire un réseau contenant tous les :                 ...
Triplets et quadruplets, clades et bipartitions     Idée :     reconstuire un réseau contenant tous les :                 ...
Triplets et quadruplets, clades et bipartitions     Idée :     reconstuire un réseau contenant tous les :                 ...
Reconstruction combinatoire de réseaux phylogénétiques     Idée :     modifier le type de données à traiter               ...
Reconstruction combinatoire de réseaux phylogénétiques     Idée :     modifier le type de données à traiter               ...
Reconstruction combinatoire de réseaux phylogénétiques     Idée :     modifier le type de données à traiter               ...
Reconstruction combinatoire de réseaux phylogénétiques      Un réseau qui contient lensemble de tous les triplets ou clade...
Reconstruction combinatoire de réseaux phylogénétiques      Un réseau qui contient lensemble de tous les triplets ou clade...
Reconstruction combinatoire de réseaux phylogénétiques      Un réseau qui contient lensemble de tous les triplets ou clade...
Reconstruction combinatoire de réseaux phylogénétiques      Un réseau qui contient lensemble de tous les triplets ou clade...
Reconstruction combinatoire de réseaux phylogénétiques      Un réseau qui contient lensemble de tous les triplets ou clade...
Reconstruction combinatoire de réseaux phylogénétiques      Un réseau qui contient lensemble de tous les triplets ou clade...
Reconstruction combinatoire de réseaux phylogénétiques      Un réseau qui contient lensemble de tous les triplets ou clade...
Reconstruction combinatoire de réseaux phylogénétiques      Un réseau qui contient lensemble de tous les triplets ou clade...
Clades stricts et souples      Clade “strict” : ensemble des feuilles sous un noeud du réseau                             ...
Clades stricts et souples      Clade “souple” : clade dun arbre inclus dans le réseau      Modèle de transmission arborée ...
Clades stricts et souples      Clade “souple” : clade dun arbre inclus dans le réseau      Modèle de transmission arborée ...
Clades stricts et souples      Modèle de transmission arborée des gènes      (gène transmis intégralement)      Clade “sou...
Plan      • Les réseaux phylogénétiques      • Motivations de lapproche combinatoire      • Restrictions sur les réseaux p...
Réseaux phylogénétiques restreints      Algorithmes rapides pour des réseaux à structure proche dun arbre.                ...
Réseaux phylogénétiques restreints      Algorithmes rapides pour des réseaux à structure proche dun arbre.                ...
Décomposition des réseaux de niveau k     Décomposition en blobs :        a b c d e f g h i            j k        a b c d ...
Décomposition des réseaux de niveau k     Générateur de niveau k :     réseau de niveau k sans isthme (arête dont la suppr...
Décomposition des réseaux de niveau k     Générateur de niveau k :     réseau de niveau k sans isthme (arête dont la suppr...
Construction des générateurs     Problème !     Certains des générateurs de niveau k+1 obtenus depuis ceux de niveau k son...
Construction des générateurs     Problème !     Certains des générateurs de niveau k+1 obtenus depuis ceux de niveau k son...
Réseaux phylogénétiques restreints      Algorithmes rapides pour des réseaux à structure proche dun arbre.                ...
Réseaux phylogénétiques restreints      Algorithmes rapides pour des réseaux à structure proche dun arbre.                ...
Réseaux phylogénétiques restreints      Algorithmes rapides pour des réseaux à structure proche dun arbre.                ...
Réseaux phylogénétiques restreints      Algorithmes rapides pour des réseaux à structure proche dun arbre.                ...
Réseaux phylogénétiques restreints      Algorithmes rapides pour des réseaux à structure proche dun arbre.                ...
Hiérarchie de sous-classes de réseaux                                                 explicite                           ...
Hiérarchie de sous-classes de réseaux                                                 explicite                           ...
Plan      • Les réseaux phylogénétiques      • Motivations de lapproche combinatoire      • Restrictions sur les réseaux p...
Reconstruction depuis les clades souples     {arbres}         Consensus de clades souples :                      Dendrosco...
Clades et réseaux à une couche de réticulation      Test de compatibilité souple polynomial sur les réseaux à une couche d...
Clades et réseaux à une couche de réticulation      Test de compatibilité souple polynomial sur les réseaux à une couche d...
Une approche en deux étapes     1- Trouver un ensemble minimum de conflits parmi les clades :     - partie sans conflits  ...
Lensemble minimum de conflits      Conflit : clades ni inclus ni disjoints                 A        B      Problème :     ...
Lensemble minimum de conflits      Conflit : clades ni inclus ni disjoints                   A       B      Graphe des car...
Lensemble minimum de conflits      Conflit : clades ni inclus ni disjoints                 A       B      Graphe des carac...
Lensemble minimum de conflits      Conflit : clades ni inclus ni disjoints                 A       B      Graphe des carac...
Lattachement minimum      Etape précédente :      ensemble minimum de taxons R tels que les clades      sur XR sont compat...
Lattachement minimum      Problème :                                                  ab    cd     T      Attacher T à B a...
Reconstruction depuis les triplets     {arbres}     Méthodes exactes rapides pour reconstruire un réseau de niveau 1      ...
Reconstruction depuis les quadruplets      {arbres}       Réseau non enraciné de niveau k                                 ...
Reconstruction darbres                       non enraciné / quadruplets                enraciné / triplets                ...
Reconstruction de réseaux de niveau k                                  non enraciné                             enraciné  ...
Plan      • Les réseaux phylogénétiques      • Motivations de lapproche combinatoire      • Restrictions sur les réseaux p...
Explosion combinatoire       • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion       combinatoire ...
Ambiguïté des solutions        • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion        combinatoi...
Ambiguïté des solutions        • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion        combinatoi...
Ambiguïté des solutions   • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion   combinatoire   • Amb...
Ambiguïté des solutions        • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion        combinatoi...
Ambiguïté des solutions        • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion        combinatoi...
Plan      • Les réseaux phylogénétiques      • Motivations de lapproche combinatoire      • Restrictions sur les réseaux p...
Bruit dans les données     • Approches de filtres :     Ne considérer que les clades, triplets, avec un bon support.     E...
Silence dans les données     Nécessité davoir des clades complets, des ensembles denses de triplets ou     quadruplets :  ...
Exemples de résultats     16 arbres de la base HOGENOM sur 47 taxons            Lev1athan     (protéobactéries)           ...
Exemples de résultats     16 arbres de la base HOGENOM sur 47 taxons    Dendroscope     (protéobactéries)                 ...
Exemples de résultats      9 arbres sur 279 espèces de procaryotes      Clades dans au moins 2 arbres                     ...
Plan      • Les réseaux phylogénétiques      • Motivations de lapproche combinatoire      • Restrictions sur les réseaux p...
Résultats obtenus pendant la thèse                                  Bioinformatique       Reconstruction de réseaux à une ...
Contributions logicielles                                                    Bioinformatique       Implémentation Java, da...
Plan      • Les réseaux phylogénétiques      • Motivations de lapproche combinatoire      • Restrictions sur les réseaux p...
Perspectives de recherche      Combinatoire :      - Meilleure connaissance des réseaux de faible niveau, enracinés ou non...
Prochain SlideShare
Chargement dans…5
×

Méthodes combinatoires de reconstruction de réseaux phylogénétiques

2 140 vues

Publié le

Soutenance de thèse le 30 novembre 2010 au LIRMM à Montpellier.

Jury :
- Guillaume Fertin & Vincent Moulton (rapporteurs)
- Alain Guénoche, Violaine Prince & Eric Tannier
- Vincent Berry & Christophe Paul (directeurs de thèse)

Publié dans : Santé & Médecine
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
2 140
Sur SlideShare
0
Issues des intégrations
0
Intégrations
537
Actions
Partages
0
Téléchargements
21
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Méthodes combinatoires de reconstruction de réseaux phylogénétiques

  1. 1. 30/11/2010 Méthodes combinatoires de reconstructionde réseaux phylogénétiques Philippe Gambette
  2. 2. Plan • Les réseaux phylogénétiques • Motivations de lapproche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives2
  3. 3. Plan • Les réseaux phylogénétiques • Motivations de lapproche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives3
  4. 4. Les arbres phylogénétiques Arbre phylogénétique dun ensemble despèces : • Les organiser en fonction de caractères communs classification • Décrire leur évolution Daprès Lamarck : Histoire naturelle des animaux sans vertèbres (1815) 44
  5. 5. Les arbres phylogénétiques Arbre phylogénétique dun ensemble despèces : • Les organiser en fonction de caractères communs • Décrire leur évolution modélisation Daprès Woese, Kandler, Wheelis : Towards a natural system of organisms: proposal for the domains Archaea, Bacteria, and Eucarya, Proceedings of the National Academy of Sciences, 87(12), 4576–4579 (1990)5
  6. 6. Les arbres phylogénétiques Arbre phylogénétique dun ensemble despèces : • Les organiser en fonction de caractères communs • Décrire leur évolution modélisation racine Daprès Woese, Kandler, Wheelis : Towards a natural system of organisms: proposal for the domains Archaea, Bacteria, and Eucarya, Proceedings of the National Academy of Sciences, 87(12), 4576–4579 (1990)6
  7. 7. Les arbres phylogénétiques Arbre phylogénétique dun ensemble despèces : • Les organiser en fonction de caractères communs • Décrire leur évolution modélisation incertitudes → arbre non enraciné Daprès Christophe Blumrich, David S. Spencer, cité dans Doolittle : Uprooting the Tree of Life, Scientific American (Fév. 2000)7
  8. 8. Les arbres phylogénétiques Arbre phylogénétique dun ensemble despèces : • Les organiser en fonction de caractères communs • Décrire leur évolution arbre des “tokogénie” des espèces S individus A B C A B C8
  9. 9. Transferts de matériel génétique Transferts de matériel génétique entre espèces coexistantes : • transfert horizontal • hybridation S A B C A B C9
  10. 10. Transferts de matériel génétique Transferts de matériel génétique entre espèces coexistantes : • transfert horizontal • hybridation arbre des espèces S A B C gène G1 A B C A B C réseau N A B C10
  11. 11. Transferts de matériel génétique Transferts de matériel génétique entre espèces coexistantes : • transfert horizontal • hybridation gène G1 arbre des espèces S A B C A B C arbres de gènes incompatibles gène G2 A B C réseau N A B C A B C11
  12. 12. Les réseaux phylogénétiques Réseau phylogénétique : réseau représentant des données dévolution • réseaux phylogénétiques explicites modélisation de lévolution Simplistic réseau à une couche de réticulation réseau de niveau 2 Dendroscope diagramme de synthèse HorizStory T-Rex réticulogramme12
  13. 13. Les réseaux phylogénétiques Réseau phylogénétique : réseau représentant des données dévolution • réseaux phylogénétiques explicites modélisation de lévolution Simplistic diagramme de synthèse réseau à une couche de réticulation réseau de niveau 2 Dendroscope HorizStory • réseaux phylogénétiques abstraits classification, visualisation de données réseau couvrant minimum réseau de bipartitions réseau médian SplitsTree Network TCS13
  14. 14. Plate-forme bibliographique Who is Who in Phylogenetic Networks, Articles, Authors & Programs Basé sur BibAdmin par Sergiu Chelcea + nuages de mots, histogramme des dates, liste des journaux, graphes de co-auteurs, définition des mots-clés.14 http://www.atgc-montpellier.fr/phylnet
  15. 15. Plan • Les réseaux phylogénétiques • Motivations de lapproche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives15
  16. 16. Reconstruction de réseaux phylogénétiques espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce espèce 3 4 : : GCTTGCCG ATTTGCAG TAGACAAGAAT AAGACCAAAT {séquences de gènes} espèce 5 : TAGACAAGAAT espèce 6 : ACTTGCAG TAGCACAAAAT espèce 7 : ACCTGGTG TAAAAT méthodes de distance G1 G2 Bandelt & Dress 1992 - Legendre & Makarenkov 2000 - Bryant & Moulton 2002 méthodes de parcimonie Hein 1990 - Kececioglu & Gusfield 1994 - Jin, Nakhleh, Snir, Tuller 2009 méthodes de vraisemblance Snir & Tuller 2009 - Jin, Nakhleh, Snir, Tuller 2009 - Velasco & Sober 2009 réseau N16
  17. 17. Reconstruction de réseaux phylogénétiques Problème : méthodes généralement lentes, explosion du nombre de séquences. espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce espèce 3 4 : : GCTTGCCG ATTTGCAG TAGACAAGAAT AAGACCAAAT {séquences de gènes} espèce 5 : TAGACAAGAAT espèce 6 : ACTTGCAG TAGCACAAAAT espèce 7 : ACCTGGTG TAAAAT méthodes de distance G1 G2 Bandelt & Dress 1992 - Legendre & Makarenkov 2000 - Bryant & Moulton 2002 méthodes de parcimonie Hein 1990 - Kececioglu & Gusfield 1994 - Jin, Nakhleh, Snir, Tuller 2009 méthodes de vraisemblance Snir & Tuller 2009 - Jin, Nakhleh, Snir, Tuller 2009 - Velasco & Sober 2009 réseau N17
  18. 18. Reconstruction de réseaux phylogénétiques espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce espèce 3 4 : : GCTTGCCG ATTTGCAG TAGACAAGAAT AAGACCAAAT {séquences de gènes} espèce 5 : TAGACAAGAAT espèce 6 : ACTTGCAG TAGCACAAAAT espèce 7 : ACCTGGTG TAAAAT G1 G2 Reconstruction dun arbre pour chaque gène présent chez plusieurs espèces Guindon & Gascuel, SB, 2003 T1 {arbres} Base HOGENOM Dufayard, Duret, Penel, Gouy, Rechenmann & Perrière, BioInf, 2005 T2 Réconciliation ou consensus darbres réseau explicite super-réseau optimal N18
  19. 19. Reconstruction de réseaux phylogénétiques espèce 1 : AATTGCAG TAGCCCAAAAT espèce 2 : ACCTGCAG TAGACCAAT espèce espèce 3 4 : : GCTTGCCG ATTTGCAG TAGACAAGAAT AAGACCAAAT {séquences de gènes} espèce 5 : TAGACAAGAAT espèce 6 : ACTTGCAG TAGCACAAAAT espèce 7 : ACCTGGTG TAAAAT G1 G2 Reconstruction dun arbre pour chaque gène présent chez plusieurs espèces Guindon & Gascuel, SB, 2003 T1 {arbres} Base HOGENOM Dufayard, Duret, Penel, Gouy, Rechenmann & Perrière, BioInf, 2005 T2 > 500 espèces, >70 000 arbres Réconciliation ou consensus darbres réseau explicite super-réseau optimal N Problème : la réconciliation darbres est un problème difficile (NP-complet pour 2 arbres avec le minimum dhybridations)19 Bordewich & Semple, DAM, 2007
  20. 20. Triplets et quadruplets, clades et bipartitions Problème : Reconstruire le super-réseau dun ensemble darbres est difficile. Idée : reconstuire un réseau contenant tous les : triplets quadruplets clades bipartitions des arbres en entrée ? b c a f e d a b c d e20
  21. 21. Triplets et quadruplets, clades et bipartitions Idée : reconstuire un réseau contenant tous les : triplets a|ce a b c d e des arbres en entrée ?21
  22. 22. Triplets et quadruplets, clades et bipartitions Idée : reconstuire un réseau contenant tous les : triplets quadruplets b a|ce c ab|ce a a b c d e f d e des arbres en entrée ?22
  23. 23. Triplets et quadruplets, clades et bipartitions Idée : reconstuire un réseau contenant tous les : triplets quadruplets b a|ce c ab|ce a a b c d e f d e clades {c,d,e} a b c d e des arbres en entrée ?23
  24. 24. Triplets et quadruplets, clades et bipartitions Idée : reconstuire un réseau contenant tous les : triplets quadruplets b a|ce c ab|ce a a b c d e f d e clades bipartitions {c,d,e} b c {a,b,f} {c,d,e} a a b c d e f d e des arbres en entrée ?24
  25. 25. Reconstruction combinatoire de réseaux phylogénétiques Idée : modifier le type de données à traiter {arbres} {triplets} {quadruplets} {clades} {bipartitions} super-réseau N super-réseau N optimal optimal Huson, Rupp, Berry, Gambette & Paul, IMSB 2009 Gambette, Berry & Paul, 201025
  26. 26. Reconstruction combinatoire de réseaux phylogénétiques Idée : modifier le type de données à traiter {arbres} {triplets} {quadruplets} {clades} {bipartitions} super-réseau N super-réseau N optimal optimal26 N=N ?
  27. 27. Reconstruction combinatoire de réseaux phylogénétiques Idée : modifier le type de données à traiter {arbres} {triplets} {quadruplets} {clades} {bipartitions} super-réseaux N super-réseaux N27 { N } ⊆ { N }
  28. 28. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient lensemble de tous les triplets ou clades dun arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T28
  29. 29. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient lensemble de tous les triplets ou clades dun arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T29
  30. 30. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient lensemble de tous les triplets ou clades dun arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T30
  31. 31. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient lensemble de tous les triplets ou clades dun arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T31
  32. 32. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient lensemble de tous les triplets ou clades dun arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T32
  33. 33. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient lensemble de tous les triplets ou clades dun arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T33
  34. 34. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient lensemble de tous les triplets ou clades dun arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T34
  35. 35. Reconstruction combinatoire de réseaux phylogénétiques Un réseau qui contient lensemble de tous les triplets ou clades dun arbre T ne contient pas forcément T. contient {a|bc,a|bd,a|cd,b|cd} T mais pas T N contient {abcd,bcd,cd,a,b,c,d} a b c d a b c d mais pas T contient les clades / triplets dun arbre T contient T.35
  36. 36. Clades stricts et souples Clade “strict” : ensemble des feuilles sous un noeud du réseau abcd abc cd bc a b c d36
  37. 37. Clades stricts et souples Clade “souple” : clade dun arbre inclus dans le réseau Modèle de transmission arborée des gènes (gène transmis intégralement) abc ab cd bc a b c d37
  38. 38. Clades stricts et souples Clade “souple” : clade dun arbre inclus dans le réseau Modèle de transmission arborée des gènes (gène transmis intégralement) abc ab cd bc a b c d38
  39. 39. Clades stricts et souples Modèle de transmission arborée des gènes (gène transmis intégralement) Clade “souple” : clade dun arbre inclus dans le réseau abc ab cd bc a b c d Lensemble S(N) de tous les clades souplement compatibles avec N peut être de taille exponentielle. Tester si un clade souple appartient à un réseau : NP-complet. Kanj, Nakhleh, Than & Xia, TCS, 200839
  40. 40. Plan • Les réseaux phylogénétiques • Motivations de lapproche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Perspectives40
  41. 41. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche dun arbre. niveau = nombre maximum dhybridations h1 par partie non arborée (blob). h3 h2 a b c d e f g h i j k réseau de niveau 2 Choy, Jansson, Sadakane & Sung, TCS, 200541
  42. 42. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche dun arbre. niveau = nombre maximum dhybridations par partie non arborée (blob). a b c d e f g h i j k réseau de niveau 2 réseau de niveau 1 (“galled tree”) a b c d e f g h i j k42
  43. 43. Décomposition des réseaux de niveau k Décomposition en blobs : a b c d e f g h i j k a b c d e f g h i j k N, réseau de niveau k. décomposition arborée de N en générateurs. Gambette, Berry & Paul, CPM 2009 Générateurs initialement introduits pour la classe restreinte des réseaux simples de niveau k Analyse de cas pour trouver les 4 générateurs de niveau 2 Force brute pour les 65 générateurs de niveau 3 Van Iersel et al., RECOMB 200843 http://homepages.cwi.nl/~kelk/lev3gen
  44. 44. Décomposition des réseaux de niveau k Générateur de niveau k : réseau de niveau k sans isthme (arête dont la suppression déconnecte le réseau). G0 G1 2a 2b 2c 2d Règles de construction des générateurs de niveau k+1 à partir de ceux de niveau k N e2 h1 e 1 h2 h1 h2 h3 R1(N,h1,h2)44 Gambette, Berry & Paul, CPM 2009
  45. 45. Décomposition des réseaux de niveau k Générateur de niveau k : réseau de niveau k sans isthme (arête dont la suppression déconnecte le réseau). G0 G1 2a 2b 2c 2d Règles de construction des générateurs de niveau k+1 à partir de ceux de niveau k N e2 h1 e 1 h2 h1 h2 h3 R1(N,h1,e2)45 Gambette, Berry & Paul, CPM 2009
  46. 46. Construction des générateurs Problème ! Certains des générateurs de niveau k+1 obtenus depuis ceux de niveau k sont isomorphes ! h1 h2 h1 h2 h3 h3 R1(N,h1,e2) R1(N,h2,e1)46 Gambette, Berry & Paul, CPM 2009
  47. 47. Construction des générateurs Problème ! Certains des générateurs de niveau k+1 obtenus depuis ceux de niveau k sont isomorphes ! h1 h2 h1 h2 h3 h3 R1(N,h1,e2) R1(N,h2,e1) → comptage difficile ! → génération possible jusquà niveau 5 : 1, 4, 65, 1993, 91454 Gambette, Berry & Paul, CPM 200947 http://www.lirmm.fr/~gambette/ProgGenerators.php
  48. 48. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche dun arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 dun noeud de réticulation h3 déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation.48
  49. 49. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche dun arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 dun noeud de réticulation h3 déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation.49
  50. 50. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche dun arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 dun noeud de réticulation déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation.50
  51. 51. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche dun arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 dun noeud de réticulation h3 déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation. h2 réseau à deux h3 couches de h1 réticulation. a b c d e f g h i j k51
  52. 52. Réseaux phylogénétiques restreints Algorithmes rapides pour des réseaux à structure proche dun arbre. réseau à une couche de réticulation (“galled network”) : la suppression h1 dun noeud de réticulation h3 déconnecte le réseau. h2 a b c d e f g h i j k réseau à une couche de réticulation. réseau à deux h3 couches de h1 réticulation. a b c d e f g h i j k52
  53. 53. Hiérarchie de sous-classes de réseaux explicite enraciné sans fratrie niveau k hybride 1 couche de régulier enchâssés réticulation sans descen. niveau 2 hybride normal niveau 1 unicyclique simple de arbre niveau 153 http://www.lirmm.fr/~gambette/RePhylogeneticNetworks.php
  54. 54. Hiérarchie de sous-classes de réseaux explicite enraciné sans fratrie niveau k hybride 1 couche de régulier enchâssés réticulation sans descen. niveau 2 hybride normal niveau 1 unicyclique simple de arbre niveau 154 http://www.lirmm.fr/~gambette/RePhylogeneticNetworks.php
  55. 55. Plan • Les réseaux phylogénétiques • Motivations de lapproche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives55
  56. 56. Reconstruction depuis les clades souples {arbres} Consensus de clades souples : Dendroscope Huson et al., BMCB, 2007 Méthode exacte rapide de reconstruction de réseaux à 1 couche de réticulation à partir de clades souples Huson, Rupp, Berry, Gambette & Paul, ISMB 2009 {clades} Méthode exacte de reconstruction de réseaux de niveau k à partir de clades souples Iersel, Kelk, Rupp & Huson, ISMB 2010 meilleurs résultats mais plus lente pour niveau > 2. pour k fixé, certains ensembles de clades contenus N dans aucun réseau de niveau k. réseau à 1 couche de réticulation56 http://www.dendroscope.org
  57. 57. Clades et réseaux à une couche de réticulation Test de compatibilité souple polynomial sur les réseaux à une couche de réticulation. Pour tout ensemble C de clades, il existe un réseau à une couche de réticulation compatible avec C. N Le réseau à une couche de réticulation N est compatible avec tout clade souple sur {a,b,c,d,e,f}. a b c d e f Huson, Rupp, Berry, Gambette & Paul, IMSB 200957
  58. 58. Clades et réseaux à une couche de réticulation Test de compatibilité souple polynomial sur les réseaux à une couche de réticulation. Pour tout ensemble C de clades, il existe un réseau à une couche de réticulation compatible avec C. {a,b,d} N Le réseau à une couche de réticulation N est compatible avec tout clade souple sur {a,b,c,d,e,f}. a b c d e f Huson, Rupp, Berry, Gambette & Paul, IMSB 200958
  59. 59. Une approche en deux étapes 1- Trouver un ensemble minimum de conflits parmi les clades : - partie sans conflits arbre, - taxons impliqués dans des conflits sous les réticulations. a b c d MAXIMUM COMPATIBLE SUBSET x y 2- Attacher à larbre les taxons impliqués dans des conflits avec un nombre minimal darcs : MINIMUM ATTACHMENT PROBLEM a b x y c d Huson, Rupp, Berry, Gambette & Paul, IMSB 200959
  60. 60. Lensemble minimum de conflits Conflit : clades ni inclus ni disjoints A B Problème : enlever un nombre minimum t de taxons pour supprimer tous les conflits entre les clades de C. NP-complet dans le cas général Steel & Hamel, AML, 1996 NP-complet sur un graphe connexe, sans taxons “jumeaux” réduction depuis le cas général Algorithme FPT de branchement en O(3t.n|C|²) implémenté dans Dendroscope Huson, Rupp, Berry, Gambette & Paul, IMSB 200960
  61. 61. Lensemble minimum de conflits Conflit : clades ni inclus ni disjoints A B Graphe des caractères dun ensemble de clades, graphe biparti avec : - un ensemble de sommets pour les clades - un ensemble de sommets pour les taxons - arête quand le taxon appartient au clade Exemple : {{a,b},{a,b,x},{a,x},{b,x},{b,y},{c,d},{c,d,x,y},{c,x},{d,y},{x,y}} {a,b} {a,b,x} {a,x} {b,x} {b,y} {c,d} {c,d,x,y} {c,x} {d,y} {x,y} a b c d x y conflit = graphe “M” Huson, Rupp, Berry, Gambette & Paul, IMSB 200961
  62. 62. Lensemble minimum de conflits Conflit : clades ni inclus ni disjoints A B Graphe des caractères : {a,b} {a,b,x} {a,x} {b,x} {b,y} {c,d} {c,d,x,y} {c,x} {d,y} {x,y} a b c d x y Trouver lensemble minimum de conflits Supprimer le nombre minimum t de sommets-taxons tels que le graphe des caractères est un graphe “sans M” Huson, Rupp, Berry, Gambette & Paul, IMSB 200962
  63. 63. Lensemble minimum de conflits Conflit : clades ni inclus ni disjoints A B Graphe des caractères : {a,b} {a,b,x} {a,x} {b,x} {b,y} {c,d} {c,d,x,y} {c,x} {d,y} {x,y} a b c d Supprimer le nombre minimum t de sommets-taxons tels que le graphe des caractères est un graphe “sans M” : - algorithme FPT basique de branchement en O*(3 t) - algorithme FPT 3-Hitting-Set en O*(2,076t) Huson, Rupp, Berry, Gambette & Paul, IMSB 200963
  64. 64. Lattachement minimum Etape précédente : ensemble minimum de taxons R tels que les clades sur XR sont compatibles (avec un arbre T). ab cd T : arbre représentant les abx cdxy clades sur XR ax bx dy by cx a b c d XR xy B B : réseau représentant les x y clades maximaux sur R et les R singletons de R. Problème : Attacher T à B avec le minimum de liens. Huson, Rupp, Berry, Gambette & Paul, IMSB 200964
  65. 65. Lattachement minimum Problème : ab cd T Attacher T à B avec le minimum de liens. abx cdxy ax bx dy by cx a b c d xy B x y NP-complet réduction depuis SetCover Algorithmes : - Séparation et évaluation implémenté dans Dendroscope 2 - Programme linéaire en nombres entiers Huson, Rupp, Berry, Gambette & Paul, IMSB 200965
  66. 66. Reconstruction depuis les triplets {arbres} Méthodes exactes rapides pour reconstruire un réseau de niveau 1 et 2 (sil en existe un) à partir dun ensemble dense de triplets Jansson, Nguyen & Sung, SODA05 : O(n3) pour niveau 1, van Iersel, Kelk & al, RECOMB08 : O(n8) pour niveau 2, To & Habib, CPM09 : O(n5k+4) pour niveau k dense = {triplets} sur chaque ensemble de 3 feuilles, au moins 1 triplet existe dans T. Programme Simplistic N Réseau phylogénétique de levures - réseau Van Iersel et al. : Constructing level-2 phylogenetic de niveau k networks from triplets. RECOMB 200866 http://homepages.cwi.nl/~kelk/simplistic.html
  67. 67. Reconstruction depuis les quadruplets {arbres} Réseau non enraciné de niveau k nombre maximum darêtes à supprimer, par blob, pour obtenir un arbre h g i {quadruplets} f a e réseau d non enraciné de niveau 2 b c N réseau non enraciné Orientation enracinée : réseau de niveau k de niveau k Niveau invariant selon lorientation Gambette, Berry & Paul, 201067
  68. 68. Reconstruction darbres non enraciné / quadruplets enraciné / triplets polynomial général NP-complet Aho, Sagiv, Szymanski & Ullman, SJOC, 1981 Steel, JOC, 1992 Henzinger, King & Warnow, ALG, 1999 Jansson, Ng, Sadakane & Sung, ALG, 2005 dense au moins un O(n4) O(n3) quadruplet pour Berry & Gascuel, TCS, 2000 Aho et al., SJOC, 1981 tout ensemble de 4 feuilles68
  69. 69. Reconstruction de réseaux de niveau k non enraciné enraciné niveau 1 niveau k>1 niveau 1 niveau k>1 général NP-complet ? NP-complet NP-complet Réduction depuis Jansson, Nguyen Van Iersel, Kelk Betweenness & Sung, SJOC, 2006 & Mnich, JBCB, 2009 dense ? O(n3) O(n5k+4) au moins un (décomposition en ? Jansson, Nguyen To & Habib, quadruplet pour temps & Sung, SJOC, 2006 CPM 2009 tout ensemble polynomial) de 4 feuilles complet tous les O(n4) ? O(n3) O(n3k+3) quadruplets du (décomposition Jansson, Nguyen Van Iersel & Kelk, réseau en temps & Sung, SJOC, 2006 ALG, 2010 polynomial) Gambette, Berry & Paul, 201069
  70. 70. Plan • Les réseaux phylogénétiques • Motivations de lapproche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives70
  71. 71. Explosion combinatoire • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Rappel : Un réseau de niveau k se décompose en un arbre de générateurs choisis parmi un ensemble fini. Nombre exponentiel de générateurs de niveau k : gk ≥ 2k-171 Gambette, Berry & Paul, CPM, 2010
  72. 72. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble darbres, de triplets, de clades. a c a c b b b c a Caractérisation pour les réseaux de niveau 1 : les seuls cas ambigus sont les blobs ci-dessus (< 5 somments)72 Gambette & Huber, 2010
  73. 73. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble darbres, de triplets, de clades. a|bc a c a c b b b c a Caractérisation pour les réseaux de niveau 1 : les seuls cas ambigus sont les blobs ci-dessus (< 5 somments)73 Gambette & Huber, 2010
  74. 74. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble darbres, de triplets, de clades. c|ab a c a c b b b c a Caractérisation pour les réseaux de niveau 1 : les seuls cas ambigus sont les blobs ci-dessus (< 5 somments) Gambette & Huber, 2010
  75. 75. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble darbres, de triplets, de clades. x1 x1 x2 x2 b a b a 2 réseaux de niveau 2 avec le même ensemble de triplets75 Gambette & Huber, 2010
  76. 76. Ambiguïté des solutions • Les restrictions sur les réseaux reconstruits nempêchent pas lexplosion combinatoire • Ambiguïté de la reconstruction, même à partir de données complètes et correctes. Plusieurs réseaux minimaux distincts ont exactement le même ensemble darbres, de triplets, de clades. x1 x1 x2 x2 b a b a 2 réseaux de niveau 2 avec le même ensemble de triplets Même avec des données de départ complètes et correctes, impossible de choisir entre les formes ambiguës !76 Gambette & Huber, 2010
  77. 77. Plan • Les réseaux phylogénétiques • Motivations de lapproche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Perspectives77
  78. 78. Bruit dans les données • Approches de filtres : Ne considérer que les clades, triplets, avec un bon support. Ex : clades présents dans 20% des arbres en entrée • Approches dédition des données : Corriger les données au minimum pour obtenir un réseau restreint : - arbres à partir de clades : O*(3l), Huson, Rupp, Berry, Gambette & Paul, ISMB 2009 - arbres à partir de triplets : O*(3l), Guillemot & Berry, TCBB, 2007, O(n4 + 2O(t^(1/3) log t)), Guillemot & Mnich, TAMC 2009. Problème ouvert : réseaux de niveau 1 à partir de clades ou triplets78
  79. 79. Silence dans les données Nécessité davoir des clades complets, des ensembles denses de triplets ou quadruplets : arbres en entrée sur le même ensemble de taxons • Compléter les données : Inférence de triplets Bryant & Steel, AAM, 1995 Inférence de bipartitions Huson, Dezulian, Klöpper & Steel, TCBB, 2004 Grünewald, Huber & Wu, BMB, 2008 • Sélectionner les données : Arbres de gènes : Rectangles maximaux / bicliques maximales Ensemble dense maximum de triplets : Problème NP-complet Réduction de Clique79
  80. 80. Exemples de résultats 16 arbres de la base HOGENOM sur 47 taxons Lev1athan (protéobactéries) (heuristique 24 Enterobacteriales triplets, 2 Pasteurellales niveau 1) 1 Aeromonadales 24 sec. 9 Alteromonadales 1 Oceanospirillales 6 Rhodobacterales 4 Rhizobiales Réseaux contenant les triplets, clades souples, présents dans au moins 20% des arbres Simplistic Dendroscope (réseau de (clades, réseau niveau 7 à 1 couche de à partir réticulation) de <1 sec. triplets) 63 sec.80
  81. 81. Exemples de résultats 16 arbres de la base HOGENOM sur 47 taxons Dendroscope (protéobactéries) (réseau de 24 Enterobacteriales clades) 2 Pasteurellales <1 sec. 1 Aeromonadales 9 Alteromonadales 1 Oceanospirillales 6 Rhodobacterales 4 Rhizobiales Réseaux contenant les clades souples présents dans au moins 20% des arbres Dendroscope Dendroscope (clades, réseau (clades, réseau à 1 couche de de niveau 2) réticulation) 2 sec. <1 sec.81
  82. 82. Exemples de résultats 9 arbres sur 279 espèces de procaryotes Clades dans au moins 2 arbres Auch, Steigele, Huson & Henz, 2009 Dendroscope (clades, réseau à 1 couche de réticulation)82 2 sec.
  83. 83. Plan • Les réseaux phylogénétiques • Motivations de lapproche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives83
  84. 84. Résultats obtenus pendant la thèse Bioinformatique Reconstruction de réseaux à une couche de réticulation à partir de clades journaux Huson, Rupp, Berry, Gambette & Paul, BioInf, ISMB 2009 internationaux Structure des réseaux de niveau borné conférences Gambette, Berry & Paul, CPM 2009 internationales avec actes Ambiguïté des réseaux de niveau 1 par rapport à leur ensemble de clades et triplets colloques jeunes Gambette & Huber, soumis à JMB chercheurs Quadruplets et réseaux phylogénétiques non enracinés de niveau borné manuscrits Gambette, Berry & Paul, en cours de soumission à JBCB Traitement des langues et des textes Algorithmique des graphes Visualisation de textes par leur nuage arboré, robustesse Codage efficace des voisinages selon la formule de cooccurrence dans les graphes de permutation Gambette & Véronis, IFCS 2009 et graphes dintervalles, parcours Utilisation des nuages arborés dans une analyse contrastée de en largeur en O(n) des graphes Cinna et Othon de Corneille de permutation Amstutz & Gambette, JADT 2010 Crespelle & Gambette, IWOCA 2009 Automatisation du calcul de la densité des idées Lee, Gambette, Maillé & Thuillier, RECITAL 2010 Parcours en largeur en O(n) des graphes trapézoïdaux avec un Dégradation de la densité des idées chez des patients atteints ordre de priorité quelconque de la maladie dAlzheimer Crespelle & Gambette, IPL, 2010 Lee, Gambette, Barkat-Defradas, CEDIL 201084
  85. 85. Contributions logicielles Bioinformatique Implémentation Java, dans Dendroscope, de lalgorithme FPT de suppression des conflits http://www.dendroscope.org Dendroscope Implémentation Java de lalgorithme de construction des générateurs, de calcul du niveau http://generators.gambette.com Generators Implémentations PHP de fonctions supplémentaires à BibAdmin pour la bibliographie interactive sur les réseaux phylogénétiques Who is Who in Phylogenetic Networks http://www.atgc-montpellier.fr/phylnet Traitement des langues et des textes Implémentation en Python et Delphi de TreeCloud, logiciel libre de construction de nuages arborés TreeCloud http://www.treecloud.org Implémentation en Python et Delphi de Densidées, logiciel libre de calcul de la densité des idées Densidées http://code.google.com/p/densidees Nuage arboré des 25 mots les plus fréquents de cette thèse (rouge au début du manuscrit, bleu à la fin)85 construit par TreeCloud et SplitsTree
  86. 86. Plan • Les réseaux phylogénétiques • Motivations de lapproche combinatoire • Restrictions sur les réseaux phylogénétiques • Méthodes combinatoires de reconstruction • Limites • Application pratique • Bilan • Perspectives86
  87. 87. Perspectives de recherche Combinatoire : - Meilleure connaissance des réseaux de faible niveau, enracinés ou non : dénombrement, caractérisations... - Mise à jour ou modification dun réseau face à de nouvelles données Bioinformatique : - Fonction des gènes transférés (“autoroutes de transfert”) - Intégration des méthodes combinatoires dans une approche statistique Données de séquences Reconstruction combinatoire dun ensemble de candidats Construction des données combinatoires Choix parmi les candidats par méthodes statistiques Proposition dun réseau phylogénétique Autres applications des réseaux phylogénétiques : - visualiser la polysémie dans les nuages arborés87

×