OrthoMCL: Identification of Ortholog Groups for 
Eukaryotic Genomes Li et al. Genome Res. (2003) 
Présenté par Marc-André ...
Introduction – Orthologie 
2 
https://genomevolution.org/wiki/index.php/Ortholog 
• Les orthologues 
partagent un rôle 
fo...
Introduction – Reciprocal Best Hits 
Espèce 1 Espèce 2 
Gène A Gène A’ 
Gène B’ 
Gène C’ 
3 
Et vice versa… 
5 
1 
2
Introduction – Reciprocal Best Hits 
Espèce 1 Espèce 2 
Gène A Gène A’ 
4 
5 
Gène B 
Gène C 
2 
1 
• Alignement A – A’ 
e...
Introduction – Reciprocal Best Hits 
Espèce 1 Espèce 2 
Gène A Gène A’ 
5 
5 
Paralogue A 
Gène B 
6 
1 
• Le hit n’est pl...
Introduction – Reciprocal Best Hits 
• RBH fonctionne bien dans les cas simples 
6 
• Génomes eucaryotes: 
Redondance fonc...
OrthoMCL – Objectifs 
• Ajouter les paralogues récents aux groupes 
7 
d’orthologues 
• Prendre plusieurs espèces en charg...
OrthoMCL – Méthodes 
• Utilisation de WU-BLASTP pour chaque gène 
• Construction du graphe pondéré par le score 
8 
d’alig...
OrthoMCL – Méthodes 
• Différence entre les scores de paralogues récents 
(plus similaires) et d’orthologues 
• Différence...
OrthoMCL – Markov Cluster Algorithm 
• Approches de 
10 
partitionnement (clustering) 
• Non supervisé 
• Trouver des regr...
OrthoMCL – Markov Cluster Algorithm 
• Marche aléatoire dans le graphe 
• La marche passe plus des temps à 
11 
l’intérieu...
OrthoMCL – Markov Cluster Algorithm 
• La marche dans le graphe peut être représentée par une chaine de 
12 
Markov 
• La ...
OrthoMCL – Résumé de l’algorithme 
13
Résultats – Comparaison des méthodes 
• InParanoid: Algorithme similaire, mais qui peut 
traiter seulement des paires d’es...
Résultats – Comparaison des méthodes 
• Identification des orthologues entre le ver et la 
15 
drosophile 
• Environ 30% d...
Résultats – Comparaison des méthodes 
• Identification des orthologues entre le ver et la 
16 
drosophile et la levure 
• ...
Résultats – Comparaison des méthodes 
• Étendre un ensemble: Lorsqu’un groupe d’orthologues 
est un sous-ensemble d’un gro...
Résultats – Relation avec la fonction 
• Utilisation d’enzymes avec un numéro EC 
• EC (Enzyme Commission Number): Classif...
Résultats – Relation avec la fonction 
• 7 protéomes, 3562 séquences avec numéro EC 
• 88% des groupes avec au moins 2 séq...
Résultats – Annotation 
• Le parasite protozoaire Plasmodium falciparum causant 
la forme la plus sévère de malaria 
• Ann...
Résultats – Annotation 
• 175 protéines sans numéro EC se sont retrouvées 
dans des groupes avec au moins une séquence 
an...
Discussion – Défis 
Considérations Techniques 
• Génome eucaryotes ont un haut taux de 
duplication 
• Paralogues récents ...
Discussion – Défis 
Considérations Techniques (suite) 
23 
• Génomes incomplets 
• L’approche RBH peut identifier des subs...
Conclusions (de l’article) 
• Fonctionne aussi bien que InParanoid pour 2 
24 
espèces 
• Forme des groupes cohérents avec...
Améliorations 
• Pour la création du graphe initial 
• Intégrer la structure tri-dimensionnelle 
• Approche basée sur les ...
Proteinortho 
• Création du graphe basé sur une fraction f du score 
26 
maximal 
• BLAST sur des protéines séparées (vers...
Proteinortho 
• Partitionnement spectral (au lieu de MCL) 
• Calcul des eigenvecteurs et eigenvaleurs (휆) de la 
matrice l...
Conclusion 
Modèle générique des approches par séquence: 
• Développements algorithmiques 
possibles 
• Meilleure identifi...
Conclusion 
29 
• Projet proposé 
• Remplacer l’alignement par des techniques d’analyse de séquence 
• Remplacer le partit...
Questions 
30
31
Prochain SlideShare
Chargement dans…5
×

OrthoMCL Presentation (French)

355 vues

Publié le

Short presentation about the OrthoMCL algorithm and related bioinformatics methods. This was for the BIN6000 course at Université de Montréal.

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
355
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
4
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

OrthoMCL Presentation (French)

  1. 1. OrthoMCL: Identification of Ortholog Groups for Eukaryotic Genomes Li et al. Genome Res. (2003) Présenté par Marc-André Legault
  2. 2. Introduction – Orthologie 2 https://genomevolution.org/wiki/index.php/Ortholog • Les orthologues partagent un rôle fonctionnel • Les paralogues récents aussi
  3. 3. Introduction – Reciprocal Best Hits Espèce 1 Espèce 2 Gène A Gène A’ Gène B’ Gène C’ 3 Et vice versa… 5 1 2
  4. 4. Introduction – Reciprocal Best Hits Espèce 1 Espèce 2 Gène A Gène A’ 4 5 Gène B Gène C 2 1 • Alignement A – A’ est optimal dans les deux directions • Qu’arrive-t-il avec des paralogues (récents)?
  5. 5. Introduction – Reciprocal Best Hits Espèce 1 Espèce 2 Gène A Gène A’ 5 5 Paralogue A Gène B 6 1 • Le hit n’est plus réciproque! • Possibilité de faux positifs et faux négatifs • Dépend de BLAST
  6. 6. Introduction – Reciprocal Best Hits • RBH fonctionne bien dans les cas simples 6 • Génomes eucaryotes: Redondance fonctionnelle Structures à plusieurs domaines Séquençage incomplet
  7. 7. OrthoMCL – Objectifs • Ajouter les paralogues récents aux groupes 7 d’orthologues • Prendre plusieurs espèces en charge de façon simultanée
  8. 8. OrthoMCL – Méthodes • Utilisation de WU-BLASTP pour chaque gène • Construction du graphe pondéré par le score 8 d’alignement • Les paralogues potentiels sont ajoutés ssi. ils ont un meilleur score que n’importe quelle paire d’orthologues
  9. 9. OrthoMCL – Méthodes • Différence entre les scores de paralogues récents (plus similaires) et d’orthologues • Différence en comparant différentes espèces • Éviter des biais à l’étape du partitionnement 9
  10. 10. OrthoMCL – Markov Cluster Algorithm • Approches de 10 partitionnement (clustering) • Non supervisé • Trouver des regroupements d’éléments similaires Exemple de clustering vectoriel doi:10.1186/gb-2012-13-7-r64
  11. 11. OrthoMCL – Markov Cluster Algorithm • Marche aléatoire dans le graphe • La marche passe plus des temps à 11 l’intérieur des clusters https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf http://micans.org/mcl/ani/mcl-animation.html
  12. 12. OrthoMCL – Markov Cluster Algorithm • La marche dans le graphe peut être représentée par une chaine de 12 Markov • La marche se fait par exponentiation de la matrice (expansion) • Les noeuds d’un même cluster auront de plus grands poids • MCL utilise l’opération de r-inflation pour renforcer cet effet https://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf La matrice est ensuite normalisée par colonne
  13. 13. OrthoMCL – Résumé de l’algorithme 13
  14. 14. Résultats – Comparaison des méthodes • InParanoid: Algorithme similaire, mais qui peut traiter seulement des paires d’espèces • N’exige pas que les alignements entre parangonnes soient meilleurs que pour les orthologues 14
  15. 15. Résultats – Comparaison des méthodes • Identification des orthologues entre le ver et la 15 drosophile • Environ 30% des séquences regroupées (sur 33 062) • Méthodes relativement cohérentes entre elles OrthoMCL 0.62 10.23 1.13 InParanoid Les valeurs sont des milliers de séquences
  16. 16. Résultats – Comparaison des méthodes • Identification des orthologues entre le ver et la 16 drosophile et la levure • Comparaison avec EGO (capable de gérer des triplets d’espèces) • 35% des séquences classées par OrthoMCL vs. 13% pour EGO OrthoMCL 9.14 4.72 0.57 EGO
  17. 17. Résultats – Comparaison des méthodes • Étendre un ensemble: Lorsqu’un groupe d’orthologues est un sous-ensemble d’un groupe identifié par l’autre méthode considérée. • 70 groupe OrthoMCL étendus par EGO • 2038 groupes EGO étendus par OrthoMCL • Suggère une plus grande sensibilité de OrthoMCL 17 snb-1 Syb SNC1 snb-1 Syb SNC1 n-syb EGO OrthoMCL
  18. 18. Résultats – Relation avec la fonction • Utilisation d’enzymes avec un numéro EC • EC (Enzyme Commission Number): Classification systématique de la fonction des enzymes e.g. EC 3.4.11.4 • 3 Hydrolases • 4 … agissant sur des liens peptidiques • 11 … clivant l’acide aminé terminal • 4 … d’un tri-peptide 18
  19. 19. Résultats – Relation avec la fonction • 7 protéomes, 3562 séquences avec numéro EC • 88% des groupes avec au moins 2 séquences annotées avaient la même annotation • Suggère que OrthoMCL est un bon candidat pour l’annotation fonctionnelle http://cgm.cs.mcgill.ca/~godfried/teaching/projects.pr.98/sergei/figure/figure2.gif 19
  20. 20. Résultats – Annotation • Le parasite protozoaire Plasmodium falciparum causant la forme la plus sévère de malaria • Annotation de protéines prédites • S’il n’y a pas d’orthologue, on peut envisager des thérapies ciblées http://upload.wikimedia.org/wikipedia/commons/f/fc/Plasmodium_falciparum_01.png 20
  21. 21. Résultats – Annotation • 175 protéines sans numéro EC se sont retrouvées dans des groupes avec au moins une séquence annotée • Certaines de ces protéines étaient connues, mais d’autres étaient seulement prédites • Plusieurs (137) annotations prédites ont été confirmées • L’absence de gènes animaux dans des regroupements est aussi intéressant (traitement) 21
  22. 22. Discussion – Défis Considérations Techniques • Génome eucaryotes ont un haut taux de duplication • Paralogues récents (même fonction) • Paralogues anciens (fonction divergente) • Alignements sensibles à l’architecture en domaines des protéines 22 http://www.endocytosis.org/EHDs/EHD2_Dimer.gif
  23. 23. Discussion – Défis Considérations Techniques (suite) 23 • Génomes incomplets • L’approche RBH peut identifier des substituts • Le clustering dans le graphe permet d’éliminer ces faux positifs
  24. 24. Conclusions (de l’article) • Fonctionne aussi bien que InParanoid pour 2 24 espèces • Forme des groupes cohérents avec EGO pour 3 espèces • Perspectives pour l’annotation de protéines prédites • Identification de cibles thérapeutiques spécifiques
  25. 25. Améliorations • Pour la création du graphe initial • Intégrer la structure tri-dimensionnelle • Approche basée sur les domaines protéiques • Normalization dans la matrice • Algorithme de partitionnement 25
  26. 26. Proteinortho • Création du graphe basé sur une fraction f du score 26 maximal • BLAST sur des protéines séparées (versus BDD agrégées) • Permet d’éviter la normalisation des poids du graphe • Facile à paralléliser
  27. 27. Proteinortho • Partitionnement spectral (au lieu de MCL) • Calcul des eigenvecteurs et eigenvaleurs (휆) de la matrice laplacienne (L) • Le eigenvecteur de la deuxième plus petite eigenvaleure (vecteur de Fiedler) forme la division optimale du graphe • Itération du partitionnement tant qu’il reste des composantes de faible connectivité 27
  28. 28. Conclusion Modèle générique des approches par séquence: • Développements algorithmiques possibles • Meilleure identification de séquences similaires • Meilleur regroupement 28 Séquences BLAST Création du graphe Partitionnement Groupes d’orthologues
  29. 29. Conclusion 29 • Projet proposé • Remplacer l’alignement par des techniques d’analyse de séquence • Remplacer le partitionnement du graphe par une partitionnement vectoriel http://nbviewer.ipython.org/github/legaultmarc/genometools/blob/master/demos/Sequence%20analysis.ipynb
  30. 30. Questions 30
  31. 31. 31

×