Compte-rendu bibliographique sur les réseaux
biologiques III
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Instit...
Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
BioPuces (08/01/10) Nathalie Villa...
Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
• non supervisée • Recherche de mo...
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
BioPuc...
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommet...
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommet...
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
3
5
7
...
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
BioPuces (08/01/10) Nathal...
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes...
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes...
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes...
Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/1...
Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/1...
Références
1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to
inferring large-scale gene association net...
Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/1...
Références
1 Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002) Network
motifs in the transcriptional regulation network...
Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/1...
Recherche de modules, classification de sommets
Problème particulier posé par la classification de sommets dans un
graphe : ...
Recherche de modules, classification de sommets
Problème particulier posé par la classification de sommets dans un
graphe : ...
Principe des méthodes à noyau
Le noyau K permet de passer d’un graphe à un espace vectoriel usuel
(avec une distance) :
Gr...
Noyaux basés sur le Laplacien
Les noyaux fréquemment utilisés sont des versions régularisées du
Laplacien :
L =
−wij si i ...
Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les posit...
Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les posit...
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trou...
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trou...
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trou...
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trou...
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trou...
Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL...
Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL...
Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL...
Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL...
Exemples : [Yamanishi et al., 2003] and
[Guillemot et al., 2008]
Références complètes :
Y. Yamanishi, J.-P. Vert, A. Nakay...
Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données de...
Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données de...
Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données de...
Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données de...
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour ...
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour ...
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour ...
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour ...
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour ...
Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
...
Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
...
Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
...
Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
...
Markov Clustering (MCL)
Références :
van Dongen, S. (2000) Graph clustering by flow simulation. PhD
thesis, Dutch National ...
Markov Clustering (MCL)
Références :
van Dongen, S. (2000) Graph clustering by flow simulation. PhD
thesis, Dutch National ...
Relation entre noyau de la chaleur, marche aléatoire
et markov clustering
Remarque introductive sur noyau de la chaleur et...
Relation entre noyau de la chaleur, marche aléatoire
et markov clustering
Remarque introductive sur noyau de la chaleur et...
Description de la méthode MCL [van Dongen, 2000]
Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0
d...
Description de la méthode MCL [van Dongen, 2000]
Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0
d...
Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : ...
Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : ...
Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : ...
Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : ...
Comparaisons de MCL avec d’autres approches
[Brohée and van Helden, 2006]
Brève présentation des approches comparées :
MCL...
Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe...
Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe...
Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe...
Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe...
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % m...
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % m...
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % m...
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % m...
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % m...
Perspectives : données
Interactions : Interactions de protéines issues de BioGRID
BioPuces (08/01/10) Nathalie Villa Bibli...
Perspectives : données
Interactions : Interactions de protéines issues de BioGRID
Saccharomyces cerevisiae
BioPuces (08/01...
Perspectives : données
Interactions : Interactions de protéines issues de BioGRID
Informations :
INTERACTOR_A : Unique ID ...
Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 37...
Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 37...
Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 37...
Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 37...
Autres sources d’interactomes
DIP database of interacting proteins
EMBL-EBI Interact
BIND Biomolecular interaction network...
Validation ?
Validation biologique : données de référence
Pas trouvé la BD MIPS sur les complexes...
Il existe d’autres ba...
Validation ?
Validation biologique : données de référence
Pas trouvé la BD MIPS sur les complexes...
Il existe d’autres ba...
Brohée, S. and van Helden, J. (2006).
Evaluation of clustering algorithms for protein-protein interaction networks.
BMC Bi...
Bioinformatics, 19 :323i–330i.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
Prochain SlideShare
Chargement dans…5
×

Compte-rendu bibliographique sur les réseaux biologiques III

500 vues

Publié le

Groupe de travail Biopuces, INRA d'Auzeville
January 8th, 2010

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
500
Sur SlideShare
0
Issues des intégrations
0
Intégrations
31
Actions
Partages
0
Téléchargements
4
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Compte-rendu bibliographique sur les réseaux biologiques III

  1. 1. Compte-rendu bibliographique sur les réseaux biologiques III Nathalie Villa-Vialaneix http ://www.nathalievilla.org Institut de Mathématiques de Toulouse IUT de Carcassonne (Université de Perpignan) Groupe de travail BioPuces, INRA de Castanet 8 janvier 2010 BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 1 / 31
  2. 2. Vue d’ensemble des thématiques ⇒ ⇒ Compréhension Inférence de graphes Analyse du graphe BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31
  3. 3. Vue d’ensemble des thématiques ⇒ ⇒ Compréhension Inférence de graphes Analyse du graphe • non supervisée • Recherche de motifs • semi supervisée • Classification de sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31
  4. 4. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
  5. 5. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets (ou nœuds) / en anglais : vertices, nodes BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
  6. 6. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets Arêtes / en anglais : edges BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
  7. 7. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... 3 5 7 6,15 4,35 2 4 3.4 Sommets Arêtes éventuellement pondérées BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
  8. 8. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
  9. 9. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
  10. 10. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
  11. 11. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E Dans un graphe non pondéré, on convient que wij ∈ {0; 1}. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
  12. 12. Sommaire 1 Inférence de graphes 2 Recherche de motifs 3 Recherche de modules : classification des sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 5 / 31
  13. 13. Sommaire 1 Inférence de graphes 2 Recherche de motifs 3 Recherche de modules : classification des sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 6 / 31
  14. 14. Références 1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to inferring large-scale gene association networks. Bioinformatics, 21(6), pp 754-764. 2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised enzyme network inference from the integration of genomic data and chemical information. Bioinformatics, 21(Supp. 1), i468-i477. 3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of multiple biological data for supervised network inference. Bioinformatics, 21(10), 2488-2495. 4 Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F. (2007) Inferring biological networks with output kernel trees. BMC Bioinformatics, 8(Supp. 2). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 7 / 31
  15. 15. Sommaire 1 Inférence de graphes 2 Recherche de motifs 3 Recherche de modules : classification des sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 8 / 31
  16. 16. Références 1 Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002) Network motifs in the transcriptional regulation network of Escherichia Coli. Nature genetics, 31, 64-68. 2 Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005) Network thinking in ecology and evolution. Trends in Ecology and Evolution, 20(6), 345-353. 3 Siegal M., Promislow D.E.L. and Bergman A. (2007) Functional and evolutionary inference in gene networks : does topology matter ? Genetica, 129, 83-103. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 9 / 31
  17. 17. Sommaire 1 Inférence de graphes 2 Recherche de motifs 3 Recherche de modules : classification des sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 10 / 31
  18. 18. Recherche de modules, classification de sommets Problème particulier posé par la classification de sommets dans un graphe : il n’y a pas de “distance” naturelle entre sommets d’un graphe donc pas de manière simple d’utiliser les algorithmes de classification usuels (k-means, CAH ...) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31
  19. 19. Recherche de modules, classification de sommets Problème particulier posé par la classification de sommets dans un graphe : il n’y a pas de “distance” naturelle entre sommets d’un graphe donc pas de manière simple d’utiliser les algorithmes de classification usuels (k-means, CAH ...) Trois grandes familles de méthodes : méthodes basées sur la définition d’une similarité ou d’un noyau ; méthodes basées sur l’optimisation d’un critère de qualité ; méthodes basées sur un modèle de graphe aléatoire. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31
  20. 20. Principe des méthodes à noyau Le noyau K permet de passer d’un graphe à un espace vectoriel usuel (avec une distance) : Graphe Espace vectoriel H ∼ Rn Pas de métrique Une distance : d(u, v) = u − v, u − v H Un sommet xi L’image du sommet φ(xi) On définit la “distance” entre deux sommets par : d(φ(xi), φ(xj)) = K(xi, xi) + K(xj, xj) − 2K(xi, xj) ⇒ uniquement à partir du noyau ! BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 12 / 31
  21. 21. Noyaux basés sur le Laplacien Les noyaux fréquemment utilisés sont des versions régularisées du Laplacien : L = −wij si i j di = j i wij sinon. car cette matrice a des propriétés intéressantes en relation avec la structure du graphe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 13 / 31
  22. 22. Propriétés du Laplacien I [von Luxburg, 2007] Composantes connexes KerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommets de la ième composante connexe du graphe. 1 4 5 2 3 KerL = Span      1 0 0 1 1   ;   0 1 1 0 0      BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31
  23. 23. Propriétés du Laplacien I [von Luxburg, 2007] Composantes connexes KerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommets de la ième composante connexe du graphe. 1 4 5 2 3 KerL = Span      1 0 0 1 1   ;   0 1 1 0 0      Remarque : Il existe d’autres propriétés algébriques plus fines entre la structure du graphe et les valeurs propres du Laplacien. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31
  24. 24. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale , est équivalent à H = arg min h∈Rn×k Tr hT Lh subject to hT h = I hi = 1/ √ |Ai|1Ai BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  25. 25. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale , est équivalent à H = arg min h∈Rn×k Tr hT Lh subject to hT h = I hi = 1/ √ |Ai|1Ai ⇒ problème NP-complet. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  26. 26. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale peut être approché par H = arg min h∈Rn×k Tr hT Lh subject to hT h = I BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  27. 27. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale peut être approché par H = arg min h∈Rn×k Tr hT Lh subject to hT h = I Spectral clustering : Trouver les vecteurs propres associés aux k plus petites valeurs propres de L, H, et faire la classification sur les colonnes de H. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  28. 28. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale peut être approché par H = arg min h∈Rn×k Tr hT Lh subject to hT h = I Spectral clustering : Trouver les vecteurs propres associés aux k plus petites valeurs propres de L, H, et faire la classification sur les colonnes de H. Quelques problèmes du “spectral clustering” : Utilisation d’une partie du spectre seulement (laquelle ?), a tendance à produire un faible nombre de classes de très grosses tailles et beaucoup de micro classes (un à cinq individus). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  29. 29. Des versions régularisées de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ Kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
  30. 30. Des versions régularisées de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ Kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur) Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et que la diffusion se fait de manière continue le long des arêtes du graphe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
  31. 31. Des versions régularisées de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ Kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur) Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et que la diffusion se fait de manière continue le long des arêtes du graphe. 2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
  32. 32. Des versions régularisées de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ Kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur) Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et que la diffusion se fait de manière continue le long des arêtes du graphe. 2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+. Temps moyen pour atteindre xi à partir de xj lors d’une marche aléatoire sur le graphe. 3 . . . BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
  33. 33. Exemples : [Yamanishi et al., 2003] and [Guillemot et al., 2008] Références complètes : Y. Yamanishi, J.-P. Vert, A. Nakaya and M. Kanehisa (2003) Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis. Bioinformatics, 19, p323i-330i. V. Guillemot, L. Le Brusquet, A. Tenenhaus and V. Frouin (2008) Graph-constrained discriminant analysis of functional genomic data. Proceedings of IEEE International Conference on Bioinformatics and Biomedecine Workshops, Philadelphia, USA. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 17 / 31
  34. 34. Classification à partir de données multiples : KCCA [Yamanishi et al., 2003] Les données : KEGC/LIGAND database (données des composants et réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont les gènes d’un organisme et deux sommets sont liés si les gènes catalysent deux réactions successives dans la même voie. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
  35. 35. Classification à partir de données multiples : KCCA [Yamanishi et al., 2003] Les données : KEGC/LIGAND database (données des composants et réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont les gènes d’un organisme et deux sommets sont liés si les gènes catalysent deux réactions successives dans la même voie. KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont les sommets sont des gènes et deux sommets sont liés si les gènes sont voisins sur un même chromosome. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
  36. 36. Classification à partir de données multiples : KCCA [Yamanishi et al., 2003] Les données : KEGC/LIGAND database (données des composants et réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont les gènes d’un organisme et deux sommets sont liés si les gènes catalysent deux réactions successives dans la même voie. KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont les sommets sont des gènes et deux sommets sont liés si les gènes sont voisins sur un même chromosome. ExpressDB (données d’expression de gènes de E. Coli dans de multiples expériences) ⇒ données multivariées (pour chaque gène, l’expression dans 4 conditions expérimentales). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
  37. 37. Classification à partir de données multiples : KCCA [Yamanishi et al., 2003] Les données : KEGC/LIGAND database (données des composants et réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont les gènes d’un organisme et deux sommets sont liés si les gènes catalysent deux réactions successives dans la même voie. KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont les sommets sont des gènes et deux sommets sont liés si les gènes sont voisins sur un même chromosome. ExpressDB (données d’expression de gènes de E. Coli dans de multiples expériences) ⇒ données multivariées (pour chaque gène, l’expression dans 4 conditions expérimentales). But : Comprendre comment ces données interagissent. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
  38. 38. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  39. 39. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. Analyse canonique des corrélations pénalisée entre ces deux espaces (la pénalité est la norme des axes de projection dans l’espace noyau). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  40. 40. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. Analyse canonique des corrélations pénalisée entre ces deux espaces (la pénalité est la norme des axes de projection dans l’espace noyau). 2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels. Analyse canonique des corrélations multiples pénalisée. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  41. 41. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. Analyse canonique des corrélations pénalisée entre ces deux espaces (la pénalité est la norme des axes de projection dans l’espace noyau). 2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels. Analyse canonique des corrélations multiples pénalisée. Les “classes” sont les gènes ayant des composantes fortes sur un des axes (5% les plus fortes et 5% les moins fortes). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  42. 42. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. Analyse canonique des corrélations pénalisée entre ces deux espaces (la pénalité est la norme des axes de projection dans l’espace noyau). 2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels. Analyse canonique des corrélations multiples pénalisée. Les “classes” sont les gènes ayant des composantes fortes sur un des axes (5% les plus fortes et 5% les moins fortes). Résultats : Certains groupes de gènes sont de meilleurs candidats opérons que ceux fournis par “Operon Data Library” (4 consécutifs sur une même voie plutôt que 3 avec un “trou” au milieu). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  43. 43. Discrimination pénalisée par la structure du graphe Les données : 100 gènes choisis aléatoirement dans la base de données Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec la moitié de la base de données) & données multivariées (expression des gènes : les gènes sont ici les variables). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
  44. 44. Discrimination pénalisée par la structure du graphe Les données : 100 gènes choisis aléatoirement dans la base de données Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec la moitié de la base de données) & données multivariées (expression des gènes : les gènes sont ici les variables). But : Combiner l’information de l’expression et l’information donnée par le graphe pour discriminer les observations issues de tissus cancéreux et de tissus normaux (cancer du colon). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
  45. 45. Discrimination pénalisée par la structure du graphe Les données : 100 gènes choisis aléatoirement dans la base de données Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec la moitié de la base de données) & données multivariées (expression des gènes : les gènes sont ici les variables). But : Combiner l’information de l’expression et l’information donnée par le graphe pour discriminer les observations issues de tissus cancéreux et de tissus normaux (cancer du colon). Méthodologie : Analyse discriminante pénalisée par la norme induite par le Laplacien. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
  46. 46. Discrimination pénalisée par la structure du graphe Les données : 100 gènes choisis aléatoirement dans la base de données Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec la moitié de la base de données) & données multivariées (expression des gènes : les gènes sont ici les variables). But : Combiner l’information de l’expression et l’information donnée par le graphe pour discriminer les observations issues de tissus cancéreux et de tissus normaux (cancer du colon). Méthodologie : Analyse discriminante pénalisée par la norme induite par le Laplacien. Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 % contre 4,5 % pour un SVM sur les données multivariées. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
  47. 47. Markov Clustering (MCL) Références : van Dongen, S. (2000) Graph clustering by flow simulation. PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, The Nederlands. Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficient algorithm for large-scale detection of protein families. Nucleic Acids Research, 30(7), p1575-1584. Brohée, S. and van Helden, J. (2006) Evaluation of clustering algorithms for protein-protein interaction networks. BMC Bioinformatics, 7(488). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31
  48. 48. Markov Clustering (MCL) Références : van Dongen, S. (2000) Graph clustering by flow simulation. PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, The Nederlands. Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficient algorithm for large-scale detection of protein families. Nucleic Acids Research, 30(7), p1575-1584. Brohée, S. and van Helden, J. (2006) Evaluation of clustering algorithms for protein-protein interaction networks. BMC Bioinformatics, 7(488). Selon [Fortunato, 2009], “the MCL is one of the most used clustering algorithms in bioinformatics”. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31
  49. 49. Relation entre noyau de la chaleur, marche aléatoire et markov clustering Remarque introductive sur noyau de la chaleur et marche aléatoire : Si Z0 = (1 1 1 . . . 1 1)T est le score « d’énergie » dans chaque sommet du graphe et si cette énergie est diffusée le long des arêtes du graphe selon une petite fraction sur chaque arête et à chaque pas de temps. Alors, au bout de n pas de temps, le score dans les sommets du graphe s’écrit : Zn = (1 + L)n Z0 BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31
  50. 50. Relation entre noyau de la chaleur, marche aléatoire et markov clustering Remarque introductive sur noyau de la chaleur et marche aléatoire : Si Z0 = (1 1 1 . . . 1 1)T est le score « d’énergie » dans chaque sommet du graphe et si cette énergie est diffusée le long des arêtes du graphe selon une petite fraction sur chaque arête et à chaque pas de temps. Alors, au bout de n pas de temps, le score dans les sommets du graphe s’écrit : Zn = (1 + L)n Z0 Limites : Pas de temps : n → t/(∆t) et α → α∆t puis (∆t) → 0 (processus continu) ; alors, lim Zn = eαtL = kαt BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31
  51. 51. Description de la méthode MCL [van Dongen, 2000] Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0 dans la diagonale), on définit P : Pij = Aij/di qui donne la probabilité d’arriver en j en partant de i en un pas aléatoire sur le graphe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31
  52. 52. Description de la méthode MCL [van Dongen, 2000] Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0 dans la diagonale), on définit P : Pij = Aij/di qui donne la probabilité d’arriver en j en partant de i en un pas aléatoire sur le graphe. Expansion : P ← P2 (P p ij donne la probabilité, avec une marche aléatoire de p pas d’arriver en j à partir de i) ⇒ phase de marche aléatoire ; Inflation : Pij ← Pα ij (pas d’interprétation physique) c’est une phase de normalisation qui correspond à une augmentation de la longueur des chemins (amplifier la préférence pour les couples de sommets les plus facilement joignables). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31
  53. 53. Discussion sur MCL Convergence (parfois ; assurée si le graphe est non orientée) vers une matrice doublement idempotent : c’est la matrice d’un graphe séparé en composantes disjointes ; chaque composante est organisé autour d’un ou plusieurs pôles attracteurs autour desquels les sommets sont organisés en étoile. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
  54. 54. Discussion sur MCL Convergence (parfois ; assurée si le graphe est non orientée) vers une matrice doublement idempotent : c’est la matrice d’un graphe séparé en composantes disjointes ; chaque composante est organisé autour d’un ou plusieurs pôles attracteurs autour desquels les sommets sont organisés en étoile. Problème pratique : Méthode très sensible au paramètre d’inflation α qui conduit à la calibration du nombre de classes. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
  55. 55. Discussion sur MCL Convergence (parfois ; assurée si le graphe est non orientée) vers une matrice doublement idempotent : c’est la matrice d’un graphe séparé en composantes disjointes ; chaque composante est organisé autour d’un ou plusieurs pôles attracteurs autour desquels les sommets sont organisés en étoile. Problème pratique : Méthode très sensible au paramètre d’inflation α qui conduit à la calibration du nombre de classes. Application [Enright et al., 2002] : sommets = protéines ; arêtes = similarité entre protéines selon BLAST (bases de données InterPro et SCOP). Comparaison avec les familles de protéines données dans les bases de données. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
  56. 56. Discussion sur MCL Convergence (parfois ; assurée si le graphe est non orientée) vers une matrice doublement idempotent : c’est la matrice d’un graphe séparé en composantes disjointes ; chaque composante est organisé autour d’un ou plusieurs pôles attracteurs autour desquels les sommets sont organisés en étoile. Problème pratique : Méthode très sensible au paramètre d’inflation α qui conduit à la calibration du nombre de classes. Application [Enright et al., 2002] : sommets = protéines ; arêtes = similarité entre protéines selon BLAST (bases de données InterPro et SCOP). Comparaison avec les familles de protéines données dans les bases de données. ⇒ environ 80 % de consensus avec les bases de données existantes. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
  57. 57. Comparaisons de MCL avec d’autres approches [Brohée and van Helden, 2006] Brève présentation des approches comparées : MCL Restricted Neighborhood Search Clustering (RNSC) : algorithme local basé sur l’optimisation d’une fonction de coût (nombre d’arêtes inter et intra classes) ; Super Paramagnetic Clustering (SPC) : algorithme hiérarchique basé sur des propriétés physiques des modèles ferromagnétiques ; Molecular Complex Detection (MCODE) : recherche locale par aggrégation de régions de forte densité. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 25 / 31
  58. 58. Méthodologie de comparaison Deux jeux de données sont utilisés : 1 Collection de complexes protéiniques (MIPS) : Un graphe est construit avec : sommets = protéines ; arêtes = appartenance au même complexe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
  59. 59. Méthodologie de comparaison Deux jeux de données sont utilisés : 1 Collection de complexes protéiniques (MIPS) : Un graphe est construit avec : sommets = protéines ; arêtes = appartenance au même complexe. Puis altération du graphe initial (trop simple) par ajout et délétion aléatoire d’arêtes. But : Retrouver les complexes ! BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
  60. 60. Méthodologie de comparaison Deux jeux de données sont utilisés : 1 Collection de complexes protéiniques (MIPS) : Un graphe est construit avec : sommets = protéines ; arêtes = appartenance au même complexe. Puis altération du graphe initial (trop simple) par ajout et délétion aléatoire d’arêtes. But : Retrouver les complexes ! 2 Graphe d’interactions de protéines (GRID) (levure yeast saccharomyces) : 6 jeux de données d’interactions de protéines dans la levure obtenus par double hybridation (2), spectrométrie de masse (4) ⇒ 6 graphes sur lesquels les algorithmes sont appliqués. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
  61. 61. Méthodologie de comparaison Deux jeux de données sont utilisés : 1 Collection de complexes protéiniques (MIPS) : Un graphe est construit avec : sommets = protéines ; arêtes = appartenance au même complexe. Puis altération du graphe initial (trop simple) par ajout et délétion aléatoire d’arêtes. But : Retrouver les complexes ! 2 Graphe d’interactions de protéines (GRID) (levure yeast saccharomyces) : 6 jeux de données d’interactions de protéines dans la levure obtenus par double hybridation (2), spectrométrie de masse (4) ⇒ 6 graphes sur lesquels les algorithmes sont appliqués. Validation : Retrouver les complexes cités dans MIPS. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
  62. 62. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  63. 63. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; Prédiction positive du point de vue de la classe : % maximum, pour une classe donnée, de représentation d’un complexe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  64. 64. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; Prédiction positive du point de vue de la classe : % maximum, pour une classe donnée, de représentation d’un complexe. Les moyennes, respectivement sur tous les complexes et toutes les classes. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  65. 65. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; Prédiction positive du point de vue de la classe : % maximum, pour une classe donnée, de représentation d’un complexe. Les moyennes, respectivement sur tous les complexes et toutes les classes. Remarque importante : Lorsque le nombre de classes diminue, la sensibilité augmente (elle vaut 1 pour une seule classe) et la prédiction positive diminue (elle vaut 1 pour un nombre de classes égal au nombre de protéines classées). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  66. 66. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; Prédiction positive du point de vue de la classe : % maximum, pour une classe donnée, de représentation d’un complexe. Les moyennes, respectivement sur tous les complexes et toutes les classes. Remarque importante : Lorsque le nombre de classes diminue, la sensibilité augmente (elle vaut 1 pour une seule classe) et la prédiction positive diminue (elle vaut 1 pour un nombre de classes égal au nombre de protéines classées). ⇒ Précision géométrique : Moyenne géométrique de la sensibilité et de la prédiction positive. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  67. 67. Perspectives : données Interactions : Interactions de protéines issues de BioGRID BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
  68. 68. Perspectives : données Interactions : Interactions de protéines issues de BioGRID Saccharomyces cerevisiae BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
  69. 69. Perspectives : données Interactions : Interactions de protéines issues de BioGRID Informations : INTERACTOR_A : Unique ID for Interacting Partner A INTERACTOR_B : Unique ID for Interacting Partner B OFFICIAL_SYMBOL FOR A OFFICIAL_SYMBOL FOR B ALIASES_FOR_A : List of common names for geneA ALIASES_FOR_B : List of common names for geneB EXPERIMENTAL_SYSTEM : System in which the interaction was shown SOURCE : Author(s) of the interaction PUBMED_ID : PubMed ID of the paper, separated by ’ ;’ ORGANISM_A_ID : NCBI ID of Gene A Organism ORGANISM_B_ID : NCBI ID of Gene B Organism Exemple : YFL039C ; YBR243C ; ACT1 ; ALG7 ; ABY1|END7 ; TUR1 ; Synthetic Lethality ; Davierwala AP (2005) ; 16155567 ; 4932 ; 4932 BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
  70. 70. Quelques statistiques élémentaires sur le jeu de données Nombre de données : 42 254 observations acquises sur R sur 230 370 lignes (saturation de la mémoire...) : protéines ? gènes ? BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
  71. 71. Quelques statistiques élémentaires sur le jeu de données Nombre de données : 42 254 observations acquises sur R sur 230 370 lignes (saturation de la mémoire...) : protéines ? gènes ? Sur ces observations acquises : “Experimental system” : Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ; Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ; Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
  72. 72. Quelques statistiques élémentaires sur le jeu de données Nombre de données : 42 254 observations acquises sur R sur 230 370 lignes (saturation de la mémoire...) : protéines ? gènes ? Sur ces observations acquises : “Experimental system” : Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ; Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ; Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121) Les sources : 3 759 publications (de 1 à 3 873 interactions par source ; 11,24 interactions en moyenne ; nombre médian d’interactions : 2) Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ? gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17 interactions, médiane de 9 interactions) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
  73. 73. Quelques statistiques élémentaires sur le jeu de données Nombre de données : 42 254 observations acquises sur R sur 230 370 lignes (saturation de la mémoire...) : protéines ? gènes ? Sur ces observations acquises : “Experimental system” : Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ; Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ; Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121) Les sources : 3 759 publications (de 1 à 3 873 interactions par source ; 11,24 interactions en moyenne ; nombre médian d’interactions : 2) Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ? gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17 interactions, médiane de 9 interactions) Quel réseau à partir de ces données ? BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
  74. 74. Autres sources d’interactomes DIP database of interacting proteins EMBL-EBI Interact BIND Biomolecular interaction network database MIPS Mammalian protein-protein interaction database (ndlr : beaucoup plus petite) GRID general repository for interaction datasets . . . (j’en ai recensé plus de 25 !) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 30 / 31
  75. 75. Validation ? Validation biologique : données de référence Pas trouvé la BD MIPS sur les complexes... Il existe d’autres bases de complexes de protéines (3D Complex.org ; Yeast Complex Web ∼ environ 500 complexes ...) Package R, apComplex contenant les données de : Ho, et al. Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry. Nature 415, 180-183 (2002)., Krogan, et al. High-Definition Macromolecular Composition of Yeast RNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30 January 2004. GO ? ? ? FunCat ? ? ? Autres idées ? BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
  76. 76. Validation ? Validation biologique : données de référence Pas trouvé la BD MIPS sur les complexes... Il existe d’autres bases de complexes de protéines (3D Complex.org ; Yeast Complex Web ∼ environ 500 complexes ...) Package R, apComplex contenant les données de : Ho, et al. Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry. Nature 415, 180-183 (2002)., Krogan, et al. High-Definition Macromolecular Composition of Yeast RNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30 January 2004. GO ? ? ? FunCat ? ? ? Autres idées ? Validation : mesures : mesures de consensus entre une classification de référence et la classification trouvée (biologique) ; mesures de qualité de la classification par rapport à la structure (statistique) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
  77. 77. Brohée, S. and van Helden, J. (2006). Evaluation of clustering algorithms for protein-protein interaction networks. BMC Bioinformatics, 7(488). Enright, A., Van Dongen, S., and Ouzounis, C. (2002). An efficient algorithm for large-scale detection of protein families. Nucleic Acids Research, 30(7) :1575–1584. Fortunato, S. (2009). Community detection in graphs. Submitted for publication. Available at http://arxiv.org/abs/0906.0612. Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007). Random-walk computation of similarities between nodes of a graph, with application to collaborative recommendation. IEEE Transactions on Knowledge and Data Engineering, 19(3) :355–369. Guillemot, V., Le Brusquet, L., Tenenhaus, A., and Frouin, V. (2008). Graph-constrained discriminant analysis of functional genomics data. In In proceedings of IEEE International Conference on Bioinformatics and Biomedecine Workshops, Philadelphia, USA. Kondor, R. and Lafferty, J. (2002). Diffusion kernels on graphs and other discrete structures. In Proceedings of the 19th International Conference on Machine Learning, pages 315–322. van Dongen, S. (2000). Graph clustering by flow simulation. PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, The Nederlands. von Luxburg, U. (2007). A tutorial on spectral clustering. Statistics and Computing, 17(4) :395–416. Yamanishi, Y., Vert, J., Nakaya, A., and Kanehisa, M. (2003). Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
  78. 78. Bioinformatics, 19 :323i–330i. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31

×