Compte-rendu bibliographique sur les réseaux biologiques III
1. Compte-rendu bibliographique sur les réseaux
biologiques III
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
8 janvier 2010
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 1 / 31
2. Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31
3. Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
• non supervisée • Recherche de motifs
• semi supervisée • Classification de sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31
4. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
5. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets (ou nœuds) / en anglais : vertices, nodes
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
6. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets
Arêtes / en anglais : edges
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
7. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
3
5
7
6,15
4,35
2
4
3.4
Sommets
Arêtes
éventuellement pondérées
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
8. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
9. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
10. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
11. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
12. Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 5 / 31
13. Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 6 / 31
14. Références
1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to
inferring large-scale gene association networks. Bioinformatics, 21(6),
pp 754-764.
2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised
enzyme network inference from the integration of genomic data and
chemical information. Bioinformatics, 21(Supp. 1), i468-i477.
3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of
multiple biological data for supervised network inference.
Bioinformatics, 21(10), 2488-2495.
4 Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.
(2007) Inferring biological networks with output kernel trees. BMC
Bioinformatics, 8(Supp. 2).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 7 / 31
15. Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 8 / 31
16. Références
1 Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002) Network
motifs in the transcriptional regulation network of Escherichia Coli.
Nature genetics, 31, 64-68.
2 Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005) Network
thinking in ecology and evolution. Trends in Ecology and Evolution,
20(6), 345-353.
3 Siegal M., Promislow D.E.L. and Bergman A. (2007) Functional
and evolutionary inference in gene networks : does topology matter ?
Genetica, 129, 83-103.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 9 / 31
17. Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 10 / 31
18. Recherche de modules, classification de sommets
Problème particulier posé par la classification de sommets dans un
graphe : il n’y a pas de “distance” naturelle entre sommets d’un graphe
donc pas de manière simple d’utiliser les algorithmes de classification
usuels (k-means, CAH ...)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31
19. Recherche de modules, classification de sommets
Problème particulier posé par la classification de sommets dans un
graphe : il n’y a pas de “distance” naturelle entre sommets d’un graphe
donc pas de manière simple d’utiliser les algorithmes de classification
usuels (k-means, CAH ...)
Trois grandes familles de méthodes :
méthodes basées sur la définition d’une similarité ou d’un noyau ;
méthodes basées sur l’optimisation d’un critère de qualité ;
méthodes basées sur un modèle de graphe aléatoire.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31
20. Principe des méthodes à noyau
Le noyau K permet de passer d’un graphe à un espace vectoriel usuel
(avec une distance) :
Graphe Espace vectoriel H ∼ Rn
Pas de métrique Une distance : d(u, v) = u − v, u − v H
Un sommet xi L’image du sommet φ(xi)
On définit la “distance” entre deux sommets par :
d(φ(xi), φ(xj)) = K(xi, xi) + K(xj, xj) − 2K(xi, xj)
⇒ uniquement à partir du noyau !
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 12 / 31
21. Noyaux basés sur le Laplacien
Les noyaux fréquemment utilisés sont des versions régularisées du
Laplacien :
L =
−wij si i j
di = j i wij sinon.
car cette matrice a des propriétés intéressantes en relation avec la
structure du graphe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 13 / 31
22. Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les positions des sommets de la
ième composante connexe du graphe.
1
4
5
2
3
KerL = Span
1
0
0
1
1
;
0
1
1
0
0
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31
23. Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les positions des sommets de la
ième composante connexe du graphe.
1
4
5
2
3
KerL = Span
1
0
0
1
1
;
0
1
1
0
0
Remarque : Il existe d’autres propriétés algébriques plus fines entre la
structure du graphe et les valeurs propres du Laplacien.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31
24. Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
25. Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
⇒ problème NP-complet.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
26. Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
27. Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Spectral clustering : Trouver les vecteurs propres associés aux k plus
petites valeurs propres de L, H, et faire la classification sur les colonnes
de H.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
28. Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Spectral clustering : Trouver les vecteurs propres associés aux k plus
petites valeurs propres de L, H, et faire la classification sur les colonnes
de H.
Quelques problèmes du “spectral clustering” : Utilisation d’une partie
du spectre seulement (laquelle ?), a tendance à produire un faible nombre
de classes de très grosses tailles et beaucoup de micro classes (un à cinq
individus).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
29. Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
30. Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur)
Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et
que la diffusion se fait de manière continue le long des arêtes du
graphe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
31. Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur)
Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et
que la diffusion se fait de manière continue le long des arêtes du
graphe.
2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
32. Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur)
Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et
que la diffusion se fait de manière continue le long des arêtes du
graphe.
2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.
Temps moyen pour atteindre xi à partir de xj lors d’une marche
aléatoire sur le graphe.
3 . . .
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
33. Exemples : [Yamanishi et al., 2003] and
[Guillemot et al., 2008]
Références complètes :
Y. Yamanishi, J.-P. Vert, A. Nakaya and M. Kanehisa (2003) Extraction
of correlated gene clusters from multiple genomic data by generalized
kernel canonical correlation analysis. Bioinformatics, 19, p323i-330i.
V. Guillemot, L. Le Brusquet, A. Tenenhaus and V. Frouin (2008)
Graph-constrained discriminant analysis of functional genomic data.
Proceedings of IEEE International Conference on Bioinformatics and
Biomedecine Workshops, Philadelphia, USA.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 17 / 31
34. Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données des composants et
réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont
les gènes d’un organisme et deux sommets sont liés si les gènes
catalysent deux réactions successives dans la même voie.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
35. Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données des composants et
réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont
les gènes d’un organisme et deux sommets sont liés si les gènes
catalysent deux réactions successives dans la même voie.
KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont
les sommets sont des gènes et deux sommets sont liés si les gènes sont
voisins sur un même chromosome.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
36. Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données des composants et
réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont
les gènes d’un organisme et deux sommets sont liés si les gènes
catalysent deux réactions successives dans la même voie.
KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont
les sommets sont des gènes et deux sommets sont liés si les gènes sont
voisins sur un même chromosome.
ExpressDB (données d’expression de gènes de E. Coli dans de multiples
expériences) ⇒ données multivariées (pour chaque gène, l’expression
dans 4 conditions expérimentales).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
37. Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données des composants et
réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont
les gènes d’un organisme et deux sommets sont liés si les gènes
catalysent deux réactions successives dans la même voie.
KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont
les sommets sont des gènes et deux sommets sont liés si les gènes sont
voisins sur un même chromosome.
ExpressDB (données d’expression de gènes de E. Coli dans de multiples
expériences) ⇒ données multivariées (pour chaque gène, l’expression
dans 4 conditions expérimentales).
But : Comprendre comment ces données interagissent.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
38. Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
39. Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
Analyse canonique des corrélations pénalisée entre ces deux
espaces (la pénalité est la norme des axes de projection dans
l’espace noyau).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
40. Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
Analyse canonique des corrélations pénalisée entre ces deux
espaces (la pénalité est la norme des axes de projection dans
l’espace noyau).
2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels.
Analyse canonique des corrélations multiples pénalisée.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
41. Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
Analyse canonique des corrélations pénalisée entre ces deux
espaces (la pénalité est la norme des axes de projection dans
l’espace noyau).
2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels.
Analyse canonique des corrélations multiples pénalisée.
Les “classes” sont les gènes ayant des composantes fortes sur un des
axes (5% les plus fortes et 5% les moins fortes).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
42. Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
Analyse canonique des corrélations pénalisée entre ces deux
espaces (la pénalité est la norme des axes de projection dans
l’espace noyau).
2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels.
Analyse canonique des corrélations multiples pénalisée.
Les “classes” sont les gènes ayant des composantes fortes sur un des
axes (5% les plus fortes et 5% les moins fortes).
Résultats : Certains groupes de gènes sont de meilleurs candidats
opérons que ceux fournis par “Operon Data Library” (4 consécutifs sur une
même voie plutôt que 3 avec un “trou” au milieu).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
43. Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec
la moitié de la base de données) & données multivariées (expression des
gènes : les gènes sont ici les variables).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
44. Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec
la moitié de la base de données) & données multivariées (expression des
gènes : les gènes sont ici les variables).
But : Combiner l’information de l’expression et l’information donnée par le
graphe pour discriminer les observations issues de tissus cancéreux et de
tissus normaux (cancer du colon).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
45. Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec
la moitié de la base de données) & données multivariées (expression des
gènes : les gènes sont ici les variables).
But : Combiner l’information de l’expression et l’information donnée par le
graphe pour discriminer les observations issues de tissus cancéreux et de
tissus normaux (cancer du colon).
Méthodologie : Analyse discriminante pénalisée par la norme induite par
le Laplacien.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
46. Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec
la moitié de la base de données) & données multivariées (expression des
gènes : les gènes sont ici les variables).
But : Combiner l’information de l’expression et l’information donnée par le
graphe pour discriminer les observations issues de tissus cancéreux et de
tissus normaux (cancer du colon).
Méthodologie : Analyse discriminante pénalisée par la norme induite par
le Laplacien.
Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %
contre 4,5 % pour un SVM sur les données multivariées.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
47. Markov Clustering (MCL)
Références :
van Dongen, S. (2000) Graph clustering by flow simulation. PhD
thesis, Dutch National Research Institut for Mathematics and
Computer Science in the Nederlands, Amsterdam, The Nederlands.
Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficient
algorithm for large-scale detection of protein families. Nucleic Acids
Research, 30(7), p1575-1584.
Brohée, S. and van Helden, J. (2006) Evaluation of clustering
algorithms for protein-protein interaction networks. BMC
Bioinformatics, 7(488).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31
48. Markov Clustering (MCL)
Références :
van Dongen, S. (2000) Graph clustering by flow simulation. PhD
thesis, Dutch National Research Institut for Mathematics and
Computer Science in the Nederlands, Amsterdam, The Nederlands.
Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficient
algorithm for large-scale detection of protein families. Nucleic Acids
Research, 30(7), p1575-1584.
Brohée, S. and van Helden, J. (2006) Evaluation of clustering
algorithms for protein-protein interaction networks. BMC
Bioinformatics, 7(488).
Selon [Fortunato, 2009], “the MCL is one of the most used clustering
algorithms in bioinformatics”.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31
49. Relation entre noyau de la chaleur, marche aléatoire
et markov clustering
Remarque introductive sur noyau de la chaleur et marche aléatoire :
Si Z0 = (1 1 1 . . . 1 1)T
est le score « d’énergie » dans chaque sommet du
graphe et si cette énergie est diffusée le long des arêtes du graphe
selon une petite fraction sur chaque arête et à chaque pas de temps.
Alors, au bout de n pas de temps, le score dans les sommets du graphe
s’écrit :
Zn = (1 + L)n
Z0
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31
50. Relation entre noyau de la chaleur, marche aléatoire
et markov clustering
Remarque introductive sur noyau de la chaleur et marche aléatoire :
Si Z0 = (1 1 1 . . . 1 1)T
est le score « d’énergie » dans chaque sommet du
graphe et si cette énergie est diffusée le long des arêtes du graphe
selon une petite fraction sur chaque arête et à chaque pas de temps.
Alors, au bout de n pas de temps, le score dans les sommets du graphe
s’écrit :
Zn = (1 + L)n
Z0
Limites : Pas de temps : n → t/(∆t) et α → α∆t puis (∆t) → 0
(processus continu) ; alors,
lim Zn = eαtL
= kαt
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31
51. Description de la méthode MCL [van Dongen, 2000]
Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0
dans la diagonale), on définit P :
Pij = Aij/di
qui donne la probabilité d’arriver en j en partant de i en un pas
aléatoire sur le graphe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31
52. Description de la méthode MCL [van Dongen, 2000]
Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0
dans la diagonale), on définit P :
Pij = Aij/di
qui donne la probabilité d’arriver en j en partant de i en un pas
aléatoire sur le graphe.
Expansion : P ← P2
(P
p
ij
donne la probabilité, avec une marche
aléatoire de p pas d’arriver en j à partir de i) ⇒ phase de marche
aléatoire ;
Inflation : Pij ← Pα
ij
(pas d’interprétation physique) c’est une phase
de normalisation qui correspond à une augmentation de la longueur
des chemins (amplifier la préférence pour les couples de sommets
les plus facilement joignables).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31
53. Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : c’est la matrice d’un graphe séparé en
composantes disjointes ; chaque composante est organisé autour d’un
ou plusieurs pôles attracteurs autour desquels les sommets sont
organisés en étoile.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
54. Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : c’est la matrice d’un graphe séparé en
composantes disjointes ; chaque composante est organisé autour d’un
ou plusieurs pôles attracteurs autour desquels les sommets sont
organisés en étoile.
Problème pratique : Méthode très sensible au paramètre d’inflation α qui
conduit à la calibration du nombre de classes.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
55. Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : c’est la matrice d’un graphe séparé en
composantes disjointes ; chaque composante est organisé autour d’un
ou plusieurs pôles attracteurs autour desquels les sommets sont
organisés en étoile.
Problème pratique : Méthode très sensible au paramètre d’inflation α qui
conduit à la calibration du nombre de classes.
Application [Enright et al., 2002] : sommets = protéines ; arêtes =
similarité entre protéines selon BLAST (bases de données InterPro et
SCOP). Comparaison avec les familles de protéines données dans les
bases de données.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
56. Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : c’est la matrice d’un graphe séparé en
composantes disjointes ; chaque composante est organisé autour d’un
ou plusieurs pôles attracteurs autour desquels les sommets sont
organisés en étoile.
Problème pratique : Méthode très sensible au paramètre d’inflation α qui
conduit à la calibration du nombre de classes.
Application [Enright et al., 2002] : sommets = protéines ; arêtes =
similarité entre protéines selon BLAST (bases de données InterPro et
SCOP). Comparaison avec les familles de protéines données dans les
bases de données. ⇒ environ 80 % de consensus avec les bases de
données existantes.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
57. Comparaisons de MCL avec d’autres approches
[Brohée and van Helden, 2006]
Brève présentation des approches comparées :
MCL
Restricted Neighborhood Search Clustering (RNSC) : algorithme
local basé sur l’optimisation d’une fonction de coût (nombre d’arêtes
inter et intra classes) ;
Super Paramagnetic Clustering (SPC) : algorithme hiérarchique
basé sur des propriétés physiques des modèles ferromagnétiques ;
Molecular Complex Detection (MCODE) : recherche locale par
aggrégation de régions de forte densité.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 25 / 31
58. Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe est
construit avec :
sommets = protéines ;
arêtes = appartenance au même complexe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
59. Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe est
construit avec :
sommets = protéines ;
arêtes = appartenance au même complexe.
Puis altération du graphe initial (trop simple) par ajout et délétion
aléatoire d’arêtes.
But : Retrouver les complexes !
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
60. Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe est
construit avec :
sommets = protéines ;
arêtes = appartenance au même complexe.
Puis altération du graphe initial (trop simple) par ajout et délétion
aléatoire d’arêtes.
But : Retrouver les complexes !
2 Graphe d’interactions de protéines (GRID) (levure yeast
saccharomyces) : 6 jeux de données d’interactions de protéines dans
la levure obtenus par double hybridation (2), spectrométrie de masse
(4) ⇒ 6 graphes sur lesquels les algorithmes sont appliqués.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
61. Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe est
construit avec :
sommets = protéines ;
arêtes = appartenance au même complexe.
Puis altération du graphe initial (trop simple) par ajout et délétion
aléatoire d’arêtes.
But : Retrouver les complexes !
2 Graphe d’interactions de protéines (GRID) (levure yeast
saccharomyces) : 6 jeux de données d’interactions de protéines dans
la levure obtenus par double hybridation (2), spectrométrie de masse
(4) ⇒ 6 graphes sur lesquels les algorithmes sont appliqués.
Validation : Retrouver les complexes cités dans MIPS.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
62. Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
63. Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
Prédiction positive du point de vue de la classe : % maximum,
pour une classe donnée, de représentation d’un complexe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
64. Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
Prédiction positive du point de vue de la classe : % maximum,
pour une classe donnée, de représentation d’un complexe.
Les moyennes, respectivement sur tous les complexes et toutes les
classes.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
65. Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
Prédiction positive du point de vue de la classe : % maximum,
pour une classe donnée, de représentation d’un complexe.
Les moyennes, respectivement sur tous les complexes et toutes les
classes.
Remarque importante : Lorsque le nombre de classes diminue, la
sensibilité augmente (elle vaut 1 pour une seule classe) et la prédiction
positive diminue (elle vaut 1 pour un nombre de classes égal au nombre
de protéines classées).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
66. Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
Prédiction positive du point de vue de la classe : % maximum,
pour une classe donnée, de représentation d’un complexe.
Les moyennes, respectivement sur tous les complexes et toutes les
classes.
Remarque importante : Lorsque le nombre de classes diminue, la
sensibilité augmente (elle vaut 1 pour une seule classe) et la prédiction
positive diminue (elle vaut 1 pour un nombre de classes égal au nombre
de protéines classées).
⇒ Précision géométrique : Moyenne géométrique de la sensibilité et de
la prédiction positive.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
67. Perspectives : données
Interactions : Interactions de protéines issues de BioGRID
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
68. Perspectives : données
Interactions : Interactions de protéines issues de BioGRID
Saccharomyces cerevisiae
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
69. Perspectives : données
Interactions : Interactions de protéines issues de BioGRID
Informations :
INTERACTOR_A : Unique ID for Interacting Partner A
INTERACTOR_B : Unique ID for Interacting Partner B
OFFICIAL_SYMBOL FOR A
OFFICIAL_SYMBOL FOR B
ALIASES_FOR_A : List of common names for geneA
ALIASES_FOR_B : List of common names for geneB
EXPERIMENTAL_SYSTEM : System in which the interaction was shown
SOURCE : Author(s) of the interaction
PUBMED_ID : PubMed ID of the paper, separated by ’ ;’
ORGANISM_A_ID : NCBI ID of Gene A Organism
ORGANISM_B_ID : NCBI ID of Gene B Organism
Exemple : YFL039C ; YBR243C ; ACT1 ; ALG7 ; ABY1|END7 ; TUR1 ;
Synthetic Lethality ; Davierwala AP (2005) ; 16155567 ; 4932 ; 4932
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
70. Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 370
lignes (saturation de la mémoire...) : protéines ? gènes ?
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
71. Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 370
lignes (saturation de la mémoire...) : protéines ? gènes ?
Sur ces observations acquises :
“Experimental system” :
Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;
Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage
Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic
Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;
Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
72. Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 370
lignes (saturation de la mémoire...) : protéines ? gènes ?
Sur ces observations acquises :
“Experimental system” :
Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;
Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage
Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic
Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;
Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)
Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;
11,24 interactions en moyenne ; nombre médian d’interactions : 2)
Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?
gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17
interactions, médiane de 9 interactions)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
73. Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 370
lignes (saturation de la mémoire...) : protéines ? gènes ?
Sur ces observations acquises :
“Experimental system” :
Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;
Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage
Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic
Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;
Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)
Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;
11,24 interactions en moyenne ; nombre médian d’interactions : 2)
Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?
gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17
interactions, médiane de 9 interactions)
Quel réseau à partir de ces données ?
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
74. Autres sources d’interactomes
DIP database of interacting proteins
EMBL-EBI Interact
BIND Biomolecular interaction network database
MIPS Mammalian protein-protein interaction database (ndlr :
beaucoup plus petite)
GRID general repository for interaction datasets
. . . (j’en ai recensé plus de 25 !)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 30 / 31
75. Validation ?
Validation biologique : données de référence
Pas trouvé la BD MIPS sur les complexes...
Il existe d’autres bases de complexes de protéines (3D Complex.org ;
Yeast Complex Web ∼ environ 500 complexes ...)
Package R, apComplex contenant les données de : Ho, et al.
Systematic identification of protein complexes in Saccharomyces
cerevisiae by mass spectrometry. Nature 415, 180-183 (2002).,
Krogan, et al. High-Definition Macromolecular Composition of Yeast
RNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30
January 2004.
GO ? ? ? FunCat ? ? ?
Autres idées ?
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
76. Validation ?
Validation biologique : données de référence
Pas trouvé la BD MIPS sur les complexes...
Il existe d’autres bases de complexes de protéines (3D Complex.org ;
Yeast Complex Web ∼ environ 500 complexes ...)
Package R, apComplex contenant les données de : Ho, et al.
Systematic identification of protein complexes in Saccharomyces
cerevisiae by mass spectrometry. Nature 415, 180-183 (2002).,
Krogan, et al. High-Definition Macromolecular Composition of Yeast
RNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30
January 2004.
GO ? ? ? FunCat ? ? ?
Autres idées ?
Validation : mesures : mesures de consensus entre une classification de
référence et la classification trouvée (biologique) ; mesures de qualité de
la classification par rapport à la structure (statistique)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
77. Brohée, S. and van Helden, J. (2006).
Evaluation of clustering algorithms for protein-protein interaction networks.
BMC Bioinformatics, 7(488).
Enright, A., Van Dongen, S., and Ouzounis, C. (2002).
An efficient algorithm for large-scale detection of protein families.
Nucleic Acids Research, 30(7) :1575–1584.
Fortunato, S. (2009).
Community detection in graphs.
Submitted for publication. Available at http://arxiv.org/abs/0906.0612.
Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).
Random-walk computation of similarities between nodes of a graph, with application to collaborative recommendation.
IEEE Transactions on Knowledge and Data Engineering, 19(3) :355–369.
Guillemot, V., Le Brusquet, L., Tenenhaus, A., and Frouin, V. (2008).
Graph-constrained discriminant analysis of functional genomics data.
In In proceedings of IEEE International Conference on Bioinformatics and Biomedecine Workshops, Philadelphia, USA.
Kondor, R. and Lafferty, J. (2002).
Diffusion kernels on graphs and other discrete structures.
In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.
van Dongen, S. (2000).
Graph clustering by flow simulation.
PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, The
Nederlands.
von Luxburg, U. (2007).
A tutorial on spectral clustering.
Statistics and Computing, 17(4) :395–416.
Yamanishi, Y., Vert, J., Nakaya, A., and Kanehisa, M. (2003).
Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31