SlideShare une entreprise Scribd logo
1  sur  78
Télécharger pour lire hors ligne
Compte-rendu bibliographique sur les réseaux
biologiques III
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
8 janvier 2010
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 1 / 31
Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31
Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
• non supervisée • Recherche de motifs
• semi supervisée • Classification de sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets (ou nœuds) / en anglais : vertices, nodes
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets
Arêtes / en anglais : edges
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
3
5
7
6,15
4,35
2
4
3.4
Sommets
Arêtes
éventuellement pondérées
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 5 / 31
Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 6 / 31
Références
1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to
inferring large-scale gene association networks. Bioinformatics, 21(6),
pp 754-764.
2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised
enzyme network inference from the integration of genomic data and
chemical information. Bioinformatics, 21(Supp. 1), i468-i477.
3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of
multiple biological data for supervised network inference.
Bioinformatics, 21(10), 2488-2495.
4 Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.
(2007) Inferring biological networks with output kernel trees. BMC
Bioinformatics, 8(Supp. 2).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 7 / 31
Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 8 / 31
Références
1 Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002) Network
motifs in the transcriptional regulation network of Escherichia Coli.
Nature genetics, 31, 64-68.
2 Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005) Network
thinking in ecology and evolution. Trends in Ecology and Evolution,
20(6), 345-353.
3 Siegal M., Promislow D.E.L. and Bergman A. (2007) Functional
and evolutionary inference in gene networks : does topology matter ?
Genetica, 129, 83-103.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 9 / 31
Sommaire
1 Inférence de graphes
2 Recherche de motifs
3 Recherche de modules : classification des sommets
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 10 / 31
Recherche de modules, classification de sommets
Problème particulier posé par la classification de sommets dans un
graphe : il n’y a pas de “distance” naturelle entre sommets d’un graphe
donc pas de manière simple d’utiliser les algorithmes de classification
usuels (k-means, CAH ...)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31
Recherche de modules, classification de sommets
Problème particulier posé par la classification de sommets dans un
graphe : il n’y a pas de “distance” naturelle entre sommets d’un graphe
donc pas de manière simple d’utiliser les algorithmes de classification
usuels (k-means, CAH ...)
Trois grandes familles de méthodes :
méthodes basées sur la définition d’une similarité ou d’un noyau ;
méthodes basées sur l’optimisation d’un critère de qualité ;
méthodes basées sur un modèle de graphe aléatoire.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31
Principe des méthodes à noyau
Le noyau K permet de passer d’un graphe à un espace vectoriel usuel
(avec une distance) :
Graphe Espace vectoriel H ∼ Rn
Pas de métrique Une distance : d(u, v) = u − v, u − v H
Un sommet xi L’image du sommet φ(xi)
On définit la “distance” entre deux sommets par :
d(φ(xi), φ(xj)) = K(xi, xi) + K(xj, xj) − 2K(xi, xj)
⇒ uniquement à partir du noyau !
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 12 / 31
Noyaux basés sur le Laplacien
Les noyaux fréquemment utilisés sont des versions régularisées du
Laplacien :
L =
−wij si i j
di = j i wij sinon.
car cette matrice a des propriétés intéressantes en relation avec la
structure du graphe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 13 / 31
Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les positions des sommets de la
ième composante connexe du graphe.
1
4
5
2
3
KerL = Span





1
0
0
1
1


;


0
1
1
0
0





BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31
Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les positions des sommets de la
ième composante connexe du graphe.
1
4
5
2
3
KerL = Span





1
0
0
1
1


;


0
1
1
0
0





Remarque : Il existe d’autres propriétés algébriques plus fines entre la
structure du graphe et les valeurs propres du Laplacien.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
⇒ problème NP-complet.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Spectral clustering : Trouver les vecteurs propres associés aux k plus
petites valeurs propres de L, H, et faire la classification sur les colonnes
de H.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classification des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Spectral clustering : Trouver les vecteurs propres associés aux k plus
petites valeurs propres de L, H, et faire la classification sur les colonnes
de H.
Quelques problèmes du “spectral clustering” : Utilisation d’une partie
du spectre seulement (laquelle ?), a tendance à produire un faible nombre
de classes de très grosses tailles et beaucoup de micro classes (un à cinq
individus).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur)
Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et
que la diffusion se fait de manière continue le long des arêtes du
graphe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur)
Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et
que la diffusion se fait de manière continue le long des arêtes du
graphe.
2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur)
Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et
que la diffusion se fait de manière continue le long des arêtes du
graphe.
2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.
Temps moyen pour atteindre xi à partir de xj lors d’une marche
aléatoire sur le graphe.
3 . . .
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
Exemples : [Yamanishi et al., 2003] and
[Guillemot et al., 2008]
Références complètes :
Y. Yamanishi, J.-P. Vert, A. Nakaya and M. Kanehisa (2003) Extraction
of correlated gene clusters from multiple genomic data by generalized
kernel canonical correlation analysis. Bioinformatics, 19, p323i-330i.
V. Guillemot, L. Le Brusquet, A. Tenenhaus and V. Frouin (2008)
Graph-constrained discriminant analysis of functional genomic data.
Proceedings of IEEE International Conference on Bioinformatics and
Biomedecine Workshops, Philadelphia, USA.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 17 / 31
Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données des composants et
réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont
les gènes d’un organisme et deux sommets sont liés si les gènes
catalysent deux réactions successives dans la même voie.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données des composants et
réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont
les gènes d’un organisme et deux sommets sont liés si les gènes
catalysent deux réactions successives dans la même voie.
KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont
les sommets sont des gènes et deux sommets sont liés si les gènes sont
voisins sur un même chromosome.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données des composants et
réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont
les gènes d’un organisme et deux sommets sont liés si les gènes
catalysent deux réactions successives dans la même voie.
KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont
les sommets sont des gènes et deux sommets sont liés si les gènes sont
voisins sur un même chromosome.
ExpressDB (données d’expression de gènes de E. Coli dans de multiples
expériences) ⇒ données multivariées (pour chaque gène, l’expression
dans 4 conditions expérimentales).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
Classification à partir de données multiples : KCCA
[Yamanishi et al., 2003]
Les données : KEGC/LIGAND database (données des composants et
réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont
les gènes d’un organisme et deux sommets sont liés si les gènes
catalysent deux réactions successives dans la même voie.
KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont
les sommets sont des gènes et deux sommets sont liés si les gènes sont
voisins sur un même chromosome.
ExpressDB (données d’expression de gènes de E. Coli dans de multiples
expériences) ⇒ données multivariées (pour chaque gène, l’expression
dans 4 conditions expérimentales).
But : Comprendre comment ces données interagissent.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
Analyse canonique des corrélations pénalisée entre ces deux
espaces (la pénalité est la norme des axes de projection dans
l’espace noyau).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
Analyse canonique des corrélations pénalisée entre ces deux
espaces (la pénalité est la norme des axes de projection dans
l’espace noyau).
2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels.
Analyse canonique des corrélations multiples pénalisée.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
Analyse canonique des corrélations pénalisée entre ces deux
espaces (la pénalité est la norme des axes de projection dans
l’espace noyau).
2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels.
Analyse canonique des corrélations multiples pénalisée.
Les “classes” sont les gènes ayant des composantes fortes sur un des
axes (5% les plus fortes et 5% les moins fortes).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
Méthodologies
1 Un noyau pour le graphe issu des voies métaboliques (noyau de la
chaleur) et la somme de deux noyaux pour le graphe issu des
voisinages (noyau de la chaleur) et les données multivariées (noyau
gaussien : K(u, v) = e−γ u−v 2
) ⇒ deux espaces vectoriels.
Analyse canonique des corrélations pénalisée entre ces deux
espaces (la pénalité est la norme des axes de projection dans
l’espace noyau).
2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels.
Analyse canonique des corrélations multiples pénalisée.
Les “classes” sont les gènes ayant des composantes fortes sur un des
axes (5% les plus fortes et 5% les moins fortes).
Résultats : Certains groupes de gènes sont de meilleurs candidats
opérons que ceux fournis par “Operon Data Library” (4 consécutifs sur une
même voie plutôt que 3 avec un “trou” au milieu).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec
la moitié de la base de données) & données multivariées (expression des
gènes : les gènes sont ici les variables).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec
la moitié de la base de données) & données multivariées (expression des
gènes : les gènes sont ici les variables).
But : Combiner l’information de l’expression et l’information donnée par le
graphe pour discriminer les observations issues de tissus cancéreux et de
tissus normaux (cancer du colon).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec
la moitié de la base de données) & données multivariées (expression des
gènes : les gènes sont ici les variables).
But : Combiner l’information de l’expression et l’information donnée par le
graphe pour discriminer les observations issues de tissus cancéreux et de
tissus normaux (cancer du colon).
Méthodologie : Analyse discriminante pénalisée par la norme induite par
le Laplacien.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
Discrimination pénalisée par la structure du graphe
Les données : 100 gènes choisis aléatoirement dans la base de données
Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec
la moitié de la base de données) & données multivariées (expression des
gènes : les gènes sont ici les variables).
But : Combiner l’information de l’expression et l’information donnée par le
graphe pour discriminer les observations issues de tissus cancéreux et de
tissus normaux (cancer du colon).
Méthodologie : Analyse discriminante pénalisée par la norme induite par
le Laplacien.
Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %
contre 4,5 % pour un SVM sur les données multivariées.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
Markov Clustering (MCL)
Références :
van Dongen, S. (2000) Graph clustering by flow simulation. PhD
thesis, Dutch National Research Institut for Mathematics and
Computer Science in the Nederlands, Amsterdam, The Nederlands.
Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficient
algorithm for large-scale detection of protein families. Nucleic Acids
Research, 30(7), p1575-1584.
Brohée, S. and van Helden, J. (2006) Evaluation of clustering
algorithms for protein-protein interaction networks. BMC
Bioinformatics, 7(488).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31
Markov Clustering (MCL)
Références :
van Dongen, S. (2000) Graph clustering by flow simulation. PhD
thesis, Dutch National Research Institut for Mathematics and
Computer Science in the Nederlands, Amsterdam, The Nederlands.
Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficient
algorithm for large-scale detection of protein families. Nucleic Acids
Research, 30(7), p1575-1584.
Brohée, S. and van Helden, J. (2006) Evaluation of clustering
algorithms for protein-protein interaction networks. BMC
Bioinformatics, 7(488).
Selon [Fortunato, 2009], “the MCL is one of the most used clustering
algorithms in bioinformatics”.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31
Relation entre noyau de la chaleur, marche aléatoire
et markov clustering
Remarque introductive sur noyau de la chaleur et marche aléatoire :
Si Z0 = (1 1 1 . . . 1 1)T
est le score « d’énergie » dans chaque sommet du
graphe et si cette énergie est diffusée le long des arêtes du graphe
selon une petite fraction sur chaque arête et à chaque pas de temps.
Alors, au bout de n pas de temps, le score dans les sommets du graphe
s’écrit :
Zn = (1 + L)n
Z0
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31
Relation entre noyau de la chaleur, marche aléatoire
et markov clustering
Remarque introductive sur noyau de la chaleur et marche aléatoire :
Si Z0 = (1 1 1 . . . 1 1)T
est le score « d’énergie » dans chaque sommet du
graphe et si cette énergie est diffusée le long des arêtes du graphe
selon une petite fraction sur chaque arête et à chaque pas de temps.
Alors, au bout de n pas de temps, le score dans les sommets du graphe
s’écrit :
Zn = (1 + L)n
Z0
Limites : Pas de temps : n → t/(∆t) et α → α∆t puis (∆t) → 0
(processus continu) ; alors,
lim Zn = eαtL
= kαt
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31
Description de la méthode MCL [van Dongen, 2000]
Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0
dans la diagonale), on définit P :
Pij = Aij/di
qui donne la probabilité d’arriver en j en partant de i en un pas
aléatoire sur le graphe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31
Description de la méthode MCL [van Dongen, 2000]
Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0
dans la diagonale), on définit P :
Pij = Aij/di
qui donne la probabilité d’arriver en j en partant de i en un pas
aléatoire sur le graphe.
Expansion : P ← P2
(P
p
ij
donne la probabilité, avec une marche
aléatoire de p pas d’arriver en j à partir de i) ⇒ phase de marche
aléatoire ;
Inflation : Pij ← Pα
ij
(pas d’interprétation physique) c’est une phase
de normalisation qui correspond à une augmentation de la longueur
des chemins (amplifier la préférence pour les couples de sommets
les plus facilement joignables).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31
Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : c’est la matrice d’un graphe séparé en
composantes disjointes ; chaque composante est organisé autour d’un
ou plusieurs pôles attracteurs autour desquels les sommets sont
organisés en étoile.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : c’est la matrice d’un graphe séparé en
composantes disjointes ; chaque composante est organisé autour d’un
ou plusieurs pôles attracteurs autour desquels les sommets sont
organisés en étoile.
Problème pratique : Méthode très sensible au paramètre d’inflation α qui
conduit à la calibration du nombre de classes.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : c’est la matrice d’un graphe séparé en
composantes disjointes ; chaque composante est organisé autour d’un
ou plusieurs pôles attracteurs autour desquels les sommets sont
organisés en étoile.
Problème pratique : Méthode très sensible au paramètre d’inflation α qui
conduit à la calibration du nombre de classes.
Application [Enright et al., 2002] : sommets = protéines ; arêtes =
similarité entre protéines selon BLAST (bases de données InterPro et
SCOP). Comparaison avec les familles de protéines données dans les
bases de données.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
Discussion sur MCL
Convergence (parfois ; assurée si le graphe est non orientée) vers une
matrice doublement idempotent : c’est la matrice d’un graphe séparé en
composantes disjointes ; chaque composante est organisé autour d’un
ou plusieurs pôles attracteurs autour desquels les sommets sont
organisés en étoile.
Problème pratique : Méthode très sensible au paramètre d’inflation α qui
conduit à la calibration du nombre de classes.
Application [Enright et al., 2002] : sommets = protéines ; arêtes =
similarité entre protéines selon BLAST (bases de données InterPro et
SCOP). Comparaison avec les familles de protéines données dans les
bases de données. ⇒ environ 80 % de consensus avec les bases de
données existantes.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
Comparaisons de MCL avec d’autres approches
[Brohée and van Helden, 2006]
Brève présentation des approches comparées :
MCL
Restricted Neighborhood Search Clustering (RNSC) : algorithme
local basé sur l’optimisation d’une fonction de coût (nombre d’arêtes
inter et intra classes) ;
Super Paramagnetic Clustering (SPC) : algorithme hiérarchique
basé sur des propriétés physiques des modèles ferromagnétiques ;
Molecular Complex Detection (MCODE) : recherche locale par
aggrégation de régions de forte densité.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 25 / 31
Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe est
construit avec :
sommets = protéines ;
arêtes = appartenance au même complexe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe est
construit avec :
sommets = protéines ;
arêtes = appartenance au même complexe.
Puis altération du graphe initial (trop simple) par ajout et délétion
aléatoire d’arêtes.
But : Retrouver les complexes !
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe est
construit avec :
sommets = protéines ;
arêtes = appartenance au même complexe.
Puis altération du graphe initial (trop simple) par ajout et délétion
aléatoire d’arêtes.
But : Retrouver les complexes !
2 Graphe d’interactions de protéines (GRID) (levure yeast
saccharomyces) : 6 jeux de données d’interactions de protéines dans
la levure obtenus par double hybridation (2), spectrométrie de masse
(4) ⇒ 6 graphes sur lesquels les algorithmes sont appliqués.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
Méthodologie de comparaison
Deux jeux de données sont utilisés :
1 Collection de complexes protéiniques (MIPS) : Un graphe est
construit avec :
sommets = protéines ;
arêtes = appartenance au même complexe.
Puis altération du graphe initial (trop simple) par ajout et délétion
aléatoire d’arêtes.
But : Retrouver les complexes !
2 Graphe d’interactions de protéines (GRID) (levure yeast
saccharomyces) : 6 jeux de données d’interactions de protéines dans
la levure obtenus par double hybridation (2), spectrométrie de masse
(4) ⇒ 6 graphes sur lesquels les algorithmes sont appliqués.
Validation : Retrouver les complexes cités dans MIPS.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
Prédiction positive du point de vue de la classe : % maximum,
pour une classe donnée, de représentation d’un complexe.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
Prédiction positive du point de vue de la classe : % maximum,
pour une classe donnée, de représentation d’un complexe.
Les moyennes, respectivement sur tous les complexes et toutes les
classes.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
Prédiction positive du point de vue de la classe : % maximum,
pour une classe donnée, de représentation d’un complexe.
Les moyennes, respectivement sur tous les complexes et toutes les
classes.
Remarque importante : Lorsque le nombre de classes diminue, la
sensibilité augmente (elle vaut 1 pour une seule classe) et la prédiction
positive diminue (elle vaut 1 pour un nombre de classes égal au nombre
de protéines classées).
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
Évaluation de la qualité
Sensibilité du point du vue du complexe : couverture du complexe
par la meilleur classe (ie : % maximum du complexe retrouvé dans
les classes) ;
Prédiction positive du point de vue de la classe : % maximum,
pour une classe donnée, de représentation d’un complexe.
Les moyennes, respectivement sur tous les complexes et toutes les
classes.
Remarque importante : Lorsque le nombre de classes diminue, la
sensibilité augmente (elle vaut 1 pour une seule classe) et la prédiction
positive diminue (elle vaut 1 pour un nombre de classes égal au nombre
de protéines classées).
⇒ Précision géométrique : Moyenne géométrique de la sensibilité et de
la prédiction positive.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
Perspectives : données
Interactions : Interactions de protéines issues de BioGRID
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
Perspectives : données
Interactions : Interactions de protéines issues de BioGRID
Saccharomyces cerevisiae
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
Perspectives : données
Interactions : Interactions de protéines issues de BioGRID
Informations :
INTERACTOR_A : Unique ID for Interacting Partner A
INTERACTOR_B : Unique ID for Interacting Partner B
OFFICIAL_SYMBOL FOR A
OFFICIAL_SYMBOL FOR B
ALIASES_FOR_A : List of common names for geneA
ALIASES_FOR_B : List of common names for geneB
EXPERIMENTAL_SYSTEM : System in which the interaction was shown
SOURCE : Author(s) of the interaction
PUBMED_ID : PubMed ID of the paper, separated by ’ ;’
ORGANISM_A_ID : NCBI ID of Gene A Organism
ORGANISM_B_ID : NCBI ID of Gene B Organism
Exemple : YFL039C ; YBR243C ; ACT1 ; ALG7 ; ABY1|END7 ; TUR1 ;
Synthetic Lethality ; Davierwala AP (2005) ; 16155567 ; 4932 ; 4932
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 370
lignes (saturation de la mémoire...) : protéines ? gènes ?
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 370
lignes (saturation de la mémoire...) : protéines ? gènes ?
Sur ces observations acquises :
“Experimental system” :
Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;
Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage
Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic
Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;
Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 370
lignes (saturation de la mémoire...) : protéines ? gènes ?
Sur ces observations acquises :
“Experimental system” :
Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;
Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage
Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic
Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;
Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)
Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;
11,24 interactions en moyenne ; nombre médian d’interactions : 2)
Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?
gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17
interactions, médiane de 9 interactions)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
Quelques statistiques élémentaires sur le jeu de
données
Nombre de données : 42 254 observations acquises sur R sur 230 370
lignes (saturation de la mémoire...) : protéines ? gènes ?
Sur ces observations acquises :
“Experimental system” :
Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;
Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage
Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic
Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;
Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)
Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;
11,24 interactions en moyenne ; nombre médian d’interactions : 2)
Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?
gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17
interactions, médiane de 9 interactions)
Quel réseau à partir de ces données ?
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
Autres sources d’interactomes
DIP database of interacting proteins
EMBL-EBI Interact
BIND Biomolecular interaction network database
MIPS Mammalian protein-protein interaction database (ndlr :
beaucoup plus petite)
GRID general repository for interaction datasets
. . . (j’en ai recensé plus de 25 !)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 30 / 31
Validation ?
Validation biologique : données de référence
Pas trouvé la BD MIPS sur les complexes...
Il existe d’autres bases de complexes de protéines (3D Complex.org ;
Yeast Complex Web ∼ environ 500 complexes ...)
Package R, apComplex contenant les données de : Ho, et al.
Systematic identification of protein complexes in Saccharomyces
cerevisiae by mass spectrometry. Nature 415, 180-183 (2002).,
Krogan, et al. High-Definition Macromolecular Composition of Yeast
RNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30
January 2004.
GO ? ? ? FunCat ? ? ?
Autres idées ?
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
Validation ?
Validation biologique : données de référence
Pas trouvé la BD MIPS sur les complexes...
Il existe d’autres bases de complexes de protéines (3D Complex.org ;
Yeast Complex Web ∼ environ 500 complexes ...)
Package R, apComplex contenant les données de : Ho, et al.
Systematic identification of protein complexes in Saccharomyces
cerevisiae by mass spectrometry. Nature 415, 180-183 (2002).,
Krogan, et al. High-Definition Macromolecular Composition of Yeast
RNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30
January 2004.
GO ? ? ? FunCat ? ? ?
Autres idées ?
Validation : mesures : mesures de consensus entre une classification de
référence et la classification trouvée (biologique) ; mesures de qualité de
la classification par rapport à la structure (statistique)
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
Brohée, S. and van Helden, J. (2006).
Evaluation of clustering algorithms for protein-protein interaction networks.
BMC Bioinformatics, 7(488).
Enright, A., Van Dongen, S., and Ouzounis, C. (2002).
An efficient algorithm for large-scale detection of protein families.
Nucleic Acids Research, 30(7) :1575–1584.
Fortunato, S. (2009).
Community detection in graphs.
Submitted for publication. Available at http://arxiv.org/abs/0906.0612.
Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).
Random-walk computation of similarities between nodes of a graph, with application to collaborative recommendation.
IEEE Transactions on Knowledge and Data Engineering, 19(3) :355–369.
Guillemot, V., Le Brusquet, L., Tenenhaus, A., and Frouin, V. (2008).
Graph-constrained discriminant analysis of functional genomics data.
In In proceedings of IEEE International Conference on Bioinformatics and Biomedecine Workshops, Philadelphia, USA.
Kondor, R. and Lafferty, J. (2002).
Diffusion kernels on graphs and other discrete structures.
In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.
van Dongen, S. (2000).
Graph clustering by flow simulation.
PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, The
Nederlands.
von Luxburg, U. (2007).
A tutorial on spectral clustering.
Statistics and Computing, 17(4) :395–416.
Yamanishi, Y., Vert, J., Nakaya, A., and Kanehisa, M. (2003).
Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
Bioinformatics, 19 :323i–330i.
BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31

Contenu connexe

En vedette

En vedette (20)

A comparison of three learning methods to predict N20 fluxes and N leaching
A comparison of three learning methods to predict N20 fluxes and N leachingA comparison of three learning methods to predict N20 fluxes and N leaching
A comparison of three learning methods to predict N20 fluxes and N leaching
 
Graphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’informationGraphes, multi-graphes et recherche d’information
Graphes, multi-graphes et recherche d’information
 
Données métabolomiques, apprentissage et ondelettes
Données métabolomiques, apprentissage et ondelettesDonnées métabolomiques, apprentissage et ondelettes
Données métabolomiques, apprentissage et ondelettes
 
Définition et analyse de graphes d’interactions de gènes pour la qualité de l...
Définition et analyse de graphes d’interactions de gènes pour la qualité de l...Définition et analyse de graphes d’interactions de gènes pour la qualité de l...
Définition et analyse de graphes d’interactions de gènes pour la qualité de l...
 
Metabolomic data: combining wavelet representation with learning approaches
Metabolomic data: combining wavelet representation with learning approachesMetabolomic data: combining wavelet representation with learning approaches
Metabolomic data: combining wavelet representation with learning approaches
 
Introduction à l’étude des grands graphes
Introduction à l’étude des grands graphesIntroduction à l’étude des grands graphes
Introduction à l’étude des grands graphes
 
Discrimination de courbes par SVM
Discrimination de courbes par SVMDiscrimination de courbes par SVM
Discrimination de courbes par SVM
 
Several nonlinear models and methods for FDA
Several nonlinear models and methods for FDASeveral nonlinear models and methods for FDA
Several nonlinear models and methods for FDA
 
FDA and Statistical learning theory
FDA and Statistical learning theoryFDA and Statistical learning theory
FDA and Statistical learning theory
 
Comparaison de méthodes de classification de sommets dans un réseau biologique
Comparaison de méthodes de classification de sommets dans un réseau biologiqueComparaison de méthodes de classification de sommets dans un réseau biologique
Comparaison de méthodes de classification de sommets dans un réseau biologique
 
Graphes, noyaux et cartes de Kohonen
Graphes, noyaux et cartes de KohonenGraphes, noyaux et cartes de Kohonen
Graphes, noyaux et cartes de Kohonen
 
Discrimination de courbes par SVM
Discrimination de courbes par SVMDiscrimination de courbes par SVM
Discrimination de courbes par SVM
 
Modélisation de la dynamique d’occupation du sol par réseaux de neurones
Modélisation de la dynamique d’occupation du sol par réseaux de neuronesModélisation de la dynamique d’occupation du sol par réseaux de neurones
Modélisation de la dynamique d’occupation du sol par réseaux de neurones
 
Introduction to FDA and linear models
 Introduction to FDA and linear models Introduction to FDA and linear models
Introduction to FDA and linear models
 
What is a MOOC?
What is a MOOC?What is a MOOC?
What is a MOOC?
 
Graph mining 2: Statistical approaches for graph mining
Graph mining 2: Statistical approaches for graph miningGraph mining 2: Statistical approaches for graph mining
Graph mining 2: Statistical approaches for graph mining
 
Influence of the sampling on Functional Data Analysis
Influence of the sampling on Functional Data AnalysisInfluence of the sampling on Functional Data Analysis
Influence of the sampling on Functional Data Analysis
 
Cartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringCartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clustering
 
Graph mining with kernel self-organizing map
Graph mining with kernel self-organizing mapGraph mining with kernel self-organizing map
Graph mining with kernel self-organizing map
 
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
 

Similaire à Compte-rendu bibliographique sur les réseaux biologiques III

Nyc Espacevecto A09
Nyc Espacevecto A09Nyc Espacevecto A09
Nyc Espacevecto A09
Raymond
 
Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1 Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1
ENSET, Université Hassan II Casablanca
 

Similaire à Compte-rendu bibliographique sur les réseaux biologiques III (10)

Discrimination et régression non paramétriques pour des dérivées : un résulta...
Discrimination et régression non paramétriques pour des dérivées : un résulta...Discrimination et régression non paramétriques pour des dérivées : un résulta...
Discrimination et régression non paramétriques pour des dérivées : un résulta...
 
Compte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiquesCompte-rendu bibliographique sur les réseaux biologiques
Compte-rendu bibliographique sur les réseaux biologiques
 
Lmfi1
Lmfi1Lmfi1
Lmfi1
 
Actuariat et Données
Actuariat et DonnéesActuariat et Données
Actuariat et Données
 
1Flou.ppt
1Flou.ppt1Flou.ppt
1Flou.ppt
 
1Flou.ppt
1Flou.ppt1Flou.ppt
1Flou.ppt
 
Université d’été ferney voltaire 2014 – les réseaux atelier-pajek
Université d’été ferney voltaire 2014 – les réseaux atelier-pajekUniversité d’été ferney voltaire 2014 – les réseaux atelier-pajek
Université d’été ferney voltaire 2014 – les réseaux atelier-pajek
 
Implémentation optimale de filtres linéaires en arithmétique virgule fixe
Implémentation optimale de filtres linéaires en arithmétique virgule fixeImplémentation optimale de filtres linéaires en arithmétique virgule fixe
Implémentation optimale de filtres linéaires en arithmétique virgule fixe
 
Nyc Espacevecto A09
Nyc Espacevecto A09Nyc Espacevecto A09
Nyc Espacevecto A09
 
Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1 Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1
 

Plus de tuxette

Plus de tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatrices
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Compte-rendu bibliographique sur les réseaux biologiques III

  • 1. Compte-rendu bibliographique sur les réseaux biologiques III Nathalie Villa-Vialaneix http ://www.nathalievilla.org Institut de Mathématiques de Toulouse IUT de Carcassonne (Université de Perpignan) Groupe de travail BioPuces, INRA de Castanet 8 janvier 2010 BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 1 / 31
  • 2. Vue d’ensemble des thématiques ⇒ ⇒ Compréhension Inférence de graphes Analyse du graphe BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31
  • 3. Vue d’ensemble des thématiques ⇒ ⇒ Compréhension Inférence de graphes Analyse du graphe • non supervisée • Recherche de motifs • semi supervisée • Classification de sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31
  • 4. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
  • 5. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets (ou nœuds) / en anglais : vertices, nodes BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
  • 6. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets Arêtes / en anglais : edges BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
  • 7. Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... 3 5 7 6,15 4,35 2 4 3.4 Sommets Arêtes éventuellement pondérées BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31
  • 8. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
  • 9. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
  • 10. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
  • 11. Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E Dans un graphe non pondéré, on convient que wij ∈ {0; 1}. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31
  • 12. Sommaire 1 Inférence de graphes 2 Recherche de motifs 3 Recherche de modules : classification des sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 5 / 31
  • 13. Sommaire 1 Inférence de graphes 2 Recherche de motifs 3 Recherche de modules : classification des sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 6 / 31
  • 14. Références 1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to inferring large-scale gene association networks. Bioinformatics, 21(6), pp 754-764. 2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised enzyme network inference from the integration of genomic data and chemical information. Bioinformatics, 21(Supp. 1), i468-i477. 3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of multiple biological data for supervised network inference. Bioinformatics, 21(10), 2488-2495. 4 Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F. (2007) Inferring biological networks with output kernel trees. BMC Bioinformatics, 8(Supp. 2). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 7 / 31
  • 15. Sommaire 1 Inférence de graphes 2 Recherche de motifs 3 Recherche de modules : classification des sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 8 / 31
  • 16. Références 1 Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002) Network motifs in the transcriptional regulation network of Escherichia Coli. Nature genetics, 31, 64-68. 2 Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005) Network thinking in ecology and evolution. Trends in Ecology and Evolution, 20(6), 345-353. 3 Siegal M., Promislow D.E.L. and Bergman A. (2007) Functional and evolutionary inference in gene networks : does topology matter ? Genetica, 129, 83-103. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 9 / 31
  • 17. Sommaire 1 Inférence de graphes 2 Recherche de motifs 3 Recherche de modules : classification des sommets BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 10 / 31
  • 18. Recherche de modules, classification de sommets Problème particulier posé par la classification de sommets dans un graphe : il n’y a pas de “distance” naturelle entre sommets d’un graphe donc pas de manière simple d’utiliser les algorithmes de classification usuels (k-means, CAH ...) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31
  • 19. Recherche de modules, classification de sommets Problème particulier posé par la classification de sommets dans un graphe : il n’y a pas de “distance” naturelle entre sommets d’un graphe donc pas de manière simple d’utiliser les algorithmes de classification usuels (k-means, CAH ...) Trois grandes familles de méthodes : méthodes basées sur la définition d’une similarité ou d’un noyau ; méthodes basées sur l’optimisation d’un critère de qualité ; méthodes basées sur un modèle de graphe aléatoire. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31
  • 20. Principe des méthodes à noyau Le noyau K permet de passer d’un graphe à un espace vectoriel usuel (avec une distance) : Graphe Espace vectoriel H ∼ Rn Pas de métrique Une distance : d(u, v) = u − v, u − v H Un sommet xi L’image du sommet φ(xi) On définit la “distance” entre deux sommets par : d(φ(xi), φ(xj)) = K(xi, xi) + K(xj, xj) − 2K(xi, xj) ⇒ uniquement à partir du noyau ! BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 12 / 31
  • 21. Noyaux basés sur le Laplacien Les noyaux fréquemment utilisés sont des versions régularisées du Laplacien : L = −wij si i j di = j i wij sinon. car cette matrice a des propriétés intéressantes en relation avec la structure du graphe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 13 / 31
  • 22. Propriétés du Laplacien I [von Luxburg, 2007] Composantes connexes KerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommets de la ième composante connexe du graphe. 1 4 5 2 3 KerL = Span      1 0 0 1 1   ;   0 1 1 0 0      BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31
  • 23. Propriétés du Laplacien I [von Luxburg, 2007] Composantes connexes KerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommets de la ième composante connexe du graphe. 1 4 5 2 3 KerL = Span      1 0 0 1 1   ;   0 1 1 0 0      Remarque : Il existe d’autres propriétés algébriques plus fines entre la structure du graphe et les valeurs propres du Laplacien. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31
  • 24. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale , est équivalent à H = arg min h∈Rn×k Tr hT Lh subject to hT h = I hi = 1/ √ |Ai|1Ai BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  • 25. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale , est équivalent à H = arg min h∈Rn×k Tr hT Lh subject to hT h = I hi = 1/ √ |Ai|1Ai ⇒ problème NP-complet. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  • 26. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale peut être approché par H = arg min h∈Rn×k Tr hT Lh subject to hT h = I BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  • 27. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale peut être approché par H = arg min h∈Rn×k Tr hT Lh subject to hT h = I Spectral clustering : Trouver les vecteurs propres associés aux k plus petites valeurs propres de L, H, et faire la classification sur les colonnes de H. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  • 28. Propriétés du Laplacien III [von Luxburg, 2007] Problème de la coupe optimale : Supposons que le graphe soit connexe. Trouver une classification des sommets du graphe, A1, . . . , Ak telle que 1 2 k i=1 j∈Ai,j Ai wj,j est minimale peut être approché par H = arg min h∈Rn×k Tr hT Lh subject to hT h = I Spectral clustering : Trouver les vecteurs propres associés aux k plus petites valeurs propres de L, H, et faire la classification sur les colonnes de H. Quelques problèmes du “spectral clustering” : Utilisation d’une partie du spectre seulement (laquelle ?), a tendance à produire un faible nombre de classes de très grosses tailles et beaucoup de micro classes (un à cinq individus). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31
  • 29. Des versions régularisées de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ Kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
  • 30. Des versions régularisées de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ Kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur) Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et que la diffusion se fait de manière continue le long des arêtes du graphe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
  • 31. Des versions régularisées de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ Kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur) Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et que la diffusion se fait de manière continue le long des arêtes du graphe. 2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
  • 32. Des versions régularisées de L 1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ Kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur) Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et que la diffusion se fait de manière continue le long des arêtes du graphe. 2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+. Temps moyen pour atteindre xi à partir de xj lors d’une marche aléatoire sur le graphe. 3 . . . BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31
  • 33. Exemples : [Yamanishi et al., 2003] and [Guillemot et al., 2008] Références complètes : Y. Yamanishi, J.-P. Vert, A. Nakaya and M. Kanehisa (2003) Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis. Bioinformatics, 19, p323i-330i. V. Guillemot, L. Le Brusquet, A. Tenenhaus and V. Frouin (2008) Graph-constrained discriminant analysis of functional genomic data. Proceedings of IEEE International Conference on Bioinformatics and Biomedecine Workshops, Philadelphia, USA. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 17 / 31
  • 34. Classification à partir de données multiples : KCCA [Yamanishi et al., 2003] Les données : KEGC/LIGAND database (données des composants et réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont les gènes d’un organisme et deux sommets sont liés si les gènes catalysent deux réactions successives dans la même voie. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
  • 35. Classification à partir de données multiples : KCCA [Yamanishi et al., 2003] Les données : KEGC/LIGAND database (données des composants et réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont les gènes d’un organisme et deux sommets sont liés si les gènes catalysent deux réactions successives dans la même voie. KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont les sommets sont des gènes et deux sommets sont liés si les gènes sont voisins sur un même chromosome. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
  • 36. Classification à partir de données multiples : KCCA [Yamanishi et al., 2003] Les données : KEGC/LIGAND database (données des composants et réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont les gènes d’un organisme et deux sommets sont liés si les gènes catalysent deux réactions successives dans la même voie. KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont les sommets sont des gènes et deux sommets sont liés si les gènes sont voisins sur un même chromosome. ExpressDB (données d’expression de gènes de E. Coli dans de multiples expériences) ⇒ données multivariées (pour chaque gène, l’expression dans 4 conditions expérimentales). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
  • 37. Classification à partir de données multiples : KCCA [Yamanishi et al., 2003] Les données : KEGC/LIGAND database (données des composants et réactions dans les voies métaboliques) ⇒ graphe dont les sommets sont les gènes d’un organisme et deux sommets sont liés si les gènes catalysent deux réactions successives dans la même voie. KEGC/BRITE database (données de positions des gènes) ⇒ graphe dont les sommets sont des gènes et deux sommets sont liés si les gènes sont voisins sur un même chromosome. ExpressDB (données d’expression de gènes de E. Coli dans de multiples expériences) ⇒ données multivariées (pour chaque gène, l’expression dans 4 conditions expérimentales). But : Comprendre comment ces données interagissent. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31
  • 38. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  • 39. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. Analyse canonique des corrélations pénalisée entre ces deux espaces (la pénalité est la norme des axes de projection dans l’espace noyau). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  • 40. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. Analyse canonique des corrélations pénalisée entre ces deux espaces (la pénalité est la norme des axes de projection dans l’espace noyau). 2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels. Analyse canonique des corrélations multiples pénalisée. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  • 41. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. Analyse canonique des corrélations pénalisée entre ces deux espaces (la pénalité est la norme des axes de projection dans l’espace noyau). 2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels. Analyse canonique des corrélations multiples pénalisée. Les “classes” sont les gènes ayant des composantes fortes sur un des axes (5% les plus fortes et 5% les moins fortes). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  • 42. Méthodologies 1 Un noyau pour le graphe issu des voies métaboliques (noyau de la chaleur) et la somme de deux noyaux pour le graphe issu des voisinages (noyau de la chaleur) et les données multivariées (noyau gaussien : K(u, v) = e−γ u−v 2 ) ⇒ deux espaces vectoriels. Analyse canonique des corrélations pénalisée entre ces deux espaces (la pénalité est la norme des axes de projection dans l’espace noyau). 2 Trois noyaux (un pour chaque donnée) ⇒ trois espaces vectoriels. Analyse canonique des corrélations multiples pénalisée. Les “classes” sont les gènes ayant des composantes fortes sur un des axes (5% les plus fortes et 5% les moins fortes). Résultats : Certains groupes de gènes sont de meilleurs candidats opérons que ceux fournis par “Operon Data Library” (4 consécutifs sur une même voie plutôt que 3 avec un “trou” au milieu). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31
  • 43. Discrimination pénalisée par la structure du graphe Les données : 100 gènes choisis aléatoirement dans la base de données Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec la moitié de la base de données) & données multivariées (expression des gènes : les gènes sont ici les variables). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
  • 44. Discrimination pénalisée par la structure du graphe Les données : 100 gènes choisis aléatoirement dans la base de données Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec la moitié de la base de données) & données multivariées (expression des gènes : les gènes sont ici les variables). But : Combiner l’information de l’expression et l’information donnée par le graphe pour discriminer les observations issues de tissus cancéreux et de tissus normaux (cancer du colon). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
  • 45. Discrimination pénalisée par la structure du graphe Les données : 100 gènes choisis aléatoirement dans la base de données Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec la moitié de la base de données) & données multivariées (expression des gènes : les gènes sont ici les variables). But : Combiner l’information de l’expression et l’information donnée par le graphe pour discriminer les observations issues de tissus cancéreux et de tissus normaux (cancer du colon). Méthodologie : Analyse discriminante pénalisée par la norme induite par le Laplacien. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
  • 46. Discrimination pénalisée par la structure du graphe Les données : 100 gènes choisis aléatoirement dans la base de données Alon ⇒ (par régression PLS) graphe des dépendances entre gènes (avec la moitié de la base de données) & données multivariées (expression des gènes : les gènes sont ici les variables). But : Combiner l’information de l’expression et l’information donnée par le graphe pour discriminer les observations issues de tissus cancéreux et de tissus normaux (cancer du colon). Méthodologie : Analyse discriminante pénalisée par la norme induite par le Laplacien. Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 % contre 4,5 % pour un SVM sur les données multivariées. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31
  • 47. Markov Clustering (MCL) Références : van Dongen, S. (2000) Graph clustering by flow simulation. PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, The Nederlands. Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficient algorithm for large-scale detection of protein families. Nucleic Acids Research, 30(7), p1575-1584. Brohée, S. and van Helden, J. (2006) Evaluation of clustering algorithms for protein-protein interaction networks. BMC Bioinformatics, 7(488). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31
  • 48. Markov Clustering (MCL) Références : van Dongen, S. (2000) Graph clustering by flow simulation. PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, The Nederlands. Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficient algorithm for large-scale detection of protein families. Nucleic Acids Research, 30(7), p1575-1584. Brohée, S. and van Helden, J. (2006) Evaluation of clustering algorithms for protein-protein interaction networks. BMC Bioinformatics, 7(488). Selon [Fortunato, 2009], “the MCL is one of the most used clustering algorithms in bioinformatics”. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31
  • 49. Relation entre noyau de la chaleur, marche aléatoire et markov clustering Remarque introductive sur noyau de la chaleur et marche aléatoire : Si Z0 = (1 1 1 . . . 1 1)T est le score « d’énergie » dans chaque sommet du graphe et si cette énergie est diffusée le long des arêtes du graphe selon une petite fraction sur chaque arête et à chaque pas de temps. Alors, au bout de n pas de temps, le score dans les sommets du graphe s’écrit : Zn = (1 + L)n Z0 BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31
  • 50. Relation entre noyau de la chaleur, marche aléatoire et markov clustering Remarque introductive sur noyau de la chaleur et marche aléatoire : Si Z0 = (1 1 1 . . . 1 1)T est le score « d’énergie » dans chaque sommet du graphe et si cette énergie est diffusée le long des arêtes du graphe selon une petite fraction sur chaque arête et à chaque pas de temps. Alors, au bout de n pas de temps, le score dans les sommets du graphe s’écrit : Zn = (1 + L)n Z0 Limites : Pas de temps : n → t/(∆t) et α → α∆t puis (∆t) → 0 (processus continu) ; alors, lim Zn = eαtL = kαt BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31
  • 51. Description de la méthode MCL [van Dongen, 2000] Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0 dans la diagonale), on définit P : Pij = Aij/di qui donne la probabilité d’arriver en j en partant de i en un pas aléatoire sur le graphe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31
  • 52. Description de la méthode MCL [van Dongen, 2000] Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0 dans la diagonale), on définit P : Pij = Aij/di qui donne la probabilité d’arriver en j en partant de i en un pas aléatoire sur le graphe. Expansion : P ← P2 (P p ij donne la probabilité, avec une marche aléatoire de p pas d’arriver en j à partir de i) ⇒ phase de marche aléatoire ; Inflation : Pij ← Pα ij (pas d’interprétation physique) c’est une phase de normalisation qui correspond à une augmentation de la longueur des chemins (amplifier la préférence pour les couples de sommets les plus facilement joignables). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31
  • 53. Discussion sur MCL Convergence (parfois ; assurée si le graphe est non orientée) vers une matrice doublement idempotent : c’est la matrice d’un graphe séparé en composantes disjointes ; chaque composante est organisé autour d’un ou plusieurs pôles attracteurs autour desquels les sommets sont organisés en étoile. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
  • 54. Discussion sur MCL Convergence (parfois ; assurée si le graphe est non orientée) vers une matrice doublement idempotent : c’est la matrice d’un graphe séparé en composantes disjointes ; chaque composante est organisé autour d’un ou plusieurs pôles attracteurs autour desquels les sommets sont organisés en étoile. Problème pratique : Méthode très sensible au paramètre d’inflation α qui conduit à la calibration du nombre de classes. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
  • 55. Discussion sur MCL Convergence (parfois ; assurée si le graphe est non orientée) vers une matrice doublement idempotent : c’est la matrice d’un graphe séparé en composantes disjointes ; chaque composante est organisé autour d’un ou plusieurs pôles attracteurs autour desquels les sommets sont organisés en étoile. Problème pratique : Méthode très sensible au paramètre d’inflation α qui conduit à la calibration du nombre de classes. Application [Enright et al., 2002] : sommets = protéines ; arêtes = similarité entre protéines selon BLAST (bases de données InterPro et SCOP). Comparaison avec les familles de protéines données dans les bases de données. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
  • 56. Discussion sur MCL Convergence (parfois ; assurée si le graphe est non orientée) vers une matrice doublement idempotent : c’est la matrice d’un graphe séparé en composantes disjointes ; chaque composante est organisé autour d’un ou plusieurs pôles attracteurs autour desquels les sommets sont organisés en étoile. Problème pratique : Méthode très sensible au paramètre d’inflation α qui conduit à la calibration du nombre de classes. Application [Enright et al., 2002] : sommets = protéines ; arêtes = similarité entre protéines selon BLAST (bases de données InterPro et SCOP). Comparaison avec les familles de protéines données dans les bases de données. ⇒ environ 80 % de consensus avec les bases de données existantes. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31
  • 57. Comparaisons de MCL avec d’autres approches [Brohée and van Helden, 2006] Brève présentation des approches comparées : MCL Restricted Neighborhood Search Clustering (RNSC) : algorithme local basé sur l’optimisation d’une fonction de coût (nombre d’arêtes inter et intra classes) ; Super Paramagnetic Clustering (SPC) : algorithme hiérarchique basé sur des propriétés physiques des modèles ferromagnétiques ; Molecular Complex Detection (MCODE) : recherche locale par aggrégation de régions de forte densité. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 25 / 31
  • 58. Méthodologie de comparaison Deux jeux de données sont utilisés : 1 Collection de complexes protéiniques (MIPS) : Un graphe est construit avec : sommets = protéines ; arêtes = appartenance au même complexe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
  • 59. Méthodologie de comparaison Deux jeux de données sont utilisés : 1 Collection de complexes protéiniques (MIPS) : Un graphe est construit avec : sommets = protéines ; arêtes = appartenance au même complexe. Puis altération du graphe initial (trop simple) par ajout et délétion aléatoire d’arêtes. But : Retrouver les complexes ! BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
  • 60. Méthodologie de comparaison Deux jeux de données sont utilisés : 1 Collection de complexes protéiniques (MIPS) : Un graphe est construit avec : sommets = protéines ; arêtes = appartenance au même complexe. Puis altération du graphe initial (trop simple) par ajout et délétion aléatoire d’arêtes. But : Retrouver les complexes ! 2 Graphe d’interactions de protéines (GRID) (levure yeast saccharomyces) : 6 jeux de données d’interactions de protéines dans la levure obtenus par double hybridation (2), spectrométrie de masse (4) ⇒ 6 graphes sur lesquels les algorithmes sont appliqués. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
  • 61. Méthodologie de comparaison Deux jeux de données sont utilisés : 1 Collection de complexes protéiniques (MIPS) : Un graphe est construit avec : sommets = protéines ; arêtes = appartenance au même complexe. Puis altération du graphe initial (trop simple) par ajout et délétion aléatoire d’arêtes. But : Retrouver les complexes ! 2 Graphe d’interactions de protéines (GRID) (levure yeast saccharomyces) : 6 jeux de données d’interactions de protéines dans la levure obtenus par double hybridation (2), spectrométrie de masse (4) ⇒ 6 graphes sur lesquels les algorithmes sont appliqués. Validation : Retrouver les complexes cités dans MIPS. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31
  • 62. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  • 63. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; Prédiction positive du point de vue de la classe : % maximum, pour une classe donnée, de représentation d’un complexe. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  • 64. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; Prédiction positive du point de vue de la classe : % maximum, pour une classe donnée, de représentation d’un complexe. Les moyennes, respectivement sur tous les complexes et toutes les classes. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  • 65. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; Prédiction positive du point de vue de la classe : % maximum, pour une classe donnée, de représentation d’un complexe. Les moyennes, respectivement sur tous les complexes et toutes les classes. Remarque importante : Lorsque le nombre de classes diminue, la sensibilité augmente (elle vaut 1 pour une seule classe) et la prédiction positive diminue (elle vaut 1 pour un nombre de classes égal au nombre de protéines classées). BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  • 66. Évaluation de la qualité Sensibilité du point du vue du complexe : couverture du complexe par la meilleur classe (ie : % maximum du complexe retrouvé dans les classes) ; Prédiction positive du point de vue de la classe : % maximum, pour une classe donnée, de représentation d’un complexe. Les moyennes, respectivement sur tous les complexes et toutes les classes. Remarque importante : Lorsque le nombre de classes diminue, la sensibilité augmente (elle vaut 1 pour une seule classe) et la prédiction positive diminue (elle vaut 1 pour un nombre de classes égal au nombre de protéines classées). ⇒ Précision géométrique : Moyenne géométrique de la sensibilité et de la prédiction positive. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31
  • 67. Perspectives : données Interactions : Interactions de protéines issues de BioGRID BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
  • 68. Perspectives : données Interactions : Interactions de protéines issues de BioGRID Saccharomyces cerevisiae BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
  • 69. Perspectives : données Interactions : Interactions de protéines issues de BioGRID Informations : INTERACTOR_A : Unique ID for Interacting Partner A INTERACTOR_B : Unique ID for Interacting Partner B OFFICIAL_SYMBOL FOR A OFFICIAL_SYMBOL FOR B ALIASES_FOR_A : List of common names for geneA ALIASES_FOR_B : List of common names for geneB EXPERIMENTAL_SYSTEM : System in which the interaction was shown SOURCE : Author(s) of the interaction PUBMED_ID : PubMed ID of the paper, separated by ’ ;’ ORGANISM_A_ID : NCBI ID of Gene A Organism ORGANISM_B_ID : NCBI ID of Gene B Organism Exemple : YFL039C ; YBR243C ; ACT1 ; ALG7 ; ABY1|END7 ; TUR1 ; Synthetic Lethality ; Davierwala AP (2005) ; 16155567 ; 4932 ; 4932 BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31
  • 70. Quelques statistiques élémentaires sur le jeu de données Nombre de données : 42 254 observations acquises sur R sur 230 370 lignes (saturation de la mémoire...) : protéines ? gènes ? BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
  • 71. Quelques statistiques élémentaires sur le jeu de données Nombre de données : 42 254 observations acquises sur R sur 230 370 lignes (saturation de la mémoire...) : protéines ? gènes ? Sur ces observations acquises : “Experimental system” : Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ; Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ; Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
  • 72. Quelques statistiques élémentaires sur le jeu de données Nombre de données : 42 254 observations acquises sur R sur 230 370 lignes (saturation de la mémoire...) : protéines ? gènes ? Sur ces observations acquises : “Experimental system” : Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ; Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ; Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121) Les sources : 3 759 publications (de 1 à 3 873 interactions par source ; 11,24 interactions en moyenne ; nombre médian d’interactions : 2) Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ? gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17 interactions, médiane de 9 interactions) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
  • 73. Quelques statistiques élémentaires sur le jeu de données Nombre de données : 42 254 observations acquises sur R sur 230 370 lignes (saturation de la mémoire...) : protéines ? gènes ? Sur ces observations acquises : “Experimental system” : Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ; Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ; Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121) Les sources : 3 759 publications (de 1 à 3 873 interactions par source ; 11,24 interactions en moyenne ; nombre médian d’interactions : 2) Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ? gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17 interactions, médiane de 9 interactions) Quel réseau à partir de ces données ? BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31
  • 74. Autres sources d’interactomes DIP database of interacting proteins EMBL-EBI Interact BIND Biomolecular interaction network database MIPS Mammalian protein-protein interaction database (ndlr : beaucoup plus petite) GRID general repository for interaction datasets . . . (j’en ai recensé plus de 25 !) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 30 / 31
  • 75. Validation ? Validation biologique : données de référence Pas trouvé la BD MIPS sur les complexes... Il existe d’autres bases de complexes de protéines (3D Complex.org ; Yeast Complex Web ∼ environ 500 complexes ...) Package R, apComplex contenant les données de : Ho, et al. Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry. Nature 415, 180-183 (2002)., Krogan, et al. High-Definition Macromolecular Composition of Yeast RNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30 January 2004. GO ? ? ? FunCat ? ? ? Autres idées ? BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
  • 76. Validation ? Validation biologique : données de référence Pas trouvé la BD MIPS sur les complexes... Il existe d’autres bases de complexes de protéines (3D Complex.org ; Yeast Complex Web ∼ environ 500 complexes ...) Package R, apComplex contenant les données de : Ho, et al. Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry. Nature 415, 180-183 (2002)., Krogan, et al. High-Definition Macromolecular Composition of Yeast RNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30 January 2004. GO ? ? ? FunCat ? ? ? Autres idées ? Validation : mesures : mesures de consensus entre une classification de référence et la classification trouvée (biologique) ; mesures de qualité de la classification par rapport à la structure (statistique) BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
  • 77. Brohée, S. and van Helden, J. (2006). Evaluation of clustering algorithms for protein-protein interaction networks. BMC Bioinformatics, 7(488). Enright, A., Van Dongen, S., and Ouzounis, C. (2002). An efficient algorithm for large-scale detection of protein families. Nucleic Acids Research, 30(7) :1575–1584. Fortunato, S. (2009). Community detection in graphs. Submitted for publication. Available at http://arxiv.org/abs/0906.0612. Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007). Random-walk computation of similarities between nodes of a graph, with application to collaborative recommendation. IEEE Transactions on Knowledge and Data Engineering, 19(3) :355–369. Guillemot, V., Le Brusquet, L., Tenenhaus, A., and Frouin, V. (2008). Graph-constrained discriminant analysis of functional genomics data. In In proceedings of IEEE International Conference on Bioinformatics and Biomedecine Workshops, Philadelphia, USA. Kondor, R. and Lafferty, J. (2002). Diffusion kernels on graphs and other discrete structures. In Proceedings of the 19th International Conference on Machine Learning, pages 315–322. van Dongen, S. (2000). Graph clustering by flow simulation. PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, The Nederlands. von Luxburg, U. (2007). A tutorial on spectral clustering. Statistics and Computing, 17(4) :395–416. Yamanishi, Y., Vert, J., Nakaya, A., and Kanehisa, M. (2003). Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31
  • 78. Bioinformatics, 19 :323i–330i. BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31