Compte-rendu bibliographique sur les réseaux biologiques

Compte-rendu bibliographique sur les réseaux
biologiques
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
6 novembre 2009
BioPuces (06/11/09) Nathalie Villa Biblio. réseaux biologiques 1 / 25

Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe

Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
• non supervisée • Recherche de motifs
• semi supervisée • Classiﬁcation de sommets

Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...

Sommets (ou nœuds) / en anglais : vertices, nodes

Sommets
Arêtes / en anglais : edges

3
5
7
6,15
4,35
2
4
3.4
Sommets
Arêtes
éventuellement pondérées

Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)

Notations
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V

Notations
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E

Notations
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

Sommaire
1 Inférence de graphes
2 Analyse de graphes
Structure et recherche de motifs
Recherche de modules : classiﬁcation des sommets

Sommaire

Références
1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to
inferring large-scale gene association networks. Bioinformatics, 21(6),
pp 754-764.
2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised
enzyme network inference from the integration of genomic data and
chemical information. Bioinformatics, 21(Supp. 1), i468-i477.
3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of
multiple biological data for supervised network inference.
Bioinformatics, 21(10), 2488-2495.
4 Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.
(2007) Inferring biological networks with output kernel trees. BMC
Bioinformatics, 8(Supp. 2).

Sommaire

Un élément important de la structure d’un graphe : la
distribution des degrés
Déﬁnition
On appelle degré du sommet xi le nombre di = j i wij.

Déﬁnition
Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi.

Déﬁnition
Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi.
Dans de nombreux réseaux réels (sociaux, biologiques ...), la distribution
des degrés suit une loi de puissance (graphes sans échelle typique) :
voir [Dorogovtsev and Mendes, 2003].

Conséquences concrètes
Les graphes en loi de puissances contiennent quelques sommets
dont le degré est très fort par rapport aux degrés des autres
sommets : ce sont, par exemple, des protéines qui interagissent avec
beaucoup d’autres protéines (réseaux d’interactions de protéines).

beaucoup d’autres protéines (réseaux d’interactions de protéines). En
biologie, on les appelle hubs.

Sur les réseaux de taille moyenne (quelques centaines de sommets),
on observe plus fréquemment une loi de puissance tronquée (TPL) :
c’est un simple effet de taille mais l’interprétation est conservée.

Sur les réseaux de taille moyenne (quelques centaines de sommets),
on observe plus fréquemment une loi de puissance tronquée (TPL) :
c’est un simple effet de taille mais l’interprétation est conservée.
Ces phénomènes sont très loin de graphes dans lesquels les arêtes
seraient réparties aléatoirement avec la même probabilité : ceci
donne lieu à des lois binomiales pour la distribution des degrés : il
n’existe pas de “hubs” dans ces graphes.

Conséquence de la loi de puissance sur la résistance
aux dommages
[Dorogovtsev and Mendes, 2003]
Les réseaux dont la distribution des degrés est en loi de
puissance sont résistants aux dommages qui affectent
aléatoirement leurs sommets (la structure macroscopique du
réseau est conservée malgré un fort taux de destruction de
sommets).

Conséquence de la loi de puissance sur la résistance
aux dommages
[Dorogovtsev and Mendes, 2003]
Les réseaux dont la distribution des degrés est en loi de
puissance sont résistants aux dommages qui affectent
aléatoirement leurs sommets (la structure macroscopique du
réseau est conservée malgré un fort taux de destruction de
sommets).
À l’inverse, les destructions qui affectent préférentiellement les
hubs endommagent rapidement la structure du réseau.

Graphes aléatoires
Pour repérer des phénomènes exceptionnels dans les réseaux réels
étudiés (par exemple, la fréquence de certains motifs), il est courant de
comparer le graphe réel à des modèles de graphes aléatoires.

Graphes aléatoires
Quelques exemples courants de graphes aléatoires :
1 [Erdõs and Rényi, 1959] : n sommets (ﬁxés) ; la probabilité d’une
arête entre deux sommets est p pour toutes les paires.
Loi binomiale pour les degrés ;
Modèle simple mais pas réaliste.
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q

Graphes aléatoires
2 [Albert and Barabási, 2002] : Modèle d’attachement préférentiel.
Les sommets sont ajoutés un à un et reliés aléatoirement aux
sommets préexistants avec une probabilité plus forte pour les
sommets à forts degrés.
Loi de puissance : P(D ≥ k) ∼ k−3
.

Graphes aléatoires
2 [Albert and Barabási, 2002] : Modèle d’attachement préférentiel.
Les sommets sont ajoutés un à un et reliés aléatoirement aux
sommets préexistants avec une probabilité plus forte pour les
sommets à forts degrés.
3 [Molloy and Reed, 1995] : Modèle dans lequel la loi des degrés est
choisie à l’avance : on génère les degrés de chaque sommet selon
cette loi puis on apparie les sommets deux à deux aléatoirement en
respectant les degrés générés.

Recherche de motifs dans le réseau de régulation
transcriptionnelle de Escherichia Coli
Référence : Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002)
Network motifs in the transcriptional regulation network of Escherichia
Coli. Nature genetics, 31, 64-68.

Description des données : Réseau de régulation transcriptionnelle
modélisé par un graphe orienté dont
les sommets sont des opérons (groupes de gènes contigus qui sont
transcrit en ARNm simple) ;

les arêtes sont des interactions directes dans la transcription :
l’opérons i régule l’opérons j est modélisé par une arête du sommet i
vers le sommet j.

les arêtes sont des interactions directes dans la transcription :
l’opérons i régule l’opérons j est modélisé par une arête du sommet i
vers le sommet j.
Le réseau initial est composé de 377 interactions pour 424 opérons avec
116 facteurs de transcription. Une recherche bibliographique intensive a
permis d’ajouter 35 facteurs d’interactions.

But et méthodologie
But : Mettre en valeur des motifs exceptionnellement présents dans le
réseau.

réseau.
Méthodologie : On simule 1000 réseaux aléatoires ayant :
même nombre d’opérons (sommets) ;
même nombre d’interactions (arêtes) ;
mêmes degrés (entrant et sortant) des sommets ;
puis on compare la fréquence d’apparition d’un motif donné dans la réalité
et sur les 1000 graphes aléatoires.

réseau.
Méthodologie : On simule 1000 réseaux aléatoires ayant :
même nombre d’opérons (sommets) ;
même nombre d’interactions (arêtes) ;
mêmes degrés (entrant et sortant) des sommets ;
puis on compare la fréquence d’apparition d’un motif donné dans la réalité
et sur les 1000 graphes aléatoires.
Si un motif apparaît bien plus souvent dans le graphe réel qu’en moyenne
sur les 1000 graphes aléatoires, c’est qu’il a une signiﬁcation biologique
(car il n’est pas le simple fait du hasard...).

Motifs étudiés
1 Feedforward loop (boucle)
A B C
A régule B qui régule C et A régule directement C.

Motifs étudiés
A B C
A régule B qui régule C et A régule directement C. La boucle est dite
cohérente si l’effet direct de A sur C est dans le même sens que
l’effet indirect de A sur C. Sinon, la boucle est dite incohérente.

Motifs étudiés
2 SIM (groupe à entrée unique)
X
Z1 Z2 Z3 Zn
...
X régule un groupe de n (grand) opérons qui ne sont régulés que par
X ; X est souvent auto-régulé.

Motifs étudiés
3 Paires d’opérons régulés par la même paire d’opérons

Motifs étudiés
3 Paires d’opérons régulés par la même paire d’opérons
4 DOR (régulations denses se chevauchant)
X1 X2 Xm
Z1 Z2 Z3 Zn
......
Groupes d’opérons régulés par un même groupe d’opérons dans
lequel le nombre d’arêtes est bien plus grand que dans un graphe
aléatoire de mêmes caractéristiques.

Signiﬁcativité de l’apparition des motifs
Motif Nombre d’apparitions p-value
Boucles cohérentes 34 < 0.001
Boucles incohérentes 6 ∼ 0.03
SIM (> 13 opérons) 68 < 0.01
Paires régulées par des paires 203 < 0.001
DOR NC < 0.001

Représentation schématique

Synthèse de quelques propriétés de structure des
réseaux biologiques
Référence : Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005)
Network thinking in ecology and evolution. Trends in Ecology and
Evolution, 20(6), 345-353.

Quelques faits connus sur les réseaux d’interactions
de protéines
Beaucoup des motifs locaux existent depuis très longtemps
(persistance).
Les hubs sont plus fréquemment des protéines essentielles pour la
survie.
Les hubs sont plus fréquemment des protéines pléiotropes (plusieurs
fonctions ?).
Les hubs ont moins disparu au cours de l’évolution.
Les hubs sont faiblement connectés entre eux.

Quelques faits connus sur les voies métaboliques
Elles sont très résistantes aux dommages.

Quelques faits connus sur les réseaux de régulation
de gènes
Ils contiennent beaucoup de petits motifs locaux.
Ils sont robustes aux dommages (mutations, par exemples).
Les gènes régulés par beaucoup de gènes sont plus variables dans
leurs niveaux d’expression selon les conditions environnementales.

Remise en cause des conclusions portées sur les
réseaux biologiques
Référence : Siegal M., Promislow D.E.L. and Bergman A. (2007)
Functional and evolutionary inference in gene networks : does topology
matter ? Genetica, 129, 83-103.

Motifs, distribution des degrés
Les motifs n’ont pas la même signiﬁcation selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :

Motifs, distribution des degrés
Les motifs n’ont pas la même signiﬁcation selon qu’on les considère
dans leur version orientée ou non orientée. Par exemple :
La distribution des degrés est rarement en loi de puissance mais en
loi de puissance tronquée (ndlr : effet de taille car on ne peut
observer une “vraie” loi de puissance sur un petit graphe).

Hubs
Ce que l’on pense : Les hubs sont mortels si supprimés (la
proportion de protéines essentielles est 3 fois plus forte dans les hubs
et, inversement, les protéines essentielles ont un degré moyen plus
grand que les protéines non essentielles).

Hubs
Mais : Si on regarde la variabilité de l’expression des gènes lorsqu’un
gène est supprimé, la corrélation est très faible entre le degré du
gène supprimé et la variabilité.
Et : Le degré explique seulement 1% de la variance dans le taux
d’évolution d’une protéine.

Hubs
Mais : Si on regarde la variabilité de l’expression des gènes lorsqu’un
gène est supprimé, la corrélation est très faible entre le degré du
gène supprimé et la variabilité.
Et : Le degré explique seulement 1% de la variance dans le taux
d’évolution d’une protéine.
L’article contient aussi des expériences faites sur des modèles de réseaux
d’interactions : non rapporté ici car loin de la réalité.

Recherche de modules, classiﬁcation de sommets
À SUIVRE...

Albert, R. and Barabási, A. (2002).
Statistical mechanics of complex networks.
Reviews of Modern Physics, 74 :47–97.
Dorogovtsev, S. and Mendes, J. (2003).
Evolution of Networks. From biological Nets to the Internet and WWW.
Oxford University Press.
Erdõs, P. and Rényi, A. (1959).
On random graphs. i.
Publicationes Mathematicae, 6 :290–297.
Molloy, M. and Reed, B. (1995).
A critical point for random graphs with a given degree sequence.
Random Structures and Algorithms, 6 :161–180.

Compte-rendu bibliographique sur les réseaux biologiques

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à Compte-rendu bibliographique sur les réseaux biologiques

Similaire à Compte-rendu bibliographique sur les réseaux biologiques (14)

Plus de tuxette

Plus de tuxette (20)

Compte-rendu bibliographique sur les réseaux biologiques