Définition et analyse de graphes d’interactions de gènes pour la qualité de la viande de porc
1. Définition et analyse de graphes
d’interactions de gènes pour la qualité de
la viande de porc
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Groupe de travail BioPuces, INRA de Castanet
25 Juin 2010
1 / 23
Nathalie Villa-Vialaneix
2. Présentation générale
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse du graphe d’interactions des gènes régulés par un
eQTL ou différentiellement exprimés pour le PH et
comparaison
2 / 23
Nathalie Villa-Vialaneix
3. Les données
Sommaire
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse du graphe d’interactions des gènes régulés par un
eQTL ou différentiellement exprimés pour le PH et
comparaison
3 / 23
Nathalie Villa-Vialaneix
4. Les données
Production d’animaux F2 avec des fac-
teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus
(dont longissimus dorsi)
Mesures phénotypiques (30)
(force de cisaillement, PH ...)
4 / 23
Nathalie Villa-Vialaneix
5. Les données
Production d’animaux F2 avec des fac-
teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus
(dont longissimus dorsi)
Mesures phénotypiques (30)
(force de cisaillement, PH ...)
Données retenues : Une famille de 57 individus F2 (plus forte
variabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.
4 / 23
Nathalie Villa-Vialaneix
6. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
5 / 23
Nathalie Villa-Vialaneix
7. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
2 Une nomenclature par défaut pour les gènes (non validée
précisément) a été définie sur la base de plusieurs types
d’annotations, en plus de la référence au spot ;
5 / 23
Nathalie Villa-Vialaneix
8. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
2 Une nomenclature par défaut pour les gènes (non validée
précisément) a été définie sur la base de plusieurs types
d’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sont
réputés régulés par un eQTL ;
5 / 23
Nathalie Villa-Vialaneix
9. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
2 Une nomenclature par défaut pour les gènes (non validée
précisément) a été définie sur la base de plusieurs types
d’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sont
réputés régulés par un eQTL ;
4 Les gènes différentiellement exprimés pour le PH ont été extraits
: 23 gènes sont réuputés différentiellement exprimés pour le PH.
5 / 23
Nathalie Villa-Vialaneix
10. Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantes
complétées ;
2 Une nomenclature par défaut pour les gènes (non validée
précisément) a été définie sur la base de plusieurs types
d’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sont
réputés régulés par un eQTL ;
4 Les gènes différentiellement exprimés pour le PH ont été extraits
: 23 gènes sont réuputés différentiellement exprimés pour le PH.
Remarque : 2 gènes différentiellement exprimés pour le PH sont
régulés par un eQTL ; il s’agit de D04-D07 (BX671434) et de
N01-C04 (ZRANB1).
5 / 23
Nathalie Villa-Vialaneix
11. Principe général de construction d’un graphe d’interactions
Sommaire
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse du graphe d’interactions des gènes régulés par un
eQTL ou différentiellement exprimés pour le PH et
comparaison
6 / 23
Nathalie Villa-Vialaneix
12. Principe général de construction d’un graphe d’interactions
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dans
une ou plusieurs fonctions biologiques.
7 / 23
Nathalie Villa-Vialaneix
13. Principe général de construction d’un graphe d’interactions
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dans
une ou plusieurs fonctions biologiques.
Que modélise un réseau de gènes ?
Sommets : Gènes
Arêtes : Corrélation forte dans
l’expression des deux gènes
7 / 23
Nathalie Villa-Vialaneix
14. Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
8 / 23
Nathalie Villa-Vialaneix
15. Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X, est issue d’une
distribution N(µ, Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,
πij = Cor(Xi
, Xj
|(Xk
)k i,j) ;
8 / 23
Nathalie Villa-Vialaneix
16. Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X, est issue d’une
distribution N(µ, Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,
πij = Cor(Xi
, Xj
|(Xk
)k i,j) ;
Sous H, πij =
−wij
√
wii wjj
avec Σ−1
= (wij)i,j.
8 / 23
Nathalie Villa-Vialaneix
17. Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènes
peut être perturbé par des relations communes indirectes qui ne
sont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X, est issue d’une
distribution N(µ, Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,
πij = Cor(Xi
, Xj
|(Xk
)k i,j) ;
Sous H, πij =
−wij
√
wii wjj
avec Σ−1
= (wij)i,j.
Problème important : Estimation et inversion de Σ !
8 / 23
Nathalie Villa-Vialaneix
18. Principe général de construction d’un graphe d’interactions
Estimation des corrélations partielles
[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R
“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗
dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, ˆΣb∗
;
3 Calculer le pseudo-inverse de ˆΣb∗
, ˆWb∗
puis ˆΠb∗
;
9 / 23
Nathalie Villa-Vialaneix
19. Principe général de construction d’un graphe d’interactions
Estimation des corrélations partielles
[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R
“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗
dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, ˆΣb∗
;
3 Calculer le pseudo-inverse de ˆΣb∗
, ˆWb∗
puis ˆΠb∗
;
Estimer Π par la moyenne des ˆΠb∗
.
9 / 23
Nathalie Villa-Vialaneix
20. Principe général de construction d’un graphe d’interactions
Estimation des corrélations partielles
[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R
“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗
dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, ˆΣb∗
;
3 Calculer le pseudo-inverse de ˆΣb∗
, ˆWb∗
puis ˆΠb∗
;
Estimer Π par la moyenne des ˆΠb∗
.
Combien d’observations pour estimer correctement Π ?
9 / 23
Nathalie Villa-Vialaneix
21. Principe général de construction d’un graphe d’interactions
Mise en œuvre de la méthode
La méthode a été mise en œuvre pour définir trois graphes :
graphe d’interactions des gènes régulés par un eQTL (272
sommets) ;
graphe d’interactions des gènes différentiellement exprimés pour le
PH (23 sommets) ;
graphe d’interactions des gènes régulés par un eQTL ou
différentiellement exprimés pour le PH (293 sommets).
10 / 23
Nathalie Villa-Vialaneix
22. Principe général de construction d’un graphe d’interactions
Mise en œuvre de la méthode
La méthode a été mise en œuvre pour définir trois graphes :
graphe d’interactions des gènes régulés par un eQTL (272
sommets) ;
graphe d’interactions des gènes différentiellement exprimés pour le
PH (23 sommets) ;
graphe d’interactions des gènes régulés par un eQTL ou
différentiellement exprimés pour le PH (293 sommets).
Une procédure de bootstrap (4 000 répétitions d’échantillons
bootstrap de 20 cochons) a été programmée pour estimer les
corrélations partielles (fonction ggm.estimate du package
GeneNet).
10 / 23
Nathalie Villa-Vialaneix
23. Principe général de construction d’un graphe d’interactions
Mise en œuvre de la méthode
La méthode a été mise en œuvre pour définir trois graphes :
graphe d’interactions des gènes régulés par un eQTL (272
sommets) ;
graphe d’interactions des gènes différentiellement exprimés pour le
PH (23 sommets) ;
graphe d’interactions des gènes régulés par un eQTL ou
différentiellement exprimés pour le PH (293 sommets).
Une procédure de bootstrap (4 000 répétitions d’échantillons
bootstrap de 20 cochons) a été programmée pour estimer les
corrélations partielles (fonction ggm.estimate du package
GeneNet).
Un graphe d’interactions est construit dans lequel les arêtes sont
les corrélations partielles significatives (test de significativité de
la fonction ggm.test.edges, basé sur une approche bayésienne).
10 / 23
Nathalie Villa-Vialaneix
24. Analyse du graphe d’interactions des gènes régulés par un eQTL
Sommaire
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse du graphe d’interactions des gènes régulés par un
eQTL ou différentiellement exprimés pour le PH et
comparaison
11 / 23
Nathalie Villa-Vialaneix
26. Analyse du graphe d’interactions des gènes régulés par un eQTL
Analyse des degrés des sommets
Degré d’un sommet : Nombre d’arêtes afférentes au sommet.
Histogramme des degrés
Degrés
Frequency
5 10 15 20 25 30
010203040
13 / 23
Nathalie Villa-Vialaneix
28. Analyse du graphe d’interactions des gènes régulés par un eQTL
Analyse des indices de centralité
Centralité d’un sommet : Nombre de plus courts chemins entre
deux sommets du graphe passant par le sommet d’intérêt ⇒
Mesure de l’importance du sommet dans la connectivité du
graphe.
Indices de centralité des degrés
q
q
qq
qqqqq
qqqqqqqqqqqqq
qqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
0 50 100 150 200 250
0100200300400500
Rang
Indicedecentralité
14 / 23
Nathalie Villa-Vialaneix
30. Analyse du graphe d’interactions des gènes régulés par un eQTL
Comparaison entre les deux listes
8 gènes sont en commun dans les deux listes :
BX921641 ; FTH1 ; TRIAP1 ; SLC9A14 ; GPI ; SUZ12 ; MGP ;
PRDX4
Reconnaissez-vous des amis ?
15 / 23
Nathalie Villa-Vialaneix
31. Analyse du graphe d’interactions des gènes régulés par un eQTL
Principe de la classification de sommets
But : Faire des groupes de sommets fortement connectés entre
eux et faiblement connectés aux autres.
16 / 23
Nathalie Villa-Vialaneix
32. Analyse du graphe d’interactions des gènes régulés par un eQTL
Principe de la classification de sommets
But : Faire des groupes de sommets fortement connectés entre
eux et faiblement connectés aux autres.
Méthode utilisée : Suite au travail d’Adrien, optimisation de la
modularité par un algorithme de recuit simulé (comme dans
[Villa et al., 2010]) car :
la modularité est une mesure de la densité des classes qui tient
compte du degré des sommets : il est moins exceptionnel d’être
lié à un hub qu’à un sommet de faible degré donc le coût de
“couper” une arête connecté à un hub doit être plus faible.
l’algorithme de recuit simulé est très facile à mettre en œuvre
même si il peut être long. Il est bien adapté à des graphes de cette
taille.
16 / 23
Nathalie Villa-Vialaneix
33. Analyse du graphe d’interactions des gènes régulés par un eQTL
Méthodologie et résultats
Plusieurs nombres de classes (de 4 à 12) ont été testées et la
solution avec plus forte modularité a été conservée.
Répartition du nombre de sommets dans les classes
Numéro de classe 1 2 3 4 5 6 7
Nombre de sommets 33 44 58 28 41 28 40
modularité = 0,395
17 / 23
Nathalie Villa-Vialaneix
37. Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Sommaire
1 Les données
2 Principe général de construction d’un graphe
d’interactions
3 Analyse du graphe d’interactions des gènes régulés par un
eQTL
Analyse descriptive
Classification des sommets
4 Analyse du graphe d’interactions des gènes régulés par un
eQTL ou différentiellement exprimés pour le PH et
comparaison
18 / 23
Nathalie Villa-Vialaneix
39. Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Analyse des degrés et de la centralité
Deux gènes en commun parmi les gènes de plus forts degrés
du premier graphe : TPM3 et TFH1 (ce dernier avait un fort indice
de centralité aussi) ;
20 / 23
Nathalie Villa-Vialaneix
40. Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Analyse des degrés et de la centralité
Deux gènes en commun parmi les gènes de plus forts degrés
du premier graphe : TPM3 et TFH1 (ce dernier avait un fort indice
de centralité aussi) ;
Un seul gène en commun parmi les gènes à plus fort indice de
centralité par rapport au premier graphe : SUZ12 (qui était aussi à
plus fort degré) ;
20 / 23
Nathalie Villa-Vialaneix
41. Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Analyse des degrés et de la centralité
Deux gènes en commun parmi les gènes de plus forts degrés
du premier graphe : TPM3 et TFH1 (ce dernier avait un fort indice
de centralité aussi) ;
Un seul gène en commun parmi les gènes à plus fort indice de
centralité par rapport au premier graphe : SUZ12 (qui était aussi à
plus fort degré) ;
Un seul gène est à fort degré et fort indice de centralité dans ce
graphe : FIT1.
L’introduction des gènes fortement différentiel conduit à une
organisation complètement différente des interactions dans le
graphe.
20 / 23
Nathalie Villa-Vialaneix
42. Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Classification des sommets
Répartition du nombre de sommets dans les classes
Numéro de classe 1 2 3 4 5 6 7
Nombre de sommets 33 38 37 43 21 81 40
Classes plus déséquilibrées que dans le premier graphe.
modularité = 0,316
21 / 23
Nathalie Villa-Vialaneix
46. Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Classification des sommets
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
CCDC47
PABPC1
BX924513
CREB3L3
CXCL12
BX671434
TMEM14C
SLC16A3
BX926631
DDX3X
H3F3B
ODC1
CALM1
GNG10
HIAT1
ZRANB1
BX671472
IMMT
THYN1
CREM
BX922466
RRAD
PPP1R3C
HSP70.2
AKR1C4
PRKAG2
LOC733644
NOR−1
FOS
BX925205
BTG2
MAFB
HSPA1B
PPAP2A
BX671077
LOC595115
Ubc
37 nodes
240 edges
Density: 36%
Transitivity: 49.4%
La plupart des gènes différentiellement exprimés pour le PH sont
dans la même classe (sauf 2)
21 / 23
Nathalie Villa-Vialaneix
47. Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Comparaison entre les deux classifica-
tions
Classe (eQTL) 1 2 3 4 5 6 7
Classe (Tous)
1 1 4 9 5 5 3 5
2 3 9 8 2 2 4 9
3 2 3 3 0 5 1 5
4 7 7 5 6 8 5 4
5 1 3 7 3 1 2 4
6 11 12 17 10 13 8 10
7 8 6 9 2 7 5 3
Pourquoi la majorité des sommets de toutes les classes du
premier graphe se retrouvent dans la classe 6 du second graphe ?
22 / 23
Nathalie Villa-Vialaneix
48. Perspectives
Perspectives
Le sous-graphe 3 (de quel graphe ?) correspond à deux fonctions
biologiques : à redécouper ?
D’où viennent les différences entre les deux graphes ?
Est-il pertinent d’intégrer PH ou autres phénotypes comme sommet
du graphe ?
23 / 23
Nathalie Villa-Vialaneix
49. Perspectives
Perspectives
Le sous-graphe 3 (de quel graphe ?) correspond à deux fonctions
biologiques : à redécouper ?
D’où viennent les différences entre les deux graphes ?
Est-il pertinent d’intégrer PH ou autres phénotypes comme sommet
du graphe ?
Questions ? Commentaires ?
23 / 23
Nathalie Villa-Vialaneix
50. Schäfer, J. and Strimmer, K. (2005).
An empirical bayes approach to inferring large-scale gene association networks.
Bioinformatics, 21(6):754–764.
Villa, N., Dkaki, T., Gadat, S., Inglebert, J., and Truong, Q. (2010).
Community retrieval and visualization in large graphs.
SciWatch Journal, Hexalog.
To appear.
23 / 23
Nathalie Villa-Vialaneix