Fouille de données sur des graphes : Introduction
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
Toulouse School of...
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pourquoi la classification des sommets ?
Bio...
Introduction et vocabulaire
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pourquoi la cla...
Introduction et vocabulaire
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
...
Introduction et vocabulaire
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
...
Introduction et vocabulaire
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
...
Introduction et vocabulaire
Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
...
Introduction et vocabulaire
Notations
Dans la suite, on notera G un graphe
• de sommets V = {x1, . . . , xn} (et de taille...
Introduction et vocabulaire
Notations
Dans la suite, on notera G un graphe
• de sommets V = {x1, . . . , xn} (et de taille...
Introduction et vocabulaire
Notations
Dans la suite, on notera G un graphe
• de sommets V = {x1, . . . , xn} (et de taille...
Introduction et vocabulaire
Notations
Dans la suite, on notera G un graphe
• de sommets V = {x1, . . . , xn} (et de taille...
Introduction et vocabulaire
Quelques notions élémentaires : le degré
Définition
On appelle degré du sommet xi le nombre di ...
Introduction et vocabulaire
Quelques notions élémentaires : le degré
Définition
On appelle degré du sommet xi le nombre di ...
Introduction et vocabulaire
Quelques notions élémentaires : le degré
Définition
On appelle degré du sommet xi le nombre di ...
Introduction et vocabulaire
Quelques notions élémentaires : la densité
Définition
On appelle densité d’un graphe non pondér...
Introduction et vocabulaire
Quelques notions élémentaires : la densité
Définition
On appelle densité d’un graphe non pondér...
Introduction et vocabulaire
Quelques notions élémentaires : la densité
Définition
On appelle densité d’un graphe non pondér...
Dessiner un grand graphe
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pourquoi la classi...
Dessiner un grand graphe
Algorithmes de forces
Au delà de quelques dizaines de sommets, nécessité de penser à la
position ...
Dessiner un grand graphe
Algorithmes de forces
Au delà de quelques dizaines de sommets, nécessité de penser à la
position ...
Dessiner un grand graphe
Représentation simple
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
Dessiner un grand graphe
Pondération des arêtes
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
Dessiner un grand graphe
Étiquetage des sommets
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
Dessiner un grand graphe
Coloration des sommets
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
Dessiner un grand graphe
Coloration des sommets et des arêtes
BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 ...
Dessiner un grand graphe
Comment réaliser ces représentations ?
• Package igraph de R : pas mal de fonctionnalités mais po...
Dessiner un grand graphe
Comment réaliser ces représentations ?
• Package igraph de R : pas mal de fonctionnalités mais po...
Dessiner un grand graphe
Qu’est-ce qu’une bonne représentation ?
En général, un critère admis pour mesurer la qualité de l...
Dessiner un grand graphe
Qu’est-ce qu’une bonne représentation ?
En général, un critère admis pour mesurer la qualité de l...
Exemples
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pourquoi la classification des somm...
Exemples
Réseau social I : “Les misérables” (V. Hugo)
77 sommets, 254 arêtes, 1
2 ij wij = 820 (variant de 1 à 31, entre C...
Exemples
Réseau social II : Réseau de citations scientifiques
[Newman et al., 2006]
379 sommets, 914 arêtes, 1
2 ij wij = 4...
Exemples
Réseau social III : Réseau issu d’un grand corpus
médiéval [Boulet et al., 2008]
615 sommets, 4 193 arêtes, 1
2 i...
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• ...
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• ...
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• ...
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• ...
Exemples
Réseaux génétiques
Données :
• Expressions de gènes différentiellement exprimés chez le porc et
chez le bovin.
• ...
Exemples
Exemple de la différence entre les deux approches
Seuil = 0,2 Seuil = 0,65
BioPuces (24/04/09) Nathalie Villa Dat...
Exemples
Réseau de gènes Bovin différentiellement avec le Porc
(seuil 0,015)
460 sommets, 3 903 arêtes, 1
2 ij wij = 70, 3...
Exemples
Réseau de gènes Porc différentiellement avec le Bovin
(seuil 0,02)
390 sommets, 3 320 arêtes, 1
2 ij wij = 81, 6,...
Exemples
Réseau de gènes de petits follicules atritiques (seuil
0,013)
459 sommets, 6 478 arêtes, 1
2 ij wij = 105, 4, den...
Exemples
Réseau de gènes de petits follicules sains (seuil 0,013)
360 sommets, 4 401arêtes, 1
2 ij wij = 72, 1, densité : ...
Exemples
Réseau de gènes de gros follicules sains (seuil 0,015)
325 sommets, 3 526 arêtes, 1
2 ij wij = 66, 1, densité : 6...
Exemples
Problématique et questions
Premières conclusions :
• Les réseaux d’interaction n’ont pas de structure “petit mond...
Exemples
Problématique et questions
Premières conclusions :
• Les réseaux d’interaction n’ont pas de structure “petit mond...
Exemples
Problématique et questions
Premières conclusions :
• Les réseaux d’interaction n’ont pas de structure “petit mond...
Pourquoi la classification des sommets ?
Sommaire
1 Introduction et vocabulaire
2 Dessiner un grand graphe
3 Exemples
4 Pou...
Pourquoi la classification des sommets ?
Fournir une représentation schématique du graphe
Le but de la classification de som...
Pourquoi la classification des sommets ?
Fournir une représentation schématique du graphe
Le but de la classification de som...
Pourquoi la classification des sommets ?
Fournir une représentation schématique du graphe
Le but de la classification de som...
Pourquoi la classification des sommets ?
Comment mesurer la qualité d’une telle représentation ?
Nous avons retenu trois gr...
Pourquoi la classification des sommets ?
Comment mesurer la qualité d’une telle représentation ?
Nous avons retenu trois gr...
Pourquoi la classification des sommets ?
Comment mesurer la qualité d’une telle représentation ?
Nous avons retenu trois gr...
Pourquoi la classification des sommets ?
Comment mesurer la qualité d’une telle représentation ?
Nous avons retenu trois gr...
Pourquoi la classification des sommets ?
Auber, D. (2003).
Tulip : A huge graph visualisation framework.
In Mutzel, P. and ...
Prochain SlideShare
Chargement dans…5
×

Fouille de données sur des graphes : Introduction

806 vues

Publié le

Groupe de travail BioPuces, INRA d’Auzeville
April 24th, 2009

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
806
Sur SlideShare
0
Issues des intégrations
0
Intégrations
14
Actions
Partages
0
Téléchargements
30
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Fouille de données sur des graphes : Introduction

  1. 1. Fouille de données sur des graphes : Introduction Nathalie Villa-Vialaneix http://www.nathalievilla.org Toulouse School of Economics Groupe de travail BioPuces, INRA de Castanet 24 avril 2009 BioPuces (24/04/09) Nathalie Villa Data mining & graphes 1 / 27
  2. 2. Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 2 / 27
  3. 3. Introduction et vocabulaire Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 3 / 27
  4. 4. Introduction et vocabulaire Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
  5. 5. Introduction et vocabulaire Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets (ou noeuds) / en anglais : vertices, nodes BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
  6. 6. Introduction et vocabulaire Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... Sommets Arêtes / en anglais : edges BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
  7. 7. Introduction et vocabulaire Qu’est-ce qu’un graphe ? Structure naturelle pour modéliser des phénomènes de relations entre individus, objets ... 3 5 7 6,15 4,35 2 4 3.4 Sommets Arêtes éventuellement pondérées BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27
  8. 8. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe • de sommets V = {x1, . . . , xn} (et de taille n) BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
  9. 9. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe • de sommets V = {x1, . . . , xn} (et de taille n) • dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
  10. 10. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe • de sommets V = {x1, . . . , xn} (et de taille n) • dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V • dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
  11. 11. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe • de sommets V = {x1, . . . , xn} (et de taille n) • dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble de V × V • dont les arêtes sont pondérées par la matrice de poids W telle que ∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E Dans un graphe non pondéré, on convient que wij ∈ {0; 1}. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27
  12. 12. Introduction et vocabulaire Quelques notions élémentaires : le degré Définition On appelle degré du sommet xi le nombre di = j i wij. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27
  13. 13. Introduction et vocabulaire Quelques notions élémentaires : le degré Définition On appelle degré du sommet xi le nombre di = j i wij. Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27
  14. 14. Introduction et vocabulaire Quelques notions élémentaires : le degré Définition On appelle degré du sommet xi le nombre di = j i wij. Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi. Dans les réseaux sociaux, la distribution des degrés suit généralement une loi de puissance (graphes sans échelle typique). BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27
  15. 15. Introduction et vocabulaire Quelques notions élémentaires : la densité Définition On appelle densité d’un graphe non pondéré n i,j=1 I{(xi,xj)∈E} n(n − 1) . BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27
  16. 16. Introduction et vocabulaire Quelques notions élémentaires : la densité Définition On appelle densité d’un graphe non pondéré n i,j=1 I{(xi,xj)∈E} n(n − 1) . Dans le cas d’un graphe pondéré, on peut généraliser cette notion par n i,j=1 wij n(n−1) mais elle n’est plus nécessairement comprise entre 0 et 1 !! BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27
  17. 17. Introduction et vocabulaire Quelques notions élémentaires : la densité Définition On appelle densité d’un graphe non pondéré n i,j=1 I{(xi,xj)∈E} n(n − 1) . Dans le cas d’un graphe pondéré, on peut généraliser cette notion par n i,j=1 wij n(n−1) mais elle n’est plus nécessairement comprise entre 0 et 1 !! Dans les réseaux sociaux, on observe souvent un effet “petit monde” : • faible densité globale (de l’ordre de 5% - 10%) ; • forte densité locale : la densité moyenne du sous-graphe des voisins de chaque sommet peut être supérieure à 70 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27
  18. 18. Dessiner un grand graphe Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 8 / 27
  19. 19. Dessiner un grand graphe Algorithmes de forces Au delà de quelques dizaines de sommets, nécessité de penser à la position des sommets doit être pensée pour rendre le graphe lisible et interprétable pour l’œil. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27
  20. 20. Dessiner un grand graphe Algorithmes de forces Au delà de quelques dizaines de sommets, nécessité de penser à la position des sommets doit être pensée pour rendre le graphe lisible et interprétable pour l’œil. Utilisation courante d’algorithmes de forces (Fruchterman & Reingold, par exemple) qui simulent des systèmes de ressorts sur les arêtes. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27
  21. 21. Dessiner un grand graphe Représentation simple BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  22. 22. Dessiner un grand graphe Pondération des arêtes BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  23. 23. Dessiner un grand graphe Étiquetage des sommets BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  24. 24. Dessiner un grand graphe Coloration des sommets BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  25. 25. Dessiner un grand graphe Coloration des sommets et des arêtes BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27
  26. 26. Dessiner un grand graphe Comment réaliser ces représentations ? • Package igraph de R : pas mal de fonctionnalités mais pondération des arêtes pas correctement prise en compte et pas d’interactivité sur les graphes. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27
  27. 27. Dessiner un grand graphe Comment réaliser ces représentations ? • Package igraph de R : pas mal de fonctionnalités mais pondération des arêtes pas correctement prise en compte et pas d’interactivité sur les graphes. • Logiciel Tulip ([Auber, 2003]) : Interactif, pas mal de fonctionnalités mais permet uniquement la représentation et nécessite l’importation des graphe dans un format spécial. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27
  28. 28. Dessiner un grand graphe Qu’est-ce qu’une bonne représentation ? En général, un critère admis pour mesurer la qualité de la représentation est le nombre d’arêtes coupées dans la figure : C = 1 2 e1=(xi1 ,xj1 ),e2=(xi2 ,xj2 )∈V wi1,j1 wi2,j2 I{e1 coupe e2} BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27
  29. 29. Dessiner un grand graphe Qu’est-ce qu’une bonne représentation ? En général, un critère admis pour mesurer la qualité de la représentation est le nombre d’arêtes coupées dans la figure : C = 1 2 e1=(xi1 ,xj1 ),e2=(xi2 ,xj2 )∈V wi1,j1 wi2,j2 I{e1 coupe e2} Problème de ce critère : coûteux à calculer . . . BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27
  30. 30. Exemples Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 13 / 27
  31. 31. Exemples Réseau social I : “Les misérables” (V. Hugo) 77 sommets, 254 arêtes, 1 2 ij wij = 820 (variant de 1 à 31, entre Cosette et Valjean), densités : 8,7 % (non pondéré) et 0,560 (pondéré), coefficient de classification (densité locale moyenne) : 49,9 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 14 / 27
  32. 32. Exemples Réseau social II : Réseau de citations scientifiques [Newman et al., 2006] 379 sommets, 914 arêtes, 1 2 ij wij = 489, 5 (variant de 0,125 à 4,75), densité : 1,3 % (non pondéré), coefficient de classification : 22,1 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 15 / 27
  33. 33. Exemples Réseau social III : Réseau issu d’un grand corpus médiéval [Boulet et al., 2008] 615 sommets, 4 193 arêtes, 1 2 ij wij = 40 329 (50 % des arêtes ont un poids de 1 et moins de 2 % un poids supérieur à 100), densité : 2,2 % (non pondéré), coefficient de classification : 77 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 16 / 27
  34. 34. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  35. 35. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. Comment définir un réseau d’interaction pour chacun de ces cas ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  36. 36. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. Comment définir un réseau d’interaction pour chacun de ces cas ? Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  37. 37. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. Comment définir un réseau d’interaction pour chacun de ces cas ? Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice. Ne marche pas !! Car les corrélations sont regardées dans leur ensemble : si les variables x et z et les variables y et z sont fortement corrélées alors la corrélation entre x et y sera forte sans réalité biologique. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  38. 38. Exemples Réseaux génétiques Données : • Expressions de gènes différentiellement exprimés chez le porc et chez le bovin. • Expressions de gènes différentiellement exprimés pour des follicules PFN, PFA, GFN. Comment définir un réseau d’interaction pour chacun de ces cas ? Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice. Ne marche pas !! Car les corrélations sont regardées dans leur ensemble : si les variables x et z et les variables y et z sont fortement corrélées alors la corrélation entre x et y sera forte sans réalité biologique. Solution : Utiliser un modèle graphique gaussien qui détermine les corrélations partielles, i.e., les corrélations entre deux variables indépendamment des autres variables du jeu de données. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27
  39. 39. Exemples Exemple de la différence entre les deux approches Seuil = 0,2 Seuil = 0,65 BioPuces (24/04/09) Nathalie Villa Data mining & graphes 18 / 27
  40. 40. Exemples Réseau de gènes Bovin différentiellement avec le Porc (seuil 0,015) 460 sommets, 3 903 arêtes, 1 2 ij wij = 70, 38, densité : 3,7 % (non pondéré), coefficient de classification : 20,6 %, degré moyen : 0,31. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 19 / 27
  41. 41. Exemples Réseau de gènes Porc différentiellement avec le Bovin (seuil 0,02) 390 sommets, 3 320 arêtes, 1 2 ij wij = 81, 6, densité : 4,2 % (non pondéré), coefficient de classification : 18,7 %, degré moyen : 0,42. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 20 / 27
  42. 42. Exemples Réseau de gènes de petits follicules atritiques (seuil 0,013) 459 sommets, 6 478 arêtes, 1 2 ij wij = 105, 4, densité : 6,2 % (non pondéré), coefficient de classification : 25,0 %, degré moyen : 0,46. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 21 / 27
  43. 43. Exemples Réseau de gènes de petits follicules sains (seuil 0,013) 360 sommets, 4 401arêtes, 1 2 ij wij = 72, 1, densité : 6,8 % (non pondéré), coefficient de classification : 29,2 %, degré moyen : 0,40. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 22 / 27
  44. 44. Exemples Réseau de gènes de gros follicules sains (seuil 0,015) 325 sommets, 3 526 arêtes, 1 2 ij wij = 66, 1, densité : 6,7 % (non pondéré), coefficient de classification : 26,9 %, degré moyen : 0,41. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 23 / 27
  45. 45. Exemples Problématique et questions Premières conclusions : • Les réseaux d’interaction n’ont pas de structure “petit monde”. • Les structures macroscopiques des deux réseaux (porc et bovin) sont très similaires. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27
  46. 46. Exemples Problématique et questions Premières conclusions : • Les réseaux d’interaction n’ont pas de structure “petit monde”. • Les structures macroscopiques des deux réseaux (porc et bovin) sont très similaires. Problèmes : • Quel seuillage des corrélations partielles est adéquat ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27
  47. 47. Exemples Problématique et questions Premières conclusions : • Les réseaux d’interaction n’ont pas de structure “petit monde”. • Les structures macroscopiques des deux réseaux (porc et bovin) sont très similaires. Problèmes : • Quel seuillage des corrélations partielles est adéquat ? • Les algorithmes de force permettent de visualiser un graphe mais au-delà de quelques dizaines de sommets, la compréhension de la structure du graphe à partir de cette seule représentation est difficile. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27
  48. 48. Pourquoi la classification des sommets ? Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classification des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 25 / 27
  49. 49. Pourquoi la classification des sommets ? Fournir une représentation schématique du graphe Le but de la classification de sommets est de mettre en valeur des groupes de sommets denses et faiblement connectés entre eux. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27
  50. 50. Pourquoi la classification des sommets ? Fournir une représentation schématique du graphe Le but de la classification de sommets est de mettre en valeur des groupes de sommets denses et faiblement connectés entre eux. Ce type de traitement statistique permet de faire ressortir les grandes structures et les grands ensembles du graphe et aide à l’interprétation. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27
  51. 51. Pourquoi la classification des sommets ? Fournir une représentation schématique du graphe Le but de la classification de sommets est de mettre en valeur des groupes de sommets denses et faiblement connectés entre eux. Ce type de traitement statistique permet de faire ressortir les grandes structures et les grands ensembles du graphe et aide à l’interprétation. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27
  52. 52. Pourquoi la classification des sommets ? Comment mesurer la qualité d’une telle représentation ? Nous avons retenu trois grands critères de qualité : • un critère de qualité d’une classification de sommets d’un graphe : la modularité ; BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
  53. 53. Pourquoi la classification des sommets ? Comment mesurer la qualité d’une telle représentation ? Nous avons retenu trois grands critères de qualité : • un critère de qualité d’une classification de sommets d’un graphe : la modularité ; • un critère de densité des groupes : la moyenne de la densité pondérée intra-classes K c=1 |Cc| i,j:xi, xj∈Cc wij |Cc| × (|Cc| − 1) ; BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
  54. 54. Pourquoi la classification des sommets ? Comment mesurer la qualité d’une telle représentation ? Nous avons retenu trois grands critères de qualité : • un critère de qualité d’une classification de sommets d’un graphe : la modularité ; • un critère de densité des groupes : la moyenne de la densité pondérée intra-classes K c=1 |Cc| i,j:xi, xj∈Cc wij |Cc| × (|Cc| − 1) ; • un critère de visualisation : le nombre d’arêtes coupées. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
  55. 55. Pourquoi la classification des sommets ? Comment mesurer la qualité d’une telle représentation ? Nous avons retenu trois grands critères de qualité : • un critère de qualité d’une classification de sommets d’un graphe : la modularité ; • un critère de densité des groupes : la moyenne de la densité pondérée intra-classes K c=1 |Cc| i,j:xi, xj∈Cc wij |Cc| × (|Cc| − 1) ; • un critère de visualisation : le nombre d’arêtes coupées. Questions : Comment combiner ces trois critères ? Comment la taille de la classification K influencent-elles ceux-ci ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27
  56. 56. Pourquoi la classification des sommets ? Auber, D. (2003). Tulip : A huge graph visualisation framework. In Mutzel, P. and Jünger, M., editors, Graph Drawing Softwares, Mathematics and Visualization, pages 105–126. Springer-Verlag. Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008). Batch kernel SOM and related laplacian methods for social network analysis. Neurocomputing, 71(7-9):1257–1273. Newman, M., Barab, A., and Watts, D. (2006). The Structure and Dynamics of Networks. Princeton University Press. TO BE CONTINUED... BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27

×