Pr´sentation de quelques m´thodes et applications de  e                         e                clustering de graphes    ...
Outline1   Introduction       Graphes       Probl´matique de la recherche de communaut´            e                      ...
Introduction   GraphesIntroduction, graphesGrapheDeux ´l´ments G = {V , E } :     ee    V : nœuds ou sommets    E : liens,...
Introduction   GraphesIntroduction, graphesPlusieurs repr´sentations              e    Matrice d’adjacence A :            ...
Introduction   GraphesIntroduction, graphesPlusieurs variations    orient´ / non orient´          e             e    valu´...
Introduction   GraphesIntroduction, graphesPlusieurs variations    orient´ / non orient´          e             e    valu´...
Introduction   GraphesIntroduction, graphesPlusieurs variations    orient´ / non orient´          e             e    valu´...
Introduction   GraphesIntroduction, graphesBeaucoup de domaines d’application    r´seaux routiers, biologiques, sociaux, ....
Introduction   GraphesIntroduction, graphesBeaucoup de domaines d’application    r´seaux routiers, biologiques, sociaux, ....
Introduction   GraphesIntroduction, graphesBeaucoup de domaines d’application    r´seaux routiers, biologiques, sociaux, ....
Introduction              GraphesIntroduction, graphesBeaucoup de domaines d’application    r´seaux routiers, biologiques,...
Introduction            GraphesIntroduction, graphesBeaucoup de domaines d’application    r´seaux routiers, biologiques, s...
Introduction            GraphesIntroduction, graphesBeaucoup de domaines d’application    r´seaux routiers, biologiques, s...
Introduction   Probl´matique de la recherche de communaut´                                                e               ...
Clustering de graphes, quelques m´thodes                                               e         Mod`le de m´lange d’Erdos...
Clustering de graphes, quelques m´thodes                                                 e         Mod`le de m´lange d’Erd...
Clustering de graphes, quelques m´thodes                                              e         Mod`le de m´lange d’Erdos ...
Clustering de graphes, quelques m´thodes                                               e         Mod`le de m´lange d’Erdos...
Clustering de graphes, quelques m´thodes                                               e          Maximisation de la modul...
Clustering de graphes, quelques m´thodes                                              e         Maximisation de la modular...
Clustering de graphes, quelques m´thodes                                                 e         Clustering spectralClus...
Clustering de graphes, quelques m´thodes                                              e         Clustering spectralD´finiti...
Clustering de graphes, quelques m´thodes                                              e         Clustering spectralD´finiti...
Clustering de graphes, quelques m´thodes                                              e         Clustering spectralD´finiti...
Clustering de graphes, quelques m´thodes                                              e         Clustering spectralD´finiti...
Clustering de graphes, quelques m´thodes                                               e         Clustering spectralCrit`r...
Clustering de graphes, quelques m´thodes                                               e         Clustering spectralCrit`r...
Clustering de graphes, quelques m´thodes                                               e         Clustering spectralCrit`r...
Clustering de graphes, quelques m´thodes                                                e         Clustering spectralAlgor...
Extraction locale de communaut´                                                eExtraction locale de communaut´           ...
Extraction locale de communaut´                                                   e   Probl´matique                       ...
Extraction locale de communaut´                                                  e   Probl´matique                        ...
Extraction locale de communaut´                                                  e   Probl´matique                        ...
Extraction locale de communaut´                                                  e   Probl´matique                        ...
Extraction locale de communaut´                                                  e   Probl´matique                        ...
Extraction locale de communaut´                                                  e   Probl´matique                        ...
Extraction locale de communaut´                                                  e   Probl´matique                        ...
Extraction locale de communaut´                                                  e   Solutions existantesSolutions existan...
Extraction locale de communaut´                                                   e   Solutions existantesSolutions exista...
Extraction locale de communaut´                                                   e   Solutions existantesSolutions exista...
Extraction locale de communaut´                                                   e    Noise cluster modelNoise cluster mo...
Extraction locale de communaut´                                                   e     Noise cluster modelNotations :    ...
Extraction locale de communaut´                                                    e   Noise cluster modelSimplifications :...
Extraction locale de communaut´                                                      e   Noise cluster modelTest d’apparte...
Extraction locale de communaut´                                                   e                       Noise cluster mo...
Extraction locale de communaut´                                                         e    Noise cluster modelApprentiss...
Extraction locale de communaut´                                                   e    Noise cluster modelApprentissage de...
Extraction locale de communaut´                                                     e   Noise cluster modelProc´dure d’ext...
Extraction locale de communaut´                                                   e   Exp´rimentation : extraction de comm...
Extraction locale de communaut´                                                   e   Exp´rimentation : extraction de comm...
Extraction locale de communaut´                                                   e   Exp´rimentation : extraction de comm...
Extraction locale de communaut´                                               e   Exp´rimentation : extraction de communau...
Extraction locale de communaut´                                               e   Exp´rimentation : extraction de communau...
Extraction locale de communaut´                                               e   Exp´rimentation : extraction de communau...
Extraction locale de communaut´                                               e   Exp´rimentation : extraction de communau...
Extraction locale de communaut´                                               e   Exp´rimentation : extraction de communau...
Extraction locale de communaut´                                               e   Exp´rimentation : extraction de communau...
Extraction locale de communaut´                                                  e   Exp´rimentation : extraction de commu...
Clustering hi´rarchique / multi-´chelles                         e                  e             Clustering   hi´rarchiqu...
Clustering hi´rarchique / multi-´chelles                             e                  e          Probl´matique          ...
Clustering hi´rarchique / multi-´chelles                             e                  e          Clustering spectral sur...
Clustering hi´rarchique / multi-´chelles                               e                  e          Extension hi´rarchiqu...
Clustering hi´rarchique / multi-´chelles                             e                  e          Exp´rimentation : Ident...
Clustering hi´rarchique / multi-´chelles                             e                  e          Exp´rimentation : Ident...
Clustering hi´rarchique / multi-´chelles                             e                  e          Exp´rimentation : Ident...
Clustering hi´rarchique / multi-´chelles                              e                  e          Exp´rimentation : Iden...
Clustering hi´rarchique / multi-´chelles                             e                  e          Exp´rimentation : Ident...
Clustering hi´rarchique / multi-´chelles                         e                  e          Exp´rimentation : Identifica...
Prochain SlideShare
Chargement dans…5
×

Presentation Tisic 2011

5 839 vues

Publié le

Publié dans : Formation
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
5 839
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4 833
Actions
Partages
0
Téléchargements
19
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Presentation Tisic 2011

  1. 1. Pr´sentation de quelques m´thodes et applications de e e clustering de graphes Etienne Cˆme, o etienne.come@ifsttar.fr 8 D´cembre 2011 e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 1 / 68
  2. 2. Outline1 Introduction Graphes Probl´matique de la recherche de communaut´ e e2 Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e e Maximisation de la modularit´e Clustering spectral3 Extraction locale de communaut´ e Probl´matique e Solutions existantes Noise cluster model Exp´rimentation : extraction de communaut´s de blogs e e4 Clustering hi´rarchique / multi-´chelles e e Probl´matique e Clustering spectral sur graphes orient´s e Extension hi´rarchique e Exp´rimentation : Identification d’aires urbaines e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 2 / 68
  3. 3. Introduction GraphesIntroduction, graphesGrapheDeux ´l´ments G = {V , E } : ee V : nœuds ou sommets E : liens, arcs (orient´) ou arˆtes (non-orient´) e e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 3 / 68
  4. 4. Introduction GraphesIntroduction, graphesPlusieurs repr´sentations e Matrice d’adjacence A : Aij = 1, si i ∼ j A: Aij = 0, sinon. liste d’adjacence Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 4 / 68
  5. 5. Introduction GraphesIntroduction, graphesPlusieurs variations orient´ / non orient´ e e valu´ / non valu´ e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 5 / 68
  6. 6. Introduction GraphesIntroduction, graphesPlusieurs variations orient´ / non orient´ e e valu´ / non valu´ e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 6 / 68
  7. 7. Introduction GraphesIntroduction, graphesPlusieurs variations orient´ / non orient´ e e valu´ / non valu´ e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 7 / 68
  8. 8. Introduction GraphesIntroduction, graphesBeaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 8 / 68
  9. 9. Introduction GraphesIntroduction, graphesBeaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 9 / 68
  10. 10. Introduction GraphesIntroduction, graphesBeaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 10 / 68
  11. 11. Introduction GraphesIntroduction, graphesBeaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... 1 2 3 4 8 6 4 2 0 −2 −4 −6 −8 −6 −4 −2 0 2 4 6 8 10 −8 −6 −4 −2 0 2 4 6 8 Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 11 / 68
  12. 12. Introduction GraphesIntroduction, graphesBeaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... 100 200 300 400 500 600 700 800 900 1000 100 200 300 400 500 600 700 800 900 1000 Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 12 / 68
  13. 13. Introduction GraphesIntroduction, graphesBeaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... 100 200 300 400 500 600 700 800 900 1000 100 200 300 400 500 600 700 800 900 1000 Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 13 / 68
  14. 14. Introduction Probl´matique de la recherche de communaut´ e eProbl´matique e”A community could be loosely described as a collection of vertices withina graph that are densely connected amongst themselves while beingloosely connected to the rest of the graph.” regrouper les nœuds d’un graphe dans diff´rents groupes ou clusters e ⇒ de mani`re ` ”maximiser la connectivit´ intra-cluster et/ou e a e minimiser la connectivit´ inter-cluster”. e Rmq : le nombre de clusters peut ˆtre connu ou inconnu. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 14 / 68
  15. 15. Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e eMod`le de m´lange d’Erdos Renyi e eVariables : Xij ∈ {0, 1} variable binaire encodant la pr´sence ou l’absence d’un e liens entre i et j : 1, si il existe un liens entre i et j xij = (1) 0, sinon. Zj ∈ {1, . . . , K } sont des variables latentes, d´crivant l’appartenance e de j ` un des K clusters possibles : a zj = k, si j appartient au cluster k. (2) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 15 / 68
  16. 16. Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e eMod`le de m´lange d’Erdos Renyi e eMod`le g´n´ratif : e e e 1 tirer le groupe de chaque noeud suivant les proportions γ 2 ajouter un lien entre i et j avec une probabilit´ πkl si i appartient au e cluster k et j appartient au cluster l. i.i.d Zj ∼ M(1, γ), ∀j ∈ {1, . . . , N} (3) i.i.d Xij |Zi = k, Zj = l ∼ B(πkl ), ∀i, j ∈ {1, . . . , N}, (4) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 16 / 68
  17. 17. Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e eMod`le de m´lange d’Erdos Renyi e eParam`tres : e γ : proportions, exemple γ = (0.1, 0.2, 0.6, 0.1) π : matrice de liens, exemple :   0.1 0.01 0.01 0.005 0.005 0.2 0.01 0.01  π= 0.005 0.001 0.1 0.01  .  0.005 0.001 0.01 0.3Recherche de communaut´ : e   α1  α2  π= ,  α3  α4avec α >> . Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 17 / 68
  18. 18. Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e eMod`le de m´lange d’Erdos Renyi e eOptimization :Strat´gie altern´e de type EM... e e! mais probl`me plus compliqu´ que EM classique (pas d’ind´pendance e e econditionnellement aux donn´es observ´es) e e approche variationnelle CEM, online CEM ...Remarques permet une mod´lisation assez fine (pas limit´ ` la recherche de e ea communaut´)e k doit ˆtre fix´ ou choisi par balayage e e assez lourd en temps de calcul (difficile de traiter des gros graphes) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 18 / 68
  19. 19. Clustering de graphes, quelques m´thodes e Maximisation de la modularit´ eMaximisation de la modularit´ eD´finition du crit`re e eLa modularit´ Q est ´gale ` la somme des connectivit´s intra-cluster e e a emoins la connectivit´ intra-cluster attendue sous hypoth`se uniforme. e e ki kj Q= (Aij − )δ(zi , zj ), m i=javec ki = N Aij le degr´ du nœud i et m = j=1 e N j=1 kj , zi le num´ro de ecluster du noeud i et δ la fonction de Kronecker.Remarques permet de travailler sans un nombre de clusters pr´d´fini. e e assez l´ger en temps de calcul. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 19 / 68
  20. 20. Clustering de graphes, quelques m´thodes e Maximisation de la modularit´ eMaximisation de la modularit´ eOptimisation R´cuit Simul´ e e Optimisation gloutonne Louvain ... Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 20 / 68
  21. 21. Clustering de graphes, quelques m´thodes e Clustering spectralClustering spectral r´cursif sur graphe orient´/valu´ e e eL, matrice Laplacienne (graphes non orient´s) : e L=D −A (5)! f t Lf = i∼j (fi − fj )2 (Mesure de r´gularit´ de f sur L) e eL, matrice Laplacienne normalis´e (graphes non orient´s) : e e L = D −1/2 LD −1/2 = I − D −1/2 AD 1/2 (6)Propri´t´s : ee 1 L et L ´tant sym´triques, leurs valeurs propres sont r´elles et non e e e n´gatives. e 2 0 = λ0 <= λ1 <= ... <= λn−1 . 3 Nombre de composante connexe de G = multiplicit´ de la valeur e propre 0. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 21 / 68
  22. 22. Clustering de graphes, quelques m´thodes e Clustering spectralD´finitions : coupe S, volume vol, ... e S Coupe S Coupe : ¯ V = {S ∪ S} (7) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 22 / 68
  23. 23. Clustering de graphes, quelques m´thodes e Clustering spectralD´finitions : coupe S, volume vol, ... e S Coupe S Volume d’un noeud : vol v = Av ,u (8) u Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 23 / 68
  24. 24. Clustering de graphes, quelques m´thodes e Clustering spectralD´finitions : coupe S, volume vol, ... e S Coupe S Volume d’un ensemble de noeuds : vol S = vol v (9) v ∈S Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 24 / 68
  25. 25. Clustering de graphes, quelques m´thodes e Clustering spectralD´finition : coupe S, volume vol, ... e S Coupe S Volume d’une coupe : vol δS = Au,v (10) ¯ u∈S,v ∈S Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 25 / 68
  26. 26. Clustering de graphes, quelques m´thodes e Clustering spectralCrit`res de coupes eRation Cut : ¯ vol δS RatioCut(S, S) = ¯ , (11) |S|.|S| ¯o` |S| et |S| sont respectivement les nombres de sommets de S et de S. u ¯Le probl`me de minimisation pour trouver la solution approxim´e se r´sout e e e` partir de la matrice laplacienne L et de son second plus petit vecteurapropre(cf. [HK92]). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 26 / 68
  27. 27. Clustering de graphes, quelques m´thodes e Clustering spectralCrit`res de coupes eConductance ou constante de Cheeger : vol δS φG (S) = ¯ (12) min(vol S, vol S)On peut aussi d´finir la conductance d’un graphe : e φG = min φG (S) (13) S⊂VIn´galit´ de cheeeger : e e φ2 G ≤ λ1 ≤ 2φG (14) 2Ces in´galit´s permettent de consid´rer la solution relˆch´e obtenue ` e e e a e apartir de la matrice laplacienne normalis´e, comme le montre Chung dans e[Chu07]. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 27 / 68
  28. 28. Clustering de graphes, quelques m´thodes e Clustering spectralCrit`res de coupes eNormalized Cut : 1 1 ncut(S) = vol δS(+ ¯) (15) vol S vol SLa solution relˆch´e de la minimisation de ce crit`re se trouve ` partir de a e e ala matrice laplacienne normalis´e L et de son second plus petit vecteur epropre (cf. [SM00]). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 28 / 68
  29. 29. Clustering de graphes, quelques m´thodes e Clustering spectralAlgorithme de recherche coupe optimale 1 Calcul de la matrice L ou L du graphe G (on suppose ici que le graphe est fortement connexe) 2 Calcul du vecteur propre v1 associ´ ` la seconde plus petite valeur ea propre λ1 3 Tri du vecteur v1 pour obtenir une permutation p de la matrice L ou L 4 Calcul du crit`re de coupe sur chaque coupe possible de la matrice Lp e ou Lp apr`s permutation e 5 Choix de la coupe I qui minimise le crit`re parmi les n − 1 coupes e possibles Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 29 / 68
  30. 30. Extraction locale de communaut´ eExtraction locale de communaut´ e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 30 / 68
  31. 31. Extraction locale de communaut´ e Probl´matique eIntroductionMotivations Extraction de communaut´ e Extraire une communaut´ en partant d’un ensemble de graines e Algorithme ”On line”, complexit´ ∼ taille de la communaut´ e eSolution : Noise cluster model Mod`le g´n´ratif simple e e e Une communaut´ environn´e par du bruit e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 31 / 68
  32. 32. Extraction locale de communaut´ e Probl´matique eIntroduction, (exemple jouet) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 32 / 68
  33. 33. Extraction locale de communaut´ e Probl´matique eIntroduction, (graphe clustering) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 33 / 68
  34. 34. Extraction locale de communaut´ e Probl´matique eIntroduction, (graines) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 34 / 68
  35. 35. Extraction locale de communaut´ e Probl´matique eIntroduction, (extraction d’une communaut´) e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 35 / 68
  36. 36. Extraction locale de communaut´ e Probl´matique eIntroduction, (community extraction) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 36 / 68
  37. 37. Extraction locale de communaut´ e Probl´matique eAvantages les graines permettent d’avoir un focus pour analyser le graphe meilleure complexit´ e exploration du graphe complet ´vit´e e e moins de probl`me avec des tailles de communaut´s diff´rentes e e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 37 / 68
  38. 38. Extraction locale de communaut´ e Solutions existantesSolutions existantes au probl`me de l’extraction eBagrow & al [BB05] Parcours en largeur d’abord du graph en partant d’une graine ; jusqu’a ce que le taux d’expansion tombe en-dessous d’un seuil pr´d´fini. (i.e. la proportion de liens trouv´s au niveau courant qui ne e e e m`nent pas ` des noeuds d´j` connus) e a eaProbl`mes e Uniquement une graˆ ıne Tous les noeuds d’un niveau sont inclus. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 38 / 68
  39. 39. Extraction locale de communaut´ e Solutions existantesSolutions existantes au probl`me de l’extraction eClauset [Cla05] optimisation gloutonne ` partir d’une graine d’un crit`re ”modularit´ a e e locale” Qloc ; fronti`re B : ensemble des noeuds ayant un voisin encore inconnu ; e ”modularit´ locale” : nombre de liens entre B et l’ensemble des e noeuds connus C diviser par le nombre total de liens ayant au moins une extr´mit´ dans B. e e i∈C,j∈B Bij + i∈B,j∈C Bij Qloc = , (16) i,j Bijavec Bij = 1 si i j et l’un ou l’autre des noeuds appartient ` B. aProbl`mes e Ne peut prendre en compte qu’une graˆ ıne d´finition et choix du crit`re d’arrˆt e e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 39 / 68
  40. 40. Extraction locale de communaut´ e Solutions existantesSolutions existantes au probl`me de l’extraction eAutres solutions [AL06] marche al´atoire et conductance e [SG10] optimisation combinatoireProbl`me e complexit´ d´pend de la taille du graphe. e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 40 / 68
  41. 41. Extraction locale de communaut´ e Noise cluster modelNoise cluster modelD´finition du mod`le e e i.i.d Zi ∼ B(γ), ∀i ∈ {1, . . . , N}, (17) i.i.d Xij |Zi × Zj = 1 ∼ B(α), ∀i, j ∈ {1, . . . , N}, (18) i.i.d Xij |Zi × Zj = 0 ∼ B(β), ∀i, j ∈ {1, . . . , N}, (19)avec zi = 1, si i appartient ` la communaut´ et 0 sinon. a e α β π= , β βavec α >> β. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 41 / 68
  42. 42. Extraction locale de communaut´ e Noise cluster modelNotations : Taille de la communaut´ : e Nc = zi i Degr´s : e djin = xij , djout = xji , dj = (xij + xji ) i:zi =1 i:zi =1 i:zi =1 Probabilit´ a posteriori : e pjin = P(Zj = 1|Xij = xij , Zi = zi , ∀i ∈ {1, . . . , N}), pjout = P(Zj = 1|Xji = xji , Zi = zi , ∀i ∈ {1, . . . , N}), pjin,out = P(Zj = 1|Xij = xij , Xji = xji , Zi = zi , ∀i ∈ {1, . . . , N}), Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 42 / 68
  43. 43. Extraction locale de communaut´ e Noise cluster modelSimplifications :Avec ce mod`le les probabilit´s a posteriori se simplifient : e e param`tres (α, β, γ) ; e nombre de liens avec la communaut´ (djin , djout , djin,out ) ; e taille de la communaut´ (Nc) ; eExemple pour pjin in in αdj × (1 − α)(Nc−dj ) × γ pjin = in in in in αdj × (1 − α)(Nc−dj ) × γ + β dj × (1 − β)(Nc−dj ) × (1 − γ) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 43 / 68
  44. 44. Extraction locale de communaut´ e Noise cluster modelTest d’appartenance ` la communaut´ a eTest d’appartenance ` la communaut´ : seuil sur le nombre de liens avec a eles membres de la communaut´. e {pjin > s} ⇔ {djin > dmin }, (20)with log s × (1 − β)Nc × (1 − γ) − log (1 − s) × (1 − α)Nc × γdmin = log (α × (1 − β)) − log ((1 − α) × β) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 44 / 68
  45. 45. Extraction locale de communaut´ e Noise cluster model alpha=0.1,beta=0.001,gamma=0.05,Nc=200 qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq 0.8 pc 0.4 q 0.0 qqqq 0 10 20 30 40 50 din alpha=0.1,beta=0.001,gamma=0.05 10 8 dmin 6 4 2 0 100 200 300 400 NcFig.: (haut) valeur de pjin en fonction de djin avec α = 0.1, β = 0.001, γ = 0.05et Nc = 200 ; (bas) ´volution du seuil dmin par rapport ` Nc avec α = 0.1, e aβ = 0.001, γ = 0.05 et s = 0.5. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 45 / 68
  46. 46. Extraction locale de communaut´ e Noise cluster modelApprentissage des param`tres ”CEM on line”[ZAM08] eVraisemblance classifiante : Lc (X, Z, θ) = zi log(γ) + (1 − zi ) log(1 − γ) i i + zi × zj × xij log(α) + zi × zj (1 − ×xij ) log(1 − α) i,j:i=j i,j:i=j+ (1 − zi × zj ) × xij log(β) + (1 − zi × zj ) × (1 − xij ) log(1 − β) i,j:i=j i,j:i=javec Z = {z1 , . . . , zN }, X = {xij : i = j, i, j ∈ {1, . . . , N}}, et θ = (γ, α, β)le vecteur de param`tres. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 46 / 68
  47. 47. Extraction locale de communaut´ e Noise cluster modelApprentissage des param`tres ”CEM on line”[ZAM08] eSi la partition Z = {z1 , . . . , zN } est connue, les param`tres maximisant la evraisemblance classifiante sont donn´es par : e Nc γ = ˆ , (21) N N 1 α = ˆ 2 (zi × zj )xij , (22) Nc i,j=1, i=j N ˆ 1 β = (1 − zi × zj )xij , (23) Nc × (N + Nc ) ¯ i,j=1, i=javec Nc = N − Nc . ¯ Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 47 / 68
  48. 48. Extraction locale de communaut´ e Noise cluster modelProc´dure d’extraction propos´e e eAlgorithmeCoupl´ un algorithme de parcours de graphe en largeur (en partant des egraines) avec la proc´dure suivante, ePour chaque noeuds travers´ : e 1 utiliser le test d’appartenance d´finit pr´c´demment (20) pour e e e l’ajouter ou non ` la communaut´ a e 2 mettre ` jour les param`tres (21, 22, 23), en utilisant la partition a e couranteJusqu’` ce qu’aucun noeud ne passe le test d’appartenance. a Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 48 / 68
  49. 49. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e eExp´rimentation : extraction de communaut´s de blogs e eProtocole : crawler multi-thread utilisant l’algorithme pr´c´dent ; e e graˆ ınes : classement de blogs pour diff´rentes cat´gories ( URLs e e http ://www.wikio.com) 100 ou 50 graines pour 4 communaut´s test : e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 49 / 68
  50. 50. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e eExtraction de communaut´s de blogs e Illustration (fr) Scrapbooking (fr) Cuisine(fr) Politics (en) α ˆ 0.01829 0.02955 0.03846 0.02004 ˆ β 0.00094 0.00232 0.00209 0.00068 ˆ α β/ˆ 0.05139 0.07851 0.05434 0.03393 Nc 1 360 701 622 1 808 N 37 101 13 467 16 364 84 702 dia 8 8 6 7 apl 3.059 2.749 2.71 3.014 e e ˆ ˆTab.: Param`tres estim´es α, β et statistiques descriptives des communaut´s eextraites : dia diam`tre, apl longueur moyen des chemin entre membres de la ecommunaut´. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 50 / 68
  51. 51. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e eExtraction de communaut´s de blogs e Community Precision Vocabulary extracted Illustration (fr) 99% (animation 34.37%, drawing 28.96%, illustration 25.30%, sketches 24.55%, world 20.31%,...) Scrapbooking (fr) 98% (scrap 84.16%, scrapbooking 58.24%, tampons 47.71%, scrapper 29.58%, embellissements 22.53%,...) Cooking (fr) 100% (cuisine 83.72%, recettes 79.45%, re- cette 73.81%, chocolat 68.73%, sucre 64.14%,...) Politics (en) 96% (senate 28.78%, conservatives 21.12%, pundit 20.11%, terrorism 19.76%, congressional 19.25%,...)Tab.: Analyse du contenue. Pr´cision ´valu´e sur 100 blogs au hasard, e e evocabulaire repr´sentatif de la communaut´. e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 51 / 68
  52. 52. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Illustration (fr).Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 52 / 68
  53. 53. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Scrapbooking (fr).Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 53 / 68
  54. 54. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Cuisine (fr).Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 54 / 68
  55. 55. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Cuisine (fr).Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 55 / 68
  56. 56. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Politics (en).Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 56 / 68
  57. 57. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Politics (en).Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 57 / 68
  58. 58. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e eConclusionConclusion approche gloutonne simple ; complexit´ ∼ taille de la communaut´ ; e e extraction de communaut´s de blogs e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 58 / 68
  59. 59. Clustering hi´rarchique / multi-´chelles e e Clustering hi´rarchique / multi-´chelles e eCˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 59 / 68
  60. 60. Clustering hi´rarchique / multi-´chelles e e Probl´matique eProbl´matique eIntroductionAnalyse de graphe pr´sentant diff´rentes ´chelles d’analyse pertinentes : e e eR´gionales, Aire urbaines, ... ePiste ´tudi´e e eMise en relation des pˆles urbains ´l´mentaires grˆce ` des donn´es o ee a a erelatives au transport : flux (domicile-travail/´cole et autres) e infrastructures (transports en commun et individuels)Traitement sous forme de graphe, aspect multi-´chelle et hi´rarchique. e eRecherche de communaut´s, clustering de graphe : e clustering spectral r´cursif [Gleich06,Chung05] e maximisation de la modularit´ hi´rarchique [Newman04] e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 60 / 68
  61. 61. Clustering hi´rarchique / multi-´chelles e e Clustering spectral sur graphes orient´s eExtension aux graphes orient´s eMatrice laplacienne normalis´e dirig´e : e e 1 L = L(G ) = I − (Π1/2 PΠ−1/2 + Π−1/2 PΠ1/2 ), ˜ (24) 2o` P est la matrice de transition associ´ ` G ; Π est la matrice diagonale u eaform´e par π la distribution stationnaire de la marche al´atoire. e eAvantages : extension des notions de coupe, volumes ... permet de se ramener ` une matrice sym´trique a e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 61 / 68
  62. 62. Clustering hi´rarchique / multi-´chelles e e Extension hi´rarchique eExtension aux graphes orient´s eAlgorithme de clustering hi´rarchique e 1 Calcul de la matrice laplacienne dirig´e L du graphe G e 2 S´paration de G en composantes connexes et application des ´tapes e e suivantes sur chaque composante 3 Calcul du vecteur propre v1 associ´ ` la seconde plus petite valeur ea propre 4 Tri du vecteur v1 pour obtenir une permutation p1 de la matrice L 5 Calcul du crit`re ncut, ou ϕ sur la matrice Lp1 apr`s permutation e e 6 Choix de la coupe I qui minimise le crit`re choisi sur Lp1 e 7 Application r´cursive des ´tapes 2 ` 7 sur les partitions engendr´es e e a e par la coupe I , tant que les partitions obtenues sont de taille sup´rieure ` p (la taille minimale d´finie initialement). e a e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 62 / 68
  63. 63. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines eExp´rimentation : Identification d’aires urbaines eDonn´es eMatrice OD (domicile/travail, INSEE) = Graphe orient´ valu´. e e37 948 communes=communes, 1 560 058 arcs. Fig.: Matrice d’adjacence ordonn´e al´atoirement. e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 63 / 68
  64. 64. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines eExp´rimentation : Identification d’aires urbaines eDonn´es eMatrice OD (domicile/travail, INSEE) = Graphe orient´ valu´. e e37 948 communes=communes, 1 560 058 arcs. Fig.: Matrice d’adjacence ordonn´e par clustering spectral. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 64 / 68
  65. 65. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines eExp´rimentation : Identification d’aires urbaines e Région Nord-Est de la France : Champagne-Ardenne Alsace Lorraine Franche-Comté (+département de lAisne) Flux transfrontaliers : Belgique, Luxembourg, Allemagne, SuisseFig.: Imbrication des structures de communes sur la matrice WS apr`s permutation. ePremier niveau : cluster de communes du Nord-Est de la France Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 65 / 68
  66. 66. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines eExp´rimentation : Identification d’aires urbaines e Région Est de la France : Alsace Franche-Comté (+départements Haute-Marne et Vosges) Flux transfrontaliers : Allemagne, SuisseFig.: Imbrication des structures de communes sur la matrice WS apr`s permutation. eDeuxi`me niveau : cluster de communes de l’Est de la France (zoom sur le 1er niveau) e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 66 / 68
  67. 67. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines eExp´rimentation : Identification d’aires urbaines e Régions Est : Centrée certaines communes du Doubs : Cantons de Morteau, Montbenoit, Russey, Vercel, Pierrefontaine les Varans, Clerval Et de certaines communes Suisse au Nord de NeuchâtelFig.: Imbrication des structures de communes sur la matrice WS apr`s permutation. eTroisi`me niveau : cluster de communes du Doubs (zoom sur le 2`me niveau) e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 67 / 68
  68. 68. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines eR. Andersen and K. Lang.Communities from seed sets.In Proceedings of the 15th International Conference on World Wide Web, pages 223–232.ACM Press, 2006.J.P. Bagrow and E.M. Bollt.A local method for detecting communities.Phys Rev E Stat Nonlin Soft Matter Phys, 72(4) :046108, 2005.F. Chung.Four proofs for the cheeger inequality and graph partition algorithms.In Proceedings of ICCM, volume 2, pages 751–772, 2007.A. Clauset.Finding local community structure in networks.Phys Rev E Stat Nonlin Soft Matter Phys, 72(2) :026132, 2005.L. Hagen and A.B. Kahng.New spectral methods for ratio cut partitioning and clustering.11(9) :1074–1085, 1992.M. Sozio and A. Gionis.The community-search problem and how to plan a successful cocktail party.In Proceedings of the 16th ACM SIGKDD Conference On Knowledge Discovery and DataMining (KDD), pages –, 2010.J. Shi and J. Malik.Normalized cuts and image segmentation.22(8) E. (IFSTTAR)2000.Cˆme, :888–905, o Clustering de graph 8 D´cembre 2011 e 68 / 68

×