Fouille de données pour de grands graphes. Recherche de communautés et organisation

Fouille de données pour de grands graphes.
Recherche de communautés et organisation
Taoﬁq Dkaki2
, Jean-Michel Inglebert2
, Sébastien Gadat1
, Dinh
Truong2
& Nathalie Villa1
1
Institut de Mathématiques de Toulouse
2
Institut de Recherche en Informatique de Toulouse
Journées FREMIT, 8 décembre 2008
Nathalie Villa (IMT & TSE) Fouille de données & graphes FREMIT - 08/12/2008 1 / 22

Sommaire
1 Classiﬁcation et organisation de graphes
Motivations
Outils existants et limites : cartes auto-organisatrices à noyau
Une approche stochastique : algorithme de recuit simulé
2 Recherche d’informations

Comprendre la structure de grands graphes
Quelques exemples de problèmes modélisés par de grands graphes
1 Réseaux sociaux
réseaux de connaissances
réseaux de l’internet
réseaux de citations

1 Réseaux sociaux
2 Réseaux biologiques
réseaux d’interactions de protéines
réseau d’interactions de gènes

1 Réseaux sociaux
3 documents, préférences (graphes bipartis), . . .

1 Réseaux sociaux
3 documents, préférences (graphes bipartis), . . .
Problèmes rencontrés lors de la manipulation de ce type de données :
comment représenter le graphe de manière lisible et interprétable ?
quelles méthodes de fouille de données car aucune structure
euclidienne ?
taille des données (plusieurs centaines ou plusieurs milliers de
sommets...) nécessite de faire attention à la complexité des
algorithmes utilisés.

Exemples réels
Un réseau social venu du Moyen-Âge
Utilisation d’un corpus de 5000 contrats agraires issus des archives de
Cahors (Lot). Ces contrats viennent de 4 seigneuries (environ 25 petits
villages au total) du Sud-Ouest de la France et ont été établis entre
1240 et 1520 (avant et après la guerre de cent ans).

Exemples réels
Un réseau social venu du Moyen-Âge
Utilisation d’un corpus de 5000 contrats agraires issus des archives de
Cahors (Lot). Ces contrats viennent de 4 seigneuries (environ 25 petits
villages au total) du Sud-Ouest de la France et ont été établis entre
1240 et 1520 (avant et après la guerre de cent ans).
À partir de 1000 contrats datant d’avant la guerre de 100 ans, nous avons
modélisé le réseau social sur la base de mentions communes sur un
contrat donné de deux paysans. Le résultat est un graphe pondéré de
615 sommets.

Exemples réels
Un réseau de collaborations
Un réseau de collaborations scientiﬁques autour de la thématique des
réseaux sociaux [Newman, 2006] : graphe connexe pondéré avec 379
sommets.

Point de vue adopté
[Newman and Girvan, 2004]
“reducing [the] level of complexity [of a network] to one that can be
interpreted readily by the human eye, will be invaluable in helping us to
understand the large-scale structure of these new network data”

Méthodologie : Mise en valeur de groupes homogènes (ou fortement
connectés) liés à une visualisation permettant de comprendre facilement
les relations entre ces groupes : outils statistiques liés à la
classiﬁcation (de sommets d’un graphe) et/ou à l’organisation.

Méthodologie : Mise en valeur de groupes homogènes (ou fortement
connectés) liés à une visualisation permettant de comprendre facilement
les relations entre ces groupes : outils statistiques liés à la
classiﬁcation (de sommets d’un graphe) et/ou à l’organisation.
Problématique de la recherche de communautés: groupes sociaux
homogènes, groupes de protéines, de gènes fortement liés, etc...

Principe général des cartes auto-organisatrices à
noyau
φ
−→
Plongement des sommets dans un espace de Hilbert par le biais d’un
noyau:
K(xi, xj) = φ(xi), φ(xj) .

Principe général des cartes auto-organisatrices à
noyau
p1
p2
p3
1
2
3
Utilisation de la structure hilbertienne pour effectuer une classiﬁcation
(k-means par exemple) ou une classiﬁcation organisée du graphe
(cartes de Kohonen, par exemple).

Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n
j=1 wi,j,
Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;

Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n
j=1 wi,j,
Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
À partir du Laplacien, on déﬁnit divers noyaux régularisant:
noyau de la chaleur : K(xi, xj) = e−βL
ij
est la quantité d’énergie
accumulée en xj après un temps donné lorsque l’énergie a été
injectée en xi au temps 0 et que la propagation s’est faite de manière
continue le long des arêtes du graphe.
inverse généralisée du Laplacien : K(xi, xj) = [L+]ij est relatif est
au temps moyen du premier passage dans xj pour une marche
aléatoire le long des arêtes du graphe débutant en xi.

Exemple de résultat obtenu
Réseau social médiéval avec noyau de la chaleur [Boulet et al., 2008]

Réseau de collaborations avec inverse généralisée

Réseau de collaborations avec inverse généralisée
Questions : Comment utiliser ce travail de classiﬁcation comme première
étape d’une représentation complète du graphe ? Comment représenter
complètement la classiﬁcation (ie, le plongement du graphe sur la carte) ?

Algorithmes force et repousse contraints
[Truong et al., 2007, Truong et al., 2008, Villa et al., 2008] La Suite...
En ajoutant des contraintes sur les algorithmes de force et repousse

Pourquoi une approche alternative aux approches à
noyau ?
Limites de ces approches :
nécessitent une décomposition spectrale du Laplacien : trop
coûteuse si le graphe a plusieurs milliers de sommets ;
dépendent du choix du noyau (ie, de la structure euclidienne placée
sur les sommets) ;
problèmes de sélection des paramètres (noyau, taille de la carte)
car le critère de qualité habituel de l’algorithme de Kohonen (énergie)
dépend de ces paramètres.

Un critère de mesure de la qualité de la classiﬁcation
[Newman and Girvan, 2004] ont proposé une mesure de qualité d’un
découpage en communautés, la modularité :
Q = {arêtes à l’intérieur des communautés}
− {arêtes attendues dans un modèle “nul”}

Que peut-être le modèle nul ? Différentes déﬁnitions sont
possibles. . . [Newman, 2006] propose
le nombre d’arêtes du modèle nul est celui du graphe observé ;
le degré de chaque sommet du modèle nul est celui du graphe
observé (l’attachement à un individu de fort degré est plus probable).

Que peut-être le modèle nul ? Différentes déﬁnitions sont
possibles. . . [Newman, 2006] propose
le nombre d’arêtes du modèle nul est celui du graphe observé ;
le degré de chaque sommet du modèle nul est celui du graphe
observé (l’attachement à un individu de fort degré est plus probable).
Le modèle nul donne pij =
didj
n où di est le degré du sommet xi. On a donc
Q =
1
2m
i,j
[aij − pij] I[C(xi)=C(xj)]
où A = (aij)ij est la matrice d’adjacence du graphe.

Comment adapter un tel critère dans le cadre
“classiﬁcation organisée” ? en cours avec Fabrice Rossi, ENST
Si h est une similarité sur la carte (h(i, j) = e−γd(i,j)2
),

),
une approche organisée de la modularité est obtenue par maximisation
sur l’ensemble des plongements possibles sur la carte des noeuds du
graphe de :
S =
i,j
h(f(xi), f(xj)) (aij − pij)
où f(xi) désigne le neurone de la carte dans lequel le sommet xi est
classé.

),
une approche organisée de la modularité est obtenue par maximisation
sur l’ensemble des plongements possibles sur la carte des noeuds du
graphe de :
S =
i,j
h(f(xi), f(xj)) (aij − pij)
où f(xi) désigne le neurone de la carte dans lequel le sommet xi est
classé.
Problème : La maximisation de Q ou de S sont des problèmes
NP-complets (nombre de classiﬁcations possibles sur la carte : m2n
).

Optimisation de modularité par recuit simulé en cours
avec Sébastien Gadat, IMT
Principe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou
−S(f)), on simule de manière stochastique (chaîne de Markov sur les
états, f : classiﬁcations des sommets) ,la probabilité
PT (f) =
e−E(f)/T
g e−E(g)/T
.

Optimisation de modularité par recuit simulé en cours
avec Sébastien Gadat, IMT
Principe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou
−S(f)), on simule de manière stochastique (chaîne de Markov sur les
états, f : classiﬁcations des sommets) ,la probabilité
PT (f) =
e−E(f)/T
g e−E(g)/T
.
Lorque T → 0, PT (f) se concentre sur minf E(f).

Algorithme de recuit simulé pour optimisation de la
modularité
Algorithme
1 On initialise la classiﬁcation des sommets à un état aléatoire
f0
∈ {1, . . . , m}⊗n
2 On répète
1 On tire deux classes j1 et j2 dans {1, . . . , m} et un sommet xi dans
(f0
)−1
(j1) ∩ (f0
)−1
(j2) (les deux opérations équiprobables)
2 Notons ˜f l’état dans lequel xi a subi un échange de classe entre j1 et j2.
On note ∆E = Q(˜f) − Q(f0
)
3 si ∆E > 0 alors f1
= ˜f
4 sinon f1
= ˜f avec probabilité e∆E/T
et f1
= f0
avec probabilité e−∆E/T
5 On diminue T
3 On stoppe à stabilisation de l’algorithme.

Algorithme de recuit simulé pour optimisation de la
modularité
Algorithme
1 On initialise la classiﬁcation des sommets à un état aléatoire
f0
∈ {1, . . . , m}⊗n
2 On répète
1 On tire deux classes j1 et j2 dans {1, . . . , m} et un sommet xi dans
(f0
)−1
(j1) ∩ (f0
)−1
(j2) (les deux opérations équiprobables)
2 Notons ˜f l’état dans lequel xi a subi un échange de classe entre j1 et j2.
On note ∆E = Q(˜f) − Q(f0
)
3 si ∆E > 0 alors f1
= ˜f
4 sinon f1
= ˜f avec probabilité e∆E/T
et f1
= f0
avec probabilité e−∆E/T
5 On diminue T
3 On stoppe à stabilisation de l’algorithme.
Chacun des calculs ∆E ne coûte “presque rien” (multiplication vectorielle).

Exemples
Optimisation de la modularité sur le réseau de collaborations

Exemples
Optimisation de la modularité organisée sur le réseau de
collaborations

Conclusions et perspectives
Ce que nous avons proposé :
Approches alternatives à la recherche et à l’organisation de
communautés non basées sur des décompositions spectrales ;
Ajout d’un aspect visualisation à la classiﬁcation.

Conclusions et perspectives
Ce que nous avons proposé :
Approches alternatives à la recherche et à l’organisation de
communautés non basées sur des décompositions spectrales ;
Ajout d’un aspect visualisation à la classiﬁcation.
Questions et travail en cours :
Vitesse de convergence du recuit simulé dans ce cas particulier ?
Comment superposer / comparer des cartes ?
Utilisation d’un algorithme de recuit en champ moyen, plus efﬁcace
que le recuit simulé.
Quel critère de comparaison de deux organisations sur une carte ?

Sommaire
1 Classiﬁcation et organisation de graphes
Motivations
Outils existants et limites : cartes auto-organisatrices à noyau
Une approche stochastique : algorithme de recuit simulé
2 Recherche d’informations

Présentation du contexte et relations avec les
graphes
Jeu de données :
des documents décrits par des mots

graphes
Jeu de données :
Problème : Une requête (décrite aussi par des mots) est confrontée aux
documents. Quels sont les documents pertinents pour cette requête ?

graphes
Jeu de données :
Modélisation par un graphe biparti
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m

graphes
Jeu de données :
Modélisation par un graphe pondéré

Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour construire
une “distance” entre sommets (notamment entre documents et entre
une requête et un document).

La règle de réponse à la requête est alors :
1 Déterminer K(r, xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité)

La règle de réponse à la requête est alors :
1 Déterminer K(r, xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité)
Problème : Les graphes bipartis considérés dans ces problèmes ont
plusieurs milliers de sommets... Nécessité d’un ﬁltre préalable pour
diminuer la taille du graphe.

Un exemple basé sur la base de données CRAN
Similarité basée sur le graphe des correspondances

Similarité basée sur le graphe biparti

Similarité basée sur le graphe biparti
Conclusion : Ne semble pas très pertinent pour ce type de graphes...
Reste à explorer la classiﬁcation de documents !

Références
Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).
Batch kernel SOM and related laplacian methods for social network analysis.
Neurocomputing, 71(7-9):1257–1273.
Newman, M. (2006).
Finding community structure in networks using the eigenvectors of matrices.
Physical Review, E, 74(036104).
Newman, M. and Girvan, M. (2004).
Finding and evaluating community structure in networks.
Physical Review, E, 69:026113.
Truong, Q., Dkaki, T., and Charrel, P. (2007).
An energy model for the drawing of clustered graphs.
In Proceedings of Vème colloque international VSST, Marrakech, Maroc.
Truong, Q., Dkaki, T., and Charrel, P. (2008).
Clustered graphs drawing.
In Proceedings of Stimulating Manufacturing Excellence in SME, Hammamet, Tunisie.
Villa, N., Rossi, F., and Truong, Q. (2008).
Mining a medieval social network by kernel som and related methods.
In Proceedings of MASHS 2008 (Modèles et Apprentissages en Sciences Humaines et Sociales), Créteil, France.

Fouille de données pour de grands graphes. Recherche de communautés et organisation

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (7)

Similaire à Fouille de données pour de grands graphes. Recherche de communautés et organisation

Similaire à Fouille de données pour de grands graphes. Recherche de communautés et organisation (20)

Plus de tuxette

Plus de tuxette (20)

Fouille de données pour de grands graphes. Recherche de communautés et organisation