Fouille de données pour des grands graphes

Fouille de données sur des grands graphes
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
Toulouse School of Economics
Séminaire de Statistique et Applications, Luminy
18 décembre 2008
Luminy (18/12/08) Nathalie Villa Data mining & graphes 1 / 31

Sommaire
1 Motivations
2 Méthodes à noyau pour graphes
3 Optimisation de la modularité

Motivations
Sommaire
1 Motivations

Motivations
Comprendre la structure de grands graphes
Quelques exemples de problèmes modélisés par de grands graphes
1 Réseaux sociaux
• réseaux de connaissances
• réseaux de l’internet
• réseaux de citations

Motivations
1 Réseaux sociaux
2 Réseaux biologiques
• réseaux d’interactions de protéines, de gènes

Motivations
1 Réseaux sociaux
3 documents, préférences (graphes bipartis), . . .

Motivations
1 Réseaux sociaux
3 documents, préférences (graphes bipartis), . . .
Problèmes rencontrés lors de la manipulation de ce type de données :
• comment représenter le graphe de manière lisible et interprétable ?
• quelles méthodes de fouille de données car aucune structure
euclidienne ?
• taille des données (plusieurs centaines ou plusieurs milliers de
sommets...) nécessite de faire attention à la complexité.

Motivations
Exemple réel 1 : un graphe venu du Moyen-Âge
Un très grand corpus
Aux archives de Cahors (Lot), corpus de 5000 contrats agraires. Ces
contrats
• viennent de 4 seigneuries (environ 25 petits villages au total) du
Sud-Ouest de la France ;
• ont été établis entre 1240 et 1520 (avant et après la guerre de cent
ans) ;

Motivations
Exemple réel 1 : un graphe venu du Moyen-Âge
Un très grand corpus
Aux archives de Cahors (Lot), corpus de 5000 contrats agraires. Ces
contrats
• viennent de 4 seigneuries (environ 25 petits villages au total) du
Sud-Ouest de la France ;
• ont été établis entre 1240 et 1520 (avant et après la guerre de cent
ans) ;
Ce corpus intéresse les historiens car :
• seul un petit nombre de documents du Moyen-Âge parlent de la vie
quotidienne des paysans ;
• il peut permettre d’étudier sans a priori l’évolution de la structure du
réseau social avant et après la guerre de 100 ans.

Motivations
Modélisation du réseau social par un graphe
À partir de 1000 contracts datant d’avant la guerre de 100 ans, nous
avons modélisé le réseau social par un graphe pondéré :
• sommets : les paysans nommés dans les contrats (sans les nobles);

Motivations
• 2 paysans sont liés par une arête si :
• ils apparaissent ensemble dans le même contrat ;
• ils apparaissent dans deux contrats différents dans lesquels ils sont
afﬁliés au même seigneur et qui différent l’un de l’autre de moins de 15
ans.

Motivations
ans.
• les arêtes du graphe sont pondérés par (wi,j)i,j=1...,n qui
correspondent au nombre de contrats satisfaisant ces conditions. Les
poids vériﬁent :
• wi,j = wj,i ≥ 0
• wi,i = 0.

Motivations
ans.
• les arêtes du graphe sont pondérés par (wi,j)i,j=1...,n qui
correspondent au nombre de contrats satisfaisant ces conditions. Les
poids vériﬁent :
• wi,j = wj,i ≥ 0
• wi,i = 0.
But : Fournir aux historiens des outils pour les aider à comprendre la
structure de ce réseau social.

Motivations
Première description du graphe
La plus grande composante connexe du réseau social médiéval :
• a 615 sommets (i.e. 615 paysans différents cités dans les contrats),

Motivations
• a 4193 arêtes dont la somme des poids est 40 329 mais 50% de ces
arêtes ont un poids égal à 1 et moins de 2% ont un poids supérieur à
100,

Motivations
100,
• est un “graphe petit monde” avec une petite densité globale (2.2%)
et une grande connectivité locale (77%),

Motivations
100,
• est un “graphe petit monde” avec une petite densité globale (2.2%)
et une grande connectivité locale (77%),
• est un “graphe sans échelle typique”.

Motivations
Exemple réel 2 : Réseau de collaborations scientiﬁques
[Newman, 2006]
Un réseau de collaborations scientiﬁques autour de la thématique des
réseaux sociaux : graphe connexe pondéré avec 379 sommets.

Motivations
Point de vue adopté
[Newman and Girvan, 2004]
“reducing [the] level of complexity [of a network] to one that can be
interpreted readily by the human eye, will be invaluable in helping us to
understand the large-scale structure of these new network data”

Motivations
Méthodologie : Mise en valeur de groupes homogènes (ou fortement
connectés) liés à une visualisation permettant de comprendre facilement
les relations entre ces groupes : outils statistiques liés à la
classiﬁcation (de sommets d’un graphe) et/ou à l’organisation.

Motivations
Méthodologie : Mise en valeur de groupes homogènes (ou fortement
connectés) liés à une visualisation permettant de comprendre facilement
les relations entre ces groupes : outils statistiques liés à la
classiﬁcation (de sommets d’un graphe) et/ou à l’organisation.
Problématique de la recherche de communautés: groupes sociaux
homogènes, groupes de protéines, de gènes fortement liés, etc...

Méthodes à noyau pour graphes
Sommaire
1 Motivations

Principe général de “Batch kernel SOM”
[Villa and Rossi, 2007, Boulet et al., 2008]
Les sommets du graphe sont plongés dans un espace euclidien (par le
biais d’un noyau).

Chaque sommet xi est assigné à un neurone (une classe) de la carte de
Kohonen, f(xi).
Les neurones sont dépendants les un des autres par une relation de
voisinage (“distance”: d).

p1
p2
p3
1
2
3
Chaque neurone j de la carte est représenté par un prototype pj.
Les couples (j, pj) et (xi, f(xi)) dépendent l’un de l’autre et sont mis à jour
alternativement aﬁn d’approcher la minimisation de l’énergie de la carte :
En
=
n
j=1
M
i=1
h(d(f(xj), i)) φ(xi) − pj
2

“Astuce noyau” et calcul de l’énergie
On utilise les propriétés de noyau reproduisant de K pour écrire l’énergie :
En
=
n
j=1
M
i=1
2

En
=
n
j=1
M
i=1
2
=
n
j=1
M
i=1
h(d(f(xj), i)) φ(xi) −
n
k=1
αj
k
φ(xk ) 2

En
=
n
j=1
M
i=1
2
=
n
j=1
M
i=1
h(d(f(xj), i)) φ(xi) −
n
k=1
αj
k
φ(xk ) 2
=
n
j=1
M
i=1
h(d(f(xj), i))

K(xi, xi) − 2
n
k=1
αj
k
K(xi, xk )
+
n
k,k =1
αk αk K(xk , xk )


où K(x, x ) = φ(x), φ(x ) H .

Quel noyau ?
Déﬁnition du Laplacien [Kondor and Lafferty, 2002]
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n
j=1 wi,j,
Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;

Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les positions des sommets de la
ième composante connexe du graphe.
1
4
5
2
3
KerL = Span





1
0
0
1
1


;


0
1
1
0
0






Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont les sommets
possèdent les mêmes voisins à l’extérieur de la clique.
Laplacien and communautés parfaites
Pour un graphe non pondéré,
Le graphe a une communauté parfaite à m sommets
⇔
L possède m vecteurs propres qui ont les mêmes n − m coordonnées
nulles.

Application :

Application :
Limite : Seuls 1/3 des sommets du graphe peuvent être représentés de
cette manière.

Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit connexe.
Trouver une classiﬁcation des sommets du graphe, A1, . . . , Ak telle que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai

1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
⇒ problème NP-complet.

1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I

1
2
k
i=1 j∈Ai,j Ai
wj,j
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Spectral clustering : Trouver les vecteurs propres associés aux k plus
petites valeurs propres de L, H, et faire la classiﬁcation sur les colonnes
de H.

1
2
k
i=1 j∈Ai,j Ai
wj,j
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Spectral clustering : Trouver les vecteurs propres associés aux k plus
petites valeurs propres de L, H, et faire la classiﬁcation sur les colonnes
de H.
Quelques problèmes du “spectral clustering” : Utilisation d’une partie
du spectre seulement (laquelle ?), a tendance à produire un faible nombre
de classes de très grosses tailles et beaucoup de micro classes (un à cinq
individus).

Des versions régularisées de L
1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur)

Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj et
que la diffusion se fait de manière continue le long des arêtes du
graphe.

Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
graphe.
2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.

Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
Kβ
: V × V → R
(xi, xj) → K
β
i,j
graphe.
2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.
Temps moyen pour atteindre xi à partir de xj lors d’une marche
aléatoire sur le graphe.

Exemple de résultat obtenu
Réseau social médiéval avec noyau de la chaleur [Boulet et al., 2008]

Exemple de résultat obtenu
Réseau de collaborations avec inverse généralisée
Questions : Comment utiliser ce travail de classiﬁcation comme première
étape d’une représentation complète du graphe ? Comment représenter
complètement la classiﬁcation (ie, le plongement du graphe sur la carte) ?

Algorithmes force et repousse contraints
[Truong et al., 2007, Truong et al., 2008, Villa et al., 2008] La Suite...
En ajoutant des contraintes sur les algorithmes de force et repousse

Optimisation de la modularité
Sommaire
1 Motivations

Pourquoi une approche alternative aux approches à
noyau ?
Limites de ces approches :
• nécessitent une décomposition spectrale du Laplacien : trop
coûteuse si le graphe a plusieurs milliers de sommets ;
• dépendent du choix du noyau (ie, de la structure euclidienne placée
sur les sommets) ;
• problèmes de sélection des paramètres (noyau, taille de la carte)
car le critère de qualité habituel de l’algorithme de Kohonen (énergie)
dépend de ces paramètres.

Un critère de mesure de la qualité de la classiﬁcation
[Newman and Girvan, 2004] ont proposé une mesure de qualité d’un
découpage en communautés, la modularité :
Q = {arêtes à l’intérieur des communautés}
− {arêtes attendues dans un modèle “nul”}

Que peut-être le modèle nul ? Différentes déﬁnitions sont
possibles. . . [Newman, 2006] propose
• le nombre d’arêtes du modèle nul est celui du graphe observé ;
• le degré de chaque sommet du modèle nul est celui du graphe
observé (l’attachement à un individu de fort degré est plus probable).

Que peut-être le modèle nul ? Différentes déﬁnitions sont
possibles. . . [Newman, 2006] propose
• le nombre d’arêtes du modèle nul est celui du graphe observé ;
• le degré de chaque sommet du modèle nul est celui du graphe
observé (l’attachement à un individu de fort degré est plus probable).
Le modèle nul donne pij =
didj
n où di est le degré du sommet xi. On a donc
Q =
1
2p
i,j
[aij − pij] I[C(xi)=C(xj)]
où A = (aij)ij est la matrice d’adjacence du graphe et 2p = aij.

Comment adapter un tel critère dans le cadre
“classiﬁcation organisée” ? [Rossi and Villa, 2008]
Si h est une similarité sur la carte (h(i, j) = e−γd(i,j)2
),

),
une approche organisée de la modularité est obtenue par maximisation
sur l’ensemble des plongements possibles sur la carte des noeuds du
graphe de :
S =
i,j
h(f(xi), f(xj)) (aij − pij)
où f(xi) désigne le neurone dans lequel le sommet xi est classé.

),
une approche organisée de la modularité est obtenue par maximisation
sur l’ensemble des plongements possibles sur la carte des noeuds du
graphe de :
S =
i,j
h(f(xi), f(xj)) (aij − pij)
où f(xi) désigne le neurone dans lequel le sommet xi est classé.
Problème : La maximisation de Q ou de S sont des problèmes
NP-complets (nombre de classiﬁcations possibles sur la carte : m2n
).

Optimisation de modularité par recuit simulé en cours avec
Sébastien Gadat, IMT
Principe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou
−S(f)), on simule de manière stochastique (chaîne de Markov sur les
états, f : classiﬁcations des sommets),la probabilité
PT (f) =
e−E(f)/T
g e−E(g)/T
.

Optimisation de modularité par recuit simulé en cours avec
Sébastien Gadat, IMT
Principe : Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f) ou
−S(f)), on simule de manière stochastique (chaîne de Markov sur les
états, f : classiﬁcations des sommets),la probabilité
PT (f) =
e−E(f)/T
g e−E(g)/T
.
Lorque T → 0, PT (f) se concentre sur minf E(f).

Algorithme de recuit simulé pour optimisation de la
modularité
Algorithme
1 On initialise la classiﬁcation des sommets à un état aléatoire
f0
∈ {1, . . . , m}⊗n
2 On répète
1 On tire deux classes j1 et j2 dans {1, . . . , m} et un sommet xi dans
(f0
)−1
(j1) ∩ (f0
)−1
(j2) (les deux opérations équiprobables)
2 Notons ˜f l’état dans lequel xi a subi un échange de classe entre j1 et j2.
On note ∆E = Q(˜f) − Q(f0
)
3 si ∆E > 0 alors f1
= ˜f
4 sinon f1
= ˜f avec probabilité e∆E/T
et f1
= f0
avec probabilité e−∆E/T
5 On diminue T
3 On stoppe à stabilisation de l’algorithme.

Algorithme de recuit simulé pour optimisation de la
modularité
Algorithme
1 On initialise la classiﬁcation des sommets à un état aléatoire
f0
∈ {1, . . . , m}⊗n
2 On répète
1 On tire deux classes j1 et j2 dans {1, . . . , m} et un sommet xi dans
(f0
)−1
(j1) ∩ (f0
)−1
(j2) (les deux opérations équiprobables)
2 Notons ˜f l’état dans lequel xi a subi un échange de classe entre j1 et j2.
On note ∆E = Q(˜f) − Q(f0
)
3 si ∆E > 0 alors f1
= ˜f
4 sinon f1
= ˜f avec probabilité e∆E/T
et f1
= f0
avec probabilité e−∆E/T
5 On diminue T
3 On stoppe à stabilisation de l’algorithme.
Chacun des calculs ∆E ne coûte “presque rien” (multiplication vectorielle).

Exemples
Optimisation de la modularité sur le réseau de collaborations

Optimisation de modularité organisée par recuit
déterministe [Rossi and Villa, 2008]
Principe général : Approcher EPT
(f) = eS(f)/T
g eS(g)/T en approchant PT par
une distribution qui se factorise:
• PT (f) est approchée par RE
T
(f) = e i,k Fik Eik /T
g e i,k Gik Eik /T où F (resp. G) est la
matrice d’affectation de taille n × m de la classiﬁcation f (resp. g) et E
est une matrice réelle de même taille.

(f) = eS(f)/T
T
Sous RE
T
(f), les Fik sont indépendants pour i = 1, . . . , n.

(f) = eS(f)/T
T
Sous RE
T
• On choisit E de manière à minimiser la distance de
Kullback-Leibler : KL(R|P) = f RE
T
(f) log
RE
T
(f)
PT (f)
.

(f) = eS(f)/T
T
Sous RE
T
• On choisit E de manière à minimiser la distance de
Kullback-Leibler : KL(R|P) = f RE
T
(f) log
RE
T
(f)
PT (f)
.
• Les quantités E et ERE
T
(Fik ) sont estimées itérativement
alternativement par un algorithme EM.

Algorithme de recuit déterministe pour optimisation de la
modularité organisée
Algorithme
Pour une suite décroissante de valeurs T1, T2, . . . , TL ,
1 On initialise ERE
T
(Fik ) de manière aléatoire dans [0, 1]
2 On répète pour l = 1, . . . , L
1 Phase E : Eik = 2 j i k ERE
T
(Fjk )Hkk Bji où H est la matrice des
similarités sur la carte et B = 1
2p
(A − P);
2 Phase M : ERE
T
(Fik ) = eEik /Tl
k eEik /Tl
3 On convertit ERE
T
(Fik ) en classiﬁcation :
f(xi) = arg max
k=1,...,m
ERE
T
(Fik ).

Exemple : Analyse du réseau de collaborations
scientiﬁques
Recuit déterministe Kernel SOM (Inv. généralisée)
Modularité = 0,836 Modularité = 0,816
% d’arêtes coupées sur la carte : 0 % d’arêtes coupées : 0,04

Conclusions et perspectives
Conclusions
• Présentation d’algorithmes d’organisation pour les graphes
• Approches spectrales, approches issues de l’optimisation
• Ajout d’un aspect visuel

Conclusions et perspectives
Conclusions
• Présentation d’algorithmes d’organisation pour les graphes
• Approches spectrales, approches issues de l’optimisation
• Ajout d’un aspect visuel
Perspectives
• Essai sur de très grands graphes (plusieurs milliers de sommets) :
réseaux biologiques, recherche d’informations
• Comparaison / Évolution ???

Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).
Batch kernel SOM and related laplacian methods for social network analysis.
Neurocomputing, 71(7-9):1257–1273.
Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).
Random-walk computation of similarities between nodes of a graph, with application to collaborative recommendation.
IEEE Transactions on Knowledge and Data Engineering, 19(3):355–369.
Kondor, R. and Lafferty, J. (2002).
Diffusion kernels on graphs and other discrete structures.
In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.
Newman, M. (2006).
Finding community structure in networks using the eigenvectors of matrices.
Physical Review, E, 74(036104).
Newman, M. and Girvan, M. (2004).
Finding and evaluating community structure in networks.
Physical Review, E, 69:026113.
Rossi, F. and Villa, N. (2008).
Topologically ordered graph clustering via deterministic annealing.
soumis.
Truong, Q., Dkaki, T., and Charrel, P. (2007).
An energy model for the drawing of clustered graphs.
In Proceedings of Vème colloque international VSST, Marrakech, Maroc.
Truong, Q., Dkaki, T., and Charrel, P. (2008).
Clustered graphs drawing.
In Proceedings of Stimulating Manufacturing Excellence in SME, Hammamet, Tunisie.
Villa, N. and Rossi, F. (2007).
A comparison between dissimilarity SOM and kernel SOM for clustering the vertices of a graph.

In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07), Bieleﬁeld, Germany.
Villa, N., Rossi, F., and Truong, Q. (2008).
Mining a medieval social network by kernel som and related methods.
In Proceedings of MASHS 2008 (Modèles et Apprentissages en Sciences Humaines et Sociales), Créteil, France.
von Luxburg, U. (2007).
A tutorial on spectral clustering.
Statistics and Computing, 17(4):395–416.

Fouille de données pour des grands graphes

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (7)

Plus de tuxette

Plus de tuxette (20)

Fouille de données pour des grands graphes