Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Contexte et motivations
Cartes de Kohonen
Noyau de la chaleur
Résultats
Fouille de données issues d’un grand graphe
par carte de Kohonen à noyau
Nathalie Villa-Vialaneix
En collaboration avec Fabrice Rossi, Romain Boulet & Bertrand
Jouve
Institut de Mathématiques de Toulouse, France -
nathalie.villa@math.univ-toulouse.fr
Séminaire BIA Toulouse, 13 mars 2008
Nathalie Villa Séminaire BIA - 13 mars 2008

Cartes de Kohonen
Noyau de la chaleur
Résultats
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
3 Noyau de la chaleur
4 Résultats

Cartes de Kohonen
Noyau de la chaleur
Résultats
Explorer une grosse base de données historique
Data
1000 contrats agraires,
de 4 seigneuries (environ 10 villages) du Lot,
établis entre 1250 et 1350 (avant la guerre de cent ans).

Cartes de Kohonen
Noyau de la chaleur
Résultats
Data
Questions des historiens :
les liens sociaux sont-ils familiaux ? géographiques ?
peut-on trouver des personnalités ayant un rôle social
prépondérant ? des familles ?
. . .

Cartes de Kohonen
Noyau de la chaleur
Résultats
Data
Questions des historiens :
les liens sociaux sont-ils familiaux ? géographiques ?
peut-on trouver des personnalités ayant un rôle social
prépondérant ? des familles ?
. . .
⇒ Data mining est nécessaire.

Cartes de Kohonen
Noyau de la chaleur
Résultats
Un problème modélisé par un graphe
À partir de la base de données, construire un graphe pondéré:
avec 615 sommets x1, . . . , xn := paysans nommés dans les
contrats ;

Cartes de Kohonen
Noyau de la chaleur
Résultats
contrats ;
avec des poids (wi,j)i,j=1,...,n := {contrats où xi et xj sont cités
simultanément}.

Cartes de Kohonen
Noyau de la chaleur
Résultats
contrats ;
simultanément}.
Nombre de sommets : 615
Nombres d’arêtes : 4193
Total des poids : 40 329
Diametre : 10
Densité : 2,2%

Cartes de Kohonen
Noyau de la chaleur
Résultats
contrats ;
simultanément}.
Nombre de sommets : 615
Nombres d’arêtes : 4193
Total des poids : 40 329
Diametre : 10
Densité : 2,2%
Classer les sommets en groupes sociaux homogènes pour
comprendre la structure globale de la communauté paysanne.

Cartes de Kohonen
Noyau de la chaleur
Résultats
Un double objectif : classiﬁcation et organisation

Cartes de Kohonen
Noyau de la chaleur
Résultats
Classer les sommets en groupes de proximité. . .

Cartes de Kohonen
Noyau de la chaleur
Résultats
Classer les sommets en groupes de proximité. . . et organiser les groupes.

Cartes de Kohonen
Noyau de la chaleur
Résultats
Principe général de l’algorithme de Kohonen
[Kohonen, 2001]
Soient des données (xi)i=1,...,n ∈ H (espace vectoriel de grande
dimension, graphe, . . . ).

Cartes de Kohonen
Noyau de la chaleur
Résultats
[Kohonen, 2001]
Chaque xi est affecté à un neurone (une classe) de la carte, f(xi).
Les neurones sont déﬁnis les uns par rapport aux autres par une
relation de voisinage (“distance”: d).

Cartes de Kohonen
Noyau de la chaleur
Résultats
[Kohonen, 2001]
p1
p2
p3
1
2
3
Chaque neurone j de la carte est représenté par un prototype pj.
Les couples (j, pj) et (xi, f(xi)) dépendent l’un de l’autre et sont
remis à jour itérativement.

Cartes de Kohonen
Noyau de la chaleur
Résultats
Préserver la topologie des données dans H
Énergie
Le but est de minimiser l’énergie de la carte :
E =
M
i=1
h(d(f(x), i)) x − pi
2
H dP(x)
où h est une fonction décroissante (ex : h(t) = αe−t/2σ2
).

Cartes de Kohonen
Noyau de la chaleur
Résultats
Préserver la topologie des données dans H
Énergie
Le but est de minimiser l’énergie de la carte :
E =
M
i=1
h(d(f(x), i)) x − pi
2
H dP(x)
où h est une fonction décroissante (ex : h(t) = αe−t/2σ2
).
L’énergie est approchée par sa version empirique :
En
=
n
j=1
M
i=1
h(d(f(xj), i)) xj − pi
2
H .
et la minimisation est approchée par l’algorithme SOM.

Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
Initialiser de manière aléatoire γ0
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
xi. Ensuite, pour l = 1, . . . , n répéter

Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
Phase d’affectation
pour tout xi,
fl
(xi) = arg min
j=1,...,M
xi −
n
i=1
γl
jixi
H

Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
pour tout xi,
fl
(xi) = arg min
j=1,...,M
xi −
n
i=1
γl
jixi
H
Phase de représentation
γl
j = arg min
γ∈Rn
n
i=1
h(fl
(xi), j) xi −
n
l =1
γl xl
2
H

Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch SOM
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
pour tout xi,
fl
(xi) = arg min
j=1,...,M
xi −
n
i=1
γl
jixi
H
γl
j = arg min
γ∈Rn
n
i=1
h(fl
(xi), j) xi −
n
l =1
γl xl
2
H
Problème : Quelle “distance” déﬁnir entre deux sommets ???

Cartes de Kohonen
Noyau de la chaleur
Résultats
Dissimilarités usuelles entre sommets
L’indice de Dice (Jaccard) :
D(xi, xj) =
Γ(xi) ∩ Γ(xj)
|Γ(xi)| + |Γ(xj)|
(graphes non pondérés) ;

Cartes de Kohonen
Noyau de la chaleur
Résultats
D(xi, xj) =
Γ(xi) ∩ Γ(xj)
|Γ(xi)| + |Γ(xj)|
Dissimilarités basées sur les plus courts chemins ;

Cartes de Kohonen
Noyau de la chaleur
Résultats
D(xi, xj) =
Γ(xi) ∩ Γ(xj)
|Γ(xi)| + |Γ(xj)|
Dissimilarités basées sur les plus courts chemins ;
Dissimilarités ou distances basées sur le Laplacien : “spectral
clustering”.

Cartes de Kohonen
Noyau de la chaleur
Résultats
Laplacien [Kondor and Lafferty, 2002]
Déﬁnitions
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n
j=1 wi,j,
Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;

Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
KerL = Span{IA1
, . . . , IAk
} où Ai indique les positions des sommets
de la ième composante connexe du graphe.
1
4
5
2
3
KerL = Span





1
0
0
1
1


;


0
1
1
0
0






Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont les
sommets possèdent les mêmes voisins à l’extérieur de la clique.
Laplacien and communautés parfaites
Pour un graphe non pondéré,
Le graphe a une communauté parfaite à m sommets
⇔
L possède m vecteurs propres qui ont les mêmes n − m
coordonnées nulles.

Cartes de Kohonen
Noyau de la chaleur
Résultats
Application :

Cartes de Kohonen
Noyau de la chaleur
Résultats
Application :
Limite : Seuls 1/3 des sommets du graphe peuvent être
représentés de cette manière.

Cartes de Kohonen
Noyau de la chaleur
Résultats
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale : Supposons que le graphe soit
connexe.
Trouver une classiﬁcation des sommets du graphe, A1, . . . , Ak telle
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai

Cartes de Kohonen
Noyau de la chaleur
Résultats
connexe.
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale , est équivalent à
H = arg min
h∈Rn×k
Tr hT
Lh subject to
hT
h = I
hi = 1/
√
|Ai|1Ai
⇒ problème NP-complet.

Cartes de Kohonen
Noyau de la chaleur
Résultats
connexe.
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I

Cartes de Kohonen
Noyau de la chaleur
Résultats
connexe.
que
1
2
k
i=1 j∈Ai,j Ai
wj,j
est minimale peut être approché par
H = arg min
h∈Rn×k
Tr hT
Lh subject to hT
h = I
Spectral clustering : Trouver les vecteurs propres associés aux k
plus petites valeurs propres de L, H, et faire la classiﬁcation sur les
colonnes de H.

Cartes de Kohonen
Noyau de la chaleur
Résultats
Une version régularisée de L
Régularisation : la matrice de diffusion : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur).

Cartes de Kohonen
Noyau de la chaleur
Résultats
Processus de diffusion sur un graphe
Si Z0 = (1 1 1 . . . 1 1)T
est la “chaleur” de chaque sommet au
temps 0 et si une petite fraction de cette chaleur se propage le
long des arêtes du graphe à chaque pas de temps, alors après t
pas de temps, la chaleur des sommets du graphe est :
Zt = (1 + L)t
Z0

Cartes de Kohonen
Noyau de la chaleur
Résultats
Processus de diffusion sur un graphe
Si Z0 = (1 1 1 . . . 1 1)T
est la “chaleur” de chaque sommet au
temps 0 et si une petite fraction de cette chaleur se propage le
long des arêtes du graphe à chaque pas de temps, alors après t
pas de temps, la chaleur des sommets du graphe est :
Zt = (1 + L)t
Z0
Limites : Pas de temps ∆t par : t → t/(∆t) et → ∆t ; alors
(∆t) → 0 (processus de diffusion continu) ce qui donne :
lim Zt = e tL
= K t

Cartes de Kohonen
Noyau de la chaleur
Résultats
Properties
1 Diffusion sur le graphe : kβ(xi, xj) quantité de chaleur
accumulée dans xj après un temps donné si la chaleur 1 est
injectée dans xi au temps 0 et si la diffusion est effectuée de
manière continue le long des arêtes du graphe.
β intensité de la diffusion;

Cartes de Kohonen
Noyau de la chaleur
Résultats
Properties
2 Opérateur régularisant : pour u ∈ Rn
∼ V, uT
Kβu est plus
grand pour les vecteurs u qui varient beaucoup entre deux
sommets “proches” du graphe.
β intensité de la regularisation (pour des petits β, les
voisinages directs sont plus importants);

Cartes de Kohonen
Noyau de la chaleur
Résultats
Properties
2 Opérateur régularisant : pour u ∈ Rn
∼ V, uT
Kβu est plus
grand pour les vecteurs u qui varient beaucoup entre deux
sommets “proches” du graphe.
β intensité de la regularisation (pour des petits β, les
voisinages directs sont plus importants);
3 Propriété de noyau reproduisant : kβ est symétrique et
positif ⇒ ∃ Hilbert space (H, ., . ) et φ : V → H tel que
kβ
(xi, xj) = φ(xi), φ(xj) .

Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch kernel SOM [Villa and Rossi, 2007]
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
φ(xi). Ensuite, pour l = 1, . . . , n répéter
pour tout xi,
fl
(xi) = arg min
j=1,...,M
φ(xi) −
n
i=1
γl
jiφ(xi)
H
γl
j = arg min
γ∈Rn
n
i=1
h(fl
(xi), j) φ(xi) −
n
l =1
γl φ(xl )
2
H

Cartes de Kohonen
Noyau de la chaleur
Résultats
Batch kernel SOM [Villa and Rossi, 2007]
ji
∈ R (i, j = 1, . . . , n) et
p0
j
= n
i=1 γ0
ji
φ(xi). Ensuite, pour l = 1, . . . , n répéter
pour tout xi,
f(xi) = arg min
j=1,...,M
n
u,u =1
γjuγju kβ
(xu, xu ) − 2
n
u=1
γjukβ
(xu, xi)
γl
ji =
h(fl
(xi), j))
n
i =1 h(fl(xi , j))

Cartes de Kohonen
Noyau de la chaleur
Résultats
Cartes obtenues [Boulet et al., 2008]

Cartes de Kohonen
Noyau de la chaleur
Résultats
Cartes obtenues [Boulet et al., 2008]
RICH
465
7 9
9 8
520
324
107
9 2
423
407
408
524
515
510
2 7
150
2
2
2
3
5
4
2
5
2
62
7
3
8
2
9
3
1 0
2
1 1
2
1 2
2
1 3
2
1 4
2
1 5
2
1 6
2
1 7
4
1 8
2
1 9
3
2 0
2
2 1
2
2 2
2
2 3
3
2 4
2
2 5
2
2 6
2
2 7
5
2 8
2
2 9
2
3 0
1 1
3 1
2
3 2
2
3 3
8
3 4
2
3 6
2
3 7
2
3 8
2
3 9
3
4 0
2
4 1
2
4 2
2
4 3
2
4 4
2
4 5
3
4 6
4
4 8
2
4 9
4
5 0
2
5 1
2
5 3
2
5 4
3
5 5
2
5 9
2
6 0
2
6 1
3
6 2
4
6 3
2
6 4
3
6 5
2
6 6
3
6 7
2
6 8
2
6 9
3
7 0
2
7 1
2
7 2
2
7 3
2
7 4
2
7 6
2
7 9

Cartes de Kohonen
Noyau de la chaleur
Résultats
Quelques cartes thématiques
1 Noms
2 Dates et Comparaison
3 Lieux et Comparaison

Cartes de Kohonen
Noyau de la chaleur
Résultats
Représentation globale La Suite...
Réalisée par Dinh Truong et Tao Dkaki

Cartes de Kohonen
Noyau de la chaleur
Résultats
Références
Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).
Batch kernel SOM and related laplacian methods for social network
analysis.
Neurocomputing.
To appear.
Kohonen, T. (2001).
Self-Organizing Maps, 3rd Edition, volume 30.
Springer, Berlin, Heidelberg, New York.
Kondor, R. and Lafferty, J. (2002).
Diffusion kernels on graphs and other discrete structures.
In Proceedings of the 19th International Conference on Machine Learning,
pages 315–322.
Villa, N. and Rossi, F. (2007).
A comparison between dissimilarity SOM and kernel SOM for clustering the
vertices of a graph.
In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07),
Bieleﬁeld, Germany. Nathalie Villa Séminaire BIA - 13 mars 2008

Fouille de données issues d’un grand graphe par carte de Kohonen à noyau

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Plus de tuxette

Plus de tuxette (20)

Fouille de données issues d’un grand graphe par carte de Kohonen à noyau