Carte de Kohonen par noyau et application a la classification de sommets de graphes

Contexte et motivations
Cartes de Kohonen
Application
Références
Carte de Kohonen par noyau et application à
la classiﬁcation de sommets de graphes
Nathalie Villa-Vialaneix(1) Fabrice Rossi(2)
(1)Institut de Mathématiques de Toulouse, France -
nathalie.villa@math.univ-toulouse.fr
(2)Projet AxIS, INRIA Rocquencourt, France
Groupe de travail STAPH, 14 Janvier 2008
Nathalie Villa & Fabrice Rossi Groupe de travail STAPH - 14 janvier 2008

Cartes de Kohonen
Application
Références
Sommaire
1 Contexte et motivations
2 Cartes de Kohonen
Présentation de l’algorithme de cartes de Kohonen
Adaptation pour données représentées par un tableau de
dissimilarités
Cartes de Kohonen à noyau
3 Application

Cartes de Kohonen
Application
Références
Table of contents
2 Cartes de Kohonen
dissimilarités
3 Application

Cartes de Kohonen
Application
Références
Graphes
Les données
On considère un graphe G constitué de
1 n sommets : x1, . . . , xn ;
2 un ensemble d’arêtes pondérées, E, caractérisé par des
poids w(xi, xj) tels que w(xi, xj) = w(xj, xi), w(xi, xi) = 0 et
w(xi, xj) ≥ 0.
Alors, n
j=1 w(xi, xj) ≡ di (degré du sommet xi).

Cartes de Kohonen
Application
Références
Objectif
Pour simpliﬁer la structure du graphe, obtenir une classiﬁcation
des sommets en groupes de proximités (deux sommets sont dans
la même classe si il existe un poids fort entre eux OU si ils ont
beaucoup de voisins en commun).

Cartes de Kohonen
Application
Références
Objectif
Pour simpliﬁer la structure du graphe, obtenir une classiﬁcation
des sommets en groupes de proximités (deux sommets sont dans
la même classe si il existe un poids fort entre eux OU si ils ont
beaucoup de voisins en commun).
Problème : Le graphe ne possède aucune structure euclidienne
naturelle !

Cartes de Kohonen
Application
Références
Un exemple concret : les réseaux sociaux
Graphe construit à partir d’un corpus d’archives médiévales
À partir de 1000 contrats agraires du
Moyen-Âge (1250-1350), on construit un graphe :
Sommets : paysans cités dans les contrats ;
Poids : nombre de mentions communes de deux paysans.
Nombre de sommets : 615
Nombre d’arêtes : 4193
Somme totale des poids : 40 329
Diamètre : 10
Densité : 2,2%

Cartes de Kohonen
Application
Références
Communautés
Classes d’individus fortement liés ≡ communautés (problématique
importante dans le domaine des réseaux sociaux).

Cartes de Kohonen
Application
Références
Communautés
Classes d’individus fortement liés ≡ communautés (problématique
importante dans le domaine des réseaux sociaux). Ici :
Classiﬁcation et organisation : trouver des groupes pertinants
d’individus et comprendre la structure des relations entre ces
groupes.
Réduction de la complexité du réseau initial par l’utilisation d’un
plongement sur des carte de Kohonen.

Cartes de Kohonen
Application
Références
Références
Villa, N. & Boulet, R. (2007) Clustering a medieval social network by SOM
using a kernel based distance measure. In proceedings of ESANN 2007,
M. Verleysen Ed., Bruges, Belgique, 31-38. [Villa and Boulet, 2007]
Villa, N. & Rossi, F. (2007) A comparison between dissimilarity SOM and
kernel SOM for clustering the vertices of a graph. In proceedings of WSOM
2007, Bielefeld, Allemagne, 3/6 septembre. [Villa and Rossi, 2007]
Boulet, R., Jouve, B., Rossi, F. & Villa, N. (2008) Batch kernel SOM and
related Laplacian methods for social network analysis. Neurocomputing. À
paraître. [Boulet et al., 2008]

Cartes de Kohonen
Application
Références
Dissimilarités
Table of contents
2 Cartes de Kohonen
dissimilarités
3 Application

Cartes de Kohonen
Application
Références
Dissimilarités
Un algorithme neuronal de classiﬁcation non
supervisée
Données et principe
Données : x1, . . . , xn ∈ Rk
(k grand).

Cartes de Kohonen
Application
Références
Dissimilarités
supervisée
(k grand).
“Projeter” x1, . . . , xn sur une carte de faible dimension (1 ou 2) qui
préserve la topologie initiale des données ([Kohonen, 2001]).

Cartes de Kohonen
Application
Références
Dissimilarités
supervisée
(k grand).
“Projeter” x1, . . . , xn sur une carte de faible dimension (1 ou 2) qui
préserve la topologie initiale des données ([Kohonen, 2001]).
Grille rectangulaire (dimension 2)
un neurone
Ficelle (dimension 1)
un neurone

Cartes de Kohonen
Application
Références
Dissimilarités
Relations données / carte
Propriétés de la carte
Chaque neurone de la carte, i = 1, . . . , M est représenté par
un prototype, mi ∈ Rk
;

Cartes de Kohonen
Application
Références
Dissimilarités
;
Les neurones sont liés les uns aux autres par une relation de
voisinage (“distance”: d) :

Cartes de Kohonen
Application
Références
Dissimilarités
;
Les neurones sont liés les uns aux autres par une relation de
voisinage (“distance”: d) :
Propriétés des données
Chaque individu xi est associé à un neurone de la carte, f(xi).

Cartes de Kohonen
Application
Références
Dissimilarités
Préserver au mieux la topologie initiale
Énergie
On cherche à minimiser l’énergie de la carte :
E =
M
i=1
h(d(f(x), i)) x − mi
2
dP(x)
où h est une fonction décroissante (ex : h(t) = αe−t/2σ2
).
.

Cartes de Kohonen
Application
Références
Dissimilarités
Énergie
E =
M
i=1
2
dP(x)
).
L’énergie est approchée par sa version empirique :
En
=
n
j=1
M
i=1
h(d(f(xj), i)) xj − mi
2
.
.

Cartes de Kohonen
Application
Références
Dissimilarités
Énergie
E =
M
i=1
2
dP(x)
).
L’énergie est approchée par sa version empirique :
En
=
n
j=1
M
i=1
h(d(f(xj), i)) xj − mi
2
.
Algo de descente de gradient approximation de cette
minimisation.

Cartes de Kohonen
Application
Références
Dissimilarités
Algorithme stochastique
Initialisation : initialiser, ∀ j = 1, . . . , M, m0
j
∈ Rk
;

Cartes de Kohonen
Application
Références
Dissimilarités
j
∈ Rk
;
Répéter (itération L)
1 Phase d’affectation de xL :
f(xL ) := arg min
i=1,...,M
mL−1
i − xL ;

Cartes de Kohonen
Application
Références
Dissimilarités
j
∈ Rk
;
f(xL ) := arg min
i=1,...,M
mL−1
i − xL ;
2 Phase de représentation : ∀ i = 1, . . . , M,
mL
i := mL−1
i + α(L)hL
(d(f(xL ), i))(xL − mL−1
i ) ;

Cartes de Kohonen
Application
Références
Dissimilarités
j
∈ Rk
;
f(xL ) := arg min
i=1,...,M
mL−1
i − xL ;
mL
i := mL−1
i + α(L)hL
(d(f(xL ), i))(xL − mL−1
i ) ;
jusqu’à affectation de tous les (xi)i=1,...,n et stabilisation de la
valeur de l’énergie En
.

Cartes de Kohonen
Application
Références
Dissimilarités
Algorithme “batch” (version “moyenne”)
j
∈ Rk
;

Cartes de Kohonen
Application
Références
Dissimilarités
j
∈ Rk
;
1 Phase d’affectation : ∀ j = 1, . . . , n,
f(xj) := arg min
i=1,...,M
mL−1
i − xj ;

Cartes de Kohonen
Application
Références
Dissimilarités
j
∈ Rk
;
f(xj) := arg min
i=1,...,M
mL−1
i − xj ;
mL
i := arg min
x∈Rk
n
j=1
hL
(d(f(xj), i)) xj − x 2
;
:=
n
j=1 hL
(d(f(xj), i))xj
n
j=1 hL (d(f(xj), i))
moyenne généralisée

Cartes de Kohonen
Application
Références
Dissimilarités
j
∈ Rk
;
f(xj) := arg min
i=1,...,M
mL−1
i − xj ;
mL
i := arg min
x∈Rk
n
j=1
hL
(d(f(xj), i)) xj − x 2
;
:=
n
j=1 hL
(d(f(xj), i))xj
n
j=1 hL (d(f(xj), i))
moyenne généralisée
jusqu’à stabilisation de la valeur de l’énergie En
.

Cartes de Kohonen
Application
Références
Dissimilarités
Adaptations pour les données non vectorielles
décrites par une mesure de dissimilarité
Les données
Données : x1, . . . , xn ∈ V où V est un espace abstrait quelconque.
Dissimilarité : On connait, ∀ i, j = 1, . . . , n, δ(xi, xj) telle que
δ est symétrique ;
δ est positive ;
δ(xi, xi) = 0.

Cartes de Kohonen
Application
Références
Dissimilarités
Les données
δ est positive ;
δ(xi, xi) = 0.
Adaptations : [Kohohen and Somervuo, 1998],
[El Golli et al., 2006]
1 Les propotypes sont un des (xj)j=1,...,n ;

Cartes de Kohonen
Application
Références
Dissimilarités
Les données
δ est positive ;
δ(xi, xi) = 0.
Adaptations : [Kohohen and Somervuo, 1998],
[El Golli et al., 2006]
1 Les propotypes sont un des (xj)j=1,...,n ;
2 La distance euclidienne dans Rk
est remplacée par δ.

Cartes de Kohonen
Application
Références
Dissimilarités
Cartes auto-organisatrices pour données décrites
par un tableau de dissimilarités
j
∈ {x1, . . . , xn} ;

Cartes de Kohonen
Application
Références
Dissimilarités
j
∈ {x1, . . . , xn} ;
f(xj) := arg min
i=1,...,M
δ(mL−1
i , xj) ;

Cartes de Kohonen
Application
Références
Dissimilarités
j
∈ {x1, . . . , xn} ;
f(xj) := arg min
i=1,...,M
δ(mL−1
i , xj) ;
mL
i := arg min
j =1,...,n
n
j=1
hL
(d(f(xj), i))δ(xj, xj ) ;

Cartes de Kohonen
Application
Références
Dissimilarités
j
∈ {x1, . . . , xn} ;
f(xj) := arg min
i=1,...,M
δ(mL−1
i , xj) ;
mL
i := arg min
j =1,...,n
n
j=1
hL
(d(f(xj), i))δ(xj, xj ) ;
jusqu’à stabilisation de la valeur de l’énergie En
.

Cartes de Kohonen
Application
Références
Dissimilarités
Quelques dissimilarités classiques pour graphes
Indice de Jaccard (graphe non pondéré) :
J(xi, xj) =
{k : xk ∼ xi et xk ∼ xj}
{k : xk ∼ xi ou xk ∼ xj
;

Cartes de Kohonen
Application
Références
Dissimilarités
Quelques dissimilarités classiques pour graphes
Indice de Jaccard (graphe non pondéré) :
J(xi, xj) =
{k : xk ∼ xi et xk ∼ xj}
{k : xk ∼ xi ou xk ∼ xj
;
Plongement dans un espace Euclidien à partir des premiers
vecteurs propres du Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
“spectral clustering”.

Cartes de Kohonen
Application
Références
Dissimilarités
Propriétés du Laplacien I [von Luxburg, 2007]
Composantes connexes
Le noyau de la matrice L est engendré par les indicatrices
IA1
, . . . , IAk
des sommets des k composantes connexes du graphe.

Cartes de Kohonen
Application
Références
Dissimilarités
Propriétés du Laplacien II [Boulet et al., 2008]
Communauté parfaite : Sous-graphe complet (clique) dont tous
les sommets ont les mêmes voisins à l’extérieur de la clique.
Détermination de communautés parfaites
Les communautés parfaites d’un graphe non pondéré
correspondent à des groupes de m sommets pour lesquels il
existe m vecteurs propres ayant les mêmes coordonnées
nulles.

Cartes de Kohonen
Application
Références
Dissimilarités
Propriétés du Laplacien III [von Luxburg, 2007]
Problème de la coupe optimale
Supposons maintenant que notre graphe soit connexe.
Le problème (optimisation discrète) de trouver une partition du
graphe en k groupes de sommets, A1, . . . , Ak qui minimise
1
2
k
i=1 j∈Ai,j Ai
wj,j
est approché par le problème d’optimisation continue suivant
min
H∈Rn×k
Tr HT
LH subject to HT
H = I

Cartes de Kohonen
Application
Références
Dissimilarités
Une version régularisée de L
Régularisation : la matrice de diffusion : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur).

Cartes de Kohonen
Application
Références
Dissimilarités
Marche aléatoire sur le graphe
Si Z0 = (1 1 1 . . . 1 1)T
est le score “d’énergie” dans chaque
sommet du graphe et si cette énergie est diffusée le long des
arêtes du graphe selon une petite fraction sur chaque arête et
à chaque pas de temps. Alors, au bout de n pas de temps, le
score dans les sommets du graphe s’écrit :
Zn = (1 + L)n
Z0

Cartes de Kohonen
Application
Références
Dissimilarités
Marche aléatoire sur le graphe
Si Z0 = (1 1 1 . . . 1 1)T
est le score “d’énergie” dans chaque
sommet du graphe et si cette énergie est diffusée le long des
arêtes du graphe selon une petite fraction sur chaque arête et
à chaque pas de temps. Alors, au bout de n pas de temps, le
score dans les sommets du graphe s’écrit :
Zn = (1 + L)n
Z0
Limites : Pas de temps : n → t/(∆t) et α → α∆t puis
(∆t) → 0 (processus continu) ; alors,
lim Zn = eαtL
= kαt

Cartes de Kohonen
Application
Références
Dissimilarités
Intérêts
1 Interprétation intuitive : kβ(i, j) peut être interprétée comme
l’énergie accumulée en i lorsque l’énergie a été injectée en j
au temps 0 et que l’énergie circule de manière continue dans
les arêtes du graphe selon une fraction qui dépend de β.

Cartes de Kohonen
Application
Références
Dissimilarités
Intérêts
1 Interprétation intuitive : kβ(i, j) peut être interprétée comme
l’énergie accumulée en i lorsque l’énergie a été injectée en j
au temps 0 et que l’énergie circule de manière continue dans
les arêtes du graphe selon une fraction qui dépend de β.
2 Plongement dans un espace de Hilbert : ∃ (Hβ, ., . β) et
φβ : G → Hβ tels que
kβ
(xi, xj) = φβ
(xi), φβ
(xj) β
⇒ δβ(xi, xj) = kβ(xi, xi) + kβ(xj, xj) − 2kβ(xi, xj) est une
dissimilarité [Villa and Boulet, 2007].

Cartes de Kohonen
Application
Références
Dissimilarités
kernel SOM [Lau et al., 2006]
Utiliser l’algorithme de carte de Kohonen dans le RKHS :

Cartes de Kohonen
Application
Références
Dissimilarités
Le prototype du neurone i est dans Hβ et est de la forme
pi =
n
j=1
γjiφβ
(xj);

Cartes de Kohonen
Application
Références
Dissimilarités
Le prototype du neurone i est dans Hβ et est de la forme
pi =
n
j=1
γjiφβ
(xj);
φ est implicite car ∀ i, j = 1, . . . , n,
φβ
(xi) − φβ
(xj) 2
= kβ
(xi, xi) + kβ
(xj, xj) − 2kβ
(xi, xj);

Cartes de Kohonen
Application
Références
Dissimilarités
Algorithme (on line)
Phase d’affectation: pour xl,
arg min
j=1,...,M


n
i=1
γijkβ
(xl, xi) −
n
i,i =1
γijγi jkβ
(xi, xi )



Cartes de Kohonen
Application
Références
Dissimilarités
Algorithme (on line)
Phase d’affectation: pour xl,
arg min
j=1,...,M


n
i=1
γijkβ
(xl, xi) −
n
i,i =1
γijγi jkβ
(xi, xi )


Phase de représentation: pl
i
= n
j=1 γl
ji
φβ(xj):
γl
ji = γl−1
ji + α(l)h(d(fl
(xl), j)) Iil − γl−1
ji

Cartes de Kohonen
Application
Références
Dissimilarités
Comment passer de SOM pour dissimilarité à SOM à
noyau ? [Villa and Rossi, 2007]
En généralisant SOM pour dissimilarité au cas où le prototype du
neurone i est de la forme :
pj =
n
i=1
γjiφβ(xi);
on peut déduire la version globale (batch) de l’algorithme de
carte de Kohonen par noyau.

Cartes de Kohonen
Application
Références
Dissimilarités
Phase d’affectation
Pour xi,
arg min
j=1,...,M
δβ(xi, pl−1
j )
Phase de représentation
pl
j = arg min
x∈(xi )i =1,...,n
n
i=1
h(d(fl
(xi), j))δβ(xi, x)

Cartes de Kohonen
Application
Références
Dissimilarités
Pour xi,
arg min
j=1,...,M
xi −
n
i=1
γjiφβ(xi)
β
γl
j = arg min
γ∈Rn
n
i=1
h(d(fl
(xi), j)) xi −
n
l =1
γl φβ(xl )
2
β

Cartes de Kohonen
Application
Références
Dissimilarités
Pour xi,
arg min
j=1,...,M
n
u,u =1
γjuγju kβ
(xu, xu ) − 2
n
u=1
γjukβ
(xu, xi)
γl
ji =
h(d(fl
(xi), j)))
n
i =1 h(d(fl(xi , j)))

Cartes de Kohonen
Application
Références
Cartes obtenues [Boulet et al., 2008]

Cartes de Kohonen
Application
Références
Cartes obtenues [Boulet et al., 2008]
RICH
465
7 9
9 8
520
324
107
9 2
423
407
408
524
515
510
2 7
150
2
2
2
3
5
4
2
5
2
62
7
3
8
2
9
3
1 0
2
1 1
2
1 2
2
1 3
2
1 4
2
1 5
2
1 6
2
1 7
4
1 8
2
1 9
3
2 0
2
2 1
2
2 2
2
2 3
3
2 4
2
2 5
2
2 6
2
2 7
5
2 8
2
2 9
2
3 0
1 1
3 1
2
3 2
2
3 3
8
3 4
2
3 6
2
3 7
2
3 8
2
3 9
3
4 0
2
4 1
2
4 2
2
4 3
2
4 4
2
4 5
3
4 6
4
4 8
2
4 9
4
5 0
2
5 1
2
5 3
2
5 4
3
5 5
2
5 9
2
6 0
2
6 1
3
6 2
4
6 3
2
6 4
3
6 5
2
6 6
3
6 7
2
6 8
2
6 9
3
7 0
2
7 1
2
7 2
2
7 3
2
7 4
2
7 6
2
7 9

Cartes de Kohonen
Application
Références
Quelques cartes thématiques
1 Noms
2 Dates et Comparaison
3 Lieux et Comparaison

Cartes de Kohonen
Application
Références
Représentation globale La Suite...
Réalisée par Dinh Truong et Tao Dkaki

Cartes de Kohonen
Application
Références
Références
Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).
Batch kernel SOM and related laplacian methods for social network analysis. Neurocomputing. To appear.
El Golli, A., Rossi, F., Conan-Guez, B., and Lechevallier, Y. (2006).
Une adaptation des cartes auto-organisatrices pour des données décrites par un tableau de dissimilarités. Revue
de Statistique Appliquée, LIV(3):33–64.
Kohohen, T. and Somervuo, P. (1998).
Self-Organizing maps of symbol strings. Neurocomputing, 21:19–30.
Kohonen, T. (2001).
Self-Organizing Maps, 3rd Edition, volume 30. Springer, Berlin, Heidelberg, New York.
Lau, K., Yin, H., and Hubbard, S. (2006).
Kernel self-organising maps for classiﬁcation. Neurocomputing, 69:2033–2040.
Villa, N. and Boulet, R. (2007).
Clustering a medieval social network by SOM using a kernel based distance measure. In Verleysen, M., editor,
Proceedings of ESANN 2007, pages 31–36, Bruges, Belgium.
Villa, N. and Rossi, F. (2007).
A comparison between dissimilarity SOM and kernel SOM for clustering the vertices of a graph. In Proceedings of
the 6th Workshop on Self-Organizing Maps (WSOM 07), Bieleﬁeld, Germany.
von Luxburg, U. (2007).
A tutorial on spectral clustering. Technical Report TR-149, Max Planck Institut für biologische Kybernetik.
Avaliable at http://www.kyb.mpg.de/publications/attachments/luxburg06_TR_v2_4139%5B%1%5D.pdf.

Carte de Kohonen par noyau et application a la classification de sommets de graphes

Recommandé

Recommandé

Contenu connexe

Similaire à Carte de Kohonen par noyau et application a la classification de sommets de graphes

Similaire à Carte de Kohonen par noyau et application a la classification de sommets de graphes (11)

Plus de tuxette

Plus de tuxette (20)

Carte de Kohonen par noyau et application a la classification de sommets de graphes