1. cnrs - upmc laboratoire d’informatique de paris 6
´ e
D´tection d’Ev´nements dans la
e
Dynamique des Graphes de Terrain
S´bastien Heymann
e
encadr´ par Matthieu Latapy et Cl´mence Magnien
e e
5 juin 2012
2. cnrs - upmc laboratoire d’informatique de paris 6
Contexte
Graphes de terrain
• Sociologie : r´seaux sociaux, r´seaux d’appels
e e
• Informatique : Internet, web, r´seaux pair-`-pair
e a
• Biologie, linguistique, etc.
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
2/34
3. cnrs - upmc laboratoire d’informatique de paris 6
Contexte
Graphes de terrain
• Sociologie : r´seaux sociaux, r´seaux d’appels
e e
• Informatique : Internet, web, r´seaux pair-`-pair
e a
• Biologie, linguistique, etc.
Ces graphes sont dynamiques !
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
2/34
4. cnrs - upmc laboratoire d’informatique de paris 6
Objectifs de la th`se
e
D´tecter des ´v´nements dans la dynamique des graphes
e e e
D´tection d’anomalies
e
• Donn´es : indicateurs statistiques sur des graphes
e
• But : d´tecter des changements dans la structure des graphes
e
• Nouvelle m´thode : dynamique normale vs anormale
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
3/34
5. cnrs - upmc laboratoire d’informatique de paris 6
Objectifs de la th`se
e
D´tecter des ´v´nements dans la dynamique des graphes
e e e
D´tection d’anomalies
e
• Donn´es : indicateurs statistiques sur des graphes
e
• But : d´tecter des changements dans la structure des graphes
e
• Nouvelle m´thode : dynamique normale vs anormale
e
Caract´risation
e
• Graphes statiques : centralit´, connexit´, densit´, etc.
e e e
• Graphes dynamiques : dur´e de vie, taux d’apparition, .. ?
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
3/34
7. cnrs - upmc laboratoire d’informatique de paris 6
D´tecter des anomalies ?
e
• R´ponse intuitive : identifier des valeurs qui « d´vient
e e
remarquablement » du reste des valeurs (Grubbs, 1969)
• Mais d´pend des cas et des hypoth`ses sur les donn´es
e e e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
5/34
8. cnrs - upmc laboratoire d’informatique de paris 6
D´tecter des anomalies ?
e
• R´ponse intuitive : identifier des valeurs qui « d´vient
e e
remarquablement » du reste des valeurs (Grubbs, 1969)
• Mais d´pend des cas et des hypoth`ses sur les donn´es
e e e
Deux grandes approches :
• Hypoth`se : les donn´es suivent une loi normale
e e
´
• Eloignement donn´es / mod`le de dynamique
e e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
5/34
9. cnrs - upmc laboratoire d’informatique de paris 6
Notre probl´matique
e
On ne sait pas :
• comment devrait ´voluer un graphe dynamique
e
• ce qu’est un comportement normal ou anormal
Donc on a besoin d’une nouvelle m´thode.
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
6/34
11. cnrs - upmc laboratoire d’informatique de paris 6
Donn´es homog`nes vs h´t´rog`nes
e e e e e
Anomalie = valeur anormalement extrˆme ?
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
8/34
12. cnrs - upmc laboratoire d’informatique de paris 6
Donn´es homog`nes vs h´t´rog`nes
e e e e e
Anomalie = valeur anormalement extrˆme ?
e
Valeurs extrˆmes loin de la moyenne ?
e
• h´t´rog`ne (Pareto, Zipf...) : habituel
ee e
• homog`ne (normale, Laplace...) : exceptionnel
e
100
10−5
density
10−10
10−15
10−20
−10 −5 0 5 10
x
Densit´ de probabilit´ des distributions normale et de Pareto.
e e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
8/34
13. cnrs - upmc laboratoire d’informatique de paris 6
Distribution de valeurs
Indicateur existant : coefficient d’asym´trie
e
3
n x−moyenne
γ= (n−1)(n−2) x∈X ´cart-type
e
density
density
x x
γ<0 γ>0
Exemple de distributions asym´triques.
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
9/34
14. cnrs - upmc laboratoire d’informatique de paris 6
Distribution de valeurs
Indicateur existant : coefficient d’asym´trie
e
3
n x−moyenne
γ= (n−1)(n−2) x∈X ´cart-type
e
density
density
x x
γ<0 γ>0
Exemple de distributions asym´triques.
e
Il est sensible aux valeurs extrˆmes (min/max) loin de la moyenne !
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
9/34
15. cnrs - upmc laboratoire d’informatique de paris 6
Signature d’asym´trie
e
D´finition
e
´
Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
e
extrˆmes une ` une des donn´es X .
e a e
1.5
Exemple
skewness
1.0
X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5
0.0
γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
1 2 3 4 5 6 7
# extremal values removed
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
10/34
16. cnrs - upmc laboratoire d’informatique de paris 6
Signature d’asym´trie
e
D´finition
e
´
Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
e
extrˆmes une ` une des donn´es X .
e a e
1.5
Exemple
skewness
1.0
X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5
0.0
γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
1 2 3 4 5 6 7
# extremal values removed
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
10/34
17. cnrs - upmc laboratoire d’informatique de paris 6
Signature d’asym´trie
e
D´finition
e
´
Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
e
extrˆmes une ` une des donn´es X .
e a e
1.5
Exemple
skewness
1.0
X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5
0.0
γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
1 2 3 4 5 6 7
# extremal values removed
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
10/34
18. cnrs - upmc laboratoire d’informatique de paris 6
Signature d’asym´trie
e
D´finition
e
´
Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
e
extrˆmes une ` une des donn´es X .
e a e
1.5
Exemple
skewness
1.0
X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5
0.0
γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
1 2 3 4 5 6 7
# extremal values removed
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
10/34
19. cnrs - upmc laboratoire d’informatique de paris 6
Signature d’asym´trie
e
D´finition
e
´
Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
e
extrˆmes une ` une des donn´es X .
e a e
1.5
Exemple
skewness
1.0
X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5
0.0
γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
1 2 3 4 5 6 7
# extremal values removed
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
10/34
20. cnrs - upmc laboratoire d’informatique de paris 6
Signature d’asym´trie
e
D´finition
e
´
Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
e
extrˆmes une ` une des donn´es X .
e a e
1.5
Exemple
skewness
1.0
X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5
0.0
γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
1 2 3 4 5 6 7
# extremal values removed
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
10/34
21. cnrs - upmc laboratoire d’informatique de paris 6
Signature d’asym´trie
e
D´finition
e
´
Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
e
extrˆmes une ` une des donn´es X .
e a e
1.5
Exemple
skewness
1.0
X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5
0.0
γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
1 2 3 4 5 6 7
# extremal values removed
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
10/34
22. cnrs - upmc laboratoire d’informatique de paris 6
Notre m´thode : Outskewer
e
Notre d´finition
e
Anomalie = valeur extrˆme qui rend la distribution asym´trique
e e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
12/34
23. cnrs - upmc laboratoire d’informatique de paris 6
Notre m´thode : Outskewer
e
Notre d´finition
e
Anomalie = valeur extrˆme qui rend la distribution asym´trique
e e
Implication (cas homog`ne)
e
Retirer les valeurs extrˆmes une ` une devrait r´duire l’asym´trie.
e a e e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
12/34
24. cnrs - upmc laboratoire d’informatique de paris 6
Notre m´thode : Outskewer
e
Notre d´finition
e
Anomalie = valeur extrˆme qui rend la distribution asym´trique
e e
Implication (cas homog`ne)
e
Retirer les valeurs extrˆmes une ` une devrait r´duire l’asym´trie.
e a e e
Implication (cas h´t´rog`ne)
ee e
Si le retrait d’un grand nombre de valeurs extrˆmes ne r´duit pas
e e
l’asym´trie, alors les donn´es sont h´t´rog`nes, donc elles n’ont
e e ee e
pas d’anomalies selon notre d´finition.
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
12/34
25. cnrs - upmc laboratoire d’informatique de paris 6
Outskewer : p-stabilit´
e
La signature est-elle p-stable ?
p : fraction de valeurs extrˆmes retir´es.
e e
p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5
a
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
13/34
26. cnrs - upmc laboratoire d’informatique de paris 6
Outskewer : p-stabilit´
e
La signature est-elle p-stable ?
p : fraction de valeurs extrˆmes retir´es.
e e
p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5
a
1.0 q 0.5
cumulative distribution
q q
q
q
qq
q
0.8
q
q
q
q
q
0.4
q
q
q
|skewness|
q
q
q
0.6 q
q
q
q
q 0.3
q
q
q
q
q
0.4 q
q
q
q
q
0.2
qq
q
q
qq
0.2 qq
q q
q
0.1
q q q
q
q
0.0 0.0
−8 −6 −4
x
−2 0 2 0 0.14 0.28 0.5
p
Exemple 0.14-stable mais pas 0.28-stable
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
13/34
27. cnrs - upmc laboratoire d’informatique de paris 6
Outskewer : p-stabilit´
e
La signature est-elle p-stable ?
p : fraction de valeurs extrˆmes retir´es.
e e
p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5
a
Si oui : les donn´es sont homog`nes, donc des anomalies peuvent
e e
exister.
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
14/34
28. cnrs - upmc laboratoire d’informatique de paris 6
Outskewer : p-stabilit´
e
La signature est-elle p-stable ?
p : fraction de valeurs extrˆmes retir´es.
e e
p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5
a
Si oui : les donn´es sont homog`nes, donc des anomalies peuvent
e e
exister.
Si non pour aucun p : l’asym´trie ´tant toujours trop grande, les
e e
donn´es sont h´t´rog`nes, donc il n’y a pas d’anomalies selon
e ee e
notre d´finition.
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
14/34
29. cnrs - upmc laboratoire d’informatique de paris 6
Outskewer : d´tection d’anomalies
e
1.0 q not outlier q
q
q
cumulative frequency
qq
qq
0.8 potential outlier q
q
q
outlier q
q
q
q
q
q
q
q t plus petite valeur t-stable
q
q
0.6 q
q
q
q
T plus grande valeur T -stable
qq
qq
q
q
0.4 q
q
q
q
q
q
q
q
0.2
t plus petite valeur t.q. |γ| ≤ 0.5 − t
0.0
T plus petite valeur t.q. |γ| ≤ 0.5 − T
−8 −6 −4 −2 0 2
x
2.0
2.0
area of t T
potential outliers 1.5
1.5
t’ T’ |skewness|
|skewness|
1.0
1.0
area with no 0.5
0.5
area of outlier
outliers 0.0
0.0
t T 0 0.14 0.5 1
0 0.14 0.5 1 p
p
Exemple : 50 valeurs dont 7 anomalies et 5 anomalies potentielles
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
15/34
30. cnrs - upmc laboratoire d’informatique de paris 6
Extension pour la dynamique
Donn´es : s´rie temporelle
e e
Sur une fenˆtre glissante de taille w , chaque valeur de X est
e
class´e w fois.
e
La classe finale d’une valeur est celle apparue le plus de fois.
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
16/34
33. cnrs - upmc laboratoire d’informatique de paris 6
Taux de faux positifs
• cas Normale : 3% ` n = 10, 0.01% ` n = 100
a a
• cas Pareto : 5% ` n = 100, 0.01% ` n = 1000
a a
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
19/34
34. Applications
´
Evolution du nombre d’habitants sur le sol fran¸ais
c
Vue locale d’internet
Logs de requˆtes d’un moteur de recherche P2P
e
35. cnrs - upmc laboratoire d’informatique de paris 6
Population fran¸aise au XXe si`cle
c e
Nombre d’habitants par an
qq
qqq
60M qqq
qqq
qqqq
qqqqq
qqqq
population
qqqq
qqq
q qqqqq
qqq
50M qqq
qqq
qq
qq
qqq
qq
qqq
qqqqqqqqqqqqq
q
qqqq qqqqqqqqqqq qq qqqq
40M qqq
qq qqqq qqq qq
q q
1900 1920 1940 1960 1980 2000
Year
Diff´rence d’une ann´e sur l’autre
e e
1000000
q q q q
500000 q q
qqq qqqqqqq qqq qqqqqqqqqqq status
∆population
q qqqqqqqqqq
qq qq q
q qqqqqqqqqqqqqqqqqqqqqqqqqq
q
qqqqqqqqqqqqq q qqq qq
0 q qq
q not outlier
−500000
potential outlier
−1000000
−1500000 outlier
1900 1920 1940 1960 1980 2000
Year
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
21/34
36. cnrs - upmc laboratoire d’informatique de paris 6
Harry Potter sur eDonkey
Nombre d’anomalies par jour
75
# outliers / day
in theatre unknown event pirate release outliers
0
50 potential outliers
15 Jul 24 Aug 12 Oct 1 Dec
Date
Donn´es :
e
• recherches faites sur le r´seau P2P eDonkey
e
• durant 28 semaines
• 205 millions de requˆtes
e
• 24,4 millions d’adresses IP
• filtr´es par requˆtes contenant ”half blood prince”
e e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
22/34
37. cnrs - upmc laboratoire d’informatique de paris 6
Vue locale d’internet
13000
Nb nodes
12000
11000 outlier potential outlier q not outlier unknown
0 1000 2000 3000 4000 5000
Nb rounds
M. Latapy, C. Magnien and F. Ou´draogo, A Radar for the Internet, in Complex Systems, 20 (1), 23-30, 2011.
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
23/34
38. cnrs - upmc laboratoire d’informatique de paris 6
Conclusions provisoires
• Enjeu : d´tection d’anomalies sans hypoth`se sur les donn´es
e e e
• M´thode propos´e bas´e sur l’asym´trie
e e e e
• Excellents r´sultats exp´rimentaux
e e
• Pertinente sur des jeux de donn´es vari´s
e e
• Publication ` IEEE/ACM ASONAM 2012
a
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
24/34
40. cnrs - upmc laboratoire d’informatique de paris 6
Perspectives : grandes questions
Quand un changement significatif advient-il
dans la structure du graphe ?
Quels sont les nœuds et liens impliqu´s ?
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
26/34
41. cnrs - upmc laboratoire d’informatique de paris 6
Perspectives : indicateurs
Autres donn´es
e
• R´seaux sociaux (Twitter)
e
• Plateforme d’h´bergement de code source (Github)
e
• Trafic IP (MAWILab)
Buts
• Cr´er des indicateurs g´n´riques d’´volution de graphes
e e e e
• Tenter de les valider (interpr´tation, biais, pertinence)
e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
27/34
43. cnrs - upmc laboratoire d’informatique de paris 6
Autres activit´s : Gephi
e
Community manager du logiciel libre Gephi depuis 2008, a guid´ la
e
cr´ation d’une timeline et l’ajout de m´triques pour la dynamique.
e e
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
29/34
44. cnrs - upmc laboratoire d’informatique de paris 6
Autres activit´s
e
Recherche
• Outskewer : Using skewness to spot outliers in samples and time
series. IEEE/ACM ASONAM 2012.
• Studying evolving networks : measurement, characterization, event
detection, community detection and link prediction. poster ECCS’11.
• 9 expos´s sur Gephi, dont 2 tutoriels ` ICWSM et UKSNA.
e a
Enseignement
• Cours + TD en M2 Univ. Paris 8 et L3 Telecom ParisTech :
Cartographie des Controverses
• TME en L1 UPMC : De la Puce au Web
• TME en L3 Polytech Paris-UPMC : Informatique g´n´rale
e e
Divers
• Impl´mentation de la m´thode Outskewer en R
e e
• Exposition ` la Biennale du Design de St-Etienne 2010
a ´
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
30/34
45.
46. ´ e
Merci !
D´tection d’Ev´nements dans la Dynamique des Graphes de
e
Terrain
Soutenance ` mi-parcours
a
<sebastien.heymann@lip6.fr>
47. cnrs - upmc laboratoire d’informatique de paris 6
Outskewer : signature d’asym´trie
e
Normal
2
1 median
0 min
s(p)
max
−1
q1
−2
q3
0.0 0.2 0.4 0.6 0.8 1.0
p
Pareto
8
6 median
4 min
s(p)
2 max
0 q1
−2 q3
0.0 0.2 0.4 0.6 0.8 1.0
p
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
33/34
48. cnrs - upmc laboratoire d’informatique de paris 6
Perspectives : exemples
Exemple
Nombre de nœuds qui apparaissent, mais absents des derni`res
e
mesures.
Indique quand on observe un nombre inattendu de nœuds.
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
34/34
49. cnrs - upmc laboratoire d’informatique de paris 6
Perspectives : exemples
Exemple
Nombre de nœuds qui apparaissent, mais absents des derni`res
e
mesures.
Indique quand on observe un nombre inattendu de nœuds.
Exemple
Nombre de distances qui changent entre toute paire de nœuds `
a
l’apparition d’un nouveau lien.
Indique o` un nouveau lien affecte le plus la structure du graphe.
u
S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
e e e e
34/34