SlideShare une entreprise Scribd logo
1  sur  49
Télécharger pour lire hors ligne
cnrs - upmc                     laboratoire d’informatique de paris 6




                ´ e
    D´tection d’Ev´nements dans la
     e
    Dynamique des Graphes de Terrain
    S´bastien Heymann
     e




    encadr´ par Matthieu Latapy et Cl´mence Magnien
          e                          e
    5 juin 2012
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                                               Contexte


    Graphes de terrain
         • Sociologie : r´seaux sociaux, r´seaux d’appels
                         e                e
         • Informatique : Internet, web, r´seaux pair-`-pair
                                          e           a
         • Biologie, linguistique, etc.




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    2/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                                               Contexte


    Graphes de terrain
         • Sociologie : r´seaux sociaux, r´seaux d’appels
                         e                e
         • Informatique : Internet, web, r´seaux pair-`-pair
                                          e           a
         • Biologie, linguistique, etc.




    Ces graphes sont dynamiques !




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    2/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                      Objectifs de la th`se
                                                        e

         D´tecter des ´v´nements dans la dynamique des graphes
          e           e e


    D´tection d’anomalies
     e
         • Donn´es : indicateurs statistiques sur des graphes
               e
         • But : d´tecter des changements dans la structure des graphes
                  e
         • Nouvelle m´thode : dynamique normale vs anormale
                     e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    3/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                      Objectifs de la th`se
                                                        e

         D´tecter des ´v´nements dans la dynamique des graphes
          e           e e


    D´tection d’anomalies
     e
         • Donn´es : indicateurs statistiques sur des graphes
               e
         • But : d´tecter des changements dans la structure des graphes
                  e
         • Nouvelle m´thode : dynamique normale vs anormale
                     e

    Caract´risation
          e
         • Graphes statiques : centralit´, connexit´, densit´, etc.
                                        e          e        e
         • Graphes dynamiques : dur´e de vie, taux d’apparition, .. ?
                                   e


    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    3/34
Travaux effectu´s
              e
       D´tection d’anomalies
        e
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                             D´tecter des anomalies ?
                              e


         • R´ponse intuitive : identifier des valeurs qui « d´vient
            e                                               e
               remarquablement » du reste des valeurs (Grubbs, 1969)
         • Mais d´pend des cas et des hypoth`ses sur les donn´es
                 e                          e                e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    5/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                             D´tecter des anomalies ?
                              e


         • R´ponse intuitive : identifier des valeurs qui « d´vient
            e                                               e
               remarquablement » du reste des valeurs (Grubbs, 1969)
         • Mais d´pend des cas et des hypoth`ses sur les donn´es
                 e                          e                e
    Deux grandes approches :
         • Hypoth`se : les donn´es suivent une loi normale
                 e             e
           ´
         • Eloignement donn´es / mod`le de dynamique
                           e        e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    5/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                     Notre probl´matique
                                                e



    On ne sait pas :
         • comment devrait ´voluer un graphe dynamique
                           e
         • ce qu’est un comportement normal ou anormal
    Donc on a besoin d’une nouvelle m´thode.
                                     e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    6/34
Notre m´thode
       e
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


     Donn´es homog`nes vs h´t´rog`nes
         e        e        e e   e
    Anomalie = valeur anormalement extrˆme ?
                                       e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    8/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


     Donn´es homog`nes vs h´t´rog`nes
         e        e        e e   e
    Anomalie = valeur anormalement extrˆme ?
                                       e

    Valeurs extrˆmes loin de la moyenne ?
                e
      • h´t´rog`ne (Pareto, Zipf...) : habituel
          ee e
      • homog`ne (normale, Laplace...) : exceptionnel
                e

                                                  100
                                                 10−5
                                          density



                                                10−10
                                                10−15
                                                10−20
                                                             −10            −5             0            5   10
                                                                                   x
                 Densit´ de probabilit´ des distributions normale et de Pareto.
                       e              e

    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    8/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                Distribution de valeurs

    Indicateur existant : coefficient d’asym´trie
                                          e
                                                                                                               3
                                                        n                                        x−moyenne
                                         γ=         (n−1)(n−2)                     x∈X            ´cart-type
                                                                                                  e
                           density




                                                                                    density
                                                                             x                                     x
                                            γ<0                      γ>0
                                         Exemple de distributions asym´triques.
                                                                      e



    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    9/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                Distribution de valeurs

    Indicateur existant : coefficient d’asym´trie
                                          e
                                                                                                               3
                                                        n                                        x−moyenne
                                         γ=         (n−1)(n−2)                     x∈X            ´cart-type
                                                                                                  e
                           density




                                                                                    density
                                                                             x                                     x
                                            γ<0                      γ>0
                                         Exemple de distributions asym´triques.
                                                                      e


    Il est sensible aux valeurs extrˆmes (min/max) loin de la moyenne !
                                    e
    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    9/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                   Signature d’asym´trie
                                                   e

    D´finition
     e
    ´
    Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
                                  e
    extrˆmes une ` une des donn´es X .
        e        a              e

                                                                                                               1.5
   Exemple




                                                                                                        skewness
                                                                                                               1.0
   X = {-3, -2, -1, -1, 0, 1, 2, 3, 7}                                                                         0.5
                                                                                                               0.0
   γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
                                                                                                                       1   2   3   4   5   6   7
                                                                                                                   # extremal values removed




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    10/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                   Signature d’asym´trie
                                                   e

    D´finition
     e
    ´
    Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
                                  e
    extrˆmes une ` une des donn´es X .
        e        a              e

                                                                                                               1.5
   Exemple




                                                                                                        skewness
                                                                                                               1.0
   X = {-3, -2, -1, -1, 0, 1, 2, 3, 7}                                                                         0.5
                                                                                                               0.0
   γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
                                                                                                                       1   2   3   4   5   6   7
                                                                                                                   # extremal values removed




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    10/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                   Signature d’asym´trie
                                                   e

    D´finition
     e
    ´
    Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
                                  e
    extrˆmes une ` une des donn´es X .
        e        a              e

                                                                                                               1.5
   Exemple




                                                                                                        skewness
                                                                                                               1.0
   X = {-3, -2, -1, -1, 0, 1, 2, 3, 7}                                                                         0.5
                                                                                                               0.0
   γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
                                                                                                                       1   2   3   4   5   6   7
                                                                                                                   # extremal values removed




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    10/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                   Signature d’asym´trie
                                                   e

    D´finition
     e
    ´
    Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
                                  e
    extrˆmes une ` une des donn´es X .
        e        a              e

                                                                                                               1.5
   Exemple




                                                                                                        skewness
                                                                                                               1.0
   X = {-3, -2, -1, -1, 0, 1, 2, 3, 7}                                                                         0.5
                                                                                                               0.0
   γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
                                                                                                                       1   2   3   4   5   6   7
                                                                                                                   # extremal values removed




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    10/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                   Signature d’asym´trie
                                                   e

    D´finition
     e
    ´
    Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
                                  e
    extrˆmes une ` une des donn´es X .
        e        a              e

                                                                                                               1.5
   Exemple




                                                                                                        skewness
                                                                                                               1.0
   X = {-3, -2, -1, -1, 0, 1, 2, 3, 7}                                                                         0.5
                                                                                                               0.0
   γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
                                                                                                                       1   2   3   4   5   6   7
                                                                                                                   # extremal values removed




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    10/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                   Signature d’asym´trie
                                                   e

    D´finition
     e
    ´
    Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
                                  e
    extrˆmes une ` une des donn´es X .
        e        a              e

                                                                                                               1.5
   Exemple




                                                                                                        skewness
                                                                                                               1.0
   X = {-3, -2, -1, -1, 0, 1, 2, 3, 7}                                                                         0.5
                                                                                                               0.0
   γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
                                                                                                                       1   2   3   4   5   6   7
                                                                                                                   # extremal values removed




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    10/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                   Signature d’asym´trie
                                                   e

    D´finition
     e
    ´
    Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs
                                  e
    extrˆmes une ` une des donn´es X .
        e        a              e

                                                                                                               1.5
   Exemple




                                                                                                        skewness
                                                                                                               1.0
   X = {-3, -2, -1, -1, 0, 1, 2, 3, 7}                                                                         0.5
                                                                                                               0.0
   γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73
                                                                                                                       1   2   3   4   5   6   7
                                                                                                                   # extremal values removed




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    10/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                     Notre m´thode : Outskewer
                            e

    Notre d´finition
           e
    Anomalie = valeur extrˆme qui rend la distribution asym´trique
                          e                                e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    12/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                     Notre m´thode : Outskewer
                            e

    Notre d´finition
           e
    Anomalie = valeur extrˆme qui rend la distribution asym´trique
                          e                                e

    Implication (cas homog`ne)
                          e
    Retirer les valeurs extrˆmes une ` une devrait r´duire l’asym´trie.
                            e        a              e            e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    12/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                     Notre m´thode : Outskewer
                            e

    Notre d´finition
           e
    Anomalie = valeur extrˆme qui rend la distribution asym´trique
                          e                                e

    Implication (cas homog`ne)
                          e
    Retirer les valeurs extrˆmes une ` une devrait r´duire l’asym´trie.
                            e        a              e            e

    Implication (cas h´t´rog`ne)
                      ee e
    Si le retrait d’un grand nombre de valeurs extrˆmes ne r´duit pas
                                                   e          e
    l’asym´trie, alors les donn´es sont h´t´rog`nes, donc elles n’ont
           e                   e         ee e
    pas d’anomalies selon notre d´finition.
                                   e



    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    12/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                 Outskewer : p-stabilit´
                                                       e
    La signature est-elle p-stable ?
    p : fraction de valeurs extrˆmes retir´es.
                                e         e
    p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5
                                               a




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    13/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                             Outskewer : p-stabilit´
                                                                   e
    La signature est-elle p-stable ?
    p : fraction de valeurs extrˆmes retir´es.
                                e         e
    p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5
                                               a

                                  1.0                                         q                   0.5
        cumulative distribution




                                                                       q      q
                                                                       q
                                                                       q
                                                                     qq
                                                                     q
                                  0.8
                                                                     q
                                                                     q
                                                                     q
                                                                     q
                                                                     q
                                                                                                  0.4
                                                                    q
                                                                    q
                                                                    q




                                                                                         |skewness|
                                                                    q
                                                                    q
                                                                   q
                                  0.6                             q
                                                                  q
                                                                   q
                                                                   q
                                                                   q                              0.3
                                                                 q
                                                                 q
                                                                q
                                                                q
                                                                q
                                  0.4                         q
                                                              q
                                                              q
                                                              q
                                                               q
                                                                                                  0.2
                                                             qq
                                                            q
                                                            q
                                                           qq
                                  0.2                   qq
                                                      q q
                                                          q
                                                                                                  0.1
                                        q         q q
                                        q
                                        q
                                  0.0                                                             0.0
                                        −8   −6     −4
                                                    x
                                                          −2         0          2                       0   0.14 0.28   0.5
                                                                                  p
                                             Exemple 0.14-stable mais pas 0.28-stable
    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    13/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                 Outskewer : p-stabilit´
                                                       e


    La signature est-elle p-stable ?
    p : fraction de valeurs extrˆmes retir´es.
                                e         e
    p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5
                                               a
    Si oui : les donn´es sont homog`nes, donc des anomalies peuvent
                     e             e
    exister.




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    14/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                 Outskewer : p-stabilit´
                                                       e


    La signature est-elle p-stable ?
    p : fraction de valeurs extrˆmes retir´es.
                                e         e
    p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5
                                               a
    Si oui : les donn´es sont homog`nes, donc des anomalies peuvent
                     e             e
    exister.
    Si non pour aucun p : l’asym´trie ´tant toujours trop grande, les
                                 e    e
    donn´es sont h´t´rog`nes, donc il n’y a pas d’anomalies selon
         e          ee e
    notre d´finition.
             e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    14/34
cnrs - upmc                                                                                      laboratoire d’informatique de paris 6


                           Outskewer : d´tection d’anomalies
                                        e
                           1.0    q   not outlier                    q
                                                                         q
                                                                         q
    cumulative frequency

                                                                    qq
                                                                   qq
                           0.8        potential outlier           q
                                                                  q
                                                                  q

                                      outlier                    q
                                                                 q
                                                                 q
                                                                 q
                                                                  q
                                                                  q
                                                                  q
                                                                  q                 t plus petite valeur t-stable
                                                                q
                                                                q
                           0.6                                 q
                                                               q
                                                                q
                                                                q
                                                                                    T plus grande valeur T -stable
                                                              qq
                                                             qq
                                                             q
                                                             q
                           0.4                             q
                                                            q
                                                            q
                                                            q
                                                           q
                                                           q
                                                          q
                                                          q
                           0.2
                                                                                    t plus petite valeur t.q. |γ| ≤ 0.5 − t
                           0.0
                                                                                    T plus petite valeur t.q. |γ| ≤ 0.5 − T
                                 −8    −6      −4    −2        0         2
                                               x
                                                                                             2.0
                       2.0
                                      area of                                                                 t         T
                                      potential outliers                                     1.5
                       1.5
                                            t’ T’                                   |skewness|
  |skewness|




                                                                                             1.0
                       1.0

                                                area with no                                 0.5
                       0.5
                                 area of        outlier
                                 outliers                                                    0.0
                       0.0
                                        t                     T                                         0   0.14        0.5     1
                                  0   0.14                    0.5                                   1               p
                                                          p
                Exemple : 50 valeurs dont 7 anomalies et 5 anomalies potentielles
                S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
                 e                   e          e e
                15/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                  Extension pour la dynamique



    Donn´es : s´rie temporelle
        e      e

    Sur une fenˆtre glissante de taille w , chaque valeur de X est
                e
    class´e w fois.
         e
    La classe finale d’une valeur est celle apparue le plus de fois.




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    16/34
Validation exp´rimentale
              e
                Donn´es simul´es
                    e        e
cnrs - upmc                                                                         laboratoire d’informatique de paris 6


                                   Changements de r´gime
                                                   e

                                                                                      Vid´o
                                                                                         e


         5                                                       5   q   not outlier                                    5   q   not outlier
              q   not outlier                                                                                                                             q
         4                                                       4       potential outlier                              4       potential outlier        q q
                                                                                                                                                          q
                  potential outlier                                                                                                                         q
         3                                                       3       outlier     q     q q
                                                                                                                        3       outlier     q     q q
                                                                                                                                                           q
                                                                                                                                                           q
                  unknown
                  q   q                                                  q   q
                                                                                           q
                                                                                          q q                                   q   q            q
                                                                                                                                                   qq q
                                                                                                                                                     q
                                                                                                                                                       q qq
                                                                                                                                                            q
         2     q
                          q                                      2    q
                                                                         unknown
                                                                               q         q
                                                                                         q
                                                                                            q
                                                                                                                        2    q
                                                                                                                                unknown
                                                                                                                                      q         q
                                                                                                                                                q
                                                                                                                                                    q      q
                     q               q                                      q               q
                                                                                            qq                                     q               q
                                                                                                                                                   qq     q
         1    qq qq
                q qq
                              q
                             qq      q
                               q qq qq                           1   qq qq
                                                                       q qq
                                                                                     q
                                                                                    qq      q
                                                                                      q qq qq                           1   qq qq
                                                                                                                              q qq
                                                                                                                                            q
                                                                                                                                           qq      q
                                                                                                                                             q qq qq           q
                                 q q
                                  q                                                     q q
                                                                                         q                                                     q q
                                                                                                                                                q
    x




                                                            x




                                                                                                                   x
                    qqq q q qqq
                     q
                    q q
                            q
                                   q                                       qqq q q qqq
                                                                            q
                                                                           q q
                                                                                   q
                                                                                          q                                       qqq q q qqq
                                                                                                                                   q
                                                                                                                                  q q
                                                                                                                                          q
                                                                                                                                                 q
              q                                                      q                                                      q
         0    q qq q q q qqq q  q                                0   q qq q q q qqq q qq       q                        0   q qq q q q qqq q qq       q
                qq q q     q q q qq
                           qq                                          qq q q     q q q qqq
                                                                                  qq                                          qq q q     q q q qqq
                                                                                                                                         qq
                 qq       qq q q qq
                 q q q qq qq q
              qq qq q qq
                                                                        qq       qq q q qqq
                                                                        q q q qq qq q qq
                                                                     qq qq q qq               q                                qq       qq q q qqq
                                                                                                                               q q q qq qq q qq
                                                                                                                            qq qq q qq               q
        −1      q
               qq q     qq    q q                               −1     q
                                                                      qq q     qq    q q                               −1     q
                                                                                                                             qq q     qq    q q
                          qq                                                     qq                                                     qq
        −2        q qq q
                                 q
                                                                −2       q qq q
                                                                                        q     q                        −2       q qq q
                                                                                                                                               q     q


              0         50         100          150   200            0         50         100          150   200            0         50         100          150       200
                                   t                                                      t                                                      t
         5    q   not outlier                q                   5   q   not outlier       q      q
                                                                                                 q q                    5                                 q     q
                                                                                                                                                               q q
                                          q q                                                      q                                                     q       q
                                                                                            q q                                                            q q          q     q
         4        potential outlier        qq q
                                           qq q                  4       potential outlier q qqqqq q q
                                                                                                 qq q q                 4   q   not outlier               q q q
                                                                                                                                                        q q qqq q q
                                                                                                                                                                      qqq
                                                                                                                                                                q q q qq q    q
                                              qqq                                              q       q
                                                                                                     qqq                                                qq q qq qqq q q q q
                                                                                                                                                                    q       q q
         3        outlier               qq
                                        q q qqq q                3       outlier              qqq qqq q
                                                                                              qq       qq               3       potential outlier        q qq q q q
                                                                                                                                                             qq              q
                                                                                                                                                                   q q q q qqqqq
                                                                                                                                                                          q q q
                              q      qqq
                                    qq q     q q                                     q     qqq
                                                                                          qq q      q q                                           q       qqq
                                                                                                                                                         qq q     q q qqq q q
                  q   q            q q q qqq                             q   q            q q q qqq                              q    q                 q q q qqq       qq q
                                                                                                                                                                         qq
         2     q
                  unknown
                        q         q
                                  q
                                      q
                                         q
                                             qqq                 2    q
                                                                         unknown
                                                                               q         q
                                                                                         q
                                                                                            q
                                                                                               q      q
                                                                                                    qq q
                                                                                                         q
                                                                                                                        2    q
                                                                                                                                         q             q
                                                                                                                                                       q
                                                                                                                                                           q
                                                                                                                                                              q
                                                                                                                                                                       q q
                                                                                                                                                                           qq
                                                                                                                                                                  qq q q q q q
                                                                                                                                                                    q
                     q               qq
                                      q     q                               q               q
                                                                                            qq     q                                q               qq     qq
         1    qq qq
                q qq
                              q
                             qq      q
                               q qq qq          q                1   qq qq
                                                                       q qq
                                                                                     q
                                                                                    qq      q
                                                                                      q qq qq          q                1   qq qq
                                                                                                                              q qq
                                                                                                                                             q
                                                                                                                                            qq      q
                                                                                                                                              q qq qq           q
                                 q q
                                  q                                                     q q
                                                                                         q                                                      q q
                                                                                                                                                 q                             q
    x




                                                            x




                                                                                                                   x
                    qqq q q qqq
                     q
                    q q
                            q
                                   q                                       qqq q q qqq
                                                                            q
                                                                           q q
                                                                                   q
                                                                                          q                                        qqq q q qqq
                                                                                                                                    q
                                                                                                                                   q q
                                                                                                                                           q
                                                                                                                                                  q
              q                                                      q                                                       q
         0    q qq q q q qqq q qq       q                        0   q qq q q q qqq q qq       q                        0    q qq q q q qqq q qq       q
                qq q q     q q q qqq
                           qq                                          qq q q     q q q qqq
                                                                                  qq                                           qq q q     q q q qqq
                                                                                                                                          qq
                 qq       qq q q qqq
                 q q q qq qq q qq
              qq qq q qq               q                                qq       qq q q qqq
                                                                        q q q qq qq q qq
                                                                     qq qq q qq               q                                 q
                                                                                                                                q        qq q q qqq
                                                                                                                               q q q qq qq q qq
                                                                                                                            qq qq q qq                q
        −1      q
               qq q     qq    q q                               −1     q
                                                                      qq q     qq    q q                               −1     q
                                                                                                                              qq q     qq    q q
                          qq                                                     qq                                                      qq
        −2        q qq q
                                 q     q                        −2       q qq q
                                                                                        q     q                        −2        q qq q
                                                                                                                                                q     q


              0         50         100          150   200            0         50         100          150   200            0         50         100          150      200
                                   t                                                      t                                                      t




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    18/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                     Taux de faux positifs




         • cas Normale : 3% ` n = 10, 0.01% ` n = 100
                            a               a
         • cas Pareto :                          5% ` n = 100, 0.01% ` n = 1000
                                                    a                a




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    19/34
Applications
´
Evolution du nombre d’habitants sur le sol fran¸ais
                                               c
                            Vue locale d’internet
  Logs de requˆtes d’un moteur de recherche P2P
               e
cnrs - upmc                                                                                             laboratoire d’informatique de paris 6


               Population fran¸aise au XXe si`cle
                              c              e

    Nombre d’habitants par an
                                                                                                                                                                                                                                 qq
                                                                                                                                                                                                                           qqq
                   60M                                                                                                                                                                                               qqq
                                                                                                                                                                                                               qqq
                                                                                                                                                                                                        qqqq
                                                                                                                                                                                                qqqqq
                                                                                                                                                                                         qqqq
      population




                                                                                                                                                                                  qqqq
                                                                                                                                                                            qqq
                                                                                                                                                                q   qqqqq
                                                                                                                                                            qqq
                   50M                                                                                                                                qqq
                                                                                                                                                qqq
                                                                                                                                           qq
                                                                                                                                      qq
                                                                                                                                qqq
                                                                                                                           qq
                                                                                                                     qqq
                              qqqqqqqqqqqqq
                                              q
                                                                      qqqq   qqqqqqqqqqq                 qq   qqqq
                   40M                            qqq
                                                            qq   qqqq                       qqq       qq
                                                        q                                         q


                          1900                          1920                            1940                                    1960                                   1980                               2000
                                                                                                                Year




    Diff´rence d’une ann´e sur l’autre
       e               e
                    1000000
                                   q                             q                      q   q
                     500000                                                                             q   q
                                                                                             qqq qqqqqqq qqq qqqqqqqqqqq                                                                                   status
    ∆population




                                                                     q                                                                            qqqqqqqqqq
                                                            qq        qq   q
                                                                            q                                           qqqqqqqqqqqqqqqqqqqqqqqqqq
                                                                                                q
                                    qqqqqqqqqqqqq q                     qqq        qq
                          0                                      q            qq
                                                                                                                                                                                                               q     not outlier
                    −500000
                                                                                                                                                                                                                     potential outlier
                   −1000000
                   −1500000                                                                                                                                                                                          outlier

                                 1900                   1920                        1940                        1960                              1980                            2000
                                                                                             Year




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    21/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                               Harry Potter sur eDonkey

    Nombre d’anomalies par jour
                        75
     # outliers / day




                                     in theatre               unknown event                     pirate release           outliers
                        0
                        50                                                                                               potential outliers

                                 15 Jul                 24 Aug                           12 Oct                  1 Dec
                                                                                      Date



    Donn´es :
        e
                         • recherches faites sur le r´seau P2P eDonkey
                                                     e
                         • durant 28 semaines
                         • 205 millions de requˆtes
                                               e
                         • 24,4 millions d’adresses IP
                         • filtr´es par requˆtes contenant ”half blood prince”
                               e           e


    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    22/34
cnrs - upmc                                                                    laboratoire d’informatique de paris 6


                                     Vue locale d’internet
               13000
    Nb nodes




               12000

               11000       outlier   potential outlier   q   not outlier   unknown

                       0                        1000                        2000                        3000   4000   5000
                                                                                   Nb rounds




    M. Latapy, C. Magnien and F. Ou´draogo, A Radar for the Internet, in Complex Systems, 20 (1), 23-30, 2011.
                                   e
    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    23/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                Conclusions provisoires


         • Enjeu : d´tection d’anomalies sans hypoth`se sur les donn´es
                    e                               e               e
         • M´thode propos´e bas´e sur l’asym´trie
            e            e     e            e
         • Excellents r´sultats exp´rimentaux
                       e           e
         • Pertinente sur des jeux de donn´es vari´s
                                          e       e
         • Publication ` IEEE/ACM ASONAM 2012
                       a




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    24/34
Perspectives
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


            Perspectives : grandes questions



                               Quand un changement significatif advient-il
                                     dans la structure du graphe ?

                                   Quels sont les nœuds et liens impliqu´s ?
                                                                        e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    26/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                           Perspectives : indicateurs


    Autres donn´es
               e
         • R´seaux sociaux (Twitter)
            e
         • Plateforme d’h´bergement de code source (Github)
                         e
         • Trafic IP (MAWILab)

    Buts
         • Cr´er des indicateurs g´n´riques d’´volution de graphes
             e                    e e         e
         • Tenter de les valider (interpr´tation, biais, pertinence)
                                         e




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    27/34
Autres activit´s
              e
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                              Autres activit´s : Gephi
                                            e




    Community manager du logiciel libre Gephi depuis 2008, a guid´ la
                                                                   e
    cr´ation d’une timeline et l’ajout de m´triques pour la dynamique.
      e                                    e
    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    29/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                                                Autres activit´s
                                                              e
  Recherche
     • Outskewer : Using skewness to spot outliers in samples and time
          series. IEEE/ACM ASONAM 2012.
     • Studying evolving networks : measurement, characterization, event
          detection, community detection and link prediction. poster ECCS’11.
     • 9 expos´s sur Gephi, dont 2 tutoriels ` ICWSM et UKSNA.
              e                              a


  Enseignement
     • Cours + TD en M2 Univ. Paris 8 et L3 Telecom ParisTech :
          Cartographie des Controverses
     • TME en L1 UPMC : De la Puce au Web
     • TME en L3 Polytech Paris-UPMC : Informatique g´n´rale
                                                     e e


  Divers
     • Impl´mentation de la m´thode Outskewer en R
           e                   e
     • Exposition ` la Biennale du Design de St-Etienne 2010
                  a                             ´
    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    30/34
´ e
                                         Merci !
D´tection d’Ev´nements dans la Dynamique des Graphes de
 e
                                                 Terrain
                                Soutenance ` mi-parcours
                                           a
                           <sebastien.heymann@lip6.fr>
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


       Outskewer : signature d’asym´trie
                                   e
    Normal
             2

             1                                                                                                median

             0                                                                                                min
     s(p)




                                                                                                              max
            −1
                                                                                                              q1
            −2
                                                                                                              q3
                  0.0               0.2               0.4               0.6               0.8           1.0
                                                             p

    Pareto
             8
             6                                                                                                median
             4                                                                                                min
     s(p)




             2                                                                                                max
             0                                                                                                q1
            −2                                                                                                q3
                  0.0               0.2               0.4               0.6               0.8           1.0
                                                             p
    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    33/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                               Perspectives : exemples

    Exemple
    Nombre de nœuds qui apparaissent, mais absents des derni`res
                                                            e
    mesures.
    Indique quand on observe un nombre inattendu de nœuds.




    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    34/34
cnrs - upmc                                                                   laboratoire d’informatique de paris 6


                               Perspectives : exemples

    Exemple
    Nombre de nœuds qui apparaissent, mais absents des derni`res
                                                            e
    mesures.
    Indique quand on observe un nombre inattendu de nœuds.


    Exemple
    Nombre de distances qui changent entre toute paire de nœuds `
                                                                a
    l’apparition d’un nouveau lien.
    Indique o` un nouveau lien affecte le plus la structure du graphe.
             u


    S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012
     e                   e          e e
    34/34

Contenu connexe

En vedette

Nereida diapocitivas hobby
Nereida diapocitivas hobbyNereida diapocitivas hobby
Nereida diapocitivas hobbynemumar
 
Recettes du barista avec le robot café jura GIGA 5
Recettes du barista avec le robot café jura GIGA 5Recettes du barista avec le robot café jura GIGA 5
Recettes du barista avec le robot café jura GIGA 5habiague
 
Mode emploi jura impressa j9.3 TFT Aroma+ carbone et argent
Mode emploi jura impressa j9.3 TFT Aroma+ carbone et argentMode emploi jura impressa j9.3 TFT Aroma+ carbone et argent
Mode emploi jura impressa j9.3 TFT Aroma+ carbone et argenthabiague
 
Approche fonctionnelle entreprise club med
Approche fonctionnelle entreprise   club medApproche fonctionnelle entreprise   club med
Approche fonctionnelle entreprise club medPierre Cattoire, MBA
 
Catalogue auzou jeunesse 2012 2013-hd
Catalogue auzou jeunesse 2012 2013-hdCatalogue auzou jeunesse 2012 2013-hd
Catalogue auzou jeunesse 2012 2013-hdBachir Bouslougui
 
Allianz - Rapport de développement durable 2014
Allianz - Rapport de développement durable 2014Allianz - Rapport de développement durable 2014
Allianz - Rapport de développement durable 2014yann le gigan
 
ESTADÍSTICA: CONCEPTOS
ESTADÍSTICA: CONCEPTOSESTADÍSTICA: CONCEPTOS
ESTADÍSTICA: CONCEPTOSRicardo Flores
 
Boletín CNIIE Nº2
Boletín CNIIE Nº2 Boletín CNIIE Nº2
Boletín CNIIE Nº2 INTEF
 
Atelier 1_Google adresse_OT Bergerac
Atelier 1_Google adresse_OT BergeracAtelier 1_Google adresse_OT Bergerac
Atelier 1_Google adresse_OT BergeracPays de Bergerac
 
trabajos informaticos
trabajos informaticostrabajos informaticos
trabajos informaticoscamimetal
 
DP Generali Forum National des Associations 2012m desassos
DP Generali Forum National des Associations 2012m desassosDP Generali Forum National des Associations 2012m desassos
DP Generali Forum National des Associations 2012m desassosabernardogeneralifr
 
Comix 06 madeleine
Comix 06 madeleineComix 06 madeleine
Comix 06 madeleinetheuniquebob
 
Commuications unifiees de Cisco - Pour une meilleure performance et productiv...
Commuications unifiees de Cisco - Pour une meilleure performance et productiv...Commuications unifiees de Cisco - Pour une meilleure performance et productiv...
Commuications unifiees de Cisco - Pour une meilleure performance et productiv...Mario Seguin
 
LIVRE BLANC : Secteur public - Agenda 2020
LIVRE BLANC : Secteur public - Agenda 2020LIVRE BLANC : Secteur public - Agenda 2020
LIVRE BLANC : Secteur public - Agenda 2020Inetum
 

En vedette (20)

Skewness
SkewnessSkewness
Skewness
 
Monastere portugais jeronimo
Monastere portugais jeronimoMonastere portugais jeronimo
Monastere portugais jeronimo
 
Nereida diapocitivas hobby
Nereida diapocitivas hobbyNereida diapocitivas hobby
Nereida diapocitivas hobby
 
2009lyon010
2009lyon0102009lyon010
2009lyon010
 
Recettes du barista avec le robot café jura GIGA 5
Recettes du barista avec le robot café jura GIGA 5Recettes du barista avec le robot café jura GIGA 5
Recettes du barista avec le robot café jura GIGA 5
 
Carrières
CarrièresCarrières
Carrières
 
Ecole
EcoleEcole
Ecole
 
Mode emploi jura impressa j9.3 TFT Aroma+ carbone et argent
Mode emploi jura impressa j9.3 TFT Aroma+ carbone et argentMode emploi jura impressa j9.3 TFT Aroma+ carbone et argent
Mode emploi jura impressa j9.3 TFT Aroma+ carbone et argent
 
Paty durana
Paty duranaPaty durana
Paty durana
 
Approche fonctionnelle entreprise club med
Approche fonctionnelle entreprise   club medApproche fonctionnelle entreprise   club med
Approche fonctionnelle entreprise club med
 
Catalogue auzou jeunesse 2012 2013-hd
Catalogue auzou jeunesse 2012 2013-hdCatalogue auzou jeunesse 2012 2013-hd
Catalogue auzou jeunesse 2012 2013-hd
 
Allianz - Rapport de développement durable 2014
Allianz - Rapport de développement durable 2014Allianz - Rapport de développement durable 2014
Allianz - Rapport de développement durable 2014
 
ESTADÍSTICA: CONCEPTOS
ESTADÍSTICA: CONCEPTOSESTADÍSTICA: CONCEPTOS
ESTADÍSTICA: CONCEPTOS
 
Boletín CNIIE Nº2
Boletín CNIIE Nº2 Boletín CNIIE Nº2
Boletín CNIIE Nº2
 
Atelier 1_Google adresse_OT Bergerac
Atelier 1_Google adresse_OT BergeracAtelier 1_Google adresse_OT Bergerac
Atelier 1_Google adresse_OT Bergerac
 
trabajos informaticos
trabajos informaticostrabajos informaticos
trabajos informaticos
 
DP Generali Forum National des Associations 2012m desassos
DP Generali Forum National des Associations 2012m desassosDP Generali Forum National des Associations 2012m desassos
DP Generali Forum National des Associations 2012m desassos
 
Comix 06 madeleine
Comix 06 madeleineComix 06 madeleine
Comix 06 madeleine
 
Commuications unifiees de Cisco - Pour une meilleure performance et productiv...
Commuications unifiees de Cisco - Pour une meilleure performance et productiv...Commuications unifiees de Cisco - Pour une meilleure performance et productiv...
Commuications unifiees de Cisco - Pour une meilleure performance et productiv...
 
LIVRE BLANC : Secteur public - Agenda 2020
LIVRE BLANC : Secteur public - Agenda 2020LIVRE BLANC : Secteur public - Agenda 2020
LIVRE BLANC : Secteur public - Agenda 2020
 

Soutenance de thèse à mi-parcours

  • 1. cnrs - upmc laboratoire d’informatique de paris 6 ´ e D´tection d’Ev´nements dans la e Dynamique des Graphes de Terrain S´bastien Heymann e encadr´ par Matthieu Latapy et Cl´mence Magnien e e 5 juin 2012
  • 2. cnrs - upmc laboratoire d’informatique de paris 6 Contexte Graphes de terrain • Sociologie : r´seaux sociaux, r´seaux d’appels e e • Informatique : Internet, web, r´seaux pair-`-pair e a • Biologie, linguistique, etc. S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 2/34
  • 3. cnrs - upmc laboratoire d’informatique de paris 6 Contexte Graphes de terrain • Sociologie : r´seaux sociaux, r´seaux d’appels e e • Informatique : Internet, web, r´seaux pair-`-pair e a • Biologie, linguistique, etc. Ces graphes sont dynamiques ! S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 2/34
  • 4. cnrs - upmc laboratoire d’informatique de paris 6 Objectifs de la th`se e D´tecter des ´v´nements dans la dynamique des graphes e e e D´tection d’anomalies e • Donn´es : indicateurs statistiques sur des graphes e • But : d´tecter des changements dans la structure des graphes e • Nouvelle m´thode : dynamique normale vs anormale e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 3/34
  • 5. cnrs - upmc laboratoire d’informatique de paris 6 Objectifs de la th`se e D´tecter des ´v´nements dans la dynamique des graphes e e e D´tection d’anomalies e • Donn´es : indicateurs statistiques sur des graphes e • But : d´tecter des changements dans la structure des graphes e • Nouvelle m´thode : dynamique normale vs anormale e Caract´risation e • Graphes statiques : centralit´, connexit´, densit´, etc. e e e • Graphes dynamiques : dur´e de vie, taux d’apparition, .. ? e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 3/34
  • 6. Travaux effectu´s e D´tection d’anomalies e
  • 7. cnrs - upmc laboratoire d’informatique de paris 6 D´tecter des anomalies ? e • R´ponse intuitive : identifier des valeurs qui « d´vient e e remarquablement » du reste des valeurs (Grubbs, 1969) • Mais d´pend des cas et des hypoth`ses sur les donn´es e e e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 5/34
  • 8. cnrs - upmc laboratoire d’informatique de paris 6 D´tecter des anomalies ? e • R´ponse intuitive : identifier des valeurs qui « d´vient e e remarquablement » du reste des valeurs (Grubbs, 1969) • Mais d´pend des cas et des hypoth`ses sur les donn´es e e e Deux grandes approches : • Hypoth`se : les donn´es suivent une loi normale e e ´ • Eloignement donn´es / mod`le de dynamique e e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 5/34
  • 9. cnrs - upmc laboratoire d’informatique de paris 6 Notre probl´matique e On ne sait pas : • comment devrait ´voluer un graphe dynamique e • ce qu’est un comportement normal ou anormal Donc on a besoin d’une nouvelle m´thode. e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 6/34
  • 11. cnrs - upmc laboratoire d’informatique de paris 6 Donn´es homog`nes vs h´t´rog`nes e e e e e Anomalie = valeur anormalement extrˆme ? e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 8/34
  • 12. cnrs - upmc laboratoire d’informatique de paris 6 Donn´es homog`nes vs h´t´rog`nes e e e e e Anomalie = valeur anormalement extrˆme ? e Valeurs extrˆmes loin de la moyenne ? e • h´t´rog`ne (Pareto, Zipf...) : habituel ee e • homog`ne (normale, Laplace...) : exceptionnel e 100 10−5 density 10−10 10−15 10−20 −10 −5 0 5 10 x Densit´ de probabilit´ des distributions normale et de Pareto. e e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 8/34
  • 13. cnrs - upmc laboratoire d’informatique de paris 6 Distribution de valeurs Indicateur existant : coefficient d’asym´trie e 3 n x−moyenne γ= (n−1)(n−2) x∈X ´cart-type e density density x x γ<0 γ>0 Exemple de distributions asym´triques. e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 9/34
  • 14. cnrs - upmc laboratoire d’informatique de paris 6 Distribution de valeurs Indicateur existant : coefficient d’asym´trie e 3 n x−moyenne γ= (n−1)(n−2) x∈X ´cart-type e density density x x γ<0 γ>0 Exemple de distributions asym´triques. e Il est sensible aux valeurs extrˆmes (min/max) loin de la moyenne ! e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 9/34
  • 15. cnrs - upmc laboratoire d’informatique de paris 6 Signature d’asym´trie e D´finition e ´ Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs e extrˆmes une ` une des donn´es X . e a e 1.5 Exemple skewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removed S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 10/34
  • 16. cnrs - upmc laboratoire d’informatique de paris 6 Signature d’asym´trie e D´finition e ´ Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs e extrˆmes une ` une des donn´es X . e a e 1.5 Exemple skewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removed S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 10/34
  • 17. cnrs - upmc laboratoire d’informatique de paris 6 Signature d’asym´trie e D´finition e ´ Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs e extrˆmes une ` une des donn´es X . e a e 1.5 Exemple skewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removed S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 10/34
  • 18. cnrs - upmc laboratoire d’informatique de paris 6 Signature d’asym´trie e D´finition e ´ Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs e extrˆmes une ` une des donn´es X . e a e 1.5 Exemple skewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removed S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 10/34
  • 19. cnrs - upmc laboratoire d’informatique de paris 6 Signature d’asym´trie e D´finition e ´ Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs e extrˆmes une ` une des donn´es X . e a e 1.5 Exemple skewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removed S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 10/34
  • 20. cnrs - upmc laboratoire d’informatique de paris 6 Signature d’asym´trie e D´finition e ´ Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs e extrˆmes une ` une des donn´es X . e a e 1.5 Exemple skewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removed S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 10/34
  • 21. cnrs - upmc laboratoire d’informatique de paris 6 Signature d’asym´trie e D´finition e ´ Evolution du coefficient d’asym´trie γ lorsque l’on retire les valeurs e extrˆmes une ` une des donn´es X . e a e 1.5 Exemple skewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 γ : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removed S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 10/34
  • 22. cnrs - upmc laboratoire d’informatique de paris 6 Notre m´thode : Outskewer e Notre d´finition e Anomalie = valeur extrˆme qui rend la distribution asym´trique e e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 12/34
  • 23. cnrs - upmc laboratoire d’informatique de paris 6 Notre m´thode : Outskewer e Notre d´finition e Anomalie = valeur extrˆme qui rend la distribution asym´trique e e Implication (cas homog`ne) e Retirer les valeurs extrˆmes une ` une devrait r´duire l’asym´trie. e a e e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 12/34
  • 24. cnrs - upmc laboratoire d’informatique de paris 6 Notre m´thode : Outskewer e Notre d´finition e Anomalie = valeur extrˆme qui rend la distribution asym´trique e e Implication (cas homog`ne) e Retirer les valeurs extrˆmes une ` une devrait r´duire l’asym´trie. e a e e Implication (cas h´t´rog`ne) ee e Si le retrait d’un grand nombre de valeurs extrˆmes ne r´duit pas e e l’asym´trie, alors les donn´es sont h´t´rog`nes, donc elles n’ont e e ee e pas d’anomalies selon notre d´finition. e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 12/34
  • 25. cnrs - upmc laboratoire d’informatique de paris 6 Outskewer : p-stabilit´ e La signature est-elle p-stable ? p : fraction de valeurs extrˆmes retir´es. e e p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5 a S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 13/34
  • 26. cnrs - upmc laboratoire d’informatique de paris 6 Outskewer : p-stabilit´ e La signature est-elle p-stable ? p : fraction de valeurs extrˆmes retir´es. e e p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5 a 1.0 q 0.5 cumulative distribution q q q q qq q 0.8 q q q q q 0.4 q q q |skewness| q q q 0.6 q q q q q 0.3 q q q q q 0.4 q q q q q 0.2 qq q q qq 0.2 qq q q q 0.1 q q q q q 0.0 0.0 −8 −6 −4 x −2 0 2 0 0.14 0.28 0.5 p Exemple 0.14-stable mais pas 0.28-stable S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 13/34
  • 27. cnrs - upmc laboratoire d’informatique de paris 6 Outskewer : p-stabilit´ e La signature est-elle p-stable ? p : fraction de valeurs extrˆmes retir´es. e e p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5 a Si oui : les donn´es sont homog`nes, donc des anomalies peuvent e e exister. S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 14/34
  • 28. cnrs - upmc laboratoire d’informatique de paris 6 Outskewer : p-stabilit´ e La signature est-elle p-stable ? p : fraction de valeurs extrˆmes retir´es. e e p-stable ⇔ |γ| ≤ 0.5 − p, pour tout p de p ` 0.5 a Si oui : les donn´es sont homog`nes, donc des anomalies peuvent e e exister. Si non pour aucun p : l’asym´trie ´tant toujours trop grande, les e e donn´es sont h´t´rog`nes, donc il n’y a pas d’anomalies selon e ee e notre d´finition. e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 14/34
  • 29. cnrs - upmc laboratoire d’informatique de paris 6 Outskewer : d´tection d’anomalies e 1.0 q not outlier q q q cumulative frequency qq qq 0.8 potential outlier q q q outlier q q q q q q q q t plus petite valeur t-stable q q 0.6 q q q q T plus grande valeur T -stable qq qq q q 0.4 q q q q q q q q 0.2 t plus petite valeur t.q. |γ| ≤ 0.5 − t 0.0 T plus petite valeur t.q. |γ| ≤ 0.5 − T −8 −6 −4 −2 0 2 x 2.0 2.0 area of t T potential outliers 1.5 1.5 t’ T’ |skewness| |skewness| 1.0 1.0 area with no 0.5 0.5 area of outlier outliers 0.0 0.0 t T 0 0.14 0.5 1 0 0.14 0.5 1 p p Exemple : 50 valeurs dont 7 anomalies et 5 anomalies potentielles S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 15/34
  • 30. cnrs - upmc laboratoire d’informatique de paris 6 Extension pour la dynamique Donn´es : s´rie temporelle e e Sur une fenˆtre glissante de taille w , chaque valeur de X est e class´e w fois. e La classe finale d’une valeur est celle apparue le plus de fois. S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 16/34
  • 31. Validation exp´rimentale e Donn´es simul´es e e
  • 32. cnrs - upmc laboratoire d’informatique de paris 6 Changements de r´gime e Vid´o e 5 5 q not outlier 5 q not outlier q not outlier q 4 4 potential outlier 4 potential outlier q q q potential outlier q 3 3 outlier q q q 3 outlier q q q q q unknown q q q q q q q q q q qq q q q qq q 2 q q 2 q unknown q q q q 2 q unknown q q q q q q q q q qq q q qq q 1 qq qq q qq q qq q q qq qq 1 qq qq q qq q qq q q qq qq 1 qq qq q qq q qq q q qq qq q q q q q q q q q q x x x qqq q q qqq q q q q q qqq q q qqq q q q q q qqq q q qqq q q q q q q q q 0 q qq q q q qqq q q 0 q qq q q q qqq q qq q 0 q qq q q q qqq q qq q qq q q q q q qq qq qq q q q q q qqq qq qq q q q q q qqq qq qq qq q q qq q q q qq qq q qq qq q qq qq qq q q qqq q q q qq qq q qq qq qq q qq q qq qq q q qqq q q q qq qq q qq qq qq q qq q −1 q qq q qq q q −1 q qq q qq q q −1 q qq q qq q q qq qq qq −2 q qq q q −2 q qq q q q −2 q qq q q q 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 t t t 5 q not outlier q 5 q not outlier q q q q 5 q q q q q q q q q q q q q q q 4 potential outlier qq q qq q 4 potential outlier q qqqqq q q qq q q 4 q not outlier q q q q q qqq q q qqq q q q qq q q qqq q q qqq qq q qq qqq q q q q q q q 3 outlier qq q q qqq q 3 outlier qqq qqq q qq qq 3 potential outlier q qq q q q qq q q q q q qqqqq q q q q qqq qq q q q q qqq qq q q q q qqq qq q q q qqq q q q q q q q qqq q q q q q qqq q q q q q qqq qq q qq 2 q unknown q q q q q qqq 2 q unknown q q q q q q qq q q 2 q q q q q q q q qq qq q q q q q q q qq q q q q qq q q qq qq 1 qq qq q qq q qq q q qq qq q 1 qq qq q qq q qq q q qq qq q 1 qq qq q qq q qq q q qq qq q q q q q q q q q q q x x x qqq q q qqq q q q q q qqq q q qqq q q q q q qqq q q qqq q q q q q q q q 0 q qq q q q qqq q qq q 0 q qq q q q qqq q qq q 0 q qq q q q qqq q qq q qq q q q q q qqq qq qq q q q q q qqq qq qq q q q q q qqq qq qq qq q q qqq q q q qq qq q qq qq qq q qq q qq qq q q qqq q q q qq qq q qq qq qq q qq q q q qq q q qqq q q q qq qq q qq qq qq q qq q −1 q qq q qq q q −1 q qq q qq q q −1 q qq q qq q q qq qq qq −2 q qq q q q −2 q qq q q q −2 q qq q q q 0 50 100 150 200 0 50 100 150 200 0 50 100 150 200 t t t S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 18/34
  • 33. cnrs - upmc laboratoire d’informatique de paris 6 Taux de faux positifs • cas Normale : 3% ` n = 10, 0.01% ` n = 100 a a • cas Pareto : 5% ` n = 100, 0.01% ` n = 1000 a a S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 19/34
  • 34. Applications ´ Evolution du nombre d’habitants sur le sol fran¸ais c Vue locale d’internet Logs de requˆtes d’un moteur de recherche P2P e
  • 35. cnrs - upmc laboratoire d’informatique de paris 6 Population fran¸aise au XXe si`cle c e Nombre d’habitants par an qq qqq 60M qqq qqq qqqq qqqqq qqqq population qqqq qqq q qqqqq qqq 50M qqq qqq qq qq qqq qq qqq qqqqqqqqqqqqq q qqqq qqqqqqqqqqq qq qqqq 40M qqq qq qqqq qqq qq q q 1900 1920 1940 1960 1980 2000 Year Diff´rence d’une ann´e sur l’autre e e 1000000 q q q q 500000 q q qqq qqqqqqq qqq qqqqqqqqqqq status ∆population q qqqqqqqqqq qq qq q q qqqqqqqqqqqqqqqqqqqqqqqqqq q qqqqqqqqqqqqq q qqq qq 0 q qq q not outlier −500000 potential outlier −1000000 −1500000 outlier 1900 1920 1940 1960 1980 2000 Year S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 21/34
  • 36. cnrs - upmc laboratoire d’informatique de paris 6 Harry Potter sur eDonkey Nombre d’anomalies par jour 75 # outliers / day in theatre unknown event pirate release outliers 0 50 potential outliers 15 Jul 24 Aug 12 Oct 1 Dec Date Donn´es : e • recherches faites sur le r´seau P2P eDonkey e • durant 28 semaines • 205 millions de requˆtes e • 24,4 millions d’adresses IP • filtr´es par requˆtes contenant ”half blood prince” e e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 22/34
  • 37. cnrs - upmc laboratoire d’informatique de paris 6 Vue locale d’internet 13000 Nb nodes 12000 11000 outlier potential outlier q not outlier unknown 0 1000 2000 3000 4000 5000 Nb rounds M. Latapy, C. Magnien and F. Ou´draogo, A Radar for the Internet, in Complex Systems, 20 (1), 23-30, 2011. e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 23/34
  • 38. cnrs - upmc laboratoire d’informatique de paris 6 Conclusions provisoires • Enjeu : d´tection d’anomalies sans hypoth`se sur les donn´es e e e • M´thode propos´e bas´e sur l’asym´trie e e e e • Excellents r´sultats exp´rimentaux e e • Pertinente sur des jeux de donn´es vari´s e e • Publication ` IEEE/ACM ASONAM 2012 a S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 24/34
  • 40. cnrs - upmc laboratoire d’informatique de paris 6 Perspectives : grandes questions Quand un changement significatif advient-il dans la structure du graphe ? Quels sont les nœuds et liens impliqu´s ? e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 26/34
  • 41. cnrs - upmc laboratoire d’informatique de paris 6 Perspectives : indicateurs Autres donn´es e • R´seaux sociaux (Twitter) e • Plateforme d’h´bergement de code source (Github) e • Trafic IP (MAWILab) Buts • Cr´er des indicateurs g´n´riques d’´volution de graphes e e e e • Tenter de les valider (interpr´tation, biais, pertinence) e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 27/34
  • 43. cnrs - upmc laboratoire d’informatique de paris 6 Autres activit´s : Gephi e Community manager du logiciel libre Gephi depuis 2008, a guid´ la e cr´ation d’une timeline et l’ajout de m´triques pour la dynamique. e e S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 29/34
  • 44. cnrs - upmc laboratoire d’informatique de paris 6 Autres activit´s e Recherche • Outskewer : Using skewness to spot outliers in samples and time series. IEEE/ACM ASONAM 2012. • Studying evolving networks : measurement, characterization, event detection, community detection and link prediction. poster ECCS’11. • 9 expos´s sur Gephi, dont 2 tutoriels ` ICWSM et UKSNA. e a Enseignement • Cours + TD en M2 Univ. Paris 8 et L3 Telecom ParisTech : Cartographie des Controverses • TME en L1 UPMC : De la Puce au Web • TME en L3 Polytech Paris-UPMC : Informatique g´n´rale e e Divers • Impl´mentation de la m´thode Outskewer en R e e • Exposition ` la Biennale du Design de St-Etienne 2010 a ´ S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 30/34
  • 45.
  • 46. ´ e Merci ! D´tection d’Ev´nements dans la Dynamique des Graphes de e Terrain Soutenance ` mi-parcours a <sebastien.heymann@lip6.fr>
  • 47. cnrs - upmc laboratoire d’informatique de paris 6 Outskewer : signature d’asym´trie e Normal 2 1 median 0 min s(p) max −1 q1 −2 q3 0.0 0.2 0.4 0.6 0.8 1.0 p Pareto 8 6 median 4 min s(p) 2 max 0 q1 −2 q3 0.0 0.2 0.4 0.6 0.8 1.0 p S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 33/34
  • 48. cnrs - upmc laboratoire d’informatique de paris 6 Perspectives : exemples Exemple Nombre de nœuds qui apparaissent, mais absents des derni`res e mesures. Indique quand on observe un nombre inattendu de nœuds. S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 34/34
  • 49. cnrs - upmc laboratoire d’informatique de paris 6 Perspectives : exemples Exemple Nombre de nœuds qui apparaissent, mais absents des derni`res e mesures. Indique quand on observe un nombre inattendu de nœuds. Exemple Nombre de distances qui changent entre toute paire de nœuds ` a l’apparition d’un nouveau lien. Indique o` un nouveau lien affecte le plus la structure du graphe. u S´bastien Heymann — D´tection d’´v´nements dans la dynamique des graphes de terrain — 5 juin 2012 e e e e 34/34