Extraction de connaissances : réunir volumes de données et motifs significatifs. Soutenance d’habilitation  à diriger des ...
En 2002…
En 2002…
M otifs F réquents X X X User5 X X X User4 X X X User3 X X X User2 X X X User1
M otifs F réquents User5 User4 User3 User2 User1 X X X X X X X X X X X X X X X
15% 2% Les  motifs  peuvent aussi être :  des  enchaînements fréquents .
…  ou bien des  classes. 1207   utilisateurs/jour 308 utilisateurs/jour
  On doit  trouver une aiguille dans…
820 000 Articles sur Wikipedia France en 2009 :
Source : www.internetworldstats.com 1,5 milliard  de personnes  ont accès à Internet  en 2009.
Les motifs « fréquents »  n’existent pas.
Les comportements  différent selon la période.
Les données d’usage sont devenues  des flux.
L’analyse des (flux de) données d’usage  aide à sécuriser   les SI.
Les motifs fréquents n’existent pas
Equipes-Projets Inria Sophia AxIS People 7   niveaux 8  rubriques 2 000 000 pages
Equipes-Projets Inria Sophia AxIS People 630 000   résultats pour sophia site:www-sop.inria.fr
Les motifs les plus  fréquents  véhiculent une information  évidente. 100%   des  patients  enceintes  sont
Les motifs les plus  fréquents  véhiculent une information  évidente. 100%   des  patients  enceintes  sont  des  femmes
Fréquence Mémoire Temps 100% ~0%
les données pour découvrir  des connaissances.
Equipes-Projets Inria Sophia Maestro Mascotte Planete Découper   les traces d’usage : Analyser rubrique par  rubrique   ?
Divide & Discover 60% U5 U4 U3 U2 U1 N H A H A P E U C D T L V E F A Q W L G B L X M B R Z Y L I S O K O J
Divide & Discover 60% U5 U3 U1 N A A P U D T V F A W G B X B R Y I S K J U5 U4 U3 U2 U1 N H A H A P E U C D T L V E F A Q ...
Divide & Discover 60% U5 U3 U1 N A A P U D T V F A W G B X B R Y I S K J U5 U4 U3 U2 U1 N H A H A P E U C D T L V E F A Q ...
Catégoriser   les pages Web
… /axis/people/Alice.Marascu/Publications/JIIS.pdf … /axis/people/Doru.Tanasa/Publications/Inforsid06.pdf
d’où  tu   viens … Je   sais
Data mining KDD IA CBR Networks TCP/IP P2P Protocol Data mining WUM KDD Itemsets
Data mining KDD IA CBR Networks TCP/IP P2P Protocol Data mining WUM KDD Itemsets
www-sop.inria.fr/mimosa/fp/Bigloo/ www-sop.inria.fr/oasis/ProActive/ www-sop.inria.fr/planete www-sop.inria.fr/odyssee www...
Prenons un peu de recul :  pour  quelle autre raison  ces supports sont-ils si faibles ? Les comportements sont  très vari...
Découvrir  des   périodes
Les  achats de Noël, ou les   vacances d’été…
Découvrir des périodes qui  optimisent la fréquence des motifs Dé couverte d’ I temsets Co mpacts
a b c a c  d b  e f c  j h a  i j b  k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 (a) (b) (c) (a c) 50%
a b c a c  d b  e f c  j h a  i j b  k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( j ) ( a b c )
a b c a c  d b  e f c  j h a  i j b  k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
a b c a c  d b  e f c  j h a  i j b  k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
a b c a c  d b  e f c  j h a  i j b  k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
a b c a c  d b  e f c  j h a  i j b  k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
U n restaurant au Semir ? D es pages de conférences. …
Flux  de   données
Toujours plus de données… toujours plus vite !
données ! Pas assez de   moyens… Trop de
«   Vite et bien,  ça ne va pas ensemble !  » - Henri Masseglia  (mon grand père)
Accumuler  par paquet les navigations
Obama – G.W. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – G. Bush – B. Clinton Obama – G.W. Bush – B. Clinton ...
Obama – G.W. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – G. Bush – B. Clinton Obama – G.W. Bush – B. Clinton ...
Obama – G.W. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – G. Bush – B. Clinton Obama – G.W. Bush – B. Clinton ...
Gestion de l’ historique
«  Plus c’est vieux,  moins c’est intéressant.  » - Les modèles de vieillissement
Inspiré de  la  mémoire humaine ?
R égression attentive à l’ E rreur G L O bale
S1 S2 S3
S1 S2 S3
S1 S2 S3
A   pproximation par les  Mi   lieux
d 1 d 2 d 3 d 4 ∑  d i=1 n i 2
Usages,   flux  et sécurité
Détecter les  attaques connues Détecter les anomalies (outliers)
D étection d’ O utliers
D étection d’ O utliers
Dupont ?
04.92.38.50.67
/etc/passwd ?
Big boss - @*%!&!: Real boss - *$%=}^ Admin - -{&%=+ Lawyer - M%*£$ Slave - :?%!=%
/etc/passwd ? /etc/passwd ? /etc/passwd ?
/etc/passwd ? /etc/passwd ? /etc/passwd ?
C onclusion
Eviter les  a-priori
Le  volume   des données impose des    contraintes
Les données qui parlent sous la contrainte… … disent ce que vous voulez entendre !
Faire de chaque  contrainte  une  piste  de recherche
aux   (courageux)   étudiants  et post-docs ! En post-doc :  Céline Fiot et Wei Wang. En thèse :  Alice Marascu, Doru Tana...
M erci
M erci
A ctivités Encadrement et co-encadrement :  3 doctorants, 2 post-docs, 7 masters,  4 élèves ingénieurs, 4 stagiaires  d’un...
Prochain SlideShare
Chargement dans…5
×

Soutenance HDR Masseglia

2 492 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
2 492
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 874
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Soutenance HDR Masseglia

  1. 1. Extraction de connaissances : réunir volumes de données et motifs significatifs. Soutenance d’habilitation à diriger des recherches. zz Florent Masseglia INRIA, équipe-projet AxIS. 27 novembre 2009.
  2. 2. En 2002…
  3. 3. En 2002…
  4. 4.
  5. 5. M otifs F réquents X X X User5 X X X User4 X X X User3 X X X User2 X X X User1
  6. 6. M otifs F réquents User5 User4 User3 User2 User1 X X X X X X X X X X X X X X X
  7. 7. 15% 2% Les motifs peuvent aussi être : des enchaînements fréquents .
  8. 8. … ou bien des classes. 1207 utilisateurs/jour 308 utilisateurs/jour
  9. 9. On doit trouver une aiguille dans…
  10. 10. 820 000 Articles sur Wikipedia France en 2009 :
  11. 11. Source : www.internetworldstats.com 1,5 milliard de personnes ont accès à Internet en 2009.
  12. 12. Les motifs « fréquents » n’existent pas.
  13. 13. Les comportements différent selon la période.
  14. 14. Les données d’usage sont devenues des flux.
  15. 15. L’analyse des (flux de) données d’usage aide à sécuriser les SI.
  16. 16. Les motifs fréquents n’existent pas
  17. 17. Equipes-Projets Inria Sophia AxIS People 7 niveaux 8 rubriques 2 000 000 pages
  18. 18. Equipes-Projets Inria Sophia AxIS People 630 000 résultats pour sophia site:www-sop.inria.fr
  19. 19. Les motifs les plus fréquents véhiculent une information évidente. 100% des patients enceintes sont
  20. 20. Les motifs les plus fréquents véhiculent une information évidente. 100% des patients enceintes sont des femmes
  21. 21. Fréquence Mémoire Temps 100% ~0%
  22. 22. les données pour découvrir des connaissances.
  23. 23. Equipes-Projets Inria Sophia Maestro Mascotte Planete Découper les traces d’usage : Analyser rubrique par rubrique ?
  24. 24. Divide & Discover 60% U5 U4 U3 U2 U1 N H A H A P E U C D T L V E F A Q W L G B L X M B R Z Y L I S O K O J
  25. 25. Divide & Discover 60% U5 U3 U1 N A A P U D T V F A W G B X B R Y I S K J U5 U4 U3 U2 U1 N H A H A P E U C D T L V E F A Q W L G B L X M B R Z Y L I S O K O J
  26. 26. Divide & Discover 60% U5 U3 U1 N A A P U D T V F A W G B X B R Y I S K J U5 U4 U3 U2 U1 N H A H A P E U C D T L V E F A Q W L G B L X M B R Z Y L I S O K O J O Z L Q L E H U4 O L M L E C H U2
  27. 27. Catégoriser les pages Web
  28. 28. … /axis/people/Alice.Marascu/Publications/JIIS.pdf … /axis/people/Doru.Tanasa/Publications/Inforsid06.pdf
  29. 29. d’où tu viens … Je sais
  30. 30. Data mining KDD IA CBR Networks TCP/IP P2P Protocol Data mining WUM KDD Itemsets
  31. 31. Data mining KDD IA CBR Networks TCP/IP P2P Protocol Data mining WUM KDD Itemsets
  32. 32. www-sop.inria.fr/mimosa/fp/Bigloo/ www-sop.inria.fr/oasis/ProActive/ www-sop.inria.fr/planete www-sop.inria.fr/odyssee www-sop.inria.fr/odyssee/positions/ www-sop.inria.fr/actu/actu_emploi_actuel_fr.shtml « projet, informatique, recherche » « emploi, offre » « code, programme, source »
  33. 33. Prenons un peu de recul : pour quelle autre raison ces supports sont-ils si faibles ? Les comportements sont très variés dans l’espace.
  34. 34. Découvrir des périodes
  35. 35. Les achats de Noël, ou les vacances d’été…
  36. 36. Découvrir des périodes qui optimisent la fréquence des motifs Dé couverte d’ I temsets Co mpacts
  37. 37. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 (a) (b) (c) (a c) 50%
  38. 38. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( j ) ( a b c )
  39. 39. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
  40. 40. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
  41. 41. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
  42. 42. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
  43. 43. U n restaurant au Semir ? D es pages de conférences. …
  44. 44. Flux de données
  45. 45. Toujours plus de données… toujours plus vite !
  46. 46. données ! Pas assez de moyens… Trop de
  47. 47. «   Vite et bien, ça ne va pas ensemble !  » - Henri Masseglia (mon grand père)
  48. 48. Accumuler par paquet les navigations
  49. 49. Obama – G.W. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – G. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – Biden – Gates Obama – Biden – H. Clinton Obama – B. Clinton – Gates Obama – Biden – H. Clinton
  50. 50. Obama – G.W. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – G. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – Biden – Gates Obama – Biden – H. Clinton Obama – B. Clinton – Gates Obama – Biden – H. Clinton Obama:4 - Biden:3 B. Clinton:1 Gates:2 H. Clinton:2 Obama:4 - G.W. Bush:3 G. Bush:1 - B. Clinton:4 -
  51. 51. Obama – G.W. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – G. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – Biden – Gates Obama – Biden – H. Clinton Obama – B. Clinton – Gates Obama – Biden – H. Clinton Obama – Biden – Gates Obama:4 - G.W. Bush:3 G. Bush:1 - B. Clinton:4 Obama:4 - Biden:3 B. Clinton:1 Gates:2 H. Clinton:2 -
  52. 52. Gestion de l’ historique
  53. 53. «  Plus c’est vieux, moins c’est intéressant.  » - Les modèles de vieillissement
  54. 54. Inspiré de la mémoire humaine ?
  55. 55. R égression attentive à l’ E rreur G L O bale
  56. 56. S1 S2 S3
  57. 57. S1 S2 S3
  58. 58. S1 S2 S3
  59. 59. A pproximation par les Mi lieux
  60. 60.
  61. 61.
  62. 62.
  63. 63. d 1 d 2 d 3 d 4 ∑ d i=1 n i 2
  64. 64.
  65. 65.
  66. 66. Usages, flux et sécurité
  67. 67. Détecter les attaques connues Détecter les anomalies (outliers)
  68. 68. D étection d’ O utliers
  69. 69. D étection d’ O utliers
  70. 70.
  71. 71. Dupont ?
  72. 72. 04.92.38.50.67
  73. 73. /etc/passwd ?
  74. 74. Big boss - @*%!&!: Real boss - *$%=}^ Admin - -{&%=+ Lawyer - M%*£$ Slave - :?%!=%
  75. 75. /etc/passwd ? /etc/passwd ? /etc/passwd ?
  76. 76. /etc/passwd ? /etc/passwd ? /etc/passwd ?
  77. 77. C onclusion
  78. 78. Eviter les a-priori
  79. 79. Le volume des données impose des contraintes
  80. 80. Les données qui parlent sous la contrainte… … disent ce que vous voulez entendre !
  81. 81. Faire de chaque contrainte une piste de recherche
  82. 82. aux (courageux) étudiants et post-docs ! En post-doc : Céline Fiot et Wei Wang. En thèse : Alice Marascu, Doru Tanasa et Chongsheng Zhang. En Master : Calin Garboni, Bashar Saleh et Sofiane Sellah. Mais aussi : En stages d’ingénieurs, en stages d’universités étrangères, en cours… M erci
  83. 83. M erci
  84. 84. M erci
  85. 85. A ctivités Encadrement et co-encadrement : 3 doctorants, 2 post-docs, 7 masters, 4 élèves ingénieurs, 4 stagiaires d’universités étrangères Publications : 8 revues internationales avec comité, 19 conférences internationales avec comité Animation de la communauté : 2 livres internationaux édités, 2 numéros spéciaux (TMM & MTAP) 2 workshops (MDM@KDD, 2005 et 2006) Projets : ANR Midas, ARC SéSur, Color Mutan, CRE Orange Labs Comités de programme et journaux : - DMKD, KAIS, TKDE, DKE, IS, JIIS + 6 autres - ICDM, ICML, ICTAI, ACM SAC; BDA, EGC

×