Soutenance HDR Masseglia

2 443 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
2 443
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 874
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Soutenance HDR Masseglia

  1. 1. Extraction de connaissances : réunir volumes de données et motifs significatifs. Soutenance d’habilitation à diriger des recherches. zz Florent Masseglia INRIA, équipe-projet AxIS. 27 novembre 2009.
  2. 2. En 2002…
  3. 3. En 2002…
  4. 4.
  5. 5. M otifs F réquents X X X User5 X X X User4 X X X User3 X X X User2 X X X User1
  6. 6. M otifs F réquents User5 User4 User3 User2 User1 X X X X X X X X X X X X X X X
  7. 7. 15% 2% Les motifs peuvent aussi être : des enchaînements fréquents .
  8. 8. … ou bien des classes. 1207 utilisateurs/jour 308 utilisateurs/jour
  9. 9. On doit trouver une aiguille dans…
  10. 10. 820 000 Articles sur Wikipedia France en 2009 :
  11. 11. Source : www.internetworldstats.com 1,5 milliard de personnes ont accès à Internet en 2009.
  12. 12. Les motifs « fréquents » n’existent pas.
  13. 13. Les comportements différent selon la période.
  14. 14. Les données d’usage sont devenues des flux.
  15. 15. L’analyse des (flux de) données d’usage aide à sécuriser les SI.
  16. 16. Les motifs fréquents n’existent pas
  17. 17. Equipes-Projets Inria Sophia AxIS People 7 niveaux 8 rubriques 2 000 000 pages
  18. 18. Equipes-Projets Inria Sophia AxIS People 630 000 résultats pour sophia site:www-sop.inria.fr
  19. 19. Les motifs les plus fréquents véhiculent une information évidente. 100% des patients enceintes sont
  20. 20. Les motifs les plus fréquents véhiculent une information évidente. 100% des patients enceintes sont des femmes
  21. 21. Fréquence Mémoire Temps 100% ~0%
  22. 22. les données pour découvrir des connaissances.
  23. 23. Equipes-Projets Inria Sophia Maestro Mascotte Planete Découper les traces d’usage : Analyser rubrique par rubrique ?
  24. 24. Divide & Discover 60% U5 U4 U3 U2 U1 N H A H A P E U C D T L V E F A Q W L G B L X M B R Z Y L I S O K O J
  25. 25. Divide & Discover 60% U5 U3 U1 N A A P U D T V F A W G B X B R Y I S K J U5 U4 U3 U2 U1 N H A H A P E U C D T L V E F A Q W L G B L X M B R Z Y L I S O K O J
  26. 26. Divide & Discover 60% U5 U3 U1 N A A P U D T V F A W G B X B R Y I S K J U5 U4 U3 U2 U1 N H A H A P E U C D T L V E F A Q W L G B L X M B R Z Y L I S O K O J O Z L Q L E H U4 O L M L E C H U2
  27. 27. Catégoriser les pages Web
  28. 28. … /axis/people/Alice.Marascu/Publications/JIIS.pdf … /axis/people/Doru.Tanasa/Publications/Inforsid06.pdf
  29. 29. d’où tu viens … Je sais
  30. 30. Data mining KDD IA CBR Networks TCP/IP P2P Protocol Data mining WUM KDD Itemsets
  31. 31. Data mining KDD IA CBR Networks TCP/IP P2P Protocol Data mining WUM KDD Itemsets
  32. 32. www-sop.inria.fr/mimosa/fp/Bigloo/ www-sop.inria.fr/oasis/ProActive/ www-sop.inria.fr/planete www-sop.inria.fr/odyssee www-sop.inria.fr/odyssee/positions/ www-sop.inria.fr/actu/actu_emploi_actuel_fr.shtml « projet, informatique, recherche » « emploi, offre » « code, programme, source »
  33. 33. Prenons un peu de recul : pour quelle autre raison ces supports sont-ils si faibles ? Les comportements sont très variés dans l’espace.
  34. 34. Découvrir des périodes
  35. 35. Les achats de Noël, ou les vacances d’été…
  36. 36. Découvrir des périodes qui optimisent la fréquence des motifs Dé couverte d’ I temsets Co mpacts
  37. 37. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 (a) (b) (c) (a c) 50%
  38. 38. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( j ) ( a b c )
  39. 39. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
  40. 40. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
  41. 41. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
  42. 42. a b c a c d b e f c j h a i j b k l a b c a b c a b c m n o 1 2 3 4 5 6 7 8 9 10 50% ( a b c )
  43. 43. U n restaurant au Semir ? D es pages de conférences. …
  44. 44. Flux de données
  45. 45. Toujours plus de données… toujours plus vite !
  46. 46. données ! Pas assez de moyens… Trop de
  47. 47. «   Vite et bien, ça ne va pas ensemble !  » - Henri Masseglia (mon grand père)
  48. 48. Accumuler par paquet les navigations
  49. 49. Obama – G.W. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – G. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – Biden – Gates Obama – Biden – H. Clinton Obama – B. Clinton – Gates Obama – Biden – H. Clinton
  50. 50. Obama – G.W. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – G. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – Biden – Gates Obama – Biden – H. Clinton Obama – B. Clinton – Gates Obama – Biden – H. Clinton Obama:4 - Biden:3 B. Clinton:1 Gates:2 H. Clinton:2 Obama:4 - G.W. Bush:3 G. Bush:1 - B. Clinton:4 -
  51. 51. Obama – G.W. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – G. Bush – B. Clinton Obama – G.W. Bush – B. Clinton Obama – Biden – Gates Obama – Biden – H. Clinton Obama – B. Clinton – Gates Obama – Biden – H. Clinton Obama – Biden – Gates Obama:4 - G.W. Bush:3 G. Bush:1 - B. Clinton:4 Obama:4 - Biden:3 B. Clinton:1 Gates:2 H. Clinton:2 -
  52. 52. Gestion de l’ historique
  53. 53. «  Plus c’est vieux, moins c’est intéressant.  » - Les modèles de vieillissement
  54. 54. Inspiré de la mémoire humaine ?
  55. 55. R égression attentive à l’ E rreur G L O bale
  56. 56. S1 S2 S3
  57. 57. S1 S2 S3
  58. 58. S1 S2 S3
  59. 59. A pproximation par les Mi lieux
  60. 60.
  61. 61.
  62. 62.
  63. 63. d 1 d 2 d 3 d 4 ∑ d i=1 n i 2
  64. 64.
  65. 65.
  66. 66. Usages, flux et sécurité
  67. 67. Détecter les attaques connues Détecter les anomalies (outliers)
  68. 68. D étection d’ O utliers
  69. 69. D étection d’ O utliers
  70. 70.
  71. 71. Dupont ?
  72. 72. 04.92.38.50.67
  73. 73. /etc/passwd ?
  74. 74. Big boss - @*%!&!: Real boss - *$%=}^ Admin - -{&%=+ Lawyer - M%*£$ Slave - :?%!=%
  75. 75. /etc/passwd ? /etc/passwd ? /etc/passwd ?
  76. 76. /etc/passwd ? /etc/passwd ? /etc/passwd ?
  77. 77. C onclusion
  78. 78. Eviter les a-priori
  79. 79. Le volume des données impose des contraintes
  80. 80. Les données qui parlent sous la contrainte… … disent ce que vous voulez entendre !
  81. 81. Faire de chaque contrainte une piste de recherche
  82. 82. aux (courageux) étudiants et post-docs ! En post-doc : Céline Fiot et Wei Wang. En thèse : Alice Marascu, Doru Tanasa et Chongsheng Zhang. En Master : Calin Garboni, Bashar Saleh et Sofiane Sellah. Mais aussi : En stages d’ingénieurs, en stages d’universités étrangères, en cours… M erci
  83. 83. M erci
  84. 84. M erci
  85. 85. A ctivités Encadrement et co-encadrement : 3 doctorants, 2 post-docs, 7 masters, 4 élèves ingénieurs, 4 stagiaires d’universités étrangères Publications : 8 revues internationales avec comité, 19 conférences internationales avec comité Animation de la communauté : 2 livres internationaux édités, 2 numéros spéciaux (TMM & MTAP) 2 workshops (MDM@KDD, 2005 et 2006) Projets : ANR Midas, ARC SéSur, Color Mutan, CRE Orange Labs Comités de programme et journaux : - DMKD, KAIS, TKDE, DKE, IS, JIIS + 6 autres - ICDM, ICML, ICTAI, ACM SAC; BDA, EGC

×