Cube Based Summaries Of Large Association Rule SetsMarie Ndiaye - Cheikh T. DiopArnaud Giacometti - Patrick Marcel - Arnau...
Sommaire<br />Introduction<br />Le Contexte<br />A Summary: Définition<br />CBS: Cube Based Summaries<br />La génération d...
L’heuristique proposée</li></ul>Conclusion<br />2<br />
<ul><li>Les Algorithmes d’extraction de données produisent un trop grand nombre de règles d’association.
Explorer ces règles devient dès lors difficile.</li></ul>3<br />Introduction<br />
Solution 1:Méthode de génération de règles plus génériques.<br /><ul><li>Réduire les règles extraits</li></ul>Conséquence<...
Pour éviter cela:<br />Solution2:<br /><ul><li>Résumer les règles extraites, mais:
Difficulté d’exploration des résumés
Résumés pas bien organisés
Explorer les règles extraites:
Méthodes proposées incomplètes</li></ul>5<br />Introduction<br />
Contributions et solutions à ces manquements énoncés précédemment:<br />Les CBS (Cube Based Summaries):représentation des ...
motivés par existence de techniques de manipulation de cube sous OLAP</li></ul>6<br />Introduction<br />
Contributions et solutions à ces manquements énoncés précédemment:<br />Une heuristique (greedy_CBS)pour générer les CBS e...
Détermination du degré d’importance d’un CBS
Résultats proches de la solution optimale</li></ul>7<br />Introduction<br />
Représentation de larges règles facilités par les "summaries" <br />Fait ressortir les relations entre règles<br />8<br />...
9<br />Le contexte<br />Soit A = {CONTROL, STABILITY, VISIBILITY}<br />dom (CONTROL)= {auto, noauto}<br />dom (STABILITY) ...
r5: {stab} Þ {auto}
r6: {stab} Þ {auto,yes}
r7: {yes} Þ {stab}
r8: {yes} Þ {auto, stab}
r9: {yes} Þ {auto}</li></li></ul><li>A Summary: Définition<br />Couverture:<br />Soient (P,£p) et (S,£s), deux langages de...
A Summary: Définition<br />Soient r1: X1 Þ Y1 et r2: X2 Þ Y2, <br />r2 est plus spécifique que r1,  (r1 £r r2) si X1 Í X2 ...
Summary<br />Soient deux langages de motifs P et S<br />Une relation de couverture Dentre P et S<br />Un "Summary" de PÍPe...
Summary<br />13<br />A Summary: Définition<br />
A Summary: Définition<br />Exemple:<br />S=(r1: {auto }-> {stab}, r10:{ } -> {auto}, r11: { } ->{stab}, r12: { } ->{yes} )...
r2: {auto} Þ {stab, yes}
Prochain SlideShare
Chargement dans…5
×

Cube based summaries of large association rule sets

931 vues

Publié le

Ce travail est la contribution de Marie Ndiaye, Cheikh T. Diop du Laboratoire d'Analyse Numérique et d'Informatique de l'Université Gaston Berger de Saint Louis et de Arnaud Giacometti, Patrick Marcel et Arnaud Soulet du Laboratoire d'Informatique de l'Université François Rabelais de Tours aux problèmes de l'extraction et de la représentation du trop grand nombre de règles d'association issues des algorithmes d'extraction de données. Dans le cadre d'un cours d'extraction de connaissances, j'ai juste eu à faire une présentation des différents concepts et méthodes qui y sont exposés.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
931
Sur SlideShare
0
Issues des intégrations
0
Intégrations
19
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Cube based summaries of large association rule sets

  1. 1. Cube Based Summaries Of Large Association Rule SetsMarie Ndiaye - Cheikh T. DiopArnaud Giacometti - Patrick Marcel - Arnaud Soulet<br />Présenté par: Sous la direction de:<br />Mouhamadou Khoulé - Papa Cheikh Cisse Dr. Cheikh TalibouyaDiop<br />Master 2 Recherche Informatique<br />UGB St-Louis / 2010 – 2011<br />1<br />
  2. 2. Sommaire<br />Introduction<br />Le Contexte<br />A Summary: Définition<br />CBS: Cube Based Summaries<br />La génération de CBS<br /><ul><li>Mesure de la qualité: homogénéité
  3. 3. L’heuristique proposée</li></ul>Conclusion<br />2<br />
  4. 4. <ul><li>Les Algorithmes d’extraction de données produisent un trop grand nombre de règles d’association.
  5. 5. Explorer ces règles devient dès lors difficile.</li></ul>3<br />Introduction<br />
  6. 6. Solution 1:Méthode de génération de règles plus génériques.<br /><ul><li>Réduire les règles extraits</li></ul>Conséquence<br />Cette quantité de règles est tout de même importante et donc risque de perte.<br />4<br />Introduction<br />
  7. 7. Pour éviter cela:<br />Solution2:<br /><ul><li>Résumer les règles extraites, mais:
  8. 8. Difficulté d’exploration des résumés
  9. 9. Résumés pas bien organisés
  10. 10. Explorer les règles extraites:
  11. 11. Méthodes proposées incomplètes</li></ul>5<br />Introduction<br />
  12. 12. Contributions et solutions à ces manquements énoncés précédemment:<br />Les CBS (Cube Based Summaries):représentation des règles sous forme de cubes<br /><ul><li>¹niveaux de détail et ¹ axes d’analyses
  13. 13. motivés par existence de techniques de manipulation de cube sous OLAP</li></ul>6<br />Introduction<br />
  14. 14. Contributions et solutions à ces manquements énoncés précédemment:<br />Une heuristique (greedy_CBS)pour générer les CBS en fonction d’une taille donnée<br /><ul><li>Basée sur une mesure: l’homogénéité
  15. 15. Détermination du degré d’importance d’un CBS
  16. 16. Résultats proches de la solution optimale</li></ul>7<br />Introduction<br />
  17. 17. Représentation de larges règles facilités par les "summaries" <br />Fait ressortir les relations entre règles<br />8<br />Le contexte<br />
  18. 18. 9<br />Le contexte<br />Soit A = {CONTROL, STABILITY, VISIBILITY}<br />dom (CONTROL)= {auto, noauto}<br />dom (STABILITY) = {stab, xstab}<br />dom (VISIBILITY) = {yes, no}<br />Soit R, l’ensemble des règles d’associations suivantes defini sur A: <br />r1: {auto} Þ {stab}<br />r2: {auto} Þ {stab, yes}<br />r3: {auto} Þ {yes}<br /><ul><li>r4: {stab} Þ {yes}
  19. 19. r5: {stab} Þ {auto}
  20. 20. r6: {stab} Þ {auto,yes}
  21. 21. r7: {yes} Þ {stab}
  22. 22. r8: {yes} Þ {auto, stab}
  23. 23. r9: {yes} Þ {auto}</li></li></ul><li>A Summary: Définition<br />Couverture:<br />Soient (P,£p) et (S,£s), deux langages de motifs partiellement ordonnés. Une relation de couverture sur P ´ S, notée Ñ est une relation binaire sur P´ Stel que, pour tout pÎPet sÎS :<br />(i) "p’ ÎP, si p £p p’ et s Ñp , alors s Ñp’<br /> (ii) "s’ ÎS, si s’ £s s et s Ñp , alors s’ Ñp<br />10<br />
  24. 24. A Summary: Définition<br />Soient r1: X1 Þ Y1 et r2: X2 Þ Y2, <br />r2 est plus spécifique que r1, (r1 £r r2) si X1 Í X2 et Y1 Í Y2<br />Exemple:<br />r2: {auto} Þ {stab, yes} est plus spécifique que <br />r1: {auto} Þ {stab} et r1 couvre r2<br />11<br />
  25. 25. Summary<br />Soient deux langages de motifs P et S<br />Une relation de couverture Dentre P et S<br />Un "Summary" de PÍPest un ensemble de motifs SÍStel que:<br /> (i) Chaque motif de P est couvert par au moins un motif de S<br /> (ii) Chaque motif de S couvre au moins un motif de P<br />(iii) |S| £ |P|<br />12<br />A Summary: Définition<br />
  26. 26. Summary<br />13<br />A Summary: Définition<br />
  27. 27. A Summary: Définition<br />Exemple:<br />S=(r1: {auto }-> {stab}, r10:{ } -> {auto}, r11: { } ->{stab}, r12: { } ->{yes} ) est un Summary .<br />14<br /><ul><li>r1: {auto} Þ {stab}
  28. 28. r2: {auto} Þ {stab, yes}
  29. 29. r3: {auto} Þ {yes}
  30. 30. r4: {stab} Þ {yes}
  31. 31. r5: {stab} Þ {auto}
  32. 32. r6: {stab} Þ {auto,yes}
  33. 33. r7: {yes} Þ {stab}
  34. 34. r8: {yes} Þ {auto, stab}
  35. 35. r9: {yes} Þ {auto}</li></ul> (i) Chaque motif de P est couvert par au moins un motif de S<br /> (ii) Chaque motif de S couvre au moins un motif de P<br />(iii) |S| £ |P|<br />cover(r1,R)={r1,r2}, <br />cover(r10,R)={r5,r6,r8,r9}, <br />cover(r11,R)={r1,r2,r7,r8}<br />Et cover(r12,R)={r2,r3,r4,r6}.<br />
  36. 36. A Summary: Définition<br />« Summary minimal » ?<br />{r1,r3,r4,r7,r9} est un Summary minimal.<br />1.Comment définit t-on un langage de motifs et une relation de coverture qui permettrait de construire et d’explorer efficacement des summaries minimales de larges ensembles de règles d’association?<br />2.Quel est le summary minimal le plus intéressant?<br />15<br />
  37. 37. CBS: Cube Based Summaries<br />Soit A, un ensemble fini d’attributs.<br /> X = {a1, ..., ak} tel que aiÎ A, iÎ{1,...,k} et XÍ A est unschéma.<br />16<br />
  38. 38. Exemple:<br />Soit A = {CONTROL, STABILITY, VISIBILITY}<br />dom(CONTROL) = {auto, noauto}<br />dom(STABILITY) = {stab, xstab}<br />dom(VISIBILITY) = {yes, no}<br /><Body.CONTROL, Body.VISIBILITY, Head.CONTROL>est un schéma.<br />17<br />CBS: Cube Based Summaries<br />
  39. 39. Soit X = {x1, …, xj} un schéma, R un ensemble de règles d’associations.<br />On appelle référence sur X, un tuple s = <a1,..., ai>tel que :<br />aiÍ (dom(xj) È null)<br />scouvre au moins une règle de R.<br />18<br />CBS: Cube Based Summaries<br />
  40. 40. Exemple:<br />Soit le schéma A=<Body.CONTROL, Body.VISIBILITY, Head.CONTROL><br />dom (CONTROL)= {auto, noauto}<br />dom (STABILITY) = {stab, xstab}<br />dom (VISIBILITY) = {yes, no}<br />{nullC, yes, auto}est une référence du schéma A.<br />19<br />CBS: Cube Based Summaries<br />
  41. 41. Soit un ensemble de règles R, le CBS d’un schéma C de R noté SC,R est l’ensemble des références définies sur C qui couvrent au moins une règle de R<br />20<br />CBS: Cube Based Summaries<br />
  42. 42. Soit un schéma <Body.VISIBILITY, Head.CONTROL><br />CBS = {S1, S3, S7, S9}<br />Différents niveaux de détail<br />21<br />CBS: Cube Based Summaries<br />
  43. 43. 22<br />CBS: Cube Based Summaries<br />
  44. 44. Mesure de la qualité:homogénéité<br />Impossibilité d’identifier le plus intéressant parmi plusieurs CBS.<br />Besoin de mesurer la qualité d’un CBS.<br />La qualité d’un CBS est une fonction qui à tout couple (R, Sc,R) associe une valeur dans R.<br />23<br />
  45. 45. 24<br />Mesure de la qualité:homogénéité<br />Pour évaluer la qualité d’un CBS.<br />
  46. 46. L’heuristique proposée<br />On commence par le CBS Cile plus général possible<br />AddToHead(Ci) et/ou AddToBody(Ci) pour passer à un CBS Cj.<br />Tant que H(Cj) > H(Ci) refaire l’étape 2 avecCjà la place de Ci.<br />Dès que H(C2) = H(C1), arrêt.<br />25<br />
  47. 47. Conclusion<br />Une nouvelle technique de résumé dutrop grand nombre de règles d’association.<br />Une mesure de la qualité des CBS: l’homogénéité.<br />Une heuristique de génération de CBS.<br />26<br />
  48. 48. Ndiaye M., Diop C. T., Giacommetti A., Marcel P., Soulet A., "Cube Based Summaries Of Large Associations Rule Sets".<br />Zaki M. J., Hsiao C.-J., "CHARM: An Efficient Algorithm for ClosedItemsetMining".<br />Chandola V., Kumar V., "Summarization - Compressing Data into an Informative Representation".<br />27<br />Références<br />
  49. 49. 28<br />Merci de votre attention<br />Vos questions sont les bienvenues ...<br />

×