Riadh Ben Messaoud Kamel Aouiche Cécile Favre Une approche de construction d’espaces de représentation multidimensionnels ...
Contexte et problématique <ul><li>OLAP : navigation et exploration des données pour extraire des informations pertinentes ...
Contexte et problématique <ul><li>Améliorer la visualisation des données : </li></ul><ul><li>  Regrouper les faits dans l...
Plan <ul><li>Travaux connexes </li></ul><ul><li>Notre approche : méthode de construction de représentations multidimension...
Travaux connexes <ul><li>Deux points de vue : </li></ul><ul><ul><li>Administrateur </li></ul></ul><ul><ul><ul><li>Optimise...
Notre approche <ul><li>Arranger l’ordre des modalités des dimensions du cube de données pour améliorer sa visualisation </...
Notre approche <ul><li>Choix des dimensions et des mesures par l’utilisateur selon les besoins de son analyse </li></ul>1 ...
Notre approche <ul><li>Aplatissement du cube de données sous forme d’un tableau disjonctif complet </li></ul>1 1 2 3 4 5 6...
Notre approche Dimensions Mesures 2 <ul><li>Application de l’ACM </li></ul>2
Notre approche <ul><li>Construction d’axes factoriels ajustant au mieux le nuage des individus (faits) et des variables (m...
Notre approche Dimensions Mesures <ul><li>Arrangement des modalités </li></ul>3
Notre approche <ul><li>Associer à chaque dimension  un axe factoriel </li></ul><ul><li>Pour chaque dimension, choisir l’ax...
Notre approche Dimensions Mesures
Critère d’évaluation <ul><li>Mesurer la qualité de la représentation des données </li></ul><ul><li>Homogénéité de la répar...
Étude de cas <ul><li>Jeu de données bancaires fourni par le Crédit Lyonnais </li></ul><ul><li>Le cube contient  n=311 959 ...
Études de cas Cube arrangé (IH=20,60%) Cube initial (IH=17,75%) <ul><li>D1 : Catégorie socio-professionnelle, D2 : Produit...
Expérimentations <ul><li>Évolution de l'indice d'homogénéité en fonction de l'éparsité </li></ul><ul><li>Décroissance de l...
Expérimentations <ul><li>Évolution du gain en homogénéité en fonction de l'éparsité </li></ul><ul><li>Gain en homogénéité ...
Conclusion <ul><li>Solution au problème de la visualisation des données dans un cube éparse basée sur l’exploitation des r...
Perspectives <ul><li>Étude de complexité de notre approche </li></ul><ul><li>Étude de la possibilité de rendre la méthode ...
Prochain SlideShare
Chargement dans…5
×

P15 Eda05 V D

1 053 vues

Publié le

Publié dans : Business, Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 053
Sur SlideShare
0
Issues des intégrations
0
Intégrations
34
Actions
Partages
0
Téléchargements
13
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

P15 Eda05 V D

  1. 1. Riadh Ben Messaoud Kamel Aouiche Cécile Favre Une approche de construction d’espaces de représentation multidimensionnels dédiés à la visualisation Laboratoire ERIC – Université Lyon 2 5 avenue Pierre Mendès–France 69676, Bron Cedex – France http://eric.univ-lyon2.fr EDA'05
  2. 2. Contexte et problématique <ul><li>OLAP : navigation et exploration des données pour extraire des informations pertinentes </li></ul><ul><li>Forte composante visuelle dans l’OLAP </li></ul>La représentation multidimensionnelle des données Eparsité dans la représentation des données La forte dimensionnalité Eparsité plus importante Ordre classique des modalités Distribution aléatoire du nuage des faits
  3. 3. Contexte et problématique <ul><li>Améliorer la visualisation des données : </li></ul><ul><li> Regrouper les faits dans l’espace de représentation </li></ul><ul><ul><li> Arranger l’ordre des modalités </li></ul></ul>1 2 3 4 5 6 7 8 A B C D E F G H I J K L 2 6 3 1 7 5 4 8 A C E G H D B K L J I F
  4. 4. Plan <ul><li>Travaux connexes </li></ul><ul><li>Notre approche : méthode de construction de représentations multidimensionnelles </li></ul><ul><li>Critère d’évaluation des représentations des données multidimensionnelles </li></ul><ul><li>Étude de cas : application aux données bancaires </li></ul><ul><li>Expérimentations </li></ul><ul><li>Conclusion et perspectives </li></ul>
  5. 5. Travaux connexes <ul><li>Deux points de vue : </li></ul><ul><ul><li>Administrateur </li></ul></ul><ul><ul><ul><li>Optimiser le stockage </li></ul></ul></ul><ul><ul><ul><ul><li>Vitter et al. , </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Barbar á et Sullivan, </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Schanmugasundaram et al. , </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Sismanis et al. , </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Feng et al. , </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Lakshmanan et al. , Li et al. </li></ul></ul></ul></ul><ul><ul><ul><li>Améliorer le temps de réponse aux requêtes </li></ul></ul></ul><ul><ul><ul><ul><li>Ross et Srivastava </li></ul></ul></ul></ul><ul><ul><li>Utilisateur </li></ul></ul><ul><ul><ul><li>Améliorer la visualisation et la navigation dans le cube de données </li></ul></ul></ul><ul><ul><ul><ul><li>Choong et al. </li></ul></ul></ul></ul>
  6. 6. Notre approche <ul><li>Arranger l’ordre des modalités des dimensions du cube de données pour améliorer sa visualisation </li></ul><ul><li>Utiliser les résultats de l’Analyse des Correspondances Multiples (ACM) </li></ul><ul><li>Pourquoi l’ACM ? </li></ul><ul><li>Principe de l’ACM : </li></ul><ul><ul><li>Entrée : tableau individus/variables (faits/modalités des dimensions) </li></ul></ul><ul><ul><li>Sortie : axes d’analyse composites </li></ul></ul><ul><ul><li>Construction d’un plan propice à l’analyse dans lequel sont projetés les individus </li></ul></ul><ul><li>L’ACM est une méthode factorielle adaptée aux grands volumes de données qualitatives </li></ul>
  7. 7. Notre approche <ul><li>Choix des dimensions et des mesures par l’utilisateur selon les besoins de son analyse </li></ul>1 Dimensions Mesures <ul><li>Aplatissement du cube de données sous forme d’un tableau disjonctif complet </li></ul>1
  8. 8. Notre approche <ul><li>Aplatissement du cube de données sous forme d’un tableau disjonctif complet </li></ul>1 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 8 7 9 A 0 0 1 0 0 0 0 1 0 B 0 0 0 0 0 0 0 0 0 C 1 0 0 0 0 1 0 0 0 D 0 0 0 0 1 0 0 0 0 E 0 0 0 0 0 0 1 0 0 F 0 1 0 1 0 0 0 0 1 D1 A 1 1 0 0 0 0 0 0 0 B 0 0 1 1 0 0 0 0 0 C 0 0 0 0 0 0 0 0 0 D 0 0 0 0 1 0 0 0 0 E 0 0 0 0 0 1 0 0 0 F 0 0 0 0 0 0 1 0 0 G 0 0 0 0 0 0 0 1 1 D2
  9. 9. Notre approche Dimensions Mesures 2 <ul><li>Application de l’ACM </li></ul>2
  10. 10. Notre approche <ul><li>Construction d’axes factoriels ajustant au mieux le nuage des individus (faits) et des variables (modalités) </li></ul><ul><li>Chaque axe factoriel est associé à une valeur propre </li></ul><ul><li>représente la part de l’axe dans l’inertie totale du nuage des individus </li></ul><ul><li>Chaque variable (modalité) a une contribution relative dans la construction de l’axe </li></ul><ul><li>Contribution d’une dimension dans la construction de l’axe </li></ul><ul><li>Application de l’ACM </li></ul>2
  11. 11. Notre approche Dimensions Mesures <ul><li>Arrangement des modalités </li></ul>3
  12. 12. Notre approche <ul><li>Associer à chaque dimension un axe factoriel </li></ul><ul><li>Pour chaque dimension, choisir l’axe qui a été le mieux expliqué par ses modalités </li></ul><ul><li>Maximiser </li></ul><ul><li>Chercher l’indice qui vérifie l’équation : </li></ul><ul><li>Trier les projections des modalités de sur l’axe </li></ul><ul><li>Utiliser ce tri pour ordonner les modalités de la dimension </li></ul><ul><li>Arrangement des modalités </li></ul>3
  13. 13. Notre approche Dimensions Mesures
  14. 14. Critère d’évaluation <ul><li>Mesurer la qualité de la représentation des données </li></ul><ul><li>Homogénéité de la répartition des cellules dans un cube </li></ul><ul><ul><li>Voisinage géométrique des cellules </li></ul></ul><ul><ul><li>Mesure de similarité entre les cellules </li></ul></ul>A <ul><li>Le voisinage de la cellule A </li></ul><ul><li>Δ (A) = </li></ul>0 + 1 + 0 + 0 + 1 + 1 + 1 + 0 = 4 <ul><li>Calculer le gain en homogénéité fourni par la méthode </li></ul>A
  15. 15. Étude de cas <ul><li>Jeu de données bancaires fourni par le Crédit Lyonnais </li></ul><ul><li>Le cube contient n=311 959 faits </li></ul><ul><li>Un fait correspond au comportement d’achats des clients </li></ul>
  16. 16. Études de cas Cube arrangé (IH=20,60%) Cube initial (IH=17,75%) <ul><li>D1 : Catégorie socio-professionnelle, D2 : Produit </li></ul><ul><li>Taux d’éparsité = 64% </li></ul><ul><li>Gain en homogénéité = 16,38% </li></ul>D1 D2
  17. 17. Expérimentations <ul><li>Évolution de l'indice d'homogénéité en fonction de l'éparsité </li></ul><ul><li>Décroissance de l’indice d’homogénéité en fonction de l’éparsité </li></ul><ul><li>L’indice d’homogénéité du cube arrangé est toujours supérieur à celui du cube initial </li></ul>Éparsité Indice d’homogénéité
  18. 18. Expérimentations <ul><li>Évolution du gain en homogénéité en fonction de l'éparsité </li></ul><ul><li>Gain en homogénéité toujours positif </li></ul><ul><li>Tendance croissante du gain en homogénéité en fonction de l’éparsité </li></ul><ul><li>Fléchissements possibles dus à la nature des données </li></ul>Gain en homogénéité Éparsité
  19. 19. Conclusion <ul><li>Solution au problème de la visualisation des données dans un cube éparse basée sur l’exploitation des résultats d’une analyse factorielle </li></ul><ul><li>Organisation des modalités des dimensions en fonction des résultats d’une ACM </li></ul><ul><li>Pas de diminution de l’éparsité mais organisation de celle-ci </li></ul><ul><li>Indice de qualité des représentations multidimensionnelles </li></ul><ul><li>Plus l’éparsité est importante, plus notre approche est pertinente </li></ul>
  20. 20. Perspectives <ul><li>Étude de complexité de notre approche </li></ul><ul><li>Étude de la possibilité de rendre la méthode incrémentale </li></ul><ul><li>Introduction des valeurs des mesures </li></ul><ul><ul><li>Dans la méthode </li></ul></ul><ul><ul><li>Dans l’indice d’homogénéité </li></ul></ul><ul><li>Utilisation de notre méthode pour détecter les parties du cube à matérialiser </li></ul><ul><li>Exploitation de notre approche dans le cadre de l’entreposage virtuel de données </li></ul>

×