1 
Automatic Subspace 
Clustering of High 
Dimensional Data for Data 
Mining Applications 
Rakesh Agrawal et al. 1998 
Haj...
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
2 
Aut...
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
3 
Aut...
Introduction 
 L’objectif de la classification non supervisée 
(clustering) est d’identifier un ensemble d’individu. 
 L...
Introduction 
Quelques définitions basiques: 
 Unité: Après la formation d'une structure de grille sur 
l'espace, chaque ...
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
6 
Aut...
Clustering 
 L’objectif du clustering est d’identifier un ensemble 
d’individu et donc d’affecter à chaque observation un...
Clustering - Les méthodes 
hiérarchiques 
L’objectif: 
 Grouper les données sous une forme hiérarchique c’est 
à dire sou...
Clustering - Les méthodes de 
clustering par partition 
L’objectif: 
 Grouper les données de façon optimale pour un critè...
Clustering - Les méthodes 
basées sur la densité 
L’objectif: 
 Gérer les clusters de forme sphérique. (ce qui n’est pas ...
Clustering - Les méthodes 
basées sur les grilles 
 Basées sur 3 étapes : 
 Diviser l’espace en un nombre fini cellules ...
Clustering 
Répartition des méthodes de classification 
[Thierry Urruty,2007] 
12 Automatic Subspace Clustering of High Di...
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
13 
Au...
Haute dimensionnalité des 
données 
Challenges: 
 Plusieurs dimensions non pertinentes peuvent masquer 
les clusters. 
 ...
Haute dimensionnalité des 
données - Subspatial clustering 
 Naissance des méthodes clustering par sous-espace. 
Consiste...
Haute dimensionnalité des 
données - Subspatial clustering 
 Méthode de recherche ascendante : Les algorithmes 
commencen...
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
17 
Au...
CLIQUE 
 CLIQUE (CLustering In QUest, [Agrawal et al. 
1998]) est un algorithme de classification basé sur 
la densité et...
CLIQUE - Etape 1 
Identification des sous-espaces 
 Elle consiste à repérer des régions denses dans les sous-espaces 
dan...
CLIQUE - Etape 2 
Identification des clusters 
 Des unités denses ont été déterminés (étape 1). 
 L’algorithme explore c...
CLIQUE - Etape 3 
Description minimale des 
clusters 
L’objectif consiste à déterminer : 
 Un ensemble de régions maximal...
Exemple 
 Soit un espace à 2- 
Dimention contenant 
plusieurs points éparpillés 
(point = donnée). 
 On suppose que chaq...
Exemple – Etape 1- 
 Unité dense à 1- 
Dimention: 
D1={u21, u31, u41, u51, 
u81, u91, u12, u22, u32, 
u52, u62} 
 Unité ...
Exemple – Etape 2 - 
24 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 3 - 
 C1={(x1): 1£x1<5} 
 C2={(x1): 7£x2<9} 
 C3={(x2): 0£x2<3} 
 C4={(x2): 4£x1<6} 
 C5={(x1, x2): 1...
CLIQUE 
Avantages : 
 Peut faire un clustering si on 
a une haute dimensionnalité 
de données. 
 Repose sur une idée sim...
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
27 
Au...
Expérimentation 
 La figure (A) montre une évolutivité avec le nombre 
d'enregistrements de données (quand la taille de l...
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
29 
Au...
Conclusion 
 Quatre méthodes de clustering. 
 Le problème: la majorité des algorithmes de 
clustering ne peuvent pas étu...
Merci pour votre attention 
 
31 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Bibliographie 
 [1] Le clustering de données, Nicolas Sola Mathieu Schmitt 
 [2] Nouvelle Approche Scalable par Classifi...
Prochain SlideShare
Chargement dans…5
×

Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications

544 vues

Publié le

présentation de l'article "Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications" - Rakesh Agrawal et al. 1998.

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
544
Sur SlideShare
0
Issues des intégrations
0
Intégrations
11
Actions
Partages
0
Téléchargements
23
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications

  1. 1. 1 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications Rakesh Agrawal et al. 1998 Hajer TRABELSI Master de recherche MR2-IMD/ISAMM 12 Décembre 2014
  2. 2. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 2 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  3. 3. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 3 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  4. 4. Introduction  L’objectif de la classification non supervisée (clustering) est d’identifier un ensemble d’individu.  La majorité des algorithmes de clustering ne possèdent pas de solution pour gérer un volume de données et un nombre de dimensions si importants !  Pour pallier à ces problèmes, la recherche dans ce domaine a donné naissance aux méthodes fondées sur le clustering par sous-espace.  Une solution a été proposée c’est l’algorithme CLIQUE (CLustering In QUest, [Agrawal et al. 1998]). 4 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  5. 5. Introduction Quelques définitions basiques:  Unité: Après la formation d'une structure de grille sur l'espace, chaque cellule rectangulaire est appelé une unité.  Dense: Une unité est dense, si la fraction de points de données au total contenu dans l'unité dépasse le paramètre de modèle d'entrée.  Cluster: Un cluster est défini comme un ensemble maximal d'unités denses connectées. 5 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  6. 6. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 6 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  7. 7. Clustering  L’objectif du clustering est d’identifier un ensemble d’individu et donc d’affecter à chaque observation une "étiquette de classe" qui matérialise l’appartenance de l’observation à une classe. [7]  Il existe de nombreux algorithmes de clustering.  Il y’a quatre méthodes de clustering :  Les méthodes hiérarchiques  Les méthodes de clustering par partition  Les méthodes basées sur la densité  Les méthodes basées sur les grilles 7 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  8. 8. Clustering - Les méthodes hiérarchiques L’objectif:  Grouper les données sous une forme hiérarchique c’est à dire sous forme d’arbre ou d’un "Dendrogramme" composés de clusters.  Le noeud de l’arbre constitue l’ensemble des données de la base.  Un parcours de l’arbre vers le bas nous montre des clusters de plus en plus spécifiques à un groupe d’objets qui se caractérisent par une notion de similitude. 8 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  9. 9. Clustering - Les méthodes de clustering par partition L’objectif:  Grouper les données de façon optimale pour un critère de partitionnement donné et un nombre de cluster défini par avance.  Plusieurs moyens existent pour obtenir une bonne partition proche de la partition « optimale ».  Première technique : représenter chaque cluster par son centre (centroïde)  Exemple : K-means.  Deuxième technique : représenter chaque groupe par un objet qui correspond au membre le plus proche du centre (médoïde).  Exemple : K-medoids et PAM. 9 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  10. 10. Clustering - Les méthodes basées sur la densité L’objectif:  Gérer les clusters de forme sphérique. (ce qui n’est pas le cas des 2 premières méthodes).  Gérer le bruit qui peut exister dans les données.  Exemple : DBSCAN 10 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  11. 11. Clustering - Les méthodes basées sur les grilles  Basées sur 3 étapes :  Diviser l’espace en un nombre fini cellules rectangulaires qui forment une structure de grille  Supprimer les cellules de basse densité  Combiner les cellules adjacentes ayant une forte densité pour former des clusters.  La force de cette approche est qu’elle à une complexité linéaire de O(n).   Exemple : CLIQUE (Agrawal, 1998). 11 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  12. 12. Clustering Répartition des méthodes de classification [Thierry Urruty,2007] 12 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  13. 13. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 13 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  14. 14. Haute dimensionnalité des données Challenges:  Plusieurs dimensions non pertinentes peuvent masquer les clusters.  À chaque fois qu’on ajoute une dimension à nos k dimensions dans l’espace, les données sont étirées à travers de la kème +1 dimension.  « De quelle manière pouvons-nous traiter un volume conséquent de données avec des centaines de dimensions ? » 14 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  15. 15. Haute dimensionnalité des données - Subspatial clustering  Naissance des méthodes clustering par sous-espace. Consistent à :  Rechercher des clusters dans les sous-espaces existants.  Un sous-espace est défini en tant que un sous-ensemble d’objets similaires entre eux dans l’espace.  Pour déterminer de manière optimale les sous-espaces, des heuristiques qui sont regroupées en deux catégories sont alors développées. 15 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  16. 16. Haute dimensionnalité des données - Subspatial clustering  Méthode de recherche ascendante : Les algorithmes commencent leur recherche dans des sous-espaces à petites dimensions, puis sont en quête de sous-espaces plus grands susceptibles de contenir des clusters.  CLIQUE utilise cette approche !  Méthode de recherche descendante : La recherche effectuée par les algorithmes englobe tout l’espace et cette fouille continue dans des sous-espaces de plus en plus petits. 16 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  17. 17. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 17 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  18. 18. CLIQUE  CLIQUE (CLustering In QUest, [Agrawal et al. 1998]) est un algorithme de classification basé sur la densité et sur la grille [8].  Basé sur 3 étapes:  Identification des sous-espaces qui contiennent des clusters  Identification des clusters  Description minimale des clusters 18 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  19. 19. CLIQUE - Etape 1 Identification des sous-espaces  Elle consiste à repérer des régions denses dans les sous-espaces dans l’espace de dimension d.  CLIQUE divise l’espace en unités rectangulaire.  Il partitionne chaque dimension en un nombre identique d’intervalles de même taille.  L’algorithme commence par déterminer la densité des régions sur une seule dimension. Lorsque des unités denses sont déterminées dans K-1 dimension, l’algorithme génère des unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y ait plus de dimension candidate.  La génération d’un ensemble d’unités denses sur K dimensions à partir d’une dimension DK-1 et d’un ensemble d’unités denses sur K-1 dimensions repose sur l’approche bottom-up 19 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  20. 20. CLIQUE - Etape 2 Identification des clusters  Des unités denses ont été déterminés (étape 1).  L’algorithme explore ces régions à la recherche de clusters.  C’est comme si une recherche des composants connexes dans un graphe (Agrawal, 1998). 20 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  21. 21. CLIQUE - Etape 3 Description minimale des clusters L’objectif consiste à déterminer :  Un ensemble de régions maximales qui soit une couverture de l’ensemble des unités denses sur un espace de K dimension.  Cette étape est assurée par un algorithme glouton.  Une couverture minimale calculée grâce à des heuristiques. 21 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  22. 22. Exemple  Soit un espace à 2- Dimention contenant plusieurs points éparpillés (point = donnée).  On suppose que chaque unité contenant plus de 5 points est considéré comme dense. 22 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  23. 23. Exemple – Etape 1-  Unité dense à 1- Dimention: D1={u21, u31, u41, u51, u81, u91, u12, u22, u32, u52, u62}  Unité dense à 2- Dimention: D2={u21, u22, u32, u33, u83, u93} 23 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  24. 24. Exemple – Etape 2 - 24 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  25. 25. Exemple – Etape 3 -  C1={(x1): 1£x1<5}  C2={(x1): 7£x2<9}  C3={(x2): 0£x2<3}  C4={(x2): 4£x1<6}  C5={(x1, x2): 1£x1<2, 0£x2<2} È {(x1, x2): 2£ x1<3, 1£x2<3}  C6={(x1, x2): 7£x1£9, 2£x2<3} 25 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  26. 26. CLIQUE Avantages :  Peut faire un clustering si on a une haute dimensionnalité de données.  Repose sur une idée simple et intuitive.  La recherche des sous-espaces susceptibles de contenir des régions denses se fait automatiquement Inconvénients:  Obtenir un cluster de bonne qualité dépend du réglage de la taille de la grille et du seuil de densité, or, ces valeurs s’utilisent au travers de toutes les dimensions. [1] 26 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  27. 27. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 27 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  28. 28. Expérimentation  La figure (A) montre une évolutivité avec le nombre d'enregistrements de données (quand la taille de la base de données est passée de 100 000 à 500 000 enregistrements).  La figure (B) montre une évolutivité avec la dimensionnalité de l’espace de donnée.  La figure (C) montre une évolutivité avec la dimensionnalité des clusters cachés.  Pour plus de détail, voir [Agrawal et al. 1998]. 28 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  29. 29. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 29 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  30. 30. Conclusion  Quatre méthodes de clustering.  Le problème: la majorité des algorithmes de clustering ne peuvent pas étudier le cas si on a une haute dimensionnalité de données.  Naissance de CLIQUE !  C’une méthode fondée sur le clustering par sous-espace.  On peut trouver plusieurs variantes de CLIQUE.  ENCLUS (ENtropy-based CLUStering)  une approche semblable à CLIQUE. 30 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  31. 31. Merci pour votre attention  31 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  32. 32. Bibliographie  [1] Le clustering de données, Nicolas Sola Mathieu Schmitt  [2] Nouvelle Approche Scalable par Classification des Charges de Requêtes Volumineuses pour la Sélection d’un Schéma de Fragmentation, Amina Gacem, 2012  [3] Développement et mise en place d’une méthode de classification multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014  [4] Une méthode de classification non-supervisée pour l’apprentissage de règles et la recherche d’information, Guillaume Cleuziou , 2006  [5] Connaissances et clustering collaboratif d’objets complexes multisources, Germain Forester, 2010  [6] Optimisation de l’indexation multidimentionnelle : application aux descripteurs multimédia ,Thierry Urruty,2007  [7] Classification non supervisée, E. Lebarbier, T. Mary-Huard  [8] http ://fr.slideshare.net/skklms/clique 32 La complexité des algorithmes récursives Géométrie algorithmique

×