Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

1
Automatic Subspace
Clustering of High
Dimensional Data for Data
Mining Applications
Rakesh Agrawal et al. 1998
Hajer TRABELSI
Master de recherche MR2-IMD/ISAMM
12 Décembre 2014

Plan
 Introduction
 Clustering
 Haute dimensionnalité des données
 CLIQUE
 Expérimentation
 Conclusion
2
Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications

Plan
 Introduction
 Clustering
 CLIQUE
 Conclusion
3
Mining Applications

Introduction
 L’objectif de la classification non supervisée
(clustering) est d’identifier un ensemble d’individu.
 La majorité des algorithmes de clustering ne
possèdent pas de solution pour gérer un volume de
données et un nombre de dimensions si importants !
 Pour pallier à ces problèmes, la recherche dans ce
domaine a donné naissance aux méthodes fondées
sur le clustering par sous-espace.
 Une solution a été proposée c’est l’algorithme
CLIQUE (CLustering In QUest, [Agrawal et al. 1998]).
4
Mining Applications

Introduction
Quelques définitions basiques:
 Unité: Après la formation d'une structure de grille sur
l'espace, chaque cellule rectangulaire est appelé une
unité.
 Dense: Une unité est dense, si la fraction de points de
données au total contenu dans l'unité dépasse le
paramètre de modèle d'entrée.
 Cluster: Un cluster est défini comme un ensemble
maximal d'unités denses connectées.
5 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications

Plan
 Introduction
 Clustering
 CLIQUE
 Conclusion
6
Mining Applications

Clustering
 L’objectif du clustering est d’identifier un ensemble
d’individu et donc d’affecter à chaque observation une
"étiquette de classe" qui matérialise l’appartenance de
l’observation à une classe. [7]
 Il existe de nombreux algorithmes de clustering.
 Il y’a quatre méthodes de clustering :
 Les méthodes hiérarchiques
 Les méthodes de clustering par partition
 Les méthodes basées sur la densité
 Les méthodes basées sur les grilles
Mining Applications

Clustering - Les méthodes
hiérarchiques
L’objectif:
 Grouper les données sous une forme hiérarchique c’est
à dire sous forme d’arbre ou d’un "Dendrogramme"
composés de clusters.
 Le noeud de l’arbre constitue l’ensemble des données de
la base.
 Un parcours de l’arbre vers le bas nous montre des
clusters de plus en plus spécifiques à un groupe d’objets
qui se caractérisent par une notion de similitude.
Mining Applications

Clustering - Les méthodes de
clustering par partition
L’objectif:
 Grouper les données de façon optimale pour un critère
de partitionnement donné et un nombre de cluster défini
par avance.
 Plusieurs moyens existent pour obtenir une bonne
partition proche de la partition « optimale ».
 Première technique : représenter chaque cluster par son centre
(centroïde)  Exemple : K-means.
 Deuxième technique : représenter chaque groupe par un objet qui
correspond au membre le plus proche du centre (médoïde). 
Exemple : K-medoids et PAM.
Mining Applications

basées sur la densité
L’objectif:
 Gérer les clusters de forme sphérique. (ce qui n’est pas le
cas des 2 premières méthodes).
 Gérer le bruit qui peut exister dans les données.
 Exemple : DBSCAN
Mining Applications

basées sur les grilles
 Basées sur 3 étapes :
 Diviser l’espace en un nombre fini cellules rectangulaires
qui forment une structure de grille
 Supprimer les cellules de basse densité
 Combiner les cellules adjacentes ayant une forte densité
pour former des clusters.
 La force de cette approche est qu’elle à une complexité
linéaire de O(n).
  Exemple : CLIQUE (Agrawal, 1998).
Mining Applications

Clustering
Répartition des méthodes de classification
[Thierry Urruty,2007]
Mining Applications

Plan
 Introduction
 Clustering
 CLIQUE
 Conclusion
13
Mining Applications

Haute dimensionnalité des
données
Challenges:
 Plusieurs dimensions non pertinentes peuvent masquer
les clusters.
 À chaque fois qu’on ajoute une dimension à nos k
dimensions dans l’espace, les données sont étirées à
travers de la kème +1 dimension.
 « De quelle manière pouvons-nous traiter un volume
conséquent de données avec des centaines de
dimensions ? »
Mining Applications

données - Subspatial clustering
 Naissance des méthodes clustering par sous-espace.
Consistent à :
 Rechercher des clusters dans les sous-espaces
existants.
 Un sous-espace est défini en tant que un sous-ensemble
d’objets similaires entre eux dans l’espace.
 Pour déterminer de manière optimale les sous-espaces,
des heuristiques qui sont regroupées en deux catégories
sont alors développées.
Mining Applications

données - Subspatial clustering
 Méthode de recherche ascendante : Les algorithmes
commencent leur recherche dans des sous-espaces à
petites dimensions, puis sont en quête de sous-espaces
plus grands susceptibles de contenir des clusters.
 CLIQUE utilise cette approche !
 Méthode de recherche descendante : La recherche
effectuée par les algorithmes englobe tout l’espace et
cette fouille continue dans des sous-espaces de plus en
plus petits.
Mining Applications

Plan
 Introduction
 Clustering
 CLIQUE
 Conclusion
17
Mining Applications

CLIQUE
 CLIQUE (CLustering In QUest, [Agrawal et al.
1998]) est un algorithme de classification basé sur
la densité et sur la grille [8].
 Basé sur 3 étapes:
 Identification des sous-espaces qui contiennent des
clusters
 Identification des clusters
 Description minimale des clusters
Mining Applications

CLIQUE - Etape 1
Identification des sous-espaces
 Elle consiste à repérer des régions denses dans les sous-espaces
dans l’espace de dimension d.
 CLIQUE divise l’espace en unités rectangulaire.
 Il partitionne chaque dimension en un nombre identique
d’intervalles de même taille.
 L’algorithme commence par déterminer la densité des régions
sur une seule dimension. Lorsque des unités denses sont
déterminées dans K-1 dimension, l’algorithme génère des
unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y
ait plus de dimension candidate.
 La génération d’un ensemble d’unités denses sur K dimensions
à partir d’une dimension DK-1 et d’un ensemble d’unités denses
sur K-1 dimensions repose sur l’approche bottom-up 19 Automatic Subspace Clustering of High Dimensional Data for Data
Mining Applications

CLIQUE - Etape 2
Identification des clusters
 Des unités denses ont été déterminés (étape 1).
 L’algorithme explore ces régions à la recherche de
clusters.
 C’est comme si une recherche des composants
connexes dans un graphe (Agrawal, 1998).
Mining Applications

CLIQUE - Etape 3
Description minimale des
clusters
L’objectif consiste à déterminer :
 Un ensemble de régions maximales qui soit une
couverture de l’ensemble des unités denses sur un
espace de K dimension.
 Cette étape est assurée par un algorithme glouton.
 Une couverture minimale calculée grâce à des
heuristiques.
Mining Applications

Exemple
 Soit un espace à 2-
Dimention contenant
plusieurs points éparpillés
(point = donnée).
 On suppose que chaque
unité contenant plus de 5
points est considéré
comme dense.
Mining Applications

Exemple – Etape 1-
 Unité dense à 1-
Dimention:
D1={u21, u31, u41, u51,
u81, u91, u12, u22, u32,
u52, u62}
 Unité dense à 2-
Dimention:
D2={u21, u22, u32, u33,
u83, u93}
Mining Applications

Exemple – Etape 2 -
Mining Applications

Exemple – Etape 3 -
 C1={(x1): 1£x1<5}
 C2={(x1): 7£x2<9}
 C3={(x2): 0£x2<3}
 C4={(x2): 4£x1<6}
 C5={(x1, x2): 1£x1<2,
0£x2<2} È {(x1, x2): 2£
x1<3, 1£x2<3}
 C6={(x1, x2): 7£x1£9,
2£x2<3}
Mining Applications

CLIQUE
Avantages :
 Peut faire un clustering si on
a une haute dimensionnalité
de données.
 Repose sur une idée simple
et intuitive.
 La recherche des sous-espaces
susceptibles de
contenir des régions denses
se fait automatiquement
Inconvénients:
 Obtenir un cluster de
bonne qualité dépend du
réglage de la taille de la
grille et du seuil de
densité, or, ces valeurs
s’utilisent au travers de
toutes les dimensions. [1]
Mining Applications

Plan
 Introduction
 Clustering
 CLIQUE
 Conclusion
27
Mining Applications

Expérimentation
 La figure (A) montre une évolutivité avec le nombre
d'enregistrements de données (quand la taille de la base de
données est passée de 100 000 à 500 000 enregistrements).
 La figure (B) montre une évolutivité avec la dimensionnalité de
l’espace de donnée.
 La figure (C) montre une évolutivité avec la dimensionnalité des
clusters cachés.
 Pour plus de détail, voir [Agrawal et al. 1998].
Mining Applications

Plan
 Introduction
 Clustering
 CLIQUE
 Conclusion
29
Mining Applications

Conclusion
 Quatre méthodes de clustering.
 Le problème: la majorité des algorithmes de
clustering ne peuvent pas étudier le cas si on a une
haute dimensionnalité de données.
 Naissance de CLIQUE !
 C’une méthode fondée sur le clustering par sous-espace.
 On peut trouver plusieurs variantes de CLIQUE.
 ENCLUS (ENtropy-based CLUStering)  une
approche semblable à CLIQUE.
Mining Applications

Merci pour votre attention

Mining Applications

Bibliographie
 [1] Le clustering de données, Nicolas Sola Mathieu Schmitt
 [2] Nouvelle Approche Scalable par Classification des Charges de
Requêtes Volumineuses pour la Sélection d’un Schéma de
Fragmentation, Amina Gacem, 2012
 [3] Développement et mise en place d’une méthode de classification
multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014
 [4] Une méthode de classification non-supervisée pour l’apprentissage
de règles et la recherche d’information, Guillaume Cleuziou , 2006
 [5] Connaissances et clustering collaboratif d’objets complexes
multisources, Germain Forester, 2010
 [6] Optimisation de l’indexation multidimentionnelle : application aux
descripteurs multimédia ,Thierry Urruty,2007
 [7] Classification non supervisée, E. Lebarbier, T. Mary-Huard
 [8] http ://fr.slideshare.net/skklms/clique
32 La complexité des algorithmes récursives
Géométrie algorithmique

Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications

Contenu connexe

Tendances

En vedette

Dernier