SlideShare une entreprise Scribd logo
1 
Automatic Subspace 
Clustering of High 
Dimensional Data for Data 
Mining Applications 
Rakesh Agrawal et al. 1998 
Hajer TRABELSI 
Master de recherche MR2-IMD/ISAMM 
12 Décembre 2014
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
2 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
3 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Introduction 
 L’objectif de la classification non supervisée 
(clustering) est d’identifier un ensemble d’individu. 
 La majorité des algorithmes de clustering ne 
possèdent pas de solution pour gérer un volume de 
données et un nombre de dimensions si importants ! 
 Pour pallier à ces problèmes, la recherche dans ce 
domaine a donné naissance aux méthodes fondées 
sur le clustering par sous-espace. 
 Une solution a été proposée c’est l’algorithme 
CLIQUE (CLustering In QUest, [Agrawal et al. 1998]). 
4 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Introduction 
Quelques définitions basiques: 
 Unité: Après la formation d'une structure de grille sur 
l'espace, chaque cellule rectangulaire est appelé une 
unité. 
 Dense: Une unité est dense, si la fraction de points de 
données au total contenu dans l'unité dépasse le 
paramètre de modèle d'entrée. 
 Cluster: Un cluster est défini comme un ensemble 
maximal d'unités denses connectées. 
5 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
6 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering 
 L’objectif du clustering est d’identifier un ensemble 
d’individu et donc d’affecter à chaque observation une 
"étiquette de classe" qui matérialise l’appartenance de 
l’observation à une classe. [7] 
 Il existe de nombreux algorithmes de clustering. 
 Il y’a quatre méthodes de clustering : 
 Les méthodes hiérarchiques 
 Les méthodes de clustering par partition 
 Les méthodes basées sur la densité 
 Les méthodes basées sur les grilles 
7 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes 
hiérarchiques 
L’objectif: 
 Grouper les données sous une forme hiérarchique c’est 
à dire sous forme d’arbre ou d’un "Dendrogramme" 
composés de clusters. 
 Le noeud de l’arbre constitue l’ensemble des données de 
la base. 
 Un parcours de l’arbre vers le bas nous montre des 
clusters de plus en plus spécifiques à un groupe d’objets 
qui se caractérisent par une notion de similitude. 
8 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes de 
clustering par partition 
L’objectif: 
 Grouper les données de façon optimale pour un critère 
de partitionnement donné et un nombre de cluster défini 
par avance. 
 Plusieurs moyens existent pour obtenir une bonne 
partition proche de la partition « optimale ». 
 Première technique : représenter chaque cluster par son centre 
(centroïde)  Exemple : K-means. 
 Deuxième technique : représenter chaque groupe par un objet qui 
correspond au membre le plus proche du centre (médoïde).  
Exemple : K-medoids et PAM. 
9 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes 
basées sur la densité 
L’objectif: 
 Gérer les clusters de forme sphérique. (ce qui n’est pas le 
cas des 2 premières méthodes). 
 Gérer le bruit qui peut exister dans les données. 
 Exemple : DBSCAN 
10 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes 
basées sur les grilles 
 Basées sur 3 étapes : 
 Diviser l’espace en un nombre fini cellules rectangulaires 
qui forment une structure de grille 
 Supprimer les cellules de basse densité 
 Combiner les cellules adjacentes ayant une forte densité 
pour former des clusters. 
 La force de cette approche est qu’elle à une complexité 
linéaire de O(n). 
  Exemple : CLIQUE (Agrawal, 1998). 
11 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering 
Répartition des méthodes de classification 
[Thierry Urruty,2007] 
12 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
13 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Haute dimensionnalité des 
données 
Challenges: 
 Plusieurs dimensions non pertinentes peuvent masquer 
les clusters. 
 À chaque fois qu’on ajoute une dimension à nos k 
dimensions dans l’espace, les données sont étirées à 
travers de la kème +1 dimension. 
 « De quelle manière pouvons-nous traiter un volume 
conséquent de données avec des centaines de 
dimensions ? » 
14 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Haute dimensionnalité des 
données - Subspatial clustering 
 Naissance des méthodes clustering par sous-espace. 
Consistent à : 
 Rechercher des clusters dans les sous-espaces 
existants. 
 Un sous-espace est défini en tant que un sous-ensemble 
d’objets similaires entre eux dans l’espace. 
 Pour déterminer de manière optimale les sous-espaces, 
des heuristiques qui sont regroupées en deux catégories 
sont alors développées. 
15 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Haute dimensionnalité des 
données - Subspatial clustering 
 Méthode de recherche ascendante : Les algorithmes 
commencent leur recherche dans des sous-espaces à 
petites dimensions, puis sont en quête de sous-espaces 
plus grands susceptibles de contenir des clusters. 
 CLIQUE utilise cette approche ! 
 Méthode de recherche descendante : La recherche 
effectuée par les algorithmes englobe tout l’espace et 
cette fouille continue dans des sous-espaces de plus en 
plus petits. 
16 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
17 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE 
 CLIQUE (CLustering In QUest, [Agrawal et al. 
1998]) est un algorithme de classification basé sur 
la densité et sur la grille [8]. 
 Basé sur 3 étapes: 
 Identification des sous-espaces qui contiennent des 
clusters 
 Identification des clusters 
 Description minimale des clusters 
18 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE - Etape 1 
Identification des sous-espaces 
 Elle consiste à repérer des régions denses dans les sous-espaces 
dans l’espace de dimension d. 
 CLIQUE divise l’espace en unités rectangulaire. 
 Il partitionne chaque dimension en un nombre identique 
d’intervalles de même taille. 
 L’algorithme commence par déterminer la densité des régions 
sur une seule dimension. Lorsque des unités denses sont 
déterminées dans K-1 dimension, l’algorithme génère des 
unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y 
ait plus de dimension candidate. 
 La génération d’un ensemble d’unités denses sur K dimensions 
à partir d’une dimension DK-1 et d’un ensemble d’unités denses 
sur K-1 dimensions repose sur l’approche bottom-up 19 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE - Etape 2 
Identification des clusters 
 Des unités denses ont été déterminés (étape 1). 
 L’algorithme explore ces régions à la recherche de 
clusters. 
 C’est comme si une recherche des composants 
connexes dans un graphe (Agrawal, 1998). 
20 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE - Etape 3 
Description minimale des 
clusters 
L’objectif consiste à déterminer : 
 Un ensemble de régions maximales qui soit une 
couverture de l’ensemble des unités denses sur un 
espace de K dimension. 
 Cette étape est assurée par un algorithme glouton. 
 Une couverture minimale calculée grâce à des 
heuristiques. 
21 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple 
 Soit un espace à 2- 
Dimention contenant 
plusieurs points éparpillés 
(point = donnée). 
 On suppose que chaque 
unité contenant plus de 5 
points est considéré 
comme dense. 
22 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 1- 
 Unité dense à 1- 
Dimention: 
D1={u21, u31, u41, u51, 
u81, u91, u12, u22, u32, 
u52, u62} 
 Unité dense à 2- 
Dimention: 
D2={u21, u22, u32, u33, 
u83, u93} 
23 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 2 - 
24 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 3 - 
 C1={(x1): 1£x1<5} 
 C2={(x1): 7£x2<9} 
 C3={(x2): 0£x2<3} 
 C4={(x2): 4£x1<6} 
 C5={(x1, x2): 1£x1<2, 
0£x2<2} È {(x1, x2): 2£ 
x1<3, 1£x2<3} 
 C6={(x1, x2): 7£x1£9, 
2£x2<3} 
25 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE 
Avantages : 
 Peut faire un clustering si on 
a une haute dimensionnalité 
de données. 
 Repose sur une idée simple 
et intuitive. 
 La recherche des sous-espaces 
susceptibles de 
contenir des régions denses 
se fait automatiquement 
Inconvénients: 
 Obtenir un cluster de 
bonne qualité dépend du 
réglage de la taille de la 
grille et du seuil de 
densité, or, ces valeurs 
s’utilisent au travers de 
toutes les dimensions. [1] 
26 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
27 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Expérimentation 
 La figure (A) montre une évolutivité avec le nombre 
d'enregistrements de données (quand la taille de la base de 
données est passée de 100 000 à 500 000 enregistrements). 
 La figure (B) montre une évolutivité avec la dimensionnalité de 
l’espace de donnée. 
 La figure (C) montre une évolutivité avec la dimensionnalité des 
clusters cachés. 
 Pour plus de détail, voir [Agrawal et al. 1998]. 
28 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
29 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Conclusion 
 Quatre méthodes de clustering. 
 Le problème: la majorité des algorithmes de 
clustering ne peuvent pas étudier le cas si on a une 
haute dimensionnalité de données. 
 Naissance de CLIQUE ! 
 C’une méthode fondée sur le clustering par sous-espace. 
 On peut trouver plusieurs variantes de CLIQUE. 
 ENCLUS (ENtropy-based CLUStering)  une 
approche semblable à CLIQUE. 
30 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Merci pour votre attention 
 
31 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Bibliographie 
 [1] Le clustering de données, Nicolas Sola Mathieu Schmitt 
 [2] Nouvelle Approche Scalable par Classification des Charges de 
Requêtes Volumineuses pour la Sélection d’un Schéma de 
Fragmentation, Amina Gacem, 2012 
 [3] Développement et mise en place d’une méthode de classification 
multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014 
 [4] Une méthode de classification non-supervisée pour l’apprentissage 
de règles et la recherche d’information, Guillaume Cleuziou , 2006 
 [5] Connaissances et clustering collaboratif d’objets complexes 
multisources, Germain Forester, 2010 
 [6] Optimisation de l’indexation multidimentionnelle : application aux 
descripteurs multimédia ,Thierry Urruty,2007 
 [7] Classification non supervisée, E. Lebarbier, T. Mary-Huard 
 [8] http ://fr.slideshare.net/skklms/clique 
32 La complexité des algorithmes récursives 
Géométrie algorithmique

Contenu connexe

Tendances

Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
LearningMahout
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
Novagen Conseil
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Emna Trabelsi
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
fatimabenjelloun1
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Jean Roger Mably
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
Didier Girard
 
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache MahoutMix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Michaël Figuière
 
Duchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache MahoutDuchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache Mahout
Michaël Figuière
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
Hakim Nasaoui
 

Tendances (10)

Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache MahoutMix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
 
Duchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache MahoutDuchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache Mahout
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Cours1 2 gdmm
Cours1 2 gdmmCours1 2 gdmm
Cours1 2 gdmm
 

En vedette

Mémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeMémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration sociale
Sophie Jaboeuf
 
6 clustering
6 clustering6 clustering
6 clustering
Viet-Trung TRAN
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifié
Mathieu Dumoulin
 
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Microsoft Décideurs IT
 
Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013
Thierry Pastorello
 
Prêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'IslamPrêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'Islam
Azis MACh
 
Clusters mondiaux
Clusters mondiauxClusters mondiaux
Clusters mondiaux
Maria Manar
 
Szarotka6
Szarotka6Szarotka6
Szarotka6
a12
 
الاسد وابن اوى والحمار
الاسد وابن اوى والحمارالاسد وابن اوى والحمار
الاسد وابن اوى والحمار
muhmadbdran
 
Distance function
Distance functionDistance function
Distance function
Lippo Group Digital
 
Digital image classification22oct
Digital image classification22octDigital image classification22oct
Digital image classification22oct
Aleemuddin Abbasi
 
Cartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringCartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clustering
tuxette
 
Clusteryanam
ClusteryanamClusteryanam
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
Donia Hammami
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
Patrick Guimonet
 
Presentation Tisic 2011
Presentation Tisic 2011Presentation Tisic 2011
Presentation Tisic 2011
ticien
 

En vedette (20)

Mémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeMémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration sociale
 
Clustering
ClusteringClustering
Clustering
 
clustering
clusteringclustering
clustering
 
6 clustering
6 clustering6 clustering
6 clustering
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifié
 
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
 
Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Prêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'IslamPrêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'Islam
 
Clusters mondiaux
Clusters mondiauxClusters mondiaux
Clusters mondiaux
 
Szarotka6
Szarotka6Szarotka6
Szarotka6
 
الاسد وابن اوى والحمار
الاسد وابن اوى والحمارالاسد وابن اوى والحمار
الاسد وابن اوى والحمار
 
Distance function
Distance functionDistance function
Distance function
 
Digital image classification22oct
Digital image classification22octDigital image classification22oct
Digital image classification22oct
 
Cartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringCartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clustering
 
Clusteryanam
ClusteryanamClusteryanam
Clusteryanam
 
Bejaia
BejaiaBejaia
Bejaia
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
 
Presentation Tisic 2011
Presentation Tisic 2011Presentation Tisic 2011
Presentation Tisic 2011
 

Similaire à Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications

Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
khalil Ismail
 
test
testtest
test
dehbimoad
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
Bassem Brayek
 
ENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT ChicagoENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT Chicago
Arnaud Lempereur
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
Imen Turki
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
Boris Guarisma
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
salmanakbi
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
rajiasellami
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
fatmakarem
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchique
Yassine Mhadhbi
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
OuailChoukhairi
 
Data-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdfData-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdf
SanaMahfoudh2
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
PenielLoyi
 
Rapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUXRapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUX
Thanh Vu Le
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
MarckKerbergKouassi
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
ZizoAziz
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
Minyar Sassi Hidri
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
Arrow Group
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
Arrow-Institute
 

Similaire à Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications (20)

Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
test
testtest
test
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
ENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT ChicagoENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT Chicago
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchique
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Data-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdfData-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdf
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Rapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUXRapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUX
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 

Dernier

Zineb Mekouar.pptx Écrivaine marocaine
Zineb Mekouar.pptx   Écrivaine  marocaineZineb Mekouar.pptx   Écrivaine  marocaine
Zineb Mekouar.pptx Écrivaine marocaine
Txaruka
 
La Révolution Bénédictine Casadéenne du Livradois-Forez: De Charlemagne à Fra...
La Révolution Bénédictine Casadéenne du Livradois-Forez: De Charlemagne à Fra...La Révolution Bénédictine Casadéenne du Livradois-Forez: De Charlemagne à Fra...
La Révolution Bénédictine Casadéenne du Livradois-Forez: De Charlemagne à Fra...
Editions La Dondaine
 
GUIDE POUR L’EVRAS BALISES ET APPRENTISSAGES
GUIDE POUR L’EVRAS BALISES ET APPRENTISSAGESGUIDE POUR L’EVRAS BALISES ET APPRENTISSAGES
GUIDE POUR L’EVRAS BALISES ET APPRENTISSAGES
DjibrilToure5
 
Burkina Faso libraries newsletter for June 2024
Burkina Faso libraries newsletter for June 2024Burkina Faso libraries newsletter for June 2024
Burkina Faso libraries newsletter for June 2024
Friends of African Village Libraries
 
Auguste Herbin.pptx Peintre français
Auguste   Herbin.pptx Peintre   françaisAuguste   Herbin.pptx Peintre   français
Auguste Herbin.pptx Peintre français
Txaruka
 
1e Espaces productifs 2024.Espaces productif
1e Espaces productifs 2024.Espaces productif1e Espaces productifs 2024.Espaces productif
1e Espaces productifs 2024.Espaces productif
NadineHG
 

Dernier (6)

Zineb Mekouar.pptx Écrivaine marocaine
Zineb Mekouar.pptx   Écrivaine  marocaineZineb Mekouar.pptx   Écrivaine  marocaine
Zineb Mekouar.pptx Écrivaine marocaine
 
La Révolution Bénédictine Casadéenne du Livradois-Forez: De Charlemagne à Fra...
La Révolution Bénédictine Casadéenne du Livradois-Forez: De Charlemagne à Fra...La Révolution Bénédictine Casadéenne du Livradois-Forez: De Charlemagne à Fra...
La Révolution Bénédictine Casadéenne du Livradois-Forez: De Charlemagne à Fra...
 
GUIDE POUR L’EVRAS BALISES ET APPRENTISSAGES
GUIDE POUR L’EVRAS BALISES ET APPRENTISSAGESGUIDE POUR L’EVRAS BALISES ET APPRENTISSAGES
GUIDE POUR L’EVRAS BALISES ET APPRENTISSAGES
 
Burkina Faso libraries newsletter for June 2024
Burkina Faso libraries newsletter for June 2024Burkina Faso libraries newsletter for June 2024
Burkina Faso libraries newsletter for June 2024
 
Auguste Herbin.pptx Peintre français
Auguste   Herbin.pptx Peintre   françaisAuguste   Herbin.pptx Peintre   français
Auguste Herbin.pptx Peintre français
 
1e Espaces productifs 2024.Espaces productif
1e Espaces productifs 2024.Espaces productif1e Espaces productifs 2024.Espaces productif
1e Espaces productifs 2024.Espaces productif
 

Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications

  • 1. 1 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications Rakesh Agrawal et al. 1998 Hajer TRABELSI Master de recherche MR2-IMD/ISAMM 12 Décembre 2014
  • 2. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 2 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 3. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 3 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 4. Introduction  L’objectif de la classification non supervisée (clustering) est d’identifier un ensemble d’individu.  La majorité des algorithmes de clustering ne possèdent pas de solution pour gérer un volume de données et un nombre de dimensions si importants !  Pour pallier à ces problèmes, la recherche dans ce domaine a donné naissance aux méthodes fondées sur le clustering par sous-espace.  Une solution a été proposée c’est l’algorithme CLIQUE (CLustering In QUest, [Agrawal et al. 1998]). 4 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 5. Introduction Quelques définitions basiques:  Unité: Après la formation d'une structure de grille sur l'espace, chaque cellule rectangulaire est appelé une unité.  Dense: Une unité est dense, si la fraction de points de données au total contenu dans l'unité dépasse le paramètre de modèle d'entrée.  Cluster: Un cluster est défini comme un ensemble maximal d'unités denses connectées. 5 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 6. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 6 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 7. Clustering  L’objectif du clustering est d’identifier un ensemble d’individu et donc d’affecter à chaque observation une "étiquette de classe" qui matérialise l’appartenance de l’observation à une classe. [7]  Il existe de nombreux algorithmes de clustering.  Il y’a quatre méthodes de clustering :  Les méthodes hiérarchiques  Les méthodes de clustering par partition  Les méthodes basées sur la densité  Les méthodes basées sur les grilles 7 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 8. Clustering - Les méthodes hiérarchiques L’objectif:  Grouper les données sous une forme hiérarchique c’est à dire sous forme d’arbre ou d’un "Dendrogramme" composés de clusters.  Le noeud de l’arbre constitue l’ensemble des données de la base.  Un parcours de l’arbre vers le bas nous montre des clusters de plus en plus spécifiques à un groupe d’objets qui se caractérisent par une notion de similitude. 8 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 9. Clustering - Les méthodes de clustering par partition L’objectif:  Grouper les données de façon optimale pour un critère de partitionnement donné et un nombre de cluster défini par avance.  Plusieurs moyens existent pour obtenir une bonne partition proche de la partition « optimale ».  Première technique : représenter chaque cluster par son centre (centroïde)  Exemple : K-means.  Deuxième technique : représenter chaque groupe par un objet qui correspond au membre le plus proche du centre (médoïde).  Exemple : K-medoids et PAM. 9 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 10. Clustering - Les méthodes basées sur la densité L’objectif:  Gérer les clusters de forme sphérique. (ce qui n’est pas le cas des 2 premières méthodes).  Gérer le bruit qui peut exister dans les données.  Exemple : DBSCAN 10 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 11. Clustering - Les méthodes basées sur les grilles  Basées sur 3 étapes :  Diviser l’espace en un nombre fini cellules rectangulaires qui forment une structure de grille  Supprimer les cellules de basse densité  Combiner les cellules adjacentes ayant une forte densité pour former des clusters.  La force de cette approche est qu’elle à une complexité linéaire de O(n).   Exemple : CLIQUE (Agrawal, 1998). 11 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 12. Clustering Répartition des méthodes de classification [Thierry Urruty,2007] 12 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 13. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 13 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 14. Haute dimensionnalité des données Challenges:  Plusieurs dimensions non pertinentes peuvent masquer les clusters.  À chaque fois qu’on ajoute une dimension à nos k dimensions dans l’espace, les données sont étirées à travers de la kème +1 dimension.  « De quelle manière pouvons-nous traiter un volume conséquent de données avec des centaines de dimensions ? » 14 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 15. Haute dimensionnalité des données - Subspatial clustering  Naissance des méthodes clustering par sous-espace. Consistent à :  Rechercher des clusters dans les sous-espaces existants.  Un sous-espace est défini en tant que un sous-ensemble d’objets similaires entre eux dans l’espace.  Pour déterminer de manière optimale les sous-espaces, des heuristiques qui sont regroupées en deux catégories sont alors développées. 15 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 16. Haute dimensionnalité des données - Subspatial clustering  Méthode de recherche ascendante : Les algorithmes commencent leur recherche dans des sous-espaces à petites dimensions, puis sont en quête de sous-espaces plus grands susceptibles de contenir des clusters.  CLIQUE utilise cette approche !  Méthode de recherche descendante : La recherche effectuée par les algorithmes englobe tout l’espace et cette fouille continue dans des sous-espaces de plus en plus petits. 16 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 17. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 17 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 18. CLIQUE  CLIQUE (CLustering In QUest, [Agrawal et al. 1998]) est un algorithme de classification basé sur la densité et sur la grille [8].  Basé sur 3 étapes:  Identification des sous-espaces qui contiennent des clusters  Identification des clusters  Description minimale des clusters 18 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 19. CLIQUE - Etape 1 Identification des sous-espaces  Elle consiste à repérer des régions denses dans les sous-espaces dans l’espace de dimension d.  CLIQUE divise l’espace en unités rectangulaire.  Il partitionne chaque dimension en un nombre identique d’intervalles de même taille.  L’algorithme commence par déterminer la densité des régions sur une seule dimension. Lorsque des unités denses sont déterminées dans K-1 dimension, l’algorithme génère des unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y ait plus de dimension candidate.  La génération d’un ensemble d’unités denses sur K dimensions à partir d’une dimension DK-1 et d’un ensemble d’unités denses sur K-1 dimensions repose sur l’approche bottom-up 19 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 20. CLIQUE - Etape 2 Identification des clusters  Des unités denses ont été déterminés (étape 1).  L’algorithme explore ces régions à la recherche de clusters.  C’est comme si une recherche des composants connexes dans un graphe (Agrawal, 1998). 20 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 21. CLIQUE - Etape 3 Description minimale des clusters L’objectif consiste à déterminer :  Un ensemble de régions maximales qui soit une couverture de l’ensemble des unités denses sur un espace de K dimension.  Cette étape est assurée par un algorithme glouton.  Une couverture minimale calculée grâce à des heuristiques. 21 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 22. Exemple  Soit un espace à 2- Dimention contenant plusieurs points éparpillés (point = donnée).  On suppose que chaque unité contenant plus de 5 points est considéré comme dense. 22 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 23. Exemple – Etape 1-  Unité dense à 1- Dimention: D1={u21, u31, u41, u51, u81, u91, u12, u22, u32, u52, u62}  Unité dense à 2- Dimention: D2={u21, u22, u32, u33, u83, u93} 23 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 24. Exemple – Etape 2 - 24 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 25. Exemple – Etape 3 -  C1={(x1): 1£x1<5}  C2={(x1): 7£x2<9}  C3={(x2): 0£x2<3}  C4={(x2): 4£x1<6}  C5={(x1, x2): 1£x1<2, 0£x2<2} È {(x1, x2): 2£ x1<3, 1£x2<3}  C6={(x1, x2): 7£x1£9, 2£x2<3} 25 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 26. CLIQUE Avantages :  Peut faire un clustering si on a une haute dimensionnalité de données.  Repose sur une idée simple et intuitive.  La recherche des sous-espaces susceptibles de contenir des régions denses se fait automatiquement Inconvénients:  Obtenir un cluster de bonne qualité dépend du réglage de la taille de la grille et du seuil de densité, or, ces valeurs s’utilisent au travers de toutes les dimensions. [1] 26 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 27. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 27 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 28. Expérimentation  La figure (A) montre une évolutivité avec le nombre d'enregistrements de données (quand la taille de la base de données est passée de 100 000 à 500 000 enregistrements).  La figure (B) montre une évolutivité avec la dimensionnalité de l’espace de donnée.  La figure (C) montre une évolutivité avec la dimensionnalité des clusters cachés.  Pour plus de détail, voir [Agrawal et al. 1998]. 28 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 29. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 29 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 30. Conclusion  Quatre méthodes de clustering.  Le problème: la majorité des algorithmes de clustering ne peuvent pas étudier le cas si on a une haute dimensionnalité de données.  Naissance de CLIQUE !  C’une méthode fondée sur le clustering par sous-espace.  On peut trouver plusieurs variantes de CLIQUE.  ENCLUS (ENtropy-based CLUStering)  une approche semblable à CLIQUE. 30 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 31. Merci pour votre attention  31 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 32. Bibliographie  [1] Le clustering de données, Nicolas Sola Mathieu Schmitt  [2] Nouvelle Approche Scalable par Classification des Charges de Requêtes Volumineuses pour la Sélection d’un Schéma de Fragmentation, Amina Gacem, 2012  [3] Développement et mise en place d’une méthode de classification multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014  [4] Une méthode de classification non-supervisée pour l’apprentissage de règles et la recherche d’information, Guillaume Cleuziou , 2006  [5] Connaissances et clustering collaboratif d’objets complexes multisources, Germain Forester, 2010  [6] Optimisation de l’indexation multidimentionnelle : application aux descripteurs multimédia ,Thierry Urruty,2007  [7] Classification non supervisée, E. Lebarbier, T. Mary-Huard  [8] http ://fr.slideshare.net/skklms/clique 32 La complexité des algorithmes récursives Géométrie algorithmique