SlideShare une entreprise Scribd logo
1 
Automatic Subspace 
Clustering of High 
Dimensional Data for Data 
Mining Applications 
Rakesh Agrawal et al. 1998 
Hajer TRABELSI 
Master de recherche MR2-IMD/ISAMM 
12 Décembre 2014
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
2 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
3 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Introduction 
 L’objectif de la classification non supervisée 
(clustering) est d’identifier un ensemble d’individu. 
 La majorité des algorithmes de clustering ne 
possèdent pas de solution pour gérer un volume de 
données et un nombre de dimensions si importants ! 
 Pour pallier à ces problèmes, la recherche dans ce 
domaine a donné naissance aux méthodes fondées 
sur le clustering par sous-espace. 
 Une solution a été proposée c’est l’algorithme 
CLIQUE (CLustering In QUest, [Agrawal et al. 1998]). 
4 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Introduction 
Quelques définitions basiques: 
 Unité: Après la formation d'une structure de grille sur 
l'espace, chaque cellule rectangulaire est appelé une 
unité. 
 Dense: Une unité est dense, si la fraction de points de 
données au total contenu dans l'unité dépasse le 
paramètre de modèle d'entrée. 
 Cluster: Un cluster est défini comme un ensemble 
maximal d'unités denses connectées. 
5 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
6 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering 
 L’objectif du clustering est d’identifier un ensemble 
d’individu et donc d’affecter à chaque observation une 
"étiquette de classe" qui matérialise l’appartenance de 
l’observation à une classe. [7] 
 Il existe de nombreux algorithmes de clustering. 
 Il y’a quatre méthodes de clustering : 
 Les méthodes hiérarchiques 
 Les méthodes de clustering par partition 
 Les méthodes basées sur la densité 
 Les méthodes basées sur les grilles 
7 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes 
hiérarchiques 
L’objectif: 
 Grouper les données sous une forme hiérarchique c’est 
à dire sous forme d’arbre ou d’un "Dendrogramme" 
composés de clusters. 
 Le noeud de l’arbre constitue l’ensemble des données de 
la base. 
 Un parcours de l’arbre vers le bas nous montre des 
clusters de plus en plus spécifiques à un groupe d’objets 
qui se caractérisent par une notion de similitude. 
8 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes de 
clustering par partition 
L’objectif: 
 Grouper les données de façon optimale pour un critère 
de partitionnement donné et un nombre de cluster défini 
par avance. 
 Plusieurs moyens existent pour obtenir une bonne 
partition proche de la partition « optimale ». 
 Première technique : représenter chaque cluster par son centre 
(centroïde)  Exemple : K-means. 
 Deuxième technique : représenter chaque groupe par un objet qui 
correspond au membre le plus proche du centre (médoïde).  
Exemple : K-medoids et PAM. 
9 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes 
basées sur la densité 
L’objectif: 
 Gérer les clusters de forme sphérique. (ce qui n’est pas le 
cas des 2 premières méthodes). 
 Gérer le bruit qui peut exister dans les données. 
 Exemple : DBSCAN 
10 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering - Les méthodes 
basées sur les grilles 
 Basées sur 3 étapes : 
 Diviser l’espace en un nombre fini cellules rectangulaires 
qui forment une structure de grille 
 Supprimer les cellules de basse densité 
 Combiner les cellules adjacentes ayant une forte densité 
pour former des clusters. 
 La force de cette approche est qu’elle à une complexité 
linéaire de O(n). 
  Exemple : CLIQUE (Agrawal, 1998). 
11 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Clustering 
Répartition des méthodes de classification 
[Thierry Urruty,2007] 
12 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
13 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Haute dimensionnalité des 
données 
Challenges: 
 Plusieurs dimensions non pertinentes peuvent masquer 
les clusters. 
 À chaque fois qu’on ajoute une dimension à nos k 
dimensions dans l’espace, les données sont étirées à 
travers de la kème +1 dimension. 
 « De quelle manière pouvons-nous traiter un volume 
conséquent de données avec des centaines de 
dimensions ? » 
14 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Haute dimensionnalité des 
données - Subspatial clustering 
 Naissance des méthodes clustering par sous-espace. 
Consistent à : 
 Rechercher des clusters dans les sous-espaces 
existants. 
 Un sous-espace est défini en tant que un sous-ensemble 
d’objets similaires entre eux dans l’espace. 
 Pour déterminer de manière optimale les sous-espaces, 
des heuristiques qui sont regroupées en deux catégories 
sont alors développées. 
15 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Haute dimensionnalité des 
données - Subspatial clustering 
 Méthode de recherche ascendante : Les algorithmes 
commencent leur recherche dans des sous-espaces à 
petites dimensions, puis sont en quête de sous-espaces 
plus grands susceptibles de contenir des clusters. 
 CLIQUE utilise cette approche ! 
 Méthode de recherche descendante : La recherche 
effectuée par les algorithmes englobe tout l’espace et 
cette fouille continue dans des sous-espaces de plus en 
plus petits. 
16 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
17 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE 
 CLIQUE (CLustering In QUest, [Agrawal et al. 
1998]) est un algorithme de classification basé sur 
la densité et sur la grille [8]. 
 Basé sur 3 étapes: 
 Identification des sous-espaces qui contiennent des 
clusters 
 Identification des clusters 
 Description minimale des clusters 
18 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE - Etape 1 
Identification des sous-espaces 
 Elle consiste à repérer des régions denses dans les sous-espaces 
dans l’espace de dimension d. 
 CLIQUE divise l’espace en unités rectangulaire. 
 Il partitionne chaque dimension en un nombre identique 
d’intervalles de même taille. 
 L’algorithme commence par déterminer la densité des régions 
sur une seule dimension. Lorsque des unités denses sont 
déterminées dans K-1 dimension, l’algorithme génère des 
unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y 
ait plus de dimension candidate. 
 La génération d’un ensemble d’unités denses sur K dimensions 
à partir d’une dimension DK-1 et d’un ensemble d’unités denses 
sur K-1 dimensions repose sur l’approche bottom-up 19 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE - Etape 2 
Identification des clusters 
 Des unités denses ont été déterminés (étape 1). 
 L’algorithme explore ces régions à la recherche de 
clusters. 
 C’est comme si une recherche des composants 
connexes dans un graphe (Agrawal, 1998). 
20 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE - Etape 3 
Description minimale des 
clusters 
L’objectif consiste à déterminer : 
 Un ensemble de régions maximales qui soit une 
couverture de l’ensemble des unités denses sur un 
espace de K dimension. 
 Cette étape est assurée par un algorithme glouton. 
 Une couverture minimale calculée grâce à des 
heuristiques. 
21 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple 
 Soit un espace à 2- 
Dimention contenant 
plusieurs points éparpillés 
(point = donnée). 
 On suppose que chaque 
unité contenant plus de 5 
points est considéré 
comme dense. 
22 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 1- 
 Unité dense à 1- 
Dimention: 
D1={u21, u31, u41, u51, 
u81, u91, u12, u22, u32, 
u52, u62} 
 Unité dense à 2- 
Dimention: 
D2={u21, u22, u32, u33, 
u83, u93} 
23 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 2 - 
24 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Exemple – Etape 3 - 
 C1={(x1): 1£x1<5} 
 C2={(x1): 7£x2<9} 
 C3={(x2): 0£x2<3} 
 C4={(x2): 4£x1<6} 
 C5={(x1, x2): 1£x1<2, 
0£x2<2} È {(x1, x2): 2£ 
x1<3, 1£x2<3} 
 C6={(x1, x2): 7£x1£9, 
2£x2<3} 
25 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
CLIQUE 
Avantages : 
 Peut faire un clustering si on 
a une haute dimensionnalité 
de données. 
 Repose sur une idée simple 
et intuitive. 
 La recherche des sous-espaces 
susceptibles de 
contenir des régions denses 
se fait automatiquement 
Inconvénients: 
 Obtenir un cluster de 
bonne qualité dépend du 
réglage de la taille de la 
grille et du seuil de 
densité, or, ces valeurs 
s’utilisent au travers de 
toutes les dimensions. [1] 
26 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
27 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Expérimentation 
 La figure (A) montre une évolutivité avec le nombre 
d'enregistrements de données (quand la taille de la base de 
données est passée de 100 000 à 500 000 enregistrements). 
 La figure (B) montre une évolutivité avec la dimensionnalité de 
l’espace de donnée. 
 La figure (C) montre une évolutivité avec la dimensionnalité des 
clusters cachés. 
 Pour plus de détail, voir [Agrawal et al. 1998]. 
28 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Plan 
 Introduction 
 Clustering 
 Haute dimensionnalité des données 
 CLIQUE 
 Expérimentation 
 Conclusion 
29 
Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Conclusion 
 Quatre méthodes de clustering. 
 Le problème: la majorité des algorithmes de 
clustering ne peuvent pas étudier le cas si on a une 
haute dimensionnalité de données. 
 Naissance de CLIQUE ! 
 C’une méthode fondée sur le clustering par sous-espace. 
 On peut trouver plusieurs variantes de CLIQUE. 
 ENCLUS (ENtropy-based CLUStering)  une 
approche semblable à CLIQUE. 
30 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Merci pour votre attention 
 
31 Automatic Subspace Clustering of High Dimensional Data for Data 
Mining Applications
Bibliographie 
 [1] Le clustering de données, Nicolas Sola Mathieu Schmitt 
 [2] Nouvelle Approche Scalable par Classification des Charges de 
Requêtes Volumineuses pour la Sélection d’un Schéma de 
Fragmentation, Amina Gacem, 2012 
 [3] Développement et mise en place d’une méthode de classification 
multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014 
 [4] Une méthode de classification non-supervisée pour l’apprentissage 
de règles et la recherche d’information, Guillaume Cleuziou , 2006 
 [5] Connaissances et clustering collaboratif d’objets complexes 
multisources, Germain Forester, 2010 
 [6] Optimisation de l’indexation multidimentionnelle : application aux 
descripteurs multimédia ,Thierry Urruty,2007 
 [7] Classification non supervisée, E. Lebarbier, T. Mary-Huard 
 [8] http ://fr.slideshare.net/skklms/clique 
32 La complexité des algorithmes récursives 
Géométrie algorithmique

Contenu connexe

Tendances

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesEmna Trabelsi
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
 
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache MahoutMix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache MahoutMichaël Figuière
 
Duchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache MahoutDuchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache MahoutMichaël Figuière
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 

Tendances (10)

Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache MahoutMix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
Mix-IT (Apr 2011) - Intelligence Collective avec Apache Mahout
 
Duchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache MahoutDuchess France (Nov 2011) - Atelier Apache Mahout
Duchess France (Nov 2011) - Atelier Apache Mahout
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Cours1 2 gdmm
Cours1 2 gdmmCours1 2 gdmm
Cours1 2 gdmm
 

En vedette

Mémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeMémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeSophie Jaboeuf
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
 
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...Microsoft Décideurs IT
 
Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013Thierry Pastorello
 
Prêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'IslamPrêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'IslamAzis MACh
 
Clusters mondiaux
Clusters mondiauxClusters mondiaux
Clusters mondiauxMaria Manar
 
Szarotka6
Szarotka6Szarotka6
Szarotka6a12
 
الاسد وابن اوى والحمار
الاسد وابن اوى والحمارالاسد وابن اوى والحمار
الاسد وابن اوى والحمارmuhmadbdran
 
Digital image classification22oct
Digital image classification22octDigital image classification22oct
Digital image classification22octAleemuddin Abbasi
 
Cartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringCartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringtuxette
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...Patrick Guimonet
 
Presentation Tisic 2011
Presentation Tisic 2011Presentation Tisic 2011
Presentation Tisic 2011ticien
 

En vedette (20)

Mémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeMémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration sociale
 
Clustering
ClusteringClustering
Clustering
 
clustering
clusteringclustering
clustering
 
6 clustering
6 clustering6 clustering
6 clustering
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifié
 
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...Windows Server 2012, quelles évolutions pour les services de stockage et de c...
Windows Server 2012, quelles évolutions pour les services de stockage et de c...
 
Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013Présentation grappe web AG infopole cluster tic 2013
Présentation grappe web AG infopole cluster tic 2013
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Prêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'IslamPrêtres et Missionnaires Convertis à l'Islam
Prêtres et Missionnaires Convertis à l'Islam
 
Clusters mondiaux
Clusters mondiauxClusters mondiaux
Clusters mondiaux
 
Szarotka6
Szarotka6Szarotka6
Szarotka6
 
الاسد وابن اوى والحمار
الاسد وابن اوى والحمارالاسد وابن اوى والحمار
الاسد وابن اوى والحمار
 
Distance function
Distance functionDistance function
Distance function
 
Digital image classification22oct
Digital image classification22octDigital image classification22oct
Digital image classification22oct
 
Cartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringCartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clustering
 
Clusteryanam
ClusteryanamClusteryanam
Clusteryanam
 
Bejaia
BejaiaBejaia
Bejaia
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
 
Presentation Tisic 2011
Presentation Tisic 2011Presentation Tisic 2011
Presentation Tisic 2011
 

Similaire à Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications

Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docxkhalil Ismail
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningBassem Brayek
 
ENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT ChicagoENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT ChicagoArnaud Lempereur
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans Imen Turki
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfsalmanakbi
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentationrajiasellami
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karemfatmakarem
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueYassine Mhadhbi
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
Data-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdfData-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdfSanaMahfoudh2
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdfPenielLoyi
 
Rapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUXRapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUXThanh Vu Le
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdfMarckKerbergKouassi
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 

Similaire à Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications (20)

Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
test
testtest
test
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
ENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT ChicagoENSEIRB - Stage 3A @IIT Chicago
ENSEIRB - Stage 3A @IIT Chicago
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
Clustering.pdf
Clustering.pdfClustering.pdf
Clustering.pdf
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchique
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Data-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdfData-mining dans les données spatio-temporelles.pdf
Data-mining dans les données spatio-temporelles.pdf
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Rapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUXRapport de these Thanh Vu LE - Eric SAUX
Rapport de these Thanh Vu LE - Eric SAUX
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 

Dernier

Comment enseigner la langue française en Colombie?
Comment enseigner la langue française en Colombie?Comment enseigner la langue française en Colombie?
Comment enseigner la langue française en Colombie?sashaflor182
 
Système National de Santé au- Maroc-(2017)."pdf"
Système National de Santé au- Maroc-(2017)."pdf"Système National de Santé au- Maroc-(2017)."pdf"
Système National de Santé au- Maroc-(2017)."pdf"tachakourtzineb
 
Webinaire Technologia | DAX : nouvelles fonctions
Webinaire Technologia | DAX : nouvelles fonctionsWebinaire Technologia | DAX : nouvelles fonctions
Webinaire Technologia | DAX : nouvelles fonctionsTechnologia Formation
 
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...zidani2
 
EL KATRY Reem: Proposition de Programme Artistique et Exposition pour les Écoles
EL KATRY Reem: Proposition de Programme Artistique et Exposition pour les ÉcolesEL KATRY Reem: Proposition de Programme Artistique et Exposition pour les Écoles
EL KATRY Reem: Proposition de Programme Artistique et Exposition pour les ÉcolesSOLIANAEvelyne
 
Présentation sur les Risques Électriques et Leur Prévention en Algérie
Présentation sur les Risques Électriques et Leur Prévention en AlgériePrésentation sur les Risques Électriques et Leur Prévention en Algérie
Présentation sur les Risques Électriques et Leur Prévention en AlgérieSeifTech
 
MARTYRS DE TURQUIE – une histoire de persécution chrétienne en Anatolie.pptx
MARTYRS DE TURQUIE – une histoire de persécution chrétienne en Anatolie.pptxMARTYRS DE TURQUIE – une histoire de persécution chrétienne en Anatolie.pptx
MARTYRS DE TURQUIE – une histoire de persécution chrétienne en Anatolie.pptxMartin M Flynn
 
Quitter la nuit. pptx
Quitter        la             nuit.   pptxQuitter        la             nuit.   pptx
Quitter la nuit. pptxTxaruka
 
Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...
Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...
Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...Technologia Formation
 
PLANNING HEBDO ET CR LYCEE COUDON 21 MAI2024
PLANNING HEBDO ET CR LYCEE COUDON 21 MAI2024PLANNING HEBDO ET CR LYCEE COUDON 21 MAI2024
PLANNING HEBDO ET CR LYCEE COUDON 21 MAI2024frizzole
 
Fiche - Accompagnement du travail coopératif au sein d’une équipe d’enseignan...
Fiche - Accompagnement du travail coopératif au sein d’une équipe d’enseignan...Fiche - Accompagnement du travail coopératif au sein d’une équipe d’enseignan...
Fiche - Accompagnement du travail coopératif au sein d’une équipe d’enseignan...Pedago Lu
 
Gestion des flux de trésorerie dans les entreprises
Gestion des flux de trésorerie dans les entreprisesGestion des flux de trésorerie dans les entreprises
Gestion des flux de trésorerie dans les entreprisesHamdConseil
 

Dernier (12)

Comment enseigner la langue française en Colombie?
Comment enseigner la langue française en Colombie?Comment enseigner la langue française en Colombie?
Comment enseigner la langue française en Colombie?
 
Système National de Santé au- Maroc-(2017)."pdf"
Système National de Santé au- Maroc-(2017)."pdf"Système National de Santé au- Maroc-(2017)."pdf"
Système National de Santé au- Maroc-(2017)."pdf"
 
Webinaire Technologia | DAX : nouvelles fonctions
Webinaire Technologia | DAX : nouvelles fonctionsWebinaire Technologia | DAX : nouvelles fonctions
Webinaire Technologia | DAX : nouvelles fonctions
 
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
Decret-n°19-10-du-23-janvier-2019-reglementant-lexportation-des-déchets-spéci...
 
EL KATRY Reem: Proposition de Programme Artistique et Exposition pour les Écoles
EL KATRY Reem: Proposition de Programme Artistique et Exposition pour les ÉcolesEL KATRY Reem: Proposition de Programme Artistique et Exposition pour les Écoles
EL KATRY Reem: Proposition de Programme Artistique et Exposition pour les Écoles
 
Présentation sur les Risques Électriques et Leur Prévention en Algérie
Présentation sur les Risques Électriques et Leur Prévention en AlgériePrésentation sur les Risques Électriques et Leur Prévention en Algérie
Présentation sur les Risques Électriques et Leur Prévention en Algérie
 
MARTYRS DE TURQUIE – une histoire de persécution chrétienne en Anatolie.pptx
MARTYRS DE TURQUIE – une histoire de persécution chrétienne en Anatolie.pptxMARTYRS DE TURQUIE – une histoire de persécution chrétienne en Anatolie.pptx
MARTYRS DE TURQUIE – une histoire de persécution chrétienne en Anatolie.pptx
 
Quitter la nuit. pptx
Quitter        la             nuit.   pptxQuitter        la             nuit.   pptx
Quitter la nuit. pptx
 
Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...
Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...
Présentation Webinaire Cohésion - Concevoir et mettre en place une CMDB, comm...
 
PLANNING HEBDO ET CR LYCEE COUDON 21 MAI2024
PLANNING HEBDO ET CR LYCEE COUDON 21 MAI2024PLANNING HEBDO ET CR LYCEE COUDON 21 MAI2024
PLANNING HEBDO ET CR LYCEE COUDON 21 MAI2024
 
Fiche - Accompagnement du travail coopératif au sein d’une équipe d’enseignan...
Fiche - Accompagnement du travail coopératif au sein d’une équipe d’enseignan...Fiche - Accompagnement du travail coopératif au sein d’une équipe d’enseignan...
Fiche - Accompagnement du travail coopératif au sein d’une équipe d’enseignan...
 
Gestion des flux de trésorerie dans les entreprises
Gestion des flux de trésorerie dans les entreprisesGestion des flux de trésorerie dans les entreprises
Gestion des flux de trésorerie dans les entreprises
 

Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications

  • 1. 1 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications Rakesh Agrawal et al. 1998 Hajer TRABELSI Master de recherche MR2-IMD/ISAMM 12 Décembre 2014
  • 2. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 2 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 3. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 3 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 4. Introduction  L’objectif de la classification non supervisée (clustering) est d’identifier un ensemble d’individu.  La majorité des algorithmes de clustering ne possèdent pas de solution pour gérer un volume de données et un nombre de dimensions si importants !  Pour pallier à ces problèmes, la recherche dans ce domaine a donné naissance aux méthodes fondées sur le clustering par sous-espace.  Une solution a été proposée c’est l’algorithme CLIQUE (CLustering In QUest, [Agrawal et al. 1998]). 4 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 5. Introduction Quelques définitions basiques:  Unité: Après la formation d'une structure de grille sur l'espace, chaque cellule rectangulaire est appelé une unité.  Dense: Une unité est dense, si la fraction de points de données au total contenu dans l'unité dépasse le paramètre de modèle d'entrée.  Cluster: Un cluster est défini comme un ensemble maximal d'unités denses connectées. 5 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 6. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 6 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 7. Clustering  L’objectif du clustering est d’identifier un ensemble d’individu et donc d’affecter à chaque observation une "étiquette de classe" qui matérialise l’appartenance de l’observation à une classe. [7]  Il existe de nombreux algorithmes de clustering.  Il y’a quatre méthodes de clustering :  Les méthodes hiérarchiques  Les méthodes de clustering par partition  Les méthodes basées sur la densité  Les méthodes basées sur les grilles 7 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 8. Clustering - Les méthodes hiérarchiques L’objectif:  Grouper les données sous une forme hiérarchique c’est à dire sous forme d’arbre ou d’un "Dendrogramme" composés de clusters.  Le noeud de l’arbre constitue l’ensemble des données de la base.  Un parcours de l’arbre vers le bas nous montre des clusters de plus en plus spécifiques à un groupe d’objets qui se caractérisent par une notion de similitude. 8 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 9. Clustering - Les méthodes de clustering par partition L’objectif:  Grouper les données de façon optimale pour un critère de partitionnement donné et un nombre de cluster défini par avance.  Plusieurs moyens existent pour obtenir une bonne partition proche de la partition « optimale ».  Première technique : représenter chaque cluster par son centre (centroïde)  Exemple : K-means.  Deuxième technique : représenter chaque groupe par un objet qui correspond au membre le plus proche du centre (médoïde).  Exemple : K-medoids et PAM. 9 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 10. Clustering - Les méthodes basées sur la densité L’objectif:  Gérer les clusters de forme sphérique. (ce qui n’est pas le cas des 2 premières méthodes).  Gérer le bruit qui peut exister dans les données.  Exemple : DBSCAN 10 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 11. Clustering - Les méthodes basées sur les grilles  Basées sur 3 étapes :  Diviser l’espace en un nombre fini cellules rectangulaires qui forment une structure de grille  Supprimer les cellules de basse densité  Combiner les cellules adjacentes ayant une forte densité pour former des clusters.  La force de cette approche est qu’elle à une complexité linéaire de O(n).   Exemple : CLIQUE (Agrawal, 1998). 11 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 12. Clustering Répartition des méthodes de classification [Thierry Urruty,2007] 12 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 13. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 13 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 14. Haute dimensionnalité des données Challenges:  Plusieurs dimensions non pertinentes peuvent masquer les clusters.  À chaque fois qu’on ajoute une dimension à nos k dimensions dans l’espace, les données sont étirées à travers de la kème +1 dimension.  « De quelle manière pouvons-nous traiter un volume conséquent de données avec des centaines de dimensions ? » 14 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 15. Haute dimensionnalité des données - Subspatial clustering  Naissance des méthodes clustering par sous-espace. Consistent à :  Rechercher des clusters dans les sous-espaces existants.  Un sous-espace est défini en tant que un sous-ensemble d’objets similaires entre eux dans l’espace.  Pour déterminer de manière optimale les sous-espaces, des heuristiques qui sont regroupées en deux catégories sont alors développées. 15 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 16. Haute dimensionnalité des données - Subspatial clustering  Méthode de recherche ascendante : Les algorithmes commencent leur recherche dans des sous-espaces à petites dimensions, puis sont en quête de sous-espaces plus grands susceptibles de contenir des clusters.  CLIQUE utilise cette approche !  Méthode de recherche descendante : La recherche effectuée par les algorithmes englobe tout l’espace et cette fouille continue dans des sous-espaces de plus en plus petits. 16 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 17. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 17 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 18. CLIQUE  CLIQUE (CLustering In QUest, [Agrawal et al. 1998]) est un algorithme de classification basé sur la densité et sur la grille [8].  Basé sur 3 étapes:  Identification des sous-espaces qui contiennent des clusters  Identification des clusters  Description minimale des clusters 18 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 19. CLIQUE - Etape 1 Identification des sous-espaces  Elle consiste à repérer des régions denses dans les sous-espaces dans l’espace de dimension d.  CLIQUE divise l’espace en unités rectangulaire.  Il partitionne chaque dimension en un nombre identique d’intervalles de même taille.  L’algorithme commence par déterminer la densité des régions sur une seule dimension. Lorsque des unités denses sont déterminées dans K-1 dimension, l’algorithme génère des unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y ait plus de dimension candidate.  La génération d’un ensemble d’unités denses sur K dimensions à partir d’une dimension DK-1 et d’un ensemble d’unités denses sur K-1 dimensions repose sur l’approche bottom-up 19 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 20. CLIQUE - Etape 2 Identification des clusters  Des unités denses ont été déterminés (étape 1).  L’algorithme explore ces régions à la recherche de clusters.  C’est comme si une recherche des composants connexes dans un graphe (Agrawal, 1998). 20 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 21. CLIQUE - Etape 3 Description minimale des clusters L’objectif consiste à déterminer :  Un ensemble de régions maximales qui soit une couverture de l’ensemble des unités denses sur un espace de K dimension.  Cette étape est assurée par un algorithme glouton.  Une couverture minimale calculée grâce à des heuristiques. 21 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 22. Exemple  Soit un espace à 2- Dimention contenant plusieurs points éparpillés (point = donnée).  On suppose que chaque unité contenant plus de 5 points est considéré comme dense. 22 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 23. Exemple – Etape 1-  Unité dense à 1- Dimention: D1={u21, u31, u41, u51, u81, u91, u12, u22, u32, u52, u62}  Unité dense à 2- Dimention: D2={u21, u22, u32, u33, u83, u93} 23 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 24. Exemple – Etape 2 - 24 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 25. Exemple – Etape 3 -  C1={(x1): 1£x1<5}  C2={(x1): 7£x2<9}  C3={(x2): 0£x2<3}  C4={(x2): 4£x1<6}  C5={(x1, x2): 1£x1<2, 0£x2<2} È {(x1, x2): 2£ x1<3, 1£x2<3}  C6={(x1, x2): 7£x1£9, 2£x2<3} 25 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 26. CLIQUE Avantages :  Peut faire un clustering si on a une haute dimensionnalité de données.  Repose sur une idée simple et intuitive.  La recherche des sous-espaces susceptibles de contenir des régions denses se fait automatiquement Inconvénients:  Obtenir un cluster de bonne qualité dépend du réglage de la taille de la grille et du seuil de densité, or, ces valeurs s’utilisent au travers de toutes les dimensions. [1] 26 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 27. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 27 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 28. Expérimentation  La figure (A) montre une évolutivité avec le nombre d'enregistrements de données (quand la taille de la base de données est passée de 100 000 à 500 000 enregistrements).  La figure (B) montre une évolutivité avec la dimensionnalité de l’espace de donnée.  La figure (C) montre une évolutivité avec la dimensionnalité des clusters cachés.  Pour plus de détail, voir [Agrawal et al. 1998]. 28 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 29. Plan  Introduction  Clustering  Haute dimensionnalité des données  CLIQUE  Expérimentation  Conclusion 29 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 30. Conclusion  Quatre méthodes de clustering.  Le problème: la majorité des algorithmes de clustering ne peuvent pas étudier le cas si on a une haute dimensionnalité de données.  Naissance de CLIQUE !  C’une méthode fondée sur le clustering par sous-espace.  On peut trouver plusieurs variantes de CLIQUE.  ENCLUS (ENtropy-based CLUStering)  une approche semblable à CLIQUE. 30 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 31. Merci pour votre attention  31 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications
  • 32. Bibliographie  [1] Le clustering de données, Nicolas Sola Mathieu Schmitt  [2] Nouvelle Approche Scalable par Classification des Charges de Requêtes Volumineuses pour la Sélection d’un Schéma de Fragmentation, Amina Gacem, 2012  [3] Développement et mise en place d’une méthode de classification multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014  [4] Une méthode de classification non-supervisée pour l’apprentissage de règles et la recherche d’information, Guillaume Cleuziou , 2006  [5] Connaissances et clustering collaboratif d’objets complexes multisources, Germain Forester, 2010  [6] Optimisation de l’indexation multidimentionnelle : application aux descripteurs multimédia ,Thierry Urruty,2007  [7] Classification non supervisée, E. Lebarbier, T. Mary-Huard  [8] http ://fr.slideshare.net/skklms/clique 32 La complexité des algorithmes récursives Géométrie algorithmique