SlideShare une entreprise Scribd logo
1  sur  18
Clustering: Méthode
hiérarchique
Par Yassine Mhadhbi & Rached Ghouma
1
 C’est quoi le Clustering ?
 Clustering méthode hiérarchique vs non hiérarchique.
 Clustering méthode hiérarchique.
 Clustering méthode hiérarchique ascendante.
 Clustering méthode hiérarchique descendante.
2
C’est quoi le Clustering ?
 Réduire le nombre d’observations (individus) en les
regroupant en classes homogènes et différenciées.
 Regrouper les individus en classes avec une grande
homogénéité intra-classes et une forte hétérogénéité
inter-classes.
 Obtenir une segmentation avec un profil diffèrent pour
chaque classe.
3
C’est quoi le Clustering ?
 Donc il existe deux types de méthodes de Clustering :
 Clustering méthode hiérarchique.
 Clustering méthode non hiérarchique.
4
C’est quoi le Clustering ?
5
Clustering méthode hiérarchique vs non
hiérarchique
 Le nombre d’individus doit être au moins deux fois
supérieur au nombre de variables.
 N’est pas adaptée pour un grand nombre d’individus.
 On ne définit pas a priori le nombre de classes.
 Nécessite la fixation préalable du nombre de classes.
 Plus intéressante si le nombre d’individus est assez
important.
 Regrouper un nuage de points (individus) en classes
homogènes.
6
Clustering méthode hiérarchique
 Clustering méthode hiérarchique est basé sur le calcul des
distances.
 Calcul des distances entre groupes d’individus :
La méthode du saut minimal.
La méthode du diamètre.
La distance moyenne.
La méthode de Ward.
7
Clustering méthode hiérarchique
ascendante
 Méthode ascendante Des individus au groupe
 C'est une méthode de classification automatique utilisée
en analyse des données à partir d'un ensemble de n
individus, son but est de répartir ces individus dans un
certain nombre de classe.
 La méthode suppose qu'on dispose d'une mesure de
dissimilarité entre les individus. dans le cas de points
situés dans un espace euclidien, on peut utiliser la
distance comme mesure de dissimilarité.
8
Dendrogramme
est un diagramme
fréquemment utilisé pour
illustrer l'arrangement de
groupes générés par un
regroupement
hiérarchique ou
hiérarchisant.
9
Par agglomération : Bottom-up
 Chaque objet constitue un cluster.
 Regrouper les objets (clusters) les plus proches (distance)
en des clusters.
 Jusqu'à arriver à un concept sommet.
10
Par agglomération : Bottom-up
11
Clustering méthode hiérarchique
descendante : par divisions = top-down
 Tous les objets constituent un unique cluster.
 Séparer les objets (clusters) les plus dissimilaires (grande
distance, par exemple la méthode de diamètre).
 Tous les objets sont des concepts feuilles
12
Clustering méthode hiérarchique
descendante : par divisions = top-down
 Nous avons obtenu Dataset qui contient 12 observation
pour des individu qui note les chaine de télévision sur 10
 À l’aide de langage de programmation R nous avons fait
quelques prétraitement comme normalisation de données
avec fonction Scale
 À l’aide de la fonction hclust nous avons fait une
classification et il nous produit cet dendogramme
13
14
15
16
webographie
 https://fr.wikipedia.org/wiki/Regroupement_hi%C3%A9rarchique
 https://datascienceplus.com/hierarchical-clustering-in-r/
 https://www.rdocumentation.org/packages/BBmisc/versions/1.10/topics/nor
malize
 https://www.rdocumentation.org/packages/base/versions/3.5.1/topics/scale
 https://www.r-bloggers.com/hierarchical-clustering-in-r-2/
17
Merci pour votre attention
18

Contenu connexe

Tendances

Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-miningSawsen Larbi
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMJaouad Dabounou
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 
La complexité des algorithmes récursives Géométrie algorithmique
La complexité des algorithmes récursivesGéométrie algorithmiqueLa complexité des algorithmes récursivesGéométrie algorithmique
La complexité des algorithmes récursives Géométrie algorithmiqueHajer Trabelsi
 
récursivité algorithmique et complexité algorithmique et Les algorithmes de tri
récursivité algorithmique et complexité algorithmique et Les algorithmes de trirécursivité algorithmique et complexité algorithmique et Les algorithmes de tri
récursivité algorithmique et complexité algorithmique et Les algorithmes de triYassine Anddam
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
Chapitre iv algorithmes de tri
Chapitre iv algorithmes de triChapitre iv algorithmes de tri
Chapitre iv algorithmes de triSana Aroussi
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdfhanamettali
 

Tendances (20)

clustering
clusteringclustering
clustering
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
 
Une introduction à MapReduce
Une introduction à MapReduceUne introduction à MapReduce
Une introduction à MapReduce
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
La complexité des algorithmes récursives Géométrie algorithmique
La complexité des algorithmes récursivesGéométrie algorithmiqueLa complexité des algorithmes récursivesGéométrie algorithmique
La complexité des algorithmes récursives Géométrie algorithmique
 
récursivité algorithmique et complexité algorithmique et Les algorithmes de tri
récursivité algorithmique et complexité algorithmique et Les algorithmes de trirécursivité algorithmique et complexité algorithmique et Les algorithmes de tri
récursivité algorithmique et complexité algorithmique et Les algorithmes de tri
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Chapitre iv algorithmes de tri
Chapitre iv algorithmes de triChapitre iv algorithmes de tri
Chapitre iv algorithmes de tri
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 

Clustering: Méthode hiérarchique

  • 2.  C’est quoi le Clustering ?  Clustering méthode hiérarchique vs non hiérarchique.  Clustering méthode hiérarchique.  Clustering méthode hiérarchique ascendante.  Clustering méthode hiérarchique descendante. 2
  • 3. C’est quoi le Clustering ?  Réduire le nombre d’observations (individus) en les regroupant en classes homogènes et différenciées.  Regrouper les individus en classes avec une grande homogénéité intra-classes et une forte hétérogénéité inter-classes.  Obtenir une segmentation avec un profil diffèrent pour chaque classe. 3
  • 4. C’est quoi le Clustering ?  Donc il existe deux types de méthodes de Clustering :  Clustering méthode hiérarchique.  Clustering méthode non hiérarchique. 4
  • 5. C’est quoi le Clustering ? 5
  • 6. Clustering méthode hiérarchique vs non hiérarchique  Le nombre d’individus doit être au moins deux fois supérieur au nombre de variables.  N’est pas adaptée pour un grand nombre d’individus.  On ne définit pas a priori le nombre de classes.  Nécessite la fixation préalable du nombre de classes.  Plus intéressante si le nombre d’individus est assez important.  Regrouper un nuage de points (individus) en classes homogènes. 6
  • 7. Clustering méthode hiérarchique  Clustering méthode hiérarchique est basé sur le calcul des distances.  Calcul des distances entre groupes d’individus : La méthode du saut minimal. La méthode du diamètre. La distance moyenne. La méthode de Ward. 7
  • 8. Clustering méthode hiérarchique ascendante  Méthode ascendante Des individus au groupe  C'est une méthode de classification automatique utilisée en analyse des données à partir d'un ensemble de n individus, son but est de répartir ces individus dans un certain nombre de classe.  La méthode suppose qu'on dispose d'une mesure de dissimilarité entre les individus. dans le cas de points situés dans un espace euclidien, on peut utiliser la distance comme mesure de dissimilarité. 8
  • 9. Dendrogramme est un diagramme fréquemment utilisé pour illustrer l'arrangement de groupes générés par un regroupement hiérarchique ou hiérarchisant. 9
  • 10. Par agglomération : Bottom-up  Chaque objet constitue un cluster.  Regrouper les objets (clusters) les plus proches (distance) en des clusters.  Jusqu'à arriver à un concept sommet. 10
  • 11. Par agglomération : Bottom-up 11
  • 12. Clustering méthode hiérarchique descendante : par divisions = top-down  Tous les objets constituent un unique cluster.  Séparer les objets (clusters) les plus dissimilaires (grande distance, par exemple la méthode de diamètre).  Tous les objets sont des concepts feuilles 12
  • 13. Clustering méthode hiérarchique descendante : par divisions = top-down  Nous avons obtenu Dataset qui contient 12 observation pour des individu qui note les chaine de télévision sur 10  À l’aide de langage de programmation R nous avons fait quelques prétraitement comme normalisation de données avec fonction Scale  À l’aide de la fonction hclust nous avons fait une classification et il nous produit cet dendogramme 13
  • 14. 14
  • 15. 15
  • 16. 16
  • 17. webographie  https://fr.wikipedia.org/wiki/Regroupement_hi%C3%A9rarchique  https://datascienceplus.com/hierarchical-clustering-in-r/  https://www.rdocumentation.org/packages/BBmisc/versions/1.10/topics/nor malize  https://www.rdocumentation.org/packages/base/versions/3.5.1/topics/scale  https://www.r-bloggers.com/hierarchical-clustering-in-r-2/ 17
  • 18. Merci pour votre attention 18