SlideShare une entreprise Scribd logo
Clustering: Méthode
hiérarchique
Par Yassine Mhadhbi & Rached Ghouma
1
 C’est quoi le Clustering ?
 Clustering méthode hiérarchique vs non hiérarchique.
 Clustering méthode hiérarchique.
 Clustering méthode hiérarchique ascendante.
 Clustering méthode hiérarchique descendante.
2
C’est quoi le Clustering ?
 Réduire le nombre d’observations (individus) en les
regroupant en classes homogènes et différenciées.
 Regrouper les individus en classes avec une grande
homogénéité intra-classes et une forte hétérogénéité
inter-classes.
 Obtenir une segmentation avec un profil diffèrent pour
chaque classe.
3
C’est quoi le Clustering ?
 Donc il existe deux types de méthodes de Clustering :
 Clustering méthode hiérarchique.
 Clustering méthode non hiérarchique.
4
C’est quoi le Clustering ?
5
Clustering méthode hiérarchique vs non
hiérarchique
 Le nombre d’individus doit être au moins deux fois
supérieur au nombre de variables.
 N’est pas adaptée pour un grand nombre d’individus.
 On ne définit pas a priori le nombre de classes.
 Nécessite la fixation préalable du nombre de classes.
 Plus intéressante si le nombre d’individus est assez
important.
 Regrouper un nuage de points (individus) en classes
homogènes.
6
Clustering méthode hiérarchique
 Clustering méthode hiérarchique est basé sur le calcul des
distances.
 Calcul des distances entre groupes d’individus :
La méthode du saut minimal.
La méthode du diamètre.
La distance moyenne.
La méthode de Ward.
7
Clustering méthode hiérarchique
ascendante
 Méthode ascendante Des individus au groupe
 C'est une méthode de classification automatique utilisée
en analyse des données à partir d'un ensemble de n
individus, son but est de répartir ces individus dans un
certain nombre de classe.
 La méthode suppose qu'on dispose d'une mesure de
dissimilarité entre les individus. dans le cas de points
situés dans un espace euclidien, on peut utiliser la
distance comme mesure de dissimilarité.
8
Dendrogramme
est un diagramme
fréquemment utilisé pour
illustrer l'arrangement de
groupes générés par un
regroupement
hiérarchique ou
hiérarchisant.
9
Par agglomération : Bottom-up
 Chaque objet constitue un cluster.
 Regrouper les objets (clusters) les plus proches (distance)
en des clusters.
 Jusqu'à arriver à un concept sommet.
10
Par agglomération : Bottom-up
11
Clustering méthode hiérarchique
descendante : par divisions = top-down
 Tous les objets constituent un unique cluster.
 Séparer les objets (clusters) les plus dissimilaires (grande
distance, par exemple la méthode de diamètre).
 Tous les objets sont des concepts feuilles
12
Clustering méthode hiérarchique
descendante : par divisions = top-down
 Nous avons obtenu Dataset qui contient 12 observation
pour des individu qui note les chaine de télévision sur 10
 À l’aide de langage de programmation R nous avons fait
quelques prétraitement comme normalisation de données
avec fonction Scale
 À l’aide de la fonction hclust nous avons fait une
classification et il nous produit cet dendogramme
13
14
15
16
webographie
 https://fr.wikipedia.org/wiki/Regroupement_hi%C3%A9rarchique
 https://datascienceplus.com/hierarchical-clustering-in-r/
 https://www.rdocumentation.org/packages/BBmisc/versions/1.10/topics/nor
malize
 https://www.rdocumentation.org/packages/base/versions/3.5.1/topics/scale
 https://www.r-bloggers.com/hierarchical-clustering-in-r-2/
17
Merci pour votre attention
18

Contenu connexe

Tendances

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
Boris Guarisma
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
Mohamed Heny SELMI
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
Quentin Ambard
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
Mohamed Heny SELMI
 
Deep learning
Deep learningDeep learning
Deep learning
Bilal Rezkellah
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neurones
Mariam Amchayd
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
Jihane Elârrouchi
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
Hassine Hammami
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
Ismail CHAIB
 
Vision par ordinateur
Vision par ordinateurVision par ordinateur
Vision par ordinateur
Radhouani Mejdi
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
Yassine Badri
 
Data Mining
Data MiningData Mining
Data Mining Spatial
Data Mining Spatial Data Mining Spatial
Data Mining Spatial
dihiaselma
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
OuailChoukhairi
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecom
Ismail Sanni
 
Vision et traitement d'images
Vision et traitement d'imagesVision et traitement d'images
Vision et traitement d'images
Wided Miled
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
Nour El Houda Megherbi
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
Niji
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
Hakim Nasaoui
 

Tendances (20)

5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Deep learning
Deep learningDeep learning
Deep learning
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neurones
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
clustering
clusteringclustering
clustering
 
Vision par ordinateur
Vision par ordinateurVision par ordinateur
Vision par ordinateur
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
Data Mining
Data MiningData Mining
Data Mining
 
Data Mining Spatial
Data Mining Spatial Data Mining Spatial
Data Mining Spatial
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecom
 
Vision et traitement d'images
Vision et traitement d'imagesVision et traitement d'images
Vision et traitement d'images
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 

Dernier

MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
Horgix
 
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptxPRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
AlbertSmithTambwe
 
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Laurent Speyser
 
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
Université de Franche-Comté
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
OCTO Technology
 
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
UNITECBordeaux
 
Les écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptxLes écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptx
abderrahimbourimi
 

Dernier (7)

MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...
 
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptxPRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
 
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
 
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
 
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
 
Les écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptxLes écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptx
 

Clustering: Méthode hiérarchique

  • 2.  C’est quoi le Clustering ?  Clustering méthode hiérarchique vs non hiérarchique.  Clustering méthode hiérarchique.  Clustering méthode hiérarchique ascendante.  Clustering méthode hiérarchique descendante. 2
  • 3. C’est quoi le Clustering ?  Réduire le nombre d’observations (individus) en les regroupant en classes homogènes et différenciées.  Regrouper les individus en classes avec une grande homogénéité intra-classes et une forte hétérogénéité inter-classes.  Obtenir une segmentation avec un profil diffèrent pour chaque classe. 3
  • 4. C’est quoi le Clustering ?  Donc il existe deux types de méthodes de Clustering :  Clustering méthode hiérarchique.  Clustering méthode non hiérarchique. 4
  • 5. C’est quoi le Clustering ? 5
  • 6. Clustering méthode hiérarchique vs non hiérarchique  Le nombre d’individus doit être au moins deux fois supérieur au nombre de variables.  N’est pas adaptée pour un grand nombre d’individus.  On ne définit pas a priori le nombre de classes.  Nécessite la fixation préalable du nombre de classes.  Plus intéressante si le nombre d’individus est assez important.  Regrouper un nuage de points (individus) en classes homogènes. 6
  • 7. Clustering méthode hiérarchique  Clustering méthode hiérarchique est basé sur le calcul des distances.  Calcul des distances entre groupes d’individus : La méthode du saut minimal. La méthode du diamètre. La distance moyenne. La méthode de Ward. 7
  • 8. Clustering méthode hiérarchique ascendante  Méthode ascendante Des individus au groupe  C'est une méthode de classification automatique utilisée en analyse des données à partir d'un ensemble de n individus, son but est de répartir ces individus dans un certain nombre de classe.  La méthode suppose qu'on dispose d'une mesure de dissimilarité entre les individus. dans le cas de points situés dans un espace euclidien, on peut utiliser la distance comme mesure de dissimilarité. 8
  • 9. Dendrogramme est un diagramme fréquemment utilisé pour illustrer l'arrangement de groupes générés par un regroupement hiérarchique ou hiérarchisant. 9
  • 10. Par agglomération : Bottom-up  Chaque objet constitue un cluster.  Regrouper les objets (clusters) les plus proches (distance) en des clusters.  Jusqu'à arriver à un concept sommet. 10
  • 11. Par agglomération : Bottom-up 11
  • 12. Clustering méthode hiérarchique descendante : par divisions = top-down  Tous les objets constituent un unique cluster.  Séparer les objets (clusters) les plus dissimilaires (grande distance, par exemple la méthode de diamètre).  Tous les objets sont des concepts feuilles 12
  • 13. Clustering méthode hiérarchique descendante : par divisions = top-down  Nous avons obtenu Dataset qui contient 12 observation pour des individu qui note les chaine de télévision sur 10  À l’aide de langage de programmation R nous avons fait quelques prétraitement comme normalisation de données avec fonction Scale  À l’aide de la fonction hclust nous avons fait une classification et il nous produit cet dendogramme 13
  • 14. 14
  • 15. 15
  • 16. 16
  • 17. webographie  https://fr.wikipedia.org/wiki/Regroupement_hi%C3%A9rarchique  https://datascienceplus.com/hierarchical-clustering-in-r/  https://www.rdocumentation.org/packages/BBmisc/versions/1.10/topics/nor malize  https://www.rdocumentation.org/packages/base/versions/3.5.1/topics/scale  https://www.r-bloggers.com/hierarchical-clustering-in-r-2/ 17
  • 18. Merci pour votre attention 18