2. C’est quoi le Clustering ?
Clustering méthode hiérarchique vs non hiérarchique.
Clustering méthode hiérarchique.
Clustering méthode hiérarchique ascendante.
Clustering méthode hiérarchique descendante.
2
3. C’est quoi le Clustering ?
Réduire le nombre d’observations (individus) en les
regroupant en classes homogènes et différenciées.
Regrouper les individus en classes avec une grande
homogénéité intra-classes et une forte hétérogénéité
inter-classes.
Obtenir une segmentation avec un profil diffèrent pour
chaque classe.
3
4. C’est quoi le Clustering ?
Donc il existe deux types de méthodes de Clustering :
Clustering méthode hiérarchique.
Clustering méthode non hiérarchique.
4
6. Clustering méthode hiérarchique vs non
hiérarchique
Le nombre d’individus doit être au moins deux fois
supérieur au nombre de variables.
N’est pas adaptée pour un grand nombre d’individus.
On ne définit pas a priori le nombre de classes.
Nécessite la fixation préalable du nombre de classes.
Plus intéressante si le nombre d’individus est assez
important.
Regrouper un nuage de points (individus) en classes
homogènes.
6
7. Clustering méthode hiérarchique
Clustering méthode hiérarchique est basé sur le calcul des
distances.
Calcul des distances entre groupes d’individus :
La méthode du saut minimal.
La méthode du diamètre.
La distance moyenne.
La méthode de Ward.
7
8. Clustering méthode hiérarchique
ascendante
Méthode ascendante Des individus au groupe
C'est une méthode de classification automatique utilisée
en analyse des données à partir d'un ensemble de n
individus, son but est de répartir ces individus dans un
certain nombre de classe.
La méthode suppose qu'on dispose d'une mesure de
dissimilarité entre les individus. dans le cas de points
situés dans un espace euclidien, on peut utiliser la
distance comme mesure de dissimilarité.
8
10. Par agglomération : Bottom-up
Chaque objet constitue un cluster.
Regrouper les objets (clusters) les plus proches (distance)
en des clusters.
Jusqu'à arriver à un concept sommet.
10
12. Clustering méthode hiérarchique
descendante : par divisions = top-down
Tous les objets constituent un unique cluster.
Séparer les objets (clusters) les plus dissimilaires (grande
distance, par exemple la méthode de diamètre).
Tous les objets sont des concepts feuilles
12
13. Clustering méthode hiérarchique
descendante : par divisions = top-down
Nous avons obtenu Dataset qui contient 12 observation
pour des individu qui note les chaine de télévision sur 10
À l’aide de langage de programmation R nous avons fait
quelques prétraitement comme normalisation de données
avec fonction Scale
À l’aide de la fonction hclust nous avons fait une
classification et il nous produit cet dendogramme
13