SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
MÉTHODES DE CLASSIFICATIONS
UAG – IESG – STS
LS6 – BBB – Biomathématiques
Bruno Hérault – 2012 – Semestre 2
Objectifs
 Partitionnement (Soit un ensemble X quelconque. Un ensemble P
de sous-ensembles de X est une partition de X si : aucun élément de P n'est
vide; l'union des éléments de P est égale à X; les éléments de P sont deux à
deux disjoints), interprétation du partitionnement
 Simplification des données
 Arbre hiérarchique ( = partitions emboitées),
interprétation
 Données: matrice de distance (ce qui inclut le cas
habituel d’individus décrits par des variables)
Distance
 Définition d’une distance: Soit E un ensemble d’objets.
Une distance est une application qui vérifie
les propriétés de séparation, de symétrie, et l’inégalité
triangulaire.
 Matrice de distance: symétrique, des 0 sur la diagonale
1 2 3 4 5
1 0.000000 6.654626 5.214819 5.440305 6.827716
2 6.654626 0.000000 5.648863 5.102152 6.586156
3 5.214819 5.648863 0.000000 4.020841 4.680460
4 5.440305 5.102152 4.020841 0.000000 5.479275
5 6.827716 6.586156 4.680460 5.479275 0.000000
La matrice de dissimilarités
 Indique les dissimilarités entre différents
objets.
 Cette dissimilarité est calculée en utilisant
une métrique ou norme (Ex: euclidienne, de
manhattan, etc…)
 Importance du choix approprié de l’échelle car
une échelle inappropriée donnera une
matrice de dissimilarités non représentative
des données.
Choix de l’échelle
Illustration de l’importance
du choix de l’échelle
Illustration de l’importance
du choix de l’échelle
Classification hiérarchique
 Création de partitions emboitées: arbre
hiérarchique.
 Classification ascendante hiérarchique: Au départ,
chaque individu est dans un groupe distinct. A
chaque étape, deux groupes sont rassemblés en un
seul. il faut un critère d’agrégation.
 Classification descendante hiérarchique: Au
départ tous les individus sont dans le même groupe.
A chaque étape, un groupe est séparé en deux. Il
faut un critère de séparation.
Classification ascendante
 Méthode du lien simple
 Méthode du lien complet
 Méthode deWard (minimisation de la somme
des carrée des distances)
Schéma général qui s’appliquera de manière
très similaire pour chacun des critères.
Méthode du lien simple
À chaque itération, la paire d’objets de classes
différentes les plus proches est choisie et
leurs classes sont fusionnées.
Méthode du lien simple
La méthode du lien simple a la propriété de
garantir à chaque niveau que l’écart entre les
classes est maximum (distance entre les
objets les plus proches).
C’est une bonne méthode pour la séparation.
Exemple
a b c d e f
a 0 3 4 7 9 4
b 0 1 5 7 7
c 0 4 6 7
d 0 2 3
e 0 5
f 0
Partitions
A-BC-D-E-F
A-BC-DE-F
ABC-DE-F
ABC-DEF
ABCDEF
A-B-C-D-E-F
Classification Ascendante
Hiérarchique
 Nombreux critères d’agrégation
 Critère deWard: le regroupement choisi est celui qui
maximise la variance inter-groupes
Variance totale = Variance intra-groupes + variance inter-groupes
 A chaque étape, l’évolution de cette décomposition de
variance donne des indications sur la qualité de la
partition.
 Interprétation d’un arbre hiérarchique
 Coupure d’un arbre hiérarchique
Exemple d’arbre hiérarchique
Algorithmes non hiérarchiques
Le plus connu de ces algorithmes est nommé k-
means.
Le critère est de minimiser la somme des carrés
des écarts aux centroides de chaque classe.
Cet algorithme suppose que nous connaissions
le nombre de classes voulu.
Centres mobiles
 Méthode de partitionnement, nombre de groupes connu = K.
 Intérêt: interprétation des groupes, simplification des
données, consolidation d’une partition
 Algorithme:
Initialisation: K centres de classes sont tirés aléatoirement (parmi les
objets à classer)
1- Les objets sont affectés à la classe dont ils sont le plus proche
2- Les centres des classes sont recalculés
3- Retour à l’étape 1. Si aucun objet ne change de classe, le calcul est
terminé
 Convergence rapide: adapté pour des données volumineuses
 La partition obtenue maximise la variance inter-groupes
Centres mobiles – Exemples (1)
Utilisation des k-means pour consolider une partition:
A gauche, partition issue de la CAH, à droite, partition consolidée par les k-means
Centres mobiles – Exemples (2)
Dans un jeu de données homogène, l’algorithme finit toujours par trouver des groupes…
même s’ils n’ont pas de sens!
Description d’un groupe
 Cas général d’individus décrits par des variables
 Très nombreuses statistiques descriptives existantes
 Individus réels: le plus proche du centre du groupe, individu
extrême (le plus loin des centres des autres groupes)
 Moyennes et variances des variables dans ce groupe, à
comparer aux moyennes et variances générales
 …

Contenu connexe

Similaire à comprehension clustering CHA.pdf

toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdfPenielLoyi
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienneomri med
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karemfatmakarem
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...Hajer Trabelsi
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression Mariem Chaaben
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 

Similaire à comprehension clustering CHA.pdf (20)

toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Clustering.pdf
Clustering.pdfClustering.pdf
Clustering.pdf
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
Knn
KnnKnn
Knn
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Cours add-r1-part4
Cours add-r1-part4Cours add-r1-part4
Cours add-r1-part4
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
STATISTIQUE-Cours
STATISTIQUE-CoursSTATISTIQUE-Cours
STATISTIQUE-Cours
 
Controle de gestion
Controle de gestionControle de gestion
Controle de gestion
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Comparaison
ComparaisonComparaison
Comparaison
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 

comprehension clustering CHA.pdf

  • 1. MÉTHODES DE CLASSIFICATIONS UAG – IESG – STS LS6 – BBB – Biomathématiques Bruno Hérault – 2012 – Semestre 2
  • 2. Objectifs  Partitionnement (Soit un ensemble X quelconque. Un ensemble P de sous-ensembles de X est une partition de X si : aucun élément de P n'est vide; l'union des éléments de P est égale à X; les éléments de P sont deux à deux disjoints), interprétation du partitionnement  Simplification des données  Arbre hiérarchique ( = partitions emboitées), interprétation  Données: matrice de distance (ce qui inclut le cas habituel d’individus décrits par des variables)
  • 3. Distance  Définition d’une distance: Soit E un ensemble d’objets. Une distance est une application qui vérifie les propriétés de séparation, de symétrie, et l’inégalité triangulaire.  Matrice de distance: symétrique, des 0 sur la diagonale 1 2 3 4 5 1 0.000000 6.654626 5.214819 5.440305 6.827716 2 6.654626 0.000000 5.648863 5.102152 6.586156 3 5.214819 5.648863 0.000000 4.020841 4.680460 4 5.440305 5.102152 4.020841 0.000000 5.479275 5 6.827716 6.586156 4.680460 5.479275 0.000000
  • 4. La matrice de dissimilarités  Indique les dissimilarités entre différents objets.  Cette dissimilarité est calculée en utilisant une métrique ou norme (Ex: euclidienne, de manhattan, etc…)  Importance du choix approprié de l’échelle car une échelle inappropriée donnera une matrice de dissimilarités non représentative des données.
  • 6. Illustration de l’importance du choix de l’échelle
  • 7. Illustration de l’importance du choix de l’échelle
  • 8. Classification hiérarchique  Création de partitions emboitées: arbre hiérarchique.  Classification ascendante hiérarchique: Au départ, chaque individu est dans un groupe distinct. A chaque étape, deux groupes sont rassemblés en un seul. il faut un critère d’agrégation.  Classification descendante hiérarchique: Au départ tous les individus sont dans le même groupe. A chaque étape, un groupe est séparé en deux. Il faut un critère de séparation.
  • 9. Classification ascendante  Méthode du lien simple  Méthode du lien complet  Méthode deWard (minimisation de la somme des carrée des distances) Schéma général qui s’appliquera de manière très similaire pour chacun des critères.
  • 10. Méthode du lien simple À chaque itération, la paire d’objets de classes différentes les plus proches est choisie et leurs classes sont fusionnées.
  • 11. Méthode du lien simple La méthode du lien simple a la propriété de garantir à chaque niveau que l’écart entre les classes est maximum (distance entre les objets les plus proches). C’est une bonne méthode pour la séparation.
  • 12. Exemple a b c d e f a 0 3 4 7 9 4 b 0 1 5 7 7 c 0 4 6 7 d 0 2 3 e 0 5 f 0
  • 14. Classification Ascendante Hiérarchique  Nombreux critères d’agrégation  Critère deWard: le regroupement choisi est celui qui maximise la variance inter-groupes Variance totale = Variance intra-groupes + variance inter-groupes  A chaque étape, l’évolution de cette décomposition de variance donne des indications sur la qualité de la partition.  Interprétation d’un arbre hiérarchique  Coupure d’un arbre hiérarchique
  • 16. Algorithmes non hiérarchiques Le plus connu de ces algorithmes est nommé k- means. Le critère est de minimiser la somme des carrés des écarts aux centroides de chaque classe. Cet algorithme suppose que nous connaissions le nombre de classes voulu.
  • 17. Centres mobiles  Méthode de partitionnement, nombre de groupes connu = K.  Intérêt: interprétation des groupes, simplification des données, consolidation d’une partition  Algorithme: Initialisation: K centres de classes sont tirés aléatoirement (parmi les objets à classer) 1- Les objets sont affectés à la classe dont ils sont le plus proche 2- Les centres des classes sont recalculés 3- Retour à l’étape 1. Si aucun objet ne change de classe, le calcul est terminé  Convergence rapide: adapté pour des données volumineuses  La partition obtenue maximise la variance inter-groupes
  • 18. Centres mobiles – Exemples (1) Utilisation des k-means pour consolider une partition: A gauche, partition issue de la CAH, à droite, partition consolidée par les k-means
  • 19. Centres mobiles – Exemples (2) Dans un jeu de données homogène, l’algorithme finit toujours par trouver des groupes… même s’ils n’ont pas de sens!
  • 20. Description d’un groupe  Cas général d’individus décrits par des variables  Très nombreuses statistiques descriptives existantes  Individus réels: le plus proche du centre du groupe, individu extrême (le plus loin des centres des autres groupes)  Moyennes et variances des variables dans ce groupe, à comparer aux moyennes et variances générales  …