SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
LA SEGMENTATION
CLUSTERING
DATA MINING
Mohamed Heny SELMI
medheny.selmi@esprit.tn
PROBLÉMATIQUE
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
How many clusters?
Four ClustersTwo Clusters
Six Clusters
IDÉE DE BASE DE LA SEGMENTATION
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
Deux individus se ressemblent le plus
Nécessité d’une métrique de la distance
Distance Euclidienne
Distance de Mahalanobis
Distance de Manhattan
Distance de Ward
….
SI
les points qui les représentent dans le
nuage sont les plus proches
IDÉE DE BASE DE LA SEGMENTATION
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
Deux individus se ressemblent le plus
SI
les points qui les représentent dans le
nuage sont les plus proches
Nécessité d’une métrique de la distance
Distance Euclidienne
Distance de Mahalanobis
Distance de Manhattan
Distance de Ward
…..
Un critère d’évaluation d’une classification
Itot= Iinter + Iintra
1
2
3
STABILISATION DE L’INERTIE
TOTALE DE LA POPULATION
Inertie totale Itot : somme de l’inertie intraclasse IA et de l’inertie
interclasse IC
Itot= IA + Ic
Inertie intraclasse IA : somme des inerties totales de chaque classe
Inertie interclasse Ic : moyenne (pondérée par la somme des poids de
chaque classe) des carrés des distances des barycentres de chaque classe
au barycentre global
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
MÉTHODOLOGIES
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
Kmeans
Partitionnement
CAH
Hiérarchique
K-MEANS
MÉTHODE DES CENTRES MOBILES
PRÉSENTATION DU K-MEANS
 L’algorithme des K-moyennes est un algorithme qui permet de trouver des
classes dans des données.
 les classes qu’il construit n’entretiennent jamais de relations hiérarchiques:
une classe n’est jamais incluse dans une autre classe
 L’algorithme fonctionne en précisant le nombre de classes attendues.
 L’algorithme calcule les distances Intra-Classe et Inter-Classe.
 Il travaille sur des variables continues.
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
PRINCIPE ALGORITHMIQUE
Algorithme K-Means
Entrée : k le nombre de groupes cherchés
DEBUT
Choisir aléatoirement les centres des groupes
REPETER
i. Affecter chaque cas au groupe dont il est le plus proche au son centre
ii. Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des centres)
OU (nombre d'itérations =t)
OU (stabilisation de l’inertie totale de la population)
FIN
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
k1
k2
k3
X
Y
Choisir 3
Centres de
classes
(au hasard)
SIMULATION DU K-MEANS 1
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
k1
k2
k3
X
Y
Affecter chaque
point à la classe
dont le centre est
le plus proche
SIMULATION DU K-MEANS 2
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
X
Y
Déplacer chaque
centre de classe vers
la moyenne de chaque
classe
k1
k2
k2
k1
k3
k3
SIMULATION DU K-MEANS 3
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
X
Y
Réaffecter les points
qui sont plus proches
du centre d'une autre
classe
k1
k2
k3
SIMULATION DU K-MEANS 4
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
X
Y
les trois points
qui changent de
classe
k1
k3
k2
SIMULATION DU K-MEANS 5
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
X
Y
Re-calculer les
moyennes des classes
k1
k3
k2
SIMULATION DU K-MEANS 6
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
X
Y
Déplacer les
centres des classes
vers les moyennes
k2
k1
k3
SIMULATION DU K-MEANS 7
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
POINTS FAIBLES DE K-MEANS
 Le choix du nombre de groupes est subjectif dans le cas où le nombre de
classes est inconnu au sein de l’échantillon.
 L'algorithme du K-Means ne trouve pas nécessairement la configuration
la plus optimale correspondant à la fonction objective minimale.
 Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation
aléatoires des centres.
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
CAHCLASSIFICATION ASCENDANTE HIÉRARCHIQUE
PRINCIPE ALGORITHMIQUE
i. Créer à chaque étape une partition obtenue en agrégeant 2 à 2 les éléments
les plus proches ! Eléments : individus ou groupe d’individus
ii. L’algorithme fournit une hiérarchie de partitions : arbre contenant
l’historique de la classification et permettant de retrouver n-1 partitions.
iii. Nécessité de se munir d’une métrique (distance euclidienne, chi2, Ward…)
iv. Nécessité de fixer une règle pour agréger un individu et un groupe
d’individus (ou bien 2 groupes d’individus)
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
LE DENDROGRAMME
 Durant les étapes d’un algorithmes de classification hiérarchique, on est en train de construire
un dendrogramme.
 Le dendrogramme indique les objets et classes qui ont été fusionnées à chaque itération.
 Le dendrogramme indique aussi la valeur du critère choisi pour chaque partition rencontrée
 Il donne un résumé de la classification hiérarchique
 Chaque palier correspond à une fusion de classes
 Le niveau d’un palier donne une indication sur la qualité de la fusion correspondante
 Toute coupure horizontale correspond à une partition
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
SIMULATION DU CAH 1
1
5
2
3
4
On construit la matrice de distance entre les n éléments
et on regroupe les 2 éléments les plus proches
n individus / n classes
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
1
5
2
3
4
SIMULATION DU CAH 2
n -1 classes
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
1
5
2
3
4
SIMULATION DU CAH 3
1 2
Comment mesurer la distance entre une classe et un élément individuel ?
Critères des centres de gravité, de la distance minimale, maximale, critère de
Ward…
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
1
5
2
3
4
SIMULATION DU CAH 4
1 2 3 4
Comment mesurer la distance entre une classe et un élément individuel ?
Critères des centres de gravité, de la distance minimale, maximale, critère de
Ward…
n -2 classes
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
1
5
2
3
4
SIMULATION DU CAH 5
1 2 3 4 5
Comment mesurer la distance entre une classe et un élément individuel ?
Critères des centres de gravité, de la distance minimale, maximale, critère de
Ward…
n -3 classes
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
1
5
2
3
4
SIMULATION DU CAH 6
1 2 3 4 5
Comment mesurer la distance entre une classe et un élément individuel ?
Critères des centres de gravité, de la distance minimale, maximale, critère de
Ward…
n -4 classes
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
1
5
2
3
4
SIMULATION DES CLASSES
1 2 3 4 5
2 classes
classes1 classes2
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
1
5
2
3
4
1 2 3 4 5
3 classes
classes1 classes2 classes3
SIMULATION DES CLASSES
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
AVANTAGES DE LA CAH
 Permet de classer : des individus, des variables, des moyennes de
classes obtenues en sortie d’un algorithme des centres mobiles
 si on classe des moyennes, on améliore les résultats si on connaît non
seulement les moyennes des classes, mais aussi les inerties intraclasse
et les effectifs des classes
 S’adapte aux diverses formes de classes, par le choix de la distance
 Permet de choisir le nombre de classes de façon optimale, grâce à des
indicateurs de qualité de la classification en fonction du nombre de
classes
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
 Complexité algorithmique non linéaire (en n2 ou n3, parfois n2log(n))
 Deux observations placées dans des classes différentes ne sont
jamais plus comparées
INCONVÉNIENTS DE LA CAH
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
UTILITÉ DE LA SEGMENTATION
Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
Banque / Assurance
• Catégoriser la clientèle : chercher un profil qui représente les membres de
chaque classe
• Regrouper les clients selon des critères et caractéristiques communs : cibler
« les mailing »
Médecine
•Déterminer des segments de patients susceptibles d’être soumis à des protocoles
thérapeutiques déterminés, chaque segment regroupant tous les patients réagissant
identiquement
•Retrouver les différents comportements similaires
Biologie – Zoologie – Ethologie – Sciences humaines
•Expliquer les relations entre espèces, races, genres, familles,
•Retrouver de nouvelles répartitions
- Profiling
- Analyse sémantique, sentimentale,
- Analyse et mesure de la tonalité d’un contenu textuel
- Catégorisation des concepts ou des entités nommés
- Construction d’agrégateur synthétique à partir des flux d’actualités

Contenu connexe

Tendances

Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Abderrahmane Filali
 

Tendances (20)

Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Machine-learning-FR.pdf
Machine-learning-FR.pdfMachine-learning-FR.pdf
Machine-learning-FR.pdf
 

Similaire à Data mining - Segmentation(k-means, cah)

Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
ZizoAziz
 

Similaire à Data mining - Segmentation(k-means, cah) (7)

Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Le Machine Learning... tous aux fourneaux !
Le Machine Learning... tous aux fourneaux !Le Machine Learning... tous aux fourneaux !
Le Machine Learning... tous aux fourneaux !
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la science
 

Data mining - Segmentation(k-means, cah)

  • 1. LA SEGMENTATION CLUSTERING DATA MINING Mohamed Heny SELMI medheny.selmi@esprit.tn
  • 2. PROBLÉMATIQUE Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining How many clusters? Four ClustersTwo Clusters Six Clusters
  • 3. IDÉE DE BASE DE LA SEGMENTATION Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining Deux individus se ressemblent le plus Nécessité d’une métrique de la distance Distance Euclidienne Distance de Mahalanobis Distance de Manhattan Distance de Ward …. SI les points qui les représentent dans le nuage sont les plus proches
  • 4. IDÉE DE BASE DE LA SEGMENTATION Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining Deux individus se ressemblent le plus SI les points qui les représentent dans le nuage sont les plus proches Nécessité d’une métrique de la distance Distance Euclidienne Distance de Mahalanobis Distance de Manhattan Distance de Ward ….. Un critère d’évaluation d’une classification Itot= Iinter + Iintra 1 2 3
  • 5. STABILISATION DE L’INERTIE TOTALE DE LA POPULATION Inertie totale Itot : somme de l’inertie intraclasse IA et de l’inertie interclasse IC Itot= IA + Ic Inertie intraclasse IA : somme des inerties totales de chaque classe Inertie interclasse Ic : moyenne (pondérée par la somme des poids de chaque classe) des carrés des distances des barycentres de chaque classe au barycentre global Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 6. MÉTHODOLOGIES Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining Kmeans Partitionnement CAH Hiérarchique
  • 8. PRÉSENTATION DU K-MEANS  L’algorithme des K-moyennes est un algorithme qui permet de trouver des classes dans des données.  les classes qu’il construit n’entretiennent jamais de relations hiérarchiques: une classe n’est jamais incluse dans une autre classe  L’algorithme fonctionne en précisant le nombre de classes attendues.  L’algorithme calcule les distances Intra-Classe et Inter-Classe.  Il travaille sur des variables continues. Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 9. PRINCIPE ALGORITHMIQUE Algorithme K-Means Entrée : k le nombre de groupes cherchés DEBUT Choisir aléatoirement les centres des groupes REPETER i. Affecter chaque cas au groupe dont il est le plus proche au son centre ii. Recalculer le centre de chaque groupe JUSQU‘A (stabilisation des centres) OU (nombre d'itérations =t) OU (stabilisation de l’inertie totale de la population) FIN Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 10. k1 k2 k3 X Y Choisir 3 Centres de classes (au hasard) SIMULATION DU K-MEANS 1 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 11. k1 k2 k3 X Y Affecter chaque point à la classe dont le centre est le plus proche SIMULATION DU K-MEANS 2 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 12. X Y Déplacer chaque centre de classe vers la moyenne de chaque classe k1 k2 k2 k1 k3 k3 SIMULATION DU K-MEANS 3 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 13. X Y Réaffecter les points qui sont plus proches du centre d'une autre classe k1 k2 k3 SIMULATION DU K-MEANS 4 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 14. X Y les trois points qui changent de classe k1 k3 k2 SIMULATION DU K-MEANS 5 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 15. X Y Re-calculer les moyennes des classes k1 k3 k2 SIMULATION DU K-MEANS 6 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 16. X Y Déplacer les centres des classes vers les moyennes k2 k1 k3 SIMULATION DU K-MEANS 7 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 17. POINTS FAIBLES DE K-MEANS  Le choix du nombre de groupes est subjectif dans le cas où le nombre de classes est inconnu au sein de l’échantillon.  L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale correspondant à la fonction objective minimale.  Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des centres. Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 19. PRINCIPE ALGORITHMIQUE i. Créer à chaque étape une partition obtenue en agrégeant 2 à 2 les éléments les plus proches ! Eléments : individus ou groupe d’individus ii. L’algorithme fournit une hiérarchie de partitions : arbre contenant l’historique de la classification et permettant de retrouver n-1 partitions. iii. Nécessité de se munir d’une métrique (distance euclidienne, chi2, Ward…) iv. Nécessité de fixer une règle pour agréger un individu et un groupe d’individus (ou bien 2 groupes d’individus) Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 20. LE DENDROGRAMME  Durant les étapes d’un algorithmes de classification hiérarchique, on est en train de construire un dendrogramme.  Le dendrogramme indique les objets et classes qui ont été fusionnées à chaque itération.  Le dendrogramme indique aussi la valeur du critère choisi pour chaque partition rencontrée  Il donne un résumé de la classification hiérarchique  Chaque palier correspond à une fusion de classes  Le niveau d’un palier donne une indication sur la qualité de la fusion correspondante  Toute coupure horizontale correspond à une partition Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 21. SIMULATION DU CAH 1 1 5 2 3 4 On construit la matrice de distance entre les n éléments et on regroupe les 2 éléments les plus proches n individus / n classes Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 22. 1 5 2 3 4 SIMULATION DU CAH 2 n -1 classes Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 23. 1 5 2 3 4 SIMULATION DU CAH 3 1 2 Comment mesurer la distance entre une classe et un élément individuel ? Critères des centres de gravité, de la distance minimale, maximale, critère de Ward… Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 24. 1 5 2 3 4 SIMULATION DU CAH 4 1 2 3 4 Comment mesurer la distance entre une classe et un élément individuel ? Critères des centres de gravité, de la distance minimale, maximale, critère de Ward… n -2 classes Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 25. 1 5 2 3 4 SIMULATION DU CAH 5 1 2 3 4 5 Comment mesurer la distance entre une classe et un élément individuel ? Critères des centres de gravité, de la distance minimale, maximale, critère de Ward… n -3 classes Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 26. 1 5 2 3 4 SIMULATION DU CAH 6 1 2 3 4 5 Comment mesurer la distance entre une classe et un élément individuel ? Critères des centres de gravité, de la distance minimale, maximale, critère de Ward… n -4 classes Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 27. 1 5 2 3 4 SIMULATION DES CLASSES 1 2 3 4 5 2 classes classes1 classes2 Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 28. 1 5 2 3 4 1 2 3 4 5 3 classes classes1 classes2 classes3 SIMULATION DES CLASSES Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 29. AVANTAGES DE LA CAH  Permet de classer : des individus, des variables, des moyennes de classes obtenues en sortie d’un algorithme des centres mobiles  si on classe des moyennes, on améliore les résultats si on connaît non seulement les moyennes des classes, mais aussi les inerties intraclasse et les effectifs des classes  S’adapte aux diverses formes de classes, par le choix de la distance  Permet de choisir le nombre de classes de façon optimale, grâce à des indicateurs de qualité de la classification en fonction du nombre de classes Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 30.  Complexité algorithmique non linéaire (en n2 ou n3, parfois n2log(n))  Deux observations placées dans des classes différentes ne sont jamais plus comparées INCONVÉNIENTS DE LA CAH Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining
  • 31. UTILITÉ DE LA SEGMENTATION Mohamed Heny SELMI © ESPRIT2015-2016 Data Mining Banque / Assurance • Catégoriser la clientèle : chercher un profil qui représente les membres de chaque classe • Regrouper les clients selon des critères et caractéristiques communs : cibler « les mailing » Médecine •Déterminer des segments de patients susceptibles d’être soumis à des protocoles thérapeutiques déterminés, chaque segment regroupant tous les patients réagissant identiquement •Retrouver les différents comportements similaires Biologie – Zoologie – Ethologie – Sciences humaines •Expliquer les relations entre espèces, races, genres, familles, •Retrouver de nouvelles répartitions - Profiling - Analyse sémantique, sentimentale, - Analyse et mesure de la tonalité d’un contenu textuel - Catégorisation des concepts ou des entités nommés - Construction d’agrégateur synthétique à partir des flux d’actualités