SlideShare une entreprise Scribd logo
Clustering
(Segmentation)
Alya LETAIF
Donia HAMMAMI
Plan de la présentation
1. C’est quoi la segmentation ?
2. Qu’est ce qu’un bon regroupement ?
3. Classification des algorithmes de clustering
4. Mesure de similarité
5. Présentation de l’algorithme K-Means
6. Domaine d’application de l’algorithme K-Means
7. Variantes de K-Means
8. Organigramme de l’algorithme K-Means
9. Algorithme K-Means
10.Simulation de l’algorithme K-Means
11.Avantages et Inconvénients de l’algorithme K-means
12.Conclusion 2
C’est quoi la segmentation ?
 Regroupement (Clustering): construire une collection d’objets
 Similaires au sein d’un même groupe
 Dissimilaires quand ils appartiennent à des groupes différents
 Pour cette tâche, il n'y a pas de classe à expliquer ou des valeurs à prédire définies
à priori, il s'agit de créer des groupes homogènes dans la population (l'ensemble des
enregistrements).
 Le Clustering est de la classification non supervisée: Elle vise à identifier des
ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des
classes prédéfinies.
3
4
Qu’est ce qu’un bon regroupement ?
 Une bonne méthode de regroupement permet de garantir :
 Une grande similarité intra-groupe
 Une faible similarité inter-groupe
 La qualité d’un regroupement dépend donc de la mesure de similarité utilisée
par la méthode et de son implémentation.
Mesure de similarité (1/3)
 Il n’y a pas de définition unique de la similarité entre objets .
 Différentes mesures de distances d (x ,y).
 La définition de la similarité entre objets dépend de :
 Le type des données considérées
 Le type de similarité recherchée
5
Mesure de similarité (2/3)
 Données Numériques :
 Distance de Minkowski:
 Distance euclidienne: q=2
 Distance de Manhattan : q=1
6
Mesure de similarité (3/3)
 Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1
 Donnée énumératives: Distance nulle si les valeurs sont égales et 1
sinon.
 Donnée énumératives ordonnées: idem. On peut définir une distance
utilisant la relation d’ordre.
7
Classification des algorithmes de Clustering (1)
 Algorithmes Hiérarchiques: Construisent les clusters en divisant de manière
récursive les instances. On a deux catégories :
 Segmentation hiérarchique des divisions: chaque objet est initialement
supposé un cluster.
 Segmentation hiérarchique ascendante: tous les objets forment un seul
cluster.
 Algorithmes basés sur la densité: Fondés sur des notions de connectivité et de
densité. Les points qui appartiennent à chaque groupe sont tirés d'une distribution de
probabilité spécifique.
 Algorithmes de grille: Basés sur une structure à multi-niveaux de granularité.
8
Classification des algorithmes de Clustering (2)
 Algorithmes basés sur le modèle: Un modèle est supposé pour chaque cluster ensuite
on vérifie chaque modèle sur chaque groupe pour choisir le meilleur. Les modèles les
plus utilisés sont:
 Les arbres de décision.
 Les réseaux de neurone.
 Algorithmes de Partitionnement: Consistent à relocaliser les instances en les déplaçant
d'un cluster à l'autre en partant d’un partitionnement initial. De tels procédés nécessitent
que le nombre de cluster sera prédéfinit par l'utilisateur. Parmi les algorithmes utilisés:
 L’algorithme des K-moyennes (K-Means).
9
Présentation de l’algorithme K-Means
 Un algorithme de classification non supervisée.
 Encore appelée méthode des centres mobiles.
 L’algorithme des K-moyennes permet de trouver des classes dans des données.
 Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques: une classe
n’est jamais incluse dans une autre classe .
 L’algorithme fonctionne en précisant le nombre de classes attendues.
 L’algorithme calcule les distances Intra-Classe et Inter-Classe.
10
Domaines d’application
 Marketing : Segmentation du marché afin d’obtenir des groupes de clients
distincts à partir d’une base de données d’achat.
 Assurance : Identification des groupes d’assurés distincts associés à un nombre
important de déclarations.
 Planification des villes : Identification des groupes d’habitons suivant le type
d’habitation, ville, localisation géographique …
 Médecine : Localisation de tumeurs dans le cerveau
11
K-Means : Variantes
 Algorithme basé sur la sélection des centres initiaux .
 Algorithme basé Calcul des similarités.
 Algorithme basé Calcul des centres.
 Algorithme GMM : Variante basée sur les probabilités.
 Algorithme K-modes : Utilisé pour les données catégorielles.
 Algorithme K-prototype: Utilisé pour les données mixtes (numériques et catégorielles).
12
Organigramme de l’algorithme K-Means
13
Algorithme des k-moyennes (K-Means)
 Algorithme K-Means
Entrée : k le nombre de groupes cherchés
DEBUT
Choisir aléatoirement les centres des groupes
REPETER
i. Affecter chaque cas au groupe dont il est le plus proche à son centre
ii. Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des centres)
OU (nombre d'itérations =t)
OU (stabilisation de l’inertie totale de la population)
FIN
14
Simulation du k-Means (1/6)
A B
C
D
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
 4 types de médicaments ayant
chacun deux modalités : La
concentration et l’efficacité, on
veut créer deux classes => K=2.
Médicaments Concentration Efficacité
A 1 1
B 2 1
C 4 3
D 5 4
15
Simulation du k-Means (2/6)
Etape 1 : On désigne aléatoirement A et B
comme centre de classes.
• C1 = A
• C2 = B
Etape 2 : On assigne chaque point à une
des classes.
On commence par D :
A B
C
D
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
16
Simulation du k-Means (3/6)
A B
C
D
C2
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
Etape 3 : Calcul les nouveaux centres des
classes compte tenu de la nouvelle
classification.
17
Simulation du k-Means (4/6)
 Nous voilà à nouveau à l’étape 1.
 On commence la deuxième
itération de l’algorithme.
 On réassigne chaque médicament à
une classe en calculant la distance
les séparant des nouveaux centres
de classe .
 On repart à l’étape 2.
A B
C
D
C2
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
18
Simulation du k-Means (5/6)
 On répète les étapes jusqu’à
convergence.
 Connaissant les membres de chaque
classe, on recalcule les centres des
classes pour chacun de leurs nouveaux
membres.
A B
C
D
C2
C1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
19
Simulation du k-Means (6/6)
Le résultat final est donc:
 Classe1 = {A , B} avec centre de
classe c1 = (1.5 , 1).
 Classe2 = {C , D} avec centre de
classe c2 = (4.5 , 3.5).
A B
C
D
C2
C1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
20
K-moyennes : Avantages
 L’algorithme de k-Means est très populaire du fait qu’il est très facile à comprendre
et à mettre en œuvre,
 La méthode résolve une tâche non supervisée, donc elle ne nécessite aucune
information sur les données,
 Rapidité et faibles exigences en taille mémoire,
 La méthode est applicable à tout type de données (mêmes textuelles), en choisissant
une bonne notion de distance.
21
 Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est
nécessaire, car un mauvais choix de k produit de mauvais résultats.
 Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)
 L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale
correspondant à la fonction objective minimale.
 Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des
centres.
K-moyennes : Inconvénients
22
Conclusion
 Le clustering groupe des objets en se en basant sur leurs similarités.
 La mesure de similarité peut être calculée pour différents types de données.
 La sélection de la de mesure de de similarité dépend des des données utilisées et le type
de similarité recherchée.
 La segmentation est utilisée dans différents domaines de recherche tels que la bio-
informatique, analyse financière, classification des séquences d'ADN, génie logiciel,
locomotion de robots, etc…
23
Merci pour votre
attention 

Contenu connexe

Tendances

Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
Sawsen Larbi
 
Merise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigésMerise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigés
Majid CHADAD
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
Mohamed Heny SELMI
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
Lilia Sfaxi
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
Felipe Sanchez Garzon
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
Hassine Hammami
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
Boris Guarisma
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
Imen Turki
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
sarah Benmerzouk
 
Knn
KnnKnn
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Jean Roger Mably
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
Niji
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
Giorgio Pauletto
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
OuailChoukhairi
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
Amal Abid
 
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Haytam EL YOUSSFI
 
Rapport Mini Projet : élaborer un moteur de Recherche spécialisé en Education
Rapport Mini Projet : élaborer un moteur de Recherche spécialisé en EducationRapport Mini Projet : élaborer un moteur de Recherche spécialisé en Education
Rapport Mini Projet : élaborer un moteur de Recherche spécialisé en Education
Mohamed Amine Mahmoudi
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
Lilia Sfaxi
 
Rapport stage pfe
Rapport stage  pfe Rapport stage  pfe
Rapport stage pfe
rimeh moussi
 

Tendances (20)

Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Merise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigésMerise+ +exercices+mcd+-+corrigés
Merise+ +exercices+mcd+-+corrigés
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Knn
KnnKnn
Knn
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
 
Rapport Mini Projet : élaborer un moteur de Recherche spécialisé en Education
Rapport Mini Projet : élaborer un moteur de Recherche spécialisé en EducationRapport Mini Projet : élaborer un moteur de Recherche spécialisé en Education
Rapport Mini Projet : élaborer un moteur de Recherche spécialisé en Education
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Rapport stage pfe
Rapport stage  pfe Rapport stage  pfe
Rapport stage pfe
 

En vedette

Segmentation par watershed
Segmentation par watershedSegmentation par watershed
Segmentation par watershed
benouini rachid
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étude
Donia Hammami
 
Architectures orientées services
Architectures orientées servicesArchitectures orientées services
Architectures orientées services
Donia Hammami
 
Exposé langage-b
Exposé langage-bExposé langage-b
Exposé langage-b
Donia Hammami
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Hajer Trabelsi
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes experts
Mohamed Heny SELMI
 
Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011
Stefany Bedoya
 
2 B4 5 18 June 14.00 15.30 Ezzine
2 B4 5 18 June 14.00 15.30 Ezzine2 B4 5 18 June 14.00 15.30 Ezzine
2 B4 5 18 June 14.00 15.30 Ezzine
UNESCO Chair on ST&I Policy
 
Forum hr03
Forum hr03Forum hr03
Red de lecturas 3
Red de lecturas 3Red de lecturas 3
Red de lecturas 3
Stefany Bedoya
 
Candidater : Les ABCs
Candidater : Les ABCsCandidater : Les ABCs
Candidater : Les ABCs
Rihab Ben Rhouma
 
Our prez
Our prezOur prez
Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)
UNESCO Chair on ST&I Policy
 
Red lecturas 2 -
Red lecturas 2 -Red lecturas 2 -
Red lecturas 2 -
Stefany Bedoya
 
Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015
Houssem Eddine LASSOUED
 
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...
Yassine Selmi
 
Google Developers Overview Deck 2015
Google Developers Overview Deck 2015Google Developers Overview Deck 2015
Google Developers Overview Deck 2015
Houssem Eddine LASSOUED
 
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
UNESCO Chair on ST&I Policy
 
Jci training policy manual eng 2013-01
Jci training policy manual eng 2013-01Jci training policy manual eng 2013-01
Jci training policy manual eng 2013-01
Aymen Ben OTHMAN
 

En vedette (20)

Segmentation par watershed
Segmentation par watershedSegmentation par watershed
Segmentation par watershed
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étude
 
Architectures orientées services
Architectures orientées servicesArchitectures orientées services
Architectures orientées services
 
Exposé langage-b
Exposé langage-bExposé langage-b
Exposé langage-b
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes experts
 
Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011
 
2 B4 5 18 June 14.00 15.30 Ezzine
2 B4 5 18 June 14.00 15.30 Ezzine2 B4 5 18 June 14.00 15.30 Ezzine
2 B4 5 18 June 14.00 15.30 Ezzine
 
Forum hr03
Forum hr03Forum hr03
Forum hr03
 
Red de lecturas 3
Red de lecturas 3Red de lecturas 3
Red de lecturas 3
 
Devis
DevisDevis
Devis
 
Candidater : Les ABCs
Candidater : Les ABCsCandidater : Les ABCs
Candidater : Les ABCs
 
Our prez
Our prezOur prez
Our prez
 
Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)
 
Red lecturas 2 -
Red lecturas 2 -Red lecturas 2 -
Red lecturas 2 -
 
Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015
 
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...
 
Google Developers Overview Deck 2015
Google Developers Overview Deck 2015Google Developers Overview Deck 2015
Google Developers Overview Deck 2015
 
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
 
Jci training policy manual eng 2013-01
Jci training policy manual eng 2013-01Jci training policy manual eng 2013-01
Jci training policy manual eng 2013-01
 

Similaire à Exposé segmentation

melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
omri med
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
MarckKerbergKouassi
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
imane26
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
Bassem Brayek
 
RapportPP_AIDFRTREMO_Du GepectantGETTEC.pptx
RapportPP_AIDFRTREMO_Du GepectantGETTEC.pptxRapportPP_AIDFRTREMO_Du GepectantGETTEC.pptx
RapportPP_AIDFRTREMO_Du GepectantGETTEC.pptx
FabriceFotso5
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
nesrinetaamallah
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
fatmakarem
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type Clustering
Franck Dernoncourt
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
Hakim Nasaoui
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
OuailChoukhairi
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
jfeudeline
 
Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
LearningMahout
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
AHMEDBELGHITH4
 
Benharratharijtp2 classification
Benharratharijtp2 classificationBenharratharijtp2 classification
Benharratharijtp2 classification
ARIJ BenHarrath
 
POO -- (programmation orienté objet).pdf
POO -- (programmation orienté objet).pdfPOO -- (programmation orienté objet).pdf
POO -- (programmation orienté objet).pdf
hassanichaymae2903
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
Medalith Estrada
 
test
testtest
test
dehbimoad
 

Similaire à Exposé segmentation (20)

melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
RapportPP_AIDFRTREMO_Du GepectantGETTEC.pptx
RapportPP_AIDFRTREMO_Du GepectantGETTEC.pptxRapportPP_AIDFRTREMO_Du GepectantGETTEC.pptx
RapportPP_AIDFRTREMO_Du GepectantGETTEC.pptx
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type Clustering
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
clustering
clusteringclustering
clustering
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
 
Benharratharijtp2 classification
Benharratharijtp2 classificationBenharratharijtp2 classification
Benharratharijtp2 classification
 
POO -- (programmation orienté objet).pdf
POO -- (programmation orienté objet).pdfPOO -- (programmation orienté objet).pdf
POO -- (programmation orienté objet).pdf
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
test
testtest
test
 

Plus de Donia Hammami

Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammami
Donia Hammami
 
iRecruite
iRecruiteiRecruite
iRecruite
Donia Hammami
 
Sap project
Sap projectSap project
Sap project
Donia Hammami
 
E-learning
E-learningE-learning
E-learning
Donia Hammami
 
Rapport de projet de conception et de développement
Rapport de projet de conception et de développementRapport de projet de conception et de développement
Rapport de projet de conception et de développement
Donia Hammami
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFE
Donia Hammami
 
initiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisieinitiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisie
Donia Hammami
 

Plus de Donia Hammami (7)

Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammami
 
iRecruite
iRecruiteiRecruite
iRecruite
 
Sap project
Sap projectSap project
Sap project
 
E-learning
E-learningE-learning
E-learning
 
Rapport de projet de conception et de développement
Rapport de projet de conception et de développementRapport de projet de conception et de développement
Rapport de projet de conception et de développement
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFE
 
initiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisieinitiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisie
 

Exposé segmentation

  • 2. Plan de la présentation 1. C’est quoi la segmentation ? 2. Qu’est ce qu’un bon regroupement ? 3. Classification des algorithmes de clustering 4. Mesure de similarité 5. Présentation de l’algorithme K-Means 6. Domaine d’application de l’algorithme K-Means 7. Variantes de K-Means 8. Organigramme de l’algorithme K-Means 9. Algorithme K-Means 10.Simulation de l’algorithme K-Means 11.Avantages et Inconvénients de l’algorithme K-means 12.Conclusion 2
  • 3. C’est quoi la segmentation ?  Regroupement (Clustering): construire une collection d’objets  Similaires au sein d’un même groupe  Dissimilaires quand ils appartiennent à des groupes différents  Pour cette tâche, il n'y a pas de classe à expliquer ou des valeurs à prédire définies à priori, il s'agit de créer des groupes homogènes dans la population (l'ensemble des enregistrements).  Le Clustering est de la classification non supervisée: Elle vise à identifier des ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des classes prédéfinies. 3
  • 4. 4 Qu’est ce qu’un bon regroupement ?  Une bonne méthode de regroupement permet de garantir :  Une grande similarité intra-groupe  Une faible similarité inter-groupe  La qualité d’un regroupement dépend donc de la mesure de similarité utilisée par la méthode et de son implémentation.
  • 5. Mesure de similarité (1/3)  Il n’y a pas de définition unique de la similarité entre objets .  Différentes mesures de distances d (x ,y).  La définition de la similarité entre objets dépend de :  Le type des données considérées  Le type de similarité recherchée 5
  • 6. Mesure de similarité (2/3)  Données Numériques :  Distance de Minkowski:  Distance euclidienne: q=2  Distance de Manhattan : q=1 6
  • 7. Mesure de similarité (3/3)  Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1  Donnée énumératives: Distance nulle si les valeurs sont égales et 1 sinon.  Donnée énumératives ordonnées: idem. On peut définir une distance utilisant la relation d’ordre. 7
  • 8. Classification des algorithmes de Clustering (1)  Algorithmes Hiérarchiques: Construisent les clusters en divisant de manière récursive les instances. On a deux catégories :  Segmentation hiérarchique des divisions: chaque objet est initialement supposé un cluster.  Segmentation hiérarchique ascendante: tous les objets forment un seul cluster.  Algorithmes basés sur la densité: Fondés sur des notions de connectivité et de densité. Les points qui appartiennent à chaque groupe sont tirés d'une distribution de probabilité spécifique.  Algorithmes de grille: Basés sur une structure à multi-niveaux de granularité. 8
  • 9. Classification des algorithmes de Clustering (2)  Algorithmes basés sur le modèle: Un modèle est supposé pour chaque cluster ensuite on vérifie chaque modèle sur chaque groupe pour choisir le meilleur. Les modèles les plus utilisés sont:  Les arbres de décision.  Les réseaux de neurone.  Algorithmes de Partitionnement: Consistent à relocaliser les instances en les déplaçant d'un cluster à l'autre en partant d’un partitionnement initial. De tels procédés nécessitent que le nombre de cluster sera prédéfinit par l'utilisateur. Parmi les algorithmes utilisés:  L’algorithme des K-moyennes (K-Means). 9
  • 10. Présentation de l’algorithme K-Means  Un algorithme de classification non supervisée.  Encore appelée méthode des centres mobiles.  L’algorithme des K-moyennes permet de trouver des classes dans des données.  Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques: une classe n’est jamais incluse dans une autre classe .  L’algorithme fonctionne en précisant le nombre de classes attendues.  L’algorithme calcule les distances Intra-Classe et Inter-Classe. 10
  • 11. Domaines d’application  Marketing : Segmentation du marché afin d’obtenir des groupes de clients distincts à partir d’une base de données d’achat.  Assurance : Identification des groupes d’assurés distincts associés à un nombre important de déclarations.  Planification des villes : Identification des groupes d’habitons suivant le type d’habitation, ville, localisation géographique …  Médecine : Localisation de tumeurs dans le cerveau 11
  • 12. K-Means : Variantes  Algorithme basé sur la sélection des centres initiaux .  Algorithme basé Calcul des similarités.  Algorithme basé Calcul des centres.  Algorithme GMM : Variante basée sur les probabilités.  Algorithme K-modes : Utilisé pour les données catégorielles.  Algorithme K-prototype: Utilisé pour les données mixtes (numériques et catégorielles). 12
  • 14. Algorithme des k-moyennes (K-Means)  Algorithme K-Means Entrée : k le nombre de groupes cherchés DEBUT Choisir aléatoirement les centres des groupes REPETER i. Affecter chaque cas au groupe dont il est le plus proche à son centre ii. Recalculer le centre de chaque groupe JUSQU‘A (stabilisation des centres) OU (nombre d'itérations =t) OU (stabilisation de l’inertie totale de la population) FIN 14
  • 15. Simulation du k-Means (1/6) A B C D 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION  4 types de médicaments ayant chacun deux modalités : La concentration et l’efficacité, on veut créer deux classes => K=2. Médicaments Concentration Efficacité A 1 1 B 2 1 C 4 3 D 5 4 15
  • 16. Simulation du k-Means (2/6) Etape 1 : On désigne aléatoirement A et B comme centre de classes. • C1 = A • C2 = B Etape 2 : On assigne chaque point à une des classes. On commence par D : A B C D 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 16
  • 17. Simulation du k-Means (3/6) A B C D C2 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION Etape 3 : Calcul les nouveaux centres des classes compte tenu de la nouvelle classification. 17
  • 18. Simulation du k-Means (4/6)  Nous voilà à nouveau à l’étape 1.  On commence la deuxième itération de l’algorithme.  On réassigne chaque médicament à une classe en calculant la distance les séparant des nouveaux centres de classe .  On repart à l’étape 2. A B C D C2 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 18
  • 19. Simulation du k-Means (5/6)  On répète les étapes jusqu’à convergence.  Connaissant les membres de chaque classe, on recalcule les centres des classes pour chacun de leurs nouveaux membres. A B C D C2 C1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 19
  • 20. Simulation du k-Means (6/6) Le résultat final est donc:  Classe1 = {A , B} avec centre de classe c1 = (1.5 , 1).  Classe2 = {C , D} avec centre de classe c2 = (4.5 , 3.5). A B C D C2 C1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 20
  • 21. K-moyennes : Avantages  L’algorithme de k-Means est très populaire du fait qu’il est très facile à comprendre et à mettre en œuvre,  La méthode résolve une tâche non supervisée, donc elle ne nécessite aucune information sur les données,  Rapidité et faibles exigences en taille mémoire,  La méthode est applicable à tout type de données (mêmes textuelles), en choisissant une bonne notion de distance. 21
  • 22.  Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est nécessaire, car un mauvais choix de k produit de mauvais résultats.  Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)  L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale correspondant à la fonction objective minimale.  Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des centres. K-moyennes : Inconvénients 22
  • 23. Conclusion  Le clustering groupe des objets en se en basant sur leurs similarités.  La mesure de similarité peut être calculée pour différents types de données.  La sélection de la de mesure de de similarité dépend des des données utilisées et le type de similarité recherchée.  La segmentation est utilisée dans différents domaines de recherche tels que la bio- informatique, analyse financière, classification des séquences d'ADN, génie logiciel, locomotion de robots, etc… 23