SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Clustering
(Segmentation)
Alya LETAIF
Donia HAMMAMI
Plan de la présentation
1. C’est quoi la segmentation ?
2. Qu’est ce qu’un bon regroupement ?
3. Classification des algorithmes de clustering
4. Mesure de similarité
5. Présentation de l’algorithme K-Means
6. Domaine d’application de l’algorithme K-Means
7. Variantes de K-Means
8. Organigramme de l’algorithme K-Means
9. Algorithme K-Means
10.Simulation de l’algorithme K-Means
11.Avantages et Inconvénients de l’algorithme K-means
12.Conclusion 2
C’est quoi la segmentation ?
 Regroupement (Clustering): construire une collection d’objets
 Similaires au sein d’un même groupe
 Dissimilaires quand ils appartiennent à des groupes différents
 Pour cette tâche, il n'y a pas de classe à expliquer ou des valeurs à prédire définies
à priori, il s'agit de créer des groupes homogènes dans la population (l'ensemble des
enregistrements).
 Le Clustering est de la classification non supervisée: Elle vise à identifier des
ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des
classes prédéfinies.
3
4
Qu’est ce qu’un bon regroupement ?
 Une bonne méthode de regroupement permet de garantir :
 Une grande similarité intra-groupe
 Une faible similarité inter-groupe
 La qualité d’un regroupement dépend donc de la mesure de similarité utilisée
par la méthode et de son implémentation.
Mesure de similarité (1/3)
 Il n’y a pas de définition unique de la similarité entre objets .
 Différentes mesures de distances d (x ,y).
 La définition de la similarité entre objets dépend de :
 Le type des données considérées
 Le type de similarité recherchée
5
Mesure de similarité (2/3)
 Données Numériques :
 Distance de Minkowski:
 Distance euclidienne: q=2
 Distance de Manhattan : q=1
6
Mesure de similarité (3/3)
 Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1
 Donnée énumératives: Distance nulle si les valeurs sont égales et 1
sinon.
 Donnée énumératives ordonnées: idem. On peut définir une distance
utilisant la relation d’ordre.
7
Classification des algorithmes de Clustering (1)
 Algorithmes Hiérarchiques: Construisent les clusters en divisant de manière
récursive les instances. On a deux catégories :
 Segmentation hiérarchique des divisions: chaque objet est initialement
supposé un cluster.
 Segmentation hiérarchique ascendante: tous les objets forment un seul
cluster.
 Algorithmes basés sur la densité: Fondés sur des notions de connectivité et de
densité. Les points qui appartiennent à chaque groupe sont tirés d'une distribution de
probabilité spécifique.
 Algorithmes de grille: Basés sur une structure à multi-niveaux de granularité.
8
Classification des algorithmes de Clustering (2)
 Algorithmes basés sur le modèle: Un modèle est supposé pour chaque cluster ensuite
on vérifie chaque modèle sur chaque groupe pour choisir le meilleur. Les modèles les
plus utilisés sont:
 Les arbres de décision.
 Les réseaux de neurone.
 Algorithmes de Partitionnement: Consistent à relocaliser les instances en les déplaçant
d'un cluster à l'autre en partant d’un partitionnement initial. De tels procédés nécessitent
que le nombre de cluster sera prédéfinit par l'utilisateur. Parmi les algorithmes utilisés:
 L’algorithme des K-moyennes (K-Means).
9
Présentation de l’algorithme K-Means
 Un algorithme de classification non supervisée.
 Encore appelée méthode des centres mobiles.
 L’algorithme des K-moyennes permet de trouver des classes dans des données.
 Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques: une classe
n’est jamais incluse dans une autre classe .
 L’algorithme fonctionne en précisant le nombre de classes attendues.
 L’algorithme calcule les distances Intra-Classe et Inter-Classe.
10
Domaines d’application
 Marketing : Segmentation du marché afin d’obtenir des groupes de clients
distincts à partir d’une base de données d’achat.
 Assurance : Identification des groupes d’assurés distincts associés à un nombre
important de déclarations.
 Planification des villes : Identification des groupes d’habitons suivant le type
d’habitation, ville, localisation géographique …
 Médecine : Localisation de tumeurs dans le cerveau
11
K-Means : Variantes
 Algorithme basé sur la sélection des centres initiaux .
 Algorithme basé Calcul des similarités.
 Algorithme basé Calcul des centres.
 Algorithme GMM : Variante basée sur les probabilités.
 Algorithme K-modes : Utilisé pour les données catégorielles.
 Algorithme K-prototype: Utilisé pour les données mixtes (numériques et catégorielles).
12
Organigramme de l’algorithme K-Means
13
Algorithme des k-moyennes (K-Means)
 Algorithme K-Means
Entrée : k le nombre de groupes cherchés
DEBUT
Choisir aléatoirement les centres des groupes
REPETER
i. Affecter chaque cas au groupe dont il est le plus proche à son centre
ii. Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des centres)
OU (nombre d'itérations =t)
OU (stabilisation de l’inertie totale de la population)
FIN
14
Simulation du k-Means (1/6)
A B
C
D
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
 4 types de médicaments ayant
chacun deux modalités : La
concentration et l’efficacité, on
veut créer deux classes => K=2.
Médicaments Concentration Efficacité
A 1 1
B 2 1
C 4 3
D 5 4
15
Simulation du k-Means (2/6)
Etape 1 : On désigne aléatoirement A et B
comme centre de classes.
• C1 = A
• C2 = B
Etape 2 : On assigne chaque point à une
des classes.
On commence par D :
A B
C
D
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
16
Simulation du k-Means (3/6)
A B
C
D
C2
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
Etape 3 : Calcul les nouveaux centres des
classes compte tenu de la nouvelle
classification.
17
Simulation du k-Means (4/6)
 Nous voilà à nouveau à l’étape 1.
 On commence la deuxième
itération de l’algorithme.
 On réassigne chaque médicament à
une classe en calculant la distance
les séparant des nouveaux centres
de classe .
 On repart à l’étape 2.
A B
C
D
C2
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
18
Simulation du k-Means (5/6)
 On répète les étapes jusqu’à
convergence.
 Connaissant les membres de chaque
classe, on recalcule les centres des
classes pour chacun de leurs nouveaux
membres.
A B
C
D
C2
C1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
19
Simulation du k-Means (6/6)
Le résultat final est donc:
 Classe1 = {A , B} avec centre de
classe c1 = (1.5 , 1).
 Classe2 = {C , D} avec centre de
classe c2 = (4.5 , 3.5).
A B
C
D
C2
C1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 1 2 3 4 5 6
EFFICACITÉ
CONCENTRATION
20
K-moyennes : Avantages
 L’algorithme de k-Means est très populaire du fait qu’il est très facile à comprendre
et à mettre en œuvre,
 La méthode résolve une tâche non supervisée, donc elle ne nécessite aucune
information sur les données,
 Rapidité et faibles exigences en taille mémoire,
 La méthode est applicable à tout type de données (mêmes textuelles), en choisissant
une bonne notion de distance.
21
 Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est
nécessaire, car un mauvais choix de k produit de mauvais résultats.
 Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)
 L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale
correspondant à la fonction objective minimale.
 Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des
centres.
K-moyennes : Inconvénients
22
Conclusion
 Le clustering groupe des objets en se en basant sur leurs similarités.
 La mesure de similarité peut être calculée pour différents types de données.
 La sélection de la de mesure de de similarité dépend des des données utilisées et le type
de similarité recherchée.
 La segmentation est utilisée dans différents domaines de recherche tels que la bio-
informatique, analyse financière, classification des séquences d'ADN, génie logiciel,
locomotion de robots, etc…
23
Merci pour votre
attention 

Contenu connexe

Tendances

Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueYassine Mhadhbi
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 
base de données fédérés
base de données fédérésbase de données fédérés
base de données fédérésOussama Yoshiki
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans Imen Turki
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Créer des applications Java avec MongoDB
Créer des applications Java avec MongoDBCréer des applications Java avec MongoDB
Créer des applications Java avec MongoDBMongoDB
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 

Tendances (20)

Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Clustering: Méthode hiérarchique
Clustering: Méthode hiérarchiqueClustering: Méthode hiérarchique
Clustering: Méthode hiérarchique
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
base de données fédérés
base de données fédérésbase de données fédérés
base de données fédérés
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Rapport kmeans
Rapport kmeans Rapport kmeans
Rapport kmeans
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Créer des applications Java avec MongoDB
Créer des applications Java avec MongoDBCréer des applications Java avec MongoDB
Créer des applications Java avec MongoDB
 
Data Mining
Data MiningData Mining
Data Mining
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Base des données réparties
Base des données répartiesBase des données réparties
Base des données réparties
 

En vedette

Segmentation par watershed
Segmentation par watershedSegmentation par watershed
Segmentation par watershedbenouini rachid
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étudeDonia Hammami
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
Architectures orientées services
Architectures orientées servicesArchitectures orientées services
Architectures orientées servicesDonia Hammami
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...Hajer Trabelsi
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsMohamed Heny SELMI
 
Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011Stefany Bedoya
 
Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)UNESCO Chair on ST&I Policy
 
Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015Houssem Eddine LASSOUED
 
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...Yassine Selmi
 
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)UNESCO Chair on ST&I Policy
 

En vedette (20)

Segmentation par watershed
Segmentation par watershedSegmentation par watershed
Segmentation par watershed
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étude
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Architectures orientées services
Architectures orientées servicesArchitectures orientées services
Architectures orientées services
 
Exposé langage-b
Exposé langage-bExposé langage-b
Exposé langage-b
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes experts
 
Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011Balance i simposio internal. narrativas, ago 2011
Balance i simposio internal. narrativas, ago 2011
 
2 B4 5 18 June 14.00 15.30 Ezzine
2 B4 5 18 June 14.00 15.30 Ezzine2 B4 5 18 June 14.00 15.30 Ezzine
2 B4 5 18 June 14.00 15.30 Ezzine
 
Forum hr03
Forum hr03Forum hr03
Forum hr03
 
Red de lecturas 3
Red de lecturas 3Red de lecturas 3
Red de lecturas 3
 
Devis
DevisDevis
Devis
 
Candidater : Les ABCs
Candidater : Les ABCsCandidater : Les ABCs
Candidater : Les ABCs
 
Our prez
Our prezOur prez
Our prez
 
Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)Towards a Pan-African Innovation Ecosystem (PAIES)
Towards a Pan-African Innovation Ecosystem (PAIES)
 
Red lecturas 2 -
Red lecturas 2 -Red lecturas 2 -
Red lecturas 2 -
 
Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015Wearable Technologies - Devfest Oran 2015
Wearable Technologies - Devfest Oran 2015
 
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...[PFE]  Design and implementation of an AoA, AS and DS estimator on FPGA-based...
[PFE] Design and implementation of an AoA, AS and DS estimator on FPGA-based...
 
Google Developers Overview Deck 2015
Google Developers Overview Deck 2015Google Developers Overview Deck 2015
Google Developers Overview Deck 2015
 
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
ST&I:Tunisia’s Lifeboat! (Towards Equitable Sustainable Knowledge Society)
 

Similaire à Exposé segmentation

melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienneomri med
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdfMarckKerbergKouassi
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningBassem Brayek
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karemfatmakarem
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringFranck Dernoncourt
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdfOuailChoukhairi
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretjfeudeline
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...AHMEDBELGHITH4
 
Benharratharijtp2 classification
Benharratharijtp2 classificationBenharratharijtp2 classification
Benharratharijtp2 classificationARIJ BenHarrath
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docxkhalil Ismail
 

Similaire à Exposé segmentation (20)

Clustering.pdf
Clustering.pdfClustering.pdf
Clustering.pdf
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type Clustering
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
 
Benharratharijtp2 classification
Benharratharijtp2 classificationBenharratharijtp2 classification
Benharratharijtp2 classification
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
test
testtest
test
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 

Plus de Donia Hammami

Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiDonia Hammami
 
Rapport de projet de conception et de développement
Rapport de projet de conception et de développementRapport de projet de conception et de développement
Rapport de projet de conception et de développementDonia Hammami
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFEDonia Hammami
 
initiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisieinitiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI TunisieDonia Hammami
 

Plus de Donia Hammami (7)

Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammami
 
iRecruite
iRecruiteiRecruite
iRecruite
 
Sap project
Sap projectSap project
Sap project
 
E-learning
E-learningE-learning
E-learning
 
Rapport de projet de conception et de développement
Rapport de projet de conception et de développementRapport de projet de conception et de développement
Rapport de projet de conception et de développement
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFE
 
initiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisieinitiation SSH_SecuriNets ISI Tunisie
initiation SSH_SecuriNets ISI Tunisie
 

Dernier

QCM Réseaux informatique V19.02.2017.pdf
QCM Réseaux informatique V19.02.2017.pdfQCM Réseaux informatique V19.02.2017.pdf
QCM Réseaux informatique V19.02.2017.pdfAyoub893663
 
rapport stage OCP : Elaboration plan des machines : La machine stockeuse et ...
rapport stage OCP : Elaboration plan des machines :  La machine stockeuse et ...rapport stage OCP : Elaboration plan des machines :  La machine stockeuse et ...
rapport stage OCP : Elaboration plan des machines : La machine stockeuse et ...NiHad27
 
webinaire eBIS n°9 La génétique du Méthane_02_20240321_SFresco_Methabreed.pdf
webinaire eBIS n°9 La génétique du Méthane_02_20240321_SFresco_Methabreed.pdfwebinaire eBIS n°9 La génétique du Méthane_02_20240321_SFresco_Methabreed.pdf
webinaire eBIS n°9 La génétique du Méthane_02_20240321_SFresco_Methabreed.pdfInstitut de l'Elevage - Idele
 
2021 - Rapport STAGE BASSAM 4eme GEII ULT
2021 - Rapport STAGE BASSAM 4eme GEII ULT2021 - Rapport STAGE BASSAM 4eme GEII ULT
2021 - Rapport STAGE BASSAM 4eme GEII ULTBassamRhouma
 
webinaire eBIS n°9 La génétique du Méthane_01_20240321_DBoichard_contexte.pdf
webinaire eBIS n°9 La génétique du Méthane_01_20240321_DBoichard_contexte.pdfwebinaire eBIS n°9 La génétique du Méthane_01_20240321_DBoichard_contexte.pdf
webinaire eBIS n°9 La génétique du Méthane_01_20240321_DBoichard_contexte.pdfInstitut de l'Elevage - Idele
 
webinaire eBIS n°9 La génétique du Méthane_03_20240321_JPromp_presentation_Mé...
webinaire eBIS n°9 La génétique du Méthane_03_20240321_JPromp_presentation_Mé...webinaire eBIS n°9 La génétique du Méthane_03_20240321_JPromp_presentation_Mé...
webinaire eBIS n°9 La génétique du Méthane_03_20240321_JPromp_presentation_Mé...Institut de l'Elevage - Idele
 
2022-PRESENTATION DE PROJET FIN D'ETUDE-REHOUMA BASSEM.pptx
2022-PRESENTATION DE PROJET FIN D'ETUDE-REHOUMA BASSEM.pptx2022-PRESENTATION DE PROJET FIN D'ETUDE-REHOUMA BASSEM.pptx
2022-PRESENTATION DE PROJET FIN D'ETUDE-REHOUMA BASSEM.pptxBassamRhouma
 

Dernier (7)

QCM Réseaux informatique V19.02.2017.pdf
QCM Réseaux informatique V19.02.2017.pdfQCM Réseaux informatique V19.02.2017.pdf
QCM Réseaux informatique V19.02.2017.pdf
 
rapport stage OCP : Elaboration plan des machines : La machine stockeuse et ...
rapport stage OCP : Elaboration plan des machines :  La machine stockeuse et ...rapport stage OCP : Elaboration plan des machines :  La machine stockeuse et ...
rapport stage OCP : Elaboration plan des machines : La machine stockeuse et ...
 
webinaire eBIS n°9 La génétique du Méthane_02_20240321_SFresco_Methabreed.pdf
webinaire eBIS n°9 La génétique du Méthane_02_20240321_SFresco_Methabreed.pdfwebinaire eBIS n°9 La génétique du Méthane_02_20240321_SFresco_Methabreed.pdf
webinaire eBIS n°9 La génétique du Méthane_02_20240321_SFresco_Methabreed.pdf
 
2021 - Rapport STAGE BASSAM 4eme GEII ULT
2021 - Rapport STAGE BASSAM 4eme GEII ULT2021 - Rapport STAGE BASSAM 4eme GEII ULT
2021 - Rapport STAGE BASSAM 4eme GEII ULT
 
webinaire eBIS n°9 La génétique du Méthane_01_20240321_DBoichard_contexte.pdf
webinaire eBIS n°9 La génétique du Méthane_01_20240321_DBoichard_contexte.pdfwebinaire eBIS n°9 La génétique du Méthane_01_20240321_DBoichard_contexte.pdf
webinaire eBIS n°9 La génétique du Méthane_01_20240321_DBoichard_contexte.pdf
 
webinaire eBIS n°9 La génétique du Méthane_03_20240321_JPromp_presentation_Mé...
webinaire eBIS n°9 La génétique du Méthane_03_20240321_JPromp_presentation_Mé...webinaire eBIS n°9 La génétique du Méthane_03_20240321_JPromp_presentation_Mé...
webinaire eBIS n°9 La génétique du Méthane_03_20240321_JPromp_presentation_Mé...
 
2022-PRESENTATION DE PROJET FIN D'ETUDE-REHOUMA BASSEM.pptx
2022-PRESENTATION DE PROJET FIN D'ETUDE-REHOUMA BASSEM.pptx2022-PRESENTATION DE PROJET FIN D'ETUDE-REHOUMA BASSEM.pptx
2022-PRESENTATION DE PROJET FIN D'ETUDE-REHOUMA BASSEM.pptx
 

Exposé segmentation

  • 2. Plan de la présentation 1. C’est quoi la segmentation ? 2. Qu’est ce qu’un bon regroupement ? 3. Classification des algorithmes de clustering 4. Mesure de similarité 5. Présentation de l’algorithme K-Means 6. Domaine d’application de l’algorithme K-Means 7. Variantes de K-Means 8. Organigramme de l’algorithme K-Means 9. Algorithme K-Means 10.Simulation de l’algorithme K-Means 11.Avantages et Inconvénients de l’algorithme K-means 12.Conclusion 2
  • 3. C’est quoi la segmentation ?  Regroupement (Clustering): construire une collection d’objets  Similaires au sein d’un même groupe  Dissimilaires quand ils appartiennent à des groupes différents  Pour cette tâche, il n'y a pas de classe à expliquer ou des valeurs à prédire définies à priori, il s'agit de créer des groupes homogènes dans la population (l'ensemble des enregistrements).  Le Clustering est de la classification non supervisée: Elle vise à identifier des ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des classes prédéfinies. 3
  • 4. 4 Qu’est ce qu’un bon regroupement ?  Une bonne méthode de regroupement permet de garantir :  Une grande similarité intra-groupe  Une faible similarité inter-groupe  La qualité d’un regroupement dépend donc de la mesure de similarité utilisée par la méthode et de son implémentation.
  • 5. Mesure de similarité (1/3)  Il n’y a pas de définition unique de la similarité entre objets .  Différentes mesures de distances d (x ,y).  La définition de la similarité entre objets dépend de :  Le type des données considérées  Le type de similarité recherchée 5
  • 6. Mesure de similarité (2/3)  Données Numériques :  Distance de Minkowski:  Distance euclidienne: q=2  Distance de Manhattan : q=1 6
  • 7. Mesure de similarité (3/3)  Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1  Donnée énumératives: Distance nulle si les valeurs sont égales et 1 sinon.  Donnée énumératives ordonnées: idem. On peut définir une distance utilisant la relation d’ordre. 7
  • 8. Classification des algorithmes de Clustering (1)  Algorithmes Hiérarchiques: Construisent les clusters en divisant de manière récursive les instances. On a deux catégories :  Segmentation hiérarchique des divisions: chaque objet est initialement supposé un cluster.  Segmentation hiérarchique ascendante: tous les objets forment un seul cluster.  Algorithmes basés sur la densité: Fondés sur des notions de connectivité et de densité. Les points qui appartiennent à chaque groupe sont tirés d'une distribution de probabilité spécifique.  Algorithmes de grille: Basés sur une structure à multi-niveaux de granularité. 8
  • 9. Classification des algorithmes de Clustering (2)  Algorithmes basés sur le modèle: Un modèle est supposé pour chaque cluster ensuite on vérifie chaque modèle sur chaque groupe pour choisir le meilleur. Les modèles les plus utilisés sont:  Les arbres de décision.  Les réseaux de neurone.  Algorithmes de Partitionnement: Consistent à relocaliser les instances en les déplaçant d'un cluster à l'autre en partant d’un partitionnement initial. De tels procédés nécessitent que le nombre de cluster sera prédéfinit par l'utilisateur. Parmi les algorithmes utilisés:  L’algorithme des K-moyennes (K-Means). 9
  • 10. Présentation de l’algorithme K-Means  Un algorithme de classification non supervisée.  Encore appelée méthode des centres mobiles.  L’algorithme des K-moyennes permet de trouver des classes dans des données.  Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques: une classe n’est jamais incluse dans une autre classe .  L’algorithme fonctionne en précisant le nombre de classes attendues.  L’algorithme calcule les distances Intra-Classe et Inter-Classe. 10
  • 11. Domaines d’application  Marketing : Segmentation du marché afin d’obtenir des groupes de clients distincts à partir d’une base de données d’achat.  Assurance : Identification des groupes d’assurés distincts associés à un nombre important de déclarations.  Planification des villes : Identification des groupes d’habitons suivant le type d’habitation, ville, localisation géographique …  Médecine : Localisation de tumeurs dans le cerveau 11
  • 12. K-Means : Variantes  Algorithme basé sur la sélection des centres initiaux .  Algorithme basé Calcul des similarités.  Algorithme basé Calcul des centres.  Algorithme GMM : Variante basée sur les probabilités.  Algorithme K-modes : Utilisé pour les données catégorielles.  Algorithme K-prototype: Utilisé pour les données mixtes (numériques et catégorielles). 12
  • 14. Algorithme des k-moyennes (K-Means)  Algorithme K-Means Entrée : k le nombre de groupes cherchés DEBUT Choisir aléatoirement les centres des groupes REPETER i. Affecter chaque cas au groupe dont il est le plus proche à son centre ii. Recalculer le centre de chaque groupe JUSQU‘A (stabilisation des centres) OU (nombre d'itérations =t) OU (stabilisation de l’inertie totale de la population) FIN 14
  • 15. Simulation du k-Means (1/6) A B C D 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION  4 types de médicaments ayant chacun deux modalités : La concentration et l’efficacité, on veut créer deux classes => K=2. Médicaments Concentration Efficacité A 1 1 B 2 1 C 4 3 D 5 4 15
  • 16. Simulation du k-Means (2/6) Etape 1 : On désigne aléatoirement A et B comme centre de classes. • C1 = A • C2 = B Etape 2 : On assigne chaque point à une des classes. On commence par D : A B C D 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 16
  • 17. Simulation du k-Means (3/6) A B C D C2 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION Etape 3 : Calcul les nouveaux centres des classes compte tenu de la nouvelle classification. 17
  • 18. Simulation du k-Means (4/6)  Nous voilà à nouveau à l’étape 1.  On commence la deuxième itération de l’algorithme.  On réassigne chaque médicament à une classe en calculant la distance les séparant des nouveaux centres de classe .  On repart à l’étape 2. A B C D C2 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 18
  • 19. Simulation du k-Means (5/6)  On répète les étapes jusqu’à convergence.  Connaissant les membres de chaque classe, on recalcule les centres des classes pour chacun de leurs nouveaux membres. A B C D C2 C1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 19
  • 20. Simulation du k-Means (6/6) Le résultat final est donc:  Classe1 = {A , B} avec centre de classe c1 = (1.5 , 1).  Classe2 = {C , D} avec centre de classe c2 = (4.5 , 3.5). A B C D C2 C1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 EFFICACITÉ CONCENTRATION 20
  • 21. K-moyennes : Avantages  L’algorithme de k-Means est très populaire du fait qu’il est très facile à comprendre et à mettre en œuvre,  La méthode résolve une tâche non supervisée, donc elle ne nécessite aucune information sur les données,  Rapidité et faibles exigences en taille mémoire,  La méthode est applicable à tout type de données (mêmes textuelles), en choisissant une bonne notion de distance. 21
  • 22.  Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est nécessaire, car un mauvais choix de k produit de mauvais résultats.  Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)  L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale correspondant à la fonction objective minimale.  Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des centres. K-moyennes : Inconvénients 22
  • 23. Conclusion  Le clustering groupe des objets en se en basant sur leurs similarités.  La mesure de similarité peut être calculée pour différents types de données.  La sélection de la de mesure de de similarité dépend des des données utilisées et le type de similarité recherchée.  La segmentation est utilisée dans différents domaines de recherche tels que la bio- informatique, analyse financière, classification des séquences d'ADN, génie logiciel, locomotion de robots, etc… 23