SlideShare une entreprise Scribd logo

Chapitre 4-Apprentissage non supervisé (1) (1).pdf

Z
ZizoAziz

ddgfg

1  sur  50
Télécharger pour lire hors ligne
Machine Learning
3ème GLSI
Chapitre 3- Apprentissage non-supervisé
Asma NAJJAR
ISTIC 2021-2022
1
Processus d’apprentissage
Définir un
problème de
ML et proposer
une solution
Visualiser le
Résultat de la
prédiction
"PREDIR"
Construite
l’ensemble de
données
Transformer les
données
Préparation des données
Algorithme de Machine
Learning (ML)
2
Supervisé Non-Supervisé Par renforcement
Différents contextes d’apprentissage
• Les algorithmes de Machine Learning (ML)
– L’apprentissage non-supervisé
• Aucun expert n’est disponible. L’algorithme doit
découvrir par lui-même la structure des données.
– L’apprentissage supervisé
• un expert est employé pour étiqueter correctement des
exemples (instances).
– L’apprentissage par renforcement
• l’algorithme apprend un comportement.
On s’intéresse, dans ce chapitre, au
algorithmes d’apprentissage non supervisé. 3
Apprentissage non supervisé
• Différentes tâches sont associées à l'apprentissage non
supervisé
– catégorisation/regroupement/segmentation
• Clustering
• Construire des classes automatiquement en fonction des
exemples disponibles
– Réduction de dimensions
• Réduire le nombre de variables.
• Permet d’améliorer la lisibilité des données.
– Règles d'association
• Analyser les relations entre les variables ou détecter des
associations
4
Apprentissage non supervisé
"catégorisation"
Objectif = structuration des données
• On cherche à regrouper les points proches/similaires en
"paquets" (groupes/classes)
• Pb : les groupes peuvent être assez bien définis et séparés,
ou au contraire imbriqués/sans frontières claires, et de
formes quelconques.
•
5
La catégorisation
• Classes (Clusters): groupes d’instances ayant les
mêmes caractéristiques
– Trouver un partitionnement en classes(groupes) ayant
un sens (Similaires).
– Les classes et leurs significations sont inconnues à
l’avance.
• Soient m instances {o1,…,oj,…, om} de données
dont chacune et décrite par à d attributs
{x1,…,xi,…xd} ,
– Attributs
• Numériques (distance bien définie)
• Enumératifs ou mixtes (distance difficile à définir)
6
Publicité

Recommandé

Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdfhanamettali
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisionsMariem Chaaben
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 

Contenu connexe

Tendances

Réseaux des neurones
Réseaux des neuronesRéseaux des neurones
Réseaux des neuronesMed Zaibi
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision Yassine Badri
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage AutomatiqueNizar Bechir
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Méthodes agiles vs méthodes classiques
Méthodes agiles vs méthodes classiquesMéthodes agiles vs méthodes classiques
Méthodes agiles vs méthodes classiquesSirine Barguaoui
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 

Tendances (20)

Réseaux des neurones
Réseaux des neuronesRéseaux des neurones
Réseaux des neurones
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Bi
BiBi
Bi
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Une introduction à MapReduce
Une introduction à MapReduceUne introduction à MapReduce
Une introduction à MapReduce
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Power Bi, le tour complet 2017
Power Bi, le tour complet 2017 Power Bi, le tour complet 2017
Power Bi, le tour complet 2017
 
Calcul des prévisions
Calcul des prévisionsCalcul des prévisions
Calcul des prévisions
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage Automatique
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Méthodes agiles vs méthodes classiques
Méthodes agiles vs méthodes classiquesMéthodes agiles vs méthodes classiques
Méthodes agiles vs méthodes classiques
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Knn
KnnKnn
Knn
 

Similaire à Chapitre 4-Apprentissage non supervisé (1) (1).pdf

comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdfMarckKerbergKouassi
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringFranck Dernoncourt
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karemfatmakarem
 
Cours ML et Deep Learning M2 2022-2023.pdf
Cours ML et Deep Learning M2 2022-2023.pdfCours ML et Deep Learning M2 2022-2023.pdf
Cours ML et Deep Learning M2 2022-2023.pdfUrbainNgatoua
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienneomri med
 
PJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdfPJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdfYounesOuladSayad1
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdfMouloudi1
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningBassem Brayek
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesEL-Hachemi Guerrout
 
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdf
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdfChapitre 3 _Conception et analyse d’algorithme-DPR.pdf
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdfMbarkiIsraa
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...Hajer Trabelsi
 

Similaire à Chapitre 4-Apprentissage non supervisé (1) (1).pdf (20)

comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
clustering
clusteringclustering
clustering
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Presentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type ClusteringPresentation - Automated Variable Weighting in k-Means Type Clustering
Presentation - Automated Variable Weighting in k-Means Type Clustering
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Rapport de stage fatma karem
Rapport de stage fatma karemRapport de stage fatma karem
Rapport de stage fatma karem
 
Cours ML et Deep Learning M2 2022-2023.pdf
Cours ML et Deep Learning M2 2022-2023.pdfCours ML et Deep Learning M2 2022-2023.pdf
Cours ML et Deep Learning M2 2022-2023.pdf
 
STATISTIQUE-Cours
STATISTIQUE-CoursSTATISTIQUE-Cours
STATISTIQUE-Cours
 
Controle de gestion
Controle de gestionControle de gestion
Controle de gestion
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
PJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdfPJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdf
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdf
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Performances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicalesPerformances dans la segmentation d’images médicales
Performances dans la segmentation d’images médicales
 
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdf
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdfChapitre 3 _Conception et analyse d’algorithme-DPR.pdf
Chapitre 3 _Conception et analyse d’algorithme-DPR.pdf
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Mathématiques et Python
Mathématiques et PythonMathématiques et Python
Mathématiques et Python
 

Chapitre 4-Apprentissage non supervisé (1) (1).pdf

  • 1. Machine Learning 3ème GLSI Chapitre 3- Apprentissage non-supervisé Asma NAJJAR ISTIC 2021-2022 1
  • 2. Processus d’apprentissage Définir un problème de ML et proposer une solution Visualiser le Résultat de la prédiction "PREDIR" Construite l’ensemble de données Transformer les données Préparation des données Algorithme de Machine Learning (ML) 2 Supervisé Non-Supervisé Par renforcement
  • 3. Différents contextes d’apprentissage • Les algorithmes de Machine Learning (ML) – L’apprentissage non-supervisé • Aucun expert n’est disponible. L’algorithme doit découvrir par lui-même la structure des données. – L’apprentissage supervisé • un expert est employé pour étiqueter correctement des exemples (instances). – L’apprentissage par renforcement • l’algorithme apprend un comportement. On s’intéresse, dans ce chapitre, au algorithmes d’apprentissage non supervisé. 3
  • 4. Apprentissage non supervisé • Différentes tâches sont associées à l'apprentissage non supervisé – catégorisation/regroupement/segmentation • Clustering • Construire des classes automatiquement en fonction des exemples disponibles – Réduction de dimensions • Réduire le nombre de variables. • Permet d’améliorer la lisibilité des données. – Règles d'association • Analyser les relations entre les variables ou détecter des associations 4
  • 5. Apprentissage non supervisé "catégorisation" Objectif = structuration des données • On cherche à regrouper les points proches/similaires en "paquets" (groupes/classes) • Pb : les groupes peuvent être assez bien définis et séparés, ou au contraire imbriqués/sans frontières claires, et de formes quelconques. • 5
  • 6. La catégorisation • Classes (Clusters): groupes d’instances ayant les mêmes caractéristiques – Trouver un partitionnement en classes(groupes) ayant un sens (Similaires). – Les classes et leurs significations sont inconnues à l’avance. • Soient m instances {o1,…,oj,…, om} de données dont chacune et décrite par à d attributs {x1,…,xi,…xd} , – Attributs • Numériques (distance bien définie) • Enumératifs ou mixtes (distance difficile à définir) 6
  • 7. La catégorisation • Pb : les groupes peuvent être assez bien définis et séparés, ou au contraire imbriqués/sans frontières claires, et de formes quelconques. 7
  • 8. La catégorisation • Une bonne méthode de catégorisation produira des clusters d’excellente qualité tels que: – Similarité intra-classe importante – Similarité inter-classe faible • La qualité d’un algorithme de catégorisation dépend de : – La mesure de similarité utilisée. 8
  • 9. Calcul de distances • Pas de définition unique de la similarité entre les individus – Différents mesures de distances d(x,y) entre individus • La similarité est inversement proportionnel à la distance – Deux individus sont d’autant plus similaires que la distance entre eux est petite. • Propriétés d’une distance: • La définition de la similarité entre objets dépend de: – Le type des données considérées 9 ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( z y d y x d z x d x y d y x d y x ssi y x d y x d           4 3 0 2 0 1
  • 10. Calcul de distances • Distance de Mikowski – Pour q=1  distance de Manhattan – Pou q=2  distance Euclidienne 10 q d k q jk ik j i X X o o d     1 ) , (     d k jk ik j i x x o o d 1 ) , (     d k jk ik j i x x o o d 1 2 ) , (
  • 11. Calcul de distances • Attributs discrets – Données binaires • d(0,0)=d(1,1)=0, • d(0,1)=d(1,0)=1 – Donnée énumératives • Distance nulle si les valeurs sont égales et 1 sinon. – Donnée énumératives ordonnées • idem. • Remarque: on peut définir une distance utilisant la relation d’ordre. 11
  • 12. Apprentissage non supervisé • Exemples de méthodes utilisées – Catégorisation par partitionnement • K-means et ses variantes • Partitionnement Hiérarchique Descendant • Partitionnement spectral – Catégorisation par agglomération • Regroupement Hiérarchique Ascendant – Catégorisation par modélisation • Mélange de gaussiennes (GMM) • Cartes de Kohonen (Self-Organizing Maps, SOM) – Catégorisation basé sur la densité • DBSCAN 12
  • 13. Algorithme 1 Les K-moyennes (k-means) et ses variantes 13
  • 14. K-moyennes • Approche par partitionnement • Entrées: – Un échantillon de N individus D={o1, …, oN }. – Nombre de classes k. – Une distance d – Un nombre maximale d’itération nb_it • Sorties : – Un ensemble C de k classes disjoints C={C1,…, Ck} – l’ensemble c de leurs centres c={c1, …, ck} • Objectif : – Répartir chacun des N individus dans une certaine classe i en minimisant la variance intra-classe donnée par une fonction objectif J 14      k j C O j i j i c o d C J 1 2 ) , ( ) (
  • 16. K-moyennes • Algorithme 1.Choisir k centres initiaux {c1, …, ck} 2.Répartir chacun des n individus dans une classe i dont le centre ci est le plus proche. 4.Calculer les nouveaux centres des classes : pour tout i, le nouveau ci est la moyenne des éléments de la classe i. 3.Si (aucun élément ne change de classe) ou (le nombre maximal nb_it des itérations est atteint) alors arrêter l’algorithme. 5.Si non, Aller en 2. 16
  • 17. K-moyennes: Exemple 17 Similarité: Distance Euclidienne Initialisation des centres de classes
  • 18. Corrigé de l’exemple Itération 1 • s G1 G2 I1 0,0 7,2 I2 1,1 6,1 I3 3,6 3,6 I4 7,2 0,0 I5 4,7 2,5 I6 5,3 2,1 I7 4,3 2,9 G1={I1,I2} G2={I3,I4,I5,I6,I7} Nouveaux centres des classes C1=(1.25, 1.50) C2= (3.90, 5.10) Itération 2 C1 C2 I1 0,6 5,0 I2 0,6 3,9 I3 3,1 1,4 I4 6,7 2,2 I5 4,2 0,4 I6 4,8 0,6 I7 3,8 0,7 G1={I1,I2} G2={I3,I4,I5,I6,I7} La composition des classes ne change pas  Arrêter l’algorithme 18
  • 19. K-moyennes • Avantages – Facile à comprendre et à implémenter – Paramètre unique : valeur souhaitée pour le nombre de classes k – Faible complexité moyenne : O(t.k.N.d) avec : • t : Nombre d’itérations • K : Nombre de classes • N : Nombre d’observations • d: Dimension des observations (nombre de variables) 19
  • 20. K-moyennes • Limites – Sensibilité au choix aléatoire des centres initiaux – Données vectorielles uniquement – Sensibilité aux données aberrantes (bruits) – Choix a priori difficile du nombre de classes – Ne fonctionne pas dans le cas où les classes n’ont pas une forme sphérique 20
  • 21. K-moyennes • Résultats avec 3 initialisations différentes • Une bonne initialisation de l’algorithme K-means permet d’obtenir une solution de meilleure qualité avec une convergence plus rapide (avec moins d’itérations) vers cette solution. 21
  • 22. K-moyennes • Que faire pour alléger l’effet de l’initialisation aléatoire des centres des classes initiaux? – Solution simple • Faire tourner K-means plusieurs fois, en utilisant à chaque fois une initialisation aléatoire différente. • Choisir la solution qui aboutit au meilleur partitionnement – Celle qui minimise la variabilité intra-classe et maximise la variabilité interclasse. Cette solution ne garantie pas d’arriver à un bon partitionnement. 22
  • 23. Exercice X Y A 2 10 B 2 5 C 8 4 D 5 8 E 7 5 F 6 4 G 1 2 H 4 9 oK-means avec k=3 o Les 3 centres de classes initiaux sont A, B et G, respectivement. o La distance utilisée est la L2  distance euclidienne. 23
  • 24. Corrigé de Exercice • Itération 1 – Classe 1 ={A,C,D} – Classe 2={B,E,F} – Classe 3={G} 24 C1 2 10 C2 2 5 C3 1 2 C1 C2 C3 C 6,00 6,08 7,28 C1 D 3,61 4,24 7,21 C1 E 7,07 5,00 6,71 C2 F 7,21 4,12 5,39 C2
  • 25. Corrigé de Exercice • Itération 2 – Classe 1 ={A,D,H} – Classe 2={B,C,E,F} – Classe 3={G} 25 C1 4,75 7,75 C2 5,00 4,67 C3 1,00 2,00 C1 C2 C3 A 3,55 6,12 8,06 C1 B 3,89 3,02 3,16 C2 C 4,96 3,07 7,28 C2 D 0,35 3,33 7,21 C1 E 3,55 2,03 6,71 C2 F 3,95 1,20 5,39 C2 G 6,86 4,81 0,00 C3 H 1,46 4,45 7,62 C1
  • 26. Corrigé de Exercice • Itération 3 – Classe 1 ={A,D,H} – Classe 2={C,E,F} – Classe 3={B,G} 26 C1 3,66 9 C2 5,75 4,5 C3 1 2 C1 C2 C3 A 1,94 6,66 8,06 C1 B 4,33 3,78 3,16 C3 C 6,62 2,30 7,28 C2 D 1,67 3,58 7,21 C1 E 5,21 1,35 6,71 C2 F 5,52 0,56 5,39 C2 G 7,49 5,37 0,00 C3 H 0,33 4,83 7,62 C1
  • 27. Corrigé de Exercice • Itération 4 – Classe 1 ={A,D,H} – Classe 2={C,E,F} – Classe 3={B,G} 27 C1 3,67 9,00 C2 7,00 4,33 C3 1,50 3,50 C1 C2 C3 A 1,94 7,56 6,52 C1 B 4,33 5,04 1,58 C3 C 6,62 1,05 6,52 C2 D 1,67 4,18 5,70 C1 E 5,21 0,67 5,70 C2 F 5,52 1,05 4,53 C2 G 7,49 6,44 1,58 C3 H 0,33 5,55 6,04 C1 Les classes sont stables : la composition des classes ne change pas (de l’itération 3 à l’itération 4)  On arrête l’algorithme.
  • 28. Algorithme 2 La méthode hiérarchique ascendante 28 1ère MC. SeRCE
  • 29. Les méthodes hiérarchiques • Une méthode hiérarchique permet de construire une hiérarchie de classes, non seulement une partition unique des objets. • Le nombre de classes k n’est pas exigé comme donnée mais peut être utilisée comme une condition d’arrêt. • Se base sur une matrice de distances • Il existe 2 types de catégorisations hiérarchiques – Méthode ascendante. – Méthode descendante. 29 1ère MC. SeRCE
  • 30. La méthode hiérarchique ascendante Approche par agglomération • Entrée: – Un échantillon de N individus D={o1, …, oN } – Nombre de classe k • Algorithme: 1. On commence avec N classes (1 classe = 1 observation) 2. Répéter a. Calcul d’indices d’agrégation entre tous les groupes issus de l’itération précédente b. Grouper les deux classes ayant le plus petit indice d’agrégation 3. Jusqu’à (Nombre de groupe == 1) 30 1ère MC. SeRCE
  • 31. Distance entre groupes • Critères d’agrégation – Distance entre les groupes (ou entre un groupe est une observation) – Différents indices d’agrégation peuvent être utilisés pour mesurer la dissimilarité entre les groupes • Le lien minimum (single linkage) • Le lien maximum (complete linkage) • Le lien moyen (average linkage) • L’indice de Ward 31 1ère MC. SeRCE
  • 32. Distance entre groupes • Critères d’agrégation – Le lien minimum (single linkage) • L’indice d’agrégation δ entre deux groupes Gi et Gj est la valeur la plus faible des distances entre une observation x du premier groupe Gi et une observation y du second groupe Gj 32   ) , ( min ) , ( y x d G G j i G y G x j i     1ère MC. SeRCE
  • 33. La méthode hiérarchique ascendante 33 Exemple : Agrégation des classes selon « le lien minimum » Dendrogramme 1ère MC. SeRCE
  • 34. Distance entre groupes • Critères d’agrégation – Le lien maximum (complete linkage) • Appelée parfois "diamètre" de l’agrégat. • L’indice d’agrégation δ entre deux groupes Gi et Gj est la valeur la plus élevée des distances entre une observation du premier groupe Gi et une observation y du second groupe Gj 34   ) , ( max ) , ( y x d G G j i G y G x j i     1ère MC. SeRCE
  • 35. La méthode hiérarchique ascendante • Exemple : Agrégation des classes selon la distance minimal 35 Dendrogramme Exemple : Agrégation des classes selon « le lien maximum » 1ère MC. SeRCE
  • 36. Distance entre groupes • Critères d’agrégation – Le lien moyen (average linkage) • L’indice d’agrégation δ entre deux groupes Gi et Gj est la valeur moyenne des distances entre toutes observations du premier groupe Gi et toutes observations du second groupe Gj 36       j i G y G x j i j i y x d G G G G ) , ( ) , ( 1  1ère MC. SeRCE
  • 37. Distance entre groupes • Critères d’agrégation – L’indice de Ward • on agrège a chaque itération les classes dont l'agrégation fait perdre le moins d'inertie interclasse La distance entre deux clusters est calculée de façon à minimiser la variance inter-cluster 37 ) , ( ) , ( j i j i j i j i c c d G G G G G G 2      1ère MC. SeRCE
  • 38. La méthode hiérarchique ascendante Méthodes Avantages Limites Lien minimum - Fonctionne dans le cas où les classes ont une forme non sphérique - Forme des groupes déséquilibré : un grand groupe et plusieurs petits groupes satellites. - Sensible au bruit et aux points aberrants Lien moyen - Il tend, à former des groupes de taille égale - Très sensible aux points aberrants et est peu utilisée en pratique. Lien maximum - Moins sensible au bruits et aux points aberrants - Tend à diviser les grands groupes Indice de ward - Tend à regrouper les ensemble représentant les petites classes - Coûteux en temps de calcul 38 1ère MC. SeRCE
  • 39. La méthode hiérarchique ascendante 39 Sensibilité aux bruits (Min) Diviser les grands groupes (Max) 1ère MC. SeRCE
  • 40. La méthode hiérarchique ascendante • Avantages – Il n’est pas nécessaire de définir le nombre de classes à l’avance • Limites – La CAH est peu robuste: il suffit de modifier une distance pour que le saut change (sensibilité aux points aberrants) – Grande complexité algorithmique (temps de calcul et espace mémoire) • Plus adapté aux échantillons contenant un faible nombre d'individus 40 1ère MC. SeRCE
  • 41. La méthode hiérarchique ascendante • Limites (suite) – La complexité en fonction du nombre N de points. – O(N3) dans la plupart des cas • N étapes dont chacune une matrice de N2 doit être Mise à jour – Certain algorithme peuvent réduire la complexité à O(N2log(N)) – Une pratique assez fréquente • D’abord, appliquer l’algorithme K-means avec une valeur élevée de k (mais néanmoins k≪N), • Utiliser la classification ascendante hiérarchique pour regrouper les classes 41 1ère MC. SeRCE
  • 42. Exercice 42 • On dispose d'un tableau de données avec 8 individus et 2 variables. • On donne aussi le tableau de distances entre ces individus en se basant sur distance euclidienne •On utilise le "lien moyen" comme critère d’agrégation entre 2 classes. 1ère MC. SeRCE
  • 43. Solution  G1={I1,I2} G1 I3 I4 I5 I6 I7 I8 G1 0 1.7 3.81 4.95 6.05 4.55 6.68 I3 4.0 4.47 5 3.16 5.39 I4 0 2 4.12 4.24 5.39 I5 0 2.24 3.16 3.61 I6 0 2.24 1.41 I7 0 2.24 I8 0 D(G1,I 3)=(2+1.41)/2=1.7 D(G1,I4)=(4.47+3.16)/2=3.81 D(G1,I5)=(5.66+4.24)/ 2= 4.95 D(G1,I6)=(6.71+5.39)/2=6.05 D(G1,I7)=(5.10+4)/2=4.55 D(G1,I8)=(7.28+6.08)=6.68 43 1ère MC. SeRCE
  • 44. Solution G1 G2 I3 I4 I5 I7 G1 0 6.36 1.7 3.81 4.95 4.55 G2 0 5.19 4.75 4.42 224 I3 0 4.0 4.47 3.16 I4 0 2 4.24 I5 0 3.16 I7 0 D(G1,G2)=(6.71+7.28+5.39+6.08)/4=6.36 D(G2,I3)=(5+5.39)/2=5.19 D(G2,I4)=(4.12+5.39)/2=4.75 D(G2,I5)=(5.24+3.61)/ 2= 4.42 D(G2,I7)=(2.24+2.24)/2=2.24 44  G1={I1,I2}  G2={I6,I8} 1ère MC. SeRCE
  • 45. Solution  G3={G1,I3}={I1,I2,I3}  G2={I6,I8} G3 G2 I4 I5 I7 G3 0 5.16 3,87 4,79 4.08 G2 0 4,75 2.92 2.24 I4 0 2 4.24 I5 0 3.16 I7 0 D(G2,I4)=(4.12+5.39)/2 =4,75 D(G2,I5)=(2.24+3.61)/2=2,92 D(G2,I7)=(2.24+2.24)/2=2.24 D(G3,I4)=(4.47+3.16+4)/3=3,87 D(G3,I5)=(5.66+4.24+4.47)/ 3= 4,79 D(G3,I7)=(5.10+4+3.16)/3=4.08 D(G3,G2)=(5.1+4+3.16+7.28+6.08+5.39)/6=5.16 45 1ère MC. SeRCE
  • 46. Solution G3={I1,I2,I3} G2={I6,I8} G4={I4,I5} G3 G 2 G4 I7 G3 0 5.16 4.33 4.08 G2 0 3.84 2.24 G4 0 3.7 I7 0 D(G3,G4)=(4.47+3.16+4+5.66+4.24+4.47)/6=4.33 D(G2,G4)= (4.12+5.39+2.24+3.61)/4=3.84 D(I7,G4)=(4.24+3.16)/2=3.7  G5={G2,I7}={{I6,I8},I7} 46 1ère MC. SeRCE
  • 47. Solution • D(G3,G5)= (6.71+7.28+5.1+5.39+4+6.08+5+3.16+5.39)/9= 5.3456 • D(G4,G5)= (4.12+5.39+4.24+2.24+3.61+3.16)/6= 3.7933 G6={G4,G5}={{I4,I5},{I6,I7,I8}} G7={G3,G5}={{I1,I2,I3},{{I4,I5},{I6,I7,I8}}} G3 G4 G5 G3 0 4.33 5.34 G4 0 3.79 G5 0 G1 G5 G1 0 - G5 0 47 G3={I1,I2,I3} G4={I4,I5} G5={I6,I8,I7} 1ère MC. SeRCE
  • 48. Solution • Le dendrogramme I1 I2 I 3 I4 I5 I6 I7 I8 G1 G2 G3 G4 G5 G6 48 G7 8 Classes 7 Classes 6 Classes 5 Classes 4 Classes 3 Classes 2 Classes 1 Classe 1ère MC. SeRCE
  • 49. Problématique • Avec les algorithmes précédent (K-means, k- Médoïdes, CHA, CHD) – Chaque instance est attribuée à une seule classe. – Ceci suppose que les classes sont parfaitement discernable  Ce n’est pas toujours le cas. Comme l’exemple : suivant : 49 1ère MC. SeRCE
  • 50. Problématique • Solution – Chaque instance est attribuée à une classe avec un certain degré d’appartenance • Déterminer la probabilité d’appartenance d’une instance à une classes donnée • Exemples d’algorithmes – Fuzzy C-means – GMM 50 1ère MC. SeRCE