2. Nous commençons notre discussion sur les distributions de
mélanges en considérant le problème de la recherche de groupes
dans un ensemble de points de données, que nous abordons d’abord
en utilisant une technique non probabiliste appelée algorithme de
K-moyennes (Lloyd, 1982). Ensuite, nous introduisons la vue des
variables latentes des distributions de mélange dans laquelle les
variables latentes discrètes peuvent être interprétées comme
définissant des affectations de points de données à des composants
spécifiques du mélange. Une technique générale permettant de
trouver des estimateurs du maximum de vraisemblance dans les
modèles à variables latentes est l'algorithme EM (expectation
maximisation)
Introduction
2
3. railgun (bpm
3
Problématique
• Vous avez des données dont vous croyez qu'elles
proviennent de n populations
• Vous souhaitez identifier des paramètres pour
chaque population
• Vous ne savez rien de la populations a priori
- Sauf que tu crois qu’ils sont gaussiens…
4. Solution :
Une technique non probabiliste appelée algorithme de
K-moyennes :
Pour que les variables latentes discrètes être
interprètes en fait l’affectation des points de donnée a
des composants spécifiques du mélange .
on utilise la technique de l’algorithme EM:
pour l’objectif de trouver des estimateurs du maximum
de vraisemblance dans les modèles à variables latentes.
Et après ca on va utiliser la distribution du mélange
gaussienne pour motiver l’algorithme EM.
5. Une méthode de classification non
supervisée
5
Algorithme K-means
6. Un algorithme pour partitionner (ou regrouper) N points
de données en K sous-ensembles disjoints Sj contenant
des points de données afin de minimiser le critère de la
somme des carrés
Où
xn est un vecteur représentant le nième point de données
uj le centre de gravité géométrique des points de données
dans Sj.
K est un nombre entier positif.
Algorithme K-means
6
7. Algorithme K-means
Entrée : k le nombre de groupes cherchés
DEBUT
Choisir aléatoirement les centres des groupes
REPETER
i.Affecter chaque cas au groupe dont il est le plus proche
à son centre
ii.Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des
centres) OU (nombre
d'itérations =t)
OU (stabilisation de l’inertie totale de la population)
FIN 7
9. Par exemple.
Utilisez des points
de départ aléatoires
ou choisissez k
points aléatoires
dans l'ensemble.
K=2
9
1. Initialize K
“means” k, un
pour chaque
classe
2
1
Algorithme K-means
10. 3. Phase 2: mise a
jour des means des
nouveaux
clusters .
1 0
2. Phase 1: Assigner
chaque point à la
plus proche mean k
10
Algorithme K-means
11. 3. Phase 2: mise a
jour des means des
nouveaux
clusters .
0 1
2. Phase 1: Assigner
chaque point à la
plus proche mean k
11
Algorithme K-means
12. 2. Phase 1: Assigner
chaque point a la
plus proche k
2. Phase 2: mise a
jour des means des
nouveaux
clusters
12
Algorithme K-means
13. 2. Phase 1: Assigner
chaque point a la
plus proche k
3. Phase 2: mise a
jour des means des
nouveaux
clusters
13
Algorithme K-means
14. 2. Phase 1: Assigner
chaque point a la
plus proche k
3. Phase 2: mise a
jour des means des
nouveaux
clusters
14
Algorithme K-means
15. 0 1
3. Phase 2: mise a
jour des means des
nouveaux
clusters .
2. Phase 1: Assigner
chaque point
à la plus proche
mean k
15
Algorithme K-means
16. 2. Phase 1: Assigner
chaque point a la
plus proche k
3. Phase 2: : mise a
jour des means des
nouveaux
clusters
16
Algorithme K-means
17. 3. Phase 2: mise a
jour des means des
nouveaux
clusters .
2. Phase 1: Assigner
chaque point
à la plus proche
mean
k
17
Algorithme K-means
18. 2. Phase 1: Assigner
chaque point a la
plus proche k
3. Phase 2: mise a
jour des means des
nouveaux
clusters
18
Algorithme K-means
19. 4. Quand les moyens ne
changent plus
clustering termine.
19
NB : caractéristique notable de l'algorithme K-means est qu'à chaque
itération, chaque point de données est attribué de manière unique à
un, et à un seul, des clusters
Algorithme K-means
20. Segmentation et compression d'image:
Le but de la segmentation est de partitionner une image en zones
présentant chacune un aspect visuel raisonnablement homogène ou
correspondant à des objets ou à des parties d'objets.
On peut appliquer k-means :
Pour chacun des N points de données, nous ne stockons que
l'identité k du cluster auquel il est affecté.
Nous enregistrons également les valeurs des centres de la grappe
K µk, qui nécessitent généralement beaucoup moins de données, à
condition de choisir K N.
• Approximé chaque point par son centre µk le plus proche.
• Les nouveaux points de données peuvent également être
compressés en recherchant d'abord le µk le plus proche, puis en
stockant l'étiquette k à la place du vecteur de données d'origine
22. L’algorithme de K-means est très populaire du fait qu’il est très
facile à comprendre et à mettre en œuvre,
La méthode résolve une tâche non supervisée, donc elle ne
nécessite aucune information sur les données,
Rapidité et faibles exigences en taille mémoire,
La méthode est applicable à tout type de données (mêmes
textuelles), en choisissant une bonne notion de distance.
22
Avantages du K-means
23. Le nombre de classes est un paramètre de l’algorithme. Un bon
choix du nombre k est nécessaire, car un mauvais choix de k
produit de mauvais résultats.
Les points isolés sont mal gérés (doivent-ils appartenir
obligatoirement à un cluster?)
L'algorithme du K-Means ne trouve pas nécessairement la
configuration la plus optimale
correspondant à la fonction objective minimale.
Les résultats de l'algorithme du K-Means sont sensibles à
l'initialisation aléatoires des centres.
23
Inconvénients du K-means
25. Modèles de mélange
En statistiques, un modèle de mélange est un
modèle statistique permettant de modéliser
différentes sous-populations dans la population
globale sans que ces sous-populations soient
identifiées dans les données par une variable
observée où les poids sont déterminé par une
distribution,
25
26. Modèles de mélange gaussien
GMM: est somme pondérée d’un nombre de
Gaussiennes dont les poids sont déterminés
par une distribution,
27. Modèles graphiques avec
variables non observées
Et si vous avez des variables dans un modèle
graphique qui ne sont jamais observées?
- Variables latentes
.
Une variable latente est une variable qui ne
peut pas être mesurée directement, mais qui est
supposée être à la base des variables observées.
La formation de modèles à variable latente est une
application d'apprentissage non supervisée
28. • Nous pouvons représenter un GMM impliquant
une variable latente
Représentation variable latente
28
29. • Nous avons des représentations du joint p (x, z) et du
marginal,p (x)…
• La condition de p (z | x) peut être dérivée à l'aide de la
règle de Bayes.
• la responsabilité d'un composant de mélange pour
expliquer une observation x.
29
30. Probabilité maximale (Likelihood)
sur un GMM
En statistique, l'estimateur du maximum de
vraisemblance est un estimateur
statistique utilisé pour inférer les
paramètres de la loi de probabilité d'un
échantillon donné en recherchant les
valeurs des paramètres maximisant
la fonction de vraisemblance.
30
31. Probabilité maximale (Likelihood)
sur un GMM
Identifier une fonction de vraisemblance :
Et mettez les partiels à zéro…
Optimisation des termes
de mélanges
Optimisation de la
covariance
Optimisation des moyens
31
33. • L’algorithme d’expectation-maximisation (EM) est
une méthode qui est utilisé pour trouver le
maximum de vraisemblance ou un maximum a
posteriori (MAP), c’est-à-dire l’estimation de
paramètres en modèles statistiques, et le modèle
dépend de non observés variables latentes
calculées à l'aide de modèles.
33
EM ( expectation maximisation)
34. 34
2. Etape E : assigner à chaque point Xn un résultat
assignement (znk ) pour chaque groupe k
3. Etape M : Compte tenu des scores, ajuster k,
k,k pour chaque groupe k
4. Évaluer la probabilité. Si la probabilité ou les
paramètres convergent, arrêtez.
1. Initialiser les paramètres Gaussian* : les moyennes k,
les covariance k
et coefficients de mélange k
* Il y a k Gaussiennes
EM ( expectation maximisation)
pour les mélanges gaussien
35. 2
1. Initialiser k, k
k, un pour chaque
k gaussien
22
35
On peut Utilisez les
résultats de k_means pour
initialiser:
kk
kcov(cluster(K))
k Nombre de points dans k
Nombre totale de points
EM ( expectation maximisation)
pour les mélanges gaussien
36. 2. Etape E : Pour chaque
point Xn, déterminez son
score d’assignation pour
chaque k gaussien:
36
est appelé une «responsabilité»: combien ce k gaussien
est-il responsable de ce point Xnnk(z )
Latent variable
.7 .3
EM ( expectation maximisation)
pour les mélanges gaussien
37. 3. Etape M : Pour chaque
k gaussien, mettez à jour
les paramètres en utilisant
un nouveau(znk )
Responsabilité
pour ce Xn
Moyenne de k gaussien
37
Trouvez la moyenne qui correspond le mieux à la tâche
EM ( expectation maximisation)
pour les mélanges gaussien
38. (znk )
Matrice de covariance
de k gaussien
Juste calculé ceci!
32
3. M Etape: Pour chaque k
gaussien, mettez à jour les
paramètres en utilisant un
nouveau
EM ( expectation maximisation)
pour les mélanges gaussien
38
39. (znk )
Coefficient de mélange pour
k Gaussien :
Nombre total
de points
39
eg. 105.6/200
3. M Etape: Pour chaque k
gaussien, mettez à jour les
paramètres en utilisant un
nouveau
EM ( expectation maximisation)
pour les mélanges gaussien
40. 4. Évaluer la vraisemblance du journal. Si la
probabilité ou les paramètres convergent,
arrêtez. Sinon passez à l'étape 2 (étape E).
Likelihood est la probabilité que les données X aient été
générées par les paramètres que vous avez trouvés.
40
EM ( expectation maximisation)
pour les mélanges gaussien
42. 4. Évaluer la vraisemblance du journal. Si probabilité ou
1. Initialiser le paramètre old
2. Etape E : Evaluer p(Z | X,old
)
3. Etape M : Evaluer :
Avec
les paramètres convergent, arrêtez.Si non old
et aller à l'étape E.
new
Variables
observée
s
Variables
cachées
Likelihood
42
Algorithme EM Général
43. K-means est un
classificateur
43
Le mélange de
gaussiennes est
un modèle de
probabilité
Nous pouvons
l'utiliser comme
un classificateur
«doux»
K-means vs Mélange Gaussien
Mélange GaussienK-means
44. K-means est un
classificateur
44
Le mélange de
gaussiennes est un
modèle de probabilité
Nous pouvons l'utiliser
comme un classificateur
«doux»
K-means vs Mélange Gaussien
K-means est un
classificateur
dure
Mélange GaussienK-means
45. K-means est un
classificateur
Le mélange de
gaussiennes est un
modèle de probabilité
Nous pouvons l'utiliser
comme un classificateur
«doux»
Paramètre à adapter aux
données :
• Moyenne k
• Covariance k
• Coefficient de mélange k
45
Paramètre à adapter aux
données:
•Moyenne k
K-means vs Mélange Gaussien
K-means est un
classificateur
dure
Mélange GaussienK-means
46. Relation avec K-means
• K-means prend des décisions difficiles.
Chaque point de données est affecté à un seul cluster.
• GMM / EM prend des décisions en douceur.
Chaque point de donnée peut donner un postérieur p(z|x)
Doux K-means est un cas particulier d’EM.
46
47. K-means peut être formulé
comme EM
EM pour les mélanges gaussiens
EM pour les mélanges de
Bernoulli
EM pour la régression linéaire
bayésienne
47
EM sous plusieurs formes
48. Nous avons appris à regrouper des
données de manière non supervisée
Les modèles de mélange gaussien sont
utiles pour modéliser des données
avec des affectations de grappes
«souples».
La maximisation des attentes est une
méthode utilisée lorsque nous avons
un modèle avec des variables latentes
(valeurs que nous ne connaissons pas,
mais estimons à chaque étape)
48
Conclusion
Le regroupement est effectué en minimisant la somme des carrés des distances entre les données et le centre de gravité du cluster correspondant.
2exp d ’app de k-means à la segmentation d’images montrant les images initiales ainsi que leurs segmentations K-means obtenues à l'aide de diverses valeurs de K. Ceci illustre également l'utilisation de la quantification vectorielle pour la compression de données, dans laquelle des valeurs plus petites de K donner plus haut compression au détriment d'une qualité d'image médiocre.