melange de gaussienne

Maximisation des attentes et
Mélange de gaussiennes
1
Chapitre 9 :
1

Nous commençons notre discussion sur les distributions de
mélanges en considérant le problème de la recherche de groupes
dans un ensemble de points de données, que nous abordons d’abord
en utilisant une technique non probabiliste appelée algorithme de
K-moyennes (Lloyd, 1982). Ensuite, nous introduisons la vue des
variables latentes des distributions de mélange dans laquelle les
variables latentes discrètes peuvent être interprétées comme
définissant des affectations de points de données à des composants
spécifiques du mélange. Une technique générale permettant de
trouver des estimateurs du maximum de vraisemblance dans les
modèles à variables latentes est l'algorithme EM (expectation
maximisation)
Introduction
2

railgun (bpm
3
Problématique
• Vous avez des données dont vous croyez qu'elles
proviennent de n populations
• Vous souhaitez identifier des paramètres pour
chaque population
• Vous ne savez rien de la populations a priori
- Sauf que tu crois qu’ils sont gaussiens…

Solution :
 Une technique non probabiliste appelée algorithme de
K-moyennes :
 Pour que les variables latentes discrètes être
interprètes en fait l’affectation des points de donnée a
des composants spécifiques du mélange .
 on utilise la technique de l’algorithme EM:
 pour l’objectif de trouver des estimateurs du maximum
de vraisemblance dans les modèles à variables latentes.
 Et après ca on va utiliser la distribution du mélange
gaussienne pour motiver l’algorithme EM.

Une méthode de classification non
supervisée
5
Algorithme K-means

 Un algorithme pour partitionner (ou regrouper) N points
de données en K sous-ensembles disjoints Sj contenant
des points de données afin de minimiser le critère de la
somme des carrés
Où
 xn est un vecteur représentant le nième point de données
 uj le centre de gravité géométrique des points de données
dans Sj.
 K est un nombre entier positif.
Algorithme K-means
6

Algorithme K-means
Entrée : k le nombre de groupes cherchés
DEBUT
Choisir aléatoirement les centres des groupes
REPETER
i.Affecter chaque cas au groupe dont il est le plus proche
à son centre
ii.Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des
centres) OU (nombre
d'itérations =t)
OU (stabilisation de l’inertie totale de la population)
FIN 7

Organigramme Algorithme K-means
8

 Par exemple.
Utilisez des points
de départ aléatoires
ou choisissez k
points aléatoires
dans l'ensemble.
K=2
9
1. Initialize K
“means” k, un
pour chaque
classe
2
1
Algorithme K-means

3. Phase 2: mise a
jour des means des
nouveaux
clusters .
1 0
2. Phase 1: Assigner
chaque point à la
plus proche mean k
10
Algorithme K-means

3. Phase 2: mise a
jour des means des
nouveaux
clusters .
0 1
chaque point à la
plus proche mean k
11
Algorithme K-means

chaque point a la
plus proche k
2. Phase 2: mise a
jour des means des
nouveaux
clusters
12
Algorithme K-means

chaque point a la
plus proche k
3. Phase 2: mise a
jour des means des
nouveaux
clusters
13
Algorithme K-means

chaque point a la
plus proche k
3. Phase 2: mise a
jour des means des
nouveaux
clusters
14
Algorithme K-means

0 1
3. Phase 2: mise a
jour des means des
nouveaux
clusters .
chaque point
à la plus proche
mean k
15
Algorithme K-means

chaque point a la
plus proche k
3. Phase 2: : mise a
jour des means des
nouveaux
clusters
16
Algorithme K-means

3. Phase 2: mise a
jour des means des
nouveaux
clusters .
chaque point
à la plus proche
mean 
k
17
Algorithme K-means

chaque point a la
plus proche k
3. Phase 2: mise a
jour des means des
nouveaux
clusters
18
Algorithme K-means

4. Quand les moyens ne
changent plus
clustering termine.
19
NB : caractéristique notable de l'algorithme K-means est qu'à chaque
itération, chaque point de données est attribué de manière unique à
un, et à un seul, des clusters
Algorithme K-means

Segmentation et compression d'image:
Le but de la segmentation est de partitionner une image en zones
présentant chacune un aspect visuel raisonnablement homogène ou
correspondant à des objets ou à des parties d'objets.
On peut appliquer k-means :
 Pour chacun des N points de données, nous ne stockons que
l'identité k du cluster auquel il est affecté.
 Nous enregistrons également les valeurs des centres de la grappe
K µk, qui nécessitent généralement beaucoup moins de données, à
condition de choisir K N.
• Approximé chaque point par son centre µk le plus proche.
• Les nouveaux points de données peuvent également être
compressés en recherchant d'abord le µk le plus proche, puis en
stockant l'étiquette k à la place du vecteur de données d'origine

Exemple
Nb : k-means un algorithme de compression avec perte

 L’algorithme de K-means est très populaire du fait qu’il est très
facile à comprendre et à mettre en œuvre,
 La méthode résolve une tâche non supervisée, donc elle ne
nécessite aucune information sur les données,
 Rapidité et faibles exigences en taille mémoire,
 La méthode est applicable à tout type de données (mêmes
textuelles), en choisissant une bonne notion de distance.
22
Avantages du K-means

 Le nombre de classes est un paramètre de l’algorithme. Un bon
choix du nombre k est nécessaire, car un mauvais choix de k
produit de mauvais résultats.
 Les points isolés sont mal gérés (doivent-ils appartenir
obligatoirement à un cluster?)
 L'algorithme du K-Means ne trouve pas nécessairement la
configuration la plus optimale
 correspondant à la fonction objective minimale.
 Les résultats de l'algorithme du K-Means sont sensibles à
l'initialisation aléatoires des centres.
23
Inconvénients du K-means

Le célèbre «GMM»:
modèle de mélange
gaussien
24
Modèles de
mélange
gaussien

Modèles de mélange
En statistiques, un modèle de mélange est un
modèle statistique permettant de modéliser
différentes sous-populations dans la population
globale sans que ces sous-populations soient
identifiées dans les données par une variable
observée où les poids sont déterminé par une
distribution,
25

Modèles de mélange gaussien
GMM: est somme pondérée d’un nombre de
Gaussiennes dont les poids sont déterminés
par une distribution,

Modèles graphiques avec
variables non observées
 Et si vous avez des variables dans un modèle
graphique qui ne sont jamais observées?
- Variables latentes
.
Une variable latente est une variable qui ne
peut pas être mesurée directement, mais qui est
supposée être à la base des variables observées.
 La formation de modèles à variable latente est une
application d'apprentissage non supervisée

• Nous pouvons représenter un GMM impliquant
une variable latente
Représentation variable latente
28

• Nous avons des représentations du joint p (x, z) et du
marginal,p (x)…
• La condition de p (z | x) peut être dérivée à l'aide de la
règle de Bayes.
• la responsabilité d'un composant de mélange pour
expliquer une observation x.
29

Probabilité maximale (Likelihood)
sur un GMM
En statistique, l'estimateur du maximum de
vraisemblance est un estimateur
statistique utilisé pour inférer les
paramètres de la loi de probabilité d'un
échantillon donné en recherchant les
valeurs des paramètres maximisant
la fonction de vraisemblance.
30

Probabilité maximale (Likelihood)
sur un GMM
Identifier une fonction de vraisemblance :
Et mettez les partiels à zéro…
Optimisation des termes
de mélanges
Optimisation de la
covariance
Optimisation des moyens
31

EM for GMM
32
L'algorithme EM
pour les mélanges
gaussiens

• L’algorithme d’expectation-maximisation (EM) est
une méthode qui est utilisé pour trouver le
maximum de vraisemblance ou un maximum a
posteriori (MAP), c’est-à-dire l’estimation de
paramètres en modèles statistiques, et le modèle
dépend de non observés variables latentes
calculées à l'aide de modèles.
33
EM ( expectation maximisation)

34
2. Etape E : assigner à chaque point Xn un résultat
assignement (znk ) pour chaque groupe k
3. Etape M : Compte tenu des scores, ajuster k,
k,k pour chaque groupe k
4. Évaluer la probabilité. Si la probabilité ou les
paramètres convergent, arrêtez.
1. Initialiser les paramètres Gaussian* : les moyennes k,
les covariance k
et coefficients de mélange k
* Il y a k Gaussiennes
pour les mélanges gaussien

2
1. Initialiser k, k
k, un pour chaque
k gaussien
22
35
 On peut Utilisez les
résultats de k_means pour
initialiser:
 kk
kcov(cluster(K))
k Nombre de points dans k
Nombre totale de points

2. Etape E : Pour chaque
point Xn, déterminez son
score d’assignation pour
chaque k gaussien:
36
est appelé une «responsabilité»: combien ce k gaussien
est-il responsable de ce point Xnnk(z )
Latent variable
.7 .3

3. Etape M : Pour chaque
k gaussien, mettez à jour
les paramètres en utilisant
un nouveau(znk )
Responsabilité
pour ce Xn
Moyenne de k gaussien
37
Trouvez la moyenne qui correspond le mieux à la tâche

(znk )
Matrice de covariance
de k gaussien
Juste calculé ceci!
32
3. M Etape: Pour chaque k
gaussien, mettez à jour les
paramètres en utilisant un
nouveau
38

(znk )
Coefficient de mélange pour
k Gaussien :
Nombre total
de points
39
eg. 105.6/200
3. M Etape: Pour chaque k
gaussien, mettez à jour les
paramètres en utilisant un
nouveau

4. Évaluer la vraisemblance du journal. Si la
probabilité ou les paramètres convergent,
arrêtez. Sinon passez à l'étape 2 (étape E).
Likelihood est la probabilité que les données X aient été
générées par les paramètres que vous avez trouvés.
40

4. Évaluer la vraisemblance du journal. Si probabilité ou
1. Initialiser le paramètre  old
2. Etape E : Evaluer p(Z | X,old
)
3. Etape M : Evaluer :
Avec
les paramètres convergent, arrêtez.Si non old
et aller à l'étape E.
  new
Variables
observée
s
Variables
cachées
Likelihood
42
Algorithme EM Général

 K-means est un
classificateur
43
 Le mélange de
gaussiennes est
un modèle de
probabilité
 Nous pouvons
l'utiliser comme
un classificateur
«doux»
K-means vs Mélange Gaussien
Mélange GaussienK-means

 K-means est un
classificateur
44
 Le mélange de
gaussiennes est un
modèle de probabilité
 Nous pouvons l'utiliser
comme un classificateur
«doux»
 K-means est un
classificateur
dure

 K-means est un
classificateur
 Le mélange de
gaussiennes est un
modèle de probabilité
 Nous pouvons l'utiliser
comme un classificateur
«doux»
Paramètre à adapter aux
données :
• Moyenne k
• Covariance k
• Coefficient de mélange k
45
Paramètre à adapter aux
données:
•Moyenne k
 K-means est un
classificateur
dure

Relation avec K-means
• K-means prend des décisions difficiles.
 Chaque point de données est affecté à un seul cluster.
• GMM / EM prend des décisions en douceur.
 Chaque point de donnée peut donner un postérieur p(z|x)
Doux K-means est un cas particulier d’EM.
46

 K-means peut être formulé
comme EM
 EM pour les mélanges gaussiens
 EM pour les mélanges de
Bernoulli
 EM pour la régression linéaire
bayésienne
47
EM sous plusieurs formes

 Nous avons appris à regrouper des
données de manière non supervisée
 Les modèles de mélange gaussien sont
utiles pour modéliser des données
avec des affectations de grappes
«souples».
 La maximisation des attentes est une
méthode utilisée lorsque nous avons
un modèle avec des variables latentes
(valeurs que nous ne connaissons pas,
mais estimons à chaque étape)
48
Conclusion

melange de gaussienne

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à melange de gaussienne

Similaire à melange de gaussienne (20)

Plus de omri med

Plus de omri med (6)

Dernier

Dernier (13)

melange de gaussienne

Notes de l'éditeur