Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
projetImageMining.pptx
1.
2. C3
C2
C4
C1
mot 1
mot 2
…. ..
mot 1
mot 2
…. ..
Phase entrainment
II- Modèle ¨Word Cooccurrence¨
mot 1
mot 2
…. ..
Images labelisés
1) Deviser les images en
blocs égaux
2) Héritage des mots
mot 1
mot 2
…. ..
mot 1
mot 2
…. ..
mot 1
mot 2
…. ..
mot 1
mot 2
…. ..
mot 1
mot 2
…. ..
mot 1
mot 2
…. ..
mot 1
mot 2
…. ..
mot 1
mot 2
…. ..
mot 1
mot 2
…. ..
3) Extraction des
caractéristiques
et clustering
Des mots
Des mots
Des mots
Des mots
P(w|c1)
mots
P(w|c2)
mots
P(w|c4)
mots
P(w|c3)
mots
4) Histogramme de mots
par cluster (Visual Word)
¨ Vector Quantization ¨
3. Quantification vectorielle (¨ Vector Quantization ¨)
II- Modèle ¨Word Cooccurrence¨
1) Compression des donnés
• Espace vectorielle
Multidimentiel de
dimension n
• Sous espace
vectorielle de
dimension k
Avec k < n
2- Algorithme de clustering
- Regroupement des vecteurs similaires dans des clusters (Visual Words)
- Chaque cluster est représenté par un vecteur appelé le centre de
cluster
4. II- Modèle ¨Word Cooccurrence¨
C2 C1 C3
C1
C1 C4
C2 C2
C3
P(w|c1)
mots
….
P(w|c1)
mots
….
P(w|c2)
mots
….
P(w|c3)
mots
….
Σ( )
=
P(w | I)
mots
….
Image I
Mots ayant la grande
probabilité :
- pétale
- feuille
- jaune
Phase de validation
5. Agorithme Word Co-occurence :
1) On considére les images du training set (I1, I2,……. In) ,Chaque image est pré-
annoté avec un ensemble de mots sémantique Wi .
(I,W)={(I1,W1), (I2,W2) ,………, (In,Wn),}
2) On devise les images d’entrainement en des petits bloc et chaque bloc hérite tous
les annotations de l’image parente
3)On fait le clustering de tous les blocs (vecterus caractéristiques),Chaque cluster est
representé par son centre (vecteur):
C=(c1, c2,…… ,cv )=(x1, x2,……….,xv)
II- Modèle ¨Word Cooccurrence¨
6. Algorithme Word Co-occurence (suite):
4) Obtenir un histogramme qui calcule la distribution des mots dans chaque
cluster P(wi|Cj)
5) on applique le theorem de Bayes:
Avec : mji = nombre d’occurrences de mot i dans le cluster j .
et Mj=nombre de mot total dans le cluster j .
II- Modèle ¨Word Cooccurrence¨
7. Algorithme Word Co-occurence (fin):
6) Pour une nouvelle image , on fait le meme processus :
On devise l’image requête en plusieurs bloc égaux , et pour chaque bloc , on cherche
le cluster le plus proche ,par suite on somme Tous les histogrammes des clusters
trouvés .
7) Les mots ayant les plus grands fréquences sont sélectionnés.
II- Modèle ¨Word Cooccurrence¨
8. (*)Soit un dataset entrainé d’images labilisés : (I, w)={(I1, ω1), (I2, ω2) ,……, (In, ωn)}
Avec w=(w1, w2,…….., wm) le vocubulaire du mot semantic (m mots)
(*)Tous les images (blocs d’images) sont clusterés en v clusters ou v ¨Visual Words¨
Donc L’association d’une nouvelle image a un mot peut etre trouvée en calculant
La probabilité conjointe du p(w|I) :
p(w|I) = p(wd,I) = p(wd|c) x p(c,I) c variable latente
(1) (2)
III- Modèle annotation avec la probabilité conjointe
9. Calcul de p(w|c) x p(c,I) :
1) p(c|I)
une image a annoter est un histogramme de visual words (clusters) ou VWs.
donc p(ci | I)= (X1, X2,…….,Xv)
avec Xi : fréquencett de VW xi(ci) dans l’image I
2)p(w|c)
Chaque cluster est sous la forme d’un histogramme de semantic mots .
donc p(wj | ci) = (W1, W2,…….,Wm)
avec WJ : fréquencett de mot sémantic wJ dans le I (ci)
III- Modèle annotation avec la probabilité conjointe
10. Comparaison entre WCC et probabilité conjointe
WCC:
probabilité conjointe :
p(wj|I)= p(wj,I) = p(w1,w2,……..,wm| Ɪ )= p(wj|ci) x p(ci,I)
III- Modèle annotation avec la probabilité conjointe