Mémoire de fin d’études : Master II Big Data et fouille de données
1. Vers une nouvelle approche pour la cat´egorisation
s´emantique du corpus persan
Kam´elia MASTANI GAREKANI
Sous la direction de : Gilles BERNARD et
Jean-Jacques MARIAGE
30 juillet 2018
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 1 / 27
2. Plan
1 Introduction
2 probl´ematique
3 ´Etat de l’art
4 Syst`eme
5 Conclusion
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 2 / 27
3. Introduction
Ma mission principale
choisir une m´ethode qui associe `a chaque mot un vecteur de
caract´eristiques de taille raisonnable.
SOM
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 3 / 27
5. Introduction
Alphabet du persan
Les diff´erents corpus de la
langue perse
1 [BijanKhan 2004]
2 Tanzil Quran 2007
3 Peykare
[Mahmood Bijankhan 2011]
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 5 / 27
6. probl´ematique
ambigu¨ıt´e
1 la note est bonne
2 J’ai consult´e le sp´ecialiste des dents et J’ai consult´e le
dentiste.
probl´ematique de la langue perse
FIGURE – Le manuscrit persan
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 6 / 27
7. probl´ematique
Mot commun entre l’oppos´e et la pr´eposition
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 7 / 27
8. probl´ematique
Probl`emes des mots homographes
Il n’y a pas d’ontologie en persan
Dans cas de [Khosravi 2007] l’ontologie sera bas´ee sur un
th´esaurus pr´ec´edent, nomm´e ASFA
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 8 / 27
10. ´Etat de l’art
Les mod`eles de repr´esentation vectorielle des mots
1 Hypoth`ese distributionnelle [Harris 1954]
2 Les Mod`eles vectoriels ou d’espaces s´emantiques [Firth 1957]
3 La matrice des co-occurrences
4 Term Frequency-Inverse Document Frequency
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 10 / 27
11. ´Etat de l’art
Les m´ethodes statistiques pour factorisation de ma-
trices sans l’apprentissage
1 Eckart et Young d`es 1936 :Latent Semantic Analysis (LSA)
2 H. Hotelling 1933 :Analyse en Composantes Principales (ACP)
3 kevin lund 1996 : Hyperspace Analogue To Language (HAL)
Les m´ethodes pour factorisation de matrices avec
l’apprentissage
1 Word Embedding
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 11 / 27
12. ´Etat de l’art
Les nouvelles m´ethodes de repr´esentation des mots
FIGURE – L’approche Word2vec [Tomas Mikolov 2013]
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 12 / 27
13. ´Etat de l’art
Travaux ant´erieurs
Gilles Bernard et Jean-Jacques Mariage 2004 :Contexte de
marqueurs grammaticaux [G.Bernard 2004]
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 13 / 27
14. Syst`eme
Les outils et concepts
Word2vec
Wikiextractor
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 14 / 27
15. Syst`eme
Mon travail
FIGURE – Sch´ema des ´etapes suivis dans le projet
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 15 / 27
16. Syst`eme
Construction d’une base de donn´ees `a partir de mon
corpus
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 16 / 27
17. Syst`eme
La premi`ere m´ethode pour la construction de la table
vecteur
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 17 / 27
18. Syst`eme
La deuxi`eme m´ethode pour la construction de la table
vecteur
Exemple : Je vais bien. Je ne vais pas bien
Map < id, List < paire < id, val >>>
< je, List (vais, 1), (ne, 1) >
< vais, List (bien, 1), (pas, 1) >
< bien, List >
< ne, List (vais, 1) >
< pas, List (bien, 1) >
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 18 / 27
19. Syst`eme
La deuxi`eme m´ethode pour la construction de la table
vecteur
FIGURE – Matrice
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 19 / 27
20. Syst`eme
La table vecteur en utilisant la deuxi`eme m´ethode
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 20 / 27
21. Syst`eme
Cr´eation du fichier des vecteurs
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 21 / 27
22. Syst`eme
Classification par un SOM [T.Kohonen 2009]
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 22 / 27
23. Syst`eme
R´esultat de la visualisation
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 23 / 27
24. Syst`eme
R´esultat de la visualisation
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 24 / 27
25. Syst`eme
R´esultat de la visualisation avec la m´ethode de word2vect
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 25 / 27
27. Questions
Merci pour votre attention.
Avez-vous des questions ?
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 27 / 27
28. References I
BijanKhan.
The role of the corpus in writing a grammar : An introduction to a
software.
2004.
J. R. Firth.
A synopsis of linguistic theory 1930– 1955. In Studies in Linguistic
Analysis. Philological Society. Reprinted in Palmer, F. (ed.) 1968.
Selected Papers of J. R. Firth. Longman, Harlow.
1957.
G.Bernard et JJ.Mariage.
Cat´egorisation de patrons syntaxiques par Self-Organizing.
2004.
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 28 / 27
29. References II
Z. S. Harris.
Distributional structure. Word, 10, 146–162. Reprinted in J. Fodor
and J. Katz, The Structure of Language, Prentice Hall, 1964 and in
Z. S. Harris, Papers in Structural and Transformational Linguistics,
Reidel, 1970, 775–794.
1954.
Mohammad Bahrani3 Masood Ghayoomi
Mahmood Bijankhan Javad Sheykhzadegan.
Lessons from Building a Persian Written Corpus : Peykare.
2011.
T.Honkela T.Kohonen M.Polla.
Bibliography of Self-organizing map (SOM).
Helsinki University of Technologie ,Papers :2002–2005, 2009.
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 29 / 27
30. References III
Greg Corrado Jeffrey Dean Tomas Mikolov Kai Chen.
Efficient Estimation of Word Representations in Vector Space.
http://arxiv.org/pdf/1301.3781.pdf, 2013.
Kam´elia. MASTANI GAREKANI (IED) Universit´e paris 8 30 juillet 2018 30 / 27