Dans cette presentation je montre comment appliquer des techniques de topic modeling a un fil twitter en utilisant gensim, python et en comparant certains algorithmes: LSA, LSA ...
4. Vue générale et rapide sur un large ensemble de
documents
Technique non-supervisée
1 document plusieurs topics
1 topic un ensemble de mots
La proportion des topics varie entre les documents
⇔
⇔
9. LATENT DIRICHLET ALLOCATION
Un topic est une liste des probabilités des mots dans un
vocabulaire donné.
LDA: La distribution des topics suit une loi de Dirichlet.
K: Nombre de topics
: Nombre de topics par document
: Nombre de mots par topic
α
β
Details:
https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
Inférence bayésienne, Gibbs sampling, Chinese
restaurant process
11. LIBRAIRIES
Python libraries
- Topic Modelling for Humans
LDA Python library
R packages
a. lsa package
b. lda package
c. topicmodels package
d.
Java libraries: S-Space Package, MALLET
C/C++ libraries: lda-c, hlda c, ctm-c d, hdp
Gensim
stm package
12. LE PROJET
3 articles
Topic Modeling of twitter followers
Segmentation of Twitter Timelines via Topic Modeling
NLP Analysis of the 2015 presidential candidate
debates
14. CONSTRUIRE LE CORPUS
1. Obtenir les timelines des 700 followers de :
Un document correspond a une timeline
2. Vectoriser le document
bag-of-words
Timeline en anglais: lang = 'en' +
: tokenize, stopwords, stemming, POS
3. TF-IDF
Creer un dictionnaire de mots
Vectoriser les documents TF-IDF
Gensim, NLTK, Scikit, ....
@alexip
Twython
langid
NLTK
17. BACK TO THE CORPUS
Nettoyage des documents
Completer la liste des stopwords a la main
Identi er les anomalies: Robots, retweets, hastag, ...
Ne garder que les ls qui ont twitté récemment.
245 timelines
Visualization - LDAvis
18. 3) STRUCTURAL TOPIC MODELING
NLP: Tokenization, stemming, stop-words, ...
Nommer les topics: plusieurs groupes de mots par
topic exclusivité, fréquence
Nombre de topic optimum: grid search + scoring
In uence des variables externes