SlideShare une entreprise Scribd logo
1  sur  22
Télécharger pour lire hors ligne
TOPIC MODELING
APPLIQUÉ AUX FILS TWITTERS.
Alexis Perrier
Data & Software, Berklee College of Music, Boston
Data Science contributor
@alexip
@BerkleeOnline
@ODSC
Part I: Topic Modeling
Nature et application
Algos et Librairies
Part II: Projet: followers sur twitter
Methodes
Problemes
Viz
Sôrry pour les accents et anglicismes
Vue générale et rapide sur un large ensemble de
documents
Technique non-supervisée
1 document plusieurs topics
1 topic un ensemble de mots
La proportion des topics varie entre les documents
⇔
⇔
ANALYSE SÉMANTIQUE DE COLLECTIONS DE DOCUMENTS
Divers Corpus
Littérature
Journaux
Documents o ciels
Contenu en ligne
Réseaux sociaux, forums, ....
Couplé a des variables externes
Evolution dans le temps
Auteurs, locuteurs
ALGORITHMES
PRINCIPAUX ALGORITHMES
Approche vectorielle
Latent Semantic Analysis (LSA)
Approche probabiliste, Bayésienne
Latent Dirichlet Allocation (LDA)
Structural Topic Modeling (STM), pLSA, hLDA, ...
Approche Neural Networks
convnets, ...
LATENT SEMANTIC ANALYSIS - LSA
TF-IDF: Fréquence relative des mots => Vectorisation
Matrice document / fréquence des mots
Réduction de dimension
Décomposition en Valeur Singulière (SVD)
aka Latent Semantic Indexing (LSI)
LATENT DIRICHLET ALLOCATION
Un topic est une liste des probabilités des mots dans un
vocabulaire donné.
LDA: La distribution des topics suit une loi de Dirichlet.
K: Nombre de topics
: Nombre de topics par document
: Nombre de mots par topic
α
β
Details:
https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
Inférence bayésienne, Gibbs sampling, Chinese
restaurant process
LIBRAIRIES
LIBRAIRIES
Python libraries
- Topic Modelling for Humans
LDA Python library
R packages
a. lsa package
b. lda package
c. topicmodels package
d.
Java libraries: S-Space Package, MALLET
C/C++ libraries: lda-c, hlda c, ctm-c d, hdp
Gensim
stm package
LE PROJET
3 articles
Topic Modeling of twitter followers
Segmentation of Twitter Timelines via Topic Modeling
NLP Analysis of the 2015 presidential candidate
debates
ETAPES:
1. Construire le corpus
2. Appliquer les modeles
3. Interpreter => Perplexité!
CONSTRUIRE LE CORPUS
1. Obtenir les timelines des 700 followers de :
Un document correspond a une timeline
2. Vectoriser le document
bag-of-words
Timeline en anglais: lang = 'en' +
: tokenize, stopwords, stemming, POS
3. TF-IDF
Creer un dictionnaire de mots
Vectoriser les documents TF-IDF
Gensim, NLTK, Scikit, ....
@alexip
Twython
langid
NLTK
1) APPLIQUER LSA
Résultats pour le moins di ciles a interpreter
2) APPLIQUER LDA
Franchement mieux
u'0.055*app + 0.045*team + 0.043*contact + 0.043*idea + 0.029*quote + 0.022*free
u'0.033*socialmedia + 0.022*python + 0.015*collaborative + 0.014*economy + 0.010*
u'0.053*week + 0.041*followers + 0.033*community + 0.030*insight + 0.010*follow +
u'0.014*thx + 0.010*event + 0.008*app + 0.007*travel + 0.006*social + 0.006*check
u'0.044*docker + 0.036*prodmgmt + 0.029*product + 0.018*productmanagement + 0.017
u'0.089*love + 0.035*john + 0.026*update + 0.022*heart + 0.015*peace + 0.014*beau
u'0.033*geek + 0.009*architecture + 0.007*code + 0.007*products + 0.007*parts + 0
u'0.049*stories + 0.046*network + 0.044*virginia + 0.044*entrepreneur + 0.039*etm
u'0.056*slots + 0.053*bonus + 0.052*fsiug + 0.039*casino + 0.031*slot + 0.024*onl
u'0.056*video + 0.043*add + 0.042*message + 0.032*blog + 0.027*posts + 0.027*medi
Quels sont les topics?
Combien de topics?
BACK TO THE CORPUS
Nettoyage des documents
Completer la liste des stopwords a la main
Identi er les anomalies: Robots, retweets, hastag, ...
Ne garder que les ls qui ont twitté récemment.
245 timelines
Visualization - LDAvis
3) STRUCTURAL TOPIC MODELING
NLP: Tokenization, stemming, stop-words, ...
Nommer les topics: plusieurs groupes de mots par
topic exclusivité, fréquence
Nombre de topic optimum: grid search + scoring
In uence des variables externes
STM: PRESIDENTIAL DEBATES
Primaires US
6 debats: 2 democrates, 4 republicains
1 document = un intervenant pendant un debat
Visualization - stmBrowser
MERCI
@alexip
Slides: alexperrier.github.io
alexis.perrier@gmail.com
Code & Data & Viz:
- https://github.com/alexperrier/datatalks/tree/master/twitter
- https://github.com/alexperrier/datatalks/tree/master/debates
- http://nbviewer.jupyter.org/github/alexperrier/datatalks/blob/master/twitter/LD
- http://alexperrier.github.io/stm-visualization/index.html
Ref:
- topic modeling http://thesai.org/Downloads/Volume6No1/Paper_21-A_Survey_of_Topi
- lda: http://ai.stanford.edu/~ang/papers/nips01-lda.pdf
- pyLDAvis: https://github.com/bmabey/pyLDAvis
- stm: http://scholar.princeton.edu/files/bstewart/files/stmnips2013.pdf
- stm R: http://structuraltopicmodel.com/
- stmBrowser: https://github.com/mroberts/stmBrowser

Contenu connexe

En vedette

Rob Nelson - Ideology and algorithms: the uses of nationalism in the American...
Rob Nelson - Ideology and algorithms: the uses of nationalism in the American...Rob Nelson - Ideology and algorithms: the uses of nationalism in the American...
Rob Nelson - Ideology and algorithms: the uses of nationalism in the American...Digital History
 
Using ls as in class 2015
Using ls as in class 2015Using ls as in class 2015
Using ls as in class 2015MrsMcGinty
 
StreamGrid: Summarization of large-scale Events using Topic Modeling and Temp...
StreamGrid: Summarization of large-scale Events using Topic Modeling and Temp...StreamGrid: Summarization of large-scale Events using Topic Modeling and Temp...
StreamGrid: Summarization of large-scale Events using Topic Modeling and Temp...Symeon Papadopoulos
 
Fabrikatyr lda topic modelling practical application
Fabrikatyr lda topic modelling practical applicationFabrikatyr lda topic modelling practical application
Fabrikatyr lda topic modelling practical applicationTim Carnus
 
Lifelong Topic Modelling presentation
Lifelong Topic Modelling presentation Lifelong Topic Modelling presentation
Lifelong Topic Modelling presentation Daniele Di Mitri
 
Topic Modelling to identify behavioral trends in online communities
Topic Modelling to identify behavioral trends in online communities Topic Modelling to identify behavioral trends in online communities
Topic Modelling to identify behavioral trends in online communities Conor Duke
 
Large data with Scikit-learn - Boston Data Mining Meetup - Alex Perrier
Large data with Scikit-learn - Boston Data Mining Meetup  - Alex PerrierLarge data with Scikit-learn - Boston Data Mining Meetup  - Alex Perrier
Large data with Scikit-learn - Boston Data Mining Meetup - Alex PerrierAlexis Perrier
 
Avito recsys-challenge-2016RecSys Challenge 2016: Job Recommendation Based on...
Avito recsys-challenge-2016RecSys Challenge 2016: Job Recommendation Based on...Avito recsys-challenge-2016RecSys Challenge 2016: Job Recommendation Based on...
Avito recsys-challenge-2016RecSys Challenge 2016: Job Recommendation Based on...Vasily Leksin
 
Word2Vec: Vector presentation of words - Mohammad Mahdavi
Word2Vec: Vector presentation of words - Mohammad MahdaviWord2Vec: Vector presentation of words - Mohammad Mahdavi
Word2Vec: Vector presentation of words - Mohammad Mahdaviirpycon
 
Adaptive pre-processing for streaming data
Adaptive pre-processing for streaming dataAdaptive pre-processing for streaming data
Adaptive pre-processing for streaming dataLARCA UPC
 
Presentation of OpenNLP
Presentation of OpenNLPPresentation of OpenNLP
Presentation of OpenNLPRobert Viseur
 
How to use Latent Semantic Analysis to Glean Real Insight - Franco Amalfi
How to use Latent Semantic Analysis to Glean Real Insight - Franco AmalfiHow to use Latent Semantic Analysis to Glean Real Insight - Franco Amalfi
How to use Latent Semantic Analysis to Glean Real Insight - Franco AmalfiSocial Media Camp
 
Latent Semantic Indexing and Analysis
Latent Semantic Indexing and AnalysisLatent Semantic Indexing and Analysis
Latent Semantic Indexing and AnalysisMercy Livingstone
 
Latent Semantic Indexing For Information Retrieval
Latent Semantic Indexing For Information RetrievalLatent Semantic Indexing For Information Retrieval
Latent Semantic Indexing For Information RetrievalSudarsun Santhiappan
 
Smai Project: Topic Modelling
Smai Project: Topic ModellingSmai Project: Topic Modelling
Smai Project: Topic ModellingMohit Sharma
 
Database - Entity Relationship Diagram (ERD)
Database - Entity Relationship Diagram (ERD)Database - Entity Relationship Diagram (ERD)
Database - Entity Relationship Diagram (ERD)Mudasir Qazi
 

En vedette (20)

Rob Nelson - Ideology and algorithms: the uses of nationalism in the American...
Rob Nelson - Ideology and algorithms: the uses of nationalism in the American...Rob Nelson - Ideology and algorithms: the uses of nationalism in the American...
Rob Nelson - Ideology and algorithms: the uses of nationalism in the American...
 
SocialLda
SocialLda SocialLda
SocialLda
 
Using ls as in class 2015
Using ls as in class 2015Using ls as in class 2015
Using ls as in class 2015
 
StreamGrid: Summarization of large-scale Events using Topic Modeling and Temp...
StreamGrid: Summarization of large-scale Events using Topic Modeling and Temp...StreamGrid: Summarization of large-scale Events using Topic Modeling and Temp...
StreamGrid: Summarization of large-scale Events using Topic Modeling and Temp...
 
Fabrikatyr lda topic modelling practical application
Fabrikatyr lda topic modelling practical applicationFabrikatyr lda topic modelling practical application
Fabrikatyr lda topic modelling practical application
 
Lifelong Topic Modelling presentation
Lifelong Topic Modelling presentation Lifelong Topic Modelling presentation
Lifelong Topic Modelling presentation
 
Topic Modelling to identify behavioral trends in online communities
Topic Modelling to identify behavioral trends in online communities Topic Modelling to identify behavioral trends in online communities
Topic Modelling to identify behavioral trends in online communities
 
Large data with Scikit-learn - Boston Data Mining Meetup - Alex Perrier
Large data with Scikit-learn - Boston Data Mining Meetup  - Alex PerrierLarge data with Scikit-learn - Boston Data Mining Meetup  - Alex Perrier
Large data with Scikit-learn - Boston Data Mining Meetup - Alex Perrier
 
Avito recsys-challenge-2016RecSys Challenge 2016: Job Recommendation Based on...
Avito recsys-challenge-2016RecSys Challenge 2016: Job Recommendation Based on...Avito recsys-challenge-2016RecSys Challenge 2016: Job Recommendation Based on...
Avito recsys-challenge-2016RecSys Challenge 2016: Job Recommendation Based on...
 
Word2Vec: Vector presentation of words - Mohammad Mahdavi
Word2Vec: Vector presentation of words - Mohammad MahdaviWord2Vec: Vector presentation of words - Mohammad Mahdavi
Word2Vec: Vector presentation of words - Mohammad Mahdavi
 
Adaptive pre-processing for streaming data
Adaptive pre-processing for streaming dataAdaptive pre-processing for streaming data
Adaptive pre-processing for streaming data
 
Presentation of OpenNLP
Presentation of OpenNLPPresentation of OpenNLP
Presentation of OpenNLP
 
How to use Latent Semantic Analysis to Glean Real Insight - Franco Amalfi
How to use Latent Semantic Analysis to Glean Real Insight - Franco AmalfiHow to use Latent Semantic Analysis to Glean Real Insight - Franco Amalfi
How to use Latent Semantic Analysis to Glean Real Insight - Franco Amalfi
 
NLP and LSA getting started
NLP and LSA getting startedNLP and LSA getting started
NLP and LSA getting started
 
Rails Best Practices
Rails Best PracticesRails Best Practices
Rails Best Practices
 
Latent Semantic Indexing and Analysis
Latent Semantic Indexing and AnalysisLatent Semantic Indexing and Analysis
Latent Semantic Indexing and Analysis
 
Latent Semantic Indexing For Information Retrieval
Latent Semantic Indexing For Information RetrievalLatent Semantic Indexing For Information Retrieval
Latent Semantic Indexing For Information Retrieval
 
Smai Project: Topic Modelling
Smai Project: Topic ModellingSmai Project: Topic Modelling
Smai Project: Topic Modelling
 
LSA algorithm
LSA algorithmLSA algorithm
LSA algorithm
 
Database - Entity Relationship Diagram (ERD)
Database - Entity Relationship Diagram (ERD)Database - Entity Relationship Diagram (ERD)
Database - Entity Relationship Diagram (ERD)
 

Similaire à Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Perrier

Lyon JUG - Elasticsearch
Lyon JUG - ElasticsearchLyon JUG - Elasticsearch
Lyon JUG - ElasticsearchDavid Pilato
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantiqueGautier Poupeau
 
Tunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriTunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriAymen ZAAFOURI
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le webQuentin Adam
 
Marseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France LabsMarseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France Labsfrancelabs
 
Microservices-DDD-Telosys-Devoxx-FR-2022
Microservices-DDD-Telosys-Devoxx-FR-2022Microservices-DDD-Telosys-Devoxx-FR-2022
Microservices-DDD-Telosys-Devoxx-FR-2022Laurent Guérin
 
le web sémantique : un web de métadonnées
le web sémantique : un web de métadonnéesle web sémantique : un web de métadonnées
le web sémantique : un web de métadonnéesABES
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendMarc Dutoo
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?Cap'Com
 
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...Antidot
 
Geneva jug Lucene Solr
Geneva jug Lucene Solr Geneva jug Lucene Solr
Geneva jug Lucene Solr francelabs
 
Presentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUGPresentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUGfrancelabs
 
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014francelabs
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02ABES
 
Soutenance Essilor - Master PIC
Soutenance Essilor - Master PICSoutenance Essilor - Master PIC
Soutenance Essilor - Master PICDavid Nowinsky
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAADBSAquidoc
 

Similaire à Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Perrier (20)

Lyon JUG - Elasticsearch
Lyon JUG - ElasticsearchLyon JUG - Elasticsearch
Lyon JUG - Elasticsearch
 
Web 2.0 : Blogs, RSS & Wikis
Web 2.0 : Blogs, RSS & WikisWeb 2.0 : Blogs, RSS & Wikis
Web 2.0 : Blogs, RSS & Wikis
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantique
 
Tunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriTunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouri
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le web
 
Adbs2012 presentation
Adbs2012 presentationAdbs2012 presentation
Adbs2012 presentation
 
Marseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France LabsMarseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France Labs
 
Microservices-DDD-Telosys-Devoxx-FR-2022
Microservices-DDD-Telosys-Devoxx-FR-2022Microservices-DDD-Telosys-Devoxx-FR-2022
Microservices-DDD-Telosys-Devoxx-FR-2022
 
le web sémantique : un web de métadonnées
le web sémantique : un web de métadonnéesle web sémantique : un web de métadonnées
le web sémantique : un web de métadonnées
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & Talend
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?
 
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
 
Geneva jug Lucene Solr
Geneva jug Lucene Solr Geneva jug Lucene Solr
Geneva jug Lucene Solr
 
Presentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUGPresentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUG
 
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
Semantic web introduction
Semantic web introductionSemantic web introduction
Semantic web introduction
 
Soutenance Essilor - Master PIC
Soutenance Essilor - Master PICSoutenance Essilor - Master PIC
Soutenance Essilor - Master PIC
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIA
 

Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Perrier

  • 1. TOPIC MODELING APPLIQUÉ AUX FILS TWITTERS. Alexis Perrier Data & Software, Berklee College of Music, Boston Data Science contributor @alexip @BerkleeOnline @ODSC
  • 2. Part I: Topic Modeling Nature et application Algos et Librairies Part II: Projet: followers sur twitter Methodes Problemes Viz
  • 3. Sôrry pour les accents et anglicismes
  • 4. Vue générale et rapide sur un large ensemble de documents Technique non-supervisée 1 document plusieurs topics 1 topic un ensemble de mots La proportion des topics varie entre les documents ⇔ ⇔
  • 5. ANALYSE SÉMANTIQUE DE COLLECTIONS DE DOCUMENTS Divers Corpus Littérature Journaux Documents o ciels Contenu en ligne Réseaux sociaux, forums, .... Couplé a des variables externes Evolution dans le temps Auteurs, locuteurs
  • 7. PRINCIPAUX ALGORITHMES Approche vectorielle Latent Semantic Analysis (LSA) Approche probabiliste, Bayésienne Latent Dirichlet Allocation (LDA) Structural Topic Modeling (STM), pLSA, hLDA, ... Approche Neural Networks convnets, ...
  • 8. LATENT SEMANTIC ANALYSIS - LSA TF-IDF: Fréquence relative des mots => Vectorisation Matrice document / fréquence des mots Réduction de dimension Décomposition en Valeur Singulière (SVD) aka Latent Semantic Indexing (LSI)
  • 9. LATENT DIRICHLET ALLOCATION Un topic est une liste des probabilités des mots dans un vocabulaire donné. LDA: La distribution des topics suit une loi de Dirichlet. K: Nombre de topics : Nombre de topics par document : Nombre de mots par topic α β Details: https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation Inférence bayésienne, Gibbs sampling, Chinese restaurant process
  • 11. LIBRAIRIES Python libraries - Topic Modelling for Humans LDA Python library R packages a. lsa package b. lda package c. topicmodels package d. Java libraries: S-Space Package, MALLET C/C++ libraries: lda-c, hlda c, ctm-c d, hdp Gensim stm package
  • 12. LE PROJET 3 articles Topic Modeling of twitter followers Segmentation of Twitter Timelines via Topic Modeling NLP Analysis of the 2015 presidential candidate debates
  • 13. ETAPES: 1. Construire le corpus 2. Appliquer les modeles 3. Interpreter => Perplexité!
  • 14. CONSTRUIRE LE CORPUS 1. Obtenir les timelines des 700 followers de : Un document correspond a une timeline 2. Vectoriser le document bag-of-words Timeline en anglais: lang = 'en' + : tokenize, stopwords, stemming, POS 3. TF-IDF Creer un dictionnaire de mots Vectoriser les documents TF-IDF Gensim, NLTK, Scikit, .... @alexip Twython langid NLTK
  • 15. 1) APPLIQUER LSA Résultats pour le moins di ciles a interpreter
  • 16. 2) APPLIQUER LDA Franchement mieux u'0.055*app + 0.045*team + 0.043*contact + 0.043*idea + 0.029*quote + 0.022*free u'0.033*socialmedia + 0.022*python + 0.015*collaborative + 0.014*economy + 0.010* u'0.053*week + 0.041*followers + 0.033*community + 0.030*insight + 0.010*follow + u'0.014*thx + 0.010*event + 0.008*app + 0.007*travel + 0.006*social + 0.006*check u'0.044*docker + 0.036*prodmgmt + 0.029*product + 0.018*productmanagement + 0.017 u'0.089*love + 0.035*john + 0.026*update + 0.022*heart + 0.015*peace + 0.014*beau u'0.033*geek + 0.009*architecture + 0.007*code + 0.007*products + 0.007*parts + 0 u'0.049*stories + 0.046*network + 0.044*virginia + 0.044*entrepreneur + 0.039*etm u'0.056*slots + 0.053*bonus + 0.052*fsiug + 0.039*casino + 0.031*slot + 0.024*onl u'0.056*video + 0.043*add + 0.042*message + 0.032*blog + 0.027*posts + 0.027*medi Quels sont les topics? Combien de topics?
  • 17. BACK TO THE CORPUS Nettoyage des documents Completer la liste des stopwords a la main Identi er les anomalies: Robots, retweets, hastag, ... Ne garder que les ls qui ont twitté récemment. 245 timelines Visualization - LDAvis
  • 18. 3) STRUCTURAL TOPIC MODELING NLP: Tokenization, stemming, stop-words, ... Nommer les topics: plusieurs groupes de mots par topic exclusivité, fréquence Nombre de topic optimum: grid search + scoring In uence des variables externes
  • 19.
  • 20. STM: PRESIDENTIAL DEBATES Primaires US 6 debats: 2 democrates, 4 republicains 1 document = un intervenant pendant un debat Visualization - stmBrowser
  • 22. Code & Data & Viz: - https://github.com/alexperrier/datatalks/tree/master/twitter - https://github.com/alexperrier/datatalks/tree/master/debates - http://nbviewer.jupyter.org/github/alexperrier/datatalks/blob/master/twitter/LD - http://alexperrier.github.io/stm-visualization/index.html Ref: - topic modeling http://thesai.org/Downloads/Volume6No1/Paper_21-A_Survey_of_Topi - lda: http://ai.stanford.edu/~ang/papers/nips01-lda.pdf - pyLDAvis: https://github.com/bmabey/pyLDAvis - stm: http://scholar.princeton.edu/files/bstewart/files/stmnips2013.pdf - stm R: http://structuraltopicmodel.com/ - stmBrowser: https://github.com/mroberts/stmBrowser