Laboratoire ERIC
Université Lumière Lyon 2
How CATS can help researchers collect and
analyze a corpus of tweets
Adrien Gui...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Laboratoire ERIC
Université Lumière Lyon 2
Page
How CATS can help researchers collect and analyze a corpus of tweets
Big D...
Prochain SlideShare
Chargement dans…5
×

How cats can help researchers collect and analyze a corpus of tweets

324 vues

Publié le

Présentation du projet CATS pour la collecte et l'analyse de corpus de tweets

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
324
Sur SlideShare
0
Issues des intégrations
0
Intégrations
8
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

How cats can help researchers collect and analyze a corpus of tweets

  1. 1. Laboratoire ERIC Université Lumière Lyon 2 How CATS can help researchers collect and analyze a corpus of tweets Adrien Guille*, Ciprian-Octavian Truică** & Michael Gauthier*** * Université Lyon 2 (ERIC) ** University Politehnica of Bucharest *** Université Lyon 2 (CRTT) Lyon, 18 juin 2015 Institut des Sciences de l’Homme Big Data Mining and Visualization  - Digital Humanities
  2. 2. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Pourquoi étudier Twitter ? • Un média social apprécié du grand public • Une source de données textuelles pour les chercheurs 2
  3. 3. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Pourquoi étudier Twitter ? • Données textuelles utiles dans divers domaines • Science du langage • Science politique • Médecine • etc. 3
  4. 4. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : motivation • Constats • Données inaccessibles par des non programmeurs • Méthodes avancées d’analyse textuelle inutilisables par des non spécialistes • CATS: Collection and Analysis of Tweets made Simple • Outil simple à utiliser (site web) • Implémentation robuste (données et calculs distribués - MongoDB) 4
  5. 5. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : motivation • Constats • Données inaccessibles par des non programmeurs • Méthodes avancées d’analyse textuelle inutilisables par des non spécialistes • CATS: Collection and Analysis of Tweets made Simple • Outil simple à utiliser (site web) • Implémentation robuste (données et calculs distribués - MongoDB) 4
  6. 6. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : collecter un corpus de tweets • Cibler les tweets : selon le contenu, la localisation ou l’auteur 5
  7. 7. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Filtrer le corpus : par dates, par mots-clés, selon le genre et l’âge 6
  8. 8. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Filtrer le corpus : par dates, par mots-clés, selon le genre et l’âge 7
  9. 9. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Explorer le corpus : vocabulaire 8
  10. 10. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Explorer le corpus : vocabulaire 9
  11. 11. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Explorer le corpus : tweets 10
  12. 12. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Explorer le corpus : tweets 11
  13. 13. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Fouiller le corpus : reconnaître les entités nommées (Finkel, Grenager & Manning 05) 12
  14. 14. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Fouiller le corpus : reconnaître les entités nommées (Finkel, Grenager & Manning 05) 13
  15. 15. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Fouiller le corpus : modéliser les thématiques latentes (Blei, Ng & Jordan 03) 14
  16. 16. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Fouiller le corpus : modéliser les thématiques latentes (Blei, Ng & Jordan 03) 15
  17. 17. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Fouiller le corpus : détecter et suivre les évènements (Guille & Favre 14, 15) 16
  18. 18. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : analyser un corpus de tweets • Fouiller le corpus : détecter et suivre les évènements (Guille & Favre 14, 15) 17
  19. 19. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : cas d’utilisation • Socio-linguistique : étudier la vulgarité (Gauthier, Guille, Rico & Deseille 15) • But : analyser la manière dont les hommes et les femmes emploient la vulgarité • Intérêt particulier pour les jeunes femmes en Grande-Bretagne • Constitution d’un corpus de tweets avec CATS • Collecte des tweets selon la localisation • Analyse du corpus de tweets collectés avec CATS • Filtrage du corpus de tweets selon le genre et l’âge 18 TEXT MINING AND TWITTER TO ANALYZE BRITISH SWEARING HABITS 5 Table 2 Basic corpus properties. Male Female Total # of users 10313 7747 18060 # of tweets 579864 381322 961186 0 1 2 3 ·105 [5; 11] [12; 18] [19; 30] [31; 45] [46; 60] [61; 99] Age Numberoftweets Men Women Figure 1. Distribution of the number of tweets per gender and age. showing that the interference of potential spam accounts pro- 0 0.2 0.4 fuck shit hell cunt piss titbloody dick bitchdam nbastard 0.1 0.2 0.3 0.4 Proportionoftweets Figure 3. Most common swear words found in swearing tweets published by male users. 0 0.1 0.2 0.3 0.4fuck shit hell itch piss ody am n dick titcrap cunt Proportionoftweets Age Figure 1. Distribution of the number of tweets per gender and age. showing that the interference of potential spam accounts pro- ducing a great number of tweets in a limited amount of time is very limited. Proportion of swearing tweets among women and men In our corpus, 5.8% of the male tweets contained at least one swear word, compared to 4.8% for women. Figures 3 and 4 present the proportion of tweets containing the eleven most common swear words for women and men. However, as percentages of this kind do not provide much information about the specific use of each word, we decided to normalize the frequency of each swear word on one million words for both women and men. The results are presented below in Table 3. 100 101 102 103 100 101 102 103 Number of tweets Numberofusers Figure 2. Distribution of the number of tweets per user on a log-log scale. 0 0 Proportion Figure publish Propo Tab words tioned and fem gender that th to e c men, w word t us an o values, whethe males more g In Tab women for me cance, fuck fo McEne of prof fucking
  20. 20. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : cas d’utilisation • Socio-linguistique : étudier la vulgarité (Gauthier, Guille, Rico & Deseille 15) • But : analyser la manière dont les hommes et les femmes emploient la vulgarité • Intérêt particulier pour les jeunes femmes en Grande-Bretagne • Analyse du corpus de tweets collectés avec CATS • Vocabulaire employé dans les tweets vulgaires 19 WITTER TO ANALYZE BRITISH SWEARING HABITS 5 6 61; 99] Men men 0 0.2 0.4 fuck shit hell cunt piss titbloody dick bitchdam nbastard 0.1 0.2 0.3 0.4 Proportionoftweets Figure 3. Most common swear words found in swearing tweets published by male users. 0.2 0.3 0.4 noftweets TEXT MINING AND TWITTER TO ANALYZE BRITISH SWEARING HABITS 5 Table 2 Basic corpus properties. Male Female Total # of users 10313 7747 18060 # of tweets 579864 381322 961186 0 1 2 3 ·105 [5; 11] [12; 18] [19; 30] [31; 45] [46; 60] [61; 99] Age Numberoftweets Men Women Figure 1. Distribution of the number of tweets per gender and age. showing that the interference of potential spam accounts pro- ducing a great number of tweets in a limited amount of time is very limited. Proportion of swearing tweets among women and men In our corpus, 5.8% of the male tweets contained at least one swear word, compared to 4.8% for women. Figures 3 and 4 present the proportion of tweets containing the eleven most common swear words for women and men. However, 0 0.2 0.4 fuck shit hell cunt piss titbloody dick bitchdam nbastard 0.1 0.2 0.3 0.4 Proportionoftweets Figure 3. Most common swear words found in swearing tweets published by male users. 0 0.1 0.2 0.3 0.4 fuck shit hellbitch pissbloodydam n dick titcrap cunt Proportionoftweets Figure 4. Most common swear words found in vulgar tweets published by female users. Proportion of vulgar tweets by gender per million words Table 3 presents the proportions of use of all the swear words we took into account for both genders. As we men-
  21. 21. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : cas d’utilisation • Socio-linguistique : étudier la vulgarité (Gauthier, Guille, Rico & Deseille 15) • But : analyser la manière dont les hommes et les femmes emploient la vulgarité • Intérêt particulier pour les jeunes femmes en Grande-Bretagne • Analyse du corpus de tweets collectés avec CATS • Distribution des types d’entités nommées au sein des tweets vulgaire, par genre et âge 20 TTER TO ANALYZE BRITISH SWEARING HABITS 7 00 Men onstitute med enti- n, users they get 0.2 0.4 0.6 0.8 Cm 12 18 Cm 19 30 Cm 31 45 Corpus Proportion Person Location Organization Figure 7. Distribution of the types of named entities in vulgar tweets published by men. 0.8 Person Location Organization TEXT MINING AND TWITTER TO ANALYZE BRITISH SWEARING HABITS 7 4 6 8 ·10 2 00:00 05:00 10:00 15:00 20:00 Time of day Vulgarityratio Women Men Figure 6. Cursing ratio versus time of day in Cm 12 18. rules based on features of the word sequences that constitute tweets. Table 4 reveals that on average, men use named enti- ties more than women. Also, for both women and men, users tend to mention named entities consistently more as they get older. Figures 7 and 8 present detailed proportions of named entities per gender and age group in swearing tweets. This shows that whatever their age, both women and men ma- joritarily mention named entities referring to people when swearing. However, what di↵ers is the fact that women from every age groups seem to favor locations over men, who pre- fer mentioning organizations. This method then highlights the fact that as far as swearing is concerned, context plays a big role, and that the pragmatic functions of swear words for women and men of the same age groups may di↵er. We sug- gest that these di↵erences may point at gendered di↵erences in the topics women and men focus on, at least when they swear. Table 4 Proportion of tweets that contain named entities. 0.2 0.4 0.6 0.8 Cm 12 18 Cm 19 30 Cm 31 45 Corpus Proportion Person Location Organization Figure 7. Distribution of the types of named entities in vulgar tweets published by men. 0.2 0.4 0.6 0.8 Cm 12 18 Cf 19 30 Cf 31 45 Corpus Proportion Person Location Organization Figure 8. Distribution of the types of named entities in vulgar tweets published by women. the event over users. Moreover, it is possible to analyze the tweets associated with these events, to understand their un-
  22. 22. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Le projet CATS : cas d’utilisation • Socio-linguistique : étudier la vulgarité (Gauthier, Guille, Rico & Deseille 15) • But : analyser la manière dont les hommes et les femmes emploient la vulgarité • Intérêt particulier pour les jeunes femmes en Grande-Bretagne • Analyse du corpus de tweets collectés avec CATS • Réaction aux évènements selon le genre 21 8 MICHAEL GAUTHIER, ADRIEN GUILLE, FABIEN RICO, ANTHONY DESEILLE 0 50 100 04-16 19:00 04-17 01:00 Time Numberoftweetsper30mn Women Men Figure 9. Evolution of the number of tweets containing #bbcdebate. Apart from spams, what the results from MABED re- veal is that generally speaking, male events could be sum- tative research would however be need that hypothesis. Limitations This study presents certain limits. T the way we categorized users accordin it has some advantages, it is not perfe have children before age 30, or will le 18, so the linguistic patterns potentiall social phenomena may di↵er. Anothe that we did not include hashtags in our methods, and hashtags often contain cu tially limiting our data in this regard. of the information provided in the desc in our sample reveals that many people students. Even if it sounds normal, as age group is the 19-30, there may exi category of users.
  23. 23. Laboratoire ERIC Université Lumière Lyon 2 Page How CATS can help researchers collect and analyze a corpus of tweets Big Data Mining and Visualization  - Digital Humanities Lyon - 18 juin 2015 Adrien Guille Merci pour votre attention • Bibliographie • S. Bird. NLTK: the natural language toolkit. Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), 2006 • D.  Blei, A.  Ng, and M.  Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, vol. 3, 2003 • J. R. Finkel, T. Grenager, and C. Manning. Incorporating non-local information into information extraction systems by Gibbs sampling. Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), 2005 • M. Gauthier, A. Guille, F. Rico and A. Deseille. Text Mining and Twitter to Analyze British Swearing Habits. In proceedings of the International Conference on using Twitter for Academic Research, 2015 • A. Guille and C. Favre. Mention-anomaly-based Event Detection. Proceedings of the IEEE/ACM International Conference on Advances in Social Network Analysis and Mining (ASONAM), 2014 • A. Guille and C. Favre. Event detection, tracking and visualization in Twitter: a mention-anomaly-based approach. Springer Social Network Analysis and Mining, vol. 5, iss. 1, 2015 • R. Řehůřek and P. Sojka. Software framework for topic modeling with large corpora. Proceedings of the Workshop on New Challenges for NLP Frameworks (LREC), 2010 • Pointeurs • CATS. http://mediamining.univ-lyon2.fr/cats ou bien chercher «CATS lyon2» sur Google • MongoDB. http://www.mongodb.org • Twitter. http://twitter.com 22

×