Atelier sur le moissonnage de données (ou data scraping) appliqué à la recherche en sciences sociales et en communication donné au LabCMO le 9 février 2019.
2. 8 février 2019 - Jean-Hugues Roy
1. Exercice avec Google Sheets
2. API WTF
3. Scraping web
4. Selenium
5. Analyse de données
6. Analyse de textes
7. Pour en savoir plus
8. Période de questions
Moisson de données
3. 8 février 2019 - Jean-Hugues Roy
Google Sheets
Fonctions uniques
N’existent pas dans OO,LO,Excel,Numbers
=IMPORTHTML
4. 8 février 2019 - Jean-Hugues Roy
L’univers numérique est en fait
constitué d’une multitude de
bases de données
API
Interface de programmation
Application programming interface
Interface pourhumains
5. 8 février 2019 - Jean-Hugues Roy
API
Interface de programmation
Application programming interface
Interface pourordinateurs
6. 8 février 2019 - Jean-Hugues Roy
API
Interface de programmation
Application programming interface
Interface pourordinateurs
REST API
.json
10. 8 février 2019 - Jean-Hugues Roy
TwitterAPI
D’abord, se créer une «app»
11. 8 février 2019 - Jean-Hugues Roy
Twitter
Utiliser plusieurs mots/expressions
API
D’abord, se créer une «app»
Intégrer les permissions dans
un script. api-twitter.py
Répéter recherches avec «cron»
Enr. résultats dans base de données
Mais il y a des limites…
12. 8 février 2019 - Jean-Hugues Roy
Twitter
Utiliser plusieurs mots/expressions
API
D’abord, se créer une «app»
Intégrer les permissions dans
un script. api-twitter.py
Répéter recherches avec «cron»
Enr. résultats dans base de données
Mais il y a des limites…
13. 8 février 2019 - Jean-Hugues Roy
Scraping
+
Python BeautifulSoup
14. 8 février 2019 - Jean-Hugues Roy
Objectif :
Ramasser le texte de toutes les lois du
Québec en français et en anglais
Scraping
Exemple 1
1re étape :
Recueillir les URLs des lois
lois01.py
15. 8 février 2019 - Jean-Hugues Roy
2e étape :
Télécharger les 1042 lois (521 dans
chaque langue)
Scraping
Exemple 1
Fichiers HTML (pas PDF 💩) lois02.py
tutoriel
16. 8 février 2019 - Jean-Hugues Roy
Conseils :
Scraping
Examinez les URL
17. 8 février 2019 - Jean-Hugues Roy
Conseils :
Scraping
Examinez les URL
18. 8 février 2019 - Jean-Hugues Roy
Conseils :
Dans le code HTML,
examinez les balises <meta>
Scraping
19. 8 février 2019 - Jean-Hugues Roy
Conseils :
Dans le code HTML,
examinez le contenu
de certains scripts
Scraping
21. 8 février 2019 - Jean-Hugues Roy
Difficultés :
Et on fait quoi quand ce qu’on cherche
du contenu issu du « deep web »?
Scraping
22. 8 février 2019 - Jean-Hugues Roy
Scraping avec Selenium
md.py
bachir.py
23. 8 février 2019 - Jean-Hugues Roy
Analyse de données
chercheuse.eur.s
24. 8 février 2019 - Jean-Hugues Roy
Analyse de données
Dans la section Lignes, vous cliquez d’abord sur «Ajouter un champ» et vous
sélectionnez la variable selon laquelle vous souhaitez effectuer votre
regroupement.
25. 8 février 2019 - Jean-Hugues Roy
Analyse de données
wc dans Terminal
29. 8 février 2019 - Jean-Hugues Roy
Analyse de données
jupyter
notebook
30. 8 février 2019 - Jean-Hugues Roy
Traitement du langage naturel
Analyse de textes
nltk
Trois opérations :
• Tokenization
• Traitement des mots-vides
• Lemmatisation
31. 8 février 2019 - Jean-Hugues Roy
Topic modeling
Analyse de textes
Visualisation_LDA_p3.html
32. 8 février 2019 - Jean-Hugues Roy
Ça vous tente?
anaconda.com
33. 8 février 2019 - Jean-Hugues Roy
Ça vous tente?
« Écode l’été » :
• Programmation
• Analyse de données
massives
• Apprentissage
automatique
2019? Sinon 2020.
34. 8 février 2019 - Jean-Hugues Roy
Merci!
bit.ly/
labcmojhroy