SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
8 février 2019 - Jean-Hugues Roy
Moisson de données
8 février 2019 - Jean-Hugues Roy
1. Exercice avec Google Sheets
2. API WTF
3. Scraping web
4. Selenium
5. Analyse de données
6. Analyse de textes
7. Pour en savoir plus
8. Période de questions
Moisson de données
8 février 2019 - Jean-Hugues Roy
Google Sheets
Fonctions uniques
N’existent pas dans OO,LO,Excel,Numbers
=IMPORTHTML
8 février 2019 - Jean-Hugues Roy
L’univers numérique est en fait
constitué d’une multitude de
bases de données
API
Interface de programmation
Application programming interface
Interface pourhumains
8 février 2019 - Jean-Hugues Roy
API
Interface de programmation
Application programming interface
Interface pourordinateurs
8 février 2019 - Jean-Hugues Roy
API
Interface de programmation
Application programming interface
Interface pourordinateurs
REST API
.json
8 février 2019 - Jean-Hugues Roy
API
• Facebook
• Twitter
• Google
- Drive
- Maps ($)
- Search ($)
- Youtube…
• Instagram…
• WhatsApp
• Twitch…
• Spotify…
• Uber…
• AirBnb
• CanLII
• LCBO
• etc…
8 février 2019 - Jean-Hugues Roy
TwitterAPI
D’abord, se créer une «app»
8 février 2019 - Jean-Hugues Roy
8 février 2019 - Jean-Hugues Roy
TwitterAPI
D’abord, se créer une «app»
8 février 2019 - Jean-Hugues Roy
Twitter
Utiliser plusieurs mots/expressions
API
D’abord, se créer une «app»
Intégrer les permissions dans
un script. api-twitter.py
Répéter recherches avec «cron»
Enr. résultats dans base de données
Mais il y a des limites…
8 février 2019 - Jean-Hugues Roy
Twitter
Utiliser plusieurs mots/expressions
API
D’abord, se créer une «app»
Intégrer les permissions dans
un script. api-twitter.py
Répéter recherches avec «cron»
Enr. résultats dans base de données
Mais il y a des limites…
8 février 2019 - Jean-Hugues Roy
Scraping
+
Python BeautifulSoup
8 février 2019 - Jean-Hugues Roy
Objectif :
Ramasser le texte de toutes les lois du
Québec en français et en anglais
Scraping
Exemple 1
1re étape :
Recueillir les URLs des lois
lois01.py
8 février 2019 - Jean-Hugues Roy
2e étape :
Télécharger les 1042 lois (521 dans
chaque langue)
Scraping
Exemple 1
Fichiers HTML (pas PDF 💩) lois02.py
tutoriel
8 février 2019 - Jean-Hugues Roy
Conseils :
Scraping
Examinez les URL
8 février 2019 - Jean-Hugues Roy
Conseils :
Scraping
Examinez les URL
8 février 2019 - Jean-Hugues Roy
Conseils :
Dans le code HTML,
examinez les balises <meta>
Scraping
8 février 2019 - Jean-Hugues Roy
Conseils :
Dans le code HTML,
examinez le contenu
de certains scripts
Scraping
8 février 2019 - Jean-Hugues Roy
Scraping
8 février 2019 - Jean-Hugues Roy
Difficultés :
Et on fait quoi quand ce qu’on cherche
du contenu issu du « deep web »?
Scraping
8 février 2019 - Jean-Hugues Roy
Scraping avec Selenium
md.py
bachir.py
8 février 2019 - Jean-Hugues Roy
Analyse de données
chercheuse.eur.s
8 février 2019 - Jean-Hugues Roy
Analyse de données
Dans la section Lignes, vous cliquez d’abord sur «Ajouter un champ» et vous
sélectionnez la variable selon laquelle vous souhaitez effectuer votre
regroupement.
8 février 2019 - Jean-Hugues Roy
Analyse de données
wc dans Terminal
8 février 2019 - Jean-Hugues Roy
Analyse de données
8 février 2019 - Jean-Hugues Roy
8 février 2019 - Jean-Hugues Roy
8 février 2019 - Jean-Hugues Roy
Analyse de données
jupyter
notebook
8 février 2019 - Jean-Hugues Roy
Traitement du langage naturel
Analyse de textes
nltk
Trois opérations :
• Tokenization
• Traitement des mots-vides
• Lemmatisation
8 février 2019 - Jean-Hugues Roy
Topic modeling
Analyse de textes
Visualisation_LDA_p3.html
8 février 2019 - Jean-Hugues Roy
Ça vous tente?
anaconda.com
8 février 2019 - Jean-Hugues Roy
Ça vous tente?
« Écode l’été » :
• Programmation
• Analyse de données
massives
• Apprentissage
automatique
2019? Sinon 2020.
8 février 2019 - Jean-Hugues Roy
Merci!
bit.ly/
labcmojhroy

Contenu connexe

Similaire à Le moissonnage de données (data scraping)

Rapport De Veille
Rapport De VeilleRapport De Veille
Rapport De Veille
Trochet
 

Similaire à Le moissonnage de données (data scraping) (14)

Le WEB 2.0 en bibliothèque
Le WEB 2.0 en bibliothèqueLe WEB 2.0 en bibliothèque
Le WEB 2.0 en bibliothèque
 
Dev fest 2019 Festival Google Developer Guinée - Les 8 points clés du SEO
Dev fest 2019 Festival Google Developer Guinée - Les 8 points clés du SEODev fest 2019 Festival Google Developer Guinée - Les 8 points clés du SEO
Dev fest 2019 Festival Google Developer Guinée - Les 8 points clés du SEO
 
Devfest google 2019 à Conakry : les 8 points clés du SEO
Devfest google 2019 à Conakry : les 8 points clés du SEODevfest google 2019 à Conakry : les 8 points clés du SEO
Devfest google 2019 à Conakry : les 8 points clés du SEO
 
SEO pour Joomla
SEO pour JoomlaSEO pour Joomla
SEO pour Joomla
 
Journeesduweb.com Web 2.0
Journeesduweb.com Web 2.0Journeesduweb.com Web 2.0
Journeesduweb.com Web 2.0
 
Web social - GTI780 & MTI780 - ETS - A08
Web social - GTI780 & MTI780 - ETS - A08Web social - GTI780 & MTI780 - ETS - A08
Web social - GTI780 & MTI780 - ETS - A08
 
Les moteurs de recherche alternatifs
Les moteurs de recherche alternatifsLes moteurs de recherche alternatifs
Les moteurs de recherche alternatifs
 
Le SEO, c'est bateau !
Le SEO, c'est bateau !Le SEO, c'est bateau !
Le SEO, c'est bateau !
 
App indexing at #SMXParis 2015
App indexing at #SMXParis 2015App indexing at #SMXParis 2015
App indexing at #SMXParis 2015
 
Google.alternatives
Google.alternativesGoogle.alternatives
Google.alternatives
 
Actualité SEO SEA - Philippe Yonnet - Petit Déjeuner du 1er Février - Luxembourg
Actualité SEO SEA - Philippe Yonnet - Petit Déjeuner du 1er Février - LuxembourgActualité SEO SEA - Philippe Yonnet - Petit Déjeuner du 1er Février - Luxembourg
Actualité SEO SEA - Philippe Yonnet - Petit Déjeuner du 1er Février - Luxembourg
 
Web 2.0 / Web 3.0 / Real Time Web / Médias sociaux / Marketing viral / Buzz /...
Web 2.0 / Web 3.0 / Real Time Web / Médias sociaux / Marketing viral / Buzz /...Web 2.0 / Web 3.0 / Real Time Web / Médias sociaux / Marketing viral / Buzz /...
Web 2.0 / Web 3.0 / Real Time Web / Médias sociaux / Marketing viral / Buzz /...
 
Rapport De Veille
Rapport De VeilleRapport De Veille
Rapport De Veille
 
Seo camp bayonne - 06 septembre 2019
Seo camp   bayonne - 06 septembre 2019Seo camp   bayonne - 06 septembre 2019
Seo camp bayonne - 06 septembre 2019
 

Plus de Jean-Hugues Roy

Internet est "social" depuis le début
Internet est "social" depuis le débutInternet est "social" depuis le début
Internet est "social" depuis le début
Jean-Hugues Roy
 

Plus de Jean-Hugues Roy (6)

Python Github et MySQL - Comment intégrer les outils des informaticiens dan...
Python Github et MySQL - Comment  intégrer les outils des  informaticiens dan...Python Github et MySQL - Comment  intégrer les outils des  informaticiens dan...
Python Github et MySQL - Comment intégrer les outils des informaticiens dan...
 
Le taux d'originalité de 16 éditions internationales du HuffPost
Le taux d'originalité de 16 éditions internationales du HuffPostLe taux d'originalité de 16 éditions internationales du HuffPost
Le taux d'originalité de 16 éditions internationales du HuffPost
 
Journalisme de données - J'enseigne quoi?
Journalisme de données - J'enseigne quoi?Journalisme de données - J'enseigne quoi?
Journalisme de données - J'enseigne quoi?
 
Avec pas de caméscope
Avec pas de caméscopeAvec pas de caméscope
Avec pas de caméscope
 
Faut-il apprendre la programmation aux étudiants en journalisme?
Faut-il apprendre la programmation aux étudiants en journalisme?Faut-il apprendre la programmation aux étudiants en journalisme?
Faut-il apprendre la programmation aux étudiants en journalisme?
 
Internet est "social" depuis le début
Internet est "social" depuis le débutInternet est "social" depuis le début
Internet est "social" depuis le début
 

Le moissonnage de données (data scraping)

  • 1. 8 février 2019 - Jean-Hugues Roy Moisson de données
  • 2. 8 février 2019 - Jean-Hugues Roy 1. Exercice avec Google Sheets 2. API WTF 3. Scraping web 4. Selenium 5. Analyse de données 6. Analyse de textes 7. Pour en savoir plus 8. Période de questions Moisson de données
  • 3. 8 février 2019 - Jean-Hugues Roy Google Sheets Fonctions uniques N’existent pas dans OO,LO,Excel,Numbers =IMPORTHTML
  • 4. 8 février 2019 - Jean-Hugues Roy L’univers numérique est en fait constitué d’une multitude de bases de données API Interface de programmation Application programming interface Interface pourhumains
  • 5. 8 février 2019 - Jean-Hugues Roy API Interface de programmation Application programming interface Interface pourordinateurs
  • 6. 8 février 2019 - Jean-Hugues Roy API Interface de programmation Application programming interface Interface pourordinateurs REST API .json
  • 7. 8 février 2019 - Jean-Hugues Roy API • Facebook • Twitter • Google - Drive - Maps ($) - Search ($) - Youtube… • Instagram… • WhatsApp • Twitch… • Spotify… • Uber… • AirBnb • CanLII • LCBO • etc…
  • 8. 8 février 2019 - Jean-Hugues Roy TwitterAPI D’abord, se créer une «app»
  • 9. 8 février 2019 - Jean-Hugues Roy
  • 10. 8 février 2019 - Jean-Hugues Roy TwitterAPI D’abord, se créer une «app»
  • 11. 8 février 2019 - Jean-Hugues Roy Twitter Utiliser plusieurs mots/expressions API D’abord, se créer une «app» Intégrer les permissions dans un script. api-twitter.py Répéter recherches avec «cron» Enr. résultats dans base de données Mais il y a des limites…
  • 12. 8 février 2019 - Jean-Hugues Roy Twitter Utiliser plusieurs mots/expressions API D’abord, se créer une «app» Intégrer les permissions dans un script. api-twitter.py Répéter recherches avec «cron» Enr. résultats dans base de données Mais il y a des limites…
  • 13. 8 février 2019 - Jean-Hugues Roy Scraping + Python BeautifulSoup
  • 14. 8 février 2019 - Jean-Hugues Roy Objectif : Ramasser le texte de toutes les lois du Québec en français et en anglais Scraping Exemple 1 1re étape : Recueillir les URLs des lois lois01.py
  • 15. 8 février 2019 - Jean-Hugues Roy 2e étape : Télécharger les 1042 lois (521 dans chaque langue) Scraping Exemple 1 Fichiers HTML (pas PDF 💩) lois02.py tutoriel
  • 16. 8 février 2019 - Jean-Hugues Roy Conseils : Scraping Examinez les URL
  • 17. 8 février 2019 - Jean-Hugues Roy Conseils : Scraping Examinez les URL
  • 18. 8 février 2019 - Jean-Hugues Roy Conseils : Dans le code HTML, examinez les balises <meta> Scraping
  • 19. 8 février 2019 - Jean-Hugues Roy Conseils : Dans le code HTML, examinez le contenu de certains scripts Scraping
  • 20. 8 février 2019 - Jean-Hugues Roy Scraping
  • 21. 8 février 2019 - Jean-Hugues Roy Difficultés : Et on fait quoi quand ce qu’on cherche du contenu issu du « deep web »? Scraping
  • 22. 8 février 2019 - Jean-Hugues Roy Scraping avec Selenium md.py bachir.py
  • 23. 8 février 2019 - Jean-Hugues Roy Analyse de données chercheuse.eur.s
  • 24. 8 février 2019 - Jean-Hugues Roy Analyse de données Dans la section Lignes, vous cliquez d’abord sur «Ajouter un champ» et vous sélectionnez la variable selon laquelle vous souhaitez effectuer votre regroupement.
  • 25. 8 février 2019 - Jean-Hugues Roy Analyse de données wc dans Terminal
  • 26. 8 février 2019 - Jean-Hugues Roy Analyse de données
  • 27. 8 février 2019 - Jean-Hugues Roy
  • 28. 8 février 2019 - Jean-Hugues Roy
  • 29. 8 février 2019 - Jean-Hugues Roy Analyse de données jupyter notebook
  • 30. 8 février 2019 - Jean-Hugues Roy Traitement du langage naturel Analyse de textes nltk Trois opérations : • Tokenization • Traitement des mots-vides • Lemmatisation
  • 31. 8 février 2019 - Jean-Hugues Roy Topic modeling Analyse de textes Visualisation_LDA_p3.html
  • 32. 8 février 2019 - Jean-Hugues Roy Ça vous tente? anaconda.com
  • 33. 8 février 2019 - Jean-Hugues Roy Ça vous tente? « Écode l’été » : • Programmation • Analyse de données massives • Apprentissage automatique 2019? Sinon 2020.
  • 34. 8 février 2019 - Jean-Hugues Roy Merci! bit.ly/ labcmojhroy