Extraire et trier des données en
ligne
Erwan Tanguy
Stratégie et veille
06 62 15 11 02
erwan@ouestlab.fr
http://ouestlab.f...
Web scraping ?
Le web scraping est une technique d'extraction du
contenu de sites Web, via un script ou un programme,
dans...
Web scraping ?
Pour quoi faire ?
 Transférer des données d’un site vers un autre site ou vers
un document (type tableau E...
Pour faire de la veille ?
La veille est un élément stratégique
important et souvent négligé. Elle
aide à prendre des décis...
Des outils de web scraping
Pour récupérer des données :
 Google spreadsheet ;
 Import.io ;
 Kimono ;
 Feed43 ;
Pour tr...
Import.io
6
Import.io
Dans la liste des outils gratuits
permettant de réaliser une
récupération de données, vous
pouvez utiliser Impor...
Partons d’un exemple
Sur une page de vente
immobilière du site pap.fr, je
voudrais suivre les nouvelles
vente de maisons, ...
Partons d’un exemple
9
Sur cette page, je ne souhaite
récupérer que les informations de
zones précises liées à ma
recherch...
Import.io
Cet outil est relativement simple à
utiliser puisqu’il nécessite juste de
zoner les parties de la page avec
laqu...
Import.io
Plusieurs méthodes d’extraction des
données sont possibles via l’application
gratuite :
 Magic
propose automati...
Import.io > Extractor
12
Import.io > Extractor
13
Import.io > Extractor
14
Import.io > Extractor
15
Import.io > Extractor
16
Import.io > Extractor
17
Import.io > Extractor
18
Import.io > Extractor
19
Import.io > Extractor
20
Import.io > Extractor
Dans cette partie de l’application,
vous allez pouvoir ajouter les liens
des paginations suivantes p...
Import.io > Crawler
La puissance de Import.io se
cache dans l’outil « Crawler »
qui va permettre d’aller beaucoup
plus loi...
Import.io > Crawler
23
Import.io > Crawler
24
Import.io > Crawler
25
Import.io > Crawler
26
Import.io > Crawler
27
Import.io > Crawler
28
Import.io > Crawler
29
Import.io > Crawler
30
Import.io > Crawler
31
Import.io > Crawler
32
kimonolabs
33
Un autre outil pour la récupération de données.
kimonolabs
Kimonomabs propose une plateforme
en ligne et un bookmarklet pour
déclencher la récupération des données
sur un...
kimonolabs
À partir du bookmarklet, vous allez
pouvoir définir, propriété par propriété,
les différents éléments de votre
...
Sociallymap
36
Sociallymap
37
Sociallymap > les entités
• Sociallymap permet de gérer
l’automatisation des publications
vers vos réseaux sociaux.
• Cett...
Sociallymap > les opérateurs
Les autres modules – les opérateurs
– vous permettent de gérer les
contenus et leurs diffusio...
Sociallymap > ouvrir un tableau de bord
Pour commencer, nous devons
ajouter un tableau de bord qui
nous permettra d’avoir,...
Sociallymap > Glisser un module
41
Sociallymap > exemple
Prenons comme exemple le
flux des concerts de la ville
de Rouen sur Dreamville
pour Facebook
(http:/...
Sociallymap > exemple
43
Sociallymap > exemple
44
Sociallymap > exemple
45
Sociallymap > exemple
46
Sociallymap
47
2 modules « timer » pour varier les temps de publications
en fonctions des jours
Sociallymap > remarques
48
La citerne va envoyer vos
contenus toutes les 5
minutes, ce qui peut vite
devenir agaçant pour ...
Sociallymap
49
Exemple de tableau sur des envois vers une page
Facebook
IFTTT
50
IFTTT
IFTTT est un service en ligne et
gratuit qui permet d’automatiser
des tâches plus ou moins
complexes.
Dans la liste ...
IFTTT > exemple avec un flux
À partir d’un flux RSS, nous
allons automatiser une tâche
pour récupérer tous les nouveaux
it...
IFTTT > exemple avec un flux
53
IFTTT
54
IFTTT
55
Et aussi
56
Et aussi
RSS Mixer
Simple outil de compilation de
flux, il vous permettra de générer
un flux unique à partir d’un
ensemble...
Voir en ligne
 La page sur pap.fr : http://goo.gl/62sOtz
 La présentation sur slideshare (téléchargeable en PDF) :
http:...
59
Votre interlocuteur
Domaines d’expertise :
 Formation,
 Réseaux sociaux,
 Référencement naturel,
 Définition de str...
Prochain SlideShare
Chargement dans…5
×

Extraire et trier des données en ligne 2015

4 438 vues

Publié le

Suite à la fermeture de Yahoo! Pipes, nous allons voir comment réaliser de la récupération de données avec des outils gratuits ou accessibles...

Publié dans : Internet

Extraire et trier des données en ligne 2015

  1. 1. Extraire et trier des données en ligne Erwan Tanguy Stratégie et veille 06 62 15 11 02 erwan@ouestlab.fr http://ouestlab.fr/
  2. 2. Web scraping ? Le web scraping est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. Attention, il peut y avoir une utilisation légale ou illégale du web scraping. Nous nous intéresserons qu’à la première. 2
  3. 3. Web scraping ? Pour quoi faire ?  Transférer des données d’un site vers un autre site ou vers un document (type tableau Excel) ;  Transformer des données pour y ajouter une valeur avant de la partager sur des réseaux sociaux ;  Récupérer des informations provenant de la concurrence pour pouvoir les analyser ;  Illégal : récupérer des données, les publier à son compte, les vendre ;  … 3
  4. 4. Pour faire de la veille ? La veille est un élément stratégique important et souvent négligé. Elle aide à prendre des décisions, permet d’évoluer et de rester à l’écoute. Ce n’est en aucun cas de l’espionnage ! La veille numérique travaille à partir des données disponible légalement sur internet. La veille, associée à des techniques de web scraping, va pouvoir récupérer des données et les rendre lisibles, accessibles, pour un public large ou pour des personnes précises. Ces données, provenant généralement de sites web, pourront être récupérées au sein d’un document dynamique (un spreadsheet sur Google Drive par exemple) ou compilées sur un flux RSS dans le but d’alimenter une newsletter… 4
  5. 5. Des outils de web scraping Pour récupérer des données :  Google spreadsheet ;  Import.io ;  Kimono ;  Feed43 ; Pour trier, transformer ou compiler les données :  Feed Rinse ;  RSS Mixer ;  Dlvr.it… Pour pousser les données :  IFTTT ;  Dlvr.it ;  Zapier… Pour partager les données :  Les suites d’outils Google (Drive, Group…) ;  Excel ;  Des intranets ou des sites privés…  Des sites ou des réseaux sociaux ouverts… 5
  6. 6. Import.io 6
  7. 7. Import.io Dans la liste des outils gratuits permettant de réaliser une récupération de données, vous pouvez utiliser Import.io qui propose un espace en ligne et une application. 7
  8. 8. Partons d’un exemple Sur une page de vente immobilière du site pap.fr, je voudrais suivre les nouvelles vente de maisons, d’appartements ou autres au fur et à mesure. URL : http://www.pap.fr/annonce/vent e-immobiliere-rennes-35-g43618 8
  9. 9. Partons d’un exemple 9 Sur cette page, je ne souhaite récupérer que les informations de zones précises liées à ma recherche : une liste de vente.
  10. 10. Import.io Cet outil est relativement simple à utiliser puisqu’il nécessite juste de zoner les parties de la page avec laquelle nous souhaitons réaliser un flux. Le flux obtenu pourra être récupérer en tableau soit dans Excel soit dans un spreadsheet sur Drive (avec la possibilité de le rendre dynamique). 10
  11. 11. Import.io Plusieurs méthodes d’extraction des données sont possibles via l’application gratuite :  Magic propose automatiquement de récupérer les données qui semblent être les plus évidentes  Extractor & Classic Extractor vous permet de cibler les éléments de la page et de les organiser dans un tableau  Authenticated Extrator vous permet d’extraire des données sur un site qui nécessite une authentification (attention, cela peut être illégale si vous transmettez ces données) 11
  12. 12. Import.io > Extractor 12
  13. 13. Import.io > Extractor 13
  14. 14. Import.io > Extractor 14
  15. 15. Import.io > Extractor 15
  16. 16. Import.io > Extractor 16
  17. 17. Import.io > Extractor 17
  18. 18. Import.io > Extractor 18
  19. 19. Import.io > Extractor 19
  20. 20. Import.io > Extractor 20
  21. 21. Import.io > Extractor Dans cette partie de l’application, vous allez pouvoir ajouter les liens des paginations suivantes pour récupérer la suite des données. 21
  22. 22. Import.io > Crawler La puissance de Import.io se cache dans l’outil « Crawler » qui va permettre d’aller beaucoup plus loin dans l’extraction de données : Vous allez pouvoir, à partir de quelques pages du même modèle, scanner (crawler) un site entier ! 22
  23. 23. Import.io > Crawler 23
  24. 24. Import.io > Crawler 24
  25. 25. Import.io > Crawler 25
  26. 26. Import.io > Crawler 26
  27. 27. Import.io > Crawler 27
  28. 28. Import.io > Crawler 28
  29. 29. Import.io > Crawler 29
  30. 30. Import.io > Crawler 30
  31. 31. Import.io > Crawler 31
  32. 32. Import.io > Crawler 32
  33. 33. kimonolabs 33 Un autre outil pour la récupération de données.
  34. 34. kimonolabs Kimonomabs propose une plateforme en ligne et un bookmarklet pour déclencher la récupération des données sur une page. Les formats de sorties sont en json, csv ou rss. Assez simple donc ensuite de les importer en dynamique sur un spreadsheet par exemple. Comme pour import.io, l’outil étant simple, il reste limité. Pour notre exemple, il est impossible de récupérer les images des annonces. 34
  35. 35. kimonolabs À partir du bookmarklet, vous allez pouvoir définir, propriété par propriété, les différents éléments de votre tableaux. Si vous souhaitez récupérer un flux RSS par la suite, je vous conseille de suivre les noms « title » et « description » pour définir les données principales, cela simplifiera sa création. Une fois terminé, il ne vous reste plus qu’à enregistrer votre API et la consulter ou l’intégrer à une plateforme ou un logiciel. 35
  36. 36. Sociallymap 36
  37. 37. Sociallymap 37
  38. 38. Sociallymap > les entités • Sociallymap permet de gérer l’automatisation des publications vers vos réseaux sociaux. • Cette application en ligne est modulaire. Les premiers modules – les entités - vous permettent de vous connecter à :  Twitter  Facebook (compte et page)  Linkedin (compte et page)  Instagram • Vous avez aussi la possibilité de récupérer des flux RSS et de stocker du contenu. 38
  39. 39. Sociallymap > les opérateurs Les autres modules – les opérateurs – vous permettent de gérer les contenus et leurs diffusion :  Les filtres  Le délai  Le régulateur  Le timer  Le module de rajout  Le module photo  Le modérateur Ces modules vont réguler la publication de vos flux pour éviter un engorgement qui serait néfaste à leur visibilité. 39
  40. 40. Sociallymap > ouvrir un tableau de bord Pour commencer, nous devons ajouter un tableau de bord qui nous permettra d’avoir, sur une carte, l’ensemble des automatisations d’une ville, par exemple. Il suffit de glisser et déposer les modules des entités et des opérateurs sur le tableaux de bord pour les utiliser. 40 Les modules Le tableaude bord
  41. 41. Sociallymap > Glisser un module 41
  42. 42. Sociallymap > exemple Prenons comme exemple le flux des concerts de la ville de Rouen sur Dreamville pour Facebook (http://goo.gl/kkaukS). Nous insérons le module flux RSS sur un tableau de bord. Nous le renommons et ajoutons l’URL du flux avant de valider. 42
  43. 43. Sociallymap > exemple 43
  44. 44. Sociallymap > exemple 44
  45. 45. Sociallymap > exemple 45
  46. 46. Sociallymap > exemple 46
  47. 47. Sociallymap 47 2 modules « timer » pour varier les temps de publications en fonctions des jours
  48. 48. Sociallymap > remarques 48 La citerne va envoyer vos contenus toutes les 5 minutes, ce qui peut vite devenir agaçant pour les internautes qui vous suivent. Attention : il ne faut pas placer un régulateur avant un timer, vous risquez de ne pas voir vos publications. Lire aussi http://blog.sociallymap.com/astu ce-ne-jamais-placer-un- regulateur-devant-un-timer/ et http://blog.sociallymap.com/astu ce-placer-un-regulateur-entre- une-citerne-et-un-profil-social/ pour le placement des modules.
  49. 49. Sociallymap 49 Exemple de tableau sur des envois vers une page Facebook
  50. 50. IFTTT 50
  51. 51. IFTTT IFTTT est un service en ligne et gratuit qui permet d’automatiser des tâches plus ou moins complexes. Dans la liste des « Channels », il y a aujourd’hui plus de 220 applications qui peuvent de connecter à IFTTT : Réseaux sociaux, Mobile (Android, iOS…), Google (Gmail, Drive…), Microsoft (OneDrive, Office 365…), Objets connectés… 51
  52. 52. IFTTT > exemple avec un flux À partir d’un flux RSS, nous allons automatiser une tâche pour récupérer tous les nouveaux items dans un tableau sur Google Drive. Flux : http://lemonde.feedsportal.com /c/205/f/672609/index.rss Avec un filtre sur le mot « web » et ainsi ne récupérer que les items ayant ce mot… 52
  53. 53. IFTTT > exemple avec un flux 53
  54. 54. IFTTT 54
  55. 55. IFTTT 55
  56. 56. Et aussi 56
  57. 57. Et aussi RSS Mixer Simple outil de compilation de flux, il vous permettra de générer un flux unique à partir d’un ensemble de flux RSS. Feed Rinse À la fois compilateur de flux et filtre, il vous permettra dans un ou plusieurs flux de filtrer autour de mots clés les contenus. 57
  58. 58. Voir en ligne  La page sur pap.fr : http://goo.gl/62sOtz  La présentation sur slideshare (téléchargeable en PDF) : http://goo.gl/XoFzmx  http://app.sociallymap.com  http://www.feedrinse.com  http://www.rssmixer.com/  Tableau des données sur import.io : http://goo.gl/WsRo7u  Flux RSS du kimonolabs : http://goo.gl/hRdqcX 58
  59. 59. 59 Votre interlocuteur Domaines d’expertise :  Formation,  Réseaux sociaux,  Référencement naturel,  Définition de stratégie de contenu,  Analyse des statistiques,  Veille numérique,  Réalisation de sites web (WordPress). Des questions ? 06 62 15 11 02 erwan@ouestlab.fr http://ouestlab.fr/ Erwan Tanguy

×