1. Extraire et trier des données en
ligne
Erwan Tanguy
Stratégie et veille
06 62 15 11 02
erwan@ouestlab.fr
http://ouestlab.fr/
2. Web scraping ?
Le web scraping est une technique d'extraction du
contenu de sites Web, via un script ou un programme,
dans le but de le transformer pour permettre son
utilisation dans un autre contexte.
Attention, il peut y avoir une utilisation légale ou illégale
du web scraping. Nous nous intéresserons qu’à la
première.
2
3. Web scraping ?
Pour quoi faire ?
Transférer des données d’un site vers un autre site ou vers
un document (type tableau Excel) ;
Transformer des données pour y ajouter une valeur avant de
la partager sur des réseaux sociaux ;
Récupérer des informations provenant de la concurrence
pour pouvoir les analyser ;
Illégal : récupérer des données, les publier à son compte, les
vendre ;
…
3
4. Pour faire de la veille ?
La veille est un élément stratégique
important et souvent négligé. Elle
aide à prendre des décisions,
permet d’évoluer et de rester à
l’écoute.
Ce n’est en aucun cas de
l’espionnage !
La veille numérique travaille à
partir des données disponible
légalement sur internet.
La veille, associée à des techniques
de web scraping, va pouvoir
récupérer des données et les rendre
lisibles, accessibles, pour un public
large ou pour des personnes
précises.
Ces données, provenant
généralement de sites web,
pourront être récupérées au sein
d’un document dynamique (un
spreadsheet sur Google Drive par
exemple) ou compilées sur un flux
RSS dans le but d’alimenter une
newsletter…
4
5. Des outils de web scraping
Pour récupérer des données :
Google spreadsheet ;
Import.io ;
Kimono ;
Feed43 ;
Pour trier, transformer ou compiler
les données :
Feed Rinse ;
RSS Mixer ;
Dlvr.it…
Pour pousser les données :
IFTTT ;
Dlvr.it ;
Zapier…
Pour partager les données :
Les suites d’outils Google (Drive,
Group…) ;
Excel ;
Des intranets ou des sites
privés…
Des sites ou des réseaux sociaux
ouverts…
5
7. Import.io
Dans la liste des outils gratuits
permettant de réaliser une
récupération de données, vous
pouvez utiliser Import.io qui
propose un espace en ligne et
une application.
7
8. Partons d’un exemple
Sur une page de vente
immobilière du site pap.fr, je
voudrais suivre les nouvelles
vente de maisons, d’appartements
ou autres au fur et à mesure.
URL :
http://www.pap.fr/annonce/vent
e-immobiliere-rennes-35-g43618
8
9. Partons d’un exemple
9
Sur cette page, je ne souhaite
récupérer que les informations de
zones précises liées à ma
recherche : une liste de vente.
10. Import.io
Cet outil est relativement simple à
utiliser puisqu’il nécessite juste de
zoner les parties de la page avec
laquelle nous souhaitons réaliser
un flux.
Le flux obtenu pourra être
récupérer en tableau soit dans
Excel soit dans un spreadsheet
sur Drive (avec la possibilité de le
rendre dynamique).
10
11. Import.io
Plusieurs méthodes d’extraction des
données sont possibles via l’application
gratuite :
Magic
propose automatiquement de récupérer
les données qui semblent être les plus
évidentes
Extractor & Classic Extractor
vous permet de cibler les éléments de la
page et de les organiser dans un tableau
Authenticated Extrator
vous permet d’extraire des données sur
un site qui nécessite une
authentification (attention, cela peut
être illégale si vous transmettez ces
données)
11
21. Import.io > Extractor
Dans cette partie de l’application,
vous allez pouvoir ajouter les liens
des paginations suivantes pour
récupérer la suite des données.
21
22. Import.io > Crawler
La puissance de Import.io se
cache dans l’outil « Crawler »
qui va permettre d’aller beaucoup
plus loin dans l’extraction de
données :
Vous allez pouvoir, à partir de
quelques pages du même modèle,
scanner (crawler) un site entier !
22
34. kimonolabs
Kimonomabs propose une plateforme
en ligne et un bookmarklet pour
déclencher la récupération des données
sur une page.
Les formats de sorties sont en json, csv
ou rss. Assez simple donc ensuite de les
importer en dynamique sur un
spreadsheet par exemple.
Comme pour import.io, l’outil étant
simple, il reste limité. Pour notre
exemple, il est impossible de récupérer
les images des annonces.
34
35. kimonolabs
À partir du bookmarklet, vous allez
pouvoir définir, propriété par propriété,
les différents éléments de votre
tableaux.
Si vous souhaitez récupérer un flux RSS
par la suite, je vous conseille de suivre
les noms « title » et « description » pour
définir les données principales, cela
simplifiera sa création.
Une fois terminé, il ne vous reste plus
qu’à enregistrer votre API et la
consulter ou l’intégrer à une plateforme
ou un logiciel.
35
38. Sociallymap > les entités
• Sociallymap permet de gérer
l’automatisation des publications
vers vos réseaux sociaux.
• Cette application en ligne est
modulaire. Les premiers modules –
les entités - vous permettent de
vous connecter à :
Twitter
Facebook (compte et page)
Linkedin (compte et page)
Instagram
• Vous avez aussi la possibilité de
récupérer des flux RSS et de stocker
du contenu.
38
39. Sociallymap > les opérateurs
Les autres modules – les opérateurs
– vous permettent de gérer les
contenus et leurs diffusion :
Les filtres
Le délai
Le régulateur
Le timer
Le module de rajout
Le module photo
Le modérateur
Ces modules vont réguler la
publication de vos flux pour éviter
un engorgement qui serait néfaste à
leur visibilité.
39
40. Sociallymap > ouvrir un tableau de bord
Pour commencer, nous devons
ajouter un tableau de bord qui
nous permettra d’avoir, sur une
carte, l’ensemble des
automatisations d’une ville, par
exemple.
Il suffit de glisser et déposer les
modules des entités et des
opérateurs sur le tableaux de bord
pour les utiliser.
40
Les modules
Le tableaude bord
42. Sociallymap > exemple
Prenons comme exemple le
flux des concerts de la ville
de Rouen sur Dreamville
pour Facebook
(http://goo.gl/kkaukS).
Nous insérons le module
flux RSS sur un tableau de
bord.
Nous le renommons et
ajoutons l’URL du flux avant
de valider.
42
48. Sociallymap > remarques
48
La citerne va envoyer vos
contenus toutes les 5
minutes, ce qui peut vite
devenir agaçant pour les
internautes qui vous
suivent.
Attention : il ne faut pas placer un
régulateur avant un timer, vous
risquez de ne pas voir vos
publications.
Lire aussi
http://blog.sociallymap.com/astu
ce-ne-jamais-placer-un-
regulateur-devant-un-timer/ et
http://blog.sociallymap.com/astu
ce-placer-un-regulateur-entre-
une-citerne-et-un-profil-social/
pour le placement des modules.
51. IFTTT
IFTTT est un service en ligne et
gratuit qui permet d’automatiser
des tâches plus ou moins
complexes.
Dans la liste des « Channels », il
y a aujourd’hui plus de 220
applications qui peuvent de
connecter à IFTTT :
Réseaux sociaux,
Mobile (Android, iOS…),
Google (Gmail, Drive…),
Microsoft (OneDrive, Office
365…),
Objets connectés…
51
52. IFTTT > exemple avec un flux
À partir d’un flux RSS, nous
allons automatiser une tâche
pour récupérer tous les nouveaux
items dans un tableau sur Google
Drive.
Flux :
http://lemonde.feedsportal.com
/c/205/f/672609/index.rss
Avec un filtre sur le mot « web »
et ainsi ne récupérer que les
items ayant ce mot…
52
57. Et aussi
RSS Mixer
Simple outil de compilation de
flux, il vous permettra de générer
un flux unique à partir d’un
ensemble de flux RSS.
Feed Rinse
À la fois compilateur de flux et
filtre, il vous permettra dans un
ou plusieurs flux de filtrer autour
de mots clés les contenus.
57
58. Voir en ligne
La page sur pap.fr : http://goo.gl/62sOtz
La présentation sur slideshare (téléchargeable en PDF) :
http://goo.gl/XoFzmx
http://app.sociallymap.com
http://www.feedrinse.com
http://www.rssmixer.com/
Tableau des données sur import.io :
http://goo.gl/WsRo7u
Flux RSS du kimonolabs : http://goo.gl/hRdqcX
58
59. 59
Votre interlocuteur
Domaines d’expertise :
Formation,
Réseaux sociaux,
Référencement naturel,
Définition de stratégie de contenu,
Analyse des statistiques,
Veille numérique,
Réalisation de sites web (WordPress).
Des questions ?
06 62 15 11 02
erwan@ouestlab.fr
http://ouestlab.fr/
Erwan Tanguy