SlideShare une entreprise Scribd logo
1  sur  59
Télécharger pour lire hors ligne
Extraire et trier des données en
ligne
Erwan Tanguy
Stratégie et veille
06 62 15 11 02
erwan@ouestlab.fr
http://ouestlab.fr/
Web scraping ?
Le web scraping est une technique d'extraction du
contenu de sites Web, via un script ou un programme,
dans le but de le transformer pour permettre son
utilisation dans un autre contexte.
Attention, il peut y avoir une utilisation légale ou illégale
du web scraping. Nous nous intéresserons qu’à la
première.
2
Web scraping ?
Pour quoi faire ?
 Transférer des données d’un site vers un autre site ou vers
un document (type tableau Excel) ;
 Transformer des données pour y ajouter une valeur avant de
la partager sur des réseaux sociaux ;
 Récupérer des informations provenant de la concurrence
pour pouvoir les analyser ;
 Illégal : récupérer des données, les publier à son compte, les
vendre ;
 …
3
Pour faire de la veille ?
La veille est un élément stratégique
important et souvent négligé. Elle
aide à prendre des décisions,
permet d’évoluer et de rester à
l’écoute.
Ce n’est en aucun cas de
l’espionnage !
La veille numérique travaille à
partir des données disponible
légalement sur internet.
La veille, associée à des techniques
de web scraping, va pouvoir
récupérer des données et les rendre
lisibles, accessibles, pour un public
large ou pour des personnes
précises.
Ces données, provenant
généralement de sites web,
pourront être récupérées au sein
d’un document dynamique (un
spreadsheet sur Google Drive par
exemple) ou compilées sur un flux
RSS dans le but d’alimenter une
newsletter…
4
Des outils de web scraping
Pour récupérer des données :
 Google spreadsheet ;
 Import.io ;
 Kimono ;
 Feed43 ;
Pour trier, transformer ou compiler
les données :
 Feed Rinse ;
 RSS Mixer ;
 Dlvr.it…
Pour pousser les données :
 IFTTT ;
 Dlvr.it ;
 Zapier…
Pour partager les données :
 Les suites d’outils Google (Drive,
Group…) ;
 Excel ;
 Des intranets ou des sites
privés…
 Des sites ou des réseaux sociaux
ouverts…
5
Import.io
6
Import.io
Dans la liste des outils gratuits
permettant de réaliser une
récupération de données, vous
pouvez utiliser Import.io qui
propose un espace en ligne et
une application.
7
Partons d’un exemple
Sur une page de vente
immobilière du site pap.fr, je
voudrais suivre les nouvelles
vente de maisons, d’appartements
ou autres au fur et à mesure.
URL :
http://www.pap.fr/annonce/vent
e-immobiliere-rennes-35-g43618
8
Partons d’un exemple
9
Sur cette page, je ne souhaite
récupérer que les informations de
zones précises liées à ma
recherche : une liste de vente.
Import.io
Cet outil est relativement simple à
utiliser puisqu’il nécessite juste de
zoner les parties de la page avec
laquelle nous souhaitons réaliser
un flux.
Le flux obtenu pourra être
récupérer en tableau soit dans
Excel soit dans un spreadsheet
sur Drive (avec la possibilité de le
rendre dynamique).
10
Import.io
Plusieurs méthodes d’extraction des
données sont possibles via l’application
gratuite :
 Magic
propose automatiquement de récupérer
les données qui semblent être les plus
évidentes
 Extractor & Classic Extractor
vous permet de cibler les éléments de la
page et de les organiser dans un tableau
 Authenticated Extrator
vous permet d’extraire des données sur
un site qui nécessite une
authentification (attention, cela peut
être illégale si vous transmettez ces
données)
11
Import.io > Extractor
12
Import.io > Extractor
13
Import.io > Extractor
14
Import.io > Extractor
15
Import.io > Extractor
16
Import.io > Extractor
17
Import.io > Extractor
18
Import.io > Extractor
19
Import.io > Extractor
20
Import.io > Extractor
Dans cette partie de l’application,
vous allez pouvoir ajouter les liens
des paginations suivantes pour
récupérer la suite des données.
21
Import.io > Crawler
La puissance de Import.io se
cache dans l’outil « Crawler »
qui va permettre d’aller beaucoup
plus loin dans l’extraction de
données :
Vous allez pouvoir, à partir de
quelques pages du même modèle,
scanner (crawler) un site entier !
22
Import.io > Crawler
23
Import.io > Crawler
24
Import.io > Crawler
25
Import.io > Crawler
26
Import.io > Crawler
27
Import.io > Crawler
28
Import.io > Crawler
29
Import.io > Crawler
30
Import.io > Crawler
31
Import.io > Crawler
32
kimonolabs
33
Un autre outil pour la récupération de données.
kimonolabs
Kimonomabs propose une plateforme
en ligne et un bookmarklet pour
déclencher la récupération des données
sur une page.
Les formats de sorties sont en json, csv
ou rss. Assez simple donc ensuite de les
importer en dynamique sur un
spreadsheet par exemple.
Comme pour import.io, l’outil étant
simple, il reste limité. Pour notre
exemple, il est impossible de récupérer
les images des annonces.
34
kimonolabs
À partir du bookmarklet, vous allez
pouvoir définir, propriété par propriété,
les différents éléments de votre
tableaux.
Si vous souhaitez récupérer un flux RSS
par la suite, je vous conseille de suivre
les noms « title » et « description » pour
définir les données principales, cela
simplifiera sa création.
Une fois terminé, il ne vous reste plus
qu’à enregistrer votre API et la
consulter ou l’intégrer à une plateforme
ou un logiciel.
35
Sociallymap
36
Sociallymap
37
Sociallymap > les entités
• Sociallymap permet de gérer
l’automatisation des publications
vers vos réseaux sociaux.
• Cette application en ligne est
modulaire. Les premiers modules –
les entités - vous permettent de
vous connecter à :
 Twitter
 Facebook (compte et page)
 Linkedin (compte et page)
 Instagram
• Vous avez aussi la possibilité de
récupérer des flux RSS et de stocker
du contenu.
38
Sociallymap > les opérateurs
Les autres modules – les opérateurs
– vous permettent de gérer les
contenus et leurs diffusion :
 Les filtres
 Le délai
 Le régulateur
 Le timer
 Le module de rajout
 Le module photo
 Le modérateur
Ces modules vont réguler la
publication de vos flux pour éviter
un engorgement qui serait néfaste à
leur visibilité.
39
Sociallymap > ouvrir un tableau de bord
Pour commencer, nous devons
ajouter un tableau de bord qui
nous permettra d’avoir, sur une
carte, l’ensemble des
automatisations d’une ville, par
exemple.
Il suffit de glisser et déposer les
modules des entités et des
opérateurs sur le tableaux de bord
pour les utiliser.
40
Les modules
Le tableaude bord
Sociallymap > Glisser un module
41
Sociallymap > exemple
Prenons comme exemple le
flux des concerts de la ville
de Rouen sur Dreamville
pour Facebook
(http://goo.gl/kkaukS).
Nous insérons le module
flux RSS sur un tableau de
bord.
Nous le renommons et
ajoutons l’URL du flux avant
de valider.
42
Sociallymap > exemple
43
Sociallymap > exemple
44
Sociallymap > exemple
45
Sociallymap > exemple
46
Sociallymap
47
2 modules « timer » pour varier les temps de publications
en fonctions des jours
Sociallymap > remarques
48
La citerne va envoyer vos
contenus toutes les 5
minutes, ce qui peut vite
devenir agaçant pour les
internautes qui vous
suivent.
Attention : il ne faut pas placer un
régulateur avant un timer, vous
risquez de ne pas voir vos
publications.
Lire aussi
http://blog.sociallymap.com/astu
ce-ne-jamais-placer-un-
regulateur-devant-un-timer/ et
http://blog.sociallymap.com/astu
ce-placer-un-regulateur-entre-
une-citerne-et-un-profil-social/
pour le placement des modules.
Sociallymap
49
Exemple de tableau sur des envois vers une page
Facebook
IFTTT
50
IFTTT
IFTTT est un service en ligne et
gratuit qui permet d’automatiser
des tâches plus ou moins
complexes.
Dans la liste des « Channels », il
y a aujourd’hui plus de 220
applications qui peuvent de
connecter à IFTTT :
Réseaux sociaux,
Mobile (Android, iOS…),
Google (Gmail, Drive…),
Microsoft (OneDrive, Office
365…),
Objets connectés…
51
IFTTT > exemple avec un flux
À partir d’un flux RSS, nous
allons automatiser une tâche
pour récupérer tous les nouveaux
items dans un tableau sur Google
Drive.
Flux :
http://lemonde.feedsportal.com
/c/205/f/672609/index.rss
Avec un filtre sur le mot « web »
et ainsi ne récupérer que les
items ayant ce mot…
52
IFTTT > exemple avec un flux
53
IFTTT
54
IFTTT
55
Et aussi
56
Et aussi
RSS Mixer
Simple outil de compilation de
flux, il vous permettra de générer
un flux unique à partir d’un
ensemble de flux RSS.
Feed Rinse
À la fois compilateur de flux et
filtre, il vous permettra dans un
ou plusieurs flux de filtrer autour
de mots clés les contenus.
57
Voir en ligne
 La page sur pap.fr : http://goo.gl/62sOtz
 La présentation sur slideshare (téléchargeable en PDF) :
http://goo.gl/XoFzmx
 http://app.sociallymap.com
 http://www.feedrinse.com
 http://www.rssmixer.com/
 Tableau des données sur import.io :
http://goo.gl/WsRo7u
 Flux RSS du kimonolabs : http://goo.gl/hRdqcX
58
59
Votre interlocuteur
Domaines d’expertise :
 Formation,
 Réseaux sociaux,
 Référencement naturel,
 Définition de stratégie de contenu,
 Analyse des statistiques,
 Veille numérique,
 Réalisation de sites web (WordPress).
Des questions ?
06 62 15 11 02
erwan@ouestlab.fr
http://ouestlab.fr/
Erwan Tanguy

Contenu connexe

En vedette

Seguridad en las redes
Seguridad en las redesSeguridad en las redes
Seguridad en las redesSergio Vargas
 
Cinco aplicaciones en caso de robo del celular
Cinco aplicaciones en caso de robo del celularCinco aplicaciones en caso de robo del celular
Cinco aplicaciones en caso de robo del celularMiguel Camargo
 
P.power sistema informacion
P.power sistema informacionP.power sistema informacion
P.power sistema informacionLaura Ciccioli
 
Catedra upecista diapositivas
Catedra upecista diapositivasCatedra upecista diapositivas
Catedra upecista diapositivasnamigalo
 
2 c milligan_documentoweb
2 c milligan_documentoweb2 c milligan_documentoweb
2 c milligan_documentowebJoseph Milligan
 
Présentation Cléor / 2009
Présentation Cléor / 2009Présentation Cléor / 2009
Présentation Cléor / 2009alineisoz.ch
 
Support de formation : Filtrer des flux rss
Support de formation : Filtrer des flux rssSupport de formation : Filtrer des flux rss
Support de formation : Filtrer des flux rssErwan Tanguy
 
FORTALECER LAS CAPACIDADES Y POTENCIALIDADES DE LA CIUDADANIA.. FLOR MARIA OÑA
FORTALECER LAS CAPACIDADES Y POTENCIALIDADES DE LA CIUDADANIA.. FLOR MARIA OÑAFORTALECER LAS CAPACIDADES Y POTENCIALIDADES DE LA CIUDADANIA.. FLOR MARIA OÑA
FORTALECER LAS CAPACIDADES Y POTENCIALIDADES DE LA CIUDADANIA.. FLOR MARIA OÑAFLOR MARIA OÑA
 
Présentation f editor by adsonwall
Présentation f editor by adsonwallPrésentation f editor by adsonwall
Présentation f editor by adsonwallCharles Martin-Laval
 
IMPACTOS DE LA TECNOLOGIA
IMPACTOS DE LA TECNOLOGIAIMPACTOS DE LA TECNOLOGIA
IMPACTOS DE LA TECNOLOGIAVleslie
 
Calculo diferencial integral_func_una_var
Calculo diferencial integral_func_una_varCalculo diferencial integral_func_una_var
Calculo diferencial integral_func_una_varAdalberto Rodriguez
 
Reglamentos Institucionales
Reglamentos InstitucionalesReglamentos Institucionales
Reglamentos InstitucionalesMegys
 
Google+ - présentation du média social
Google+ - présentation du média socialGoogle+ - présentation du média social
Google+ - présentation du média socialErwan Tanguy
 

En vedette (20)

Portafolio2 innov educ con r a
Portafolio2 innov educ con r aPortafolio2 innov educ con r a
Portafolio2 innov educ con r a
 
Cuento
CuentoCuento
Cuento
 
Seguridad en las redes
Seguridad en las redesSeguridad en las redes
Seguridad en las redes
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
Cinco aplicaciones en caso de robo del celular
Cinco aplicaciones en caso de robo del celularCinco aplicaciones en caso de robo del celular
Cinco aplicaciones en caso de robo del celular
 
P.power sistema informacion
P.power sistema informacionP.power sistema informacion
P.power sistema informacion
 
Catedra upecista diapositivas
Catedra upecista diapositivasCatedra upecista diapositivas
Catedra upecista diapositivas
 
Art2 de margarita poggi
Art2 de margarita poggiArt2 de margarita poggi
Art2 de margarita poggi
 
2 c milligan_documentoweb
2 c milligan_documentoweb2 c milligan_documentoweb
2 c milligan_documentoweb
 
Dd et musees dda
Dd et musees ddaDd et musees dda
Dd et musees dda
 
Présentation Cléor / 2009
Présentation Cléor / 2009Présentation Cléor / 2009
Présentation Cléor / 2009
 
Support de formation : Filtrer des flux rss
Support de formation : Filtrer des flux rssSupport de formation : Filtrer des flux rss
Support de formation : Filtrer des flux rss
 
FORTALECER LAS CAPACIDADES Y POTENCIALIDADES DE LA CIUDADANIA.. FLOR MARIA OÑA
FORTALECER LAS CAPACIDADES Y POTENCIALIDADES DE LA CIUDADANIA.. FLOR MARIA OÑAFORTALECER LAS CAPACIDADES Y POTENCIALIDADES DE LA CIUDADANIA.. FLOR MARIA OÑA
FORTALECER LAS CAPACIDADES Y POTENCIALIDADES DE LA CIUDADANIA.. FLOR MARIA OÑA
 
Présentation f editor by adsonwall
Présentation f editor by adsonwallPrésentation f editor by adsonwall
Présentation f editor by adsonwall
 
presentacion katherin
presentacion katherinpresentacion katherin
presentacion katherin
 
Comprensión
ComprensiónComprensión
Comprensión
 
IMPACTOS DE LA TECNOLOGIA
IMPACTOS DE LA TECNOLOGIAIMPACTOS DE LA TECNOLOGIA
IMPACTOS DE LA TECNOLOGIA
 
Calculo diferencial integral_func_una_var
Calculo diferencial integral_func_una_varCalculo diferencial integral_func_una_var
Calculo diferencial integral_func_una_var
 
Reglamentos Institucionales
Reglamentos InstitucionalesReglamentos Institucionales
Reglamentos Institucionales
 
Google+ - présentation du média social
Google+ - présentation du média socialGoogle+ - présentation du média social
Google+ - présentation du média social
 

Similaire à Extraire et trier des données en ligne 2015

Automation : publier sur les réseaux sociaux quand on a pas le temps
Automation : publier sur les réseaux sociaux quand on a pas le tempsAutomation : publier sur les réseaux sociaux quand on a pas le temps
Automation : publier sur les réseaux sociaux quand on a pas le tempsErwan Tanguy
 
Chirurgie SEO / Solution répulsive contre les pandas #SEOCamp
Chirurgie SEO / Solution répulsive contre les pandas #SEOCampChirurgie SEO / Solution répulsive contre les pandas #SEOCamp
Chirurgie SEO / Solution répulsive contre les pandas #SEOCampHtitipi
 
Automation et réseaux sociaux
Automation et réseaux sociauxAutomation et réseaux sociaux
Automation et réseaux sociauxErwan Tanguy
 
Web 2.0 - CGA Guadeloupe
Web 2.0 - CGA GuadeloupeWeb 2.0 - CGA Guadeloupe
Web 2.0 - CGA GuadeloupeXavier LAIR
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le webQuentin Adam
 
Tutoriel Netvibes
Tutoriel NetvibesTutoriel Netvibes
Tutoriel NetvibesCell'IE
 
Organiser une veille digitale
Organiser une veille digitaleOrganiser une veille digitale
Organiser une veille digitaleErwan Tanguy
 
Rapport nagios miniprojet
Rapport nagios miniprojetRapport nagios miniprojet
Rapport nagios miniprojetAyoub Rouzi
 
Jabes 2019 - Session parallèle "La grande aventure Autorites : tout est supe...
Jabes 2019 - Session parallèle "La grande  aventure Autorites : tout est supe...Jabes 2019 - Session parallèle "La grande  aventure Autorites : tout est supe...
Jabes 2019 - Session parallèle "La grande aventure Autorites : tout est supe...ABES
 
Création de blog et sites internet
Création de blog et sites internetCréation de blog et sites internet
Création de blog et sites internetpiera5
 
Community management david hachez 27.10
Community management david hachez 27.10Community management david hachez 27.10
Community management david hachez 27.10Nomadeo
 
Community management david hachez 27.10
Community management david hachez 27.10Community management david hachez 27.10
Community management david hachez 27.10Nomadeo
 
Comment integrer les applications de votre Systeme Information entre elles ?
Comment integrer les applications de votre Systeme Information entre elles ?Comment integrer les applications de votre Systeme Information entre elles ?
Comment integrer les applications de votre Systeme Information entre elles ?Stéphane Traumat
 
Newsletter Soho Solo N°27 Décembre 09
Newsletter Soho Solo N°27 Décembre 09Newsletter Soho Solo N°27 Décembre 09
Newsletter Soho Solo N°27 Décembre 09Soho Solo Gers
 
La boite à outil web
La boite à outil webLa boite à outil web
La boite à outil webevolucomm
 
Web 2.0 par nouvelle MARQUE
Web 2.0 par nouvelle MARQUEWeb 2.0 par nouvelle MARQUE
Web 2.0 par nouvelle MARQUEnouvelle MARQUE
 

Similaire à Extraire et trier des données en ligne 2015 (20)

Automation : publier sur les réseaux sociaux quand on a pas le temps
Automation : publier sur les réseaux sociaux quand on a pas le tempsAutomation : publier sur les réseaux sociaux quand on a pas le temps
Automation : publier sur les réseaux sociaux quand on a pas le temps
 
Chirurgie SEO / Solution répulsive contre les pandas #SEOCamp
Chirurgie SEO / Solution répulsive contre les pandas #SEOCampChirurgie SEO / Solution répulsive contre les pandas #SEOCamp
Chirurgie SEO / Solution répulsive contre les pandas #SEOCamp
 
Piloter intune avec PowerShell
Piloter intune avec PowerShellPiloter intune avec PowerShell
Piloter intune avec PowerShell
 
Tutoriel netvibes
Tutoriel netvibesTutoriel netvibes
Tutoriel netvibes
 
Automation et réseaux sociaux
Automation et réseaux sociauxAutomation et réseaux sociaux
Automation et réseaux sociaux
 
Web 2.0 - CGA Guadeloupe
Web 2.0 - CGA GuadeloupeWeb 2.0 - CGA Guadeloupe
Web 2.0 - CGA Guadeloupe
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le web
 
Web 2.O
Web 2.OWeb 2.O
Web 2.O
 
Tutoriel Netvibes
Tutoriel NetvibesTutoriel Netvibes
Tutoriel Netvibes
 
Organiser une veille digitale
Organiser une veille digitaleOrganiser une veille digitale
Organiser une veille digitale
 
Rapport nagios miniprojet
Rapport nagios miniprojetRapport nagios miniprojet
Rapport nagios miniprojet
 
Jabes 2019 - Session parallèle "La grande aventure Autorites : tout est supe...
Jabes 2019 - Session parallèle "La grande  aventure Autorites : tout est supe...Jabes 2019 - Session parallèle "La grande  aventure Autorites : tout est supe...
Jabes 2019 - Session parallèle "La grande aventure Autorites : tout est supe...
 
Création de blog et sites internet
Création de blog et sites internetCréation de blog et sites internet
Création de blog et sites internet
 
Tutoriaux
TutoriauxTutoriaux
Tutoriaux
 
Community management david hachez 27.10
Community management david hachez 27.10Community management david hachez 27.10
Community management david hachez 27.10
 
Community management david hachez 27.10
Community management david hachez 27.10Community management david hachez 27.10
Community management david hachez 27.10
 
Comment integrer les applications de votre Systeme Information entre elles ?
Comment integrer les applications de votre Systeme Information entre elles ?Comment integrer les applications de votre Systeme Information entre elles ?
Comment integrer les applications de votre Systeme Information entre elles ?
 
Newsletter Soho Solo N°27 Décembre 09
Newsletter Soho Solo N°27 Décembre 09Newsletter Soho Solo N°27 Décembre 09
Newsletter Soho Solo N°27 Décembre 09
 
La boite à outil web
La boite à outil webLa boite à outil web
La boite à outil web
 
Web 2.0 par nouvelle MARQUE
Web 2.0 par nouvelle MARQUEWeb 2.0 par nouvelle MARQUE
Web 2.0 par nouvelle MARQUE
 

Plus de Erwan Tanguy

Sendinblue freelance fair tour
Sendinblue freelance fair tourSendinblue freelance fair tour
Sendinblue freelance fair tourErwan Tanguy
 
Sendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletterSendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletterErwan Tanguy
 
Outils collaboratifs en formation
Outils collaboratifs en formationOutils collaboratifs en formation
Outils collaboratifs en formationErwan Tanguy
 
Meetup cssflip : shapes et clip-path
Meetup cssflip : shapes et clip-pathMeetup cssflip : shapes et clip-path
Meetup cssflip : shapes et clip-pathErwan Tanguy
 
Creer un site internet sous WordPress
Creer un site internet sous WordPress Creer un site internet sous WordPress
Creer un site internet sous WordPress Erwan Tanguy
 
Diigo – social bookmarking
Diigo – social bookmarkingDiigo – social bookmarking
Diigo – social bookmarkingErwan Tanguy
 
Video social marketing et cv - les bases
Video social marketing et cv - les basesVideo social marketing et cv - les bases
Video social marketing et cv - les basesErwan Tanguy
 
Référencement naturel (SEO) - les bases
Référencement naturel (SEO) - les basesRéférencement naturel (SEO) - les bases
Référencement naturel (SEO) - les basesErwan Tanguy
 
Animer un site web - web café
Animer un site web - web caféAnimer un site web - web café
Animer un site web - web caféErwan Tanguy
 
Gérer un fan page facebook
Gérer un fan page facebookGérer un fan page facebook
Gérer un fan page facebookErwan Tanguy
 
Organiser une veille sur internet
Organiser une veille sur internetOrganiser une veille sur internet
Organiser une veille sur internetErwan Tanguy
 
Support formation : les outils collaboratifs
Support formation : les outils collaboratifsSupport formation : les outils collaboratifs
Support formation : les outils collaboratifsErwan Tanguy
 

Plus de Erwan Tanguy (20)

Sendinblue freelance fair tour
Sendinblue freelance fair tourSendinblue freelance fair tour
Sendinblue freelance fair tour
 
Sendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletterSendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletter
 
Outils collaboratifs en formation
Outils collaboratifs en formationOutils collaboratifs en formation
Outils collaboratifs en formation
 
Meetup cssflip : shapes et clip-path
Meetup cssflip : shapes et clip-pathMeetup cssflip : shapes et clip-path
Meetup cssflip : shapes et clip-path
 
Creer un site internet sous WordPress
Creer un site internet sous WordPress Creer un site internet sous WordPress
Creer un site internet sous WordPress
 
Slack
SlackSlack
Slack
 
Wordpress meetup
Wordpress meetupWordpress meetup
Wordpress meetup
 
Diigo – social bookmarking
Diigo – social bookmarkingDiigo – social bookmarking
Diigo – social bookmarking
 
Video social marketing et cv - les bases
Video social marketing et cv - les basesVideo social marketing et cv - les bases
Video social marketing et cv - les bases
 
Référencement naturel (SEO) - les bases
Référencement naturel (SEO) - les basesRéférencement naturel (SEO) - les bases
Référencement naturel (SEO) - les bases
 
Les base du Html5
Les base du Html5Les base du Html5
Les base du Html5
 
Newsletters rwd
Newsletters rwdNewsletters rwd
Newsletters rwd
 
Les bases du CSS3
Les bases du CSS3Les bases du CSS3
Les bases du CSS3
 
Animer un site web - web café
Animer un site web - web caféAnimer un site web - web café
Animer un site web - web café
 
Twitter
TwitterTwitter
Twitter
 
Gérer un fan page facebook
Gérer un fan page facebookGérer un fan page facebook
Gérer un fan page facebook
 
Diigo - formation
Diigo - formationDiigo - formation
Diigo - formation
 
Organiser une veille sur internet
Organiser une veille sur internetOrganiser une veille sur internet
Organiser une veille sur internet
 
Audit de site web
Audit de site webAudit de site web
Audit de site web
 
Support formation : les outils collaboratifs
Support formation : les outils collaboratifsSupport formation : les outils collaboratifs
Support formation : les outils collaboratifs
 

Extraire et trier des données en ligne 2015

  • 1. Extraire et trier des données en ligne Erwan Tanguy Stratégie et veille 06 62 15 11 02 erwan@ouestlab.fr http://ouestlab.fr/
  • 2. Web scraping ? Le web scraping est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. Attention, il peut y avoir une utilisation légale ou illégale du web scraping. Nous nous intéresserons qu’à la première. 2
  • 3. Web scraping ? Pour quoi faire ?  Transférer des données d’un site vers un autre site ou vers un document (type tableau Excel) ;  Transformer des données pour y ajouter une valeur avant de la partager sur des réseaux sociaux ;  Récupérer des informations provenant de la concurrence pour pouvoir les analyser ;  Illégal : récupérer des données, les publier à son compte, les vendre ;  … 3
  • 4. Pour faire de la veille ? La veille est un élément stratégique important et souvent négligé. Elle aide à prendre des décisions, permet d’évoluer et de rester à l’écoute. Ce n’est en aucun cas de l’espionnage ! La veille numérique travaille à partir des données disponible légalement sur internet. La veille, associée à des techniques de web scraping, va pouvoir récupérer des données et les rendre lisibles, accessibles, pour un public large ou pour des personnes précises. Ces données, provenant généralement de sites web, pourront être récupérées au sein d’un document dynamique (un spreadsheet sur Google Drive par exemple) ou compilées sur un flux RSS dans le but d’alimenter une newsletter… 4
  • 5. Des outils de web scraping Pour récupérer des données :  Google spreadsheet ;  Import.io ;  Kimono ;  Feed43 ; Pour trier, transformer ou compiler les données :  Feed Rinse ;  RSS Mixer ;  Dlvr.it… Pour pousser les données :  IFTTT ;  Dlvr.it ;  Zapier… Pour partager les données :  Les suites d’outils Google (Drive, Group…) ;  Excel ;  Des intranets ou des sites privés…  Des sites ou des réseaux sociaux ouverts… 5
  • 7. Import.io Dans la liste des outils gratuits permettant de réaliser une récupération de données, vous pouvez utiliser Import.io qui propose un espace en ligne et une application. 7
  • 8. Partons d’un exemple Sur une page de vente immobilière du site pap.fr, je voudrais suivre les nouvelles vente de maisons, d’appartements ou autres au fur et à mesure. URL : http://www.pap.fr/annonce/vent e-immobiliere-rennes-35-g43618 8
  • 9. Partons d’un exemple 9 Sur cette page, je ne souhaite récupérer que les informations de zones précises liées à ma recherche : une liste de vente.
  • 10. Import.io Cet outil est relativement simple à utiliser puisqu’il nécessite juste de zoner les parties de la page avec laquelle nous souhaitons réaliser un flux. Le flux obtenu pourra être récupérer en tableau soit dans Excel soit dans un spreadsheet sur Drive (avec la possibilité de le rendre dynamique). 10
  • 11. Import.io Plusieurs méthodes d’extraction des données sont possibles via l’application gratuite :  Magic propose automatiquement de récupérer les données qui semblent être les plus évidentes  Extractor & Classic Extractor vous permet de cibler les éléments de la page et de les organiser dans un tableau  Authenticated Extrator vous permet d’extraire des données sur un site qui nécessite une authentification (attention, cela peut être illégale si vous transmettez ces données) 11
  • 21. Import.io > Extractor Dans cette partie de l’application, vous allez pouvoir ajouter les liens des paginations suivantes pour récupérer la suite des données. 21
  • 22. Import.io > Crawler La puissance de Import.io se cache dans l’outil « Crawler » qui va permettre d’aller beaucoup plus loin dans l’extraction de données : Vous allez pouvoir, à partir de quelques pages du même modèle, scanner (crawler) un site entier ! 22
  • 33. kimonolabs 33 Un autre outil pour la récupération de données.
  • 34. kimonolabs Kimonomabs propose une plateforme en ligne et un bookmarklet pour déclencher la récupération des données sur une page. Les formats de sorties sont en json, csv ou rss. Assez simple donc ensuite de les importer en dynamique sur un spreadsheet par exemple. Comme pour import.io, l’outil étant simple, il reste limité. Pour notre exemple, il est impossible de récupérer les images des annonces. 34
  • 35. kimonolabs À partir du bookmarklet, vous allez pouvoir définir, propriété par propriété, les différents éléments de votre tableaux. Si vous souhaitez récupérer un flux RSS par la suite, je vous conseille de suivre les noms « title » et « description » pour définir les données principales, cela simplifiera sa création. Une fois terminé, il ne vous reste plus qu’à enregistrer votre API et la consulter ou l’intégrer à une plateforme ou un logiciel. 35
  • 38. Sociallymap > les entités • Sociallymap permet de gérer l’automatisation des publications vers vos réseaux sociaux. • Cette application en ligne est modulaire. Les premiers modules – les entités - vous permettent de vous connecter à :  Twitter  Facebook (compte et page)  Linkedin (compte et page)  Instagram • Vous avez aussi la possibilité de récupérer des flux RSS et de stocker du contenu. 38
  • 39. Sociallymap > les opérateurs Les autres modules – les opérateurs – vous permettent de gérer les contenus et leurs diffusion :  Les filtres  Le délai  Le régulateur  Le timer  Le module de rajout  Le module photo  Le modérateur Ces modules vont réguler la publication de vos flux pour éviter un engorgement qui serait néfaste à leur visibilité. 39
  • 40. Sociallymap > ouvrir un tableau de bord Pour commencer, nous devons ajouter un tableau de bord qui nous permettra d’avoir, sur une carte, l’ensemble des automatisations d’une ville, par exemple. Il suffit de glisser et déposer les modules des entités et des opérateurs sur le tableaux de bord pour les utiliser. 40 Les modules Le tableaude bord
  • 41. Sociallymap > Glisser un module 41
  • 42. Sociallymap > exemple Prenons comme exemple le flux des concerts de la ville de Rouen sur Dreamville pour Facebook (http://goo.gl/kkaukS). Nous insérons le module flux RSS sur un tableau de bord. Nous le renommons et ajoutons l’URL du flux avant de valider. 42
  • 47. Sociallymap 47 2 modules « timer » pour varier les temps de publications en fonctions des jours
  • 48. Sociallymap > remarques 48 La citerne va envoyer vos contenus toutes les 5 minutes, ce qui peut vite devenir agaçant pour les internautes qui vous suivent. Attention : il ne faut pas placer un régulateur avant un timer, vous risquez de ne pas voir vos publications. Lire aussi http://blog.sociallymap.com/astu ce-ne-jamais-placer-un- regulateur-devant-un-timer/ et http://blog.sociallymap.com/astu ce-placer-un-regulateur-entre- une-citerne-et-un-profil-social/ pour le placement des modules.
  • 49. Sociallymap 49 Exemple de tableau sur des envois vers une page Facebook
  • 51. IFTTT IFTTT est un service en ligne et gratuit qui permet d’automatiser des tâches plus ou moins complexes. Dans la liste des « Channels », il y a aujourd’hui plus de 220 applications qui peuvent de connecter à IFTTT : Réseaux sociaux, Mobile (Android, iOS…), Google (Gmail, Drive…), Microsoft (OneDrive, Office 365…), Objets connectés… 51
  • 52. IFTTT > exemple avec un flux À partir d’un flux RSS, nous allons automatiser une tâche pour récupérer tous les nouveaux items dans un tableau sur Google Drive. Flux : http://lemonde.feedsportal.com /c/205/f/672609/index.rss Avec un filtre sur le mot « web » et ainsi ne récupérer que les items ayant ce mot… 52
  • 53. IFTTT > exemple avec un flux 53
  • 57. Et aussi RSS Mixer Simple outil de compilation de flux, il vous permettra de générer un flux unique à partir d’un ensemble de flux RSS. Feed Rinse À la fois compilateur de flux et filtre, il vous permettra dans un ou plusieurs flux de filtrer autour de mots clés les contenus. 57
  • 58. Voir en ligne  La page sur pap.fr : http://goo.gl/62sOtz  La présentation sur slideshare (téléchargeable en PDF) : http://goo.gl/XoFzmx  http://app.sociallymap.com  http://www.feedrinse.com  http://www.rssmixer.com/  Tableau des données sur import.io : http://goo.gl/WsRo7u  Flux RSS du kimonolabs : http://goo.gl/hRdqcX 58
  • 59. 59 Votre interlocuteur Domaines d’expertise :  Formation,  Réseaux sociaux,  Référencement naturel,  Définition de stratégie de contenu,  Analyse des statistiques,  Veille numérique,  Réalisation de sites web (WordPress). Des questions ? 06 62 15 11 02 erwan@ouestlab.fr http://ouestlab.fr/ Erwan Tanguy