SlideShare une entreprise Scribd logo
WEB SCRAPING
01
02
03
04
05
INTRODUCTION AU WEB SCRAPING
POURQUOI LE WEB SCRAPING?
UTILISATION DE PYTHON ET BEAUTIFULSOUP POUR
LE WEB SCRAPING
ÉTAPES DU PROCESSUS DE WEB SCRAPING
UTILISATION ANACONDA ET JUPYTER POUR LE WEB
SCRAPING
INTRODUCTION
Le Web Scraping, également connu sous le nom
d'extraction de données web, est une technique
permettant d'extraire automatiquement des
informations à partir de sites Web. Il permet de
collecter des données telles que du texte, des
images, des liens et d'autres éléments à partir de
pages web de manière systématique et rapide.
Web scraping
?
POURQUOI LE WEB SCRAPING?
VOICI QUELQUES RAISONS POUR LESQUELLES
LE WEB SCRAPING EST SI UTILE
Accès à des données précieuses et volumineuses
Le Web Scraping permet de collecter ces données à grande
échelle, ce qui permet d'obtenir une vue d'ensemble et des
informations détaillées
Automatisation de la collecte d'informations
• Le Web Scraping automatise le processus de collecte de
données en extrayant les informations directement à partir
des sites Web.
• Cela permet d'économiser un temps précieux et d'éliminer
les tâches manuelles fastidieuses.
Extraction de données structurées
• Le Web Scraping permet d'extraire des données structurées
à partir de sites Web, telles que des listes de produits, des
avis clients, des informations de contact, etc.
• Ces données peuvent être analysées, agrégées et utilisées
dans diverses applications.
Recherche et analyse
• Le Web Scraping facilite la recherche et l'analyse en
fournissant un accès rapide et automatisé à des données
spécifiques.
QUELS SONT LES PRINCIPAUX CAS
D'UTILISATION DU WEB SCRAPING ?
Généralement, la collecte de données sur le web est utilisée par les personnes et les
entreprises qui veulent utiliser la vaste quantité de données disponibles sur le web
pour prendre des décisions plus intelligentes.
UTILISATION DE PYTHON ET
BEAUTIFULSOUP POUR LE WEB SCRAPING
Python est réputé pour sa simplicité et sa lisibilité, ce qui le rend
accessible même aux débutants en programmation.
Il offre une syntaxe concise et compréhensible, ce qui facilite le
développement et la maintenance du code.
Langage polyvalent et facile à apprendre
Vaste écosystème de bibliothèques
Facilité d'installation et de configuration
Intégration avec d'autres technologies
-
Scrapy
-
BeautifulSoup
-Pyspider
-Requests
-Selenuim
Les libraires Python pour le web
scraping
• BeautifulSoup est une bibliothèque Python
qui facilite le parsing et l'extraction de
données à partir de documents HTML et XML.
• Elle fournit des fonctionnalités avancées
pour naviguer dans la structure du document
et extraire les informations souhaitées.
• requests-html est une bibliothèque Python qui
simplifie l'accès au contenu des pages Web.
• Elle permet de récupérer facilement le contenu
HTML d'une page Web, d'effectuer des requêtes
HTTP avancées et de manipuler le contenu
dynamique généré par JavaScript.
BeautifulSou
p
requests-
html
UTILISATION Anaconda et Jupyter
pour le Web Scraping
En utilisant Anaconda et Jupyter, vous bénéficiez d'un
environnement de développement puissant, de bibliothèques
préinstallées et d'une interface interactive pour faciliter
l'exploration des données et le développement de vos projets
de Web Scraping.
ÉTAPES DU PROCESSUS
DE WEB SCRAPING
COLLECTE DES DONNÉES :
EXTRACTION DES DONNÉES :
•
•
•
NETTOYAGE ET PRÉTRAITEMENT DES DONNÉES :
•
•
•
STOCKAGE ET UTILISATION DES DONNÉES :
RÉALISATION

Contenu connexe

Similaire à Web Scraping definition steps and goals

Web scraping avec r
Web scraping avec rWeb scraping avec r
Web scraping avec r
Folly KOUGBAGAN
 
Programmer en html5, css 3 et java script (70 480)
Programmer en html5, css 3 et java script (70 480)Programmer en html5, css 3 et java script (70 480)
Programmer en html5, css 3 et java script (70 480)
Chamseddine Ouerhani
 
Wpl83 g formation-installation-et-administration-de-ibm-websphere-portal-8-su...
Wpl83 g formation-installation-et-administration-de-ibm-websphere-portal-8-su...Wpl83 g formation-installation-et-administration-de-ibm-websphere-portal-8-su...
Wpl83 g formation-installation-et-administration-de-ibm-websphere-portal-8-su...CERTyou Formation
 
LabVIEW™ internet and network applications
LabVIEW™ internet and network applicationsLabVIEW™ internet and network applications
LabVIEW™ internet and network applications
Alexandre STANURSKI
 
Spring Boot RestApi.pptx
Spring Boot RestApi.pptxSpring Boot RestApi.pptx
Présentation sharepoint 2013
Présentation sharepoint 2013Présentation sharepoint 2013
Présentation sharepoint 2013
Mohammed Amine Mostefai
 
Javav formation-java-avance-hibernate-webservices
Javav formation-java-avance-hibernate-webservicesJavav formation-java-avance-hibernate-webservices
Javav formation-java-avance-hibernate-webservicesCERTyou Formation
 
WEB SERVICE SOAP, JAVA, XML, JAXWS
WEB SERVICE SOAP, JAVA, XML, JAXWSWEB SERVICE SOAP, JAVA, XML, JAXWS
WEB SERVICE SOAP, JAVA, XML, JAXWS
Lhouceine OUHAMZA
 
Gestion organisationnelle données géospatiales
Gestion organisationnelle données géospatialesGestion organisationnelle données géospatiales
Gestion organisationnelle données géospatiales
Geomap GIS America
 
La caisse à outils de la visualisation d'informations
La caisse à outils de la visualisation d'informationsLa caisse à outils de la visualisation d'informations
La caisse à outils de la visualisation d'informationsChristopheTricot
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
MS Cloud Summit
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
Pierre Ammeloot
 
Introduction au développement Web
Introduction au développement Web Introduction au développement Web
Introduction au développement Web
Romain Willmann
 
Pp1
Pp1Pp1
M10958 formation-les-fondamentaux-de-la-programmation-d-applications-web
M10958 formation-les-fondamentaux-de-la-programmation-d-applications-webM10958 formation-les-fondamentaux-de-la-programmation-d-applications-web
M10958 formation-les-fondamentaux-de-la-programmation-d-applications-webCERTyou Formation
 
Archivage du web gouvernemental senegalais
Archivage du web gouvernemental senegalaisArchivage du web gouvernemental senegalais
Archivage du web gouvernemental senegalais
Université Cheikh Anta Diop de Dakar
 
Migration sharepoint 2013
Migration sharepoint 2013Migration sharepoint 2013
Migration sharepoint 2013
Michael Nokhamzon
 
DocAve, une plateforme pour accélérer l’adoption et sécuriser l’usage de shar...
DocAve, une plateforme pour accélérer l’adoption et sécuriser l’usage de shar...DocAve, une plateforme pour accélérer l’adoption et sécuriser l’usage de shar...
DocAve, une plateforme pour accélérer l’adoption et sécuriser l’usage de shar...Antoine Driard
 
Library PowerPoint (3).pptx
Library PowerPoint (3).pptxLibrary PowerPoint (3).pptx
Library PowerPoint (3).pptx
yasminebenhamza
 
Dépliant Formation Continue - Nouvelles Technologies du Web 14-15
Dépliant Formation Continue - Nouvelles Technologies du Web 14-15Dépliant Formation Continue - Nouvelles Technologies du Web 14-15
Dépliant Formation Continue - Nouvelles Technologies du Web 14-15
Camille Tardy
 

Similaire à Web Scraping definition steps and goals (20)

Web scraping avec r
Web scraping avec rWeb scraping avec r
Web scraping avec r
 
Programmer en html5, css 3 et java script (70 480)
Programmer en html5, css 3 et java script (70 480)Programmer en html5, css 3 et java script (70 480)
Programmer en html5, css 3 et java script (70 480)
 
Wpl83 g formation-installation-et-administration-de-ibm-websphere-portal-8-su...
Wpl83 g formation-installation-et-administration-de-ibm-websphere-portal-8-su...Wpl83 g formation-installation-et-administration-de-ibm-websphere-portal-8-su...
Wpl83 g formation-installation-et-administration-de-ibm-websphere-portal-8-su...
 
LabVIEW™ internet and network applications
LabVIEW™ internet and network applicationsLabVIEW™ internet and network applications
LabVIEW™ internet and network applications
 
Spring Boot RestApi.pptx
Spring Boot RestApi.pptxSpring Boot RestApi.pptx
Spring Boot RestApi.pptx
 
Présentation sharepoint 2013
Présentation sharepoint 2013Présentation sharepoint 2013
Présentation sharepoint 2013
 
Javav formation-java-avance-hibernate-webservices
Javav formation-java-avance-hibernate-webservicesJavav formation-java-avance-hibernate-webservices
Javav formation-java-avance-hibernate-webservices
 
WEB SERVICE SOAP, JAVA, XML, JAXWS
WEB SERVICE SOAP, JAVA, XML, JAXWSWEB SERVICE SOAP, JAVA, XML, JAXWS
WEB SERVICE SOAP, JAVA, XML, JAXWS
 
Gestion organisationnelle données géospatiales
Gestion organisationnelle données géospatialesGestion organisationnelle données géospatiales
Gestion organisationnelle données géospatiales
 
La caisse à outils de la visualisation d'informations
La caisse à outils de la visualisation d'informationsLa caisse à outils de la visualisation d'informations
La caisse à outils de la visualisation d'informations
 
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...J1 T1 1 - Azure Data Platform, quelle solution pour quel usage  - Charles-Hen...
J1 T1 1 - Azure Data Platform, quelle solution pour quel usage - Charles-Hen...
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
 
Introduction au développement Web
Introduction au développement Web Introduction au développement Web
Introduction au développement Web
 
Pp1
Pp1Pp1
Pp1
 
M10958 formation-les-fondamentaux-de-la-programmation-d-applications-web
M10958 formation-les-fondamentaux-de-la-programmation-d-applications-webM10958 formation-les-fondamentaux-de-la-programmation-d-applications-web
M10958 formation-les-fondamentaux-de-la-programmation-d-applications-web
 
Archivage du web gouvernemental senegalais
Archivage du web gouvernemental senegalaisArchivage du web gouvernemental senegalais
Archivage du web gouvernemental senegalais
 
Migration sharepoint 2013
Migration sharepoint 2013Migration sharepoint 2013
Migration sharepoint 2013
 
DocAve, une plateforme pour accélérer l’adoption et sécuriser l’usage de shar...
DocAve, une plateforme pour accélérer l’adoption et sécuriser l’usage de shar...DocAve, une plateforme pour accélérer l’adoption et sécuriser l’usage de shar...
DocAve, une plateforme pour accélérer l’adoption et sécuriser l’usage de shar...
 
Library PowerPoint (3).pptx
Library PowerPoint (3).pptxLibrary PowerPoint (3).pptx
Library PowerPoint (3).pptx
 
Dépliant Formation Continue - Nouvelles Technologies du Web 14-15
Dépliant Formation Continue - Nouvelles Technologies du Web 14-15Dépliant Formation Continue - Nouvelles Technologies du Web 14-15
Dépliant Formation Continue - Nouvelles Technologies du Web 14-15
 

Dernier

Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
contact Elabe
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
contact Elabe
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
contact Elabe
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
contact Elabe
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
contact Elabe
 
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
contact Elabe
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
Institut de l'Elevage - Idele
 
L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024
contact Elabe
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
contact Elabe
 
Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
contact Elabe
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
La Fabrique de l'industrie
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
contact Elabe
 

Dernier (12)

Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
 
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
 
L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
 
Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
 
Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
 

Web Scraping definition steps and goals

  • 2. 01 02 03 04 05 INTRODUCTION AU WEB SCRAPING POURQUOI LE WEB SCRAPING? UTILISATION DE PYTHON ET BEAUTIFULSOUP POUR LE WEB SCRAPING ÉTAPES DU PROCESSUS DE WEB SCRAPING UTILISATION ANACONDA ET JUPYTER POUR LE WEB SCRAPING
  • 3. INTRODUCTION Le Web Scraping, également connu sous le nom d'extraction de données web, est une technique permettant d'extraire automatiquement des informations à partir de sites Web. Il permet de collecter des données telles que du texte, des images, des liens et d'autres éléments à partir de pages web de manière systématique et rapide. Web scraping ?
  • 4. POURQUOI LE WEB SCRAPING?
  • 5. VOICI QUELQUES RAISONS POUR LESQUELLES LE WEB SCRAPING EST SI UTILE Accès à des données précieuses et volumineuses Le Web Scraping permet de collecter ces données à grande échelle, ce qui permet d'obtenir une vue d'ensemble et des informations détaillées Automatisation de la collecte d'informations • Le Web Scraping automatise le processus de collecte de données en extrayant les informations directement à partir des sites Web. • Cela permet d'économiser un temps précieux et d'éliminer les tâches manuelles fastidieuses.
  • 6. Extraction de données structurées • Le Web Scraping permet d'extraire des données structurées à partir de sites Web, telles que des listes de produits, des avis clients, des informations de contact, etc. • Ces données peuvent être analysées, agrégées et utilisées dans diverses applications. Recherche et analyse • Le Web Scraping facilite la recherche et l'analyse en fournissant un accès rapide et automatisé à des données spécifiques.
  • 7. QUELS SONT LES PRINCIPAUX CAS D'UTILISATION DU WEB SCRAPING ?
  • 8.
  • 9. Généralement, la collecte de données sur le web est utilisée par les personnes et les entreprises qui veulent utiliser la vaste quantité de données disponibles sur le web pour prendre des décisions plus intelligentes.
  • 10.
  • 11. UTILISATION DE PYTHON ET BEAUTIFULSOUP POUR LE WEB SCRAPING
  • 12. Python est réputé pour sa simplicité et sa lisibilité, ce qui le rend accessible même aux débutants en programmation. Il offre une syntaxe concise et compréhensible, ce qui facilite le développement et la maintenance du code. Langage polyvalent et facile à apprendre Vaste écosystème de bibliothèques Facilité d'installation et de configuration Intégration avec d'autres technologies
  • 14. • BeautifulSoup est une bibliothèque Python qui facilite le parsing et l'extraction de données à partir de documents HTML et XML. • Elle fournit des fonctionnalités avancées pour naviguer dans la structure du document et extraire les informations souhaitées. • requests-html est une bibliothèque Python qui simplifie l'accès au contenu des pages Web. • Elle permet de récupérer facilement le contenu HTML d'une page Web, d'effectuer des requêtes HTTP avancées et de manipuler le contenu dynamique généré par JavaScript. BeautifulSou p requests- html
  • 15. UTILISATION Anaconda et Jupyter pour le Web Scraping
  • 16.
  • 17.
  • 18. En utilisant Anaconda et Jupyter, vous bénéficiez d'un environnement de développement puissant, de bibliothèques préinstallées et d'une interface interactive pour faciliter l'exploration des données et le développement de vos projets de Web Scraping.
  • 19. ÉTAPES DU PROCESSUS DE WEB SCRAPING
  • 20. COLLECTE DES DONNÉES : EXTRACTION DES DONNÉES : • • •
  • 21. NETTOYAGE ET PRÉTRAITEMENT DES DONNÉES : • • • STOCKAGE ET UTILISATION DES DONNÉES :