SlideShare une entreprise Scribd logo
1  sur  39
CRAWLER
Sophie Jacob
Inès de Courchelle

1
PLAN
I. Introduction
II. Les types de Crawler
III. Protocole et sécurité
IV. Conclusion
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Définitions 1
Définition 1
« Un crawler est un programme qui visite les sites internet, lit les pages et leur
informations afin de créer des entrées pour permettre à un moteur de recherche de les
indexer. »

Site internet

PROGRAMME
Entrée
Moteur de recherche

3
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Définitions 2
Définition 2
« Un Crawler est un programme qui collecte automatiquement des pages web
pour construire un index ou une collection locale. »

Collection
PROGRAMME

4
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Définition 3
Définition 3
« Le crawler est le robot logiciel utilisé par les moteurs de recherches pour
parcourir le réseau et les sites web de lien en lien afin d’archiver les pages web
parcourues au sein des index de référencement. Chaque moteur utilise un robot
qui lui est propre. »

5
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Ce que l’on retient
Les robots d’indexation sont liés aux moteurs de recherche
En anglais : Web crawler, Web Spider
En français : araignée du Web, collecteur
Le crawler est un programme :
– Collecte automatiquement des données
– Tri les données
– Stock les données
6
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Genesis
1990 : Le premier moteur de recherche Archie
1993 : Wanderer (« le Vagabond ») est le premier robot
d’indexation
1993 : Le premier moteur intelligent Excite
1994 : Yahoo
1995 – 1997 : Altavista
1998 : Google
7
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Enjeux des moteurs de recherche

Indexer plus précisément
Mieux cibler le contenu de la page
Mieux déterminer sa pertinence

 Répondre aux besoins de l’utilisateur

8
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Le principe du Crawler

Lire les méta données d’un site
Les classer
Les stocker

Les lier

9
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Fonctionnement d’un crawler
Il arrive sur une page

– Déjà indexée
– Non indexée
Le robot a le droit de l’indexer ?
Le robot stock le lien dans une file
Le robot extrait les méta données

Le robots enregistre les méta données
10
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Illustration
Lien1
Lien2
Lien3

Index /
collection locale
Mot 1
Mot 2
Mot 3

Lien 1
Lien 4
Lien 5
Lien 6
File de pages à visiter

Lien 4
Lien 5
Lien 6
11
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Bilan
Un crawler voyage de site en site

Aucune intervention humaine
Une Base de données
Un Web crawler a une durée de vie limitée
– But : ne pas surcharger le serveur

12
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Les différents types de crawler
Différent types d’indexation
Coder un crawler en php
Les crawlers des moteurs de recherches

13
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Crawler Périodique
Crawler de « rafraîchissement », tourne en continu
Optimise la fraîcheur de la bases

Collection
Lien A
Lien B
Lien C

14
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Crawler de deep-web
Crawler couplé à une table d’association (Label/Value)
Capable de remplir un formulaire
Label

Value

1

Pierre

2

Claire

15
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Crawler de forum
Corrélation topologique/sémantique naturelle
Extraction de profils d’acteurs

Acteurs
Acteur A
Acteur B

Acteur C

16
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Crawler incrémental
Continue à visiter les pages, même après l’atteignabilité de
la taille maximum de la collection
Puis lorsque l’on demande de remettre à jour la collection
on remplace les pages selon leur «importance»
Collection
1

Lien A

2

Lien B

3

Lien C
17
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Les crawlers des moteurs de recherches
Robot d’exploration

Moteur de recherche

Googlebot

Google

Yahoo Slurp

Yahoo! Search

Bingbot

Bing

Scooter

AltaVista

18
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Protection contre les Crawlers
Protocole d’exclusion des robots
Standard for Robot Exclusion (SRE)
Format du fichier « /robots.txt »
Intérêt du protocole d’exclusion
Robots malveillants

19
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Règles de bon usage
selection policy
revisit policy
politeness policy
parallelization policy

20
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Règles de bon usage
selection policy
– quelles pages indexer
– éviter d'indexer tout le web
– exemple : l'importance de la page peut être déterminée
par le nombre de liens dirigés ou redirigés par cette
page
revisit policy
– quand vérifier s'il y a des changements dans les pages
– minimiser les visites
– éviter de retourner une valeur obsolète
21
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Règles de bon usage
politeness policy
– Éviter les surcharges de page web
– Interdire certaines portions du site web
parallelization policy
– coordonner les robots d'indexation qui visitent le même
espace
– maximiser les téléchargements de page empêcher les
robots de télécharger les mêmes pages

22
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Protocole d’exclusion des robots
Années 1990
Augmentation d’incidents : ralentissement des serveurs
Rédaction de règles pour indiquer aux robots les zones non
accessibles des sites web

23
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Standard for Robot Exclusion (SRE)
Méthode pour exclure les robots d’un serveur
Politique d’accès pour les robots
Liste de pages qui ne peuvent être visitées
Accessible via l’adresse ‘’/robots.txt’’
Facile à implémenter sur tous les sites

24
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Protocole d’exclusion des robots
Inconvénient : seul l’administrateur du serveur a accès au
fichier et peut mettre à jour cette liste

Avantage : limitation des pages et des informations à
indexer

25
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Format du fichier « /robots.txt »
Il se compose de plusieurs enregistrements
User-agent

Nom du ou des robots décrit par
l’enregistrement

Disallow

Spécifie les adresses URL des sites qu’il ne faut
pas visiter. Le chemin peut être entier ou non

26
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Recherche du fichier « /robots.txt »

En-tête du
site

Robot.txt

Vide

Visite
toutes les
pages

27
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Format du fichier « /robots.txt »
Autoriser tous les robots à accéder au site
User-agent: *
Disallow:

Interdire l’accès au site à tous les robots
User-agent: *
Disallow: /

28
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Format du fichier « /robots.txt »
Interdire l’accès au site à un robot particulier
User-agent: googlebot #nom du robot
Disallow:

Interdire l’accès à une URL du site
User-agent: *
Disallow: /help

29
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Démonstration

30
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Intérêt du protocole d’exclusion

Éviter que des ressources sans intérêt public soient visibles
dans la page de résultat d’un moteur de recherche
Alléger le travail du serveur HTTP
Alléger le trafic sur le réseau informatique (moins de
requêtes)
31
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Robots malveillants
Ignorent le fichier ‘’robots.txt’’
Accèdent aux adresses URL quand même
Récolte d’informations privées (adresses personnelles)
Revente (SPAM et HACK)

Ralentissent le trafic

32
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Bilan
Créer un fichier robots.txt
Bloquer l’adresse IP lorsqu’elle est identifiée
Robots.txt est une convention : peut ne pas être respectée

33
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Quelques chiffres

Ces informations sont fournies par YAKINO ©
sondage réalisé le 12/12/2013
10966 connexions échantillonnées sur 11 sites
période concernée : 27/11/2013 - 11/12/2013

34
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Quelques chiffres

NAHRGANG Marco
DELHOMME David
2003 – 2004
Les moteurs de recherches comment ça marche ?
35
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Sources
[1] http://www.robotstxt.org/orig.html
– Titre : A Standard for Robot Exclusion
– Auteur : Martijn Koster
– Date de publication : 2007
[2] http://nlp.stanford.edu/IR-book/pdf/20crawl.pdf :
– Auteurs : Campbridge
– Titre : Crawling and web indexes
– Date de publication : 2009

36
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Sources
[3]
http://www.lesitedemika.org/ressources/moteurs_recherche.pdf
– Auteurs : Mickaël MARCHAL, Nadia TEA
– Date publication : 2007
– Titre : les moteurs de recherche
[4] http://www.sfs.uni-tuebingen.de/~parmenti/slides/slides111x4.pdf
– Auteurs : Wintersemester
– Date publication : 2007
– Titre : Web crawling
37
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Sources
[5]
http://www.cellopoint.com/media_resources/blogs/2011/
03/Web_Crawlers :
– Titre Crawling Policies
– Auteur : June Huang
– Date de publication : 8/03/2011
[6] http://www.thesitewizard.com/archive/robotstxt.shtml
– Titre : How to set up a robots.txt to control search
engine spiders
– Auteur : Christopher Heng
– Date de publication : 2001-2010
38
QUESTIONS ?

Contenu connexe

En vedette

En vedette (16)

Marina A i Norah
Marina A i NorahMarina A i Norah
Marina A i Norah
 
Calculer le prix des travaux
Calculer le prix des travauxCalculer le prix des travaux
Calculer le prix des travaux
 
Pressent1
Pressent1Pressent1
Pressent1
 
Crise écologique
 Crise écologique Crise écologique
Crise écologique
 
Biblio arenal-filosofía
Biblio arenal-filosofíaBiblio arenal-filosofía
Biblio arenal-filosofía
 
Sobre la transparencia en las organizaciones
Sobre la transparencia en las organizacionesSobre la transparencia en las organizaciones
Sobre la transparencia en las organizaciones
 
Fundamentos de Mineria
Fundamentos de MineriaFundamentos de Mineria
Fundamentos de Mineria
 
Ronda de gelatina difusion
Ronda de gelatina difusionRonda de gelatina difusion
Ronda de gelatina difusion
 
Presentación de fotos
Presentación de fotosPresentación de fotos
Presentación de fotos
 
IES Victoria Kent. Herramientas 2.0
IES Victoria Kent. Herramientas 2.0IES Victoria Kent. Herramientas 2.0
IES Victoria Kent. Herramientas 2.0
 
Quelles relations entre tourisme, changement climatique et territoires?
Quelles relations entre tourisme, changement climatique et territoires?Quelles relations entre tourisme, changement climatique et territoires?
Quelles relations entre tourisme, changement climatique et territoires?
 
Lanzarote
LanzaroteLanzarote
Lanzarote
 
Parc Bit (Vicenç Matas)
Parc Bit (Vicenç Matas)Parc Bit (Vicenç Matas)
Parc Bit (Vicenç Matas)
 
Ayuda al profesor
Ayuda al profesorAyuda al profesor
Ayuda al profesor
 
Instalaci..Are
Instalaci..AreInstalaci..Are
Instalaci..Are
 
Fractions
FractionsFractions
Fractions
 

Similaire à Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Philippe YONNET
 
Deck seo campus 2011 utiliser les logs serveurs
Deck seo campus 2011   utiliser les logs serveursDeck seo campus 2011   utiliser les logs serveurs
Deck seo campus 2011 utiliser les logs serveursPhilippe YONNET
 
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...SEARCH Y - Philippe Yonnet Evénements
 
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...Marc Akoley
 
Cours services web_fabrice_mourlin
Cours services web_fabrice_mourlinCours services web_fabrice_mourlin
Cours services web_fabrice_mourlinangeeLee
 
20090929 04 - Securité applicative, hacking et risque applicatif
20090929 04 - Securité applicative, hacking et risque applicatif20090929 04 - Securité applicative, hacking et risque applicatif
20090929 04 - Securité applicative, hacking et risque applicatifLeClubQualiteLogicielle
 
070219 Webinar Sensibilisation Sécurité Logiciel Everteam
070219 Webinar Sensibilisation Sécurité Logiciel Everteam070219 Webinar Sensibilisation Sécurité Logiciel Everteam
070219 Webinar Sensibilisation Sécurité Logiciel EverteamEverteam
 
Securitedesapplications 091011120426-phpapp02
Securitedesapplications 091011120426-phpapp02Securitedesapplications 091011120426-phpapp02
Securitedesapplications 091011120426-phpapp02Asma Messaoudi
 
Introduction au RSS
Introduction au RSSIntroduction au RSS
Introduction au RSSolivier
 
Analyse combinée crawl + logs - Search Foresight & Botify
Analyse combinée crawl + logs - Search Foresight & BotifyAnalyse combinée crawl + logs - Search Foresight & Botify
Analyse combinée crawl + logs - Search Foresight & BotifyPhilippe YONNET
 
La qualité logicielle et l'intégration continue - Cas concret du projet Cytomine
La qualité logicielle et l'intégration continue - Cas concret du projet CytomineLa qualité logicielle et l'intégration continue - Cas concret du projet Cytomine
La qualité logicielle et l'intégration continue - Cas concret du projet CytomineInterface ULg, LIEGE science park
 
Au-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veilleAu-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veilleURFIST de Paris
 
Analyse et comparaison des principaux outils SEO disponible sur le marché
Analyse et comparaison des principaux outils SEO disponible sur le marchéAnalyse et comparaison des principaux outils SEO disponible sur le marché
Analyse et comparaison des principaux outils SEO disponible sur le marchéBarbara Czmil-Ruello
 
Java script Introduction
Java script IntroductionJava script Introduction
Java script IntroductionMohamed MHAMDI
 
Conférence SEO aux Académies du Tourisme Numérique 2015
Conférence SEO aux Académies du Tourisme Numérique 2015Conférence SEO aux Académies du Tourisme Numérique 2015
Conférence SEO aux Académies du Tourisme Numérique 2015Open-linking
 
ARCHITECTURE MICROSERVICE : TOUR D’HORIZON DU CONCEPT ET BONNES PRATIQUES
ARCHITECTURE MICROSERVICE : TOUR D’HORIZON DU CONCEPT ET BONNES PRATIQUESARCHITECTURE MICROSERVICE : TOUR D’HORIZON DU CONCEPT ET BONNES PRATIQUES
ARCHITECTURE MICROSERVICE : TOUR D’HORIZON DU CONCEPT ET BONNES PRATIQUESSOAT
 

Similaire à Crawlers (par DE COURCHELLE Inès et JACOB Sophie) (20)

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 
Deck seo campus 2011 utiliser les logs serveurs
Deck seo campus 2011   utiliser les logs serveursDeck seo campus 2011   utiliser les logs serveurs
Deck seo campus 2011 utiliser les logs serveurs
 
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
 
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
 
Referencement moteur de-recherche
Referencement moteur de-rechercheReferencement moteur de-recherche
Referencement moteur de-recherche
 
graylog.pptx
graylog.pptxgraylog.pptx
graylog.pptx
 
Cours services web_fabrice_mourlin
Cours services web_fabrice_mourlinCours services web_fabrice_mourlin
Cours services web_fabrice_mourlin
 
20090929 04 - Securité applicative, hacking et risque applicatif
20090929 04 - Securité applicative, hacking et risque applicatif20090929 04 - Securité applicative, hacking et risque applicatif
20090929 04 - Securité applicative, hacking et risque applicatif
 
070219 Webinar Sensibilisation Sécurité Logiciel Everteam
070219 Webinar Sensibilisation Sécurité Logiciel Everteam070219 Webinar Sensibilisation Sécurité Logiciel Everteam
070219 Webinar Sensibilisation Sécurité Logiciel Everteam
 
Securitedesapplications 091011120426-phpapp02
Securitedesapplications 091011120426-phpapp02Securitedesapplications 091011120426-phpapp02
Securitedesapplications 091011120426-phpapp02
 
Introduction au RSS
Introduction au RSSIntroduction au RSS
Introduction au RSS
 
Analyse combinée crawl + logs - Search Foresight & Botify
Analyse combinée crawl + logs - Search Foresight & BotifyAnalyse combinée crawl + logs - Search Foresight & Botify
Analyse combinée crawl + logs - Search Foresight & Botify
 
La qualité logicielle et l'intégration continue - Cas concret du projet Cytomine
La qualité logicielle et l'intégration continue - Cas concret du projet CytomineLa qualité logicielle et l'intégration continue - Cas concret du projet Cytomine
La qualité logicielle et l'intégration continue - Cas concret du projet Cytomine
 
Au-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veilleAu-delà de la gestion de flux RSS, valoriser sa veille
Au-delà de la gestion de flux RSS, valoriser sa veille
 
Analyse et comparaison des principaux outils SEO disponible sur le marché
Analyse et comparaison des principaux outils SEO disponible sur le marchéAnalyse et comparaison des principaux outils SEO disponible sur le marché
Analyse et comparaison des principaux outils SEO disponible sur le marché
 
graylogF (2).pptx
graylogF (2).pptxgraylogF (2).pptx
graylogF (2).pptx
 
Java script Introduction
Java script IntroductionJava script Introduction
Java script Introduction
 
Conférence SEO aux Académies du Tourisme Numérique 2015
Conférence SEO aux Académies du Tourisme Numérique 2015Conférence SEO aux Académies du Tourisme Numérique 2015
Conférence SEO aux Académies du Tourisme Numérique 2015
 
Web services SOAP et REST
Web services  SOAP et RESTWeb services  SOAP et REST
Web services SOAP et REST
 
ARCHITECTURE MICROSERVICE : TOUR D’HORIZON DU CONCEPT ET BONNES PRATIQUES
ARCHITECTURE MICROSERVICE : TOUR D’HORIZON DU CONCEPT ET BONNES PRATIQUESARCHITECTURE MICROSERVICE : TOUR D’HORIZON DU CONCEPT ET BONNES PRATIQUES
ARCHITECTURE MICROSERVICE : TOUR D’HORIZON DU CONCEPT ET BONNES PRATIQUES
 

Plus de rchbeir

Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)rchbeir
 
SS tree (par SYLLA Demba et TALBI Rachid)
SS tree (par SYLLA Demba et TALBI Rachid)SS tree (par SYLLA Demba et TALBI Rachid)
SS tree (par SYLLA Demba et TALBI Rachid)rchbeir
 
Ranking (par IBRAHIM Sirine et TANIOS Dany)
Ranking (par IBRAHIM Sirine et TANIOS	 Dany)Ranking (par IBRAHIM Sirine et TANIOS	 Dany)
Ranking (par IBRAHIM Sirine et TANIOS Dany)rchbeir
 
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)rchbeir
 
NoSQL (par HEGUY Xabier)
NoSQL (par HEGUY Xabier)NoSQL (par HEGUY Xabier)
NoSQL (par HEGUY Xabier)rchbeir
 
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)rchbeir
 
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)rchbeir
 
Arbre b (par EL HACHEM Marwan et RICHA Elias)
Arbre b (par EL HACHEM Marwan et RICHA Elias)Arbre b (par EL HACHEM Marwan et RICHA Elias)
Arbre b (par EL HACHEM Marwan et RICHA Elias)rchbeir
 
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)rchbeir
 
Information Retrieval
Information RetrievalInformation Retrieval
Information Retrievalrchbeir
 

Plus de rchbeir (13)

Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
 
SS tree (par SYLLA Demba et TALBI Rachid)
SS tree (par SYLLA Demba et TALBI Rachid)SS tree (par SYLLA Demba et TALBI Rachid)
SS tree (par SYLLA Demba et TALBI Rachid)
 
Ranking (par IBRAHIM Sirine et TANIOS Dany)
Ranking (par IBRAHIM Sirine et TANIOS	 Dany)Ranking (par IBRAHIM Sirine et TANIOS	 Dany)
Ranking (par IBRAHIM Sirine et TANIOS Dany)
 
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
 
NoSQL (par HEGUY Xabier)
NoSQL (par HEGUY Xabier)NoSQL (par HEGUY Xabier)
NoSQL (par HEGUY Xabier)
 
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
 
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
 
Arbre b (par EL HACHEM Marwan et RICHA Elias)
Arbre b (par EL HACHEM Marwan et RICHA Elias)Arbre b (par EL HACHEM Marwan et RICHA Elias)
Arbre b (par EL HACHEM Marwan et RICHA Elias)
 
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
 
Information Retrieval
Information RetrievalInformation Retrieval
Information Retrieval
 
Plsql2
Plsql2Plsql2
Plsql2
 
Plsql
PlsqlPlsql
Plsql
 
Sql3
Sql3Sql3
Sql3
 

Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

  • 2. PLAN I. Introduction II. Les types de Crawler III. Protocole et sécurité IV. Conclusion
  • 3. Introduction Les types de Crawler Protocole et sécurité Conclusion Définitions 1 Définition 1 « Un crawler est un programme qui visite les sites internet, lit les pages et leur informations afin de créer des entrées pour permettre à un moteur de recherche de les indexer. » Site internet PROGRAMME Entrée Moteur de recherche 3
  • 4. Introduction Les types de Crawler Protocole et sécurité Conclusion Définitions 2 Définition 2 « Un Crawler est un programme qui collecte automatiquement des pages web pour construire un index ou une collection locale. » Collection PROGRAMME 4
  • 5. Introduction Les types de Crawler Protocole et sécurité Conclusion Définition 3 Définition 3 « Le crawler est le robot logiciel utilisé par les moteurs de recherches pour parcourir le réseau et les sites web de lien en lien afin d’archiver les pages web parcourues au sein des index de référencement. Chaque moteur utilise un robot qui lui est propre. » 5
  • 6. Introduction Les types de Crawler Protocole et sécurité Conclusion Ce que l’on retient Les robots d’indexation sont liés aux moteurs de recherche En anglais : Web crawler, Web Spider En français : araignée du Web, collecteur Le crawler est un programme : – Collecte automatiquement des données – Tri les données – Stock les données 6
  • 7. Introduction Les types de Crawler Protocole et sécurité Conclusion Genesis 1990 : Le premier moteur de recherche Archie 1993 : Wanderer (« le Vagabond ») est le premier robot d’indexation 1993 : Le premier moteur intelligent Excite 1994 : Yahoo 1995 – 1997 : Altavista 1998 : Google 7
  • 8. Introduction Les types de Crawler Protocole et sécurité Conclusion Enjeux des moteurs de recherche Indexer plus précisément Mieux cibler le contenu de la page Mieux déterminer sa pertinence  Répondre aux besoins de l’utilisateur 8
  • 9. Introduction Les types de Crawler Protocole et sécurité Conclusion Le principe du Crawler Lire les méta données d’un site Les classer Les stocker Les lier 9
  • 10. Introduction Les types de Crawler Protocole et sécurité Conclusion Fonctionnement d’un crawler Il arrive sur une page – Déjà indexée – Non indexée Le robot a le droit de l’indexer ? Le robot stock le lien dans une file Le robot extrait les méta données Le robots enregistre les méta données 10
  • 11. Introduction Les types de Crawler Protocole et sécurité Conclusion Illustration Lien1 Lien2 Lien3 Index / collection locale Mot 1 Mot 2 Mot 3 Lien 1 Lien 4 Lien 5 Lien 6 File de pages à visiter Lien 4 Lien 5 Lien 6 11
  • 12. Introduction Les types de Crawler Protocole et sécurité Conclusion Bilan Un crawler voyage de site en site Aucune intervention humaine Une Base de données Un Web crawler a une durée de vie limitée – But : ne pas surcharger le serveur 12
  • 13. Introduction Les types de Crawler Protocole et sécurité Conclusion Les différents types de crawler Différent types d’indexation Coder un crawler en php Les crawlers des moteurs de recherches 13
  • 14. Introduction Les types de Crawler Protocole et sécurité Conclusion Crawler Périodique Crawler de « rafraîchissement », tourne en continu Optimise la fraîcheur de la bases Collection Lien A Lien B Lien C 14
  • 15. Introduction Les types de Crawler Protocole et sécurité Conclusion Crawler de deep-web Crawler couplé à une table d’association (Label/Value) Capable de remplir un formulaire Label Value 1 Pierre 2 Claire 15
  • 16. Introduction Les types de Crawler Protocole et sécurité Conclusion Crawler de forum Corrélation topologique/sémantique naturelle Extraction de profils d’acteurs Acteurs Acteur A Acteur B Acteur C 16
  • 17. Introduction Les types de Crawler Protocole et sécurité Conclusion Crawler incrémental Continue à visiter les pages, même après l’atteignabilité de la taille maximum de la collection Puis lorsque l’on demande de remettre à jour la collection on remplace les pages selon leur «importance» Collection 1 Lien A 2 Lien B 3 Lien C 17
  • 18. Introduction Les types de Crawler Protocole et sécurité Conclusion Les crawlers des moteurs de recherches Robot d’exploration Moteur de recherche Googlebot Google Yahoo Slurp Yahoo! Search Bingbot Bing Scooter AltaVista 18
  • 19. Introduction Les types de Crawler Protocole et sécurité Conclusion Protection contre les Crawlers Protocole d’exclusion des robots Standard for Robot Exclusion (SRE) Format du fichier « /robots.txt » Intérêt du protocole d’exclusion Robots malveillants 19
  • 20. Introduction Les types de Crawler Protocole et sécurité Conclusion Règles de bon usage selection policy revisit policy politeness policy parallelization policy 20
  • 21. Introduction Les types de Crawler Protocole et sécurité Conclusion Règles de bon usage selection policy – quelles pages indexer – éviter d'indexer tout le web – exemple : l'importance de la page peut être déterminée par le nombre de liens dirigés ou redirigés par cette page revisit policy – quand vérifier s'il y a des changements dans les pages – minimiser les visites – éviter de retourner une valeur obsolète 21
  • 22. Introduction Les types de Crawler Protocole et sécurité Conclusion Règles de bon usage politeness policy – Éviter les surcharges de page web – Interdire certaines portions du site web parallelization policy – coordonner les robots d'indexation qui visitent le même espace – maximiser les téléchargements de page empêcher les robots de télécharger les mêmes pages 22
  • 23. Introduction Les types de Crawler Protocole et sécurité Conclusion Protocole d’exclusion des robots Années 1990 Augmentation d’incidents : ralentissement des serveurs Rédaction de règles pour indiquer aux robots les zones non accessibles des sites web 23
  • 24. Introduction Les types de Crawler Protocole et sécurité Conclusion Standard for Robot Exclusion (SRE) Méthode pour exclure les robots d’un serveur Politique d’accès pour les robots Liste de pages qui ne peuvent être visitées Accessible via l’adresse ‘’/robots.txt’’ Facile à implémenter sur tous les sites 24
  • 25. Introduction Les types de Crawler Protocole et sécurité Conclusion Protocole d’exclusion des robots Inconvénient : seul l’administrateur du serveur a accès au fichier et peut mettre à jour cette liste Avantage : limitation des pages et des informations à indexer 25
  • 26. Introduction Les types de Crawler Protocole et sécurité Conclusion Format du fichier « /robots.txt » Il se compose de plusieurs enregistrements User-agent Nom du ou des robots décrit par l’enregistrement Disallow Spécifie les adresses URL des sites qu’il ne faut pas visiter. Le chemin peut être entier ou non 26
  • 27. Introduction Les types de Crawler Protocole et sécurité Conclusion Recherche du fichier « /robots.txt » En-tête du site Robot.txt Vide Visite toutes les pages 27
  • 28. Introduction Les types de Crawler Protocole et sécurité Conclusion Format du fichier « /robots.txt » Autoriser tous les robots à accéder au site User-agent: * Disallow: Interdire l’accès au site à tous les robots User-agent: * Disallow: / 28
  • 29. Introduction Les types de Crawler Protocole et sécurité Conclusion Format du fichier « /robots.txt » Interdire l’accès au site à un robot particulier User-agent: googlebot #nom du robot Disallow: Interdire l’accès à une URL du site User-agent: * Disallow: /help 29
  • 30. Introduction Les types de Crawler Protocole et sécurité Conclusion Démonstration 30
  • 31. Introduction Les types de Crawler Protocole et sécurité Conclusion Intérêt du protocole d’exclusion Éviter que des ressources sans intérêt public soient visibles dans la page de résultat d’un moteur de recherche Alléger le travail du serveur HTTP Alléger le trafic sur le réseau informatique (moins de requêtes) 31
  • 32. Introduction Les types de Crawler Protocole et sécurité Conclusion Robots malveillants Ignorent le fichier ‘’robots.txt’’ Accèdent aux adresses URL quand même Récolte d’informations privées (adresses personnelles) Revente (SPAM et HACK) Ralentissent le trafic 32
  • 33. Introduction Les types de Crawler Protocole et sécurité Conclusion Bilan Créer un fichier robots.txt Bloquer l’adresse IP lorsqu’elle est identifiée Robots.txt est une convention : peut ne pas être respectée 33
  • 34. Introduction Les types de Crawler Protocole et sécurité Conclusion Quelques chiffres Ces informations sont fournies par YAKINO © sondage réalisé le 12/12/2013 10966 connexions échantillonnées sur 11 sites période concernée : 27/11/2013 - 11/12/2013 34
  • 35. Introduction Les types de Crawler Protocole et sécurité Conclusion Quelques chiffres NAHRGANG Marco DELHOMME David 2003 – 2004 Les moteurs de recherches comment ça marche ? 35
  • 36. Introduction Les types de Crawler Protocole et sécurité Conclusion Sources [1] http://www.robotstxt.org/orig.html – Titre : A Standard for Robot Exclusion – Auteur : Martijn Koster – Date de publication : 2007 [2] http://nlp.stanford.edu/IR-book/pdf/20crawl.pdf : – Auteurs : Campbridge – Titre : Crawling and web indexes – Date de publication : 2009 36
  • 37. Introduction Les types de Crawler Protocole et sécurité Conclusion Sources [3] http://www.lesitedemika.org/ressources/moteurs_recherche.pdf – Auteurs : Mickaël MARCHAL, Nadia TEA – Date publication : 2007 – Titre : les moteurs de recherche [4] http://www.sfs.uni-tuebingen.de/~parmenti/slides/slides111x4.pdf – Auteurs : Wintersemester – Date publication : 2007 – Titre : Web crawling 37
  • 38. Introduction Les types de Crawler Protocole et sécurité Conclusion Sources [5] http://www.cellopoint.com/media_resources/blogs/2011/ 03/Web_Crawlers : – Titre Crawling Policies – Auteur : June Huang – Date de publication : 8/03/2011 [6] http://www.thesitewizard.com/archive/robotstxt.shtml – Titre : How to set up a robots.txt to control search engine spiders – Auteur : Christopher Heng – Date de publication : 2001-2010 38