CRAWLER
Sophie Jacob
Inès de Courchelle

1
PLAN
I. Introduction
II. Les types de Crawler
III. Protocole et sécurité
IV. Conclusion
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Définitions 1
Définition 1
« Un crawler est un prog...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Définitions 2
Définition 2
« Un Crawler est un prog...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Définition 3
Définition 3
« Le crawler est le robot...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Ce que l’on retient
Les robots d’indexation sont li...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Genesis
1990 : Le premier moteur de recherche Archi...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Enjeux des moteurs de recherche

Indexer plus préci...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Le principe du Crawler

Lire les méta données d’un ...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Fonctionnement d’un crawler
Il arrive sur une page
...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Illustration
Lien1
Lien2
Lien3

Index /
collection ...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Bilan
Un crawler voyage de site en site

Aucune int...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Les différents types de crawler
Différent types d’i...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Crawler Périodique
Crawler de « rafraîchissement »,...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Crawler de deep-web
Crawler couplé à une table d’as...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Crawler de forum
Corrélation topologique/sémantique...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Crawler incrémental
Continue à visiter les pages, m...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Les crawlers des moteurs de recherches
Robot d’expl...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Protection contre les Crawlers
Protocole d’exclusio...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Règles de bon usage
selection policy
revisit policy...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Règles de bon usage
selection policy
– quelles page...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Règles de bon usage
politeness policy
– Éviter les ...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Protocole d’exclusion des robots
Années 1990
Augmen...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Standard for Robot Exclusion (SRE)
Méthode pour exc...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Protocole d’exclusion des robots
Inconvénient : seu...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Format du fichier « /robots.txt »
Il se compose de ...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Recherche du fichier « /robots.txt »

En-tête du
si...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Format du fichier « /robots.txt »
Autoriser tous le...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Format du fichier « /robots.txt »
Interdire l’accès...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Démonstration

30
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Intérêt du protocole d’exclusion

Éviter que des re...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Robots malveillants
Ignorent le fichier ‘’robots.tx...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Bilan
Créer un fichier robots.txt
Bloquer l’adresse...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Quelques chiffres

Ces informations sont fournies p...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Quelques chiffres

NAHRGANG Marco
DELHOMME David
20...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Sources
[1] http://www.robotstxt.org/orig.html
– Ti...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Sources
[3]
http://www.lesitedemika.org/ressources/...
Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Sources
[5]
http://www.cellopoint.com/media_resourc...
QUESTIONS ?
Prochain SlideShare
Chargement dans…5
×

Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

594 vues

Publié le

0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
594
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
19
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

  1. 1. CRAWLER Sophie Jacob Inès de Courchelle 1
  2. 2. PLAN I. Introduction II. Les types de Crawler III. Protocole et sécurité IV. Conclusion
  3. 3. Introduction Les types de Crawler Protocole et sécurité Conclusion Définitions 1 Définition 1 « Un crawler est un programme qui visite les sites internet, lit les pages et leur informations afin de créer des entrées pour permettre à un moteur de recherche de les indexer. » Site internet PROGRAMME Entrée Moteur de recherche 3
  4. 4. Introduction Les types de Crawler Protocole et sécurité Conclusion Définitions 2 Définition 2 « Un Crawler est un programme qui collecte automatiquement des pages web pour construire un index ou une collection locale. » Collection PROGRAMME 4
  5. 5. Introduction Les types de Crawler Protocole et sécurité Conclusion Définition 3 Définition 3 « Le crawler est le robot logiciel utilisé par les moteurs de recherches pour parcourir le réseau et les sites web de lien en lien afin d’archiver les pages web parcourues au sein des index de référencement. Chaque moteur utilise un robot qui lui est propre. » 5
  6. 6. Introduction Les types de Crawler Protocole et sécurité Conclusion Ce que l’on retient Les robots d’indexation sont liés aux moteurs de recherche En anglais : Web crawler, Web Spider En français : araignée du Web, collecteur Le crawler est un programme : – Collecte automatiquement des données – Tri les données – Stock les données 6
  7. 7. Introduction Les types de Crawler Protocole et sécurité Conclusion Genesis 1990 : Le premier moteur de recherche Archie 1993 : Wanderer (« le Vagabond ») est le premier robot d’indexation 1993 : Le premier moteur intelligent Excite 1994 : Yahoo 1995 – 1997 : Altavista 1998 : Google 7
  8. 8. Introduction Les types de Crawler Protocole et sécurité Conclusion Enjeux des moteurs de recherche Indexer plus précisément Mieux cibler le contenu de la page Mieux déterminer sa pertinence  Répondre aux besoins de l’utilisateur 8
  9. 9. Introduction Les types de Crawler Protocole et sécurité Conclusion Le principe du Crawler Lire les méta données d’un site Les classer Les stocker Les lier 9
  10. 10. Introduction Les types de Crawler Protocole et sécurité Conclusion Fonctionnement d’un crawler Il arrive sur une page – Déjà indexée – Non indexée Le robot a le droit de l’indexer ? Le robot stock le lien dans une file Le robot extrait les méta données Le robots enregistre les méta données 10
  11. 11. Introduction Les types de Crawler Protocole et sécurité Conclusion Illustration Lien1 Lien2 Lien3 Index / collection locale Mot 1 Mot 2 Mot 3 Lien 1 Lien 4 Lien 5 Lien 6 File de pages à visiter Lien 4 Lien 5 Lien 6 11
  12. 12. Introduction Les types de Crawler Protocole et sécurité Conclusion Bilan Un crawler voyage de site en site Aucune intervention humaine Une Base de données Un Web crawler a une durée de vie limitée – But : ne pas surcharger le serveur 12
  13. 13. Introduction Les types de Crawler Protocole et sécurité Conclusion Les différents types de crawler Différent types d’indexation Coder un crawler en php Les crawlers des moteurs de recherches 13
  14. 14. Introduction Les types de Crawler Protocole et sécurité Conclusion Crawler Périodique Crawler de « rafraîchissement », tourne en continu Optimise la fraîcheur de la bases Collection Lien A Lien B Lien C 14
  15. 15. Introduction Les types de Crawler Protocole et sécurité Conclusion Crawler de deep-web Crawler couplé à une table d’association (Label/Value) Capable de remplir un formulaire Label Value 1 Pierre 2 Claire 15
  16. 16. Introduction Les types de Crawler Protocole et sécurité Conclusion Crawler de forum Corrélation topologique/sémantique naturelle Extraction de profils d’acteurs Acteurs Acteur A Acteur B Acteur C 16
  17. 17. Introduction Les types de Crawler Protocole et sécurité Conclusion Crawler incrémental Continue à visiter les pages, même après l’atteignabilité de la taille maximum de la collection Puis lorsque l’on demande de remettre à jour la collection on remplace les pages selon leur «importance» Collection 1 Lien A 2 Lien B 3 Lien C 17
  18. 18. Introduction Les types de Crawler Protocole et sécurité Conclusion Les crawlers des moteurs de recherches Robot d’exploration Moteur de recherche Googlebot Google Yahoo Slurp Yahoo! Search Bingbot Bing Scooter AltaVista 18
  19. 19. Introduction Les types de Crawler Protocole et sécurité Conclusion Protection contre les Crawlers Protocole d’exclusion des robots Standard for Robot Exclusion (SRE) Format du fichier « /robots.txt » Intérêt du protocole d’exclusion Robots malveillants 19
  20. 20. Introduction Les types de Crawler Protocole et sécurité Conclusion Règles de bon usage selection policy revisit policy politeness policy parallelization policy 20
  21. 21. Introduction Les types de Crawler Protocole et sécurité Conclusion Règles de bon usage selection policy – quelles pages indexer – éviter d'indexer tout le web – exemple : l'importance de la page peut être déterminée par le nombre de liens dirigés ou redirigés par cette page revisit policy – quand vérifier s'il y a des changements dans les pages – minimiser les visites – éviter de retourner une valeur obsolète 21
  22. 22. Introduction Les types de Crawler Protocole et sécurité Conclusion Règles de bon usage politeness policy – Éviter les surcharges de page web – Interdire certaines portions du site web parallelization policy – coordonner les robots d'indexation qui visitent le même espace – maximiser les téléchargements de page empêcher les robots de télécharger les mêmes pages 22
  23. 23. Introduction Les types de Crawler Protocole et sécurité Conclusion Protocole d’exclusion des robots Années 1990 Augmentation d’incidents : ralentissement des serveurs Rédaction de règles pour indiquer aux robots les zones non accessibles des sites web 23
  24. 24. Introduction Les types de Crawler Protocole et sécurité Conclusion Standard for Robot Exclusion (SRE) Méthode pour exclure les robots d’un serveur Politique d’accès pour les robots Liste de pages qui ne peuvent être visitées Accessible via l’adresse ‘’/robots.txt’’ Facile à implémenter sur tous les sites 24
  25. 25. Introduction Les types de Crawler Protocole et sécurité Conclusion Protocole d’exclusion des robots Inconvénient : seul l’administrateur du serveur a accès au fichier et peut mettre à jour cette liste Avantage : limitation des pages et des informations à indexer 25
  26. 26. Introduction Les types de Crawler Protocole et sécurité Conclusion Format du fichier « /robots.txt » Il se compose de plusieurs enregistrements User-agent Nom du ou des robots décrit par l’enregistrement Disallow Spécifie les adresses URL des sites qu’il ne faut pas visiter. Le chemin peut être entier ou non 26
  27. 27. Introduction Les types de Crawler Protocole et sécurité Conclusion Recherche du fichier « /robots.txt » En-tête du site Robot.txt Vide Visite toutes les pages 27
  28. 28. Introduction Les types de Crawler Protocole et sécurité Conclusion Format du fichier « /robots.txt » Autoriser tous les robots à accéder au site User-agent: * Disallow: Interdire l’accès au site à tous les robots User-agent: * Disallow: / 28
  29. 29. Introduction Les types de Crawler Protocole et sécurité Conclusion Format du fichier « /robots.txt » Interdire l’accès au site à un robot particulier User-agent: googlebot #nom du robot Disallow: Interdire l’accès à une URL du site User-agent: * Disallow: /help 29
  30. 30. Introduction Les types de Crawler Protocole et sécurité Conclusion Démonstration 30
  31. 31. Introduction Les types de Crawler Protocole et sécurité Conclusion Intérêt du protocole d’exclusion Éviter que des ressources sans intérêt public soient visibles dans la page de résultat d’un moteur de recherche Alléger le travail du serveur HTTP Alléger le trafic sur le réseau informatique (moins de requêtes) 31
  32. 32. Introduction Les types de Crawler Protocole et sécurité Conclusion Robots malveillants Ignorent le fichier ‘’robots.txt’’ Accèdent aux adresses URL quand même Récolte d’informations privées (adresses personnelles) Revente (SPAM et HACK) Ralentissent le trafic 32
  33. 33. Introduction Les types de Crawler Protocole et sécurité Conclusion Bilan Créer un fichier robots.txt Bloquer l’adresse IP lorsqu’elle est identifiée Robots.txt est une convention : peut ne pas être respectée 33
  34. 34. Introduction Les types de Crawler Protocole et sécurité Conclusion Quelques chiffres Ces informations sont fournies par YAKINO © sondage réalisé le 12/12/2013 10966 connexions échantillonnées sur 11 sites période concernée : 27/11/2013 - 11/12/2013 34
  35. 35. Introduction Les types de Crawler Protocole et sécurité Conclusion Quelques chiffres NAHRGANG Marco DELHOMME David 2003 – 2004 Les moteurs de recherches comment ça marche ? 35
  36. 36. Introduction Les types de Crawler Protocole et sécurité Conclusion Sources [1] http://www.robotstxt.org/orig.html – Titre : A Standard for Robot Exclusion – Auteur : Martijn Koster – Date de publication : 2007 [2] http://nlp.stanford.edu/IR-book/pdf/20crawl.pdf : – Auteurs : Campbridge – Titre : Crawling and web indexes – Date de publication : 2009 36
  37. 37. Introduction Les types de Crawler Protocole et sécurité Conclusion Sources [3] http://www.lesitedemika.org/ressources/moteurs_recherche.pdf – Auteurs : Mickaël MARCHAL, Nadia TEA – Date publication : 2007 – Titre : les moteurs de recherche [4] http://www.sfs.uni-tuebingen.de/~parmenti/slides/slides111x4.pdf – Auteurs : Wintersemester – Date publication : 2007 – Titre : Web crawling 37
  38. 38. Introduction Les types de Crawler Protocole et sécurité Conclusion Sources [5] http://www.cellopoint.com/media_resources/blogs/2011/ 03/Web_Crawlers : – Titre Crawling Policies – Auteur : June Huang – Date de publication : 8/03/2011 [6] http://www.thesitewizard.com/archive/robotstxt.shtml – Titre : How to set up a robots.txt to control search engine spiders – Auteur : Christopher Heng – Date de publication : 2001-2010 38
  39. 39. QUESTIONS ?

×