Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

CRAWLER
Sophie Jacob
Inès de Courchelle

1

PLAN
I. Introduction
II. Les types de Crawler
III. Protocole et sécurité
IV. Conclusion

Introduction

Les types de Crawler

Protocole et sécurité

Conclusion

Définitions 1
Définition 1
« Un crawler est un programme qui visite les sites internet, lit les pages et leur
informations afin de créer des entrées pour permettre à un moteur de recherche de les
indexer. »

Site internet

PROGRAMME
Entrée
Moteur de recherche

3

Introduction



Conclusion

Définitions 2
Définition 2
« Un Crawler est un programme qui collecte automatiquement des pages web
pour construire un index ou une collection locale. »

Collection
PROGRAMME

4

Introduction



Conclusion

Définition 3
Définition 3
« Le crawler est le robot logiciel utilisé par les moteurs de recherches pour
parcourir le réseau et les sites web de lien en lien afin d’archiver les pages web
parcourues au sein des index de référencement. Chaque moteur utilise un robot
qui lui est propre. »

5

Introduction



Conclusion

Ce que l’on retient
Les robots d’indexation sont liés aux moteurs de recherche
En anglais : Web crawler, Web Spider
En français : araignée du Web, collecteur
Le crawler est un programme :
– Collecte automatiquement des données
– Tri les données
– Stock les données
6

Introduction



Conclusion

Genesis
1990 : Le premier moteur de recherche Archie
1993 : Wanderer (« le Vagabond ») est le premier robot
d’indexation
1993 : Le premier moteur intelligent Excite
1994 : Yahoo
1995 – 1997 : Altavista
1998 : Google
7

Introduction



Conclusion

Enjeux des moteurs de recherche

Indexer plus précisément
Mieux cibler le contenu de la page
Mieux déterminer sa pertinence

 Répondre aux besoins de l’utilisateur

8

Introduction



Conclusion

Le principe du Crawler

Lire les méta données d’un site
Les classer
Les stocker

Les lier

9

Introduction



Conclusion

Fonctionnement d’un crawler
Il arrive sur une page

– Déjà indexée
– Non indexée
Le robot a le droit de l’indexer ?
Le robot stock le lien dans une file
Le robot extrait les méta données

Le robots enregistre les méta données
10

Introduction



Conclusion

Illustration
Lien1
Lien2
Lien3

Index /
collection locale
Mot 1
Mot 2
Mot 3

Lien 1
Lien 4
Lien 5
Lien 6
File de pages à visiter

Lien 4
Lien 5
Lien 6
11

Introduction



Conclusion

Bilan
Un crawler voyage de site en site

Aucune intervention humaine
Une Base de données
Un Web crawler a une durée de vie limitée
– But : ne pas surcharger le serveur

12

Introduction



Conclusion

Les différents types de crawler
Différent types d’indexation
Coder un crawler en php
Les crawlers des moteurs de recherches

13

Introduction



Conclusion

Crawler Périodique
Crawler de « rafraîchissement », tourne en continu
Optimise la fraîcheur de la bases

Collection
Lien A
Lien B
Lien C

14

Introduction



Conclusion

Crawler de deep-web
Crawler couplé à une table d’association (Label/Value)
Capable de remplir un formulaire
Label

Value

1

Pierre

2

Claire

15

Introduction



Conclusion

Crawler de forum
Corrélation topologique/sémantique naturelle
Extraction de profils d’acteurs

Acteurs
Acteur A
Acteur B

Acteur C

16

Introduction



Conclusion

Crawler incrémental
Continue à visiter les pages, même après l’atteignabilité de
la taille maximum de la collection
Puis lorsque l’on demande de remettre à jour la collection
on remplace les pages selon leur «importance»
Collection
1

Lien A

2

Lien B

3

Lien C
17

Introduction



Conclusion

Les crawlers des moteurs de recherches
Robot d’exploration

Moteur de recherche

Googlebot

Google

Yahoo Slurp

Yahoo! Search

Bingbot

Bing

Scooter

AltaVista

18

Introduction



Conclusion

Protection contre les Crawlers
Protocole d’exclusion des robots
Standard for Robot Exclusion (SRE)
Format du fichier « /robots.txt »
Intérêt du protocole d’exclusion
Robots malveillants

19

Introduction



Conclusion

Règles de bon usage
selection policy
revisit policy
politeness policy
parallelization policy

20

Introduction



Conclusion

selection policy
– quelles pages indexer
– éviter d'indexer tout le web
– exemple : l'importance de la page peut être déterminée
par le nombre de liens dirigés ou redirigés par cette
page
revisit policy
– quand vérifier s'il y a des changements dans les pages
– minimiser les visites
– éviter de retourner une valeur obsolète
21

Introduction



Conclusion

politeness policy
– Éviter les surcharges de page web
– Interdire certaines portions du site web
parallelization policy
– coordonner les robots d'indexation qui visitent le même
espace
– maximiser les téléchargements de page empêcher les
robots de télécharger les mêmes pages

22

Introduction



Conclusion

Années 1990
Augmentation d’incidents : ralentissement des serveurs
Rédaction de règles pour indiquer aux robots les zones non
accessibles des sites web

23

Introduction



Conclusion

Standard for Robot Exclusion (SRE)
Méthode pour exclure les robots d’un serveur
Politique d’accès pour les robots
Liste de pages qui ne peuvent être visitées
Accessible via l’adresse ‘’/robots.txt’’
Facile à implémenter sur tous les sites

24

Introduction



Conclusion

Inconvénient : seul l’administrateur du serveur a accès au
fichier et peut mettre à jour cette liste

Avantage : limitation des pages et des informations à
indexer

25

Introduction



Conclusion

Il se compose de plusieurs enregistrements
User-agent

Nom du ou des robots décrit par
l’enregistrement

Disallow

Spécifie les adresses URL des sites qu’il ne faut
pas visiter. Le chemin peut être entier ou non

26

Introduction



Conclusion

Recherche du fichier « /robots.txt »

En-tête du
site

Robot.txt

Vide

Visite
toutes les
pages

27

Introduction



Conclusion

Autoriser tous les robots à accéder au site
User-agent: *
Disallow:

Interdire l’accès au site à tous les robots
User-agent: *
Disallow: /

28

Introduction



Conclusion

Interdire l’accès au site à un robot particulier
User-agent: googlebot #nom du robot
Disallow:

Interdire l’accès à une URL du site
User-agent: *
Disallow: /help

29

Introduction



Conclusion

Démonstration

30

Introduction



Conclusion

Intérêt du protocole d’exclusion

Éviter que des ressources sans intérêt public soient visibles
dans la page de résultat d’un moteur de recherche
Alléger le travail du serveur HTTP
Alléger le trafic sur le réseau informatique (moins de
requêtes)
31

Introduction



Conclusion

Robots malveillants
Ignorent le fichier ‘’robots.txt’’
Accèdent aux adresses URL quand même
Récolte d’informations privées (adresses personnelles)
Revente (SPAM et HACK)

Ralentissent le trafic

32

Introduction



Conclusion

Bilan
Créer un fichier robots.txt
Bloquer l’adresse IP lorsqu’elle est identifiée
Robots.txt est une convention : peut ne pas être respectée

33

Introduction



Conclusion

Quelques chiffres

Ces informations sont fournies par YAKINO ©
sondage réalisé le 12/12/2013
10966 connexions échantillonnées sur 11 sites
période concernée : 27/11/2013 - 11/12/2013

34

Introduction



Conclusion

Quelques chiffres

NAHRGANG Marco
DELHOMME David
2003 – 2004
Les moteurs de recherches comment ça marche ?
35

Introduction



Conclusion

Sources
[1] http://www.robotstxt.org/orig.html
– Titre : A Standard for Robot Exclusion
– Auteur : Martijn Koster
– Date de publication : 2007
[2] http://nlp.stanford.edu/IR-book/pdf/20crawl.pdf :
– Auteurs : Campbridge
– Titre : Crawling and web indexes
– Date de publication : 2009

36

Introduction



Conclusion

Sources
[3]
http://www.lesitedemika.org/ressources/moteurs_recherche.pdf
– Auteurs : Mickaël MARCHAL, Nadia TEA
– Date publication : 2007
– Titre : les moteurs de recherche
[4] http://www.sfs.uni-tuebingen.de/~parmenti/slides/slides111x4.pdf
– Auteurs : Wintersemester
– Date publication : 2007
– Titre : Web crawling
37

Introduction



Conclusion

Sources
[5]
http://www.cellopoint.com/media_resources/blogs/2011/
03/Web_Crawlers :
– Titre Crawling Policies
– Auteur : June Huang
– Date de publication : 8/03/2011
[6] http://www.thesitewizard.com/archive/robotstxt.shtml
– Titre : How to set up a robots.txt to control search
engine spiders
– Auteur : Christopher Heng
– Date de publication : 2001-2010
38

Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (16)

Similaire à Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

Similaire à Crawlers (par DE COURCHELLE Inès et JACOB Sophie) (20)

Plus de rchbeir

Plus de rchbeir (13)

Crawlers (par DE COURCHELLE Inès et JACOB Sophie)