Utiliser un crawler pour le seo

UTILISER UN CRAWLER POUR LE SEO
Philippe YONNET
Agence Search Foresight – My Media

Search Foresight
Foresight : définition
• “an act or the power of foreseeing” : prescience
• “provident care” : prudence et prévoyance
• “an act of looking forward” : prospective

Philippe YONNET – Directeur de Search
Foresight
•

Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience
en référencement naturel.

•

Il a conseillé plus d’une centaine de sites, dont un grand nombre
de sites à forte audience (Pages Jaunes, Rue du
Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga,
Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)

•

Il a été notamment Directeur métier puis Directeur Général Adjoint
d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez
l'annonceur, pour travailler à Londres et New-York pendant deux
ans, en tant que Directeur SEO International de Vivastreet, puis en
tant que Directeur SEO International et Directeur Merchandising du
comparateur de prix Twenga.

•

Philippe YONNET est le président fondateur de l’association SEO
Camp, qui regroupe les professionnels du référencement des pays
francophones.
– Il est un contributeur régulier de la lettre professionnelle
d’Abondance, et a contribué à plusieurs chapitres du livre
« réussir son référencement » chez Eyrolles
– Il a fondé le principal évènement sur le référencement en
France, les SEO Camp’us
– Il a créé la certification CESEO, qui valide les connaissances
des experts en SEO

C’est quoi un crawler ?
• Deux modes : aspirateur / spider

– Aspirateur : on lui fournit une liste d’urls, que le robot
« aspire » (télécharge) pour alimenter une base de
données
– Spider : on fournit une url de départ au robot, qui analyse
le contenu de la page web, trouve les liens à
l’intérieur, les stocke dans une file d’attente. Puis il
télécharge les nouvelles urls trouvées, trouve d’autres
liens à l’intérieur et ainsi de suite…
• On appelle le processus suivi par le spider le « crawl », et on
appelle aussi les spiders des « crawlers »

URLs crawled
and parsed
Unseen Web

Seed
pages

URLs frontier

Web
5

La détection des liens brisés

• Détection des pages 404

La détection des redirections

• Détection des erreurs 30x
• Objectif : diminuer le volume de 301
• Eliminer les 302

Détection des erreurs

• Détection des erreurs avec Botify

Tester les performances du site

• Le temps de téléchargement du code a
une influence sur l’exploration de Google

Tester les performances du site

• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
comprendre quelles sont
les « scripts » lents et
d’identifier les causes de
ralentissement

Détection des duplicate title et descr

• Exemple avec Screaming Frog

Vérification des plans de taggage

Vérification du duplicate

• Ex avec Botify

Vérification de l’efficacité
de la mise en cache
• Extraction de patterns :

– timestamp de génération de la page vs horodatage du
téléchargement de la page
– Test de requêtes conditionnelles (If modified since et
renvoi de codes 304)
– Etc.

Analyse de la profondeur
• Profondeur : nb de clics nécessaires pour atteindre une
page en cliquant sur des liens
– Exemple ci-dessous : Botify

Pourquoi mesurer la profondeur ?
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
140000
120000
100000
80000

nb urls crawlables non
crawlées
nb urls crawlées

60000
40000
20000

0
Prof Prof Prof Prof Prof Prof Prof Prof Prof
0
1
2
3
4
5
6
7
8

Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)

Les prérequis pour le crawler

• Respect du robots.txt
• Gestion du nofollow sur les liens
• Gestion du nofollow dans les balises
meta
• Gestion du x-robots-tag dans les en-têtes
http://
• Gestion des canonical comme des
redirections

Analyse des link rel=canonical

Analyse des liens sortants

• Ex : botify

Diagnostic complet

• Ex avec Botify (tableau de bord)

L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
dans les logs serveur (User Agent : googlebot)
Votre version

Version vue par Googlebot

Home

Home

Cat 2

Cat 3

P1

P1

P1

P2

P2

P2

P3

P3

Cat 1

Cat 2

P1

Cat 1

P1

P2

P1bis

P3

P2
P2bis
P3

P4

P4

Cat2bis

Cat 3

Des urls en moins
Des urls en +

Principe de l’analyse des deux versions

Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer dans
le robots.txt

Urls présentes
sur le site, non
explorées par
Google :
identifier la
cause
Urls OK
présentes
et
crawlées

L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes

• Indegree = nombre de liens entrants
• La hiérarchie des indegrees doit être
conforme à l’importance des pages

Xenu Link Sleuth

• http://home.snafu.de/tilman/xenulink.html

Link Examiner
•

http://www.analogx.com/contents/download/Network/lnkexam/Freewa
re.htm

Siteliner

• http://www.siteliner.com

Screaming Frog
• http://www.screamingfrog.co.uk/seo-spider/

Lucène (java)
• https://lucene.apache.org/

Nutch (java)
• https://nutch.apache.org/

Scrapy (python)

• http://scrapy.org/

80legs

• http://80legs.com/

Deepcrawl

• http://deepcrawl.co.uk/

Botify

• https://fr.botify.com/

Merci !
• Me contacter :

Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole France – 92300 LEVALLOIS PERRET
Philippe.yonnet@search-foresight.com
Tél : 01 74 18 29 40
Président de l’association SEO Camp
24 avenue Ledru-Rollin 75012 PARIS
Philippe.yonnet@seo-camp.org
http://www.seo-camp.org

Utiliser un crawler pour le seo

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (17)

Similaire à Utiliser un crawler pour le seo

Similaire à Utiliser un crawler pour le seo (20)

Plus de Philippe YONNET

Plus de Philippe YONNET (20)

Utiliser un crawler pour le seo