Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO

UTILISER UN CRAWLER POUR LE SEO
Philippe YONNET
Agence Search Foresight – My Media

Search Foresight
Foresight : définition
• “an act or the power of foreseeing” : prescience
• “provident care” : prudence et prévoyance
• “an act of looking forward” : prospective

Philippe YONNET – Directeur de Search
Foresight
• Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience
en référencement naturel.
• Il a conseillé plus d’une centaine de sites, dont un grand nombre
de sites à forte audience (Pages Jaunes, Rue du
Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga,
Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)
• Il a été notamment Directeur métier puis Directeur Général Adjoint
d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez
l'annonceur, pour travailler à Londres et New-York pendant deux
ans, en tant que Directeur SEO International de Vivastreet, puis en
tant que Directeur SEO International et Directeur Merchandising du
comparateur de prix Twenga.
• Philippe YONNET est le président fondateur de l’association SEO
Camp, qui regroupe les professionnels du référencement des pays
francophones.
– Il est un contributeur régulier de la lettre professionnelle
d’Abondance, et a contribué à plusieurs chapitres du livre
« réussir son référencement » chez Eyrolles
– Il a fondé le principal évènement sur le référencement en
France, les SEO Camp’us
– Il a créé la certification CESEO, qui valide les connaissances
des experts en SEO

C’est quoi un crawler ?
• Deux modes : aspirateur / spider
– Aspirateur : on lui fournit une liste d’urls, que le robot
« aspire » (télécharge) pour alimenter une base de
données
– Spider : on fournit une url de départ au robot, qui analyse
le contenu de la page web, trouve les liens à
l’intérieur, les stocke dans une file d’attente. Puis il
télécharge les nouvelles urls trouvées, trouve d’autres
liens à l’intérieur et ainsi de suite…
• On appelle le processus suivi par le spider le « crawl », et on
appelle aussi les spiders des « crawlers »

5
Web
URLs crawled
and parsed
URLs frontier
Unseen Web
Seed
pages

La détection des liens brisés
• Détection des pages 404

La détection des redirections
• Détection des erreurs 30x
• Objectif : diminuer le volume de 301
• Eliminer les 302

Détection des erreurs
• Détection des erreurs avec Botify

Tester les performances du site
• Le temps de téléchargement du code a
une influence sur l’exploration de Google

Tester les performances du site
• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
comprendre quelles sont
les « scripts » lents et
d’identifier les causes de
ralentissement

Détection des duplicate title et descr
• Exemple avec Screaming Frog

Vérification des plans de taggage

Vérification du duplicate
• Ex avec Botify

Vérification de l’efficacité
de la mise en cache
• Extraction de patterns :
– timestamp de génération de la page vs horodatage du
téléchargement de la page
– Test de requêtes conditionnelles (If modified since et
renvoi de codes 304)
– Etc.

Analyse de la profondeur
• Profondeur : nb de clics nécessaires pour atteindre une
page en cliquant sur des liens
– Exemple ci-dessous : Botify

Pourquoi mesurer la profondeur ?
0
20000
40000
60000
80000
100000
120000
140000
Prof
0
Prof
1
Prof
2
Prof
3
Prof
4
Prof
5
Prof
6
Prof
7
Prof
8
nb urls crawlables non
crawlées
nb urls crawlées
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée

Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)

Les prérequis pour le crawler
• Respect du robots.txt
• Gestion du nofollow sur les liens
• Gestion du nofollow dans les balises
meta
• Gestion du x-robots-tag dans les en-têtes
http://
• Gestion des canonical comme des
redirections

Analyse des link rel=canonical

Analyse des liens sortants
• Ex : botify

Diagnostic complet
• Ex avec Botify (tableau de bord)

L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
dans les logs serveur (User Agent : googlebot)
Home
Cat 1
P1
P2
P3
Cat 2
P1
P2
P3
P4
Cat 3
P1
P2
Votre version
Home
Cat 1
P1
P2
P3
Cat 2
P1
P1bis
P2
P2bis
P3
P4
Cat2bis Cat 3
Version vue par Googlebot
Des urls en moins
Des urls en +

Principe de l’analyse des deux versions
Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer dans
le robots.txt
Urls présentes
sur le site, non
explorées par
Google :
identifier la
cause
Urls OK
présentes
et
crawlées

L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes
• Indegree = nombre de liens entrants
• La hiérarchie des indegrees doit être
conforme à l’importance des pages

Xenu Link Sleuth
• http://home.snafu.de/tilman/xenulink.html

Link Examiner
• http://www.analogx.com/contents/download/Network/lnkexam/Freewa
re.htm

Siteliner
• http://www.siteliner.com

Screaming Frog
• http://www.screamingfrog.co.uk/seo-spider/

Lucène (java)
• https://lucene.apache.org/

Nutch (java)
• https://nutch.apache.org/

Scrapy (python)
• http://scrapy.org/

Deepcrawl
• http://deepcrawl.co.uk/

Botify
• https://fr.botify.com/

Merci !
• Me contacter :
Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole France – 92300 LEVALLOIS PERRET
Philippe.yonnet@search-foresight.com
Tél : 01 74 18 29 40
Président de l’association SEO Camp
24 avenue Ledru-Rollin 75012 PARIS
Philippe.yonnet@seo-camp.org
http://www.seo-camp.org

Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO

Contenu connexe

Tendances

Similaire à Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO

Plus de Tuni' SEO

Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO