Le crawling est une étape indispensable à l'indexation. Pour comprendre le fonctionnement de votre site et améliorer son référencement, Philippe Yonnet vous explique au Tuni'SEO 2014 les bonnes méthodes pour optimiser son potentiel de crawl.
Directeur de l’agence Search Foresight du groupe My Media, Président fondateur de l’Association SEO Camp, Philippe YONNET a été tour à tour Directeur du département internet du Groupe Studyrama, Directeur Général Adjoint de l’agence Aposition/Isobar, SEO International Director chez W3 Inc (Vivastreet), et Directeur SEO International chez Twenga.
Convertir et mieux vendre grâce au maillage interne - Slim Azzabi
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
1. UTILISER UN CRAWLER POUR LE SEO
Philippe YONNET
Agence Search Foresight – My Media
2. Search Foresight
Foresight : définition
• “an act or the power of foreseeing” : prescience
• “provident care” : prudence et prévoyance
• “an act of looking forward” : prospective
3. Philippe YONNET – Directeur de Search
Foresight
• Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience
en référencement naturel.
• Il a conseillé plus d’une centaine de sites, dont un grand nombre
de sites à forte audience (Pages Jaunes, Rue du
Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga,
Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)
• Il a été notamment Directeur métier puis Directeur Général Adjoint
d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez
l'annonceur, pour travailler à Londres et New-York pendant deux
ans, en tant que Directeur SEO International de Vivastreet, puis en
tant que Directeur SEO International et Directeur Merchandising du
comparateur de prix Twenga.
• Philippe YONNET est le président fondateur de l’association SEO
Camp, qui regroupe les professionnels du référencement des pays
francophones.
– Il est un contributeur régulier de la lettre professionnelle
d’Abondance, et a contribué à plusieurs chapitres du livre
« réussir son référencement » chez Eyrolles
– Il a fondé le principal évènement sur le référencement en
France, les SEO Camp’us
– Il a créé la certification CESEO, qui valide les connaissances
des experts en SEO
4. C’est quoi un crawler ?
• Deux modes : aspirateur / spider
– Aspirateur : on lui fournit une liste d’urls, que le robot
« aspire » (télécharge) pour alimenter une base de
données
– Spider : on fournit une url de départ au robot, qui analyse
le contenu de la page web, trouve les liens à
l’intérieur, les stocke dans une file d’attente. Puis il
télécharge les nouvelles urls trouvées, trouve d’autres
liens à l’intérieur et ainsi de suite…
• On appelle le processus suivi par le spider le « crawl », et on
appelle aussi les spiders des « crawlers »
11. Tester les performances du site
• Le temps de téléchargement du code a
une influence sur l’exploration de Google
12. Tester les performances du site
• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
comprendre quelles sont
les « scripts » lents et
d’identifier les causes de
ralentissement
16. Vérification de l’efficacité
de la mise en cache
• Extraction de patterns :
– timestamp de génération de la page vs horodatage du
téléchargement de la page
– Test de requêtes conditionnelles (If modified since et
renvoi de codes 304)
– Etc.
17. Analyse de la profondeur
• Profondeur : nb de clics nécessaires pour atteindre une
page en cliquant sur des liens
– Exemple ci-dessous : Botify
18. Pourquoi mesurer la profondeur ?
0
20000
40000
60000
80000
100000
120000
140000
Prof
0
Prof
1
Prof
2
Prof
3
Prof
4
Prof
5
Prof
6
Prof
7
Prof
8
nb urls crawlables non
crawlées
nb urls crawlées
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
19. Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)
20. Les prérequis pour le crawler
• Respect du robots.txt
• Gestion du nofollow sur les liens
• Gestion du nofollow dans les balises
meta
• Gestion du x-robots-tag dans les en-têtes
http://
• Gestion des canonical comme des
redirections
24. L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
dans les logs serveur (User Agent : googlebot)
Home
Cat 1
P1
P2
P3
Cat 2
P1
P2
P3
P4
Cat 3
P1
P2
Votre version
Home
Cat 1
P1
P2
P3
Cat 2
P1
P1bis
P2
P2bis
P3
P4
Cat2bis Cat 3
Version vue par Googlebot
Des urls en moins
Des urls en +
25. Principe de l’analyse des deux versions
Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer dans
le robots.txt
Urls présentes
sur le site, non
explorées par
Google :
identifier la
cause
Urls OK
présentes
et
crawlées
26. L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes
• Indegree = nombre de liens entrants
• La hiérarchie des indegrees doit être
conforme à l’importance des pages
39. Merci !
• Me contacter :
Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole France – 92300 LEVALLOIS PERRET
Philippe.yonnet@search-foresight.com
Tél : 01 74 18 29 40
Président de l’association SEO Camp
24 avenue Ledru-Rollin 75012 PARIS
Philippe.yonnet@seo-camp.org
http://www.seo-camp.org