Les critères de qualité de vos pages web selon Google
Utiliser un crawler pour le seo
1. UTILISER UN CRAWLER POUR LE SEO
Philippe YONNET
Agence Search Foresight – My Media
2. Search Foresight
Foresight : définition
• “an act or the power of foreseeing” : prescience
• “provident care” : prudence et prévoyance
• “an act of looking forward” : prospective
3. Philippe YONNET – Directeur de Search
Foresight
•
Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience
en référencement naturel.
•
Il a conseillé plus d’une centaine de sites, dont un grand nombre
de sites à forte audience (Pages Jaunes, Rue du
Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga,
Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)
•
Il a été notamment Directeur métier puis Directeur Général Adjoint
d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez
l'annonceur, pour travailler à Londres et New-York pendant deux
ans, en tant que Directeur SEO International de Vivastreet, puis en
tant que Directeur SEO International et Directeur Merchandising du
comparateur de prix Twenga.
•
Philippe YONNET est le président fondateur de l’association SEO
Camp, qui regroupe les professionnels du référencement des pays
francophones.
– Il est un contributeur régulier de la lettre professionnelle
d’Abondance, et a contribué à plusieurs chapitres du livre
« réussir son référencement » chez Eyrolles
– Il a fondé le principal évènement sur le référencement en
France, les SEO Camp’us
– Il a créé la certification CESEO, qui valide les connaissances
des experts en SEO
4. C’est quoi un crawler ?
• Deux modes : aspirateur / spider
– Aspirateur : on lui fournit une liste d’urls, que le robot
« aspire » (télécharge) pour alimenter une base de
données
– Spider : on fournit une url de départ au robot, qui analyse
le contenu de la page web, trouve les liens à
l’intérieur, les stocke dans une file d’attente. Puis il
télécharge les nouvelles urls trouvées, trouve d’autres
liens à l’intérieur et ainsi de suite…
• On appelle le processus suivi par le spider le « crawl », et on
appelle aussi les spiders des « crawlers »
11. Tester les performances du site
• Le temps de téléchargement du code a
une influence sur l’exploration de Google
12. Tester les performances du site
• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
comprendre quelles sont
les « scripts » lents et
d’identifier les causes de
ralentissement
16. Vérification de l’efficacité
de la mise en cache
• Extraction de patterns :
– timestamp de génération de la page vs horodatage du
téléchargement de la page
– Test de requêtes conditionnelles (If modified since et
renvoi de codes 304)
– Etc.
17. Analyse de la profondeur
• Profondeur : nb de clics nécessaires pour atteindre une
page en cliquant sur des liens
– Exemple ci-dessous : Botify
18. Pourquoi mesurer la profondeur ?
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
140000
120000
100000
80000
nb urls crawlables non
crawlées
nb urls crawlées
60000
40000
20000
0
Prof Prof Prof Prof Prof Prof Prof Prof Prof
0
1
2
3
4
5
6
7
8
19. Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)
20. Les prérequis pour le crawler
• Respect du robots.txt
• Gestion du nofollow sur les liens
• Gestion du nofollow dans les balises
meta
• Gestion du x-robots-tag dans les en-têtes
http://
• Gestion des canonical comme des
redirections
24. L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
dans les logs serveur (User Agent : googlebot)
Votre version
Version vue par Googlebot
Home
Home
Cat 2
Cat 3
P1
P1
P1
P2
P2
P2
P3
P3
Cat 1
Cat 2
P1
Cat 1
P1
P2
P1bis
P3
P2
P2bis
P3
P4
P4
Cat2bis
Cat 3
Des urls en moins
Des urls en +
25. Principe de l’analyse des deux versions
Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer dans
le robots.txt
Urls présentes
sur le site, non
explorées par
Google :
identifier la
cause
Urls OK
présentes
et
crawlées
26. L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes
• Indegree = nombre de liens entrants
• La hiérarchie des indegrees doit être
conforme à l’importance des pages
39. Merci !
• Me contacter :
Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole France – 92300 LEVALLOIS PERRET
Philippe.yonnet@search-foresight.com
Tél : 01 74 18 29 40
Président de l’association SEO Camp
24 avenue Ledru-Rollin 75012 PARIS
Philippe.yonnet@seo-camp.org
http://www.seo-camp.org