n entend beaucoup de choses plus ou moins vraies sur le budget de crawl de Googlebot. Mais que désigne vraiment derrière cette notion de “crawl budget” ? Pourquoi est-ce important ? Et surtout, comment puis-je faire évoluer le comportement de crawl de Google ?
Intervenant : Philippe Yonnet – Directeur Général – Search Foresight
La qualité des pages selon Google - SEO CAMP DAY LORRAINE 2018
La vérité sur le budget de crawl - Philippe Yonnet - Petit déjeuner du 7-12-2017 - Paris
1. SEO – Votre priorité 2018
optimiser les performances de votre site Web
Actualités SEO, Content marketing et E-commerce, Google Shopping, Crawl…
1
BIENVENUE
#S4sight2017
@s4sight
Auditorium Nexity, ParisJeudi 7 décembre 2017
Petit Déjeuner SEOSEA
Matinée Conférences
SEO / SEA : le Search évolue,
changez votre vision du Search
Actualité SEO SEA, Mobile First Index, Gestion des Evénements saisonniers en SEO…
4. Quelques phrases entendues ici ou là
Il faut supprimer ces pages pour économiser
votre budget de crawl
Votre budget de crawl est fixe, donc il faut
empêcher Google d’aller sur vos pages
inutiles pour qu’il aille sur vos pages utiles
Votre budget de crawl est limité
Tout cela est fondamentalement faux.
La vérité est… ailleurs
4
5. Agence conseil en stratégie digitale | SEO • SEM • CRO • Inbound Marketing • Analytics
Le crawl pour les nuls
5
7. Le travail du crawler
Un crawler découvre des uls en
téléchargeant des pages web et en
en extrayant de nouvelles urls
Ces urls sont placées en file d’attente
pour être ensuite téléchargées à leur
tour
Et le process se poursuit jusqu’à
épuisement des urls (ou pas)
7
9. Un crawler se doit d’être poli avec les serveurs web
Le crawler doit éviter de demander trop de
ressources trop souvent
Le crawler doit respecter les directives
Du robots.txt
De la meta robots ou de la x-robots-tag
Des attributs nofollow
9
10. Le crawl « programmé »
C’était le fonctionnement de Google au
début
Google crawlait tous les mois toutes les urls
de la file d’attente constituée le mois
d’avant, de la première à la dernière
Combinait un « full crawl » (deep crawl) et un
« incremental crawl » (fresh crawl) pour gagner
en fraîcheur
Procédé simple, mais qui ne garantit pas la
fraicheur, plus le volume
Parfois appelé crawl fini ou fermé
10
11. Le crawl infini ou continu
Le crawler ne s’arrête plus, il crawle et
recrawle en permanence en fonction des
priorités de crawl
C’est le fonctionnement actuel
L’ordonnanceur devient un outil sophistiqué
11
13. Petite histoire des crawlers de Google
13
Phase 1 : crawl fermé
Google crawle une liste d’urls finie chaque mois. Le crawl dure une dizaine de
jours, puis crée ses index, calcule ses critères (dont le pagerank), puis déploie
son nouvel index sur ses datacenters progressivement
Phase 2 : crawl ouvert -> 2004 ?
Passage à un crawl « infini » : le crawler crawle indéfiniment, en suivant un
ordre de priorité défini par l’ordonnanceur (été 2004 ?)
Phase 3 : infrastructure Bigdaddy (fin 2005 – début 2006)
Plus grosse capacité à crawler et indexer, crawl en couches, exploitation de
bigTable
Phase 4 : Fusion des bots
Chaque moteur vertical ou fonctionnalité avait abouti à la création d’un bot
spécifique pour chaque utilisation => vers un bot unique qui sert tous les
outils avec des user agents parfois différents
Phase 5 : Caffeine 2009
Nouvelle architecture, fin du crawl par « couches », crawl prédictif et plus
intellige
Phase 6 : Hummingbird
Expansion de requêtes sémantiques
14. Agence conseil en stratégie digitale | SEO • SEM • CRO • Inbound Marketing • Analytics
La notion de budget de
crawl
14
15. La définition de Google
Le budget de crawl correspond à ce que
Google peut et veut crawler
Peut crawler : les ressources de Google et du
serveur web sont limitées, et le temps aussi
Veut crawler : Google crawle certaines urls en
priorité et ignore les autres
https://webmasters.googleblog.com/2017
/01/what-crawl-budget-means-for-
googlebot.html
16. Les principaux critères pris en compte
Fraicheur
Qualité (du point de vue de l’expérience de
recherche)
Popularité
Rappel (volume)
Le crawl est priorisé en fonction des critères qui maximisent la qualité de l’index collecté
16
17. Le pagerank
C’est LE critère qui a le plus d’influence sur le
comportement de Crawl
Google crawle en priorité les pages qu’il
estime importantes, donc populaires
Augmenter et diminuer le pagerank,
contribue à augmenter ou diminuer le
budget de crawl
17
18. La profondeur a un impact négatif
Plus une page est profonde,
plus son pagerank interne est
faible
Une page dont le pagerank est
faible a moins de chances
d’être crawlée, ou est crawlée
moins fréquemment
Conclusion, plus une page est
profonde, moins elle est
crawlée
Cela se vérifie quasi
systématiquement
18
0
20000
40000
60000
80000
100000
120000
140000
Prof
0
Prof
1
Prof
2
Prof
3
Prof
4
Prof
5
Prof
6
Prof
7
Prof
8
nb urls
crawlables non
crawlées
nb urls
crawlées
19. La notion de fraicheur
Google cherche à maximiser la fraicheur de
son index
La « fraicheur » n’a rien à voir avec l’âge de
la page. Si on considère une seule page :
Soit l’index correspond à l’état de la page sur le
site -> la page en index est « fraiche »
Soit la version indexée est obsolète -> la page
n’est plus fraiche
La fraicheur de l’index mesure la proportion
de pages dans l’index qui ne sont pas
obsolètes
Dans le même temps, maintenir un age
moyen des pages bas augmente la fraicheur
19
23. L’impact des performances sur le crawl
Baisser le temps de
téléchargement du code peut
améliorer sensiblement le taux
de pages crawlées et la
fréquence de recrawl
Attention, les chiffres fournis par
Google sont très difficiles à
interpréter
Pas de distinction crawl unique /
recrawl
Temps de téléchargement moyens !
Et le recrawl
23
24. Agence conseil en stratégie digitale | SEO • SEM • CRO • Inbound Marketing • Analytics
Idées reçues et vraies
solutions
24
25. Mon budget de crawl est limité …
Pas vraiment : si le score de priorité de vos pages augmente, Google
les crawlera plus souvent et plus systématiquement
L’inverse est vrai aussi
Si j’empêche Google de crawler des pages « inutiles », il n’ira pas
forcément crawler les pages « utiles »
LA BONNE APPROCHE :
Si je trouve que Google ne crawle pas tout mon contenu, ou pas au
bon rythme
Il faut augmenter les scores de priorité
Ne surtout pas essayer le bot herding
26. Ces urls consomment mon budget de crawl…
En fait ce n’est pas toujours vrai
Quelques cas où c’est vrai :
Si des urls pointent vers des doublons, les éliminer
augmentera le score de priorité des autres pages
(note de qualité)
Si des pages listings (facettes) sont trop nombreuses,
les bloquer renforcera le taux de pages produits
crawlés (augmentation du pagerank)
Les cas où ce n’est pas vrai
Supprimer les pages inactives sur un site web
Le pagerank interne diminue fortement
localement et globalement, ce qui diminuera le
budget de crawl
Supprimer les pages de pagination
En général, cela gêne le crawl, cela ne le facilite
pas. Il faut garder ces pages et optimiser
l’arborescence
26
27. Modifier les pages régulièrement augmente le
rythme de recrawl…
En général, non
C’est efficace uniquement si Google pense
que crawler ces pages plus souvent améliore
la fraicheur de son index, les modifications
artificielles ont peu d’impact visible sur le
comportement du bot
Il faut se demander si la page répond ou non
à des requêtes QDF (Query Deserves
Freshness)
Requêtes liés à l’actualité
Requêtes appelant des pages dont le contenu doit
être récent
Requêtes sur les prix, les promos
Requêtes sur des infos à faible durée de vie
(sites d’annonces)
27
28. Agence conseil en stratégie digitale | SEO • SEM • CRO • Inbound Marketing • Analytics
Contrôler le rythme de
recrawl
28
29. Ce qui ne marche pas
Le paramètre « crawl delay » dans le robots.txt
Google n’en tient pas compte, surtout si vous voulez accélérer le
crawl
La meta « revisit-after »
Les balises <priority> dans les sitemaps
30. Le contrôle via la search console
Paramètre disponible dans les paramètres de site (la roue crénelée en haut à droite)
Ne pas diminuer la vitesse sauf si le serveur est surchargé
Si vous diminuez la vitesse d’exploration, pensez à remettre le paramètre à la normale après !
Si vous augmentez la vitesse d’exploration, Google augmentera le rythme de crawl… ou pas
Cela ne fonctionne vraiment pas à tous les coups (il faut que vos pages aient de bons scores
d’importance)
30
31. La gestion des paramètres dans la GSC
Peut remplacer le blocage dans le robots.txt pour les doublons qui peuvent consommer le
budget de crawl
Mais cela ne marche que pour les paramètres …
Une fonctionnalité souvent oubliée
31
32. « Pinger » Google
Il est possible de « pinger » Google pour
accélérer la découverte des pages
Le plus efficace semble de se servir du
service PubHubSub et des Feeds RSS pour
les urls
Marche évidemment pour les sitemaps au
format RSS
32
33. La gestion des 304
On peut faciliter de façon impressionnante
le crawl de Google en supportant les
requêtes conditionnelles pour « if-modified-
since »
Avec la même bande passante, un crawler
pourra mettre à jour votre site beaucoup
plus rapidement
Le gain n’est observable que pour des très
gros sites (à partir de dizaines, voire de
centaines de milliers d’urls et +)
33
34. Agence conseil en stratégie digitale | SEO • SEM • CRO • Inbound Marketing • Analytics
Conclusion
34
35. On peut augmenter son budget de crawl !
Pour exprimer tout le potentiel du site, il faut que 100% des urls utiles soient crawlables et
crawlées
La meilleure façon d’augmenter le taux de pages utiles crawlées, c’est d’augmenter les notes
de priorité des pages
Au total, cela se traduira par un budget de crawl augmenté
Le budget de crawl n’est pas une quantité figée, il reflète un comportement complexe qui
résulte de la prise en compte :
De contraintes techniques : politeness, bande passante, performances du site etc.
De l’intérêt des pages pour l’index : fraicheur, qualité, intérêt pour l’expérience de recherche
(pertinence)