2. #seocamp
ERLE ALBERTON
CUSTOMER SUcCESS manager
10 ans de dev / 5 ans de SEO dont 2 ans en
tant que responsable SEO des boutiques en
ligne Orange et Sosh
spécialiste schema.org
seo monk
ONCRAWL TRAinER
customer climax
& GOOD IDEAS
Julien Ferras
SEO manager
J'ai en charge la construction et le
déploiement de la stratégie d'acquisition de
trafic sur les sites de Paris Match, Le
Journal du dimanche et Version Femina
UN SEO performant
c’est avant tout une
organisation interne
performante
Une collaboration qui porte ses fruits
3. Plan de vol
1. Introduction
2. Pourquoi utiliser l’analyse de logs ?
3. On va parler de « Crawl Budget » et de « Crawl Rate »
4. Cas pratique
5. Résultats
4. #seocamp
Comment fonctionne Google ?
Les algorithmes de Google sont des
programmes informatiques conçus pour naviguer
parmi des milliards de pages, y déceler les bons
indices et vous renvoyer exactement la réponse à
votre question
https://www.google.com/search/howsearchworks/
Le parcours d'une requête commence bien avant votre saisie, par l'exploration et
l'indexation des milliards de documents qui constituent le Web
6. #seocamp
Pourquoi passer par l’analyse de logs ?
Voir son site comme Google le voit et
donc comprendre l’activité du bot sur
son site
Visualiser le temps, le « crédit » alloué par
Google à ses robots pour parcourir
l’ensemble des ressources du site
« Crawl Budget »
Connaître le ratio entre les URLs
présentes dans la structure et celles vues
par Google « Crawl Rate »
Monitorer la santé du site : status codes
des URLs, redirections…
Connaître la date du dernier crawl : quand
les moteurs de recherche ont crawlé
pour la dernière fois une page en
particulier
Découvrir les URLs qui génèrent du trafic
et sont crawlées mais ne sont pas
présentes dans la structure du site
pages orphelines…
7. Vos fichiers de logs contiennent les seules
données qui reflètent avec exactitude la façon
dont les moteurs de recherche parcourent votre
site web
- MOZ Blog
8. #seocamp
Les limites de la
Google Search Console
Elle permet de constater des évolutions dans le
comportement de crawl de Google
Elle permet de dégager une tendance, mais elle compile les
budgets de 12 bots de Google, ce qui n‘est pas précis
L’analyse de logs couplée au crawl permet de procéder à
une analyse plus minutieuse
9. #seocamp
Traquer Google avec les fichiers de logs
A chaque fois qu’un visiteur passe sur une page il laisse des traces dans des fichiers
de logs. Google est un visiteur (presque) comme un autre, il laisse ses traces et
nous les analysons.
10. #seocamp
Présentation
Paris Match est un magazine hebdomadaire français
d’actualités et d’images, né en 1949 et célèbre par sa devise :
« Le poids des mots, le choc des photos »
Nos besoins : Auditer le site en profondeur, identifier nos forces et nos faiblesses,
déterminer nos priorités et corriger les facteurs bloquants au crawl de Google
11. #seocamp
Comment travailler le SEO d’un site média ?
Les sites média font face à des problématiques SEO particulières :
• Gérer une volumétrie importante
• Identifier des problèmes de structure
• Déterminer une stratégie de contenu
• Lutter contre le contenu dupliqué
Cette étude de cas présentera la méthodologie utilisée
pour améliorer la visibilité de Paris Match
et les bonnes pratiques pour atteindre ces résultats
12. #seocamp
Crawl Budget
C’est le crédit que Google alloue à tous ses robots pour
parcourir l’ensemble des ressources d’un site web
Google doit optimiser ses coûts de traitement....
…et vous devez l’aider !
13. #seocamp
[...] nous avons vu fleurir un certain nombre de définitions du "budget d'exploration" ou
"crawl budget"
[…] nous ne disposons pas d'un terme unique pour décrire tout ce que ce terme semble
signifier
Si vous observez que les nouvelles pages sont généralement explorées le jour même de leur
publication, alors vous n'avez pas vraiment à vous préoccuper du budget d'exploration
[…] si un site dispose de moins de quelques milliers d'URL, il sera exploré correctement
la plupart du temps
Ce que dit Google sur le « Crawl Budget »
14. #seocamp
Ce que Google dit : En associant la – 1. vitesse d'exploration et – 2. le besoin d'exploration
nous définissons le budget d'exploration comme le nombre d'URLs que Googlebot peut et
veut explorer
Comment optimiser son « Crawl Budget »
https://webmaster-fr.googleblog.com/2017/01/definition-budget-exploration-crawl-budget.html
1. Si le site répond très rapidement
la limite augmente
> temps de chargement
2. les URLs les plus populaires ont tendance à être
explorées plus souvent [...] Google s'efforce
d'empêcher que les contenus obsolètes ne
soient actualisés dans l'index
> popularité et obsolescence
15. #seocamp
• Navigation à facettes
• Duplicate content sur le site
• Les pages en erreurs "soft 404", 404, 503
• Pages piratées
• Contenu de mauvaise qualité et spam
Facteurs affectant le « Crawl Budget »
• La popularité des pages
• La fraîcheur et la richesse des contenus
• La vitesse du site
• La santé du site
• La profondeur de l'arborescence
16. #seocamp
C’est le ratio entre les pages présentes dans la
structure du site - pages vues par OnCrawl versus
toutes les pages crawlées par Googlebot
Rappelez vous ce que dit Google :D
1. Vitesse d'exploration
2. Le besoin d'exploration
En modifiant la popularité vous augmenterez le
budget d’exploration de votre site
«Crawl Rate»
18. #seocamp
• Segmenter le contenu (logs)
• Creuser la donnée (crawl/logs)
• Corriger les problèmes majeurs
• Identifier les pages stratégiques
• Croiser les données
• Déterminer un plan d’action
La méthode
19. Segmenter les pages section et/ou par importance
Permet de mettre tout de suite en valeur les rapports de crawl ou le logs
et faire les bons choix ensuite
Segmentation par
rubriques
Segmentation par
Bot Hits
20. #seocamp
Le budget de crawl n’est pas réparti de la
même manière tous les jours, mais il y a
des tendances à noter :
• La catégorie « Actu » est très crawlée (40%)
• La rubrique « Royal Blog » peu crawlée
pourtant le trafic est élevé
• Pourquoi autant de pages en Other ?
Après la mise en place de la segmentation
21. #seocamp
Le crawl de Google est la première étape
pour permettre à une page d’être indexée
Log Monitoring :
On peut suivre la répartition du budget de
crawl et connaitre les types de pages qui
plaisent le plus à Google
Pas de crawl = Pas de visites
Comprendre le comportement du Bot
22. #seocamp
L’ensemble des pages de la rubrique « Vivre »
génèrent peu de trafic
Pourtant, la fréquence de crawl sur cet
ensemble de page est plus élevée que sur les
pages de la rubrique « Actu »
Quels sont les facteurs qui favorisent
l’élévation du taux de crawl sur cet
ensemble de pages ?
Pourquoi ces pages génèrent si peu de
visites ?
Faire le 1er constat rapidement
23. On peut vraiment savoir ce qui plait à
Google et ce qui a ou non un impact ?
24. #seocamp
Les bonnes valeurs
croiser des données
Analyser l’impact du nombre de liens, du nombre de
mots, de la profondeur, du InRank, des données GSC,
sur 3 KPI majeurs :
Frequency / Activness / Crawlabity
Vous pouvez analyser les pages avec les meilleures
performances et déduire quelles sont les bonnes
valeurs des métriques pour maximiser leur SEO
25. #seocamp
En croisant les données de Log avec celles du crawl nous avons pu déterminer quels
sont les seuils à cibler lors de nos optimisations
L’apport des analyses croisées
Analyse du contenu :
• Plus de mots sur une page
=> une fréquence de crawl plus élevée
• Plus de mots sur une page
=> plus de visites
26. #seocamp
1. Identifier des pages stratégiques
2. Identifier des pages « pauvres »
3. Améliorer la qualité de Crawl Google
4. Améliorer la vitesse de chargement
5. Optimiser l’InRank
6. Remonter les pages dans l’arborescence
7. Augmenter la densité du contenu
8. Améliorer l’UX
Déterminer un plan d’action précis
27. Identifier des pages
« stratégiques »
L’analyse des logs nous a permis de mieux
connaître notre site, de comprendre sa
structure, d’identifier les rubriques que
Google a pour habitude de venir visiter et
celles qui sont oubliées
URLs consommant le
budget de crawl
URLs les plus visitées
28. #seocamp
Le temps que Googlebot vous alloue est précieux, ne le gaspillez pas !
Constats :
• Consommation du budget de crawl
• Duplicate content avec la page parente
Identifier des pages « pauvres »
Optimisations misent en œuvre :
• Supprimer les pages /News
• Rediriger en 301 vers la page parente
• Modifier les liens internes
29. #seocamp
Vérifier la santé du site :
les status codes retournés par le serveur durant
le crawl de Google
• Identifier les pages redirigées
• Corriger les pages d’erreurs
• Identifier les liens internes vers des 301
des 4xx et les corriger
Améliorer la qualité de Crawl Google
30. #seocamp
Le travail des équipes IT a permis de
réduire les temps de chargement pour
augmenter les fréquences de crawl et
améliorer l’expérience utilisateur
Actions :
• Déplacer les Js/css en bas du code source
• Réduire du poids des images
• Ajouter un système de cache et CDN
• Intégrer Lazy loading sur les images
Améliorer les temps de chargement
31. #seocamp
Optimiser le InRank
Nous avons pu détecter des problèmes liés
au maillage interne à traiter et nous avons
été en mesure de les corriger
Définition d’une stratégie de linking qui
s’appuie sur notre stratégie de content
marketing globale, sur contenu utile et
pertinent qui apportera une réelle valeur
ajoutée à nos lecteurs
• Penser expérience utilisateur
• Faire des ancres naturelle
• Lier des contenus pertinents
• Mettre en place des actions correctives sur
l'historique
32. #seocamp
Optimiser le InRank
Nous avons pu détecter des problèmes liés
au maillage interne à traiter et nous avons
été en mesure de les corriger
Définition d’une stratégie de linking qui
s’appuie sur notre stratégie de content
marketing globale, sur contenu utile et
pertinent qui apportera une réelle valeur
ajoutée à nos lecteurs
• Penser expérience utilisateur
• Faire des ancres naturelle
• Lier des contenus pertinents
• Mettre en place des actions correctives sur
l'historique
33. #seocamp
Nous avons pu détecter des problèmes liés
au maillage interne à traiter et nous avons
été en mesure de les corriger
Définition d’une stratégie de linking qui
s’appuie sur notre stratégie de content
marketing globale, sur contenu utile et
pertinent qui apportera une réelle valeur
ajoutée à nos lecteurs
Optimiser le InRank
• Penser expérience utilisateur
• Faire des ancres naturelle
• Lier des contenus pertinents
• Mettre en place des actions correctives sur
l'historique
34. #seocamp
Pour réduire la profondeur des pages et améliorer la
popularité, nous avons ajouté un bloc de mise en avant vers
les pages stratégiques
Remonter les pages dans
l’arborescence
35. #seocamp
• Ajouter un texte d'accroche
• Ajouter une biographie
• Ajouter des blocks à forte valeur ajoutée
(interview, reportages photos)
• Augmenter le nombre de blocs dans le listing de
contenus
• Faire des liens avec les personnalités liées
Augmenter la densité du contenu
Nous avons pu augmenter la densité du contenu sur nos pages stratégiques en mettant en
place des améliorations :
38. #seocamp
AVANT
• InRank : 4
• Depth : 5
• Nombre de liens entrants : 66
• Nombres de mots : 2 000
• Speed Index : 9 800
• Poids de la page : 144.30 KB
APRES
• InRank : 7
• Depth : 2
• Nombre de liens entrants : 619 (133 463 avec le menu)
• Nombres de mots : 3 021
• Speed Index : 3 600
• Poids de la page : 123.30 KB
Résultat : Kate Middleton
39. #seocamp
Impact sur les
Rankings
En croisant les données de Log avec
celles de la Google Search Console
dans OnCrawl, nous avons pu vérifier
l’impact des optimisations (avant/après)
Positions, CTR, profondeur, nombre de
liens entrants, nombre de mots, temps de
chargement…
40. #seocamp
Impact sur les
visites
Dans les logs nous pouvons tracer toutes
les visites SEO
L’impact du nombre de mots ou du nombre
de liens sur le trafic généré est simplement
accessible par le croisement des données de
Crawl et les Logs
42. #seocamp
Plonger dans les fichiers de logs peut aider
à débloquer la boîte noire de Google
François Goube – OnCrawl CEO
43. #seocamp
Question MUG
Quel est le seul fichier qui permet de couper le crawl
budget sur les pages non pertinentes en vue de le
re-alouer à d’autres pages ?
44. #seocamp
A Vous de Jouer !
Vous avez les clés pour comprendre le
crawl budget et ses impacts sur votre
trafic naturel grâce à l’analyse de logs