Publicité
Publicité

Contenu connexe

Présentations pour vous(20)

Similaire à Page importance, l’algorithme de Google qui optimise les budgets de crawl - par Erlé Alberton - ONCRAWL(20)

Publicité

Plus de Peak Ace(20)

Publicité

Page importance, l’algorithme de Google qui optimise les budgets de crawl - par Erlé Alberton - ONCRAWL

  1. Lille 16/11/17
  2. Lille 16/11/17 J’adore que Google vous donne de l’importance… ERLE ALBERTON CUSTOMER SUcCESS manager 10 ans de dev / 5 ans de SEO dont 2 ans en tant que responsable SEO des boutiques en ligne Orange et Sosh spécialiste schema.org seo monk ONCRAWL TRAinER customer climax
  3. Lille 16/11/17
  4. www.oncrawl.comwww.oncrawl.com We help Ecommerce & Online media take better SEO decisions and grow their revenues By providing access to the Most Advanced SEO Software Semantic SEO Crawler Comprehensive Log Analyser API & Platform to combined all website’s data
  5. Lille 16/11/17 +500 Happy Customers
  6. Lille 16/11/17 Plan de vol 1. Comment fonctionne Google 2. Crawl Budget & Page Importance 3. Comment suivre les variations du crawl 4. Best practices d’optimisation
  7. Lille 16/11/17 Comment fonctionne Google ? Google est un moteur de réponse, son objectif est d’être le plus pertinent, complet et à jour possible Google n’est qu’un ensemble d’algorithmes qui sont exécutés sur des machines consommant de l’énergie… cette consommation d’énergie à un coût qui doit être optimisé
  8. Lille 16/11/17 Google consomme annuellement autant d’énergie que la ville de San Francisco
  9. Lille 16/11/17 • Google possède un index colossal, il ne peut pas tout crawler tout le temps • Pour avoir la meilleure réponse il faut connaitre toutes les pages - découverte • Pour avoir la meilleure réponse il faut la dernière version de la page - indexation GOOGLE KEY INSIGHTS Google n’est pas philanthrope, il doit optimiser ses coûts de traitement…
  10. Lille 16/11/17 Plus une page est utile pour la découverte de nouvelles URLs ou est mise à jour plus Google la visite Plus une page est crawlée plus elle est à jour dans l’index Plus une page est à jour dans l’index plus la réponse à la requête est qualifiée Fréquence de Crawl et Ranking sont liés
  11. Lille 16/11/17 Crawl Budget C’est le crédit que Google alloue à l’ensemble de ses robots pour parcourir les URLs d’un site web
  12. Lille 16/11/17 Répartition des hits par bot (1 journée / granularité 10min) : Mediapartners-Google Adsbot-Google desktop Googlebot 2.1 desktop Googlebot 2.1 mobile Adsbot-Google Mobile Le crawl budget est réparti entre tous les bots Google
  13. Lille 16/11/17 Quelles sont les pages les plus « importantes » ?
  14. Lille 16/11/17 Comment fonctionne le crawl de Google?
  15. Lille 16/11/17 Les brevets d’optimisation de crawl • US 8666964 B1 : Managing items in crawl schedule • US 8707312 B1 : Document reuse in a search engine crawler • US 8037054 B2 : Web crawler scheduler that utilizes sitemaps from websites • US 7305610 B1 : Distributed crawling of hyperlinked documents • US 8407204 B2 : Minimizing visibility of stale content in web searching including revisine web crawl intervals of documents • US 8386459 B1 : Scheduling a recrawl • US 8042112 B1 : Scheduler for search engine crawler www.google.com/patents
  16. Lille 16/11/17 Schedulers : Définir une liste des urls à crawler pour la session de crawl Crawlers : Vérifier quelles URLs sont autorisées au crawl Chaque session de crawl commence par un hit sur le robots.txt, puis sur les sitemaps.xml, enfin les crawlers dépilent la liste des URLs à analyser Cette liste d’url, conçue à l’avance, est établie grâce à un algorithme qui classe les pages en fonction d’un score d’importance Optimiser la liste des URLs à crawler en connaissant les métriques utilises pour le calcul de page importance Comment fonctionne le crawl de Google www.google.com/search/howsearchworks/crawling-indexing/
  17. Lille 16/11/17 Page importance C’est un score qui est affecté à chaque page pour évaluer sa place dans la liste des URLs à analyser fr.oncrawl.com/2017/page-importance-google/
  18. Lille 16/11/17 Calcul de la « Page Importance » La notion de « Page Importance » n’est pas le Page Rank • Localisation de la page dans le site – a profondeur sur le taux de crawl • Page Rank : TF/CF de la page - Majestic • Le Page Rank interne – InRank OnCrawl • Type de document : PDF, HTML, TXT • L’inclusion dans le sitemap.xml • Le nombre de liens internes • La variation des ancres • Contenu de qualité : nombre de mots, peu de duplication • L’importance de la page mère : les pages les plus près de la HP seront favorisées Il faut appliquer aux pages les plus importantes toutes ces règles pour favoriser le crawl de Google
  19. Lille 16/11/17 Comment suivre les variations du crawl ? L’analyse des logs serveur et le croisement des données de crawl permettent de comprendre : Quels sont les facteurs déclencheurs du crawl de Google?
  20. Lille 16/11/17 Traquer Google lors de sa visite avec les fichiers de los A chaque fois qu’un visiteur passe sur une page il laisse des traces dans des fichiers de logs Google est un visiteur (presque) comme un autre il laisse ses traces et nous les analysons
  21. Lille 16/11/17 Best practices Une bonne optimisation est une modification qui va maximiser les valeurs prisent en compte dans le calcul de la Page Importance
  22. Lille 16/11/17 Logs Monitoring • Visualiser le comportement des robots de crawl • Détecter les catégories les + ou – bien misent en valeur • Suivre précisément les visites seo
  23. Lille 16/11/17 Logs Monitoring Crawl behavior • Suivre les variations de crawls de Google sur chaque segment du site • Vérifier que toutes les pages importantes sont crawlées • S’assurer que les pages non importantes ne consomment pas le budget de crawl
  24. Lille 16/11/17 Logs Monitoring SEO impact • Vérifier que les visites SEO arrivent sur les pages importantes • Vérifier que toutes les pages importantes sont visitées • S’assurer que les optimisations profitent au trafic SEO
  25. Lille 16/11/17 Classer les pages par importance Créer des groupes en fonction des : • BotHits/jour • Visites SEO (logs/GS) • De la profondeur dans le site • Qualité technique (Status code, temps de chargement, …) • Nombre de liens entrants (internes/externes) • Nombre de variantes des ancres • Nombre de mots dans les pages • Par ratio de Near Duplicate Content
  26. Lille 16/11/17 +450 metrics Page Groups Trouver les métriques qui comptent pour votre site !
  27. Lille 16/11/17 HTML Quality • Vérifier les Status code retournés par le serveur durant le crawl • Suivre les Load time donne une information sur le temps de réponse serveur TTFB et/ou TTLB
  28. Lille 16/11/17 Distribution du la popularité • Vérifier que les pages importantes reçoivent beaucoup de popularité : Inrank • S’assurer que les pages importantes reçoivent les liens les plus puissants • Eviter les liens de toutes les pages vers toutes les pages : Optimiser les Mega-menu et les footer
  29. Lille 16/11/17 La popularité interne à un impact sur les visites
  30. Lille 16/11/17 Content • Déterminer combien de mots il faut dans une page pour maximiser le crawl budget ?
  31. Lille 16/11/17 Il y a des seuils qu’il faut dépasser
  32. Lille 16/11/17 Duplicate content • Comprendre les problèmes techniques qui génèrent le Duplicate Content • Réduire le Near Duplicate Content • Vérifier les balises canonicals • Créer des contenus uniques
  33. Lille 16/11/17 Vérifier les sitemaps • Toutes les pages importantes sont elles dans les listées ? • Pas de 40x, 50x ou 40x dans les sitemaps • Vérifier les pages orphelines dans les sitemaps Def : URLs dans le sitemap mais non maillée dans le site
  34. Lille 16/11/17 Payload Analyser du temps de chargement pour déterminer le temps maximum de réponse du serveur
  35. Lille 16/11/17 A Vous de Jouer ! Vous avez les clés pour comprendre quels sont les métriques qui augmentent votre Crawl Budget
  36. Lille 16/11/17 Des questions ?
Publicité