Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Analyse combinée crawl + logs - Search Foresight & Botify

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 47 Publicité

Analyse combinée crawl + logs - Search Foresight & Botify

Télécharger pour lire hors ligne

Un aperçu de l'utilisation des données de logs et des données de crawl à fins d'audit et d'analyse pour le SEO. Et les avantages de l'analyse croisée logs+crawl.

Conférence présentée au SEO Camp'us 2014 par Adrien Ménard, PDG de Botifiy, et Philippe Yonnet, DG de Search Foresight

Un aperçu de l'utilisation des données de logs et des données de crawl à fins d'audit et d'analyse pour le SEO. Et les avantages de l'analyse croisée logs+crawl.

Conférence présentée au SEO Camp'us 2014 par Adrien Ménard, PDG de Botifiy, et Philippe Yonnet, DG de Search Foresight

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (12)

Les utilisateurs ont également aimé (20)

Publicité

Similaire à Analyse combinée crawl + logs - Search Foresight & Botify (20)

Plus par Philippe YONNET (20)

Publicité

Plus récents (20)

Analyse combinée crawl + logs - Search Foresight & Botify

  1. 1. L’analyse combinée CRAWL + LOGS Philippe YONNET DG Search Foresight – My Media Adrien MENARD PDG BOTIFY
  2. 2. Search Foresight Foresight : définition • “an act or the power of foreseeing” : prescience • “provident care” : prudence et prévoyance • “an act of looking forward” : prospective
  3. 3. Botify : Editeurs d’applications SEO Testez le service avec 100k pages
  4. 4. L’ANALYSE DES DONNEES DE CRAWL
  5. 5. D’où proviennent les données de crawl ? • D’un crawler (ou spider)
  6. 6. A quoi ça sert ? • Découvrir le nombre de pages réellement “crawlables” par un moteur de recherche (ne suit pas robots.txt, no follow, javascript, ajax) • Repérer les liens cassés (et donc les pages sources) • Découvrir la profondeur de ses pages • Analyser ses temps de réponses (crawler) • Repérer les duplicates • Identifier les canonicals mal renseignées • Analyser les liens entrants / sortants de vos pages
  7. 7. La détection des liens brisés • Détection des pages 404
  8. 8. Détecter les pages en redirection • Détection des erreurs 30x • Objectif : diminuer le volume de 301 • Eliminer les 302 (idem pour les 4XX ou 5XX)
  9. 9. Détecter les URLs source
  10. 10. Tester les performances du site • Le temps de téléchargement du code a une influence sur l’exploration de Google
  11. 11. Votre site est-il rapide ? • Google webmaster tools ne fournit que des temps « moyens » • Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement
  12. 12. Détection des duplicate title, H1 ou descr
  13. 13. Accéder aux détails de vos métadata
  14. 14. Analyse de la profondeur
  15. 15. Pourquoi mesurer la profondeur ? Plus une url est profonde, moins elle reçoit de linkjuice Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
  16. 16. Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)
  17. 17. Analyse des link rel=canonical
  18. 18. Analyse des liens sortants • Ex : botify
  19. 19. L’analyse du maillage interne • Objectif : mesurer les ratios – Nb de liens entrants vs liens sortants – Nb de liens sortants internes vs externes • Indegree = nombre de liens entrants • La hiérarchie des indegrees doit être conforme à l’importance des pages
  20. 20. Diagnostic complet • Ex avec Botify (tableau de bord)
  21. 21. Créez vos propres filtres
  22. 22. L’ANALYSE DES LOGS
  23. 23. Les logs serveurs c’est quoi ? ----------- ----------- ----------- ----------- ----------- Enregistrement de la requête = ajout d’une ligne dans le fichier de logs Log
  24. 24. Les logs serveurs c’est quoi ? • Les « logs » sont des fichiers texte créés par les serveurs web. • Chaque requête envoyée à un serveur web est enregistrée dans le fichier log représente une requête http
  25. 25. A quoi cela ressemble ? 194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 16440 87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 36821 87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 2146 87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644 Format Apache par défaut Remarque : on ajoute en général d’autres champs comme : - Le referrer (et le query string : la chaine de paramètres) - Le User Agent - L’hôte
  26. 26. Quelles informations y trouve-t’on ? • L’adresse IP de la source • L’identité du client • Le nom de l’utilisateur distant (si http auth) • Date, heure, fuseau de la requête • La requête http:// • Le code réponse renvoyé par le serveur • La taille du bloc de données retourné par le serveur en octets • Les “-” symbolisent une information manquante
  27. 27. Quelles lignes des logs nous intéressent ? • Pour compter les visites SEO : celles qui contiennent « Google » ou « Bing » (ou tout autre moteur de recherche) dans le champ « referrer » • Pour compter les crawls des bots : celles qui contiennent « Googlebot » ou « Bingbot » (ou un autre bot) dans le champ « User Agent »
  28. 28. Usage n°1bis : caractériser le comportement de crawl 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 23-Jun-10 24-Jun-10 25-Jun-10 26-Jun-10 27-Jun-10 28-Jun-10 29-Jun-10 30-Jun-10 01-Jul-10 02-Jul-10 03-Jul-10 04-Jul-10 05-Jul-10 06-Jul-10 07-Jul-10 08-Jul-10 09-Jul-10 10-Jul-10 11-Jul-10 Crawl des fiches produits : pages uniques Crawl des fiches produits : avec recrawl L’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages sont crawlées Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées
  29. 29. Comprendre et analyser son volume de crawl quotidien
  30. 30. Surveiller « le crawl » par type de pages Pages produit Pages Erreurs
  31. 31. Usage n°2 : déterminer les pages qui reçoivent du trafic organique
  32. 32. Usage n°2 : déterminer les pages qui reçoivent du trafic organique Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées Une augmentation du ratio pages visitées sur pages ignorées mesure en règle générale une meilleure indexation et de meilleurs classements
  33. 33. Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée Ratios intéressant : Longueur des requêtes / type de pages Nombre d’expressions différentes / page
  34. 34. Usage n°4 : identifier les pb techniques ou serveurs sur une période Pic de 302 depuis début janvier qui doit être corrigé rapidement
  35. 35. Usage n°5 : monitorer les perfs côté serveur • Apache 2 : •temps pour délivrer la page mesuré en microsecondes •LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i" %T/%D" combined •Résultat •[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491 •Soit 0,095491 secondes •Avec Apache 1,3 seul le temps en sec est disponible •Ne pas confondre avec le temps de génération de la page
  36. 36. Depuis quand une page active n’a pas été crawlée ?
  37. 37. Est-ce que mes pages actives sont des vieilles pages ?
  38. 38. L’ANALYSE COMBINÉE
  39. 39. Comparer les deux visions du site • Ce que vous montrez (crawl) vs • Ce que le moteur de recherche voit et fait (logs) Votre site Votre site + du duplicate
  40. 40. L’analyse combinée crawl+logs • Urls crawlables => données par votre crawler • Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot) Home Cat 1 P1 P2 P3 Cat 2 P1 P2 P3 P4 Cat 3 P1 P2 Votre version Home Cat 1 P1 P2 P3 Cat 2 P1 P1bis P2 P2bis P3 P4 Cat2bis Cat 3 Version vue par Googlebot Des urls en moins Des urls en +
  41. 41. Principe de l’analyse des deux versions Urls crawlées par Google, non présentes sur le site : URLS parasites, à bloquer dans le robots.txt Urls présentes sur le site, non explorées par Google : identifier la cause Urls OK présentes et crawlées
  42. 42. Taux de crawl et taux de pages actives : deux indicateurs à maîtriser
  43. 43. Usage n°1 : connaître les pages crawlées Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …
  44. 44. Usage n°2 : déterminer les pages qui reçoivent du trafic organique • Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées • Une augmentation du ratio pages visitées sur pages ignorées mesure en règle générale une meilleure indexation et de meilleurs classements
  45. 45. Les limites de l’exercice • Fournit un diagnostic sur la santé d’un site • Fournit des données précises sur le crawl des moteurs et l’état du référencement d’un site Mais cela ne vous donne qu’une liste priorisée de points à corriger Pour développer le trafic SEO, il faut aussi identifier des chantiers permettant une réelle croissance du trafic
  46. 46. DES QUESTIONS ?
  47. 47. Merci ! • Nous contacter : Philippe YONNET Directeur Général de l’agence Search Foresight Groupe My Media 55 rue Anatole France – 92300 LEVALLOIS PERRET Philippe.yonnet@search-foresight.com Tél : 01 74 18 29 40 Adrien Menard adrien@botify.com / 01 83 62 90 78 Twitter.com/botify www.botify.com

Notes de l'éditeur

  • Application d’analyse de la performance SEOLancé en janvier, + de 1000 utilisateurs à travers le mondeInterface complète de lancement de crawlRapport d’analyse entièrement automatiséURLs Explorer pour filtrer, requêter, exporter…Puissant analyseur de logsCompare les données de crawl aux logs140 clients en Europe parmi Dailymotion, Viadeo, Aufeminin, La Redoute, RDC, Lagardère…

×