L’analyse combinée CRAWL + LOGS
Philippe YONNET
DG Search Foresight – My Media
Adrien MENARD
PDG BOTIFY
Search Foresight
Foresight : définition
• “an act or the power of foreseeing” : prescience
• “provident care” : prudence e...
Botify : Editeurs d’applications SEO
Testez le service avec 100k pages
L’ANALYSE DES
DONNEES DE CRAWL
D’où proviennent les données de crawl ?
• D’un crawler (ou spider)
A quoi ça sert ?
• Découvrir le nombre de pages réellement
“crawlables” par un moteur de recherche (ne
suit pas robots.txt...
La détection des liens brisés
• Détection des pages 404
Détecter les pages en redirection
• Détection des
erreurs 30x
• Objectif : diminuer
le volume de 301
• Eliminer les 302
(i...
Détecter les URLs source
Tester les performances du site
• Le temps de téléchargement du code a
une influence sur l’exploration de Google
Votre site est-il rapide ?
• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
comprend...
Détection des duplicate title, H1 ou
descr
Accéder aux détails de vos métadata
Analyse de la profondeur
Pourquoi mesurer la profondeur ?
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moin...
Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)
Analyse des link rel=canonical
Analyse des liens sortants
• Ex : botify
L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sorta...
Diagnostic complet
• Ex avec Botify (tableau de bord)
Créez vos propres filtres
L’ANALYSE DES LOGS
Les logs serveurs c’est quoi ?
-----------
-----------
-----------
-----------
-----------
Enregistrement
de
la requête =
...
Les logs serveurs c’est quoi ?
• Les « logs » sont des fichiers texte créés
par les serveurs web.
• Chaque requête envoyée...
A quoi cela ressemble ?
194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 16440
87.113.68.91 - - [15/No...
Quelles informations y trouve-t’on ?
• L’adresse IP de la source
• L’identité du client
• Le nom de l’utilisateur distant ...
Quelles lignes des logs nous intéressent ?
• Pour compter les visites SEO : celles qui
contiennent « Google » ou « Bing » ...
Usage n°1bis : caractériser le
comportement de crawl
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
23-Jun-10
2...
Comprendre et analyser son volume de
crawl quotidien
Surveiller « le crawl » par type de pages
Pages produit Pages Erreurs
Usage n°2 : déterminer les pages qui
reçoivent du trafic organique
Usage n°2 : déterminer les pages qui
reçoivent du trafic organique
Les pages qui ne reçoivent pas de visites en provenance...
Usage n°3 : analyser les requêtes qui
rapportent du trafic pour une url donnée
Ratios intéressant :
Longueur des requêtes ...
Usage n°4 : identifier les pb techniques
ou serveurs sur une période
Pic de 302 depuis début janvier qui doit être corrigé...
Usage n°5 : monitorer les perfs côté
serveur
• Apache 2 :
•temps pour délivrer la page mesuré en microsecondes
•LogFormat ...
Depuis quand une page active n’a pas
été crawlée ?
Est-ce que mes pages actives sont des
vieilles pages ?
L’ANALYSE COMBINÉE
Comparer les deux visions du site
• Ce que vous montrez (crawl)
vs
• Ce que le moteur de recherche voit et fait (logs)
Vot...
L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
...
Principe de l’analyse des deux versions
Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer da...
Taux de crawl et taux de pages actives :
deux indicateurs à maîtriser
Usage n°1 : connaître les pages crawlées
Identifier les urls des pages non crawlées, et identifier les raisons de
cet « ou...
Usage n°2 : déterminer les pages qui
reçoivent du trafic organique
• Les pages qui ne reçoivent pas de visites en provenan...
Les limites de l’exercice
• Fournit un diagnostic sur la santé d’un site
• Fournit des données précises sur le crawl
des m...
DES QUESTIONS ?
Merci !
• Nous contacter :
Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole F...
Prochain SlideShare
Chargement dans…5
×

Analyse combinée crawl + logs - Search Foresight & Botify

3 537 vues

Publié le

Un aperçu de l'utilisation des données de logs et des données de crawl à fins d'audit et d'analyse pour le SEO. Et les avantages de l'analyse croisée logs+crawl.

Conférence présentée au SEO Camp'us 2014 par Adrien Ménard, PDG de Botifiy, et Philippe Yonnet, DG de Search Foresight

Publié dans : Marketing
0 commentaire
3 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
3 537
Sur SlideShare
0
Issues des intégrations
0
Intégrations
31
Actions
Partages
0
Téléchargements
65
Commentaires
0
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Application d’analyse de la performance SEOLancé en janvier, + de 1000 utilisateurs à travers le mondeInterface complète de lancement de crawlRapport d’analyse entièrement automatiséURLs Explorer pour filtrer, requêter, exporter…Puissant analyseur de logsCompare les données de crawl aux logs140 clients en Europe parmi Dailymotion, Viadeo, Aufeminin, La Redoute, RDC, Lagardère…
  • Analyse combinée crawl + logs - Search Foresight & Botify

    1. 1. L’analyse combinée CRAWL + LOGS Philippe YONNET DG Search Foresight – My Media Adrien MENARD PDG BOTIFY
    2. 2. Search Foresight Foresight : définition • “an act or the power of foreseeing” : prescience • “provident care” : prudence et prévoyance • “an act of looking forward” : prospective
    3. 3. Botify : Editeurs d’applications SEO Testez le service avec 100k pages
    4. 4. L’ANALYSE DES DONNEES DE CRAWL
    5. 5. D’où proviennent les données de crawl ? • D’un crawler (ou spider)
    6. 6. A quoi ça sert ? • Découvrir le nombre de pages réellement “crawlables” par un moteur de recherche (ne suit pas robots.txt, no follow, javascript, ajax) • Repérer les liens cassés (et donc les pages sources) • Découvrir la profondeur de ses pages • Analyser ses temps de réponses (crawler) • Repérer les duplicates • Identifier les canonicals mal renseignées • Analyser les liens entrants / sortants de vos pages
    7. 7. La détection des liens brisés • Détection des pages 404
    8. 8. Détecter les pages en redirection • Détection des erreurs 30x • Objectif : diminuer le volume de 301 • Eliminer les 302 (idem pour les 4XX ou 5XX)
    9. 9. Détecter les URLs source
    10. 10. Tester les performances du site • Le temps de téléchargement du code a une influence sur l’exploration de Google
    11. 11. Votre site est-il rapide ? • Google webmaster tools ne fournit que des temps « moyens » • Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement
    12. 12. Détection des duplicate title, H1 ou descr
    13. 13. Accéder aux détails de vos métadata
    14. 14. Analyse de la profondeur
    15. 15. Pourquoi mesurer la profondeur ? Plus une url est profonde, moins elle reçoit de linkjuice Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
    16. 16. Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)
    17. 17. Analyse des link rel=canonical
    18. 18. Analyse des liens sortants • Ex : botify
    19. 19. L’analyse du maillage interne • Objectif : mesurer les ratios – Nb de liens entrants vs liens sortants – Nb de liens sortants internes vs externes • Indegree = nombre de liens entrants • La hiérarchie des indegrees doit être conforme à l’importance des pages
    20. 20. Diagnostic complet • Ex avec Botify (tableau de bord)
    21. 21. Créez vos propres filtres
    22. 22. L’ANALYSE DES LOGS
    23. 23. Les logs serveurs c’est quoi ? ----------- ----------- ----------- ----------- ----------- Enregistrement de la requête = ajout d’une ligne dans le fichier de logs Log
    24. 24. Les logs serveurs c’est quoi ? • Les « logs » sont des fichiers texte créés par les serveurs web. • Chaque requête envoyée à un serveur web est enregistrée dans le fichier log représente une requête http
    25. 25. A quoi cela ressemble ? 194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 16440 87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 36821 87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 2146 87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644 Format Apache par défaut Remarque : on ajoute en général d’autres champs comme : - Le referrer (et le query string : la chaine de paramètres) - Le User Agent - L’hôte
    26. 26. Quelles informations y trouve-t’on ? • L’adresse IP de la source • L’identité du client • Le nom de l’utilisateur distant (si http auth) • Date, heure, fuseau de la requête • La requête http:// • Le code réponse renvoyé par le serveur • La taille du bloc de données retourné par le serveur en octets • Les “-” symbolisent une information manquante
    27. 27. Quelles lignes des logs nous intéressent ? • Pour compter les visites SEO : celles qui contiennent « Google » ou « Bing » (ou tout autre moteur de recherche) dans le champ « referrer » • Pour compter les crawls des bots : celles qui contiennent « Googlebot » ou « Bingbot » (ou un autre bot) dans le champ « User Agent »
    28. 28. Usage n°1bis : caractériser le comportement de crawl 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 23-Jun-10 24-Jun-10 25-Jun-10 26-Jun-10 27-Jun-10 28-Jun-10 29-Jun-10 30-Jun-10 01-Jul-10 02-Jul-10 03-Jul-10 04-Jul-10 05-Jul-10 06-Jul-10 07-Jul-10 08-Jul-10 09-Jul-10 10-Jul-10 11-Jul-10 Crawl des fiches produits : pages uniques Crawl des fiches produits : avec recrawl L’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages sont crawlées Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées
    29. 29. Comprendre et analyser son volume de crawl quotidien
    30. 30. Surveiller « le crawl » par type de pages Pages produit Pages Erreurs
    31. 31. Usage n°2 : déterminer les pages qui reçoivent du trafic organique
    32. 32. Usage n°2 : déterminer les pages qui reçoivent du trafic organique Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées Une augmentation du ratio pages visitées sur pages ignorées mesure en règle générale une meilleure indexation et de meilleurs classements
    33. 33. Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée Ratios intéressant : Longueur des requêtes / type de pages Nombre d’expressions différentes / page
    34. 34. Usage n°4 : identifier les pb techniques ou serveurs sur une période Pic de 302 depuis début janvier qui doit être corrigé rapidement
    35. 35. Usage n°5 : monitorer les perfs côté serveur • Apache 2 : •temps pour délivrer la page mesuré en microsecondes •LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i" %T/%D" combined •Résultat •[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491 •Soit 0,095491 secondes •Avec Apache 1,3 seul le temps en sec est disponible •Ne pas confondre avec le temps de génération de la page
    36. 36. Depuis quand une page active n’a pas été crawlée ?
    37. 37. Est-ce que mes pages actives sont des vieilles pages ?
    38. 38. L’ANALYSE COMBINÉE
    39. 39. Comparer les deux visions du site • Ce que vous montrez (crawl) vs • Ce que le moteur de recherche voit et fait (logs) Votre site Votre site + du duplicate
    40. 40. L’analyse combinée crawl+logs • Urls crawlables => données par votre crawler • Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot) Home Cat 1 P1 P2 P3 Cat 2 P1 P2 P3 P4 Cat 3 P1 P2 Votre version Home Cat 1 P1 P2 P3 Cat 2 P1 P1bis P2 P2bis P3 P4 Cat2bis Cat 3 Version vue par Googlebot Des urls en moins Des urls en +
    41. 41. Principe de l’analyse des deux versions Urls crawlées par Google, non présentes sur le site : URLS parasites, à bloquer dans le robots.txt Urls présentes sur le site, non explorées par Google : identifier la cause Urls OK présentes et crawlées
    42. 42. Taux de crawl et taux de pages actives : deux indicateurs à maîtriser
    43. 43. Usage n°1 : connaître les pages crawlées Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …
    44. 44. Usage n°2 : déterminer les pages qui reçoivent du trafic organique • Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées • Une augmentation du ratio pages visitées sur pages ignorées mesure en règle générale une meilleure indexation et de meilleurs classements
    45. 45. Les limites de l’exercice • Fournit un diagnostic sur la santé d’un site • Fournit des données précises sur le crawl des moteurs et l’état du référencement d’un site Mais cela ne vous donne qu’une liste priorisée de points à corriger Pour développer le trafic SEO, il faut aussi identifier des chantiers permettant une réelle croissance du trafic
    46. 46. DES QUESTIONS ?
    47. 47. Merci ! • Nous contacter : Philippe YONNET Directeur Général de l’agence Search Foresight Groupe My Media 55 rue Anatole France – 92300 LEVALLOIS PERRET Philippe.yonnet@search-foresight.com Tél : 01 74 18 29 40 Adrien Menard adrien@botify.com / 01 83 62 90 78 Twitter.com/botify www.botify.com

    ×