Analyse combinée crawl + logs - Search Foresight & Botify

L’analyse combinée CRAWL + LOGS
Philippe YONNET
DG Search Foresight – My Media
Adrien MENARD
PDG BOTIFY

Search Foresight
Foresight : définition
• “an act or the power of foreseeing” : prescience
• “provident care” : prudence et prévoyance
• “an act of looking forward” : prospective

Botify : Editeurs d’applications SEO
Testez le service avec 100k pages

L’ANALYSE DES
DONNEES DE CRAWL

D’où proviennent les données de crawl ?
• D’un crawler (ou spider)

A quoi ça sert ?
• Découvrir le nombre de pages réellement
“crawlables” par un moteur de recherche (ne
suit pas robots.txt, no follow, javascript, ajax)
• Repérer les liens cassés (et donc les pages
sources)
• Découvrir la profondeur de ses pages
• Analyser ses temps de réponses (crawler)
• Repérer les duplicates
• Identifier les canonicals mal renseignées
• Analyser les liens entrants / sortants de vos
pages

La détection des liens brisés
• Détection des pages 404

Détecter les pages en redirection
• Détection des
erreurs 30x
• Objectif : diminuer
le volume de 301
• Eliminer les 302
(idem pour les 4XX
ou 5XX)

Tester les performances du site
• Le temps de téléchargement du code a
une influence sur l’exploration de Google

Votre site est-il rapide ?
• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
comprendre quelles sont
les « scripts » lents et
d’identifier les causes de
ralentissement

Détection des duplicate title, H1 ou
descr

Accéder aux détails de vos métadata

Pourquoi mesurer la profondeur ?
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée

Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)

Analyse des link rel=canonical

Analyse des liens sortants
• Ex : botify

L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes
• Indegree = nombre de liens entrants
• La hiérarchie des indegrees doit être
conforme à l’importance des pages

Diagnostic complet
• Ex avec Botify (tableau de bord)

Les logs serveurs c’est quoi ?
-----------
-----------
-----------
-----------
-----------
Enregistrement
de
la requête =
ajout d’une ligne
dans le fichier de
logs
Log

Les logs serveurs c’est quoi ?
• Les « logs » sont des fichiers texte créés
par les serveurs web.
• Chaque requête envoyée à un serveur
web est enregistrée dans le fichier log
représente une requête http

A quoi cela ressemble ?
194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 16440
87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 36821
87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 2146
87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644
Format Apache par défaut
Remarque : on ajoute en général d’autres champs comme :
- Le referrer (et le query string : la chaine de paramètres)
- Le User Agent
- L’hôte

Quelles informations y trouve-t’on ?
• L’adresse IP de la source
• L’identité du client
• Le nom de l’utilisateur distant (si http auth)
• Date, heure, fuseau de la requête
• La requête http://
• Le code réponse renvoyé par le serveur
• La taille du bloc de données retourné par le serveur en octets
• Les “-” symbolisent une information manquante

Quelles lignes des logs nous intéressent ?
• Pour compter les visites SEO : celles qui
contiennent « Google » ou « Bing » (ou tout autre
moteur de recherche) dans le champ « referrer »
• Pour compter les crawls des bots : celles qui
contiennent « Googlebot » ou « Bingbot » (ou un
autre bot) dans le champ « User Agent »

Usage n°1bis : caractériser le
comportement de crawl
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
23-Jun-10
24-Jun-10
25-Jun-10
26-Jun-10
27-Jun-10
28-Jun-10
29-Jun-10
30-Jun-10
01-Jul-10
02-Jul-10
03-Jul-10
04-Jul-10
05-Jul-10
06-Jul-10
07-Jul-10
08-Jul-10
09-Jul-10
10-Jul-10
11-Jul-10
Crawl des fiches produits : pages
uniques
Crawl des fiches produits : avec
recrawl
L’analyse des logs permet
d’analyser les logs templates
par template et de savoir si les
pages sont crawlées plus
souvent ou si plus de pages
sont crawlées
Les courbes de GWT
concernent tout le
site, et n’indiquent
pas le nombre de
pages uniques
crawlées

Comprendre et analyser son volume de
crawl quotidien

Surveiller « le crawl » par type de pages
Pages produit Pages Erreurs

Usage n°2 : déterminer les pages qui
reçoivent du trafic organique

Les pages qui ne reçoivent pas de visites en provenance d’un moteur
au cours d’un mois donné sont, soit non indexées, soit très mal classées
Une augmentation du ratio pages visitées sur pages ignorées
mesure en règle générale une meilleure indexation et de meilleurs classements

Usage n°3 : analyser les requêtes qui
rapportent du trafic pour une url donnée
Ratios intéressant :
Longueur des requêtes /
type de pages
Nombre d’expressions
différentes / page

Usage n°4 : identifier les pb techniques
ou serveurs sur une période
Pic de 302 depuis début janvier qui doit être corrigé rapidement

Usage n°5 : monitorer les perfs côté
serveur
• Apache 2 :
•temps pour délivrer la page mesuré en microsecondes
•LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i" %T/%D"
combined
•Résultat
•[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US;
rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491
•Soit 0,095491 secondes
•Avec Apache 1,3 seul le temps en sec est disponible
•Ne pas confondre avec le temps de génération de la page

Depuis quand une page active n’a pas
été crawlée ?

Est-ce que mes pages actives sont des
vieilles pages ?

Comparer les deux visions du site
• Ce que vous montrez (crawl)
vs
• Ce que le moteur de recherche voit et fait (logs)
Votre
site Votre site
+ du
duplicate

L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
dans les logs serveur (User Agent : googlebot)
Home
Cat 1
P1
P2
P3
Cat 2
P1
P2
P3
P4
Cat 3
P1
P2
Votre version
Home
Cat 1
P1
P2
P3
Cat 2
P1
P1bis
P2
P2bis
P3
P4
Cat2bis Cat 3
Version vue par Googlebot
Des urls en moins
Des urls en +

Principe de l’analyse des deux versions
Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer dans
le robots.txt
Urls présentes
sur le site, non
explorées par
Google :
identifier la
cause
Urls OK
présentes
et
crawlées

Taux de crawl et taux de pages actives :
deux indicateurs à maîtriser

Usage n°1 : connaître les pages crawlées
Identifier les urls des pages non crawlées, et identifier les raisons de
cet « oubli » : pb technique, pagerank faible, duplicates, pages
vides …

• Les pages qui ne reçoivent pas de visites en provenance d’un moteur
au cours d’un mois donné sont, soit non indexées, soit très mal classées
• Une augmentation du ratio pages visitées sur pages ignorées
mesure en règle générale une meilleure indexation et de meilleurs
classements

Les limites de l’exercice
• Fournit un diagnostic sur la santé d’un site
• Fournit des données précises sur le crawl
des moteurs et l’état du référencement
d’un site
Mais cela ne vous donne qu’une liste
priorisée de points à corriger
Pour développer le trafic SEO, il faut aussi
identifier des chantiers permettant une
réelle croissance du trafic

Merci !
• Nous contacter :
Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole France – 92300 LEVALLOIS PERRET
Philippe.yonnet@search-foresight.com
Tél : 01 74 18 29 40
Adrien Menard
adrien@botify.com / 01 83 62 90 78
Twitter.com/botify
www.botify.com

Analyse combinée crawl + logs - Search Foresight & Botify

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (12)

En vedette

En vedette (20)

Similaire à Analyse combinée crawl + logs - Search Foresight & Botify

Similaire à Analyse combinée crawl + logs - Search Foresight & Botify (20)

Plus de Philippe YONNET

Plus de Philippe YONNET (20)

Analyse combinée crawl + logs - Search Foresight & Botify

Notes de l'éditeur