SlideShare une entreprise Scribd logo
1  sur  47
L’analyse combinée CRAWL + LOGS
Philippe YONNET
DG Search Foresight – My Media
Adrien MENARD
PDG BOTIFY
Search Foresight
Foresight : définition
• “an act or the power of foreseeing” : prescience
• “provident care” : prudence et prévoyance
• “an act of looking forward” : prospective
Botify : Editeurs d’applications SEO
Testez le service avec 100k pages
L’ANALYSE DES
DONNEES DE CRAWL
D’où proviennent les données de crawl ?
• D’un crawler (ou spider)
A quoi ça sert ?
• Découvrir le nombre de pages réellement
“crawlables” par un moteur de recherche (ne
suit pas robots.txt, no follow, javascript, ajax)
• Repérer les liens cassés (et donc les pages
sources)
• Découvrir la profondeur de ses pages
• Analyser ses temps de réponses (crawler)
• Repérer les duplicates
• Identifier les canonicals mal renseignées
• Analyser les liens entrants / sortants de vos
pages
La détection des liens brisés
• Détection des pages 404
Détecter les pages en redirection
• Détection des
erreurs 30x
• Objectif : diminuer
le volume de 301
• Eliminer les 302
(idem pour les 4XX
ou 5XX)
Détecter les URLs source
Tester les performances du site
• Le temps de téléchargement du code a
une influence sur l’exploration de Google
Votre site est-il rapide ?
• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
comprendre quelles sont
les « scripts » lents et
d’identifier les causes de
ralentissement
Détection des duplicate title, H1 ou
descr
Accéder aux détails de vos métadata
Analyse de la profondeur
Pourquoi mesurer la profondeur ?
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)
Analyse des link rel=canonical
Analyse des liens sortants
• Ex : botify
L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes
• Indegree = nombre de liens entrants
• La hiérarchie des indegrees doit être
conforme à l’importance des pages
Diagnostic complet
• Ex avec Botify (tableau de bord)
Créez vos propres filtres
L’ANALYSE DES LOGS
Les logs serveurs c’est quoi ?
-----------
-----------
-----------
-----------
-----------
Enregistrement
de
la requête =
ajout d’une ligne
dans le fichier de
logs
Log
Les logs serveurs c’est quoi ?
• Les « logs » sont des fichiers texte créés
par les serveurs web.
• Chaque requête envoyée à un serveur
web est enregistrée dans le fichier log
représente une requête http
A quoi cela ressemble ?
194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 16440
87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 36821
87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 2146
87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644
Format Apache par défaut
Remarque : on ajoute en général d’autres champs comme :
- Le referrer (et le query string : la chaine de paramètres)
- Le User Agent
- L’hôte
Quelles informations y trouve-t’on ?
• L’adresse IP de la source
• L’identité du client
• Le nom de l’utilisateur distant (si http auth)
• Date, heure, fuseau de la requête
• La requête http://
• Le code réponse renvoyé par le serveur
• La taille du bloc de données retourné par le serveur en octets
• Les “-” symbolisent une information manquante
Quelles lignes des logs nous intéressent ?
• Pour compter les visites SEO : celles qui
contiennent « Google » ou « Bing » (ou tout autre
moteur de recherche) dans le champ « referrer »
• Pour compter les crawls des bots : celles qui
contiennent « Googlebot » ou « Bingbot » (ou un
autre bot) dans le champ « User Agent »
Usage n°1bis : caractériser le
comportement de crawl
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
23-Jun-10
24-Jun-10
25-Jun-10
26-Jun-10
27-Jun-10
28-Jun-10
29-Jun-10
30-Jun-10
01-Jul-10
02-Jul-10
03-Jul-10
04-Jul-10
05-Jul-10
06-Jul-10
07-Jul-10
08-Jul-10
09-Jul-10
10-Jul-10
11-Jul-10
Crawl des fiches produits : pages
uniques
Crawl des fiches produits : avec
recrawl
L’analyse des logs permet
d’analyser les logs templates
par template et de savoir si les
pages sont crawlées plus
souvent ou si plus de pages
sont crawlées
Les courbes de GWT
concernent tout le
site, et n’indiquent
pas le nombre de
pages uniques
crawlées
Comprendre et analyser son volume de
crawl quotidien
Surveiller « le crawl » par type de pages
Pages produit Pages Erreurs
Usage n°2 : déterminer les pages qui
reçoivent du trafic organique
Usage n°2 : déterminer les pages qui
reçoivent du trafic organique
Les pages qui ne reçoivent pas de visites en provenance d’un moteur
au cours d’un mois donné sont, soit non indexées, soit très mal classées
Une augmentation du ratio pages visitées sur pages ignorées
mesure en règle générale une meilleure indexation et de meilleurs classements
Usage n°3 : analyser les requêtes qui
rapportent du trafic pour une url donnée
Ratios intéressant :
Longueur des requêtes /
type de pages
Nombre d’expressions
différentes / page
Usage n°4 : identifier les pb techniques
ou serveurs sur une période
Pic de 302 depuis début janvier qui doit être corrigé rapidement
Usage n°5 : monitorer les perfs côté
serveur
• Apache 2 :
•temps pour délivrer la page mesuré en microsecondes
•LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i" %T/%D"
combined
•Résultat
•[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US;
rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491
•Soit 0,095491 secondes
•Avec Apache 1,3 seul le temps en sec est disponible
•Ne pas confondre avec le temps de génération de la page
Depuis quand une page active n’a pas
été crawlée ?
Est-ce que mes pages actives sont des
vieilles pages ?
L’ANALYSE COMBINÉE
Comparer les deux visions du site
• Ce que vous montrez (crawl)
vs
• Ce que le moteur de recherche voit et fait (logs)
Votre
site Votre site
+ du
duplicate
L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
dans les logs serveur (User Agent : googlebot)
Home
Cat 1
P1
P2
P3
Cat 2
P1
P2
P3
P4
Cat 3
P1
P2
Votre version
Home
Cat 1
P1
P2
P3
Cat 2
P1
P1bis
P2
P2bis
P3
P4
Cat2bis Cat 3
Version vue par Googlebot
Des urls en moins
Des urls en +
Principe de l’analyse des deux versions
Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer dans
le robots.txt
Urls présentes
sur le site, non
explorées par
Google :
identifier la
cause
Urls OK
présentes
et
crawlées
Taux de crawl et taux de pages actives :
deux indicateurs à maîtriser
Usage n°1 : connaître les pages crawlées
Identifier les urls des pages non crawlées, et identifier les raisons de
cet « oubli » : pb technique, pagerank faible, duplicates, pages
vides …
Usage n°2 : déterminer les pages qui
reçoivent du trafic organique
• Les pages qui ne reçoivent pas de visites en provenance d’un moteur
au cours d’un mois donné sont, soit non indexées, soit très mal classées
• Une augmentation du ratio pages visitées sur pages ignorées
mesure en règle générale une meilleure indexation et de meilleurs
classements
Les limites de l’exercice
• Fournit un diagnostic sur la santé d’un site
• Fournit des données précises sur le crawl
des moteurs et l’état du référencement
d’un site
Mais cela ne vous donne qu’une liste
priorisée de points à corriger
Pour développer le trafic SEO, il faut aussi
identifier des chantiers permettant une
réelle croissance du trafic
DES QUESTIONS ?
Merci !
• Nous contacter :
Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole France – 92300 LEVALLOIS PERRET
Philippe.yonnet@search-foresight.com
Tél : 01 74 18 29 40
Adrien Menard
adrien@botify.com / 01 83 62 90 78
Twitter.com/botify
www.botify.com

Contenu connexe

Tendances

SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...SEARCH Y - Philippe Yonnet Evénements
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Olivier Andrieu
 
Evolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEOEvolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEODimitri Brunel
 
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016iProspect France
 
MAILLAGE INTERNE ET SEO - Seo camp webismybusiness 5 oct 2013
MAILLAGE INTERNE ET SEO - Seo camp webismybusiness 5 oct 2013MAILLAGE INTERNE ET SEO - Seo camp webismybusiness 5 oct 2013
MAILLAGE INTERNE ET SEO - Seo camp webismybusiness 5 oct 2013Philippe YONNET
 
Optimiser son maillage interne pour booster son SEO
Optimiser son maillage interne pour booster son SEOOptimiser son maillage interne pour booster son SEO
Optimiser son maillage interne pour booster son SEOGrégory Florin
 
Recherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWebRecherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWebAysun Akarsu
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleAymeric Bouillat
 
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Search Foresight
 

Tendances (12)

Outils et KPI utiles à la Migration SEO
Outils et KPI utiles à la Migration SEOOutils et KPI utiles à la Migration SEO
Outils et KPI utiles à la Migration SEO
 
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
 
Evolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEOEvolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEO
 
Check-list Migration SEO - Search Y - 3 juin 2021
Check-list Migration SEO - Search Y - 3 juin 2021Check-list Migration SEO - Search Y - 3 juin 2021
Check-list Migration SEO - Search Y - 3 juin 2021
 
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
 
MAILLAGE INTERNE ET SEO - Seo camp webismybusiness 5 oct 2013
MAILLAGE INTERNE ET SEO - Seo camp webismybusiness 5 oct 2013MAILLAGE INTERNE ET SEO - Seo camp webismybusiness 5 oct 2013
MAILLAGE INTERNE ET SEO - Seo camp webismybusiness 5 oct 2013
 
Optimiser son maillage interne pour booster son SEO
Optimiser son maillage interne pour booster son SEOOptimiser son maillage interne pour booster son SEO
Optimiser son maillage interne pour booster son SEO
 
Sp seo camp-201505
Sp seo camp-201505Sp seo camp-201505
Sp seo camp-201505
 
Recherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWebRecherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWeb
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de Google
 
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
 

En vedette

Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile PagesPhilippe YONNET
 
Focus schema.org et sémantique SEOCamp Nice Sophia-Antipolis
Focus schema.org et sémantique SEOCamp Nice Sophia-AntipolisFocus schema.org et sémantique SEOCamp Nice Sophia-Antipolis
Focus schema.org et sémantique SEOCamp Nice Sophia-AntipolisErlé Alberton
 
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Peak Ace
 
Analyse de logs - Études de cas et best practices - SEO Campus 2017
Analyse de logs - Études de cas et best practices - SEO Campus 2017Analyse de logs - Études de cas et best practices - SEO Campus 2017
Analyse de logs - Études de cas et best practices - SEO Campus 2017iProspect France
 
Quelle stratégie SEO restera efficace dans les mois qui viennent
Quelle stratégie SEO restera efficace dans les mois qui viennentQuelle stratégie SEO restera efficace dans les mois qui viennent
Quelle stratégie SEO restera efficace dans les mois qui viennentPhilippe YONNET
 
Le Futur des Moteurs de Recherche
Le Futur des Moteurs de RechercheLe Futur des Moteurs de Recherche
Le Futur des Moteurs de RecherchePhilippe YONNET
 
Profiter concrètement du balisage sémantique schema.org - TuniSEO
Profiter concrètement du balisage sémantique schema.org - TuniSEOProfiter concrètement du balisage sémantique schema.org - TuniSEO
Profiter concrètement du balisage sémantique schema.org - TuniSEOErlé Alberton
 
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...Philippe YONNET
 
Deck seo campus 2011 utiliser les logs serveurs
Deck seo campus 2011   utiliser les logs serveursDeck seo campus 2011   utiliser les logs serveurs
Deck seo campus 2011 utiliser les logs serveursPhilippe YONNET
 
AFUP - Mini conférences PHP - Les LOGs
AFUP - Mini conférences PHP - Les LOGsAFUP - Mini conférences PHP - Les LOGs
AFUP - Mini conférences PHP - Les LOGsFrédéric Sagez
 
Drupal 8 + Elasticsearch + Docker
Drupal 8 + Elasticsearch + DockerDrupal 8 + Elasticsearch + Docker
Drupal 8 + Elasticsearch + DockerRoald Umandal
 
Comment gérer et optimiser vos facettes ? Enjeux et techniques associées - we...
Comment gérer et optimiser vos facettes ? Enjeux et techniques associées - we...Comment gérer et optimiser vos facettes ? Enjeux et techniques associées - we...
Comment gérer et optimiser vos facettes ? Enjeux et techniques associées - we...Peak Ace
 
Le SEO est mort ? Vive le SXO - Petit déjeuner du 27 octobre - Paris
Le SEO est mort ? Vive le SXO - Petit déjeuner du 27 octobre - ParisLe SEO est mort ? Vive le SXO - Petit déjeuner du 27 octobre - Paris
Le SEO est mort ? Vive le SXO - Petit déjeuner du 27 octobre - ParisPeak Ace
 
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...Guillaume MOCQUET
 
SMSSI ITIL
SMSSI  ITILSMSSI  ITIL
SMSSI ITILchammem
 
A la recherche d'ElasticSearch
A la recherche d'ElasticSearchA la recherche d'ElasticSearch
A la recherche d'ElasticSearchNinnir
 
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...Philippe YONNET
 

En vedette (20)

Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile Pages
 
Focus schema.org et sémantique SEOCamp Nice Sophia-Antipolis
Focus schema.org et sémantique SEOCamp Nice Sophia-AntipolisFocus schema.org et sémantique SEOCamp Nice Sophia-Antipolis
Focus schema.org et sémantique SEOCamp Nice Sophia-Antipolis
 
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
 
Analyse de logs - Études de cas et best practices - SEO Campus 2017
Analyse de logs - Études de cas et best practices - SEO Campus 2017Analyse de logs - Études de cas et best practices - SEO Campus 2017
Analyse de logs - Études de cas et best practices - SEO Campus 2017
 
Quelle stratégie SEO restera efficace dans les mois qui viennent
Quelle stratégie SEO restera efficace dans les mois qui viennentQuelle stratégie SEO restera efficace dans les mois qui viennent
Quelle stratégie SEO restera efficace dans les mois qui viennent
 
Le Futur des Moteurs de Recherche
Le Futur des Moteurs de RechercheLe Futur des Moteurs de Recherche
Le Futur des Moteurs de Recherche
 
Profiter concrètement du balisage sémantique schema.org - TuniSEO
Profiter concrètement du balisage sémantique schema.org - TuniSEOProfiter concrètement du balisage sémantique schema.org - TuniSEO
Profiter concrètement du balisage sémantique schema.org - TuniSEO
 
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
 
Deck seo campus 2011 utiliser les logs serveurs
Deck seo campus 2011   utiliser les logs serveursDeck seo campus 2011   utiliser les logs serveurs
Deck seo campus 2011 utiliser les logs serveurs
 
Le PHP chez Deezer
Le PHP chez DeezerLe PHP chez Deezer
Le PHP chez Deezer
 
AFUP - Mini conférences PHP - Les LOGs
AFUP - Mini conférences PHP - Les LOGsAFUP - Mini conférences PHP - Les LOGs
AFUP - Mini conférences PHP - Les LOGs
 
Cci octobre 2014
Cci octobre 2014Cci octobre 2014
Cci octobre 2014
 
Drupal 8 + Elasticsearch + Docker
Drupal 8 + Elasticsearch + DockerDrupal 8 + Elasticsearch + Docker
Drupal 8 + Elasticsearch + Docker
 
Comment gérer et optimiser vos facettes ? Enjeux et techniques associées - we...
Comment gérer et optimiser vos facettes ? Enjeux et techniques associées - we...Comment gérer et optimiser vos facettes ? Enjeux et techniques associées - we...
Comment gérer et optimiser vos facettes ? Enjeux et techniques associées - we...
 
Le SEO est mort ? Vive le SXO - Petit déjeuner du 27 octobre - Paris
Le SEO est mort ? Vive le SXO - Petit déjeuner du 27 octobre - ParisLe SEO est mort ? Vive le SXO - Petit déjeuner du 27 octobre - Paris
Le SEO est mort ? Vive le SXO - Petit déjeuner du 27 octobre - Paris
 
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
Plateforme centralisée d’analyse des logs des frontaux http en temps réel dan...
 
Séminaire Log Management
Séminaire Log ManagementSéminaire Log Management
Séminaire Log Management
 
SMSSI ITIL
SMSSI  ITILSMSSI  ITIL
SMSSI ITIL
 
A la recherche d'ElasticSearch
A la recherche d'ElasticSearchA la recherche d'ElasticSearch
A la recherche d'ElasticSearch
 
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
 

Similaire à Analyse combinée crawl + logs - Search Foresight & Botify

Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni' SEO
 
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...Marc Akoley
 
Webschool du Jura - Référencement naturel
Webschool du Jura - Référencement naturelWebschool du Jura - Référencement naturel
Webschool du Jura - Référencement naturelmariejura
 
Les nouvelles fonctionnalités de la search console - petit déjeuner Bordeaux ...
Les nouvelles fonctionnalités de la search console - petit déjeuner Bordeaux ...Les nouvelles fonctionnalités de la search console - petit déjeuner Bordeaux ...
Les nouvelles fonctionnalités de la search console - petit déjeuner Bordeaux ...Peak Ace
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanAymeric Bouillat
 
Cours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausanneCours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausannePierre Ammeloot
 
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...Julien Ferras
 
Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...SEO Camp Association
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Pierre Ammeloot
 
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentationRentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation:ratio
 
La technique web au service du suivi SEO
La technique web au service du suivi SEOLa technique web au service du suivi SEO
La technique web au service du suivi SEOSemrush
 
Quels outils statistiques pour mon site ?
Quels outils statistiques pour mon site ?Quels outils statistiques pour mon site ?
Quels outils statistiques pour mon site ?mariejura
 
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...SEO CAMP
 
Webschool du Jura - Le référencement par Absolute Création
Webschool du Jura - Le référencement par Absolute CréationWebschool du Jura - Le référencement par Absolute Création
Webschool du Jura - Le référencement par Absolute Créationmariejura
 
Being Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEOBeing Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEODigimood - Agence SEO / SEA
 
Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015Search Foresight
 
Stratégies de Netlinking avancées
Stratégies de Netlinking avancéesStratégies de Netlinking avancées
Stratégies de Netlinking avancéesMajed Ayari
 
La recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurLa recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurElium
 
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"Olivier kra kouassi
 

Similaire à Analyse combinée crawl + logs - Search Foresight & Botify (20)

Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
 
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
 
Webschool du Jura - Référencement naturel
Webschool du Jura - Référencement naturelWebschool du Jura - Référencement naturel
Webschool du Jura - Référencement naturel
 
Les nouvelles fonctionnalités de la search console - petit déjeuner Bordeaux ...
Les nouvelles fonctionnalités de la search console - petit déjeuner Bordeaux ...Les nouvelles fonctionnalités de la search console - petit déjeuner Bordeaux ...
Les nouvelles fonctionnalités de la search console - petit déjeuner Bordeaux ...
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisan
 
Cours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausanneCours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom Lausanne
 
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
 
Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
 
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentationRentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
 
La technique web au service du suivi SEO
La technique web au service du suivi SEOLa technique web au service du suivi SEO
La technique web au service du suivi SEO
 
Quels outils statistiques pour mon site ?
Quels outils statistiques pour mon site ?Quels outils statistiques pour mon site ?
Quels outils statistiques pour mon site ?
 
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
 
Webschool du Jura - Le référencement par Absolute Création
Webschool du Jura - Le référencement par Absolute CréationWebschool du Jura - Le référencement par Absolute Création
Webschool du Jura - Le référencement par Absolute Création
 
Being Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEOBeing Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEO
 
Tout trouver sur le web : les bonnes techniques de recherche !
Tout trouver sur le web : les bonnes techniques de recherche !Tout trouver sur le web : les bonnes techniques de recherche !
Tout trouver sur le web : les bonnes techniques de recherche !
 
Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015
 
Stratégies de Netlinking avancées
Stratégies de Netlinking avancéesStratégies de Netlinking avancées
Stratégies de Netlinking avancées
 
La recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurLa recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheur
 
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"
 

Plus de Philippe YONNET

WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxPhilippe YONNET
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxPhilippe YONNET
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxPhilippe YONNET
 
IA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxIA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxPhilippe YONNET
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperPhilippe YONNET
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Philippe YONNET
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsPhilippe YONNET
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021Philippe YONNET
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEOPhilippe YONNET
 
Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Philippe YONNET
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020Philippe YONNET
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Philippe YONNET
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages ampPhilippe YONNET
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenPhilippe YONNET
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéPhilippe YONNET
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first indexPhilippe YONNET
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?Philippe YONNET
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonPhilippe YONNET
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GooglePhilippe YONNET
 

Plus de Philippe YONNET (20)

WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptx
 
IA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxIA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptx
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split Tests
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEO
 
Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages amp
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot Evergreen
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyon
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon Google
 
Actualité du SEO
Actualité du SEOActualité du SEO
Actualité du SEO
 

Analyse combinée crawl + logs - Search Foresight & Botify

  • 1. L’analyse combinée CRAWL + LOGS Philippe YONNET DG Search Foresight – My Media Adrien MENARD PDG BOTIFY
  • 2. Search Foresight Foresight : définition • “an act or the power of foreseeing” : prescience • “provident care” : prudence et prévoyance • “an act of looking forward” : prospective
  • 3. Botify : Editeurs d’applications SEO Testez le service avec 100k pages
  • 5. D’où proviennent les données de crawl ? • D’un crawler (ou spider)
  • 6. A quoi ça sert ? • Découvrir le nombre de pages réellement “crawlables” par un moteur de recherche (ne suit pas robots.txt, no follow, javascript, ajax) • Repérer les liens cassés (et donc les pages sources) • Découvrir la profondeur de ses pages • Analyser ses temps de réponses (crawler) • Repérer les duplicates • Identifier les canonicals mal renseignées • Analyser les liens entrants / sortants de vos pages
  • 7. La détection des liens brisés • Détection des pages 404
  • 8. Détecter les pages en redirection • Détection des erreurs 30x • Objectif : diminuer le volume de 301 • Eliminer les 302 (idem pour les 4XX ou 5XX)
  • 10. Tester les performances du site • Le temps de téléchargement du code a une influence sur l’exploration de Google
  • 11. Votre site est-il rapide ? • Google webmaster tools ne fournit que des temps « moyens » • Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement
  • 12. Détection des duplicate title, H1 ou descr
  • 13. Accéder aux détails de vos métadata
  • 14. Analyse de la profondeur
  • 15. Pourquoi mesurer la profondeur ? Plus une url est profonde, moins elle reçoit de linkjuice Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
  • 16. Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)
  • 17. Analyse des link rel=canonical
  • 18. Analyse des liens sortants • Ex : botify
  • 19. L’analyse du maillage interne • Objectif : mesurer les ratios – Nb de liens entrants vs liens sortants – Nb de liens sortants internes vs externes • Indegree = nombre de liens entrants • La hiérarchie des indegrees doit être conforme à l’importance des pages
  • 20. Diagnostic complet • Ex avec Botify (tableau de bord)
  • 23. Les logs serveurs c’est quoi ? ----------- ----------- ----------- ----------- ----------- Enregistrement de la requête = ajout d’une ligne dans le fichier de logs Log
  • 24. Les logs serveurs c’est quoi ? • Les « logs » sont des fichiers texte créés par les serveurs web. • Chaque requête envoyée à un serveur web est enregistrée dans le fichier log représente une requête http
  • 25. A quoi cela ressemble ? 194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 16440 87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 36821 87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 2146 87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644 Format Apache par défaut Remarque : on ajoute en général d’autres champs comme : - Le referrer (et le query string : la chaine de paramètres) - Le User Agent - L’hôte
  • 26. Quelles informations y trouve-t’on ? • L’adresse IP de la source • L’identité du client • Le nom de l’utilisateur distant (si http auth) • Date, heure, fuseau de la requête • La requête http:// • Le code réponse renvoyé par le serveur • La taille du bloc de données retourné par le serveur en octets • Les “-” symbolisent une information manquante
  • 27. Quelles lignes des logs nous intéressent ? • Pour compter les visites SEO : celles qui contiennent « Google » ou « Bing » (ou tout autre moteur de recherche) dans le champ « referrer » • Pour compter les crawls des bots : celles qui contiennent « Googlebot » ou « Bingbot » (ou un autre bot) dans le champ « User Agent »
  • 28. Usage n°1bis : caractériser le comportement de crawl 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 23-Jun-10 24-Jun-10 25-Jun-10 26-Jun-10 27-Jun-10 28-Jun-10 29-Jun-10 30-Jun-10 01-Jul-10 02-Jul-10 03-Jul-10 04-Jul-10 05-Jul-10 06-Jul-10 07-Jul-10 08-Jul-10 09-Jul-10 10-Jul-10 11-Jul-10 Crawl des fiches produits : pages uniques Crawl des fiches produits : avec recrawl L’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages sont crawlées Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées
  • 29. Comprendre et analyser son volume de crawl quotidien
  • 30. Surveiller « le crawl » par type de pages Pages produit Pages Erreurs
  • 31. Usage n°2 : déterminer les pages qui reçoivent du trafic organique
  • 32. Usage n°2 : déterminer les pages qui reçoivent du trafic organique Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées Une augmentation du ratio pages visitées sur pages ignorées mesure en règle générale une meilleure indexation et de meilleurs classements
  • 33. Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée Ratios intéressant : Longueur des requêtes / type de pages Nombre d’expressions différentes / page
  • 34. Usage n°4 : identifier les pb techniques ou serveurs sur une période Pic de 302 depuis début janvier qui doit être corrigé rapidement
  • 35. Usage n°5 : monitorer les perfs côté serveur • Apache 2 : •temps pour délivrer la page mesuré en microsecondes •LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i" %T/%D" combined •Résultat •[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491 •Soit 0,095491 secondes •Avec Apache 1,3 seul le temps en sec est disponible •Ne pas confondre avec le temps de génération de la page
  • 36. Depuis quand une page active n’a pas été crawlée ?
  • 37. Est-ce que mes pages actives sont des vieilles pages ?
  • 39. Comparer les deux visions du site • Ce que vous montrez (crawl) vs • Ce que le moteur de recherche voit et fait (logs) Votre site Votre site + du duplicate
  • 40. L’analyse combinée crawl+logs • Urls crawlables => données par votre crawler • Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot) Home Cat 1 P1 P2 P3 Cat 2 P1 P2 P3 P4 Cat 3 P1 P2 Votre version Home Cat 1 P1 P2 P3 Cat 2 P1 P1bis P2 P2bis P3 P4 Cat2bis Cat 3 Version vue par Googlebot Des urls en moins Des urls en +
  • 41. Principe de l’analyse des deux versions Urls crawlées par Google, non présentes sur le site : URLS parasites, à bloquer dans le robots.txt Urls présentes sur le site, non explorées par Google : identifier la cause Urls OK présentes et crawlées
  • 42. Taux de crawl et taux de pages actives : deux indicateurs à maîtriser
  • 43. Usage n°1 : connaître les pages crawlées Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …
  • 44. Usage n°2 : déterminer les pages qui reçoivent du trafic organique • Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées • Une augmentation du ratio pages visitées sur pages ignorées mesure en règle générale une meilleure indexation et de meilleurs classements
  • 45. Les limites de l’exercice • Fournit un diagnostic sur la santé d’un site • Fournit des données précises sur le crawl des moteurs et l’état du référencement d’un site Mais cela ne vous donne qu’une liste priorisée de points à corriger Pour développer le trafic SEO, il faut aussi identifier des chantiers permettant une réelle croissance du trafic
  • 47. Merci ! • Nous contacter : Philippe YONNET Directeur Général de l’agence Search Foresight Groupe My Media 55 rue Anatole France – 92300 LEVALLOIS PERRET Philippe.yonnet@search-foresight.com Tél : 01 74 18 29 40 Adrien Menard adrien@botify.com / 01 83 62 90 78 Twitter.com/botify www.botify.com

Notes de l'éditeur

  1. Application d’analyse de la performance SEOLancé en janvier, + de 1000 utilisateurs à travers le mondeInterface complète de lancement de crawlRapport d’analyse entièrement automatiséURLs Explorer pour filtrer, requêter, exporter…Puissant analyseur de logsCompare les données de crawl aux logs140 clients en Europe parmi Dailymotion, Viadeo, Aufeminin, La Redoute, RDC, Lagardère…