Utiliser les logs serveursPhilippe YONNETGlobal SEO StrategistEasyRoommate / Vivastreetphilippe@vivastreet.com
Les logs serveurs c’est quoi ?Log-------------------------------------------------------Enregistrement dela requête = ajout d’une ligne dans le fichier de logs
Les logs serveurs c’est quoi ?Les « logs » sont des fichiers texte créés par les serveurs web.Chaque requête envoyée à un serveur web est enregistrée dans le fichier log.Chaque ligne du fichier de logs représente une requête http
A quoi cela ressemble ?Format Apache par défaut194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644Remarque : on ajoute en général d’autres champs comme : Le referrer (et le query string : la chaine de paramètres)
Le User Agent
L’hôte Quelles informations y trouve-t’on ?L’adresse IP de la source
L’identité du client
Le nom de l’utilisateur distant (si http auth)
Date, heure, fuseau de la requête
La requête http://
Le code réponserenvoyé par le serveur
La taille du bloc de donnéesretourné par le serveur en octets
Les “-” symbolisentune information manquantePourquoi pas une solution de web analytics
Pb spécifique à Google Analytics : la source « autres » Près de 10% d’ « autres »…Comment fait-on si on veut justementanalyser ces urls là ?
Usage n°1 : connaître les pages crawlées  Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …
Usage n°1ter : caractériser le comportement de crawlLes courbes de GWT concernent tout le site, et n’indiquent pas le  nombre de pages uniques crawléesL’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages sont crawlées
Usage n°2 : déterminer les pages qui reçoivent du trafic organiqueLes pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées,  soit très mal classéesUne augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements
Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnéeRatios intéressant :Longueur des requêtes / type de pagesNombre d’expressions différentes / page
Usage n°4 : identifier les pb techniquesErreurs 404, 403Pics d’erreur 500 si Asp .NETPics de 301 non prévus après une mise à jour de site
Usage n°5 : monitorer les perfs côté serveurApache 2 : temps pour délivrer la page mesuré en microsecondesLogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T/%D" combinedRésultat[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491Soit 0,095491 secondesAvec Apache 1,3 seul le temps en sec est disponibleNe pas confondre avec le temps de génération de la page
COMMENT FAIRE ?
1. Vérifier que vos logs sont bien générés
2. Vérifiez le format de vos logsLes trois champs indispensables qui, pourtant, peuvent manquer dans vos logs
3. Utiliser une application du marchéAwstats / Webalizer : peu d’infos SEO
3. Utiliser une application du marché : Urchin
3. Utiliser une application du marché : Urchin
3. Utiliser une application du marchéSawMill
3. Utiliser une application du marchéSawmill

Deck seo campus 2011 utiliser les logs serveurs

  • 1.
    Utiliser les logsserveursPhilippe YONNETGlobal SEO StrategistEasyRoommate / Vivastreetphilippe@vivastreet.com
  • 2.
    Les logs serveursc’est quoi ?Log-------------------------------------------------------Enregistrement dela requête = ajout d’une ligne dans le fichier de logs
  • 3.
    Les logs serveursc’est quoi ?Les « logs » sont des fichiers texte créés par les serveurs web.Chaque requête envoyée à un serveur web est enregistrée dans le fichier log.Chaque ligne du fichier de logs représente une requête http
  • 4.
    A quoi celaressemble ?Format Apache par défaut194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644Remarque : on ajoute en général d’autres champs comme : Le referrer (et le query string : la chaine de paramètres)
  • 5.
  • 6.
    L’hôte Quelles informationsy trouve-t’on ?L’adresse IP de la source
  • 7.
  • 8.
    Le nom del’utilisateur distant (si http auth)
  • 9.
    Date, heure, fuseaude la requête
  • 10.
  • 11.
  • 12.
    La taille dubloc de donnéesretourné par le serveur en octets
  • 13.
    Les “-” symbolisentuneinformation manquantePourquoi pas une solution de web analytics
  • 14.
    Pb spécifique àGoogle Analytics : la source « autres » Près de 10% d’ « autres »…Comment fait-on si on veut justementanalyser ces urls là ?
  • 15.
    Usage n°1 :connaître les pages crawlées Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …
  • 16.
    Usage n°1ter :caractériser le comportement de crawlLes courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawléesL’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages sont crawlées
  • 17.
    Usage n°2 :déterminer les pages qui reçoivent du trafic organiqueLes pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classéesUne augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements
  • 18.
    Usage n°3 :analyser les requêtes qui rapportent du trafic pour une url donnéeRatios intéressant :Longueur des requêtes / type de pagesNombre d’expressions différentes / page
  • 19.
    Usage n°4 :identifier les pb techniquesErreurs 404, 403Pics d’erreur 500 si Asp .NETPics de 301 non prévus après une mise à jour de site
  • 20.
    Usage n°5 :monitorer les perfs côté serveurApache 2 : temps pour délivrer la page mesuré en microsecondesLogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T/%D" combinedRésultat[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491Soit 0,095491 secondesAvec Apache 1,3 seul le temps en sec est disponibleNe pas confondre avec le temps de génération de la page
  • 21.
  • 22.
    1. Vérifier quevos logs sont bien générés
  • 23.
    2. Vérifiez leformat de vos logsLes trois champs indispensables qui, pourtant, peuvent manquer dans vos logs
  • 24.
    3. Utiliser uneapplication du marchéAwstats / Webalizer : peu d’infos SEO
  • 25.
    3. Utiliser uneapplication du marché : Urchin
  • 26.
    3. Utiliser uneapplication du marché : Urchin
  • 27.
    3. Utiliser uneapplication du marchéSawMill
  • 28.
    3. Utiliser uneapplication du marchéSawmill