#seocamp
L’analyse de logs pour
tous et gratuitement
Par @FrancoisGoube, fondateur @Oncrawl
+10 years SEO experience
Serial entrepreneur
Business Angel
Membre du CA SeoCamp
Administrateur Frenchtech
Je vous aide A retenir l’important
#LogsOnCrawl
@OnCrawl – SEOCAMP 2016
Au programme
1. Pourquoi faire de l’analyse de logs et surtout pour qui ?
2. Quelles données et quels outils pour bien démarrer l’analyse de logs ?
3. Comment avoir mon propre analyseur de logs sans débourser un centime ?
4. Etude de cas
5. Entrez dans la matrice et voir plus loin que les logs et le crawl.
6. (Jeu et Q&A)
@OnCrawl – SEOCAMP 2016
Logs Serveur : Kezako ?
Serveurs
Internet
@OnCrawl – SEOCAMP 2016
A quoi ressemblent des logs ?
Un serveur web enregistre toutes les requètes qu’il reçoit.
Ce sont les logs serveurs
 En général:
/var/log/httpd sous apache
 Ils permettent :
 D’identifier le trafic SEO
 De voir ce que fait le GoogleBot
@OnCrawl – SEOCAMP 2016
Pour qui ?
 Pour tous !!!
 Audit :
o Diagnostic des pages utiles / inutiles
o Zones que Google crawle
o Zones que Google ne connait pas
 Monitoring :
o Alertes
o Suivi des mise en productions / Optimisations
o Attaques
@OnCrawl – SEOCAMP 2016
Bien démarrer sur l’analyse de logs
 Savoir où sont vos logs et comment y accéder
 S’assurer d’avoir l’ensemble des logs
 Procéder à des tests de complétude et de validité des
données :
1. Compter les hits de Google et comparer avec la search console
2. Compter les visites depuis Google et comparer avec Analytics
 Attention aux systèmes de cache !!!
-$ grep “Googlebot” access.log | wc -
l
-$ grep “google.fr” access.log | wc -
l
@OnCrawl – SEOCAMP 2016
Pourquoi utiliser ses logs ?
 Know what Google did!
 Quelles pages sont crawlées par Google Bot
 Quelles sont mes pages actives ?
 Google rencontre-t-il des erreurs ?
 Car Google cherche à optimiser ses ressources de crawl
Optimisez les ressources de Google vers vos “MONEY PAGES”
@OnCrawl – SEOCAMP 2016
Pourquoi utiliser ses logs ?
 Savoir ce que
Google fait
 Pour
comprendre
l’impact SEO
@OnCrawl – SEOCAMP 2016
Ne pas attendre un message dans GWT
 Suivez les status codes en temps réel
 Recevez des alertes
 Contrôlez vos MEP
Alertes utiles :
 Augmentation anormale des 404
 Baisse du nombre de pages recevant du Trafic SEO
 …
@OnCrawl – SEOCAMP 2016
Savoir ce que Google Crawl et Positionne
 Moins vos pages sont populaires et moins Google les regarde
@OnCrawl – SEOCAMP 2016
Quelles pages ont le plus de valeur pour Google ?
 Découvrez vos pages Actives
@OnCrawl – SEOCAMP 2016
Quelles pages ont le plus de valeur pour Google ?
 Google n’interprète pas forcément votre site comme vous le
voudriez !
@OnCrawl – SEOCAMP 2016
La clé est dans le croisement des données
 A partir des données de crawl…
 Control du balisage HTML
 Qualité des meta
 Analyse du contenu (near duplicates, nb de mots…)
 Popularité des pages (Inrank)
 … et des données de logs
 Vous ouvrez la boite noire de l’algo de Google!
 Pages orphelines
 Pages actives / famille
 Zones inconnues de Google
 Impact de vos optimisations sur le GoogleBot
@OnCrawl – SEOCAMP 2016
Quels outils
 Outils Open Source
 Kibana
 Kibana by Oncrawl
 Logalize
 Graylog
 Outils SaaS
 Oncrawl Advanced
 Logs.io
 Kelo.gs
 Qbox Available on Github
www.oncrawl.com
Et Moi ?
Comment fabriquer son Analyseur de logs gratuitement ?
@OnCrawl – SEOCAMP 2016
Les indicateurs de base
 Nombre de pages uniques crawlées par Google
 Fréquence de crawl par groupe de pages
 Monitoring des status codes (200, 3xx, 4xx,…)
 Nombre de pages actives / inactives
Accrochez vos ceintures !!!
@OnCrawl – SEOCAMP 2016
Prenons le cas d’un site hebergé en
Mutualisé…
 Hypothèse :
 Vous avez un site hebergé chez OVH
 Vous avez bien paramétré vos logs pour qu’ils soient distincts par
host
 Nous allons voir
 Comment récupérer les fichiers de logs depuis OVH,
 Créer une machine virtuelle sur votre poste et utiliser Docker,
 Déployer Oncrawl ELK,
 Ingérer les logs
 Utiliser Oncrawl ELK pour analyser vos logs.
@OnCrawl – SEOCAMP 2016
Fetch the logs!
1. Ouvrez un navigateur web
2. Loguez vous sur OVH
3. A partir de l’OVH Web console, cliquez sur hébergement et
sur le nom de domaine que vous souhaitez analyser
4. Accédez à vos logs depuis le lien
http://logs.ovh.net/YOURDOMAIN/
5. Choisissez une période d’un mois
https://logs.ovh.net/YOURDOMAIN/logs-MM-YYYY/
6. Téléchargez chaque journée de logs
(e.g. https://logs.ovh.net/YOURDOMAIN/logs-MM-YYYY/YOURDOMAIN-DD-MM-YYYY.log.gz)
@OnCrawl – SEOCAMP 2016
Préparez vos logs
 Controlons ce que nous récupérons d’OVH
 Nous permet de renommer l’ensemble des fichiers en .log
 Nous permet de lire les 10 premières lignes de logs pour contrôle
@OnCrawl – SEOCAMP 2016
Utilisons Docker Compose
 Setup de Docker
 Récupération des containers
 Téléchargez OnCrawl ELK, et Dézippez le sur votre machine
 Dans un terminal tapez :
Si vous n’avez jamais utilisé Docker, télécharger ceci :
https://www.docker.com/products/docker-toolbox,
Et installez Docker Toolbox
Suivez ce tutoriel : https://docs.docker.com/mac/step_one/
@OnCrawl – SEOCAMP 2016
Up and Running?
 Si tout va bien, vous devriez avoir ceci
 Vous n’avez plus qu’à copier les logs récupérés :
cp path/clean/and/filtered/log/files/my-virtual-host-*.log path/to/oncrawl-elk/logs/apache/
Logstash devrait faire tourner le container oncrawlelk_logstash_1 container,
Parser vos logs et les envoyer à oncrawlelk_elsaticsearch_1 container.
@OnCrawl – SEOCAMP 2016
RDV sur http://localhost:9000
@OnCrawl – SEOCAMP 2016
Etude de cas : Exemple de 5 usages
 Suivi de la santé de mon site
 Etat des lieux de ma structure de site
 Détection des problèmes de maillage interne
 Impact SEO de mon contenu
 Temps de chargement, status codes et Googlebot
@OnCrawl – SEOCAMP 2016
Voir plus loin que les logs
 Détecter des tendances
 Bots
 Users
 Rajouter des données business
 CA / Panier moyen
 Revenus pub
 Penser votre business et vos données en remontant de
la vente au first click.
www.oncrawl.comwww.oncrawl.com
2 mois Pro Gratuits
Code : SEOCAMP16
MERCI
@OnCrawl – SEOCAMP 2016
3 questions
 Quelles sont les deux tests à réaliser pour s’assurer de
bien démarrer avec ses logs ?
 Oncrawl Open source log analyzer est un fork de Elastic
Search, Logstache et … ?
 Comment s’appelle ce personnage ?
1. CRAWL
Nos robots parcourent votre site comme Google peut le
faire et nous récupérons tout votre code HTML et
l’ensemble des données SEO de votre site web.
Découvrez comment Google interprète votre site web
Votre contact:
francois@oncrawl.com
+33 652 19 97 57
Follow us :

SEO Campus 2016 Oncrawl Open Source Log Analysis

  • 1.
    #seocamp L’analyse de logspour tous et gratuitement Par @FrancoisGoube, fondateur @Oncrawl
  • 2.
    +10 years SEOexperience Serial entrepreneur Business Angel Membre du CA SeoCamp Administrateur Frenchtech
  • 3.
    Je vous aideA retenir l’important #LogsOnCrawl
  • 4.
    @OnCrawl – SEOCAMP2016 Au programme 1. Pourquoi faire de l’analyse de logs et surtout pour qui ? 2. Quelles données et quels outils pour bien démarrer l’analyse de logs ? 3. Comment avoir mon propre analyseur de logs sans débourser un centime ? 4. Etude de cas 5. Entrez dans la matrice et voir plus loin que les logs et le crawl. 6. (Jeu et Q&A)
  • 5.
    @OnCrawl – SEOCAMP2016 Logs Serveur : Kezako ? Serveurs Internet
  • 6.
    @OnCrawl – SEOCAMP2016 A quoi ressemblent des logs ? Un serveur web enregistre toutes les requètes qu’il reçoit. Ce sont les logs serveurs  En général: /var/log/httpd sous apache  Ils permettent :  D’identifier le trafic SEO  De voir ce que fait le GoogleBot
  • 7.
    @OnCrawl – SEOCAMP2016 Pour qui ?  Pour tous !!!  Audit : o Diagnostic des pages utiles / inutiles o Zones que Google crawle o Zones que Google ne connait pas  Monitoring : o Alertes o Suivi des mise en productions / Optimisations o Attaques
  • 8.
    @OnCrawl – SEOCAMP2016 Bien démarrer sur l’analyse de logs  Savoir où sont vos logs et comment y accéder  S’assurer d’avoir l’ensemble des logs  Procéder à des tests de complétude et de validité des données : 1. Compter les hits de Google et comparer avec la search console 2. Compter les visites depuis Google et comparer avec Analytics  Attention aux systèmes de cache !!! -$ grep “Googlebot” access.log | wc - l -$ grep “google.fr” access.log | wc - l
  • 9.
    @OnCrawl – SEOCAMP2016 Pourquoi utiliser ses logs ?  Know what Google did!  Quelles pages sont crawlées par Google Bot  Quelles sont mes pages actives ?  Google rencontre-t-il des erreurs ?  Car Google cherche à optimiser ses ressources de crawl Optimisez les ressources de Google vers vos “MONEY PAGES”
  • 10.
    @OnCrawl – SEOCAMP2016 Pourquoi utiliser ses logs ?  Savoir ce que Google fait  Pour comprendre l’impact SEO
  • 11.
    @OnCrawl – SEOCAMP2016 Ne pas attendre un message dans GWT  Suivez les status codes en temps réel  Recevez des alertes  Contrôlez vos MEP Alertes utiles :  Augmentation anormale des 404  Baisse du nombre de pages recevant du Trafic SEO  …
  • 12.
    @OnCrawl – SEOCAMP2016 Savoir ce que Google Crawl et Positionne  Moins vos pages sont populaires et moins Google les regarde
  • 13.
    @OnCrawl – SEOCAMP2016 Quelles pages ont le plus de valeur pour Google ?  Découvrez vos pages Actives
  • 14.
    @OnCrawl – SEOCAMP2016 Quelles pages ont le plus de valeur pour Google ?  Google n’interprète pas forcément votre site comme vous le voudriez !
  • 15.
    @OnCrawl – SEOCAMP2016 La clé est dans le croisement des données  A partir des données de crawl…  Control du balisage HTML  Qualité des meta  Analyse du contenu (near duplicates, nb de mots…)  Popularité des pages (Inrank)  … et des données de logs  Vous ouvrez la boite noire de l’algo de Google!  Pages orphelines  Pages actives / famille  Zones inconnues de Google  Impact de vos optimisations sur le GoogleBot
  • 16.
    @OnCrawl – SEOCAMP2016 Quels outils  Outils Open Source  Kibana  Kibana by Oncrawl  Logalize  Graylog  Outils SaaS  Oncrawl Advanced  Logs.io  Kelo.gs  Qbox Available on Github
  • 17.
    www.oncrawl.com Et Moi ? Commentfabriquer son Analyseur de logs gratuitement ?
  • 18.
    @OnCrawl – SEOCAMP2016 Les indicateurs de base  Nombre de pages uniques crawlées par Google  Fréquence de crawl par groupe de pages  Monitoring des status codes (200, 3xx, 4xx,…)  Nombre de pages actives / inactives Accrochez vos ceintures !!!
  • 19.
    @OnCrawl – SEOCAMP2016 Prenons le cas d’un site hebergé en Mutualisé…  Hypothèse :  Vous avez un site hebergé chez OVH  Vous avez bien paramétré vos logs pour qu’ils soient distincts par host  Nous allons voir  Comment récupérer les fichiers de logs depuis OVH,  Créer une machine virtuelle sur votre poste et utiliser Docker,  Déployer Oncrawl ELK,  Ingérer les logs  Utiliser Oncrawl ELK pour analyser vos logs.
  • 20.
    @OnCrawl – SEOCAMP2016 Fetch the logs! 1. Ouvrez un navigateur web 2. Loguez vous sur OVH 3. A partir de l’OVH Web console, cliquez sur hébergement et sur le nom de domaine que vous souhaitez analyser 4. Accédez à vos logs depuis le lien http://logs.ovh.net/YOURDOMAIN/ 5. Choisissez une période d’un mois https://logs.ovh.net/YOURDOMAIN/logs-MM-YYYY/ 6. Téléchargez chaque journée de logs (e.g. https://logs.ovh.net/YOURDOMAIN/logs-MM-YYYY/YOURDOMAIN-DD-MM-YYYY.log.gz)
  • 21.
    @OnCrawl – SEOCAMP2016 Préparez vos logs  Controlons ce que nous récupérons d’OVH  Nous permet de renommer l’ensemble des fichiers en .log  Nous permet de lire les 10 premières lignes de logs pour contrôle
  • 22.
    @OnCrawl – SEOCAMP2016 Utilisons Docker Compose  Setup de Docker  Récupération des containers  Téléchargez OnCrawl ELK, et Dézippez le sur votre machine  Dans un terminal tapez : Si vous n’avez jamais utilisé Docker, télécharger ceci : https://www.docker.com/products/docker-toolbox, Et installez Docker Toolbox Suivez ce tutoriel : https://docs.docker.com/mac/step_one/
  • 23.
    @OnCrawl – SEOCAMP2016 Up and Running?  Si tout va bien, vous devriez avoir ceci  Vous n’avez plus qu’à copier les logs récupérés : cp path/clean/and/filtered/log/files/my-virtual-host-*.log path/to/oncrawl-elk/logs/apache/ Logstash devrait faire tourner le container oncrawlelk_logstash_1 container, Parser vos logs et les envoyer à oncrawlelk_elsaticsearch_1 container.
  • 24.
    @OnCrawl – SEOCAMP2016 RDV sur http://localhost:9000
  • 25.
    @OnCrawl – SEOCAMP2016 Etude de cas : Exemple de 5 usages  Suivi de la santé de mon site  Etat des lieux de ma structure de site  Détection des problèmes de maillage interne  Impact SEO de mon contenu  Temps de chargement, status codes et Googlebot
  • 26.
    @OnCrawl – SEOCAMP2016 Voir plus loin que les logs  Détecter des tendances  Bots  Users  Rajouter des données business  CA / Panier moyen  Revenus pub  Penser votre business et vos données en remontant de la vente au first click.
  • 27.
    www.oncrawl.comwww.oncrawl.com 2 mois ProGratuits Code : SEOCAMP16 MERCI
  • 28.
    @OnCrawl – SEOCAMP2016 3 questions  Quelles sont les deux tests à réaliser pour s’assurer de bien démarrer avec ses logs ?  Oncrawl Open source log analyzer est un fork de Elastic Search, Logstache et … ?  Comment s’appelle ce personnage ?
  • 29.
    1. CRAWL Nos robotsparcourent votre site comme Google peut le faire et nous récupérons tout votre code HTML et l’ensemble des données SEO de votre site web. Découvrez comment Google interprète votre site web Votre contact: francois@oncrawl.com +33 652 19 97 57 Follow us :