#seocamp 1
Comment passer
du SEO à
Data + SEO?
#seocamp 2
Audrey SCHOONWATER
@witamine
• Responsable SEO (+10 ans)
• SEO Camp : co-fondateur
Patrice LAROCHE
@lpatrice84
• Responsable Pôle Data @Clustaar
• Responsable SEO (+10 ans)
#seocamp 3
PERIMETRE DU
RESPONSABLE SEO
Renaud Joly
#seocamp 4
STRATEGIE PILOTAGE
Fixer les objectifs, le
périmètre, les moyens
• Veille
• Modélisation de la
recherche
Mesurer,
automatiser,
améliorer
• Data SEO
• Data IT
Put product
image here
#seocamp 5
Récupération Consolidation
Nettoyer et manipuler
Exploration
Visualisation et reporting
Crawl + logs
Mots clé /
Positions
Données API
Base de
données
Flow Data
Comment cela fonctionne ?
#seocamp 6
Stratégie
#seocamp 7
Limitation “The Search API is not complete index of all Tweets, but instead an index of recent Tweets.
At the moment that index includes between 6-9 days of Tweets.” TAGS
Search API
Accéder à la documentation
Twitter & TAGS
Créer un dataset Twitter : un index entre 6 et 9 jours de tweets
#seocamp 8
TAGS
Installer sur Sheets
App
Créer sur Twitter
Twitter
Se connecter à un compte
Google
Se connecter à un compte
Accéder à Google
Sheets
Accéder à l’API
Développeur
Récupérer les
données Twitter
Configurer le
module
complémentaire :
https://tags.hawksey.info/
*Jeu de données
Twitter & TAGS
Créer un dataset Twitter avec TAGS étape par étape
#seocamp 9
Terme à rechercher sur
Twitter :
« prev next »
Twitter & TAGS
Récupérer le dataset Twitter « prev next » avec TAGS
#seocamp 10
Dataset de 508 tweets datés à propos de « prev next »
Twitter & TAGS
Exemple de dataset Twitter « prev next » avec TAGS
#seocamp 11
Limitation “The Search API is not complete index of all Tweets, but instead an index of recent Tweets.
At the moment that index includes between 6-9 days of Tweets.” TAGS
twitterMining.R
Accéder au tutoriel sur YouTube
Analyse de Sentiment
Accéder à Twitter Sentiment Analysis
Twitter & R
Extraction de tweets par randerson112358
#seocamp 12
Tweets
Extraire
Auth
Configurer
Packages R
Installer
Twitter
Se connecter à un compte
Accéder à Google
Sheets
Accéder à l’API
Développeur
Récupérer les
données Twitter
twitterMining.R
(GitHub)
Tutoriel
(Medium)
Dataset de xxx tweets datés sur un terme donné
Twitter & R
Créer un dataset Twitter avec twitterMining.R étape par étape
#seocamp 13
Objectif Automatisation via Zapier
Identifier les champs
Accéder à Email Parser
Zapier & Sheets
Extraction de mails avec une recette
#seocamp 14
Sheets
Créer une ligne par e-mail
Zapier
Identifier les éléments
Zapier
Envoyer un modèle
d’email
Zapier
Créer un email robot
example@robot.zapier.com
et nommer les
champs à
extraire
Nommer les
champs à
extraire
Un email de
Google Alertes
Récupérer
automatiquemen
t les Google
Alertes
Zapier & Sheets
Créer un Dataset Google Alertes via Google Sheets
#seocamp 15
Objectif Convertir des mails reçus sur Gmail en PDF, scraper les PDF puis rechercher et isoler
les infos dans un CSV.
Sheets & Python
Convertir vos mails en CSV
Emails en PDF (Drive)
Accéder à l’extension Sheets
PDF en CSV (Python)
Accéder au toturiel sur Medium
#seocamp 16
Python
Convertir en CSV
Sheets
Fusionner les PDF
Sheets
Sauver les emails en PDF
Sheets
Installer Save Email
Configurer
l’extension
Sheets Save
Email &
Attachments
avec les e-mails
Gmail à
récupérer
Installer et lancer
l’extension
Sheets
PDF Mergy
Rassembler les e-
mails PDF dans
un répertoire
Google Drive
dédié
Récupérer
automatiquemen
t les Google
Alertes
Sheets & Python
Convertir vos mails en CSV
#seocamp 17
Twitter &
TAGS
Création du dataset sur le terme de votre choix
Exemple : prev next
Résumé
Twitter & R Création du dataset sur le terme de votre choix
Zapier &
Sheets
Création du dataset à partir des emails d’alertes
Exemple : Google Alertes (à tester avec les emails d’alertes netlinking)
Veille
Sheets &
Python
Création du dataset à partir des emails de votre choix
Exemple : Données tabulaires (rapports)
#seocamp 18
Excel et au-delà !
#seocamp 19
Élargir le périmètre de mots clés
Objectif : trouver les mots clés où mes concurrents sont positionnés et où je suis absent
Finaliser
Récupérer les données
finales
Manipuler
Enrichir les données
Nettoyer
les données
Récupérer
les données
Ubersuggest
SEMRush
Yooda Insight
…
Excel
Google Sheet
Dataiku
Big Query
Excel
Google Sheet
Dataiku
Big Query
Excel
Google Sheet
#seocamp 20
Copier-coller les fichiers
téléchargés à la suite.
La recette Stack permet la fusion de
plusieurs Datasets provenant de sources
différentes
Récupération
Récupérer & préparer les données
#seocamp 21
Consolidation
Nettoyer les données
Suppression des colonnes
à la main
Ajout des données à la
main ou via un plugin
(exemple: SEO Tools)
La recette Prepare permet de travailler
les données en utilisant un échantillons
Tips :
• Split URL pour avoir NDD, protocol,
…
• Filter row/cell pour ne garder que les
ligne utile
La recette Distinct permet de supprimer
les doublons
#seocamp 22
Consolidation
Manipuler les données
Fonction Nbsi déterminer
le nombre de fois qu’un
élément est répéter dans
une colonne.
La recette Group permet de grouper les
éléments selon un élément / plusieurs
éléments communs
La recette Join with… permet de faire une
jointure sur une ou plusieurs clés
communes
#seocamp 23
Résultat
Flow dans Dataiku & fichier final
#seocamp 24
Dataiku Élargir le périmètre de mots clés – recette Stack
Exemple : Alertis
Résumé
Modélisation de la recherche
#seocamp 25
PilotagePilotage
#seocamp 26
DATA SEO
#seocamp 27
Analyse de logs
Solutions existantes
#seocamp 28
Exemple de Flow Dataiku
L’analyse de logs
Utiliser le tutoriel de Rémi Bacha pour récupérer les logs d’OVH en automatique : https://remibacha.com/analyse-logs-ovh-dataiku/
#seocamp 29
Consolidation pages actives
L’analyse de logs
Suppression des colonnes inutiles à la main
Nettoyage des
données en utilisant le
step « Remove row »
#seocamp 30
Consolidation du crawl
L’analyse de logs
Tips : Pour les problèmes
d’encodage d’URL, Utiliser
le step « Replace ».
Tips : Plutôt que de supprimer toutes les colonnes
comme montré dans la slide précédente. Utiliser le step
« Keep only » pour ne garder que les colonnes utiles
#seocamp 31
Consolidation des logs
L’analyse de logs
#seocamp 32
Jointure des datasets
L’analyse de logs
# -*- coding: utf-8 -*-
import dataiku
import pandas as pd, numpy as np
from dataiku import pandasutils as pdu
# Read recipe inputs
crawl_google_cleaned_grouped = dataiku.Dataset("crawl_google_cleaned_grouped")
crawl_google_cleaned_grouped_df = crawl_google_cleaned_grouped.get_dataframe()
crawl_SF_cleaned = dataiku.Dataset("crawl_SF_cleaned")
crawl_SF_cleaned_df = crawl_SF_cleaned.get_dataframe()
# Compute recipe outputs
# TODO: Write here your actual code that computes the outputs
# NB: DSS supports several kinds of APIs for reading and writing data. Please see
doc.
merged_outer_df = crawl_google_cleaned_grouped_df.merge(crawl_SF_cleaned_df,
how="outer", left_on="URL1", right_on="Address")
# Write recipe outputs
merged_outer = dataiku.Dataset("merged_outer")
merged_outer.write_with_schema(merged_outer_df)
La recette « Join with… » permet d’effectuer
une jointure sur deux Datasets ou plusieurs
Dataset
#seocamp 33
Exploration des données
L’analyse de logs
#seocamp 34
Résumé
Data SEO
Dataiku Analyse de logs – Consolidation & visualisation
Exemple : log d’un client
#seocamp 35
Automatiser la récupération des données de webperf
#seocamp 36
Speed Demon
v1.3
Source: https://medium.com/dev-channel/introducing-speed-demon-a36d95dd0174
Flow d’automatisation
Analyse webperf
Etape
1. Faire une copie du Google Sheet
2. Récupérer une clé API WebPageTest
3. Remplir le fichier Google Sheet
4. Mise en place de l’automatisation via
script editor
5. Préparation dans Google Sheet
6. Visualisation dans Data Studio
#seocamp 37
Consolidation
Analyse webperf
Tips
1. Dupliqué cet onglet autant de fois que d’URL que
vous souhaitez auditer.
2. Créer une feuille vierge qui va récupérer les
informations.
#seocamp 38
Visualisation sous Data Studio
Analyse webperf
Vision client
Vision concurrents
Possibilité de faire un dashboard automatisé de suivi en moins de 30 minutes
#seocamp 39
Combiner les sources sous Data Studio
Analyse webperf
Combiner les données fonctionne de la
même manière qu’une jointure.
#seocamp 40
WebPageTest
+ Google
Automatisation des runs WebPageTest et visualisation dans Data Studio
Résumé
Data IT
Pour les plus motivés : http://www.canyouseome.com/surveiller-levolution-de-la-vitesse-dun-site-et-de-concurrents-avec-bigquery/
#seocamp 41
Créer des
datasets
TAGS, R, Zapier, Sheets
A retenir
Stratégie + Pilotage SEO
Analyser
un dataset
Dataiku
Visualiser Data Studio
Formater,
trier
Python
#seocamp 42
Question Mug
● Élargir le périmètre de mots clés :
Combien d’étapes dans la recette
Dataiku ?
#seocamp 43
MERCI AUX SPONSORS
#seocamp 44
Thank you

Comment passer de SEO à SEO + data

  • 1.
    #seocamp 1 Comment passer duSEO à Data + SEO?
  • 2.
    #seocamp 2 Audrey SCHOONWATER @witamine •Responsable SEO (+10 ans) • SEO Camp : co-fondateur Patrice LAROCHE @lpatrice84 • Responsable Pôle Data @Clustaar • Responsable SEO (+10 ans)
  • 3.
  • 4.
    #seocamp 4 STRATEGIE PILOTAGE Fixerles objectifs, le périmètre, les moyens • Veille • Modélisation de la recherche Mesurer, automatiser, améliorer • Data SEO • Data IT Put product image here
  • 5.
    #seocamp 5 Récupération Consolidation Nettoyeret manipuler Exploration Visualisation et reporting Crawl + logs Mots clé / Positions Données API Base de données Flow Data Comment cela fonctionne ?
  • 6.
  • 7.
    #seocamp 7 Limitation “TheSearch API is not complete index of all Tweets, but instead an index of recent Tweets. At the moment that index includes between 6-9 days of Tweets.” TAGS Search API Accéder à la documentation Twitter & TAGS Créer un dataset Twitter : un index entre 6 et 9 jours de tweets
  • 8.
    #seocamp 8 TAGS Installer surSheets App Créer sur Twitter Twitter Se connecter à un compte Google Se connecter à un compte Accéder à Google Sheets Accéder à l’API Développeur Récupérer les données Twitter Configurer le module complémentaire : https://tags.hawksey.info/ *Jeu de données Twitter & TAGS Créer un dataset Twitter avec TAGS étape par étape
  • 9.
    #seocamp 9 Terme àrechercher sur Twitter : « prev next » Twitter & TAGS Récupérer le dataset Twitter « prev next » avec TAGS
  • 10.
    #seocamp 10 Dataset de508 tweets datés à propos de « prev next » Twitter & TAGS Exemple de dataset Twitter « prev next » avec TAGS
  • 11.
    #seocamp 11 Limitation “TheSearch API is not complete index of all Tweets, but instead an index of recent Tweets. At the moment that index includes between 6-9 days of Tweets.” TAGS twitterMining.R Accéder au tutoriel sur YouTube Analyse de Sentiment Accéder à Twitter Sentiment Analysis Twitter & R Extraction de tweets par randerson112358
  • 12.
    #seocamp 12 Tweets Extraire Auth Configurer Packages R Installer Twitter Seconnecter à un compte Accéder à Google Sheets Accéder à l’API Développeur Récupérer les données Twitter twitterMining.R (GitHub) Tutoriel (Medium) Dataset de xxx tweets datés sur un terme donné Twitter & R Créer un dataset Twitter avec twitterMining.R étape par étape
  • 13.
    #seocamp 13 Objectif Automatisationvia Zapier Identifier les champs Accéder à Email Parser Zapier & Sheets Extraction de mails avec une recette
  • 14.
    #seocamp 14 Sheets Créer uneligne par e-mail Zapier Identifier les éléments Zapier Envoyer un modèle d’email Zapier Créer un email robot example@robot.zapier.com et nommer les champs à extraire Nommer les champs à extraire Un email de Google Alertes Récupérer automatiquemen t les Google Alertes Zapier & Sheets Créer un Dataset Google Alertes via Google Sheets
  • 15.
    #seocamp 15 Objectif Convertirdes mails reçus sur Gmail en PDF, scraper les PDF puis rechercher et isoler les infos dans un CSV. Sheets & Python Convertir vos mails en CSV Emails en PDF (Drive) Accéder à l’extension Sheets PDF en CSV (Python) Accéder au toturiel sur Medium
  • 16.
    #seocamp 16 Python Convertir enCSV Sheets Fusionner les PDF Sheets Sauver les emails en PDF Sheets Installer Save Email Configurer l’extension Sheets Save Email & Attachments avec les e-mails Gmail à récupérer Installer et lancer l’extension Sheets PDF Mergy Rassembler les e- mails PDF dans un répertoire Google Drive dédié Récupérer automatiquemen t les Google Alertes Sheets & Python Convertir vos mails en CSV
  • 17.
    #seocamp 17 Twitter & TAGS Créationdu dataset sur le terme de votre choix Exemple : prev next Résumé Twitter & R Création du dataset sur le terme de votre choix Zapier & Sheets Création du dataset à partir des emails d’alertes Exemple : Google Alertes (à tester avec les emails d’alertes netlinking) Veille Sheets & Python Création du dataset à partir des emails de votre choix Exemple : Données tabulaires (rapports)
  • 18.
  • 19.
    #seocamp 19 Élargir lepérimètre de mots clés Objectif : trouver les mots clés où mes concurrents sont positionnés et où je suis absent Finaliser Récupérer les données finales Manipuler Enrichir les données Nettoyer les données Récupérer les données Ubersuggest SEMRush Yooda Insight … Excel Google Sheet Dataiku Big Query Excel Google Sheet Dataiku Big Query Excel Google Sheet
  • 20.
    #seocamp 20 Copier-coller lesfichiers téléchargés à la suite. La recette Stack permet la fusion de plusieurs Datasets provenant de sources différentes Récupération Récupérer & préparer les données
  • 21.
    #seocamp 21 Consolidation Nettoyer lesdonnées Suppression des colonnes à la main Ajout des données à la main ou via un plugin (exemple: SEO Tools) La recette Prepare permet de travailler les données en utilisant un échantillons Tips : • Split URL pour avoir NDD, protocol, … • Filter row/cell pour ne garder que les ligne utile La recette Distinct permet de supprimer les doublons
  • 22.
    #seocamp 22 Consolidation Manipuler lesdonnées Fonction Nbsi déterminer le nombre de fois qu’un élément est répéter dans une colonne. La recette Group permet de grouper les éléments selon un élément / plusieurs éléments communs La recette Join with… permet de faire une jointure sur une ou plusieurs clés communes
  • 23.
    #seocamp 23 Résultat Flow dansDataiku & fichier final
  • 24.
    #seocamp 24 Dataiku Élargirle périmètre de mots clés – recette Stack Exemple : Alertis Résumé Modélisation de la recherche
  • 25.
  • 26.
  • 27.
    #seocamp 27 Analyse delogs Solutions existantes
  • 28.
    #seocamp 28 Exemple deFlow Dataiku L’analyse de logs Utiliser le tutoriel de Rémi Bacha pour récupérer les logs d’OVH en automatique : https://remibacha.com/analyse-logs-ovh-dataiku/
  • 29.
    #seocamp 29 Consolidation pagesactives L’analyse de logs Suppression des colonnes inutiles à la main Nettoyage des données en utilisant le step « Remove row »
  • 30.
    #seocamp 30 Consolidation ducrawl L’analyse de logs Tips : Pour les problèmes d’encodage d’URL, Utiliser le step « Replace ». Tips : Plutôt que de supprimer toutes les colonnes comme montré dans la slide précédente. Utiliser le step « Keep only » pour ne garder que les colonnes utiles
  • 31.
    #seocamp 31 Consolidation deslogs L’analyse de logs
  • 32.
    #seocamp 32 Jointure desdatasets L’analyse de logs # -*- coding: utf-8 -*- import dataiku import pandas as pd, numpy as np from dataiku import pandasutils as pdu # Read recipe inputs crawl_google_cleaned_grouped = dataiku.Dataset("crawl_google_cleaned_grouped") crawl_google_cleaned_grouped_df = crawl_google_cleaned_grouped.get_dataframe() crawl_SF_cleaned = dataiku.Dataset("crawl_SF_cleaned") crawl_SF_cleaned_df = crawl_SF_cleaned.get_dataframe() # Compute recipe outputs # TODO: Write here your actual code that computes the outputs # NB: DSS supports several kinds of APIs for reading and writing data. Please see doc. merged_outer_df = crawl_google_cleaned_grouped_df.merge(crawl_SF_cleaned_df, how="outer", left_on="URL1", right_on="Address") # Write recipe outputs merged_outer = dataiku.Dataset("merged_outer") merged_outer.write_with_schema(merged_outer_df) La recette « Join with… » permet d’effectuer une jointure sur deux Datasets ou plusieurs Dataset
  • 33.
    #seocamp 33 Exploration desdonnées L’analyse de logs
  • 34.
    #seocamp 34 Résumé Data SEO DataikuAnalyse de logs – Consolidation & visualisation Exemple : log d’un client
  • 35.
    #seocamp 35 Automatiser larécupération des données de webperf
  • 36.
    #seocamp 36 Speed Demon v1.3 Source:https://medium.com/dev-channel/introducing-speed-demon-a36d95dd0174 Flow d’automatisation Analyse webperf Etape 1. Faire une copie du Google Sheet 2. Récupérer une clé API WebPageTest 3. Remplir le fichier Google Sheet 4. Mise en place de l’automatisation via script editor 5. Préparation dans Google Sheet 6. Visualisation dans Data Studio
  • 37.
    #seocamp 37 Consolidation Analyse webperf Tips 1.Dupliqué cet onglet autant de fois que d’URL que vous souhaitez auditer. 2. Créer une feuille vierge qui va récupérer les informations.
  • 38.
    #seocamp 38 Visualisation sousData Studio Analyse webperf Vision client Vision concurrents Possibilité de faire un dashboard automatisé de suivi en moins de 30 minutes
  • 39.
    #seocamp 39 Combiner lessources sous Data Studio Analyse webperf Combiner les données fonctionne de la même manière qu’une jointure.
  • 40.
    #seocamp 40 WebPageTest + Google Automatisationdes runs WebPageTest et visualisation dans Data Studio Résumé Data IT Pour les plus motivés : http://www.canyouseome.com/surveiller-levolution-de-la-vitesse-dun-site-et-de-concurrents-avec-bigquery/
  • 41.
    #seocamp 41 Créer des datasets TAGS,R, Zapier, Sheets A retenir Stratégie + Pilotage SEO Analyser un dataset Dataiku Visualiser Data Studio Formater, trier Python
  • 42.
    #seocamp 42 Question Mug ●Élargir le périmètre de mots clés : Combien d’étapes dans la recette Dataiku ?
  • 43.
  • 44.