La data science est un excellent assistant pour le consultant SEO.
Nous allons vous présenter différents exemples pour illustrer comment la data va nous aider à aller plus vite et plus loin.
2. Paris 2023 #SEOCAMPus 2
PRÉSENTATION
Rémi Nestasio Grégory Florin
On recrute
Consultant SEO
remi.nestasio@performics.com
Ex : Conforama, Freelance
Directeur Expertise et Innovation
gregory.florin@performics.com
Ex : Marmiton, La redoute, Doctissimo,...
3. Paris 2023 #SEOCAMPus 3
LA DATA SCIENCE EN SEO :
POUR QUOI FAIRE ?
1. Mieux comprendre ce qui est important
pour Google sur sa thématique
2. Justifier ses choix par la data auprès de
son manager / client
3. Prioriser les actions et aller plus vite
Pour assister le consultant
4. Paris 2023 #SEOCAMPus
NOTRE MÉTHODOLOGIE
Stocker les
données SEO
1
Nettoyer / enrichir
les données
2
Fournir des
outils pour
analyser les
données
3
AUTOMATISER
5. Paris 2023 #SEOCAMPus 5
DISCLAIMER
ATTENTION AU CONTEXTE
Nous menons des analyses dans un
contexte précis et avec un jeu de données
propre à ce contexte.
Si on change le contexte, les
recommandations vont également
changer
6. Paris 2023 #SEOCAMPus 6
DISCLAIMER
CORRÉLATION ET CAUSALITÉ
“Souvent les gens qui mangent une glace
portent un maillot de bain.”
→ Il y a une corrélation entre manger une
glace et porter un maillot de bain.
“On mange une glace parce qu’il fait
chaud”
→ Il y a donc une causalité entre la
chaleur et le fait de manger une glace
● Les statistiques montrent les
corrélations
● Seul le consultant peut identifier la
causalité
8. Paris 2023 #SEOCAMPus
4 CLUSTERS ANALYSÉS
1.
ACHAT DE
MONTRES
2.
RECETTES DE
CUISINE
3.
REQUÊTES
MÉTÉO + VILLE
4.
ARTICLES
MALADIES
500
mots clés
300
mots clés
300
mots clés
97
mots clés
9. Paris 2023 #SEOCAMPus
On doit comparer des mots clés comparables
→ Construire un set de mots clés “proches” :
que Google va considérer de manière similaire
dans l’algo
Ne pas mélanger :
● Les requêtes marque et hors marque
● Les intentions de recherche
● La top tail et longue traine
Ne pas hésiter à créer plusieurs clusters
9
Pourquoi pas + de 500 mots clés ?
10. Paris 2023 #SEOCAMPus 10
Exemple d’un mauvais cluster car trop d’écart : Entre les volumes de recherche
Pourquoi pas plus de 500 mots clés ?
Le bon et le mauvais cluster
11. Paris 2023 #SEOCAMPus 11
Trouver l’intention de recherche
Comment faire ?
Détection de l’intention par GPT4
Il est conseillé de vérifier les données générées
CHATGPT + API
12. Paris 2023 #SEOCAMPus
Bien valider que les données sont exploitables
On ne peut pas toujours analyser tous les critères
14. Paris 2023 #SEOCAMPus
1 - Saisonnalité : scoring mots clés
Pourquoi ?
Pour être positionné au bon moment, il faut
optimiser les pages en amont :
● Prioriser son travail selon la saisonnalité
● Construire sa roadmap éditoriale
● Anticiper et adapter son maillage interne
● …
15. 1 - Saisonnalité : scoring de mots clés
Cluster recette - La version classique
La version classique : Données source :
● Volumes de recherches mensuels sur 12
mois
● On connaît les tops mots clés pour
chaque mois
→ On peut prioriser les mots clés
importants
16. Paris 2023 #SEOCAMPus
1 - Saisonnalité : scoring de mots clés
Cluster recette - La version prédictive
On améliore notre capacité à évaluer l’importance des mots clés
On prédit les prochains
mois
Données source :
Historique des volumes de
recherches mensuels sur 4
ans
Algo utilisé :
Facebook Prophet
Volume de recherche sur la requête quiche lorraine
17. Paris 2023 #SEOCAMPus
2 - Contenu : l’importance de la sémantique
Le protocole :
1. On score les pages du top 10
2. Pour chaque mot clé, on définit un
objectif
3. On évalue chaque page par rapport à
l’objectif
4. On calcul le score moyen par position sur
Google
Objectif : Déterminer si les meilleures positions ont un score plus élevé que les autres
Source : Yourtext.guru
18. Paris 2023 #SEOCAMPus
2 - Contenu : l’importance de la sémantique
Cluster recette
Les scores élevés sont bien corrélés au ranking
Taux d’atteinte de l’objectif de score sémantique par position :
19. Paris 2023 #SEOCAMPus
2 - Contenu : l’importance de la sémantique
Cluster météo
Les sites qui rankent le mieux sont les moins bien scorés : pas logique…
Taux d’atteinte de l’objectif par position :
20. Paris 2023 #SEOCAMPus
3 - Netlinking : Quel ticket d’entrée pour le top 10 ?
Cluster maladie
Il faut se positionner dans la bonne fenêtre
● On calcule les métriques de Netlinking pour chaque site et chaque page
● On détermine visuellement les limites minimales
Quelles métriques minimales pour se positionner ?
21. Paris 2023 #SEOCAMPus
3 - Netlinking : sur quelles pages dois-je améliorer le netlinking ?
Cluster maladie
Le protocole :
1. On score les pages du top 10
2. On définit un objectif de score
3. On évalue chaque page par rapport à l’objectif
4. On filtre sur :
● Nos urls mal positionnées
● Les urls avec un taux d’atteinte de l’objectif faible
22. Paris 2023 #SEOCAMPus
3 - Netlinking : sur quelles pages dois-je améliorer le netlinking ?
Cluster maladie
On filtre sur :
● Les urls hors top 10
● Les urls avec un taux d’atteinte de l’objectif faible : moins de 70%
23. Paris 2023 #SEOCAMPus
4 - Les données structurées : nécessaires pour ranker ?
Cluster maladie
EEAT (Experience Expertise Authority Trust) est important sur les requêtes santé
Hypothèse :
Les données structurées aident Google à facilement découvrir des infos autour des articles et
des auteurs :
- Nom de l’auteur (et liens vers une page descriptive)
- Date de création / modification de l’article
- …
Cela semble donc être un must have
24. Paris 2023 #SEOCAMPus
4 - Les données structurées : nécessaires pour ranker ?
Cluster maladie
Présence des données structurées schema.org Article
Fiche maladie sur Ameli.fr :
L’exception Ameli.fr
Positions sur Google
25. 5 - Comment faire prioriser l’optimisation du TTFB ?
Cluster Montre
1. On calcule le TTFB médian sur toutes les
pages analysées
2. On se compare aux concurrents
3. On priorise si on est en dehors des
normes
host feature median
www.louispion.fr ttfb 2207,5
ocarat.com ttfb 1069
magmontres.fr ttfb 1025
www.montresandco.com ttfb 1022
m.darty.com ttfb 936
www.decathlon.fr ttfb 764,5
www.histoiredor.com ttfb 705
www.maty.com ttfb 631,5
www.bijourama.com ttfb 630
www.chrono24.fr ttfb 532
www.cdiscount.com ttfb 525
m.boulanger.com ttfb 510
www.cleor.com ttfb 340
26. A ce stade :
On peut :
- Prédire le potentiel d’un mot clé
- Déterminer le niveau de difficulté
- Détecter des corrélations entre un
facteur et le ranking
MAIS :
On ne sait pas déterminer les critères
les plus importants
ET SI ON ALLAIT PLUS LOIN ?
27. Paris 2023 #SEOCAMPus
Utiliser le machine learning pour prédire les critères les plus importants
Comment faire ?
ÉTAPE 1 : Collecter les données
LES MÉTRIQUES DES PAGES
Technique
- Canonical
- Données structurées
- Core Web Vitals
- TTFB
- ….
Contenu
- Titre
- Hn
- Textes
- …
Popularité
- Trust Flow / Citation Flow
- Nombre de backlinks
- Nombre de liens internes
- …
LES RANKINGS
● Les positions
● Les urls positionnées
28. Paris 2023 #SEOCAMPus 28
Utiliser le machine learning pour prédire les critères les plus importants
Comment faire ?
Répartition des valeurs de CLS nulles
Cluster Maladies
ÉTAPE 2 : Nettoyer les données Les valeurs nulles
Certaines valeurs ne peuvent être collectées
→ Retirer les données
ou
→ Remplacer par la valeur moyenne pour
“neutraliser les valeurs nulles”
29. Paris 2023 #SEOCAMPus 29
Utiliser le machine learning pour prédire les critères les plus importants
Comment faire ?
Répartition des liens internes par url
Cluster Maladie
ÉTAPE 2 : Nettoyer les données Les valeurs extrêmes
On peut leur fixer une valeur maximum :
→ Considérer que le nombre maximum de
liens internes est de 10k.
30. Paris 2023 #SEOCAMPus
Utiliser le machine learning
pour prédire les critères les plus
importants
Comment faire ?
ÉTAPE 3 : Lancer l’algo
On demande à l’algo de “reproduire les résultats de
Google” : présence ou non dans le top 3
L’algo teste toutes les combinaisons pour
arriver au résultat le plus proche de la
réalité
31. Paris 2023 #SEOCAMPus
Utiliser le machine learning pour prédire les critères les plus importants
Comment faire ?
ÉTAPE 4 : Confirmer les prédictions
Le consultant confirme les hypothèses émises par l’algo : en analysant les données
● Graphique de corrélation
● Forces en présences
32. Paris 2023 #SEOCAMPus
Utiliser le machine learning pour prédire les critères les plus importants
Les limites
On ne vise pas le résultat parfait mais plutôt dégager une tendance
Des données pas exactement
identiques à celles dont
Google dispose
03
● Données de netlinking simulées
● …
Des données que Google
possède mais pas nous
02
● Les critères d’usage : Taux de rebond,...
● Le trafic ? (utilisé pour Discover)
La collecte parfaite des
données nécessite
01
● de crawler tous les sites qui rankent
● d’utiliser le modèle du surfeur
raisonnable
33. Paris 2023 #SEOCAMPus
Utiliser le machine learning pour prédire les critères les plus importants
Les résultats
Des poids très différents en fonction des métriques
34. Paris 2023 #SEOCAMPus
Utiliser le machine learning pour prédire les critères les plus importants
Les résultats
2 3
1
Cluster météo
Host Trust
Nombre de backlinks Host semantic Value*
*prend en compte l’adéquation sémantique entre les pages
sources des backlinks qui pointent vers la page
2 3
1
Cluster Recettes
Semantic Score
Nombre de backlinks Nombre d’urls connues
● Les critères importants diffèrent d’un cluster à l’autre
● Pas étonnant que la sémantique ne soit pas prépondérante sur la météo
35. Paris 2023 #SEOCAMPus
CLUSTER 2 : Recettes de cuisine
Quand l’IA se trompe sur le CLS ?
La corrélation existe mais pas la causalité : toujours vérifier les recos d’un algo !
L’IA est bonne en math mais pas en SEO….
36. Paris 2023 #SEOCAMPus
Conclusion
● La data nous aide à prendre
des décisions plus fines
(prédiction de recherche,
priorisation des actions)
● Pour chaque thématique, on
sait déterminer les critères
les plus importants