2. #seocamp 2
Sylvain Peyronnet
Directeur scientifique @Qwant
Chef @ix-labs et @tmitm
Auparavant Prof à la fac
Kevin Richard
Consultant SEO/créateur d'outil
Qui?
3. #seocamp
Ce que vous allez apprendre aujourd'hui
1. comment supprimer les mots-clés navigationnels de vos
listes de mots-clés
2. le TrustFlow est-il important ? Plus que le CitationFlow ?
3. Faut-il regarder les métriques URL ou les métriques
domaines ?
4. des relations surprenantes entre certaines métriques.
5. Une méthodologie Machine Learning
Ouvrir les yeux sur certaines métriques
4. #seocamp
Disclaimer
Ceci n'est pas la vérité absolue.
Peut-être que notre échantillon n'est pas représentatif de VOTRE réalité.
Peut-être que nous avons oublié un facteur essentiel, toute notre étude serait
ainsi invalide.
Prendre beaucoup de recul et se servir de son cerveau.
Très peu de temps = beaucoup de frustration
6. #seocamp 6
Analyse statistique ? des biais à éviter…
Paradoxe de Simpson
Concours de manger de donuts
Jour 1 : Omer mange 60% des donuts qu’il a acheté
Marge mange 90% des donuts qu’elle a acheté
Jour 2 : Omer mange 10% des donuts qu’il a acheté
Marge mange 30% des donuts qu’elle a acheté
Qui est le plus gros mangeur de donuts ?
Ce n’est pas Marge !
Car Omer a acheté 100 donuts le jour 1 et 10 le jour 2
alors que Marge en a acheté 10 le jour 1 et 100 le jour 2
Au final Omer a mangé 61 donuts et Marge seulement 39…
7. #seocamp 7
Analyse statistique ? des biais à éviter…
A éviter également :
Fausse corrélation Biais du survivant Echantillon trop petit
9. #seocamp 9
Les hypothèses de Sylvain
Les rangs sont
plus importants
que les valeurs
pour toutes les
métriques
La sémantique est le
critère le plus
important (et il faut
utiliser un outil pour
avoir le max !)
Le ratio TF/CF
est ultra
important
faire des liens
sortants ce n’est
ni bon ni
mauvais
Pour être
sur un KW
FR il faut
écrire FR
11. #seocamp
Méthodologie : échantillon
1. échantillon "hors marque"/non-nav
=> on détermine une marque à partir de la SERP
2. 20K requêtes triées par Interest décroissant,
sans les marques.
3. Top 100 résultats
4. Nettoyage manuel
5. Ajout des métriques Majestic
serrurier paris,serrurier,assurance auto,plombier,plombier paris,location voiture,banque en ligne,site de rencontre,credit,mutuelle,rachat de credit,assurance
habitation,suv,big data,serrurier creteil,faire part naissance,crm,iphone 6s,poker,serrurier paris 11,alarme maison,devis assurance auto,certificat de non
gage,serrurier paris 15,serrurier toulouse,crossover,banque,serrurier bordeaux,carte de visite,serrurier vincennes,voiture occasion,assurance,album
photo,serrurier poissy,candy crush,vol pas cher,ouvrir un compte bancaire,tinder,serrurier lyon,candy crush saga,comparateur de vol,mutuelle santé,voiture
electrique,plombier paris 7,pret personnel,trader,forex,ordinateur portable,faire part mariage,billet avion,serrurier paris 13,serrurier meudon,plombier paris
11,mutuelle obligatoire,plombier paris 15,carte grise,serrurier paris 17,iphone 6,casino en ligne,serrurier paris 16,assurance auto pas cher,billet d
avion,voyance,serrurerie,comparateur assurance auto,samsung galaxy s6,assurance voiture,piscine,alarme,loi pinel,iphone 5s,credit
immobilier,pneu,serrurier paris 14,portage salarial,comparateur assurance,demenagement,forfait mobile,matelas,hotel paris,assurance vie,pneu pas
cher,paris sportif,antivirus,bourse,jeux de guerre,livre photo,flash,nom de domaine,tablette,housse de couette,syrie,option binaire,serrurier clamart,robe de
soirée,cryolipolyse,credit auto,plombier versailles,serrurier versailles,stan smith,serrurier villejuif,rencontre,serrurier boulogne billancourt,site de rencontre
gratuit,canapé convertible,casino,erp, 4x4,covoiturage,pret immobilier,iphone,hotel,cap petite enfance,croisiere,
23. #seocamp
A retenir
Google nous donne énormément d'indices pour
connaître l'intention d'un mot-clé.
La structure de la SERP est un excellent indicateur.
24. #seocamp 24
Méthodologie
• Un objectif principal : valider des leviers actionnables par les
SEOs
• Des objectifs secondaires : voir ce qui ne sert à rien,
débunker certains mythes
25. #seocamp 25
Méthodologie
• Un objectif principal : valider des leviers actionnables par les
SEOs
• Des objectifs secondaires : voir ce qui ne sert à rien,
débunker certains mythes
26. #seocamp 26
Méthodologie
• Un objectif principal : valider des leviers actionnables par les
SEOs
• Des objectifs secondaires : voir ce qui ne sert à rien,
débunker certains mythes
27. #seocamp 27
Méthodologie
• Un objectif principal : valider des leviers actionnables par les
SEOs
• Des objectifs secondaires : voir ce qui ne sert à rien,
débunker certains mythes
57,6% du dataset FR
pos < = 20 62,45 %
pos <= 10 62,93 %
pos <= 5 63,64%
pos <= 3 63,64%
pos =1 65,33 %
28. #seocamp 28
Machine learning ou statistiques ou étude ?
Aucun outil ne permet de faire
magiquement la découverte des
facteurs de ranking.
Les diagrammes de corrélation montreront
d’éventuelles corrélations linéaires
Les graphiques permettront de voir des
corrélations légères et/ou non linéaires
Random forest permettra d’obtenir un classement
des variables explicatives
De simples calculs de pourcentage et du bon sens
(et un peu de la borne de Chernov) permettent de
déterminer des points d’intérêts dans le dataset
31. #seocamp 36
corgramm total
Les diagrammes de corrélation
permettent de voir les variables qui
sont « en relation ».
Plus une case est « foncée » plus il
y a corrélation.
Rouge : quand une variable monte
l’autre descend
Bleue : les variables croissent ou
décroissent ensembles.
???!!????
32. #seocamp
Que remarque-t-on ?
1. Pas une variable très explicative de la position : ouf ! On va continuer à creuser.
2. Des corrélations logiques : métriques Majestic entre elles.
...3. CPC lié au DomainTF/CF
35. #seocamp
Quelles sont les variables les plus explicatives d'un top 1? top 3? top 5? top 10?
= qu'est-ce qui FAIT LA DIFF ?
Url CF ?Url TF ?
https ?
adsense ?
top 1000 similarweb ?
Domain CF ?
Domain TF ?
Favicon ?
qu'ont ceux qui rankent QUE LES AUTRES N'ONT PAS ?
google analytics ?
43. #seocamp 53
En utilisant une pincée de corrélation et l’algorithme
cubist de Quinlan, on peut déterminer que :
• Tant que le CF est faible (au dessous de 20 grosso
modo), le score sémantique est déterminant.
• Au delà, plus on monte en CF plus son impact
diminue.
• Pour les sites à gros CF (plus de 70), le score
sémantique n’a plus aucun interêt.
Et la pertinence dans tout ça ?
if
cf > 2
rank <= 2
rcf <= 1
then
outcome = 1.2 + 0.325 rcf + 0.121 rank - 0.22 cf + 0.036 rtf
+ 7e-05 score
Un bout de sortie de Cubist
A partir d'un certain seuil, l'autorité d'une
page liée à son linking écrase tout.
44. #seocamp 54
La leçon pour le SEO ?
Quand on est très connu
on peut raconter n’importe
quoi …
45. #seocamp
Attention ! Certains variables ont de l'influence les unes sur les autres !
Il est plus facile d'avoir de l'URL CF si on a un bon domaine CF.
Le CF et TF évoluent généralement ensemble
Le CF dépend du nombre de RefDoms... en partie
mondomaine.com
...................
46. #seocamp
Conclusions
Métriques URL importantes
Mais métriques domaine importantes également. Les métriques domaine
ont une influence sur les métriques URL.
La confiance est une notion liée au domaine.
Pas d'influence des liens sortants.
Le CF semble plus lié que le TF à la position.
Ratio TF/CF très parlant en termes de spam.
La bonne recette SEO :
Le meilleur CF de la SERP au niveau de l'URL
+
un bon ratio TF/CF au niveau du domaine
47. #seocamp 58
Question Mug
Finalement, qu’est ce qui vaut le plus,
un lien depuis un gros CF même si le TF
est moins bon,
ou un lien depuis un TF quelconque, du
moment que le CF est plus petit ?