UTILISER UN CRAWLER POUR LE SEO
Philippe YONNET
Agence Search Foresight – My Media
Search Foresight
Foresight : définition
• “an act or the power of foreseeing” : prescience
• “provident care” : prudence et prévoyance
• “an act of looking forward” : prospective
Philippe YONNET – Directeur de Search
Foresight
• Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience
en référencement naturel.
• Il a conseillé plus d’une centaine de sites, dont un grand nombre
de sites à forte audience (Pages Jaunes, Rue du
Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga,
Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)
• Il a été notamment Directeur métier puis Directeur Général Adjoint
d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez
l'annonceur, pour travailler à Londres et New-York pendant deux
ans, en tant que Directeur SEO International de Vivastreet, puis en
tant que Directeur SEO International et Directeur Merchandising du
comparateur de prix Twenga.
• Philippe YONNET est le président fondateur de l’association SEO
Camp, qui regroupe les professionnels du référencement des pays
francophones.
– Il est un contributeur régulier de la lettre professionnelle
d’Abondance, et a contribué à plusieurs chapitres du livre
« réussir son référencement » chez Eyrolles
– Il a fondé le principal évènement sur le référencement en
France, les SEO Camp’us
– Il a créé la certification CESEO, qui valide les connaissances
des experts en SEO
C’est quoi un crawler ?
• Deux modes : aspirateur / spider
– Aspirateur : on lui fournit une liste d’urls, que le robot
« aspire » (télécharge) pour alimenter une base de
données
– Spider : on fournit une url de départ au robot, qui analyse
le contenu de la page web, trouve les liens à
l’intérieur, les stocke dans une file d’attente. Puis il
télécharge les nouvelles urls trouvées, trouve d’autres
liens à l’intérieur et ainsi de suite…
• On appelle le processus suivi par le spider le « crawl », et on
appelle aussi les spiders des « crawlers »
5
Web
URLs crawled
and parsed
URLs frontier
Unseen Web
Seed
pages
LES USAGES CLASSIQUES
La détection des liens brisés
• Détection des pages 404
La détection des redirections
• Détection des erreurs 30x
• Objectif : diminuer le volume de 301
• Eliminer les 302
Détection des erreurs
• Détection des erreurs avec Botify
UTILISATION AVANCÉE
Tester les performances du site
• Le temps de téléchargement du code a
une influence sur l’exploration de Google
Tester les performances du site
• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
comprendre quelles sont
les « scripts » lents et
d’identifier les causes de
ralentissement
Détection des duplicate title et descr
• Exemple avec Screaming Frog
Vérification des plans de taggage
Vérification du duplicate
• Ex avec Botify
Vérification de l’efficacité
de la mise en cache
• Extraction de patterns :
– timestamp de génération de la page vs horodatage du
téléchargement de la page
– Test de requêtes conditionnelles (If modified since et
renvoi de codes 304)
– Etc.
Analyse de la profondeur
• Profondeur : nb de clics nécessaires pour atteindre une
page en cliquant sur des liens
– Exemple ci-dessous : Botify
Pourquoi mesurer la profondeur ?
0
20000
40000
60000
80000
100000
120000
140000
Prof
0
Prof
1
Prof
2
Prof
3
Prof
4
Prof
5
Prof
6
Prof
7
Prof
8
nb urls crawlables non
crawlées
nb urls crawlées
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)
Les prérequis pour le crawler
• Respect du robots.txt
• Gestion du nofollow sur les liens
• Gestion du nofollow dans les balises
meta
• Gestion du x-robots-tag dans les en-têtes
http://
• Gestion des canonical comme des
redirections
Analyse des link rel=canonical
Analyse des liens sortants
• Ex : botify
Diagnostic complet
• Ex avec Botify (tableau de bord)
L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
dans les logs serveur (User Agent : googlebot)
Home
Cat 1
P1
P2
P3
Cat 2
P1
P2
P3
P4
Cat 3
P1
P2
Votre version
Home
Cat 1
P1
P2
P3
Cat 2
P1
P1bis
P2
P2bis
P3
P4
Cat2bis Cat 3
Version vue par Googlebot
Des urls en moins
Des urls en +
Principe de l’analyse des deux versions
Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer dans
le robots.txt
Urls présentes
sur le site, non
explorées par
Google :
identifier la
cause
Urls OK
présentes
et
crawlées
L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes
• Indegree = nombre de liens entrants
• La hiérarchie des indegrees doit être
conforme à l’importance des pages
EXEMPLES DE CRAWLERS UTILES
Xenu Link Sleuth
• http://home.snafu.de/tilman/xenulink.html
Link Examiner
• http://www.analogx.com/contents/download/Network/lnkexam/Freewa
re.htm
Siteliner
• http://www.siteliner.com
Screaming Frog
• http://www.screamingfrog.co.uk/seo-spider/
Lucène (java)
• https://lucene.apache.org/
Nutch (java)
• https://nutch.apache.org/
Scrapy (python)
• http://scrapy.org/
80legs
• http://80legs.com/
Deepcrawl
• http://deepcrawl.co.uk/
Botify
• https://fr.botify.com/
DES QUESTIONS ?
Merci !
• Me contacter :
Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole France – 92300 LEVALLOIS PERRET
Philippe.yonnet@search-foresight.com
Tél : 01 74 18 29 40
Président de l’association SEO Camp
24 avenue Ledru-Rollin 75012 PARIS
Philippe.yonnet@seo-camp.org
http://www.seo-camp.org

Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO

  • 1.
    UTILISER UN CRAWLERPOUR LE SEO Philippe YONNET Agence Search Foresight – My Media
  • 2.
    Search Foresight Foresight :définition • “an act or the power of foreseeing” : prescience • “provident care” : prudence et prévoyance • “an act of looking forward” : prospective
  • 3.
    Philippe YONNET –Directeur de Search Foresight • Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience en référencement naturel. • Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…) • Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à Londres et New-York pendant deux ans, en tant que Directeur SEO International de Vivastreet, puis en tant que Directeur SEO International et Directeur Merchandising du comparateur de prix Twenga. • Philippe YONNET est le président fondateur de l’association SEO Camp, qui regroupe les professionnels du référencement des pays francophones. – Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son référencement » chez Eyrolles – Il a fondé le principal évènement sur le référencement en France, les SEO Camp’us – Il a créé la certification CESEO, qui valide les connaissances des experts en SEO
  • 4.
    C’est quoi uncrawler ? • Deux modes : aspirateur / spider – Aspirateur : on lui fournit une liste d’urls, que le robot « aspire » (télécharge) pour alimenter une base de données – Spider : on fournit une url de départ au robot, qui analyse le contenu de la page web, trouve les liens à l’intérieur, les stocke dans une file d’attente. Puis il télécharge les nouvelles urls trouvées, trouve d’autres liens à l’intérieur et ainsi de suite… • On appelle le processus suivi par le spider le « crawl », et on appelle aussi les spiders des « crawlers »
  • 5.
    5 Web URLs crawled and parsed URLsfrontier Unseen Web Seed pages
  • 6.
  • 7.
    La détection desliens brisés • Détection des pages 404
  • 8.
    La détection desredirections • Détection des erreurs 30x • Objectif : diminuer le volume de 301 • Eliminer les 302
  • 9.
    Détection des erreurs •Détection des erreurs avec Botify
  • 10.
  • 11.
    Tester les performancesdu site • Le temps de téléchargement du code a une influence sur l’exploration de Google
  • 12.
    Tester les performancesdu site • Google webmaster tools ne fournit que des temps « moyens » • Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement
  • 13.
    Détection des duplicatetitle et descr • Exemple avec Screaming Frog
  • 14.
  • 15.
  • 16.
    Vérification de l’efficacité dela mise en cache • Extraction de patterns : – timestamp de génération de la page vs horodatage du téléchargement de la page – Test de requêtes conditionnelles (If modified since et renvoi de codes 304) – Etc.
  • 17.
    Analyse de laprofondeur • Profondeur : nb de clics nécessaires pour atteindre une page en cliquant sur des liens – Exemple ci-dessous : Botify
  • 18.
    Pourquoi mesurer laprofondeur ? 0 20000 40000 60000 80000 100000 120000 140000 Prof 0 Prof 1 Prof 2 Prof 3 Prof 4 Prof 5 Prof 6 Prof 7 Prof 8 nb urls crawlables non crawlées nb urls crawlées Plus une url est profonde, moins elle reçoit de linkjuice Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
  • 19.
    Le rythme decrawl sur Google est fonction du PR (et d’autres facteurs)
  • 20.
    Les prérequis pourle crawler • Respect du robots.txt • Gestion du nofollow sur les liens • Gestion du nofollow dans les balises meta • Gestion du x-robots-tag dans les en-têtes http:// • Gestion des canonical comme des redirections
  • 21.
    Analyse des linkrel=canonical
  • 22.
    Analyse des lienssortants • Ex : botify
  • 23.
    Diagnostic complet • Exavec Botify (tableau de bord)
  • 24.
    L’analyse combinée crawl+logs •Urls crawlables => données par votre crawler • Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot) Home Cat 1 P1 P2 P3 Cat 2 P1 P2 P3 P4 Cat 3 P1 P2 Votre version Home Cat 1 P1 P2 P3 Cat 2 P1 P1bis P2 P2bis P3 P4 Cat2bis Cat 3 Version vue par Googlebot Des urls en moins Des urls en +
  • 25.
    Principe de l’analysedes deux versions Urls crawlées par Google, non présentes sur le site : URLS parasites, à bloquer dans le robots.txt Urls présentes sur le site, non explorées par Google : identifier la cause Urls OK présentes et crawlées
  • 26.
    L’analyse du maillageinterne • Objectif : mesurer les ratios – Nb de liens entrants vs liens sortants – Nb de liens sortants internes vs externes • Indegree = nombre de liens entrants • La hiérarchie des indegrees doit être conforme à l’importance des pages
  • 27.
  • 28.
    Xenu Link Sleuth •http://home.snafu.de/tilman/xenulink.html
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
  • 38.
  • 39.
    Merci ! • Mecontacter : Philippe YONNET Directeur Général de l’agence Search Foresight Groupe My Media 55 rue Anatole France – 92300 LEVALLOIS PERRET Philippe.yonnet@search-foresight.com Tél : 01 74 18 29 40 Président de l’association SEO Camp 24 avenue Ledru-Rollin 75012 PARIS Philippe.yonnet@seo-camp.org http://www.seo-camp.org