Utiliser un crawler pour le seo

4 470 vues

Publié le

Conférence au Tuniseo 2014.

Qu'est-ce qu'un crawler ? Comment utiliser cet outil pour auditer un site web ? Quelle utilisation en faire pour le SEO ?

Publié dans : Marketing
1 commentaire
4 j’aime
Statistiques
Remarques
  • Excellent présentation, comme toujours. Bravo Philippe, et merci !
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici
Aucun téléchargement
Vues
Nombre de vues
4 470
Sur SlideShare
0
Issues des intégrations
0
Intégrations
559
Actions
Partages
0
Téléchargements
47
Commentaires
1
J’aime
4
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Utiliser un crawler pour le seo

  1. 1. UTILISER UN CRAWLER POUR LE SEO Philippe YONNET Agence Search Foresight – My Media
  2. 2. Search Foresight Foresight : définition • “an act or the power of foreseeing” : prescience • “provident care” : prudence et prévoyance • “an act of looking forward” : prospective
  3. 3. Philippe YONNET – Directeur de Search Foresight • Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience en référencement naturel. • Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…) • Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à Londres et New-York pendant deux ans, en tant que Directeur SEO International de Vivastreet, puis en tant que Directeur SEO International et Directeur Merchandising du comparateur de prix Twenga. • Philippe YONNET est le président fondateur de l’association SEO Camp, qui regroupe les professionnels du référencement des pays francophones. – Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son référencement » chez Eyrolles – Il a fondé le principal évènement sur le référencement en France, les SEO Camp’us – Il a créé la certification CESEO, qui valide les connaissances des experts en SEO
  4. 4. C’est quoi un crawler ? • Deux modes : aspirateur / spider – Aspirateur : on lui fournit une liste d’urls, que le robot « aspire » (télécharge) pour alimenter une base de données – Spider : on fournit une url de départ au robot, qui analyse le contenu de la page web, trouve les liens à l’intérieur, les stocke dans une file d’attente. Puis il télécharge les nouvelles urls trouvées, trouve d’autres liens à l’intérieur et ainsi de suite… • On appelle le processus suivi par le spider le « crawl », et on appelle aussi les spiders des « crawlers »
  5. 5. URLs crawled and parsed Unseen Web Seed pages URLs frontier Web 5
  6. 6. LES USAGES CLASSIQUES
  7. 7. La détection des liens brisés • Détection des pages 404
  8. 8. La détection des redirections • Détection des erreurs 30x • Objectif : diminuer le volume de 301 • Eliminer les 302
  9. 9. Détection des erreurs • Détection des erreurs avec Botify
  10. 10. UTILISATION AVANCÉE
  11. 11. Tester les performances du site • Le temps de téléchargement du code a une influence sur l’exploration de Google
  12. 12. Tester les performances du site • Google webmaster tools ne fournit que des temps « moyens » • Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement
  13. 13. Détection des duplicate title et descr • Exemple avec Screaming Frog
  14. 14. Vérification des plans de taggage
  15. 15. Vérification du duplicate • Ex avec Botify
  16. 16. Vérification de l’efficacité de la mise en cache • Extraction de patterns : – timestamp de génération de la page vs horodatage du téléchargement de la page – Test de requêtes conditionnelles (If modified since et renvoi de codes 304) – Etc.
  17. 17. Analyse de la profondeur • Profondeur : nb de clics nécessaires pour atteindre une page en cliquant sur des liens – Exemple ci-dessous : Botify
  18. 18. Pourquoi mesurer la profondeur ? Plus une url est profonde, moins elle reçoit de linkjuice Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée 140000 120000 100000 80000 nb urls crawlables non crawlées nb urls crawlées 60000 40000 20000 0 Prof Prof Prof Prof Prof Prof Prof Prof Prof 0 1 2 3 4 5 6 7 8
  19. 19. Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)
  20. 20. Les prérequis pour le crawler • Respect du robots.txt • Gestion du nofollow sur les liens • Gestion du nofollow dans les balises meta • Gestion du x-robots-tag dans les en-têtes http:// • Gestion des canonical comme des redirections
  21. 21. Analyse des link rel=canonical
  22. 22. Analyse des liens sortants • Ex : botify
  23. 23. Diagnostic complet • Ex avec Botify (tableau de bord)
  24. 24. L’analyse combinée crawl+logs • Urls crawlables => données par votre crawler • Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot) Votre version Version vue par Googlebot Home Home Cat 2 Cat 3 P1 P1 P1 P2 P2 P2 P3 P3 Cat 1 Cat 2 P1 Cat 1 P1 P2 P1bis P3 P2 P2bis P3 P4 P4 Cat2bis Cat 3 Des urls en moins Des urls en +
  25. 25. Principe de l’analyse des deux versions Urls crawlées par Google, non présentes sur le site : URLS parasites, à bloquer dans le robots.txt Urls présentes sur le site, non explorées par Google : identifier la cause Urls OK présentes et crawlées
  26. 26. L’analyse du maillage interne • Objectif : mesurer les ratios – Nb de liens entrants vs liens sortants – Nb de liens sortants internes vs externes • Indegree = nombre de liens entrants • La hiérarchie des indegrees doit être conforme à l’importance des pages
  27. 27. EXEMPLES DE CRAWLERS UTILES
  28. 28. Xenu Link Sleuth • http://home.snafu.de/tilman/xenulink.html
  29. 29. Link Examiner • http://www.analogx.com/contents/download/Network/lnkexam/Freewa re.htm
  30. 30. Siteliner • http://www.siteliner.com
  31. 31. Screaming Frog • http://www.screamingfrog.co.uk/seo-spider/
  32. 32. Lucène (java) • https://lucene.apache.org/
  33. 33. Nutch (java) • https://nutch.apache.org/
  34. 34. Scrapy (python) • http://scrapy.org/
  35. 35. 80legs • http://80legs.com/
  36. 36. Deepcrawl • http://deepcrawl.co.uk/
  37. 37. Botify • https://fr.botify.com/
  38. 38. DES QUESTIONS ?
  39. 39. Merci ! • Me contacter : Philippe YONNET Directeur Général de l’agence Search Foresight Groupe My Media 55 rue Anatole France – 92300 LEVALLOIS PERRET Philippe.yonnet@search-foresight.com Tél : 01 74 18 29 40 Président de l’association SEO Camp 24 avenue Ledru-Rollin 75012 PARIS Philippe.yonnet@seo-camp.org http://www.seo-camp.org

×