Indexation et désindexationSEO Campus14 mars 2013Olivier Andrieu(Abondance)olivier@abondance.comhttp://www.abondance.com/
PrésentationOlivier AndrieuBasé à Heiligenstein (67140)- Premiers pas sur Internet en 1993- Création de la société Abondan...
Indexation et désindexation1. Pourquoi désindexer ?2. Que désindexer ?3. Comment désindexer ?4. Suivre une désindexationLe...
Indexation et désindexationPourquoi désindexer ?- Pour fournir aux internautes uniquement des pages           de bonne qua...
Indexation et désindexationLes risques de la désindexation- Moins de pages indexées = perte de confiance         de la par...
Indexation et désindexationQue désindexer ?- Les pages en "duplicate content" ?- Les pages obsolètes ?- Les pages avec peu...
Indexation et désindexationQue désindexer ?- Les pages en "duplicate content" ?Exemples :-   Mêmes produits dans des coule...
Indexation et désindexationQue désindexer ?- Les pages obsolètes ?A traiter au cas par cas…Leur Contenu est-il vraimenttot...
Indexation et désindexationQue désindexer ?- Les pages de faible qualitéOui, ça semble logique…- Formulaires- Pages avec t...
Indexation et désindexationComment désindexer ?- Fichier robots.txt          (interdit le crawl)- Balise meta "robots"    ...
Indexation et désindexationComment désindexer ?- Fichier robots.txt         (interdit le crawl)                        Use...
Indexation et désindexationComment désindexer ?- Fichier robots.txt          (interdit le crawl)- Les robots de Google >- ...
Indexation et désindexationComment désindexer ?- Fichier robots.txt          (interdit le crawl)- Eviter les jokers (*, $,...
Indexation et désindexationComment désindexer ?- Fichier robots.txt          (interdit le crawl)- Le bloc le plus spécifiq...
Indexation et désindexationComment désindexer ?- Fichier robots.txt          (interdit le crawl)- Testez vos robots.txt :*...
Indexation et désindexationComment désindexer ?- Fichier robots.txt          (interdit le crawl)- Les pages sont connues d...
Indexation et désindexationComment désindexer ?- Fichier robots.txt          (interdit le crawl)- LURL est indexée, pas le...
Indexation et désindexationComment désindexer ?- Fichier robots.txt          (interdit le crawl)- Attention si vous receve...
Indexation et désindexationComment désindexer ?- Balise meta robots         (interdit lindexation)<meta name="robots" cont...
Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag          (interdit lindexation)- Dans len-tête HTT...
Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag          (interdit lindexation)Quelques exemples :...
Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag          (interdit lindexation)  Source : https://...
Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag          (interdit lindexation)Exemple PHP :header...
Indexation et désindexationComment désindexer ?- Google Webmaster Tools        (interdit lindexation)   Le contenu supprim...
Indexation et désindexationComment désindexer ?- Google Webmaster Tools         (interdit lindexation)    "Gardez à lespri...
Indexation et désindexationComment suivre une désindexation ?- Requête "site:"- Google Webmaster Tools : Etat de santé > E...
Indexation et désindexationQuelques infos supplémentaires- Google na pas de limite de nombre de pages         crawlées / i...
Indexation et désindexationConclusion- La désindexation, une pratique nouvelle          mais parfois utile et nécessaire- ...
Indexation et désindexationQuelques liens :Protocole robots.txt et standards associés :http://www.robotstxt.org/Page de ré...
Indexation et désindexation                  MERCI !!          Merci à Philippe Yonnet et David Degrelle          pour la ...
Indexation et désindexation CONTENT IS KING, LINK IS HIS QUEEN,  OPTIMIZED CONTENT IS EMPEROR !!!  Le référencement sert à...
Prochain SlideShare
Chargement dans…5
×

Désindexation

21 553 vues

Publié le

Publié dans : Technologie
1 commentaire
12 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
21 553
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 815
Actions
Partages
0
Téléchargements
108
Commentaires
1
J’aime
12
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Désindexation

  1. 1. Indexation et désindexationSEO Campus14 mars 2013Olivier Andrieu(Abondance)olivier@abondance.comhttp://www.abondance.com/
  2. 2. PrésentationOlivier AndrieuBasé à Heiligenstein (67140)- Premiers pas sur Internet en 1993- Création de la société Abondance en 1996- Audit, conseil, accompagnement, formations, etc.autour du référencement naturel (SEO)
  3. 3. Indexation et désindexation1. Pourquoi désindexer ?2. Que désindexer ?3. Comment désindexer ?4. Suivre une désindexationLes slides seront en ligne demain
  4. 4. Indexation et désindexationPourquoi désindexer ?- Pour fournir aux internautes uniquement des pages de bonne qualité- Pour améliorer le taux de rebond sur son site- Pour améliorer le "pogo sticking" de Google- Désindexer = parfois "ne pas encore indexer"- Pour des raisons de confidentialité- Pour "bétonner" la non-indexation dun intranet ou dune zone accessible aux abonnés/clients…- Pour éviter dindexer des fichiers inutiles (CSS, JS, cgi-bin, etc.)- Pour obliger linternaute à venir sur votre site chercher un document- Pour être en conformité avec les "guidelines" de Google (pages de résultats du moteur interne)- Pour des problèmes de droits- Pour faciliter le travail de crawl de Google- Pour cause de diffamation ou demande à finalité juridique- Pour interdire laccès à des robots "exotiques”- Pour éviter les foudres de Panda
  5. 5. Indexation et désindexationLes risques de la désindexation- Moins de pages indexées = perte de confiance de la part de Google ?- Moins de trafic de Longue Traîne ?- Montrer aux autres les "zones dombre" du site- La perte de transmission de PR (augmentation des "dangling pages")Pourquoi sembêter à désindexer ?- On na pas lhabitude :-)- Une pratique récente- Pourquoi faire le boulot de Google à sa place ?
  6. 6. Indexation et désindexationQue désindexer ?- Les pages en "duplicate content" ?- Les pages obsolètes ?- Les pages avec peu de contenu textuel- Les pages peu intéressantes (formulaires)- Les images (copyright ?)- Les versions de test dun site web- Les pages de résultats de votre moteur interne- Des pages diffamantesGlobalement, les pages qui napportent pas une réponse satisfaisante auxinternautes si on les trouve dans les SERP, notamment si elles sont présentes engrande quantité sur votre site…- Rappel : Google demande que vous ne désindexiez pas les JS et CSS(http://www.abondance.com/actualites/20120326-11319-matt-cutts-laissez-googlebot-crawler-vos-css-et-javascript.html).
  7. 7. Indexation et désindexationQue désindexer ?- Les pages en "duplicate content" ?Exemples :- Mêmes produits dans des couleurs différentes- Même article dans des rubriques différentes- Article repris depuis une source originale- DUST (Duplicate URL, Same Text)A priori, préférer la balise canonicalqui transfère les backlinks des pages dupliquéesvers les canoniques.La désindexation peut être obligatoiresi la source le demande (mais cest dommagepour tout le monde, la canonical est préférable)Problématique des contenus disponibles sous différents formats (Doc, PDF, etc.)
  8. 8. Indexation et désindexationQue désindexer ?- Les pages obsolètes ?A traiter au cas par cas…Leur Contenu est-il vraimenttotalement inintéressant ?Dans ce cas, ne vaut-il pas mieuxenvisager une 301 vers unepage plus intéressante ?
  9. 9. Indexation et désindexationQue désindexer ?- Les pages de faible qualitéOui, ça semble logique…- Formulaires- Pages avec très peu de texte- Pages ne répondant pas potentiellement aux questions des internautesMais désindexer uniquement si leur volume est importantFaites preuve de bon sens…
  10. 10. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Balise meta "robots" (interdit lindexation)- Directive X-Robots-Tag (interdit lindexation)- Google Webmaster Tools (interdit lindexation)
  11. 11. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl) User-agent: Googlebot Disallow:http://www.votresite.com/robots.txt User-agent: * Disallow: /User-agent:* Seul Googlebot est autoriséDisallow: /images/Disallow: /fichiers User-Agent: * User-agent: * Disallow: /repertoire/chemin/page.html Disallow: Disallow: /repertoire/chemin/page2.html Opérations portes ouvertes Disallow: /repertoire/chemin/page3.html Désindexation dURL précises User-agent: * Disallow: / User-Agent: * Fermé à double tour Disallow: /repertoire/chemin/page Comment autoriser /repertoire/chemin/page2 au crawl ?
  12. 12. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Les robots de Google >- Liste des autres robots :http://www.robotstxt.org/db.html Source : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=1061943
  13. 13. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Eviter les jokers (*, $, etc.) qui ne sont compatibles quavec Google et Bing Disallow: /*price= Disallow: /*{{config path=$ Disallow: /*.flv$- Idem pour "Allow:"- Ne pas insérer de lignes blanches après le User-agent: QuickTime™ and a Graphics decompressor are needed to see this picture.
  14. 14. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Le bloc le plus spécifique sera pris en compte :User-agent: *Disallow:User-agent: BingbotDisallow: /Attention aux directives contradictoires !
  15. 15. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Testez vos robots.txt :* Google Webmaster Tools (Etat de santé > URL bloquées)* Outils dédiés :http://tool.motoricerca.info/robots-checker.phtml
  16. 16. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Les pages sont connues de Google, les URL sont donc indexées mais pas explorées (mais un titre explicite est parfois indiqué par Google)
  17. 17. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- LURL est indexée, pas le contenu.- Mais elle est "présente" dans les SERP !- Que se passe-t-il si le contenu était indexé avant la mise en place du robots.txt ? > Délai avant remise à jour des données- Le fichier robots.txt dun site nest pas lu par Google à chaque visite. Il faut le créer bien avant la mise en ligne des contenus "interdits"
  18. 18. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Attention si vous recevez ce type de message :- Conclusion : le robots.txt est une solution plutôt à déconseiller
  19. 19. Indexation et désindexationComment désindexer ?- Balise meta robots (interdit lindexation)<meta name="robots" content="noindex,follow"><meta name="robots" content="noindex,nofollow"><meta name="googlebot" content="noindex,follow">- Fonctionne pour les pages web- Ne fonctionne pas pour les autres formats (PDF, Word, PPT, images, etc.)- Bien penser à ne pas mettre les URL dans le fichier robots.txt
  20. 20. Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag (interdit lindexation)- Dans len-tête HTTP- Convient pour tous les formats de documents.- Bien penser à ne pas mettre les URL dans le fichier robots.txt- Peut être intéressant pour ne pas indexer les pages https déjà disponibles en http(http://www.yapasdequoi.com/apache/2983-len-tete-x-robot-tag-ou-comment-vite-desindexer-des-pages.html)- Plus dinfos : https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
  21. 21. Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag (interdit lindexation)Quelques exemples :HTTP/1.1 200 OKDate: Tue, 25 May 2010 21:42:43 GMT(…)X-Robots-Tag: noindex HTTP/1.1 200 OK(…) Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollowHTTP/1.1 200 OK X-Robots-Tag: otherbot: noindex, nofollowDate: Tue, 25 May 2010 21:42:43 GMT (…)(…)X-Robots-Tag: noarchiveX-Robots-Tag: unavailable_after: 25 Jun 2013 15:00:00 PST(…)
  22. 22. Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag (interdit lindexation) Source : https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
  23. 23. Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag (interdit lindexation)Exemple PHP :header("X-Robots-Tag: noindex", true);header("X-Robots-Tag: noindex, nofollow", true);Exemple via le .htaccess :<FilesMatch ".doc$">Header set X-Robots-Tag "noindex, noarchive"</Files><FilesMatch ".(doc|pdf)$">Header set X-Robots-Tag "noindex, noarchive"</Files>
  24. 24. Indexation et désindexationComment désindexer ?- Google Webmaster Tools (interdit lindexation) Le contenu supprimé à laide de cet outil est exclu de lindex Google pour une période minimale de 90 jours. Au cours de cette période, vous pouvez à tout moment utiliser loutil de demande de suppression dURL pour réintégrer votre contenu. Voir : https://support.google.com/webmasters/bin/answer.py?hl=fr&answer=59819
  25. 25. Indexation et désindexationComment désindexer ?- Google Webmaster Tools (interdit lindexation) "Gardez à lesprit que cet outil supprime toutes les versions dune page (http/https et www/non www), même la version principale." Autre cas ici : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=1269119
  26. 26. Indexation et désindexationComment suivre une désindexation ?- Requête "site:"- Google Webmaster Tools : Etat de santé > Etat de lindexation- Eventuellement, créer un Sitemap spécial "Désindexation" et le suivre dans les GWT
  27. 27. Indexation et désindexationQuelques infos supplémentaires- Google na pas de limite de nombre de pages crawlées / indexées par site.- Vous ne pouvez pas désindexer les sites de vos concurrents :-)- Si vous demandez à Google de désindexer un contenu pour cause de diffamationou autre motif, le seul moyen darriver à vos fins est de faire un procès…- Mais vous pouvez faire une demande Digital Millennium Copyright Act (DMCA) (http://www.google.fr/intl/fr/dmca.html) en cas de violation des droits d’auteur
  28. 28. Indexation et désindexationConclusion- La désindexation, une pratique nouvelle mais parfois utile et nécessaire- Séparer le bon grain de l’ivraie sur son site- Ne donner à manger à Goole que ce qu’il peut bien digérer- Préférer la balise meta “robots” et la directive X-Robots-Tag
  29. 29. Indexation et désindexationQuelques liens :Protocole robots.txt et standards associés :http://www.robotstxt.org/Page de référence de Google sur les balises meta robots et x-robots-tag :https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tagPages de référence de Google sur le fichier robots.txt et les extensions du standard propres àce moteur :http://googlewebmastercentral.blogspot.fr/2008/06/improving-on-robots-exclusion-protocol.htmlhttp://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449&from=40367&r d=1https://developers.google.com/webmasters/control-crawl-index/docs/faq
  30. 30. Indexation et désindexation MERCI !! Merci à Philippe Yonnet et David Degrelle pour la relecture et les suggestions :))
  31. 31. Indexation et désindexation CONTENT IS KING, LINK IS HIS QUEEN, OPTIMIZED CONTENT IS EMPEROR !!! Le référencement sert à donner unebonne visibilité à un contenu de qualité ! Support proposé par Olivier Andrieu olivier@abondance.com

×