Duplicate Content Seo campus 09-03-2012

16 517 vues

Publié le

Support de la conférence d'Olivier Andrieu (Abodnance) sur le Duplicate Content au salon SEO Campus le 9 mars 2012.

Publié dans : Technologie
0 commentaire
7 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
16 517
Sur SlideShare
0
Issues des intégrations
0
Intégrations
10 599
Actions
Partages
0
Téléchargements
184
Commentaires
0
J’aime
7
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Duplicate Content Seo campus 09-03-2012

  1. 1. L e " D u p lic a t eC o nte nt"Olivier Andrieu (Abondance)SEO CAMPUS9 mars 2012olivier@abondance.comhttp://www.abondance.com/
  2. 2. PrésentationOlivier Andrieu (olivier@abondance.com)Basé à Heiligenstein (67140)- Premiers pas sur Internet en 1993- Création de la société Abondance en 1996- Audit, conseil, accompagnement, formations, etc.autour du référencement naturel (SEO) Lettre professionnelle "Recherche et Référencement"
  3. 3. L e " D u p lic a t e C o n t e n t " Le "duplicate content", cest quoi ?
  4. 4. Le "duplicate content", cest quoi ? La gestion du contenu dupliqué par les moteurs La notion de contenu dupliqué peut être de différents types…
  5. 5. Le "duplicate content", cest quoi ? ???
  6. 6. Le "duplicate content", cest quoi ? Il peut sagir de contenus complets ou parfois de ??? "parties de contenus"
  7. 7. Le "duplicate content", cest quoi ? Il peut sagir de contenus complets ou parfois de ??? "parties de contenus" Méthodes : Algorithme de Simhash : http://www.cs.princeton.edu/courses/archive/ spring04/cos598B/bib/CharikarEstim.pdf Indice et distance de Jaccard : http://fr.wikipedia.org/wiki/Indice_et_distance _de_Jaccard Similarité Cosinus / Indice de Tanimoto : http://fr.wikipedia.org/wiki/Similarit %C3%A9_cosinus#indice_de_Tanimoto Coefficient de Dice : http://en.wikipedia.org/wiki/Dices_coefficient
  8. 8. Le "duplicate content", cest quoi ? Canonique (loriginal) PageRank Date de crawl Dupliquée (la copie) Moins de visibilité Crawl affecté
  9. 9. L e D u p lic a t e C o n t e n t Les différentes formes de duplicate content
  10. 10. Les différentes formes de duplicate content1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html ???
  11. 11. Les différentes formes de duplicate content2. Le DC intersite http://www.siteweb.com/actu/france/ http://www.autresiteweb.com/actualites/ sarkozy-hollande.html sarkozy-hollande.html ???
  12. 12. Les différentes formes de duplicate content3. Le DC DUST (Duplicate URL, Same Text) ??? http://www.siteweb.com/actu/france/sarkozy-hollande/ http://siteweb.com/actu/france/sarkozy-hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande http://www.siteweb.com/actu/france/sarkozy-hollande/index.html http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
  13. 13. Les différentes formes de duplicate content4. Le DC par similarité des Title et meta description ???
  14. 14. Les différentes formes de duplicate content5. Le DC multilingue http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/ arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html ???
  15. 15. L e D u p lic a t e C o n t e n t Les solutions contre le duplicate content
  16. 16. Duplicate content : les solutions1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html ???
  17. 17. Duplicate content : les solutions1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html 1ère solution : suffisamment modifier le second contenu pour le différencier du premier (réécriture manuelle, ajout de contenu, spinning, etc.)
  18. 18. Duplicate content : les solutions1. Le DC intrasite Des outils comme DuplicateContent.net (ou dautres similaires) peuvent vous aider
  19. 19. Duplicate content : les solutions1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html 2ème solution : balise canonical Dupliquée link rel=canonical href= Canonique http://www.siteweb.com/actu/france/sarkozy-hollande.html
  20. 20. Duplicate content : les solutions1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html 3ème solution : désindexation Disallow: http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollan html (robots.txt) Ou meta name=robots content=noindex,follow
  21. 21. Duplicate content : les solutions1. Le DC intrasite Attention aux versions PDF de vos pages HTML (ou inversement) : http://actu.abondance.com/2011/09/google-et-lindexation-de-documents-pdf.html En revanche, un contenu traduit nentre pas en duplicate content avec loriginal…
  22. 22. Duplicate content : les solutions2. Le DC intersite http://www.siteweb.com/actu/france/ http://www.autresiteweb.com/actualites/ sarkozy-hollande.html sarkozy-hollande.html Même solution (mais plus compliquée) : balise canonical (ou réécriture ou désindexation) Dupliquée link rel=canonical href= Canonique http://www.siteweb.com/actu/france/sarkozy-hollande.html
  23. 23. Duplicate content : les solutions2. Le DC intersite Eviter de proposer le contenu complet de vos articles dans vos fils RSS. Proposer plutôt titre + chapo… La reprise dun fil RSS contenant titre + chapo ne constitue pas un cas de DC.
  24. 24. Duplicate content : les solutions3. Le DC DUST (Duplicate URL, Same Text) ??? http://www.siteweb.com/actu/france/sarkozy-hollande/ http://siteweb.com/actu/france/sarkozy-hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande http://www.siteweb.com/actu/france/sarkozy-hollande/index.html http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
  25. 25. Duplicate content : les solutions3. Le DC DUST (Duplicate URL, Same Text) Solution : balise canonical link rel=canonical href= http://www.siteweb.com/actu/france/sarkozy- hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande http://www.siteweb.com/actu/france/sarkozy-hollande/index.html http://www.siteweb.com/actu/france/sarkozy-hollande/index.html? source=emailing
  26. 26. Duplicate content : les solutions3. Le DC DUST (Duplicate URL, Same Text) Solution : Vérifier dans les Webmaster Tools (Configuration du site Paramètres dURL) les paramètres dURL qui peuvent générer du DC…
  27. 27. Duplicate content : les solutions3. Le DC DUST (Duplicate URL, Same Text) Solution : 1. Indiquez uniquement les URL canoniques dans votre Sitemap ! 2. Faites attention à votre linking interne : http://www.votresite.com/ vs. http://www.votresite.com 3. Vérifiez que vos URL réécrites sont redirigées en 301 : http://www.votresite.fr/index.php?id=4 301 http://www.votresite.fr/apropos.html
  28. 28. Duplicate content : les solutions4. Le DC par similarité des Title et meta description ???
  29. 29. Duplicate content : les solutions4. Le DC par similarité des TITLE et meta description Solution : 1. Vérifier dans les Webmaster Tools (Diagnostic Suggestions HTML) 2. Corriger en différenciant suffisamment les TITLE et meta description de chaque page du site.
  30. 30. Duplicate content : les solutions5. Le DC multilingue http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/ arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html ???
  31. 31. Duplicate content : les solutions5. Le DC multilingue Solution : 1. Les balises multilingues http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/ arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html link rel=alternate link rel=alternate link rel=alternate hreflang=fr-fr href= hreflang=fr-be href= hreflang=fr-ch href= http://www.siteweb.fr/actu/s http://www.siteweb.fr/actu/s http://www.siteweb.fr/actu/s arkozy-hollande.html / arkozy-hollande.html / arkozy-hollande.html /
  32. 32. Duplicate content : les solutions5. Le DC multilingue Solution : 2. Indiquer le pays-cible dans les Webmaster Tools (Configuration du site Paramètres)
  33. 33. L e D u p lic a t e C o n t e n t Conclusion
  34. 34. Conclusion- Le DC nest pas une pénalité pour un site (sauf spamdexing :http://support.google.com/webmasters/bin/answer.py?hl=franswer=66359), mais donne une moins bonne visibilité auxpages dupliquées.- Parfois le simple fait de corriger les problèmes de DC amélioregrandement un référencement.- Il nest pas nécessaire de faire une demande de reconsidérationde site à Google après avoir corrigé du DC.- Les solutions existent.- En règle générale, elles fonctionnent, mais c’est souvent trèslong ;-)- Google devrait peut-être proposer une assistance adaptée auxgros sites web à ce sujet.
  35. 35. ConclusionPetite webographie googlienne pour aller plus loin :New markup for multilingual content (05/12/2011)http://googlewebmastercentral.blogspot.com/2011/12/new-markup-for-multilingual-content.htmlMore guidance on building high-quality sites (06/05/2011)http://googlewebmastercentral.blogspot.com/2011/05/more-guidance-on-building-high-quality.htmlHandling legitimate cross-domain content duplication (15/12/2009)http://googlewebmastercentral.blogspot.com/2009/12/handling-legitimate-cross-domain.htmlReunifying duplicate content on your website (06/10/2009)http://googlewebmastercentral.blogspot.com/2009/10/reunifying-duplicate-content-on-your.htmlDuplicate content and multiple site issues (15/09/2009)http://googlewebmastercentral.blogspot.com/2009/09/duplicate-content-and-multiple-site.htmlSpecify your canonical (12/02/2009)http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.htmlDemystifying the duplicate content penalty (12/09/2008)http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.htmlDuplicate content due to scrapers (09/06/2008)http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.htmlDeftly dealing with duplicate content (18/12/2006)http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.htmlPlus dinfos : requête intitle:duplicate content site:googlewebmastercentral.blogspot.com
  36. 36. ConclusionPetite webographie non-googlienne pour aller plus loin :Similarité et Duplicate content : Lindice de Jaccardhttp://b1n.sp1n.me/seo/similarite-duplicate-content-indice-jaccard.109.htmlAlgorithme de Simhash: Script PHP de calcul de similaritéhttp://www.seoblack-inside.com/php-calcul-similaire-texte-simhash/Ne pas confondre similarité et duplication de contenus; cas d’écolehttp://www.webcontentspinning.com/ne-pas-confondre-similarite-et-duplication-de-contenus-cas-decole/Détection de duplicate contenthttp://www.webcontentspinning.com/detection/Dis papa cest quoi le duplicate content ?http://www.cyroul.com/web12/dis-papa-cest-quoi-le-duplicate-content/Vol de contenu et duplicate contenthttp://blog.axe-net.fr/duplicate-content-plagiat/Google lutte contre les scrapers et encourage la dénonciationhttp://actu.abondance.com/2011/08/google-lutte-contre-les-scrapers-et.htmlTout savoir sur le filtre Contenus Dupliqués de Googlehttp://www.webrankinfo.com/dossiers/techniques/filtre-duplicate-contentLutter contre le duplicate contenthttp://s.billard.free.fr/referencement/?2008/04/24/477-lutter-contre-le-duplicate-contentGoogle Patent Granted on Duplicate Content Detection in a Web Crawler Systemhttp://www.seobythesea.com/2009/12/google-patent-granted-on-duplicate-content-detection-in-a-web-crawler-system/Duplicate and Near Duplicate Documents Detection: A Reviewhttp://www.eurojournals.com/ejsr_32_4_08.pdfThe Illustrated Guide to Duplicate Content in the Search Engineshttp://www.seomoz.org/blog/the-illustrated-guide-to-duplicate-content-in-the-search-engines
  37. 37. L e D u p lic a t e C o n t e n t Merci :-) Support proposé par Olivier Andrieu - olivier@abondance.com

×