1. L e " D u p lic a t e
C o nte nt"
Olivier Andrieu (Abondance)
SEO CAMPUS
9 mars 2012
olivier@abondance.com
http://www.abondance.com/
2. Présentation
Olivier Andrieu (olivier@abondance.com)
Basé à Heiligenstein (67140)
- Premiers pas sur Internet en 1993
- Création de la société Abondance en 1996
- Audit, conseil, accompagnement, formations, etc.
autour du référencement naturel (SEO)
Lettre professionnelle
"Recherche et Référencement"
3. L e " D u p lic a t e C o n t e n t "
Le "duplicate content",
c'est quoi ?
4. Le "duplicate content", c'est quoi ?
La gestion du contenu dupliqué par les moteurs
La notion de contenu dupliqué peut être de
différents types…
6. Le "duplicate content", c'est quoi ?
Il peut s'agir de
contenus complets
ou parfois de
??? "parties de
contenus"
7. Le "duplicate content", c'est quoi ?
Il peut s'agir de
contenus complets
ou parfois de
??? "parties de
contenus"
Méthodes :
Algorithme de Simhash :
http://www.cs.princeton.edu/courses/archive/
spring04/cos598B/bib/CharikarEstim.pdf
Indice et distance de Jaccard :
http://fr.wikipedia.org/wiki/Indice_et_distance
_de_Jaccard
Similarité Cosinus / Indice de Tanimoto :
http://fr.wikipedia.org/wiki/Similarit
%C3%A9_cosinus#indice_de_Tanimoto
Coefficient de Dice :
http://en.wikipedia.org/wiki/Dice's_coefficient
8. Le "duplicate content", c'est quoi ?
Canonique
(l'original)
PageRank
Date de crawl
Dupliquée
(la copie)
Moins de visibilité
Crawl affecté
9. L e D u p lic a t e C o n t e n t
Les différentes formes de
duplicate content
10. Les différentes formes de duplicate content
1. Le DC intrasite
http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles-
sarkozy-hollande.html 2012/sarkozy-hollande.html
???
11. Les différentes formes de duplicate content
2. Le DC intersite
http://www.siteweb.com/actu/france/ http://www.autresiteweb.com/actualites/
sarkozy-hollande.html sarkozy-hollande.html
???
12. Les différentes formes de duplicate content
3. Le DC DUST (Duplicate URL, Same Text) ???
http://www.siteweb.com/actu/france/sarkozy-hollande/
http://siteweb.com/actu/france/sarkozy-hollande/
http://www.siteweb.com/actu/france/sarkozy-hollande
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
13. Les différentes formes de duplicate content
4. Le DC par similarité des Title et meta description
???
14. Les différentes formes de duplicate content
5. Le DC multilingue
http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/
arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html
???
15. L e D u p lic a t e C o n t e n t
Les solutions contre le
duplicate content
16. Duplicate content : les solutions
1. Le DC intrasite
http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles-
sarkozy-hollande.html 2012/sarkozy-hollande.html
???
17. Duplicate content : les solutions
1. Le DC intrasite
http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles-
sarkozy-hollande.html 2012/sarkozy-hollande.html
1ère solution :
suffisamment
modifier le second
contenu pour le
différencier du
premier
(réécriture
manuelle, ajout de
contenu, spinning,
etc.)
18. Duplicate content : les solutions
1. Le DC intrasite
Des outils comme
DuplicateContent.net
(ou d'autres
similaires) peuvent
vous aider
19. Duplicate content : les solutions
1. Le DC intrasite
http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles-
sarkozy-hollande.html 2012/sarkozy-hollande.html
2ème solution :
balise canonical
Dupliquée
link rel=canonical href=
Canonique http://www.siteweb.com/actu/france/sarkozy-hollande.html
20. Duplicate content : les solutions
1. Le DC intrasite
http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles-
sarkozy-hollande.html 2012/sarkozy-hollande.html
3ème solution :
désindexation
Disallow:
http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollan
html (robots.txt)
Ou meta name=robots content=noindex,follow
21. Duplicate content : les solutions
1. Le DC intrasite
Attention aux versions PDF de vos pages HTML (ou inversement) :
http://actu.abondance.com/2011/09/google-et-lindexation-de-documents-pdf.html
En revanche, un contenu traduit n'entre pas en duplicate content avec
l'original…
22. Duplicate content : les solutions
2. Le DC intersite
http://www.siteweb.com/actu/france/ http://www.autresiteweb.com/actualites/
sarkozy-hollande.html sarkozy-hollande.html
Même solution
(mais plus
compliquée) :
balise canonical
(ou réécriture ou
désindexation)
Dupliquée
link rel=canonical href=
Canonique http://www.siteweb.com/actu/france/sarkozy-hollande.html
23. Duplicate content : les solutions
2. Le DC intersite
Eviter de proposer le contenu complet de vos articles dans vos fils RSS.
Proposer plutôt titre + chapo…
La reprise d'un fil RSS contenant titre + chapo ne constitue pas un cas de DC.
24. Duplicate content : les solutions
3. Le DC DUST (Duplicate URL, Same Text)
???
http://www.siteweb.com/actu/france/sarkozy-hollande/
http://siteweb.com/actu/france/sarkozy-hollande/
http://www.siteweb.com/actu/france/sarkozy-hollande
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
25. Duplicate content : les solutions
3. Le DC DUST (Duplicate URL, Same Text)
Solution : balise canonical
link rel=canonical href= http://www.siteweb.com/actu/france/sarkozy-
hollande/
http://www.siteweb.com/actu/france/sarkozy-hollande/
http://www.siteweb.com/actu/france/sarkozy-hollande
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html
http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?
source=emailing
26. Duplicate content : les solutions
3. Le DC DUST (Duplicate URL, Same Text)
Solution :
Vérifier dans les
Webmaster Tools
(Configuration du site
Paramètres d'URL) les
paramètres d'URL qui
peuvent générer du DC…
27. Duplicate content : les solutions
3. Le DC DUST (Duplicate URL, Same Text)
Solution :
1. Indiquez uniquement les URL canoniques dans votre Sitemap !
2. Faites attention à votre linking interne :
http://www.votresite.com/
vs.
http://www.votresite.com
3. Vérifiez que vos URL réécrites sont redirigées en 301 :
http://www.votresite.fr/index.php?id=4
301
http://www.votresite.fr/apropos.html
28. Duplicate content : les solutions
4. Le DC par similarité des Title et meta description
???
29. Duplicate content : les solutions
4. Le DC par similarité des TITLE et meta description
Solution :
1. Vérifier dans les Webmaster
Tools (Diagnostic Suggestions
HTML)
2. Corriger en différenciant
suffisamment les TITLE et meta
description de chaque page
du site.
30. Duplicate content : les solutions
5. Le DC multilingue
http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/
arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html
???
31. Duplicate content : les solutions
5. Le DC multilingue Solution :
1. Les balises multilingues
http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/
arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html
link rel=alternate link rel=alternate link rel=alternate
hreflang=fr-fr href= hreflang=fr-be href= hreflang=fr-ch href=
http://www.siteweb.fr/actu/s http://www.siteweb.fr/actu/s http://www.siteweb.fr/actu/s
arkozy-hollande.html / arkozy-hollande.html / arkozy-hollande.html /
32. Duplicate content : les solutions
5. Le DC multilingue
Solution :
2. Indiquer le pays-cible dans les Webmaster Tools (Configuration du site Paramètres)
34. Conclusion
- Le DC n'est pas une pénalité pour un site (sauf spamdexing :
http://support.google.com/webmasters/bin/answer.py?
hl=franswer=66359), mais donne une moins bonne visibilité aux
pages dupliquées.
- Parfois le simple fait de corriger les problèmes de DC améliore
grandement un référencement.
- Il n'est pas nécessaire de faire une demande de reconsidération
de site à Google après avoir corrigé du DC.
- Les solutions existent.
- En règle générale, elles fonctionnent, mais c’est souvent très
long ;-)
- Google devrait peut-être proposer une assistance adaptée aux
gros sites web à ce sujet.
35. Conclusion
Petite webographie googlienne pour aller plus loin :
New markup for multilingual content (05/12/2011)
http://googlewebmastercentral.blogspot.com/2011/12/new-markup-for-multilingual-content.html
More guidance on building high-quality sites (06/05/2011)
http://googlewebmastercentral.blogspot.com/2011/05/more-guidance-on-building-high-quality.html
Handling legitimate cross-domain content duplication (15/12/2009)
http://googlewebmastercentral.blogspot.com/2009/12/handling-legitimate-cross-domain.html
Reunifying duplicate content on your website (06/10/2009)
http://googlewebmastercentral.blogspot.com/2009/10/reunifying-duplicate-content-on-your.html
Duplicate content and multiple site issues (15/09/2009)
http://googlewebmastercentral.blogspot.com/2009/09/duplicate-content-and-multiple-site.html
Specify your canonical (12/02/2009)
http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html
Demystifying the duplicate content penalty (12/09/2008)
http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html
Duplicate content due to scrapers (09/06/2008)
http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html
Deftly dealing with duplicate content (18/12/2006)
http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html
Plus d'infos : requête intitle:duplicate content site:googlewebmastercentral.blogspot.com
36. Conclusion
Petite webographie non-googlienne pour aller plus loin :
Similarité et Duplicate content : L'indice de Jaccard
http://b1n.sp1n.me/seo/similarite-duplicate-content-indice-jaccard.109.html
Algorithme de Simhash: Script PHP de calcul de similarité
http://www.seoblack-inside.com/php-calcul-similaire-texte-simhash/
Ne pas confondre similarité et duplication de contenus; cas d’école
http://www.webcontentspinning.com/ne-pas-confondre-similarite-et-duplication-de-contenus-cas-decole/
Détection de duplicate content
http://www.webcontentspinning.com/detection/
Dis papa c'est quoi le duplicate content ?
http://www.cyroul.com/web12/dis-papa-cest-quoi-le-duplicate-content/
Vol de contenu et duplicate content
http://blog.axe-net.fr/duplicate-content-plagiat/
Google lutte contre les scrapers et encourage la dénonciation
http://actu.abondance.com/2011/08/google-lutte-contre-les-scrapers-et.html
Tout savoir sur le filtre Contenus Dupliqués de Google
http://www.webrankinfo.com/dossiers/techniques/filtre-duplicate-content
Lutter contre le duplicate content
http://s.billard.free.fr/referencement/?2008/04/24/477-lutter-contre-le-duplicate-content
Google Patent Granted on Duplicate Content Detection in a Web Crawler System
http://www.seobythesea.com/2009/12/google-patent-granted-on-duplicate-content-detection-in-a-web-crawler-system/
Duplicate and Near Duplicate Documents Detection: A Review
http://www.eurojournals.com/ejsr_32_4_08.pdf
The Illustrated Guide to Duplicate Content in the Search Engines
http://www.seomoz.org/blog/the-illustrated-guide-to-duplicate-content-in-the-search-engines
37. L e D u p lic a t e C o n t e n t
Merci :-)
Support proposé par Olivier Andrieu -
olivier@abondance.com