SlideShare une entreprise Scribd logo
L e " D u p lic a t e
C o nte nt"

Olivier Andrieu (Abondance)
SEO CAMPUS
9 mars 2012
olivier@abondance.com
http://www.abondance.com/
Présentation

Olivier Andrieu (olivier@abondance.com)
Basé à Heiligenstein (67140)

- Premiers pas sur Internet en 1993

- Création de la société Abondance en 1996

- Audit, conseil, accompagnement, formations, etc.
autour du référencement naturel (SEO)




  Lettre professionnelle
  "Recherche et Référencement"
L e " D u p lic a t e C o n t e n t "




   Le "duplicate content",
   c'est quoi ?
Le "duplicate content", c'est quoi ?



 La gestion du contenu dupliqué par les moteurs

 La notion de contenu dupliqué peut être de
 différents types…
Le "duplicate content", c'est quoi ?


      ???
Le "duplicate content", c'est quoi ?
                                       Il peut s'agir de
                                       contenus complets
                                       ou parfois de
      ???                              "parties de
                                       contenus"
Le "duplicate content", c'est quoi ?
                                           Il peut s'agir de
                                           contenus complets
                                           ou parfois de
      ???                                  "parties de
                                           contenus"



                                       Méthodes :

                                       Algorithme de Simhash :
                                       http://www.cs.princeton.edu/courses/archive/
                                       spring04/cos598B/bib/CharikarEstim.pdf

                                       Indice et distance de Jaccard :
                                       http://fr.wikipedia.org/wiki/Indice_et_distance
                                       _de_Jaccard

                                       Similarité Cosinus / Indice de Tanimoto :
                                       http://fr.wikipedia.org/wiki/Similarit
                                       %C3%A9_cosinus#indice_de_Tanimoto

                                       Coefficient de Dice :
                                       http://en.wikipedia.org/wiki/Dice's_coefficient
Le "duplicate content", c'est quoi ?

                                       Canonique
                                       (l'original)
                                        PageRank
                                        Date de crawl




                                       Dupliquée
                                       (la copie)
                                         Moins de visibilité
                                         Crawl affecté
L e  D u p lic a t e C o n t e n t 




   Les différentes formes de
   duplicate content
Les différentes formes de duplicate content

1. Le DC intrasite
      http://www.siteweb.com/actu/france/   http://www.siteweb.com/actu/presidentielles-
      sarkozy-hollande.html                 2012/sarkozy-hollande.html




                                       ???
Les différentes formes de duplicate content

2. Le DC intersite
      http://www.siteweb.com/actu/france/   http://www.autresiteweb.com/actualites/
      sarkozy-hollande.html                 sarkozy-hollande.html




                                       ???
Les différentes formes de duplicate content

3. Le DC DUST (Duplicate URL, Same Text)                                                   ???

               http://www.siteweb.com/actu/france/sarkozy-hollande/

               http://siteweb.com/actu/france/sarkozy-hollande/

               http://www.siteweb.com/actu/france/sarkozy-hollande

               http://www.siteweb.com/actu/france/sarkozy-hollande/index.html

               http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr

               http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
Les différentes formes de duplicate content

4. Le DC par similarité des Title et meta description




                                            ???
Les différentes formes de duplicate content

5. Le DC multilingue

  http://www.siteweb.fr/actu/s   http://www.siteweb.be/actu/   http://www.siteweb.ch/actu/
  arkozy-hollande.html           sarkozy-hollande.html         sarkozy-hollande.html




                                         ???
L e  D u p lic a t e C o n t e n t 




   Les solutions contre le
   duplicate content
Duplicate content : les solutions

1. Le DC intrasite
      http://www.siteweb.com/actu/france/   http://www.siteweb.com/actu/presidentielles-
      sarkozy-hollande.html                 2012/sarkozy-hollande.html




                                       ???
Duplicate content : les solutions

1. Le DC intrasite
      http://www.siteweb.com/actu/france/   http://www.siteweb.com/actu/presidentielles-
      sarkozy-hollande.html                 2012/sarkozy-hollande.html



                                                                        1ère solution :
                                                                        suffisamment
                                                                        modifier le second
                                                                        contenu pour le
                                                                        différencier du
                                                                        premier
                                                                        (réécriture
                                                                        manuelle, ajout de
                                                                        contenu, spinning,
                                                                        etc.)
Duplicate content : les solutions

1. Le DC intrasite
  Des outils comme
  DuplicateContent.net
  (ou d'autres
  similaires) peuvent
  vous aider
Duplicate content : les solutions

1. Le DC intrasite
      http://www.siteweb.com/actu/france/   http://www.siteweb.com/actu/presidentielles-
      sarkozy-hollande.html                 2012/sarkozy-hollande.html



                                                                           2ème solution :
                                                                           balise canonical




                                                                          Dupliquée
                                              link rel=canonical href=
                Canonique                     http://www.siteweb.com/actu/france/sarkozy-hollande.html
Duplicate content : les solutions

1. Le DC intrasite
      http://www.siteweb.com/actu/france/   http://www.siteweb.com/actu/presidentielles-
      sarkozy-hollande.html                 2012/sarkozy-hollande.html



                                                                            3ème solution :
                                                                            désindexation




                                              Disallow:
                                              http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollan
                                              html (robots.txt)
                                              Ou meta name=robots content=noindex,follow
Duplicate content : les solutions

1. Le DC intrasite

 Attention aux versions PDF de vos pages HTML (ou inversement) :
 http://actu.abondance.com/2011/09/google-et-lindexation-de-documents-pdf.html

 En revanche, un contenu traduit n'entre pas en duplicate content avec
 l'original…
Duplicate content : les solutions

2. Le DC intersite
      http://www.siteweb.com/actu/france/   http://www.autresiteweb.com/actualites/
      sarkozy-hollande.html                 sarkozy-hollande.html



                                                                           Même solution
                                                                           (mais plus
                                                                           compliquée) :
                                                                           balise canonical
                                                                           (ou réécriture ou
                                                                           désindexation)




                                                                          Dupliquée
                                              link rel=canonical href=
                Canonique                     http://www.siteweb.com/actu/france/sarkozy-hollande.html
Duplicate content : les solutions

2. Le DC intersite
 Eviter de proposer le contenu complet de vos articles dans vos fils RSS.

 Proposer plutôt titre + chapo…

 La reprise d'un fil RSS contenant titre + chapo ne constitue pas un cas de DC.
Duplicate content : les solutions

3. Le DC DUST (Duplicate URL, Same Text)

                                                                                       ???

                http://www.siteweb.com/actu/france/sarkozy-hollande/

                http://siteweb.com/actu/france/sarkozy-hollande/

                http://www.siteweb.com/actu/france/sarkozy-hollande

                http://www.siteweb.com/actu/france/sarkozy-hollande/index.html

                http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr

                http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
Duplicate content : les solutions

3. Le DC DUST (Duplicate URL, Same Text)

                        Solution : balise canonical

                        link rel=canonical href= http://www.siteweb.com/actu/france/sarkozy-
                        hollande/ 




                       http://www.siteweb.com/actu/france/sarkozy-hollande/



                       http://www.siteweb.com/actu/france/sarkozy-hollande

                       http://www.siteweb.com/actu/france/sarkozy-hollande/index.html

                       http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?
                       source=emailing
Duplicate content : les solutions

3. Le DC DUST (Duplicate URL, Same Text)
 Solution :

 Vérifier dans les
 Webmaster Tools
 (Configuration du site 
 Paramètres d'URL) les
 paramètres d'URL qui
 peuvent générer du DC…
Duplicate content : les solutions

3. Le DC DUST (Duplicate URL, Same Text)
 Solution :

 1. Indiquez uniquement les URL canoniques dans votre Sitemap !


 2. Faites attention à votre linking interne :

                       http://www.votresite.com/
                       vs.
                       http://www.votresite.com



 3. Vérifiez que vos URL réécrites sont redirigées en 301 :

                       http://www.votresite.fr/index.php?id=4

                                                 301


                       http://www.votresite.fr/apropos.html
Duplicate content : les solutions

4. Le DC par similarité des Title et meta description




                                           ???
Duplicate content : les solutions

4. Le DC par similarité des TITLE et meta description
 Solution :

 1. Vérifier dans les Webmaster
 Tools (Diagnostic  Suggestions
 HTML)

 2. Corriger en différenciant
 suffisamment les TITLE et meta
 description de chaque page
 du site.
Duplicate content : les solutions

5. Le DC multilingue

  http://www.siteweb.fr/actu/s   http://www.siteweb.be/actu/   http://www.siteweb.ch/actu/
  arkozy-hollande.html           sarkozy-hollande.html         sarkozy-hollande.html




                                         ???
Duplicate content : les solutions

5. Le DC multilingue                           Solution :
                                               1. Les balises multilingues


  http://www.siteweb.fr/actu/s    http://www.siteweb.be/actu/      http://www.siteweb.ch/actu/
  arkozy-hollande.html            sarkozy-hollande.html            sarkozy-hollande.html




   link rel=alternate           link rel=alternate             link rel=alternate
   hreflang=fr-fr href=         hreflang=fr-be href=           hreflang=fr-ch href=
   http://www.siteweb.fr/actu/s    http://www.siteweb.fr/actu/s      http://www.siteweb.fr/actu/s
   arkozy-hollande.html  /       arkozy-hollande.html  /         arkozy-hollande.html  /
Duplicate content : les solutions

5. Le DC multilingue
 Solution :
 2. Indiquer le pays-cible dans les Webmaster Tools (Configuration du site  Paramètres)
L e  D u p lic a t e C o n t e n t 




   Conclusion
Conclusion
- Le DC n'est pas une pénalité pour un site (sauf spamdexing :
http://support.google.com/webmasters/bin/answer.py?
hl=franswer=66359), mais donne une moins bonne visibilité aux
pages dupliquées.

- Parfois le simple fait de corriger les problèmes de DC améliore
grandement un référencement.

- Il n'est pas nécessaire de faire une demande de reconsidération
de site à Google après avoir corrigé du DC.

- Les solutions existent.

- En règle générale, elles fonctionnent, mais c’est souvent très
long ;-)

- Google devrait peut-être proposer une assistance adaptée aux
gros sites web à ce sujet.
Conclusion
Petite webographie googlienne pour aller plus loin :
New markup for multilingual content (05/12/2011)
http://googlewebmastercentral.blogspot.com/2011/12/new-markup-for-multilingual-content.html

More guidance on building high-quality sites (06/05/2011)
http://googlewebmastercentral.blogspot.com/2011/05/more-guidance-on-building-high-quality.html

Handling legitimate cross-domain content duplication (15/12/2009)
http://googlewebmastercentral.blogspot.com/2009/12/handling-legitimate-cross-domain.html

Reunifying duplicate content on your website (06/10/2009)
http://googlewebmastercentral.blogspot.com/2009/10/reunifying-duplicate-content-on-your.html

Duplicate content and multiple site issues (15/09/2009)
http://googlewebmastercentral.blogspot.com/2009/09/duplicate-content-and-multiple-site.html

Specify your canonical (12/02/2009)
http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html

Demystifying the duplicate content penalty (12/09/2008)
http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html

Duplicate content due to scrapers (09/06/2008)
http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html

Deftly dealing with duplicate content (18/12/2006)
http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html

Plus d'infos : requête intitle:duplicate content site:googlewebmastercentral.blogspot.com
Conclusion
Petite webographie non-googlienne pour aller plus loin :
Similarité et Duplicate content : L'indice de Jaccard
http://b1n.sp1n.me/seo/similarite-duplicate-content-indice-jaccard.109.html

Algorithme de Simhash: Script PHP de calcul de similarité
http://www.seoblack-inside.com/php-calcul-similaire-texte-simhash/

Ne pas confondre similarité et duplication de contenus; cas d’école
http://www.webcontentspinning.com/ne-pas-confondre-similarite-et-duplication-de-contenus-cas-decole/

Détection de duplicate content
http://www.webcontentspinning.com/detection/

Dis papa c'est quoi le duplicate content ?
http://www.cyroul.com/web12/dis-papa-cest-quoi-le-duplicate-content/

Vol de contenu et duplicate content
http://blog.axe-net.fr/duplicate-content-plagiat/

Google lutte contre les scrapers et encourage la dénonciation
http://actu.abondance.com/2011/08/google-lutte-contre-les-scrapers-et.html

Tout savoir sur le filtre Contenus Dupliqués de Google
http://www.webrankinfo.com/dossiers/techniques/filtre-duplicate-content

Lutter contre le duplicate content
http://s.billard.free.fr/referencement/?2008/04/24/477-lutter-contre-le-duplicate-content

Google Patent Granted on Duplicate Content Detection in a Web Crawler System
http://www.seobythesea.com/2009/12/google-patent-granted-on-duplicate-content-detection-in-a-web-crawler-system/

Duplicate and Near Duplicate Documents Detection: A Review
http://www.eurojournals.com/ejsr_32_4_08.pdf

The Illustrated Guide to Duplicate Content in the Search Engines
http://www.seomoz.org/blog/the-illustrated-guide-to-duplicate-content-in-the-search-engines
L e  D u p lic a t e C o n t e n t 



                            Merci :-)




            Support proposé par Olivier Andrieu -
            olivier@abondance.com

Contenu connexe

Similaire à Duplicate Content Seo campus 09-03-2012

Web2.0urfist
Web2.0urfistWeb2.0urfist
Web2.0urfist
Olivier Le Deuff
 
Gestion_d_un_projet_Web_e_commerce_Piece (1).pdf
Gestion_d_un_projet_Web_e_commerce_Piece (1).pdfGestion_d_un_projet_Web_e_commerce_Piece (1).pdf
Gestion_d_un_projet_Web_e_commerce_Piece (1).pdf
SofianeHassine2
 
Gestion_d_un_projet_Web_e_commerce_Piece.pdf
Gestion_d_un_projet_Web_e_commerce_Piece.pdfGestion_d_un_projet_Web_e_commerce_Piece.pdf
Gestion_d_un_projet_Web_e_commerce_Piece.pdf
SofianeHassine2
 
Le Web 2.0 en bibliothèques (Nov.2009)
Le Web 2.0 en bibliothèques (Nov.2009)Le Web 2.0 en bibliothèques (Nov.2009)
Le Web 2.0 en bibliothèques (Nov.2009)
KOMOROWSKI Corinne
 
Transformations numériques durables ?
Transformations numériques durables ?Transformations numériques durables ?
Transformations numériques durables ?
Pascal Kotté (ICT-a.ch, CloudReady, LiN, Tech4good)
 
Wikis sémantiques : Le peuplement d\'ontologies pour tous ?
Wikis sémantiques : Le peuplement d\'ontologies pour tous ?Wikis sémantiques : Le peuplement d\'ontologies pour tous ?
Wikis sémantiques : Le peuplement d\'ontologies pour tous ?
Alexandre Passant
 
DBpedia ou le Linked Open Data et la question du public
DBpedia ou le Linked Open Data et la question du publicDBpedia ou le Linked Open Data et la question du public
DBpedia ou le Linked Open Data et la question du public
Alexandre Monnin
 
Expospierre 1229514527066080-2
Expospierre 1229514527066080-2Expospierre 1229514527066080-2
Expospierre 1229514527066080-2tomasone
 

Similaire à Duplicate Content Seo campus 09-03-2012 (8)

Web2.0urfist
Web2.0urfistWeb2.0urfist
Web2.0urfist
 
Gestion_d_un_projet_Web_e_commerce_Piece (1).pdf
Gestion_d_un_projet_Web_e_commerce_Piece (1).pdfGestion_d_un_projet_Web_e_commerce_Piece (1).pdf
Gestion_d_un_projet_Web_e_commerce_Piece (1).pdf
 
Gestion_d_un_projet_Web_e_commerce_Piece.pdf
Gestion_d_un_projet_Web_e_commerce_Piece.pdfGestion_d_un_projet_Web_e_commerce_Piece.pdf
Gestion_d_un_projet_Web_e_commerce_Piece.pdf
 
Le Web 2.0 en bibliothèques (Nov.2009)
Le Web 2.0 en bibliothèques (Nov.2009)Le Web 2.0 en bibliothèques (Nov.2009)
Le Web 2.0 en bibliothèques (Nov.2009)
 
Transformations numériques durables ?
Transformations numériques durables ?Transformations numériques durables ?
Transformations numériques durables ?
 
Wikis sémantiques : Le peuplement d\'ontologies pour tous ?
Wikis sémantiques : Le peuplement d\'ontologies pour tous ?Wikis sémantiques : Le peuplement d\'ontologies pour tous ?
Wikis sémantiques : Le peuplement d\'ontologies pour tous ?
 
DBpedia ou le Linked Open Data et la question du public
DBpedia ou le Linked Open Data et la question du publicDBpedia ou le Linked Open Data et la question du public
DBpedia ou le Linked Open Data et la question du public
 
Expospierre 1229514527066080-2
Expospierre 1229514527066080-2Expospierre 1229514527066080-2
Expospierre 1229514527066080-2
 

Plus de Olivier Andrieu

Les Bienfaits de la Désindexaton (Seo camp day Lorraine)
Les Bienfaits de la Désindexaton (Seo camp day Lorraine)Les Bienfaits de la Désindexaton (Seo camp day Lorraine)
Les Bienfaits de la Désindexaton (Seo camp day Lorraine)
Olivier Andrieu
 
Comment identifier l'intention de recherche détectée par Google sur une requê...
Comment identifier l'intention de recherche détectée par Google sur une requê...Comment identifier l'intention de recherche détectée par Google sur une requê...
Comment identifier l'intention de recherche détectée par Google sur une requê...
Olivier Andrieu
 
Le Contenu Dupliqué : Comment ça marche ? (Journée Big SEO 20 janvier 2021)
Le Contenu Dupliqué : Comment ça marche ? (Journée Big SEO 20 janvier 2021)Le Contenu Dupliqué : Comment ça marche ? (Journée Big SEO 20 janvier 2021)
Le Contenu Dupliqué : Comment ça marche ? (Journée Big SEO 20 janvier 2021)
Olivier Andrieu
 
Tendances SEO 2021 : Slides et Replay du webinar BIG SEO
Tendances SEO 2021 : Slides et Replay du webinar BIG SEOTendances SEO 2021 : Slides et Replay du webinar BIG SEO
Tendances SEO 2021 : Slides et Replay du webinar BIG SEO
Olivier Andrieu
 
SEO International : Comment élargir sa visibilité ? - Digital Marketing League
SEO International : Comment élargir sa visibilité ? - Digital Marketing LeagueSEO International : Comment élargir sa visibilité ? - Digital Marketing League
SEO International : Comment élargir sa visibilité ? - Digital Marketing League
Olivier Andrieu
 
L'intégration des balises de données structurées FAQ, Q&A et HowTo pour do...
L'intégration des balises de données structurées FAQ, Q&A et HowTo pour do...L'intégration des balises de données structurées FAQ, Q&A et HowTo pour do...
L'intégration des balises de données structurées FAQ, Q&A et HowTo pour do...
Olivier Andrieu
 
10 points à savoir pour mieux utiliser la Search Console
10 points à savoir pour mieux utiliser la Search Console10 points à savoir pour mieux utiliser la Search Console
10 points à savoir pour mieux utiliser la Search Console
Olivier Andrieu
 
Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?
Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?
Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?
Olivier Andrieu
 
Etude de cas : mettre en place une migration sans perdre son SEO (Performance...
Etude de cas : mettre en place une migration sans perdre son SEO (Performance...Etude de cas : mettre en place une migration sans perdre son SEO (Performance...
Etude de cas : mettre en place une migration sans perdre son SEO (Performance...
Olivier Andrieu
 
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Olivier Andrieu
 
Featured Snippets, Recherche Vocale et SEO (Seo Campus 2018)
Featured Snippets, Recherche Vocale et SEO (Seo Campus 2018)Featured Snippets, Recherche Vocale et SEO (Seo Campus 2018)
Featured Snippets, Recherche Vocale et SEO (Seo Campus 2018)
Olivier Andrieu
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Olivier Andrieu
 
1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...
1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...
1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...
Olivier Andrieu
 
2015 seo-campus-mobile1
2015 seo-campus-mobile12015 seo-campus-mobile1
2015 seo-campus-mobile1
Olivier Andrieu
 
2015 seo-campus-mobile
2015 seo-campus-mobile2015 seo-campus-mobile
2015 seo-campus-mobile
Olivier Andrieu
 
Seo campus netlinking
Seo campus netlinkingSeo campus netlinking
Seo campus netlinking
Olivier Andrieu
 
Bureaux Google Zurich
Bureaux Google ZurichBureaux Google Zurich
Bureaux Google Zurich
Olivier Andrieu
 
Seo campus 01-03-2011
Seo campus 01-03-2011Seo campus 01-03-2011
Seo campus 01-03-2011
Olivier Andrieu
 

Plus de Olivier Andrieu (19)

Les Bienfaits de la Désindexaton (Seo camp day Lorraine)
Les Bienfaits de la Désindexaton (Seo camp day Lorraine)Les Bienfaits de la Désindexaton (Seo camp day Lorraine)
Les Bienfaits de la Désindexaton (Seo camp day Lorraine)
 
Comment identifier l'intention de recherche détectée par Google sur une requê...
Comment identifier l'intention de recherche détectée par Google sur une requê...Comment identifier l'intention de recherche détectée par Google sur une requê...
Comment identifier l'intention de recherche détectée par Google sur une requê...
 
Le Contenu Dupliqué : Comment ça marche ? (Journée Big SEO 20 janvier 2021)
Le Contenu Dupliqué : Comment ça marche ? (Journée Big SEO 20 janvier 2021)Le Contenu Dupliqué : Comment ça marche ? (Journée Big SEO 20 janvier 2021)
Le Contenu Dupliqué : Comment ça marche ? (Journée Big SEO 20 janvier 2021)
 
Tendances SEO 2021 : Slides et Replay du webinar BIG SEO
Tendances SEO 2021 : Slides et Replay du webinar BIG SEOTendances SEO 2021 : Slides et Replay du webinar BIG SEO
Tendances SEO 2021 : Slides et Replay du webinar BIG SEO
 
SEO International : Comment élargir sa visibilité ? - Digital Marketing League
SEO International : Comment élargir sa visibilité ? - Digital Marketing LeagueSEO International : Comment élargir sa visibilité ? - Digital Marketing League
SEO International : Comment élargir sa visibilité ? - Digital Marketing League
 
L'intégration des balises de données structurées FAQ, Q&A et HowTo pour do...
L'intégration des balises de données structurées FAQ, Q&A et HowTo pour do...L'intégration des balises de données structurées FAQ, Q&A et HowTo pour do...
L'intégration des balises de données structurées FAQ, Q&A et HowTo pour do...
 
10 points à savoir pour mieux utiliser la Search Console
10 points à savoir pour mieux utiliser la Search Console10 points à savoir pour mieux utiliser la Search Console
10 points à savoir pour mieux utiliser la Search Console
 
Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?
Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?
Comment intégrer les "core Updates" de Google dans sa stratégie SEO ?
 
Etude de cas : mettre en place une migration sans perdre son SEO (Performance...
Etude de cas : mettre en place une migration sans perdre son SEO (Performance...Etude de cas : mettre en place une migration sans perdre son SEO (Performance...
Etude de cas : mettre en place une migration sans perdre son SEO (Performance...
 
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
 
Featured Snippets, Recherche Vocale et SEO (Seo Campus 2018)
Featured Snippets, Recherche Vocale et SEO (Seo Campus 2018)Featured Snippets, Recherche Vocale et SEO (Seo Campus 2018)
Featured Snippets, Recherche Vocale et SEO (Seo Campus 2018)
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
 
1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...
1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...
1&1, e-Monsite, Jimdo, Wix, … Les platesformes clés-en-main permettent-elles ...
 
2015 seo-campus-mobile1
2015 seo-campus-mobile12015 seo-campus-mobile1
2015 seo-campus-mobile1
 
2015 seo-campus-mobile
2015 seo-campus-mobile2015 seo-campus-mobile
2015 seo-campus-mobile
 
Seo campus netlinking
Seo campus netlinkingSeo campus netlinking
Seo campus netlinking
 
Désindexation
DésindexationDésindexation
Désindexation
 
Bureaux Google Zurich
Bureaux Google ZurichBureaux Google Zurich
Bureaux Google Zurich
 
Seo campus 01-03-2011
Seo campus 01-03-2011Seo campus 01-03-2011
Seo campus 01-03-2011
 

Duplicate Content Seo campus 09-03-2012

  • 1. L e " D u p lic a t e C o nte nt" Olivier Andrieu (Abondance) SEO CAMPUS 9 mars 2012 olivier@abondance.com http://www.abondance.com/
  • 2. Présentation Olivier Andrieu (olivier@abondance.com) Basé à Heiligenstein (67140) - Premiers pas sur Internet en 1993 - Création de la société Abondance en 1996 - Audit, conseil, accompagnement, formations, etc. autour du référencement naturel (SEO) Lettre professionnelle "Recherche et Référencement"
  • 3. L e " D u p lic a t e C o n t e n t " Le "duplicate content", c'est quoi ?
  • 4. Le "duplicate content", c'est quoi ? La gestion du contenu dupliqué par les moteurs La notion de contenu dupliqué peut être de différents types…
  • 5. Le "duplicate content", c'est quoi ? ???
  • 6. Le "duplicate content", c'est quoi ? Il peut s'agir de contenus complets ou parfois de ??? "parties de contenus"
  • 7. Le "duplicate content", c'est quoi ? Il peut s'agir de contenus complets ou parfois de ??? "parties de contenus" Méthodes : Algorithme de Simhash : http://www.cs.princeton.edu/courses/archive/ spring04/cos598B/bib/CharikarEstim.pdf Indice et distance de Jaccard : http://fr.wikipedia.org/wiki/Indice_et_distance _de_Jaccard Similarité Cosinus / Indice de Tanimoto : http://fr.wikipedia.org/wiki/Similarit %C3%A9_cosinus#indice_de_Tanimoto Coefficient de Dice : http://en.wikipedia.org/wiki/Dice's_coefficient
  • 8. Le "duplicate content", c'est quoi ? Canonique (l'original) PageRank Date de crawl Dupliquée (la copie) Moins de visibilité Crawl affecté
  • 9. L e D u p lic a t e C o n t e n t Les différentes formes de duplicate content
  • 10. Les différentes formes de duplicate content 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html ???
  • 11. Les différentes formes de duplicate content 2. Le DC intersite http://www.siteweb.com/actu/france/ http://www.autresiteweb.com/actualites/ sarkozy-hollande.html sarkozy-hollande.html ???
  • 12. Les différentes formes de duplicate content 3. Le DC DUST (Duplicate URL, Same Text) ??? http://www.siteweb.com/actu/france/sarkozy-hollande/ http://siteweb.com/actu/france/sarkozy-hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande http://www.siteweb.com/actu/france/sarkozy-hollande/index.html http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
  • 13. Les différentes formes de duplicate content 4. Le DC par similarité des Title et meta description ???
  • 14. Les différentes formes de duplicate content 5. Le DC multilingue http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/ arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html ???
  • 15. L e D u p lic a t e C o n t e n t Les solutions contre le duplicate content
  • 16. Duplicate content : les solutions 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html ???
  • 17. Duplicate content : les solutions 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html 1ère solution : suffisamment modifier le second contenu pour le différencier du premier (réécriture manuelle, ajout de contenu, spinning, etc.)
  • 18. Duplicate content : les solutions 1. Le DC intrasite Des outils comme DuplicateContent.net (ou d'autres similaires) peuvent vous aider
  • 19. Duplicate content : les solutions 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html 2ème solution : balise canonical Dupliquée link rel=canonical href= Canonique http://www.siteweb.com/actu/france/sarkozy-hollande.html
  • 20. Duplicate content : les solutions 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html 3ème solution : désindexation Disallow: http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollan html (robots.txt) Ou meta name=robots content=noindex,follow
  • 21. Duplicate content : les solutions 1. Le DC intrasite Attention aux versions PDF de vos pages HTML (ou inversement) : http://actu.abondance.com/2011/09/google-et-lindexation-de-documents-pdf.html En revanche, un contenu traduit n'entre pas en duplicate content avec l'original…
  • 22. Duplicate content : les solutions 2. Le DC intersite http://www.siteweb.com/actu/france/ http://www.autresiteweb.com/actualites/ sarkozy-hollande.html sarkozy-hollande.html Même solution (mais plus compliquée) : balise canonical (ou réécriture ou désindexation) Dupliquée link rel=canonical href= Canonique http://www.siteweb.com/actu/france/sarkozy-hollande.html
  • 23. Duplicate content : les solutions 2. Le DC intersite Eviter de proposer le contenu complet de vos articles dans vos fils RSS. Proposer plutôt titre + chapo… La reprise d'un fil RSS contenant titre + chapo ne constitue pas un cas de DC.
  • 24. Duplicate content : les solutions 3. Le DC DUST (Duplicate URL, Same Text) ??? http://www.siteweb.com/actu/france/sarkozy-hollande/ http://siteweb.com/actu/france/sarkozy-hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande http://www.siteweb.com/actu/france/sarkozy-hollande/index.html http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
  • 25. Duplicate content : les solutions 3. Le DC DUST (Duplicate URL, Same Text) Solution : balise canonical link rel=canonical href= http://www.siteweb.com/actu/france/sarkozy- hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande http://www.siteweb.com/actu/france/sarkozy-hollande/index.html http://www.siteweb.com/actu/france/sarkozy-hollande/index.html? source=emailing
  • 26. Duplicate content : les solutions 3. Le DC DUST (Duplicate URL, Same Text) Solution : Vérifier dans les Webmaster Tools (Configuration du site Paramètres d'URL) les paramètres d'URL qui peuvent générer du DC…
  • 27. Duplicate content : les solutions 3. Le DC DUST (Duplicate URL, Same Text) Solution : 1. Indiquez uniquement les URL canoniques dans votre Sitemap ! 2. Faites attention à votre linking interne : http://www.votresite.com/ vs. http://www.votresite.com 3. Vérifiez que vos URL réécrites sont redirigées en 301 : http://www.votresite.fr/index.php?id=4 301 http://www.votresite.fr/apropos.html
  • 28. Duplicate content : les solutions 4. Le DC par similarité des Title et meta description ???
  • 29. Duplicate content : les solutions 4. Le DC par similarité des TITLE et meta description Solution : 1. Vérifier dans les Webmaster Tools (Diagnostic Suggestions HTML) 2. Corriger en différenciant suffisamment les TITLE et meta description de chaque page du site.
  • 30. Duplicate content : les solutions 5. Le DC multilingue http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/ arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html ???
  • 31. Duplicate content : les solutions 5. Le DC multilingue Solution : 1. Les balises multilingues http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/ arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html link rel=alternate link rel=alternate link rel=alternate hreflang=fr-fr href= hreflang=fr-be href= hreflang=fr-ch href= http://www.siteweb.fr/actu/s http://www.siteweb.fr/actu/s http://www.siteweb.fr/actu/s arkozy-hollande.html / arkozy-hollande.html / arkozy-hollande.html /
  • 32. Duplicate content : les solutions 5. Le DC multilingue Solution : 2. Indiquer le pays-cible dans les Webmaster Tools (Configuration du site Paramètres)
  • 33. L e D u p lic a t e C o n t e n t Conclusion
  • 34. Conclusion - Le DC n'est pas une pénalité pour un site (sauf spamdexing : http://support.google.com/webmasters/bin/answer.py? hl=franswer=66359), mais donne une moins bonne visibilité aux pages dupliquées. - Parfois le simple fait de corriger les problèmes de DC améliore grandement un référencement. - Il n'est pas nécessaire de faire une demande de reconsidération de site à Google après avoir corrigé du DC. - Les solutions existent. - En règle générale, elles fonctionnent, mais c’est souvent très long ;-) - Google devrait peut-être proposer une assistance adaptée aux gros sites web à ce sujet.
  • 35. Conclusion Petite webographie googlienne pour aller plus loin : New markup for multilingual content (05/12/2011) http://googlewebmastercentral.blogspot.com/2011/12/new-markup-for-multilingual-content.html More guidance on building high-quality sites (06/05/2011) http://googlewebmastercentral.blogspot.com/2011/05/more-guidance-on-building-high-quality.html Handling legitimate cross-domain content duplication (15/12/2009) http://googlewebmastercentral.blogspot.com/2009/12/handling-legitimate-cross-domain.html Reunifying duplicate content on your website (06/10/2009) http://googlewebmastercentral.blogspot.com/2009/10/reunifying-duplicate-content-on-your.html Duplicate content and multiple site issues (15/09/2009) http://googlewebmastercentral.blogspot.com/2009/09/duplicate-content-and-multiple-site.html Specify your canonical (12/02/2009) http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html Demystifying the duplicate content penalty (12/09/2008) http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html Duplicate content due to scrapers (09/06/2008) http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html Deftly dealing with duplicate content (18/12/2006) http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html Plus d'infos : requête intitle:duplicate content site:googlewebmastercentral.blogspot.com
  • 36. Conclusion Petite webographie non-googlienne pour aller plus loin : Similarité et Duplicate content : L'indice de Jaccard http://b1n.sp1n.me/seo/similarite-duplicate-content-indice-jaccard.109.html Algorithme de Simhash: Script PHP de calcul de similarité http://www.seoblack-inside.com/php-calcul-similaire-texte-simhash/ Ne pas confondre similarité et duplication de contenus; cas d’école http://www.webcontentspinning.com/ne-pas-confondre-similarite-et-duplication-de-contenus-cas-decole/ Détection de duplicate content http://www.webcontentspinning.com/detection/ Dis papa c'est quoi le duplicate content ? http://www.cyroul.com/web12/dis-papa-cest-quoi-le-duplicate-content/ Vol de contenu et duplicate content http://blog.axe-net.fr/duplicate-content-plagiat/ Google lutte contre les scrapers et encourage la dénonciation http://actu.abondance.com/2011/08/google-lutte-contre-les-scrapers-et.html Tout savoir sur le filtre Contenus Dupliqués de Google http://www.webrankinfo.com/dossiers/techniques/filtre-duplicate-content Lutter contre le duplicate content http://s.billard.free.fr/referencement/?2008/04/24/477-lutter-contre-le-duplicate-content Google Patent Granted on Duplicate Content Detection in a Web Crawler System http://www.seobythesea.com/2009/12/google-patent-granted-on-duplicate-content-detection-in-a-web-crawler-system/ Duplicate and Near Duplicate Documents Detection: A Review http://www.eurojournals.com/ejsr_32_4_08.pdf The Illustrated Guide to Duplicate Content in the Search Engines http://www.seomoz.org/blog/the-illustrated-guide-to-duplicate-content-in-the-search-engines
  • 37. L e D u p lic a t e C o n t e n t Merci :-) Support proposé par Olivier Andrieu - olivier@abondance.com