Gagnez en trafic, captez des prospects par l’indbound et l’outbond marketing

Découvrez nos service d’agence en lead Generation 

Emparez-vous des premières places sur Google

Découvrez nos service d’agence en SEO 

Création/ optimisation d’un site selon les normes en UX et neuro-marketing


Découvrez nos service d’agence en neuro-marketing 

Le guide du “DUPLICATE CONTENT” pour les référenceurs débutants !

Le duplicate content, en français contenu dupliqué, est une monnaie courante qu’on peut observer un peu partout sur internet. On parle de contenu dupliqué quand deux articles sur des pages de sites différents se ressemblent comme deux gouttes d’eau.
Il y a quelques années, la pratique de plagiat était une façon de créer du contenu rapidement pour plus vite référencé son site. Cette technique de référencement est aujourd’hui pénalisé par les moteurs de recherche.
Malheureusement, nous observons que le «duplicate content» perdure, par négligence sans intention malveillante. Ce type de pratique peut arriver par accident, ou par mauvaise connaissance. Le plagiat de contenu n’est pas systématiquement un acte de vol de contenu, mais l’usage de contenu dupliqué a des conséquences négatives sur le référencement de votre site par les moteurs de recherche.
Alors qu’elles sont les bonnes pratiques ?

duplicate content

Conceptual business illustration with the words duplicate content

Qu’est-ce qu’un duplicate content ?

Selon le célèbre moteur de recherche Google, un duplicate content fait référence aux contenus substantiels entre deux pages à l’url différente et qui sont similaires. Le duplicate content est alors la façon d’identifier deux contenus qui se ressemble.
Votre site peut présenter 4 types de «duplicate content»
– Pages au contenu identique, mais comportant la méta balise TITLE et méta description différente
– Pages au contenu différent, mais comportant les mêmes balises TITLE et méta description
– Pages au contenu identique et aux mêmes balises TITLE et méta description. Ce cas s’appelle page miroir.
– Plusieurs Urls pointant vers une même page.

Voici des types de contenus dupliqués, mais que les moteurs de recherche ne considère pas comme du duplicate content :
– Les articles et fiches produits de site de ventes, présents sur plusieurs urls,- La version imprimable des pages d’un site,

– Les pages mobiles type AMP (Accelerated Mobile Pages) .

 

Savoir différencier duplicate content externe et interne

Le duplicate content interne fait référence au contenu identique sur un même site. Le duplicate content externe quant à lui concerne les duplications de contenus d’un autre site vers son site. Il est assez difficile de gérer un duplicate content externe du fait qu’on n’a pas forcément accès à la source du site original. La duplication en externe se passe surtout entre des sites e-commerce ou de marketplaces (amazon, cdiscount…).

En tant que « Webmaster », la publication de billets de blogues, des communiqués de presse, des descriptions de produits ou des reportages dupliqués partiellement ou totalement d’autres sources peut avoir des conséquences majeures sur son site. En effet, les moteurs de recherche priorisent les sites apportant une valeur ajoutée et les classent en haut de la liste.

Il est donc important de savoir diversifier le style rédactionnel. Il se peut également qu’on veuille publier des articles avec un message similaire sur un même site. Au pire, ce site sera sanctionné par Google.

Il ne faut pas s’attendre à ce que son site soit bien placé dans les SERP de Google si l’on a copié son contenu d’après les sources d’autres sites. On doit mettre une « valeur ajoutée » à ses contenus pour être priorisé par Google. Optez pour des contenus originaux, pertinents avec des mots clés spécifiques.

 

Les différents niveaux de plagiat :

C’est quoi le contenu « Boilerplate » ?

Un contenu boilerplate regroupe tout texte original réutilisé dans la rédaction de nouveaux contenus sans être réellement modifié. Pour identifier ce genre de contenu sur un site, Google cherche si les blocs de texte présent sur une page ne sont point similaires à d’autres pages du site. Il est donc important de rédiger des contenus différents pour des produits similaires qu’on poste sur son site même si leurs caractéristiques sont les mêmes. Le cas échéant, les présentations sur les pages différentes contribueraient à réduire la notoriété du site au lieu de mieux le référencer. Le contenu boilerplate peut aussi s’agir d’un bouton présent sur l’ensemble de ses pages. Un bouton simple comme « imprimer cette page » mal paramétré peut par exemple être perçu comme une duplication de contenu par Google.

Qu’est-ce que le contenu « near-duplicate » ? 

À la différence du contenu boilerplate, le near-duplicate s’applique aux textes légèrement modifiés, inspirés des contenus déjà présents sur un site. En effet, Google dispose d’un algorithme spécifique pour détecter ce genre de contenu. Il est donc important de vérifier le taux de plagiat de ses textes avant de les publier sur son site.

 

Comment Google gère le duplicate content ?

Pour le cas des pages similaires, Google essaiera de trouver la source d’origine du contenu et privilégiera l’indexation de la page d’origine par rapport aux autres pages incluant du contenu dupliqué.
Le “Duplicate Content” est géré par un filtre dans le référencement de Google et non par une pénalité. La page source est correctement indexée par Google, mais la ou les pages dupliquées seront retirées des résultats ne sont pas pour autant désindexées. Le site qui compte des pages du type «duplicate content» conservent leur PageRank, sauf dans le cas de vol de contenu avéré.
Il est essentiel de vérifier le pourcentage de plagiat de ses articles avant de les publier officiellement sur son site.
Voici quelques outil pour détecter le duplicate content  :

 https://www.copyscape.com/

plagiarism-checker

Kill Duplicate

 

Quels sont les bonnes pratiques

Exemple de page considérée comme du «duplicate content» par Google fréquemment rencontré : les pages à la fois en http et en https. Un mauvais paramétrage de la migration http à https engendre à une double indexation du site, soit une indexation pour votre site en http et en https. Il convient donc de bien paramétrer la migration du protocole https.
Autres exemples : les pages archives ou les tags catégories qui sont laissés libre d’indexation dans les CMS. La solution : utiliser des extensions comme Yoast pour désactiver l’indexation de ces contenus.
Quant aux pages dupliquer la meilleure solution reste de modifier le contenu. Mais dans les cas ou ses pages sont très similaires par exemple des landing pages personnalisées pour des campagnes publicitaires,l’usage d’une balise canonique est recommandée.

 

Mot de la fin

Au-delà des problèmes de SEO qu’engendre le plagiat de contenu, le vol de contenus est soumis au droit d’auteur, moral et patrimonial, régit notamment par les articles L.111-1 et L.123-1 du code la propriété intellectuelle. Ca ne rigole pas 🙁

N’hésitez pas un faire appel à un consultant en référencement.

Auteur de l'article

Création/ optimisation d’un site selon les normes en UX et neuro-marketing


Découvrez nos service d’agence en neuro-marketing 

Gagnez en trafic, captez des prospects par l’indbound et l’outbond marketing

Découvrez nos service d’agence en lead Generation 

Emparez-vous des premières places sur Google

Découvrez nos service d’agence en SEO