Duplicate Content

On parle de Duplicate Content (contenu dupliqué en français) lorsque des contenus similaires sont présents sur différentes pages web d’un même site ou sur différents sites. A priori, cela n’entraîne pas une pénalité Google, mais en cas de contenu identique sur deux sites, c’est la source que les moteurs de recherche considèrent comme originale qui obtiendra une bonne visibilité dans la SERP.

Qu’est-ce que le Duplicate Content ?

La notion de duplicate content occupe une place très importante dans l’univers du référencement SEO et des moteurs de recherche. Cependant, elle est sujette à de nombreuses interprétations qui ne reflètent pas toujours la réalité.

Définition du Duplicate Content

Le duplicate content évoque le fait qu’un même contenu soit présent sur plusieurs pages, au sein d’un même site ou sur différents domaines. Le contenu en question peut être une portion de texte, un paragraphe ou toute une page. Les moteurs de recherche ont des filtres qui leur permettent d’identifier systématiquement les contenus dupliqués et de les traiter suivant des règles spécifiques. Google utilise actuellement son filtre algorithmique Panda pour examiner la qualité et l’originalité des contenus se trouvant sur les sites que ses robots explorent.

Quelle est l’utilité du Duplicate Content ?

Sur beaucoup de sites internet, la duplication de contenu est la conséquence « naturelle » d’un certain nombre de facteurs. Par exemple, sur les plateformes d’e-commerce, cette pratique est parfois utilisée pour les fiches produits quand il est question de présenter une multitude d’articles identiques. Il peut s’agir de produits dont toutes les caractéristiques sont identiques, à l’exception de la couleur ou du nom. Parfois, le duplicate survient aussi lorsque les pages d’un site web sont proposées en plusieurs versions : standard, à imprimer, mobile, desktop…

Il convient donc de souligner que le contenu dupliqué n’est pas toujours une pratique qui part d’une mauvaise intention, même si elle reste préjudiciable dans tous les cas.

Le Duplicate Content interne et externe

On parle de duplicate content interne (ou contenu dupliqué intrasite) lorsque les pages dupliquées appartiennent à un même site internet. Ce type de duplication est généralement causé par des erreurs techniques ou le manque de vigilance du webmaster.

Le duplicate externe quant à lui intervient quand deux plateformes différentes ont le même contenu. C’est un phénomène courant qui peut être le fruit d’une redistribution du flux RSS ou tout simplement d’une intention de plagiat.

Les 3 principaux cas de Duplicate Content

La duplication de contenu peut se présenter sous trois différentes formes :

Les pages identiques
Les pages identiques avec balises title et description différentes
Les pages différents contenant les mêmes balises title et description

Passons en revue chacun de ces cas.

Les pages identiques

Il peut arriver que deux pages web présentent des contenus identiques à la virgule près. Elles contiennent ainsi le même texte, les mêmes images, les mêmes sous-titres et la même structure. Leurs balises meta (meta title, et meta description) sont également identiques.

On observe généralement cela sur les sites miroirs. Lorsque Google détecte ce type de duplicate, il peut garder une page qu’il considère comme référence et désindexer toutes les autres. Cela se produit lorsque les pages en question n’appartiennent pas au même domaine.

Les pages identiques avec balises title et description différentes

Un autre cas de duplicate courant est celui qui met en jeu plusieurs pages dont le contenu est similaire et dont les descriptions sont différentes. Dans ce cas, les requêtes portant sur le mot-clé principal de ces textes aboutiront à la page possédant la plus forte popularité (PageRank).

Avant que les autres pages puissent être visibles dans la SERP, les internautes devront cliquer sur « relancer la recherche en incluant les pages ignorées ». Par ailleurs, ces contenus peuvent également apparaître dans les pages de résultats pour les requêtes qui portent sur leurs contenus originaux.

Les pages différents contenant les mêmes balises title et description

Le duplicate content peut également être détecté par les moteurs de recherche si des pages différentes possèdent les mêmes balises title et description. Selon l’ampleur des signaux détectés par le filtre algorithmique, Google peut décider de présenter une seule page aux internautes dans la SERP au détriment des autres, comme dans le cas précédent. Parfois, ce cas de plagiat se solde par une pénalité à l’endroit des pages considérées comme copiées.

Quels sont les risques du Duplicate Content ?

Même si elle n’est pas toujours pénalisée au sens propre du terme par Google, la création de contenu dupliqué reste tout de même une pratique interdite, et ce, en raison des nombreux risques qu’elle entraîne.

Que dit Google sur le Duplicate Content ?

Google, à travers son blog des développeurs, invite tous les webmasters et gestionnaires de sites à éviter la création de contenus en double. En effet, l’équipe du moteur de recherche indique que le contenu dupliqué peut entraîner des conséquences négatives si le but de votre démarche est de tromper et manipuler les résultats de recherche afin de favoriser votre site (augmenter le trafic par exemple). Dans ces cas précis, Google pourra procéder à une désindexation et à un déclassement du site concerné. En conséquence, ce dernier ne s’affichera plus dans les SERP. Le moteur de recherche réalise ces types d’ajustements dans son indexation, car le duplicate content a des effets négatifs sur l’expérience utilisateur des internautes qui sont en quête d’informations pertinentes et utiles.

Dans les cas où le duplicate content n’est pas fait pour manipuler l’algorithme de Google, celui-ci doit tout de même faire des choix entre les pages présentant des contenus identiques. En prenant en compte un certain nombre de facteurs décisifs (date de première découverte, PageRank), il identifie la page originale et lui donne la priorité dans les résultats. Bien entendu, il peut arriver que pour un contenu donné, la page considérée comme canonique ne soit pas celle qui a vraiment publié le contenu en premier. C’est pour toutes ces raisons que la duplication de contenu est une pratique fortement déconseillée.

Peut avoir des répercussions sur votre référencement

Durant une session Q&R de Google en juin 2016, Andrey Lipattsev (Senior quality strategist chez Google) a indiqué que le duplicate content n’entraînait pas une « pénalité » en soi, mais qu’il pouvait influencer le référencement naturel d’un site. Comment ? Puisque Google est obligé de faire un choix lorsqu’il constate que des portions de textes équivalentes sont présentes sur plusieurs pages, cela implique forcément que certaines plateformes soient reléguées au second plan pour des requêtes. Par conséquent, ces pages sont désavantagées au profit de celles dont le contenu a été retenu. Cette perte de visibilité peut être préjudiciable si elle concerne plusieurs pages d’un même site.

De plus, lorsqu’un site internet fait du duplicate content en masse, il gaspille son budget de crawl. Les robots des moteurs de recherche passeront plus de temps à explorer le contenu des pages du site en double sans que cela apporte un plus en termes de référencement. Au contraire, la présence de contenu dupliqué fera que certains contenus originaux et d’excellente qualité pourront être potentiellement moins bien référencés. Voilà pourquoi il est important de faire un effort de création de contenu et d’éviter le plagiat.

En outre, vos liens externes (backlinks) qui pointent vers une page ayant du duplicate content auront moins de poids et risquent de ne pas influencer la popularité du site.

Comment éviter le Duplicate Content ?

Dans son blog des développeurs, Google a donné des conseils pratiques aux webmasters pour les aider à éviter le duplicate content. En voici quelques-uns parmi les plus importants.

Utiliser la balise rel=canonical

L’élément link rel canonical permet d’indiquer aux moteurs la version principale ou originale d’une page qui est dupliquée sur un ou plusieurs sites différents. On la place à la fois dans l’en-tête HTML de la page source et dans celle des pages qui sont des copies. La balise canonical de l’URL officielle pointera vers elle-même tandis que celle des URL dupliquées pointera vers la page originale. Cette pratique permet de faciliter la tâche à Google et d’éviter qu’il choisisse lui-même une page à privilégier.

Notez tout de même que la balise canonical n’est pas toujours la meilleure solution pour gérer les contenus dupliqués sur un site. Par exemple, pour les cas de duplication qui surviennent parce qu’une plateforme héberge du texte destiné à des pays différents parlant la même langue, c’est plutôt la balise Hreflang qu’il faut utiliser.

D’autres éléments tels que les attributs noindex ou nofollow permettent aussi dans une certaine mesure de lutter contre le contenu dupliqué ou de minimiser ses effets.

Limitez les répétitions et les contenus identiques

Quel que soit le type de site internet que vous gérez (e-commerce ou blog), la meilleure façon d’éviter le contenu dupliqué est de limiter les répétitions en créant un contenu original. Les textes que vous publiez sur votre site doivent avoir une forte valeur ajoutée pour les internautes et être dépourvus de plagiat. L’originalité est l’un des principes de base de la rédaction de contenu pour le web.

Plutôt que d’utiliser des variantes du même texte pour présenter les produits de votre catalogue, mettez en place une stratégie éditoriale qui vous permettra de créer un texte unique pour chaque article. Vous pouvez faire appel à des spécialistes de la rédaction SEO pour vous aider dans ce sens. Chez SEMJuice, nous pouvons vous aider à résoudre les problèmes de duplicate content déjà existant sur votre site en réécrivant les textes concernés et en effectuant les actions techniques qui s’imposent. Reconnus pour notre qualité rédactionnelle, nous proposons de la rédaction optimisée SEO pour différents types d’article : fiches-produits, pages d’accueil, articles de blog, etc… N’hésitez pas à nous contacter pour en savoir plus !

Demandez un devis sur mesure !

Outils pour détecter le Duplicate Content

La détection du contenu dupliqué est un excellent moyen de se prémunir contre les effets négatifs de cette pratique interdite. Pour y arriver efficacement, voici quelques outils que vous pouvez utiliser.

Screaming Frog

Screaming Frog est un webcrawler qui aide les webmasters à améliorer le référencement de leur site en analysant en profondeur l’ensemble de son contenu. Lorsqu’il est déployé, l’outil explore chaque page et identifie de façon très précise les URL, les meta descriptions, les titres de pages et les en-têtes dupliqués. Il est disponible sous forme d’application desktop pour Windows.

Screaming Frog est également utile pour l’identification des erreurs au niveau des serveurs, des liens rompus, et l’analyse des meta données. Quelles que soient l’envergure et la nature de votre plateforme web, vous pouvez l’analyser à l’aide de cet outil. La version gratuite de Screaming Frog donne droit à l’exploration de 500 URL de votre site. Pour lever cette limite, il faut acheter une licence annuelle.

Notez que ce webcrawler n’est utile que pour la détection du duplicate content interne. Pour identifier les sites web externes qui copient vos contenus, il faudra vous tourner vers d’autres outils.

Siteliner

Tout comme Screaming Frog, Siteliner est un webcrawler très efficace. Il crawle toutes les URLs du site que vous souhaitez analyser et identifie avec précision les liens rompus ainsi que les pages qui peuvent être préjudiciables pour votre référencement. Siteliner est en mesure d’analyser jusqu’à 25 000 pages d’un même site. Il est donc l’un des outils les plus indiqués si vous avez une plateforme d’e-commerce avec plusieurs milliers de pages à contrôler.

De plus, sa prise en main est très simple. Pour scanner un site avec Siteliner, il suffit d’accéder à la plateforme web de l’outil et de taper l’URL concernée, puis d’appuyer sur Go. L’outil est payant au-delà de 250 pages.

Kill Duplicate

Kill Duplicate propose un service de détection en temps réel permettant d’identifier les plateformes qui volent votre contenu. En plus de faire un travail d’identification, Kill Duplicate permet également de prendre les mesures nécessaires pour résoudre le problème. Plusieurs options sont disponibles pour cela :

Prise de contact avec le propriétaire de la plateforme ayant fait du plagiat
Prise de contact avec son hébergeur (au cas où la première démarche n’aboutit pas)
Dépôt de plainte auprès de Google

Kill Duplicate permet aussi de suivre avec simplicité les actions réalisées. Selon la formule choisie, Kill Duplicate est en mesure de faire une veille active pour 5000 URL, avec une fréquence de surveillance de 20 000 scans par mois.