publié le 13 sept. 2021
DUST - Duplicate URL, Same Text

Définition SEO du DUST - Duplicate URL, Same Text

On parle de Duplicate URL, Same Text (DUST) lorsqu'une même page web, avec un code source unique, est accessible depuis plusieurs URL différentes. Dans une telle situation, un moteur de recherche peut penser qu'il s'agit de plusieurs pages distinctes et considérer cela comme du contenu dupliqué. La balise HTML canonical permet de corriger cette anomalie.

DUST - Duplicate URL, Same Text : définition

Le contenu dupliqué peut se présenter sous plusieurs formes sur un site internet. Le DUST est l'une d'entre elles. Contrairement aux autres formes de duplicate, celle-ci n'est pas liée à la rédaction de contenu. Elle est plutôt due à un petit souci technique très répandu. Tous les sites peuvent y faire face à un moment ou à un autre.

Qu'est-ce que le DUST ?

Comme l'indique son nom, le DUST désigne une situation dans laquelle plusieurs URL mènent vers une seule et unique page web. Ces liens peuvent provenir des autres pages du site (maillage interne) ou d'autres emplacements sur la toile (backlinks).

Ce qui fait de cette situation un problème majeur pour le référencement naturel d'un site internet, c'est le mode de fonctionnement des crawlers de Google. Ceux-ci considèrent notamment l'URL comme le référentiel permettant d'identifier une page et son contenu. Autrement dit, une URL = une page web dans le monde des robots d'indexation. Par conséquent, lorsqu'ils tombent sur différentes adresses menant vers une même page, ils les considèrent comme plusieurs pages aux contenus dupliqués. Ainsi, 8 URL pointant vers une page X seront perçues comme 8 pages X.

Exemple concret de DUST

Prenons l'exemple d'un domaine dont la page d'accueil a pour adresse : https://www.sitexyz.com. Cette même page d'accueil est également accessible via plusieurs autres adresses dont la syntaxe varie légèrement :

  • http://www.sitexyz.com/
  • https://www.sitexyz.com/
  • http://www.sitexyz.com
  • https://sitexyz.com/
  • https://www.sitexyz.com/index.php
  • http://www.sitexyz.com/index.php?source=emailing

Pour un humain, ces nombreuses déclinaisons d'URL sont équivalentes, car elles mènent toutes vers une page unique, avec le même contenu et le même code source. Toutefois, pour les crawlers de Google, la présence du slash à la fin de l'URL, le protocole HTTP et toutes les autres variations de syntaxe sont autant d'éléments qui génèrent du duplicate content. Aux yeux des bots, nous sommes donc en présence de 7 pages d'accueil dupliquées.

Comme vous pouvez le voir, les cas de liens dupliqués peuvent très vite se multiplier sur un site et devenir des problèmes si rien n'est fait pour les corriger.

Les conséquences du DUST dans le domaine du e-commerce

En raison de leur structure complexe, les sites de e-commerce sont particulièrement concernés par le phénomène du DUST. On l'observe principalement sur les pages qui proposent des filtres à facettes et sur les fiches de présentation d'articles.

Pour illustrer, prenons l'exemple d'une fiche produit d'une chemise blanche qui se décline en plusieurs tailles : S, M, L. La fiche est configurée de manière à ce que l'utilisateur puisse sélectionner une taille de son choix sans changer de page. Si les paramétrages sont laissés par défauts, le gestionnaire du site peut se retrouver avec plusieurs URL de type DUST pour cette même page :

  • maboutiqueenligne.com/chemiseblanche-S
  • maboutiqueenligne.com/chemiseblanche-M
  • maboutiqueenligne.com/chemiseblanche-L

Si plusieurs couleurs et matières sont disponibles, cela générera aussi de nombreuses autres URL qui en réalité renverront vers cette seule et unique page. Les moteurs de recherche les considéreront comme des liens uniques.

La même duplication inutile peut se produire lorsque différents filtres sont appliqués sur une page catégorie pour la sélection d'articles. Chaque combinaison générera un lien qui sera considéré comme une page dupliquée par Google.

Duplicate Content, Same Text : quels sont ses effets sur votre référencement ?

Le DUST peut avoir des effets néfastes sur la visibilité d'un site internet sur Google. Face à cette forme de duplication de contenu, les bots du géant de Mountain View sont obligés de choisir un lien comme étant canonique (original) et déconsidèrent tous les autres. Ainsi, l'URL que Google choisira peut ne pas être celle que vous souhaitez véritablement mettre en avant.

De plus, au cas où les adresses déconsidérées par l'algorithme du moteur de recherche ont des backlinks, leur poids SEO sera réduit, ce qui peut saboter vos efforts de référencement à travers le netlinking.

Comment lutter contre le DUST - Duplicate Content, Same Text ?

Comme toutes les autres formes de contenu dupliqué, le DUST peut être corrigé. Pour y arriver, vous avez le choix entre :

  • L'intégration d'une balise canonical à vos URL
  • La mise en place d'une redirection 301
  • L'implémentation du plug-in Yoast SEO, si votre site tourne sous WordPress

Intégrer une balise canonical à vos URL

La balise canonical sert à indiquer à Google l'URL principale d'une page web. Ainsi, au lieu de laisser le moteur choisir lui-même une page canonique, vous pouvez lui imposer une adresse principale à prendre en compte.

Comme pour la balise meta robots, la mise en place de la balise rel canonical se fait dans la partie header du code source de la page. Elle se présente comme suit (sans les espaces au niveau des chevrons) :

< head >

< link rel="canonical" href="https://www.sitexyz.com" / >

< /head >

L'adresse à indiquer à l'intérieur de la balise est celle de l'URL canonique de la page. Cette méthode permet également de transférer vers l'URL canonique la popularité qu'apporte l'ensemble des backlinks qui pointent vers les autres adresses dupliquées.

Mettre en place une redirection 301

La solution de la redirection permanente 301 est pratique si le problème est dû aux protocoles HTTPS et HTTP ou au préfixe www. Pour rectifier la situation dans ce cas, il vous suffira de rediriger toutes les variantes de votre nom de domaine vers l'adresse principale. Avec ce code HTTP, Google transférera également tous les backlinks des adresses connexes vers votre URL principale.

Sous WordPress, intégrer le plug-in Yoast SEO

Si votre site internet tourne sous WordPress, alors vous pouvez aisément vous prémunir contre le phénomène de liens dupliqués. Pour cela, il suffit d'intégrer le plug-in Yoast SEO à l'architecture de votre site. Par défaut, l'extension définit une balise canonique pour toutes vos pages afin d'éviter que les spiders de Google soient désorientés si les adresses d'accès deviennent nombreuses. Bien entendu, vous avez également la possibilité de définir manuellement une URL canonique pour chacune de vos pages, si tel est votre souhait.