Désindexation

La désindexation est une pratique SEO qui consiste à retirer de l’index des moteurs de recherche certaines pages d’un site web. Il s’agit généralement de contenus de mauvaise qualité qui ne doivent pas être présentés aux internautes dans les pages de résultat de recherche pour des raisons de pertinence.

Qu’est-ce que la désindexation ?

La désindexation fait partie des notions de base que tout bon référenceur doit maîtriser. Elle occupe une place importante au sein de toutes les stratégies de référencement naturel modernes.

Définition de désindexation

La désindexation désigne l’action par laquelle un webmaster indique aux robots des moteurs de recherche qu’ils doivent déconsidérer certaines pages de son site pour des raisons techniques bien précises. Cela permet de ne pas proposer des contenus de mauvaise qualité ou dépourvus d’utilité aux internautes. Le webmaster fait donc un tri sélectif parmi ses pages et garde dans l’index uniquement celles qui méritent véritablement d’être présentes dans la SERP. C’est une pratique encouragée par Google, car elle permet de satisfaire convenablement les internautes et donc d’améliorer l’expérience utilisateur.

La désindexation à l’origine

De l’avènement des premiers moteurs de recherche en 1990 au début des années 2010, il n’y avait aucune règle particulière en ce qui concerne la désindexation. Durant cette époque, l’indexation de toutes les pages d’un site web par les bots des moteurs de recherche était presque systématique. Le contenu était simplement mis à la disposition des plateformes de recherche, qui se chargeaient alors tant bien que mal de séparer le bon du moins bon, en fonction de leurs capacités techniques respectives.

Mais la donne a complètement changé en 2011 avec l’arrivée de Google Panda. C’est à partir de cette année-là qu’un nouveau pan de l’univers du SEO a véritablement vu le jour, celui de la désindexation des textes pauvres ou sans valeur ajoutée. Bien entendu, certains webmasters utilisaient déjà la désindexation avant 2011, mais pas de manière aussi étendue et élaborée.

Désindexation : l’impact de Google Panda

C’est l’arrivée de la mise à jour Panda qui a incité les référenceurs, webmasters et spécialistes SEO à revoir entièrement leur approche en matière de mise à disposition des contenus aux bots d’indexation. En effet, ce filtre a apporté d’importants changements dans la sphère du référencement naturel.

Qu’est-ce que l’algorithme Panda de Google ?

Panda est un filtre que le moteur de recherche Google a déployé sur son algorithme de classement afin de lutter contre la prolifération des contenus sans valeur ajoutée sur ses pages de résultats. Il a été mis en œuvre pour la première fois le 24 février 2011 outre-Atlantique avant d’être déployé en Europe et dans le reste du monde le 11 août de la même année. Depuis mars 2013, le filtre fait partie intégrante de l’algorithme de Google et fonctionne en temps réel.

Google Panda sanctionne principalement les fermes de contenus, c’est-à-dire les sites qui hébergent une grande quantité de textes sans réelle valeur ajoutée publiés dans le seul but de générer du trafic. Il sanctionne également les textes générés automatiquement et le spam.

Les répercussions sur le référencement des sites web

Panda a fondamentalement changé la manière dont les sites sont référencés et classés sur les pages de résultats. Désormais, il n’est plus possible de faire du bourrage de mots-clés ou du remplissage pour se retrouver en bonne position. Seuls les sites internet qui créent un contenu à forte valeur ajoutée, utile aux internautes, peuvent obtenir un bon classement.

En résumé, pour avoir un bon référencement et ne pas se faire épingler par Google Panda, il faut éviter les pratiques peu recommandables telles que le contenu dupliqué, la création de contenu automatique et le spam.

Désindexation VS blocage des robots de crawl

Il est important de ne pas confondre désindexation et blocage des bots d’exploration. En effet, comme nous l’avons souligné précédemment, la désindexation permet de retirer une section d’un site de l’index de Google pour que des contenus de faible qualité n’apparaissent pas/plus dans les résultats de recherche. Par contre, le blocage de l’exploration est une directive qui interdit de façon formelle aux bots des moteurs de recherche de crawler une section du site et d’analyser son contenu. Ce sont donc deux actions qui n’ont pas le même objectif et qui ne sont pas interchangeables.

À titre illustratif, si vous bloquez l’exploration d’une section qui héberge un contenu que vous ne souhaitez plus voir apparaître sur la page de résultats, les bots de Google ignoreront tout simplement ce contenu. Toutefois, elle restera accessible dans la SERP. Et même si vous couplez cela avec une fonction de désindexation, les robots d’exploration ne pourront pas la prendre en considération, car ils ne l’analyseront pas.

Voilà pourquoi il est important de se limiter aux balises de désindexation lorsqu’on souhaite retirer une page de l’index de Google.

Pourquoi la désindexation est-elle utile ?

La désindexation est un excellent moyen d’optimiser son référencement sans craindre des pénalités Google pour pratiques frauduleuses. Voici deux avantages concrets de cette technique.

Optimiser votre budget de crawl

En référencement naturel, cette notion fait référence au nombre de pages maximal que les bots des moteurs de recherche décideront d’explorer et d’analyser sur un site en fonction d’un certain nombre de critères : vitesse de réponse du serveur, qualité du contenu, fréquence des mises à jour… En termes simples, c’est une mesure de l’attention que les moteurs de recherches sont prêts à donner à votre site.

Lorsque les pages de contenus inutiles d’un point de vue SEO ne sont pas désindexées, les crawlers perdent du temps à les explorer et à les classer. Le budget crawl qui aurait dû servir au traitement de contenus qualitatifs est ainsi gaspillé. C’est pour cela qu’il est très important de faire un tri sélectif et de désindexer les contenus pauvres afin de faciliter la tâche aux moteurs de recherche.

Éviter certaines pénalités Google

Comme souligné plus haut, Google Panda fonctionne désormais en continu et inflige des pénalités aux sites dont le contenu est pauvre. La nature des pénalités Panda varie énormément en fonction de la directive qui a été enfreinte par le webmaster. Elles peuvent aller d’un simple déclassement sur certaines requêtes à un blacklistage entier. Dans ce dernier cas, les pages de votre site disparaissent définitivement de la SERP et ne peuvent plus être indexées à nouveau.

Par conséquent, pour éviter d’être déclassé ou de perdre de la visibilité en raison d’une sanction algorithmique ou manuelle, il vaut mieux réaliser soi-même les désindexations nécessaires sur son site.

Désindexation : quelles pages désindexer ?

Certains éléments sont spécifiquement concernés lorsqu’on parle de désindexation de pages sans intérêt pour le SEO. Il s’agit des :

Pages de résultats internes
Pages dupliquées
Formulaires non conformes
Textes répétés/spinnés
PDF proposant des contenus déjà disponibles en HTML
Contenus éphémères et obsolètes

Les pages de résultats internes

Lorsqu’un site atteint une certaine envergure, il devient indispensable d’y implémenter un moteur de recherche interne pour améliorer l’expérience utilisateur de l’interface. Cependant, il ne faut pas oublier de désindexer les pages de résultats internes, car elles ne sont d’aucune utilité pour les internautes sur la SERP de Google.

Les pages contenant du duplicate content

On parle de duplicate content lorsque plusieurs pages web hébergent des textes identiques. Il peut s’agir de pages présentes sur un même site (duplicate interne) ou sur deux sites internet différents (duplicate externe). Avoir beaucoup de pages dupliquées n’est pas une bonne chose, car Google n’en considérera qu’une seule comme étant originale. C’est pourquoi il vaut mieux désindexer vos contenus dupliqués pour exploiter efficacement l’attention que les moteurs de recherche donnent à votre site.

Les pages avec des formulaires

Certains types de formulaires peuvent être assimilés à des contenus de piètre qualité. C’est notamment le cas des formulaires qui pointent vers une page déjà indexée ou ceux qui donnent sur des pages sans contenus. Ces formulaires doivent être désindexés, car ils n’apporteront aucune valeur ajoutée aux internautes qui recherchent une information sur Google.

Les pages avec des contenus répétés/spinnés

Le content spinning consiste à multiplier artificiellement (à l’aide d’un robot) un texte original en plusieurs variantes identiques de sorte à faire croire aux moteurs de recherche qu’il s’agit de textes différents ayant le même sens. Dans la majorité des cas, les contenus spinnés sont des textes de mauvaise qualité. Il faut donc les désindexer pour ne pas être visé par Google Panda.

Les pages avec des PDF, des contenus éphémères et obsolètes

Tout comme pour le duplicate content, il est inutile de faire indexer des URL de fichiers PDF dont le contenu est déjà disponible en HTML sur le site. Il en va de même pour les pages éphémères et celles qui sont déjà obsolètes.

Si votre site est en refonte ou si vous avez des informations confidentielles sur certaines pages, il est également important de les désindexer pour que Google ne les intègre pas dans sa SERP.

Comment désindexer une page web ?

Pour désindexer une page de votre site, vous aviez auparavant le choix entre trois techniques. Découvrez-les ci-dessous.

Utiliser le fichier Robots.txt

La directive noindex a été longtemps utilisée dans le fichier Robots.txt pour indiquer aux crawlers qu’une page doit être désindexée. Sa syntaxe est la suivante (sans les espaces avant et après les chevrons) : < meta name=”robots” content=”noindex” >

User-agent: *

Noindex: /page-a.html

Dans cette ligne de code, Page-a.html désigne l’adresse de la section concernée.

Cependant, depuis 2019, cet attribut n’est plus pris en charge par Google dans le fichier Robots.txt. Il est donc inutile de l’utiliser à présent.

Mettre en place la balise meta robots « noindex »

La balise meta robots « noindex » est à placer dans l’en-tête de la page que vous souhaitez désindexer. Sa syntaxe est la suivante :

Programmer la directive X-Robots-tag

Cette directive du protocole HTTP est généralement utilisée pour la désindexation des contenus qui ne sont pas au format HTML. Il peut s’agit de PDF, de documents Word ou Excel.

Par exemple, pour désindexer l’ensemble des fichiers PDF sur un site hébergé sur un serveur apache, il suffit d’ajouter dans le fichier .htaccess la ligne de code suivante (sans les espaces avant et après les chevrons) :

< Files ~ « .pdf$ » >
Header set X-Robots-Tag « noindex, nofollow »
< /Files >

La programmation peut aussi être effectuée pour les images.