Les bons tuyaux SEO

Pourquoi et comment désindexer des pages web

Article publié le 20 oct. 2023
Pourquoi et comment désindexer des pages web
  • Sommaire
  • Pourquoi désindexer une page web ?
  • Quel type de page désindexer sans risque ?
  • Les différentes méthodes pour désindexer une page
  • Comment empêcher une page d'être indexée ?
  • Comment désindexer une page sans perdre vos backlinks ?

La désindexation d'une page web est parfois indispensable pour l'optimisation du référencement naturel de votre site internet. Elle évite que les robots d'indexation des moteurs de recherche explorent les pages inutiles ou celles qui ont un contenu de mauvaise qualité.

Comment supprimer les pages web de l'index de Google sans risque ? La désindexation est-elle une action indispensable ? SEMJuice vous présente les méthodes efficaces pour désindexer vos pages inutiles en toute sécurité.

 

Pourquoi désindexer une page web ?

Auparavant, il était nécessaire d'indexer toutes les pages d'un site afin d'avoir un meilleur positionnement dans les pages de résultats des moteurs de recherche (SERP) et de générer du trafic. Depuis la mise à jour de Panda, Google privilégie cependant les contenus pertinents qui apportent une réelle valeur ajoutée à l'internaute et pénalise davantage les sites de mauvaise qualité. 

Si vous ne désindexez pas une page, les robots des moteurs de recherche indexeront toutes les pages de votre site internet sans distinction. Malheureusement, l'indexation des pages qui ne présentent aucun intérêt pour les utilisateurs contribue à augmenter le taux de rebond sur votre site. Ce dernier est en effet l'un des critères importants de positionnement des sites par les moteurs de recherche. Les algorithmes de Google analysent par exemple le comportement de l'internaute pour avoir une idée de la qualité et de la pertinence des informations présentes sur un site indexé. Pour cela, il associe les données du taux de rebond avec le temps que l'utilisateur passe sur un site. Par conséquent, dans les cas où les pages indexées augmentent le taux de rebond de votre site, cela ne fera que nuire au référencement naturel de ce dernier.

De plus, la désindexation des pages contribue à l'optimisation du budget crawl. Ce dernier représente le nombre de pages qu'un moteur de recherche comme Google peut explorer sur votre site dans un temps donné. Pour rappel en 2020 - selon Hubspot -  les robots de Google ont indexé près de 130 milliards de pages web et visité plus de 20 milliards de sites. Vu le travail à faire, il est probable qu'ils ne visitent pas la totalité des pages de votre site. C'est d'autant plus vrai qu'avec l'avènement de l'IA, il y a fort à parier que le nombre de contenus disponibles va exploser, ce qui conduira Google à durcir ses critères d'indexation. 

Vous devez donc remplir le fichier « robots.txt » avec des instructions afin d'orienter les robots d'exploration vers les pages à forte valeur pour qu'elles soient mieux positionnées dans les SERP. Le fichier « robots.txt » indique en effet aux robots d'exploration d'un moteur de recherche les fichiers auxquels ils peuvent accéder sur votre site web.

Quel type de page désindexer sans risque ?

Pour savoir si une page doit être désindexée ou non, vous devez analyser son contenu afin de déterminer si elle répond réellement à la requête ou à l'intention de recherche de l'internaute. Du point de vue SEO, cherchez à savoir si le contenu est pertinent et s'il contient des backlinks (liens entrants). Ces derniers représentent des liens présents sur un site web et pointant vers le vôtre.

Voici les pages que vous pouvez normalement désindexer sans nuire à votre site :

  • les pages des données confidentielles et autres contenus similaires,
  • les pages obsolètes avec des contenus événementiels, des services saisonniers ou promotionnels que vous ne proposez plus,
  • les pages qui contiennent des contenus dupliqués,
  • les pages indexées par erreur,
  • les pages avec des contenus peu pertinents qui nuisent à votre référencement naturel,
  • les fichiers PDF qui proposent un contenu identique à une autre page HTML (langage utilisé pour la structuration d'une page web et de son contenu)

Les pages avec des contenus qui posent des problèmes d'ordre juridique ou qui contiennent des informations sensibles doivent également être désindexées pour le bien de votre stratégie SEO. Vous pouvez aussi désindexer les contenus protégés ou encore les pages de remerciement à l'endroit des clients, par exemple.

Pour éviter d'avoir à désindexer l'une de vos pages en raison de son contenu pauvre et inutile, n'hésitez pas à commander vos contenus optimisés chez SEMJuice. 

 Demandez un devis sur mesure pour du contenu optimisé SEO qualitatif

 

Les différentes méthodes pour désindexer une page

Pour désindexer une page de votre site web, vous pouvez utiliser diverses solutions en fonction de sa nature.

Utilisez la balise « noindex » pour désindexer une page

C'est de loin le meilleur moyen d'empêcher les robots de Google d'afficher une page dans les SERPs. Très appréciée par les développeurs, les webmasters et Google, son déploiement ne nécessite aucune connaissance technique particulière. Une fois mise en place, la balise « noindex » notifie au robot d'exploration de ne pas référencer votre page au moment où il explore votre site.

Pour désindexer une ou plusieurs pages HTML avec cette balise, il suffit de suivre ces quelques étapes :

  • ajoutez ce code "meta name=”robots” content=”noindex” sur la ou les pages à désindexer dans votre site,
  • ajoutez la directive "meta name=”robots” content=”noindex,nofollow” pour éviter que les robots ne suivent pas également vos liens,
  • intégrez ce code "meta name=”robots” content=”noimageindex” pour désindexer une image.

Si vous souhaitez déréférencer une page sur un seul moteur de recherche, il suffit de remplacer « robot » par « googlebot », « bingbot » ou encore « Qwantify » qui correspondent respectivement aux robots de Google, Bing et Qwant.

Attention ! Le but n'est pas de bloquer l'accès aux pages concernées. Assurez-vous donc que le fichier « robots.txt » ne contient pas d'instructions qui bloquent l'exploration.

La désindexation des fichiers sans code source avec l'en-tête HTTP X-Robots-Tag noindex

La mise en place de l'en-tête « HTTP X-Robots-Tag noindex » est la seule méthode pour désindexer certaines pages web et les fichiers de type PDF, document Word et images qui ne contiennent pas de code source. Cette méthode nécessite cependant des compétences techniques. Si vous n'en avez pas, faites appel à un développeur pour éviter les risques de mauvaises manipulations susceptibles de causer des dysfonctionnements sur votre site.

Pour commencer, modifiez le fichier « .htaccess » (utilisé par certains serveurs web). S'il s'agit de la désindexation des fichiers PDF, insérez le code suivant :

  • Files ~ “.pdf$”
  • Header set X-Robots-Tag « noindex »
  • /Files

Si au contraire, vous voulez déréférencer des images, insérez le code suivant :

  • Files ~ “.(png|jpe?g|gif)$”
  • Header set X-Robots-Tag « noindex »
  • /Files
  • Header set X-Robots-Tag « noindex »

Par ailleurs, la désindexation des pages supprimées n'est pas immédiate. Ajoutez donc un code HTTP 404 (ressource inexistante) ou HTTP 410 (ressource inexistante et non remplaçable) pour désindexer les pages supprimées si elles ne sont pas remplacées par d'autres éléments.

Vous pouvez également utiliser la balise canonique pour gérer les pages dupliquées. Il suffit d'ajouter le code <link rel=« canonical » href=« https://votresite.com/page-exemple/» /> dans le code source de toutes les pages de contenu dupliqué en intégrant l'URL de votre page principale.

Désindexez votre page avec le plugin Yoast de WordPress

L'installation du plugin Yoast est l'une des meilleures solutions pour déréférencer des pages des sites WordPress, car cette partie de leurs pages n'est pas accessible. Une fois que le plugin est installé, rendez-vous sur la page à désindexer.

Allez ensuite sur l'onglet Yoast puis cliquez sur « Avancé ». Choisissez l'option « Non » pour empêcher les moteurs de recherche d'afficher le contenu dans les SERPs. Enregistrez pour terminer le processus.

Comment empêcher une page d'être indexée ?

Pour empêcher le référencement d'une page non indexée par les robots d'exploration, vous pouvez utiliser le fichier « robots.txt ». Pour commencer, tapez le nom de domaine de votre site suivi de /robots.txt depuis votre navigateur (exemple : https://votresite.com/robots.txt). Cela vous permettra de vérifier si le fichier « robots.txt » est présent à la racine de votre serveur. S'il n'apparaît pas, créez-le en suivant à la lettre les consignes de Google à ce sujet.

Après cette étape, vous aurez à votre disposition ces trois commandes :

  • User-agent : pour désigner le crawler autorisé ou non à parcourir votre site web.
  • Disallow : sert à interdire l'exploration de la page.
  • Allow : pour autoriser l'exploration de la page.

Importez enfin le fichier terminé sur votre site internet. Si vous rencontrez des difficultés, n'hésitez pas à contacter votre hébergeur. Utilisez également l'outil de test de la Search Console (outil de Google destiné à améliorer le référencement naturel de votre site) pour tester le fichier importé. Cette action a pour but de vous assurer qu'il est balisé et accessible au public.

Comment désindexer une page sans perdre vos backlinks ?

Pour préserver vos backlinks sur une page à désindexer, mettez en place une redirection 301 (redirection permanente) de l'ancienne page vers la nouvelle. Si vous souhaitez faire une redirection permanente, modifiez le fichier « .htaccess » du serveur.

Pour mettre la redirection sur une page, voici ce que vous devez faire : « RedirectPermanent /repertoire/page-a-rediriger.html http://www.nom site.net/repertoire/page-de-destination.html ».

S'il s'agit d'un répertoire, utilisez « RedirectPermanent /repertoire http://www.nom-de-domaine.com/repertoire-de-destination. » Pour un nom de domaine, utilisez l'instruction « RedirectPermanent / http://www.nom-de-domaine.com/ ».

La désindexation est indispensable pour les pages qui contiennent des contenus dupliqués, peu pertinents ou problématiques. Pour désindexer vos pages, la meilleure solution est d'utiliser la balise « noindex ». L'utilisation de l'en-tête « HTTP X-Robots-Tag noindex » est nécessaire pour déréférencer les fichiers et les pages sans code source. Vous pouvez également mettre en place le fichier « robots.txt » pour empêcher l'indexation d'une page de votre site.

SEMJuice vous propose des solutions clés en main

Restez informés de l’actu SEO et de nos news