Noindex

En SEO, la balise no index est une instruction donnée aux moteurs de recherche de ne pas indexer une page web spécifique. Cette directive est généralement utilisée via la balise Meta Robots et l’en-tête X-Robots-tag (elle pouvait aussi l’être dans le fichier robots.txt). Comment fonctionne-t-elle exactement à présent ? Et pourquoi l’utiliser sur votre site internet ? Voici tout ce que vous devez savoir sur le Noindex pour un meilleur usage en référencement naturel.

Qu’est-ce que le Noindex ?

Le No index est un attribut utilisé en SEO pour interdire l’indexation d’une page web ou d’une ressource sur un site internet. Il s’agit d’une instruction implémentée au sein de la balise Meta Robots ou de l’en-tête HTTP pour indiquer aux spiders qu’ils ne doivent pas rajouter une page spécifique à leur index. L’idée est d’empêcher les robots d’exploration d’afficher l’URL concernée au sein de leurs pages de résultats.

À quoi sert le No index ?

En principe, lorsqu’un robot tel que Googlebot arrive sur une page web, il suit tous les hyperliens qu’il contient et récupère le document pour l’ajouter à son index. Il s’agit du principe de base du référencement naturel. Pourtant, certaines ressources présentes sur un site peuvent s’avérer inutiles, voire nuisibles pour le classement SEO de ce dernier. C’est pour empêcher les robots d’accéder à ces ressources et d’archiver les informations qu’elles contiennent que l’attribut N oindex est utilisé.

Cette commande a pour but de spécifier aux bots qu’ils ne doivent pas indexer tel contenu ou telle page sur une plateforme en ligne.

Lorsqu’elle est utilisée sur un site, elle permet plusieurs choses. D’une part, elle donne la possibilité de garantir la discrétion des données et informations que l’on ne souhaite pas rendre visible dans les SERP. D’autre part, elle contribue à l’optimisation du budget de crawl, car les spiders seront systématiquement redirigés vers les ressources du site qui ont le plus de valeur et ne perdront pas de temps sur les documents jugés inutiles pour le PageRank.

No index vs No follow : à ne pas confondre

S’ils sont tous les deux des attributs HTML, No index et No follow sont deux directives très distinctes qu’il ne faut surtout pas confondre. En effet, si l’attribut content= »noindex » est utilisé pour désindexer une ressource donnée sur une plateforme en ligne, cela n’est pas le cas pour la commande rel= »nofollow ». Cette instruction est plutôt utilisée pour indiquer aux spiders qu’ils ne doivent pas suivre un lien hypertexte spécifique au sein d’un corpus de texte. Ainsi, lorsqu’elle est présente dans les propriétés d’un hyperlien, cela n’empêche pas les robots d’ajouter la page web contenant ce lien à leur index.

Comment fonctionne le No index ?

Pour atteindre son objectif, le No index fonctionne un peu comme un panneau de signalisation « STOP » sur le parcours des spiders à travers les contenus d’un site. Lorsqu’il est présent dans une balise Meta Robots ou dans l’en-tête HTTP d’une URL, il en bloque l’accès aux crawlers. Toutes les informations présentes sur le document cible ne seront donc pas prises en compte, y compris les composants et les instructions HTML telles que :

La balise Title
La Meta Description
Les éventuelles directives incluses dans le code source
La balise Canonical

En d’autres termes, le moteur de recherche va purement et simplement considérer votre page comme inexistante.

No index : pourquoi ne pas indexer certaines pages de votre site web ?

Plusieurs situations peuvent vous amener à désindexer certaines ressources de votre site ou à bloquer l’accès aux robots d’exploration des Search Engines. C’est le cas par exemple lorsque certaines sections de votre plateforme en ligne sont « pauvres en contenus » ou lorsqu’elles contiennent du duplicate content.

Pages manquant de contenus

Il peut s’agir ici des documents contenant des informations obsolètes ou des sections dont les articles ne sont pas encore prêts à être publiés. En cas d’indexation par les robots, ces ressources dites « pauvres en contenu éditorial » peuvent impacter négativement votre SEO. Sur Google par exemple, les sites n’ayant pas assez de contenus peuvent se voir attribuer une pénalité par le filtre Panda. Ce qui entraîne généralement une perte de trafic et une baisse de popularité. Pour éviter toute mauvaise surprise, il est donc nécessaire de bloquer le crawl de ces documents.

Pages contenant du duplicate content

Les conséquences néfastes du duplicate content sur les performances SEO des sites internet ne sont plus à prouver. Même si cela n’entraîne pas systématiquement une pénalité Google, l’impact sur le référencement naturel n’est pas négligeable. En effet, cela peut entraîner le gaspillage du budget de Crawl et réduire ainsi les chances d’être bien référencé sur les moteurs de recherche. Dans ce cas précis, la solution la plus efficace est d’empêcher les crawlers d’accéder aux documents en double.

Pages en PDF

En dehors des deux cas précédents, il peut être nécessaire d’utiliser le No index si vous disposez d’une version PDF de certaines pages de votre site. Ces fichiers non HTML sont parfois des sources de duplicate content. De plus, lorsqu’ils sont indexés, cela peut réduire votre trafic internet, puisque l’internaute peut cliquer sur le lien dans la SERP et télécharger le document sans même ouvrir votre page. Ce qui réduit votre trafic organique et affecte indirectement votre classement dans les résultats de recherche.

Pages peu utiles pour les robots

Il s’agit ici des sections de votre site qui n’ont aucun intérêt pour votre référencement SEO. Ce sont généralement des pages de type :

« Mon compte »
« Contactez-nous »
« Membres »

Même si elles sont utiles du point de vue des utilisateurs, ces ressources de votre site ne contribuent pas à votre PageRank. Les indexer revient donc à gaspiller votre budget de crawl.

Noindex : comment désindexer une page ?

Pour désindexer une ressource de votre plateforme en ligne avec la directive Noindex, vous avez deux possibilités :

Intégrer la commande dans une balise Meta Robots
Ajouter l’instruction à l’en-tête HTTP

Avec ces deux méthodes, vous pouvez constater la désindexation complète du document ciblé en 15 jours. Pour cela, vous devez utiliser une syntaxe spécifique en fonction de l’option choisie. Voici comment procéder.

Via la balise Meta Robots « noindex »

L’implémentation de la directive Noindex au sein de la Meta Robots est assez simple. Pour le faire, vous n’avez qu’à introduire la balise suivante dans la section < head >…< /head > du code source de la page cible :

< meta name= »robots » content= »noindex » >

Cette commande s’applique à l’ensemble des robots d’exploration présents sur la toile. Pour cibler un spider en particulier, vous pouvez personnaliser la valeur name= »robots » en fonction de vos besoins. Ainsi, pour demander au robot de Google de ne pas analyser votre document web, votre instruction Noindex doit prendre la forme suivante :

< meta name= »googlebot » content= »noindex » >

Avec cette commande, le moteur de recherche Google n’indexera pas votre page. Cependant, elle reste accessible pour les autres Search Engines.

Via l’en-tête HTTP X-Robots-tag

Pour configurer un en-tête de réponse Noindex pour une URL donnée, vous devez accéder aux fichiers de configuration de votre serveur. Dès que cela est fait, créez un en-tête HTTP dans lequel vous insérez la commande :

X-Robots-Tag: noindex

Voici à quoi cela ressemble dans la pratique :

HTTP/1.1 200 OK
Date: Fri, 2 July 2021 16:32:51 GMT
(…)X-Robots-Tag: noindex
(…)

Cet en-tête HTTP interdit à tous les spiders dans leur ensemble d’accéder à l’URL cible et d’explorer son contenu.

La fin du Noindex dans le fichier Robots.txt

Comme l’indique le blog Google Search Central, l’implantation de la commande Noindex dans le fichier Robots.txt n’a jamais été documentée par la firme de Mountain View. Même si certains webmasters utilisaient cette directive au niveau du Robots.txt, cela ne correspond pas aux standards fixés par le moteur de recherche. D’après le géant californien, cette utilisation contournée du Noindex nuit à la présence des sites internet au sein de sa SERP. Ainsi, depuis le 1er septembre 2019, Google n’interprète plus le Noindex lorsqu’il est placé dans le Robots.txt.