X-Robots-tag

Le X-Robots-tag est une directive du protocole HTTP qui permet de spécifier aux robots des moteurs de recherche quels documents prendre en compte au moment d’indexer un site. C’est une solution efficace pour contrôler l’activité des spiders sur votre plateforme en ligne. Mais en quoi cela consiste-t-il exactement ? Quelle est son utilité dans le domaine de la recherche en ligne et du référencement ? Et comment l’utiliser sur votre site internet ? C’est ce que nous vous proposons de découvrir à travers le présent article.

Qu’est-ce que le X-Robots-tag ?

Pour répondre efficacement aux requêtes des internautes, le robot de Google accorde à chaque site un « budget de crawl » pour explorer un certain nombre de pages dans son arborescence. Pour être bien référencé et avoir une meilleure visibilité sur la toile, il est important d’optimiser la façon dont ce budget est dépensé. Pour cela, il existe plusieurs techniques que vous pouvez utiliser. Parmi celles-ci figure le fameux X-Robots-Tag.

Définition de X-Robots-tag

Derrière l’anglicisme « X-Robots-Tag » se cache un concept similaire au célèbre fichier robots.txt et à la balise meta robots. Concrètement, le X-Robots-Tag est une information envoyée par le serveur sous forme de réponse d’en-tête (header) HTTP à destination des moteurs de recherche. Il a pour but de contrôler l’exploration et l’indexation des plateformes web par les spiders des moteurs de recherche.

Ainsi, lorsqu’il est présent dans les fichiers .htaccess et httpd.conf d’un document, il peut empêcher les spiders de lire le contenu de la page ou de suivre les liens qui y sont insérés. Cette instruction a été introduite par Google en juillet 2007, mais elle est également prise en charge par Bing et Yahoo!.

Les différentes directives X-Robots-tag

Pour atteindre son objectif, le X-Robots-tag utilise plusieurs valeurs et directives. Parmi celles qui sont les plus en vues, on peut mentionner les différentes instructions suivantes.

X-Robots-tag: noindex

Avec l’attribut noindex, vous indiquez à Googlebot et ses homologues que le document en question ne doit pas être indexé. Cette valeur peut être utilisée en cas de page double pour spécifier le contenu qui doit être pris en compte.

X-Robots-tag: noarchive

Cette instruction vise à empêcher les robots d’exploration de mettre votre document HTML en cache pour un affichage ultérieur.

X-Robots-tag: nosnippet

En utilisant la valeur nosnippet dans l’en-tête HTTP d’une page, vous indiquez aux crawlers de ne pas afficher la description (snippet) de son contenu textuel dans la SERP (search engine result page).

X-Robots-tag: notranslate

Cet attribut indique aux algorithmes qu’il ne faut pas proposer la traduction du document concerné dans les résultats de recherche.

X-Robots-tag: noimagindex

Contrairement aux valeurs précédentes qui se rapportent aux textes, cette instruction s’applique uniquement au contenu visuel (image). Son objectif est d’interdire l’indexation des images présentes sur la page concernée.

X-Robots-tag: googlebot: nofollow

Il s’agit ici d’une indication à Googlebot de ne pas suivre les liens présents sur la page. Cela signifie que le robot de Google n’ira pas explorer les pages auxquelles renvoie le document contenant cette instruction.

X-Robots-tag: otherbot: noindex, nofollow

Cet attribut qui combine les deux valeurs, « noindex » et « nofollow » est également appelé l’instruction « none ». Dans ce cas précis, le user-agent est « otherbot ». Ainsi, lorsque l’instruction est déployée sur un document, les autres bots ne peuvent ni l’indexer ni explorer les liens qu’il contient.

L’utilisation de la directive X-Robots-tag

Si cette méthode de réponse HTTP s’avère très utile, sa mise en œuvre n’est pas aussi simple que l’on peut le croire. Pour réussir, il est important de savoir pourquoi utiliser cette instruction et comment procéder.

Pourquoi utiliser la directive X-Robots-tag ?

L’indexation et l’exploration des pages par les bots sont deux éléments indispensables pour toute stratégie SEO qui se veut efficace. Toutefois, pour avoir un bon référencement naturel et réussir sur la toile, il est parfois nécessaire d’empêcher les crawlers d’accéder à certains contenus. Il s’agit notamment des documents confidentiels et des pages obsolètes ou dupliquées qui n’apportent aucune valeur à votre visibilité en ligne.

C’est pour empêcher les moteurs d’afficher ces contenus que vous souhaitez conserver hors ligne qu’il est important d’utiliser l’instruction X-Robots-Tag. Avec ses multiples instructions et directives, cette balise d’en-tête HTTP est utile pour rediriger les bots vers les contenus qui ont le plus de valeur pour votre référencement naturel. Cela contribue énormément à l’optimisation du budget de crawl, puisque les spiders ne perdent pas de temps sur les pages inutiles.

Comment utiliser la directive X-Robots-tag dans l’en-tête ?

Pour mettre en œuvre la balise X-Robots sur votre site, vous devez accéder aux fichiers de configuration du logiciel de serveur. Sur un serveur Apache par exemple, vous pouvez utiliser le ficher .htaccess ou httpd.conf. Ainsi, pour ajouter une valeur noindex, nofollow à l’en-tête HTTP de vos documents .PDF, vous devez insérer l’extrait suivant dans le fichier de configuration du serveur :

< Files ~ “.pdf$” > Header set X-Robots-Tag “noindex, nofollow” < /Files >

Sur un serveur web NGINX, la balise X-Robots doit être intégrée dans le fichier .conf en respectant la syntaxe suivante :

location ~* .pdf$ { add_header X-Robots-Tag “noindex, nofollow”; }

Il est également possible d’indiquer un user-agent pour spécifier à quel robot s’applique la restriction imposée. Par exemple, pour interdire à Googlebot d’afficher le résumé d’un fichier .doc après l’URL dans les résultats de recherche, vous pouvez utiliser l’extrait suivant :

X-Robots-Tag: googlebot: nosnippet

La même valeur peut s’appliquer à Slurp ou à Bingbot. Pour cela, il suffit de personnaliser le code en fonction du spider visé. Cependant, lorsqu’aucun user-agent n’est spécifié, la balise s’applique systématiquement à tous les bots d’exploration.

Quand utiliser la directive X-Robots-tag ?

La balise X-Robots peut être utilisée lorsqu’il s’agit de donner des consignes aux moteurs de recherche concernant le crawl et l’indexation des pages non HTML. C’est le cas par exemple pour les documents disponibles sous l’un des formats suivants :

Word
Excel
PowerPoint
XML

Ce type de fichiers n’intègre pas de balises HTML et n’est pas concerné (dans la plupart des cas) l’utilisation du robots.txt. En dehors de ce contexte, les instructions X-Robots peuvent être utilisées lorsque vous souhaitez appliquer une restriction à l’échelle du site et pas seulement sur une ou deux pages.

Balises meta robots, robots.txt et directive X-Robots-tag

S’ils visent tous à contrôler l’activité des bots des moteurs de recherche sur les sites, ces trois éléments sont différents les uns des autres.

Les balises meta robots

Les balises meta robots sont assez simples à utiliser. Elles s’implantent directement dans la section Head du code source et permettent de restreindre le passage des crawlers. Pour atteindre cet objectif, elles utilisent les mêmes instructions que le fameux X-Robots des en-têtes HTTP. Ainsi, vous pouvez utiliser ces balises pour conditionner le passage des bots sur votre site. Par exemple, si vous souhaitez indiquer aux spiders de ne pas indexer une page, mais de prendre en compte les liens qu’elle contient, vous pouvez implanter l’extrait suivant dans le fichier source :

< meta name=“robots” content=“noindex, follow” / >

Toutefois, bien qu’elle soit très efficace, cette solution ne permet pas de couvrir l’ensemble du site. Elle s’applique uniquement à la page dans laquelle elle est insérée.

Le robots.txt

Le robots.txt est un fichier texte placé dans la racine du domaine d’un site web et qui permet de restreindre l’accès des bots à certains contenus. Pour cela, il utilise notamment la commande « disallow ». La syntaxe de cette commande ressemble généralement à ceci :

User-Agent: “…”
Disallow: /“…”

Ainsi, pour interdire au robot de Google d’accéder à votre page de produits qui se trouve à l’adresse http://www.votresite.com/page-produit, vous devez utiliser la commande suivante :

User-Agent: googlebot
Disallow: /page-produit

L’avantage, c’est que cette commande fonctionne également pour les documents non HTML. Toutefois, lorsqu’il est rédigé, le robots.txt peut être interprété de différentes façons par les spiders. Il peut donc arriver qu’une page bloquée par un robot soit indexée et référencée par un autre, ce qui est parfois préjudiciable pour le SEO.

La direction X-Robots-tag

Contrairement à ses deux homologues, le X-Robots des en-têtes HTTP se révèle très efficace, qu’il s’agisse de bloquer l’accès à des documents d’autres formats ou d’étendre une restriction à un site internet dans son ensemble. Vous pouvez l’utiliser pour interdire aux bots de référencer une image, une vidéo ou même un fichier audio (mp3). De plus, il permet d’éviter toutes les confusions et mauvaises interprétations au niveau des moteurs de recherche.

Cependant, sa mise en œuvre nécessite un minimum de compétence en configuration et administration serveur. Pensez donc à vous faire assister par un professionnel qualifié, si vous n’avez aucune compétence dans ce domaine.