Balise Meta Robots

La Balise Meta Robots est une balise HTML utilisée dans la section Head du code source et qui permet de fournir un certain nombre de directives aux robots des moteurs de recherche au sujet du crawl d’une page web. Elle est généralement utilisée pour contrôler l’activité des spiders durant leur passage sur un site internet.

Qu’est-ce que la Balise Meta Robots ?

Lorsqu’il s’agit d’optimiser un site pour l’exploration et l’indexation sur les moteurs de recherche, les webmasters sont parfois amenés à empêcher les user-agents d’accéder à certaines ressources jugées inutiles ou sans intérêt pour le référencement naturel SEO. Dans ce processus, plusieurs solutions peuvent être utilisées. Parmi celles-ci figure la fameuse Balise Meta Robots.

Définition de la Balise Meta Robots

Une Balise Meta Robots est une portion de code utilisée dans le fichier HTML et qui fournit des informations précises aux crawlers sur la façon dont ils vont explorer, indexer et parcourir le contenu d’une page internet. Cet élément du fichier source permet d’indiquer aux robots des moteurs quelles actions ils peuvent mener ou non lorsqu’ils parcourent un document web. Il est ainsi possible de contrôler l’activité des robots afin d’optimiser la façon dont le budget de crawl est dépensé et obtenir de cette manière un meilleur référencement SEO.

Quelle est la différence entre la Balise Meta Robots et le fichier Robots.txt ?

Tout comme la Meta Robots, le fichier Robots.txt permet de donner des directives aux spiders des moteurs de recherche. Toutefois, ces deux éléments sont très différents l’un de l’autre. En effet, la Meta Robots s’applique à une page spécifique sur un site. Ainsi, lorsqu’elle est utilisée sur une page, elle permet de spécifier à Googlebot et ses concurrents la manière dont ils vont traiter cette dernière durant le crawl.

La différence avec le Robots.txt, c’est que ce dernier peut s’appliquer à l’échelle du site. En principe, ce fichier sert à indiquer aux user-agents s’ils ont le droit d’accéder à une section ou à un groupe de pages sur une plateforme web. Il ne permet donc pas de contrôler le travail des robots sur les contenus qui leur sont accessibles.

Pourquoi auriez-vous besoin d’empêcher une page d’être explorée ?

En règle générale, il est important de laisser les crawlers accéder à votre site pour apparaître dans l’index des moteurs et dans leurs résultats de recherche. Cependant, toutes les ressources de contenus présentes sur un site n’ont pas besoin d’être indexées. C’est le cas par exemple pour :

Les documents confidentiels
Les pages non finalisées
Les pages dupliquées
Les contenus à faible valeur ajoutée

Sécuriser des informations et des pages

Votre site internet contient des sections ou des documents confidentiels ? Qu’il s’agisse de vos données ou de celles de vos visiteurs, ce type de contenus n’est pas destiné au grand public. Pour réduire les chances que ces informations apparaissent sur la toile, il est nécessaire d’empêcher l’exploration par les bots. Cela permet d’éviter que ces données confidentielles s’affichent dans la SERP.

Bloquer les robots de spam

Un Spambot est un robot conçu pour diffuser des spams sur les sites internet à travers des commentaires sournois, des liens factices ou des logiciels malveillants en vue de collecter des données sensibles. Lorsqu’un robot de spam accède à votre site, cela peut nuire à votre réputation en ligne et réduire vos chances d’avoir un meilleur classement sur les pages de résultats des moteurs de recherche. Pour éviter cela, vous pouvez bloquer l’exploration des contenus sur lesquels les Spambots ont introduit des logiciels malveillants ou des commentaires factices.

Empêcher l’accès à certaines pages non finalisées

Le but principal des spiders, c’est de collectionner des contenus de qualité avec des informations complètes et pertinentes pour nourrir leur index. Ainsi, s’ils découvrent des documents non finalisés avec du contenu incomplet sur votre site et les parcourent, cela peut impacter négativement votre SEO. Pour ne pas en arriver là, l’idéal est d’empêcher les robots de crawler ce type de contenus. Vous pouvez par exemple utiliser un attribut Meta Robots pour bloquer l’indexation des pages concernées jusqu’à ce qu’elles soient prêtes à être publiées.

Bloquer du contenu dupliqué

Si vous êtes dans le web depuis quelques années, alors vous savez à quel point le duplicate content interne peut être contreproductif pour votre stratégie digitale. D’une part, cela entraîne le gaspillage du budget de crawl, puisque les bots repassent plusieurs fois sur les mêmes contenus. Par ailleurs, la présence de contenus en double est sévèrement sanctionnée par Google. Dans ce cas précis, il est nécessaire de bloquer l’indexation des documents dupliqués avec des balises Meta Robots. Cela permet de garantir que chaque section autorisée au crawl est unique.

Les différentes valeurs de la Balise Meta Robots

Pour atteindre son objectif, la Balise Meta Robots utilise différentes valeurs pour donner des instructions et des directives très précises aux spiders. Voici quelques-unes des valeurs les plus utilisées.

Balise Meta Robots noindex/index

Les valeurs Noindex et Index servent à indiquer aux robots si le contenu en question doit être indexé ou pas. Par exemple, pour spécifier aux crawlers qu’ils ne doivent pas indexer une page donnée, il suffit d’insérer la commande suivante dans la section Head du code HTML :

< meta name= »robots » content= »noindex » >

Par contre, si vous souhaitez que la page soit indexée, vous devez utiliser la valeur Index comme dans l’exemple suivant :

< meta name= »robots » content= »index » >

Cependant, cette valeur est très rarement utilisée, puisque l’absence du Noindex est considérée par défaut comme une permission d’indexation par les robots. Ainsi, pour qu’une page soit prise en compte lors du crawl, il suffit de ne pas utiliser l’attribut content= »noindex » au sein de sa Balise Meta.

Balise Meta Robots nofollow/follow

Les directives Nofollow et Follow de la Balise Meta Robots sont utilisées pour spécifier à l’user-agent s’il peut ou non prendre en compte et suivre les liens présents sur une page pour en découvrir le contenu. Si vous souhaitez par exemple bloquer l’exploration des liens sur une page de forum, vous pouvez utiliser la valeur Nofollow en respectant la syntaxe suivante :

< meta name= »robots » content= »nofollow » >

L’utilisation de cette directive signifie pour les spiders qu’ils ne doivent explorer aucun lien présent dans le document concerné.

Son absence sur une page est traduite comme étant une instruction Follow. Ce qui signifie pour Googlebot et ses concurrents qu’ils peuvent suivre tous les liens présents dans son contenu. Autrement dit, il n’est pas nécessaire d’utiliser une balise pour que les spiders explorent vos liens.

Balise Meta Robots all/none

Au sein de la Balise Meta Robots, la directive All est l’équivalent des instructions « index, follow », soit :

< meta name= »robots » content= »index, follow » >

Lorsqu’elle est utilisée, cette commande indique aux bots qu’ils peuvent non seulement indexer la page, mais aussi explorer les hyperliens qu’elle contient.

Pour ce qui est de l’attribut None, il équivaut à la combinaison « noindex, nofollow », soit :

< meta name= »robots » content= »noindex, nofollow » >

Cette valeur signifie pour les crawlers qu’ils ne doivent ni indexer le document ni explorer les URL hypertextes qu’il contient.

Balise Meta Robots nosnippet

La valeur Nosnippet de la Balise Meta Robots empêche l’affichage d’un extrait de contenu ou d’un aperçu de vidéo au sein de la SERP. Pour cela, elle respecte la syntaxe suivante :

< meta name= »robots » content= »nosnippet » >

En utilisant cette commande, vous spécifiez aux robots qu’ils ne doivent pas afficher la description de votre page dans leurs résultats de recherche.

Balise Meta Robots max-snippet

Contrairement au Nosnippet qui interdit systématiquement l’affichage de la méta-description, la valeur Max-snippet permet de limiter la longueur de l’extrait qui sera affiché. Cette commande ressemble généralement à ceci :

< meta name= »robots » content= »max-snippet:[nombre] » >

Vous pouvez ainsi définir le nombre de caractères qui s’affichera dans votre méta-description. Par exemple, pour limiter l’extrait à 100 caractères, votre Balise Meta Robot doit se présenter comme suit :

< meta name= »robots » content= »max-snippet:100 » >

Cependant, faites attention ! En utilisant la valeur 0 (zéro) au niveau de la variable « [nombre] », Google n’affichera aucun extrait de votre document. Par contre, si vous utilisez la valeur -1, la longueur de la description ne sera pas limitée.

Balise Meta Robots noarchive/archive

Dans la Balise Meta Robots, l’instruction Noarchive permet d’indiquer aux spiders qu’ils ne doivent pas afficher la version en cache d’une page dans les résultats de recherche. Son implémentation ressemble à ceci :

< meta name= »robots » content= »noarchive » >

Avec cette instruction dans l’entête HTML, la SERP n’affichera pas le lien en cache de votre document au sein des résultats. En principe, il n’existe pas d’attribut content= »archive » pour spécifier le contraire. Si vous souhaitez que votre lien en cache apparaisse dans la SERP, il suffit de supprimer la balise Noarchive.

Balise Meta Robots notranslate

Pour certaines requêtes, Google affiche un lien qui donne accès à la version traduite d’une page donnée. Pour interdire que ce lien de traduction automatique s’affiche pour votre page web dans les résultats de recherche, vous pouvez utiliser la valeur Notranslate :

< meta name= »robots » content= »notranslate » >

Balise Meta Robots unavailable_after

Unavailable_after est une instruction qui permet de fixer l’heure et la date auxquelles les robots doivent arrêter de crawler une page spécifique. Pour cela, elle utilise la syntaxe suivante :

< meta name= »robots » content= »unavailable_after:[date] » >

Par exemple, si vous souhaitez qu’une ressource de votre site n’apparaisse plus dans les SERP à partir du lundi 02-aôut-2021 12:00:00 UTC, il vous suffit de personnaliser la variable « [date] » en procédant comme suit :

< meta name= »robots » content= »unavailable_after:lundi 02-aôut-2021 12:00:00 UTC » >

La directive X-Robots-tag, une alternative à la Balise Meta Robots

Tout comme les Balises Meta Robots, les directives X-Robots-tag permettent de contrôler l’activité des crawlers sur les sites internet. Cette solution supporte la plupart des valeurs et instructions qu’utilise la Meta Robots. Vous pouvez donc l’utiliser pour mettre en œuvre une commande Noindex, Nofollow ou Notranslate sur n’importe quelle URL.

Cependant, le X-Robots-tag s’applique directement dans l’entête HTTP des pages, contrairement aux Balises Meta Robots qui s’implémentent dans le code HTML. Son utilisation est donc plus complexe, puisqu’elle nécessite d’accéder aux fichiers de configuration du serveur. Toutefois, le X-Robots-tag constitue une alternative intéressante à la Balise Meta Robots, notamment dans le cas des fichiers qui ne sont pas au format HTML : PDF, Word, Excel… Elle est également très utile lorsque les directives appliquées sont à l’échelle du site et pas seulement au niveau d’une page donnée.