Robots.txt

Le fichier robots.txt ou simplement robots.txt est un fichier format texte situé à la racine d’un site web, il permet d’indiquer aux robots des moteurs de recherche les zones à explorer : pages web ou répertoires entiers. Comment fonctionne le robots.txt ? En quoi est-il utile sur un site ? Et comment créer un tel fichier pour votre site internet ?

Le robots.txt est un fichier texte que le webmaster place à la racine d’un site pour donner des consignes aux crawlers quant à l’exploration de ce dernier. L’objectif est de spécifier aux spiders ce qu’ils peuvent ou ne peuvent pas crawler sur le site. Il permet en quelque sorte de donner des autorisations de crawl aux bots, au sujet d’une page ou d’une ressource présente sur un site.

À quoi sert le fichier robots.txt ?

Le robots.txt sert principalement à contrôler la façon dont les spiders explorent les différentes ressources d’un site. L’idée est de spécifier aux bots quelle URL, quel fichier multimédia ou quel répertoire du site est destiné au crawl. Il est donc utile pour empêcher un robot ou une sélection de bots d’explorer un contenu selon son type. Cela permet de contrôler le trafic d’exploration, afin d’éviter que le serveur d’hébergement soit submergé par les requêtes des moteurs de recherche.

En dehors de cette utilisation, le robots.txt est également utile pour spécifier l’emplacement du sitemap aux crawlers.

Comment fonctionne un robots.txt ?

Pour atteindre son objectif, le robots.txt fonctionne comme un protocole d’exclusion des bots. En effet, lorsqu’ils arrivent sur un site, les crawlers téléchargent en premier le fichier robots.txt, afin de prendre connaissance des règles et autorisations qu’il contient. Ce n’est qu’après cette étape qu’ils peuvent commencer à crawler le site. Si le fichier indique par exemple aux spiders de ne pas analyser un document spécifique sur votre plateforme, celui-ci ne sera pas pris en compte durant l’exploration du site.

Exemple d’un fichier robots.txt

En principe, un fichier robots.txt contient trois types d’informations :

Le crawler ciblé
L’adresse de la page ou du dossier concerné
La consigne donnée au spider

Chacune de ces informations est intégrée en utilisant une syntaxe bien définie, pour être facilement compréhensible par les spiders. Pour mieux comprendre comment cela fonctionne, supposons que vous souhaitez indiquer aux crawlers qu’ils ne peuvent pas explorer le dossier /intranet à l’exception de la page /login.php qu’il contient. Pour transmettre cette directive aux bots, votre protocole robots.txt doit prendre la forme suivante :

User-agent : *
Disallow : /intranet
Allow : /intranet/login.php

Cette commande s’applique à tous les moteurs de recherche en général. Pour l’adapter à un moteur de recherche spécifique, il suffit de définir le nom de son spider au niveau de l’instruction « User-agent: ». Dans le cas du robot de Google par exemple, voici à quoi cela ressemblera :

User-agent : Googlebot

Robots.txt : Google ignore désormais les directives Noindex et Nofollow

Le robots.txt est principalement destiné à gérer l’exploration des ressources et répertoires présents sur un site. Pour cela, il utilise officiellement deux commandes principales : Allow et Disallow. Cependant, certains webmasters utilisaient dans ce fichier des directives non officielles telles que Noindex et Nofollow. L’idée était d’empêcher les spiders d’indexer une ressource ou de suivre les liens qu’elle contient.

Cette utilisation du robots.txt n’étant pas conforme au standard fixé, le géant californien a décidé d’arrêter l’interprétation de ces commandes non officielles par ses bots. Ainsi, depuis septembre 2019, Googlebot ignore Noindex et Nofollow au sein du robots.txt.

Quelles étaient les missions du fichier robots.txt avant 2019 ?

Avant les nouvelles dispositions prises par Google en 2019, le protocole robots.txt était utilisé pour :

Empêcher les bots de parcourir des contenus
Interdire aux bots d’ajouter certains contenus à leur index
Supprimer un site entier de l’index des moteurs

Empêcher les robots de parcourir certains contenus et fichiers

Il y a quelques années, le robots.txt servait à empêcher les bots d’accéder à certaines ressources présentes sur un site. En fonction des commandes qu’il contenait, ce fichier pouvait empêcher les spiders de lire certains documents afin de prendre connaissance de leur contenu. Mais cela n’est plus le cas depuis 2019. En effet, même avec l’utilisation de la commande Disallow, Googlebot peut prendre connaissance de la page concernée, si d’autres plateformes redirigent vers son contenu. Ainsi, la page affectée peut toujours apparaître dans la SERP de son moteur.

Interdire l’indexation de certaines pages ou parties de pages

Il était également possible pour les webmasters de bloquer l’indexation de certaines pages sur un site en utilisant le protocole robots.txt. Cette utilisation du fichier visait à faire disparaître les ressources concernées de l’index de Google. Autrement dit, celles-ci ne s’affichaient plus dans la SERP du moteur.

Empêcher l’indexation d’un site lors d’une refonte

En dehors du cas précédent, le robots.txt pouvait être utilisé pour empêcher les crawlers d’indexer un site en refonte ou en « preprod ». L’idée était d’éviter que les contenus du site soient accessibles dans les pages de résultats avant que ce dernier ne soit publié. Cependant, avec les modifications apportées en 2019, cela n’est plus possible. Pour faire simple, le robots.txt peut empêcher le crawl d’une page, mais il n’empêche pas Google d’indexer son URL.

Les missions et les limites du fichier robots.txt

Même s’il ne permet plus de limiter l’affichage des pages web dans la SERP, le robots.txt reste très utile pour désindexer certains types de contenus. Voici ce que vous devez savoir sur les missions et les limites de cette méthode de blocage des URL.

Bloquer l’indexation de fichiers multimédias

Le fait que le robots.txt ne permette plus de contrôler l’indexation des pages HTML ne le rend pas complètement inutile. Conformément aux documentations de Google, ce protocole de blocage est très efficace pour désindexer les documents non HTML et les contenus multimédias :

Vidéos
Images
Audio
Fichiers de style
Scripts

Lorsque vous utilisez une instruction Disallow sur ces différents types de contenus, Google ne les explorera pas et ne les indexera pas. Toutefois, avant de l’utiliser, assurez-vous que l’absence de ces ressources n’affectera pas l’arborescence du site et sa vitesse de chargement.

Instructions non compatibles avec tous les moteurs de recherche

Le robots.txt possède aux moins deux limites majeures. D’une part, les commandes qu’il implémente ne sont pas forcément prises en compte par tous les moteurs. Certains spiders peuvent donc accéder à vos contenus malgré l’utilisation de ce fichier. Pour éviter que vos informations soient récupérées par ces spiders, l’idéal sera de penser à d’autres méthodes de blocage. Vous pouvez par exemple placer tous les documents confidentiels présents sur votre site dans un répertoire protégé par un mot de passe.

Par ailleurs, la syntaxe du robots.txt peut être interprétée de différentes façons en fonction du spider. Ainsi, certains crawlers peuvent ne pas comprendre les commandes utilisées dans ce fichier de blocage.

Comment accéder au fichier robots.txt d’un site web ?

Pour accéder au fichier robots.txt d’un site (http://www.exemple.com), il suffit de taper la requête « http://www.exemple.com/robots.txt » dans votre navigateur et de lancer la recherche. Si le site dispose d’un fichier robots.txt, ce dernier s’affichera à l’écran avec toutes les commandes qu’il contient.

Dans le cas contraire, votre navigateur affichera une erreur 404, indiquant qu’aucune ressource du site n’est interdite aux bots.

Comment créer un fichier robots.txt ?

Vous souhaitez créer un protocole d’exclusion de bot pour votre site ? Il existe deux méthodes différentes que vous pouvez utiliser : la technique manuelle et la génération automatique.

Créer un fichier robots.txt manuellement

Cette technique dite manuelle nécessite plusieurs étapes.

Choisir un éditeur de texte et créer un fichier texte

Pour commencer, vous devez choisir un éditeur de type « bloc-notes ». Pour cela, vous avez différentes options. Vous pouvez par exemple utiliser l’éditeur intégré de votre ordinateur ou installer un logiciel comme Notepad++, Sublime Text, TextMate, Atom… Une fois que vous avez choisi votre éditeur, vous pouvez passer à la création de votre protocole d’exclusion de spiders.

Respecter les instructions et la syntaxe du robots.txt

Il s’agit ici de l’étape la plus importante : la configuration du protocole robots.txt. Vous devez respecter une syntaxe spécifique. Celle-ci est assez simple et comprend seulement 4 commandes que voici.

User-agent

C’est à ce niveau qu’il faut spécifier le spider ciblé. Il n’est pas possible de mentionner les noms de plusieurs spiders pour la même directive. Si vous souhaitez que la directive s’applique à plusieurs bots à la fois, vous devez récrire la commande pour chacun d’entre eux.

Sitemap

Cette commande vous permet de renseigner l’adresse à laquelle se trouve votre sitemap. Les spiders peuvent donc y accéder afin de mieux appréhender la structure de votre site.

Disallow:

C’est cette directive qui permet de mentionner aux crawlers que tel document ou telle ressource ne doit pas être exploré.

Allow:

Cette commande vient spécifier aux bots que telle partie du site peut être explorée malgré la directive Dissalow.

Respecter la structure du fichier robots.txt

Pour être pris en compte par les spiders, votre protocole d’exclusion doit respecter une structure bien définie. Cette structure est assez simple : une seule directive par ligne et aucune ligne vide. De plus, le fichier doit être encodé en UTF-8 avec des lignes séparées par CR (Carriage Return) ou par LF (Line Feed). Cela permet de faciliter l’analyse et la compréhension par les crawlers. Il faut également rappeler que le fichier doit respecter une taille maximale de 500 kibioctets (kio) pour être pris en compte par Google.

Générer automatiquement votre fichier robots.txt via votre CMS

La méthode manuelle vous semble trop compliquée ? Vous pouvez générer automatiquement votre protocole d’exclusion à partir de votre CMS. Ceci se fait généralement via un plug-in adapté. Sur WordPress par exemple, vous pouvez le faire avec Yoast SEO. Pour cela, rendez-vous sur votre tableau de bord WordPress puis sélectionnez Yoast SEO. Ensuite, cliquez sur « Outils » puis choisissez « Éditeur de fichiers ». Dès que cela est fait, un éditeur s’affichera à l’écran et vous pourrez y insérer les différentes commandes que vous souhaitez appliquer, en respectant la syntaxe et la structure recommandées. Enfin, cliquez sur le bouton « Enregistrer » pour sauvegarder les configurations.

Comment tester un fichier robots.txt ?

Vous avez réussi à créer un protocole d’exclusion de bot pour votre site ? Quelle que soit la méthode utilisée, il est important de tester votre fichier pour vous assurer qu’il ne contient aucune erreur. Une option efficace sera de tester votre fichier directement dans la Search Console de Google.

Pour cela, connectez-vous à votre compte puis accédez à l’interface de l’outil. Ensuite, cliquez sur « Exploration » dans le volet de navigation (à gauche) puis sélectionnez « Outil de test du fichier robots.txt ». Après cela, collez le contenu de votre protocole d’exclusion dans l’éditeur qui s’affiche à l’écran, puis cliquez sur « Tester » en bas de la fenêtre. À la fin du test, l’outil affichera le nombre d’erreurs détectées, afin que vous puissiez les corriger.