Disallow

Disallow: est une directive qu’un webmaster peut utiliser dans un fichier Robots.txt pour indiquer aux robots des moteurs de recherche qu’une page ou un répertoire complet d’un site web n’est pas à explorer.

Que signifie Disallow: ?

La balise Disallow (littéralement, Refuser en français) revêt une très grande importance dans l’univers du référencement SEO. Tout comme la balise meta robots Noindex et l’attribut Nofollow, elle influence le comportement des crawlers des moteurs de recherche vis-à-vis des pages et des ressources d’un site internet.

Définition de Disallow:

Lorsque les robots d’exploration des moteurs de recherche (par exemple le Googlebot ou le Bingbot) accèdent à un site internet pour le crawler et indexer ses pages, ils tiennent compte des directives fournies dans le fichier Robots.txt qui se trouve à la racine du site. La directive Disallow: sert à interdire à ces robots d’explorer certaines sections du site. Il peut s’agir d’une seule page, d’un groupe de pages d’un document ou d’un répertoire tout entier. Il est également possible d’interdire l’exploration de toutes les pages de votre site avec cette instruction.

Parfois, la directive Disallow: du fichier Robots.txt est utilisée conjointement avec Allow: qui permet d’autoriser l’exploration d’une URL spécifique au sein d’un dossier ou d’un répertoire interdit d’accès. Cette commande n’est cependant pas standardisée, car elle s’applique uniquement à Googlebot. Les autres user-agents ne sont pas en mesure de la comprendre.

Notez également que la directive Disallow: n’est respectée que par les robots d’indexation qui suivent les règles du fichier Robots.txt : Google, Bing, MSN… D’autres bots qui ne respectent pas ce protocole peuvent très bien explorer toutes vos pages même si vous interdisez cela explicitement dans le fichier placé à la racine de votre site. C’est le cas avec la plupart des robots malveillants.

Syntaxe de la directive Disallow:

Dans le fichier Robots.txt, la syntaxe de la directive Disallow: prends la forme suivante :

Disallow: [path]

En pratique, le [path] représente le début de l’URL des pages que le robot d’exploration ne doit pas consulter. Il peut également s’agir d’une règle spécifique que le user-agent défini par le webmaster dans le fichier Robots.txt sait interpréter.

Quelle est l’utilité de Disallow: ?

Même si la directive Disallow: du fichier Robots.txt est utile dans plusieurs situations, elle est principalement utilisée par les webmasters pour interdire l’exploration de certaines pages web qui n’ont aucun intérêt pour le référencement SEO d’un site. Il peut s’agir de pages d’ouverture de session ou de contenus d’administration d’un CMS. Il peut aussi s’agir de pages web ne recevant aucun backlink ou faisant partie du plan du site (sitemap en anglais) pour la forme. Cette manœuvre permet de faire crawler les pages importantes de manière beaucoup plus efficace, d’économiser le budget d’exploration et surtout d’éviter de nombreux problèmes.

Notez néanmoins que l’utilisation de la directive Disallow: dans le fichier Robots.txt n’empêchera pas les moteurs de recherche de faire indexer la page ou le sous-domaine concerné. Ceux-ci pourront toujours apparaître dans la SERP s’ils sont jugés pertinents pour une requête, mais avec un message indiquant qu’aucune information n’est disponible pour cette page (pas de meta description).

Pour imposer une interdiction d’indexation de contenu aux robots d’exploration de Google ou de Bing, c’est plutôt la balise meta robots Noindex qu’il faut utiliser. Celle-ci permet d’éviter certains problèmes comme le duplicate content ou l’apparition de pages de résultats de recherche interne dans la SERP. On implémente cette balise dans l’entête html de la page concernée et non dans le fichier Robots.txt. Google a cessé de prendre en compte le Noindex dans les fichiers Robots.txt depuis le 1er septembre 2019.

Pour rappel, il est important de ne pas confondre Noindex et Nofollow. Ce dernier s’applique plutôt aux liens. Lorsqu’il est mis en attribut sur un lien précis sur une page web, Google comprendra que vous ne souhaitez pas transférer du jus SEO vers cette page. Mais il s’agit simplement d’un indice et non d’une directive (depuis le 1er mars 2020). Il en est de même pour la balise meta robots Nofollow dont l’utilisation ne présentait d’ailleurs pas un grand intérêt.

Les différentes formes de Disallow:

Selon l’information que vous souhaitez indiquer à Google ou aux moteurs de recherche relativement à l’exploration de votre site, voici les différentes formes de Disallow: que vous pouvez utiliser dans le fichier Robots.txt.

Disallow:

La syntaxe Disallow: simple veut dire qu’il n’y a aucune restriction. Lorsqu’un user agent comme Googlebot tombe sur cette directive dans un fichier Robots.txt, il comprend systématiquement que l’accès à tout le site est libre. Évidemment, elle est très peu utilisée en pratique dans le fichier Robots.txt, car même en son absence, les principaux moteurs de recherche (Google et Bing) explorent par défaut tout le contenu des sites web : texte, images et autres ressources.

Disallow: /

La directive Disallow: /, encore appelée « Disallow all », sert à bloquer l’exploration d’un site tout entier. Aucun répertoire, aucun fichier, aucun dossier et aucune page ne seront alors crawlés par les user-agents définis dans le fichier Robots.txt.

Disallow: blog

Cette ligne de code indique aux moteurs de recherche que toutes les pages dont l’URL commence par blog doivent être ignorées lors du crawl. Ainsi, pour un site dont le nom de domaine est de type https://www.monsite.com/, les URL suivantes ne seront pas explorées : https://www.monsite.com/blog ou https://www.monsite.com/blog/example.php.

Disallow:/*.pdf

La directive Disallow:/*.pdf indique à tous les user-agents définis dans le fichier Robots.txt que tous les documents et les pages dont l’URL contient l’extension .pdf doivent être ignorés lors du crawl. En reprenant notre site exemple, voici quelques pages qui ne seront pas explorées par Google et Bing :

https://www.monsite.com/contrat.pdf
https://www.monsite.com/blog/documents.pdf
https://www.monsite.com/actualite/document.pdf?langue=en

Une variante de cette directive est le Disallow: /*.pdf$. Celle-ci indique que toute page dont l’URL se termine par l’extension .pdf doit être ignorée lors du crawl. Avec cette directive, les deux premières URL de l’exemple précédent ne seront pas explorées. Par contre, la troisième page sera bel et bien prise en compte pendant le crawl puisqu’elle ne se termine pas par .pdf comme indiqué dans le fichier Robots.txt.