publié le 13 sept. 2021
Allow:

Définition SEO de Allow

Allow: est une directive du fichier Robots.txt supportée par Google et Bing. Très utile lors du crawl des sites, elle a pour but d'autoriser l'exploration d'une page web ou d'un répertoire web complet par les robots des moteurs de recherche. Mais comment fonctionne-t-elle exactement ? Et comment l'utiliser dans votre référencement SEO ? Voici tout ce que vous devez savoir sur cette directive du fichier Robots.txt et son utilisation en SEO.

Que signifie la directive Allow: en référencement ?

Pour espérer avoir un bon référencement naturel SEO et réussir sur la toile, il est indispensable pour les propriétaires de sites de laisser les robots de Google indexer le contenu de leurs pages web. Cependant, tous les contenus d'un site n'ont pas toujours la même valeur SEO. Il est donc utile de diriger Gooblebot et ses concurrents vers les pages internet les plus importantes pour votre référencement naturel. Dans ce processus, le webmaster peut être amené à utiliser la commande Allow: dans un fichier Robots.txt à la racine du site.

Définition de Allow:

Allow: est une instruction donnée aux robots d'indexation et qui permet de contrôler la façon dont un site internet est crawlé. Lorsqu'elle est utilisée, elle permet de spécifier à un robot d'exploration comme Googlebot les contenus qu'il peut indexer lors du crawl d'un site. Contrairement à Disallow: qui est utilisée pour bloquer l'accès à certaines pages, cette commande autorise les robots de Google à accéder à une URL spécifique ou un répertoire du site pour explorer son contenu.

Instruction du Robots.txt

L'objectif d'un fichier robots.txt c'est d'optimiser le site sur lequel il est utilisé pour le passage du robot de Google. Pour atteindre cet objectif, le fichier doit inclure certaines instructions qui définissent le comportement des spiders lorsqu'ils crawlent le site. La commande Allow: en est une. Cette directive est particulièrement utile pour notifier à Googlebot que vous souhaitez que tel dossier ou tel sous-dossier spécifique soit indexé. Elle est généralement utilisée en conjonction avec la commande Disallow: pour rendre le travail d'indexation plus efficace.

Syntaxe de la directive Allow:

Pour être prise en compte par les spiders des moteurs de recherche, l'instruction Allow respecte une syntaxe bien définie. En général, elle prend la forme suivante :

  • User-agent: { nom du robot d'exploration ciblé }
    Allow: { l'URL ou le dossier à crawler }

Ainsi, sur un site internet dont l'URL est https://www.votre-site.com/, pour autoriser le robot de Google à indexer le contenu de la page web « https://www.votre-site.com/ventes/produit.php », la commande à utiliser dans le fichier Robots.txt ressemblera à ceci :

  • User-agent: Googlebot
    Allow: /produit.php

Dans certains cas, cette commande doit être complétée par l'instruction Dissalow: pour être efficace. C'est le cas par exemple lorsque vous souhaitez bloquer l'indexation d'un dossier tout en autorisant l'accès à un fichier HTML spécifique. Dans ce cas précis, le fichier Robots.txt peut prendre la forme suivante :

  • User-agent: Googlebot
    Allow: /produit.php
    Dissalow: /ventes

Cette implémentation interdit le crawl du répertoire « ventes » par le spider de Google, mais elle autorise le robot à indexer la page « produit.php » située dans ce répertoire.

Exemple d'une directive Allow: dans un fichier Robots.txt

Selon le standard d'implémentation utilisé, la commande Allow: peut être interprétée de différentes façons par les crawlers des moteurs de recherche. Pour mieux comprendre comment cela fonctionne, prenons quelques exemples d'implémentation pour un site dont l'URL est https://www.votre-url.com/ :

  • User-agent: Googlebot
    Allow: /

Avec cette commande dans le fichier Robots.txt, le spider de Google peut crawler l'intégralité du site, sans aucune limite.

  • User-agent: Googlebot
    Disallow: /
    Allow: /article.php

La présence de cette instruction dans le fichier Robots.txt signifie que l'ensemble du site sera interdit au crawl, sauf le dossier https://www.votre-url.com/article.php.

  • User-agent: Googlebot
    Disallow: /article
    Allow: article/description-de-produit

En utilisant cette implémentation dans le fichier Robots.txt, tout le dossier « article » sera interdit au crawl, sauf le sous-répertoire https://www.votre-url.com/article/description-de-produit.

Compte tenu de ses différentes formes d'instruction possibles, la commande Allow: peut entraîner parfois des erreurs d'exploration si elle n'est pas bien utilisée. Par exemple, une implémentation trop complexe (avec des jokers comme « * » ou « $ ») de cette commande peut rendre l'interprétation difficile pour les spiders des moteurs. Dans certains cas, les crawlers peuvent se mettre à indexer vos contenus privés en mettant de côté les documents HTML qui ont le plus de valeur pour votre SEO.

Pour éviter cela, l'idéal sera de confier le projet à un webmaster professionnel. Ce dernier est en mesure de créer et d'implémenter le fichier Robots.txt dans la racine de votre site avec les directives les plus simples et les plus efficaces possible.

Définitions en rapport