Googlebot

Googlebot est le nom attribué au robot de Google (crawler) dédié à l’exploration des pages web. Cet algorithme a pour mission de détecter et d’indexer les nouvelles informations, afin de proposer des résultats complets et pertinents aux requêtes des internautes. Il explore les pages en suivant les liens URL qu’elles contiennent afin de les classer pour le compte du moteur de recherche. Alors, quels sont les critères pris en compte par Googlebot ? Comment fonctionne-t-il exactement ? Et comment optimiser votre site pour le passage de ce spider ? Voici tout ce que vous devez savoir sur Googlebot pour faciliter votre référencement naturel SEO.

Comment fonctionne le crawl de Googlebot ?

Google, c’est plus de 80 000 requêtes par seconde, soit plus de 6,9 milliards chaque jour en 2020. Pour satisfaire efficacement toutes ces demandes, le spider SEO de Googleboot doit parcourir toute la toile pour répertorier toutes les nouvelles informations à ajouter à l’index de son moteur de recherche. Ceci se fait en suivant plusieurs étapes importantes :

L’analyse des fichiers sources
La récupération des nouvelles informations
L’ajout des nouvelles informations à l’index de Google

Analyse du code source HTML

Lorsque l’algorithme de Google arrive sur une page, il commence par une étude complète des fichiers HTML. Cela lui permet de comprendre l’architecture du site : sa cohérence et sa structure. Après cette étude, il enregistre le code source afin de le transférer à Google pour traitement.

Récupération du contenu

Après cette première étape, le spider procède à la récupération des informations présentes sur le site. Il vérifie la pertinence de ces infos par rapport aux requêtes effectuées par les internautes. Pour cela, il commence par étudier la structure et l’optimisation du contenu, en se basant sur certains éléments clés tels que : les balises Tiltle, Hn et Alt… Googlebot récupère ensuite l’ensemble des données pour les faire parvenir à l’index du moteur de recherche.

Exploration des liens dofollow

Cette étape consiste à suivre l’ensemble des liens ayant l’attribut Dofollow présents sur les pages de votre site. Les spiders de Google répertorient ces liens afin d’être en mesure d’explorer leurs pages de destination.

Indexation des pages web

Pour finir, le crawler envoie toutes les informations obtenues à Google, qui s’en sert pour mettre à jour son index. Ainsi, lors d’une requête effectuée par un internaute, les algorithmes de Google explorent et interprètent ces informations pour proposer les pages dans les SERP (search engine result pages). Ce processus constitue le point de départ du référencement naturel des sites internet.

Quelle est la fréquence de passage de Googlebot ?

Le taux de passage de Googlebot est variable d’un site à l’autre, en fonction de la qualité du contenu et de la périodicité des mises à jour. En effet, Google adapte la fréquence de ses visites à la fraîcheur de l’information. Pour cela, son algorithme explore la toile à la recherche de nouvelles informations pour renforcer son index. Ainsi, plus votre site web est fréquemment mis à jour, plus il sera exploré par Googlebot.

L’avantage, c’est qu’il est possible d’accéder à toutes les informations sur le passage de Googlebot en utilisant la Search Console de Google. Vous pouvez également obtenir ces données en réalisant une étude de logs avec Google Analytics ou un outil SEO adapté. Ainsi vous pourrez apporter des améliorations nécessaires pour permettre à l’algorithme de Google de passer plus régulièrement sur votre site.

Les critères explorés par Googlebot

Pour visiter et répertorier vos pages internet dans son index, Google accorde un budget de crawl à votre site. Il s’agit du nombre d’URL limite que le spider peut parcourir sur votre site internet en tenant compte de certains critères tels que :

La taille du site
La profondeur du maillage interne
La périodicité des mises à jour
La qualité et la fraîcheur des articles publiés

Plus votre site répond à ces critères, plus il aura de chance d’être parcouru régulièrement par l’algorithme de Google.

La taille du site

Lorsqu’il s’agit de parcourir la toile pour répertorier de nouvelles informations, le robot de Google accorde de l’importance au nombre de pages indexées. Plus un site aura de pages, plus il sera exploré. Ainsi, un site e-commerce comptant 2 000 pages sera systématiquement plus crawlé qu’un simple blog de 200 ou 300 pages. En effet, plus un site est volumineux, plus il y a d’URL à explorer. Alors, Googlebot repasse plus fréquemment pour vérifier et recenser les nouvelles informations publiées.

La profondeur des URL

Google s’intéresse également à la profondeur du maillage interne pour définir le temps de crawl qu’il faut accorder à un site. Il s’agit du nombre de clics nécessaire pour atteindre une page en partant de l’accueil du site. Plus votre maillage interne est profond, plus Google a du mal à répertorier les nouvelles informations que vous avez publiées. Ainsi, une page située à 1 ou 2 clics de l’accueil aura plus de chances d’être indexée que celle située à plus d’une dizaine de clics.

La fréquence de mise à jour du site

La régularité des mises à jour est un autre facteur qui affecte le passage de Googlebot sur les sites. Imaginons que l’algorithme de Google explore votre site 4 fois par semaine et trouve chaque fois de nouvelles informations à répertorier. Si vous arrêtez de mettre vos pages à jour, Googlebot continuera de visiter votre site, mais il ne trouvera plus rien de nouveau. Après plusieurs passages infructueux, le crawler commencera à diminuer la régularité de ses contrôles et votre site sera de moins en moins exploré.

La qualité et la fraîcheur du contenu

Si la mise à jour du site est d’une importance capitale, elle ne suffit pas pour mettre toutes les chances de votre côté. La qualité des articles publiés est aussi primordiale. Ainsi, si votre site contient des informations de mauvaise qualité, ces dernières peuvent être indexées au détriment de vos meilleurs articles. De même, si votre site contient du duplicate content en interne, Googlebot risque de passer plusieurs fois sur les mêmes informations, ce qui consumera votre temps de crawl.

Comment empêcher Googlebot d’explorer un contenu avec le robots.txt ?

Bien qu’il soit important de laisser le robot de Google parcourir votre site pour apparaître dans la SERP, il est parfois nécessaire de bloquer l’accès à certaines pages pour avoir plus de chances de réussite sur la toile. C’est le cas par exemple pour des pages obsolètes préjudiciables à votre image de marque et votre référencement naturel. Pour empêcher les crawlers de Google d’accéder à ces types de données, vous pouvez utiliser un fichier robots.txt ou une balise meta robot, avec les instructions :

Disallow
Nofollow
Noimageindex

Qu’est-ce que le robots.txt ?

Le robots.txt est un fichier texte qui permet de guider l’algorithme de Google dans sa mission d’indexation. C’est le premier fichier indexé que les spiders recherchent lorsqu’ils passent sur un site. Il permet d’indiquer à Googlebot les pages qu’il peut parcourir et celles qu’il ne doit pas répertorier.

Disallow

Disallow est une commande qui permet d’utiliser le robots.txt pour contrôler le passage des spiders sur votre site. Vous pouvez l’utiliser pour bloquer l’accès à l’ensemble de votre site. Pour cela, il suffit d’ajouter les instructions suivantes au fichier robots.txt :

User-Agent: Googlebot

Disallow: /

La commande Disallow permet également d’empêcher les spiders de crawler certaines pages de votre site. Vous pouvez aussi l’utiliser pour restreindre l’accès à tous les spiders existant sur la toile. Sur Bing par exemple, il suffit de spécifier Bingbot comme User-Agent.

Nofollow

Il s’agit ici d’une valeur qui empêche les spiders de crawler certains éléments de votre maillage interne. Vous pouvez donc l’utiliser pour interdire à Googlebot de suivre les URL internes du site. Pour cela, il faudra intégrer l’inscription suivante dans la section Head du code :

< meta name=“googlebot” content=“nofollow” >

Noimageindex

La valeur noimageindex permet d’indiquer au spider que certaines images du site ne doivent pas être indexées. Si cette valeur n’est pas spécifiée, les images de votre site privé peuvent être explorées par Googlebot-image et figurer dans les SERP. Cette restriction se présente généralement comme suit :

< meta name=”googlebot” content=“noimageindex” >

Optimiser l’exploration de votre site par Googlebot

Pour apparaître en haut des SERP sur Google et gagner en visibilité, il est indispensable que votre site soit indexé le plus précisément possible. Pour cela, vous devez optimiser votre site pour le passage de Googlebot. Il existe plusieurs méthodes et techniques pour atteindre cet objectif.

Intégrer du contenu de qualité

Pour aider le robot de Google à mieux parcourir vos pages, veillez à la qualité des articles que vous publiez. Ainsi, le robot ne perdra pas son temps à indexer les informations de mauvaise qualité, ce qui est très avantageux pour votre SEO. Pensez donc à mettre en place une bonne stratégie éditoriale pour produire et publier régulièrement des articles de bonne qualité sur votre site.

Éviter le contenu dupliqué (duplicate content)

En dehors de la qualité, les articles que vous mettez en ligne doivent être uniques, notamment en interne. En cas de duplicate content, le robot devra parcourir les mêmes informations plusieurs fois, ce qui gaspille littéralement votre budget de crawl. De plus, le taux d’exploration de votre site risque de diminuer peu à peu. Et pour cause, l’algorithme de Google considère les sites faisant du duplicate content comme étant de mauvaise qualité. Il ne cherchera donc pas à revenir régulièrement sur un tel site.

Utiliser une arborescence simple

L’arborescence de votre site correspond à son architecture et à sa structure. Avec une arborescence simple, les pages du site ne sont pas trop éloignées de l’accueil, ce qui réduit considérablement la profondeur du maillage interne. Cela permet d’optimiser le passage du robot de Google sur votre site.

Mettre en place un fichier Sitemap .xml et .html

Le Sitemap est un fichier qui répertorie l’ensemble des pages d’un site. Il a pour but de renseigner les spiders sur la structure du maillage interne. C’est en quelque sorte un guide qui permet au spider de Google de détecter rapidement les nouvelles informations à répertorier. Veillez donc à en créer un pour votre site, si vous souhaitez que ce dernier soit analysé régulièrement.

Tout cela vous semble compliqué ? N’hésitez pas à vous faire accompagner par une agence web qualifiée.