Semjuice
Blog
Actualités
66 milliards de requêtes analysées : l’enjeu n’est pas de freiner l’IA, mais de reprendre la main sur ce que vous voulez protéger

66 milliards de requêtes analysées : l’enjeu n’est pas de freiner l’IA, mais de reprendre la main sur ce que vous voulez protéger

Semjuice

Publié le

05/02/2026

Mis à jour le

Temps de lecture

11 min.

Résumer cet article avec :

ChatGPT

Mistral

Claude

Perplexity

Grok

Une étude massive de Hostinger vient de secouer le petit monde du SEO. En analysant 66,7 milliards de requêtes de bots sur plus de 5 millions de sites web, l’hébergeur révèle un mouvement de fond : les sites bloquent massivement les crawlers d’entraînement IA. GPTBot (OpenAI) est passé de 84 % à 12 % de couverture en seulement trois mois. Meta ExternalAgent chute de 60 % à 41 %.

Partout, on commente ce « déclin » comme une révolte des éditeurs face aux IA. Certains y voient une protection légitime de la propriété intellectuelle. D’autres, une réaction épidermique qui pourrait coûter cher en visibilité.

Mais ce n’est ni l’un ni l’autre.

La vraie question n’est pas « faut-il bloquer les IA ? », mais « que voulez-vous protéger, et à quel prix ? ».

En bloquant les crawlers d’entraînement, vous protégez certes votre contenu aujourd’hui, mais vous vous retirez également de la mémoire collective des IA. À l’heure où la lisibilité passe à la fois par Google, ChatGPT, Perplexity, Siri et TikTok, il s’agit plus d’un arbitrage stratégique que d’un réflexe défensif.

L’essentiel à retenir

GPTBot (OpenAI) passe de 84 % à 12 % de couverture en 3 mois : les sites bloquent massivement les crawlers d’entraînement IA
Les assistants IA (SearchBot, Applebot, TikTok) augmentent leur accès : de 52 % à 68 % pour SearchBot, doublement pour Applebot
Google et Bing restent stables : 72 % et 58 % de couverture, personne ne les bloque
Le paradoxe : en bloquant les bots d’entraînement, les sites se retirent de la mémoire paramétrique des IA… et perdent le contrôle de leur récit
L’enjeu : arbitrer entre protection du contenu et visibilité omnicanale

Étude Hostinger : une évolution, pas un recul

L’étude de Hostinger repose sur l’analyse de journaux serveurs anonymisés collectés sur trois périodes de six jours (juin, août et novembre 2025). Chaque requête a été attribuée à un bot identifié via son user-agent, puis classée par fonction : exploration de moteurs de recherche, collecte de données pour l’IA, analyse SEO, assistants conversationnels, réseaux sociaux…

Et trois dynamiques parallèles émergent.

1. Les crawlers d’entraînement IA sont massivement bloqués

Les bots qui collectent du contenu pour entraîner les modèles de langage (LLMs) voient leur accès fondre :

GPTBot (OpenAI) : de 84 % à 12 % de couverture en 3 mois
Meta ExternalAgent : de 60 % à 41 %
Claude Bot (Anthropic) : de 16 % à 7 %

Ces robots aspirent massivement du contenu pour enrichir les bases de données des modèles, mais ils ne renvoient pas de trafic direct. Résultat : de plus en plus de sites les bloquent.

(Évolution de la couverture des bots d’entraînement IA (juin-novembre 2025). GPTBot passe de 84 % à 12 % de couverture en seulement 3 mois. Source : Hostinger, 2026.)

2. Les assistants IA augmentent leur couverture

À l’inverse, les bots qui alimentent les assistants conversationnels et les recherches pilotées par l’IA voient leur accès progresser :

SearchBot (OpenAI) : de 52 % à 68 % de couverture
Applebot (Siri, Spotlight) : de 17 % à 34 %
TikTok Bot : de 22 % à 31 %

Ces crawlers interviennent à la demande, lorsqu’un utilisateur pose une question. Ils ne collectent pas massivement, ils répondent ponctuellement. Et les sites les acceptent mieux.

(Évolution de la couverture des assistants IA et bots conversationnels (juin-novembre 2025). SearchBot passe de 52 % à 68 %, Applebot double sa couverture. Source : Hostinger, 2026.)

3. Les moteurs de recherche classiques restent stables

Pendant ce temps, Googlebot et Bingbot continuent de crawler tranquillement :

Googlebot : 72 % de couverture (stable)
Bingbot : 58 % de couverture (stable)

Leur rôle n’a pas changé : indexer les pages pour les afficher dans les résultats de recherche. Bloquer ces bots revient toujours à disparaître des moteurs. Personne ne le fait.

(Évolution de la couverture des moteurs de recherche classiques (juin-novembre 2025). Googlebot et Bingbot restent stables, personne ne les bloque. Source : Hostinger, 2026.)

Ce que ça signifie vraiment

Les sites ne rejettent pas l’IA par principe, ils arbitrent selon la valeur qu’ils attribuent à leurs contenus. Refuser l’accès à un bot d’entraînement, c’est une façon de protéger des ressources sensibles, comme des études de cas exclusives ou des méthodologies propriétaires. À l’inverse, en autorisant un assistant IA, les sites font le pari de la notoriété en acceptant d’être cités dans les réponses. Et pour Google, la question ne se pose même pas. Le fait de rester visible dans les résultats classiques suppose de le laisser passer.

Une logique de blocage sélectif est en train de s’installer. Les sites ne ferment pas leurs portes à tous les robots, ils choisissent lesquels peuvent entrer, et dans quel but.

Tableau récapitulatif :

Type de bot	Objectif principal	Évolution de la couverture	Perception par les sites
Moteurs de recherche (Googlebot, Bingbot)	Indexer pour le référencement	Stable	Indispensable
Collecte de données (GPTBot, Meta, Claude)	Constituer des bases internes	⬇️ En forte baisse	De plus en plus bloquée
Assistants conversationnels (SearchBot, Applebot, TikTok)	Répondre à une requête utilisateur	⬆️ En forte hausse	Plutôt acceptée

Le paradoxe de la mémoire paramétrique : en bloquant les IA d’entraînement, vous perdez le contrôle de votre récit

Curieusement, ce levier stratégique reste sous les radars : quand vous bloquez GPTBot ou Claude Bot, vous empêchez ces modèles d’intégrer votre contenu dans leur mémoire paramétrique.

C’est quoi, la mémoire paramétrique ?

Il s’agit de l’ensemble des connaissances encodées directement dans les poids du modèle lors de son entraînement. Quand un LLM apprend, il intègre des faits, des concepts et des entités (personnes, entreprises, produits) dans sa structure interne.

Concrètement, ça veut dire quoi ?

Si vous bloquez GPTBot, ChatGPT ne pourra pas apprendre directement de votre site. Il devra se fier à des sources tierces, à des résumés et à des mentions indirectes. Vous perdez ainsi le contrôle de la façon dont l’IA parle de vous. De leur côté, vos concurrents qui laissent leurs contenus accessibles bénéficieront d’une représentation plus fidèle et plus complète dans les réponses générées.

Exemple concret

Vous êtes une agence SEO spécialisée en netlinking. Vous bloquez GPTBot pour protéger vos études de cas et vos méthodologies.

Un utilisateur demande à ChatGPT : « Quelle agence pour gérer mes backlinks ? »
ChatGPT ne cite pas votre agence, parce qu’il n’a jamais crawlé votre site
Il recommande vos concurrents qui, eux, ont laissé leurs contenus accessibles.

Ce n’est pas un scénario fictif. C’est déjà en train de se produire.

Dans son analyse de l’étude, Ben Davakan pointe l’enjeu avec justesse : « En refusant l’intégration dans la mémoire paramétrique, l’entreprise sacrifie une opportunité d’apparaître plus précisément dans les réponses fournies par les assistants IA. »

La puissance brand omnicanale : le nouveau pilier de la visibilité

Pendant des années, la visibilité en ligne se résumait à une question : « Où est-ce que je me positionne sur Google ? »

Aujourd’hui, la question est devenue : « Où est-ce qu’on parle de moi, et comment ? »

En réalité, la découverte de contenus ne passe plus seulement par Google. Elle passe aussi par ChatGPT, Perplexity et Claude pour la recherche conversationnelle. Par Siri, Alexa et Google Assistant pour la recherche vocale. Par TikTok, Instagram et LinkedIn pour la recherche sociale (et même Reddit !). Et par les AI Overviews et Featured Snippets pour les réponses directes dans Google.

Dans ce nouveau paysage, votre visibilité dépend de votre capacité à être cité, recommandé, mentionné. Pas seulement cliqué.

C’est ça, la puissance brand omnicanale

Être présent, cohérent et reconnu sur tous les canaux où vos cibles cherchent de l’information. Et pour ça, il faut que les IA (et les humains) puissent parler de vous. Avec des informations justes, structurées et contrôlées.

Quelques chiffres pour contextualiser :

Selon les données publiées par Salesforce, l’IA a influencé 262 milliards de dollars de ventes en ligne pendant les fêtes de fin d’année 2025, soit près de 20 % du chiffre d’affaires mondial sur la période. Les visiteurs référés par des moteurs de recherche IA ont converti 9 fois plus que la moyenne.

L’enjeu n’est plus seulement d’être trouvé, mais bel et bien d’être reconnu, cité et recommandé.

Alors, faut-il bloquer ou autoriser les crawlers IA ?

Il n’y a pas de réponse universelle. Mais il y a une méthode pour arbitrer.

Posez-vous ces 3 questions

1. Quel est votre modèle économique ?

Un site qui vit de contenus exclusifs ou d’abonnements a tout intérêt à protéger ses ressources. Bloquer les bots d’entraînement préserve la valeur de ce qui fait votre différence. À l’inverse, un site qui vit de sa notoriété (agence, consultant, média gratuit) peut tirer profit d’une présence accrue dans les réponses des IA. Être cité par ChatGPT ou Perplexity devient alors un levier de visibilité.

Exemple : Un média spécialisé qui vit de ses abonnements ait un choix cohérent en bloquant GPTBot. Une agence qui vit de sa notoriété a, quant à elle, une vraie carte à joueren étant citée par ChatGPT.

2. Que voulez-vous protéger ?

Si vous publiez des méthodologies propriétaires, des études de cas détaillées ou des données sensibles, bloquer les bots d’entraînement est tout à fait pertinent. Mais si votre contenu sert avant tout à démontrer votre expertise (articles de blog, guides pratiques, ressources gratuites), le fait de les autoriser peut renforcer votre autorité. La question n’est pas binaire : vous pouvez bloquer certains bots sur certaines sections de votre site et en autoriser d’autres ailleurs.

Exemple : Un site e-commerce qui vend des produits standards aurait tort de bloquer les IA et de se priver de cette exposition. Au contraire, être recommandé par ChatGPT peut générer des ventes. En revanche, un site qui publie des guides techniques ultra-spécialisés voudra logiquement protéger ce contenu.

3. Comment mesurez-vous votre visibilité ?

Si vous mesurez uniquement le trafic direct, le blocage peut sembler logique à court terme. Mais si vous intégrez dans votre analyse les mentions, les citations, les recherches de marque et les conversions indirectes, autoriser les assistants IA devient stratégique. Une marque B2B qui génère ses leads via la notoriété et les recommandations a tout à gagner en étant présente dans les réponses des IA, même si ça ne génère pas de clic immédiat.

Tableau de décision

Type de bot	Objectif	Impact si bloqué	Recommandation
Googlebot, Bingbot	Indexation classique	Vous disparaissez des résultats de recherche	❌ Ne pas bloquer
GPTBot, Claude, Meta	Entraînement IA	Vous sortez de la mémoire paramétrique	⚖️ Arbitrer selon votre modèle
SearchBot, Applebot, TikTok	Réponses à la demande	Vous n’êtes pas cité dans les assistants IA	✅ Autoriser (sauf raison spécifique)

Vous voulez analyser votre visibilité actuelle et identifier les bons arbitrages pour votre site ?

L’équipe Semjuice vous accompagne dans l’analyse de votre présence en ligne, de votre exposition aux différents types de crawlers et dans la définition d’une stratégie SEO/GEO adaptée aux nouveaux canaux de découverte.

Réserver une session stratégique gratuite

L’approche Semjuice face à ces nouvelles dynamiques

Chez Semjuice, on observe ces évolutions avec attention. L’émergence des assistants IA et la fragmentation des canaux de découverte redessinent les règles du jeu. Et comme pour tout changement structurel, il n’y a pas de réponse toute faite.

L’important est d’analyser votre contexte spécifique : votre modèle économique, vos objectifs de visibilité, la nature de votre contenu. Bloquer ou autoriser les crawlers IA n’est pas une décision technique isolée. C’est un choix stratégique qui doit s’inscrire dans une vision plus large de votre présence en ligne.

En tant qu’agence SEO, notre rôle est d’abord de vous aider à poser les bonnes questions. Ensuite, de vous accompagner dans la mise en place d’une stratégie cohérente, qui protège ce qui doit l’être tout en maximisant votre visibilité là où elle compte.

Parce qu’un environnement qui évolue aussi vite exige une approche réfléchie, pas des décisions prises à chaud.

À retenir

Ce que révèle vraiment l’étude Hostinger :

Les sites ne rejettent pas l’IA par principe. Ils arbitrent en fonction de la valeur perçue.
Bloquer les crawlers d’entraînement peut protéger votre contenu, mais vous retire de la mémoire des IA.
Dans un monde où la visibilité est omnicanale, être absent des IA peut devenir un handicap stratégique.

La vraie question n’est pas « faut-il bloquer les IA ? », mais :

Qu’est-ce que je veux protéger ?
Qu’est-ce que je veux diffuser ?
Comment je mesure l’impact de mes choix ?

Et pour répondre à ces questions, il faut une analyse rigoureuse de votre contexte, de vos objectifs et de votre modèle économique.