Les bots IA (GPTBot, ClaudeBot, PerplexityBot) crawlent des millions de sites WordPress chaque jour pour alimenter les réponses de ChatGPT, Claude et Perplexity. Sur wpformation.com, 293 requêtes de 18 crawlers distincts ont été enregistrées en 30 jours rien que sur les fichiers llms.txt. Bloquer ces bots protège votre contenu, mais vous fait disparaître des réponses IA. La stratégie alternative : guider plutôt que bloquer, via llms.txt et l’optimisation GEO.
Pas le temps ? Faites-le analyser par l'IA
J’ai ouvert mes access logs un matin de mars. Juste par curiosité. Et j’ai découvert un truc que la plupart des propriétaires de sites WordPress ignorent complètement…
18 robots différents venaient lire mes fichiers llms.txt. Régulièrement. Silencieusement. Sans rien demander.
GPTBot (OpenAI). ClaudeBot (Anthropic). Meta AI (Facebook). Bingbot (qui nourrit aussi Microsoft Copilot). Et une quinzaine d’autres dont je n’avais jamais entendu parler.
La question n’est pas "est-ce que les bots IA crawlent votre site WordPress". C’est "qu’est-ce que vous allez faire maintenant que vous le savez".
Parce que la réponse n’est pas aussi simple qu’un Disallow dans votre robots.txt. Bloquer ces robots, c’est protéger votre contenu. Mais c’est aussi, potentiellement, disparaître des réponses de ChatGPT, de Perplexity, et demain de Google AI Overviews (déjà actif aux États-Unis, pas encore en France). Et ça, personne ne vous l’explique vraiment.
Qui crawle wpformation.com ? Les chiffres, en vrai
Depuis que j’ai implémenté le fichier llms.txt sur wpformation.com début 2026, je mesure chaque requête via un mu-plugin maison. Voici ce que donnent les 30 derniers jours (données du 13 avril 2026) :
- 293 requêtes totales sur mes fichiers llms.txt et llms-full.txt
- 18 crawlers distincts identifiés par leur user-agent
- 55% du trafic vient des États-Unis, 40% de France
Le top des visiteurs de mes fichiers llms.txt :
| Crawler | Hits / 30 j | Qui c’est |
|---|---|---|
| GEO-LlmsText-Discovery | 23 | Bot spécialisé découverte llms.txt |
| Anthropic (Claude) | 15 | Le crawler de Claude |
| Microsoft Bingbot | 10 | Nourrit aussi Copilot |
| SiteAuditBot (Semrush) | 9 | Outil SEO |
| Barkrowler (Babbar) | 6 | Outil SEO français |
| Meta AI | 2 | Le crawler de Facebook/Meta |
Et ça, ce ne sont que les requêtes sur mes fichiers llms.txt. Le trafic IA sur l’ensemble du site est bien plus important. Selon un rapport Cloudflare de mai 2025, GPTBot d’OpenAI est passé de 5% à 30% de part de marché des crawlers IA en un an. Meta-ExternalAgent a surgi de nulle part à 19%.
On l’oublie trop souvent, mais ces bots ne déclenchent pas le JavaScript. Vous ne les verrez jamais dans Google Analytics. Il faut aller fouiller les access logs bruts pour les repérer. Et quand on le fait… la surprise est de taille.
À la louche : si votre WordPress reçoit 1 000 visites par jour, entre 50 et 200 proviennent probablement de bots IA (selon le rapport Cloudflare 2025, les crawlers IA représentent environ 4% du trafic HTML hors Googlebot). Invisible dans vos stats, mais bien réel dans vos logs serveur.
Et votre site, vous savez combien de bots IA le visitent chaque jour ? La plupart des propriétaires de WordPress n’ont aucune idée de ce qui se passe dans leurs logs. Ce n’est pas un reproche, c’est un constat. Google Analytics ne montre que le JavaScript. Les vrais chiffres sont ailleurs.
Comment savoir qui crawle votre site WordPress ?
Trois méthodes, de la plus simple à la plus complète.
Les access logs de votre hébergeur
Si vous êtes chez O2switch, OVH ou n’importe quel hébergeur sérieux, vous avez accès aux logs bruts via cPanel ou Plesk. Cherchez les user-agents contenant "GPTBot", "ClaudeBot", "PerplexityBot"…
C’est la méthode la plus fiable. Pas de plugin, pas de JavaScript, juste les faits bruts. 10 minutes et vous savez exactement qui passe chez vous.
Sur wpformation.com hébergé chez O2switch, j’ai accès aux logs via cPanel > Metrics > Raw Access Logs. Un simple grep -i "gptbot\|claudebot\|perplexity" access.log et vous avez votre réponse. Quand j’ai fait ça pour la première fois en mars 2026, j’ai compté plus de 400 lignes sur un mois. 400 visites de robots IA que Google Analytics n’avait jamais signalées.
Un mu-plugin de tracking
C’est ce que j’utilise sur wpformation.com. Un petit script PHP qui logge chaque requête sur /llms.txt et /llms-full.txt avec le user-agent, l’IP et le pays d’origine. Pas besoin d’usine à gaz, un fichier de 50 lignes suffit.
Des plugins dédiés
Plusieurs extensions WordPress peuvent logger les requêtes entrantes. Mais attention au poids sur la base de données si votre site a du trafic. Pour un blog avec 5 000 visites/jour, ça peut vite ajouter plusieurs centaines de Mo à votre BDD.
Mon conseil : commencez par les access logs. Ça prend 10 minutes, c’est gratuit, et ça vous donne la photo complète sans rien installer.
Trois leviers, trois philosophies
Face aux bots IA, vous avez trois outils. Chacun correspond à une philosophie différente. Et c’est pas fini… parce que votre choix va déterminer si les IA vous citent ou vous ignorent dans les mois qui viennent.
robots.txt : le coupe-circuit
Le fichier robots.txt est le moyen "officiel" de dire aux bots ce qu’ils peuvent crawler. Vous ajoutez deux lignes et c’est réglé…
User-agent: GPTBot
Disallow: /
Enfin, en théorie. Parce que robots.txt est un protocole de bonne volonté. Rien n’oblige techniquement un bot à le respecter. Les gros acteurs (OpenAI, Anthropic, Google) jouent le jeu. Les petits… pas toujours.
Selon une étude académique publiée à ACM IMC 2025 ("Scrapers Selectively Respect robots.txt"), environ 13% des requêtes de bots IA ignorent les directives robots.txt au second trimestre 2025, contre 3,3% fin 2024. La tendance est à la hausse. Un chiffre qui fait réfléchir quand on mise toute sa stratégie de protection sur ce seul fichier.
llms.txt : le guide de visite
Le fichier llms.txt est l’approche inverse. Au lieu de bloquer, vous guidez. Vous dites aux IA : "voici mon site, voici mes meilleurs contenus, voici comment me citer correctement."
C’est ce que j’ai choisi pour wpformation.com. J’y référence 17 articles piliers avec titres, URLs et descriptions. Et les 293 requêtes en 30 jours prouvent que ça fonctionne : les bots lisent effectivement ce fichier. 197 requêtes sur /llms.txt, 96 sur /llms-full.txt (la version détaillée).
.htaccess : le videur sélectif
Pour ceux qui veulent un contrôle total au niveau serveur, .htaccess bloque des user-agents spécifiques. Pas de négociation. Le bot reçoit un 403 Forbidden et c’est terminé.
Voici à quoi ça ressemble :
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (Bytespider|PetalBot) [NC]
RewriteRule .* - [F,L]
Deux lignes et le bot est dehors. C’est l’arme de dernier recours. Efficace, mais définitive. À réserver aux crawlers véritablement nuisibles (Bytespider de TikTok est un bon candidat : agressif, gourmand en bande passante, et sans bénéfice pour votre audience).
Attention : Bloquer un bot via .htaccess est irréversible côté serveur. Si vous bloquez GPTBot par erreur, votre contenu disparaît des réponses de ChatGPT en quelques jours, et il faut parfois des semaines pour réapparaître une fois le blocage levé.
Bloquer les bots IA : le piège que personne n’explique ?
C’est LA question. Et la réponse dépend de votre situation.
Ce que vous gagnez en bloquant
Votre contenu reste le vôtre. Aucune IA ne le "digère" pour répondre à la place de votre site. C’est l’argument du New York Times, qui a attaqué OpenAI en justice le 27 décembre 2023, ou de Reddit, qui a signé un accord de licence à 60 millions de dollars par an avec Google (Bloomberg, février 2024) puis un second avec OpenAI quelques mois plus tard.
Pour des médias avec du contenu exclusif (interviews, enquêtes, données propriétaires), ça se défend.
Ce que vous perdez en bloquant
Vous disparaissez des réponses IA. Point.
Je pose ça là parce que c’est le point que 90% des articles sur le sujet occultent. Si GPTBot ne peut pas lire votre contenu, ChatGPT ne pourra pas vous citer. Si PerplexityBot est bloqué, Perplexity ne renverra jamais vers votre site. Si Google-Extended est interdit, vos chances d’apparaître dans les AI Overviews (déjà déployées aux US, bientôt en Europe) fondent.
Selon SparkToro (2024) et Similarweb (2025), entre 60% et 65% des recherches Google ne génèrent plus aucun clic. Aux États-Unis, les AI Overviews de Google captent déjà une part croissante de l’attention (et leur déploiement en Europe n’est qu’une question de temps). Si votre contenu n’est pas accessible aux IA, vous n’existez pas pour une majorité d’utilisateurs.
Et pour un site WordPress classique, quelle est la bonne décision ? Pour un blog qui partage du savoir-faire technique, des tutoriels, des guides… votre contenu a plus de valeur quand il circule que quand il est verrouillé. Le trafic ne vient plus seulement de Google. Il vient de ChatGPT, de Perplexity, de Claude. Et demain, de dix autres outils qu’on ne connaît pas encore.
Ça vous parle ? Si vous publiez des tutoriels WordPress, des comparatifs de plugins, des guides techniques… vous avez tout intérêt à rester visible. Pas à construire des murs.
D’autant que les plugins IA pour WordPress se multiplient et s’appuient sur les mêmes modèles. Bloquer GPTBot, c’est aussi potentiellement casser la compatibilité avec des outils que vos propres visiteurs utilisent pour interagir avec votre contenu.
Pourquoi je ne bloque aucun bot IA sur wpformation.com ?
Mon robots.txt autorise explicitement GPTBot, ChatGPT-User, ClaudeBot, PerplexityBot, CCBot, Google-Extended et amazonbot. Le seul bloqué ? Bytespider (ByteDance/TikTok), dont le comportement de crawl est notoirement agressif et qui n’alimente aucun service utile pour mon audience.
En parallèle, j’ai mis en place trois choses concrètes.
1. Un fichier llms.txt structuré
17 articles piliers y sont référencés, avec titres, URLs et descriptions. C’est ma vitrine pour les IA. Résultat mesurable : 293 requêtes en 30 jours, dont 23 d’un bot spécialisé en découverte de fichiers llms.txt et 15 d’Anthropic (Claude). Pas mal pour un fichier texte de 2 Ko.
2. L’optimisation GEO sur chaque article
Le GEO (Generative Engine Optimization) consiste à structurer son contenu pour maximiser les chances d’être cité par les IA. Définitions directes, données chiffrées et sourcées, blocs autonomes que les modèles peuvent extraire. L’étude de Princeton sur le GEO (publiée à ACM SIGKDD 2024, arxiv 2311.09735) montre qu’ajouter des statistiques sourcées augmente la visibilité IA de +41%, et citer ses sources peut l’augmenter jusqu’à +115% pour les pages en position basse.
J’ai même créé un outil Score GEO pour mesurer la citabilité d’un site par les IA. Parce que si on ne mesure pas, on ne progresse pas.
3. Le suivi actif des crawlers
Depuis 2012 que je travaille avec WordPress, depuis la création de WPServeur en 2015 et après avoir publié 8 extensions sur WordPress.org totalisant plus de 2 millions d’installations, j’ai appris un truc important : chaque évolution majeure du web crée deux camps. Ceux qui s’adaptent. Et ceux qui résistent. Les résistants finissent toujours par s’adapter… mais avec 2 ans de retard et tout le trafic perdu entre-temps.
Les bots IA, c’est exactement la même histoire que le mobile en 2015 ou le HTTPS en 2017. Ceux qui ont compris tôt ont pris de l’avance. Les autres courent encore derrière.
Concrètement, depuis que j’ai mis en place cette stratégie début 2026, wpformation.com est cité par ChatGPT quand on lui demande des conseils sur WordPress, par Perplexity sur des requêtes comme "meilleur hébergeur WordPress" ou "fichier llms.txt", et par Google AI Overviews sur des requêtes techniques. Ce trafic IA est encore modeste (quelques dizaines de visites par semaine), mais il progresse chaque mois. Et surtout, c’est du trafic qualifié : des gens qui cherchent exactement ce que je propose.
Conseil : Avant de décider quoi que ce soit, vérifiez votre robots.txt actuel. Beaucoup de thèmes et plugins WordPress ajoutent des directives Disallow sans vous prévenir. Un rapide coup d’œil à votresite.com/robots.txt peut révéler des surprises.
Un plugin WordPress pour tout gérer ?

OGEEAT | v2.2.1 | Gratuit | 14 modules | par wpformation
J’ai développé OGEEAT justement pour répondre à ce besoin. Parce qu’entre les access logs à fouiller manuellement, le robots.txt à configurer, le fichier llms.txt à créer et le score GEO à calculer… ça fait beaucoup de choses à gérer à la main.
Parmi ses 14 modules, deux sont directement liés au sujet de cet article :
- AI Crawler Firewall : blocage sélectif de 14 bots IA (GPTBot, ClaudeBot, CCBot, Diffbot…). Vous choisissez précisément qui entre et qui reste dehors. Pas de tout-ou-rien
- LLMS Tracking : un tableau de bord qui affiche quels crawlers IA visitent votre site, combien de fois, et quand. Les données que je vous ai montrées plus haut (293 requêtes, 18 crawlers)… c’est exactement ce que ce module affiche
Le plugin génère aussi automatiquement un fichier llms.txt enrichi avec vos données structurées, calcule un score de citabilité (Shadow Indexing) sur 100, et ajoute les schémas E-E-A-T (Person, Organization, Article) qui renforcent votre autorité auprès des modèles IA.

Gratuit, zéro freemium, installation en 3 clics. C’est l’outil que j’aurais aimé avoir quand j’ai commencé à m’intéresser à tout ça…
Agences, freelances : avez-vous une réponse prête ?
"Est-ce qu’on devrait bloquer les IA sur notre site ?"
Cette question va arriver. Si elle n’est pas déjà arrivée. Et la pire réponse possible, c’est "je sais pas" ou "on verra".
Voici ce que je recommande de préparer :
Un audit de l’existant (une demi-journée). Vérifiez les access logs, identifiez quels bots visitent le site, mesurez le volume. Documentez. Ça fait professionnel et ça donne une base factuelle pour la discussion.
Une recommandation argumentée. Pour 95% des sites vitrines, blogs et e-commerce, ma recommandation est limpide : ne bloquez pas, guidez. Mettez en place un fichier llms.txt, optimisez le contenu pour le GEO, et mesurez les résultats.
Un suivi trimestriel. Les bots IA évoluent vite. De nouveaux apparaissent chaque mois. ClaudeBot a doublé son taux de crawl au premier semestre 2025 selon les données Cloudflare, et de nouveaux bots apparaissent régulièrement. La distribution indépendante via Troy montre que l’écosystème WordPress lui-même se transforme à grande vitesse. Ce n’est pas un sujet "one-shot". C’est un suivi continu, comme la veille sécurité.
Pour les sites e-commerce sous WooCommerce, la logique est la même. Vos fiches produits n’ont rien de secret, mais si une IA peut recommander vos produits dans ses réponses, c’est un canal d’acquisition gratuit. À ne pas couper.
Bref. Si vous gérez des sites WordPress pour des clients, le sujet des bots IA est un service à ajouter à votre offre de maintenance. Pas une menace à ignorer. Et celui qui arrive avec des données concrètes et une recommandation claire aura un avantage énorme sur celui qui dit "euh… je continue ?"
Guider plutôt que subir
Le web change. Les IA ne vont pas disparaître, et les bots non plus. Des registres comme dark-visitors.com ou le projet GitHub ai-robots-txt recensent aujourd’hui plus de 100 bots IA connus. La vraie question n’est pas de savoir si vous allez être crawlé (vous l’êtes déjà), mais comment vous allez transformer ça en opportunité.
J’ai fait mon choix : guider plutôt que bloquer. Et pour l’instant, les résultats me donnent raison. wpformation.com apparaît dans les réponses de ChatGPT et de Perplexity. Ce n’est pas un hasard… c’est une stratégie.
Si vous voulez aller plus loin, commencez par ajouter un fichier llms.txt à votre WordPress. Ça prend 15 minutes et c’est probablement la meilleure décision SEO que vous prendrez cette année. Ensuite, mesurez votre Score GEO pour savoir où vous en êtes. Le reste suivra naturellement.
FAQ
Les bots IA respectent-ils vraiment le robots.txt ?
Les principaux acteurs (OpenAI avec GPTBot, Anthropic avec ClaudeBot, Google avec Google-Extended) respectent les directives robots.txt. Cependant, une étude académique (ACM IMC 2025) a mesuré qu’environ 13% des requêtes de bots IA ignorent ces directives, et ce taux augmente. Le robots.txt reste un protocole déclaratif, pas un mécanisme de sécurité. Pour un blocage garanti, il faut passer par le .htaccess au niveau serveur.
Bloquer les bots IA améliore-t-il la vitesse de mon site WordPress ?
En pratique, l’impact est négligeable pour la plupart des sites. Les bots IA représentent une fraction du trafic total et les requêtes sont espacées. Si votre WordPress est lent, le problème vient de l’hébergement, du thème ou des plugins, pas des crawlers IA. Investissez d’abord dans un bon hébergeur et un cache performant avant de vous inquiéter de la bande passante consommée par GPTBot.
Faut-il bloquer les bots IA si je vends des formations en ligne ?
C’est un cas particulier. Si votre contenu de formation est protégé derrière un espace membre (LMS comme LearnDash ou Tutor LMS), les bots n’y ont déjà pas accès. Votre contenu public (articles de blog, pages de vente) a tout intérêt à rester accessible : c’est lui qui vous apporte de la visibilité dans les réponses IA et qui attire de nouveaux prospects. Bloquer les bots sur vos pages publiques reviendrait à couper votre canal d’acquisition le plus prometteur.
Chaque mois, je passe 15 heures en veille WordPress. Vous, vous recevez un email de 3 minutes.
Sécurité, performance, SEO, nouveautés, IA : l'essentiel trié, vérifié et expliqué par un formateur WordPress depuis 2012 et fondateur de WPServeur.
1 email par mois. Désabonnement en 1 clic.
Analyser avec l'IA
Partager

