En bref
Le 3 juin 2026, six grands médias américains (AP, New York Times, NBC, Bloomberg, NPR, Fox) ont mis en demeure la fondation Common Crawl de cesser d'archiver leurs contenus et d'effacer ceux déjà collectés. Pour une PME, la vraie question n'est pas « bloquer ou pas » : c'est « comment être cité par l'IA plutôt que simplement aspiré ». Bloquer les robots IA, pour la plupart des entreprises, revient à disparaître des réponses de ChatGPT et de Google AI.
Le 3 juin 2026, Digital Content Next (DCN), le consortium qui réunit l'Associated Press, le New York Times, NBC Universal, Bloomberg, NPR ainsi que Fox, a envoyé une mise en demeure à la fondation Common Crawl, lui ordonnant de cesser de collecter et de redistribuer leurs contenus protégés, puis d'effacer ceux déjà présents dans ses jeux de données. Le PDG de DCN, Jason Kint, a rendu la lettre publique le lendemain, comme l'a rapporté Search Engine Land le 10 juin.
Common Crawl n'est pas un nom grand public, mais c'est l'une des fondations les plus importantes de l'écosystème IA. Cette organisation à but non lucratif archive le web public depuis 2008 et publie ses données gratuitement. Résultat : ses archives sont devenues une matière première de l'IA. Selon la plainte du New York Times contre OpenAI (2023), elles représentaient environ 60 % des données d'entraînement de GPT-3.
L'argument juridique : la permission, pas l'opt-out
Le cœur de la mise en demeure n'est pas technique, il est juridique. DCN affirme que « le droit d'auteur n'est pas un système d'opt-out » : Common Crawl devrait obtenir une autorisation avant d'inclure un contenu, et non aux éditeurs de demander à en sortir après coup. Jason Kint a résumé l'enjeu dans un billet de blog : la démarche « conteste une hypothèse désormais répandue selon laquelle un contenu créé grâce à un investissement substantiel peut être collecté, stocké, réutilisé puis monétisé simplement parce qu'il est techniquement accessible ».
C'est un renversement de la norme historique du web : « on aspire par défaut, on respecte les exclusions quand on nous le demande » devient « autorisation d'abord, inclusion ensuite ». Si ce principe s'imposait, il rebattrait les cartes pour toute la chaîne de l'IA générative.
Du côté de Common Crawl, le directeur exécutif Rich Skrenta a démenti contourner les paywalls et déclaré : « Quand un éditeur nous demande de retirer un contenu déjà collecté, nous répondons rapidement et lançons un processus de suppression qui reflète la conception technique de notre jeu de données. » À la mi-juin 2026, il s'agit d'une mise en demeure, pas encore d'un procès. Elle prolonge une première lettre envoyée par la News/Media Alliance en avril 2026.
Pourquoi c'est important pour vous : les contenus que les médias cherchent à protéger sont précisément ceux qui nourrissent les réponses de ChatGPT, Perplexity ou Google AI Mode. La bataille sur l'accès au contenu décide, en coulisses, de qui sera cité demain par les IA, et de qui en sera absent.
Pour une PME, le calcul est inversé
Un grand média protège un catalogue payant et négocie des licences de plusieurs millions avec les labos d'IA, c'est exactement le sujet des accords de licence entre OpenAI et les éditeurs. Sa logique est défensive : rareté contre rémunération.
Pour une PME, le calcul est l'inverse. Votre contenu n'est pas un trésor à verrouiller, c'est votre canal d'acquisition. Bloquer les robots IA, que ce soit via robots.txt, llms.txt ou un pare-feu, revient le plus souvent à vous rendre invisible là où vos prospects posent désormais leurs questions. Et bloquer n'est même pas aussi simple qu'il y paraît : la frontière entre ce que llms.txt contrôle réellement et ce que Google en fait reste floue, et les robots IA dépassent désormais les humains en volume de trafic.
Vous ne savez pas si les IA citent ou ignorent votre site ?
Cicéro réalise un diagnostic GEO gratuit : ce que ChatGPT, Perplexity ou Google AI disent de vous, et comment y apparaître.
Entraînement ≠ citation : la distinction qui change tout
La confusion la plus coûteuse consiste à mélanger deux choses très différentes :
- Les données d'entraînement (Common Crawl, GPTBot, ClaudeBot…) servent à construire la connaissance générale d'un modèle, une fois, à un instant T. Elles influencent ce que l'IA « sait » de votre marque, sans lien cliquable.
- La citation en temps réel (retrieval) intervient quand l'IA va chercher des pages au moment de répondre, et affiche un lien vers la source. C'est elle qui décide si vous êtes cité et cliqué aujourd'hui.
Bloquer la collecte d'entraînement n'empêche pas la citation en temps réel, et inversement. Les deux se pilotent séparément, robot par robot, usage par usage.
Ce qu'il faut faire maintenant
- Auditez qui accède à votre contenu. Listez les robots autorisés et bloqués dans votre robots.txt (CCBot, GPTBot, ClaudeBot, Google-Extended, PerplexityBot…). Beaucoup de sites bloquent par défaut sans le savoir.
- Décidez en connaissance de cause. Protéger un contenu premium payant ? Le blocage se défend. Vendre un service à des PME ou des particuliers ? La visibilité prime presque toujours.
- Optimisez pour la citation, pas seulement pour l'aspiration. Réponses directes, données chiffrées, structure claire, balisage schema.org : c'est ce qui fait qu'une IA vous cite dans ses réponses (GEO) au lieu de juste vous lire.
- Mesurez votre présence IA. Les nouveaux rapports IA de la Search Console permettent enfin de suivre vos impressions dans les fonctionnalités génératives de Google.
Notre analyse
Cette bataille est légitime pour des médias dont le métier est le contenu payant. Mais elle envoie un mauvais signal si une PME en conclut qu'il faut « se barricader » contre l'IA. Dans un web où une part croissante du contenu est déjà produite par des machines, le risque n'est pas d'être copié : c'est d'être absent. La bonne posture n'est pas de bloquer aveuglément, ni de tout laisser ouvert : c'est de choisir, page par page, et de construire un contenu assez singulier pour être cité plutôt que dilué.
Ce que cet article ne couvre pas
Ce n'est pas un avis juridique : le débat opt-out contre permission-first dépend du droit applicable et reste, à ce stade, une mise en demeure non tranchée par un tribunal. Nous n'entrons pas non plus dans la configuration technique détaillée du robots.txt ou du llms.txt selon votre CMS : elle varie trop d'une stack à l'autre. Et la situation peut évoluer vite : Common Crawl comme les labos d'IA peuvent annoncer un accord ou ouvrir une procédure à tout moment.
Questions fréquentes
Qu'est-ce que Common Crawl ?
Bloquer Common Crawl protège-t-il vraiment mon contenu des IA ?
Une PME a-t-elle intérêt à bloquer les robots IA ?
Quelle différence entre données d'entraînement et citation en temps réel ?
Sources
- → Digital Content Next (Jason Kint) : billet officiel annonçant la mise en demeure (4 juin 2026)
- → Search Engine Land : « Publishers push Common Crawl to stop collecting content for AI training » (10 juin 2026)
- → Press Gazette : détail de la lettre et réponse de Rich Skrenta (Common Crawl)
Spécialiste du growth et de la stratégie de contenu SEO & GEO, j'ai lancé Cicéro pour aider les entreprises à capter une visibilité organique durable, sur Google comme dans les réponses des IA. Chaque contenu qu'on produit est pensé pour convertir, pas juste pour exister.
LinkedIn